Microsoft Word Document1 1 BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG BÁO CÁO BÀI TẬP LỚN MÔN QUẢN LÝ MẠNG VIẾN THÔNG HÀ NỘI 4/12/2021 2 Họ Và tên Trần Mạnh Quang Mã SV B18DC[.]
Giới thiệu
Tầm quan trọng của dữ liệu lớn không chỉ nằm ở khối lượng mà chúng ta sở hữu, mà còn ở cách chúng ta khai thác và áp dụng chúng Việc phân tích dữ liệu lớn giúp tìm ra giải pháp cho các vấn đề như giảm chi phí, tiết kiệm thời gian, phát triển sản phẩm mới và tối ưu hóa dịch vụ, cũng như đưa ra quyết định thông minh Khi việc phân tích được thực hiện hiệu quả, chúng ta có thể xác định nguyên nhân gốc rễ của thất bại, thiết kế các chương trình khuyến mãi phù hợp với thói quen khách hàng, đánh giá rủi ro và phát hiện hành vi gian lận trước khi chúng gây ảnh hưởng.
Big data thu thập thông tin quy mô lớn từ các website, cho phép doanh nghiệp sử dụng công cụ phân tích dữ liệu để nghiên cứu thị trường Điều này giúp họ phát triển các chiến lược cải thiện chất lượng sản phẩm và dịch vụ hiện tại, cũng như hiểu rõ hơn về hành vi khách hàng nhằm ra mắt các sản phẩm mới hiệu quả.
Big data có khả năng hỗ trợ các cơ quan Chính phủ trong việc dự đoán tỷ lệ thất nghiệp và xu hướng nghề nghiệp tương lai, từ đó giúp họ tập trung đầu tư vào các lĩnh vực tiềm năng, cắt giảm chi phí và thúc đẩy tăng trưởng kinh tế Hơn nữa, công nghệ này còn có thể được sử dụng để xây dựng các phương án phòng ngừa hiệu quả trước những dịch bệnh có thể xảy ra.
Khái quát hệ thống Big Data lưu trữ , xử lý ,phân tích Bigdata
Hình 1 : Sơ đồ tổng quát của một chu trình xử lý dữ liệu
Trong quá trình vận hành, dữ liệu được tạo ra từ hệ thống lưu trữ, bao gồm cơ sở dữ liệu, hệ thống vận hành, các ứng dụng, dịch vụ web và các tệp tin như Word, Excel.
Những dữ liệu này cần phải có một hệ thống thu tập dữ liệu như hệ thống Crawl data từ các nguồn khác nhau
Dữ liệu được thu thập từ nhiều nguồn khác nhau, bao gồm XML, tệp CSV, phương tiện truyền thông xã hội và hình ảnh, có thể được phân loại thành dữ liệu có cấu trúc và không có cấu trúc.
Là hệ thống bao gồm : Sắp xếp dữ liệu và xử lý dữ liệu
Sau khi thu thập dữ liệu, bước tiếp theo là phân loại và lọc thông tin Quá trình này giúp sắp xếp dữ liệu theo thứ tự có ý nghĩa, đồng thời chỉ giữ lại những thông tin cần thiết, từ đó tạo điều kiện thuận lợi cho việc hình dung và phân tích dữ liệu.
Quá trình xử lý dữ liệu bao gồm xác minh, chuyển đổi, tổ chức, tích hợp và trích xuất thông tin để tạo ra đầu ra hữu ích cho các ứng dụng tiếp theo.
2.3 Hệ thống lưu trữ dữ liệu lớn Big data ( Data lake , Data werehouse)
Dữ liệu hiện nay cần được lưu trữ dưới dạng vật lý như giấy tờ hoặc sổ ghi chép, nhưng với sự phát triển của khai thác dữ liệu và dữ liệu lớn, việc thu thập dữ liệu trở nên phong phú cả về dạng có cấu trúc lẫn không có cấu trúc Để phục vụ cho việc phân tích và trình bày có ý nghĩa, dữ liệu sẽ được lưu trữ dưới dạng kỹ thuật số, đáp ứng các yêu cầu ứng dụng hiện tại.
Dữ liệu Big Data có dung lượng khổng lồ, khiến các hệ thống lưu trữ thông thường không đủ khả năng để lưu trữ và xử lý Do đó, cần thiết phải có các giải pháp lưu trữ và phân tích khác như Data Lake và Data Warehouse Kiến trúc của những hệ thống này thường sử dụng công nghệ Hadoop.
Apache Hadoop là một framework mã nguồn mở, cho phép quản lý và lưu trữ tệp dữ liệu lớn thông qua ứng dụng phân tán Nó sử dụng mô hình MapReduce để xử lý Big Data hiệu quả.
MapReduce là nền tảng do Google phát triển để quản lý khối lượng dữ liệu lớn Nhiệm vụ chính của MapReduce là phân tách dữ liệu thành các phần nhỏ theo tiêu chuẩn nhất định, từ đó sắp xếp và trích xuất các tệp dữ liệu con phù hợp với yêu cầu của người dùng Đây cũng chính là nguyên lý hoạt động của thanh tìm kiếm Google mà chúng ta sử dụng hàng ngày.
Hadoop là một công cụ mạnh mẽ giúp phân tán dữ liệu, với MapReduce là nền tảng lý tưởng để xử lý thông tin lớn Nhờ vào MapReduce, Hadoop cho phép người dùng tổng hợp và xử lý khối lượng dữ liệu lớn một cách nhanh chóng và hiệu quả.
Phân tích dữ liệu là quá trình hệ thống hóa và đánh giá thông tin bằng cách sử dụng lập luận và logic để làm rõ các thành phần của dữ liệu, từ đó đưa ra kết quả hoặc quyết định chính xác.
2.5 Trình bày dữ liệu và kết luận
Khi hoàn tất quá trình phân tích, kết quả có thể được trình bày dưới nhiều hình thức khác nhau, bao gồm biểu đồ, tệp văn bản, tệp Excel và đồ thị.
Phần mềm đơn lẻ hoặc kết hợp có thể được sử dụng để lưu trữ, sắp xếp, lọc và xử lý dữ liệu theo yêu cầu cụ thể Việc này có thể thực hiện thông qua các phần mềm chuyên dụng, dựa trên các hoạt động đã được xác định trước nhằm đáp ứng nhu cầu ứng dụng.
Demo hệ thống thu thập dữ liệu
Thu thập dữ liệu từ mạng xã hội facebook:
Bước 1: Import các thư viện , môi trường
Bước 2: Đăng nhập facebook tự động bằng cockie
Bước 3: Tìm các group liên quan đến các từ khoá mình cần tìm như là “Săn sale”
Bước 4: Lấy URL GROUP để join vào và bắt đầu thư thập dữ liệu
Bước 5: Join vào các Group
Bước 6:Check đã Join vào các group chưa
Bước 7: Chuyển đổi từ facebook mbasic sang www
Bước 8: Lấy các URL các bài post trong group
Bước 9 :Trích xuất dữ liệu
Tương tự như với Linkedin và Twitter
Code trên Git Hub https://github.com/TranManhQuang99/craw_data_python.git
4 Hệ thống xử lý dữ liệu
ETL : Dùng phần mềm Pentaho
5 Hệ thống lưu trữ dữ liệu Big data
Hệ thống lưu trữ : Mongo DB
Lư trữ dữ liệu : No SQL
Dữ liệu sau khi thu thập sẽ được lưu trữ trong MongoDB, một hệ thống quản lý cơ sở dữ liệu phân tán chuyên dụng cho Big Data.
Hệ thống phân tích dữ liệu bằng AI và Machine Learning (ML) đóng vai trò quan trọng trong việc tạo ra mô hình chấm điểm tín dụng, giúp các tổ chức tài chính và ngân hàng giảm tỷ lệ nợ xấu Mô hình này cho phép phân loại khách hàng khi vay tín dụng, đánh giá khả năng trả nợ của họ và đưa ra quyết định cho vay tiền một cách chính xác hơn.
Sử dụng hệ thống AI,ML để dữ đoán những điều này
Sử dung Sklearn để áp dụng LogisticRegression
Import các thư viện vào
Các biến để tranning Model ML
Dự đán điểm của các hồ sơ mới
Kết quả chấm điểm tín dụng cho thấy bạn đạt 477 điểm, một mức điểm khá thấp Điều này có thể dẫn đến khả năng nợ xấu khi vay tín dụng, do đó quyết định không cho vay là hợp lý.
Xem code trên Git Hub : https://github.com/TranManhQuang99/AI-ML-ph-n-t-ch-i-m-t-n-d-ng.git
Giải tích các thuật ngữ viết tắt
6.2 Dữ liệu phục vụ phân tích cho team Maketing
Dữ liệu hiển thị lên web phục vụ cho team Maketing
Link Web show dữ liệu http://103.226.248.168:8000/
6.3 Dữ liệu phân theo dõi biểu đồ Covid 19
7 Kết luận Ứng dụng của BigData trong các ngành công nghiệp
Phát triển phần mềm sản phẩm
Các công ty như Netflix và Procter & Gamble tận dụng dữ liệu lớn để dự đoán nhu cầu khách hàng Họ phát triển các mô hình dự đoán cho sản phẩm và dịch vụ mới bằng cách phân tích các thuộc tính chính của sản phẩm trong quá khứ và hiện tại, đồng thời mô hình hóa mối quan hệ giữa các thuộc tính này với thành công thương mại Thêm vào đó, P&G còn sử dụng dữ liệu từ các nhóm tập trung, mạng xã hội, thị trường thử nghiệm và triển khai cửa hàng sớm để lên kế hoạch, sản xuất và ra mắt sản phẩm mới.
Demo hệ thống phân tích dữ liệu bằng AI,ML hệ thống phân tích báo cáo
Để giảm tỷ lệ nợ xấu trong vay tín dụng, các tổ chức tài chính và ngân hàng cần áp dụng mô hình chấm điểm tín dụng Mô hình này giúp phân loại khách hàng theo khả năng trả nợ, từ đó đưa ra quyết định hợp lý về việc cho vay tiền hay không.
Sử dụng hệ thống AI,ML để dữ đoán những điều này
Sử dung Sklearn để áp dụng LogisticRegression
Import các thư viện vào
Các biến để tranning Model ML
Dự đán điểm của các hồ sơ mới
Kết quả chấm điểm tín dụng của bạn là 477 điểm, cho thấy mức điểm này khá thấp và có nguy cơ nợ xấu khi vay tín dụng Do đó, quyết định không cho vay được đưa ra.
Xem code trên Git Hub : https://github.com/TranManhQuang99/AI-ML-ph-n-t-ch-i-m-t-n-d-ng.git
Giải tích các thuật ngữ viết tắt
6.2 Dữ liệu phục vụ phân tích cho team Maketing
Dữ liệu hiển thị lên web phục vụ cho team Maketing
Link Web show dữ liệu http://103.226.248.168:8000/
6.3 Dữ liệu phân theo dõi biểu đồ Covid 19