Microsoft Word Document1 1 BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG BÁO CÁO BÀI TẬP LỚN MÔN QUẢN LÝ MẠNG VIẾN THÔNG HÀ NỘI 4/12/2021 2 Họ Và tên Trần Mạnh Quang Mã SV B18DC[.]
BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG BÁO CÁO BÀI TẬP LỚN MƠN: QUẢN LÝ MẠNG VIẾN THÔNG HÀ NỘI 4/12/2021 Họ Và tên : Trần Mạnh Quang Mã SV : B18DCVT334 ĐỀ TÀI: Demo hệ thống phân tích xử lý Big data Nội dung : Giới thiệu………………………………………………………………….…3 Khái quát hệ thống Big Data lưu trữ , xử lý ,phân tích Bigdata…………… Demo hệ thống thu thập liệu…………………………………………… Demo hệ thống xử lý liệu………………………………………….……13 Demo hệ thống lưu trữ liệu Big Data……………………………………14 Demo hệ thống phân tích liệu AI,ML hệ thống phân tích báo cáo 16 Kết luận………………………………………………………………… 30 Giới thiệu Tầm quan trọng liệu lớn không nằm lượng liệu mà có, nằm việc làm với liệu Ta sử dụng nguồn liệu lớn phân tích để tìm câu trả lời cho câu hỏi: giảm chi phí, giảm thời gian, phát triển sản phẩm dịch vụ tối ưu, định thông minh Khi việc phân tích nguồn liệu lớn hỗ trợ tối đa ta hồn thành tốt số tác vụ như: xác định nguyên nhân gốc rễ thất bại, tạo chương trình khuyến mại hợp lí dựa thói quen khách hàng cơng việc kinh doanh, tính tốn rủi ro gặp phải, phát hành vi gian lận trước có ảnh hưởng đến Big data thu thập thông tin quy mô lớn từ website, doanh nghiệp dùng cơng cụ phân tích liệu để phục vụ cho cơng việc phân tích thị trường giúp đưa chiến lược nâng cao chất lượng sản phẩm, dịch vụ hay tìm hiểu hành vi khách hàng đề mắt sản phẩm Các tổ chức, doanh nghiệp tận dụng Big data để xây dựng nội dung trang web thu hút người truy cập hơn, có nhìn toàn cảnh sâu sắc hành vi mua hàng Dữ liệu nhiều phân tích xác Các doanh nghiệp nên cung cấp nội dung nhiều kênh xã hội để thu thập liệu từ nhiều nguồn Xa chút Big data giúp quan Chính phủ dự đoán tỉ lệ thất nghiệp, xu hướng nghề nghiệp tương lai để tập trung đầu tư cho hạng mục đó, cắt giảm chi phí, kích thích tăng trưởng kinh tế, chí phương án phịng ngừa trước dịch bệnh 2.Khái quát hệ thống Hình : Sơ đồ tổng quát chu trình xử lý liệu 2.1 Datasources Trong trình vận hành liệu sinh từ hệ thống lưu trữ Databases, hệ thống vận hành , applications , Web Services hay hệ thông files word , excel … Những liệu cần phải có hệ thống thu tập liệu hệ thống Crawl data từ nguồn khác Như thảo luận nguồn thu thập liệu, liệu liên quan mặt logic thu thập từ nguồn khác nhau, định dạng khác nhau, loại khác từ XML, tệp CSV, phương tiện truyền thơng xã hội, hình ảnh liệu có cấu trúc khơng có cấu trúc,… 2.2 Data loaders Là hệ thống bao gồm : Sắp xếp liệu xử lý liệu 2.2.1 Sắp xếp liệu Sau bước thu thập liệu , bước phân loại lọc Việc phân loại lọc yêu cầu để xếp liệu theo số thứ tự có ý nghĩa lọc thông tin u cầu giúp dễ dàng hình dung phân tích 2.2.2 Xử lý liệu Một loạt trình xử lý sử dụng liên tục xử lý thực để xác minh, chuyển đổi, tổ chức, tích hợp trích xuất liệu dạng đầu hữu ích để sử dụng xa 2.3 Hệ thống lưu trữ liệu lớn Big data ( Data lake , Data werehouse) Dữ liệu thu thập cần lưu trữ dạng vật lý giấy tờ, sổ ghi chép, tất hình thức vật lý khác Hiện khai thác liệu liệu lớn, việc thu thập liệu lớn kể dạng có cấu trúc hay khơng có cấu trúc Dữ liệu lưu trữ dạng kỹ thuật số để thực phân tích trình bày có ý nghĩa theo yêu cầu ứng dụng Dữ liệu Big data có dung lượng lớn nên hệ thống lưu trữ liệu thông thường lưu trữ xử lý nên cần hệ thống lưu trữ phân tích khác Data Lake Data Werehouse Kiến trúc hệ thống thường dùng Hadoop Hadoop dạng framework, cụ thể Apache Apache Hadoop mã nguồn mở cho phép sử dụng distributed processing (ứng dụng phân tán) để quản lý lưu trữ tệp liệu lớn Hadoop áp dụng mơ hình MapReduce hoạt động xử lý Big Data Vậy MapReduce gì? MapReduce vốn tảng Google tạo để quản lý liệu họ Nhiệm vụ MapReduce tiếp nhận khối lượng liệu lớn Sau tiến hành tách liệu thành phần nhỏ theo tiêu chuẩn Từ xếp, trích xuất tệp liệu phù hợp với yêu cầu người dùng Đây cách mà tìm kiếm Google hoạt động sử dụng ngày Cịn thân Hadoop dạng cơng cụ mẫu giúp phân tán liệu theo mơ Cho nên MapReduce sử dụng tảng lý tưởng Hadoop Về bản, Hadoop giúp người dùng tổng hợp xử lý lượng thông tin lớn thời gian ngắn MapReduce 2.4 Phân tích liệu Phân tích liệu trình áp dụng đánh giá liệu cách có hệ thống cách sử dụng lập luận phân tích logic để minh họa thành phần liệu cung cấp để có kết định đưa 2.5 Trình bày liệu kết luận Khi đến kết phân tích, biểu diễn thành dạng khác biểu đồ, tệp văn bản, tệp excel, đồ thị,… Phần mềm đơn lẻ kết hợp phần mềm sử dụng để thực lưu trữ, xếp, lọc xử lý liệu tùy theo yêu cầu khả thi Nó thực phần mềm cụ thể theo tập hợp hoạt động xác định trước theo yêu cầu ứng dụng Demo hệ thống thu thập liệu Datasources Thu thập liệu từ mạng xã hội facebook: Công cụ : Python Môi trường : Pycharm Bước 1: Import thư viện , môi trường Bước 2: Đăng nhập facebook tự động cockie Bước 3: Tìm group liên quan đến từ khố cần tìm “Săn sale” Bước 4: Lấy URL GROUP để join vào bắt đầu thư thập liệu Bước 5: Join vào Group Bước 6:Check Join vào group chưa Bước 7: Chuyển đổi từ facebook mbasic sang www 10 Demo hệ thống phân tích liệu AI,ML hệ thống phân tích báo cáo 6.1 Model chấm điểm tín dụng Để giảm tỉ lệ nợ xấu vay tín dụng , tổ chức tài hay ngân hàng cần có mơ hình chấm điểm tín dụng để phân loại khách hàng vay tín dụng xem người có khả nợ xấu hay khơng định có nên cho vay tiền hay khơng Sử dụng hệ thống AI,ML để đốn điều Cơng thức tính tốn : 17 18 19 20 21 22 Code Model AI,ML Sử dung Sklearn để áp dụng LogisticRegression Import thư viện vào 23 Các biến để tranning Model ML Dự đán điểm hồ sơ 24 Kết đầu 25