Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)
1 MỞ ĐẦU Đặt vấn đề Trước đây, biết đến liệu có cấu trúc (structure data), ngày nay, với kết hợp liệu internet, xuất dạng khác liệu Big data (dịch “dữ liệu lớn”) Dữ liệu từ nguồn như: hồ sơ hành chính, giao dịch điện tử, dòng trạng thái (status), chia sẻ hình ảnh, bình luận, nhắn tin chúng ta, nói cách khác chúng liệu sản sinh qua trình chia sẻ thông tin trực tuyến liên tục người sử dụng Với mục đích đưa tiến công nghệ vào phục vụ cho sản xuất kinh doanh quan Viễn Thông Hà Nội, xin chọn đề tài nghiên cứu: “Xây dựng kho liệu BIG DATA cho VNPT HÀ NỘI” Mục tiêu luận văn Tìm hiểu BIG DATA xây dựng ứng dụng vào thực tiễn phục vụ công việc Các đóng góp luận văn - Hiều khái niệm BIG DATA 2 - Tìm hiểu giải pháp triển khai Big Data Microsoft A Microsoft Azure HDInsight - Xây dựng kho liệu Big Data cho VNPT Hà Nội Bố cục luận văn Bố cục luận văn gồm phần: Chương TỔNG QUAN VỀ BIG DATA Chương THIẾT KẾ KHO DỮ LIỆU BIG DATA CHO VNPT HÀ NỘI Chương CÀI ĐẶT VÀ THỰC NGHIỆM CHƯƠNG 1: TỔNG QUAN VỀ BIG DATA 1.1 Định nghĩa, lịch sử hình thành đặc trưng 1.1.1 Định nghĩa Big Data Giới thiệu khái niệm, định nghĩa Big Data - Theo wikipedia: Big data thuật ngữ tập hợp liệu lớn phức tạp mà phương pháp truyền thống không đủ ứng dụng để xử lý liệu - Theo Garnier: Dữ liệu lớn nguồn thông tin có đặc điếm chung khối lượng lớn, tốc dộ nhanh liệu định dạng nhiều hình thức khác nhau, muốn khai thác đòi hỏi phải có hình thức xử lý để đưa định Lịch sử hình thành: Big data chủ yếu hình thành từ nguồn: (1) Dữ liệu hành chính: sinh từ liệu tổ chức, phủ phi phủ VD: hồ sơ y tế điện tử bệnh viện, hồ sơ bảo hiểm, ngân hàng … (2) Dữ liệu từ hoạt động thương mại (phát sinh từ hoạt động giao dịch hai thực thể) VD: giao dịch thẻ tín dụng, giao dịch mạng, bao gồm từ thiết bị di động; (3) Dữ liệu từ thiết bị cảm biến thiết bị chụp hình ảnh, vệ tinh, cảm biến đường, cảm biến khí hậu … (4) Dữ liệu từ thiết bị theo dõi, vd: liệu từ điện thoại di động, GPS … (5) Dữ liệu hành vi, ví dụ: tìm kiếm trực tuyến (về sản phẩm, dịch vụ hay thông tin khác) hay đọc trang mạng trực tuyến, (6) Dữ liệu từ thông tin ý kiến, quan điểm cá nhân, tổ chức phương tiện thông tin xã hội 1.1.2 Đặc trưng Big Data Giới thiệu mô hình 3V để định nghĩa Big Data là khối lượng (volume), tốc độ (velocity) đa dạng (variety) Hình 1.1.2: Mô hình 3V [5] 1.2 Cơ kiến trúc Big Data 1.2.1 Các thành phần kiến trúc Big Data - Các đặc trưng liệu lớn (1) Khối lượng liệu – Volume: đặc điểm tiêu biểu liệu lớn Kích cỡ Big Data tăng lên ngày tính đến năm 2012 nằm khoảng vài chục terabyte đến nhiều petabyte (1 petabyte = 1024 terabyte) cho tập hợp liệu Dữ liệu truyền thống lưu đĩa mềm, đĩa cứng, với Big Data sử dụng công nghệ “đám mây” đáp ứng khả lưu trữ liệu lớn (2) Tốc độ (Velocity): Tốc độ hiểu theo khía cạnh : a) Khối lượng liệu gia tăng nhanh (vd: giây có tới 72,9 triệu yêu cầu truy cập tìm kiếm trang web bán hàng Amazon ) b) Xử lý liệu mức thời gian thực (Real time), tức liệu xử lý tức thời sau phát sinh (tính mili giây) Các ứng dụng phổ biến internet, tài chính, ngân hàng, hàng không, y tế, quân phần lớn xử lý realtime Công nghệ xử lý liệu lớn ngày cho phép xử lý tức trước chúng lưu vào sở liệu (3)Đa dạng (Variety): Đối với liệu truyền thống hay nói đến liệu có cấu trúc, ngày 80% liệu sinh phi cấu trúc ( Tài liệu, hình ảnh, blog, video, hát, liệu từ thiết bị cảm biến vật lý, thiết bị chăm sóc sức khỏe …) Big data cho phép liên kết phân tích nhiều dạng liệu khác VD: với bình luận nhóm người dùng facebook với thông tin video chia sẻ từ Youtube Twitter 1.2.2 Kiến trúc Big Data Các khối xây dựng kiến trúc big data Kiến trúc Big Data 1.2.3 NoSQL quản lý liệu NoSQL thuật ngữ tiếng thật có ý nghĩa Not Relational SQL hay Not Only SQL Điều kiến trúc big data, liệu định dạng Để mang tất liệu công nghệ mối quan hệ không đủ, công cụ mới, kiến trúc thuật toán khác phát minh nhận tất loại liệu Những điều gọi chung NoSQL 8 1.3 Tình hình nghiên cứu Big Data giới nước Giới thiệu thành nghiên cứu Big Data nước 1.4 Kết chương Nội dung chương trình bày kiến thức BIG DATA bao gồm giới thiệu lịch sử hình thành, phát triển, tính chất, đặc trưng ứng dụng Big Data nêu tổng quan tình hình nghiên cứu Big Data giới nước, lợi ích triển khai sử dụng Big Data 9 CHƯƠNG 2: THIẾT KẾ KHO DỮ LIỆU BIG DATA CHO VNPT HÀ NỘI 2.1 Các mô hình liệu lớn 2.1.1 Hadoop Apache (1) Hadoop framework cho phép phát triển ứng dụng phân tán (2) Hadoop viết Java Tuy nhiên, nhờ chế streaming, Hadoop cho phép phát triển ứng dụng phân tán java lẫn số ngôn ngữ lập trình khác C++, Python, Pearl (3) Hadoop cung cấp phương tiện lưu trữ liệu phân tán nhiều node, hỗ trợ tối ưu hoá lưu lượng mạng, HDFS HDSF che giấu tất thành phần phân tán, nhà phát triển ứng dụng phân tán nhìn thấy HDFS hệ thống file cục bình thường (4) Hadoop giúp nhà phát triển ứng dụng phân tán tập trung tối đa vào phần logic ứng dụng, bỏ qua số phần chi tiết kỹ thuật phân tán bên (phần Hadoop tự động quản lý) (5) Hadoop Linux-based Tức Hadoop chạy môi trường Linux 10 2.1.2 Hadoop Distributed File System (HDFS) Kiến trúc HDFS thể qua sơ đồ đây: Kiến trúc HDFS 2.1.3 Map reduce Theo tài liệu “MapReduce: Simplified Data Processing on Large Clusters” Google, Google định nghĩa rằng: “MapReduce mô hình lập trình thực thi song song xử lý phát sinh tập liệu lớn” Tuy nhiên, với định nghĩa vậy, chưa thật hiểu rõ mô hình MapReduce nào.[21] 11 Mô hình MapReduce Oracle 12 Cơ chế hoạt động Hadoop MapReduce 2.2 Xây dựng mô hình liệu lớn cho VNPT Hà Nội VNPT Hà Nội doanh nghiệp kinh doanh lĩnh vực viễn thông địa bàn Hà Nội VNPT Hà Nội cần giải pháp Big Data đặt mục tiêu phân tích liệu nhằm phục vụ nhu cầu sản xuất kinh doanh: Dự đoán nhu cầu tăng trưởng thuê bao, Phân tích định chiến lược bán hàng, Phân tích liệu cước… Nguồn liệu: Dữ liệu thuê bao (các dịch vụ 13 VNPT: PSTN, Internet….), liệu cước, liệu kinh doanh, liệu lấy từ fanpage doanh nghiệp mạng xã hội Các hệ thống thông tin VNPT Hà Nội 2.2.1 Xác định BigData giải pháp phù hợp cho doanh nghiệp Cần trả lời câu hỏi: Dữ liệu nguồn đến từ đâu? Định dạng liệu gì? Đặc điểm phân phối chất lượng liệu gì? Có cần tích hợp với hệ thống BI có không? 2.2.3 Xác định liệu nguồn - Dữ liệu kinh doanh nội từ ứng dụng giải pháp BI: Danh mục khách hàng, thuê bao, địa chỉ, 14 hồ sơ lịch sử bán hàng từ hệ thống nghiệp vụ VNPTHN phát triển thuê bao, quản lý toán, tính cước - Log nhật ký đăng nhập - Dữ liệu từ phương tiện truyền thông xã hội - Nguồn liệu khác: trang web dịch vụ cung cấp liệu khách hàng sử dụng phổ biến bao gồm RSS, ATOM, định dạng XML blog, dịch vụ tin tức, dự báo thời tiết, liệu thị trường tài - Chính sách phủ nhóm lợi ích đặc biệt: Ví dụ: số liệu dân số, chi tiêu, sức khoẻ nhiều thứ khác theo nhiều định dạng khác 2.2.4 Chỉ định sở hạ tầng Các lựa chọn cho giải pháp liệu lớn dựa tảng Hadoop Microsoft 15 2.3 Kết chương Chương trình bày mô hình liệu Big Data, mô hình Hadoop, HDFS, Map Reduce đề xuất mô hình xây dựng kho liệu Big Data cho VNPT Hà Nội 16 CHƯƠNG CÀI ĐẶT VÀ THỰC NGHIỆM 3.1 Tổng quan Microsoft Azure HDInsight 3.1.1 Giới thiệu Microsoft Azure Nền tảng tổng quát Microsoft Azure 3.1.2 Giới thiệu HDInsight service Hadoop HDInsight dịch vụ cung cấp sản phẩm Apache Hadoop mô hình SaaS -mô hình phần mềm dịch vụ Nó bao gồm tất thành phần quan trọng ngăn xếp công nghệ Apache Hadoop Apache Spark, HBase, Kafka, Storm, Pig, Hive Interactive Hive 17 3.2 Thiết kế big data HDInsight 3.2.1 Kịch 1: Iterative exploration (thăm dò lặp) Hình 3.2.1: Iterative exploration (thăm dò lặp)[8] * Khi sử dụng mô hình này: - Dữ liệu xử lý cách sử dụng hệ thống có, có lẽ cách thực phép tính biến đổi phức tạp vượt khả hệ thống để hoàn thành thời gian hợp lý - Thu thập phản hồi từ khách hàng thông qua email, trang web, nguồn bên trang truyền thông xã hội, sau phân tích để có hình ảnh tình cảm khách hàng sản phẩm bạn 18 - Kết hợp thông tin với liệu khác, liệu nhân học cho biết mật độ đặc điểm dân số thành phố nơi bán sản phẩm doanh nghiệp - Việc chuyển đổi liệu từ hệ thống thông tin vào HDInsight để xử lý mà không làm gián đoạn quy trình kinh doanh khác tránh nguy ảnh hưởng đến liệu ban đầu - Thử nghiệm ý tưởng xác nhận trình trước triển khai hệ thống trực tiếp 3.2.2 Kịch 2: Kho liệu theo yêu cầu (Data warehouse on demand) Hình 3.2.2: Kho liệu theo mô hình nhu cầu (Data warehouse on demand) 19 3.2.3 Kịch 3: Tự động hóa ETL (ETL automation) Hình 3.2.3: Tự động hóa ETL 3.2.4 Kịch 4: Tích hợp BI (BI integration ) Hình 3.2.4_1: Tổng quan kho liệu doanh nghiệp điển hình triển khai BI 20 3.3 Thực nghiệm HDInsight 3.3.1 Kịch 1: Thăm dò lặp 3.3.2 Kịch 2: Kho liệu theo yêu cầu 3.3.3 Kịch 3: Tích hợp BI 3.4 Kết chương Chương nêu kiến thức tổng quan Microsoft Azure HDInsight, cách thiết kế big data HDInsight (bao gồm kịch bản), Thực nghiệm HDInsight (qua kịch bản) 21 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] Bài giảng môn học Các hệ thống phân tán, PGS.TS Hà Hải Nam – Học Viện Bưu Chính Viễn Thông năm 2016 [2] Bài giảng môn học Hệ điều hành mạng, TS Hoàng Xuân Dậu – Học Viện Bưu Chính Viễn Thông năm 2016 [3] Bài giảng môn học Phương pháp nghiên cứu khoa học, PGS.TS Bùi Trung Hiếu – Học Viện Bưu Chính Viễn Thông năm 2016 [4] Bài giảng môn học Điện toán đám mấy, PGS.TS Hoàng Đăng Hải – Học Viện Bưu Chính Viễn Thông năm 2016 [5] Bài viết học thuật Big Data–What is Big Data–3 Vs of Big Data–Volume, Velocity and Variety–Day2of21 Xuất bản: 10/2016, https://blog.sqlauthority.com [6] Tài liệu mô tả hệ thống nghiệp vụ VNPT Hà Nội năm 2015 22 [7] 20533C- Implementing Microsoft Infrastructure Solutions – Microsoft Leaning: 2017 [8] Introducing Microsoft Azure HDInsight [9] Bài viết học thuật Planning a big data solution https://msdn.microsoft.com/en-us/library/dn749858.aspx Microsoft - Năm 2017 [10 ] Khoa Học Khám Phá - Dữ Liệu Lớn, Tác giả: Viktor Mayer - SchÖnberger & Kenneth Cukier, Nhà Xuất Trẻ dịch xuất 03/2014 [11] Hadoop World 2011: Big Data Analytics – Data Professionals: The New Enterprise Rock Stars - Martin Hall, Karmasphere [12] Các viết trang http://hadoop.apache.org/ [13] https://vi.wikipedia.org/wiki/Apache_Hadoop 23 KẾT LUẬN Những đóng góp luận văn Với mục tiêu XÂY DỰNG KHO DỮ LIỆU BIG DATA CHO VNPT HÀ NỘI Luận văn sâu nghiên cứu tổng quan Big Data, định nghĩa, đặc trưng kiến trúc BigData, nghiên cứu mô hình liệu lớn thiết kế kho liệu Big Data cho VNPT Hà Nội Những kết đạt luận văn: - Khái quát số vấn đề kiến trúc BigData, mô hình liệu lớn - Nêu phương pháp, cách triển khai BigData xây dựng kịch thực nghiệm với liệu VNPT Hà Nội Hướng phát triển luận văn - Hoàn thiện giải pháp triển khai thực tế kho liệu Big Data cho doanh nghiệp VNPT Hà Nội - Xây dựng ứng dụng khai thác kho liệu Big Data cho doanh nghiệp ... XÂY DỰNG KHO DỮ LIỆU BIG DATA CHO VNPT HÀ NỘI Luận văn sâu nghiên cứu tổng quan Big Data, định nghĩa, đặc trưng kiến trúc BigData, nghiên cứu mô hình liệu lớn thiết kế kho liệu Big Data cho VNPT. .. MapReduce 2.2 Xây dựng mô hình liệu lớn cho VNPT Hà Nội VNPT Hà Nội doanh nghiệp kinh doanh lĩnh vực viễn thông địa bàn Hà Nội VNPT Hà Nội cần giải pháp Big Data đặt mục tiêu phân tích liệu nhằm... khai Big Data Microsoft A Microsoft Azure HDInsight - Xây dựng kho liệu Big Data cho VNPT Hà Nội Bố cục luận văn Bố cục luận văn gồm phần: Chương TỔNG QUAN VỀ BIG DATA Chương THIẾT KẾ KHO DỮ LIỆU