Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)
Trang 1bộ công nghệ vào phục vụ cho sản xuất kinh doanh của cơ quan là Viễn Thông Hà Nội, tôi xin chọn đề tài nghiên cứu: “Xây dựng kho dữ liệu BIG DATA cho VNPT HÀ NỘI”
2 Mục tiêu của luận văn
Tìm hiểu BIG DATA và xây dựng ứng dụng vào thực tiễn phục vụ công việc
3 Các đóng góp của luận văn
- Hiều các khái niệm cơ bản về BIG DATA
Trang 2- Tìm hiểu một giải pháp triển khai Big Data là Microsoft
A Microsoft Azure HDInsight
- Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội
4 Bố cục của luận văn
Bố cục luận văn gồm 3 phần:
Chương 1 TỔNG QUAN VỀ BIG DATA
Chương 2 THIẾT KẾ KHO DỮ LIỆU BIG DATA CHO VNPT HÀ NỘI
Chương 3 CÀI ĐẶT VÀ THỰC NGHIỆM
Trang 3CHƯƠNG 1: TỔNG QUAN VỀ BIG DATA
1.1 Định nghĩa, lịch sử hình thành và các đặc trưng
1.1.1 Định nghĩa Big Data
Giới thiệu các khái niệm, định nghĩa về Big Data
- Theo wikipedia: Big data là một thuật ngữ chỉ tập hợp
dữ liệu lớn hoặc phức tạp mà các phương pháp truyền thống không đủ các ứng dụng để xử lý dữ liệu này
- Theo Garnier: Dữ liệu lớn là những nguồn thông tin có đặc điếm chung khối lượng lớn, tốc dộ nhanh và dữ liệu định dạng dưới nhiều hình thức khác nhau, do đó muốn khai thác được đòi hỏi phải có hình thức xử lý mới để đưa ra quyết định
Lịch sử hình thành: Big data chủ yếu hình thành từ 6 nguồn: (1) Dữ liệu hành chính: sinh ra từ dữ liệu của các tổ chức, có thể là chính phủ hoặc phi chính phủ VD: hồ sơ
y tế điện tử ở bệnh viện, hồ sơ bảo hiểm, ngân hàng … (2) Dữ liệu từ hoạt động thương mại (phát sinh từ hoạt động giao dịch giữa hai thực thể) VD: giao dịch giữa các thẻ tín dụng, giao dịch trên mạng, bao gồm cả từ các thiết bị di động;
Trang 4(3) Dữ liệu từ các thiết bị cảm biến như thiết bị chụp hình ảnh, vệ tinh, cảm biến đường, cảm biến khí hậu … (4) Dữ liệu từ các thiết bị theo dõi, vd: dữ liệu từ điện thoại di động, GPS …
(5) Dữ liệu về các hành vi, ví dụ: tìm kiếm trực tuyến (về một sản phẩm, dịch vụ hay thông tin khác) hay đọc các trang mạng trực tuyến,
(6) Dữ liệu từ các thông tin về ý kiến, quan điểm của các
cá nhân, tổ chức trên các phương tiện thông tin xã hội 1.1.2 Đặc trưng cơ bản của Big Data
Giới thiệu mô hình 3V để định nghĩa Big Data là là khối lượng (volume), tốc độ (velocity) và đa dạng (variety)
Hình 1.1.2: Mô hình 3V [5]
Trang 51.2 Cơ bản về kiến trúc Big Data
1.2.1 Các thành phần của kiến trúc Big Data
- Các đặc trưng của dữ liệu lớn
(1) Khối lượng dữ liệu – Volume: đây là đặc điểm tiêu biểu nhất của dữ liệu lớn Kích cỡ của Big Data đang tăng lên từng ngày và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu Dữ liệu truyền thống có thể lưu trên các đĩa mềm, đĩa cứng, nhưng với Big Data chúng ta sẽ sử dụng công nghệ “đám mây” mới đáp ứng được khả năng lưu trữ được dữ liệu lớn
(2) Tốc độ (Velocity): Tốc độ có thể hiểu theo 2 khía cạnh : a) Khối lượng dữ liệu gia tăng rất nhanh (vd: mỗi giây có tới 72,9 triệu các yêu cầu truy cập tìm kiếm trên trang web bán hàng của Amazon ) b) Xử lý dữ liệu ở mức thời gian thực (Real time), tức dữ liệu được xử lý ngay tức thời sau khi phát sinh (tính bằng mili giây) Các ứng dụng phổ biến trên internet, tài chính, ngân hàng, hàng không, y tế, quân
sự như hiện nay phần lớn được xử lý realtime Công nghệ
Trang 6xử lý dữ liệu lớn ngày nay đã cho phép chúng ta xử lý tức thì trước khi chúng được lưu vào cơ sở dữ liệu
(3)Đa dạng (Variety): Đối với dữ liệu truyền thống chúng
ta hay nói đến dữ liệu có cấu trúc, thì ngày nay hơn 80%
dữ liệu sinh ra là phi cấu trúc ( Tài liệu, hình ảnh, blog, video, bài hát, dữ liệu từ các thiết bị cảm biến vật lý, thiết
bị chăm sóc sức khỏe …) Big data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau VD: với bình luận của một nhóm người dùng trên facebook với thông tin video được chia sẻ từ Youtube và Twitter
1.2.2 Kiến trúc của Big Data
Các khối xây dựng cơ bản trong kiến trúc big data
Trang 7Kiến trúc Big Data
1.2.3 NoSQL trong quản lý dữ liệu
NoSQL là 1 thuật ngữ rất nổi tiếng và nó thật sự có ý nghĩa là Not Relational SQL hay Not Only SQL Điều này
là do trong kiến trúc big data, dữ liệu ở định dạng bất kỳ
Để mang tất cả dữ liệu cùng nhau thì công nghệ mối quan
hệ là không đủ, do các công cụ mới, kiến trúc và các thuật toán khác được phát minh sẽ nhận tất cả các loại dữ liệu Những điều này được gọi chung là NoSQL
Trang 81.3 Tình hình nghiên cứu Big Data ở thế giới và trong nước
Giới thiệu các thành quả nghiên cứu Big Data trong và ngoài nước
1.4 Kết chương 1
Nội dung chương này trình bày những kiến thức cơ bản về BIG DATA bao gồm giới thiệu về lịch sử hình thành, phát triển, các tính chất, đặc trưng ứng dụng của Big Data và nêu tổng quan về tình hình nghiên cứu Big Data ở thế giới
và trong nước, các lợi ích khi triển khai sử dụng Big Data
Trang 9CHƯƠNG 2: THIẾT KẾ KHO DỮ LIỆU BIG DATA
CHO VNPT HÀ NỘI 2.1 Các mô hình dữ liệu lớn
(3) Hadoop cung cấp một phương tiện lưu trữ dữ liệu phân tán trên nhiều node, hỗ trợ tối ưu hoá lưu lượng mạng, đó
là HDFS HDSF che giấu tất cả các thành phần phân tán, các nhà phát triển ứng dụng phân tán sẽ chỉ nhìn thấy HDFS như một hệ thống file cục bộ bình thường
(4) Hadoop giúp các nhà phát triển ứng dụng phân tán tập trung tối đa vào phần logic của ứng dụng, bỏ qua được một số phần chi tiết kỹ thuật phân tán bên dưới (phần này
do Hadoop tự động quản lý)
(5) Hadoop là Linux-based Tức Hadoop chỉ chạy trên môi trường Linux
Trang 102.1.2 Hadoop Distributed File System (HDFS)
Kiến trúc của HDFS được thể hiện qua sơ đồ dưới đây:
mô hình MapReduce là như thế nào.[21]
Trang 11Mô hình MapReduce của Oracle
Trang 12Cơ chế hoạt động của Hadoop MapReduce
2.2 Xây dựng mô hình dữ liệu lớn cho VNPT Hà Nội
VNPT Hà Nội là doanh nghiệp kinh doanh trong lĩnh vực viễn thông tại địa bàn Hà Nội VNPT Hà Nội cần giải pháp Big Data đặt mục tiêu phân tích dữ liệu nhằm phục vụ nhu cầu sản xuất kinh doanh: Dự đoán nhu cầu tăng trưởng thuê bao, Phân tích ra quyết định chiến lược bán hàng, Phân tích dữ liệu cước… Nguồn dữ liệu: Dữ liệu thuê bao (các dịch vụ của
Trang 13VNPT: PSTN, Internet….), dữ liệu cước, dữ liệu kinh doanh,
dữ liệu lấy từ fanpage của doanh nghiệp trên các mạng xã hội
Các hệ thống thông tin của VNPT Hà Nội
2.2.1 Xác định BigData là giải pháp phù hợp cho doanh nghiệp
Cần trả lời các câu hỏi:
Dữ liệu nguồn đến từ đâu?
Trang 14hồ sơ lịch sử bán hàng từ các hệ thống nghiệp vụ của
VNPTHN như phát triển thuê bao, quản lý thanh toán, tính
cước
- Log nhật ký đăng nhập
- Dữ liệu từ phương tiện truyền thông xã hội
- Nguồn dữ liệu khác: các trang web và dịch vụ cung cấp
dữ liệu được khách hàng sử dụng phổ biến bao gồm RSS,
ATOM, và các định dạng XML như blog, dịch vụ tin tức,
dự báo thời tiết, và dữ liệu thị trường tài chính
- Chính sách chính phủ và các nhóm lợi ích đặc biệt: Ví
dụ: số liệu về dân số, chi tiêu, sức khoẻ và nhiều thứ khác
theo nhiều định dạng khác nhau
2.2.4 Chỉ định cơ sở hạ tầng
Các lựa chọn chính cho các giải pháp dữ liệu lớn dựa trên nền
tảng Hadoop trên nền Microsoft
Trang 152.3 Kết chương 2
Chương này đã trình bày về các mô hình dữ liệu Big Data, các
mô hình Hadoop, HDFS, Map Reduce và đề xuất mô hình xây dựng kho dữ liệu Big Data cho VNPT Hà Nội
Trang 16CHƯƠNG 3 CÀI ĐẶT VÀ THỰC NGHIỆM 3.1 Tổng quan về Microsoft Azure HDInsight
3.1.1 Giới thiệu Microsoft Azure
Nền tảng tổng quát của Microsoft Azure
3.1.2 Giới thiệu HDInsight service
Hadoop trên HDInsight là một dịch vụ cung cấp sản phẩm Apache Hadoop trên mô hình SaaS -mô hình phần mềm như là dịch vụ Nó bao gồm tất cả các thành phần quan trọng của ngăn xếp công nghệ Apache Hadoop như Apache Spark, HBase, Kafka, Storm, Pig, Hive và Interactive Hive
Trang 173.2 Thiết kế big data bằng HDInsight
3.2.1 Kịch bản 1: Iterative exploration (thăm dò lặp)
Hình 3.2.1: Iterative exploration (thăm dò lặp)[8]
* Khi nào sử dụng mô hình này:
- Dữ liệu không thể xử lý bằng cách sử dụng các hệ thống hiện có, có lẽ bằng cách thực hiện các phép tính và biến đổi phức tạp vượt quá khả năng của các hệ thống hiện tại
để hoàn thành trong một thời gian hợp lý
- Thu thập phản hồi từ khách hàng thông qua email, các trang web, hoặc các nguồn bên ngoài như các trang truyền thông xã hội, sau đó phân tích nó để có được một hình ảnh
về tình cảm của khách hàng đối với sản phẩm của bạn
Trang 18- Kết hợp thông tin với các dữ liệu khác, như dữ liệu nhân khẩu học cho biết mật độ và đặc điểm dân số ở mỗi thành phố nơi bán sản phẩm của doanh nghiệp
- Việc chuyển đổi dữ liệu từ hệ thống thông tin hiện tại vào HDInsight để có thể xử lý mà không làm gián đoạn các quy trình kinh doanh khác hoặc tránh nguy cơ ảnh hưởng đến dữ liệu ban đầu
- Thử nghiệm các ý tưởng mới và xác nhận quá trình trước khi triển khai trong hệ thống trực tiếp
3.2.2 Kịch bản 2: Kho dữ liệu theo yêu cầu (Data warehouse on demand)
Hình 3.2.2: Kho dữ liệu theo mô hình nhu cầu (Data warehouse on demand)
Trang 193.2.3 Kịch bản 3: Tự động hóa ETL (ETL automation)
Hình 3.2.3: Tự động hóa ETL 3.2.4 Kịch bản 4: Tích hợp BI (BI integration )
Hình 3.2.4_1: Tổng quan về kho dữ liệu doanh nghiệp điển hình và triển khai BI
Trang 21DANH MỤC CÁC TÀI LIỆU THAM KHẢO
[1] Bài giảng môn học Các hệ thống phân tán, PGS.TS Hà Hải Nam – Học Viện Bưu Chính Viễn Thông năm
[4] Bài giảng môn học Điện toán đám mấy, PGS.TS Hoàng Đăng Hải – Học Viện Bưu Chính Viễn Thông năm 2016
[5] Bài viết học thuật
Big Data–What is Big Data–3 Vs of Big Data–Volume,
https://blog.sqlauthority.com
[6] Tài liệu mô tả các hệ thống nghiệp vụ của VNPT Hà Nội năm 2015
Trang 22[7] 20533C- Implementing Microsoft Infrastructure Solutions – Microsoft Leaning: 2017
[9] Bài viết học thuật Planning a big data solution
Microsoft - Năm 2017
[10 ] Khoa Học Khám Phá - Dữ Liệu Lớn, Tác giả: Viktor Mayer - SchÖnberger & Kenneth Cukier, Nhà Xuất bản Trẻ dịch và xuất bản 03/2014
[11] Hadoop World 2011: Big Data Analytics – Data Professionals: The New Enterprise Rock Stars - Martin Hall, Karmasphere
[12] Các bài viết trên trang http://hadoop.apache.org/
[13] https://vi.wikipedia.org/wiki/Apache_Hadoop
Trang 23KẾT LUẬN
1 Những đóng góp của luận văn
Với mục tiêu XÂY DỰNG KHO DỮ LIỆU BIG DATA CHO VNPT HÀ NỘI Luận văn đã đi sâu nghiên cứu tổng quan về Big Data, các định nghĩa, đặc trưng và kiến trúc của BigData, nghiên cứu mô hình dữ liệu lớn và thiết kế kho dữ liệu Big Data cho VNPT Hà Nội
Những kết quả chính đã đạt được trong luận văn:
- Khái quát được một số vấn đề về kiến trúc BigData, các
mô hình dữ liệu lớn
- Nêu được phương pháp, cách triển khai BigData và xây dựng kịch bản thực nghiệm với dữ liệu của VNPT Hà Nội
2 Hướng phát triển của luận văn
- Hoàn thiện giải pháp và triển khai thực tế kho dữ liệu Big Data cho doanh nghiệp là VNPT Hà Nội
- Xây dựng ứng dụng khai thác kho dữ liệu Big Data cho doanh nghiệp