1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn) nghiên cứu ứng dụng công nghệ điện toán đám mây để phân tích dữ liệu lớn trong mạng thông tin di động

124 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 124
Dung lượng 2,98 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN HỒ QUỐC TRUNG lu an n va ie gh tn to p NGHIÊN CỨU ỨNG DỤNG ĐIỆN TOÁN ĐÁM MÂY ĐỂ PHÂN TÍCH d oa nl w DỮ LIỆU LỚN TRONG MẠNG THÔNG TIN DI ĐỘNG ul nf va an lu oi lm LUẬN VĂN THẠC SĨ: KỸ THUẬT VIỄN THÔNG z at nh z m co l gm @ an Lu Bình Định - Năm 2019 n va ac th si BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN HỒ QUỐC TRUNG lu an n va NGHIÊN CỨU ỨNG DỤNG ĐIỆN TOÁN ĐÁM MÂY ĐỂ PHÂN TÍCH p ie gh tn to DỮ LIỆU LỚN TRONG MẠNG THÔNG TIN DI ĐỘNG nl w Mã số: 8520208 d oa Chuyên nghành: Kỹ Thuật Viễn Thông oi lm ul nf va an lu z at nh Người hướng dẫn: TS HUỲNH CÔNG TÚ z m co l gm @ an Lu n va ac th si LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu ứng dụng điện toán đám mây để phân tích Dữ liệu lớn mạng thơng tin di động” tơi tự tìm hiểu nghiên cứu hoàn thành hướng dẫn TS Huỳnh Cơng Tú Tơi xin chịu hồn tồn trách nhiệm lời cam đoan Quy Nhơn, Ngày tháng năm 2019 lu Học viên an n va p ie gh tn to d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si LỜI CẢM ƠN Để hoàn thành đề tài luận văn thạc sĩ hoàn chỉnh, cố gắng thân cịn có hướng dẫn nhiệt tình quý Thầy Cô động viên ủng hộ gia đình bạn bè suốt thời gian học tập nghiên cứu thực luận văn thạc sĩ Tơi xin chân thành bày tỏ lịng biết ơn đến thầy TS Huỳnh Cơng Tú, người tận tình hướng dẩn, giúp đỡ tạo điều kiện tốt cho tơi hồn thành luận văn Xin chân thành bày tỏ lịng biết ơn đến q Thầy Cơ Trường Đại lu an học Quy Nhơn quý Thầy Cô giảng dạy tạo điều kiện thuận lợi cho va n học tập, nghiên cứu thực đề tài luận văn tốt nghiệp Tôi xin chân thành tn to cảm ơn quý Thầy Cô phản biện đóng góp ý kiến, hướng dẩn cho luận văn Cuối xin chân thành cảm ơn đến gia đình, anh chị bạn p ie gh hồn chỉnh nl w đồng nghiệp ln bên tôi, động viên nhiều suốt trình học tập, d oa nghiên cứu thực đề tài luận văn cuối khóa an lu Bình Định, ngày tháng năm 2019 oi lm ul nf va Học viên thực z at nh z m co l gm @ an Lu n va ac th si MỤC LỤC MỞ ĐẦU 1 Lý chọn đề tài: Tổng quan tình hình nghiên cứu đề tài Mục đích nhiệm vụ nghiên cứu Đối tượng phạm vi nghiên cứu 5 Phương pháp nghiên cứu lu CHƯƠNG I: TỔNG QUAN VỀ ĐIỆN TOÁN ĐÁM MÂY VÀ DỮ LIỆU LỚN an va 1.1 Điện toán đám mây n 1.2 Kiến trúc đặc điểm dịch vụ điện toán đám mây to 1.2.2 Đặc điểm dịch vụ điện toán đám mây p ie gh tn 1.2.1 Kiến trúc điện toán đám mây 1.3 Mơ hình hoạt động điện tốn đám mây 11 oa nl w 1.3.1 Cơ sở hạ tầng dịch vụ (IaaS) 12 d 1.3.2Nền tảng dịch vụ (Paas) 13 an lu 1.3.3 Phần mềm dịch vụ (SaaS) 14 nf va 1.4 Mơ hình triển khai điển toán đám mây 15 oi lm ul 1.4.1 Đám mây công cộng (Public Cloud) 15 1.4.2 Đám mây doanh nghiệp (Private Cloud) 17 z at nh 1.4.3 Đám mây lai (Hybrid Cloud) 17 1.4.4 Đám mây cộng đồng (Community Cloud) 18 z gm @ 1.5 Tổng quan Dữ liệu lớn 18 1.6 Nguồn tạo liệu lớn dạng liệu 23 l m co CHƯƠNG II: CÁC NỀN TẢNG CƠNG NGHỆ PHÂN TÍCH DỮ LIỆU LỚN VÀ VẤN ĐỀ BẢO MẬT 28 an Lu 2.1 Công nghệ tiền xử lý liệu lớn 28 n va 2.1.1 Tích hợp 28 ac th si 2.1.2 Làm 29 2.1.3 Loại bỏ liệu dư thừa 29 2.2 Phân tích liệu lớn 30 2.3 Một số cơng cụ phân tích liệu lớn 31 2.3.1 Kiến trúc Apache Hadoop 31 2.3.3 Kiến trúc Spark 42 2.4 Ứng dụng điện toán đám mây phân tích liệu lớn 57 2.4.1Trình điều khiển doanh nghiệp: 57 lu an 2.4.2 Phân tích liệu lớn dạng dịch vụ (Daaas) 59 n va 2.4.3 Ứng dụng phân tích liệu lớn dạng dịch vụ DAaaS 60 tn to 2.4.5 Hạn chế phân tích Dữ liệu lớn dạng dịch vụ DAaaS 65 ie gh 2.3 Vấn đề bảo mật 66 p CHƯƠNG III: CÁC NHÀ CUNG CẤP DỊCH VỤ ĐIỆN TOÁN ĐÁM MÂY 73 nl w 3.1 Dịch vụ web Amazon (AWS) 74 oa 3.2 Microsoft Azure 79 d 3.3 Nền tảng đám mây Google (GCP) 84 lu va an CHƯƠNG IV: ỨNG DỤNG ĐIỆN TOÁN ĐÁM MÂY PHÂN TÍCH DỮ LIỆU ul nf LỚN TRONG MẠNG THÔNG TIN DI ĐỘNG 91 oi lm 4.1 Nguồn liệu mạng thông tin di động 91 4.2 Các trường hợp ứng dụng Dữ liệu lớn Viễn thông 99 z at nh 4.3 Ứng dụng điện toán đám mây để phân tích liệu lớn 99 z 4.3.1 Thiết lập Google Cloud Môi trường truy vấn lớn 99 @ gm 4.3.2 Nghiên cứu trường hợp thực tế 101 l KẾT LUẬN 106 m co Những đóng góp luận văn 106 an Lu Hướng phát triển luận văn: 106 TÀI LIỆU THAM KHẢO 107 n va ac th si DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT Viết tắt Diễn giải Dịch nghĩa Application Program Interface Giao diện chương trình ứng dụng Amazon Web Services Dịch vụ Web Amazon Big Data Dữ liệu lớn AaaS Analytics as a service Phân tích dạng dịch vụ BdaaS Big Data as a Service Dữ liệu lớn dịch vụ BI Business Intelligence Kinh doanh thơng minh CC Cloud Computing Điện tốn đám mây Central Processing Unit Đơn vị xử lý trung tâm Comma Separated Values Giá trị phân cách dấu phẩy API AWS BD lu an n va p ie gh tn to CPU CSV nl w Disaster Recovery Phục hồi thảm họa d oa DR EC2 Elastic Compute Cloud EMR Elastic Map Reduce ETL Extract, Transform, Load GCP Google Cloud Platform GPU Graphics Processing Unit Đơn vị xử lý đồ họa HDD Hard Disk Drive Ổ đĩa cứng IaaS Infrastructure as a Service MS Microsoft Tập đoàn Microsoft AMS Microsoft Azure Điện toán đám mây Azure NIST National Institute of Standards an lu Đám mây điện toán đàn hồi nf va Bản đồ đàn hồi giảm oi lm ul Trích xuất, chuyển đổi, tải z at nh z @ Cơ sở hạ tầng dịch vụ m co l gm an Lu Viện tiêu chuẩn công nghệ n va and Technology Nền tải đám mây Google ac th si Opex Operational Expenditure Chi phí hoặt động PaaS Platform as a Service Nền tảng dịch vụ RAM Random Access Memory Bộ nhớ truy cập tạm thời ERP Hệ thống hoạch định nguồn lực Enterprise Resource Planning RDBMS Doanh nghiệp Relational Database Hệ thống quản lý quan hệ liệu Management Systems lu S3 an Dịch vụ lưu trữ đơn giản SaaS Software as a Service Phần mềm dịch vụ TED Technology Entertainment Cơng nghệ giải trí AWS Amazon Web Services Dịch vụ Web Amazon Virtual Machine Máy ảo n va Simple Storage Service ie gh tn to p VM Massachusetts Institute of Viện công nghệ Massachusetts oa nl w MIT Technology d Dynamic computing resources Nguồn tài ngun tính tốn động nf va Cloud Provider Nhà cung cấp đám mây oi lm ul CP Máy chủ ảo an DCR Virtual Server lu VS CB Cloud Broker CA Cloud Auditor Nhà vận chuyển đám mây Nhà môi giới đám mây Kiểm toán viên đám mây l gm Cloud Carrier @ CCa Người tiêu dùng đám mây z Cloud Consumer z at nh CCo Platform as a Service Nền tảng dịch vụ IaaS Infrastructure as a service Cơ sở hạ tầng dịch vụ SaaS Software as a Service Phần mềm dịch vụ m co PaaS an Lu n va ac th si VLAN lu an Mạng cục ảo ROI Return on Investment Hoàn vốn đầu tư GAE Google App Engine Máy ứng dụng Google PuC Public Cloud Đám mây công cộng PrC Private Cloud Đám mây doanh nghiệp HC Hybrid Cloud Đám mây lai CC Community Cloud Đám mây công cộng DBMS Database Management system Hệ quản lý sở liệu ERP Enterprise Resource Planning Hệ thống hoạch định nguồn lực LHC Large Hadron Conllider Máy gia tốc hạt lớn HD Hight Definition Truyền hình độ nét cao Scandinavian Arlines System Hệ thống kinh doanh hàng không n va Virtual Local area network p ie gh tn to RFID Radio Frequency Identification Công nghệ nhận dạng qua tần số oa nl w SAS d vô tuyến lu Near - Field Communications ELT Extract Transform Load Giao thức kết nối tầm gần va an NFC oi lm ul nf Trích xuất chuyển đổi tải HDFS Hadoop Distributed File System Hệ thống tệp phân tán Hadoop YARN RM Yet-Another-ResourceNegotiator Resource Manager AM Application Master NN Node Manager Trình quản lý nút KB Kilobyte KB = 1024 Byte MB Megabyte MG = 1024 KB z at nh Bộ phận quản lý tài nguyên khác z Quản lý tài nguyên @ m co l gm Ứng dụng quản lý an Lu n va ac th si GB Gigabyte GB = 1024 MB TB Terabyte TG = 1024 GB PB Betabyte PG = 1024 TG EB Exabyte EB = 1024 PG RDBMS RDD Resilient Distributed DataSet Bộ phận liệu phân tán đàn hồi SQL Structured Query Language Ngôn ngữ truy vấn có cấu trúc API Application Programming Interface Machine Learning Giao diện lập trình ứng dụng Directed Acyclic Graph Đồ thị theo chu kỳ có hướng MapReduce Mơ hình ứng dụng thu nhỏ lu SIMR Relational Hệ quản lý sở liệu quan hệ Database Management System Spark In MapReduce Spark MapReduce an n va ie gh tn to ML p DAG Phân tích liệu lớn dạng oa DAaaS nl w MR Thư viện máy học d Data Analytics as Service Software As A Service Phần mềm dịch vụ nf va SaaS an lu dịch vụ Business Intelligence IoT Internet of Thing IP Internet Protocol Kinh doanh thông minh oi lm ul BI Internet vạn vật z at nh Giao thức Internet Hệ thống ngăn ngừa xâm nhập Intrusion Prevention Systems TDS Intrusion Detection Systems AWS Amazon Web Service Dịch vụ Web Amazon GCP Google Cloud Platform Điện toán đám mây Google IAM Identily and AccessManagement Quản lý nhận dạng truy cập z TPS @ m co l gm Hệ thống phát xâm nhập an Lu n va ac th si -95- Nguồn lượng Thông tin dung lượng pin/ trạng thái Bảng 1: Loại liệu thu thập MobiTrack từ thiết bị cầm tay  Sản phẩm dịch vụ: Hiệu suất dịch vụ, hành vi thuê bao  Mạng xã hội: Dữ liệu từ Facebook, LikeIn, từ khóa tìm kiếm qua Google Nguồn liệu dành cho nhà khai thác mạng mô tả sau: Chi tiết Nhóm lu Dữ liệu mạng an Dữ liệu kiện mạng n va CDRs tn to Dữ liệu SMS MMS gh Dữ liệu Lưu lượng qua mạng p ie Dữ liệu dò (Probes data) w Dữ liệu từ thiết bị cầm tay oa nl Dữ liệu lỗi kỹ thuật d Dữ liệu sản phẩm Dữ liệu danh mục sản phẩm va an lu Dữ liệu vòng đời sản phẩm ul nf Dữ liệu giá sản phẩm oi lm Dữ liệu sử dụng sản phẩm Dữ liệu quản lý phân phối sản phẩm z at nh Dữ liệu Tiếp thị Dữ liệu từ thiết bị khách hàng Dữ liệu kênh bán hàng z bán hàng @ m co l đối tượng) gm Phân nhóm liệu ARPU (Doanh thu trung bình Dữ liệu phản hồi từ tiếp thị sản phẩm Dữ liệu mẫu sử dụng an Lu Dữ liệu phân khúc thị trường n va ac th si -96- Dữ liệu chăm sóc Dữ liệu yêu cầu khách hàng Dữ liệu xử lý lỗi: khách hàng + Thông tin hợp đồng + Loại vấn đề + Thời gian giải đánh giá + Số lần lặp lại Nhật ký trung tâm gọi chăm sóc khách hàng Lý chấm dứt lu an Tính cước CDRs va n Dữ liệu lưu lượng tn to Dữ liệu lịch sử dử dụng p ie gh Dữ liệu tài khoản khách hàng Bảng 2: Nguồn liệu tiềm cho nhà khai thác mạng viễn thông Nâng cao chất lượng mạng lưới: Các nhà khai thác mạng quan tâm d oa  nl w 4.2 Các trường hợp ứng dụng Dữ liệu lớn viễn thông an lu đến cải thiện chất lượng mạng trình vận hành cung cấp dịch vụ nf va Đây vấn đề cần quan tâm thường xuyên đặt hàng đầu Với ứng dụng phân oi lm ul tích Dữ liệu lớn, nhà khai thác mạng xác định nhanh cố, phân tích lỗi theo thời gian thực nâng cao hiệu suất công việc giảm z at nh chi phí cơng tác tối ưu, nâng cao độ hài lịng khách hàng Ví dụ nhà mạng Turkcell (nhà cung cấp dịch vụ di động lớn Thổ Nhĩ z Kỳ) sử dụng chương trình ứng dụng Dữ liệu lớn vào cơng tác khắc phục @ l gm cố mạng lưới cách thu thập liệu hoạt động mạng qua nhiều nguồn m co liệu khác sau phân tích nhằm tìm ngun nhân gây lỗi Các nhà quản lý mạng ứng dụng Dữ liệu lớn vào cảnh báo mạng an Lu lưới, điều tiết kiệm nhiều thời gian công sức công tác xử lý cố n va ac th si -97- Một ví dụ khác mạng SON ( Self-organizing network), tự động vận hành điều chỉnh cấu hình thích nghi theo mơi trường u cầu truyền dẫn dựa thơng tin phân tích từ Dữ liệu lớn Các loại liệu cần thu thập trường hợp ứng dụng liệu thành phần mạng, CDR, liệu định vị, XDR, liệu lưu lượng mạng liệu kiện, cảnh báo… Các liệu thu thập từ nhiều nguồn liệu khác cần phối hợp phân tích theo thời gian thực Thách thức xử lý tối ưu theo thời gian thực yêu cầu xử lý luồng lu an liệu CDR tốc độ cao n va  Nâng cao chất lượng Marketing số lượng sản phẩm bán ra: Có thể coi tn to ứng dụng cụ thể cần thiết úng dụng phân tích Dữ liệu lớn ie gh lĩnh vực viễn thơng Phân tích liệu cho phép nhà mạng tiến p hành nhiều chiến dịch tiếp thị thông minh nhắm vào đối tượng khách hàng có nl w nhu cầu tiềm Điều mang lại tăng trưởng doanh thu không nhỏ oa Nhà khai thác mạng dựa vào thơng tin phân tích để điều d chỉnh chiến lược quảng bá giá sản phẩm nhằm tạo lợi cạnh tranh, lu va an tạo hài lịng cho khách hàng ul nf Ví dụ Globe Telecom ( nhà cung cấp dịch vụ viễn thông Philippine) z at nh sản phẩm lên 600% oi lm ứng dụng phân tích Dữ liệu lớn nâng cao hiệu chương trình quảng bá Các liệu cần dùng trường hợp ứng dụng liệu thông tin z thuê bao, liệu định vị, liệu từ mạng xã hội liệu chiến dịch @ gm thực trước Trường hợp ứng dụng cịn u cầu khả thu thập hợp liệu với m co l liệu lớn từ nhiều nguồn khác nhau, khả lưu trữ liệu khả phối an Lu Maketing thơng minh địi hỏi khả sử dụng nhiều loại liệu, kể có cấu trúc phi cấu trúc, phải phân tích mối quan tâm sở n va ac th si -98- thích khách hàng Phân tích theo thời gian thực quan trọng trường hợp ứng dụng Kỹ nhân tham gia phân tích cần quan tâm  An ninh: Phân tích Dữ liệu lớn cho phép cơng ty viễn thơng phát phân tích lỗi, gian lận với tốc độ cao theo thời gian thực Do hệ thống phản ứng gần với mối đe dọa Ứng dụng giám sát an ninh mạng lưới theo thời gian thực, quản lý thông tin ngăn chặn truy cập tài nguyên trái phép Ví dụ: Elisa Oyj ( cơng ty viễn thông Phần Lan) cung cấp dịch vụ lu an có tên Elisa Vahti, dịch vụ sử dụng để giám sát an ninh tòa nhà n va văn phòng thuê bao theo thời gian thực Dịch vụ hoạt động cách tn to so sánh hành vi gọi thuê bao với liệu sử dụng lưu hồ sơ ie gh thuê bao trước sử dụng chế phát sai lệch, kỹ thuật phát bất p thường, từ nhà quản lý mạng phát nguy nl w Trong trường hợp ứng dụng loại liệu cần sử dụng liệu oa định vị, XDR, liệu thuê bao Các khả phân tích theo thời gian thực, d khả phối hợp liệu khả phân tích tương quan hệ thống va an lu yêu cầu ul nf  Cải thiện dịch vụ chăm sóc khách hàng: nhà khai thác mạng sử dụng oi lm phân tích Dữ liệu lớn để nắm bắt lý thuê bao thực z at nh gọi yêu cầu hỗ trợ áp dụng chế tự động để đáp ứng nhu cầu họ nhanh Nâng cao mức độ chăm sóc khách hàng chiến lược quan trọng z vấn đề nhận diện thương hiệu, cạnh tranh với đối thủ Ứng dụng phân tích Dữ @ gm liệu lớn, nhà mạng giảm thiểu gọi chăm sóc khách hàng m co l nâng cao chất lượng gọi chăm sóc thơng qua nhận diện vấn đề khách hàng theo thời gian thực nhằm đạt cao độ hài lòng khách an Lu hàng n va ac th si -99- Để cải thiện chất lượng chăm sóc khách hàng, số loại liệu cần dùng là: liệu thuê bao, liệu hiệu suất mạng, liệu kiện mạng lưới, liệu lịch sử chăm sóc khách hàng Trường hợp ứng dụng yêu cầu khả xử lý Dữ liệu lớn theo thời gian thực với luồng liệu tốc độ cao  Tính cước: Phân tích Dữ liệu lớn ứng dụng vào cơng việc tính cước cho th bao đảm bảo xác tiết kiệm thời gian, cơng sức so với ứng dụng truyền thống Các liệu cần thiết: Dữ liệu tính cước, liệu thuê bao, XDR CDR lu an Các yêu cầu cho trường hợp ứng dụng phân tích theo thời gian thực, n va khả phân tích tương quan, khả lưu trữ liệu Trong khuôn khổ luận văn Nền tảng đám mây Google với ưu điểm ie gh tn to 4.3 Ứng dụng điện toán đám mây để phân tích Dữ liệu lớn p dể dàng sử dụng, chuyên tính dịch vụ tính tốn, phân tích cao phân nl w tích Dữ liệu lớn, trí tuệ nhân tạo, chi phí thấp lựa chọn để sử dụng phân d oa tích Dữ liệu lớn, chạy Demo cho kết an lu 4.3.1 Thiết lập Google Cloud Môi trường truy vấn lớn va Phần giới thiệu cách tạo tài khoản đám mây Google, thiết lập khai BigQuery oi lm ul nf môi trường BigQuery thực số truy vấn liệu có sẵn cơng z at nh Các bước tạo tài khoản đám mây Google: Các bước thực để tạo tài khoản đám mây miễn phí: z a Truy cập https://cloud.google.com/ m co d Nhập mật tài khoản Gmail l c Đăng ký Gmail gm @ b Nhấp vào tab THỬ MIỄN PHÍ n va i Nhập quốc gia khơng chọn theo mặc định an Lu e Dùng thử tảng đám mây miễn phí ac th si -100- ii Chấp nhận điều khoản dịch vụ f Trang thông tin khách hàng xuất (i) Nhập tất chi tiết tên chi tiết địa (ii) Nhập phương thức toán, tốt chấp nhận thẻ tín dụng g Nhấp vào Bắt đầu dùng thử miễn phí tơi Sau bước này, trang web bảng điều khiển nhà tảng đám mây Google hiển thị bước tạo dự án Tạo dự án Google Cloud Platform, dịch vụ Analytics lu an có tên BigQuery: n va Có thể truy cập liệu có sẵn cơng khai truy vấn thơng qua truy tn to vấn có cấu trúc ngôn ngữ (SQL) để xem đầu khác tốc độ xử lý ie gh liệu Kho liệu BigQuery p Truy cập liệu mẫu có sẵn cơng khai BigQuery nl w Datwarhouse: oa a Bấm vào sản phẩm dịch vụ (trên bên trái) d b Trong danh mục sản phẩm Dữ liệu lớn, nhấp vào Truy vấn lớn lu va an c Nhấp vào bigquery-public-data-sets ul nf Có thể thấy có nhiều nguồn phổ biến Wikipedia, Github v.v có oi lm liệu có sẵn thể loại liệu có sẵn cơng khai Duyệt liệu có sẵn cơng khai chạy số truy vấn với trình z at nh chỉnh sửa truy vấn: z Sau nhấp vào bảng nào, ví dụ Wikipedia, người ta thấy siêu @ dưới, thấy chi tiết cột bảng Wikipedia l gm liệu bảng Siêu liệu đại diện cho thơng tin liệu Trong hình 4.3 bên m co Nhiều bảng mẫu nhìn thấy bảng điều khiển bên trái an Lu trang Các bảng truy vấn cách nhấp vào nút nút Bảng truy vấn bên phải bảng điều khiển trang mạng xã hội Web n va ac th si -101- lu an n va tn to ie gh Hình Tập liệu mẫu Wikipedia BigQuery p Trong phần tiếp theo, liệu thực lấy từ liệu có sẵn cơng khai nl w Sau đó, tải lên BigQuery Datwarhouse sau truy vấn thực oa thi để phân tích Dữ liệu lớn d 4.3.2 Nghiên cứu trường hợp thực tế an lu va Mục tiêu phần tìm liệu có sẵn cơng khai, tải lên oi lm vấn để tìm kết ul nf BigQuery Datwarhouse tảng đám mây Google sau chạy truy z at nh Để nghiên cứu liệu hoạt động điện thoại di động tạo Bản ghi chi tiết gọi (CDR) tuần thành phố Milan tỉnh Trentino z (Ý) sử dụng Dữ liệu lấy từ trang www.kaggle.com định dạng CSV @ gm Mỗi người dùng tham gia vào tương tác viễn thông, trạm phát gốc m co l (RBS) định nhà điều hành truyền thông qua mạng Sau đó, CDR tạo ghi lại thời gian tương tác RBS xử lý Các hoạt  SMS nhận an Lu động sau có mặt liệu: n va ac th si -102-  SMS gửi  gọi đến  gọi  Hoạt động Internet Bài toán giả định: Mục tiêu tìm thời điểm có nhiều gọi ngày Các bước sau thực để giải tốn giả định: 1) Tìm liệu lu an Sau số nghiên cứu google, trang web có tên www.kaggle.com va n tìm thấy có nhiều liệu có sẵn cơng khai Có hai bước cần thiết để tn to tải xuống tập liệu: ie gh a) Tài khoản đăng nhập tạo id email mật p www.kaggle.com nl w b) Với liên kết bên dưới, tệp CSV có tất ghi cho Bộ liệu d oa tải xuống máy tính: an lu https://www.kaggle.com/marcodena/mobile-phone-activity va 2) Tải liệu lên BigQuery Datwarhouse ul nf Điều bao gồm bước theo trình tự: oi lm a) Đăng nhập vào BigQuery URL bên dưới: z at nh https://bigquery.cloud.google.com/welcome/mimetic-core-181107 b) Tạo liệu BigQuery z Sau đăng nhập vào BigQuery, nhấp vào dự án tơi (Hình m co l gm @ 4.4) an Lu n va ac th si -103- lu an n va ie gh tn to p Hình 4 Quá trình tạo liệu w Sau nhấp vào tùy chọn tạo tập liệu bên cửa sổ hình 4.5 xuất oa nl hình Trong Hình 4.5 này, chi tiết ID liệu, vị trí liệu d chi tiết hết hạn liệu nhập để tạo liệu BigQuery lu va an Trong Hình 4.6, nhiều chi tiết thêm vào để tạo bảng dựa liệu nguồn ul nf có sẵn, tức tệp CSV tải lên từ máy tính Trong bảng hàng tiếp theo, tên oi lm nhập tạo nút bảng trang nhấp để tạo bảng BigQuery Datwarhouse Đây bước hồn tất quy trình tạo Dataset BigQuery z at nh Bước tải lên nguồn liệu BigQuery Datwarhouse Trong Hình z 4.6, đường dẫn tệp đưa ra, tải xuống từ www.kaggle.com bước trước m co l gm @ phần an Lu n va ac th si -104- lu an n va to p ie gh tn Hình Tạo tập liệu BigQuery d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ Hình Tải tệp lên BigQuery Datwarhouse an Lu 3) Bảng truy vấn trình soạn thảo n va ac th si -105- Ở giai đoạn này, bảng sẵn sàng để truy vấn tìm thời điểm có gọi nhiều Điều đạt theo truy vấn hình 4.7 lu an n va p ie gh tn to w Hình Bảng truy vấn BigQuery Datwarhouse Bộ liệu tạo oa nl Kết sử dụng câu lệnh truy vấn liệu tìm kiếm đụợc thời điểm có d nhiều gọi lu va an Kết luận chương ul nf Trong chương trình bày dự án ứng dụng phân tích liệu viễn thơng oi lm tảng đám mây Google Ta truy cập vào trang Web www.kaggle.com lấy liệu mẫu có sẵn tệp CSV từ liệu có sẵn cơng khai z at nh Kích thước tệp CSV nhỏ khoảng 252 Megabyte Việc tạo tài khoản z tảng đám mây Google dễ dàng trình tải lên tệp CSV gm @ đơn giản Trong trình tải lên tệp CSV, bảng tạo Kho liệu m co muốn l BigQuery Cuối cùng, truy vấn SQL hiển thị kết phân tích mong an Lu n va ac th si -106- KẾT LUẬN Những đóng góp luận văn Với mục tiêu nghiên cứu điện toán đám mây, Dữ liệu lớn ứng dụng lĩnh vực viễn thông, luận văn nghiên cứu chi tiết tảng điện toán đám mây để phân tích Dữ liệu lớn Những kết đạt luận văn: + Chứng minh tiềm to lớn tảng điện toán đám mây phân tích Dữ liệu lớn, đặc biệt ứng dụng ngành Viễn thông lu an + Nêu thuận lợi thách thức việc phân tích Dữ liệu lớn n va ứng dụng điện tốn đám mây tn to + Phân tích chuỗi giá trị lĩnh vực phân tích Dữ liệu lớn dụng lĩnh vực viễn thông p ie gh + Xây dựng dự án demo phân tích Dữ liệu lớn gọi di động ứng w Hướng phát triển luận văn: oa nl + Hoàn thiện mơ hình xử lý Dữ liệu lớn thực áp dụng vào d liệu thực tế Việt Nam oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si -107- TÀI LIỆU THAM KHẢO [1] https://en.wikipedia.org/wiki/Big_data 2018 (Truy cập vào 20/06/2018) [2] Jitendra Kumar Jaiswal, 15 Apr 2018 “Cloud Computing for Big Data Analytics Projects” [3] EMC Education Services Data Science & Big Data Analytics Indianapolis : John Wiley & Son [4] Han, H., et al., Toward Scalable Systems for Big Data Analytics: A Technology Tutorial Access, IEEE, 2014 2: p 652-687s, 2015 978-1-118- lu an 87613-8 n va [5] Kaisler, S., Armour, F., Espinosa, J A & Money, W., 2013 Big Data: Issues tn to and Challenges Moving Forward Wailea, Maui, HI, s.n., pp 995 - 1004 ie gh [6] Madden, S., (2012) From Databases to Big Data Internet Computing, IEEE, p 16, pp - [7] McKinsey Global Institute Big data: The next frontier for innovation, com- nl w oa petition, and productivity Paper, June 2011 d [8]Beyer, M A & Laney, D., 2012 The Importance of 'Big Data': A Definition, va an lu s.l.: Gartner ul nf [9] John R Mashey (25 April 1998) "Big Data and the Next Wave of 2016 oi lm InfraStress" (PDF) Slides from invited talk Usenix Retrieved 28 September z at nh [10] Cloud computing for e-governance White paper, IIIT-Hyderabad, January z 2010 Available online (13 pages) @ m co l Asterisk: The Definitive Guide 3rd ed s.l.:s.n gm [11] Madsen, L., Meggelen, J V & Bryant, R., n.d Call Detail Records In: [12] Malik, O., 2011 Internet of things will have 24 billion devices by 2020 an Lu GIGAOM, 13 October n va ac th si -108- [13] Karikoski, J., 2012 Handset-Based Data Collection Process and Participant Attitudes International Journal of Handheld Computing Research (IJHCR), III(4), pp 1-21 [14] Acker, O., Blockus, A & Pötscher, F., 2013 Benefiting from Big Data: A New Approach for the Telecom Industry, s.l.: Booz & Company [15] Ericsson, 2013 Big Data Analytics, s.l.: Ericsson [16] IBM, 2010 Globe Telecom: Gaining marketing agility with smart promotions, s.l.: s.n lu an [17] Post by: Anh Tú Trần, 2018 Kiến trúc mơ hình dịch vụ điện toán đám va mây [Online] Available at: https://tek4.vn/kien-truc-mo-hinh-dich-vu-cua-dien- n tn to toan-dam-may/ ie gh [18] Tstat, n.d [Online] p Available at: http://tstat.tlc.polito.it/measure.shtml#log_mm_complete nl w [19] By Christine Taylor, Posted June 27, 2017 Big Data Security [Online] d oa Available at: https://www.datamation.com/big-data/big-data-security.html an lu [20] By Andy Patrizio, Posted January 9, 2019 Cloud Computing Companies [Online] Available at: https://www.datamation.com/cloud-computing/cloud- va ul nf computing-companies.html oi lm [21] By Cynthia Harvey, Posted May 11, 2017 Amazon Web Services (AWS) [Online] Available at: https://www.datamation.com/cloud-computing/amazon- z at nh web-services.html z [22] By Cynthia Harvey, Posted May 23, 2017 Microsoft Azure [Online] m co l azure.html https://www.datamation.com/cloud-computing/microsoft- gm at @ Availableat [23]By Cynthia Harvey, Posted May,2017 Google Cloud Platform [Online] platform.html at: https://www.datamation.com/cloud-computing/google-cloud- an Lu Available n va ac th si -109- [24] Google app engine http://code.google.com/appengine/ [25] Written by China Telecom 26 June 2019 14:12 Intelligent Transport Networks for the 5G and Cloud Era Catalyzes 5G Business Success [Online] Available at : http://telecoms.com/intelligence/intelligent-transportnetworks-for-the-5g-and-cloud-era-catalyzes-5g-business-success/ lu an n va p ie gh tn to d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si

Ngày đăng: 19/07/2023, 05:06

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w