Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.

69 2 0
Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.Nghiên cứu phát triển nền tảng tích hợp phân tích dữ liệu dòng.

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Lê Dương Phong NGHIÊN CỨU PHÁT TRIỂN NỀN TẢNG TÍCH HỢP PHÂN TÍCH DỮ LIỆU DỊNG LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) TP HỒ CHÍ MINH - 2023 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Lê Dương Phong NGHIÊN CỨU PHÁT TRIỂN NỀN TẢNG TÍCH HỢP PHÂN TÍCH DỮ LIỆU DỊNG CHUN NGÀNH: HỆ THỐNG THƠNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS THOẠI NAM TP HỒ CHÍ MINH – 2023 i LỜI CAM ĐOAN Tôi cam đoan luận văn: “Nghiên Cứu Phát Triển Nền Tảng Tích Hợp Phân Tích Dữ Liệu Dịng” cơng trình nghiên cứu tơi Tôi cam đoan số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Khơng có sản phẩm/nghiên cứu người khác sử dụng luận văn mà khơng trích dẫn theo quy định TP Hồ Chí Minh, ngày 28 tháng 02 năm 2023 Học viên thực luận văn Lê Dương Phong ii LỜI CẢM ƠN Trong suốt trình học tập nghiên cứu thực luận văn, ngồi nỗ lực thân, tơi nhận hướng dẫn nhiệt tình quý báu quý Thầy Cô, với động viên ủng hộ gia đình, bạn bè đồng nghiệp Với lịng kính trọng biết ơn sâu sắc, xin gửi lời cảm ơn chân thành tới: Ban Giám Đốc , Phòng Đào tạo Sau đại học quý Thầy Cô tạo điều kiện thuận lợi giúp tơi hồn thành luận văn Tôi xin chân thành cảm ơn Thầy PGS.TS Thoại Nam, người thầy kính u hết lịng giúp đỡ, hướng dẫn, động viên, tạo điều kiện cho suốt q trình thực hồn thành luận văn Tơi xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp quan động viên, hỗ trợ tơi lúc khó khăn để tơi học tập hoàn thành luận văn Mặc dù có nhiều cố gắng, nỗ lực, thời gian kinh nghiệm nghiên cứu khoa học hạn chế nên khơng thể tránh khỏi thiếu sót Tơi mong nhận góp ý q Thầy Cơ bạn bè đồng nghiệp để kiến thức ngày hoàn thiện Xin chân thành cảm ơn! TP Hồ Chí Minh, ngày 28 tháng 02 năm 2023 Học viên thực luận văn Lê Dương Phong iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN .ii MỤC LỤC iii DANH SÁCH HÌNH VẼ v DANH SÁCH BẢNG .vii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT viii MỞ ĐẦU .1 CHƯƠNG 1: GIỚI THIỆU .2 1.1 Tính cấp thiết đề tài 1.2 Mục tiêu nhiệm vụ nghiên cứu .2 1.3 Phạm vi nghiên cứu 1.4 Kết cấu luận văn CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Apache Kafka 2.1.1 Giới thiệu Kafka 2.1.2 Một số thành phần quan trọng Kafka 2.2 Apache Spark 10 2.2.1 Giới thiệu Apache Spark 10 2.2.2 Kiến trúc Spark 12 2.3 Tình hình nghiên cứu nước 16 2.4 Cơ sở lý luận 18 2.5 Lý thuyết kiến trúc thuật ngữ 19 2.5.1 Data Warehouse 19 2.5.2 Data Lake 22 2.5.3 Data Lakehouse .26 2.5.4 Table Format 29 CHƯƠNG 3: BÀI TOÁN VÀ GIẢI PHÁP CHO HỆ LƯU TRỮ VÀ TRUY VẤN DỮ LIỆU GIAO THÔNG .30 3.1 Mô tả toán 30 3.2 Các vấn đề phân tích để giải tốn 31 3.2.1 Phân tích đặc trưng liệu thực tế 31 3.2.2 Phân tích yêu cầu lưu trữ 32 iv 3.2.3 Phân tích yêu cầu truy vấn 33 3.2.4 Dự báo lưu lượng giao thông ngắn hạn 34 3.3 Đề xuất giải pháp cho hệ lưu trữ, truy vấn 35 3.3.1 Giải pháp công nghệ 36 Giải pháp Delta + HDFS 36 Giải pháp Delta + MinIO 38 Giải pháp Iceberg + MinIO + Trino 39 3.3.2 Kỹ thuật tối ưu 41 Mơ hình liệu tam cấp 42 Thiết kế lưu trữ ETL cho liệu đếm xe biển số .43 Kỹ thuật gom file phân vùng liệu .44 3.3.3 Giải thuật Support Vector Regression .45 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .48 4.1 Mô hình triển khai 48 4.2 Kết thực nghiệm đánh giá 49 4.2.1 Tóm tắt liệu 49 4.2.2 Một số tính phân tích liệu dịng giao thơng .49 4.2.3 Mơ hình dự báo lưu lượng giao thơng .53 CHƯƠNG 5: KẾT LUẬN .57 5.1 Kết nghiên cứu đề tài 57 5.2 Hạn chế luận văn .57 5.3 Hướng phát triển đề tài nghiên cứu 58 DANH MỤC TÀI LIỆU THAM KHẢO 59 v DANH SÁCH HÌNH VẼ Hình 2.1 Apache Kafka Hình 2.2 Một chủ đề biểu diễn với nhiều phân vùng Hình 2.3 Nhóm người dùng nghiên cứu chủ đề Hình 2.4 Nhân rộng phân vùng cụm Hình 2.5 Các tính Spark 11 Hình 2.6 Kiến trúc Apache Spark 12 Hình 2.7 Spark chế độ Standalone Cluster Manager 13 Hình 2.8 Spark chế độ hoạt động với YARN .14 Hình 2.9 Kiến trúc Apache Mesos 14 Hình 2.10 Hệ sinh thái Spark 15 Hình 2.11 Kiến trúc tầng hệ thống giao thơng tích hợp 17 Hình 2.12 Hệ thống theo kiến trúc Data Warehouse 21 Hình 2.13 Hệ thống theo kiến trúc Data Lake 24 Hình 2.14 Hệ thống theo kiến trúc Data Lakehous 27 Hình 2.15 Vị trí Table Format 29 Hình 3.1 Hệ thống đo đếm phương tiện giao thông .30 Hình 3.2 Giải pháp Delta + HDFS 37 Hình 3.3 Giải pháp Delta + MinIO 38 Hình 3.4 Giải pháp Iceberg + MinIO + Trino 41 Hình 3.5 Dữ liệu tam cấp cho hệ thống lưu trữ 43 Hình 3.6 Lưu đồ biến đổi liệu đếm xe 43 Hình 3.7 Lưu đồ biến đổi liệu đếm biển số 44 Hình 3.8 Minh họa hàm lỗi thuật toán SVR 46 Hình 4.1 Mơ hình kết nối camera 48 Hình 4.2 Sơ đồ kết nối máy chủ .48 Hình 4.3 Hình ảnh số camera nhận diện bảng số xe .49 vi Hình 4.4 Lưu đồ phân tích xe ngồi tỉnh 50 Hình 4.5 Hình ảnh phân tích xe ngồi tỉnh .50 Hình 4.6 Lưu đồ phân tích lưu lượng xe 51 Hình 4.7 Hình ảnh phân tích lưu lượng xe theo thời gian 51 Hình 4.8 Hình ảnh phân tích lưu lượng xe theo loại xe 52 Hình 4.9 Hình ảnh phân tích lưu lượng xe theo khu vực .52 Hình 4.10 Lưu đồ phân tích mật độ xe .52 Hình 4.11 Hình ảnh phân tích mật độ xe 53 Hình 4.12 Dự báo lưu lượng xe máy bước vào tương lai 55 Hình 4.13 Dự báo lưu lượng xe máy bước vào tương lai 55 vii DANH SÁCH BẢNG Bảng 1.1 So sánh Data Warehouse, Data Lake Data Lakehouse 28 Bảng 4.1 Kiểm tra chất lượng dự báo 54 viii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt ITS HDFS Tiếng Anh Intelligence Transportation System Hadoop File System Tiếng Việt Hệ thống giao thông thông minh Hệ thống lưu liệu sử dụng Hadoop Bốn thuộc tính quan trọng ACID Atomicity, Consistency, Isolation, Durability hệ quản trị sở liệu: tính ngun tử, tính qn, tính lập, tính bền vững ETL Extract Transform and Load Trích xuất, chuyển đổi tải ELT Extract Load and Transform Trích xuất, tải chuyển đổi

Ngày đăng: 17/06/2023, 14:03

Tài liệu cùng người dùng

Tài liệu liên quan