Một số phương pháp học máy hiệu quả trong môi trường luồng dữ liệu liên tục

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGÔ VĂN LINH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY HIỆU QUẢ TRONG MÔI TRƯỜNG LUỒNG DỮ LIỆU LIÊN TỤC LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN HÀ NỘI−2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGÔ VĂN LINH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY HIỆU QUẢ TRONG MÔI TRƯỜNG LUỒNG DỮ LIỆU LIÊN TỤC Ngành: Hệ thống thông tin Mã số: 9480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN GIÁO VIÊN HƯỚNG DẪN KHOA HỌC: PGS.TS THÂN QUANG KHOÁT HÀ NỘI−2023 LỜI CAM ĐOAN Tôi xin cam đoan kết trình bày luận án cơng trình nghiên cứu thân nghiên cứu sinh thời gian học tập nghiên cứu Đại học Bách khoa Hà Nội hướng dẫn tập thể hướng dẫn khoa học Các số liệu, kết trình bày luận án hoàn toàn trung thực Các kết sử dụng tham khảo trích dẫn đầy đủ theo quy định Hà Nội, ngày tháng năm 2023 Nghiên cứu sinh Ngô Văn Linh GIÁO VIÊN HƯỚNG DẪN KHOA HỌC PGS.TS Thân Quang Khoát i LỜI CẢM ƠN Chặng đường làm nghiên cứu sinh hành trình dài đầy khó khăn thử thách Tôi thực trân trọng muốn gửi lời cảm ơn sâu sắc giúp đỡ, sẻ chia quý nhận suốt khoảng thời gian Đầu tiên, xin gửi lời cảm ơn sâu sắc tới PGS.TS Thân Quang Khoát Người thầy hướng dẫn người anh thân thiết Thầy đồng hành, dẫn động viên tơi nhiều suốt q trình nghiên cứu Tơi xin gửi lời cảm ơn tới thầy cô giảng dạy trường Công nghệ Thông tin Truyền thơng - Đại học Bách khoa Hà Nội, hỗ trợ, giúp đỡ nhiệt tình người Tơi xin gửi lời cảm ơn đến cộng sự, tới em sinh viên tích cực làm việc với dự án nghiên cứu Phịng thí nghiệm Khoa học liệu Tôi thực trân trọng khoảng thời gian mà miệt mài, chăm làm việc Tôi xin cảm ơn Công ty TNHH Đầu tư Phát triển đô thị Gia Lâm thuộc Tập đoàn Vingroup hỗ trợ Quỹ Đổi sáng tạo Vingroup (VINIF) Dự án mã số VINIF.2019.DA18 tài trợ cho thời gian nghiên cứu thực luận án Cuối cùng, xin gửi lời cảm ơn chân thành đến gia đình, bạn bè đồng nghiệp động viên, ủng hộ tơi suốt q trình nghiên cứu giúp tơi vượt qua giai đoạn khó khăn để đạt số kết ngày hôm ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ vi DANH MỤC HÌNH VẼ viii DANH MỤC BẢNG xii DANH MỤC KÝ HIỆU TOÁN HỌC xiii MỞ ĐẦU CHƯƠNG KIẾN THỨC NỀN TẢNG 15 1.1 Mơ hình Bayes 15 1.1.1 Mơ hình Bayes tổng qt 15 1.1.2 Mô hình chủ đề ẩn (Latent Dirichlet Allocation (LDA)) .17 1.1.3 Mơ hình Naive Bayes 20 1.2 Tổng quan học mô hình Bayes luồng liệu 20 1.3 Các phương pháp học mơ hình Bayes luồng liệu .23 1.4 Tập liệu độ đo 28 1.4.1 Các tập liệu 28 1.4.2 Độ đo .30 1.5 Mạng đồ thị tích chập (Graph Convolutional Networks (GCN)) 31 1.6 Kết luận chương 32 CHƯƠNG KHAI THÁC TRI THỨC TIÊN NGHIỆM TRONG LUỒNG DỮ LIỆU 33 2.1 Giới thiệu .33 2.2 Biến đổi tri thức tiên nghiệm môi trường luồng liệu .35 2.2.1 Đề xuất phương pháp .35 2.2.2 Một số tính chất TPS .38 2.3 Khai thác tri thức tiên nghiệm dạng vectơ từ .41 iii 2.4 Khai thác tri thức tiên nghiệm dạng đồ thị 43 2.5 Thử nghiệm .47 2.5.1 Thử nghiệm TPS với Word2vec 49 2.5.2 Thử nghiệm GCTM với đồ thị tri thức 53 2.6 Kết luận chương 63 CHƯƠNG DROPOUT VỚI KHẢ NĂNG TỰ THÍCH NGHI CHO LUỒNG DỮ LIỆU 65 3.1 Giới thiệu .65 3.2 Dropout với khả tự thích nghi cho luồng liệu 67 3.2.1 Dropout vô hạn cho liệu luồng 67 3.2.2 Dropout vô hạn với với khả tự thích nghi aiDropout 70 3.3 Áp dụng aiDropout cho mơ hình Bayes 72 3.3.1 Áp dụng 1: LDA mô hình sở .73 3.3.2 Áp dụng 2: NB mơ hình sở .75 3.4 Một số thảo luận aiDropout 76 3.5 Thử nghiệm .82 3.5.1 Thử nghiệm liệu ngắn nhiễu 82 3.5.2 Đối diện với thay đổi đột ngột dòng liệu .87 3.6 Kết luận chương 88 CHƯƠNG CÂN BẰNG GIỮA TÍNH ỔN ĐỊNH VÀ MỀM DẺO 90 4.1 Giới thiệu .90 4.2 Cân tính ổn định tính mềm dẻo .92 4.2.1 Mơ hình cân tính ổn định mềm dẻo (BSP) .92 4.2.2 Quá trình huấn luyện BSP 94 4.2.3 Một số tính chất BSP .96 4.3 Thử nghiệm .99 4.3.1 Thử nghiệm tập văn ngắn nhiễu 100 4.3.2 Tính ổn định mềm dẻo 105 4.3.3 Đánh giá ảnh hưởng tham số 107 4.4 Kết luận chương 109 KẾT LUẬN 111 iv DANH MỤC CÁC CƠNG TRÌNH ĐÃ CÔNG BỐ .113 TÀI LIỆU THAM KHẢO 114 v DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ Viết tắt Tiếng Anh Tiếng Việt aiDropout Adaptive infinite Dropout Phương pháp Dropout vơ hạn với khả thích nghi luồng liệu BSP Balancing stability and plasticity Phương pháp cân tính ổn định tính mềm dẻo ELBO Evidence lower bound Cận chứng EWC Elastic weight consolidation Phương pháp trọng số quan trọng GCN Graph convolutional networks Mạng đồ thị tích chập GCTM Graph convolutional Topic Mơ hình chủ đề dựa đồ thị tích Model chập HPP Hierarchical Power Priors iDropout Infinite Dropout for Tri thức tiên nghiệm dạng luỹ thừa phân cấp Data Streams KL Kullback-Leibler divergence KPS Keeping Prior for Data Streams LDA Latent Dirichlet Allocation LPP Log predictive probability Mini-batch Mini-batch Phương pháp Dropout vô hạn luồng liệu Độ sai khác hai phân phối Phương pháp giữ tri thức tiên nghiệm học luồng liệu Mơ hình LDA Độ đo xác suất phán đoán Tập nhỏ liệu thu khoảng thời gian Mạng lan truyền tiến kết nối đầy MLP Multi-layer percepton NPMI Normalized pointwise mutual information PCA Principal component analysis PVB Population Variational Bayes SVB Streaming Variational Bayes vi đủ Độ đo thông tin tương hỗ Phương pháp phân tích thành phần Suy diễn biến phân Bayes quần thể Suy diễn biến phân luồng SVB-PP Streaming Variational Bayes Suy diễn biến phân luồng với tri with Power Priors thức tiên nghiệm dạng luỹ thừa SVI Stochastic variational inference Suy diễn biến phân ngẫu nhiên TPS Transformation of Prior Knowl- Phương pháp biến đổi tri thức tiên VCL VI Word2vec edge for Data Streams nghiệm cho liệu luồng Variational continual learning Phương pháp biến phân liên tục Variational inference Suy diễn biến phân Word2vec Biểu diễn vector cho từ vii DANH MỤC HÌNH VẼ Tính tổng qt hóa phương pháp làm việc với liệu thưa nhiễu Tính tổng qt hóa phương pháp xảy thay đổi đột ngột dòng liệu 1.1 Biểu diễn đồ thị cho mơ hình Bayes tổng qt B(β, z, x) 16 1.2 Biểu diễn đồ thị mơ hình chủ đề (Latent Dirichlet Allocation (LDA)) 18 1.3 Biểu diễn đồ thị SV B học liệu luồng 23 1.4 Biểu diễn đồ thị KPS 24 2.1 Mơ hình đồ thị biểu diễn cho TPS 37 2.2 TPS cho mơ hình LDA Tri thức tiên nghiệm η sử dụng mini-batch thông qua hàm biến đổi tri thức tham số hóa π 41 2.3 Mơ hình đồ thị biểu diễn cho GCTM 44 2.4 Khả tổng quát hóa phương pháp TPS so với phương pháp sở SVB [1], SVB-PP [2], PVB [3] KPS [4] LPP cao tốt 50 2.5 Tính gắn kết chủ đề phương pháp TPS so với phương pháp sở SVB [1], SVB-PP [2], PVB [3] KPS [4] NPMI cao tốt .50 2.6 Phân tích vai trò chế truyền tri thức tri thức tiên nghiệm LPP cao tốt 52 2.7 Phân tích tính nhạy cảm TPS theo σ2 52 2.8 Độ nhạy TPS với tham số số chủ đề K 53 2.9 Độ nhạy TPS với kích thước mini-batch 54 2.10 Hiệu phương pháp đề xuất GCTM-WN GCTMW2V so với phương pháp sở SVB [1], SVB-PP [2] PVB [3] xét theo tính tổng qt hóa học từ nhiều liệu LPP cao tốt 56 viii

Tiêu đề	Một Số Phương Pháp Học Máy Hiệu Quả Trong Môi Trường Luồng Dữ Liệu Liên Tục
Tác giả	Ngô Văn Linh
Người hướng dẫn	PGS.TS. Thân Quang Khoát
Trường học	Đại học Bách khoa Hà Nội
Chuyên ngành	Hệ thống thông tin
Thể loại	luận án tiến sĩ
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	190
Dung lượng	2,34 MB