Khai phá luồng văn bản với kỹ thuật gom cụm luận án tiến sĩ khoa học máy tính

194 3 0
Khai phá luồng văn bản với kỹ thuật gom cụm luận án tiến sĩ khoa học máy tính

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG KHAI PHÁ LUỒNG VĂN BẢN VỚI KỸ THUẬT GOM CỤM LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Đồng Nai, năm 2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG KHAI PHÁ LUỒNG VĂN BẢN VỚI KỸ THUẬT GOM CỤM LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 9480101 NGƯỜI HƯỚNG DẪN KHOA HỌC Đồng Nai, năm 2021 LỜI CẢM ƠN Xin chân thành cảm ơn PGS.TS Đỗ Phúc tận tình hướng dẫn nghiên cứu sinh hồn thành luận án tiến sĩ Xin chân thành cảm ơn quý thầy/cô khoa sau đại học, trường đại học Lạc Hồng tạo điện kiện thuận lợi hỗ trợ nghiên cứu sinh hoàn thành luận án Xin trân trọng cảm ơn trường đại học Thủ Dầu Một hỗ trợ nghiên cứu sinh tham gia học tập trường đại học Lạc Hồng Xin chân thành cám ơn quý bạn bè, đồng nghiệp tạo điều kiện giúp đỡ nghiên cứu sinh hoàn thành luận án Nghiên cứu sinh - LỜI CAM ĐOAN Tôi xin cam đoan luận án cơng trình nghiên cứu riêng tơi hướng dẫn PGS.TS Đỗ Phúc Các số liệu tài liệu nghiên cứu trung thực chưa cơng bố cơng trình nghiên cứu Tất tham khảo kế thừa trích dẫn tham chiếu đầy đủ Đồng Nai, ngày … tháng năm 2021 Nghiên cứu sinh MỤC LỤC CHƯƠNG 1: GIỚI THIỆU 1.1 Tổng quan đề tài luận án 1.1.1 Bài toán nghiên cứu ý nghĩa .1 1.1.2 Thách thức toán gom cụm luồng văn 1.1.3 Các vấn đề nghiên cứu 1.1.4 Các toán nghiên cứu 1.2 Đóng góp luận án cơng trình cơng bố 10 1.3 Mục tiêu, phạm vi phương pháp nghiên cứu 11 1.3.1 Mục tiêu nghiên cứu 11 1.3.2 Phạm vi nghiên cứu .12 1.3.3 Phương pháp nghiên cứu .12 1.4 Cấu trúc luận án 13 1.5 Kết chương 13 CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN 14 2.1 So sánh số cách tiếp cận liên quan đến gom cụm luồng văn 14 2.1.1 Phương pháp tiếp cận dựa mơ hình chủ đề truyền thống 14 2.1.2 Phương pháp tiếp cận dựa mơ hình hỗn hợp động 15 2.1.3 Phương pháp tiếp cận dựa biểu diễn khơng gian vectơ 16 2.1.4 Mơ hình hóa chủ đề (Topic modeling) 16 2.1.5 Mơ hình hỗn hợp dựa quy trình Dirichlet (DPMM) 23 2.1.6 Đồ thị phổ biến .32 2.1.7 Mơ hình hóa bật luồng văn Kleinberg 35 2.2 Kết chương 40 CHƯƠNG 3: GOM CỤM LUỒNG VĂN BẢN THEO NGỮ NGHĨA DỰA TRÊN ĐỒ THỊ TỪ 41 3.1 Phương pháp 41 3.1.1 Biểu diễn đặt trưng văn phương pháp túi từ (BOW) 41 3.1.2 Biểu diễn văn đồ thị từ (GOW) .43 3.1.3 Gom cụm luồng văn dựa mơ hình hỗn hợp 49 3.2 Thực nghiệm bàn luận 62 3.3 Kết chương 74 CHƯƠNG 4: PHÁT HIỆN CỤM TỪ XU THẾ TRÊN LUỒNG VĂN BẢN 75 4.1 Phương pháp 75 4.2 Thực nghiệm bàn luận 88 4.3 Kết chương 103 CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN 104 5.1 Các kết đạt được, hạn chế hướng phát triển 104 5.2 Ý nghĩa học thuật thực tiễn luận án 106 BẢNG THUẬT NGỮ ANH – VIỆT Tiếng Anh Viết tắt Tiếng Việt Allocation Dirichlet Latent LDA Phân bổ tiềm ẩn Direntlet Bag of Word BOW Túi từ Benchmark Đối sánh Cluster validation Xác nhận cụm Common sub GOWs Đồ thị phổ biến Concept/topic drift Dịng trơi khái niệm/chủ đề Corpus Kho ngữ liệu Density-based Dựa mật độ Dirichlet Process DP Quy trình Dirichlet Dirichlet-Hawkes Topic Model DHTM Mơ hình chủ đề Dirichlet-Hawkes Document batch Lơ tài liệu Dynamic Clustering Topic DCT Mơ hình chủ đề gom cụm động Dynamic Topic Model DTM Mơ hình chủ đề động Features of meaning Đặc trưng ngữ nghĩa Filtering Lọc Frequent sub-graph FSG Đồ thị phổ biến Graph of Word GOW Đồ thị từ Microblogs Bài viết ngắn dạng blog Model’s hyper-parameter sensitivity Độ nhạy siêu tham số mô hình (viết ngắn độ nhạy) Mstream MStream Thuật tốn gom cụm luồng liệu dựa mơ hình hỗn hợp DP Noise Yếu tố nhiễu Outlier Ngoại lệ Politeness Độ sâu Preprocess Tiền xử lý Proximity measure Đo lường lân cận Sequence Monte Carlo SMC Tuần tự Monte Carlo Sparse nature Tính rời rạc tự nhiên Sparsity of text Sự rời rạc văn Stemming and Lemmatization Trả từ nguyên mẫu Stop word Từ dừng Streaming LDA Survey ST-LDA Streaming LDA Khảo sát Tiếng Anh Viết tắt Tiếng Việt Temporal Dynamic Process Model TDPM Mơ hình hỗn hợp quy trình Dirichlet theo thời gian Temporal model-LDA TM-LDA Mơ hình LDA theo thời gian Temporal Text Mining TTM Khai phá văn theo thời gian Term Frequency TF Tần số từ Term Frequency-Invert Document Frequency TF-IDF Tần số từ -Tần số tài liệu nghịch đảo Text corpus Tập văn Text similarity Sự tương tự văn Text to Graph Text2graph Đồ thị hóa văn Trendy Keyword Extraction System TKES Hệ thống rút trích từ khóa tiêu biểu Tokenization Tách từ Topic tracking model TTM mơ hình theo dõi chủ đề Vector Space model VSM Mơ hình không gian vectơ Visualize Hiển thị trực quan Word relatedness Sự liên quan từ Word segmentation Tách từ Word similarity Sự tương tự từ Word vector Véc tơ từ DANH MỤC BẢNG Bảng 1.1: Phân tích điểm mạnh tồn mơ hình .7 Bảng 3.1: Biểu diễn văn với BOW truyền thống 42 Bảng 3.2: Biểu diễn văn với BOW TF-IDF .42 Bảng 3.3: Biểu diễn văn với GOW .48 Bảng 3.4: Biểu diễn văn kết hợp BOW GOW 49 Bảng 3.5: Biểu diễn véc tơ chủ đề mô hình GOW-Stream 62 Bảng 3.6: Chi tiết liệu thử nghiệm 64 Bảng 3.7: Chi tiết cấu hình cho mơ hình gom cụm luồng văn 66 Bảng 3.8: Kết đầu trung bình tác vụ gom cụm văn với mơ hình khác với độ đo NMI 67 Bảng 3.9: Kết đầu thử nghiệm tác vụ gom cụm văn với mơ hình khác với độ đo F1 67 Bảng 4.1: Các thuộc tính nút mối quan hệ 80 Bảng 4.2: Một ví dụ tính tốn số xếp hạng từ 82 Bảng 4.3: Một ví dụ tính tổng trọng số từ khóa chuyên mục 83 Bảng 4.4: Thí dụ cấu trúc lưu trữ Burst 87 Bảng 4.5: Các Burst từ khóa “Facebook” .89 Bảng 4.6: Xác định danh sách từ xu chung với từ khóa “Facebook” 90 Bảng 4.7: Thử nghiệm thời gian thực thi thu thập thông tin 91 Bảng 4.8: Kiểm tra thời gian thực thi việc thêm liệu vào sở liệu đồ thị 91 Bảng 4.9: Kiểm tra thời gian chạy xử lý 91 Bảng 4.10: Thời gian xử lý số lượng viết khác với độ dài khác 92 Bảng 4.11: Tỷ lệ giống liệu sinh từ thuật tốn TF-IDF viết ngơn ngữ lập trình khác 93 Bảng 4.12: Tần số từ khóa 94 Bảng 4.13: Một số tham số với word2Vec 95 Bảng 4.14: Các từ liên quan đến từ khóa “Ứng dụng” 96 Bảng 4.15: So sánh mức độ tương đồng sử dụng thước đo khoảng cách tương đồng khác 96 Bảng 4.16: Thời gian huấn luyện mơ hình 97 Bảng 4.17: Thời gian xử lý để tìm 10 từ liên quan .98 Bảng 4.18: Kiểm tra thời gian xử lý phát Burst báo 19 ngày 100 ... TRƯỜNG ĐẠI HỌC LẠC HỒNG KHAI PHÁ LUỒNG VĂN BẢN VỚI KỸ THUẬT GOM CỤM LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 9480101 NGƯỜI HƯỚNG DẪN KHOA HỌC Đồng Nai,... đề gom cụm luồng văn ngắn; Vấn đề gom cụm luồng văn với chủ đề không cố định; Vấn đề xét mối liên hệ đồng từ gom cụm luồng văn bản; Vấn đề phát cụm từ xu nắm bắt ngữ nghĩa xu từ văn đến từ luồng; ... góp luận án: so sánh số cách tiếp cận liên quan đến gom cụm luồng văn bản, tiếp cận phát kiện phát bật luồng văn 2.1 So sánh số cách tiếp cận liên quan đến gom cụm luồng văn Các nghiên cứu gần gom

Ngày đăng: 19/12/2021, 09:38

Tài liệu cùng người dùng

Tài liệu liên quan