0

Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

98 4 0
  • Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Tài liệu liên quan

Thông tin tài liệu

Ngày đăng: 12/05/2022, 11:17

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC & KỸ THUẬT MÁY TÍNH ——————– * ——————— LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC GOM CỤM VĂN BẢN DỰA TRÊN MƠ HÌNH PHÁT HIỆN CHỦ ĐỀ NGÀNH: KHOA HỌC MÁY TÍNH HỘI ĐỒNG: Khoa học máy tính 10 GVHD: TS Lê Thanh Vân GVPB: TS Nguyễn Đức Dũng —o0o— SVTH: Nguyễn Văn Quyền Lâm(1711901) TP HỒ CHÍ MINH, 8/2021 ĐẠI HỌC QUỐC GIA TP.HCM -TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA: KH & KT Máy tính BỘ MƠN: Hệ thống & Mạng CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN ÁN TỐT NGHIỆP HỌ VÀ TÊN: Nguyễn Văn Quyền Lâm NGÀNH: Khoa học máy tính MSSV: 1711901 LỚP: Đầu đề luận án: Gom cụm văn dựa mơ hình chủ đề Nhiệm vụ (yêu cầu nội dung số liệu ban đầu): -! Tìm hiểu cơng trình liên quan đến toán phát chủ đề gom cụm liệu -! Xây dựng công cụ thu thập liệu văn tiếng Việt từ trang tin tức điện tử -! Đề xuất mơ hình phát chủ đề -! Đề xuất mơ hình xây dựng vector ngữ cảnh cho liệu văn -! Tích hợp kết mơ hình phát chủ đề vector ngữ cảnh để tạo liệu đầu vào tiến hành gom cụm liệu Ngày giao nhiệm vụ luận án: 01/03/2021 Ngày hoàn thành nhiệm vụ: 01/08/2021 Họ tên giảng viên hướng dẫn: Phần hướng dẫn: 1) TS Lê Thanh Vân 100% Nội dung yêu cầu LVTN thông qua Bộ môn Ngày tháng năm CHỦ NHIỆM BỘ MÔN GIẢNG VIÊN HƯỚNG DẪN CHÍNH (Ký ghi rõ họ tên) (Ký ghi rõ họ tên) Lê Thanh Vân PHẦN DÀNH CHO KHOA, BỘ MÔN: Người duyệt (chấm sơ bộ): Đơn vị: _ Ngày bảo vệ: _ Điểm tổng kết: _ Nơi lưu trữ luận án: _ TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KH & KT MÁY TÍNH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc -Ngày tháng năm PHIẾU CHẤM BẢO VỆ LVTN (Dành cho người hướng dẫn/phản biện) Họ tên SV: Nguyễn Văn Quyền Lâm MSSV: 1711901 Ngành (chuyên ngành): Đề tài: Gom cụm văn dựa mơ hình chủ đề Họ tên người hướng dẫn: TS Lê Thanh Vân Tổng quát thuyết minh: Số trang: 95 Số chương: Số bảng số liệu: Số hình vẽ: 31 Số tài liệu tham khảo: 61 Phần mềm tính tốn: Hiện vật (sản phẩm) Tổng quát vẽ: - Số vẽ: Bản A1: Bản A2: Khổ khác: - Số vẽ vẽ tay Số vẽ máy tính: Những ưu điểm LVTN: - Luận văn tìm hiểu tốt cơng trình nghiên cứu liên quan đến mơ hình phát chủ đề, mơ hình xây dựng vector nhúng, tìm hiểu BERT, PhoBERT phân tích ngữ cảnh văn - Luận văn đề xuất mơ hình gom cụm kết hợp vector sinh từ mơ hình phát chủ đề LDA phát từ quan trọng đóng góp chủ đề, vector nhúng từ PhoBERT để sinh ngữ cảnh nhằm tổng hợp ưu điểm LDA PhoBERT, sau dùng mơ hình AutoEncoder để thu giảm số chiều vector nhằm giữ lại đặc trưng chủ yếu văn Kmeans++ sử dụng để gom cụm vector nhúng đề xác định văn chủ đề Cách thức kết hợp nhằm giúp xác định số cụm cần thiết dựa LDA tiền xử lý loại bỏ topic có nhiễu, đồng thời thơng qua PhoBERT lại xây dựng vector ngữ cảnh mà LDA không xác định tốt Kết thực nghiệm cho kết khả quan so sánh với phương pháp gom cụm dựa vector TFIDF, LDA, BERT, PhoBERT - Sinh viên có khả tự học, tự nghiên cứu tốt Những thiếu sót LVTN: Do hạn chế thời gian nên luận văn chưa thử nghiệm với mơ hình học sâu cải tiến XLNNTN Đề nghị: Được bảo vệ □ Bổ sung thêm để bảo vệ □ câu hỏi SV phải trả lời trước Hội đồng: 10 Đánh giá chung (bằng chữ: giỏi, khá, TB): Không bảo vệ □ Điểm : 9.5/10 Ký tên (ghi rõ họ tên) Lê Thanh Vân TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KH & KT MÁY TÍNH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc -Ngày 01 tháng 08 năm 2021 PHIẾU CHẤM BẢO VỆ LVTN (Dành cho người hướng dẫn/phản biện) Họ tên SV: Nguyễn Văn Quyền Lâm MSSV: 1711901 Ngành (chuyên ngành): KHMT Đề tài: GOM CỤM VĂN BẢN DỰA TRÊN MƠ HÌNH PHÁT HIỆN CHỦ ĐỀ Họ tên người hướng dẫn/phản biện: Nguyễn Đức Dũng Tổng quát thuyết minh: Số trang: Số chương: Số bảng số liệu Số hình vẽ: Số tài liệu tham khảo: Phần mềm tính tốn: Hiện vật (sản phẩm) Tổng quát vẽ: - Số vẽ: Bản A1: Bản A2: Khổ khác: - Số vẽ vẽ tay Số vẽ máy tính: Những ưu điểm LVTN: Luận văn thức giải pháp cho toán gom cụm văn sử dụng cách tiếp cận học máy Về bản, mơ hình đề xuất sử dụng thơng tin trích xuất từ LDA PHOBERT LM để đầu vào cho toán gom cụm với kỳ vọng đặc trưng thống kê trưng có ngữ cảnh sinh từ BERT giúp phân loại tốt Nhóm sử dụng encoder AutoEncoder để thu giảm số chiều liệu trước sử dụng kỹ thuật gom cụm không giám sát Kết đạt cho thấy mơ hình cho kết gom cụm tốt phương pháp gom cụm truyền thống Những thiếu sót LVTN: Việc sử dụng đặc trưng LDA nội dung văn bản, tức hai văn có thống kê LDA nội dung liên quan hai chủ đề hoàn toàn khác Việc sử dụng nhiều đặc trưng kết hợp mang lại tính phân loại cao cho văn lựa chọn hợp lý cần ý phân tích Nhất thân đặc trưng ngữ cảnh văn đủ tính phân loại AutoEncoder chưa đủ tốt huấn luyện Đề nghị: Được bảo vệ o Bổ sung thêm để bảo vệ o Không bảo vệ o câu hỏi SV phải trả lời trước Hội đồng: a Nhóm có cân nhắc giải pháp sử dụng lớp tổng chập mơ hình cho đặc trưng đầu vào trước đưa vào AutoEncoder hay không? b Liệu giải pháp thay AutoEncoder lớp tổng chập mơ hình cân nhắc chưa? Nếu có kỳ vọng tốt hay tệ với đề xuất tại? c 10 Đánh giá chung (bằng chữ: giỏi, khá, TB): Giỏi Điểm: 9.5 /10 Ký tên (ghi rõ họ tên) Nguyễn Đức Dũng LỜI CAM ĐOAN Tôi tên là: Nguyễn Văn Quyền Lâm Sinh ngày: 29/03/1999 Sinh viên khoa Khoa học kỹ thuật Máy tính, mã số sinh viên: 1711901, chuyên ngành Khoa học Máy tính, trường Đại học Bách Khoa thành phố Hồ Chí Minh Tơi xin cam đoan, tồn nội dung liên quan đến đề tài trình bày luận văn thân tơi tìm hiểu nghiên cứu, hướng dẫn khoa học Cô TS Lê Thanh Vân Các nội dung luận văn nội dung đề cương yêu cầu cô hướng dẫn Tất tài liệu tham khảo có nguồn gốc, xuất xứ rõ ràng Nếu sai tơi hoàn toàn chịu trách nhiệm trước hội đồng khoa học trước pháp luật Tác giả luận văn Nguyễn Văn Quyền Lâm LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, động viên, giúp đỡ hướng dẫn tận tình Cơ hướng dẫn TS Lê Thanh Vân, luận văn với đề tài "Gom cụm văn dựa mơ hình phát chủ đề" hồn thành Tơi xin tỏ lịng biết ơn sâu sắc đến: Cô TS Lê Thanh Vân tận tình dẫn, giúp đỡ tơi suốt q trình hồn thiện luận văn Tơi xin cảm ơn đến khoa Khoa học kỹ thuật Máy tính thuộc trường đại học Bách khoa thành phố Hồ Chí Minh giúp đỡ tơi q trình học tập hồn thiện luận văn Tơi xin chân thành cảm ơn đến bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ tơi suốt q trình học tập, thực hồn thiện luận văn Tơi xin chân thành cảm ơn! Hồ Chí Minh, ngày tháng năm 2021 Sinh viên Nguyễn Văn Quyền Lâm TÓM TẮT LUẬN VĂN Luận văn nói nêu lên vấn đề phân tích liệu thu thập trang báo mạng, diễn đàn, mạng xã hội Khi mà việc phân tích, tìm đặc trưng với lượng liệu lớn nhằm mục tiêu đưa kế hoạch, giải pháp, đề xuất ứng phó với nguy dần xuất Nhưng khó khăn vấn đề phân tích với lượng liệu lớn, phong phú, đa dạng vậy? Mục tiêu luận văn gom cụm liệu dạng văn với thành chủ đề lớn, từ chủ đề phân cụm với phương pháp khác mục đích khác lại phục vụ để phân cụm thấp hơn, trở thành nguồn liệu cho tác vụ khác Hiện ứng dụng quan trọng mà phân cụm thực đưa chủ đề nóng, chủ đề bật mà người viết, người đọc trang diễn đàn quan tâm nhiều khoảng thời gian định Luận văn chứng minh khả cải thiện tính xác hiệu việc gom cụm văn cách kết hợp mơ hình phát chủ đề với phương pháp đại phân tích ngữ nghĩa văn sử dụng BERT Mở hướng nghiên cứu khoa học máy tính, đặc biệt xử lý ngôn ngữ tự nhiên Mục lục Giới thiệu đề tài 1.1 Đặt vấn đề 1.2 Mục tiêu, đối tượng phạm vi giới hạn đề tài 1.2.1 Mục tiêu 1.2.2 Đối tượng phạm vi giới hạn đề tài 1.3 Phương pháp nghiên cứu 1.4 Các thách thức gặp phải trình thực luận văn 1.5 Ý nghĩa đề tài 1.5.1 Ý nghĩa khoa học 1.5.2 Ý nghĩa thực tiễn Tổng quan mơ hình chủ đề 2.1 Tổng quan chủ đề 2.2 Tổng quan mơ hình chủ đề 2.2.1 Khái niệm mô hình chủ đề 2.2.2 Lịch sử mơ hình chủ đề i 2.3 Một số mơ hình chủ đề 2.3.1 Mơ hình LSA 2.3.2 Mơ hình pLSA 11 2.3.3 Mô hình LDA 14 2.3.4 Mơ hình CTM 14 2.3.5 Một số mơ hình khác 15 2.4 Mơ hình LDA 16 2.5 Tổng kết chương 22 Gom cụm(Clustering) 23 3.1 Tổng quan gom cụm 23 3.2 Phương pháp gom cụm liệu với Kmeans++ 26 3.3 Tổng kết chương 28 Phương pháp khai thác ngữ nghĩa văn 29 4.1 Tổng quan Sentence Embedding 29 4.2 Mơ hình BERT 31 4.2.1 Sự đời BERT 31 4.2.2 Kiến trúc 32 4.2.3 Kết BERT đạt 37 Khai thác ngữ nghĩa văn tiếng Việt với PhoBERT 38 4.3.1 38 4.3 Giới thiệu RoBERTa 4.3.2 4.4 PhoBERT với văn tiếng Việt 39 Tổng kết chương 41 Đề xuất mơ hình gom cụm văn dựa mơ hình chủ đề kết hợp với véc-tơ ngữ nghĩa văn 42 5.1 Đầu vào liệu 43 5.2 Khối LDA 44 5.2.1 Mô giản lược 45 5.2.2 Ví dụ thực tế với liệu 45 Khối PhoBERT 46 5.3.1 Mô giản lược 47 5.3.2 Ví dụ thực tế với liệu 48 Khối Autoencoder 49 5.4.1 Tổng quan giảm chiều liệu 49 5.4.2 Autoencoder 50 5.4.3 Khối Autoencoder mô hình đề xuất 52 5.4.4 Mô giản lược 53 5.4.5 Ví dụ thực tế với liệu 53 Khối Clustering 55 5.5.1 Mô giản lược 55 5.5.2 Ví dụ thực tế với liệu 55 Tổng kết chương 56 5.3 5.4 5.5 5.6 • LDA kết hợp PhoBERT, Autoencoder Kmeans++: Tương tự mơ hình kết hợp BERT_LDA, mơ hình cho kết tốt phân chia cụm Hình 6.5: Phân cụm liệu vector sinh việc kết hợp PhoBERT LDA PhoBERT giảm chiều Autoencoder(mô với UMAP) Xem xét độ đo mơ hình: LDA- LDA- BERT PHOBERT 0.5961 0.7128 0.7137 0.0616 0.4684 0.4711 Độ đo / Mơ hình TF-IDF LDA BERT PHOBERT Coherensive(CV) 0.7471 0.6918 0.5934 Silhouette 0.0149 / 0.0321 Bảng 6.4: Bảng độ đo so sánh mơ hình Nhận xét: Mơ hình đề xuất PhoBERT + LDA đem lại kết tốt độ mạch lạc từ chủ đề phân biệt chủ đề khác Xét độ chênh lệch với mô hình BERT đa ngơn ngữ + LDA khơng nhiều, cải thiện đó, mặt chứng minh khả mơ hình đơn ngôn ngữ nhà nghiên cứu Việt Nam đề xuất có cải thiện tốt số tác vụ NLP chuyên biệt Quan sát cụm mơ hình đề xuất, thấy q trình phân cụm tốt thơng qua wordclouds thấy từ chủ đề có liên quan đến rõ ràng: 67 • Cụm 0: Đây cụm với chủ đề giáo dục Dễ dàng nhận thấy từ wordclouds, từ như: Trường, thi, học_sinh, đào tạo, đại học, thể rõ cho chủ đề Giáo dục Hình 6.6: Cụm index mơ hình để xuất • Cụm 1: Đây cụm với chủ đề kinh doanh Dễ dàng nhận thấy từ wordclouds, từ như: giá, doanh nghiệp, thị trường, cơng ty, Hình 6.7: Cụm index mơ hình để xuất 68 6.5.2 Tập liệu [II] Để quan sát luồng dư luận thay đổi nào, phải quan sát thay đổi đề cập, ý thông tin Ở thay đổi mức độ quan tâm, độ bật chủ đề theo thời gian Để làm việc mơ hình phải phân cụm chủ đề tốt Như đề cập tập liệu [I], mơ hình đề xuất đem lại kết phân cụm chủ đề tương đối tốt Sau đó, sử dụng nguồn liệu thu thập theo thời gian để đem phân cụm xem xét thay đổi phân bố chủ đề qua tuần Thực nghiệm thể tính thực tiễn ứng dụng mơ hình đề xuất luận văn Quan sát kết trình phân cụm chủ đề qua tuần: Vị trí Tuần Tuần Tuần Tuần Tuần Tuần Tuần Tuần 13.88 4.79 15.91 6.26 6.72 7.07 8.06 5.45 8.94 19.96 14.03 14.71 12.58 11.16 13.1 15.2 8.47 14.27 11.3 13.83 13.52 10.14 11.33 10.39 8.59 8.7 9.42 15.07 12.06 10.9 13.75 14.41 8.94 5.46 13.94 5.11 8.01 4.68 11.09 12.62 9.41 8.36 5.18 9.34 8.27 10.65 10.18 12 5.13 8.66 7.75 6.08 11.5 5.71 4.01 6.82 14.38 7.82 7.75 10.59 11.67 4.66 6.88 6.59 3.79 6.78 7.31 8.96 9.37 6.59 8.53 10.12 6.13 3.48 5.81 10.51 8.01 5.39 4.01 10 6.24 9.03 3.48 7.05 1.98 4.86 10.77 8.32 chủ đề / Tuần Bảng 6.5: Thống kê phân bố( tính theo %) chủ đề theo tuần(tổng 11 chủ đề 100% Vị trí chủ đề khơng giống hàng, trị số index mơ hình xuất ra) Dễ dàng nhận thấy có phân bố chủ đề qua tuần khác Để nhận thấy phân bố này, xem xét bảng tiếp theo, bảng lấy chủ đề có 69 phân bố lớn tuần xem xét thay đổi qua tuần luồng thông tin Mức bật Tuần Tuần Tuần Tuần thể thao sức khoẻ sức khoẻ sức khoẻ ca, vaccine, Ca, cách ly, covid, y tế, wordclouds wordclouds bóng, bàn, vaccine, trận, đội, tế, bác sĩ, bệnh giải bệnh nhân nhiễm nhiễm giải trí giáo dục kinh doanh kinh doanh trường, xét thị tuyển, dự án, đầu phim, diễn viên, mẹ, trẻ học bổng kinh doanh thi, viện, trường, tư Công thị ty, trường, doanh nghiệp giải trí phim, Ngân hàng, wordclouds y tác phẩm, diễn công ty, cổ viên,đạo phiếu diễn, diễn Bảng 6.6: Ghi nhận chủ đề bật qua tuần tháng Nhận xét: Có thể thấy đầu tháng 4, bật thông tin chiếm chủ đề bóng đá thể thao, hay phim giải trí, chứng khốn chủ đề kinh doanh Nhưng chuyển biến tuần lại tháng 4, chủ đề nóng lại tập trung chủ đề sức khoẻ liên quan đến dịch Covid vắc-xin, ca, nhiễm Tuy nhiên, thấy luồng dư luận có thay đổi ý thông tin thông quan quan sát chủ đề ý nhiều hay qua tuần 70 Mức bật Tuần Tuần Tuần Tuần sức khoẻ sức khoẻ sức khoẻ sức khoẻ ca, cách ly, wordclouds tiêm, covid, nhiễm, tử vong vaccine, bệnh viện, xét nghiệm, covid, tiêm, nhiễm thể thao ca, bệnh nhân,xét Y tế, ca, nghiệm, nhiễm, vac- vaccine, cine, nhiễm, liều, nhân bệnh y tế kinh doanh kinh doanh doanh wordclouds Thị trường, Trận, bóng, tiền, đầu tư, mùa, đội cơng ty, giá nghiệp, tiền, thị trường,công ty, vải, cổ phiếu wordclouds Bảng 6.7: Ghi nhận chủ đề bật qua tuần tháng Nhận xét: Trong tháng 5, tình hình covid trầm trọng Hầu phần lớn viết nói vấn đề này, khơng riêng chủ đề sức khoẻ Tuy nhiên theo quan sát, đầu tháng chủ đề thể thao nói trận World Cup đội tuyển chiếm nhiều ý Hay tuần 7, tuần 8, ý thuộc chủ đề kinh doanh mà thị trường chứng khốn có thay đổi mạnh, hay hỗ trợ công ty vải thiều mùa dịch bệnh đề cập Kết luận: Nhờ mơ hình đề xuất, việc quan sát thay đổi dư luận theo thời gian thực Việc xác định thông qua mức độ bật theo phần trăm chủ đề tuần Tuy đạt kết quan sát tuần, với mong muốn mơ hình đạt kết quan sát thay đổi dư luận theo ngày, tiếp tục nghiên cứu 71 6.6 Đánh giá ưu, nhược điểm mơ hình đề xuất Ưu điểm: • Mơ hình khai thác kết hợp phương pháp phân cụm liệu văn LDA với phương pháp khai thác thêm ngữ nghĩa văn BERT • Tính xác phân cụm văn tốt LDA • Nhờ khai thác phân cụm nên ứng dụng quan sát thay đổi dư luận đem lại kết tốt Nhược điểm: • Chưa thật khai thác tốt sentence embedding Như đề cập việc lấy sentence embedding trung bình cộng tất word embedding, điều khiến cho kiến trúc câu bị bỏ qua, nhiên kết hợp thể thông tin liên quan nghĩa từ • Thời gian huấn luyện chậm, kiến trúc mơ hình BERT phức tạp dẫn đến thời gian huấn luyện có lên đến cho 1000 hàng liệu • Số lượng topic chưa tối ưu hố, sinh trường hợp chồng lấp topic topic liên quan gần đến • Xử lý đầu vào liệu cịn vấn đề khó, giảm nhiễu đơn khiến thời gian lượng nhiễu xuất nhiều gây ảnh hưởng xấu đến tính xác mơ hình Hiện q trình xử lý nhiễu(những báo không đem lại nhiều khả phân loại gây ảnh hưởng xấu đến trình phân loại) thực bước một(hard code), tín hiệu nhận biết nhiễu người thực hiện(quan sát, phân loại, thống kê) Không tránh khỏi việc bỏ qua lượng lớn nhiễu lượng liệu sử dụng lớn Trong tương lại trang báo mạng, diễn đàn cập nhật tính báo nhiễu loại mà mơ hình khơng kiểm sốt 6.7 Tổng kết chương Chương tìm hiểu lý thuyết độ đo cho chủ đề coherence độ đo cho phân cụm silhouette Và thông tin liên quan đến kết thực nghiệm khả phân cụm chủ đề mơ hình, so 72 sánh kết với phương pháp có trước Ngồi việc ứng dụng mơ hình quan sát thay đổi luồng dư luận đạt hiệu tích cực Với kết thu thập rút nhận xét ưu điểm, khuyết điểm mơ hình 73 Chương Kết luận Qua tìm hiểu kết hợp kiến thức liên quan mơ hình chủ đề, mơ hình gom cụm, hệ thống kiến thức liên quan đến mơ hình BERT, cải tiến BERT(mơ hình RoBERTa) đơn ngơn ngữ tiếng Việt(mơ hình PhoBERT) Luận văn chứng minh cải tiến đạt hiệu phân cụm chủ đề cho tập liệu gồm văn với đề xuất mơ hình kết hợp Ngồi nhờ mơ hình đề xuất, việc phát thông tin ý dư luận hay thay đổi luồng dư luận theo thời gian đạt kết tích cực Kết đạt được: • Kết phân cụm mơ hình đạt hiệu so với mơ hình TF-IDF, LDA, BERT Mơ hình kết hợp với cụm phân chia có phân biệt với nhau, dễ nhận biết mơ hình khác • Kết quan sát thay đổi dư luận mang tính tích cực Sự chênh lệch phân bố chủ đề qua tuần rõ rệt, dựa vào từ top(những từ có tần suất xuất nhiều) chủ đề hot(chủ đề ý nhiều) để xác định ý luồng thông tin Tuy nhiên, hạn chế thời gian nên luận văn cịn hạn chế: • Q trình xử lý nhiễu vẫn đơn giản Lượng liệu chưa phong phú liệu quan sát lấy 15000 báo • Hạn chế phần cứng thời gian huấn luyện mơ hình • Vẫn tồn phân chia chủ đề chưa hợp lý trình phân cụm, nguyên nhân 74 xuất phát siêu tham số Gamma Mơ hình phân cụm đề xuất phụ thuộc vào siêu tham số để tối ưu hoá khả kết hợp LDA PHOBERT, siêu tham số ảnh hưởng lớn tới q trình phân cụm khối Clustering • Vẫn chưa khắc phục hạn chế LDA nằm việc số cụm chủ đề phân chia K phải xác định trước không chọn K hợp lý dễ gặp trường hợp chồng lấp topic thưa thớt topic Đề xuất phương án cải tiến cho mơ hình: • Về liệu: Khai thác thêm nguồn liệu báo điện tử, bổ sung thêm vào nguồn liệu Hướng đến kết hợp thêm nguồn thông tin từ viết mạng xã hội diễn đàn trực tuyến Lượng liệu phong phú đa dạng đòi hỏi phải tối ưu xử lý tốt trình giảm nhiễu bước tiền xử lý liệu • Về mơ hình: Đề xuất từ thuật toán tảng áp dụng khai thác thuật toán đại Một vài đề xuất: thay mơ hình PhoBERT với mơ hình Big Bird, mơ hình cải tiến BERT đề xuất năm 2020 dành cho văn có độ dài lớn; Việc giảm chiều liệu thực quan lớp CNN(Mạng tích chập), khả giữ nhiều lượng thông tin véc-tơ nối; Những phương pháp phân cụm đại khác KMeans • Về ứng dụng: Mong muốn hình thành ứng dụng tự động thu thập huấn luyện mơ hình Người dùng cần lựa chọn khoảng thời gian(ngày, tuần, tháng, năm) cần quan sát thay đổi luồng dư luận nhận kết từ mơ hình huấn luyện sẵn Các kết luận văn hi vọng đem đến hướng nghiên cứu ứng dụng thực tế Tìm hướng cải tiến tương lai, phát triển nâng cao kết cho mơ hình phân cụm chủ đề văn 75 Tài liệu tham khảo [1] Martin Gerlach; Tiago Pexioto; Eduardo Altmann In A network approach to topic models Science Advances (7): eaaq1360 arXiv:1708.01677 Bibcode:2018SciA 4.1360G PMC 6051742 PMID 30035215, 2018 [2] Markus M.; Kriegel Hans-Peter; Sander Jăorg Ankerst, Mihael; Breunig Optics: Ordering points to identify the clustering structure" acm sigmod international conference on management of data In ACM SIGMOD international conference on Management of data ACM Press, page 49_60, 1999 [3] S Arthur, D.; Vassilvitskii "k-means++: the advantages of careful seeding" In Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, page 1027_1035 Society for Industrial and Applied Mathematics Philadelphia, PA, USA, 2007 [4] David M Blei B Dieng, Francisco J R Ruiz Topic modeling in embedding spaces In Transactions of the Association for Computational Linguistics, volume 8, page 439_453, Jul 2020 [5] Xu S Zhang L Yan R Su Z Han D Bao, S and Y Yu Data mining, 2009 icdm In Joint Emotion-Topic Modeling for Social Affective Text Mining, page 699_704 Ninth IEEE International Conference, 2009 [6] Chang J Paaß G Reichartz F Bergholz, A and S Strobel In Improved phishing detection using model-based features, 2008 [7] Martin D Berry, M W In e kontoghiorghes (series ed.), statistics: A series of textbooks and monographs: Handbook of parallel computing and statistics In Principle component analysis for information retrieval, page 399_413, 2005 [8] James C Bezdek In Pattern Recognition with Fuzzy Objective Function Algorithms, 1981 [9] Andrew Y.; Jordan Michael I; Lafferty John Blei, David M.; Ng In Latent Dirichlet 76 allocation, page 993_1022 Journal of Machine Learning Research, Jan 2003 [10] D Blei and J Lafferty In Correlated Topic Models Proceedings of the 18th International Conference on Neural Information Processing Systems, 2005 [11] David M Blei and John D Lafferty In Dynamic topic models, page 113_120 Proceedings of the 23rd international conference on Machine learning, 2006 [12] Allan J Salton G Buckley, C In Automatic routing and ad-hoc retrieval using SMART: TREC2, page 45_45 NIST SPECIAL PUBLICATION SP, 1994 [13] Davoud Moulavi Campello, Ricardo JGB and Jăorg Sander Density-based clustering based on hierarchical density estimates In Pacific-Asia conference on knowledge discovery and data mining, 2013 [14] Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, and Ray Kurzweil Universal sentence encoder CoRR, abs/1803.11175, 2018 [15] Y Chen and M J Zaki In Kate: K-competitive autoencoder for text Proceedings of the ACM SIGKDD International Conference on Data Mining and Knowledge Discovery, Aug 2017 [16] Alexis Conneau, Douwe Kiela, Holger Schwenk, Loăic Barrault, and Antoine Bordes Supervised learning of universal sentence representations from natural language inference data In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 670–680, Copenhagen, Denmark, September 2017 Association for Computational Linguistics [17] Dumais S T Furnas G W Landauer T K Harshman R Deerwester, S In Indexing by latent semantic analysis Journal of the American society for information science, 41(6): 391, 1990 [18] Nan M Laird Dempster, Arthur P and Donald B Rubin In Maximum likelihood from incomplete data via the EM algorithm, volume Series B (methodological), page 1_38 Journal of the royal statistical society, 1977 [19] Arden Dertat Autoencoder [20] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova BERT: pre-training of deep bidirectional transformers for language understanding CoRR, abs/1810.04805, 2018 77 [21] Fridlyand J Dudoit, S and T P In Speed: comparison of discrimination methods for the classification of tumor using gene expression data., page 77_87 J Amer Stat Assoc 97, 2002 [22] J C Dunn A fuzzy relative of the isodata process and its use in detecting compact wellseparated clusters" journal of cybernetics page 32_57, 1973 [23] Hans-Peter; Sander Jăorg; Xu Xiaowei Ester, Martin; Kriegel A density-based algorithm for discovering clusters in large spatial databases with noise In Simoudis, Evangelos; Han, Jiawei; Fayyad, Usama M (eds.) Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), page 226_231, 1996 [24] D.B.T.L Griffiths and M I J J B Tenenbaum In Hierarchical topic models and the nested chinese restaurant process, page 17 Advances in neural information processing systems 16, 2004 [25] Hofmann, Thomas In Probabilistic Latent Semantic Indexing(PDF) Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval Archived from the original (PDF) on 2010-12-14, 1999 [26] ChengXiang Zhai Hongning Wang, Duo Zhang In Structural Topic Model for Latent Topical Structure Analysis, page 1526_1535 Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, Jun 2011 [27] Kai Yu Matthias Schubert Shipeng Yu Volker Tresp Huang, Yi and Hans-Peter Kriegel Data mining,fifth ieee international conference In "Hierarchy-regularized latent semantic indexing, page 8_8 IEEE, 2005 [28] Yang LI Ting LIU Jing JIANG In Hashtag recommendation with topical attention-based LSTM Singapore Management University, Dec 2016 [29] Myller N Kakkonen, T and E Sutinen In Applying latent Dirichlet allocation to automatic essay grading, page 110_120 Lecture Notes in Computer Science, 2006 [30] Myller N Sutinen E Kakkonen, T and J Timonen In Comparison of Dimension Reduction Methods for Automated Essay Grading||, Educational Technology Society, page 275_288, 2008 [31] Bansal P Kherwa, P In Latent Semantic Analysis: An Approach to Understand Semantic of Text, page 870_874 In International Conference on Current Trends in Computer, Electrical, Electronics and Communication (CTCEEC), 2017 78 [32] Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S Zemel, Antonio Torralba, Raquel Urtasun, and Sanja Fidler Skip-thought vectors arXiv preprint arXiv:1506.06726, 2015 [33] Andrew Li, Wei; McCallum Pachinko allocation: Dag-structured mixture models of topic correlations Proceedings of the 23rd International Conference on Machine Learning, 2006 [34] Kar Wai Lim and Wray Buntine Machine learning 103 In Bibliographic analysis on research publications using authors, categorical labels and the citation network, volume 2, page 185_213, 2016 [35] Chen P Liu T., Zhang N.L Hierarchical latent tree analysis for topic detection In Calders T., Esposito F., Hăullermeier E., Meo R (eds) Machine Learning and Knowledge Discovery in Databases, 2014 [36] Chris Manning and Hinrich Schăutze In Foundations of Statistical Natural Language Processing MIT Press Cambridge, May 1999 [37] Lizhen Lin Marina S Paez, Arash A Amini In Hierarchical Stochastic Block Model for Community Detection in Multiplex Networks, Apr 2019 [38] Wang X McCallum, A and A Corrada-Emmanuel In Topic and role discovery in social networks with experiments on enron and academic email, page 249_272 Journal of Artificial Intelligence Research, 2007 [39] Tomas Mikolov, Edouard Grave, Piotr Bojanowski, Christian Puhrsch, and Armand Joulin Advances in pre-training distributed word representations In Proceedings of the International Conference on Language Resources and Evaluation (LREC 2018), 2018 [40] Ahmad Baraani-Dastjerdi Mohammadreza Shams In Combination of latent Dirichlet allocation with word co-occurrence analysis for aspect extraction Expert Systems with Applications, Feb 2017 [41] Runxin Li-Dingsheng Luo Nie, Jiazhong and Xihong Wu Refine bigram plsa model by assigning latent topics unevenly In Automatic Speech Recognition Understanding, volume Series B (methodological), page 141_146 ASRU IEEE Workshop, 2007 [42] Tamaki Papadimitriou, Raghavan and Vempala In Latent Semantic Indexing: A probabilistic analysis, page Proceedings of ACM PODS: 159_168 ISBN 978-0897919968 S2CID 1479546, 1998 79 [43] Matthew E Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer Deep contextualized word representations In Proc of NAACL, 2018 [44] D Gunopulos R Agrawal, J Gehrke and P Raghavan Automatic subspace clustering of high dimensional data for data mining applications In SIGMOD’98, 1998 [45] Barbara Di Eugenio Riccardo Serafin In FLSA: Extending Latent Semantic Analysis with features for dialogue act classification Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, 21-26 July, 2004, Barcelona, Spain, Jan 2004 [46] Michael Răoder, Andreas Both, and Alexander Hinneburg Exploring the space of topic coherence measures In Proceedings of the Eighth ACM International Conference on Web Search and Data Mining, WSDM ’15, page 399–408, New York, NY, USA, 2015 Association for Computing Machinery [47] Filiberto Pla RubenFernandez-Beltran Image and vision computing In Maximum likelihood from incomplete data via the EM algorithm, volume 38, page 1_12 Journal of the royal statistical society, June 2015 [48] Shuguang Han DaqingHe Peter Brusilovsky Rui Meng, Sanqiang Zhao and Yu Chi In Deepkeyphrase generation Proceedings of Associa-tion for Computational Linguistics, 2017 [49] J Schmidhuber S Hochreiter Long short-term memory In Neural Comput, volume 9, page 1735_1780, 1997 [50] Gholamhosein Sheikholeslami, Surojit Chatterjee, and A Zhang Wavecluster: A multiresolution clustering approach for very large spatial databases In VLDB, 1998 [51] Padhraic Smyth Steyvers, Mark and Chaitanya Chemudugunta Topics in cognitive science 3, no In Combining background knowledge and learned topics, page 18_47, 2011 [52] Ivan Titov and Ryan McDonald In Modeling online reviews with multi-grain topic models, page 111_120 Proceedings of the 17th international conference on World Wide Web, 2008 [53] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin Attention is all you need CoRR, abs/1706.03762, 2017 [54] W Wang, Jiong Yang, and R Muntz Sting: A statistical information grid approach to spatial data mining In VLDB, 1997 80 [55] Wikipedia Kmeans clustering [56] Bing Bai Qihang Lin Xi Chen, Yanjun Qi and Jaime G Carbonell In Sparse Latent Semantic Analysis Proceedings of the 2011 SIAM International Conference on Data Mining, 2011 [57] Matthew J Beal Yee Whye Teh, Michael I Jordan and David M Blei In Hierarchical dirichlet processes, page 1566_1581 Journal of the American Statistical Association, 2006 [58] Phil Blunsom Yishu Miao, Lei Yu In Neural Variational Inference for Text Processing, 2016 [59] Jiaxin Huang Yu Zhang Chao Zhang Jiawei Han Yu Meng, Yunyi Zhang In Hierarchical Topic Mining via Joint Spherical Tree and Text Embedding, Jul 2020 [60] Hou Pong Chan Irwin King Michael R Lyu Shuming Shi Yue Wang, Jing Li In Topic-Aware Neural Keyphrase Generation for Social Media Language, volume Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, page 2516_2526, Jul 2019 [61] H Zhang H Lin F Wang K Xu H Xiong Zuo, J Wu In Topic Modeling of short texts: A pseudo-document view, page 2105_2114 Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining, ACM, 2016 81 ... nhằm cải thiện khả mơ hình phát chủ đề Với hi vọng đạt kết khả quan từ mơ hình đề xuất Nhận thấy vấn đề cần nghiên cứu tơi lựa chọn đề tài luận văn: "Gom cụm văn dựa mô hình phát chủ đề" Nhằm... Tổng quan mơ hình chủ đề 2.1 Tổng quan chủ đề Chủ đề vấn đề bản, vấn đề cốt lõi mà người viết, người nói nêu lên thơng qua văn lời nói Chủ đề cung cấp hội để hiểu nội dung đề cập từ chủ đề chi phối... văn lại mang chủ đề bao quát giống nhau, nhờ tính liên quan đến chủ đề mà hình thành mơ hình gom cụm chủ đề cho văn 2.2 Tổng quan mơ hình chủ đề 2.2.1 Khái niệm mơ hình chủ đề Trong học máy xử
- Xem thêm -

Xem thêm: Gom cụm văn bản dựa trên mô hình phát hiện chủ đề ,