Khai phá luồng văn bản với kỹ thuật gom cụm TT

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG VÕ THỊ HỒNG THẮM KHAI PHÁ LUỒNG VĂN BẢN VỚI KỸ THUẬT GOM CỤM TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Ngành: Khoa học máy tính Mã số ngành: 9480101 Đồng Nai, năm 2021 Cơng trình hoàn thành tại: Trường Đại học Lạc Hồng Người hướng dẫn khoa học: PGS.TS Đỗ Phúc Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án cấp Trường họp Vào hồi ngày tháng Có thể tìm hiểu luận án thư viện: - Thư viện trường Đại học Lạc Hồng - Thư viện Quốc Gia năm MỤC LỤC CHƯƠNG 1: GIỚI THIỆU 1.1 Tổng quan đề tài luận án 1.1.1 Bài toán nghiên cứu ý nghĩa 1.1.2 Thách thức toán gom cụm luồng văn 1.1.3 Các vấn đề nghiên cứu 1.1.4 Các toán nghiên cứu 1.2 Đóng góp luận án cơng trình công bố 1.3 Mục tiêu, phạm vi phương pháp nghiên cứu 1.3.1 Mục tiêu nghiên cứu 1.3.2 Phạm vi nghiên cứu 1.3.3 Phương pháp nghiên cứu: 1.4 Cấu trúc luận án CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Phương pháp tiếp cận dựa mơ hình chủ đề truyền thống 2.2 Phương pháp tiếp cận dựa mô hình hỗn hợp động 2.3 Phương pháp tiếp cận dựa biểu diễn không gian vectơ 2.4 Mô hình hóa chủ đề (Topic modeling) 2.5 Mơ hình hỗn hợp dựa quy trình Dirichlet (DPMM) 2.6 Đồ thị phổ biến 2.7 Mơ hình hóa bật luồng văn Kleinberg CHƯƠNG 3: GOM CỤM LUỒNG VĂN BẢN THEO NGỮ NGHĨA DỰA TRÊN ĐỒ THỊ TỪ 12 3.1 Phương pháp 12 3.1.1 Biểu diễn đặt trưng văn phương pháp túi từ (BOW) 12 3.1.2 Biểu diễn văn đồ thị từ (GOW) 13 3.1.3 Gom cụm luồng văn dựa mơ hình hỗn hợp 13 3.2 Thực nghiệm bàn luận 17 CHƯƠNG 4: PHÁT HIỆN CỤM TỪ XU THẾ TRÊN LUỒNG VĂN BẢN 18 4.1 Phương pháp 18 4.2 Thực nghiệm bàn luận 20 CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN 22 5.1 Các kết đạt được, hạn chế hướng phát triển 22 5.2 Ý nghĩa học thuật thực tiễn luận án 24 MỘT SỐ ĐỊNH NGHĨA Luồng liệu [36]: chuỗi phần tử vô hạn đếm Cấu trúc phần tử luồng mơ hình luồng khác khác Xử lý luồng phân tích luồng liệu đầu vào cách nhanh chóng để đưa kết Khi xử lý luồng, thời gian khái niệm trung tâm phần tử luồng liên kết với nhiều nhãn thời gian định ví dụ phần tử tạo, phần tử sẵn sàng để xử lý Luồng văn bản[4]: chuỗi văn xếp theo thứ tự đến nhanh chóng liên tục theo thời gian hai dạng chính: tin tức truyền thơng xã hội Khai phá văn bản[9]: khai phá liệu từ sưu tập liệu văn với mục đích khám phá kiến thức (hoặc thơng tin, mẫu) từ liệu văn khơng có cấu trúc bán cấu trúc Gom cụm văn [33]: tự động nhóm tài liệu dạng văn (ví dụ: tài liệu dạng văn túy, trang web, email, ) thành cụm (thường gọi chủ đề) dựa giống (tương đồng) nội dung chúng Văn ngắn (short text): đoạn bình luận, trao đổi, nhận xét ngắn mạng xã hội với số lượng từ giới hạn (thường có vài từ, vài câu, chiều dài trung bình văn tập liệu ngắn tiêu chuẩn thường khoảng từ) khác với tài liệu dài báo, văn bản, tin tức gồm nhiều đoạn văn Đồ thị phổ biến (Frequent subgraph/common sub GOW): đồ thị có tần số xuất đồ thị biểu diễn văn nhiều ngưỡng cho trước (min support) Khai phá đồ thị phổ biến: kỹ thuật dùng để rút trích tập hợp đồ thị phổ biến tập văn 𝐷 cho dựa tập hợp để biễu diễn đặc trưng phân biệt cho văn 𝑑 tập văn Quan hệ đồng từ: mối quan hệ từ xuất với văn Trong phạm vi luận án này, mối quan hệ đồng từ xuất cặp từ văn bản, từ đứng cạnh văn biểu diễn cung nối (vô hướng) đồ thị đỉnh từ Sự bật (burst): khoảng thời gian liên tục mà từ khóa xuất cách dồn dập, khác thường luồng văn Phát bật (burst detection): trình phát bật Cụm từ xu (tiêu biểu) (trendy keywords): tập từ hàng đầu/tiêu biểu xuất bật bật Các bật xu (tiêu biểu) (trendy bursts) tập bật từ khóa với trọng số bật (burst weight) cao Trọng số bật (burst weight) tính dựa vào tổng trọng số từ khóa (keyword weight) Trọng số từ khóa (keyword weight) tính dựa vào tổng tần số từ khóa xuất bật CHƯƠNG 1: GIỚI THIỆU 1.1 Tổng quan đề tài luận án 1.1.1 Bài toán nghiên cứu ý nghĩa Là dạng thức luồng liệu, chuỗi vô hạn phần tử đếm [36], luồng văn loại luồng liệu đặc biệt, liệu tài liệu văn đến liên tục [4], luồng văn chuỗi văn xếp theo thứ tự, đến nhanh chóng liên tục theo thời gian hai dạng chính: tin tức truyền thơng xã hội Khai phá văn bản, theo [9], hoạt động khai thác liệu từ sưu tập liệu văn với mục đích khám phá kiến thức (hoặc thông tin, mẫu) từ liệu văn cấu trúc bán cấu trúc Vấn đề khai phá luồng văn thu hút nhiều quan tâm với nhiều nghiên cứu liên quan như: Xử lý ngôn ngữ tự nhiên, Thu thập thông tin [34], Phát chủ đề, Định nghĩa từ ngữ, Khai phá thơng tin, Phân tích mạng xã hội [24], Tóm tắt văn [16, 18], Phân tích cảm xúc, Mơ hình không gian Vector, Phân lớp văn bản, Gom cụm văn bản, vv… Trong nghiên cứu khai phá luồng văn bản, gom cụm luồng văn vấn đề quan trọng cộng đồng nghiên cứu có nhiều ứng dụng phân nhóm văn bản, xếp tài liệu, phát theo dõi chủ đề …Theo [33], gom cụm văn tự động nhóm tài liệu dạng văn (ví dụ: tài liệu dạng văn túy, trang web, email, ) thành cụm dựa giống hay tương đồng nội dung chúng Vấn đề gom cụm văn định nghĩa sau Cho tập hợp gồm 𝑛 tài liệu ký hiệu 𝐷 = {𝑑1 , 𝑑2 , … , 𝑑𝑛 } số cụm xác định trước 𝐾 (thường người dùng thiết lập), 𝐷 nhóm thành 𝑘 cụm tài liệu Z={𝑧1 , 𝑧2 , … , 𝑧𝑘 } cho tài liệu cụm tương đồng tài liệu khác cụm không tương đồng Tùy theo mục đích gom cụm mà tương đồng định nghĩa khác tùy theo mơ hình gom cụm mà cách thức suy luận cụm dành cho tài liệu khác Khi gom cụm luồng văn bản, số lượng cụm thay đổi theo thời gian văn đến luồng thay đổi Do đó, khơng thể xác định trước số cụm Hiện nay, gom cụm luồng văn vấn đề có ý nghĩa hoạt động khai phá liệu với nhiều ứng dụng mang tính thực tiễn cao lọc nhóm tin tức, thu thập văn bản, tổ chức tài liệu, phát theo dõi chủ đề, gom cụm email 1.1.2 Thách thức toán gom cụm luồng văn Từ xưa đến nay, hầu hết nghiên cứu gom cụm văn chủ yếu tập trung vào văn tĩnh dài áp dụng cho tập ngữ liệu văn có tốc độ thay đổi nhanh chóng, gồm tài liệu văn ngắn bình luận/bài đăng/microblog mạng xã hội như: Twitters, Facebook, gom cụm văn ngắn (được áp dụng vào nhiều lĩnh vực đa dạng hóa kết tìm kiếm, phát kiện tóm tắt tài liệu [37], hệ thống khuyến nghị [10]) khó khăn so với phương pháp gom cụm văn tĩnh truyền thống ba đặc tính chính, bao gồm độ dài tài liệu khác (rất ngắn với vài từ dài), độ rời rạc đặc trưng liệu văn thay đổi nhanh chóng chủ đề lô tài liệu văn khác (đến từ luồng văn bản) Ngoài ra, trường hợp liệu văn truyền phát nhanh từ nguồn tài nguyên truyền thông xã hội, áp dụng kỹ thuật gom cụm văn truyền thống để xử lý sưu tập văn đến với tốc độ cao rời rạc tập liệu văn ngắn Gần đây, nhiều nhà nghiên cứu ý nhiều vào nghiên cứu gom cụm luồng văn liên quan để tối ưu hóa hiệu suất tính xác gom cụm thời gian xử lý mơ hình Mơ hình chủ đề cách tiếp cận phổ biến để xử lý tác vụ gom cụm luồng văn Các mô hình dựa mơ hình chủ đề thiết kế dựa vào giả định tài liệu văn tạo mơ hình hỗn hợp Sau đó, cách ước tính tham số mơ hình thông qua nhiều kỹ thuật, chẳng hạn Lấy mẫu Gibbs (GS), Tuần tự Monte Carlo (SMC), …, để rút phân phối chủ đề văn tập ngữ liệu văn Lấy cảm hứng từ mơ hình Phân bổ tiềm ẩn Dirichlet ban đầu (LDA) [8], số phần mở rộng đề xuất để giải tác vụ mơ hình hóa luồng văn bản, chẳng hạn mơ hình tiếng: DTM (năm 2006) [7], TM-LDA (năm 2012) [58], LDM (năm 2015)[45], USTM (năm 2015) [67], ST-LDA (năm 2016) [3], DCT (năm 2016) [35], MStream/MstreamF (năm 2018) [69], BTM (năm 2018) [25], DP-BMM (năm 2020) [12], GSDMM (năm 2020) [1] Các kỹ thuật dựa mơ hình hỗn hợp cố gắng tìm phân phối chủ đề tài liệu luồng văn cho để hoàn thành nhiệm vụ gom cụm Tuy nhiên, mơ hình dựa LDA DTM, TM-LDA, ST-LDA, áp dụng để xử lý tài liệu văn ngắn Do hạn chế xuất phát từ chất kỹ thuật dựa LDA, mơ hình hỗn hợp tài liệu chủ đề phải có số lượng từ phổ biến phù hợp từ tài liệu suy chủ đề đạt chất lượng cao Do đó, mơ hình dựa LDA đạt hiệu suất cao với tài liệu luồng văn dài theo ngữ cảnh đủ phong phú GPU-DMM [16] [32] khai thác kiến thức tảng học từ hàng triệu tài liệu bên để cải thiện mơ hình chủ đề văn ngắn Tuy nhiên, mơ hình mơ hình ngoại tuyến (offline) Gần đây, mơ hình DCT MStream/MStreamF đề xuất để vượt qua thách thức gom cụm luồng văn ngắn, nhiên, mô hình gặp phải hạn chế chủ yếu bỏ qua mối quan hệ từ bên suy phân phối chủ đề từ tài liệu cho Có hai thách thức gom cụm luồng văn nhà nghiên cứu tìm hiểu trước Thách thức liên quan đến tài liệu ngắn luồng văn bản, đặc biệt xảy cách tiếp cận dựa mơ hình chủ đề Thách thức thứ hai gom cụm luồng văn thiếu đánh giá mối liên hệ từ văn bản, chẳng hạn đồng xuất cặp từ hay mối quan hệ ngữ nghĩa từ…, suy chủ đề cho văn luồng Hạn chế gom cụm luồng văn ngắn Một chế để suy chủ đề - chủ đề phân bố rời rạc tập từ - sử dụng cách tiếp cận mơ hình chủ đề hay mơ hình hỗn hợp gom cụm luồng văn chủ yếu dựa vào nội dung (các từ phân tán) tài liệu Nội dung tài liệu luồng phải đủ phong phú (có số lượng từ xuất hợp lý) để suy phân phối đa thức chủ đề tài liệu Do đó, với số lượng từ xuất thấp tài liệu (chỉ có vài từ), độ xác mơ hình tổng thể giảm đáng kể Các nghiên cứu gần chứng minh hầu hết kỹ thuật gom cụm luồng văn dựa mô hình chủ đề hay mơ hình hỗn hợp khơng thể đạt hiệu suất tốt văn ngắn, có vài từ nhận xét blog nhỏ mạng xã hội Đã có nhiều nghiên cứu gom cụm luồng văn ngắn [6, 17, 31, 32, 42, 43, 49, 56, 69, 71, 75] Trên thực tế, khó khăn lớn việc gom cụm liệu phát trực tuyến thay đổi nhanh chóng số lượng chủ đề theo thời gian, chẳng hạn xu hướng “nóng” chủ đề thảo luận thường xuyên mạng xã hội phổ biến Facebook, Twitter… Do đó, phân phối chủ đề luồng văn biến động theo thời gian thay đổi liên tục chủ đề Nhiều văn ngắn luồng đến bao gồm chủ đề khác có tính chất rời rạc cấu trúc thô chúng Trong cách tiếp cận dựa mơ hình hóa chủ đề, việc chọn số cụm cho lô tài liệu từ luồng với đa dạng cấu trúc văn chủ đề bao phủ nhiệm vụ dễ dàng Hơn nữa, việc áp dụng số lượng chủ đề cố định cách tiếp cận mơ hình hóa chủ đề trước (vốn hạn chế nhiều cơng trình chẳng hạn [44, 74]) cho tất lô tài liệu luồng văn định không linh hoạt giải vấn đề chủ đề thay đổi liên tục văn đến liên tục Do đó, việc xác định thay đổi phân bố chủ đề tài liệu văn có độ dài ngắn bình luận (Facebook), tweet (Twitter), nhiệm vụ khó khăn thu hút nhiều quan tâm nhiều nhà nghiên cứu năm gần Thiếu xem xét mối quan hệ từ Mối quan hệ từ hiểu mối quan hệ từ ngữ cảnh cụ thể văn Bên cạnh thách thức liên quan đến vấn đề văn đến liên tục làm thay chủ đề thay đổi theo gom cụm luồng văn ngắn, việc không xem xét mối quan hệ từ hạn chế lớn phương pháp gom cụm luồng văn gần Trong hầu hết kỹ thuật gom cụm luồng văn dựa mơ hình chủ đề, từ văn đánh giá độc lập mà không xem xét mối quan hệ chúng ngữ cảnh văn cụ thể Vốn dĩ tài liệu văn cấu trúc tự nhiên phức tạp người Tùy thuộc vào cách sử dụng ngôn ngữ, từ tài liệu xếp chặt chẽ theo cấu trúc hệ thống cụ thể Do đó, thứ tự tổ hợp từ khác (mối quan hệ từ) mang ý nghĩa ngữ nghĩa khác nhau, điều chắn gây ảnh hưởng đến việc xác định chủ đề tài liệu chứa từ Một giả định phổ biến kỹ thuật gom cụm luồng văn dựa mơ hình tập tài liệu có nhóm từ thơng dụng có xu hướng nhóm chủ đề, kỹ thuật gọi cách biểu diễn theo túi từ (BOW) truyền thống Hạn chế biểu diễn BOW phần lớn bỏ qua mối quan hệ từ (ví dụ: “con gà” hồn tồn khác “gà con”) mối quan hệ (như từ kết hợp : “Hoa Kỳ”, “vi rút Corona”, ) Do đó, lấy mẫu phân phối từ phổ biến tài liệu q trình suy luận chủ đề mà khơng xem xét mối quan hệ từ dẫn đến việc hạ thấp độ xác kết gom cụm Cho nên, việc mở rộng đánh giá mối quan hệ từ ngữ cảnh khác văn trình suy luận chủ đề giúp cải thiện chất lượng kết gom cụm luồng văn 1.1.3 Các vấn đề nghiên cứu Từ việc phân tích hạn chế cơng trình nghiên cứu, luận án xác định số vấn đề nghiên cứu liên quan bao gồm: Vấn đề gom cụm luồng văn ngắn; Vấn đề gom cụm luồng văn số chủ đề thay đổi văn đến liên tục theo thời gian; Vấn đề xét mối quan hệ từ gom cụm luồng văn bản; Vấn đề gom cụm luồng văn tiếng Việt; Vấn đề tiền xử lý nội dung văn trước tiến hành gom cụm việc vận dụng chế rút trích từ khóa tiền xử lý văn bản; Vấn đề phát xu từ thông qua phát cụm từ xu Đây vấn đề giúp hình thành nên tốn luận án 1.1.4 Các toán nghiên cứu 1.1.4.1 Bài toán – gom cụm luồng văn theo ngữ nghĩa với đồ thị từ Để giải thách thức nêu trên, toán 1, luận án đề xuất cách tiếp cận gom cụm luồng văn dựa mơ hình hỗn hợp, áp dụng đánh giá đồ thị từ (GOW-Graph of Words) xuất tập ngữ liệu văn cho, gọi mơ hình GOW-Stream Biểu diễn tài liệu văn dựa GOW cách tiếp cận NLP tiếng nhằm mục đích biểu diễn tài liệu văn thành cấu trúc dựa đồ thị nút đại diện cho tập hợp từ phân biệt xuất tài liệu cạnh đại diện cho quan hệ đồng xuất tương ứng từ (hai từ xuất gần thể cung nối hai đỉnh, đỉnh từ) Trong GOW-Stream, luồng GOW thiết kế để tận dụng hiệu độ xác thời gian xử lý cho tác vụ gom cụm luồng văn cách đánh giá kỹ lưỡng mối quan hệ từ ngữ suy cụm Kết thực nghiệm so sánh với thuật toán công bố gần đây, như: DTM[7], Sumblr[50] MStream[69] thử nghiệm liệu chuẩn Các cơng trình [1][2][3][4][5] nghiên cứu sinh giải tốn 1.1.4.2 Bài tốn – Tìm cụm từ xu luồng liệu văn Trong toán 2, luận án đề xuất hệ thống gọi TKES (Trendy Keyword Extraction System) Đây hệ thống hỗ trợ thu thập thơng tin tự động, rút trích từ khóa tự động, xử lý văn Tiếng Việt, hướng đến việc xây dựng hoàn thiện tập liệu văn tiếng Việt phục vụ nghiên cứu, thử nghiệm liên quan đến toán gom cụm luồng văn Hệ thống áp dụng kỹ thuật đơn giản TF-IDF vào rút trích từ khóa có tần số xuất cao, áp dụng số kỹ thuật huấn luyện mô hình phương pháp đo độ tương đồng từ khóa vào tìm từ khóa tương đồng, có so sánh kết từ việc sử dụng nhiều phương pháp đo độ tương đồng Ngoài ra, hệ thống đề xuất huấn luyện cập nhật mơ hình, đo độ ổn định để đưa vào chạy thực tế Đóng góp luận án toán đề xuất thuật toán phát cụm từ xu thế, bật tiêu biểu từ khóa dựa vào ý tưởng thuật tốn Kleinberg [30] Cơng trình [6] nghiên cứu sinh giải tốn 1.2 Đóng góp luận án cơng trình công bố Sử dụng phương pháp nghiên cứu tổng luận phương pháp nghiên cứu thực nghiệm so sánh, luận án công bố 04 báo đăng kỷ yếu hội thảo quốc tế (ACM Springer) 02 báo đăng tạp chí (01 thuộc danh mục Scopus/Q3 01 thuộc danh mục SCIE/Q3) 1.3 Mục tiêu, phạm vi phương pháp nghiên cứu 1.3.1 Mục tiêu nghiên cứu Với toán nghiên cứu xác định, luận án đặt mục tiêu nghiên cứu cụ thể Để giải toán 1, mục tiêu xác lập bao gồm: So sánh mơ hình gom cụm luồng văn bản; Nhận diện thách thức mơ hình; Xác định tập liệu chuẩn phục vụ cho thực nghiệm; Đề xuất mơ hình gom cụm luồng văn bản; Cải tiến mơ hình đề xuất Các nhiệm vụ thực toán gồm: Nghiên cứu phát cụm từ xu luồng liệu văn bản; Nghiên cứu phát bật tiêu biểu từ khóa 1.3.2 Phạm vi nghiên cứu Thông qua việc xác định hạn chế cơng trình nghiên cứu trước, xác định vấn đề nghiên cứu, hình thành tốn cho luận án, với đối tượng nghiên cứu luồng liệu văn ngắn, phạm vi nghiên cứu luận án xác lập sau: (1) Gom cụm luồng văn ngắn, rời rạc đến từ mạng xã hội phổ biến 16 prob(zd = z|z¬d , α) ∝ mz,¬d D − + αD (3.7) Trong đó, D số lượng tài liệu tổng thể lơ phát trực tuyến tại; mz,¬d số tài liệu chủ đề (z), ngoại trừ tài liệu (d) Hình 3.3: Lưu đồ thuật tốn GOW-Stream Đối với phần thứ hai công thức (3.6): prob(d|zd = z, ⃗dz,¬d , β), phần xem xét liên quan đồ thị phổ biến (g) từ (w) chủ đề định (z) tài liệu (d) suy thêm sau (xem công thức (3.8)): Nw prob(d|zd = z, ⃗dz,¬d , β) = d ∏w∈d ∏j=1 (nw z,¬d + β + j − 1) N d ∏i=1 (nz,¬d + Wβ + i − 1) 𝐅 + 𝐠 𝐠 𝐝 ∏𝐠∈𝐝 ∏𝐣=𝟏 (𝐟𝐳,¬𝐝 + 𝛃 + 𝐣 − 𝟏) (3.8) 𝐅 𝐝 ∏𝐢=𝟏 (𝐧𝐳,¬𝐝 + 𝐅𝛃 + 𝐢 − 𝟏) Trong đó, W F đại diện cho tập hợp từ xuất đồ thị phổ g biến sưu tập tài liệu (D); nw z,¬d fz,¬d số lượng từ xuất GOW phổ biến chủ đề (z) cho, không chứa tài liệu cho (d) Thêm tài liệu vào chủ đề Đối với phương pháp suy luận chủ đề động dựa DPMM trường hợp số lượng chủ đề vô hạn, nên áp dụng phép biến đổi θ~GEM(α) thành θ~GEM(αD) Do đó, xác suất chủ đề (K + 1), với K số chủ đề tại, tạo cho tài liệu cho (d) thay đổi cách sửa đổi phần (công thức (3.9) mục (a)) phần thứ hai (công thức (3.9) mục (b)) công thức (3.6) sau: prob(zd = z|z¬d , α) ∝ 𝛼𝐷 D − + αD Nw ⃗ z,¬d , β) = prob(d|zd = K + 1, d d ∏w∈d ∏j=1 (β + j − 1) N d ∏i=1 (Wβ + i − 1) g F + d ∏g∈d ∏j=1 (β + j − 1) F d ∏i=1 (Fβ + i − 1) (3.9) (a) (b) 17 Trong đó, K số chủ đề khám phá từ luồng văn định; αD β số giả (pseudo) tài liệu số lần xuất từ đồ thị phổ biến chủ đề tạo thứ (K + 1) Hình 3.3 trình bày lưu đồ thuật tốn 3.2 Thực nghiệm bàn luận Tập liệu số đánh giá Sử dụng hai tập liệu chuẩn gán nhãn giới thực: Google-News (GN); Tweets (Tw); Tập liệu tổng hợp (GN-T, Tw-T) Sử dụng hai độ đo đánh giá NMI F1 So sánh với ba thuật toán gom cụm luồng văn đại: DTM (tiếp cận mơ hình chủ đề động, “số lượng chủ đề cố định”), Sumblr (tiếp cận dựa độ tương đồng gom cụm văn có độ dài ngắn, “số lượng chủ đề cố định”) MStream (mơ hình hỗn hợp, gom cụm văn có độ dài ngắn, đánh giá độc lập với từ, bỏ qua mối quan hệ từ) Thực nghiệm thiết lập mặc định mơ hình Số lần lặp lại cho lô tài liệu đến định cấu hình 10, tập liệu định chia thành 16 lô tài liệu khác nhau, lô tài liệu chạy 10 thử nghiệm độc lập cho mơ hình báo cáo kết trung bình Kết thực nghiệm bàn luận Nhiệm vụ gom cụm luồng văn Thử nghiệm nhiệm vụ gom cụm văn với hai tập liệu 10 lần cho mơ hình báo cáo kết trung bình với độ lệch chuẩn, dùng độ đo NMI F1 Nhìn chung, GOWStream đề xuất ln đạt độ xác cao Tốc độ mơ hình Phần thực thử nghiệm Với thử nghiệm xử lý suy luận chủ đề (không xét trình biểu diễn đặc trưng văn tìm đồ thị phổ biến) chứng minh kết hợp đánh giá từ độc lập đánh giá đồ thị phổ biến suy chủ đề từ luồng văn có tốc độ nhanh Với thử nghiệm trình tổng thể, mơ hình GOW-Stream chậm Mstream tốn nhiều chi phí cho q trình tìm đồ thị phổ biến Độ ổn định mơ hình Kết thử nghiệm chứng minh mơ hình đề xuất đạt cân độ xác kết phạm vi 7-10 lần lặp cho lô tài liệu, đáp ứng ổn định độ xác kết nhanh Độ nhạy siêu tham số mơ hình Kết thực nghiệm cho thấy mơ hình GOW-Stream đạt hiệu suất ổn định độ xác với giá trị khác siêu tham số 𝛼 𝛽, chứng minh tính hiệu tính ổn định mơ hình 18 CHƯƠNG 4: PHÁT HIỆN CỤM TỪ XU THẾ TRÊN LUỒNG VĂN BẢN 4.1 Phương pháp Giới thiệu Dựa ý tưởng Kleinberg, nghiên cứu đề xuất phương pháp tìm cụm từ xu luồng liệu văn cài đặt tính tìm xu hướng thời theo dõi phát triển chủ đề theo thời gian cho hệ thống TKES (Trendy Keyword Extraction System), hệ thống mà luận án đề xuất sử dụng kỹ thuật phát bật (Burst) để phát cụm từ xu (trendy words) luồng văn Bên cạnh đó, hệ thống TKES đề xuất thuật toán xếp hạng bật để từ tìm bật tiêu biểu (trendy bursts) hàng đầu từ khóa Mơ hình hóa bật luồng văn Kleinberg Giả sử có luồng văn ví dụ thư mục e-mail lớn chủ đề rộng Xác định bật giúp ích việc cấu trúc luồng văn này? Cách tiếp cận Kleinberg lập mơ hình luồng cách sử dụng automát 𝒜 trạng thái không xác định, thời điểm trạng thái phát thông điệp tốc độ khác tùy thuộc vào trạng thái mô hình Cụ thể, automát 𝒜 có tập hợp trạng thái tương ứng với tốc độ phát ngày nhanh khởi điểm bật báo hiệu chuyển đổi trạng thái - từ trạng thái thấp sang trạng thái cao Bằng cách ấn định chi phí cho việc chuyển đổi trạng thái, kiểm sốt tần số chuyển đổi đó, ngăn chặn đợt bật ngắn giúp dễ dàng xác định đợt bật dài tốc độ luồng có thay đổi Khung tổng thể thuật toán Kleinberg đề xuất dựa phương pháp Markov sử dụng việc mơ hình hóa bật lưu lượng truy cập mạng, mơ hình Markov ẩn Hệ thống TKES Bao gồm ba mơ-đun chính: Bộ thu thập liệu, Bộ xử lý liệu (với bước chính: Tiền xử lý Xử lý) Bộ hiển thị liệu Kiến trúc hệ thống sau, liệu thu thập thu thập thông tin chuyển đến xử lý Ở đây, liệu tổ chức theo cấu trúc Tiếp theo, xử lý thực hai nhóm thuật tốn chính: nhóm bao gồm thuật toán xử lý văn bản, bao gồm tách từ văn tiếng Việt, loại bỏ từ dừng Nhóm thuật tốn chịu trách nhiệm xử lý, tính tốn lưu trữ kết Nhóm thứ hai bao gồm thuật toán làm hết hạn liệu lỗi thời, loại bỏ từ dừng khỏi hệ thống, sử dụng cửa sổ trượt thời gian, bao gồm số thuật toán Wjoin, PWJoin, vv Cuối cùng, hiển thị trực quan liệu tương tác với người dùng thông qua giao diện trực quan cho phép người dùng xem, xếp lưu liệu kết theo yêu cầu họ 19 Trong hệ thống TKES, liệu văn đến liên tục hàng ngày thu thập, xử lý sau được lưu trữ, kết xuất thành kho ngữ liệu văn Hệ thống xác định đối tượng gọi Bài viết (Tiêu đề, Tác giả, Mô tả, Nội dung) đại diện cho viết luồng văn Các viết nhóm theo Ngày, Hạng mục nên Chuyên mục có n Bài viết Hệ thống sử dụng cấu trúc để lưu liệu đến (cũng sử dụng nhớ ngồi cần), sau thực số hoạt động tiền xử lý bao gồm phân đoạn văn bản, dừng loại bỏ từ dừng/hư từ Để phát cụm từ bùng phát, hệ thống trước tiên thực tính tốn tầm quan trọng từ khóa sử dụng kỹ thuật TF-IDF, tìm từ khóa tương đồng Kết theo yêu cầu người dùng hiển thị trực quan sử dụng đồ thị.Hình 4.1 mơ tả trình tự thực xử lý tìm cụm từ xu thế, từ liệu đầu vào báo qua xử lý tập từ khóa rút trích từ liệu đầu vào này, hệ thống tính tốn dựa nhãn thời gian chúng Sự bật xem khoảng thời gian mà từ khóa xuất liên tục, đơn vị thời gian xét đơn vị ngày Hình 4.1: Trình tự xử lý Rút trích cụm từ xu Hình 4.2 mơ tả cấu trúc lưu trữ để tính tốn bật Từ từ khóa rút trích, nghiên cứu sử dụng kỹ thuật phát bật từ khóa để giải tốn đặt Hình 4.2: Cấu trúc lưu trữ dùng để phát bật Mơ tả thuật tốn Lấy ý tưởng từ thuật toán Kleinberg [30], nghiên cứu đề xuất phương pháp phù hợp để xử lý phát bật nhằm giải toán đặt Phương pháp phát bật dựa thuật tốn Kleinberg, thực tính tốn trọng số từ khóa KeywordWeight (tổng tần số tất lần xuất từ khóa bật) Trọng số phục vụ cho việc phát bật tiêu biểu từ khóa (có trọng số xuất từ khóa cao) chọn danh sách từ khóa bật tiêu biểu hàng đầu (trendy keywords) 20 4.2 Thực nghiệm bàn luận Tính phát bật từ khóa Luận án thực thử nghiệm liệu báo hệ thống thu thập từ trang Tin tức trực tuyến năm với tổng số gần 80.000 viết Thuật toán dựa ý tưởng Kleinberg sử dụng để phát Burst tập liệu Thời gian quy ước liên tục theo đơn vị ngày Thử nghiệm thực tìm mức độ liên tục kiện (một từ khóa xuất báo thời điểm) Có nghĩa là, từ w định, hệ thống tìm xem w có thu hút ý hay khơng dịng văn cách: Chọn báo có từ 𝑤 Sắp xếp mục theo thứ tự ngày Áp dụng thuật toán cho mục Xuất kết quả, báo trạng thái Burst, trọng số bùng phát (nếu cần) Bảng 4.5 thể kết khoảng thời gian bật từ khóa “Facebook” Mỗi bật Burst (BurstID, Start, End, Burst weight) phân biệt mã số phân biệt (BurstID) tính từ 1, thời gian bắt đầu, thời gian kết thúc trọng số Burst cho biết số mức độ quan tâm người dùng từ khóa Trọng số Burst từ khóa tính cách tổng tất giá trị tần suất từ khóa Burst Vì vậy, trọng số cao mức độ quan tâm từ khóa cao Bảng 4.1: Các bật từ khóa “Facebook” Từ khóa Mã số Burst Bắt đầu Kết thúc Trọng số bật Facebook Facebook Facebook Facebook 03-21-2018 03-26-2018 04-03-2018 04-06-2018 03-24-2018 03-29-2018 04-04-2018 04-08-2018 46 22 78 69 Bảng 4.1 phát từ khóa “Facebook” xuất báo từ ngày 21 tháng 03 đến ngày 08 tháng 04, năm 2019 Có thể thấy “Facebook” trở nên phổ biến 02 ngày từ 03 tháng 04 đến 04 tháng 04 Sau đó, người tiếp tục nhắc đến Facebook từ ngày 06 đến ngày 08 tháng 04 Do đó, phát bật giúp người dùng theo dõi xu hướng, độ “nóng” từ khóa Như biết, lý “Facebook” trở nên quan tâm với tần số cao giai đoạn vụ việc rị rỉ thơng tin người dùng liên quan đến bầu cử Tổng thống Trump Hoa Kỳ Hệ thống xây dựng hỗ trợ người dùng xem kết cách trực quan (như thấy Hình 4.3) 21 Hình 4.3: Phát bật từ khóa “Facebook” Lựa chọn từ thu hút ý khoảng thời gian Mục tiêu thử nghiệm chọn từ khóa tượng trưng, tiêu biểu cho xảy khoảng thời gian luồng tài liệu Danh sách từ lập cách: Chọn viết bao gồm từ w tìm xem có bật từ khóa hay khơng Nếu có nhiều bật, chọn bật có trọng số lớn Nếu có bật, lưu từ khoảng thời gian bật từ Rút trích tất từ liên quan báo xuất khoảng thời gian bật vừa xác định Sắp xếp theo trọng số, chọn top-n xuất kết Bảng 4.2 trình bày top-5 từ khóa giai đoạn bùng phát 03-04-2018 đến 04-042018 xếp theo giá trị trọng số từ cao tới thấp Bảng 4.2: Xác định danh sách từ xu chung với từ khóa “Facebook” Lưu_trữ Giai đoạn bật Trọng số 04/03/2018 - 04/04/2018 101,9 04/03/2018 - 04/04/2018 89,4 Quản_trị 04/03/2018 - 04/04/2018 88 Nhà_tù 04/03/2018 - 04/04/2018 52,2 Chính_phủ 04/03/2018 - 04/04/2018 31,6 Từ khóa Cấm Thực nghiệm bàn luận giải thuật Đo thời gian xử lý thu thập liệu Kết thực nghiệm chứng minh hệ thống thu thập viết khoảng thời gian ngắn Đo thời gian xử lý thêm liệu vào sở liệu đồ thị Kết cho thấy việc thêm liệu vào sở liệu đồ thị thời gian, khoảng phút 22 Đo thời gian xử lý xử lý liệu Kết cho thấy xử lý liệu tiêu tốn thời gian Mất khoảng 20 phút, để xử lý liệu hàng ngày, hàng tuần hàng tháng So sánh thời gian xử lý liệu có số lượng kích thước khác Kết cho thấy số lượng viết lý vấn đề tốn thời gian Dựa kết này, hệ thống có hội cải thiện tốc độ xử lý thông qua việc thực nghiên cứu sâu có liên quan So sánh liệu kết chạy phiên TF-IDF khác Kết cho thấy nhiều từ khóa có giá trị trọng số tần số, việc xếp lọc chọn từ khóa hàng đầu tạo khác biệt kết đầu Nhiều từ khóa có tần số việc làm trịn giá trị tần số chúng Vì vậy, cần phải cẩn thận làm tròn giá trị cần thiết lập tiêu chí rõ ràng để chọn từ khóa có tần số Tính tốn thời gian huấn luyện mơ hình tìm từ khóa tương đồng Thực nghiệm tính tốn thời gian xử lý dựa hoạt động bao gồm hoạt động huấn luyện mơ hình, hoạt động tìm kiếm từ liên quan huấn luyện mơ hình đáp ứng thực tế Với hoạt động huấn luyện mơ hình, Kết cho thấy mơ hình huấn luyện bổ sung tốn thời gian so với huấn luyện mơ hình Tính tốn thời gian tìm từ liên quan Kết cho thấy thời gian xử lý tìm kiếm từ khóa liên quan phụ thuộc vào số lượng từ khóa Càng nhiều từ khóa, nhiều thời gian để xử lý Tính tốn thời gian rút trích cụm từ xu Kết cho thấy mối tương quan số lượng báo thu thập ngày thời gian xử lý phát bật Nói chung, thời gian xử lý tỷ lệ thuận với số lượng báo Do đó, số lượng từ khóa xuất tăng theo thời gian, việc tính tốn phát Burst nhiều thời gian Do đó, giải pháp lưu trữ hết hạn liệu khứ cần thực tương lai gần để tối ưu hóa thời gian xử lý hệ thống Các tập liệu hệ thống Hệ thống cho phép kết xuất thay đổi định dạng tập liệu văn theo nhu cầu nghiên cứu CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN 5.1 Các kết đạt được, hạn chế hướng phát triển Phần nghiên cứu tổng quan luận án đã: Lược sử cơng trình liên quan đến hướng nghiên cứu đề tài toán đặt từ giúp mang lại nhìn tổng thể vấn đề nghiên cứu; Tìm hiểu kỹ thuật tảng vấn đề nghiên cứu; Phân tích điểm mạnh yếu nghiên cứu liên quan từ định tốn phương án giải quyết; So sánh giải pháp có sử dụng cách tiếp cận từ tìm 23 ưu điểm hạn chế giải pháp; Cập nhật liên tục thời điểm nghiên cứu liên quan từ thấy phát triển liên tục hướng nghiên cứu; Hoạt động nhóm nghiên cứu đầu ngành, chuyên gia tiếng cộng đồng nghiên cứu thuộc lĩnh vực nghiên cứu liên quan theo dõi nêu rõ Có thể nói, tốn tốn luận án thể đóng góp quan trọng, cụ thể sau: Đề xuất cách tiếp cận gom cụm luồng văn dựa mơ hình hỗn hợp, áp dụng đánh giá đồ thị từ (GOW) xuất tập ngữ liệu văn cho; Thực đánh giá mối quan hệ từ suy cụm; Đề xuất cách tiếp cận áp dụng văn n-gram vào đồ thị hóa văn (text2graph) với kỹ thuật khai phá đồ thị phổ biến (FSM) để rút trích đồ thị phổ biến từ kho ngữ liệu văn cho; Sử dụng kỹ thuật rút trích đồ thị phổ biến tài liệu văn để hỗ trợ q trình ước tính phân phối chủ đề tài liệu; Xử lý hiệu tác vụ gom cụm luồng văn ngắn cách kết hợp đánh giá từ độc lập (các từ riêng biệt tài liệu) từ phụ thuộc (các từ xuất đồ thị phổ biến); Kết hợp đánh giá dựa đồ thị phổ biến đánh giá từ cách độc lập trình suy luận chủ đề mơ hình hỗn hợp quy trình Dirichlet (DPMM) để nâng cao kết gom cụm văn từ luồng liệu; Giải thách thức liên quan đến thay đổi chủ đề tự nhiên luồng văn cịn cải thiện độ xác và thời gian xử lý gom cụm so với mơ hình dựa đánh giá độc lập từ trước so sánh hiệu GOW-Stream với thuật toán đại gần đây, như: DTM, Sumblr Mstream Điểm mạnh GOW-Stream có hiệu suất tốt thuật tốn đại cơng bố gần như: DTM, Sumblr Mstream GOW-Stream, có thời gian xử lý gom cụm tốt, nhiên phải tốn thời gian cho q trình đồ thị hóa văn tìm đồ thị phổ biến Hướng phát triển đề nghị là: xem xét tối ưu hóa mơ biểu diễn văn dạng đồ thị phức tạp hơn, áp dụng số cách biểu diễn đặc trưng xem xét thêm ngữ nghĩa thời gian, lấy kết từ nghiên cứu phát cụm từ xu vào cải tiến biểu diễn đặc trưng văn bản; Xem xét phương pháp khác để biểu diễn mối quan hệ từ văn bản; Xem xét mở rộng việc triển khai mơ hình GOW-Stream môi trường xử lý phân tán chủ yếu thiết kế để xử lý luồng liệu dạng văn quy mô lớn tốc độ cao, chẳng hạn Apache Spark Streaming Ngồi ra, mơ hình đề xuất sử dụng để cải thiện hiệu suất ứng dụng khai thác văn khác, chẳng hạn phân định từ ngữ (word sense disambiguation) [57], khai thác bình luận [72] nhiệm vụ theo chuỗi thời gian [23] Hơn nữa, nhiều nghiên cứu gần áp dụng hiệu học sâu (deep learning) vào cải thiện kết gom cụm [2, 11, 27, 28, 24 47, 59, 63, 68], [13, 15, 20, 21, 26, 29, 39, 40, 48, 52, 54, 55, 61, 62, 65, 66] Thiết nghĩ hướng phát triển cho luận án Bài toán thứ đề xuất hệ thống TKES với đóng góp đề xuất thuật toán phát bật từ khóa dựa thuật tốn Kleinberg, thuật tốn chứng minh tính hiệu tin tưởng ứng dụng vào nhiều lĩnh vực Cụ thể nghiên cứu đề xuất thuật toán phát bật, cụm từ xu thế, bật tiêu biểu Để xây dựng hệ thống TKES, luận án sử dụng TF-IDF để tìm từ khóa, sử dụng mạng Nơ ron để huấn luyện mơ hình tìm tập từ khóa tương đồng, sử dụng mơ hình Skip-gram, độ đo so sánh độ tương đồng Cosine, Euclidean, Manhattan, Minkowski, Jaccard, kỹ thuật tiền xử lý liệu văn tiếng Việt Các kết thực nghiệm nghiên cứu bao gồm: tính tốn thời gian xử lý, so sánh thời gian xử lý giải pháp tập liệu khác nhau; Thu thập tập liệu nguồn kết xuất kết thành tập liệu phục vụ cho nghiên cứu liên quan Hướng phát triển đề xuất sau: Nghiên cứu, cấu trúc lại tập liệu theo dạng chuẩn chung để công bố; Hoàn thiện đáp ứng yêu cầu người dùng vào nhiều tảng khác Smart phone, Web …để đáp ứng triển khai thực tiễn; Sử dụng kết nghiên cứu phát cụm từ xu để nâng cao hiệu mơ hình GOW-Stream việc nắm bắt thêm xu hướng từ văn đến từ luồng thực gom cụm 5.2 Ý nghĩa học thuật thực tiễn luận án Về học thuật, luận án đề xuất mơ hình Mơ hình GOW-Stream thể tính ưu việt so sánh với thuật toán đại gần Hệ thống TKES có đóng góp đề xuất thuật toán phát cụm từ xu có tiềm ứng dụng vào việc tối ưu hóa mơ hình GOW-Stream đề xuất Các cơng trình nghiên cứu luận án gồm 04 báo hội nghị quốc tế (Springer/ACM) 02 báo tạp chí quốc tế (01 thuộc Scopus-Q3 01 thuộc SCIE-Q3) Về thực tiễn, mơ hình, thuật tốn đề xuất ứng dụng nhiều lĩnh vực, hệ thống xây dựng có ý nghĩa thực tiễn cao, phục vụ nhu cầu khai phá thông tin đông đảo người dùng thời đại cách mạng công nghiệp 4.0 TÀI LIỆU THAM KHẢO 10 11 12 13 14 15 16 17 Agarwal Neha, Sikka Geeta, and Awasthi Lalit Kumar, Evaluation of web service clustering using Dirichlet Multinomial Mixture model based approach for Dimensionality Reduction in service representation Information Processing & Management, 2020 57(4): p 102238 Aljalbout Elie, et al., Clustering with deep learning: Taxonomy and new methods arXiv preprint arXiv:1801.07648, 2018 Amoualian Hesam, et al Streaming-lda: A copula-based approach to modeling topic dependencies in document streams in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining 2016 Antonellis Panagiotis, et al., Efficient Algorithms for Clustering Data and Text Streams, in Encyclopedia of Information Science and Technology, Third Edition 2015, IGI Global p 1767-1776 Bakkum Douglas J, et al., Parameters for burst detection Frontiers in computational neuroscience, 2014 7: p 193 Bicalho Paulo, et al., A general framework to expand short text for topic modeling Information Sciences, 2017 393: p 66-81 Blei David M and Lafferty John D Dynamic topic models in Proceedings of the 23rd international conference on Machine learning 2006 Blei David M, Ng Andrew Y, and Jordan Michael I, Latent Dirichlet Allocation Journal of machine Learning research, 2003 3(Jan): p 993-1022 Cai Yanli and Sun Jian-Tao, Text Mining, in Encyclopedia of Database Systems, L Liu and M.T ÖZsu, Editors 2009, Springer US: Boston, MA p 3061-3065 Cami Bagher Rahimpour, Hassanpour Hamid, and Mashayekhi Hoda, User preferences modeling using dirichlet process mixture model for a content-based recommender system Knowledge-Based Systems, 2019 163: p 644-655 Chen Gang, Deep learning with nonparametric clustering arXiv preprint arXiv:1501.03084, 2015 Chen Junyang, Gong Zhiguo, and Liu Weiwen, A Dirichlet process biterm-based mixture model for short text stream clustering Applied Intelligence, 2020: p 1-11 Curiskis Stephan A, et al., An evaluation of document clustering and topic modelling in two online social networks: Twitter and Reddit Information Processing & Management, 2020 57(2): p 102034 Du Nan, et al Dirichlet-hawkes processes with applications to clustering continuous-time document streams in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 2015 Duan Tiehang, et al Sequential embedding induced text clustering, a nonparametric bayesian approach in Pacific-Asia Conference on Knowledge Discovery and Data Mining 2019 Springer Erkan Günes and Radev Dragomir R, Lexrank: Graph-based lexical centrality as salience in text summarization Journal of Artificial Intelligence Research, 2004 22: p 457-479 Finegan-Dollak Catherine, et al Effects of creativity and cluster tightness on short text clustering performance in Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) 2016 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Fisher David, et al., Evaluating ranking diversity and summarization in microblogs using hashtags University of Massachusetts, Boston, MA, Technical Report, 2015 Fung Gabriel Pui Cheong, et al Parameter free bursty events detection in text streams in Proceedings of the 31st international conference on Very large data bases 2005 VLDB Endowment Guo Xifeng, et al Improved deep embedded clustering with local structure preservation in IJCAI 2017 Guo Xifeng, et al Deep clustering with convolutional autoencoders in International conference on neural information processing 2017 Springer Heydari Atefeh, et al., Detection of review spam: A survey Expert Systems with Applications, 2015 42(7): p 3634-3642 Hu Jun and Zheng Wendong Transformation-gated LSTM: Efficient capture of short-term mutation dependencies for multivariate time series prediction tasks in 2019 International Joint Conference on Neural Networks (IJCNN) 2019 IEEE Hu Xia and Liu Huan, Text analytics in social media Mining text data, 2012: p 385-414 Hu Xuegang, Wang Haiyan, and Li Peipei, Online Biterm Topic Model based short text stream classification using short text expansion and concept drifting detection Pattern Recognition Letters, 2018 116: p 187-194 Jiang Zhuxi, et al., Variational deep embedding: An unsupervised and generative approach to clustering arXiv preprint arXiv:1611.05148, 2016 Jindal Vasu A personalized Markov clustering and deep learning approach for Arabic text categorization in Proceedings of the ACL 2016 Student Research Workshop 2016 Kampffmeyer Michael, et al., Deep divergence-based approach to clustering Neural Networks, 2019 113: p 91-101 Kim Jaeyoung, et al., Patent document clustering with deep embeddings Scientometrics, 2020: p 1-15 Kleinberg Jon, Bursty and hierarchical structure in streams Data Mining and Knowledge Discovery, 2003 7(4): p 373-397 Li Chenliang, et al., Enhancing topic modeling for short texts with auxiliary word embeddings ACM Transactions on Information Systems (TOIS), 2017 36(2): p 130 Li Chenliang, et al Topic modeling for short texts with auxiliary word embeddings in Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval 2016 Li Hua, Text Clustering, in Encyclopedia of Database Systems, L Liu and M.T ÖZsu, Editors 2009, Springer US: Boston, MA p 3044-3046 Liang Shangsong and de Rijke Maarten, Burst-aware data fusion for microblog search Information Processing & Management, 2015 51(2): p 89-113 Liang Shangsong, Yilmaz Emine, and Kanoulas Evangelos Dynamic clustering of streaming short documents in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining 2016 Margara Alessandro and Rabl Tilmann, Definition of Data Streams, in Encyclopedia of Big Data Technologies, S Sakr and A.Y Zomaya, Editors 2019, Springer International Publishing: Cham p 648-652 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 Nguyen Hai-Long, Woon Yew-Kwong, and Ng Wee-Keong, A survey on data stream clustering and classification Knowledge and information systems, 2015 45(3): p 535-569 Nguyen Tri and Do Phuc Topic discovery using frequent subgraph mining approach in International Conference on Computational Science and Technology 2017 Springer Park Jinuk, et al., ADC: Advanced document clustering using contextualized representations Expert Systems with Applications, 2019 137: p 157-166 Peters Matthew E, et al., Deep contextualized word representations arXiv preprint arXiv:1802.05365, 2018 Pham Phu, Do Phuc, and Ta Chien DC GOW-LDA: Applying Term Co-occurrence Graph Representation in LDA Topic Models Improvement in International Conference on Computational Science and Technology 2017 Springer Qiang Jipeng, et al Topic modeling over short texts by incorporating word embeddings in Pacific-Asia Conference on Knowledge Discovery and Data Mining 2017 Springer Qiang Jipeng, et al., Short text clustering based on Pitman-Yor process mixture model Applied Intelligence, 2018 48(7): p 1802-1812 Quan Xiaojun, et al Short and sparse text topic modeling via self-aggregation in Twenty-fourth international joint conference on artificial intelligence 2015 Quan Xiaojun, et al., Latent discriminative models for social emotion detection with emotional dependency ACM Transactions on Information Systems (TOIS), 2015 34(1): p 1-19 Romsaiyud Walisa Detecting emergency events and geo-location awareness from twitter streams in The International Conference on E-Technologies and Business on the Web (EBW2013) 2013 The Society of Digital Information and Wireless Communication Shah Setu and Luo Xiao Comparison of deep learning based concept representations for biomedical document clustering in 2018 IEEE EMBS international conference on biomedical & health informatics (BHI) 2018 IEEE Shaham Uri, et al., Spectralnet: Spectral clustering using deep neural networks arXiv preprint arXiv:1801.01587, 2018 Shi Tian, et al Short-text topic modeling via non-negative matrix factorization enriched with local word-context correlations in Proceedings of the 2018 World Wide Web Conference 2018 Shou Lidan, et al Sumblr: continuous summarization of evolving tweet streams in Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval 2013 Teh Yee Whye, Dirichlet Process 2010 Tian Kai, Zhou Shuigeng, and Guan Jihong Deepcluster: A general clustering framework based on deep learning in Joint European Conference on Machine Learning and Knowledge Discovery in Databases 2017 Springer Vlachos Michail, et al Identifying similarities, periodicities and bursts for online search queries in Proceedings of the 2004 ACM SIGMOD international conference on Management of data 2004 ACM Wan Haowen, et al., Research on Chinese Short Text Clustering Ensemble via Convolutional Neural Networks, in Artificial Intelligence in China 2020, Springer p 622-628 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 Wang Binyu, et al., Text clustering algorithm based on deep representation learning The Journal of Engineering, 2018 2018(16): p 1407-1414 Wang Wu, et al Learning latent topics from the word co-occurrence network in National Conference of Theoretical Computer Science 2017 Springer Wang Yinglin, Wang Ming, and Fujita Hamido, Word sense disambiguation: A comprehensive knowledge exploitation framework Knowledge-Based Systems, 2020 190: p 105030 Wang Yu, Agichtein Eugene, and Benzi Michele TM-LDA: efficient online modeling of latent topic transitions in social media in Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining 2012 Wang Zhiguo, Mi Haitao, and Ittycheriah Abraham, Semi-supervised clustering for short text via deep representation learning arXiv preprint arXiv:1602.06797, 2016 Weng Jianshu and Lee Bu-Sung, Event detection in twitter ICWSM, 2011 11: p 401-408 Xie Junyuan, Girshick Ross, and Farhadi Ali Unsupervised deep embedding for clustering analysis in International conference on machine learning 2016 Xu Dongkuan, et al Deep co-clustering in Proceedings of the 2019 SIAM International Conference on Data Mining 2019 SIAM Xu Jiaming, et al., Self-taught convolutional neural networks for short text clustering Neural Networks, 2017 88: p 22-31 Yamamoto Shuhei, et al., Twitter user tagging method based on burst time series International Journal of Web Information Systems, 2016 12(3): p 292-311 Yang Bo, et al Towards k-means-friendly spaces: Simultaneous deep learning and clustering in international conference on machine learning 2017 PMLR Yang Min, et al., Cross-domain aspect/sentiment-aware abstractive review summarization by combining topic modeling and deep reinforcement learning Neural Computing and Applications, 2020 32(11): p 6421-6433 Yang Zaihan, et al Parametric and non-parametric user-aware sentiment topic models in Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval 2015 Yi Junkai, et al., A novel text clustering approach using deep-learning vocabulary network Mathematical Problems in Engineering, 2017 2017 Yin Jianhua, et al Model-based clustering of short text streams in Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining 2018 Yin Jianhua and Wang Jianyong A model-based approach for text clustering with outlier detection in 2016 IEEE 32nd International Conference on Data Engineering (ICDE) 2016 IEEE Yin Jianhua and Wang Jianyong A text clustering algorithm using an online clustering scheme for initialization in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining 2016 Yuan Chunyuan, et al Learning review representations from user and product level information for spam detection in 2019 IEEE International Conference on Data Mining (ICDM) 2019 IEEE Zhang Yun, Hua Weina, and Yuan Shunbo, Mapping the scientific research on open data: A bibliometric review Learned Publishing, 2018 31(2): p 95-106 74 75 Zuo Yuan, et al Topic modeling of short texts: A pseudo-document view in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining 2016 Zuo Yuan, Zhao Jichang, and Xu Ke, Word network topic model: a simple but general solution for short and imbalanced texts Knowledge and Information Systems, 2016 48(2): p 379-398 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ Tạp chí quốc tế [CT5] Hong, Tham Vo Thi, and Phuc Do (2021) “TKES: A Novel System for Extracting Trendy Keywords from Online News Sites” In: Journal of the Operations Research Society of China (ISSN: 21946698) (http://link.springer.com/article/10.1007/s40305-020-00327-4) (Scopus/Q3 indexed) [CT6] Hong, Tham Vo Thi, and Phuc Do (2020) “GOW-Stream: a novel approach of graph-of-words based mixture model for semanticenhanced text stream clustering” In: Intelligent Data Analysis (ISSN: 1571-4128) (https://www.iospress.nl/journal/intelligent-data-analysis) (accepted for publication – 2020, September) (SCIE/Q3 indexed) Kỷ yếu Hội nghị quốc tế [CT1] Hong, T V T., & Do, P (2018, February) Developing a graphbased system for storing, exploiting and visualizing text stream In Proceedings of the 2nd International Conference on Machine Learning and Soft Computing (pp 82-86) (https://dl.acm.org/doi/abs/10.1145/3184066.3184084) [CT2] Hong, T.V.T and Do, P., (2018, October) SAR: A Graph-Based System with Text Stream Burst Detection and Visualization In International Conference on Intelligent Computing & Optimization (pp 35-45) Springer, Cham (https://link.springer.com/chapter/10.1007/978-3-030-00979-3_4) [CT3] Hong, T.V.T and Do, P., (2019, October) A Novel System for Related Keyword Extraction over a Text Stream of Articles In International Conference on Intelligent Computing & Optimization (pp 409-419) Springer, Cham (https://link.springer.com/chapter/10.1007/978-3-030-33585-4_41) [CT4] Hong, T.V.T and Do, P., (2019, October) Comparing Two Models of Document Similarity Search over a Text Stream of Articles from Online News Sites In International Conference on Intelligent Computing & Optimization (pp 379-388) Springer, Cham (https://link.springer.com/chapter/10.1007/978-3-030-33585-4_38) ... gồm: Vấn đề gom cụm luồng văn ngắn; Vấn đề gom cụm luồng văn số chủ đề thay đổi văn đến liên tục theo thời gian; Vấn đề xét mối quan hệ từ gom cụm luồng văn bản; Vấn đề gom cụm luồng văn tiếng... hội [24], Tóm tắt văn [16, 18], Phân tích cảm xúc, Mơ hình khơng gian Vector, Phân lớp văn bản, Gom cụm văn bản, vv… Trong nghiên cứu khai phá luồng văn bản, gom cụm luồng văn vấn đề quan trọng... kỹ thuật khai phá đồ thị phổ biến, ảnh hưởng mối quan hệ đồng cặp từ văn đến luồng đến kết gom cụm; (3) Nghiên cứu phát cụm từ xu luồng liệu văn (4) Nghiên cứu phát bật tiêu biểu luồng liệu văn

Định dạng
Số trang	35
Dung lượng	1,64 MB