rút trích tài liệu tương đồng

Kết quả nghiên cứu: Đề tài đã đề xuất hai hệ thống/mô hình bao gồm: TKES: Hệ Trang 6 tìm văn bản tương đồng theo chủ đề được phát triển dựa trên mô hình chủ đề DPMM và được cải tiến từ

GIỚI THIỆU

Tổng quan về đề tài

1.1.1 Bài toán nghiên cứu và ý nghĩa

Trong thời đại bùng nổ thông tin như hiện nay, nhu cầu rút trích thông tin đang là bài toán được nhiều người quan tâm Hàng ngày, số lượng thông tin đến từ các trang báo điện tử hay mạng xã hội là rất lớn và người dùng cần sự hỗ trợ để có những thông tin họ cần trong thời gian nhanh nhất Nhiều nhà nghiên cứu đã và đang vào cuộc với các vấn đề như: xử lý văn bản, nhận dạng sự kiện, tìm chủ đề, từ khóa phổ biến để tối ưu hóa thời gian có được thông tin người dùng mong muốn

Do ngày càng có nhiều mạng xã hội, diễn đàn, phương tiện truyền thông, thiết bị cảm ứng và người dùng điện thoại thông minh cũng đã và đang tạo ra lượng lớn dữ liệu, nhất là dữ liệu văn bản từ các mạng xã hội và các trang tin tức dưới dạng luồng văn bản Luồng văn bản là một loại luồng dữ liệu đặc biệt, trong đó dữ liệu là các tài liệu văn bản đến liên tục [8], luồng văn bản là chuỗi các văn bản được sắp xếp theo thứ tự, đến nhanh chóng và liên tục theo thời gian trong hai dạng chính: tin tức và truyền thông xã hội

Khai phá văn bản, theo [13], là hoạt động khai thác dữ liệu từ các bộ sưu tập dữ liệu văn bản với mục đích là khám phá kiến thức (hoặc thông tin, mẫu) từ dữ liệu văn bản không có cấu trúc hoặc bán cấu trúc Vấn đề về khai phá luồng văn bản cũng thu hút nhiều sự quan tâm với nhiều nghiên cứu liên quan như: Xử lý ngôn ngữ tự nhiên, Thu thập thông tin [31], Phát hiện chủ đề, Định nghĩa từ ngữ, Khai phá thông tin, Phân tích mạng xã hội [22], Tóm tắt văn bản [18, 20], Phân tích cảm xúc, Mô hình không gian Vector, Phân lớp văn bản, Gom cụm văn bản, vv…

Trong các nghiên cứu về khai phá luồng văn bản, gom cụm luồng văn bản được xem như bài toán rút trích văn bản/tài liệu tương đồng đến từ luồng văn bản là một vấn đề quan trọng trong cộng đồng nghiên cứu có nhiều ứng dụng như phân nhóm văn bản, sắp xếp tài liệu, phát hiện và theo dõi chủ đề …Theo [29], gom cụm văn bản là tự động nhóm các tài liệu dạng văn bản (ví dụ: tài liệu ở dạng văn bản thuần túy, trang web, email, ) thành các cụm dựa trên sự giống nhau hay tương đồng về nội dung của chúng Vấn đề gom cụm văn bản có thể được định nghĩa như sau Cho một tập hợp gồm 𝑛 tài liệu được ký hiệu là 𝐷 = {𝑑 1 , 𝑑 2 , … , 𝑑 𝑛 } và một số cụm được xác định trước 𝐾 (thường do người dùng thiết lập), 𝐷 được nhóm thành 𝑘 cụm tài liệu Z={𝑧 1 , 𝑧 2 , … , 𝑧 𝑘 } sao cho các tài liệu trong cùng một cụm tương đồng nhau và các tài liệu khác cụm không tương đồng nhau Tùy theo mục đích gom cụm mà sự tương đồng được định nghĩa khác nhau và tùy theo mô hình gom cụm mà cách thức suy luận cụm dành cho tài liệu cũng khác nhau Khi gom cụm trên luồng văn bản, số lượng cụm sẽ thay đổi theo thời gian vì văn bản đến trên luồng thay đổi Do đó, không thể xác định trước được số cụm

Hiện nay, gom cụm luồng văn bản là một vấn đề có ý nghĩa trong hoạt động khai phá dữ liệu với nhiều ứng dụng mang tính thực tiễn cao như lọc nhóm tin tức, thu thập văn bản, tổ chức tài liệu, phát hiện và theo dõi chủ đề, gom cụm email Ví dụ: trong ứng dụng phát hiện sự kiện xã hội, gom cụm văn bản có thể giúp xác định xu hướng đang được quan tâm hoặc đang được thảo luận thường xuyên về các chủ đề trong các mạng xã hội phổ biến gần đây Hoặc trong truy xuất văn bản, gom cụm văn bản có thể giúp nhóm các kết quả tìm kiếm có liên quan (dưới dạng tài liệu văn bản) để giúp người dùng dễ dàng rút trích thông tin cần thiết

Khi gom cụm văn bản, văn bản được phân chia thành nhiều cụm khác nhau, mỗi cụm đại diện cho một chủ đề nên ta có thể xem bài toán gom cụm trên luồng văn bản là bài toán nhóm các văn bản đến trên luồng với nhau và xác định chủ đề thích hợp cho từng nhóm văn bản hay là bài toán rút trích các tài liệu tương đồng về chủ đề

1.1.2 Thách thức của bài toán rút trích tài liệu văn bản tương đồng chủ đề

Từ xưa đến nay, hầu hết các nghiên cứu về rút trích tài liệu tương đồng chủ đề hay nói cách khác là bài toán gom cụm văn bản chủ yếu tập trung vào các văn bản tĩnh và dài Trên thực tế, các mô hình được thiết kế cho phương pháp gom cụm truyền thống này không thể áp dụng cho các tập ngữ liệu văn bản có tốc độ thay đổi nhanh chóng, gồm các tài liệu văn bản ngắn như bình luận/bài đăng/microblog trên các mạng xã hội như: Twitters, Facebook, gom cụm văn bản ngắn (được áp dụng vào nhiều lĩnh vực như đa dạng hóa kết quả tìm kiếm, phát hiện sự kiện và tóm tắt tài liệu [38], hệ thống khuyến nghị [14]) khó khăn hơn so với phương pháp gom cụm văn bản tĩnh truyền thống do ba đặc tính chính, bao gồm độ dài tài liệu khác nhau (rất ngắn chỉ với vài từ hoặc rất dài), độ rời rạc của đặc trưng dữ liệu văn bản và sự thay đổi nhanh chóng của các chủ đề trong các lô tài liệu văn bản khác nhau (đến tuần tự từ các luồng văn bản) Ngoài ra, trong trường hợp dữ liệu văn bản truyền phát nhanh từ các nguồn tài nguyên truyền thông xã hội, không thể áp dụng các kỹ thuật gom cụm văn bản truyền thống để xử lý các bộ sưu tập văn bản đến với tốc độ cao và sự rời rạc của các tập dữ liệu văn bản ngắn này

Gần đây, nhiều nhà nghiên cứu đã chú ý rất nhiều vào các nghiên cứu gom cụm luồng văn bản liên quan để tối ưu hóa hiệu suất về cả tính chính xác của gom cụm và thời gian xử lý của mô hình Mô hình chủ đề là một trong những cách tiếp cận phổ biến nhất để xử lý tác vụ gom cụm luồng văn bản Các mô hình dựa trên mô hình chủ đề được thiết kế dựa vào giả định rằng các tài liệu văn bản được tạo bởi một mô hình hỗn hợp Sau đó, bằng cách ước tính các tham số của mô hình thông qua nhiều kỹ thuật, chẳng hạn như Lấy mẫu Gibbs (GS), Tuần tự Monte Carlo (SMC), …, để rút ra các phân phối chủ đề văn bản trên tập ngữ liệu văn bản Lấy cảm hứng từ mô hình Phân bố ẩn Dirichlet ban đầu (LDA) [12], một số phần mở rộng đã được đề xuất để giải quyết các tác vụ mô hình hóa luồng văn bản, chẳng hạn như các mô hình nổi tiếng: DTM (năm 2006) [11], TM-LDA (năm 2012) [50], LDM (năm 2015)[44], USTM (năm 2015) [52], ST-LDA (năm 2016) [7], DCT (năm 2016) [32], MStream/MstreamF (năm 2018) [53], BTM (năm 2018) [23], DP-BMM (năm 2020) [16], GSDMM (năm 2020) [1] Các kỹ thuật dựa trên mô hình hỗn hợp này cố gắng tìm ra các phân phối chủ đề trên các tài liệu trong luồng văn bản đã cho để hoàn thành nhiệm vụ gom cụm Tuy nhiên, các mô hình dựa trên LDA như DTM, TM-LDA, ST-LDA, không thể áp dụng để xử lý các tài liệu văn bản ngắn Do hạn chế xuất phát từ bản chất của các kỹ thuật dựa trên LDA, mô hình hỗn hợp tài liệu chủ đề phải có được số lượng từ phổ biến phù hợp từ mỗi tài liệu mới có thể suy ra các chủ đề đạt chất lượng cao Do đó, các mô hình dựa trên LDA này chỉ có thể đạt được hiệu suất cao với các tài liệu luồng văn bản dài theo ngữ cảnh đủ phong phú GPU-DMM [16] [28] khai thác kiến thức nền tảng đã học được từ hàng triệu tài liệu bên ngoài để cải thiện mô hình chủ đề của các văn bản ngắn Tuy nhiên, mô hình này là một mô hình ngoại tuyến (offline) Gần đây, các mô hình DCT và MStream/MStreamF được đề xuất để vượt qua thách thức khi gom cụm luồng văn bản ngắn, tuy nhiên, các mô hình này vẫn gặp phải hạn chế chủ yếu bỏ qua các mối quan hệ từ bên trong khi suy ra các phân phối chủ đề từ các tài liệu đã cho

Có hai thách thức chính khi gom cụm luồng văn bản đã được các nhà nghiên cứu tìm hiểu trước kia Thách thức chính đầu tiên liên quan đến tài liệu ngắn trong các luồng văn bản, đặc biệt xảy ra trong cách tiếp cận dựa trên mô hình chủ đề Thách thức thứ hai trong gom cụm luồng văn bản là thiếu đánh giá mối liên hệ của từ, chẳng hạn sự đồng xuất hiện của các cặp từ hay mối quan hệ ngữ nghĩa giữa các từ…, trong khi suy ra chủ đề cho các văn bản của luồng

Hạn chế khi văn bản ngắn

Một cơ chế chính để suy ra chủ đề - mỗi chủ đề là phân bố rời rạc của một tập các từ - là sử dụng cách tiếp cận mô hình chủ đề hay mô hình hỗn hợp trong gom cụm luồng văn bản chủ yếu dựa vào nội dung (các từ phân tán) của tài liệu Nội dung của tài liệu trong luồng phải đủ phong phú (có số lượng từ xuất hiện hợp lý) để có thể suy ra đúng phân phối đa thức của chủ đề trên mỗi tài liệu Do đó, với số lượng từ xuất hiện thấp trong tài liệu (chỉ có vài từ), độ chính xác của mô hình tổng thể sẽ giảm đáng kể Các nghiên cứu gần đây chứng minh rằng hầu hết các kỹ thuật gom cụm luồng văn bản dựa trên mô hình chủ đề hay mô hình hỗn hợp không thể đạt được hiệu suất tốt đối với các văn bản ngắn, chỉ có vài từ như nhận xét hoặc blog nhỏ trên mạng xã hội Đã có nhiều nghiên cứu về gom cụm trên luồng văn bản ngắn [16, 31, 47, 48, 67, 68, 74, 83, 95, 97, 106] Trên thực tế, một trong những khó khăn lớn trong việc gom cụm dữ liệu phát trực tuyến là sự thay đổi nhanh chóng số lượng các chủ đề theo thời gian, chẳng hạn như các xu hướng “nóng” hoặc các chủ đề thảo luận thường xuyên trên các mạng xã hội phổ biến như Facebook, Twitter… Do đó, phân phối chủ đề của các luồng văn bản luôn biến động theo thời gian do sự thay đổi liên tục các chủ đề Nhiều văn bản ngắn trong mỗi luồng đến bao gồm các chủ đề khác nhau và có tính chất rời rạc trong cấu trúc thô của chúng Trong cách tiếp cận dựa trên mô hình hóa chủ đề, việc chọn đúng số cụm cho mỗi lô tài liệu từ một luồng nào đó với sự đa dạng của cấu trúc văn bản và các chủ đề được bao phủ không phải là một nhiệm vụ dễ dàng Hơn nữa, việc áp dụng số lượng chủ đề cố định như cách tiếp cận mô hình hóa chủ đề trước đây (vốn là hạn chế của rất nhiều công trình chẳng hạn như [69, 105]) cho tất cả các lô tài liệu trong một luồng văn bản nhất định không linh hoạt và không thể giải quyết vấn đề chủ đề thay đổi liên tục khi văn bản đến liên tục Do đó, việc xác định những thay đổi về phân bố chủ đề của các tài liệu văn bản có độ dài rất ngắn như bình luận (Facebook), tweet (Twitter), là nhiệm vụ cực kỳ khó khăn và thu hút rất nhiều sự quan tâm của nhiều nhà nghiên cứu trong những năm gần đây

Thiếu xem xét mối quan hệ giữa các từ

Mối quan hệ giữa các từ được hiểu ở đây có thể là mối quan hệ của các từ trong các ngữ cảnh cụ thể của văn bản Bên cạnh những thách thức liên quan đến vấn đề văn bản đến liên tục làm thay các chủ đề cũng thay đổi theo trong gom cụm luồng văn bản ngắn, việc không xem xét mối quan hệ giữa các từ cũng là một hạn chế lớn của các phương pháp gom cụm luồng văn bản gần đây Trong hầu hết các kỹ thuật gom cụm luồng văn bản dựa trên mô hình chủ đề, các từ của văn bản được đánh giá độc lập mà không xem xét các mối quan hệ của chúng trong các ngữ cảnh văn bản cụ thể Vốn dĩ tài liệu văn bản là một cấu trúc tự nhiên phức tạp của con người Tùy thuộc vào cách sử dụng ngôn ngữ, các từ trong mỗi tài liệu được sắp xếp chặt chẽ theo một cấu trúc hệ thống cụ thể Do đó, các thứ tự hoặc tổ hợp từ khác nhau (mối quan hệ giữa các từ) có thể mang các ý nghĩa ngữ nghĩa khác nhau, điều này chắc chắn gây ảnh hưởng đến việc xác định các chủ đề của tài liệu chứa những từ này Một giả định phổ biến của kỹ thuật gom cụm luồng văn bản dựa trên mô hình là tập tài liệu có cùng nhóm từ thông dụng sẽ có xu hướng được nhóm cùng chủ đề, kỹ thuật này còn được gọi là cách biểu diễn theo túi từ (BOW) truyền thống Hạn chế chính của biểu diễn BOW là phần lớn bỏ qua các mối quan hệ của từ (ví dụ: “con gà” hoàn toàn khác “gà con”) và các mối quan hệ (như các từ kết hợp : “Hoa Kỳ”, “vi rút Corona”, ) Do đó, lấy mẫu phân phối các từ phổ biến trên các tài liệu trong quá trình suy luận chủ đề mà không xem xét mối quan hệ của các từ có thể dẫn đến việc hạ thấp độ chính xác của kết quả gom cụm Cho nên, việc mở rộng đánh giá mối quan hệ giữa các từ trong các ngữ cảnh khác nhau của văn bản trong quá trình suy luận chủ đề có thể giúp cải thiện chất lượng của kết quả gom cụm luồng văn bản

Vấn đề tiền xử lý nội dung văn bản nhằm nâng cao hiệu quả gom cụm Để cải tiến hiệu quả mô hình gom cụm, việc sử dụng văn bản đầu vào đã qua tiền xử lý và biểu diễn đặc trưng phù hợp đã được đề tài thử nghiệm thành công với mô hình đề xuất GOW-Stream Để cải tiến kết quả đầu ra của nhiệm vụ gom cụm này, việc nghiên cứu tiền xử lý văn bản, rút gọn nội dung bằng cách áp dụng các cơ chế rút trích từ khóa và sử dụng các tập từ khóa này để thay thế cho toàn bộ nội dung của văn bản đến cũng là một ý tưởng nhằm cải tiến chất lượng đầu ra của kết quả gom cụm trên luồng văn bản

Vấn đề nắm bắt xu thế, thời gian của từ khóa thông qua phát hiện sự nổi bật của từ khóa

Việc tìm ra các từ khóa quan trọng, đang được nhiều độc giả quan tâm cũng là một nhu cầu thiết thực Do đó, nhiều kỹ thuật rút trích từ khóa đã được các nhà nghiên cứu đề xuất từ đơn giản đến cực kỳ phức tạp [8, 9, 15, 45, 50, 53, 56] Có thể nói rằng, tính năng rút trích từ khóa là một tính năng quan trọng trong hệ thống tự động rút trích thông tin Trong rút trích từ khóa, việc tìm các từ khóa có liên quan với một từ khóa cho trước cũng có ý nghĩa quan trọng đối với người dùng Vấn đề tìm các sự nổi bật của một từ khóa và tìm các từ khóa xu thế có độ “nóng” cao trong một sự nổi bật cũng hỗ trợ rất nhiều cho người dùng trong rút trích thông tin cần thiết Hiện chưa có kỹ thuật rút trích liên quan đến vấn đề sự nổi bật (burst) của từ khóa được công bố Tuy nhiên, từ ý tưởng khai phá sự nổi bật trong các lĩnh vực khác đã được đề xuất bởi Kleignberg [44], các ý tưởng này có thể vận dụng vào giải quyết bài toán tìm cụm từ xu thế trên luồng dữ liệu văn bản Vấn đề sử dụng các kết quả này vào cải tiến kết quả đầu ra khi gom cụm luồng văn bản cũng là vấn đề đáng được quan tâm

1.1.3 Phát biểu bài toán Để giải quyết những thách thức nêu trên, đề tài đề xuất hai nội dung nghiên cứu: thứ nhất là hệ thống tìm từ khóa tương đồng, các cụm từ xu thế, thứ hai là đề xuất một cách tiếp cận mới để trích xuất các tài liệu văn bản tương đồng về chủ đề, thực hiện gom cụm theo chủ đề trên luồng văn bản dựa trên mô hình hỗn hợp, áp dụng đánh giá đồ thị từ (GOW-Graph of Words) xuất hiện trong các tập ngữ liệu văn bản đã cho

Phạm vi nghiên cứu của đề tài được xác lập như sau:

(1) Rút trích các từ khóa liên quan dựa vào tính toán độ tương đồng, rút trích các cụm từ xu thế (thực nghiệm trên văn bản tiếng Việt)

(2) Gom cụm văn bản tương đồng về chủ đề đến trên luồng văn bản từ đó rút trích các tài liệu văn bản cùng chủ đề (thực nghiệm trên văn bản dài tiếng Việt, thực nghiệm và so sánh kết quả với các công trình mới trên văn bản ngắn tiếng Anh)

Những đóng góp chung của đề tài có thể được tóm tắt thành hai điểm chính, đó là:

 Hệ thống TKES: Gồm 03 phần chính là Bộ thu thập dữ liệu, Bộ xử lý dữ liệu và

Cấu trúc của báo cáo

Báo cáo được cấu trúc như sau: tóm tắt, chương 1 - giới thiệu, chương 2 - tổng quan tình hình nghiên cứu, chương 3 –TKES: Hệ thống rút trích từ khóa xu thế, chương 4: GOW-Stream: Thuật toán rút trích tài liệu tương đồng, chương 5 - kết luận, danh mục các bài báo đã công bố.

Kết chương

Chương 1 đã giới thiệu về đề tài, ý nghĩa của đề tài, các đóng góp của đề tài với xây dựng hệ thống TKES và đề xuất mô hình GOW-Stream gom cụm luồng tài liệu văn bản tương đồng, phạm vi nghiên cứu và các kết quả đạt được.

TỔNG QUAN CÁC CÔNG TRÌNH ĐÃ NGHIÊN CỨU

So sánh một số cách tiếp cận mới liên quan đến gom cụm luồng văn bản

Các nghiên cứu gần đây về gom cụm luồng dữ liệu dạng văn bản có thể được phân thành ba loại chính, đó là phương pháp tiếp cận dựa trên mô hình chủ đề, phương pháp tiếp cận dựa trên mô hình hỗn hợp động và phương pháp tiếp cận dựa trên biểu diễn không gian véc tơ

2.1.1 Phương pháp tiếp cận dựa trên mô hình chủ đề truyền thống Được coi là cách tiếp cận sớm nhất để gom cụm luồng dữ liệu dạng văn bản, mô hình hóa chủ đề là một nhóm các thuật toán hỗ trợ khám phá các chủ đề/cấu trúc tiềm ẩn từ các tài liệu văn bản Phân bổ Dirichlet tiềm ẩn (LDA) [12] là một trong những thuật toán mô hình hóa chủ đề nổi tiếng nhất, hỗ trợ suy ra các chủ đề tiềm ẩn từ một tập hợp các tài liệu văn bản dựa vào phân phối xác suất thiên lệch của các từ LDA biểu diễn các chủ đề tiềm ẩn được khám phá dưới dạng tập con của các từ và tài liệu được phân phối thành dạng tập con của các chủ đề tiềm ẩn được phân phối Các nghiên cứu đã chứng minh rằng mô hình chủ đề có thể được áp dụng để mô hình hóa đặc tính theo thời gian của chủ đề trong luồng dữ liệu văn bản cũng như xử lý sự rời rạc của văn bản Nhiều nghiên cứu mở rộng dựa trên LDA đã được giới thiệu đáp ứng bản chất động của các chủ đề trong các loạt luồng văn bản khác nhau, chẳng hạn như chủ đề theo thời gian (TOT) [49], mô hình chủ đề động (DTM)[11], mô hình theo dõi chủ đề (TTM), LDA theo thời gian (TM-LDA) [50], streaming LDA (ST-LDA)[7], Các mô hình được đề xuất này có thể hỗ trợ để suy ra các chủ đề động một cách hiệu quả từ tài liệu dài đã cho trong các luồng Tuy nhiên, các mô hình dựa trên LDA này yêu cầu phải xác định từ đầu số lượng chủ đề cho tất cả các lô tài liệu khác nhau trong một luồng Điều này không phù hợp với sự thay đổi của các chủ đề theo thời gian

2.1.2 Phương pháp tiếp cận dựa trên mô hình hỗn hợp động

Vì số lượng chủ đề thay đổi theo thời gian và các lô tài liệu khác nhau trong các luồng, nên yêu cầu biết trước số lượng chủ đề là hạn chế lớn khi áp dụng các kỹ thuật dựa trên LDA trong việc giải quyết vấn đề phát triển chủ đề tự nhiên của luồng văn bản Để khắc phục nhược điểm này, các cải tiến liên tục liên quan đến cách tiếp cận mô hình chủ đề động đã được đề xuất Cách tiếp cận này còn được gọi là phương pháp quy trình Dirichlet (DP) [47] được sử dụng rộng rãi để xử lý vấn đề thay đổi và tiến hóa chủ đề trong gom cụm luồng văn bản Chủ yếu dựa theo các mô hình dựa trên LDA, các thuật toán gom cụm luồng văn bản dựa trên mô hình hỗn hợp được thiết kế để suy luận phân phối của các chủ đề trên các tài liệu Sau đó, các kỹ thuật lấy mẫu nhiều lần như Gibbs Sampling, Sequential Monte Carlo, được áp dụng để ước tính các tham số của mô hình, để đạt được sự phân bố của các chủ đề trên luồng văn bản đã cho Nói cách khác, các kỹ thuật gom cụm văn bản dựa trên mô hình hỗn hợp động chủ yếu dựa vào định lý phi tham số Bayes để mô hình hóa chủ đề động Phương pháp dựa trên mô hình hỗn hợp động đã chứng minh được tính hiệu quả trong việc tự động khám phá các chủ đề từ các luồng văn bản rời rạc Các mô hình nổi tiếng gần đây sử dụng cách tiếp cận này như:

Mô hình chủ đề Dirichlet-Hawkes (DHTM)[17], Mô hình chủ đề gom cụm động (DCT) [32] và Mô hình hỗn hợp quy trình Dirichlet theo thời gian (TDPM)[4] Các quy trình Dirichlet dựa trên cơ sở này đã chỉ ra các giải pháp tiềm năng để giải quyết vấn đề thay đổi chủ đề của các luồng văn bản Tuy nhiên, các mô hình đề xuất này vẫn còn tồn tại những mặt hạn chế DHTM không có khả năng hoạt động tốt trên các tài liệu văn bản ngắn Ngược lại, DCT được thiết kế để làm việc với các luồng văn bản ngắn, tuy nhiên, DCT không thể phát hiện sự thay đổi của các chủ đề trong các lô tài liệu khác nhau của các luồng văn bản mà số lượng chủ đề có thể được thay đổi theo thời gian Đây là hạn chế của kỹ thuật này TDPM được xem là một framework gom cụm văn bản ngoại tuyến yêu cầu toàn bộ tập hợp các tài liệu văn bản từ một luồng cho trước Do đó, TDPM không phù hợp để áp dụng trong bối cảnh nhiệm vụ gom cụm văn bản đến với tốc độ cao Gần đây, có một bản nâng cấp mới về gom cụm luồng văn bản ngắn phụ thuộc vào

Mô hình hỗn hợp quy trình Dirichlet (DPMM) [54], được gọi là MStream/MStreamF cho phép dự đoán hiệu quả các chủ đề tiềm ẩn từ các luồng văn bản ngắn cho trước Tuy nhiên, MStreamF vẫn gặp phải điểm hạn chế phổ biến trong việc khai phá biểu diễn từ độc lập trong khi suy ra các chủ đề Việc bỏ qua sự rời rạc và mối quan hệ từ có thể dẫn đến sự mơ hồ về các chủ đề được phát hiện từ các luồng văn bản

2.1.3 Phương pháp tiếp cận dựa trên biểu diễn không gian vectơ

Tương tự như phương pháp gom cụm văn bản cổ điển cho kho ngữ liệu văn bản tĩnh, cho các tài liệu văn bản trong các luồng được chuyển đổi và biểu diễn dưới dạng vectơ đặc trưng, sau đó các độ đo dựa trên khoảng cách có sẵn như độ tương tự Cosin, khoảng cách Euclide, được áp dụng để đo lường sự giống nhau giữa các tài liệu văn bản và các chủ đề đã cho Từ lâu, cách tiếp cận dựa trên biểu diễn không gian vectơ (VSR) đã được nghiên cứu rộng rãi để xử lý tác vụ gom cụm luồng văn bản tốc độ cao với các mô hình gom cụm luồng văn bản dựa trên độ tương đồng nổi tiếng, chẳng hạn như: SSC[56], CluStream, DenStream, Sumblr[46] Tuy nhiên, các kỹ thuật gom cụm văn bản dựa trên VSR có hai hạn chế lớn Hạn chế đầu tiên liên quan đến thách thức về sự thay đổi chủ đề vì các thuật toán dựa trên cách tiếp cận này yếu cầu số lượng chủ đề nên được chỉ định trước Hạn chế thứ hai của các mô hình dựa trên VSR liên quan đến việc yêu cầu phải xác định ngưỡng tương đồng từ đầu, ngưỡng tương đồng thích hợp để xác định một tài liệu văn bản mới từ một luồng nhất định sẽ thuộc về một chủ đề cụ thể hay không Hơn nữa, số chiều của các vectơ được đại diện trong tài liệu cũng bị ảnh hưởng bởi độ dài của tài liệu Do tồn tại những thách thức nghiêm trọng này, cách tiếp cận dựa trên VSR ít được quan tâm hơn so với cách tiếp cận dựa trên mô hình hỗn hợp trong việc xử lý tác vụ gom cụm luồng văn bản

2.1.4 Đồ thị con phổ biến

Khai phá đồ thị con phổ biến

Với một tập hợp các đồ thị dạng văn bản đã xây dựng ({G 1 , G 2 , … G | D | }) từ một kho văn bản nhất định (D), với V và E là tập hợp các từ xuất hiện đặc biệt W là các nút của đồ thị và các quan hệ đồng xuất hiện tương ứng của chúng Kỹ thuật khai phá đồ thị con phổ biến, chẳng hạn như: gSpan, FFSM, vv là kỹ thuật dùng để rút trích ra tập hợp các đồ thị con phổ biến, được ký hiệu là: F = {G 1 ′ , G 2 ′ … G |F| ′ }, trong đó mỗi đồ thị con phổ biến: G f ′ = (V f ′ , E f ′ ), với V f ′ ∈ V và E f ′ ∈ E, được xem là đặc trưng phân biệt cho các tài liệu đã cho có chứa đồ thị con G f ′

Thuật toán gSpan [9], viết tắt của khai phá mẫu cấu trúc con dựa trên đồ thị (graph- based Substructure pattern mining), được Yan và Han giới thiệu vào năm 2002 Thuật toán dựa trên phương pháp tiếp cận tăng trưởng theo mẫu (pattern), sử dụng chiến lược tìm kiếm theo chiều sâu để duyệt đồ thị, tìm các ứng cử viên và kiểm tra các đồ thị con phổ biến (xuất hiện thường xuyên) Kể từ đó, đã có nhiều công trình khoa học sử dụng thuật toán này hoặc các thuật toán mở rộng của nó để phát hiện các đồ thị con phổ biến trong một tập đồ thị được cho [62, 65]

Thuật toán gSpan [9] đề xuất phương pháp tìm theo chiều sâu (DFS Code) để xây dựng cây tìm kiếm (DFS Code Tree), để tìm ra mã tìm kiếm tối thiểu Để có thể xác định xem các đồ thị có đồng dạng với nhau hay không, tìm mã tìm kiếm cực tiểu của hai đồ thị và so sánh chúng, nếu hai mã tìm kiếm này bằng nhau thì hai đồ thị là đồng dạng

Thuật toán 2.1: Thuật toán gSpanAlgorithm

 Tập đồ thị của tập tài liệu D

 Giá trị support nhỏ nhất 𝜎

Output: Tập các đồ thị con phổ biến của tập tài liệu 𝐷, ký hiệu: F D

1: Sắp xếp thứ tự các nhãn trong 𝐷 dựa vào tần số

2: Loại bỏ các đỉnh và cạnh không phổ biến

3: Gán nhãn lại cho các đỉnh và cạnh còn lại

4: F 𝐷 1 ← tất cả đồ thị phổ biến có 1 cạnh trong 𝐹 𝐷

5: Sắp xếp F 𝐷 1 theo thứ tự từ điển DFS

8: khởi tạo 𝑠 với 𝑒, gán các đồ thị có chứa 𝑒 cho 𝐷 𝑠

Thuật toán 2.2: Thuật toán con Subgraph_Mining của gSpanAlgorithm

 Tập đồ thị của tập tài liệu D

 Giá trị support nhỏ nhất 𝜎

Output: Tập các đồ thị con phổ biến của tập tài liệu 𝐷, ký hiệu: F D

4: liệt kê s trong mỗi đồ thị trong 𝐷 và đếm các con của nó;

Thuật toán 2.1 gSpanAlgorithm có thể tóm tắt thành các bước sau:

(1)- Hệ thống khởi tạo cấu trúc F D để lưu các tập đồ thị con phổ biến của tập tài liệu D

(2)- Với mỗi tập đồ thị từ 𝑠 thuộc về tập đồ thị từ của tập tài liệu D, hệ thống duyệt tất cả đồ thị con của 𝑠 và thêm các đồ thị con thỏa min support α vào tập F D tương ứng

Có thể mô tả chi tiết Thuật toán 2.1 gSpanAlgorithm [9] thành các bước sau Thuật toán sử dụng biểu diễn danh sách kề rời rạc để lưu trữ đồ thị Trong thuật toán 𝐷 đại diện cho tập dữ liệu đồ thị, F D chứa kết quả khai phá đồ thị con phổ biến Giả sử chúng ta có một tập nhãn {𝐴, 𝐵, 𝐶} đại diện cho các đỉnh và {a, b, c} đại diện cho các cạnh Trong Thuật toán 2.1 (dòng 7-12), vòng đầu tiên sẽ khám phá tất cả các đồ thị con phổ biến có chứa một cạnh 𝐴↔ 𝐴 Vòng thứ hai sẽ khám phá tất cả các đồ thị con phổ biến 𝑎 chứa 𝐴↔ 𝐵, nhưng không chứa bất kỳ 𝐴 𝑎 ↔ 𝐴 nào Quy trình này lặp lại cho đến khi tất 𝑎 cả các đồ thị con phổ biến được phát hiện Cơ sở dữ liệu bị thu hẹp khi quy trình này tiếp tục (Thuật toán 2.1 dòng 10) và khi đồ thị con lớn hơn (Với Thủ tục con ở thuật toán 2.2 dòng 8, chỉ những đồ thị chứa đồ thị con này mới được xem xét 𝐷 𝑠 là tập hợp các đồ thị trong đó 𝑠 là một đồ thị con) Hoạt động khai thác đồ thị con được gọi đệ quy để phát triển các đồ thị và tìm tất cả các con cháu phổ biến của chúng Khai thác đoạn con ngừng tìm kiếm khi độ ℎỗ 𝑡𝑟ợ (𝑠𝑢𝑝𝑝𝑜𝑟𝑡) của biểu đồ nhỏ hơn ngưỡng 𝑚𝑖𝑛𝑆𝑢𝑝 𝜎 hoặc đồ thị này và tất cả các đồ thị con của nó đã được tạo và được phát hiện trước đó Độ phức tạp của thuật toán gSpan Khai thác đồ thị con phổ biến từ tập văn bản, độ phức tạp của thuật toán gSpan: 𝒪(|𝑉| 2 log |𝑉|), với V là tổng đỉnh của tất cả các đồ thị từ trong tập văn bản.

2.1.5 Mô hình hóa sự nổi bật trên luồng văn bản của Kleinberg

Mô hình hóa sự nổi bật

Mô hình hóa sự nổi bật theo chuỗi thời gian là những bài toán thực tế, thu hút rất nhiều sự quan tâm Công trình [33] đã giải quyết những vấn đề này bằng cách sử dụng một mô hình có một tham số gọi là mô hình 𝑏 Một đối tượng tự tương đồng nếu nó tương đồng với một phần của chính nó, ví dụ một hoặc nhiều phần của đối tượng tương đồng với toàn bộ của chính đối tượng đó Khi một đối tượng có các thuộc tính thống kê giống nhau ở các mức độ khác nhau, thì đối tượng đó tự tương đồng về mặt thống kê

Có nhiều đối tượng tự giống nhau qua các mức độ thời gian khác nhau và chúng là các chuỗi thời gian tương đồng nhau Các đối tượng chuỗi thời gian tự tương đồng này trong thế giới thực có rất nhiều ứng dụng như video, tài liệu, hệ thống tập tin, Ethernet, Tin tức, mạng xã hội, Chúng không chỉ giống nhau mà còn thể hiện sự nổi bật đáng kể và thường áp dụng “Luật 80/20” có nghĩa là 20% dữ liệu được 80% truy vấn truy cập Trong mô hình 𝑏, 𝑏 là tham số chệch được sử dụng để lập mô hình tỷ lệ phần trăm độ lệch của các hoạt động Vì có nhiều hoạt động hơn trong 𝑏% của các phân đoạn so với phần còn lại, tham số chệch b được sử dụng để tổng hợp một dấu vết và 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 có thể được sử dụng để mô tả độ nổi bật nhằm đưa mô hình vào dữ liệu huấn luyện So với dữ liệu thực, các dấu vết tổng hợp có ý nghĩa thực tế hơn nhiều Thay vì tập trung vào các hành vi và mô hình nổi bật như [82] và [44] đã làm, [100] tập trung vào một thuật toán hiệu suất cao để phát hiện các sự cố trên nhiều kích thước cửa sổ Những nghiên cứu này định nghĩa sự nổi bật đơn giản và áp dụng nó cho nhiều ứng dụng trong thế giới thực

Việc phát hiện các cụm không gian, được định nghĩa là một vùng hình vuông và được mở rộng thành hình chữ nhật trong các nghiên cứu sau này, đã được thực hiện bởi nhiều công trình, sử dụng mật độ cao nhất [59, 60] Không gian đa phương tiện, một vùng hình vuông có mật độ cao nhất, được sử dụng để phát hiện các cụm không gian quan trọng trong [72] Những nghiên cứu này sử dụng một hàm không đơn điệu mật độ chung Chỉ vùng có mật độ cao nhất mới được xem xét Để loại bỏ các vùng không thể thực hiện được, họ sử dụng phương pháp từ trên xuống, phân nhánh và ràng buộc, gọi là cây chồng chéo 𝑘𝑑 (overlap-kd-tree) Để xác định sự thay đổi theo thời gian của các từ có tần số cao, cấu trúc sự nổi bật của luồng văn bản được trình bày trong [44] Có nhiều ngữ cảnh khác nhau đối với luồng văn bản được đề cập trong các công trình như các bài báo, email, ấn phẩm nghiên cứu và mục đích chính của công trình là thể hiện một số sự nổi bật và hành vi mang tính thứ bậc và cấp bậc Vì một số từ xuất hiện thường xuyên hơn những từ khác trong những khoảng thời gian nhất định và những tần số này thay đổi theo thời gian, Kleinberg sử dụng một Automát trạng thái không xác định để hạ thấp phân phối hàm mũ để phát hiện các mức độ nổi bật khác nhau trong các thang thời gian khác nhau và xem xét khoảng cách giữa hai thông điệp liên tiếp

Phát hiện sự nổi bật

Sự gia tăng nhanh chóng và liên tục trong một sự kiện xác định sự nổi bật trong luồng văn bản Vì vậy, một sự nổi bật được định nghĩa là khoảng thời gian mà một từ khóa xuất hiện liên tục và trở nên phổ biến bất thường trên luồng văn bản và việc xác định sự nổi bật được gọi là phát hiện sự nổi bật Kleinberg là một thuật toán xác định và gán nhãn trạng thái cho các sự nổi bật Quy trình sử dụng một Automát hai trạng thái sử dụng phương pháp tính sự nổi bật [14, 33] được sử dụng rộng rãi hơn các phương pháp được đề xuất như phát hiện sự nổi bật cho các sự kiện [71, 87], phương pháp dựa trên thử nghiệm [79], phương pháp phi tham số [14] Các phương pháp này được áp dụng rộng rãi cho các lĩnh vực khác nhau của luồng văn bản bao gồm các ấn phẩm trực tuyến, blog [101], e-mail [36], và mạng xã hội [90, 101], Trong nghiên cứu giải quyết bài toán số 2, đề tài gắn nhãn cho một sự nổi bật là “thời gian bắt đầu- thời gian kết thúc” và xác định các cụm “từ khóa xu thế” (là tập hợp n từ khóa có trọng số sự nổi bật từ khóa cao nhất) gồm các từ khóa thuộc cùng một sự nổi bật và đề xuất một thuật toán để tìm các từ khóa này Ngoài ra, đề tài cũng đề xuất thuật toán xác định các sự nổi bật xu thế của một từ khóa (là tập hợp n sự nổi bật có trọng số tần số xuất hiện của từ khóa cao nhất)

Kết chương

Chương này trình bày và phân tích các công trình nghiên cứu liên quan đến đề tài.

TKES: HỆ THỐNG RÚT TRÍCH TỪ KHÓA TƯƠNG ĐỒNG

Phương pháp

Vì người dùng thường mất trung bình ít nhất hai phút để đọc hết một bài báo và có ít nhất hai nghìn bài báo đến từ hơn 20 trang tin tức trực tuyến của Việt Nam, nên người dùng phải dành nhiều thời gian, khoảng ba giờ để đọc hết Để giải quyết vấn đề người dùng mất quá nhiều thời gian để đọc tin tức, chúng tôi đề xuất hệ thống trích xuất từ khóa thời thượng (TKES) để giúp người dùng tiết kiệm thời gian khi đọc, dễ dàng tìm thấy các từ khóa “hot” và đáng tin tức, đồng thời theo dõi tiến trình của các từ khóa này Để giải quyết vấn đề phát hiện các cụm và tập hợp các từ khóa hợp thời từ các cụm trong luồng văn bản, với TKES, hệ thống không chỉ mới và cần thiết ở Việt Nam mà còn đơn giản dễ thích ứng với các hệ thống ngôn ngữ khác nhau, người dùng có thể tìm thấy các từ khóa của một bài báo, các chủ đề cụ thể, các từ khóa phổ biến, vòng đời của một từ khóa, các từ khóa xu thế Để trích xuất các từ khóa xu thế, từ các từ khóa và từ khóa tương đồng tìm được, chúng tôi sử dụng phương pháp dựa trên thuật toán phát hiện cụm xu thế được gọi là thuật toán Kleinberg [1] Để tìm các từ khóa xu thế, chúng tôi đã vận dụng có cải tiến giải pháp này Trong đề tài này, nghiên cứu của chúng tôi có những đóng góp như sau:

1 Xây dựng hệ thống TKES của chúng tôi với ba mô-đun: Trình thu thập thông tin, Bộ xử lý và Trình hiển thị

2 Xuất bộ dữ liệu với hơn 80.000 tài liệu bằng tiếng Việt ở nhiều dạng khác nhau có thể phục vụ cho nhiều nghiên cứu liên quan khác

3 Đề xuất giải thuật dựa trên thuật toán Kleinberg và áp dụng thuật toán này cho TKES

4 Đề xuất một thuật toán để phát hiện các từ liên quan (tương đồng) trong một khoảng thời gian để tìm các từ khóa hợp xu thế

5 Đề xuất một thuật toán để xếp hạng sự nổi bật để tìm các cụm từ xu thế

6 Xuất các kết quả thực nghiệm có thể được sử dụng cho các nghiên cứu khác

Hệ thống bao gồm ba mô-đun chính: Bộ thu thập dữ liệu, Bộ xử lý dữ liệu (với 2 bước chính: Tiền xử lý và Xử lý) và Bộ hiển thị dữ liệu Hình 3.1 cho thấy mối quan hệ của hệ thống với các công trình nghiên cứu khác

Hình 3.1: Hệ thống được đề xuất phục vụ tìm cụm từ xu thế

Hình 3.1 thể hiện các các kỹ thuật liên quan có thể vận dụng vào thiết kế 03 mô- đun của hệ thống TKES Trong số các phương pháp được tìm hiểu, kỹ thuật Focused Web Crawler được chọn áp dụng vào thiết kế bộ thu thập dữ liệu, kỹ thuật VnTokenizer vào được áp dụng vào giai đoạn tiền xử lý, cơ sở dữ liệu đồ thị Neo4j được nghiên cứu để xây dựng bộ hiển thị kết quả trực quan

Kiến trúc của hệ thống được mô tả cụ thể hơn ở Hình 3.2, đầu tiên dữ liệu được thu thập bởi bộ thu thập thông tin và được chuyển đến bộ xử lý Ở đây, dữ liệu được tổ chức theo cấu trúc cây Tiếp theo, bộ xử lý thực hiện hai nhóm thuật toán chính: nhóm đầu tiên bao gồm các thuật toán xử lý văn bản, bao gồm tách từ trong văn bản tiếng Việt, loại bỏ từ dừng Nhóm thuật toán này chịu trách nhiệm xử lý, tính toán và lưu trữ kết quả Nhóm thứ hai bao gồm các thuật toán loại bỏ dữ liệu đã lỗi thời, loại bỏ các từ dừng khỏi hệ thống, sử dụng cửa sổ trượt thời gian, bao gồm một số thuật toán như Wjoin, PWJoin, vv Cuối cùng, bộ hiển thị trực quan dữ liệu tương tác với người dùng thông qua giao diện trực quan và cho phép người dùng xem, sắp xếp và lưu dữ liệu kết quả theo yêu cầu của họ

Hình 3.2: Kiến trúc hệ thống TKES

Trong hệ thống TKES, dữ liệu văn bản đến liên tục hàng ngày được thu thập, xử lý và sau đó có thể được được lưu trữ, kết xuất thành các kho ngữ liệu văn bản Hệ thống

BỘ HIỂN THỊ TRỰC QUAN

Cửa sổ trượt thời gian

Phát hiện cụm từ xu thế

Loại bỏ từ dừng/hư từ

Các thuật toán cửa sổ thời gian

Các thuật toán xử lý văn bản

Tách từ với VnTokenizer xác định một đối tượng được gọi là Bài viết (Tiêu đề, Tác giả, Mô tả, Nội dung) đại diện cho mỗi bài viết trong luồng văn bản Các bài viết được nhóm theo Ngày, Chuyên mục nên mỗi Chuyên mục có n Bài viết Hệ thống sử dụng cấu trúc cây để lưu dữ liệu đến (cũng có thể sử dụng bộ nhớ ngoài nếu cần), sau đó thực hiện một số hoạt động tiền xử lý bao gồm phân đoạn văn bản, loại bỏ từ dừng/hư từ Để phát hiện các cụm từ xu thế, hệ thống trước tiên thực hiện tính toán tầm quan trọng của từ khóa sử dụng kỹ thuật TF- IDF, tìm các từ khóa tương đồng Kết quả theo yêu cầu của người dùng có thể được hiển thị trực quan sử dụng đồ thị Hệ thống cũng sử dụng cơ chế cửa sổ trượt để loại bỏ dữ liệu hết hạn Nhìn chung, hệ thống TKES tập trung vào việc tìm từ khóa tương đồng, phát hiện sự nổi bật, cụm từ xu thế, các sự nổi bật vượt trội, tiêu biểu của từ khóa

Sự nổi bật (burst) được định nghĩa là khoảng thời gian liên tục mà từ khóa xuất hiện một cách khác thường trên luồng văn bản và phát hiện sự nổi bật (burst detection) là quá trình phát hiện ra sự nổi bật Cụm từ/tập từ xu thế (trendy keywords) là một tập các từ hàng đầu/tiêu biểu xuất hiện trong một sự nổi bật Các sự nổi bật hàng đầu/tiêu biểu (trendy bursts) là tập các sự nổi bật của từ khóa nào đó với trọng số sự nổi bật (burst weight) cao Trọng số của sự nổi bật (burst weight) được tính dựa vào tổng trọng số của từ khóa (keyword weight) Trọng số của từ khóa (keyword weight) được tính dựa vào tổng tần số của từ khóa xuất hiện trong cùng một sự nổi bật

Hình 3.3 mô tả trình tự thực hiện xử lý tìm cụm từ xu thế, từ dữ liệu đầu vào là các bài báo đã qua xử lý và tập từ khóa được rút trích từ dữ liệu đầu vào này, hệ thống tính toán dựa trên nhãn thời gian của chúng Sự nổi bật được xem là khoảng thời gian mà từ khóa xuất hiện liên tục, đơn vị thời gian được xét ở đây là đơn vị ngày Hình 3.3 mô tả

5 bước xử lý chính trong hệ thống đề tài đề xuất, TKES Ở bước 1, các bài báo được thu thập hàng ngày đến theo luồng văn bản và được lưu trữ bằng CSDL đồ thị Neo4j ở bước

2 Hệ thống tiếp tục tiền xử lý dữ liệu ở bước 3 Do đặc điểm của ngôn ngữ tiếng Việt, mỗi từ có thể cấu thành từ nhiều đơn vị “tiếng”, ví dụ “thành_phố” có 2 tiếng là “thành” và “phố” nên ở bước này, hệ thống sử dụng công cụ xử lý tách từ chuyên biệt là Vntokenizer [46] Như vậy, để chuyển đổi ngôn ngữ, hệ thống chỉ cần linh hoạt thay đổi cách thức tiền xử lý dữ liệu ở bước này Trong bước tiền xử lý, hệ thống cũng loại bỏ từ dừng (stop words) Bước tiếp theo, bước 4, hệ thống tiến hành rút trích top-n từ khóa

Bước 5 hiện thực việc phát hiện sự nổi bật, cụm từ xu thế, phát hiện các sự nổi bật tiêu biểu của từ khóa Sau cùng, bước 6 hỗ trợ hiển thị trực quan kết quả

Hình 3.3: Trình tự xử lý của hệ thống TKES

Mỗi bài viết được xem là một đối tượng được gọi là bài báo (Tiêu đề, Tác giả, Mô tả, Nội dung) Các bài viết liên tục theo thời gian được đưa vào một luồng văn bản lớn Dựa trên đặc điểm của các bài viết, chúng được phân nhóm theo ngày, chuyên mục như trong Hình 3.5: Mỗi ngày có n chuyên mục, mỗi chuyên mục có n bài báo

Hình 3.4: Luồng văn bản đến liên tục theo thời gian

Thu thập dữ liệu từ các trang tin tức

Lưu dữ liệu vào CSDL đồ thị

Tiền xử lý dữ liệu

Phát hiện cụm từ xu thế

Lưu/Hiển thị kết quả Visualizing

Lưu trữ dữ liệu vào cơ sở dữ liệu đồ thị

Hình 3.5: Cấu trúc lưu trữ dạng cây

Như thể hiện trong Hình 3.5, dữ liệu thu được được lưu trữ trực tuyến (cũng lưu trữ ngoại tuyến nếu cần) và được chuyển đến cấu trúc lưu trữ dạng cây Nút gốc (𝑅) có các nút con 𝐷 𝑖 (𝑖: 1𝑛); nút ngày (Day) 𝐷 𝑖 có các nút con 𝐶 𝑗 (𝑗: 1𝑚); Nút chuyên mục (Category) 𝐶 𝑗 có các nút con bài báo (Article) 𝐴 𝑘 (𝑘: 1𝑝); Mỗi nút 𝐴 𝑘 chỉ có một nút con chủ đề (Topic) 𝑇 𝑘 là tập hợp các từ khóa (Keywords) quan trọng 𝐾 𝑔 (𝑔: 1𝑘)

Hình 3.6: Cấu trúc lưu trữ chung và ví dụ

Hình 3.6 mô tả cách dữ liệu được lưu trữ với cơ sở dữ liệu đồ thị Cấu trúc lưu trữ chung có 5 nút: Gốc, Ngày, Chuyên mục, Bài viết và từ khóa (Root, Day, Category, Article, Keyword)

Bảng 3.1 mô tả các thuộc tính của các nút và các mối quan hệ Mỗi nút hoặc mối quan hệ có các thuộc tính được sử dụng để lưu trữ dữ liệu có liên quan

Bảng 3.1: Các thuộc tính của nút và mối quan hệ

STT Tên nút/mối quan hệ Thuộc tính Mô tả

4 Article ID; Path; Title Node

Thực nghiệm và bàn luận

Các framework dùng để lập trình

Một số công cụ sau đây đã được sử dụng để phát triển hệ thống: Scala 2.10.5, Java

8, Spark 1.6.3, Windows Utilities 2.6.x, Maven 3.3, Neo4j 3.2, Apache-tomcat-9.x, IntelliJ IDEA và Vis.js Ngoài ra, hệ thống cũng sử dụng VnTokenizer [46] và danh sách từ dừng được tải xuống từ Github được bổ sung thêm một số ký tự xuất hiện trong văn bản nhưng không có bất kỳ ý nghĩa nào vào danh sách này

Các thử nghiệm được thực hiện trên máy tính có cấu hình CPU Intel (R) Core (TM) 6700HQ @ 2.60GHz, bộ nhớ DDR4 8GB, sử dụng hệ điều hành Windows 10 Ngôn ngữ lập trình chính được sử dụng là Python 3.6 Cơ sở dữ liệu đồ thị là Neo4j

Tính năng phát hiện sự nổi bật của một từ khóa cụ thể Đề tài thực hiện thử nghiệm trên dữ liệu là các bài báo được hệ thống thu thập từ các trang Tin tức trực tuyến trong 1 năm với tổng số gần 80.000 bài viết Thuật toán dựa trên ý tưởng của Kleinberg được sử dụng để phát hiện các sự nổi bật trong tập dữ liệu Thời gian được quy ước là liên tục theo đơn vị ngày Thử nghiệm thực hiện tìm mức độ liên tục của một sự kiện (một từ khóa xuất hiện trong một bài báo tại một thời điểm)

Có nghĩa là, đối với một từ 𝑤 nhất định, hệ thống tìm xem 𝑤 có thu hút được sự chú ý hay không trong dòng văn bản bằng cách:

1 Chọn các bài báo có từ 𝑤

2 Sắp xếp các mục này theo thứ tự ngày

3 Áp dụng thuật toán cho các mục này

4 Xuất kết quả, bài báo ở trạng thái nổi bật, trọng số nổi bật (nếu cần)

Bảng 3.5 thể hiện kết quả về các khoảng thời gian nổi bật từ khóa “Facebook” Mỗi Burst (BurstID, Start, End, Burst weight) được phân biệt bởi một mã số phân biệt (BurstID) được tính từ 1, thời gian bắt đầu, thời gian kết thúc và trọng số của Burst cho biết chỉ số về mức độ quan tâm của người dùng đối với từ khóa này Trọng số Burst của từ khóa được tính bằng cách tổng tất cả các giá trị tần số từ khóa trong một Burst Vì vậy, trọng số càng cao thì mức độ quan tâm của người dùng đối với từ khóa càng cao

Bảng 3.5: Các Burst của từ khóa “Facebook”

Từ khóa Mã số Burst Bắt đầu Kết thúc Trọng số nổi bật

Bảng 3.5 phát hiện từ khóa “Facebook” đã xuất hiện trong các bài báo từ ngày 21 tháng 03 đến ngày 08 tháng 04, năm 2019 Có thể thấy rằng “Facebook” trở nên phổ biến nhất trong 02 ngày từ 03 tháng 04 đến 04 tháng 04 Sau đó, mọi người tiếp tục nhắc đến Facebook từ ngày 06 đến ngày 08 tháng 04 Do đó, phát hiện Burst có thể giúp người dùng theo dõi xu hướng, độ “nóng” của các từ khóa Như chúng ta đã biết, lý do tại sao “Facebook” trở nên được quan tâm với tần số cao trong các giai đoạn trên là do vụ việc rò rỉ thông tin người dùng liên quan đến cuộc bầu cử Tổng thống Trump tại Hoa

Kỳ Hệ thống được xây dựng cũng hỗ trợ người dùng xem kết quả một cách trực quan (như được thấy trong Hình 3.9)

Hình 3.9: Phát hiện sự nổi bật đối với từ khóa “Facebook”

Hình 3.9 cho thấy từ khóa “Facebook” có 04 giai đoạn nổi bật, trục ngang thể hiện kích thước sự nổi bật và trục dọc thể hiện trọng số của giai đoạn nổi bật Như vậy, khoảng thời gian nổi bật dài nhất là 04 ngày từ 21-24/03/2018, và trọng số xuất hiện cao nhất là trong 02 ngày từ ngày 03-04/04/2018 (xấp xỉ 80)

Lựa chọn các từ thu hút sự chú ý trong một khoảng thời gian

Mục tiêu của thử nghiệm này là chọn các từ khóa tượng trưng, tiêu biểu cho những gì xảy ra trong một khoảng thời gian trong luồng tài liệu Danh sách các từ được lập bằng cách:

1 Chọn các bài viết bao gồm từ w và tìm xem có sự nổi bật của từ khóa này hay không Nếu có nhiều sự nổi bật, chọn sự nổi bật có trọng số lớn nhất

2 Nếu có một sự nổi bật, lưu từ và khoảng thời gian nổi bật của từ

3 Rút trích tất cả các từ liên quan của các bài báo xuất hiện trong khoảng thời gian nổi bật vừa xác định

4 Sắp xếp theo trọng số, chọn top-n và xuất kết quả

Bảng 3.6: Xác định danh sách từ xu thế chung với từ khóa “Facebook”

Từ khóa Giai đoạn nổi bật Trọng số

Cấm 04/03/2018 - 04/04/2018 101,9 Lưu_trữ 04/03/2018 - 04/04/2018 89,4 Quản_trị 04/03/2018 - 04/04/2018 88 Nhà_tù 04/03/2018 - 04/04/2018 52,2 Chính_phủ 04/03/2018 - 04/04/2018 31,6

Bảng 3.6 trình bày top-5 từ khóa (top-5 trendy keywords) xuất hiện trong sự nổi bật từ 03-04-2018 đến 04-04-2018 xếp theo giá trị trọng số từ cao tới thấp Đo thời gian xử lý của bộ thu thập dữ liệu

Ba mô-đun: bộ thu thập thông tin, bộ xử lý và bộ hiển thị trực quan được kiểm tra riêng để tính toán thời gian hoạt động của từng mô-đun Mỗi ngày, khoảng 130 bài báo của 6 chuyên mục bao gồm Công nghệ, Giáo dục, Khoa học, Pháp luật, Thế giới và Tin tức được hệ thống thu thập Bảng 3.7 chứng minh rằng hệ thống thu thập các bài viết trong khoảng thời gian ngắn

Bảng 3.7: Thử nghiệm thời gian thực thi trên bộ thu thập thông tin

Ngày Số bài báo Thời gian xử lý (s)

12/02/2017 125 40 Đo thời gian xử lý thêm dữ liệu vào cơ sở dữ liệu đồ thị

Các kịch bản thử nghiệm để kiểm tra tốc độ xử lý của việc thêm dữ liệu vào cơ sở dữ liệu đồ thị (xem Bảng 3.8) cũng được thực hiện Số lượng bài báo sử dụng cho thử nghiệm là khoảng 134 (một ngày), gần 900 (một tuần) và gần 4000 (một tháng) Bảng

3.8 cho thấy việc thêm dữ liệu vào cơ sở dữ liệu đồ thị mất rất ít thời gian, chỉ trong khoảng một phút

Bảng 3.8: Kiểm tra thời gian thực thi của việc thêm dữ liệu vào cơ sở dữ liệu đồ thị

STT Ngày Số bài báo Thời gian (s) Số nút Số quan hệ

Test 3 09/28/2017- 10/27/2017 3.742 204 3.953 3.952 Đo thời gian xử lý của bộ xử lý dữ liệu

Các kết quả thử nghiệm với bộ xử lý được trình bày ở Bảng 3.9 Bảng này cho thấy rằng bộ xử lý dữ liệu tiêu tốn thời gian nhất Mất khoảng 20 phút, 2 giờ và 8 giờ để xử lý dữ liệu hàng ngày, hàng tuần và hàng tháng

Bảng 3.9: Kiểm tra thời gian chạy của bộ xử lý

Bộ dữ liệu Thời gian xử lý (s) Số đỉnh Số cung

So sánh thời gian xử lý trên dữ liệu có số lượng và kích thước khác nhau

Nguyên nhân dẫn đến chi phí đề cập ở phần trên cũng được kiểm tra thông qua thử nghiệm trên dữ liệu bài viết với số lượng và kích thước (độ dài) khác nhau Kết quả thử nghiệm được trình bày ở

Bảng 3.10: Thời gian xử lý số lượng bài viết khác nhau với độ dài khác nhau

Kết quả thu được được thể hiện tại Bảng 3.10, và biểu đồ (xem Hình 3.10 được phát họa từ dữ liệu ở Bảng 3.10)

Hình 3.10: Ảnh hưởng của chiều dài bài viết và số lượng bài viết đối với thời gian chạy của bộ xử lý

Hình 3.10 cho thấy rằng số lượng bài viết là lý do chính của vấn đề tốn thời gian Dựa trên kết quả này, hệ thống có cơ hội được cải thiện về tốc độ đối với bộ xử lý thông qua việc thực hiện các nghiên cứu sâu hơn có liên quan

So sánh dữ liệu kết quả chạy các phiên bản TF-IDF lập trình bằng ngôn ngữ khác nhau

Phần này trình bày việc thực hiện so sánh các kết quả đầu ra từ hai thuật toán được viết bằng ngôn ngữ lập trình Java và Python và đề xuất một số tùy chọn để sử dụng các kết quả đầu ra hiệu quả hơn Các bộ dữ liệu được sử dụng bao gồm 5294 bài báo được thu thập trong một tháng từ ngày 21 tháng 3 năm 2018 đến ngày 21 tháng 4 năm 2018, được tổ chức thành 6 chuyên mục từ 2 tạp chí trực tuyến (VnExpress và VietnamNet) Kích thước thư mục các tập tin trên đĩa là 17MB Sau bước tiền xử lý trước dữ liệu, một thư mục mới có dung lượng 11 MB khác được tạo Thử nghiệm tính toán tỷ lệ chính xác cho bốn trường hợp bao gồm 10, 20, 30 và 40 từ khóa quan trọng hàng đầu Các tỷ lệ này là 86,6%, 89,1%, 91% và 91,8% (xem Bảng 3.11)

Bảng 3.11: Tỷ lệ giống nhau của dữ liệu sinh ra từ 2 thuật toán TF-IDF viết bằng ngôn ngữ lập trình khác nhau

Bảng 3.12: Tần số của từ khóa

Mã bài báo Từ khóa Tần số

Drink 0,09886992125092042 trọng_âm 0,09886992125092042 tiếng 0,08695281898093078 You 0,08239160104243368 nhấn 0,08239160104243368 nối 0,08239160104243368 Âm 0,08239160104243368 ví_dụ 0,05295725876740590 nội_dung 0,05000154587608109

Thi 0,07519608378236309 quốc_gia 0,06945752449747143 cụm 0,06940755124852771 ĐT 0,05698959117298020

GD 0,05698959117298020 THPT 0,04423299046021358 phối_hợp 0,04310711180367380 Cần_Thơ 0,03812281648233688 Công_nghiệp 0,03812281648233688

Kết chương

Chương này trình bày phương pháp, kết quả thực nghiệm và bàn luận nghiên cứu tìm các cụm từ xu thế trên luồng dữ liệu văn bản Nghiên cứu đề xuất hệ thống TKES và áp dụng thuật toán đề xuất AdaptingBurst tìm cụm từ xu thế dựa trên ý tưởng của thuật toán trước đây là Kleinbergn Các thuật toán được đề xuất cũng giải quyết vấn đề phát hiện sự nổi bật, tính toán, xếp hạng từ đó tìm ra các sự nổi bật tiêu biểu Nghiên cứu cũng hỗ trợ kết xuất các tập dữ liệu để phục vụ các nghiên cứu sâu hơn Ngoài ra, hướng phát triển của hệ thống có thể hướng đến xử lý, tính toán song song để tăng tốc độ Các kết quả từ nghiên cứu này được tiếp tục phát triển để gom cụm luồng văn bản, trích xuất các cụm văn bản tương đồng (có cùng chủ đề) được trình bày ở chương tiếp theo Có thể nói kết quả nghiên cứu này đóng góp vào việc lựa chọn từ khóa để tạo ra đồ thị GOW đặc trưng chính xác văn bản

CHƯƠNG 4: GOW-STREAM: THUẬT TOÁN

RÚT TRÍCH TÀI LIỆU VĂN BẢN TƯƠNG ĐỒNG

Chương này trình bày phương pháp tiếp cận được đề xuất của đề tài dựa trên mô hình hỗn hợp giúp tận dụng đánh giá mối quan hệ đồng hiện của từ bằng cách áp dụng phương pháp phân phối biểu đồ của từ phổ biến (GOW) trên các tài liệu trong một luồng văn bản nhất định, được gọi là GOW-Stream GOW-Stream là một phương pháp gom cụm luồng văn bản đa thức theo quy trình Dirichlet (DPMM) có thể cải thiện đáng kể chất lượng của việc gom cụm các luồng văn bản ngắn với nội dung rời rạc Thuật toán gom cụm các văn bản tương đồng về mặt chủ đề đến trên luồng văn bản với độ chính xác cao Phần đầu tiên của chương giới thiệu ngắn gọn cách tiếp cận rút trích đồ thị từ (GOW) phổ biến từ các tài liệu văn bản bằng cách áp dụng phép đồ thị hóa văn bản text2graph và kỹ thuật khai phá đồ thị con phổ biến (FSM) Nội dung tiếp theo trình bày một kỹ thuật suy luận chủ đề mới chủ yếu dựa trên mô hình MStream/MStreamF đã được công bố trước đó (năm 2018), các phân phối đa thức của tài liệu được biểu thị dưới dạng phân phối của các từ xuất hiện và đồ thị con phổ biến Qua đó, cả từ độc lập và đồ thị con phổ biến trong mỗi tài liệu của một luồng văn bản đều được xem xét cẩn thận trong quá trình hình thành chủ đề.

Phương pháp

4.1.1 Biểu diễn văn bản bằng đồ thị từ (GOW)

Kỹ thuật đồ thị hóa văn bản Text2graph Biểu diễn tài liệu văn bản dựa trên

GOW là một cách tiếp cận NLP nổi tiếng nhằm mục đích biểu diễn tài liệu văn bản d thành cấu trúc dựa trên đồ thị, được ký hiệu là: G d = (V d , E d ) với tập hợp các nút (V d ) và các cạnh (E d ) đại diện cho tập hợp các từ phân biệt, như W = {w 1 , w 2 … w |W| }, được xuất hiện trong tài liệu d và quan hệ đồng xuất hiện tương ứng giữa các từ này Các quan hệ đồng xuất hiện giữa các từ có thể được rút trích linh hoạt dựa vào một cửa sổ trượt được xác định trước Đây còn được gọi là kỹ thuật đồ thị hóa văn bản text2graph, phương pháp thống kê để biểu diễn các mối quan hệ đồng xuất hiện giữa các từ trong văn bản mà không cần cân nhắc về ý nghĩa ngữ nghĩa giữa các từ Các đồ thị dạng văn bản sau khi biến đổi có thể có hướng hoặc vô hướng Cách triển khai đơn giản nhất của biểu diễn GOW cho tài liệu văn bản là sử dụng đồ thị vô hướng để biểu diễn quan hệ đồng xuất hiện giữa các từ (minh họa trong Hình 4.1A) được áp dụng trong mô hình đề xuất GOW-Stream Trong trường hợp cần xem xét thứ tự xuất hiện của các từ trong tài liệu, các đồ thị được xây dựng nên là đồ thị có hướng Để triển khai nâng cao phương pháp tiếp cận text2graph, có thể cân nhắc để tính đến tần suất xuất hiện đồng thời của hai từ và gán nhãn bằng chú thích từng phần của từ (minh họa trong Hình 4.1B) cho các đồ thị văn bản đã xây dựng Trong nghiên cứu này, đề tài sử dụng đồ thị vô hướng và phương pháp biểu diễn mối quan hệ đồng xuất hiện của từng cặp từ trong văn bản Đồ thị con phổ biến (FCS) là đặc trưng cho tài liệu không giám sát Tiếp theo, với một tập hợp các đồ thị dạng văn bản đã xây dựng 𝐺 = {G 1 , G 2 , … G |D| ) từ một kho văn bản nhất định (D), với V và E là tập hợp các từ xuất hiện đặc biệt W là các nút của đồ thị và các quan hệ đồng xuất hiện tương ứng của chúng Sau đó, đề tài áp dụng các kỹ thuật khai phá đồ thị con phổ biến, chẳng hạn như: gSpan, FFSM, vv để rút trích ra tập hợp các đồ thị con phổ biến, được ký hiệu là: F = {G 1 ′ , G 2 ′ … G |F| ′ }, trong đó mỗi đồ thị con phổ biến: G f ′ = (V f ′ , E f ′ ), với V f ′ ∈ V và E f ′ ∈ E, được xem là đặc trưng phân biệt cho các tài liệu đã cho có chứa đồ thị con G f ′ Khác với việc sử dụng các từ phổ biến làm các đặc trưng phân biệt để biểu diễn văn bản, hay còn gọi là biểu diễn theo túi từ (BOW), việc sử dụng các đồ thị con phổ biến để biểu diễn văn bản mang tính ngữ nghĩa hơn do khả năng nắm bắt các mối quan hệ đồng xuất hiện của các cặp từ (n-gram với n=1) được áp dụng vào mô hình đề xuất

Biểu diễn tài liệu kết hợp BOW và GOW Kết hợp với biểu diễn dựa trên BOW cổ điển, một tài liệu d bây giờ được phân rã thành bộ giá trị sau (như thể hiện trong công thức (4.1)):

 W d là tập hợp các từ duy nhất xuất hiện trong tài liệu 𝑑

 N d là tần số của chúng được biểu diễn dưới dạng vectơ N d , trong đó N d w là tần số xuất hiện của (w) cụ thể trong tài liệu đã cho d hay N d =∑ w∈d N d w

 F d là tập các đồ thị con phổ biến của tài liệu d Đối với mỗi tập đồ thị con phổ biến F d trong tài liệu 𝑑, mỗi đồ thị con phổ biến chỉ xuất hiện một lần, do đó không cần tính tần suất xuất hiện của đồ thị con phổ biến trong mỗi tài liệu (vì luôn là 1) Thuật toán 4.1 minh họa các bước để rút trích đồ thị con phổ biến từ một kho ngữ liệu văn bản thô nhất định với thuật toán gSpan [51] để khai phá đồ thị con văn bản phổ biến Tóm lại, ý tưởng quan trọng đằng sau gSpan là thay vì liệt kê tất cả các đồ thị con và kiểm tra tính đẳng cấu trong toàn bộ bộ sưu tập, trước tiên nó xây dựng cho mỗi đồ thị một thứ tự từ vựng của tất cả các cạnh bằng cách sử dụng tìm kiếm Depth First Search (DFS) và gán cho nó một mã DFS tối thiểu duy nhất Dựa trên tất cả các mã DFS này, cây tìm kiếm phân cấp được xây dựng ở cấp bộ sưu tập Bằng cách sắp xếp trước việc duyệt cây này, gSpan phát hiện ra tất cả các đồ thị con phổ biến thỏa ngưỡng min support σ yêu cầu the lazy dog lazy [JJ] dog [NN] the amod [DT] det jumped [VBD] nsubj fox det [NN] big [JJ] amod over [IN] case brown [JJ] amod jumped over big brown fox

(GOWs) structure B Complex graph-of-words

Hình 4.1: Hình ảnh minh họa cấu trúc đồ thị hóa văn bản (text2graph)

Thuật toán 4.1: Rút trích các đồ thị con phổ biến từ tập tài liệu đã cho (D)

 Cửa sổ trượt s=1//chỉ xét từng cặp từ

Output: Tập các đồ thị con phổ biến của tập tài liệu D, ký hiệu: F D

2: Initialize: G D = {} #Khởi tạo tập các GOW của tập tài liệu 𝐷, ký hiệu 𝐺 𝐷

4: Initialize: G d = Text2Graph(d)#Khởi tạo từng đồ thị từ 𝐺 𝑑

5: Update: G D append(G d )#Cập nhật vào tập đồ thị từ 𝐺 𝐷

7: Initialize: F D = gSpanAlgorithm(G D , σ) #Tìm tập đồ thị con phổ biến 𝐹 𝐷

11: Initialize: G 𝑑 #cấu trúc đồ thị của tài liệu 𝑑

12: Initialize: W d = {}, WSeq d = {}#Danh sách từ, ds từ theo thứ tự của tài liệu 𝑑 13: For word w in tokenize(d):

14: If w not in W d : W d append(w)#Tạo ds từ không trùng

15: Update: WSeq d append(w) #Tạo ds từ theo thứ tự

17: Update: G nodes create(W d ) #Tạo tập các nút từ tập từ không trùng đã có 18: For word w in WSeq d :

20: Update: G edges create([w], [Seq d [w − i])#Tạo cạnh với từ phía trước

21: Update: G edges create([w], [Seq d [w + i]) #Tạo cạnh với từ phía sau

27: Initialize: F D = {} #lưu các đồ thị con phổ biến của tập tài liệu 𝐷

29: For c in children(G d ): #Duyệt tất cả các đồ thị con của G d

30: If support(c, G D )  𝜎: Update: F D append(c)#Cập nhật đồ thị con phổ biến tương ứng vào tập đồ thị con phổ biến 𝐹 𝐷

Như vậy, Thuật toán 4.1 tìm đồ thị con phổ biến của tập tài liệu 𝐷 là ExtractGOWs có thể tóm tắt thành các bước như sau:

(1)- Với mỗi tài liệu 𝑑 trong tập tài liệu 𝐷, hệ thống khởi tạo GOW của tài liệu 𝑑 là 𝐺 𝑑 và cập nhật vào danh sách GOW 𝐺 𝐷 của tập tài liệu 𝐷 sử dụng hàm Text2Graph(d) (dòng 4)

(2)- Hệ thống tìm tập đồ thị con phổ biến 𝐹 𝐷 tương ứng với tập tài liệu 𝐷 bao gồm các tập đồ thị con phổ biến 𝐹 𝑑 của từng tài liệu 𝑑 sao cho 𝐹 𝑑 chỉ chứa các đồ thị con phổ biến 𝑓 𝑑 có tần số xuất hiện lớn hơn ngưỡng phổ biến tối thiểu minsupp σ sử dụng thuật toán gSpan, thuật toán tìm đồ thị con phổ biến của tài liệu 𝑑 (dòng 7)

Hàm Text2Graph(d) có thể tóm tắt thành các bước sau:

(1)- Hệ thống khởi tạo cấu trúc đồ thị G 𝑑 của tài liệu 𝑑 (dòng 11)

(2)-Hệ thống khởi tạo danh sách sách từ 𝑊 𝑑 không trùng và từ theo thứ tự

(3)- Với mỗi từ trong danh sách từ 𝑊 𝑑 của tài liệu 𝑑, hệ thống tạo đỉnh cho đồ thị

G d sau đó dựa vào danh sách từ theo thứ tự 𝑊 𝑆𝑒𝑞 𝑑 của tài liệu 𝑑, hệ thống tạo cạnh cho đồ thị G d (dòng 18 - 23)

* Đỉnh đồ thị chỉ có một từ duy nhất nên tham số trượt s (trong n-gram) được thiết lập là 1

Hàm gSpanAlgorithm có thể tóm tắt thành các bước sau:

(1)- Hệ thống khởi tạo cấu trúc F D để lưu các tập đồ thị con phổ biến của tập tài liệu D (dòng 27)

(2)- Với mỗi tập đồ thị từ G d của tài liệu 𝑑 thuộc về tập đồ thị từ G D của tập tài liệu

D, hệ thống duyệt tất cả đồ thị con của G d và thêm các đồ thị con thỏa min support α vào tập F D tương ứng (dòng 28-32)

4.1.2 Gom cụm luồng văn bản dựa trên mô hình hỗn hợp động

Gom cụm luồng văn bản với mô hình hỗn hợp Nói chung, gom cụm luồng văn bản với mô hình hỗn hợp hoàn toàn khác với phương pháp gom cụm văn bản tĩnh cổ điển Trong bối cảnh liên tục xuất hiện các tài liệu văn bản có độ dài khác nhau theo thời gian, đối với dữ liệu luồng văn bản phổ biến, chẳng hạn như khuyến nghị, blog, vv từ mạng xã hội, số lượng tài liệu, độ dài của tài liệu và các chủ đề được đề cập có thể đa dạng và có thể thay đổi nhanh chóng tại các thời điểm khác nhau (t) Về mặt hình thức, đối với mỗi tập tài liệu đến, còn được gọi là luồng batch, đến với hệ thống tại một thời điểm cụ thể (t) - được ký hiệu là: D t = {d 1 , d 2 … d | D t | }, trong đó mỗi tài liệu d t chứa một tập hợp các từ duy nhất: N d t = {w 1 , w 2 … w | N dt |} Với tất cả các tập tài liệu tuần tự đến luồng văn bản, D = {D 1 , D 2 … D T } với T → ∞, mục tiêu cuối cùng của phương pháp gom cụm luồng văn bản dựa trên mô hình hỗn hợp là nhóm các tài liệu có liên quan trong D t thành các chủ đề, được ký hiệu là: Z t = {z 1 , z 2 … z K } với K → ∞ Theo giả định dòng trôi khái niệm/chủ đề, số lượng chủ đề K của luồng văn bản nhất định có thể thay đổi theo thời gian (t) Theo cách tiếp cận mô hình chủ đề truyền thống, mỗi chủ đề được phát hiện được biểu diễn dưới dạng đa phân phối các từ duy nhất xuất hiện trong lô tài liệu thời gian thứ t nhất định, được ký hiệu là: z t = {prob(w 1 ), prob(w 2 ) … prob(w | N dt |)}, với prob (.) là viết tắt của phân phối xác suất

Sau đó, mỗi tài liệu d t được biểu diễn dưới dạng: d t = {prob(z 1 ), prob(z 2 ) … prob(z | Z t | )}, với d t là tập xác suất phân phối của các chủ đề được rút trích

Tuy nhiên, để đáp ứng sự thay đổi của các chủ đề trong mỗi lô tài liệu đến, mỗi tài liệu d t chỉ được chọn với một chủ đề phù hợp nhất z t , do đó cho hai chủ đề khác nhau, a và b với a ≠ b và z t a = {d 1 a , d 2 a … d n a } và z t b = {d 1 b , d 2 b … d n b } (mỗi tài liệu d t a , d t b ∈ D t ) là tài liệu tương ứng của từng cụm, ta có: z t a ∩ z t b = ∅

Chủ đề (ta xem một cụm là một chủ đề theo mô hình của David Blei) ở đây sẽ là phân bố của từ, tài liệu và đồ thị con phổ biến như sẽ trình bày ở phần phía sau biểu diễn chủ đề dựa trên GOW

Quy trình Dirichlet & lược đồ Poly-Urn Thường được áp dụng trong phương pháp tiếp cận luồng văn bản dựa trên mô hình hỗn hợp, quy trình Dirichlet (DP) được xem là quy trình phi tham số dùng để mô hình hóa dữ liệu Quy trình hỗ trợ để đưa ra một mẫu 𝒩 từ phân phối G với các phân phối nền G 0 đã cho, được ký hiệu là: G~DP(α, G 0 ) với α là siêu tham số tập trung để kiểm soát sự phân phối của việc rút ra từng mẫu 𝒩 Để rút ra một mẫu tuần tự: {𝒩 0 , 𝒩 1 … 𝒩 𝑛 } từ phân phối G, định lý lược đồ Poly-Urn được áp dụng như sau (như thể hiện trong công thức (4.2)):

 n là số lần rút ra từ phân phối G

 δ(𝑥) là hàm chỉ thị, trong đó δ(𝑥) = 1 khi 𝑥 = 0, ngược lại δ(𝑥) = 0

Lặp lại n lần rút ra từ phân phối G, chúng ta có thể nhận một tập hợp 𝐾 giá trị đặc biệt, trong đó 𝐾 < 𝑛 để phân chia n lần rút ra 𝐾 chủ đề Việc phân phối trên 𝐾 phân vùng xác định được phát triển bằng cách áp dụng một nguyên lý nổi tiếng, được gọi là nguyên lý Nhà hàng Trung Hoa (CRP) Các lần rút ra của phân phối G được biểu diễn bằng cách áp dụng Nguyên lý Nhà hàng Trung Hoa và quá trình stick-breaking minh họa tính chất của phân phối G là: 𝐺(𝒩) = ∑ ∞ k=1 θ 𝑘 δ(𝒩 𝑛 − 𝒩 𝑘 )𝑣ớ𝑖 𝒩 𝑘 ~𝒩 0 Trọng số hỗn hợp θ θ = {θ 𝑘 } k=1 ∞ được xây dựng bằng công thức phân phối GEM (Griffiths,

Engen và McCloskey) của DP là: θ~GEM(α) Sau đó, cấu trúc stick-breaking được áp dụng cho quá trình tạo ra mô hình DPMM như sau (như thể hiện trong công thức (4.3)): θ|α~GEM(α)

 z đại diện cho cụm sinh ra tài liệu (d)

 prob(d|𝒩 z d ) là xác suất phân phối mà một tài liệu nhất định (d) được sinh ra bởi một cụm z, được định nghĩa là: prob(d|𝒩 z d ) = ∏ w∈d Mult(w|𝒩 z d )

Từ công thức (4.3) đã cho, Bayes giả định là việc tạo ra các từ (W d ) trong mỗi tài liệu (𝑑) là độc lập với một chủ đề z đã biết mà (𝑑) được gán Sau đó, việc rút ra các mẫu liên tiếp có thể được thực hiện bằng CRP Phương pháp này giả định rằng xác suất phân phối của các từ trong mỗi tài liệu được đánh giá một cách độc lập mà không cần xem xét vị trí của chúng cũng như các mối quan hệ đồng xuất hiện Hình 4.2 là mô hình biểu diễn đặc trưng dạng đồ thị của GOW-Stream hay còn gọi là mô hình sinh của GOW- Stream

Hình 4.2: Mô hình sinh của mô hình GOW-Stream

 z: cụm, chủ đề được rút ra từ phân bố đa thức của θ, z d |θ~Mult(θ)

 w: Tập phân bố từ đặc trưng của tài liệu dD được rút ra từ phân bố đa thức với phân bố ban đầu là phân bố chuẩn N: prob(d|𝒩 z d )

 f: Tập phân bố đồ thị con phổ biến đặc trưng dD được rút ra từ phân bố đa thức với phân bố ban đầu là phân bố chuẩn N: prob(d|𝒩 z d )

 𝛼: siêu tham số tập trung

 𝛽: siêu tham số tập trung

 𝜃: phân bố tham số mô hình 𝜃 được lấy ra từ mô hình phân bố GEM: GEM(α)

Hình 4.2 cho thấy dựa trên tham số kiểm soát độ tập trung của mô hình 𝛼, phân bố tham số mô hình 𝜃 được lấy ra từ mô hình phân bố GEM, θ~GEM(𝛼) Từ 𝜃, mẫu phân bố chủ đề z được rút ra, được xác định bằng phân bố đa thức của từ và các đồ thị con phổ biến trong một tài liệu (𝑑) dựa theo công thức (4.6)

𝛽 là siêu tham số dùng để lấy mẫu ngẫu nhiên của tập từ đặc trưng và đồ thị con phổ biến đặc trưng từ tài liệu (𝑑) với phân bố ngẫu nhiên ban đầu là một phân bố chuẩn Sau đó, với từ và đồ thị con phổ biến vừa được lấy ra ngẫu nhiên, mô hình áp dụng phân bố theo quy trình Dirichlet để xác định xác xuất lấy ra được phân bố chủ đề có sẵn nào hay khả năng chọn mới một chủ đề dựa vào nguyên lý Nhà hàng Trung Hoa và Poly Urn Kế đến, hai khả năng này được hợp lại như công thức (4.8) nếu xác xuất lấy ra được phân bố chủ đề có sẵn lớn hơn Ngược lại, hai khả năng này được hợp lại như công thức (4.9)

Mô hình GOW-Stream được đề tài đề xuất là bản cải tiến từ mô hình MStream, Hình 4.1 so sánh hai mô hình sinh

Hình 4.3: So sánh mô hình sinh của MStream & GOW-Stream

Hình 4.3 làm rõ sự cải tiến của mô hình do đề tài đề xuất GOW-Stream so với mô hình được công bố MStream [53] Cải tiến chính của mô hình GOW-Stream chính là cải tiến biểu diễn đặc trưng văn bản, kết hợp từ phổ biến (trong biểu diễn văn bản bằng BOW) và đồ thị con phổ biến (trong biểu diễn văn bản bằng GOW)

Thực nghiệm và bàn luận

Phần này thực hiện các thử nghiệm mở rộng trên bộ dữ liệu trong thế giới thực để đánh giá hiệu quả của mô hình GOW-Stream được đề xuất so với các thuật toán gom cụm luồng văn bản dựa trên mô hình hỗn hợp hiện đại gần đây, bao gồm: DTM, Sumblr và MStream

Tập dữ liệu và chỉ số đánh giá

Mô tả tập dữ liệu Để đánh giá công bằng hiệu quả của các mô hình gom cụm luồng văn bản khác nhau bao gồm GOW-Stream được đề xuất, thực nghiệm sử dụng hai tập dữ liệu được gắn nhãn trong thế giới thực thường được sử dụng cho hầu hết các nghiên cứu thực nghiệm trong các công trình trước đây Hai tập dữ liệu này là:

 Google-News (GN) [] (https://news.google.com/): tập dữ liệu này lần đầu tiên được giới thiệu bởi [Yin and Wang, 2014], chứa 11.109 tài liệu được gắn nhãn Các tài liệu trong bộ dữ liệu này được gán cho 152 chủ đề khác nhau

 Tweets (Tw) [] (http://trec.nist.gov/data/microblog.html): tập dữ liệu này được xây dựng bằng cách thu thập các tweet từ mạng xã hội Twitter Những tweet này được gắn nhãn trong các bài hát trên microblog 2011-2015 tại Hội nghị Truy xuất văn bản (TREC), NIST Tập dữ liệu này chứa 269 chủ đề bao gồm 30.322 tài liệu văn bản có các tweet độ dài khác nhau

 Tập dữ liệu tổng hợp (GN-T, Tw-T): Hai tập dữ liệu này là phiên bản chỉnh sửa của Google-News (GN) và Tweets (Tw) ở trên để kích thích trạng thái dạt trôi chủ đề/khái niệm trong các luồng văn bản trong thế giới thực khi mà các chủ đề (mỗi chủ đề là một cụm) chỉ xuất hiện vào thời điểm cụ thể (ví dụ: COVID-

19, Cuộc giao tranh Trung Quốc-Ấn Độ, …) và sau đó biến mất Theo quy trình của các công trình trước, trước tiên, tác giả sắp xếp các tweet (Tw) và tin tức (GN) theo các chủ đề được gán nhãn của chúng Sau đó, tác giả tiến hành chia đều các tweet/tin tức này thành 16 phần trước khi xáo trộn chúng

Tương tự như các công trình trước, hệ thống áp dụng quy trình tiền xử lý văn bản đơn giản bao gồm: chuyển đổi tất cả văn bản thành chữ thường, loại bỏ tất cả các từ dừng và biến đổi các từ về dạng gốc với stemming Hai bộ dữ liệu này được sử dụng chủ yếu trong các thực nghiệm cũng có thể được xem là có độ dài ngắn và rời rạc do số lượng từ trung bình trong mỗi tài liệu thấp cũng như số lượng lớn các chủ đề được bao quát (như thể hiện trong thống kê ở Bảng 4.1)

Bảng 4.1: Chi tiết về bộ dữ liệu thử nghiệm

Số lượng từ không trùng Độ dài trung bình (số từ)

Nhìn chung, tập dữ liệu Tw/Tw-T thách thức hơn so với GN/GN-T do trong các tài liệu văn bản trong tập dữ liệu này có số lượng lớn các chủ đề được gán nhãn

Các độ đo được sử dụng để đánh giá hiệu suất Để đánh giá hiệu suất một cách chính xác đối với các tác vụ gom cụm văn bản với các thuật toán gom cụm luồng văn bản khác nhau, thực nghiệm sử dụng hai độ đo để đánh giá chính là NMI và F1 Các chỉ số đánh giá này được sử dụng trong thực nghiệm như sau:

Thông tin tương hỗ chuẩn hóa (Normalized Mutual Information - NMI) Đây là độ đo phổ biến nhất được sử dụng rộng rãi để đánh giá chất lượng của đầu ra gom cụm với nhãn đầu ra thực sự cho trước NMI được nhận định là thước đo nghiêm ngặt nhất để đánh giá hiệu suất của nhiệm vụ gom cụm trong phạm vi [0, 1] Trong trường hợp các đầu ra gom cụm hoàn toàn khớp với các lớp có nhãn/nhãn đầu ra thực sự đã cho, giá trị NMI sẽ là 1, trong khi giá trị của nó sẽ gần bằng 0 khi các đầu ra gom cụm được tạo ngẫu nhiên Chỉ số NMI được định nghĩa chính thức như sau (xem công thức (4.10)):

 n c , n k là số tài liệu trong một lớp (c) và số tài liệu trong một cụm (k)

 n c,k là số lượng tài liệu trong cả lớp (c) và cụm (k)

 N là tổng số tất cả các tài liệu trong tập dữ liệu đã cho Độ đo F1 Đây là một độ đo nổi tiếng cho cả nhiệm vụ gom cụm và phân lớp Độ đo F1 xem xét cả giá trị precision (P) và giá trị recall (R) của đầu ra gom cụm để tính giá trị F1 Độ đo F1 được định nghĩa chính thức như sau (xem công thức (4.11)):

 TP, là số lượng tài liệu văn bản được gán cho các cụm chính xác (dựa trên các lớp được gắn nhãn tương ứng của chúng)

 FP và FN, là số lượng tài liệu dự kiến được gán cho các cụm cụ thể nhưng không chính xác và không được chỉ định thuộc về các cụm đó

Thiết lập thực nghiệm Để so sánh hiệu suất của mô hình GOW-Stream được đề xuất, ba thuật toán gom cụm luồng văn bản được triển khai trong các thử nghiệm của tác giả bao gồm: DTM [11], Sumblr [46] và MStream[53] Các cấu hình cho các mô hình gom cụm luồng văn bản này được mô tả ngắn gọn như sau:

 DTM[11]: được xem là mô hình ra đời sớm nhất sử dụng cách tiếp cận mô hình chủ đề động cho phép khám phá các chủ đề tiềm ẩn từ các tài liệu văn bản tuần tự như luồng văn bản Tuy nhiên, DTM được coi là phương pháp tiếp cận với “số lượng chủ đề cố định” có nghĩa là trước tiên phải xác định số lượng chủ đề Do đó, nó không thể đối phó với thách thức về sự thay đổi chủ đề trong giải quyết nhiệm vụ gom cụm luồng văn bản

 Sumblr [46]: là mô hình nổi tiếng nhất trong cách tiếp cận dựa trên độ tương đồng để gom cụm luồng văn bản Sumblr là một phiên bản trực tuyến để gom cụm các tweet trong mạng xã hội Twitter Sumblr là kỹ thuật hiệu quả khi xử lý tác vụ gom cụm văn bản ngắn chỉ cần một lần xử lý lặp lại hàng loạt để vừa gán các tài liệu mới cho cụm vừa duy trì thống kê cụm Tuy nhiên, tương tự như mô hình DTM trước đó, trong mô hình Sumblr, số chủ đề phải được thiết lập từ đầu nên kỹ thuật này không thể giải quyết vấn đề chủ đề thay đổi

Kết chương

Chương này trình bày một cách tiếp cận mới nâng cao tính ngữ nghĩa để gom cụm luồng văn bản từ đó rút trích các cụm từ tương đồng về chủ đề bằng cách áp dụng các phân phối đồ thị từ phổ biến (GOW) trên các tài liệu văn bản ngắn Bằng cách kết hợp với việc khai phá đồ thị con phổ biến (FSM), chúng ta có thể rút trích các đồ thị con phổ biến từ kho văn bản nhất định, các đồ thị con phổ biến này đóng vai trò là các đặc trưng đặc biệt cho các tài liệu văn bản Để khắc phục các nhược điểm liên quan đến đánh giá các mối quan hệ của từ trong các mô hình gom cụm luồng văn bản trước đó, nghiên cứu kết hợp đánh giá dựa trên các đồ thị con phổ biến và đánh giá từ độc lập trong quy trình suy luận chủ đề của Mô hình hỗn hợp quy trình Dirichlet (DPMM) để nâng cao kết quả gom cụm văn bản từ luồng dữ liệu Các thử nghiệm mở rộng trên bộ dữ liệu chuẩn có thể chứng minh tính hiệu quả của mô hình được đề xuất trong việc xử lý tác vụ gom cụm luồng văn bản nắng có nội dung rời rạc so sánh với các kỹ thuật được công bố gần đây, bao gồm: DTM, Sumblr và MStream.

Tiêu đề	Rút trích tài liệu tương đồng
Tác giả	Võ Thị Hồng Thắm
Người hướng dẫn	Nguyễn Hồ Quang, PTS
Trường học	Trường Đại học Thủ Dầu Một
Chuyên ngành	Khoa học và Công nghệ
Thể loại	Đề tài Khoa học và Công nghệ cấp trường
Năm xuất bản	2022
Thành phố	Bình Dương

Định dạng
Số trang	139
Dung lượng	9,24 MB