MỤC LỤC
Cụm từ xu thế (tiêu biểu) (trendy keywords): là một tập các từ hàng đầu/tiêu biểu xuất hiện nổi bật trong một sự nổi bật. Các sự nổi bật xu thế (tiêu biểu) (trendy bursts) là tập các sự nổi bật của từ khóa nào đó với trọng số sự nổi bật (burst weight) cao.
Mô hình đề xuất GOW-Stream là một mô hình dựa trên mô hình hỗn hợp dùng để xử lý hiệu quả tác vụ gom cụm luồng văn bản ngắn bằng cách kết hợp cả đánh giá từ độc lập (các từ riêng biệt trong mỗi tài liệu) và từ phụ thuộc (các từ cùng xuất hiện trong các đồ thị con phổ biến có xét mối quan hệ đồng hiện) không chỉ giải quyết các thách thức về sự thay đổi chủ đề của luồng văn bản mà còn cải thiện được. Kết quả thực nghiệm được thực hiện liên quan đến: Độ chính xác; Tốc độ xử lý khi gom cụm; Tốc độ xử lý toàn cục có tính chi phí đồ thị hóa văn bản và tìm đồ thị con phổ biến; Ảnh hưởng của số lần lặp; Độ ổn định của mô hình khi thay đổi các tham số cho thấy mô hình đề xuất đạt được độ chính xác cao hơn các mô hình được so sánh mà không chịu ảnh hưởng nhiều về tốc độ xử lý, đạt được sự cân bằng về độ chính xác của kết quả trong phạm vi 7-10 lần lặp, đạt được hiệu suất ổn định về độ chính xác với các giá trị khác nhau của cả hai siêu tham số từ đó đưa ra kết luận là mô hình GOW-Stream đạt hiệu quả và ổn định trong việc thực hiện tác vụ gom cụm tài liệu trên luồng văn bản ngắn.
Trong các nghiên cứu về khai phá luồng văn bản, gom cụm luồng văn bản là một vấn đề quan trọng trong cộng đồng nghiên cứu có nhiều ứng dụng như phân nhóm văn bản, sắp xếp tài liệu, phỏt hiện và theo dừi chủ đề …Theo [47], gom cụm văn bản là tự động nhóm các tài liệu dạng văn bản (ví dụ: tài liệu ở dạng văn bản thuần túy, trang web, email, ..) thành các cụm dựa trên sự giống nhau hay tương đồng về nội dung của chúng. Kỹ thuật khai phá đồ thị con phổ biến là kỹ thuật dùng để rút trích ra tập hợp các đồ thị con phổ biến từ đó có thể biểu diễn đặc trưng phân biệt cho các tài liệu đã cho và sau đó được sử dụng để hỗ trợ quá trình ước tính phân phối của các chủ đề trên tài liệu (xem chi tiết về biểu diễn văn bản bằng đồ thị, cách tìm đồ thị con phổ biến và biểu diễn đặc trưng văn bản dựa vào đồ thị con phổ biến trong mô hình GOW-Stream ở chương 3).
Phân bố xác suất của �� gọi là phân bố xác suất có điều kiện nếu như có biến cha (biến ảnh hưởng đến nó) và ngược lại thì gọi là phân bố xác suất không có điều kiện. Mạng Bayes dùng 02 phương pháp suy diễn: từ trên xuống hay từ dưới lên. Suy diễn từ trên xuống xuất phát từ nút cha của nút đang xét �� và suy diễn từ dưới lên xuất phát từ nút con của nút đang xét ��. Là một mô hình mạng Bayes theo 03 cấp do David Blei phát triển năm 2003. Đây là mô hình dùng để mô hình hóa tập dữ liệu nhằm phát hiện ra các chủ đề tìm ẩn. Mỗi chủ đề là một phân bố rởi rạc của một tập các từ. Đây là mô hình phù hợp với tập ngữ liệu rời rạc nhau được phân nhóm. Mỗi nhóm được mô tả dưới dạng kết hợp ngẫu nhiên của một tập các chủ đề tiềm ẩn. Mô hình sinh của mô hình LDA. Xuất phát từ ý tưởng mô tả các văn bản là sự kết hợp nhiều chủ đề [15], mỗi chủ đề được biểu diễn bởi các từ với xác suất của chúng được tính bằng kỹ thuật Gibb Sampling. Với LDA, giả sử một tài liệu được tạo theo các bước sau:. 1) Xác định số lượng các từ � mà văn bản có (dựa theo phân bố Poisson). 2) Chọn k chủ đề cho tài liệu dựa theo phân bố đa thức. Chọn chủ đề dựa theo phân bố đa thức đã được xác định. Sử dụng chủ đề đã được chọn để tạo ra các từ theo xác suất của từng chủ đề đã chọn. Mục đích của việc tạo ra mô hình sinh là khi đảo ngược các bước để suy diễn từ các tài liệu ta tìm được tập chủ đề ẩn. Như vậy, LDA là một mô hình dạng Bayes với quá trình phát sinh một tập tài liệu gồm 3 bước:. 1) Với mỗi tài liệu, tạo một phân bố xác suất chủ đề của tài liệu đó bằng cách lấy mẫu từ phân bố xác suất Dirichlet. 2) Với mỗi từ trong tài liệu, một chủ đề duy nhất được chọn từ phân bố chủ đề trên. 3) Mỗi từ khóa sẽ được rút ra từ phân bố đa thức cho từ khóa theo chủ đề được chọn. (2)- Với mỗi tập đồ thị từ � thuộc về tập đồ thị từ của tập tài liệu D, hệ thống duyệt tất cả đồ thị con của � và thêm các đồ thị con thỏa min support α vào tập FD tương ứng. Có thể mô tả chi tiết Thuật toán 2.4 gSpanAlgorithm [9] thành các bước sau. Thuật toán sử dụng biểu diễn danh sách kề rời rạc để lưu trữ đồ thị. Trong thuật toán � đại diện cho tập dữ liệu đồ thị, FD chứa kết quả khai phá đồ thị con phổ biến. Vòng thứ hai sẽ khám phá tất cả các đồ thị con phổ biến�. Quy trình này lặp lại cho đến khi tất cả các đồ thị con phổ biến được phát hiện. các đồ thị trong đó � là một đồ thị con).
Khác với việc sử dụng các từ phổ biến làm các đặc trưng phân biệt để biểu diễn văn bản, hay còn gọi là biểu diễn theo túi từ (BOW), việc sử dụng các đồ thị con phổ biến để biểu diễn văn bản mang tính ngữ nghĩa hơn do khả năng nắm bắt các mối quan hệ đồng xuất hiện của các cặp từ (n-gram với n=1) được áp dụng vào mô hình đề xuất. (2)- Hệ thống tìm tập đồ thị con phổ biến �� tương ứng với tập tài liệu � bao gồm các tập đồ thị con phổ biến �� của từng tài liệu � sao cho �� chỉ chứa các đồ thị con phổ biến �� có tần số xuất hiện lớn hơn ngưỡng phổ biến tối thiểu minsupp σ sử dụng thuật toán gSpan, thuật toán tìm đồ thị con phổ biến của tài liệu � (dòng 7). Hơn nữa, các đánh giá với độ đo F1 trên tác vụ luồng văn bản với các mô hình khác nhau trong cũng chỉ ra rằng cách tiếp cận dựa trên mô hình hỗn hợp của MStream và GOW-Stream được coi là linh hoạt và ổn định hơn với độ dài tài liệu khác nhau so với cách tiếp cận cổ điển về mô hình hóa chủ đề và tìm chủ đề dựa trên sự tương đồng.
Để khắc phục các nhược điểm liên quan đến đánh giá các mối quan hệ của từ trong các mô hình gom cụm luồng văn bản trước đó, nghiên cứu kết hợp đánh giá dựa trên các đồ thị con phổ biến và đánh giá từ độc lập trong quy trình suy luận chủ đề của Mô hình hỗn hợp quy trình Dirichlet (DPMM) để nâng cao kết quả gom cụm văn bản từ luồng dữ liệu.
Để rút trích từ khóa tương đồng, luận án dùng mạng Nơron để huấn luyện mô hình thông qua sử dụng tập tài liệu huấn luyện là dữ liệu đến từ luồng văn bản các bài viết được thu thập từ các trang tin tức trực tuyến đã được tiền xử lý, từ đó tính tương đồng dựa trên độ đo tương đồng Cosine, sử dụng mô hình Skip-gram, phương pháp Softmax phân cấp và thiết lập kích thước của vectơ từ là 300. Kết quả thử nghiệm của chức năng Phát hiện Burst trên các bài báo thu được trong thời gian liên tục 19 ngày (tập dữ liệu T2) được trình bày trong Bảng 4.18 cho thấy số liệu thống kê về số lượng bài báo được thu thập, từ khóa được phân tích, tần số xuất hiện của từ khóa, sự nổi bật được tìm thấy và thời gian xử lý tương ứng. Nói chung, thời gian xử lý thấp nhất là 11.770 ms trong ngày đầu tiên khi không tính Burst, thời gian xử lý sau đó thay đổi trong những ngày tiếp theo khi Burst được phát hiện và đặc biệt là khi sự nổi bật đạt số lượng cao nhất là 170, thời gian xử lý gần như đạt được mức cao nhất ở 19.220 ms.
Bên cạnh đó, trong nghiên cứu này, các bước tiền xử lý dữ liệu, rút trích từ khóa, rút trích từ khóa tương đồng phục vụ cho việc tìm các cụm từ xu thế cũng được trình bày chi tiết và thử nghiệm tính toán thời gian xử lý, so sánh thời gian xử lý và độ chính xác của kết quả.