LUẬN án TIẾN sĩ KHOA học máy TÍNH KHAI PHÁ LUỒNG văn bản với kỹ THUẬT GOM cụm

GIỚI THIỆU

Tổng quan về đề tài luận án

1.1.1 Bài toán nghiên cứu và ý nghĩa

Dữ liệu ngày càng tăng do ngày càng có nhiều mạng xã hội, diễn đàn, phương tiện truyền thông, thiết bị cảm ứng và người dùng điện thoại thông minh cũng đã và đang tạo ra lượng lớn dữ liệu Số lượng thiết bị được kết nối đang tăng dần và các thiết bị này liên tục tạo ra các luồng dữ liệu [106] Theo [53], luồng dữ liệu là một chuỗi vô hạn các phần tử đếm được Các mô hình khác nhau của luồng dữ liệu có các cách tiếp cận khác nhau liên quan đến khả năng thay đổi của luồng và cấu trúc của các phần tử luồng Xử lý luồng là việc phân tích các luồng dữ liệu để thu được kết quả mới với dữ liệu đầu vào mới Thời gian là yêu cầu trọng tâm trong xử lý luồng: trong hầu hết các mô hình luồng, mỗi phần tử luồng được liên kết với một hoặc nhiều nhãn thời gian, ví dụ: nhãn thời gian được xác định khi phần tử được tạo, dựa vào tính hợp lệ của nội dung, hoặc khi phần tử sẵn sàng để xử lý Gom cụm là một trong các hướng nghiên cứu liên quan đến khai phá luồng dữ liệu.

Theo [55], các phương pháp gom cụm thường được sử dụng để hiểu về các nhóm người dùng, tài liệu hoặc các nội dung khác Một tập dữ liệu chẳng hạn như một tập hồ sơ chứa đầy các con số và giá trị có thể sẽ rất khó hiểu, và người ta thường có nhu cầu nhóm toàn bộ thành các nhóm nhỏ hơn, mỗi nhóm chứa các mục tương tự với nhau từ đó có thể phân tích và kiểm tra dễ dàng hơn Phương pháp phổ biến để gom cụm là sử dụng một kho ngữ liệu văn bản chứa các tài liệu với nhiều chủ đề khác nhau Để phân loại tất cả các tài liệu theo chủ đề từ đó tài liệu có thể được sử dụng và truy xuất nhanh hơn, toàn bộ kho tài liệu có thể được phân tích bằng phương pháp gom cụm, phân tách tài liệu thành các nhóm sao cho tài liệu trong mỗi nhóm có liên quan hay tương đồng với nhau và với các chủ đề của từng nhóm.

Là một dạng thức của luồng dữ liệu, luồng văn bản là một loại luồng dữ liệu đặc biệt, trong đó dữ liệu là các tài liệu văn bản đến liên tục [10], luồng văn bản là chuỗi các văn bản được sắp xếp theo thứ tự, đến nhanh chóng và liên tục theo thời gian trong hai

24 dạng chính: tin tức và truyền thông xã hội Khai phá văn bản, theo [16], là hoạt động khai thác dữ liệu từ các bộ sưu tập dữ liệu văn bản với mục đích là khám phá kiến thức (hoặc thông tin, mẫu) từ dữ liệu văn bản không có cấu trúc hoặc bán cấu trúc Vấn đề về khai phá luồng văn bản cũng thu hút nhiều sự quan tâm với nhiều nghiên cứu liên quan như: Xử lý ngôn ngữ tự nhiên, Thu thập thông tin [49], Phát hiện chủ đề, Định nghĩa từ ngữ, Khai phá thông tin, Phân tích mạng xã hội [35], Tóm tắt văn bản [25,

28], Phân tích cảm xúc, Mô hình không gian Vector, Phân lớp văn bản, Gom cụm văn bản, vv…

Trong các nghiên cứu về khai phá luồng văn bản, gom cụm luồng văn bản là một vấn đề quan trọng trong cộng đồng nghiên cứu có nhiều ứng dụng như phân nhóm văn bản, sắp xếp tài liệu, phát hiện và theo dõi chủ đề …Theo [47], gom cụm văn bản là tự động nhóm các tài liệu dạng văn bản (ví dụ: tài liệu ở dạng văn bản thuần túy, trang web, email, ) thành các cụm dựa trên sự giống nhau hay tương đồng về nội dung của chúng Vấn đề gom cụm văn bản có thể được định nghĩa như sau Cho một tập hợp gồm

� tài liệu được ký hiệu là = {�{{ 1, 2, … , � } và một số cụm được xác định trước

� (thường do người dùng thiết lập), � được nhóm thành � cụm tài liệu Z={{{{{{{{{{{{{{{ 1, 2, … ,

� � } sao cho các tài liệu trong cùng một cụm tương đồng nhau và các tài liệu khác cụm không tương đồng nhau Tùy theo mục đích gom cụm mà sự tương đồng được định nghĩa khác nhau và tùy theo mô hình gom cụm mà cách thức suy luận cụm dành cho tài liệu cũng khác nhau Khi gom cụm trên luồng văn bản, số lượng cụm sẽ thay đổi theo thời gian vì văn bản đến trên luồng thay đổi Do đó, không thể xác định trước được số cụm.

Hiện nay, gom cụm luồng văn bản là một vấn đề có ý nghĩa trong hoạt động khai phá dữ liệu với nhiều ứng dụng mang tính thực tiễn cao như lọc nhóm tin tức, thu thập văn bản, tổ chức tài liệu, phát hiện và theo dõi chủ đề, gom cụm email Ví dụ: trong ứng dụng phát hiện sự kiện xã hội, gom cụm văn bản có thể giúp xác định xu hướng đang được quan tâm hoặc đang được thảo luận thường xuyên về các chủ đề trong các mạng xã hội phổ biến gần đây (như: COVID-19, cuộc chiến thương mại của Trung Quốc Hoa Kỳ,…) Hoặc trong truy xuất văn bản, gom cụm văn bản có thể giúp nhóm các kết quả tìm kiếm có liên quan (dưới dạng tài liệu văn bản) để giúp người dùng dễ dàng rút trích thông tin cần thiết Gom cụm văn bản ban đầu được phát triển để cải thiện hiệu suất của các công cụ tìm kiếm thông qua phân nhóm trước toàn bộ ngữ liệu Sau này, gom cụm văn bản sau này cũng đã được được nghiên cứu để duyệt tài liệu kết quả sau khi trích xuất Một vài bài toán liên quan đến gom cụm văn bản có thể kể đến:

− Cải thiện kết quả rút trích tài liệu bằng cách sử dụng các tài liệu đã được gom cụm.

− Phân loại được tài liệu giúp cải thiện quá trình duyệt nội dung các tài liệu văn bản.

− Kết quả gom cụm giúp nhận dạng nội dung tin tức giả [33].

− Ứng dụng vào dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.

− Ứng dụng vào lọc thư rác.

− Phân tích vấn đề hỗ trợ khách hàng: Xác định các vấn đề hỗ trợ thường xuyên diễn ra.

Sau đây là một số ví dụ về ứng dụng vào doanh nghiệp liên quan đến gom cụm văn bản:

− Tạo lộ trình sản phẩm (product roadmap): Với kết quả gom cụm văn bản, tất cả các bài đánh giá của khách hàng và đối tượng mục tiêu của doanh nghiệp có thể được phân tích và sử dụng để tạo ra một lộ trình gồm các tính năng và sản phẩm mà họ sẽ yêu thích Ngoài ra, kết quả gom cụm có thể giúp phân tích các đánh giá của đối thủ cạnh tranh để tìm ra những đối tượng muốn công kích, chống phá.

− Xác định các vấn đề hỗ trợ định kỳ: Nhóm hỗ trợ khách hàng hay được hỏi những câu hỏi giống nhau ngày này qua ngày khác Tuy nhiên, thật khó để phân tích thực sự những điểm khó khăn mà khách hàng có thể gặp phải khi sử dụng sản phẩm và giải quyết chính xác Gom cụm văn bản sẽ cho phép người dùng không chỉ xem mức độ thường xuyên (hoặc không thường xuyên) của một vấn đề mà còn có thể giúp xác định gốc rễ của vấn đề.

− Tạo bản tin tiếp thị tốt hơn: Một trường hợp sử dụng khác để gom cụm văn bản là trong bản sao tiếp thị Một tổ chức có thể đã chạy hàng nghìn quảng cáo khác nhau và có nhiều dữ liệu Nhưng việc hiểu được ngôn ngữ của quảng cáo tác động đến hiệu suất có thể rất khó Rất khó để phát hiện các xu hướng trong dữ liệu phi cấu trúc, chẳng hạn như bản tin tiếp thị, đây là nơi mà việc gom cụm văn bản có thể phát huy tác dụng Kỹ thuật này có thể phân tích và chia nhỏ các chủ đề và từ có tỷ lệ trao đổi cao nhất cho phép tạo bản tin có hiệu quả tiếp thị cao.

Gần đây, chúng ta đang bước vào kỷ nguyên dữ liệu lớn, với sự gia tăng mạnh mẽ của các mạng xã hội trực tuyến có hàng tỷ người dùng tương tác với nhau mỗi ngày Các phương tiện truyền thông xã hội trực tuyến này đã tạo điều kiện cho sự phát triển và lan truyền nhanh chóng các tin tức trực tuyến và tài nguyên kỹ thuật số tới bất kỳ ai có thể kết nối Internet Trên thực tế, số lượng lớn nội dung kỹ thuật số do người dùng này tạo ra thường ở dạng văn bản ngắn như: bình luận của người dùng, tweet, bài đăng,

… trên Twitter hoặc Facebook, … mang thông tin có giá trị [2, 104] [105] đại diện cho các sự kiện thực tế nóng bỏng, chẳng hạn như bàn luận xã hội về sự lây lan của virusCOVID-19, cuộc đụng độ Trung Quốc và Ấn Độ 2020, cuộc chiến thương mại củaTrung Quốc và Hoa Kỳ…

Khi gom cụm văn bản, văn bản được phân chia thành nhiều cụm khác nhau, mỗi cụm đại diện cho một chủ đề nên ta có thể xem bài toán gom cụm trên luồng văn bản là bài toán nhóm các văn bản đến trên luồng với nhau và xác định chủ đề thích hợp cho từng nhóm văn bản.

1.1.2 Thách thức của bài toán gom cụm luồng văn bản

Từ xưa đến nay, hầu hết các nghiên cứu về gom cụm văn bản chủ yếu tập trung vào các văn bản tĩnh và dài Trên thực tế, các mô hình được thiết kế cho phương pháp gom cụm truyền thống này không thể áp dụng cho các tập ngữ liệu văn bản có tốc độ thay đổi nhanh chóng, gồm các tài liệu văn bản ngắn như bình luận/bài đăng/microblog trên các mạng xã hội như: Twitters, Facebook, gom cụm văn bản ngắn (được áp dụng vào nhiều lĩnh vực như đa dạng hóa kết quả tìm kiếm, phát hiện sự kiện và tóm tắt tài liệu [59], hệ thống khuyến nghị [17]) khó khăn hơn so với phương pháp gom cụm văn bản tĩnh truyền thống do ba đặc tính chính, bao gồm độ dài tài liệu khác nhau (rất ngắn chỉ với vài từ hoặc rất dài), độ rời rạc của đặc trưng dữ liệu văn bản và sự thay đổi nhanh chóng của các chủ đề trong các lô tài liệu văn bản khác nhau (đến tuần tự từ các luồng văn bản) Ngoài ra, trong trường hợp dữ liệu văn bản truyền phát nhanh từ các nguồn tài nguyên truyền thông xã hội, không thể áp dụng các kỹ thuật gom cụm văn bản truyền thống để xử lý các bộ sưu tập văn bản đến với tốc độ cao và sự rời rạc của các tập dữ liệu văn bản ngắn này.

Gần đây, nhiều nhà nghiên cứu đã chú ý rất nhiều vào các nghiên cứu gom cụm luồng văn bản liên quan để tối ưu hóa hiệu suất về cả tính chính xác của gom cụm và thời gian xử lý của mô hình Mô hình chủ đề là một trong những cách tiếp cận phổ biến nhất để xử lý tác vụ gom cụm luồng văn bản Các mô hình dựa trên mô hình chủ đề được thiết kế dựa vào giả định rằng các tài liệu văn bản được tạo bởi một mô hình hỗn hợp Sau đó, bằng cách ước tính các tham số của mô hình thông qua nhiều kỹ thuật, chẳng hạn như Lấy mẫu Gibbs (GS), Tuần tự Monte Carlo (SMC), …, để rút ra các phân phối chủ đề văn bản trên tập ngữ liệu văn bản Lấy cảm hứng từ mô hình Phân bố ẩn Dirichlet ban đầu (LDA) [15], một số phần mở rộng đã được đề xuất để giải quyết các tác vụ mô hình hóa luồng văn bản, chẳng hạn như các mô hình nổi tiếng: DTM (năm 2006) [14], TM-LDA (năm 2012) [85], LDM (năm 2015)[68], USTM (năm 2015) [95],

Đóng góp của luận án và các công trình đã được công bố

(1) Gom cụm luồng văn bản theo ngữ nghĩa với đồ thị từ: Đề xuất một cách tiếp cận mới về gom cụm luồng văn bản dựa trên mô hình hỗn hợp gọi là GOW-Stream cho độ chính xác khi gom cụm luồng văn bản ngắn cao hơn các thuật toán gần đây dựa vào kết quả thực nghiệm trên các tập dữ liệu chuẩn nhờ việc áp dụng xem xét thêm mối quan hệ đồng hiện từ trong biểu diễn đặc trưng văn bản và suy luận chủ đề khi gom cụm với đồ thị từ, đồ thị con phổ biến.

(2)Phát hiện cụm từ xu thế trên luồng văn bản:

− Đề xuất hệ thống TKES: gồm 03 phần chính là Bộ thu thập dữ liệu, Bộ xử lý dữ liệu và Bộ hiển thị dữ liệu.

− Phát hiện các cụm từ xu thế trên luồng dữ liệu văn bản: Đề xuất thuật toán phát hiện các từ khóa đang được quan tâm một cách bất thường và khoảng thời gian các từ này liên tục xuất hiện; Đề xuất thuật toán xếp hạng “độ xuất hiện thường xuyên” của các từ khóa xuất hiện trong cùng một sự nổi bật từ đó xác định cụm từ xu thế Kết quả nghiên cứu được phân tích, đánh giá, so sánh, rút ra kết luận và đưa ra các giải pháp cải tiến.

(3) Các công trình đã công bố: được mô tả cụ thể trong Hình 1.1

Hình 1.1: Mối liên hệ giữa các bài toán và các công trình đã công bố đối với từng bài toán

Hình 1.1 mô tả mối liên quan giữa 02 bài toán nghiên cứu đã được thực hiện trong luận án này và các công trình đã được công bố trong từng bài toán Có thể nói, bài toán 2 là bài toán phụ nghiên cứu các vấn đề cơ bản liên quan phục vụ cho bài toán chính là bài toán 1 giải quyết vấn đề chính luận án đề ra là gom cụm luồng văn bản. Các công trình đã công bố trong bài toán 2, Nghiên cứu phát hiện cụm từ xu thế, các sự nổi bật tiêu biểu trên luồng văn bản, gồm 04 bài Hội nghị quốc tế ([CT1], [CT2], [CT3], [CT4]) và 01 bài tạp chí quốc tế ([CT5]-Scopus/Q3) Công trình công bố trong bài toán 1, Đề xuất mô hình gom cụm luồng văn bản ngắn dựa trên mô hình hỗn hợp áp dụng kết hợp biểu diễn văn bản và suy luận chủ đề theo BOW và GOW, là 1 bài tạp chí quốc tế ([CT6]-SCIE/Q3) Kết quả nghiên cứu đạt được ở bài toán phụ 2 có ý nghĩa quan trọng trong việc giải quyết bài toán 1, tiếp tục cải tiến bài toán 1 cũng như tiếp tục các nghiên cứu sâu hơn về gom cụm luồng văn bản.

Mục tiêu, phạm vi và phương pháp nghiên cứu

Với các bài toán nghiên cứu đã được xác định, luận án đã đặt ra các mục tiêu nghiên cứu cụ thể Để giải quyết bài toán 1, các mục tiêu chính được xác lập bao gồm:

- So sánh các mô hình gom cụm trên luồng văn bản.

- Nhận diện các thách thức của các mô hình.

- Xác định các tập dữ liệu chuẩn phục vụ cho thực nghiệm.

Bài toán 1 Đề xuất mô hình gom cụm luồng văn bản ngắn dựa trên mô hình hỗn hợp áp dụng kết hợp biểu diễn văn bản và suy luận chủ đề theo BOW và GOW

Mô hình đề xuất: GOW-

Nghiên cứu phát hiện cụm từ xu thế, các sự nổi bật tiêu biểu trên luồng văn bản.

Hệ thống đề xuất: TKESCông trình: [CT1], [CT2], [CT3],[CT4], [CT5]-Scopus/Q3

- Đề xuất mô hình mới trong gom cụm luồng văn bản.

- Cải tiến mô hình đề xuất.

Các nhiệm vụ được thực hiện trong bài toán 2 gồm:

- Nghiên cứu phát hiện cụm từ xu thế trên luồng dữ liệu văn bản.

- Nghiên cứu phát hiện các sự nổi bật tiêu biểu của từ khóa.

Thông qua việc xác định các hạn chế của các công trình nghiên cứu trước, xác định được các vấn đề nghiên cứu, hình thành các bài toán chính cho luận án, với đối tượng nghiên cứu là luồng dữ liệu văn bản ngắn, phạm vi nghiên cứu của luận án được xác lập như sau:

(1) Gom cụm trên luồng văn bản ngắn, rời rạc đến từ các mạng xã hội phổ biến như Facebook, Twitter

(2) Nghiên cứu đồ thị từ, kỹ thuật khai phá đồ thị con phổ biến, ảnh hưởng của mối quan hệ đồng hiện giữa các cặp từ trong văn bản đến trên luồng đến kết quả gom cụm.

(3) Nghiên cứu phát hiện cụm từ xu thế trên luồng dữ liệu văn bản.

(4) Nghiên cứu phát hiện các sự nổi bật tiêu biểu trên luồng dữ liệu văn bản.

Trong đó, các nghiên cứu (1), (2) được thực nghiệm trên dữ liệu tiếng Anh và các nghiên cứu (3), (4) được thực nghiệm trên dữ liệu tiếng Việt.

Hai phương pháp chính được sử dụng trong quá trình nghiên cứu là phương pháp nghiên cứu tổng luận và phương pháp nghiên cứu thực nghiệm và so sánh.

Cấu trúc của luận án

Cấu trúc của luận án được trình bày thành 05 chương, bao gồm:

Giới thiệu tóm tắt về luận án.

Trình bày về đề tài nghiên cứu và ý nghĩa của đề tài, các mục tiêu nghiên cứu, các vấn đề nghiên cứu đặt ra dựa vào phân tích các ưu điểm và hạn chế của các công trình liên quan tiêu biểu, các bài toán con, phạm vi nghiên cứu, các kết quả đạt được và cấu trúc của luận án.

-Chương 2: Các nghiên cứu liên quan

Trình bày các nghiên cứu, vấn đề lý thuyết liên quan đến bài toán, so sánh một số cách tiếp cận gom cụm luồng văn bản.

-Chương 3: Gom cụm luồng văn bản theo ngữ nghĩa dựa trên đồ thị từ

Trình bày về phương pháp, thực nghiệm và bàn luận về mô hình GOW- Stream.

-Chương 4: Phát hiện cụm từ xu thế trên luồng văn bản theo tiếp cận

Kleinberg Trình bày về phương pháp, thực nghiệm và bàn luận về hệ thống TKES.

-Chương 5: Kết luận và hướng phát triển

Trình bày các kết quả đã đạt được và hướng phát triển của luận án.

-Danh mục các bài báo đã công bố

Liệt kê các công trình đã công bố có liên quan đến đề tài luận án.

Kết chương

Chương 1 đã giới thiệu các đóng góp của luận án bao gồm việc đề xuất và giải quyết 02 bài toán của luận án Với bài toán thứ nhất cũng là bài toán chính của luận án, tác giả đề xuất kỹ thuật GOW-Stream gom cụm luồng văn bản theo ngữ nghĩa dựa trên đồ thị từ Bài toán thứ hai nghiên cứu phát hiện các cụm từ xu thế trên luồng văn bản. Chương này cũng mô tả mục tiêu, phương pháp nghiên cứu, xác lập phạm vi nghiên cứu, các kết quả đạt được Ngoài ra, chương 1 cũng mô tả rõ cấu trúc của luận án gồm

05 chương: mở đầu, giới thiệu, tổng quan tình hình nghiên cứu, 02 chương về 02 bài toán, chương kết luận và các công trình nghiên cứu đã thực hiện.

CÁC NGHIÊN CỨU LIÊN QUAN

So sánh một số cách tiếp cận mới liên quan đến gom cụm luồng văn bản

Các nghiên cứu gần đây về gom cụm luồng dữ liệu dạng văn bản có thể được phân thành ba loại chính, đó là phương pháp tiếp cận dựa trên mô hình chủ đề, phương pháp tiếp cận dựa trên mô hình hỗn hợp động và phương pháp tiếp cận dựa trên biểu diễn không gian véc tơ.

2.1.1 Phương pháp tiếp cận dựa trên mô hình chủ đề truyền thống Được coi là cách tiếp cận sớm nhất để gom cụm luồng dữ liệu dạng văn bản, mô hình hóa chủ đề là một nhóm các thuật toán hỗ trợ khám phá các chủ đề/cấu trúc tiềm ẩn từ các tài liệu văn bản Phân bổ Dirichlet tiềm ẩn (LDA) [15] là một trong những thuật toán mô hình hóa chủ đề nổi tiếng nhất, hỗ trợ suy ra các chủ đề tiềm ẩn từ một tập hợp các tài liệu văn bản dựa vào phân phối xác suất thiên lệch của các từ LDA biểu diễn các chủ đề tiềm ẩn được khám phá dưới dạng tập con của các từ và tài liệu được phân phối thành dạng tập con của các chủ đề tiềm ẩn được phân phối Các nghiên cứu đã chứng minh rằng mô hình chủ đề có thể được áp dụng để mô hình hóa đặc tính theo thời gian của chủ đề trong luồng dữ liệu văn bản cũng như xử lý sự rời rạc của văn bản Nhiều nghiên cứu mở rộng dựa trên LDA đã được giới thiệu đáp ứng bản chất động của các chủ đề trong các loạt luồng văn bản khác nhau, chẳng hạn như chủ đề theo thời gian (TOT) [83], mô hình chủ đề động (DTM)[14], mô hình theo dõi chủ đề (TTM), LDA theo thời gian (TM-LDA) [85], streaming LDA (ST-LDA)[9], Các mô hình được đề xuất này có thể hỗ trợ để suy ra các chủ đề động một cách hiệu quả từ tài liệu dài đã cho trong các luồng Tuy nhiên, các mô hình dựa trên LDA này yêu cầu phải xác định từ đầu số lượng chủ đề cho tất cả các lô tài liệu khác nhau trong một luồng Điều này không phù hợp với sự thay đổi của các chủ đề theo thời gian.

2.1.2 Phương pháp tiếp cận dựa trên mô hình hỗn hợp động

Vì số lượng chủ đề thay đổi theo thời gian và các lô tài liệu khác nhau trong các luồng, nên yêu cầu biết trước số lượng chủ đề là hạn chế lớn khi áp dụng các kỹ thuật dựa trên LDA trong việc giải quyết vấn đề phát triển chủ đề tự nhiên của luồng văn bản Để khắc phục nhược điểm này, các cải tiến liên tục liên quan đến cách tiếp cận mô hình chủ đề động đã được đề xuất Cách tiếp cận này còn được gọi là phương pháp quy trình Dirichlet (DP) [75] được sử dụng rộng rãi để xử lý vấn đề thay đổi và tiến hóa chủ đề trong gom cụm luồng văn bản Chủ yếu dựa theo các mô hình dựa trên LDA, các thuật toán gom cụm luồng văn bản dựa trên mô hình hỗn hợp được thiết kế để suy luận phân phối của các chủ đề trên các tài liệu Sau đó, các kỹ thuật lấy mẫu nhiều lần như Gibbs Sampling, Sequential Monte Carlo, được áp dụng để ước tính các tham số của mô hình, để suy luận sự phân bố của các chủ đề trên luồng văn bản đã cho Nói cách khác, các kỹ thuật gom cụm văn bản dựa trên mô hình hỗn hợp động chủ yếu dựa vào định lý phi tham số Bayes để mô hình hóa chủ đề động Phương pháp dựa trên mô hình hỗn hợp động đã chứng minh được tính hiệu quả trong việc tự động khám phá các chủ đề từ các luồng văn bản rời rạc Các mô hình nổi tiếng gần đây sử dụng cách tiếp cận này như: Mô hình chủ đề Dirichlet-Hawkes (DHTM)[23], Mô hình chủ đề gom cụm động (DCT)

[50] và Mô hình hỗn hợp quy trình Dirichlet theo thời gian (TDPM)[4] Các quy trình Dirichlet dựa trên cơ sở này đã chỉ ra các giải pháp tiềm năng để giải quyết vấn đề thay đổi chủ đề của các luồng văn bản Tuy nhiên, các mô hình đề xuất này vẫn còn tồn tại những mặt hạn chế DHTM không có khả năng hoạt động tốt trên các tài liệu văn bản ngắn [23] Ngược lại, DCT được thiết kế để làm việc với các luồng văn bản ngắn, tuy nhiên, DCT không thể phát hiện sự thay đổi của các chủ đề trong các lô tài liệu khác nhau của các luồng văn bản mà số lượng chủ đề có thể được thay đổi theo thời gian. Đây là hạn chế của kỹ thuật này TDPM được xem là một framework gom cụm văn bản ngoại tuyến yêu cầu toàn bộ tập hợp các tài liệu văn bản từ một luồng cho trước Do đó, TDPM không phù hợp để áp dụng trong bối cảnh nhiệm vụ gom cụm văn bản đến với tốc độ cao Gần đây, có một bản nâng cấp mới về gom cụm luồng văn bản ngắn phụ thuộc vào Mô hình hỗn hợp quy trình Dirichlet (DPMM) [98], được gọi là MStream/MStreamF cho phép dự đoán hiệu quả các chủ đề tiềm ẩn từ các luồng văn bản ngắn cho trước Tuy nhiên, MStreamF vẫn gặp phải điểm hạn chế phổ biến trong việc khai phá biểu diễn từ độc lập trong khi suy ra các chủ đề Việc bỏ qua sự rời rạc và mối quan hệ giữa các từ trong văn bản có thể dẫn đến sự mơ hồ về các chủ đề được phát hiện từ các luồng văn bản.

2.1.3 Phương pháp tiếp cận dựa trên biểu diễn không gian vectơ

Tương tự như phương pháp gom cụm văn bản cổ điển cho kho ngữ liệu văn bản tĩnh, cho các tài liệu văn bản trong các luồng được chuyển đổi và biểu diễn dưới dạng vectơ đặc trưng, sau đó các độ đo dựa trên khoảng cách có sẵn như độ tương tự Cosin, khoảng cách Euclide, được áp dụng để đo lường sự giống nhau giữa các tài liệu văn bản và các chủ đề đã cho Từ lâu, cách tiếp cận dựa trên biểu diễn không gian vectơ (VSR) đã được nghiên cứu rộng rãi để xử lý tác vụ gom cụm luồng văn bản tốc độ cao với các mô hình gom cụm luồng văn bản dựa trên độ tương đồng nổi tiếng, chẳng hạn như: SSC[100], CluStream, DenStream, Sumblr[74] Tuy nhiên, các kỹ thuật gom cụm văn bản dựa trên VSR có hai hạn chế lớn Hạn chế đầu tiên liên quan đến thách thức về sự thay đổi chủ đề vì các thuật toán dựa trên cách tiếp cận này yếu cầu số lượng chủ đề nên được chỉ định trước Hạn chế thứ hai của các mô hình dựa trên VSR liên quan đến việc yêu cầu phải xác định ngưỡng tương đồng từ đầu, ngưỡng tương đồng thích hợp để xác định một tài liệu văn bản mới từ một luồng nhất định sẽ thuộc về một chủ đề cụ thể hay không Hơn nữa, số chiều của các vectơ được đại diện trong tài liệu cũng bị ảnh hưởng bởi độ dài của tài liệu Do tồn tại những thách thức nghiêm trọng này, cách tiếp cận dựa trên VSR ít được quan tâm hơn so với cách tiếp cận dựa trên mô hình hỗn hợp trong việc xử lý tác vụ gom cụm luồng văn bản.

2.1.4 Mô hình hóa chủ đề (Topic modeling)

2.1.4.1 Tìm chủ đề của văn bản

Mô hình LDA [15] của David Blie là mô hình cổ điển nổi tiếng được sử dụng nhiều trong việc phân tích chủ đề văn bản Mô hình dựa trên mạng Bayes Việc tìm chủ đề của văn bản được thực hiện dựa trên việc tính phân bố xác suất cho mỗi từ đặc trưng trong tài liệu Mỗi chủ đề có xác suất riêng cho từng từ khóa và phân bố chủ đề được biểu diễn như là sự kết hợp nhiều chủ đề trong văn bản.

2.1.4.2 Mạng Bayes Được dùng để biểu diễn tri thức không chắc chắn, là một họ của mô hình đồ thị xác suất, là sự kết hợp của lý thuyết đồ thị và lý thuyết xác suất thống kê, cho phép biễu diễn trực quan phương pháp tính phân bố xác suất chung của các biến ngẫu nhiên.Với các node là các biến ngẫu nhiên, các cạnh biểu diễn sự phụ thuộc của các biến ngẫu nhiên tương ứng, đây là đồ thị có hướng không có chu trình và được định nghĩa với 02 thành phần: ((((((((((((((( = (�, Θ) với � là đồ thị chứa các node �1, 2, … � là các biến ngẫu nhiên, sự phụ thuộc của các biến ngẫu nhiên được biểu diễn thông qua các cung của đồ thị � Θ là tập tham số của mạng Bayes bao gồm � � � |� � = � � (� � |� � ) cho mỗi khái niệm

� � của � � biết � � (biến điều kiện) Công thức (2.1) tính phân bố xác suất chung của tập biến ngẫu nhiên là:

Phân bố xác suất của � � gọi là phân bố xác suất có điều kiện nếu như có biến cha (biến ảnh hưởng đến nó) và ngược lại thì gọi là phân bố xác suất không có điều kiện.

2.1.4.3 Suy diễn trên mạng Bayes

Mạng Bayes dùng 02 phương pháp suy diễn: từ trên xuống hay từ dưới lên Suy diễn từ trên xuống xuất phát từ nút cha của nút đang xét � � và suy diễn từ dưới lên xuất phát từ nút con của nút đang xét � �

Là một mô hình mạng Bayes theo 03 cấp do David Blei phát triển năm 2003 Đây là mô hình dùng để mô hình hóa tập dữ liệu nhằm phát hiện ra các chủ đề tìm ẩn Mỗi chủ đề là một phân bố rởi rạc của một tập các từ Đây là mô hình phù hợp với tập ngữ liệu rời rạc nhau được phân nhóm Mỗi nhóm được mô tả dưới dạng kết hợp ngẫu nhiên của một tập các chủ đề tiềm ẩn.

Mô hình sinh của mô hình LDA

Xuất phát từ ý tưởng mô tả các văn bản là sự kết hợp nhiều chủ đề [15], mỗi chủ đề được biểu diễn bởi các từ với xác suất của chúng được tính bằng kỹ thuật Gibb Sampling Với LDA, giả sử một tài liệu được tạo theo các bước sau:

1) Xác định số lượng các từ � mà văn bản có (dựa theo phân bố Poisson).

2) Chọn k chủ đề cho tài liệu dựa theo phân bố đa thức.

3) Sinh ra các từ � � cho tài liệu theo các bước: a Chọn chủ đề dựa theo phân bố đa thức đã được xác định. b Sử dụng chủ đề đã được chọn để tạo ra các từ theo xác suất của từng chủ đề đã chọn.

Mục đích của việc tạo ra mô hình sinh là khi đảo ngược các bước để suy diễn từ các tài liệu ta tìm được tập chủ đề ẩn.

Như vậy, LDA là một mô hình dạng Bayes với quá trình phát sinh một tập tài liệu gồm 3 bước:

1) Với mỗi tài liệu, tạo một phân bố xác suất chủ đề của tài liệu đó bằng cách lấy mẫu từ phân bố xác suất Dirichlet.

2) Với mỗi từ trong tài liệu, một chủ đề duy nhất được chọn từ phân bố chủ đề trên.

3) Mỗi từ khóa sẽ được rút ra từ phân bố đa thức cho từ khóa theo chủ đề được chọn Ta có một số khái niệm: a Một từ � là một đơn vị dữ liệu cơ bản, được hiểu là một phần tử của tập từ vựng và được đánh chỉ mục theo các phần tử {1,2, �}. b Một tài liệu � được biểu diễn bằng 1 dãy � từ và được ký hiệu là: � ((((((((((((((( 1 , 2 , … � ), với � � là tập từ biểu diễn cho tài liệu thứ i của kho ngữ liệu.

Mỗi tài liệu được biểu diễn thông qua các chủ đề mà tài liệu đó đề cập đến, mỗi chủ đề được đặc trưng bằng các từ khóa.

Hình 2.1: Mô hình sinh LDA

� là ma trận biểu diễn phân bố xác suất một từ khóa xuất hiện trong chủ đề � � � được lấy theo phân bố xác suất Dirichlet.

� là ma trận � � � biểu diễn phân bố xác suất chủ đề � � � trong tài liệu � � � được lấy mẫu theo phân bố ℎ(ℎ(ℎ(ℎ(ℎ(ℎ(ℎ(ℎ(ℎ(ℎ(ℎ(ℎ(ℎ(ℎ(ℎ ( ) Với mỗi từ trong tài liệu �, � là chủ đề lấy từ ma trận � của tài liệu �, � là từ khóa được sinh ra bởi chủ đề �.

Việc tính ma trận � và � cho ta biết thông tin về chủ đề trong tài liệu và xác xuất của các chủ đề trong tài liệu.

Lý thuyết về Gibbs Sampling

Là một trong những họ thuật toán Markov Chain Monte Carlo, mục tiêu của Gibbs Sampling là tạo ra xích Markov có phân bố hậu nghiệm như là phân bố ổn định. Sau khi lặp lại một số lần trong xích Markov, mẫu từ phân bố hội tụ được mong muốn là giống như mẫu từ xác suất hậu nghiệm Thuật toán này dựa trên việc lấy mẫu từ các phân bố điều kiện của các biến của xác suất hậu nghiệm.

Ví dụ: để lấy mẫu x từ phân bố liên hợp ( (( (( (( (( (( (( (( (( (( (( (( (( (( (() = ( 1, 2, … , � ), thuật toán thực hiện các bước:

Kết chương

Trong chương này, luận án trình bày các công trình nghiên cứu liên quan như mô hình chủ đề, mô hình hỗn hợp dựa trên quy trình Dirichlet và một số nguyên lý liên quan, đồ thị hóa văn bản, kỹ thuật tìm đồ thị con phổ biến (thuật toán gSpan), thuật toán phát hiện sự nổi bật trên luồng dữ liệu văn bản…làm cơ sở để xây dựng các thuật toán của luận án.

GOM CỤM LUỒNG VĂN BẢN THEO NGỮ NGHĨA DỰA TRÊN ĐỒ THỊ TỪ

Phương pháp

Phần này giới thiệu sơ nét các các phương pháp mà mô hình GOW-Stream sử dụng, so sánh với phương pháp truyền thống khác.

3.1.1 Biểu diễn đặt trưng văn bản bằng phương pháp túi từ (BOW)

Ví dụ về biểu diễn theo lối truyền thống Giả sử cho tập văn bản �={�1, �2, �3} gồm các văn bản:

Phương pháp BOW truyền thống biểu diễn các văn bản như trong Bảng 3.1.

Bảng 3.1: Biểu diễn văn bản với BOW truyền thống

Văn bản a b c d Chiều dài văn bản ban đầu

Chiều dài văn bản sau khi loại bỏ từ trùng

Bảng 3.1 mô tả khái quát cách biểu diễn văn bản với túi từ truyền thống đối với 3 văn bản đã cho là �1, �2, �3 với chiều dài sau khi loại bỏ từ trùng lần lượt là 3,4,4. Như vậy, kích thước của ma trận các véc tơ biểu diễn tập văn bản sẽ là 3x4 và từng véc tơ có giá trị tương ứng như cột “Biểu diễn véc tơ” trong Bảng 3.1.

Ví dụ về sử dụng TF-IDF để biểu diễn Với TF-IDF, các văn bản đã cho được biểu diễn như trong Bảng 3.2.

Bảng 3.2: Biểu diễn văn bản với BOW và TF-IDF

Chiều dài văn bản sau khi loại bỏ từ trùng

Bảng 3.2 trình bày ví dụ về phương pháp biểu diễn văn bản với túi từ truyền thống đối với 3 văn bản đã cho là �1, �2, �3 có sử dụng thêm kỹ thuật TF-IDF để tính tần số xuất hiện của các từ tương ứng trong văn bản Sau đó, véc tơ biểu diễn văn bản sẽ có giá trị là các tần số từ được tính bằng kỹ thuật TF-IDF. jumped dog over fox lazy the brown big

3.1.2 Biểu diễn văn bản bằng đồ thị từ (GOW)

Kỹ thuật đồ thị hóa văn bản Text2graph Biểu diễn tài liệu văn bản dựa trên

GOW là một cách tiếp cận NLP nổi tiếng nhằm mục đích biểu diễn tài liệu văn bản d thành cấu trúc dựa trên đồ thị, được ký hiệu là: Gd = (Vd, Ed) với tập hợp các nút (V d ) và các cạnh (Ed) đại diện cho tập hợp các từ phân biệt, như W = {w 1 , w 2 … w |W| }, được xuất hiện trong tài liệu d và quan hệ đồng xuất hiện tương ứng giữa các từ này Các quan hệ đồng xuất hiện giữa các từ có thể được rút trích linh hoạt dựa vào một cửa sổ trượt được xác định trước Đây còn được gọi là kỹ thuật đồ thị hóa văn bản text2graph, phương pháp thống kê để biểu diễn các mối quan hệ đồng xuất hiện giữa các từ trong văn bản mà không cần cân nhắc về ý nghĩa ngữ nghĩa giữa các từ Các đồ thị dạng văn bản sau khi biến đổi có thể có hướng hoặc vô hướng Cách triển khai đơn giản nhất của biểu diễn GOW cho tài liệu văn bản là sử dụng đồ thị vô hướng để biểu diễn quan hệ đồng xuất hiện giữa các từ (minh họa trong Hình 3.1) được áp dụng trong mô hình đề xuất GOW-Stream Trong trường hợp cần xem xét thứ tự xuất hiện của các từ trong tài liệu, các đồ thị được xây dựng nên là đồ thị có hướng Để triển khai nâng cao phương pháp tiếp cận text2graph, có thể cân nhắc để tính đến tần suất xuất hiện đồng thời của hai từ và gán nhãn bằng chú thích từng phần của từ cho các đồ thị văn bản đã xây dựng Trong nghiên cứu này, luận án sử dụng đồ thị vô hướng và phương pháp biểu diễn mối quan hệ đồng xuất hiện của từng cặp từ trong văn bản làm nền tảng để biểu diễn văn bản.

Hình 3.1: Hình ảnh minh họa cấu trúc đồ thị hóa văn bản (text2graph) với đồ thị vô hướng

Hình 3.1 minh họa cho việc biểu diễn bằng đồ thị văn bản � có nội dung là “The lazy dog jumped over the big brown fox” Sau khi loại bỏ từ trùng (“the”) thì văn bản

� còn lại 8 từ tương ứng với 8 đỉnh của đồ thị Các cặp từ đứng gần nhau (trong văn bản d trước khi loại bỏ từ trùng) sẽ được biểu diễn bằng các cung nối (có tổng cộng 8 cung): the-lazy, lazy-dog, dog-jumped, jumped-over, over-the, the-big, big-brown, brown-fox. Đồ thị con phổ biến là đặc trưng cho tài liệu Tiếp theo, với một tập hợp các đồ thị dạng văn bản đã xây dựng � = {G 1 , G 2 , … G| D|) từ một kho văn bản nhất định (D), với V và E là tập hợp các từ xuất hiện đặc biệt W là các nút của đồ thị và các quan hệ đồng xuất hiện tương ứng của chúng Sau đó, luận án áp dụng các kỹ thuật khai phá đồ thị con phổ biến, chẳng hạn như: gSpan, FFSM, vv để rút trích ra tập hợp các đồ thị con phổ biến, được ký hiệu là: F = {G ′ , G ′ … G ′ }, trong đó mỗi đồ thị con phổ biến:

G ′ = (V ′ , E ′ ), với V ′ ∈ V và E ′ ∈ E, được dùng để biểu diễn đặc trưng phân biệt cho cácf f f f f tài liệu đã cho có chứa đồ thị con G ′ Khác với việc sử dụng các từ phổ biến làm các đặc trưng phân biệt để biểu diễn văn bản, hay còn gọi là biểu diễn theo túi từ (BOW), việc sử dụng các đồ thị con phổ biến để biểu diễn văn bản mang tính ngữ nghĩa hơn do khả năng nắm bắt các mối quan hệ đồng xuất hiện của các cặp từ (n-gram với n=1) được áp dụng vào mô hình đề xuất.

Biểu diễn tài liệu kết hợp BOW và GOW Kết hợp với biểu diễn dựa trên BOW cổ điển, một tài liệu d bây giờ được phân rã thành bộ giá trị sau (như thể hiện trong công thức (3.1)):

• Wd là tập hợp các từ duy nhất xuất hiện trong tài liệu �

• Nd là tần số của chúng được biểu diễn dưới dạng vectơ Nd, trong đó N w là tần số xuất hiện của (w) cụ thể trong tài liệu đã cho d hay Nd = ∑w∈d N w

• Fd là tập các đồ thị con phổ biến của tài liệu d. Đối với mỗi tập đồ thị con phổ biến Fd trong tài liệu �, mỗi đồ thị con phổ biến chỉ xuất hiện một lần, do đó không cần tính tần suất xuất hiện của đồ thị con phổ biến trong mỗi tài liệu (vì luôn là 1) Thuật toán 3.1 do luận án đề xuất minh họa các bước để rút trích đồ thị con phổ biến từ một kho ngữ liệu văn bản thô nhất định với thuật toán gSpan

[92] để khai phá đồ thị con văn bản phổ biến Tóm lại, ý tưởng quan trọng đằng sau gSpan là thay vì liệt kê tất cả các đồ thị con và kiểm tra tính đẳng cấu trong toàn bộ bộ sưu tập, trước tiên nó xây dựng cho mỗi đồ thị một thứ tự từ vựng của tất cả các cạnh f d d bằng cách sử dụng tìm kiếm Depth First Search (DFS) và gán cho nó một mã DFS tối thiểu duy nhất Dựa trên tất cả các mã DFS này, cây tìm kiếm phân cấp được xây dựng ở cấp bộ sưu tập Bằng cách sắp xếp trước việc duyệt cây này, gSpan phát hiện ra tất cả các đồ thị con phổ biến thỏa ngưỡng min support σ yêu cầu.

Thuật toán 3.1: Rút trích các đồ thị con phổ biến từ tập tài liệu đã cho (D)

• Cửa sổ trượt s=1//chỉ xét từng cặp từ

Output : Tập các đồ thị con phổ biến của tập tài liệu D, ký hiệu: FD 1: Function ExtractGOWs(D, σ)

2: Initialize: GD = {} #Khởi tạo tập các GOW của tập tài liệu �, ký hiệu ��

4: Initialize: Gd = Text2Graph(d)#Khởi tạo từng đồ thị từ

5: Update: GD append(Gd)#Cập nhật vào tập đồ thị từ ��

7: Initialize: FD = gSpanAlgorithm(GD, σ) #Tìm tập đồ thị con phổ biến ��

11: Initialize: G� #cấu trúc đồ thị của tài liệu �

12: Initialize: Wd = {}, WSeqd = {}#Danh sách từ, ds từ theo thứ tự của tài liệu �

14: If w not in Wd: Wd.append(w)#Tạo ds từ không trùng

15: Update: WSeqd.append(w) #Tạo ds từ theo thứ tự

17: Update: G nodes create(Wd) #Tạo tập các nút từ tập từ không trùng đã có 18: For word w in WSeqd:

20: Update: G edges create([w], [Seqd[w − i])#Tạo cạnh với từ phía trước

21: Update: G edges create([w], [Seqd[w + i]) #Tạo cạnh với từ phía sau

27: Initialize: FD = {} #lưu các đồ thị con phổ biến của tập tài liệu �

29: For c in children(Gd): #Duyệt tất cả các đồ thị con của

30: If support(c, GD) ≥ �: Update: FD append(c)#Cập nhật đồ thị con phổ biến tương ứng vào tập đồ thị con phổ biến ��

Như vậy, Thuật toán 3.1 tìm đồ thị con phổ biến của tập tài liệu � là ExtractGOWs có thể tóm tắt thành các bước như sau:

(1)- Với mỗi tài liệu � trong tập tài liệu �, hệ thống khởi tạo GOW của tài liệu � là � � (dòng 2) và cập nhật vào danh sách GOW � � của tập tài liệu � sử dụng hàm Text2Graph(d) (dòng 4 và 5).

(2)- Hệ thống tìm tập đồ thị con phổ biến � � tương ứng với tập tài liệu � bao gồm các tập đồ thị con phổ biến � � của từng tài liệu � sao cho � � chỉ chứa các đồ thị con phổ biến � � có tần số xuất hiện lớn hơn ngưỡng phổ biến tối thiểu minsupp σ sử dụng thuật toán gSpan, thuật toán tìm đồ thị con phổ biến của tài liệu � (dòng 7).

Hàm Text2Graph(d) có thể tóm tắt thành các bước sau:

(1)- Hệ thống khởi tạo cấu trúc đồ thị G � của tài liệu � (dòng 11)

(2)-Hệ thống khởi tạo danh sách sách từ � � không trùng và từ theo thứ tự

(3)- Với mỗi từ trong danh sách từ � � của tài liệu �, hệ thống tạo đỉnh cho đồ thị

G d sau đó dựa vào danh sách từ theo thứ tự � �� của tài liệu �, hệ thống tạo cạnh cho đồ thị G d (dòng 18 - 23)

* Đỉnh đồ thị chỉ có một từ duy nhất nên tham số trượt s (trong n-gram) được thiết lập là 1.

Có thể tóm tắt các bước của hàm gSpanAlgorithm như sau:

(1)- Hệ thống khởi tạo cấu trúc F D để lưu các tập đồ thị con phổ biến của tập tài liệu D (dòng 27).

(2)- Với mỗi tập đồ thị từ G d của tài liệu � thuộc về tập đồ thị từ G D của tập tài liệu D, hệ thống duyệt tất cả đồ thị con của G d và thêm các đồ thị con thỏa min support α vào tập F D tương ứng (dòng 28-32).

Ví dụ về biểu diễn văn bản bằng đồ thị và tìm đồ thị con phổ biến Phần sau đây trình bày ví dụ về biểu diễn văn bản bằng GOW.

Giả sử cho tập văn bản �={� 1 , � 2 , � 3 } gồm các văn bản

Ta có thể biểu diễn cho tập � bằng đồ thị từ và được tập đồ thị từ tương ứng � � {

Tập đồ thị từ � � có thể được minh họa bằng các hình vẽ như sau: a b c a b d c a d b c

Hình 3.2: Biểu diễn đồ thị từ của tập tài liệu �

Vậy ta tìm ra được tập � � = {{{{{{{{{{{{{{{ 1 , � 2 , � 3 }

Giả sử ta dùng thuật toán gSpan để tìm đồ thị con phổ biến với ngưỡng min support

= 50%, ta được các đồ thị con phổ biến trên toàn tập D gồm: a b c a d b c

Hình 3.3: Tập đồ thị con phổ biến chung của tập tài liệu �

Như vậy, tập các đồ thị con phổ biến là � � = {{{{{{{{{{{{{{{ 1 , � 2 } và:

� có 1 đồ thị con phổ biến là � 1 , ta có tập đồ thị con phổ biến của

� 2 có 2 đồ thị con phổ biến là � 1 và � 2 , ta có tập đồ thị con phổ biến của � 2 là

� 3 có 2 đồ thị con phổ biến là � 1 và � 2 , ta có tập đồ thị con phổ biến của � 3 là

Và ta có tập đồ thị con phổ biến cuối cùng như sau:

Vậy, sử dụng đồ thị con phổ biến để biểu diễn các văn bản như trong Bảng 3.3.

Bảng 3.3: Biểu diễn văn bản với GOW

Văn bản � � � � � � Số đồ thị con phổ biến Biểu diễn véc tơ

Bảng 3.3 trình bày ví dụ về cách biểu diễn văn bản sử dụng đồ thị từ đối với 3 văn bản được cho là �1, �2, �3 Đầu tiên, các văn bản được đồ thị hóa Tiếp theo, hệ thống tìm tập đồ thị con phổ biến với thuật toán gSpanAlgorithm theo ngưỡng min support được thiết lập là 50% được tập đồ thị con phổ biến là � � = {{{{{{{{{{{{{{{ 1 , � 2 } Dựa vào kết quả

Thực nghiệm và bàn luận

Phần này thực hiện các thử nghiệm mở rộng trên bộ dữ liệu trong thế giới thực để đánh giá hiệu quả của mô hình GOW-Stream được đề xuất so với các thuật toán gom cụm luồng văn bản dựa trên mô hình hỗn hợp được công bố gần đây, bao gồm: DTM,Sumblr và MStream.

Tập dữ liệu và chỉ số đánh giá

Mô tả tập dữ liệu Để đánh giá công bằng hiệu quả của các mô hình gom cụm luồng văn bản khác nhau bao gồm GOW-Stream được đề xuất, thực nghiệm sử dụng hai tập dữ liệu được gắn nhãn trong thế giới thực thường được sử dụng cho hầu hết các nghiên cứu thực nghiệm trong các công trình trước đây Hai tập dữ liệu này là:

• Google-News (GN) (tải tại https://news.google.com/): tập dữ liệu này lần đầu tiên được giới thiệu bởi [Yin and Wang, 2014], chứa 11.109 tài liệu được gắn nhãn Các tài liệu trong bộ dữ liệu này được gán cho 152 chủ đề khác nhau.

• Tweets (Tw) (tải tại http://trec.nist.gov/data/microblog.html): tập dữ liệu này được xây dựng bằng cách thu thập các tweet từ mạng xã hội Twitter Những tweet này được gắn nhãn trong các bài hát trên microblog 2011-2015 tại Hội nghị Truy xuất văn bản (TREC), NIST Tập dữ liệu này chứa 269 chủ đề bao gồm 30.322 tài liệu văn bản có các tweet độ dài khác nhau.

• Tập dữ liệu tổng hợp (GN-T, Tw-T): Hai tập dữ liệu này là phiên bản chỉnh sửa của Google-News (GN) và Tweets (Tw) ở trên để kích thích trạng thái dạt trôi chủ đề/khái niệm trong các luồng văn bản trong thế giới thực khi mà các chủ đề (mỗi chủ đề là một cụm) chỉ xuất hiện vào thời điểm cụ thể (ví dụ: COVID- 19, Cuộc giao tranh Trung Quốc-Ấn Độ, …) và sau đó biến mất Theo quy trình của các công trình trước, trước tiên, tác giả sắp xếp các tweet (Tw) và tin tức (GN) theo các chủ đề được gán nhãn của chúng Sau đó, tác giả tiến hành chia đều các tweet/tin tức này thành 16 phần trước khi xáo trộn chúng.

Tương tự như các công trình trước, hệ thống áp dụng quy trình tiền xử lý văn bản đơn giản bao gồm: chuyển đổi tất cả văn bản thành chữ thường, loại bỏ tất cả các từ dừng và biến đổi các từ về dạng gốc với stemming Hai bộ dữ liệu này được sử dụng chủ yếu trong các thực nghiệm cũng có thể được xem là có độ dài ngắn và rời rạc do số lượng từ trung bình trong mỗi tài liệu thấp cũng như số lượng lớn các chủ đề được bao quát (như thể hiện trong thống kê ở Bảng 3.6).

Bảng 3.6: Chi tiết về bộ dữ liệu thử nghiệm

Số lượng từ không trùng Độ dài trung bình (số từ)

Số đồ thị con phổ biến (min support

Nhìn chung, tập dữ liệu Tw/Tw-T thách thức hơn so với GN/GN-T do trong các tài liệu văn bản trong tập dữ liệu này có số lượng lớn các chủ đề được gán nhãn.

Các độ đo được sử dụng để đánh giá hiệu suất Để đánh giá hiệu suất một cách chính xác đối với các tác vụ gom cụm văn bản với các thuật toán gom cụm luồng văn bản khác nhau, thực nghiệm sử dụng hai độ đo để đánh giá chính là NMI và F1 Các chỉ số đánh giá này được sử dụng trong thực nghiệm như sau:

Thông tin tương hỗ chuẩn hóa (Normalized Mutual Information - NMI) Đây là độ đo phổ biến nhất được sử dụng rộng rãi để đánh giá chất lượng của đầu ra gom cụm với nhãn đầu ra thực sự cho trước NMI được nhận định là thước đo nghiêm ngặt nhất để đánh giá hiệu suất của nhiệm vụ gom cụm trong phạm vi [0, 1] Trong trường hợp các đầu ra gom cụm hoàn toàn khớp với các lớp có nhãn/nhãn đầu ra thực sự đã cho, giá trị NMI sẽ là 1, trong khi giá trị của nó sẽ gần bằng 0 khi các đầu ra gom cụm được tạo ngẫu nhiên Chỉ số NMI được định nghĩa chính thức như sau (xem công thức (3.10)):

• n c , n k là số tài liệu trong một lớp (c) và số tài liệu trong một cụm (k).

• n c,k là số lượng tài liệu trong cả lớp (c) và cụm (k).

• N là tổng số tất cả các tài liệu trong tập dữ liệu đã cho. Độ đo F1 Đây là một độ đo nổi tiếng cho cả nhiệm vụ gom cụm và phân lớp Độ đo F1 xem xét cả giá trị precision (P) và giá trị recall (R) của đầu ra gom cụm để tính giá trị F1 Độ đo F1 được định nghĩa chính thức như sau (xem công thức (3.11)):

• TP, là số lượng tài liệu văn bản được gán cho các cụm chính xác (dựa trên các lớp được gắn nhãn tương ứng của chúng).

• FP và FN, là số lượng tài liệu dự kiến được gán cho các cụm cụ thể nhưng không chính xác và không được chỉ định thuộc về các cụm đó.

Thiết lập thực nghiệm Để so sánh hiệu suất của mô hình GOW-Stream được đề xuất, ba thuật toán gom cụm luồng văn bản được triển khai trong các thử nghiệm của tác giả bao gồm: DTM

[14], Sumblr [74] và MStream[97] Các cấu hình cho các mô hình gom cụm luồng văn bản này được mô tả ngắn gọn như sau:

• DTM[14]: được xem là mô hình ra đời sớm nhất sử dụng cách tiếp cận mô hình chủ đề động cho phép khám phá các chủ đề tiềm ẩn từ các tài liệu văn bản tuần tự như luồng văn bản Tuy nhiên, DTM được coi là phương pháp tiếp cận với

“số lượng chủ đề cố định” có nghĩa là trước tiên phải xác định số lượng chủ đề.

Do đó, nó không thể đối phó với thách thức chủ đề thay đổi trong giải quyết nhiệm vụ gom cụm luồng văn bản.

• Sumblr [74]: là mô hình nổi tiếng nhất trong cách tiếp cận dựa trên độ tương đồng để gom cụm luồng văn bản Sumblr là một phiên bản trực tuyến để gom cụm các tweet trong mạng xã hội Twitter Sumblr là kỹ thuật hiệu quả khi xử lý tác vụ gom cụm văn bản ngắn chỉ cần một lần xử lý lặp lại hàng loạt để vừa gán các tài liệu mới cho cụm vừa duy trì thống kê cụm Tuy nhiên, tương tự như mô hình DTM trước đó, trong mô hình Sumblr, số chủ đề phải được thiết lập từ đầu nên kỹ thuật này không thể giải quyết vấn đề chủ đề thay đổi.

• MStream [97]: là mô hình hỗn hợp mới nhất để xử lý vấn đề gom cụm luồng văn bản ngắn cũng như giải quyết vấn đề chủ đề thay đổi Mô hình MStream áp dụng kỹ thuật suy luận dựa trên DPMM để gom chủ đề trên tài liệu trong một luồng văn bản nhất định Các thực nghiệm mở rộng trên bộ dữ liệu tiêu chuẩn đã chứng minh tính hiệu quả của mô hình MStream trong cả gom cụm tài liệu văn bản một lần cũng như các quá trình cập nhật/duy trì cụm Tuy nhiên, MStream được coi là phương pháp đánh giá độc lập với từ, phần lớn bỏ qua các mối quan hệ giữa các từ trong tài liệu văn bản Do đó, kỹ thuật này có thể không thể giải quyết được thách thức về vấn đề mơ hồ của các chủ đề được rút trích từ các luồng văn bản. Đối với các cấu hình ban đầu của mỗi mô hình, các cài đặt khác nhau tương ứng với các thiết lập mặc định của từng mô hình được áp dụng để đạt được hiệu suất chính xác cao nhất từ các công trình gốc Chi tiết về cấu hình cho từng mô hình gom cụm luồng văn bản sử dụng các bộ dữ liệu khác nhau được mô tả trong Bảng 3.7.

Bảng 3.7: Chi tiết về cấu hình cho các mô hình gom cụm luồng văn bản

Tập dữ liệu Mô hình Siêu tham số

Số lượng chủ đề khởi tạo ( � )

GN và GN-T (tổng hợp)

Tw và Tw-T (tổng hợp)

Kết chương

Chương này trình bày một cách tiếp cận mới nâng cao tính ngữ nghĩa để gom cụm luồng văn bản bằng cách áp dụng các phân phối đồ thị từ phổ biến (GOW) trên các tài liệu văn bản ngắn Việc áp dụng đánh giá GOW để thực hiện nhiệm vụ khai phá văn bản đã chứng minh được một số hiệu quả liên quan đến khả năng nắm bắt tự nhiên các mối quan hệ phụ thuộc của các từ như mối quan hệ đồng xuất hiện của từ GOW được coi là kỹ thuật tái cấu trúc văn bản không có giám sát đã được áp dụng rộng rãi trong nhiều phương pháp tiếp cận nâng cao theo từng giai đoạn do tính đơn giản và hiệu quả trong việc thực hiện mà không cần sử dụng bất kỳ kỹ thuật NLP tiên tiến có giám sát nào Bằng cách kết hợp với việc khai phá đồ thị con phổ biến (FSM), chúng ta có thể rút trích các đồ thị con phổ biến từ kho văn bản nhất định, các đồ thị con phổ biến này đóng vai trò là các đặc trưng đặc biệt cho các tài liệu văn bản Để khắc phục các nhược điểm liên quan đến đánh giá các mối quan hệ của từ trong các mô hình gom cụm luồng văn bản trước đó, nghiên cứu kết hợp đánh giá dựa trên các đồ thị con phổ biến và đánh giá từ độc lập trong quy trình suy luận chủ đề của Mô hình hỗn hợp quy trình Dirichlet (DPMM) để nâng cao kết quả gom cụm văn bản từ luồng dữ liệu Các thử nghiệm mở rộng trên bộ dữ liệu chuẩn có thể chứng minh tính hiệu quả của mô hình được đề xuất trong việc xử lý tác vụ gom cụm luồng văn bản nắng có nội dung rời rạc so sánh với các kỹ thuật được công bố gần đây, bao gồm: DTM, Sumblr và MStream Trong các cải tiến trong tương lai, nghiên cứu này dự kiến mở rộng việc triển khai mô hình GOW-Stream trên môi trường xử lý phân tán chủ yếu được thiết kế để xử lý luồng dữ liệu dạng văn bản quy mô lớn và tốc độ cao, và xử lý phân tán trênApache Spark Streaming.

PHÁT HIỆN CỤM TỪ XU THẾ TRÊN LUỒNG VĂN BẢN

Phương pháp

Giới thiệu Để giải quyết vấn đề phát hiện xu hướng thông tin nào đang “nóng” từ các trang tin tức điện tử, dựa trên ý tưởng của Kleinberg, nghiên cứu đề xuất phương pháp tìm cụm từ xu thế trên luồng dữ liệu văn bản và cài đặt tính năng tìm các xu hướng thời sự và theo dõi sự phát triển của các chủ đề theo thời gian cho hệ thống TKES (Trendy Keyword Extraction System), một hệ thống mới mà luận án đề xuất sử dụng kỹ thuật phát hiện sự nổi bật (Burst) để phát hiện các cụm từ xu thế (trendy words) trên luồng văn bản Bên cạnh đó, hệ thống TKES cũng đề xuất thuật toán xếp hạng sự nổi bật để từ đó có thể tìm ra các sự nổi bật tiêu biểu (trendy bursts) hàng đầu của từ khóa.

Hệ thống bao gồm ba mô-đun chính: Bộ thu thập dữ liệu, Bộ xử lý dữ liệu (với 2 bước chính: Tiền xử lý và Xử lý) và Bộ hiển thị dữ liệu Hình 4.1 cho thấy mối quan hệ của hệ thống với các công trình nghiên cứu khác.

Hình 4.1: Hệ thống được đề xuất phục vụ tìm cụm từ xu thế

Hình 4.1 thể hiện các các kỹ thuật liên quan có thể vận dụng vào thiết kế 03 mô- đun của hệ thống TKES Trong số các phương pháp được tìm hiểu, kỹ thuật Focused Web Crawler được chọn áp dụng vào thiết kế bộ thu thập dữ liệu, kỹ thuật VnTokenizer vào được áp dụng vào giai đoạn tiền xử lý, cơ sở dữ liệu đồ thị Neo4j được nghiên cứu để xây dựng bộ hiển thị kết quả trực quan.

Kiến trúc của hệ thống được mô tả cụ thể hơn ở Hình 4.2, đầu tiên dữ liệu được thu thập bởi bộ thu thập thông tin và được chuyển đến bộ xử lý Ở đây, dữ liệu được tổ chức theo cấu trúc cây Tiếp theo, bộ xử lý thực hiện hai nhóm thuật toán chính: nhóm đầu tiên bao gồm các thuật toán xử lý văn bản, bao gồm tách từ trong văn bản tiếng Việt, loại bỏ từ dừng Nhóm thuật toán này chịu trách nhiệm xử lý, tính toán và lưu trữ kết quả Nhóm thứ hai bao gồm các thuật toán loại bỏ dữ liệu đã lỗi thời, loại bỏ các từ dừng khỏi hệ thống, sử dụng cửa sổ trượt thời gian, bao gồm một số thuật toán như Wjoin, PWJoin, vv Cuối cùng, bộ hiển thị trực quan dữ liệu tương tác với người dùng thông qua giao diện trực quan và cho phép người dùng xem, sắp xếp và lưu dữ liệu kết quả theo yêu cầu của họ.

Cửa sổ trượt thời gian

WJoin PWJoin Các thuật toán cửa sổ thời gian

Tách từ với VnTokenizer Loại bỏ từ dừng/hư từ

Phát hiện cụm từ xu thế Các thuật toán xử lý văn bản

Tạp chí BỘ HIỂN THỊ TRỰC

BỘ THU THẬP THÔNG TIN

Hình 4.2: Kiến trúc hệ thống TKES

Trong hệ thống TKES, dữ liệu văn bản đến liên tục hàng ngày được thu thập, xử lý và sau đó có thể được được lưu trữ, kết xuất thành các kho ngữ liệu văn bản Hệ thống xác định một đối tượng được gọi là Bài viết (Tiêu đề, Tác giả, Mô tả, Nội dung) đại diện cho mỗi bài viết trong luồng văn bản Các bài viết được nhóm theo Ngày, Chuyên mục nên mỗi Chuyên mục có n Bài viết Hệ thống sử dụng cấu trúc cây để lưu dữ liệu đến (cũng có thể sử dụng bộ nhớ ngoài nếu cần), sau đó thực hiện một số hoạt động tiền xử lý bao gồm phân đoạn văn bản, dừng loại bỏ từ dừng/hư từ Để phát hiện các cụm từ xu thế, hệ thống trước tiên thực hiện tính toán tầm quan trọng của từ khóa sử dụng kỹ thuật TF-IDF, tìm các từ khóa tương đồng Kết quả theo yêu cầu của người dùng có thể được hiển thị trực quan sử dụng đồ thị Hệ thống cũng sử dụng cơ chế cửa sổ trượt để loại bỏ dữ liệu hết hạn Nhìn chung, hệ thống TKES tập trung vào việc phát hiện sự nổi bật, cụm từ xu thế, các sự nổi bật vượt trội, tiêu biểu của từ khóa.

Sự nổi bật (burst) được định nghĩa là khoảng thời gian liên tục mà từ khóa xuất hiện một cách khác thường trên luồng văn bản và phát hiện sự nổi bật (burst detection) là quá trình phát hiện ra sự nổi bật Cụm từ/tập từ xu thế (trendy keywords) là một tập các từ hàng đầu/tiêu biểu xuất hiện trong một sự nổi bật Các sự nổi bật hàng đầu/tiêu biểu (trendy bursts) là tập các sự nổi bật của từ khóa nào đó với trọng số sự nổi bật(burst

Crawling Procesing Visualizing weight) cao Trọng số của sự nổi bật (burst weight) được tính dựa vào tổng trọng số của từ khóa (keyword weight) Trọng số của từ khóa (keyword weight) được tính dựa vào tổng tần số của từ khóa xuất hiện trong cùng một sự nổi bật.

Hình 4.3 mô tả trình tự thực hiện xử lý tìm cụm từ xu thế, từ dữ liệu đầu vào là các bài báo đã qua xử lý và tập từ khóa được rút trích từ dữ liệu đầu vào này, hệ thống tính toán dựa trên nhãn thời gian của chúng Sự nổi bật được xem là khoảng thời gian mà từ khóa xuất hiện liên tục, đơn vị thời gian được xét ở đây là đơn vị ngày Hình 4.3 mô tả 5 bước xử lý chính trong hệ thống luận án đề xuất, TKES Ở bước 1, các bài báo được thu thập hàng ngày đến theo luồng văn bản và được lưu trữ bằng CSDL đồ thị Neo4j ở bước 2 Hệ thống tiếp tục tiền xử lý dữ liệu ở bước 3 Do đặc điểm của ngôn ngữ tiếng Việt, mỗi từ có thể cấu thành từ nhiều đơn vị “tiếng”, ví dụ “thành_phố” có

2 tiếng là “thành” và “phố” nên ở bước này, hệ thống sử dụng công cụ xử lý tách từ chuyên biệt là Vntokenizer [44] Như vậy, để chuyển đổi ngôn ngữ, hệ thống chỉ cần linh hoạt thay đổi cách thức tiền xử lý dữ liệu ở bước này Trong bước tiền xử lý, hệ thống cũng loại bỏ từ dừng (stop words) Bước tiếp theo, bước 4, hệ thống tiến hành rút trích top-n từ khóa Bước 5 hiện thực việc phát hiện sự nổi bật, cụm từ xu thế, phát hiện các sự nổi bật tiêu biểu của từ khóa Sau cùng, bước 6 hỗ trợ hiển thị trực quan kết quả.

Hình 4.3: Trình tự xử lý của hệ thống TKES

Mỗi bài viết được xem là một đối tượng được gọi là bài báo (Tiêu đề, Tác giả,

Mô tả, Nội dung) Các bài viết liên tục theo thời gian được đưa vào một luồng văn bản lớn Dựa trên đặc điểm của các bài viết, chúng được phân nhóm theo ngày, chuyên mục như trong Hình 4.5: Mỗi ngày có n chuyên mục, mỗi chuyên mục có n bài báo.

Thu thập dữ Lưu dữ liệu Tiền xử Rút trích Phát hiện liệu từ các vào CSDL lý dữ từ khóa cụm từ trang tin tức đồ thị liệu xu thế

Lưu/Hiển thị kết quả

Hình 4.4: Luồng văn bản đến liên tục theo thời gian

Lưu trữ dữ liệu vào cơ sở dữ liệu đồ thị

Hình 4.5: Cấu trúc lưu trữ dạng cây

Như thể hiện trong Hình 4.5, dữ liệu thu được được lưu trữ trực tuyến (cũng lưu trữ ngoại tuyến nếu cần) và được chuyển đến cấu trúc lưu trữ dạng cây Nút gốc ) ((((((((((((((( có các nút con � � (((((((((((((((: 1 ��); nút ngày (Day) � � có các nút con � � (((((((((((((((: 1 �� ); Nút chuyên mục (Category) � � có các nút con bài báo (Article) � � (((((((((((((((: 1 ��); Mỗi nút � � chỉ có một nút con chủ đề (Topic) � � là tập hợp các từ khóa (Keywords) quan trọng � � (((((((((((((((:

Hình 4.6: Cấu trúc lưu trữ chung và ví dụ

Hình 4.6 mô tả cách dữ liệu được lưu trữ với cơ sở dữ liệu đồ thị Cấu trúc lưu trữ chung có 5 nút: Gốc, Ngày, Chuyên mục, Bài viết và từ khóa (Root, Day, Category, Article, Keyword).

Bảng 4.1 mô tả các thuộc tính của các nút và các mối quan hệ Mỗi nút hoặc mối quan hệ có các thuộc tính được sử dụng để lưu trữ dữ liệu có liên quan.

Bảng 4.1: Các thuộc tính của nút và mối quan hệ

STT Tên nút/mối quan hệ Thuộc tính Mô tả

4 Article ID; Path; Title Node

Tiền xử lý dữ liệu Để tiền xử lý dữ liệu, các bài viết được xử lý bằng thuật toán tách từ tiếng Việt tên là Vntokenizer [44] để tạo ra các từ kết nối có nhiều từ hơn một tiếng Vntokenizer được chứng minh có độ chính xác 96% đến 98% về việc nhận dạng từ ghép, theo [44].

Thực nghiệm và bàn luận

framework dùng để lập trình

Một số công cụ sau đây đã được sử dụng để phát triển hệ thống: Scala 2.10.5, Java 8, Spark 1.6.3, Windows Utilities 2.6.x, Maven 3.3, Neo4j 3.2, Apache-tomcat- 9.x, IntelliJ IDEA và Vis.js Ngoài ra, hệ thống cũng sử dụng VnTokenizer [44] và danh sách từ dừng được tải xuống từ Github được bổ sung thêm một số ký tự xuất hiện trong văn bản nhưng không có bất kỳ ý nghĩa nào vào danh sách này.

Các thử nghiệm được thực hiện trên máy tính có cấu hình CPU Intel (R) Core (TM) 6700HQ @ 2.60GHz, bộ nhớ DDR4 8GB, sử dụng hệ điều hành Windows 10 Ngôn ngữ lập trình chính được sử dụng là Python 3.6 Cơ sở dữ liệu đồ thị là Neo4j.

Tính năng phát hiện sự nổi bật của một từ khóa cụ thể

Luận án thực hiện thử nghiệm trên dữ liệu là các bài báo được hệ thống thu thập từ các trang Tin tức trực tuyến trong 1 năm với tổng số gần 80.000 bài viết Thuật toán dựa trên ý tưởng của Kleinberg được sử dụng để phát hiện các sự nổi bật trong tập dữ liệu Thời gian được quy ước là liên tục theo đơn vị ngày Thử nghiệm thực hiện tìm mức độ liên tục của một sự kiện (một từ khóa xuất hiện trong một bài báo tại một thời điểm) Có nghĩa là, đối với một từ w nhất định, hệ thống tìm xem w có thu hút được sự chú ý hay không trong dòng văn bản bằng cách:

1 Chọn các bài báo có từ �.

2 Sắp xếp các mục này theo thứ tự ngày.

3 Áp dụng thuật toán cho các mục này.

4 Xuất kết quả, bài báo ở trạng thái nổi bật, trọng số nổi bật (nếu cần).

Bảng 4.5 thể hiện kết quả về các khoảng thời gian nổi bật từ khóa “Facebook”.Mỗi Burst (BurstID, Start, End, Burst weight) được phân biệt bởi một mã số phân biệt(BurstID) được tính từ 1, thời gian bắt đầu, thời gian kết thúc và trọng số của Burst cho biết chỉ số về mức độ quan tâm của người dùng đối với từ khóa này Trọng sốBurst của từ khóa được tính bằng cách tổng tất cả các giá trị tần số từ khóa trong mộtBurst Vì vậy, trọng số càng cao thì mức độ quan tâm của người dùng đối với từ khóa càng cao.

Bảng 4.5: Các Burst của từ khóa “Facebook”

Từ khóa Mã số Burst Bắt đầu Kết thúc Trọng số nổi bật

Bảng 4.5 phát hiện từ khóa “Facebook” đã xuất hiện trong các bài báo từ ngày 21 tháng 03 đến ngày 08 tháng 04, năm 2019 Có thể thấy rằng “Facebook” trở nên phổ biến nhất trong 02 ngày từ 03 tháng 04 đến 04 tháng 04 Sau đó, mọi người tiếp tục nhắc đến Facebook từ ngày 06 đến ngày 08 tháng 04 Do đó, phát hiện Burst có thể giúp người dùng theo dõi xu hướng, độ “nóng” của các từ khóa Như chúng ta đã biết, lý do tại sao “Facebook” trở nên được quan tâm với tần số cao trong các giai đoạn trên là do vụ việc rò rỉ thông tin người dùng liên quan đến cuộc bầu cử Tổng thống Trump tại Hoa Kỳ Hệ thống được xây dựng cũng hỗ trợ người dùng xem kết quả một cách trực quan (như được thấy trong Hình 4.9).

Hình 4.9: Phát hiện sự nổi bật đối với từ khóa “Facebook”

Hình 4.9 cho thấy từ khóa “Facebook” có 04 giai đoạn nổi bật, trục ngang thể hiện kích thước sự nổi bật và trục dọc thể hiện trọng số của giai đoạn nổi bật Như vậy,khoảng thời gian nổi bật dài nhất là 04 ngày từ 21-24/03/2018, và trọng số xuất hiện cao nhất là trong 02 ngày từ ngày 03-04/04/2018 (xấp xỉ 80).

Lựa chọn các từ thu hút sự chú ý trong một khoảng thời gian

Mục tiêu của thử nghiệm này là chọn các từ khóa tượng trưng, tiêu biểu cho những gì xảy ra trong một khoảng thời gian trong luồng tài liệu Danh sách các từ được lập bằng cách:

1 Chọn các bài viết bao gồm từ w và tìm xem có sự nổi bật của từ khóa này hay không Nếu có nhiều sự nổi bật, chọn sự nổi bật có trọng số lớn nhất.

2 Nếu có một sự nổi bật, lưu từ và khoảng thời gian nổi bật của từ.

3 Rút trích tất cả các từ liên quan của các bài báo xuất hiện trong khoảng thời gian nổi bật vừa xác định.

4 Sắp xếp theo trọng số, chọn top-n và xuất kết quả.

Bảng 4.6: Xác định danh sách từ xu thế chung với từ khóa “Facebook”

Từ khóa Giai đoạn nổi bật Trọng số

Cấm 04/03/2018 - 04/04/2018 101,9 Lưu_trữ 04/03/2018 - 04/04/2018 89,4 Quản_trị 04/03/2018 - 04/04/2018 88 Nhà_tù 04/03/2018 - 04/04/2018 52,2 Chính_phủ 04/03/2018 - 04/04/2018 31,6

Bảng 4.6 trình bày top-5 từ khóa (top-5 trendy keywords) xuất hiện trong sự nổi bật từ 03-04-2018 đến 04-04-2018 xếp theo giá trị trọng số từ cao tới thấp. Đo thời gian xử lý của bộ thu thập dữ liệu

Ba mô-đun: bộ thu thập thông tin, bộ xử lý và bộ hiển thị trực quan được kiểm tra riêng để tính toán thời gian hoạt động của từng mô-đun Mỗi ngày, khoảng 130 bài báo của 6 chuyên mục bao gồm Công nghệ, Giáo dục, Khoa học, Pháp luật, Thế giới vàTin tức được hệ thống thu thập Bảng 4.7 chứng minh rằng hệ thống thu thập các bài viết trong khoảng thời gian ngắn.

Bảng 4.7: Thử nghiệm thời gian thực thi trên bộ thu thập thông tin

Ngày Số bài báo Thời gian xử lý (s)

12/02/2017 125 40 Đo thời gian xử lý thêm dữ liệu vào cơ sở dữ liệu đồ thị

Các kịch bản thử nghiệm để kiểm tra tốc độ xử lý của việc thêm dữ liệu vào cơ sở dữ liệu đồ thị (xem Bảng 4.8) cũng được thực hiện Số lượng bài báo sử dụng cho thử nghiệm là khoảng 134 (một ngày), gần 900 (một tuần) và gần 4000 (một tháng) Bảng 4.8 cho thấy việc thêm dữ liệu vào cơ sở dữ liệu đồ thị mất rất ít thời gian, chỉ trong khoảng một phút.

Bảng 4.8: Kiểm tra thời gian thực thi của việc thêm dữ liệu vào cơ sở dữ liệu đồ thị

STT Ngày Số bài báo Thời gian (s) Số nút Số quan hệ

Test 3 09/28/2017- 10/27/2017 3.742 204 3.953 3.952 Đo thời gian xử lý của bộ xử lý dữ liệu

Các kết quả thử nghiệm với bộ xử lý được trình bày ở Bảng 4.9 Bảng này cho thấy rằng bộ xử lý dữ liệu tiêu tốn thời gian nhất Mất khoảng 20 phút, 2 giờ và 8 giờ để xử lý dữ liệu hàng ngày, hàng tuần và hàng tháng.

Bảng 4.9: Kiểm tra thời gian chạy của bộ xử lý

Bộ dữ liệu Thời gian xử lý (s) Số đỉnh Số cung

So sánh thời gian xử lý trên dữ liệu có số lượng và kích thước khác nhau

Nguyên nhân dẫn đến chi phí đề cập ở phần trên cũng được kiểm tra thông qua thử nghiệm trên dữ liệu bài viết với số lượng và kích thước (độ dài) khác nhau Kết quả thử nghiệm được trình bày ở Bảng 4.10.

Bảng 4.10: Thời gian xử lý số lượng bài viết khác nhau với độ dài khác nhau

Test 1 Số lượng bài báo 1 5 10 15

Test 2 Số lượng bài báo 1 5 10 15

Kết quả thu được được thể hiện tại Bảng 4.10 và biểu đồ (xem Hình 4.10 được phát họa từ dữ liệu ở Bảng 4.10).

Hình 4.10: Ảnh hưởng của chiều dài bài viết và số lượng bài viết đối với thời gian chạy của bộ xử lý

Hình 4.10 cho thấy rằng số lượng bài viết là lý do chính của vấn đề tốn thời gian. Dựa trên kết quả này, hệ thống có cơ hội được cải thiện về tốc độ đối với bộ xử lý thông qua việc thực hiện các nghiên cứu sâu hơn có liên quan.

So sánh dữ liệu kết quả chạy các phiên bản TF-IDF lập trình bằng ngôn ngữ khác nhau

Phần này trình bày việc thực hiện so sánh các kết quả đầu ra từ hai thuật toán được viết bằng ngôn ngữ lập trình Java và Python và đề xuất một số tùy chọn để sử dụng các kết quả đầu ra hiệu quả hơn Các bộ dữ liệu được sử dụng bao gồm 5294 bài báo được thu thập trong một tháng từ ngày 21 tháng 3 năm 2018 đến ngày 21 tháng 4 năm 2018, được tổ chức thành 6 chuyên mục từ 2 tạp chí trực tuyến (VnExpress và VietnamNet) Kích thước thư mục các tập tin trên đĩa là 17MB Sau bước tiền xử lý trước dữ liệu, một thư mục mới có dung lượng 11 MB khác được tạo Thử nghiệm tính toán tỷ lệ chính xác cho bốn trường hợp bao gồm 10, 20, 30 và 40 từ khóa quan trọng hàng đầu Các tỷ lệ này là 86,6%, 89,1%, 91% và 91,8% (xem Bảng 4.11).

Bảng 4.11: Tỷ lệ giống nhau của dữ liệu sinh ra từ 2 thuật toán TF-IDF viết bằng ngôn ngữ lập trình khác nhau

Bảng 4.12: Tần số của từ khóa

Mã bài báo Từ khóa Tần số

Drink 0,09886992125092042 trọng_âm 0,09886992125092042 tiếng 0,08695281898093078 You 0,08239160104243368 nhấn 0,08239160104243368 nối 0,08239160104243368 Âm 0,08239160104243368 ví_dụ 0,05295725876740590 nội_dung 0,05000154587608109

Thi 0,07519608378236309 quốc_gia 0,06945752449747143 cụm 0,06940755124852771 ĐT 0,05698959117298020

GD 0,05698959117298020THPT 0,04423299046021358 phối_hợp 0,04310711180367380Cần_Thơ 0,03812281648233688Công_nghiệp 0,03812281648233688

Kết chương

Chương này trình bày phương pháp, kết quả thực nghiệm và bàn luận trong nghiên cứu giải quyết bài toán thứ hai, nghiên cứu tìm các cụm từ xu thế trên luồng dữ liệu văn bản Nghiên cứu đề xuất hệ thống TKES và áp dụng thuật toán đề xuất AdaptingBurst tìm cụm từ xu thế dựa trên ý tưởng của thuật toán trước đây là Kleinbergn Các thuật toán được đề xuất cũng giải quyết vấn đề phát hiện sự nổi bật, tính toán, xếp hạng từ đó tìm ra các sự nổi bật tiêu biểu Nghiên cứu cũng hỗ trợ kết xuất các tập dữ liệu để phục vụ các nghiên cứu sâu hơn Ngoài ra, hướng phát triển của hệ thống có thể hướng đến xử lý, tính toán song song để tăng tốc độ Nghiên cứu sinh cũng dự kiến hướng phát triển như sử dụng các độ đo đánh giá hiệu suất các mô hình đề xuất vận dụng kết quả từ nghiên cứu này vào gom cụm luồng văn bản chẳng hạn như cải tiến biểu diễn đặc trưng văn bản trong gom cụm Bên cạnh đó, trong nghiên cứu này, các bước tiền xử lý dữ liệu, rút trích từ khóa, rút trích từ khóa tương đồng phục vụ cho việc tìm các cụm từ xu thế cũng được trình bày chi tiết và thử nghiệm tính toán thời gian xử lý, so sánh thời gian xử lý và độ chính xác của kết quả.

Tiêu đề	Khai phá luồng văn bản với kỹ thuật gom cụm
Tác giả	Võ Thị Hồng Thắm
Người hướng dẫn	PGS.TS. Đỗ Phúc
Trường học	Trường Đại học Lạc Hồng
Chuyên ngành	Khoa học máy tính
Thể loại	Luận án tiến sĩ
Năm xuất bản	2021
Thành phố	Đồng Nai

Định dạng
Số trang	146
Dung lượng	1,86 MB