Phân loại văn bản sử dụng mô hình xá suất trên đa tạp văn bản

Trong thế giớithực, dữ liệu chưa được gán nhãn là thực sự sẵn có nhưng việc gánnhãn cho chúng thường là công việc đòi hỏi mất thời gian, tốn kém.Luận văn đề xuất hai phương pháp phân loạ

Phân loại dữ liệu

Một số khái niệm cơ bản

Mẫu (pattern) x n là một dữ liệu trong tập N dữ liệu dùng cho thuật toán phân loại, thường được biểu diễn dưới dạng vector d chiều x n = (x n,1 , x n,2 , , x n,d ) Biểu diễn này sử dụng các mô hình lựa chọn đặc trưng và xác định trọng số Trong bài toán phân loại văn bản, mẫu chính là các văn bản.

• Mỗi thành phần x n,i được gọi là một đặc trưng (feature) hay thuộc tính (attribute) của x n

• d là số chiều của không gian biểu diễn mẫu.

• Tập mẫu có nhãn (labeled data) X N ={x 1 , x 2 , , x N }, (vớiN là kích thước tập mẫu) là tập dữ liệu có thông tin về nhãn.

• Tập mẫu có không nhãn (unlabeled data) X M = {x 1 , x 2 , , x M }, (với M là kích thước tập mẫu) là tập dữ liệu không có nhãn.

Tập nhãn (label set) được ký hiệu là L = {l1, l2, , lK} hoặc đơn giản là L = {1, 2, , K}, trong đó K là số lượng nhãn Các nhãn này sẽ được gán cho các mẫu để xác định lớp mà mỗi mẫu thuộc về.

Học có giám sát (supervised-learning) và bài toán phân loại (classification)

Bài toán học có giám sát liên quan đến việc sử dụng tập dữ liệu, trong đó mỗi mẫu được gán với một nhãn lớp hoặc giá trị đầu ra mong muốn.

Bài toán học có giám sát bao gồm tập dữ liệu có nhãn (labeled data) và tập dữ liệu không có nhãn (unlabeled data), với mục tiêu là xây dựng một bộ gán nhãn phù hợp cho dữ liệu có nhãn và gán nhãn cho dữ liệu chưa có nhãn Nhãn lớp có thể là giá trị liên tục hoặc giá trị rời rạc; trong đó, bài toán hồi quy (regression) xử lý giá trị liên tục, còn bài toán phân loại (classification) xử lý giá trị rời rạc Luận văn này tập trung vào nghiên cứu bài toán học hàm phân loại.

Học không giám sát (unsupervised-learning) và bài toán phân cụm (clustering)

Bài toán học không giám sát nhằm tìm kiếm các đặc điểm trong tập dữ liệu không có thông tin nhãn, bao gồm nhóm, cấu trúc và mối quan hệ giữa các dữ liệu Phân cụm là một trong những bài toán phổ biến nhất trong học không giám sát, với yêu cầu xác định cách phân chia tập dữ liệu thành các nhóm (cụm) mà các dữ liệu trong cùng một nhóm thường tương đồng và khác biệt với dữ liệu thuộc nhóm khác.

Học bán giám sát (semi-supervised learning)

Khi dữ liệu có nhãn khan hiếm và khó thu thập, học có giám sát chỉ tạo ra bộ phân loại dựa trên tập dữ liệu có nhãn, dẫn đến kết quả phân loại không cao do thiếu đặc trưng Do đó, phương pháp học bán giám sát, kết hợp cả dữ liệu có nhãn và không nhãn, thường được áp dụng để cải thiện hiệu suất phân loại trên tập dữ liệu có nhãn ít.

Hình 1: Các bước của bài toán phân loại

Mô hình bài toán phân loại

Biểu diễn mẫu

Biểu diễn mẫu là quá trình tổ chức các mẫu dựa trên những đặc trưng quan trọng nhằm nâng cao hiệu quả tính toán và độ chính xác Lựa chọn đặc trưng (feature selection) là bước tìm kiếm tập đặc trưng tối ưu từ tập ban đầu để phục vụ cho phân loại Sau khi xác định các đặc trưng, trọng số tương ứng được tính toán dựa trên các mô hình, trong đó văn bản có thể sử dụng hai phương pháp phổ biến để xác định trọng số: dựa trên túi từ (tần suất xuất hiện của từ) hoặc tf-idf.

Phương pháp lựa chọn đặc trưng không giám sát

Tần suất tài liệu DF của một từ được xác định bằng tỷ lệ giữa số lượng tài liệu chứa từ đó và tổng số tài liệu trong cơ sở dữ liệu.

Khi giá trị DF t( ) tăng, chất lượng đặc trưng cũng được cải thiện Đây là phương pháp lựa chọn đặc trưng đơn giản và có độ phức tạp tính toán thấp, tỉ lệ thuận với kích thước cơ sở dữ liệu Tuy nhiên, phương pháp này có nhược điểm là thường giữ lại những từ xuất hiện nhiều trong văn bản, bao gồm stopword và các từ liên kết không mang thông tin Do đó, để đạt hiệu quả tối ưu, cần loại bỏ stopword và áp dụng ngưỡng tần số để loại trừ những từ xuất hiện quá nhiều.

Mức độ đóng góp của từ

Mức độ đóng góp của từ T C được xác định dựa trên trọng số từ trong tài liệu Phương pháp DF cho rằng mỗi từ đều có vai trò giống nhau trong tài liệu, nhưng thường giữ lại các từ có tần suất cao với phân phối đồng đều giữa các lớp Để khắc phục vấn đề này, T C đã được đề xuất.

Kết quả của phân cụm phụ thuộc nhiều vào độ đo tương tự giữa các tài liệu.

T C đánh giá tầm quan trọng của từ ngữ dựa trên mức độ đóng góp của chúng trong việc xác định sự tương đồng giữa hai tài liệu Đóng góp này được tính toán dựa trên sự tương đồng của các tài liệu trong cơ sở dữ liệu.

T C t( ) càng lớn thì đặc trưng càng tốt.

Mô hình hóa chủ đề dựa trên xác suất từ vựng nhằm xây dựng một mô hình sinh xác suất cho tài liệu trong tập dữ liệu, với các phương pháp như PLSI, LDA và FSTM Các phương pháp này đưa ra những giả định cụ thể để phân tích và tổ chức thông tin trong văn bản.

Tài liệu N có thể thuộc vào K chủ đề với xác suất khác nhau, cho phép một tài liệu chứa nhiều chủ đề đồng thời Mỗi chủ đề được xem như một cụm từ liên quan, và giá trị P T(j | d i) biểu thị xác suất tài liệu d i thuộc về chủ đề j Trong phương pháp truyền thống, xác suất này chỉ có thể là 0 (không thuộc) hoặc 1 (thuộc), trong khi phương pháp xác suất cung cấp cái nhìn thực tế hơn khi cho phép tài liệu thuộc nhiều cụm với các xác suất khác nhau Giá trị P T(j | d i) được ước lượng thông qua mô hình hóa chủ đề.

Mỗi chủ đề được đại diện bằng một vector xác suất, xác định xác suất của các từ liên quan đến chủ đề đó Đối với tài liệu thuộc chủ đề Tj, xác suất của từ tl thuộc về chủ đề này là P(tl | Tj) Giá trị P(tl | Tj) là một tham số quan trọng cần được ước lượng trong mô hình hóa chủ đề, và từ đó, các từ sẽ được chọn lựa dựa trên tham số này.

Các mô hình PLSI, LDA, FSTM chỉ ra các phương pháp khác nhau để học các xác suất này.

Phương pháp lựa chọn đặc trưng có giám sát

Thông tin nhãn đóng vai trò quan trọng trong việc lựa chọn đặc trưng, với các phương pháp giám sát cho hiệu quả cao hơn so với các phương pháp không giám sát Bài viết này giới thiệu hai phương pháp lựa chọn đặc trưng có giám sát, bao gồm chỉ số Gini và phương pháp dựa trên mô hình sinh.

Chỉ số Gini đo lường mức độ phân bố không đồng nhất của một đặc trưng trong các lớp Để xác định chỉ số này, ta gọi n i (t) là số tài liệu trong lớp l i chứa từ t Tỉ lệ p i (t) được tính bằng cách lấy số tài liệu chứa từ t trong lớp l i chia cho tổng số tài liệu chứa từ t trong toàn bộ tập dữ liệu, tức là p i (t) = n i (t).

Hệ số Gini của từ t được tính như sau:

Hệ số Gini có giá trị trong khoảng (0,1], với giá trị bằng 1 nếu một từ chỉ xuất hiện trong một lớp nào đó Hệ số Gini càng nhỏ cho thấy sự phân phối từ ngữ càng đồng đều giữa các lớp, tuy nhiên, những từ có phân phối đồng đều như vậy sẽ không mang lại ý nghĩa trong phân tích dữ liệu.

Các phương pháp giảm chiều dựa trên mô hình sinh

Trong [21] đưa ra phương pháp giảm chiều giống như PLSI, LDA, FSTM nhưng sử dụng thêm thông tin nhãn và cho kết quả là đáng kể Tư tưởng của

Khai thác thông tin chủ đề nổi bật từ tập dữ liệu có nhãn giúp tăng cường hiệu quả học tập với toàn bộ dữ liệu Đồng thời, việc khai thác thông tin về hình học liên hệ giữa các điểm dữ liệu cho phép đạt được kết quả tốt hơn so với các phương pháp truyền thống.

Phân loại

Phân loại là quá trình gán nhãn cho dữ liệu chưa có nhãn, có thể thực hiện theo nhiều phương pháp khác nhau Quá trình này được chia thành hai dạng chính: gán đơn nhãn và gán đa nhãn.

Có hai loại chính của thuật toán phân loại văn bản: phân loại phân tách và dựa trên mô hình sinh Hiệu suất của các thuật toán này phụ thuộc vào tập dữ liệu cụ thể, không có phương pháp nào phù hợp với mọi trường hợp Tuy nhiên, các phương pháp dựa trên mô hình sinh thường cung cấp những hiểu biết sâu sắc hơn, như xác suất của mỗi tài liệu thuộc về các nhãn khác nhau và mô tả đặc trưng của từng nhãn Dưới đây là một số thuật toán phân loại phổ biến được sử dụng trong phân loại văn bản.

Trong phân loại văn bản, thuật toán SVM (Support Vector Machine) được coi là một trong những phương pháp hiệu quả nhất Thuật toán này đặc biệt phù hợp với các mô hình dữ liệu có nhiều chiều và nhiễu Ban đầu, SVM chỉ được áp dụng cho phân loại đơn nhãn, nhưng đã được cải tiến để hỗ trợ phân loại đa nhãn.

Thuật toán lan truyền nhãn là một phương pháp bán giám sát, dựa trên giả thiết rằng dữ liệu có nhãn và không nhãn được kết nối trên một đồ thị, trong đó các cạnh thể hiện mức độ tương đồng giữa các điểm dữ liệu Càng có trọng số cạnh lớn, xác suất gán nhãn cho các điểm dữ liệu sẽ càng giống nhau Thông tin nhãn từ các điểm đã được gán nhãn sẽ lan truyền qua các cạnh đến các điểm chưa có nhãn Qua nhiều lần lặp, nhãn sẽ được lan truyền đến tất cả các điểm và xác suất gán nhãn sẽ dần hội tụ.

Khi áp dụng các thuật toán phân loại, người dùng cần khởi tạo các tham số như số lượng chủ đề và số lượng cụm Việc điều chỉnh các tham số này là cần thiết để đạt hiệu quả tối ưu, thường được thực hiện trên tập kiểm thử (validation set).

Đánh giá

Đánh giá kết quả đầu ra: Kết quả đầu ra của một thuật toán phân loại thường được đánh giá bằng độ đo chính xác (accuracy).

PHÂN LOẠI ĐƠN NHÃN 18 1 Bài toán phân loại đơn nhãn

Phân phối von Mises Fisher (vMF)

Phân phối von Mises-Fisher (vMF) là một công cụ hữu ích trong thống kê hướng, đặc biệt cho việc biểu diễn dữ liệu có số chiều cao và thưa Nó được định nghĩa trên hình cầu (d−1) chiều trong không gian R d, nơi một vector ngẫu nhiên chiềud x (với x∈R d và k kx = 1, tương đương x∈S d−1) được sinh ra từ phân phối vMF nếu nó có hàm mật độ phân phối f x à, κ ( | ) = C d ( ) exp(κ κà T x), với k kà = 1, κ ≥0 và d≥2 Hằng số chuẩn tắc C d ( )κ được tính toán theo công thức cụ thể.

The modified Bessel function, denoted as \( f(x | \kappa) \), is utilized in the context of probability density functions, where \( \kappa \) represents the mean direction and the concentration parameter This concentration parameter indicates how closely the data samples cluster around the mean direction vector, with higher values of \( \kappa \) resulting in tighter clustering Specifically, when \( \kappa = 0 \), the distribution degenerates into a uniform density on the sphere \( S^{d-1} \), while as \( \kappa \) approaches infinity, the distribution converges to a point at the mean direction on the sphere The expected value of the vMF distribution is given by \( E[x] = \rho \), where \( \rho = A_d(\kappa) = \kappa \).

Mô hình phân loại bán giám sát dựa trên mô hình trộn các phân phối vMF (SSvMFs)

các phân phối vMF (SSvMFs)

Trong phần này, luận văn giới thiệu mô hình SSvMFs nhằm khai thác cả dữ liệu có nhãn X N và dữ liệu không nhãn X M SSvMFs là một mô hình đồ thị xác suất mô tả quá trình sinh ra dữ liệu dựa trên các phân phối vMF, với văn bản được biểu diễn theo mô hình tf-idf và chuẩn tắc thuộc hình cầu S d−1 Mô hình SSvMFs tương tự như các mô hình học không giám sát, trong đó dữ liệu được phân chia thành K cụm, mỗi cụm đặc trưng bởi một phân phối vMF với các tham số khác nhau Trong học phân loại, thông tin về K cụm được biết trước, tương ứng với số lượng nhãn trong tập nhãn, trong khi trong phân cụm, số lượng cụm là tham số của mô hình Đặc biệt, trong bài toán phân loại, dữ liệu trong tập học đã được gán nhãn.

Mỗi văn bản đều có một nhãn riêng, do đó, dữ liệu có nhãn được sinh ra từ phân phối vMF đặc trưng cho nhãn đó, với xác suất dữ liệu thuộc các nhãn khác là bằng 0 Biến ẩn z m chứa thông tin về nhãn được gán cho x m, trong khi z n của x n chính là nhãn của nó Đối với mô hình SSvMFs, z m của dữ liệu không nhãn được sinh ra theo phân phối đa thức: z m ∼M utl π( ) Phân phối có điều kiện được sinh ra khi biết nhãn và các đặc trưng trung bình z bỡnh hướng à ={ à 1 , , à K } cùng với tham số độ tập trung κ ={ κ 1 , , κ K } của các nhón là p x z, à, κ( | ) =vM F x à( | z , κ z ) Khi biết dữ liệu có nhãn z, phân phối sẽ được xác định rõ ràng.

Mô hình đồ thị cho SSvMFs vMF với các tham số (à z, κ z) được sử dụng để sinh ra dữ liệu Mardia và El-Atoum [14] đã xác định rằng phân phối vMF liên hợp cho vector trung bình hướng là cần thiết Do đó, phân phối vMF p à( k |à 0 , κ 0 ) = vMF à( k |à 0 , κ 0 ) được chọn để sinh ra à k, với à 0 và κ 0 là các tham số.

Mô hình sinh được minh họa đầy đủ (Hình 2):

1 Với mỗi nhãn k∈ {1, , K} a) Sinh đặc trưng mỗi nhón: à k |à 0 , κ 0 ∼vM F à( k |à 0 , κ 0 )

2 Với mỗi văn bản có nhãn x n ∈X N a) Sinh dữ liệu: x n |z n , à, κ∼vM F x( n |à z n , κ z n )

3 Với mỗi văn bản chưa có nhãn x m ∈X M a) Sinh nhãn: z m ∼M ult π( ) b) Sinh dữ liệu: x m |z m , à, κ∼vM F x( m |à z m , κ z m )

Để ước lượng tham số và suy diễn thông tin biến ẩn, chúng ta đối mặt với bài toán phức tạp Hiện nay, các phương pháp xấp xỉ như Gibbs sampling và suy diễn biến phân (variational inference) được coi là giải pháp hiệu quả Phương pháp Gibbs sampling mang lại độ chính xác cao, nhưng yêu cầu số lần lặp lớn và khó xác định thời điểm hội tụ Ngược lại, phương pháp suy diễn biến phân được sử dụng rộng rãi vì đảm bảo hội tụ nhanh và cho kết quả tốt Do đó, luận văn lựa chọn phương pháp suy diễn biến phân để tối ưu hàm log likelihood.

Bài toán đặt ra yêu cầu xác định nhãn cho mỗi tài liệu không có nhãn Phương pháp ước lượng tối đa khả năng (MLE) là một kỹ thuật phổ biến trong các mô hình học máy dựa trên xác suất thống kê Nguyên tắc của MLE là ước lượng các tham số của mô hình sao cho xác suất sinh ra dữ liệu quan sát là lớn nhất Log likelihood của dữ liệu quan sát trong mô hình được biểu diễn như sau: log (p X N , Z N , X M |π, κ 1 , , κ K , à 0 , κ 0 ).

Theo MLE, phải ước lượng cỏc tham số π, κ 1 , , κ K , à 0 , κ 0 để log likehood là lớn nhất Phân tích biểu thức tối ưu: log (p X N , Z N , X M |π, κ, à 0 , κ 0 )

Biểu thức E q Z (M, à) [log (q Z M, à)] = L (7) cho tập hợp Z N ={z 1, , z N } và Z M ={z 1, , z M } thể hiện một bài toán xấp xỉ Thay vì tối ưu hóa trên hàm log likelihood phức tạp, chúng ta sử dụng biểu thức cận dưới (lower bound) L để đơn giản hóa quá trình tối ưu hóa.

Các phân phối hậu nghiệm (the posterior) được xấp xỉ thành các thành phần: q Z( M , à) = (q Z M |Φ M ) ( ˜q à|à,κ) =˜

Giả sử các phân phối thành phần được định nghĩa là q z( m , φ m ) = M ulti φ( m ) và q à ( k |˜à k ,κ˜ k ) = vM F à( k |˜à k ,˜κ k ) Tại đây, Φ M = {φ 1 , , φ M }, à˜ = {à˜ 1 , ,à˜ K } và ˜ κ= ˜{κ 1 , ,˜κ K } là các tham số biến phân Với các phân phối thành phần này, biểu thức cận dưới L(Φ M ,à,˜ κ)˜ của hàm log likelihood sẽ được phân tách thành các thành phần cụ thể.

Bài toán tối ưu được thực hiện qua hai bước: bước E (kỳ vọng) và bước M (tối đa hóa) Trong bước E, các tham số π, κ 1, , κ K, à 0, κ 0 được cố định và biểu thức cận dưới L được tối đa hóa theo các phân phối thành phần Việc xác định các phân phối thành phần chính là tìm kiếm các tham số của chúng, ký hiệu là Φ M, à, κ Tương tự, ở bước M, biểu thức cận dưới lại được tối ưu hóa theo các tham số π, κ, à 0, κ 0.

Tại mỗi bước E và M, biểu thức cận dưới L được đạo hàm theo các biến cần tối ưu Việc giải các đạo hàm này cho phép thu được các công thức cập nhật cho các biến.

Require: Set χ of data points on S d−1 labeled data set X N , labeled set Z N , unlabeled data set X M

{The E step} for k= 1 to K do for m= 1 to M do

Compute φ m,k in Equation (10) end for ˜ à t = ||r r k k || ˜ κ k =||r k || where : r k =P N n=1 κ k x n I z[ n = ] +k P M m=1 κ k φ m,k x m +κ 0 à 0 end for

Compute π, à 0 , κ, κ 0 in Equation (13), (14), (15), (16) until Convergence

Trong bài viết này, chúng tôi xác định z m = argmax k (φ m,k ) với m thuộc tập {1 M} Để tránh sự phức tạp trong việc trình bày luận văn, quá trình tối ưu sẽ được mô tả chi tiết trong phần phụ lục Cụ thể, φ m,k tỉ lệ với exp(S m,k ) (10), trong đó S m,k = log(π k ) + logC d (κ k ) + κ k A d ( ˜κ k )˜à T k x m và ˜à k = r k.

N+M (13) với: I z[ n = ] = 1k if z n =k and 0 otherwise. à 0 P K k=1 κ 0 A d (˜κ) kP K k=1 κ 0 A d (˜κ)k (14) và [2] đưa ra cách xấp xỉ cho κ 1 , , κ K , κ 0 : κ k ≈ 2(1 ¯ d−1 −r k ) and κ 0 ≈ 2(1 ¯ d−1 −r

Thủ tục EM sẽ được lặp lại cho đến khi hội tụ (algorithm 1) Cuối cùng, nhãn z m của dữ liệu chưa có nhãn x m được xác định bằng chỉ số của thành phần lớn nhất trong φ m: z m = argmax k (φ m,k) Độ phức tạp về thời gian tính toán của thuật toán là O T.D M( ( +N K) ).

Số vòng lặp được ký hiệu là T, trong khi D đại diện cho số chiều của văn bản Tổng số văn bản có nhãn và không có nhãn được biểu thị bằng M + N, và K là số lượng nhãn Thuật toán hoạt động theo cách tuyến tính dựa trên các tham số đã cho.

Mô hình phân loại bán giám sát dựa trên mô hình trộn các phân phối vMFs trên đa tạp văn bản (LapSSvMFs)

các phân phối vMFs trên đa tạp văn bản (LapSSvMFs)

Các tài liệu thường được tổ chức theo cấu trúc hình học, ảnh hưởng đến cách phân phối dữ liệu Nếu hai tài liệu gần nhau về mặt hình học, phân phối có điều kiện của chúng cũng sẽ tương tự Điều này dẫn đến giả thiết về cấu trúc hình học (manifold) Tuy nhiên, trong thực tế, việc xác định cấu trúc hình học của dữ liệu là một thách thức lớn Một phương pháp phổ biến để phát hiện cấu trúc này là xây dựng đồ thị láng giềng gần Đồ thị này bao gồm N + M đỉnh, tương ứng với N + M văn bản có nhãn và không có nhãn Ma trận trọng số cạnh S được định nghĩa bằng công thức: S ij = cos(x i , x j ) nếu x j thuộc N p (x i ) hoặc x i thuộc N p (x j ), và S ij = 0 nếu không Do x i và x j là hai vector có độ dài bằng 1, ta có S ij = x T i x j.

Trong mô hình SSvMFs, đồ thị Laplacian được sử dụng để tích hợp cấu trúc hình học, cụ thể là cấu trúc manifold, vào biểu thức cận dưới L như một thành phần chuẩn tắc.

Luận văn giới thiệu một phương pháp mới để học mô hình LapSSvMFs với đồ thị láng giềng gần, trong đó nhấn mạnh rằng các tài liệu có trọng số cạnh lớn hơn thể hiện sự tương đồng cao, dẫn đến xác suất hậu nghiệm nhãn của biến ẩn q z φ( | ) tương tự nhau Điều này cho thấy rằng hai tài liệu có trọng số cạnh cao có khả năng cùng nhãn cao, từ đó làm mềm hóa hàm mục tiêu dựa trên cấu trúc hình học.

Từ đây, hàm mục tiêu cần tối ưu trở thành:

R k (17) với Φ M ,à,˜ ˜κ là tham số của mô hình SSvMFs, trong đó λ L(Φ M ,à,˜ ˜κ) đại diện cho cận dưới của hàm log likelihood Hàm chuẩn tắc R= P K k=1 R k đóng vai trò quan trọng trong việc xây dựng mô hình này Phương pháp chuẩn tắc được đề xuất thực sự là một framework tổng quát, cho phép khai triển biểu thức một cách linh hoạt và hiệu quả.

Trong tập dữ liệu có nhãn, nếu x_i có nhãn z_i = k, thì q_z(i = k | φ_i) = φ_i,k = 1; ngược lại, nếu không, thì (z_i = k | φ_i) = φ_i,k = 0 Giả thiết này được đặt ra với điều kiện thông tin nhãn trong tập dữ liệu là hoàn toàn chính xác.

Khung này là phương pháp nâng cao cho mô hình đồ thị xác suất SSvMFs và phương pháp chuẩn tắc đồ thị Laplacian Bằng cách tối đa hóa L(Φ M ,à,˜ ˜κ), phương pháp tìm ra các tham số phù hợp với mô hình sinh dữ liệu văn bản, trong khi việc tối thiểu hóa R k đảm bảo rằng nếu x i và x j "gần nhau", thì q z( i |φ i ) và q z( j |φ j ) cũng sẽ gần nhau Tham số λ nằm trong khoảng từ 0 đến 1 để điều chỉnh sự cân bằng giữa hai thành phần Tuy nhiên, một thách thức trong mô hình này là biểu thức tối ưu trong bước E phức tạp hơn nhiều, và không có giải pháp đóng đơn giản cho các tham số Φ M ,à,˜ κ˜ từ việc tối đa hóa L(Φ M ,à,˜ ˜κ) Để khắc phục vấn đề này, luận văn đề xuất phương pháp tối đa hóa L(Φ M ,à,˜ ˜κ) và tối thiểu hóa R riêng biệt, tương tự như trong các nghiên cứu trước đây Việc tối đa hóa L(Φ M ,à,˜ ˜κ) được thực hiện như ở phần trên của SSvMFs, sau đó cập nhật các tham số biến phân để đạt được giá trị tối thiểu cho R Đặc biệt, thành phần chuẩn tắc chỉ bao gồm tham số, và đạo hàm φ R với mỗi tham số φ i,k cho biểu thức bằng 0 thu được: dR/dφ i,k = X j.

Compute φ m,k in Equation (10) end for ˜ à t = ||r r k k || ˜ κ k =||r k || where : r k =P N n=1 κ k x n I z[ n = ] +k P M m=1 κ k φ m,k x m +κ 0 à 0 end for

Smooth the variational parameter until the objective function φ L(Φ M ,à,˜ ˜κ) stop increasing using Equation (20)

Compute π, à, à 0 , κ 0 in Equation (13), (14), (15), (16) until Convergence

Luận văn đã phát triển một phương pháp ước lượng và suy diễn cho nhiều biến tổng quát Thuật toán này có độ phức tạp về thời gian tính toán là O(T.D.M(N.K + M)).

Thuật toán LapSSvMFs có độ phức tạp cao hơn đáng kể so với SSvMFs, điều này xuất phát từ quy trình xây dựng cấu trúc manifold và lan truyền thông tin trong cấu trúc này Trong đó, T là số vòng lặp, D là số chiều của văn bản, M + N là tổng số lượng văn bản có nhãn và không có nhãn, và K là số lượng nhãn.

Thử nghiệm và đánh giá

Trong phần này, bài viết trình bày một số thí nghiệm nhằm đánh giá hiệu suất của thuật toán phân loại đơn nhãn, so sánh với các phương pháp khác trên tập dữ liệu văn bản.

2.5.1 Tập dữ liệu thí nghiệm (Datasets)

Luận văn này sử dụng bốn tập dữ liệu từ tập 20-newsgroups và một số tập dữ liệu từ CLUTO toolkit để thử nghiệm bài toán gán đơn nhãn Các tập dữ liệu này có số lượng tài liệu từ 2.340 đến 7.094, số lượng từ trong tổng số tài liệu từ 5.896 đến 31.472, và số lượng nhãn từ 3 đến 6 Độ cân bằng của các tập dữ liệu dao động từ 0.043 đến 0.998, với độ cân bằng được định nghĩa là tỷ lệ giữa số dữ liệu trong lớp có ít tài liệu nhất và lớp có nhiều tài liệu nhất Giá trị gần 1 cho thấy tập dữ liệu rất cân bằng, trong khi giá trị gần 0 chỉ ra sự không cân bằng Thông tin chi tiết về các tập dữ liệu này được trình bày trong bảng 1.

2.5.2 Độ đo đánh giá Độ đo đánh giá thuật toán phân loại đơn nhãn luận văn sử dụng là độ chính xác (accuracy) Cho mỗi nhãn, định nghĩa một số khái niệm: True positives ( t p )

1 http://shi-zhong.com/software/docdata.zip

Bảng 1 cung cấp cái nhìn tổng quan về các tập dữ liệu, trong đó n d đại diện cho tổng số lượng văn bản, n w là tổng số lượng từ, tổng số lớp được xác định, k n c là trung bình số lượng tài liệu trên mỗi lớp, và độ cân bằng của các lớp được phân tích.

Data Source n d n w k n c Độ cân bằng

Trong nghiên cứu này, các nhóm dữ liệu NG17-19 và NG20 được phân tích với các chỉ số chính như true positives (t p), true negatives (t n), false positives (f p) và false negatives (f n) Đặc biệt, true positives là dữ liệu được bộ phân loại gán nhãn đúng, trong khi true negatives là dữ liệu không gán nhãn mà vẫn chính xác Ngược lại, false positives là dữ liệu gán nhãn sai và false negatives là dữ liệu không gán nhãn nhưng lại sai Độ đo chính xác (Accuracy) được tính toán dựa trên các giá trị này để đánh giá hiệu suất của bộ phân loại.

P | | L l=1(tp l +f n l +tn l +f p l ) (21) Độ đo accuracy tính tỷ lệ giữa số lượng dữ liệu mà bộ phân loại gán nhãn đúng với thực tế trên tổng số dữ liệu.

2.5.3 Các thuật toán sử dụng để so sánh (baselines) Để đánh giá hiệu năng của thuật toán LapSSvMFs cho bài toán phân loại, luận văn so sánh với 3 phương pháp: 2 phương pháp học bán giám sát và 1 phương pháp học có giám sát.

LP: Thuật toán lan truyền nhãn [1].

SVM: Thuật toán SVM từ thư viện LIBSVM 2 với thiết lập mặc địch (radical function).

2 http://www.csie.ntu.edu.tw/ cjlin/libsvm/

P re ci si on classic

P re ci si on la1

Hình 3: Kết quả thử nghiệm trên các tập dữ liệu classic, NG17-19, la1 and k1b

Mô hình sử dụng phân phối vMF chuẩn hóa tài liệu thành vector có độ dài 1 thông qua tf-idf Luận văn tiến hành kiểm tra thuật toán phân loại trên các tập luyện có kích thước khác nhau, thực hiện 4 lần thử nghiệm cho mỗi tập luyện, mỗi lần bắt đầu với một thiết lập khác nhau Trong mỗi lần thử nghiệm, tập luyện được chọn ngẫu nhiên từ toàn bộ dữ liệu, trong khi phần còn lại được xem là tập chưa có nhãn và sẽ được gán nhãn sau quá trình học.

Các tập dữ liệu thực mà luận văn thử nghiệm, tham số λ được chọn bằng 0.5.

Trong quá trình xây dựng đồ thị láng giềng gần, số lượng láng giềng gần nhất được chọn là p = 10, với các tham số biến phân được khởi tạo ngẫu nhiên Thí nghiệm được thực hiện với 20 lần lặp Hình 4 trình bày kết quả của thuật toán LapSSvMFs so với 3 thuật toán khác trên các tập dữ liệu classic, NG17-19, la1 và k1b.

Kết quả thí nghiệm cho thấy thuật toán LapSSvMFs đạt độ chính xác cao hơn so với SSvMFs và SVM trên tất cả các tập dữ liệu Đồng thời, LapSSvMFs cũng cho thấy khả năng so sánh tốt với các thuật toán khác.

Khi số lượng dữ liệu trong quá trình luyện tập tăng lên, độ chính xác của thuật toán LapSSvMFs cải thiện ổn định trên cả dữ liệu overlapping và dữ liệu lệch Thuật toán LapSSvMFs có ưu điểm vượt trội so với thuật toán LP, đặc biệt là trong việc phân loại dữ liệu mới xuất hiện Trong khi thuật toán LP phải học lại từ đầu với dữ liệu mới, LapSSvMFs có thể sử dụng các tham số đã học trước đó để phân loại mà không cần phải học lại.

LapSSvMFs rất hiệu quả trong việc xử lý tập dữ liệu classic, chủ yếu vì tập dữ liệu này có nhiều mẫu hơn so với các tập khác Việc xây dựng đồ thị tương đồng trên tập classic giúp cải thiện độ chính xác và phản ánh đúng cấu trúc hình học thực tế của dữ liệu.

So sánh giữa SSvMFs và thuật toán LapSSvMFs cho thấy rằng LapSSvMFs mã hóa nhiều thông tin hơn nhờ làm mềm hàm mật độ phân phối có điều kiện sinh dữ liệu Các thí nghiệm cho thấy LapSSvMFs đạt độ chính xác cao hơn SSvMFs trên tập classic và k1b, nhưng không cao hơn trên tập NG 17-19 và la1 Điều này có thể do tập classic và k1b có cấu trúc hình học mạnh, trong khi tập NG 17-19 và la1 phù hợp hơn với giả thuyết của mô hình sinh dữ liệu.

PHÂN LOẠI ĐA NHÃN 35 1 Bài toán phân loại đa nhãn

Phân phối Watson

Phân phối Watson trong thống kê có cấu trúc phức tạp hơn phân phối vMF, không chỉ phù hợp với việc biểu diễn số chiều cao mà còn hiệu quả hơn trong việc xử lý dữ liệu có nhiễu Cả hai phân phối đều hoạt động trên hình cầu (d−1) chiều trong không gian R d Một vector ngẫu nhiên x thuộc R d với độ dài 1 được coi là sinh ra theo phân phối Watson nếu nó tuân theo hàm mật độ phân phối f(x; κ) = M(1).

The distribution density function f(x | κ) is defined using the Kummer function M(1/2, d/2, κ - 1) This function features a mean direction parameter and a concentration parameter, κ, which indicates how samples cluster around the mean direction Unlike the von Mises-Fisher (vMF) distribution, the concentration parameter κ for the Watson distribution can be less than zero.

Với κ > 0, dữ liệu sinh bởi phõn phối tập trung tại à và phõn phối là lưỡng cực (bipolar distribution) Khi tăng, dữ liệu sinh ra càng tập trung về [3].κ à

Mô hình phân loại bán giám sát cho dữ liệu đa nhãn sử dụng mô hình trộn các phân phối Watson (SSWatsons)

dụng mô hình trộn các phân phối Watson (SSWatsons)

Luận văn đề xuất phương pháp học bán giám sát (semi-supervised) dựa trên mô hình trộn của các phân phối Watson (SSWatsons) cho bài toán gán đa nhãn Phương pháp này mô hình hóa đồng thời tất cả nhãn lớp và dữ liệu, sử dụng một mức cao hơn để biểu diễn xác suất liên hệ giữa dữ liệu và các nhãn SSWatsons mô tả quá trình sinh dữ liệu có nhãn và chưa có nhãn dựa trên phân phối Watson với cùng một tập tham số Luận văn khai thác cả dữ liệu có nhãn và không nhãn nhằm cải thiện độ chính xác, trong khi các bài toán học có giám sát với tập dữ liệu có nhãn hạn chế thường dẫn đến việc học các chủ đề không chính xác.

Mô hình SSWatsons khác biệt với mô hình SSvMFs ở chỗ nó cho phép phân loại dữ liệu với nhiều nhãn lớp không đồng nhất Phương pháp này tìm kiếm văn bản có thể thuộc nhiều chủ đề với xác suất khác nhau và xác định mối liên hệ giữa các chủ đề và nhãn Điều này cho phép mô hình hóa dữ liệu có nhiều nhãn, điều mà SSvMF không thực hiện được Tham số K đại diện cho số lượng chủ đề và được xác định trước khi tiến hành học mô hình Phân phối có điều kiện cho dữ liệu x, khi biết tập trung bình hướng và các tham số độ tập trung κ, được thể hiện qua công thức p(x | z, α, κ) = W atson(x | α_z, κ_z) Hơn nữa, mỗi nhãn trong tập nhãn L được liên kết với các chủ đề và được thể hiện dưới dạng ma trận L×K với β l,k = P(y_l | z_k) Mô hình sinh đầy đủ được minh họa trong Hình 3.

1 Với mỗi dữ liệu trong tập dữ liệu có nhãn và không nhãnx a) Sinh ra:z θ| ∼M ulti z θ( | ) b) Sinh ra:x z, à, κ| ∼W atson x à( | z , κ z ) c) Cho mỗi nhãn của dữ liệu x

Hình 4: Mô hình đồ thị cho SSWatsons i Sinh ra: v u ∼M ult θ( ) ii Sinh ra: y u |v u , β ∼M ulti y( u |β v u )

Mô hình SSWatson thực hiện học và suy diễn dựa trên thuật toán MLE, với log likelihood của dữ liệu quan sát được ký hiệu là log (p X N , Y N , X M |Θ N ,Θ M , κ, à, β) Để giải quyết bài toán suy diễn, phương pháp suy diễn biến phân được áp dụng cho log (p X, Y N |Θ N ,Θ M , κ, à, β).

Z ={Z M , Z N } Các phân phối thành phần được xấp xỉ: q Z( M , Z N , V N ) M

Y u=1 q v( n,u |γ n,u ) (24) và mỗi phân phối thành phần có dạng:q z( m |φ m ) =M ulti φ( m ) (,q z n |φ n ) =M ulti φ( n ) và q v( n |γ n ) = M ulti γ( n ) Ở đây, Φ M = {φ 1 , , φ M },Φ N = {φ 1 , , φ N } và γ {γ 1 , , γ M } là các tham số của phân phối thành phần.

Bài toán tối ưu bao gồm hai bước chính: bước E (expectation) và bước M (maximization) Trong bước E, các tham số Θ N, Θ M, κ, à, β được cố định, và mục tiêu là cực đại hóa biểu thức cận dưới L theo các phân phối thành phần đã giả định Việc này đồng nghĩa với việc tìm kiếm các tham số của các phân phối thành phần Φ M, Φ N, γ Tương tự, trong bước M, biểu thức cận dưới sẽ được tối ưu hóa theo các tham số Θ N, Θ M, κ, à, β.

Tại mỗi bước E và M, biểu thức cận dưới L được đạo hàm theo các biến cần tối ưu, từ đó thu được các công thức cập nhật các biến Chi tiết về đạo hàm và giải tối ưu được trình bày trong phần phụ lục Kết quả cuối cùng được đưa ra là φ •,k ∝ exp(S •,k ) với S •,k = log(θ •,k ) + logM κ( k ) + κ k (à T k x • )² và •={m, n} Ngoài ra, γ n,u,k ∝ exp(T n,u,k ) với T n,u,k = log(θ n,k ) + P L l=1 I y[n,u = ] logl β k,l Cuối cùng, θ m,k = φ m,k và θ n,k ∝ φ m,k +.

||r k || (30) với:r k = P M m=1(x T m à k )x m φ m,k +P N n=1(x T n à k )x n φ n,k và [3] cung cấp ước lượng xấp xỉ cho κ 1 , , κ K : κ k ≈ 1 2 ( 1−T d T 2 −T ) + d T ( −T 2 −T 2 ) với:

Thực hiện lặp lại các bước E và M đến khi hội tụ Cuối cùng, phân phối của nhãn y m với mỗi tài liệu x m được xấp xỉ theo công thức: P y ( m = l x| m ) ≈

P y( m =l θ| m ) =P K k=1 θ m,k β k,l Độ phức tạp về thời gian tính toán của thuật toán

Compute φ m,k in Equation (25) end for for n= 1to N do

Compute φ n,k in Equation (25) for u= 1 to U do

Compute γ n,u,k in Equation (26) end for end for end for

Compute θ n , θ m , β, à k , κ k in Equation (27), (28), (29),(30),(31) until Convergence

Giá trị z m được xác định bằng cách tối đa hóa l (P K k=1 θ m,k β k,l ) với m thuộc {1 M} Thuật toán có độ phức tạp O T.D M( ( +N K.L) ), trong đó T là số vòng lặp, D là số chiều của văn bản, M +N là tổng số văn bản có nhãn và không có nhãn, K là số lượng chủ đề và L là số lượng nhãn Thuật toán này có tính chất tuyến tính với các tham số.

3.4 Mô hình phân loại bán giám sát cho dữ liệu đa nhãn sử dụng mô hình trộn các phân phối Watson trên đa tạp văn bản (LapSSWatsons)

Luận văn giới thiệu phương pháp LapSSWatsons cho phân loại dữ liệu đa nhãn, dựa trên mô hình xác suất và cấu trúc hình học tương tự như LapSSvMFs Giả định rằng các tài liệu nằm trên một cấu trúc hình học, phân phối dữ liệu bị ảnh hưởng bởi cấu trúc này, dẫn đến việc các tài liệu gần nhau về mặt hình học có phân phối điều kiện tương tự Việc xác định cấu trúc hình học của dữ liệu thường gặp khó khăn, và phát hiện cấu trúc này là một vấn đề quan trọng Một phương pháp đơn giản để xác định cấu trúc hình học là xây dựng đồ thị láng giềng gần, bao gồm N + M đỉnh tương ứng với các văn bản có nhãn và không có nhãn Ma trận trọng số cạnh S được định nghĩa bằng công thức S ij = cos(x i , x j ) nếu x j thuộc N p (x i ) hoặc ngược lại, với N p (x i ) là tập p láng giềng gần nhất của x i Do x i và x j là các vector có độ dài 1, ta có S ij = x T i x j Cuối cùng, cấu trúc hình học được tích hợp vào biểu thức cận dưới L trong mô hình SSWatsons như một thành phần chuẩn tắc.

Luận văn giới thiệu một phương pháp mới cho việc học mô hình LapSSWatsons với đồ thị láng giềng gần, dựa trên ý tưởng rằng các tài liệu liên kết thể hiện sự tương tự Điều này cho thấy rằng, nếu hai tài liệu có trọng số cạnh cao, chúng có xác suất cao thuộc cùng một chủ đề Qua đó, luận văn khai thác một cách linh hoạt các phương pháp học thống kê và không gian hình học để phân tích văn bản.

Dạng của hàm mục tiêu trở thành:

R k (32) là tham số chuẩn tắc, trong khi λ L là hàm cận dưới của hàm log likelihood từ mô hình SSWatsons Hàm chuẩn tắc được xác định bởi R = P K k=1 R k, với R là hàm chuẩn tắc tổng thể.

Khung này tăng cường sức mạnh cho mô hình đồ thị xác suất SSWatsons và phương pháp chuẩn tắc đồ thị Laplacian Tương tự như LapSSvMFs, quá trình tối ưu hàm mục tiêu không thể đưa về dạng đóng đơn giản cho các tham số từ tìm max Để giải quyết vấn đề này, luận văn đề xuất phương pháp tìm max L và min R riêng biệt Max L được thực hiện như phần trên SSWatsons, sau đó cập nhật các tham số để R đạt min Thành phần chuẩn tắc chỉ bao gồm tham số, và đạo hàm R với mỗi tham số θ i,k được thiết lập bằng 0.

P j S i,j (35) Độ phức tạp về thời gian tính toán của thuật toán là O T.D M( ( +N K.L) +(M+N) 2 ) với T là số vòng lặp, D là số chiều của văn bản, M + N là số lượng

Compute φ m,k in Equation (25) end for for n= 1to N do

Compute φ n,k in Equation (25) for u= 1 to U do

Compute γ n,u,k in Equation (26) end for end for end for

Smooth the variational parameter φ until the objective function L( )θ stop increasing using Equation (35) until Convergence

Bảng 2 trình bày thống kê các tập dữ liệu của Yahoo, trong đó m, d, và N lần lượt đại diện cho số lượng nhãn, số lượng chiều (từ điển), và tổng số tài liệu trong tập dữ liệu sau khi đã qua tiền xử lý Các chỉ số “MaxNPI” và “MinNPI” được định nghĩa là số lượng tối đa và tối thiểu các văn bản thuộc các nhãn lớp, tương ứng với các trường hợp tích cực cho mỗi nhãn.

Society 21 29189 14507 7193 113 văn bản có nhãn và không có nhãn, K là số lượng chủ đề vàL là số lượng nhãn.Cũng giống như thuật toán LapSSvMFs, thuật toán LapSSWatsons phức tạp so với thuật toán SSWatsons là do quá trình xây dựng cấu trúc đồ thị.

Thử nghiệm và đánh giá

3.5.1 Tập dữ liệu thí nghiệm

Luận văn sử dụng một lượng lớn dữ liệu đa nhãn từ "yahoo.com", được mô tả chi tiết tại [11] 3, để thử nghiệm bài toán gán đa nhãn Các trang web này được thu thập thông qua các liên kết từ các mục chính của Yahoo! và được tổ chức thành 8 tập dữ liệu trong danh mục hàng đầu của Yahoo Mỗi trang web sau đó được gán nhãn cấp độ thứ 2 dựa trên các mục con mà nó liên kết tới Thống kê về các tập dữ liệu được trình bày trong bảng 2.

3.5.2 Độ đo đánh giá Để đo hiệu năng của phân loại đa nhãn, luận văn sử dụng cả 2 độ đo macro-F1 và micro-F1 scores [9, 11, 17] Xem xét một độ đo cho phân loại nhị phân văn

3 http://www.cs.odu.edu/ sji/resources/data/yahoo-data-matlab.tar.gz

Bảng 3: Bảng tổng hợp hiệu năng của LapSSWatsons, Labeled-LDA và SVM sử dụng độ đo Micro-F1 và Macro-F1 trong 8 datasets

L-LDA SVM LapSSWatsons L-LDA SVM LapSSWatsons Arts 30.70 23.23 39.70 39.81 48.42 54.60

Society 27.32 23.89 38.69 42.89 66.57 65.78 bản có nhãn hoặc không có nhãn cụ thể F t( p , t n , f p , f n ) được tính toán dựa trên khái niệm cho mỗi nhãn như sau: True positives (t p ) là những dữ liệu được bộ phân loại gán nhãn và điều đó đúng với thực tế, true negatives (t n ) là những dữ liệu được bộ phân loại không gán nhãn và điều đó là đúng với thực tế, false positives ( f p ) là những dữ liệu được bộ phân loại gán nhãn nhưng điều đó sai với thực tế và false negatives (f n ) là những dữ liệu được bộ phân loại không gán nhãn nhưng điều đó là sai với thực tế Độ đo trung bình Micro (Micro-averaged precision) (MicP) thể hiện tỉ lệ của số lượng tài liệu được bộ phân loại phân loại chính xác so với thực tế vào lớp ( l t p ) và tổng số lượng ( t p +f p ) được phân vào nhãn Độ tin cậy trung bình (Micro-averaged recall) (l M icR) thể hiện tỉ lệ của số lượng dữ liệu được phân loại chính xác vào nhãn , và tất cả dữ liệu thực l tế thuộc nhãn (l t p +f n ). Độ đo trung bình Micro-averaged F-measure (Micro-F1) thể hiện hài hòa của Micro-Precision và Micro-Recall | |L là số lượng lớp.

The percentage of the labeled set

LapSSWatson SSWatson LapSSvMFs SSvMFs LP

The percentage of the labeled set

Hình 5: Kết quả phân loại đa nhãn với các phương pháp LapSSWatsons, SS-

Watsons, LapSSvMFs, SSvMFs và LP trên 4 datasets: Recreation, Ed- ucation, Health and Arts. với:

Macro-average precision (M acP) is calculated by determining the precision for each individual label and then averaging these values across all labels, similar to the method used for macro-averaged recall (M acR) The macro-averaged F-measure (Macro-F1) reflects the harmonic balance between Macro-Precision and Macro-Recall.

Trong phân loại dữ liệu đa nhãn, việc xác định ngưỡng để gán nhãn cho mỗi tài liệu là rất quan trọng để nâng cao hiệu quả của thuật toán Gần đây, nghiên cứu đã chỉ ra rằng điều chỉnh ngưỡng dựa trên điểm F1 trên tập dữ liệu học có thể cải thiện hiệu suất của bộ phân loại Luận văn này cũng áp dụng chiến lược điều chỉnh nhãn tương tự, trong đó xác suất gán nhãn của văn bản được sắp xếp theo thứ tự tăng dần Ngưỡng được chọn lần lượt từ xác suất thấp nhất, kiểm tra độ đo F1 cho đến khi không còn tăng nữa, và dừng lại để lấy ngưỡng nhãn.

3.5.3 Các thuật toán so sánh Để đánh giá hiệu năng của thuật toán phân loại dữ liệu đa nhãn LapSSWatsons, luận văn sử dụng 6 phương pháp để so sánh trong đó có 2 thuật toán có giám sát (supvervised methods) và 4 thuật toán bán giám sát (semi-supervised methods): SVM: Kết quả được lấy từ bài báo [17]

Labeled-LDA: Thuật toán cải tiến của LDA cho bài toán phân loại, kết quả được lấy từ [17].

LP: Thuật toán lan truyền đa nhãn [12].

SSWatsons: Thuật toán SSWatsons hay chính là LapSSWatsons với (λ= 0). SSvMFs: Tương tự với SSWatsons nhưng thay phân phối Watson thành phân phối vMF.

LapSSvMFs: Tương tự LapSSWatsons nhưng thay phân phối Watson thành phân phối vMF.

Hình 6: Hiệu năng phân loại đa nhãn khi thay đổi số lượng chủ đề

Trong nghiên cứu này, luận văn đã thiết lập 90 chủ đề với 10 láng giềng trong việc xây dựng đồ thị láng giềng gần Các tham số biến phân được khởi tạo ngẫu nhiên, và 1000 tài liệu từ mỗi tập dữ liệu được chọn ngẫu nhiên làm tập có nhãn, trong khi phần còn lại được gán nhãn, đánh giá và kiểm tra Bảng 3 cho thấy hiệu năng của thuật toán LapSSWatsons so với hai mô hình học có giám sát là Labeled-LDA và SVM trên 8 tập dữ liệu trong bài toán phân loại đa nhãn.

Thuật toán LapSSWatsons cho thấy hiệu suất vượt trội so với hai thuật toán giám sát khác, Labeled-LDA và SVM, với kết quả cao hơn khoảng 10% khi sử dụng chỉ số Macro-F1 Đối với chỉ số Micro-F1, LapSSWatsons cũng tỏ ra ưu việt hơn hai thuật toán này trên 6 tập dữ liệu, và kết quả gần tương đương với SVM trên 2 tập dữ liệu còn lại.

In the next experiment, the thesis will compare the performance of the LapSSWatsons, SSWatsons, LapSSvMFs, SSvMFs, and LP algorithms All algorithms are semi-supervised and utilize the same training and test sets, with the percentage of labeled data increasing from 1% to 15% Figure 5 illustrates the Macro-F1 and Micro-F1 results across four datasets: Recreation, Education, Health, and Arts.

Các thí nghiệm cho thấy rằng LapSSWatsons đạt kết quả tốt hơn so với các thuật toán khác trên 4 tập dữ liệu, thể hiện qua cả chỉ số Macro-F1 và Micro-F1 Mô hình dựa trên phân phối Watson cũng cho kết quả vượt trội hơn so với mô hình sử dụng phân phối vMF Đáng chú ý, LP có hiệu suất thấp khi số lượng nhãn trong tập dữ liệu ít, nhưng tăng trưởng đáng kể khi tỷ lệ tập có nhãn tăng lên, trong khi các thuật toán khác có mức tăng chậm hơn.

Để kiểm tra ảnh hưởng của số lượng chủ đề đối với kết quả phân loại đa nhãn, chúng tôi đã thực hiện thí nghiệm với 6 datasets, thay đổi số chủ đề từ 30 đến 110 Kết quả cho thấy Macro-F1 và Micro-F1 tăng chậm và ổn định khi số lượng chủ đề tăng Do đó, việc lựa chọn số lượng chủ đề không phải là vấn đề lớn trong phương pháp LapSSWatsons.

Luận văn đã phân tích và đánh giá các hướng nghiên cứu trong bài toán phân loại văn bản, đồng thời đề xuất hai thuật toán học bán giám sát cho phân loại dữ liệu đơn nhãn và đa nhãn, bao gồm LapSSvMFs và LapSSWatsons Mỗi thuật toán được trình bày chi tiết với phương pháp thử nghiệm trên các tập dữ liệu chuẩn và so sánh đánh giá với các thuật toán khác Kết quả thí nghiệm cho thấy cả hai thuật toán đều đạt được kết quả tốt hơn so với các phương pháp hiện có.

Tuy nhiên, luận văn còn một số vấn đề chưa đề cập tới và đó trở thành hướng phát triển tiếp theo của luận văn như:

1 Tuy các mô hình luận văn đưa ra thu được kết quả là đáng kể, nhưng khi dữ liệu lớn thì độ phức tạp của suy diễn tăng lên Một hướng nghiên cứu cũng đang được cộng đồng các nhà khoa học rất quan tâm đó là học thưa (sparse learning), đây là một hướng có thể thu được kết quả tốt nếu áp dụng vào các mô hình trong luận văn.

2 Luận văn khai thác dữ liệu văn bản có độ dài tương đối lớn, với những dữ liệu có độ dài nhỏ hoặc có thêm thông tin như liên kết giữa các văn bản chưa thì luận văn chưa đề cập đến Đây là một hướng phát triển tiếp tốt tiếp theo của luận văn.

Ralitsa Angelova and Gerhard Weikum presented a novel approach to graph-based text classification, emphasizing the importance of leveraging neighboring data for improved learning outcomes Their research was showcased at the 29th annual ACM SIGIR conference, highlighting innovative methods in information retrieval The findings suggest that integrating neighboring information can enhance classification accuracy, making it a significant contribution to the field.

[2] Arindam Banerjee, Inderjit S Dhillon, Joydeep Ghosh, and Suvrit Sra. Clustering on the unit hypersphere using von mises-fisher distributions J. Mach Learn Res., 6:1345–1382, December 2005.

[3] Avleen Singh Bijral, Markus Breitenbach, and Gregory Z Grudic Mixture of watson distributions: A generative model for hyperspherical embeddings.

Journal of Machine Learning Research - Proceedings Track, 2:35–42, 2007.

[4] David M Blei and Michael I Jordan Modeling annotated data InProceed- ings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, pages 127–134, New York, NY,

[5] David M Blei, Andrew Y Ng, and Michael I Jordan Latent dirichlet allocation In NIPS, pages 601–608, 2001.

[6] Deng Cai, Qiaozhu Mei, Jiawei Han, and Chengxiang Zhai Modeling hidden topics on document manifold InProceedings of the 17th ACM conference on Information and knowledge management, CIKM ’08, pages 911–920, New

Tiêu đề	Phân loại văn bản sử dụng mô hình xác suất trên đa tạp văn bản
Tác giả	Ngô Văn Linh
Người hướng dẫn	PGS.TS. Nguyễn Thị Kim Anh
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2013
Thành phố	Hà Nội

Định dạng
Số trang	67
Dung lượng	0,9 MB