46 Trang 8 Danh sách các từ viết t ắt và thuật ngữLDA Latent Dir ichlet AllocationpLSI probabilistic Latent Semantic AnalysisSDR Giảm chiều có giám sátSWE Bộ nhúng từ có giám sátSWET Bộ
Mô hình chủ đề
Học chủ đề ẩn của dữ liệu văn bản chữ
Chủ đề trong văn bản có thể hiểu là nội dung chính mà văn bản đề cập, như thể thao, văn hóa, chính trị hay giáo dục Để xác định chủ đề, ta dựa vào các từ khóa xuất hiện trong văn bản; ví dụ, nếu có các từ như tội phạm, hung khí, công an, hay bằng chứng, văn bản sẽ liên quan đến hình sự Do đó, một chủ đề được xác định qua tập hợp từ ngữ xuất hiện đồng thời, làm nổi bật nội dung chính của văn bản Về mặt toán học, mỗi chủ đề có thể được biểu diễn bằng một phân phối từ trong tập từ điển, với các từ khác nhau.
Mô hình phân tích chủ đề giúp phát hiện các chủ đề ẩn trong dữ liệu văn bản Bằng cách xem xét văn bản qua lăng kính của các chủ đề này, chúng ta có thể rút ra các đặc điểm nổi bật, từ đó ứng dụng vào việc xác định nội dung đặc trưng và phân cụm các văn bản trong tập dữ liệu.
Học cấu trúc ẩn của dữ liệu bắt đầu với mô hình phân tích ngữ nghĩa ẩn (Latent Semantic Indexing - LSI) và probabilitic Latent Semantic Indexing (pLSI) là những phương pháp học giúp ánh xạ văn bản và từ vựng vào "không gian ngữ nghĩa ẩn" hay các "chủ đề ẩn" Trong một tập văn bản với D văn bản và V từ, giả thiết có K chủ đề ẩn, tập văn bản sẽ được chuyển sang ma trận DOC, trong đó mỗi văn bản bao gồm các chủ đề ẩn Các từ sẽ được chuyển sang không gian T OP IC, nơi mỗi chủ đề gồm một tập hợp từ với tỉ lệ khác nhau.
Phương pháp LSI đơn thuần sử dụng thuật toán tất định phân tách trị riêng nhằm tìm ra hai ma trận DOC [ D K × ] và T OP IC [ K V × ] sao cho W ORD [ D V × ] =
Mô hình pLSI tiến xa hơn bằng cách coi mỗi văn bản là tập hợp các chủ đề được trộn lẫn theo một phân phối nhất định, trong đó mỗi chủ đề ẩn là một phân phối xác suất theo từ Mục tiêu là tìm các tham số của mô hình, bao gồm hai ma trận DOC và T OP IC, nhằm tối đa hóa xác suất xảy ra của ma trận W ORD.
Cả hai mô hình LSI và pLSI đều có số lượng tham số trong ma trận DOC tỷ lệ với số lượng văn bản trong tập dữ liệu, dẫn đến việc gia tăng kích thước lưu trữ của mô hình Hơn nữa, do số lượng văn bản được học là cố định, nên cả hai phương pháp này không thể phân tích văn bản mới xuất hiện hoặc phải học lại từ đầu, điều này khiến cho LSI và pLSI thiếu tính tổng quát hóa cho dữ liệu Để khắc phục những hạn chế này, mô hình LDA đã được đề xuất và đã đạt được hiệu quả tốt.
Mô hình LDA
Mô hình Latent Dirichlet Allocation (LDA), được phát triển bởi David M Blei và cộng sự, là một mô hình đồ thị xác suất và mô hình sinh (generative model) hiệu quả trong việc mô hình hóa dữ liệu có cấu trúc rời rạc, đặc biệt là văn bản LDA đã được áp dụng thành công trong nhiều lĩnh vực như khai phá văn bản, phân tích cảm xúc và sinh trắc học.
1) Các khái niệm và kí hiệu
Chúng ta định nghĩa một số thuật ngữ sau:
• Các từ là phần tử cơ bản tạo thành văn bản, được đánh chỉ số bởi { 1 2 , , , V } trong một tập từ điển có kích thước V
Mỗi văn bản được ký hiệu là d, bao gồm d N d từ, và được biểu diễn dưới dạng bag-of-words Trong đó, w d = {w d1 , w d2 , , w dN d } thể hiện các từ trong dãy n từ của văn bản d.
• Tập văn bản bao gồm M văn bản được ký hiệu bởi D = { w 1 , w 2 , , w M } trong đó w i là văn bản ở vị trí thứ i
Quá trình sinh ra văn bản trong mô hình LDA được mô phỏng qua một mạng Bayes, trong đó mỗi node đại diện cho cấu trúc ngữ nghĩa ẩn của tập văn bản LDA giả định rằng mỗi văn bản là sự kết hợp ngẫu nhiên của K chủ đề ẩn, với tỷ lệ các thành phần chủ đề được biểu diễn bởi vector phân phối xác suất θ d Mỗi chủ đề ẩn k lại được mô tả bằng một phân phối xác suất trên toàn bộ từ vựng, được biểu diễn qua vector V β k, trong đó β kj thể hiện xác suất xuất hiện của từ thứ j thuộc chủ đề k.
Quá tr ình sinh các văn bản của mô hình LDA được mô tả như sau:
• Sinh ra phân phối xác suất của các từ trong tập từ điển trên mỗi chủ đề k ∈ { 1 2 , , , K } (topic distributions) : β k ∼ Dir η ( )
• Sinh ra N d từ cho mỗi văn bản : d
1 Sinh ra phân phối xác suất của các chủ đề trên từng văn bản (topic d proportions) : θ d ∼ Dir α ( )
2 Với từ thứ n = 1 2 , , , N d lần lượt: a) Chọn một chủ đề z dn ∼ Multinomial(θ d ) ( z dn ∈ { 1 2 , , , K } , còn gọi là topic assignments) b) Sinh ra từ w dn ∼ M ultinomial β ( z dn ) trong đó và được gọi là các tri thức tiên nghiệm (prior) tương ứng của và , η α β θ cụ thể hơn chúng đóng vai trò làm tham số cho phân phối tiên nghiệm Dirichlet của hai biến ẩn này Điều này giúp mô hình LDA có có tổng quát hoá cao hơn và tránh được overfitting so với những mô hình trước đó như pLSI.
Mô hình LDA được thể hiện qua đồ thị xác suất, trong đó các từ (w) là biến quan sát và các siêu tham số (η, α, β) cùng với các biến ẩn (θ, z) đại diện cho các cấu trúc ngữ nghĩa ẩn cần được khai thác từ tập văn bản quan sát Mục tiêu của mô hình là ước lượng các biến ẩn này để hiểu rõ hơn về nội dung và cấu trúc của dữ liệu văn bản.
N M Hình 1: Biểu diễn đồ thị xác suất của mô hình LDA
Như vậy mô hình LDA gồm có 3 phân mức:
• Mức toàn cục: gồm các siêu tham số η, α còn được gọi là các tri thức tiên nghiệm và biến đặc trưng cho các chủ đề của tập văn bản β
• Mức văn bản: biến θ xác định phân bố của các chủ đề trên từng văn bản.
Mức từ đề cập đến các từ có thể quan sát được w và chủ đề tương ứng của chúng, z Trong đó, chúng ta có thể phân chia thành hai cấp độ: mức văn bản và mức từ, được gọi chung là mức cục bộ.
Bài toán học mô hình LDA chủ yếu tập trung vào việc ước lượng các biến ẩn từ các từ trong văn bản Theo lý thuyết Bayesian, nhiệm vụ này liên quan đến việc ước lượng phân phối hậu nghiệm, tức là phân phối có điều kiện của các biến ẩn khi đã biết các biến dữ liệu và các hyperparameters Cụ thể, công thức được sử dụng là p(θ, z, β | w, α, η) = p(θ, z | w, β, α, η) p(w | α, η), trong đó p(w | α, η) là yếu tố quan trọng trong quá trình ước lượng.
Y k=1 p(β k | η) (1) với p(θ d | α ) = Dir ( | α ), p z ( dn = k | θ d ) = θ dk , p w ( dn | z dn = k, β ) = β kw dn và p(β k | η) = Dir η) ( |
Phân phối hậu nghiệm trong mô hình tổng quát không thể tính toán trực tiếp, như đã chỉ ra bởi Sontag và cộng sự Để ước lượng các biến ẩn, chúng ta có thể áp dụng phương pháp xấp xỉ Có nhiều thuật toán suy diễn xấp xỉ phù hợp cho mô hình LDA, bao gồm xấp xỉ Laplace, suy diễn biến phân và lấy mẫu Markov chain Monte Carlo Bài viết này sẽ giới thiệu một số phương pháp suy diễn.
Trong mô hình mạng Bayes, các biến quan sát được ký hiệu là X và tập hợp các biến ẩn, cần học là Z Phân phối hậu nghiệm p(Z | X) thường không thể tính toán trực tiếp, do đó mục tiêu của chúng ta là tìm một xấp xỉ cho phân phối này Để đạt được điều đó, chúng ta cần biểu diễn logarit của hàm phân phối biên tại X, còn được gọi là "log complete-data" hoặc evidence, theo công thức log(p(X)).
Trong bài viết này, chúng ta xem xét công thức KL( q || p ) = E_q, với giả định rằng các biến ẩn Z là biến ngẫu nhiên liên tục, do đó miền giá trị được xác định thông qua tích phân Nếu biến là rời rạc, chúng ta chỉ cần thay tích phân bằng tổng các giá trị rời rạc của biến đó.
được gọi là độ đo khoảng cách Kull- back Leibler giữa hai phân phối và Mặt khác độ đo KL là không âm, tức là q p
KL( q p || ) ≥ 0, nênlog ( ) p X ≥ L ( ) q Vì vậy đại lượng L( ) q được gọi là hàm cận dưới
(lower bound) của hàm "log complete-data" hay evidence log ( p X), do đó thường được gọi đầy đủ là hàm vidence owerE L BOund (ELBO).
Để tìm phân phối xấp xỉ tốt nhất cho phân phối hậu nghiệm \( p(Z | X) \), mục tiêu là tối thiểu hóa độ đo KL divergence \( KL(q || p) \), sao cho giá trị này càng gần 0 càng tốt Tuy nhiên, do không thể tính toán trực tiếp \( KL(q || p) \), chúng ta sẽ cực đại hóa hàm lower bound \( L(q) \) theo phân phối \( q \) Để thực hiện điều này, cần thiết phải có một số ràng buộc, không thể xem xét trên toàn bộ không gian khả thi, điều này là hợp lý vì phân phối hậu nghiệm \( p(Z | X) \) không thể tính toán được.
Suy diễn biến phân (variational inference) là một phương pháp xấp xỉ tối ưu, trong đó chúng ta xem xét họ biến phân mean-field Phương pháp này giả định rằng các biến ẩn Z là độc lập với nhau dưới từng tham số biến phân riêng biệt, cho phép phân tách phân phối q( ) Z thành tích của các phân phối độc lập Cụ thể, với các biến ẩn Z = { Z i , i = 1 M }, ta có thể biểu diễn q( ) = Z.
Trong phương pháp suy diễn biến phân, ta có thể biểu diễn hàm lower bound L(q) dưới dạng hàm của các tham số biến phân φ_i, với q(Z_i | φ_i) được gọi là các phân phối biến phân Bằng cách cực đại hóa hàm lower bound L(φ_1, φ_2, , φ_M), chúng ta có thể tìm ra các tham số biến phân tương ứng, từ đó xác định dạng phân phối của q Tuy nhiên, các giả định ban đầu thường không đủ, và cần có điều kiện ràng buộc chi tiết hơn, thậm chí là dạng phân phối cụ thể cho từng q(Z_i | φ_i) Phần tiếp theo về phương pháp suy diễn biến phân cho mô hình LDA sẽ làm rõ vấn đề này, đặc biệt là trong việc áp dụng lấy mẫu Markov Chain Monte Carlo.
Mục tiêu chính là ước lượng các biến ẩn thông qua việc xấp xỉ hàm phân phối hậu nghiệm Suy diễn biến phân giúp tìm kiếm một phân phối dễ tính toán để suy diễn các biến ẩn Phương pháp lấy mẫu sẽ tính kì vọng của các biến ẩn, vốn là các biến ngẫu nhiên, dựa trên các mẫu được lấy ra từ hàm phân phối hậu nghiệm.
Giả sử có M mẫu {x₁, x₂, , xM} được lấy độc lập từ phân phối p với biến ngẫu nhiên x ∼ p(x) Khi đó, kỳ vọng của hàm f(x) theo phân phối p có thể được tính xấp xỉ như sau:
Bài toán suy diễn cho mô hình LDA
Suy diễn biến phân là một phương pháp hiệu quả để học mô hình LDA, như được trình bày trong bài báo gốc về Latent Dirichlet Allocation Trong lý thuyết, phân phối hậu nghiệm đối với các biến ẩn không thể tính toán trực tiếp, do đó, phương pháp suy diễn biến phân được sử dụng để xấp xỉ phân phối này bằng một phân phối q, thỏa mãn điều kiện phân phối phân tách.
Trong bài viết này, chúng ta xem xét các ràng buộc liên quan đến phân phối, bao gồm q z ( dn ) = Multinomial |φ ( dn ), q ( θ d ) = Dir |γ ( d ) và q ( β k ) = Dir |λ ( k ) Các tham số biến phân φ, γ và λ là những yếu tố quan trọng cần xác định Do đó, việc tìm kiếm các phân phối φ, γ, λ và q chính là quá trình xác định các tham số này.
Theo lý thuyết của phương pháp suy diễn biến phân, chúng ta cần cực đại hoá hàm lower bound của hàm log complete-datalog ( p w | α, η ) như sau:
= E q (log ( p θ , , , z w β |α, η )) − E q (log ( q θ , , z β )) (7) Kết hợp với các đẳng thức (1) và (6) chúng ta được:
+E q [log ( p z dn | θ d )] − E q [log ( q z dn | φ dn )]) − E q [log ( q θ d | γ d )]} (8) +
Thực hiện tính toán các kì vọng này, chúng ta thu được hàm mục tiêu:
X k=1 φ dnk (E q [log θ dk ] +E q [log β kw dn ] − log φ dnk )
(α − γ dk )E q [log θ dk ] + log Γ(γ dk )
(η − λ kj )E q [log β kj ] + log Γ(λ kj )
+ log Γ( Kα ) − K log Γ( ) + (log Γ( α V η ) − V log Γ( )) η trong đó các giá tr ị kì vọng là:
Kí hiệu ,Γ Ψ theo thứ tự là hàm Gamma và đạo hàm logarit của hàm Gamma, còn được gọi là hàm Digamma.
Tính gradient của hàm lower bound theo từng tham số biến phân cho phép chúng ta tìm ra nghiệm tối ưu Cụ thể, ta có thể biểu diễn mối quan hệ giữa các tham số thông qua công thức: φ dnk ∝ exp { E q [log θ dk ] + E q [log β kw dn ]} và γ dk = + α.
Trong công thức (14), hàm indicator I [w dn = w j ] có giá trị 1 khi hai từ w dn và w j giống nhau, và giá trị 0 khi chúng khác nhau Các công thức (12) và (13) được sử dụng để suy diễn các tham số biến phân cục bộ cho từng văn bản.
Phương pháp biến phân cho phép ước lượng gián tiếp giá trị của các biến ẩn thông qua các tham số biến phân, thay vì tìm trực tiếp chúng trong mô hình ban đầu Điều này giúp xác định phân phối biến phân của các biến ẩn dựa trên các giả sử giới hạn không gian tìm kiếm Để đảm bảo các công thức cập nhật hội tụ đến điểm tối ưu của hàm lower bound, chúng ta áp dụng thuật toán Expectation-Maximization (EM), trong đó quá trình cập nhật được chia thành hai bước: bước "E" để cố định và cập nhật liên tục cho đến khi hội tụ, và bước "M" để cập nhật khi có giá trị λ γ φ λ cho trước.
Thuật toán học cho LDA sử dụng suy diễn biến phân cụ thể như sau:
Thuật toán LDA (Latent Dirichlet Allocation) sử dụng phương pháp suy diễn biến phân để phân tích tập hợp D văn bản Đầu vào của thuật toán bao gồm các tham số tiên nghiệm η và α, trong khi đầu ra là tham số biến phân toàn cục λ.
Khởi tạo ngẫu nhiên λ = λ 0 whileSự cải thiện tương đối trong L( w , , , φ γ λ) > 10 −6 do
E step: Bước suy diễn biến cục bộ cho từng văn bản formỗi văn bản trong d D t do
Khởi tạo γ d một giá tr ị bất kỳ repeat φ dnk ∝ exp { E q [log θ dk ] + E q [log β kw dn ]} γ dk = + α P N d n=1 φ dnk until K 1 P K k=1 | Sự thay đổi trong γ d |< 10 −5 end for
M step: Bước cập nhật tham số toàn cục λ kj = + η P D d=1
Sau khi xác định các tham số biến phân, chúng ta tiến hành ước lượng các biến ẩn bằng cách tính kỳ vọng của phân phối biến phân tương ứng Đối với phân phối Dirichlet, kỳ vọng được tính bằng giá trị trung bình của các tham số.
• Với mỗi văn bản d = 1 , , D : θ ˆ dk ∝ γ dk (chuẩn hóa vectơ K chiều γ d )
• Với mỗi topic k = 1 , , K : β ˆ kj ∝ λ kj (chuẩn hóa vectơ V chiều λ k )
Các siêu tham số (hyper-parameters) như α và η có thể được tối ưu hóa theo hàm mục tiêu, nhưng điều này làm cho thuật toán học trở nên phức tạp và tốn kém về chi phí tính toán Hơn nữa, việc tối ưu hóa này có thể dẫn đến tình trạng overfitting cho mô hình Vì lý do đó, trong các thử nghiệm, chúng ta thường điều chỉnh giá trị các siêu tham số này một cách thủ công.
Mô hình phi tham số
LDA và pLSI là các mô hình chủ đề phụ thuộc tham số, yêu cầu người dùng xác định số lượng chủ đề trước khi bắt đầu quá trình học và suy diễn, điều này thường gây khó khăn trong thực tế Để giải quyết vấn đề này, các mô hình chủ đề phi tham số đã được đề xuất, trong đó Hierarchical Dirichlet Processes (HDP) là một ví dụ tiêu biểu, sử dụng quá trình Dirichlet để tự động học số lượng chủ đề từ văn bản.
Quá trình Dirichlet (DP) là một phân phối xác suất quan trọng trong lý thuyết xác suất Nó được định nghĩa trên các độ đo xác suất, là những hàm ánh xạ từ tập con của không gian X vào khoảng [0,1] và phải tuân theo các tính chất nhất định DP có hai tham số chính, đóng vai trò quan trọng trong việc xác định đặc tính của phân phối này.
• Phân phối cơ sở H, tương tự như giá trị trung bình của DP.
• Tham số độ mạnh α , tương tự như phương sai nghịch đảo của DP.
Quá tr ình sinh của HDP được mô tả như sau:
G 0 ∼ DP γ, Dir η , ( ( )) G d ∼ DP α ( 0 , G 0 ) θ di ∼ G d , φ z di = θ di , w di ∼ M ult φ ( z di )
Quá trình Dirichlet (DP) là một phương pháp quan trọng trong phân tích dữ liệu, với G0 đại diện cho độ đo xác suất ngẫu nhiên toàn cục trên toàn bộ văn bản trong bộ dữ liệu, trong khi Gd là độ đo cho từng văn bản cụ thể Các siêu tham số γ, η và α0 đóng vai trò quan trọng trong mô hình, cùng với biến toàn cục φk (với k thuộc tập {1, 2, }) Trong đó, wdi là từ thứ i trong văn bản và zdi là chủ đề tương ứng của từ đó Hình 2 minh họa dạng đồ thị của DP và HDP, giúp người đọc hình dung rõ hơn về cấu trúc và mối quan hệ giữa các thành phần trong mô hình này.
HDP có thể được phát triển từ quá trình nhượng quyền nhà hàng Trung Quốc hoặc phương pháp stick-breaking Trong nghiên cứu này, chúng tôi chọn phương pháp stick-breaking để xây dựng HDP Phương pháp này quan trọng vì nó cho phép chúng tôi thu được công thức tường minh khi học HDP thông qua suy diễn biến phân Chi tiết về quá trình sinh của HDP sử dụng stick-breaking sẽ được trình bày dưới đây.
Hình 3: Mô hình Super vised LDA [29] c dt ∼ M ult ( ) β β 0 k ∼ Beta(1 , γ , β ) k = β k 0 k−1
Trong đó c dt là chỉ số của chủ đề của văn bản và Beta là phân phối Beta.
Mô hình chủ đề có giám sát
Mô hình chủ đề có giám sát tích hợp thông tin nhãn lớp vào không gian chủ đề, giúp tăng cường tính tách biệt theo lớp Điều này cho phép các mô hình này được áp dụng trong các bài toán phân loại văn bản Supervised LDA (sLDA) là một ví dụ điển hình, trong đó mỗi văn bản được gán một nhãn lớp tương ứng, và quá trình sinh ra văn bản có độ dài N được thực hiện dựa trên thông tin này.
1 Lấy một tỉ lệ chủ đề θ ∼ Dir( ) α
2 Với mỗi từ thứ -th trong : n d
• Lấy một chủ đề z n ∼ M ult θ ( )
3 Lấy một nhãn lớp y ∼ sof tmax ( N 1 P N n=1 z n , η)
Mô hình sLDA khác biệt với LDA nhờ vào biến quan sát y d, thể hiện nhãn lớp của văn bản sLDA áp dụng phương pháp suy diễn biến phân để xấp xỉ phân phối hậu nghiệm dựa trên văn bản và nhãn tương ứng Tuy nhiên, sLDA gặp phải độ phức tạp tính toán cao Để khắc phục vấn đề này, Fast supervised LDA (FSLDA) đã được phát triển nhằm cải thiện tốc độ huấn luyện cho sLDA Trong quá trình huấn luyện, FSLDA sử dụng phương pháp biến phân Mean Field tương tự như trong LDA không giám sát.
Y n=1 q z ( n |φ n ) (15) Ở đây, FSLDA đi giải quyết việc tính toán cho đại lượng sau trong ELBO.
Một điểm cần lưu ý là cả sLDA và FSLDA là các mô hình tham số nên cần phải lựa chọn số chủ đề K trước khi huấn luyện.
Trong sự phát triển của các mô hình chủ đề, chúng tôi nhận thấy sự xuất hiện của các mô hình chủ đề có giám sát phi tham số Những mô hình này kết hợp giữa tính chất phi tham số và thông tin có giám sát, cho phép ứng dụng trong các lĩnh vực có giám sát mà không cần phải xác định số lượng chủ đề một cách thủ công.
Bên cạnh đó, một khung thuật toán [41] là supervised dimension reduction
SDR đã thành công trong việc tích hợp thông tin nhãn lớp vào các mô hình chủ đề không giám sát, giúp học ra không gian biểu diễn thấp chiều cho văn bản Mô hình này bao gồm hai pha: pha đầu tiên khởi tạo không gian chủ đề thông qua các mô hình không giám sát, trong khi pha thứ hai sử dụng thông tin nhãn và cấu trúc địa phương của dữ liệu huấn luyện để xác định không gian tách biệt Chi tiết về hai pha của SDR được trình bày trong thuật toán 4.
Thuật toán 4Hai pha của thuật toán SDR
Học một mô hình chủ đề không giám sát để khởi tạo không gian chủ đề
Pha 2:(tìm không gian có tính tách biệt)
1 Với mỗi lớp c, chọn một tập S c chứa các chủ đề mà chúng có tính tách biệt cho lớp c.
2 Với mỗi văn bản d, chọn một tập hợp N d trong những hàng xóm gần nhất của d thuộc cùng lớp với d
3 Suy diễn biểu diễn mới θ ∗ d cho mỗi văn bản bằng thuật toán Frank-Wolfed
P d 0 ∈N d L(ˆ d 0 ) + R P j S ∈ c sin θ j , trong đó L( ˆ d)là log likelihood của văn bản d ˆ = d/ d k k 1 ; λ ∈ [0 1] , và R là hằng số dương.
4 Tính chủ đề mới β 1 ∗ , , β K ∗ từ d và θ ∗ d Cuối cùng,Ω ∗ = span β 1 ∗ , , β ∗ K là không gian có tính tách biệt.
Biển diễn ngữ nghĩa của từ
Tra cứu từ điển
Cách tiếp cận đơn giản nhất để xử lý dữ liệu văn bản là sử dụng bộ tra cứu chỉ số từ điển Đầu tiên, cần tạo ra một bộ từ điển chứa các từ không lặp lại từ bộ dữ liệu, chỉ lấy một lần cho mỗi từ Sau đó, mỗi từ sẽ được gán một chỉ số tương ứng trong từ điển, và chỉ số này sẽ đại diện cho từ đó Mặc dù phương pháp này rất đơn giản, nhưng nó không phản ánh được mối liên hệ ngữ nghĩa giữa các từ.
Mã hóa từ one-hot
Biểu diễn bằng mã hóa one-hot là phương pháp chuyển đổi từ thành vec-tơ có kích thước tương ứng với tập từ điển Trong vec-tơ này, chỉ có một giá trị là 1, trong khi tất cả các giá trị khác đều bằng 0 Để áp dụng phương pháp này, trước tiên cần tạo ra một bộ từ điển, tương tự như khi tra cứu từ điển.
Biểu diễn one-hot giúp xác định vị trí của từ trong từ điển bằng cách gán giá trị 1 cho vị trí tương ứng trong vec-tơ, trong khi các vị trí khác có giá trị 0 Tuy nhiên, phương pháp này có hạn chế trong việc thể hiện thông tin ngữ nghĩa Hãy cùng xem xét ví dụ với hai câu sau để hiểu rõ hơn.
Hình 4 thể hiện biểu diễn one-hot của các từ Về mặt trực quan, dễ thấy rằng từ
Mặc dù "thích" và "yêu" có ý nghĩa tương tự, khoảng cách Euclid giữa vec-tơ của các từ "phim" và "yêu" lại bằng với khoảng cách giữa "yêu" và "thích" Điều này cho thấy hạn chế trong cách biểu diễn từ ngữ Hơn nữa, việc biểu diễn này cũng gặp khó khăn do tính thưa và số chiều của vec-tơ khá lớn, ảnh hưởng đến khả năng tính toán.
Bộ nhúng từ
Để tìm ra biểu diễn từ có số chiều nhỏ hơn mà vẫn giữ thông tin ngữ nghĩa, Word2vec được đề xuất bởi Mikolov và cộng sự Phương pháp này dự đoán các từ lân cận, giúp thu được các vec-tơ tương tự cho những từ có ý nghĩa tương đồng Các từ liên quan sẽ được ánh xạ thành các điểm gần nhau trong không gian cao chiều Word2vec mang lại nhiều ưu điểm nổi bật.
• Word2vec xây dựng dựa trên thực tế rằng các từ chia sẻ những ngữ cảnh tương tự thì cũng chia sẻ những ý nghĩa tương tự.
• Mô hình Word2vec dự đoán một từ bằng các từ lân cận, bằng việc học một vec-tơ dày đặc liên tục được gọi là bộ nhúng.
• Word2vec rất hiệu quả về tính toán.
• Word2vec có thể học từ dữ liệu văn bản thô, không giám sát.
Hình 5: Hai mô hình cơ bản của Word2vec [1]
Word2vec có 2 phiên bản là Skip-gram và CBOW (Continuous Bag Of Words). Kiến trúc của 2 mô hình này được thể hiện như hình 5.
• CBOW: Đầu vào là các từ xung quanh hay ngữ cảnh và dự đoán xác suất ra một từ trung tâm.
• Skip-gram: Đầu vào là một từ và đoán xác suất của các từ xung quanh từ đó.
Word2vec là một mạng nơ-ron ba tầng, bao gồm tầng đầu vào, tầng ẩn và tầng đầu ra Tầng giữa tạo ra các biểu diễn ẩn, giúp chuyển đổi các từ đầu vào thành các vectơ đầu ra Hàm mục tiêu trong Word2vec, chẳng hạn như phương pháp Skip-gram, đóng vai trò quan trọng trong quá trình này.
Trong bài viết này, T đại diện cho độ dài của câu, m là kích thước của cửa sổ trượt, và w_t là từ ở vị trí thứ t trong câu, phản ánh tham số cần học của mô hình, ký hiệu là θ.
Thuật toán Giảm đạo hàm ngẫu nhiên (Stochastic Gradient Descent) được sử dụng để huấn luyện mô hình Sau khi hoàn tất, ma trận trọng số giữa tầng đầu vào và tầng ẩn sẽ đại diện cho các từ trong câu, tạo thành bộ nhúng từ Trong biểu diễn vectơ bằng Word2vec, có thể nhận diện các mối quan hệ toán học thú vị giữa các vectơ từ, chẳng hạn như king - man = queen - woman.
Ngoài Word2vec, nhiều nghiên cứu hiện nay đã phát triển các bộ nhúng từ trên dữ liệu lớn, tận dụng thông tin ngữ cảnh từ câu như BERT, ELMO, và sử dụng thông tin nhãn lớp qua các phương pháp như FastText, textGCN, L-SVD, và LEAM Một số phương pháp, như ULMFiT, học bộ nhúng từ phù hợp cho nhiệm vụ chuyên biệt bằng kỹ thuật học chuyển đổi Bộ nhúng từ được tạo ra từ các phương pháp này, dựa trên thông tin nhãn lớp, được gọi là bộ nhúng từ có giám sát, thường có tính tách biệt cao nhưng lại thiếu tính diễn giải.
3 Bộ nhúng từ có giám sát với mô hình chủ đề (SWET)
Trong bài viết này, chúng tôi giới thiệu việc áp dụng SWET để học bộ nhúng từ có giám sát, nhấn mạnh vào tính tách biệt và khả năng diễn giải Đồng thời, chúng tôi cũng thảo luận về tính khả thi cũng như một số đặc điểm quan trọng của phương pháp này.
Phương pháp
Cách tiếp cận có giám sát
SWET có thể sử dụng nhiều mô hình chủ đề có giám sát để thực hiện bước 1, và có thể áp dụng cho nhiều loại bài toán khác nhau Thông tin giám sát trong SWET có thể bao gồm nhãn lớp, đánh giá xếp hạng hoặc thẻ Nhờ đó, bộ nhúng từ học được có thể được áp dụng cho các nhiệm vụ như phân loại và hệ thống gợi ý.
Cách tiếp cận dựa trên SDR
SDR (Supervised Dimension Reduction) là một phương pháp hiệu quả giúp các mô hình chủ đề không giám sát hoạt động tốt trong các tác vụ có giám sát Phương pháp này tận dụng thông tin cấu trúc địa phương của từng lớp và dữ liệu lân cận của mỗi văn bản, từ đó xây dựng không gian chủ đề với khả năng tách biệt cao.
Trong phần này, chúng tôi trình bày cách SWET mã hóa thông tin cấu trúc địa phương cho từng lớp vào bộ nhúng từ SDR nỗ lực để học một biểu diễn mới θ ∗ d cho mỗi văn bản, trong đó chứa đựng thông tin cấu trúc địa phương.
Giá trị của một số chiều của θ ∗ d được nâng cao nhờ việc θ ∗ d giữ lại thông tin về tỉ lệ chủ đề của các lân cận, liên quan đến các chủ đề cụ thể chứa thông tin cấu trúc địa phương của nhãn lớp Biểu diễn của từ w j được tính bằng cách chuẩn hóa cột của vec-tơ β ( ) ∗ j, trong đó β ∗ ( ) j tỉ lệ thuận với P d D ∈ d j θ ∗ d Nếu nhiều văn bản trong D chứa w j và thuộc cùng một nhãn lớp, một số chiều của β ∗ ( ) j sẽ được gia tăng Do đó, biểu diễn của β ∗ ( ) j có thể phản ánh không gian cấu trúc địa phương của từng lớp Cấu trúc này được xem như một ngữ cảnh toàn cục, giúp cải thiện bộ nhúng từ, với hai lợi ích chính: làm rõ ý nghĩa của từ và tạo ra biểu diễn có khả năng phân tách tốt hơn.
SDR là một phương pháp linh hoạt, cho phép áp dụng các phương pháp chủ đề không giám sát trong Pha 1 Sau đó, chúng ta có thể tạo ra bộ nhúng từ có giám sát, tối ưu hóa quy trình và nâng cao hiệu quả phân tích dữ liệu.
Cách tiếp cận phi tham số
Các phương pháp học bộ nhúng từ hiện nay thường yêu cầu người dùng chọn số chiều của vec-tơ biểu diễn từ một cách phù hợp, điều này có tính chủ quan và
Việc sử dụng các chỉ số như [10, 21, 43, 47] cho phép chúng ta học bộ nhúng từ có giám sát, đồng thời xác định tự động số chiều của nó dựa trên các tính
Chúng tôi đã phát hiện ra một phương pháp đơn giản để kết hợp mô hình chủ đề phi tham số không giám sát với việc học bộ nhúng từ có giám sát Nhờ vào tính linh hoạt của SDR, mô hình chủ đề phi tham số không giám sát được áp dụng trong pha 1 của SDR để tạo ra bộ nhúng từ Bộ nhúng này không chỉ khai thác thông tin cấu trúc địa phương mà còn tận dụng thông tin nhãn lớp từ SDR, đồng thời giữ được tính phi tham số và khả năng diễn giải của mô hình chủ đề phi tham số.
Tính khả thi của SWET
Trong phần này, chúng tôi giải thích cách thu được biểu diễn từ thông qua cột của ma trận chủ đề và mối quan hệ giữa biểu diễn của β và mô hình chủ đề Để hiểu rõ hơn, chúng ta cần xem xét cách học mô hình chủ đề từ một góc độ khác Các phương pháp hiệu quả hơn sử dụng suy diễn xấp xỉ để tìm giải pháp tối ưu với giá trị likelihood cao nhất Hơn nữa, việc học mô hình chủ đề có thể được xem như một quá trình phân tách ma trận không âm Tất cả dữ liệu có thể được biểu diễn bằng ma trận D, với kích thước M x V, trong đó M là số văn bản, V là số từ, và mỗi phần tử d ij của ma trận D đại diện cho giá trị đếm của w j trong văn bản i Mục tiêu của việc học mô hình chủ đề là tìm ra ma trận chủ đề với các giá trị không âm và ma trận ngẫu nhiên β θ.
D [ M,V ] ≈ θ [ M,K ] β [ K,V ] (20) Với ràng buộc trên và : θ β
P K k=1 θ dk = 1 với mỗi văn bản d
P V j=1 β kj = 1 với mỗi chủ đề k
Trước khi đi vào chi tiết biểu diễn từ, chúng tôi xem xét giải pháp tìm hai ma trận và Hai ma trận này được học bằng cách tối thiểu hóa hàm mục tiêu θ β, nhằm đánh giá chất lượng phép xấp xỉ giữa D và θβ Thay vì sử dụng khoảng cách L1 hoặc L2, độ đo KL được áp dụng để xây dựng hàm mục tiêu Độ đo KL giữa hai ma trận được tính theo công thức cụ thể.
P K k=1 θ dk β kj = 1bởi vì (21) Cực tiểu hóa độ đo KL tương đương với: arg max θ β ,
Liên quan đến bộ nhúng từ, mô hình hóa chủ đề có thể được hiểu là quá trình học biểu diễn, trong đó hàm mục tiêu được viết lại dưới dạng: min θ β , KL D ( ||θβ) = min θ β.
KL D ( ( ) j ||θβ j ) (23) trong đó D ( ) j là cột thứ -th của ma trận j D và β ( ) j là cột thứ của ma trận j β
Bộ nhúng từ của chúng tôi được thiết kế để tối ưu hóa sự tương đồng giữa các từ xuất hiện đồng thời Đầu tiên, hai từ có tần suất xuất hiện chung cao sẽ có độ tương đồng lớn hơn trong phương pháp của chúng tôi Giá trị thống kê D(w_j) đại diện cho từ w_j trong toàn bộ dữ liệu, trong khi β(w_j) là biểu diễn mã hóa ẩn của D(w_j) và w_j Ma trận chuyển đổi θ ánh xạ vec-tơ thuộc tính D(w_j) với mã hóa β(w_j) Nếu hai từ w_i và w_j có giá trị thống kê tương tự, nghĩa là D(w_j) gần với D(w_i) hoặc chúng xuất hiện trong nhiều ngữ cảnh chung, thì biểu diễn của chúng cũng sẽ gần nhau Do đó, vec-tơ β(w_j) và β(w_i) sẽ gần nhau khi tối thiểu hóa hàm mục tiêu, nhờ vào sự tương đồng giữa D(w_i) và D(w_j).
Lý do thứ hai giải thích lợi ích của việc lấy giá trị cột từ ma trận β Mỗi hàng của ma trận β đại diện cho một chủ đề, cho phép chúng ta quan sát mối liên hệ giữa các từ và các chủ đề thông qua từng cột của β.
Mỗi cột trong mô hình chứa thông tin ngữ nghĩa của từ, trong khi vec-tơ β cột β ( ) j bao gồm cả thông tin ngữ cảnh cục bộ và ngữ cảnh toàn cục Điều này cho thấy rằng việc biểu diễn bộ nhúng từ như SWET là hoàn toàn phù hợp.
Một số tính chất của SWET
Tính diễn giải
Tính tách biệt
Tính tách biệt là một khái niệm quan trọng trong các bài toán phân loại, thể hiện mối quan hệ giữa ý nghĩa của từ và nhãn Khi từ có liên quan mật thiết đến nhãn và không liên quan đến các nhãn khác, biểu diễn của nó sẽ có tính tách biệt Mỗi nhãn sẽ có cụm văn bản riêng, khác biệt với các cụm của các lớp khác, với các văn bản trong cùng một cụm có khoảng cách gần nhau, trong khi các văn bản thuộc các cụm khác nhau nên có khoảng cách xa nhau Thông tin tách biệt này thường được mã hóa trong θ d ∗ trong quá trình suy diễn, và được chuyển vào các chủ đề sau quá trình học, như trong SDR và FSLDA.
≈ P d D ∈ d j θ dk ∗ ,trong đó φ d,n là tham số biến phân đa thức cho chủ đề z d,n Do đó, vec-tơ nhúng β 0 ( ) j cho mỗi từ có tính tách biệt j
SWET cho phép ước lượng mức độ đóng góp của từ đối với mỗi nhãn lớp Xác suất xuất hiện của từ được tính theo công thức: j d p w ( = j d | ) = P K k=1 θ dk β kj Do đó, đóng góp của từ với nhãn lớp có thể được xấp j c xỉ như sau: p w ( = j c | ) ≈.
Mỗi nhãn cho phép chúng ta xác định tập hợp các từ có ảnh hưởng lớn nhất đến nhãn đó Tính năng này rất quan trọng, giúp hiểu rõ hơn về các nhãn lớp và cung cấp khả năng giải thích vượt trội cho nhãn lớp của SWET, điều mà các phương pháp khác không thể đạt được.
Tính chất phi tham số
Việc chọn số chiều cho bộ nhúng từ rất quan trọng để đảm bảo chất lượng của nó Sự lựa chọn không chính xác có thể dẫn đến bộ nhúng từ kém hiệu quả Tuy nhiên, việc xác định số chiều phù hợp thường tốn nhiều công sức Do đó, SWET áp dụng mô hình phi tham số để mang lại những lợi ích đáng kể trong quá trình này.
4 Thử nghiệm và đánh giá
Trong phần này, chúng tôi tiến hành thử nghiệm và đánh giá các đặc điểm chính của SWET, đồng thời so sánh với các phương pháp hàng đầu hiện nay Nghiên cứu sử dụng bảy bộ dữ liệu, bao gồm 20NG, R52, R8, OH, MR, AGNews và DBpedia, như đã trình bày trong các tài liệu tham khảo [50] và [45].
Bộ dữ liệu 20NG 2, hay còn gọi là 20-Newsgroups, bao gồm tổng cộng 18,846 văn bản được phân loại thành 20 nhãn khác nhau Trong đó, tập huấn luyện chứa 11,314 văn bản, trong khi tập kiểm thử có 7,532 văn bản.
Bộ dữ liệu R52 và R8 3 là hai phần quan trọng trong bộ Reuters 21578 R8 bao gồm 8 nhãn lớp, với 5,485 văn bản dành cho huấn luyện và 2,189 văn bản cho kiểm thử Trong khi đó, R52 có 52 nhãn lớp, được phân chia thành 6,532 văn bản huấn luyện và 2,568 văn bản kiểm thử.
Bộ dữ liệu OH 4, hay còn gọi là Ohsumed, được trích xuất từ cơ sở dữ liệu MEDLINE, một nguồn tài nguyên quan trọng trong lĩnh vực Y khoa Trong nghiên cứu này, chúng tôi đã sử dụng 7,400 văn bản với 23 nhãn lớp khác nhau Tập huấn luyện bao gồm 3,357 văn bản, trong khi tập kiểm thử gồm 4,043 văn bản, giúp đảm bảo tính chính xác và hiệu quả của mô hình.
MR 5 là một tập dữ liệu quan trọng, bao gồm các nhận xét về phim nhằm phục vụ cho bài toán phân loại nhị phân quan điểm Tập dữ liệu này chứa tổng cộng 10,662 nhận xét, trong đó có 5,331 nhận xét tích cực và 5,331 nhận xét tiêu cực, mỗi nhận xét chỉ gồm một câu.
Bộ dữ liệu AGNews 6 bao gồm bốn chủ đề chính, tương ứng với bốn nhãn lớp, được thu thập từ các bài báo trên Internet, bao gồm Thế giới, Giải trí, Thể thao và Kinh doanh.
• DBPedia: Phân loại bản thể học với 4 nhãn lớp không chồng nhau từ DBpedia
Bài viết cung cấp một số thống kê quan trọng về các bộ dữ liệu, như được trình bày trong bảng 1 Để đánh giá toàn diện các tính chất của SWET, chúng tôi đã phát triển ba phiên bản tương ứng với ba phương pháp tiếp cận khác nhau Cụ thể, SWET-SDR áp dụng SDR để học chủ đề tách biệt qua phương pháp giảm chiều; SWET-FSLDA sử dụng FSLDA để xây dựng mô hình chủ đề có giám sát; và SWET-HDP áp dụng HDP trong giai đoạn 1 của SDR nhằm tự động xác định số chiều phù hợp cho bộ nhúng từ.
2 http://qwone.com/~jason/20Newsgroups/
3 https://www.cs.umb.edu/~smimarog/textmining/datasets/
4 http://disi.unitn.it/moschitti/corpora.htm
5 https://github.com/mnqu/PTE/tree/master/data/mr
6 http://groups.di.unipi.it/~gulli/AG_corpus_of_news_articles.html
Dữ liệu #Training #Testing #Số nhãn
Bảng 1: Mô tả các bộ dữ liệu.
Phân tích tính tách biệt và tính diễn giải
Tính diễn giải
Chúng tôi chọn một từ cụ thể và vec-tơ biểu diễn của nó, sau đó xác định 3 chiều/chủ đề có giá trị lớn nhất trong vec-tơ đó Tiếp theo, chúng tôi trích xuất 30 từ có xác suất cao nhất cho mỗi chủ đề trong 3 chủ đề đã chọn và trực quan hóa chúng bằng t-SNE Hình 6 minh họa tính diễn giải của biểu diễn từ “advertisement”, với Hình 6a thể hiện tỷ lệ chủ đề của từ này.
Do đó, sự tách biệt của 3 chủ đề khá đáng kể Tuy nhiên, Word2Vec hay LEAM
7 https://github.com/guoyinwang/LEAM
8 https://code.google.com/archive/p/word2vec/
(a) Tỉ lệ chủ đề của từ "advertisement" (b) Bộ nhúng từ được học bởi SWET-SDR
(c) Bộ nhúng từ được học bởi Word2Vec (d) Bộ nhúng từ được học bởi LEAM
Hình 6 minh họa tính diễn giải của từ "advertisement", trong đó (a) thể hiện mối liên hệ giữa các chủ đề và từ "advertisement" được học qua SWET-SDR, và (b) thể hiện bộ nhúng của các từ đại diện cho các chủ đề liên quan.
216 (đỏ), 96 (xanh lá), 294 (xanh dương), có liên quan nhiều nhất với từ
Trong bài viết này, chúng tôi trình bày sự thể hiện của các từ được học qua Word2Vec và LEAM Các chủ đề không thể tách biệt, cho thấy rằng không thể giải thích từ dựa vào từng chiều của vector biểu diễn Để có cái nhìn toàn diện hơn, chúng tôi tiến hành đánh giá định lượng về tính diễn giải của mỗi chiều Chúng tôi lựa chọn các từ đại diện cho mỗi chiều bằng cách lấy tập hợp các từ có giá trị lớn nhất trên chiều đó, sau đó tính giá trị NPMI cho các từ đã chọn.
Đối với mỗi chiều của vec-tơ nhúng, chúng tôi lựa chọn từ có giá trị cao nhất tại thời điểm t cho các chiều w1, w2, , wk, và sau đó tính toán NPMI cho từng chiều theo công thức dưới đây.
− log ( P w i , w j ) (25)Sau đó, chúng tôi tính NPMI cho mỗi phương pháp học bộ nhúng từ với N chiều
Chủ đề Từ đại diện đặc trưng
216 center distr ict street states city united county places national building.
96 church built hospital river museum mall school places building house.
294 science academy university education private research students public international college.
Bảng 2: Minh họa các từ đặc trưng của một số chủ để được học bởi SWET-SDR trên bộ dữ liệu DBpeadia.
Mô hình R8 R52 OH MR word2vec -0.82 -0.84 -0.88 -0.94 fastText -0.87 -0.88 -0.89 -0.93 SWET-SDR -0.80 -0.82 -0.68 -0.69 SWET-FSLDA -0.62 -0.61 -0.71 0.32
Bảng 3: Giá tr ị NPMI của các phương pháp học bộ nhúng từ Giá trị cao hơn thì tốt hơn. như sau:
NPMI là chỉ số đánh giá sự gắn kết của từ trong bộ dữ liệu, thường dùng để đo lường tính diễn giải Kết quả trong bảng 3 cho thấy các phương pháp dựa trên SWET có giá trị NPMI cao hơn so với các phương pháp khác, cho thấy tính diễn giải của từng chiều trong bộ nhúng từ của SWET tốt hơn Điều này có thể dễ dàng giải thích bởi vì giá trị mỗi chiều của SWET mang ý nghĩa rõ ràng và liên quan chặt chẽ đến các chủ đề.
Tính tách biệt
Với phương pháp SWET, chúng tôi trích xuất các từ đặc trưng cho mỗi lớp dựa trên công thức 24 Đối với Word2Vec, chúng tôi chọn các từ có tần suất xuất hiện cao nhất trong từng lớp Trong khi đó, với LEAM, chúng tôi tính toán độ tương đồng giữa biểu diễn vec-tơ của các từ và các lớp thông qua độ đo cosine, từ đó chọn ra các từ có độ tương đồng cao nhất Chúng tôi tiến hành đánh giá trên bộ dữ liệu DBPedia, với Bảng 4 hiển thị 10 từ đại diện và Hình 7 cung cấp hình ảnh trực quan hóa kết quả.
(a) Các từ đặc trưng của các lớp được học bởi Word2vec.
(b) Các từ đặc trưng của các lớp được học bởi SWET-SDR.
(c) Các từ đặc trưng của các lớp được học bởi LEAM.
Hình 7 cho thấy sự so sánh về tính tách biệt giữa SWET-SDR, Word2Vec và LEAM trong không gian 2 chiều sử dụng t-SNE Kết quả cho thấy rằng các từ đại diện của SWET-SDR có mối tương quan mạnh với các chủ đề tương ứng, trong khi Word2Vec và LEAM có nhiều từ nhiễu Đặc biệt, vector biểu diễn của các từ thuộc cùng một lớp trong SWET-SDR gần nhau hơn, trong khi các từ của Word2Vec và LEAM phân bố khá hỗn loạn, làm khó khăn trong việc nhận diện sự tách biệt giữa các lớp từ trong bộ nhúng từ của chúng.
Ứng dụng phân loại văn bản
Phương pháp đối sánh
Chúng tôi so sánh SWET với các phương pháp tốt nhất hiện này cho việc phân loại văn bản.
• Word2Vec[30] là một phương pháp học bộ nhúng từ phổ biến Chúng tôi sử
Tên nhãn Word2vec SWET-SDR LEAM
The article highlights the multifaceted talents of an American artist known for their contributions as a writer, songwriter, musician, and singer This individual, also recognized as a producer and composer, showcases a diverse skill set in the music industry Additionally, the article mentions a sculptor and painter renowned for their artistic creations, including sculptures and watercolor illustrations, emphasizing the rich variety of artistic expression.
The historic building, recognized on the national register, is situated near a church and a museum on Grosset Street This architectural gem features Richardsonian style and has undergone renovations to enhance its appeal Originally constructed as a hospital, the building now serves as a center that includes a mall and hotel, contributing to the vibrant community atmosphere.
The debut album by the studio band features a compilation of live-recorded songs This album showcases a unique sound and includes tracks from various unreleased projects, including a mixtape and an EP The band's tour has also contributed to the richness of their musical offerings, highlighting their diverse influences and creative process.
Bảng 4 trình bày các từ đặc trưng của các lớp học được xác định qua 3 phương pháp khác nhau Những từ được in nghiêng không có liên quan đến các lớp tương ứng Các đánh giá được thực hiện trên bộ dữ liệu DBPedia, sử dụng mô hình Word2Vec 8 đã được huấn luyện bởi Google.
fastText 9 là một phương pháp hiệu quả và dễ dàng để tạo ra các biểu diễn cho văn bản Phương pháp này hoạt động bằng cách tính toán giá trị trung bình của các vec-tơ biểu diễn từ, giúp tạo ra biểu diễn tổng quát cho toàn bộ văn bản.
• SWEM 10 (Simple word embedding models) [36] sử dụng phương pháp pool- ing trên bộ nhúng từ.
Mô hình LEAM (label embedding attentive models) học đồng thời biểu diễn từ và nhãn lớp thông qua một độ đo tương thích giữa chúng Bộ phân loại áp dụng trong mô hình này là tầng kết nối đầy đủ, sử dụng hàm kích hoạt sigmoid hoặc softmax.
• LSVD [48] là phương pháp học đồng thời ngữ cảnh địa phương của từ và nhãn lớp để học ra bộ nhúng từ.
• TextGCN 11 [50] là phương pháp học biểu diễn của từ và văn bản trên cùng một đồ thị.
9 https://github.com/facebookresearch/fastText/
10 https://github.com/dinghanshen/SWEM
11 https://github.com/yao8839836/text_gcn
Mô hình 20NG R8 R52 Ohsumed MR AGNews DBPedia word2vec 79.9 96.89 91.12 60.72 75.75 90.61 97.97 fastText 79.38 96.13 92.81 57.7 75.14 92.50 98.60
Bảng 5: Độ chính xác trong ứng dụng phân loại văn bản trên tập kiểm thử (%).
Chúng tôi tiến hành so sánh SWET với biểu diễn văn bản thấp chiều từ SDR 12 Đối với các phương pháp học bộ nhúng từ như SWET, Word2Vec và LSVD, văn bản được biểu diễn bằng cách nối các vec-tơ từ Cách biểu diễn này giúp bảo toàn thông tin của bộ nhúng từ Tiếp theo, chúng tôi sử dụng LibLinear để huấn luyện mô hình Máy Vec-tơ hỗ trợ (SVM) với hệ số hiệu chỉnh C = 0.1.
Thiết lập thử nghiệm
Chúng tôi thực hiện phân loại trên 7 bộ dữ liệu, bao gồm 5 bộ dữ liệu trung bình và 2 bộ dữ liệu lớn, với mô tả chi tiết được liệt kê trong bảng 1 Để thiết lập cho SWET, chúng tôi chọn các tham số theo nghiên cứu gốc của SDR và FSLDA, chỉ điều chỉnh giá trị K (số lượng chủ đề) trong quá trình huấn luyện với các giá trị {20,40,60,80,100} Việc thay đổi K đồng nghĩa với việc thay đổi kích thước của vector biểu diễn từ Đối với các phương pháp đối sánh khác, chúng tôi áp dụng các thiết lập cài đặt tương tự như trong bài báo gốc.
Phương pháp đánh giá
Để đánh giá kết quả phân loại văn bản, chúng tôi sử dụng độ đo Độ chính xác (Accuracy) trên tập kiểm thử của mỗi bộ dữ liệu Công thức tính Độ chính xác được xác định là Số lượng phán đoán đúng chia cho Tổng số phán đoán.
12 http://www.jaist.ac.jp/~s1060203/codes/sdr/
13 https://www.csie.ntu.edu.tw/~cjlin/liblinear/
Phương pháp N o − norm c L2 c Max c Softmax c L1 c L1 a
Bảng 6 trình bày độ chính xác phân loại (%) khi áp dụng các phương pháp chuẩn hóa khác nhau trong SWET Các phương pháp biểu diễn văn bản được thể hiện bằng cách nối hoặc cộng trung bình các vec-tơ từ Độ chính xác cao cho thấy chất lượng phân loại văn bản của phương pháp đó tốt hơn.
Kết quả và phân tích
Bảng 5 trình bày kết quả độ chính xác của từng mô hình trên tập test của các bộ dữ liệu Các phương pháp dựa trên SWET vượt trội hơn các phương pháp không giám sát như Word2Vec và SWEM ở hầu hết các bộ dữ liệu Đặc biệt, SWET-SDR thể hiện sự vượt trội so với tất cả các phương pháp khác trên các bộ dữ liệu 20NG, R8 và AGNews Trong khi đó, TextGCN đạt độ chính xác cao nhất trên bộ dữ liệu R52 và Ohsumed Đáng chú ý, SWET-SDR và TextGCN có độ chính xác tương đối gần nhau, không có sự khác biệt rõ rệt.
Các phương pháp học sâu thường cho hiệu suất cao hơn trên các bộ dữ liệu lớn, trong khi TextGCN và SWET lại tỏ ra ưu việt hơn trên các bộ dữ liệu nhỏ Tóm lại, SWET là một trong những phương pháp hiệu quả nhất khi làm việc với các bộ dữ liệu.
Phân tích sự ảnh hưởng của các siêu tham số
Chúng tôi tiến hành đánh giá tác động của các phương pháp chuẩn hóa và cách biểu diễn văn bản từ các vec-tơ từ Đồng thời, chúng tôi cũng xem xét ảnh hưởng của số lượng chủ đề đến SWET.
Bước 2 của SWET đóng vai trò quan trọng trong việc phân loại văn bản, như thể hiện trong bảng 6 Việc áp dụng chuẩn hóa L1 cho SWET mang lại độ chính xác cao nhất, trong khi không sử dụng chuẩn hóa sẽ dẫn đến kết quả kém hơn.
Cách biểu diễn văn bản thông qua việc nối vec-tơ giữ lại thông tin hiệu quả hơn so với việc cộng trung bình các vec-tơ từ.
Số lượng chủ đề ảnh hưởng đến hiệu năng của phương pháp SWET trong ứng dụng phân loại, vì nó là số chiều của vec-tơ nhúng từ Hình 8 minh họa độ chính xác trên tập test của các phương pháp SWET-SDR và SWET-FSLDA.
Hình 8: Độ chính xác của SWET-SDR và SWET-FSLDA khi số lượng chủ đề tăng.
Dữ liệu T Số chủ đề được tìm ra
Bảng 7 trình bày số lượng chủ đề được học tự động từ bộ dữ liệu HDP R52, R8 và MR Kết quả cho thấy SWET-SDR đạt độ chính xác cao hơn SWET-FSLDA khi số lượng chủ đề gia tăng Nguyên nhân có thể là do SWET-SDR lưu giữ thêm thông tin cấu trúc địa phương từ các lớp của SDR, giúp cải thiện khả năng biểu diễn văn bản một cách tách biệt hơn.
Bảng 8: So sánh giữa SWET-SDR và phương pháp phi tham số SWET-HDP trong ứng dụng phân loại văn bản K chính là số chiều của bộ nhúng từ.
Bộ nhúng từ có giám sát phi tham số
Chúng tôi tiếp tục đánh giá chất lượng của SWET trong việc tự động học số chiều của vec-tơ nhúng từ HDP được kết hợp với SDR để học các chủ đề như đã thảo luận trước đó Chúng tôi sử dụng variational Bayes để thay thế Gibbs sampling trong quá trình học HDP, vì VB hoạt động hiệu quả với dữ liệu lớn Các tham số của HDP được chọn theo bài báo gốc, với trọng tâm là tham số T - giá trị tối đa của số lượng chủ đề trong toàn bộ bộ dữ liệu Giá trị T cho mỗi bộ dữ liệu được trình bày trong bảng 7 Sau khi huấn luyện HDP, chúng tôi thu được tỉ lệ chủ đề của T chủ đề trong mỗi bộ dữ liệu, phản ánh mức độ thịnh hành của từng chủ đề Nếu tỉ lệ của một chủ đề quá nhỏ (gần 0), điều này cho thấy chủ đề đó hiếm khi xuất hiện và có thể được loại bỏ khỏi T chủ đề.
Ban đầu, T được thiết lập là 150 cho bộ dữ liệu 20NG, nhưng chỉ có 80 chủ đề có giá trị thực sự, trong khi các chủ đề còn lại có tỷ lệ quá nhỏ và tương tự nhau Do đó, chúng tôi chỉ giữ lại 80 chủ đề cho bộ 20NG Bảng 7 trình bày số lượng các chủ đề đã được học bởi HDP trên các bộ dữ liệu Sau khi huấn luyện HDP, các chủ đề được chọn được sử dụng trong pha 2 của SDR để đảm bảo tính tách biệt cho bộ nhúng từ Cuối cùng, bộ nhúng từ được học bởi SWET-HDP được áp dụng trong bài toán phân loại như đã nêu trong phần 4.2.
Bảng 5 thể hiện kết quả của bộ nhúng từ phi tham số trong ứng dụng phân loại
14 https://github.com/blei-lab/online-hdp/
SWET-HDP cho thấy kết quả khả quan khi so sánh với các phương pháp đối sánh khác như Word2Vec, fastText, SWEM và LSVD Mặc dù kết quả của SWET-HDP thấp hơn một chút so với SWET-SDR, nhưng ưu điểm của nó là không cần phải tìm kiếm và lựa chọn số chiều của bộ nhúng từ So sánh giữa SWET-HDP và SWET-SDR trên bộ dữ liệu 20NG và R8 cho thấy số lượng chủ đề có ảnh hưởng lớn đến độ chính xác của SWET-SDR Tuy nhiên, SWET-HDP đạt được độ chính xác tốt hơn trong hầu hết các thử nghiệm so với SWET-SDR.
Bài toán học biểu diễn ngày càng quan trọng trong Khoa học dữ liệu và Trí tuệ nhân tạo, đặc biệt trong xử lý ngôn ngữ tự nhiên Luận văn này giới thiệu phương pháp học có giám sát (SWET) nhằm tạo ra biểu diễn ngữ nghĩa cho từ, dựa trên các mô hình chủ đề khác nhau như không giám sát, có giám sát và phi tham số SWET nổi bật với tính tách biệt, diễn giải và phi tham số Các thử nghiệm cho thấy SWET có khả năng cạnh tranh với các phương pháp hàng đầu hiện tại, mặc dù vẫn còn hạn chế trong việc giữ thông tin ngữ cảnh cục bộ và thứ tự từ trong văn bản.
Chúng tôi hy vọng trong công việc tiếp theo sẽ bổ sung thêm thông tin tri thức, từ đó học được những biểu diễn ngữ nghĩa phong phú hơn cho các từ.
[1] https://mostly.ai/summit/slides/Facebook%20Tomas% 20Mikolov.pdf.
[2] Sanjeev Arora, Rong Ge, and Ankur Moitra Learning topic models–going beyond svd In Proceedings of the 2012 IEEE 53rd Annual Symposium on FOCS, pages 1–10, 2012.
[3] Kayhan Batmanghelich, Ardavan Saeedi, Karthik Narasimhan, and Sam Ger- shman Nonparametric spherical topic modeling with word embeddings.
In Proceedings of the conference Association for Computational Linguistics Meeting, volume 2016, page 537 NIH Public Access, 2016.
[4] Yoshua Bengio, Réjean Ducharme, Pascal Vincent, and Christian Jauvin A neural probabilistic language model Journal of Machine Learning Research,
[5] David M Blei Probabilistic topic models Communications of the ACM,
[6] David M Blei, Thomas L Griffiths, and Michael I Jordan The nested chinese restaurant process and bayesian nonparametric inference of topic hierarchies.
Journal of the ACM (JACM), 57(2):1–30, 2010.
[7] David M Blei, Andrew Y Ng, and Michael I Jordan Latent dirichlet alloca- tion Journal of Machine Learning Research, 3(Jan):993–1022, 2003.
[8] Gerlof Bouma Normalized (pointwise) mutual information in collocation extraction Proceedings of GSCL, pages 31–40, 2009.
[9] Kenneth L Clarkson Coresets, sparse greedy approximation, and the frank- wolfe algorithm ACM Transactions on Algorithms (TALG), 6(4):1–30, 2010.
[10] Andrew M Dai and Amos J Storkey The supervised hierarchical dirichlet process IEEE Transactions on Pattern Analysis and Machine Intelligence,
Rajarshi Das, Manzil Zaheer, and Chris Dyer presented a novel approach to topic modeling using Gaussian Latent Dirichlet Allocation (LDA) integrated with word embeddings Their research was showcased in the proceedings of the 53rd Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, highlighting advancements in natural language processing techniques The findings, detailed in pages 795 to 804 of the conference volume published in 2015, emphasize the effectiveness of combining Gaussian LDA with word embeddings for improved topic modeling.
[12] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova Bert: Pre-training of deep bidirectional transformers for language understanding.
[13] Rong-En Fan, Kai-Wei Chang, Cho-Jui Hsieh, Xiang-Rui Wang, and Chih- Jen Lin Liblinear: A library for large linear classification Journal of Ma- chine Learning Research, 9(Aug):1871–1874, 2008.
[14] Stuart Geman and Donald Geman Stochastic relaxation, gibbs distributions, and the bayesian restoration of images In Readings in Computer Vision, pages 564–584 Elsevier, 1987.
[15] W Keith Hastings Monte carlo sampling methods using markov chains and their applications Biometrika, 57(1):97–109, 1970.
[16] Thomas Hoffman Probabilistic latent semantic indexing Annual inter- national conference on Research and development in information retrieval,
[17] Thomas Hofmann Unsupervised learning by probabilistic latent semantic analysis Machine learning, 42(1-2):177–196, 2001.
[18] Jeremy Howard and Sebastian Ruder Universal language model fine-tuning for text classification InProceedings of the 56th Association for Computa- tional Linguistics, volume 1, pages 328–339, 2018.
[19] Armand Joulin, Edouard Grave, Piotr Bojanowski, and Tomas Mikolov Bag of tricks for efficient text classification In Association for Computational Linguistics, 2017.
Angelos Katharopoulos and colleagues presented a fast supervised LDA method aimed at identifying micro-events within extensive video datasets Their research was showcased at the 24th ACM International Conference on Multimedia, highlighting innovative approaches in video analysis and event discovery.
Dongwoo Kim, Suin Kim, and Alice Oh presented a nonparametric topic model for labeled data using a Dirichlet process with mixed random measures Their research was featured in the proceedings of the 29th International Conference on Machine Learning, highlighting innovative approaches in machine learning methodologies.
[22] Sicong Kuang and Brian D Davison Class-specific word embedding through linear compositionality InIEEE International Conference on Big Data andSmart Computing, pages 390–397 IEEE, 2018.
[23] Simon Lacoste-Julien, Fei Sha, and Michael I Jordan Disclda: Discriminative learning for dimensionality reduction and classification In Neural Informa- tion Processing Systems, pages 897–904, 2009.
[24] Daniel D Lee and H Sebastian Seung Algorithms for non-negative matrix factorization In Neural Information Processing Systems, pages 556–562,
Dbpedia is a comprehensive, multilingual knowledge base derived from Wikipedia, as detailed by Jens Lehmann and colleagues in their 2015 publication in Semantic Web This large-scale resource facilitates the extraction and organization of structured data from the vast information available on Wikipedia, enhancing accessibility and usability for semantic web applications.
[26] Li-Ping Liu and David M Blei Zero-inflated exponential family embeddings.
In Proceedings of the 34th International Conference on Machine Learning, volume 70 ofPMLR, pages 2140–2148, 2017.
[27] Yang Liu, Zhiyuan Liu, Tat-Seng Chua, and Maosong Sun Topical word embeddings InAAAI Conference on Artificial Intelligence, 2015.
[28] Laurens van der Maaten and Geoffrey Hinton Visualizing data using t-sne.
Journal of machine learning research, 9(Nov):2579–2605, 2008.
[29] Jon D Mcauliffe and David M Blei Supervised topic models In Neural Information Processing Systems, pages 121–128, 2008.
[30] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositional- ity InAdvances in neural information processing systems, pages 3111–3119,
In their 1998 paper, "Latent Semantic Indexing: A Probabilistic Analysis," authors Christos H Papadimitriou, Hisao Tamaki, Prabhakar Raghavan, and Santosh Vempala explore the principles of latent semantic indexing (LSI) within the context of database systems Presented at the seventeenth ACM SIGACT-SIGMOD-SIGART symposium, this work provides a comprehensive probabilistic framework for understanding LSI, highlighting its significance in enhancing information retrieval and data organization.
[32] Jeffrey Pennington, Richard Socher, and Christopher Manning Glove: Global vectors for word representation In Proceedings of the 2014 conference on Empirical Methods in Natural Language Processing, pages 1532–1543, 2014.
[33] Matthew E Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, ChristopherClark, Kenton Lee, and Luke Zettlemoyer Deep contextualized word repre- sentations InProc of NAACL, 2018.
[34] Maja Rudolph and David Blei Dynamic embeddings for language evolution.
In Proceedings of the 2018 WWW Conference, pages 1003–1011 IW3C2,
[35] Lutfi Kerem Senel, Ihsan Utlu, Veysel Yucesoy, Aykut Koc, and Tolga Cukur. Semantic structure and interpretability of word embeddings IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018.
[36] Dinghan Shen, Guoyin Wang, Wenlin Wang, Martin Renqiang Min, Qinliang
In their 2018 paper presented at the 56th Association for Computational Linguistics, Su, Yizhe Zhang, Chunyuan Li, Ricardo Henao, and Lawrence Carin emphasize the importance of enhancing baseline models in natural language processing They explore the effectiveness of simple word-embedding-based models and the pooling mechanisms associated with them, arguing that these foundational approaches deserve more attention and refinement Their research highlights the potential of improving these models to achieve better performance in various linguistic tasks.
[37] David Sontag and Dan Roy Complexity of inference in latent dirichlet allo- cation InAdvances in neural information processing systems, pages 1008–
[38] Duyu Tang, Furu Wei, Bing Qin, Nan Yang, Ting Liu, and Ming Zhou Senti- ment embeddings with applications to sentiment analysis.IEEE Transactions on Knowledge and Data Engineering, 28(2):496–509, 2015.
[39] Yee Whye Teh, Michael I Jordan, Matthew J Beal, and David M Blei Hier- archical dirichlet processes Journal of the American Statistical Association,
[40] Khoat Than and Tu Bao Ho Fully sparse topic models In The European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, pages 490–505 Springer, 2012.
[41] Khoat Than, Tu Bao Ho, and Duy Khuong Nguyen An effective framework for supervised dimension reduction Neurocomputing, 139:397–407, 2014.
[42] Joseph Turian, Lev Ratinov, and Yoshua Bengio Word representations: a simple and general method for semi-supervised learning In Association for Computational Linguistics, pages 384–394, 2010.
[43] Ngo Van Linh, Nguyen Kim Anh, Khoat Than, and Chien Nguyen Dang An effective and interpretable method for document classification Knowledge and Information Systems, 50(3):763–793, 2017.
Chong Wang, John Paisley, and David Blei presented their work on online variational inference for the hierarchical Dirichlet process at the Fourteenth International Conference on Artificial Intelligence and Statistics Their research, detailed in pages 752 to 760 of the proceedings, explores innovative methods for improving inference techniques in statistical modeling.