Trọng số từ

Một phần của tài liệu Phân cụm tập kết quả tìm kiếm web theo cách tiếp cận phân tích ngữ nghĩa tiềm ẩn và fisher kernel (Trang 32)

Nếu chỳng ta xem việc trớch chọn từ là phương thức toàn cục phõn biệt nghĩa của từng từ trong khi diễn tả tài liệu, thỡ cú thể xem phương phỏp trọng số là cỏch tiếp cận cục bộ xỏc định mức độ quan trọng của mỗi từ đối với tài liệu.

Cỏc phƣơng phỏp trọng số:

Phương phỏp trọng số nhị phõn: gỏn giỏ trị 1 đối với những từ xuất hiện trong tài liệu và giỏ trị 0 khi nú khụng xuất hiện.

Phương phỏp trọng số theo tần số xuất hiện: trọng số chớnh là tần số xuất hiện thực sự của từ trong tài liệu

dij = tfij , CT 3.1

trong đú tfij là tần số xuất hiện của từ j trong tài liệu di

Phương phỏp trọng số TF*IDF (term – frequency – inverse document frequency): gọi t1, t2,…., tm là số từ được trớch trọn trong tập D và d1, d2,…., dn là tập tài liệu. Theo phương phỏp TF*IDF, trọng số của mỗi từ tj trong tài liệu di được định nghĩa như sau:

wi,j = tfij * log(n/dfi) , CT 3.2

trong đú,

 tfij là số lần xuất hiện của từ tj trong tài liệu di  dfi là số tài liệu trong tập D cú chứa từ tj

Phương phỏp này và cỏc phiờn bản cải tiến của nú thường hay được sử dụng. Thực chất theo TF*IDF những từ xuất hiện thường xuyờn trong tài liệu

(nhõn tố TF) thỡ quan trọng hơn những từ chỉ xuất hiện một vài lần. Tuy nhiờn, những từ thường xuất hiện trong hầu hết tập tài liệu thỡ ớt hữu ớch trong phõn biệt nội dung ngữ nghĩa giữa cỏc tài liệu, vỡ vậy sử dụng nhõn tố IDF để làm giảm vai trũ của những từ này.

3.1.2 Độ đo tƣơng tự giữa cỏc tài liệu

Với cỏch biểu diễn tập tài liệu theo mụ hỡnh khụng gian vectơ, người ta thường hay sử dụng cỏc độ đo sau để đo độ tương tự giữa cỏc vectơ tài liệu (Bảng 3.1)

Nhận xột:

Một vấn đề khụng thể trỏnh khỏi khi biểu diễn tập tài liệu theo mụ hỡnh khụng gian vectơ đú là hiện tượng sparse hay cũn được biết đến là vấn đề tần số 0. Tức là, chỉ cú một số ớt phần tử trong ma trận là khỏc 0 (thường chỉ dưới 1%). Thực tế như vậy là vỡ, mỗi tài liệu trong D thường chỉ sử dụng rất ớt từ trong tập W. Điều này dẫn đến hậu quả là, nếu chỳng ta sử dụng cỏc độ đo trờn để đo độ tương tự giữa cỏc tài liệu thỡ kết quả sẽ khụng chớnh xỏc vỡ khả năng cựng sử dụng từ giống nhau giữa cỏc tài liệu là rất thấp, thậm chớ ngay cả cỏc tài liệu cựng chủ đề. Do vậy theo cỏc cụng thức tớnh trờn thỡ khụng thể cho được kết quả chớnh xỏc về mức độ tương tự giữa cỏc tài liệu. Thứ nhất, đỏnh giỏ thấp về mức độ tương tự giữa hai tài liệu mặc dự trong thực tế là chỳng khỏ tương tự, nguyờn nhõn do từ đồng nghĩa. Thứ hai, nú lại đỏnh giỏ cao về mức độ tương tự giữa cỏc tài liệu dự rằng trong thực tế là chỳng khỏ khỏc nhau, nguyờn nhõn do từ đa nghĩa.

Do đú để khắc phục những vấn đề trờn, người ta đó đưa ra một phương thức biểu diễn tài liệu mới, đú là biểu diễn theo khụng gian khỏi niệm tiềm ẩn bờn trong tập tài liệu và xõy dựng hàm Fisher Kernel để đo mức độ tương tự giữa cỏc tài liệu.

Độ đo tƣơng tự Sim(X,Y)

Đỏnh giỏ theo vectơ trọng số

Đỏnh giỏ theo vectơ trọng số Tớch trong XY   t i i iy x 1 Hệ số gúc Y X Y X   2        t i t i i i t i i i y x y x 1 1 2 2 1 2 Hệ số cosin 1/2 1/2 Y X Y X          t i t i i i t i i i y x y x 1 1 2 2 1 Hệ số Jaccard Y X Y X Y X               t i t i t i i i i i t i i i y x y x y x 1 1 1 2 2 1

Bảng3.1 Một số phộp đo độ tương tự giữa hai vectơ tài liệu X, Y. Trong đú, xi, yi là trọng số thành phần thứ i của vectơ

3.2 Phõn tớch ngữ nghĩa tiềm ẩn (Latent Semantic Analysis - LSA)

Như trờn đó thảo luận, khi biểu diễn tài liệu theo mụ hỡnh khụng gian vectơ và sử dụng cỏc độ đo tương tự (bảng 3.1) để đo mức độ tương đồng giữa cỏc tài liệu thỡ kết quả sẽ khụng chớnh xỏc, nguyờn nhõn do vấn đề từ đồng nghĩa và từ đa nghĩa. Vỡ vậy trong phần này, tụi xin trỡnh bày cỏch khắc phục những vấn đề trờn bằng cỏch xõy dựng hàm độ đo tương tự Fisher Kernel dựa trờn LSA.

3.2.1 Đặc điểm ngụn ngữ tự nhiờn

Bất cứ ai trong chỳng ta cũng đều biết, ngụn ngữ tự nhiờn rất đa dạng và phong phỳ, trong đú chứa đựng rất nhiều từ đồng nghĩa và từ đa nghĩa. Theo quan niệm truyền thống, từ đồng nghĩa là những từ cú nghĩa gần nhau hay giống nhau. Theo quan niệm hiện đại, dựa vào tương quan ngữ cảnh, một số tỏc giả cho rằng từ đồng nghĩa là từ cú thể thay thế được cho nhau trong những ngữ cảnh giống nhau mà ý nghĩa chung của cõu về cơ bản là khụng thay đổi. Dựa vào nghĩa biểu vật và sự vật, hiện tượng được gọi tờn cho rằng từ đồng nghĩa là những từ cú nghĩa giống nhau; là những từ khỏc nhau cựng chỉ một sự vật, một đặc tớnh, một hành động nào đú; là những tờn khỏc nhau của một hiện tượng. Dựa vào nghĩa biểu niệm và khỏi niệm, trong hệ thống ngụn ngữ, núi đến hiện tượng đồng nghĩa là phải núi đến sự giống nhau của cỏc nghĩa sở biểu. Trong luận văn này, để thống nhất tụi quan niệm từ đồng nghĩa là những từ gần nhau về nghĩa, nhưng khỏc nhau về õm thanh, biểu thị cỏc sắc thỏi của một khỏi niệm. Như vậy cú thể quan niệm về từ đồng nghĩa như sau: từ đồng nghĩa là những từ cú hỡnh thức ngữ õm khỏc nhau nhưng cú quan hệ tương đồng về nghĩa biểu niệm. Trong khi đú từ đa nghĩa là những từ sử dụng vỏ ngữ õm giống nhau để biểu thị những ý nghĩa khỏc nhau. Hoặc núi cỏch khỏc, từ đa nghĩa là từ cú nhiều hơn một nghĩa phõn biệt. Do vậy, mặc dự cựng sử dụng một từ nhưng trong những hoàn cảnh khỏc nhau thỡ cú thể hiểu theo những nghĩa khỏc nhau tựy thuộc vào hoàn cảnh.

Vỡ những lớ do trờn nờn cú rất nhiều cỏch khỏc nhau để diễn tả một chủ đề. Chớnh vỡ vậy mà khụng nhất thiết hai tài liệu phải cựng sử dụng từ miờu tả giống nhau mới được đỏnh giỏ là tương tự nhau hoặc là cú cựng chủ đề. Vậy làm thế nào để cú thể đỏnh giỏ đỳng về mối quan hệ giữa hai tài liệu thụng qua cỏc từ sử dụng trong chỳng, đõy là một vấn đề đang được nhiều nhà nghiờn cứu quan tõm. Trong thực tế đời sống, vấn đề này được giải quyết rất

đơn giản bằng cỏch xột nghĩa của từ theo ngữ cảnh cụ thể hoặc theo khỏi niệm. Do vậy, để cho mỏy tớnh cũng cú thể hiểu đỳng như con người, cỏc nhà nghiờn cứu cũng đó cố gắng đưa ra cỏc mụ hỡnh phự hợp. LSA là một trong những mụ hỡnh được sử dụng phổ biến [25, 26, 29, 23]. Với mụ hỡnh này cỏc vấn đề từ đồng nghĩa và từ đa nghĩa được giải quyết một cỏch thỏa đỏng.

3.2.2 í tƣởng LSA

Xuất phỏt từ lập luận, trong tập tài liệu luụn tồn tại cỏc khỏi niệm ngữ nghĩa tiểm ẩn mà phương phỏp phõn tớch ngữ nghĩa tiềm ẩn đó ra đời. Cú thể hiểu, phõn tớch ngữ nghĩa là đưa ra cỏch “hiểu” văn bản qua mối liờn quan ngữ nghĩa của văn bản với tập khỏi niệm cho trước. Khỏi niệm là ý chung và trừu tượng về một vật, do hoạt động của trớ tuệ tạo nờn qua cỏc kinh nghiệm đỳc kết thành. Cỏc khỏi niệm này biểu thị nghĩa thụng qua tập từ khúa sử dụng trong nú. Vớ dụ, khi núi đến “bệnh viện” thỡ ta nghĩ ngay đến bỏc sĩ, y tỏ, bệnh nhõn, thuốc, v.v...

Vậy LSA là gỡ? Phỏt biểu một cỏch hỡnh thức, LSA là kĩ thuật chuyển đổi ma trận gốc biểu diễn quan hệ giữa cỏc từ với cỏc tài liệu thành ma trận biểu diễn quan hệ giữa cỏc từ với cỏc khỏi niệm, và ma trận biểu diễn quan hệ giữa cỏc khỏi niệm với cỏc tài liệu. Sau khi chuyển đổi, từ và tài liệu quan hệ giỏn tiếp với nhau thụng qua cỏc khỏi niệm. Với cỏch biểu diễn này ngay cả những tài liệu khụng cựng sử dụng từ miờu tả nội dung vẫn cú thể được đỏnh giỏ là tương tự nhau.

LSA thực hiện được phộp biến đổi trờn là nhờ vào kĩ thuật thống kờ và suy diễn theo cỏc từ sử dụng trong cỏc đoạn văn của cỏc tài liệu. Hay núi cỏch khỏc, LSA là phương phỏp trớch chọn và biểu diễn quan hệ từ - tài liệu theo cỏc khỏi niệm ngữ nghĩa nhờ vào phương phỏp thống kờ toỏn học (Landauer and Dumais, 1997), cụ thể hơn là dựa trờn kĩ thuật phõn tớch trị đặc biệt (adsbygoogle = window.adsbygoogle || []).push({});

(Singular Value Decomposition - SVD)[13].

Dựa trờn cơ sở lớ thuyết thống kờ toỏn và đại số tuyến tớnh, LSA cú thể phõn tớch, suy luận và rỳt ra được cỏc khỏi niệm tiềm ẩn bờn trong tập tài liệu. Điểm nổi bậc của LSA là phương thức học nghĩa của từ giống như cỏch học của cỏc trẻ lờn ba lờn bốn. Tức là học thụng qua quan sỏt cỏch sử dụng từ trong từng hoàn cảnh cụ thể, hoàn toàn khụng qua cỏc định nghĩa tường minh. Do vậy mà khụng cần phải sử dụng thờm bất kỳ kiến thức nào, vớ dụ từ điển, WorldNet v.v… Một điều ngạc nhiờn hơn nữa, nhỡn chung kết quả học của LSA tốt hơn so với con người. Sở dĩ như vậy là vỡ việc hiểu nghĩa của con người phụ thuộc nhiều vào tri thức của từng người cụ thể.

3.2.3 Mục tiờu LSA

Mục tiờu của LSA là giảm số chiều n của khụng gian thuộc tớnh. Để thực hiện mục tiờu này nú thực hiện ỏnh xạ khụng gian vectơ từ (cú số chiều rất lớn) vào khụng gian khỏi niệm (cú số chiều ớt hơn nhiều). Thực chất phộp ỏnh xạ này là ỏnh xạ cỏc từ thường xuyờn xuất hiện cựng nhau vào cựng một vectơ. Ngoài ra ta cú thể hiểu, LSA là kĩ thuật biến đổi trực giao nhằm mục đớch tỏch cỏc thành phần độc lập (tỏch theo cỏc khỏi niệm).

3.2.4 Kĩ thuật LSA

3.2.4.1 Biểu diễn tập tài liệu dưới dạng bảng co_occurrence

Theo phương phỏp thống kờ toỏn, mỗi tài liệu cú thể được biểu diễn rỳt gọn thụng qua tần số xuất hiện của từ trong tài liệu. Bỏ qua trật tự xuất hiện của cỏc từ, tập tài liệu D = {d1, d2,…., dN} chứa tập từ W = { w1, w2,…,wM}, cú thể được biểu diễn dưới dạng bảng co_occurrence kớch thước MxN. Giỏ trị phần tử [j, i] của bảng là tần số xuất hiện của từ wj trong tài liệu di , kớ hiệu n(wj, di) .

Bảng co_occurrence cú thể viết dưới dạng sau: N = (n(wj, di))j,i được gọi là ma trận từ - tài liệu. Trong đú, hàng biểu diễn cỏc tài liệu, cột biểu diễn cỏc từ trong tập tài liệu, mỗi phần tử n(wj, di) trong bảng là số lần từ wj được sử dụng trong tài liệu di.

3.2.4.2 SVD

Như trờn đó trỡnh bày, LSA sử dụng kĩ thuật SVD với mục đớch xỏc định cỏc khỏi niệm ẩn bờn trong tập tài liệu. Vậy SVD là gỡ mà cú thể thực hiện được cụng việc này?

SVD là kĩ thuật phõn tớch trị đặc biệt của ma trận dựa trờn cơ sở toỏn đại số và thống kờ, chi tiết hơn là nú sử dụng kĩ thuật phõn tớch vectơ riờng, phõn tớch trị riờng và phõn tớch thừa số. Phương phỏp này được đỏnh giỏ là thớch hợp trong xử lớ ngụn ngữ tự nhiờn.

Sơ khởi ban đầu, kĩ thuật phõn tớch này được ỏp dụng cho mụ hỡnh one- mode, nghĩa là cỏc ma trận biểu diễn cỏc đối tượng cựng kiểu, chẳng hạn ma trận tài liệu – tài liệu. Mục đớch biểu diễn theo ma trận dạng này là để đỏnh giỏ mối quan hệ tương tự giữa cỏc tài liệu, hoặc để đo mức độ sử dụng chung từ vựng giữa cỏc cặp tài liệu. Quỏ trỡnh phõn tớch ma trận vuụng kiểu này cũn được gọi là phõn tớch trị riờng “Eigen-analysis”, và khi đú kết quả thu được là hai ma trận cú cấu trỳc đặc biệt. Một là, ma trận trị riờng (eigenvalues) cú dạng ma trận chộo; hai là, ma trận vectơ riờng (eigenvectors) tương ứng với từng trị riờng. Đặc biệt, cỏc vectơ thành phần của hai ma trận là độc lập. Nhỡn chung, nhiều vectơ thành phần của hai ma trận này cú giỏ trị rất nhỏ, và do đú cú thể được bỏ qua tạo nờn ma trận xấp xỉ ớt vectơ thành phần hơn so với ma trận đầu.

Tuy nhiờn trong thực tế phỏt sinh, khụng phải lỳc nào SVD cũng chỉ ỏp dụng cho mụ hỡnh one-mode mà cũn được ỏp dụng cho mụ hỡnh two-mode;

nghĩa là khụng chỉ ỏp dụng cho ma trận vuụng đối xứng giữa cặp cỏc đối tượng cựng kiểu mà cũn ỏp dụng cho ma trận chữ nhật với cỏc đối tượng khỏc nhau trờn cỏc hàng và cỏc cột, vớ dụ ma trận từ - tài liệu. Do đú để cú thể ỏp dụng cho ma trận chữ nhật kĩ thuật này được sửa đổi thành phõn tớch trị đặc biệt “Singular Value Decomposision - SVD”. Khi thực hiện quỏ trỡnh SVD trờn ma trận hỡnh chữ nhật thu được ba ma trận cú cấu trỳc đặc biệt. Một ma trận chộo trị đặc biệt (singular values) và hai ma trận vectơ đặc biệt (singular vectors) tương ứng với từng trị đặc biệt. Giống như trong mụ hỡnh one-mode cỏc vectơ thành phần của cỏc ma trận là độc lập. Và cú nhiều vectơ thành phần cú giỏ trị rất nhỏ, do đú cú thể bỏ qua cỏc vectơ thành phần này tạo nờn cỏc ma trận xấp xỉ chứa ớt vectơ thành phần hơn so với ma trận đầu. Sau đú để tớnh mức độ tương tự giữa từ - từ, tài liệu – tài liệu, từ - tài liệu thỡ sử dụng cỏc ma trận xấp xỉ này.

Theo quan sỏt ở trờn, dễ dàng nhận thấy rằng trong quỏ trỡnh SVD lại phỏt sinh thờm vấn đề chọn hạng k như thế nào để cú thể xõy dựng được ma

trận xấp xỉ tốt nhất của ma trận ban đầu. Với giả thiết là dữ liệu trong ma trận ban đầu bị nhiễu, khụng tin cậy nờn khụng cần xõy dựng ma trận xấp xỉ chớnh xỏc bằng ma trận A ban đầu. Do vậy, việc chọn giỏ trị k chỉ phụ thuộc vào số

khỏi niệm cú nghĩa trong tập tài liệu. Nếu giỏ trị k là quỏ bộ thỡ cú thể một vài khỏi niệm ẩn bờn trong tập tài liệu bị mất. Ngược lại, nếu giỏ trị k quỏ lớn thỡ vấn đề khử nhiễu khụng được thực hiện tốt.

Túm lại, với bài toỏn phõn loại tài liệu LSA cú thể được xem là kĩ thuật phõn loại tài liệu theo cỏc khỏi niệm ẩn bờn trong tập tài liệu gốc ban đầu nhờ quỏ trỡnh SVD.

3.2.4.2.1 Cơ sở toỏn học

và rank(A) = r, khi đú SVD của A được định nghĩa như sau:

A = UVT CT 3.3

trong đú:

 UTU = VTV = In và  = diag (1, 2,…., n), i > 0 với 1 < i < r, i = 0 với j > r + 1.

 r cột đầu của ma trận trực giao U và V là cỏc vectơ riờng trực giao tương ứng với r trị riờng khỏc 0 của AAT

và ATA .  là ma trận vuụng chộo xỏc định dương, giỏ trị của cỏc phần tử trong nú bằng căn bậc hai cỏc trị riờng của ma trận AAT

. Do vậy, cỏc cột của ma trận U là cỏc vectơ đặc biệt bờn trỏi, cũn cỏc cột của ma trận V là cỏc vectơ đặc biệt bờn phải [10].

Hai định lớ quan trọng dưới đõy được sử dụng để giải thớch kĩ thuật SVD khai phỏ thụng tin quan trọng ẩn bờn trong ma trận.

Định lớ 1: Thực hiện SVD ma trận A theo cụng thức 3.3 và cú 1 > 2 >

Một phần của tài liệu Phân cụm tập kết quả tìm kiếm web theo cách tiếp cận phân tích ngữ nghĩa tiềm ẩn và fisher kernel (Trang 32)