Xuất hai giải phỏp xử lý vấn đề đồng nghĩa trong tiếng Việt

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung saii (Trang 100 - 102)

Trong phần này, tỏc giả xin đề xuất hai giải phỏp để giải quyết một bài toỏn liờn quan đến vấn đềđồng nghĩa trong tiếng Việt. Bài toỏn này được phỏt biểu như sau: “cho một thuật ngữ trong tiếng Việt, ký hiệu là T và một tập gồm l thuật ngữ khỏc lần lượt là X1, X2, …, Xl , cần xỏc định thuật ngữ Xi nào cú nghĩa gần giống nhất với T”.

Gii phỏp th nht:

Bước 1: Sử dụng mụ hỡnh TRSM [5] [6] để xỏc định trọng số cho cỏc thuật ngữ, ký hiệu wij là trọng số của thuật ngữ i trong tài liệu j; nếu i

thuộc xấp xỉ trờn của j thỡ wij ≠0, ngược lại thỡ wij = 0.

Bước 2: Xõy dựng ma trận thuật ngữ - tài liệu (term by context matrix), ký hiệu là WEIGHT cú kớch thước N ì M với N là tổng số thuật ngữ, M là tổng số tài liệu thu thập được. Mỗi dũng của WEIGHT biểu diễn một vector thuật ngữ, mỗi cột của WEIGHT biểu diễn một vector tài liệu,

WEIGHT[i, j] biểu diễn trọng số của thuật ngữ i trong tài liệu j như đĩ xỏc định được ở trờn.

Bước 3: Thực hiện phõn tớch SVD cho ma trận WEIGHT, kết thỳc bước này ta thu được: WEIGHT = U * S * VT, ở đõy UV lần lượt là cỏc vector riờng bờn trỏi và bờn phải của WEIGHT, VT là ma trận chuyển vị của V; S là trị riờng của WEIGHT. Nếu ma trận WEIGHT cú hạng là r thỡ ma trận S cũng cú hạng là r.

Bước 4: Loại bỏ cỏc giỏ trị riờng bằng 0 trong S và loại bỏ cỏc dũng tương ứng trong UV; như vậy nếu bỏ đi r-k giỏ trị riờng bằng 0 trong

S thỡ hạng của S sẽ là k và ma trận ban đầu sẽ được xấp xỉ trong một khụng gian mới cú số chiều ớt hơn với hạng cũng bằng k.

Bước 5: Gọi RECONSTRUCT = U * S, như vậy RECONSTRUCT là ma trận mà mỗi dũng của nú đặc trưng cho một vector thuật ngữ trong khụng gian cú số chiều đĩ giảm xuống, khụng gian này cú số chiều bằng kr.

Bước 6: Xõy dựng ma trận SIMAT xỏc định độ tương tự giữa 2 thuật ngữ sử dụng hệ sốđo độ tương tự cosine, như vậy SIMAT[i, j] là độ tương tự giữa 2 vector biểu diễn thuật ngữ ij trong khụng gian đĩ rỳt gọn (tương ứng là cỏc dũng thứ ij trong ma trận RECONSTRUCT đĩ tỡm ra ở bước trờn).

Bước 7: Xỏc định thuật ngữXicú nghĩa gần với thuật ngữT nhất dựa vào ma trận SIMAT (tức là cú độ tương tự lớn nhất).

Gii phỏp th hai:

Bước 1: Sử dụng mụ hỡnh TRSM để biểu diễn văn bản và thực hiện

clustering cỏc văn bản đầu vào thành K cluster theo giải thuật non- hierarchical nhưđĩ trỡnh bày ở phần 4.2.2. Gọi C1, C2, … CKK cluster được tạo ra từ việc clustering tập cỏc văn bản; Gọi T1, T2, … THH

thuật ngữ dựng để biểu diễn cỏc cluster đú (H là một tập con của tập gồm

N cỏc thuật ngữ ban đầu).

Bước 2: Từ tập H cỏc thuật ngữ biểu diễn cluster và tập K cỏc cluster ta tiến hành xõy dựng ma trận thuật ngữ-cluster, ký hiệu là TeClu; trong đú

TeClu[i, j] là trọng số của thuật ngữ i trong cluster j đĩ được xỏc định từ bước clusteringở trờn.

Bước 3: Sau khi cú ma trận TeClu, ta tiến hành phõn tớch SVD cho nú, như vậy: TeClu = U * S * VT; ởđõy U là ma trận riờng (gọi là cỏc vector riờng bờn trỏi hoặc ma trận trỏi) của TeClu đặc trưng cho tập cỏc thuật ngữ, mỗi dũng của nú là một vector biểu diễn một thuật ngữ trong khụng gian đĩ được rỳt gọn; S là trị riờng của TeClu; VT là ma trận đặc trưng cho cỏc cluster (gọi là cỏc vector riờng bờn phải hoặc ma trận phải). Kết

thỳc quỏ trỡnh SVD này ta thu được ma trận S kớch thước LìL, ma trận U

kớch thước HìL, ma trận VT kớch thước LìK.

Bước 4: Loại bỏ cỏc trị riờng bằng 0 trong S và loại bỏ cỏc dũng tương ứng trong UV.

Bước 5: Gọi RECONSTRUCT = U * S

Bước 6: Tiến hành xõy dựng ma trận đo độ tương tự (similary matrix) cho cỏc thuật ngữ, ký hiệu là SIMAT; SIMAT cú kớch thước HìH và mỗi phần tử của nú SIMAT[i, j] là độ tương tự (tớnh bằng hệ số cosin) của 2 vector tương ứng là dũng thứ i và dũng thứ j của ma trận

RECONSTRUCT.

Bước 7: Xỏc định thuật ngữXicú nghĩa gần với thuật ngữT nhất dựa vào ma trận SIMAT (tức là cú độ tương tự lớn nhất).

Một bài toỏn cũng cần phải được nhắc đến ởđõy đú là clustering cỏc thuật ngữ. Đến

bước 5 của giải phỏp thứ nhất, nếu tiến hành clustering cỏc thuật ngữ thỡ ta cú thể thu được cỏc cluster mà cỏc thuật ngữ trong đú là “giống nhau” và ta cú thể tựđộng tỡm ra sựđồng nghĩa của cỏc từ bằng cỏch xem xột cỏc cluster. Trong luận văn này, tỏc giả tập trung giải quyết bài toỏn đĩ nờu ở phần đầu của phần đang trỡnh bày, tuy nhiờn bài toỏn clustering thuật ngữ vẫn được tớnh đến trong cỏc hướng phỏt triển trong tương lai.

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung saii (Trang 100 - 102)

Tải bản đầy đủ (PDF)

(127 trang)