Mụ hỡnh tập thụ dung sai trong biểu diễn văn bả n- 123docz.net

Document Clustering[1][7][8] là một phương phỏp hữu hiệu trong bài toỏn phỏt hiện tri thức từ cơ sở dữ liệu văn bản. Chất lượng của document clustering

khụng những phụ thuộc vào chớnh cỏc giải thuật clustering mà cũn do cỏc mụ hỡnh biểu diễn tài liệu quyết định. Trong chương 3 ta đĩ trỡnh bày một số phương phỏp biểu diễn tài liệu thường được ỏp dụng trong cỏc kỹ thuật khai phỏ dữ liệu văn bản. Trong phần này ta sẽ trỡnh bày tiếp một phương phỏp biểu diễn tài liệu khỏc dựa vào

mụ hỡnh tập thụ dung sai (Tolerance Rough Set Model – TRSM), mụ hỡnh này cho phộp ta xem xột vấn đề liờn quan ngữ nghĩa giữa cỏc tài liệu. Trong chương 2 ta đĩ

đề cập đến mụ hỡnh TRSM, do vậy ởđõy ta khụng trỡnh bày lại nú nữa mà ứng dụng nú trong việc biểu diễn tài liệu và cỏc giải thuật liờn quan.

Ta dựng cỏc kớ hiệu sau:

• D là tập M tài liệu thu thập được

• T là tập N thuật ngữ chỉ mục trớch xuất được từD

• Mỗi tài liệu dj∈D được ỏnh xạ sang một danh sỏch cỏc thuật ngữ ti

cựng với trọng số của nú trong tài liệu, như vậy dj = (t1j, w1j; t2j, w2j; …; trj, wrj) với wi,j∈[0, 1].

Sau đú mụ hỡnh TRSMđược sử dụng để tăng cường việc biểu diễn tài liệu thụng qua việc sử dụng cỏc thuật ngữ cú liờn quan về mặt ngữ nghĩa được tạo ra bởi cỏc lớp dung sai của cỏc thuật ngữ trong T và cỏc xấp xỉ của cỏc tài liệu. Cỏc thuật ngữ được xem xột tốt hơn bằng cỏch sử dụng cỏc lớp phủ lờn nhau, cỏc lớp này cú thể được tạo ra bằng quan hệ dung sai R (với cỏc tớnh chất phản xạ và đối xứng) trong một tập vũ trụU thay vỡ việc sử dụng quan hệ tương đương (với cỏc tớnh chất phản xạ, đối xứng và bắc cầu) trong mụ hỡnh tập thụ truyền thống. Để hỡnh thức húa cỏc lớp dung sai của cỏc thuật ngữ, ta đưa ra cỏc cụng thức vềco-occurrence (đồng xuất hiện) của cỏc thuật ngữ trong tập tài liệu D. Cụ thể như sau:

• fd (ti)

• fD(ti): số tài liệu trong D chứa thuật ngữti

• fD(ti, tj): số tài liệu trong D chứa đồng thời thuật ngữtivà tj Ta định nghĩa tiếp một uncertain function I phụ thuộc vào ngưỡng θ như sau:

Rừ ràng hàm Iθ(ti)ở trờn thỏa mĩn điều kiện ti ∈Iθ(ti); tj∈Iθ(ti)khi và chỉ khi

ti∈Iθ(tj) với bất kỳ ti, tj∈T và hàm Iθthỏa mĩn tớnh phản xạ và đối xứng. Như vậy hàm Iθ tương ứng với một quan hệ dung sai I ⊆TìT với tiI tj khi và chỉ khi tjI ii; vậyIθ(ti)là lớp dung sai của thuật ngữti.

Inclusion function ν(hàm chứa) dựng để xỏc định mức độ tập X được chứa trong tập Y như sau: X Y X Y X = ∩ ) , ( ν

Hàm thành viờn àđối với ti∈T , X⊆ Tđược định nghĩa như sau:

) ( ) ( ) ), ( ( ) , ( i i i i t I X t I X t I X t θ θ θ ν à = = ∩

Với cỏc định nghĩa ở trờn, ta đưa ra một khụng gian dung sai R = (T, I, ν, P) trong

đú xấp xỉ dưới và xấp xỉ trờn trong R của bất cứ tập con X ⊆T lần lượt như sau:

Thuật ngữti trong tài liệu djđược gỏn trọng số như sau, trước hết:

Phương phỏp gỏn trọng số này được mở rộng để gỏn trọng số cho cỏc thuật ngữ nằm trong xấp xỉ trờn U(R, dj) của tài liệu dj, nú đảm bảo rằng mỗi thuật ngữ thuộc về

xấp xỉ trờn của dj nhưng khụng thuộc dj sẽ cú trọng số bộ hơn trọng số của cỏc thuật ngữ trong dj:

Chuẩn húa chiều dài vector sau đú được ỏp dụng cho xấp xỉ trờn của dj và

được thực hiện khi xem xột một tập cỏc thuật ngữ. Phần tiếp theo ta sẽ giới thiệu 2 giải thuật document clustering sử dụng mụ hỡnh tập thụ dung sai trong biểu diễn văn bản.

Mụ hỡnh tập thụ dung sai trong biểu diễn văn bả n

Phõn loại cỏc phương phỏp Clustering

Một số phương phỏp Clustering