Thuật toỏn TRC

Một phần của tài liệu Ứng dụng tập thô vào tìm kiếm Web (Trang 63)

Thuật toỏn phõn cụm TRC (Tolerance Rough Clustering) cơ bản dựa trờn thuật toỏn Seeded - KMeans được giới thiệu ở trờn; do vậy thuật toỏn đảm bảo hoạt động tương đối nhanh (phự hợp với phõn cụm kết quả online) trong khi vẫn đảm bảo được chất lượng của cỏc cụm. Việc sử dụng khụng gian dung sai và xấp xỉ trờn để tăng mối quan hệ giữa cỏc tài liệu và giữa tài liệu với cụm cho phộp thuật toỏn phỏt hiện ra sư tương tự khú phỏt hiện mà cỏc thuật toỏn khỏc khụng làm được. Như đó đề cập, trong phõn cụm kết quả tỡm kiếm, việc gỏn nhón tốt cũng quan trọng như chất lượng nội dung cụm. Chỳng tụi đó sử dụng cỏc chủ để của tập dữ liệu giống để làm nhón cho cỏc cụm dữ liệu.

Hỡnh 5- 1. Cỏc bước của thật toỏn TRC.

Thuật toỏn TRC gồm 5 bước

Tiền xử lý tài liệu Phõn cụm Sinh cỏc lớp dung sai Gỏn nhón cho cụm Xõy dựng cỏch

- Tiền xử lý tài liệu

- Xõy dựng cỏch biểu diễn tài liệu - Tạo ra cỏc lớp dung sai

- Phõn cụm

- Gỏn nhón cho cụm

5.3.1. Tiền xử lý

Tiền xử lý dữ liệu văn bản trước khi đưa vào cỏc thuật toỏn phõn cụm là rất cần thiết và cú thể làm tăng hiệu xuất của thuật toỏn. Trong TRC, cũng ỏp dụng một số bước tiền xử lý văn bản.

Làm sạch văn bản

Bước này sẽ loại bỏ khỏi kết quả tỡm kiếm những ký tự khụng phải là chữ cỏi (vớ dụ: $,@,…), cỏc thẻ HTML và cỏc mó ký tự đặc biệt như &amp, &quot,…

Loại bỏ từ dừng (stop word)

Một từ dừng thỡ khụng mang lại ý nghĩa về mặt ngữ nghĩa, nhưng khi được ghộp với cỏc từ khỏc thỡ cú thể tạo ra cụm từ cú nghĩa. Vỡ vậy cỏc từ trong danh sỏch từ dừng phải được đỏnh dấu đặc biệt để loại khỏi cỏc từ chỉ mục của văn bản, nhưng khụng được loại bỏ (vỡ nú cú thể sử dụng trong bước sinh ra nhón của cụm).

5.3.2. Xõy dựng ma trận từ - tài liệu

Thuật toỏn TRSM sử dụng mụ hỡnh khụng gian vector để xõy dựng ma trận từ - tài liệu biểu diễn cỏc tài liệu

Trớch chọn từ đặc trưng

Bảng đồng xuất hiện được xõy dựng sau khi tập tài liệu đó qua pha tiền xử lớ và nú được trớch chọn theo quy luật sau:

- Cỏc từ xuất hiện trong cõu hỏi truy vấn cũng được bỏ qua vỡ chỳng xuất hiện hầu hết trong cỏc kết quả.

- Sử dụng bộ lọc để loại bỏ cỏc từ cú tần xuất thấp (nhỏ hơn 1 ngưỡng nào đú cho trước). Vỡ những từ này sẽ làm tăng số đặc tớnh của tài liệu

Sau khi trớch chọn ta xõy dựng ma trận từ - tài liệu. Gọi N là số tài liệu và M là số từ được trớch chọn. Ma trận từ - tài liệu được định nghĩa như sau:

TF=[tfi,j]NxM

Trong đú, tfi,j là số lần xuất hiện của từ j trong tài liệu i. Mỗi dũng của TF là tương ứng với một tài liệu cụ thể, mỗi cột tương ứng với mức độ sử dụng của từ trong mỗi một tài liệu.

Trọng số từ

Áp dụng lược đồ trọng số TF*IDF ta thu được ma trận sau: W=[wi,j]NxM

trong đú, wi,j là mức độ quan trọng của từ j trong tài liệu i và wi,j = tfi,j * log(n/dfj)

tfi,j là số lần xuất hiện của từ j trong tài liệu i dfj là số tài liệu trong tập D cú chứa từ j.

5.3.3. Tạo lớp dung sai

M N Ma trận tần số từ - tài liệu M N Ma trận nhị phõn cỏc từ xuất hiện M M Ma trận dung sai cỏc từ M M Ma trận cỏc từ đồng xuất hiện 1 2 3

Hỡnh 5-2. Sơ đồ cỏc bước thuật toỏn tạo lớp dung sai

Mục đớch của việc tạo lớp dung sai là để xỏc định tập cỏc từ cú liờn quan đến mỗi từ với quan hệ là quan hệ dung sai; tập hợp từ đú được gọi là lớp dung sai. Mục đớch của bước này là để tối ưu việc tớnh toỏn vỡ nú đảm bảo rằng việc tớnh xấp xỉ trờn cho tập cỏc từ cú thể diễn ra nhanh.Ta định nghĩa ma trận đồng xuất hiện của từ như sau:

, MxM

[tcx y]

TC

Trong đú tcx,y là tần số đồng xuất hiện của hai từ x,y-nghĩa là số tài liệu cú chứa đồng thời cả hai từ x và y. Quan hệ dung sai R giữa cỏc từ được định nghĩa là:

xRytcx,y > 

Trong đú  được gọi là ngưỡng đồng xuất hiện. Để tớnh được ma trận đồng xuất hiện từ với mức độ khỏc nhau ta thay đổi ngưỡng đồng xuất hiện. Độ phức tạp tớnh toỏn của bước 1 là O(NxM), bước 2 và bước 3 đều là O(M2). Như vậy độ phức tạp của toàn bộ thuật toỏn là O(NxM2).

Thuật toỏn tạo lớp dung sai

Input: ma trận tần số từ-tài liệu TF và ngưỡng đồng xuất hiện .

Output: TOL – ma trận từ dung sai dạng nhị phõn định nghĩa lớp dung sai

của từ.

Thuật toỏn:

1: Tớnh một ma trận xuất hiện dạng nhị phõn OC dựa trờn ma trận tần số từ tài liệu như sau: OC=[oci,j]NxM. trong đú:

    i,j , 1 nếu tf > 0

0 trong các trường hợp còn lại

i j oc

Mỗi cột trong OC là 1 vector dạng bit biểu diễn cỏc mẫu từ xuất hiện trong một tài liệu. Bit được bật lờn nếu từ cú trong tài liệu.

2: Khởi tạo ma trận đồng xuất hiện COC =[cocx,y]MxM như sau: Với mỗi cặp từ x,y biểu diễn như cặp cỏc cột OC[x], OC[y] – cỏc vector bit – trong ma trận OC.

cocx,y=card(OCx and OCy)

Trong đú AND là phộp và nhị phõn giữa cỏc bit và hàm card trả về số phần tử của tập cỏc bit 1 của 1 vector bit. cocx,y là tần số đồng xuất hiện của cỏc từ x và y.

3: Cho một ngưỡng đồng xuất hiện , một ma trận từ dung sai nhị phõn TOL=[tolx,y]MxM cú thể dễ dàng xõy dựng bằng cỏch bỏ đi cỏc phần tử cú giỏ trị nhỏ hơn ngưỡng .

i,j ,

1 nếu coc

0 trong các trường hợp còn lại       i j tol

Mỗi dũng của ma trận kết quả cú dạng vector bit là 1 lớp dung sai: tolx.y=1 nếu từ x và từ y cú quan hệ dung sai.

5.3.4. Thuật toỏn phõn cụm Seeded - KMeans cải tiến

TRC là 1 dạng khỏc của thuật toỏn Seeded - KMeans để tạo cỏc nhúm tài liệu tương tự. Cỏc bước chớnh của thuật toỏn được mụ tả như sau:

Hỡnh thành cụm ban đầu

Chỳng tụi lấy cỏc văn bản từ tập dữ liệu mẫu được thu thập từ bỏo điện tử Dõn Trớ và thỏa món kết quả tỡm kiếm để hỡnh thành nờn cỏc cụm ban đầu

Điều kiện dừng

Thực tế là cỏc thuật toỏn phõn cụm kết quả tỡm kiếm web phải thực hiện rất nhanh trong thời gian truy vấn của người dựng, vỡ người dựng khụng thể đợi lõu để nhận được kết quả truy vấn. Chỳng ta cần lựa chọn số bước lặp tối đa cho thuật toỏn Seeded-KMeans. Vỡ thuật toỏn Seeded- KMeans cú độ hội tụ nhanh nờn giới hạn này giỳp giảm thời gian của mỏy tỡm kiếm mà vẫn đảm bảo được chất lượng của cụm.

Xỏc định cỏch biểu diễn cụm

Bước phõn cụm của thuật toỏn TRC Input:

- Tập cỏc kết quả tỡm kiếm D. - Số lượng cụm: K

- Tập cỏc kết quả đó được gỏn nhón S (Tập dữ liệu giống). - Ngưỡng tương tự 

Output: K cụm phủ nhau từ tập cỏc kết quả tỡm kiếm D với cỏc giỏ trị thành

viờn thớch hợp

Thuật toỏn:

1. Lấy tất cả cỏc kết quả đó được gỏn nhón thuộc tập dữ liệu giống S để khởi tạo cho K cụm C1, C2, …, Ck. Đặc trưng của cỏc cụm được thể hiện bởi cỏc tập R1, R2, …, Rk

2. Repeat

Foreach di D{

Foreach Ck (k=1,…, K) {

Tớnh toỏn độ tương tự giữa xấp xỉ trờn của tài với cỏc đặc trưng của cụm S(Ur(di), Rk)

If (S(Ur(di), Rk) > ) then{

Gỏn di vào cụm Ck với mức độ thành viờn được tớnh là: m(di, Ck)= S(Ur(di), Rk)

}

}

}

foreach( Ck){

Tớnh lại biểu diễn cụm Rk }

Until thỏa món điều kiện dừng Phộp gỏn lỏng giềng gần nhất

Vỡ cỏc cụm được giới hạn bởi ngưỡng tương tự của cụm nờn sau tất cả cỏc bước cú thể cú một số tài liệu chưa được gỏn vào bất cứ cụm nào. Đối với TRC cú 2 tựy chọn sau:

 Tạo một cụm đặc biệt cú tờn là “Chưa phõn loại” đối với cỏc tài liệu chưa được gỏn.

 Gỏn cỏc tài liệu đú vào vào cỏc cụm gần nhất

Chỳng tụi sử dụng tựy chọn thứ 2 để gỏn cỏc văn bản vào cỏc cụm lỏng giềng gần nhất.

Thuật toỏn gỏn tài liệu vào cỏc cụm lỏng giềng gần nhất

Foreach (di chưa được phõn cụm){

Tỡm cỏc tài liệu lỏng giềng gần nhất NN(du) với độ tương tự khỏc 0 giữa cỏc cụm cú chứa NN(du);

Chọn một cụm Ck mà NN(du) cú mức độ thành viờn lớn nhất.

Gỏn du vào cụm Ck và tớnh mức độ thành viờn của nú theo cụng thức:

u k U k u u

m(d ,C )m(NN(d ,C ).S(B(NN(d ),B(NN(d )))

Chương 6: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM

Từ những vấn đề đó tỡm hiểu, nghiờn cứu ở phần trờn, chỳng tụi đó xõy dựng một ứng dụng tổng hợp thụng tin tiếng Việt và cho phộp người dựng cú thể tỡm kiếm thụng tin theo cỏc chủ đề. Nội dung chương này sẽ trỡnh bày về cỏc yờu cầu chức năng, việc phõn tớch thiết kế và một số kết quả đó đạt được từ ứng dụng thử nghiệm.

Một phần của tài liệu Ứng dụng tập thô vào tìm kiếm Web (Trang 63)

Tải bản đầy đủ (PDF)

(89 trang)