Cỏc bước của thật toỏn TRC

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng tập thô vào tìm kiếm web (Trang 63 - 66)

Thuật toỏn TRC gồm 5 bước

Tiền xử lý tài liệu Phõn cụm Sinh cỏc lớp dung sai Gỏn nhón cho cụm Xõy dựng cỏch

- Tiền xử lý tài liệu

- Xõy dựng cỏch biểu diễn tài liệu - Tạo ra cỏc lớp dung sai

- Phõn cụm

- Gỏn nhón cho cụm

5.3.1. Tiền xử lý

Tiền xử lý dữ liệu văn bản trước khi đưa vào cỏc thuật toỏn phõn cụm là rất cần thiết và cú thể làm tăng hiệu xuất của thuật toỏn. Trong TRC, cũng ỏp dụng một số bước tiền xử lý văn bản.

Làm sạch văn bản

Bước này sẽ loại bỏ khỏi kết quả tỡm kiếm những ký tự khụng phải là chữ cỏi (vớ dụ: $,@,…), cỏc thẻ HTML và cỏc mó ký tự đặc biệt như &amp, &quot,…

Loại bỏ từ dừng (stop word)

Một từ dừng thỡ khụng mang lại ý nghĩa về mặt ngữ nghĩa, nhưng khi được ghộp với cỏc từ khỏc thỡ cú thể tạo ra cụm từ cú nghĩa. Vỡ vậy cỏc từ trong danh sỏch từ dừng phải được đỏnh dấu đặc biệt để loại khỏi cỏc từ chỉ mục của văn bản, nhưng khụng được loại bỏ (vỡ nú cú thể sử dụng trong bước sinh ra nhón của cụm).

5.3.2. Xõy dựng ma trận từ - tài liệu

Thuật toỏn TRSM sử dụng mụ hỡnh khụng gian vector để xõy dựng ma trận từ - tài liệu biểu diễn cỏc tài liệu

Trớch chọn từ đặc trưng

Bảng đồng xuất hiện được xõy dựng sau khi tập tài liệu đó qua pha tiền xử lớ và nú được trớch chọn theo quy luật sau:

- Cỏc từ xuất hiện trong cõu hỏi truy vấn cũng được bỏ qua vỡ chỳng xuất hiện hầu hết trong cỏc kết quả.

- Sử dụng bộ lọc để loại bỏ cỏc từ cú tần xuất thấp (nhỏ hơn 1 ngưỡng nào đú cho trước). Vỡ những từ này sẽ làm tăng số đặc tớnh của tài liệu

Sau khi trớch chọn ta xõy dựng ma trận từ - tài liệu. Gọi N là số tài liệu và M là số từ được trớch chọn. Ma trận từ - tài liệu được định nghĩa như sau:

TF=[tfi,j]NxM

Trong đú, tfi,j là số lần xuất hiện của từ j trong tài liệu i. Mỗi dũng của TF là tương ứng với một tài liệu cụ thể, mỗi cột tương ứng với mức độ sử dụng của từ trong mỗi một tài liệu.

Trọng số từ

Áp dụng lược đồ trọng số TF*IDF ta thu được ma trận sau: W=[wi,j]NxM

trong đú, wi,j là mức độ quan trọng của từ j trong tài liệu i và wi,j = tfi,j * log(n/dfj)

tfi,j là số lần xuất hiện của từ j trong tài liệu i dfj là số tài liệu trong tập D cú chứa từ j.

5.3.3. Tạo lớp dung sai

M N Ma trận tần số từ - tài liệu M N Ma trận nhị phõn cỏc từ xuất hiện M Ma trận dung sai cỏc từ M Ma trận cỏc từ đồng xuất 1 2 3

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng tập thô vào tìm kiếm web (Trang 63 - 66)

Tải bản đầy đủ (PDF)

(89 trang)