3. Phƣơng phỏp trọng số mở rộng đối với xấp xỉ trờn
3.1.2. Trớch chọn những từ đặc trƣng của mỗi snippet
Dữ liệu đầu vào của pha này chớnh là dữ liệu đầu ra của pha tiền xử lý tài liệu.
a. Việc trớch chọn được thực hiện theo quy tắc sau:
- Loại bỏ số và những từ ngắn hơn 2 ký tự
- Loại bỏ những từ xuất hiện trong cõu hỏi truy vấn, bởi vỡ chỳng ta đang thực hiện trờn tập kết quả tỡm kiếm trả về từ cõu hỏi truy vấn, do vậy mà những từ nú sẽ xuất hiện hầu hết trong tất cả cỏc snippet
- Loại bỏ những từ mà nú xuất hiện ớt hơn ngưỡng cho phộp (vớ dụ ớt hơn 2 snippet.
b. Sau khi trớch chọn được cỏc từ đặc trưng, ta xõy dựng ma trận tần số document- terms :
TF=[tfi,j]NxM
Trong đú, N là số snippet trong D
M là số từ được trớch chọn trong toàn tập D tfi,j là số lần xuất hiện của từ j trong snippet di
Mỗi một dũng TF[i] trong ma trận TF là thể hiện đặc trưng của snippet di thụng qua tần số xuất hiện của mỗi từ.
c. Sau đú ỏp dụng phương phỏp trọng số TF*IDF đối với ma trận TF để tạo ra ma trận trong số document-terms
W = [wi,j]NxM
wi,j = tfij * log(n/dfi)
Trong đú wi,j là trọng số của từ j trong snippet di . Mỗi dũng W[i] trong ma trận W là thể hiện đặc trưng của snippet di thụng qua trọng số của mỗi từ.
Chỳ ý: Phải ỏp dụng phương phỏp trọng số TF*IDF (term frequency – inverse document frequency) vỡ những từ xuất hiện nhiều lần (nhõn tố TF) trong tài liệu là gúp phần thể hiện nội dung của tài liệu nhiều hơn so với những từ chỉ xuất hiện một vài lần. Tuy nhiờn, những từ mà xuất hiện thường xuyờn trong toàn tập tài liệu D thỡ sẽ khụng cú ý nghĩa nhiều trong việc phõn biệt nội dung giữa những tài liệu, vỡ vậy nhõn tố idf phải được sử dụng để làm giảm vai trũ của từ thường xuyờn xuất hiện trong toàn tập tài liệu D.
Vớ dụ:
Doc Title
d1 Languege modeling approach to information retrieval: the importance of a query term
d2 Title language model for information retrieval
d3 Two-stage language models for information retrieval d4 Building a web theaurus from web link structure d5 Implicit link analysis for small web search
d6 Query type classification for web document retrieval
Bảng 1: Tập cỏc snippet và những từ được trớch chọn (từ được gạch chõn)
Document/Term
Information Web Query Retrieval Model Language
d1 1 0 1 1 0 1 d2 1 0 0 1 1 1 d3 1 0 0 1 1 1 d4 0 1 0 0 0 0 d5 0 1 0 0 0 0 d6 0 1 1 1 0 0
Bảng 2: Ma trận tần số xuất hiện document-terms
Document/Term Information Web Query Retrieval Model Language d1 0.301 0 0.4771 0.1761 0 0.301 d2 0.301 0 0 0.1761 0.4771 0.301 d3 0.301 0 0 0.1761 0.4771 0.301 d4 0 0.6021 0 0 0 0 d5 0 0.301 0 0 0 0 d6 0 0.301 0.4771 0.1761 0 0 Bảng 3: Ma trận trọng số document-terms