Lập chỉ mục cho tài liệu tiếng Anh

Một phần của tài liệu Luận văn: Nghiên cứu và đánh giá các hệ truy xuất thông tin ppt (Trang 36 - 38)

Một quá trình đơn giản để lập chỉ mục cho tài liệu có thể được mô tả

như sau:

• Trước hết, xác định tất cả các từ tạo thành tài liệu. Trong tiếng Anh, chỉ đơn giản là tách từ dựa vào khoảng trắng.

• Loại bỏ các từ có tần số xuất hiện cao. Những từ này chiếm khoảng 40- 50% các từ, như đã đề cập trước đây, chúng có độ phân biệt kém do đó không thể sử dụng để đại diện cho nội dung của tài liệu. Trong tiếng Anh, các từ này có khoảng 250 từ, do đó, đểđơn giản có thể lưu chúng vào từđiển gọi là Stop List.

• Sau khi loại bỏ các từ có trong Stop List, xác định các từ chỉ mục “tốt”. Trước hết cần loại bỏ các hậu tố đưa về từ gốc, ví dụ các từ như:

analysis, analyzing, analyzer, analyzed, analysing có thể chuyển về từ

gốc là “analy”. Từ gốc sẽ có tần số xuất hiện cao hơn so với các dạng thông thường của nó. Nếu sử dụng từ gốc làm chỉ mục, ta có thể thu

Đối với tiếng Anh, việc loại bỏ hậu tố có thể được thực hiện dễ dàng bằng cách sử dụng danh sách các hậu tố có sẵn (Suffix List).

Sau khi có được danh sách các từ gốc, sử dụng phương pháp dựa vào

tần số (frequency – based) để xác định tầm quan trọng của các từ gốc này. Chúng ta có thể sử dụng một trong các phương pháp đã được đề cập ở trên như: tần số tài liệu nghịch đảo (Inverse Document Frequency), độ nhiễu tín hiệu (SIGNALk), độ phân biệt từ (DISCVALUEk).

Trong hệ thống chỉ mục có trọng số, trọng số của một từđược sử dụng

để xác định tầm quan trọng của từ đó. Mỗi tài liệu được biểu diễn là một vector: Di = (di1, di2,…, din) trong đó dij là trọng số của từ j trong tài liệu Di. Giả sử có 1033 tài liệu nói về y học. Quá trình lập chỉ mục đơn giản

được thực hiện theo hình 3.3 (trong đó chỉ loại bỏ hậu tố tận cũng là s).

Quá trình stemming: Trong quá trình lập chỉ mục Tiếng Anh, Stemming là quá trình lược bỏ các suffix (phần hậu tố/tiếp vĩ ngữ) của các từ. Việc nằm làm tăng giá trị recall của chương trình, làm cấu trúc cây từđiển chính xác và gọn nhẹ hơn, đương nhiên hiệu quả truy vấn cũng cao hơn.

Ví dụ: studies, studying, studied là các biến thể khác nhau của từ gốc study, nếu không có giai đọan stemming này thì tất cả các từ này đều được lập chỉ

mục và bổ sung vào cây từ điển nếu nó chưa có. Rõ ràng điều này là khuyết

điểm lớn của chương trình.

Có nhiều thuật toán phổ biến cho việc loại bỏ phần đuôi của một từ tiếng Anh, thông thường đều dựa vào danh sách các hậu tốđểđối chiếu.

Một phần của tài liệu Luận văn: Nghiên cứu và đánh giá các hệ truy xuất thông tin ppt (Trang 36 - 38)

Tải bản đầy đủ (PDF)

(80 trang)