Lập chỉ mục tự động cho tài liệu tiếng Anh

Một phần của tài liệu hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt (Trang 42 - 44)

2. Phương pháp lập chỉ mục [1.1]

2.3 Lập chỉ mục tự động cho tài liệu tiếng Anh

Một quá trình đơn giản để lập chỉ mục cho tài liệu có thể được mô tả như sau:

 Trước hết, xác định tất cả các từ tạo thành tài liệu. Trong tiếng Anh, chỉ đơn giản là tách từ dựa vào khoảng trắng.

 Loại bỏ các từ có tần số xuất hiện cao. Những từ này chiếm khoảng 40- 50% các từ, như đã đề cập trước đây, chúng có độ phân biệt kém do đó không thể sử dụng để đại diện cho nội dung của tài liệu. Trong tiếng Anh, các từ này có khoảng 250 từ, do đó, để đơn giản có thể lưu chúng vào từ điển, gọi là stop list.

 Sau khi loại bỏ các từ có trong stop list, xác định các từ chỉ mục “tốt”. Trước hết cần loại bỏ các hậu tố để đưa về từ gốc, ví dụ các từ như : analysis, analyzing, analyzer, analyzed, analysing có thể chuyển về từ gốc là “analy.” Từ gốc sẽ có tần số xuất hiện cao hơn so với các dạng thông thường của nó. Nếu sử dụng từ gốc làm chỉ mục, ta có thể thu được nhiều tài liệu có liên quan hơn là sử dụng từ ban đầu của nó.

Đối với tiếng Anh, việc loại bỏ hậu tố có thể được thực hiện dễ dàng bằng cách sử dụng danh sách các hậu tố có sẵn (Suffix List).

Sau khi có được danh sách các từ gốc, sử dụng phương pháp dựa vào tần số (frequency – based) để xác định tầm quan trọng của các từ gốc này. Chúng ta có thể sử dụng một trong các phương pháp đã được đề cập ở trên như : tần số tài liệu nghịch đảo (inverse document frequency), độ tín hiệu (SIGNALk), độ phân biệt từ (DISVALUEk).

Trong hệ thống chỉ mục có trọng số, trọng số của một từ được sử dụng để xác định tầm quan trọng của từ đó. Mỗi tài liệu được biễu diễn là một vector :

Di = (di1, di2, …, dit) trong đó dij là trọng số của từ j trong tài liệu Di.

Giả sử có 1033 tài liệu nói về y học. Quá trình lập chỉ mục đơn giản được thực hiện như sau ( trong đó chỉ loại bỏ hậu tố tận cùng là s):

Hình 4-7 Quá trình chọn từ làm chỉ mục

Một phần của tài liệu hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt (Trang 42 - 44)

Tải bản đầy đủ (DOC)

(116 trang)
w