Lập chỉ mục tự động cho tài liệu tiếng Anh

Một phần của tài liệu Tìm hiểu và xây dựng hệ thống tìm kiếm văn bản trên cơ sở phân cụm dữ liệu (Trang 47 - 48)

Một quá trình đơn giản để lập chỉ mục cho tài liệu có thể được mô tả như sau:

Trước hết, xác định tất cả các từ tạo thành tài liệu. Trong tiếng Anh, chỉ đơn giản là tách từ dựa vào khoảng trắng.

Loại bỏ các từ có tần số xuất hiện cao. Những từ này chiếm khoảng 40- 50% các từ, như đã đề cập trước đây, chúng có độ phân biệt kém do đó không thể sử dụng để đại diện cho nội dung của tài liệu. Trong tiếng Anh, các từ này có khoảng 250 từ, do đó, để đơn giản có thể lưu chúng vào từ điển, gọi là stop list.

Sau khi loại bỏ các từ có trong stop list, xác định các từ chỉ mục “tốt”. Trước hết cần loại bỏ các hậu tố để đưa về từ gốc, ví dụ các từ như: analysis, analyzing, analyzer, analyzed, analysing có thể chuyển về từ gốc là “analy.” Từ gốc sẽ có tần số xuất hiện cao hơn so với các dạng thông thường của nó. Nếu sử dụng từ gốc làm chỉ mục, ta có thể thu được nhiều tài liệu có liên quan hơn là sử dụng từ ban đầu của nó.

Đối với tiếng Anh, việc loại bỏ hậu tố có thể được thực hiện dễ dàng bằng cách sử dụng danh sách các hậu tố có sẵn (Suffix List).

Sau khi có được danh sách các từ gốc, sử dụng phương pháp dựa vào tần số (frequency – based) để xác định tầm quan trọng của các từ gốc này.

Trong hệ thống chỉ mục có trọng số, trọng số của một từ được sử dụng để xác định tầm quan trọng của từ đó. Mỗi tài liệu được biễu diễn là một vector :

Mô hình xử lý tổng quát của một hệ thống được trình bày như sau:

Hình 2.8. Mô hình xử lý cho hệ thống lập chỉ mục

Một phần của tài liệu Tìm hiểu và xây dựng hệ thống tìm kiếm văn bản trên cơ sở phân cụm dữ liệu (Trang 47 - 48)