Một quá trình đơn giản để lập ch ỉ mục cho tài liệu có thể được mô tả như sau:
Trước hết, xác định tất cả các từ tạo thành tài liệu. Trong tiếng Anh, chỉ đơn giản là tách từ dựa vào khoảng trắng.
Loại bỏ các từ có tần số xuất hiện cao. Những từ này chiếm khoảng 40- 50% các từ, như đã đ ề cập trước đây, chúng có độ phân biệt kém do đó không thể sử dụng để đại diện cho nội dung của tài liệu. Trong tiếng Anh, các từ này có khoảng 250 từ, do đó, để đơn giản có thể lưu chúng vào từ điển, gọi là stop list.
Sau khi loại bỏ các từ có trong stop list, xác định các từ chỉ mục “tốt”. Trước hết cần loại bỏ các hậu tố để đưa về từ gốc, ví dụ các từ như: analysis, analyzing, analyzer, analyzed, analysing có thể chuyển về từ gốc là “analy.” Từ gốc sẽ có tần số xuất hiện cao hơn so với các dạng thông thường của nó. Nếu sử dụng từ gốc làm chỉ mục, ta có thể thu được nhiều tài liệu có liên quan hơn là sử dụng từ ban đầu của nó.
Đối với tiếng Anh, việc loại bỏ hậu tố có thể được thực hiện dễ dàng bằng cách sử dụng danh sách các hậu tố có sẵn (Suffix List).
Sau khi có được danh sách các từ gốc, sử dụng phương pháp dựa vào tần số (frequency – based) để xác định tầm quan trọng của các từ gốc này.
Trong hệ thống chỉ mục có trọng số , trọng số của một từ được sử dụng để
xác định tầm quan trọng của từ đó. Mỗi tài liệu được biễu diễn là một vector : Di = (di1, di2, …, dit) trong đó dij là trọng số của từ j trong tài liệu Di.
Mô hình xử lý tổng quát của một hệ thống được trình bày như sau:
Danh sách các tài
liệu cần lập chỉ mục Lọc các thông tin thừa, chuyển tài liệu về dạng văn bản
Tách văn bản thành các từ TỪ ĐIỂN
Danh sách các từ
stop-word Loại bỏ stop-word
Tính trọng số và loại bỏ những từ có trọng số thấp
Loại bỏ hậu tố Danh sách các hậu tố
CSDL chỉ
mục thông tin Lập chỉ mục
Hình 2.8. Mô hình xử lý cho hệ thống lập chỉ mục