Các trang Web sau khi thu thập về sẽ được phân tích, trích chọn những thông tin cần thiết (thường là các từ đơn , từ ghép , cụm từ quan trọng) để lưu trữ trong cơ sở dữ liệu nhằm phục vụ cho nhu cầu tìm kiếm sau này.
Hình 3.1 Lưu đồ xử lý cho hệ thống lập chỉ mục
Lọc các thông tin thừa, chuyển tài liệu về dạng văn bản
Tách văn bản thành các từ Loại bỏ stop-word Tính trọng số và loại bỏ những từ có trọng số thấp Lập chỉ mục Danh sách các trang Web cần lập chỉ mục Danh sách các từ stop-word TỪ ĐIỂN CSDL chỉ mục thông tin Loại bỏ hậu tố Danh sách các hậu tố
Lập chỉ mục là quá trình phân tích và xác định các từ , cụm từ thích hợp cốt lõi
có khả năng đại diện cho nội dung của tài liệu . Như vậy, vấn đề đặt ra là phải rút
trích ra những thông tin chính, có khả năng đại diện cho nội dung của tài liệu. Thông tin này phải “vừa đủ”, nghĩa là không thiếu để trả ra kết quả đầy đủ so với nhu cầu tìm kiếm, nhưng cũng phải không dư để giảm chi phí lưu trữ và chi phí tìm kiếm và để loại bỏ kết quả dư thừa không phù hợp. Việc rút trích này chính là việc lập chỉ mục trên tài liệu. Trước đây , quá trình này thường được các chuyên viên đã qua đào tạo thực hiện một cách “thủ công “ nên có độ chính xác cao. Nhưng trong môi trường hiện đại ngày nay, với lượng thông tin khổng lồ thì việc lập chỉ mục bằng tay không còn phù hợp, phương pháp lập chỉ mục tự động mang lại hiệu quả cao hơn.
Một thủ tục lập chỉ mục tự động cơ bản cho các tài liệu tiếng Anh có thể được xử lý như sau: [III.1]
1. Step of tokenization: Tách văn bản ra thành các chuỗi nhờ vào khoảng trắng, mỗi chuỗi xem như là một từ.
2. Step of removal of stop words: bỏ những từ thường xuyên xuất hiện trong hầu hết các tài liệu nhưng lại không quan trọng trong các tài liệu như tính từ, đại từ.
3. Step of stemming: loại bỏ các hậu tố (suffixes) để đưa về các từ gốc Các từ thu được sẽ được lập chỉ mục. Tuy nhiên hai bước đầu cũng cần cho quá trình lập chỉ mục cho các tài liệu tiếng Việt, bước thứ ba không cần vì tiếng Việt thuộc dòng ngôn ngữ đơn thể.