Chương 3 : BỘ LẬP CHỈ MỤC – INDEX
1. Khái quát về hệ thống lập chỉ mục
Các trang Web sau khi thu thập về sẽ được phân tích, trích chọn những thơng tin cần thiết (thường là các từ đơn , từ ghép , cụm từ quan trọng) để lưu trữ trong cơ sở dữ liệu nhằm phục vụ cho nhu cầu tìm kiếm sau này.
Hình 3.1 Lưu đồ xử lý cho hệ thống lập chỉ mục
Lọc các thông tin thừa, chuyển tài liệu về dạng văn bản
Tách văn bản thành các từ Loại bỏ stop-word Tính trọng số và loại bỏ những từ có trọng số thấp Lập chỉ mục Danh sách các trang Web cần lập chỉ mục Danh sách các từ stop-word TỪ ĐIỂN CSDL chỉ mục thông tin Loại bỏ hậu tố Danh sách các hậu tố
Lập chỉ mục là q trình phân tích và xác định các từ , cụm từ thích hợp cốt lõi có khả năng đại diện cho nội dung của tài liệu . Như vậy, vấn đề đặt ra là phải
rút trích ra những thơng tin chính, có khả năng đại diện cho nội dung của tài liệu. Thông tin này phải “vừa đủ”, nghĩa là không thiếu để trả ra kết quả đầy đủ so với nhu cầu tìm kiếm, nhưng cũng phải khơng dư để giảm chi phí lưu trữ và chi phí tìm kiếm và để loại bỏ kết quả dư thừa khơng phù hợp. Việc rút trích này chính là việc lập chỉ mục trên tài liệu. Trước đây , quá trình này thường được các chuyên viên đã qua đào tạo thực hiện một cách “thủ cơng “ nên có độ chính xác cao. Nhưng trong mơi trường hiện đại ngày nay, với lượng thơng tin khổng lồ thì việc lập chỉ mục bằng tay khơng cịn phù hợp, phương pháp lập chỉ mục tự động mang lại hiệu quả cao hơn.
Một thủ tục lập chỉ mục tự động cơ bản cho các tài liệu tiếng Anh có thể được xử lý như sau: [III.1]
1. Step of tokenization: Tách văn bản ra thành các chuỗi nhờ vào khoảng
trắng, mỗi chuỗi xem như là một từ.
2. Step of removal of stop words: bỏ những từ thường xuyên xuất hiện
trong hầu hết các tài liệu nhưng lại khơng quan trọng trong các tài liệu như tính từ, đại từ.
3. Step of stemming: loại bỏ các hậu tố (suffixes) để đưa về các từ gốc
Các từ thu được sẽ được lập chỉ mục. Tuy nhiên hai bước đầu cũng cần cho quá trình lập chỉ mục cho các tài liệu tiếng Việt, bước thứ ba khơng cần vì tiếng Việt thuộc dịng ngơn ngữ đơn thể.