4. Tập tin nghịch đảo tài liệu
4.2 Tại sao sử dụng tập tin nghịch đảo để lập chỉ mục
Trong hệ thống tìm kiếm thông tin, tập tin nghịch đảo có ý nghĩa rất lớn, giúp việc truy cập đến các mục thông tin được nhanh chóng. Giả sử khi người dùng nhập một câu truy vấn, hệ thống sẽ tách thành 2 từ là “từ 1” và “từ 2”. Dựa vào tập tin nghịch đảo,
ta dễ dàng xác định được các tài liệu có liên quan đến 2 từ này để trả về cho người tìm kiếm. Tuy nhiên, khó khăn chính của tập tin nghịch đảo là khi thêm một tài liệu mới, tất cả các từ có liên quan đến tài liệu này đều phải được cập nhật lại. Ví dụ khi thêm tài liệu 4 có chứa 2 từ “từ 3” và “từ 4” vào tập tin nghịch đảo:
Tài liệu 1 Tài liệu 2 Tài liệu 3 Tài liệu 4
Từ 1 1 0 1 0
Từ 2 1 1 0 0
Từ 3 0 1 1 1
Từ 4 1 1 1 1
Bảng 4-4 Thêm một tài liệu mới vào tập tin nghịch đảo
Rõ ràng việc này tốn một chi phí lớn nếu tập tin nghịch đảo rất lớn. Trong thực tế, tập tin nghịch đảo tài liệu có thể chứa hàng trăm ngàn từ. Tuy nhiên, trong các hệ thống tìm kiếm thông tin, người ta chỉ cập nhật lại tập tin tại một khoảng thời gian định kỳ. Vì vậy, tập tin nghịch đảo vẫn được sử dụng để lập chỉ mục.
PHẦN 2 : PHÂN TÍCH VÀ THIẾT KẾ
Chương 1: PHÂN TÍCH
1. Sơ đồ UseCase hệ thống
STT ACTOR Ý NGHĨA
1 Admin Quản trị hệ thống
2 User Người sử dụng chương trình
3 Cac tai lieu Các tài liệu đã được tách từ
4 Cac tai lieu lien quan cau hoi Các tài liệu trả về khi người sử dụng nhậpvào câu hỏi
5 Tập tin chi muc Tập tin chứa các từ khóa cùng với các tài liệu chứa từ khóa đó
Bảng 5-5 Danh sách các Actor
STT USECASE Ý NGHĨA
1 Tach tu Tách văn bản thành các từ riêng biệt
2 Tao moi tập tin chi muc Tạo mới một tập tin chỉ mục
3 Cap nhat tập tin chi muc Cập nhật thêm các tài liệu mới vào tập tin chỉ mục có sẵn
4 Tim kiem Gõ vào từ khóa và chức năng tìm kiếm sẽtrả về một tập các tài liệu liên quan
2. Sơ đồ Lớp
2.1 Sơ đồ các lớp thể hiện
2.2 Sơ đồ các lớp xử lý
3. Tách từ
3.1 Sơ đồ UseCase
Hình 5-11 Sơ đồ Use-case tách từ
3.2 Sơ đồ Tuần tự
3.3 Sơ đồ Cộng tác
Hình 5-13 Sơ đồ cộng tác tách từ
3.4 Sơ đồ Lớp
4. Lập chỉ mục
4.1 Sơ đồ UseCase
4.2 Sơ đồ Tuần tự
4.2.1 Tạo mới chỉ mục
4.2.2 Cập nhật chỉ mục