4 Chương : XỬ LÝ NGÔN NGỮ VÀ TRA TỪ ĐIỂN
4.1.2 Tổ chức cấu trúc dữ liệu hỗ trợ cho việc tìm kiếm nhanh
Đến thời điểm này, ta đã giải quyết được một vấn đề cơ bản: vấn đề tổ chức cấu trúc dữ liệu lưu trữ. Ta vẫn còn một vấn đề nữa là tổ chức cấu trúc dữ liệu hỗ
trợ cho việc tìm kiếm nhanh. Một số cấu trúc tập tin hỗ trợ cho việc tìm kiếm nhanh hiện nay là:
Ø Tập tin tuần tự: tập tin này là một tập các mẫu tin lưu trữ các bản ghi liên tiếp nhau. Việc tìm kiếm một mẫu tin có giá trị khoá K cho trước được thực hiện bằng cách so sánh từng khoá của từng mẫu tin trong tập tin.
Ø Tập tin chỉ mục: khi mẫu tin có kích thước lớn để làm tăng thêm hiệu quả
thao tác trên các mẫu tin người ta sử dụng tập tin chỉ mục. Tập tin chỉ mục là tập tin chứa thông tin về vị trí của một mẫu tin trong một tập tin khác. Một cách hình thức, có thể xem tập tin chỉ mục là một tập tin phụ mà mỗi mẫu tin là một tập (K, i), với K là giá trị của khoá và i là địa chỉ của mẫu tin trong tập tin chính. Ta còn có thể gia tăng tốc độ tìm kiếm bằng cách xây dựng tập tin chỉ mục có thứ tựđể tiến hành tìm kiếm nhị phân trên tập tin chỉ mục này.
Ø Tập tin băm: được sử dụng để giới hạn phạm vi tìm kiếm khi số lượng mẫu tin lớn. Thao tác băm chính là thao tác phân loại các khoá có cùng tính chất nào đó vào chung một cụm.
Ø Ta còn có thể đọc tất cả các mẫu tin chỉ mục rồi phát sinh ra cây tìm kiếm, sau đó lưu cây này lên một tập tin. Cách này khai thác được ưu điểm về tốc
độ tìm kiếm của các loại cây tìm kiếm nhưng có nhược điểm là chiếm nhiều bộ nhớ cho việc lưu trữ cây.
Qua việc xem xét các cấu trúc tập tin hỗ trợ cho việc tìm kiếm nhanh, tôi nhận thấy việc kết hợp phương pháp chỉ mục có thứ tự và băm tập tin nghĩa là thích hợp nhất cho việc tìm kiếm nhanh nhất.