4 Chương : XỬ LÝ NGÔN NGỮ VÀ TRA TỪ ĐIỂN
4.1.2.2 Tổ chức tập tin chỉ mục
Trong phần này ta sẽ trình bày cách thức chỉ mục cho các mẫu tin nghĩa trong tập tin nghĩa. Tập tin chỉ mục của tập tin nghĩa từ điển là một tập các mẫu tin chỉ
mục có khoá là từ gốc của từ, các khoá được sắp theo thứ tự tăng dần của bảng chữ
cái. Ngoài các thông tin về từ, từ loại, các mẫu tin chỉ mục còn phải lưu thêm thông tin về vị trí bắt đầu và chiều dài mẫu tin nghĩa vì các mẫu tin nghĩa có kích thước biến động (bảng 4.2).
STT Trường dữ liệu Kiểu dữ liệu Ý nghĩa
1 Từ Mảng ký tự Từ gốc
2 MeaningPosition Số nguyên không dấu
Vị trí mẫu tin nghĩa trong tập tin nghĩa
3 MeaningLength Số nguyên không
dấu Kích thước mẫu tin nghĩa
Bảng 4.2: Các trường dữ liệu trong mẫu tập tin chỉ mục
Khi tìm một từ, trước hết ta khoanh vùng phạm vi tìm kiếm (thao tác băm) để
tìm kiếm trên tập các mẫu tin chỉ mục đó. Theo bảng trên ta thấy trường dữ liệu Word (từ gốc của từ) có kích thước biến động, ta không thể phân tích mẫu tin chỉ
mục bằng cách tạo thêm một tập tin chỉ mục nữa để lưu vị trí và chiều dài của mẫu tin chỉ mục trên vì biện pháp này không khả thi. Ta chỉ có thể đánh dấu vị trí kết thúc mỗi mẫu tin chỉ mục bằng một giá trị. Nếu ta chọn giá trị đánh dấu có kích thước là 1 byte thì mỗi từ trong từđiển sẽđược biểu diễn bởi 250 byte ( 256 trừđi 4 byte MeaningPostion và 2 byte MeaningLength) thì mỗi từ trong từ điển có không quá 120 ký tự nếu mỗi ký tựđược biểu diễn bằng 2 byte. Việc phân tích buffer chứa các mẫu tin chỉ mục bây giờ là công việc tìm vị trí kết thúc mỗi mẫu tin chỉ mục [2].