Tổ chức tập tin chỉ mục

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TRA TỪ ĐIỂN BẰNG CAMERA TRÊN ĐIỆN THOẠI DI ĐỘNG (Trang 65 - 66)

4 Chương : XỬ LÝ NGÔN NGỮ VÀ TRA TỪ ĐIỂN

4.1.2.2 Tổ chức tập tin chỉ mục

Trong phần này ta sẽ trình bày cách thức chỉ mục cho các mẫu tin nghĩa trong tập tin nghĩa. Tập tin chỉ mục của tập tin nghĩa từ điển là một tập các mẫu tin chỉ

mục có khoá là từ gốc của từ, các khoá được sắp theo thứ tự tăng dần của bảng chữ

cái. Ngoài các thông tin về từ, từ loại, các mẫu tin chỉ mục còn phải lưu thêm thông tin về vị trí bắt đầu và chiều dài mẫu tin nghĩa vì các mẫu tin nghĩa có kích thước biến động (bảng 4.2).

STT Trường dữ liệu Kiểu dữ liệu Ý nghĩa

1 Từ Mảng ký tự Từ gốc

2 MeaningPosition Số nguyên không dấu

Vị trí mẫu tin nghĩa trong tập tin nghĩa

3 MeaningLength Số nguyên không

dấu Kích thước mẫu tin nghĩa

Bảng 4.2: Các trường dữ liệu trong mẫu tập tin chỉ mục

Khi tìm một từ, trước hết ta khoanh vùng phạm vi tìm kiếm (thao tác băm) để

tìm kiếm trên tập các mẫu tin chỉ mục đó. Theo bảng trên ta thấy trường dữ liệu Word (từ gốc của từ) có kích thước biến động, ta không thể phân tích mẫu tin chỉ

mục bằng cách tạo thêm một tập tin chỉ mục nữa để lưu vị trí và chiều dài của mẫu tin chỉ mục trên vì biện pháp này không khả thi. Ta chỉ có thể đánh dấu vị trí kết thúc mỗi mẫu tin chỉ mục bằng một giá trị. Nếu ta chọn giá trị đánh dấu có kích thước là 1 byte thì mỗi từ trong từđiển sẽđược biểu diễn bởi 250 byte ( 256 trừđi 4 byte MeaningPostion và 2 byte MeaningLength) thì mỗi từ trong từ điển có không quá 120 ký tự nếu mỗi ký tựđược biểu diễn bằng 2 byte. Việc phân tích buffer chứa các mẫu tin chỉ mục bây giờ là công việc tìm vị trí kết thúc mỗi mẫu tin chỉ mục [2].

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TRA TỪ ĐIỂN BẰNG CAMERA TRÊN ĐIỆN THOẠI DI ĐỘNG (Trang 65 - 66)

Tải bản đầy đủ (PDF)

(93 trang)