3. Lập chỉ mục cho tài liệu tiếng Việt ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11],
3.5 Xây dựng từ điển tiếng Việt
Việc xác định từ cho tiếng Việt thì phương pháp giải quyết là dùng từ điển từ được lập sẵn.
Tuy nhiên không thể có một từ điển đầy đủ được vì có những từ có thể "sinh ra thêm" trong tương lai. Ví dụ do sự ra đời của nhiều ngành khoa học công nghệ mới đòi hỏi phải phát sinh thêm từ mới để mô tả chúng..., hoặc do nhu cầu sử dụng tiếng nước ngoài ngày càng tăng dẫn đến tình trạng Việt hoá các từ thông dụng như bit, bite, inch, …
Do đó bên cạnh việc sử dụng từ điển đòi hỏi phải có phương pháp để phát hiện thêm từ tiếng Việt mới chưa có trong từ điển để bổ sung cho từ điển. Một "từ" tiếng Việt là sự kết hợp của hai hay nhiều "tiếng" có thể dễ dàng xác định bằng khoảng trắng, phương pháp xác định "từ" gồm nhiều "tiếng" ghép lại dựa trên việc xem xét độ gắn kết (cohesion) của chúng:
Trong đó:
size_factor : kích thước tập chỉ mục. pair_freqị : tần số xuất hiện từ.
ni, nj : tần số xuất hiện của tiếng i, j.
Sự kết hợp 2 tiếng có khả năng cho ra từ cao khi cohesion của chúng cao (2 tiếng thường xuất hiện chung với nhau thì nó có khả năng là một từ).
Giải pháp đề nghị là dùng từ điển được lập sẵn ,với một chi phí thấp hơn ta có thể lập được một từ điển tương đối đầy đủ mà kết quả chính xác hơn rất nhiều.
Quá trình xác định thêm số từ thiếu có thể được cài đặt bằng phương pháp xác định từ ghép tự động như đã nêu trên với tập tài liệu mẫu cho việc xác định từ ghép được chỉ định, hoặc bổ sung thêm từ mới vào từ điển
Tuy nhiên, khi xác định một từ mới thì không thể thêm ngay nó vào từ điển. Vì làm như vậy sẽ dẫn đến tình trạng bùng nổ dữ liệu. Bởi vì một từ là mới do quá trình tách từ chưa hẳn là từ mới thật sự. Do đó, ta sẽ xây dựng thêm từ điển phụ để chứa các từ mới này, sau một khoảng thời gian kiểm tra các thông số như:
Số lần xuất hiện trong tất cả các tài liệu mà hệ thống xử lý Số tài liệu mà từ đó xuất hiện
…..
Nếu các thông số trên đạt một tiêu chuẩn nào đó thì mới chính thức thêm nó vào từ điển chính và xoá nó ra khỏi từ điển phụ.
Chương 4:BỘ TÌM KIẾM THÔNG TIN – SEARCH ENGINE