Khó khăn cho việc lập chỉ mục tiếng Việt

Một phần của tài liệu tim_hieu_va_xay_dung_search_engine (Trang 36 - 38)

Chương 3 : BỘ LẬP CHỈ MỤC – INDEX

3. Lập chỉ mục cho tài liệu tiếng Việt ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11],

3.1 Khó khăn cho việc lập chỉ mục tiếng Việt

Các điểm khó khăn khi thực hiện q trình lập chỉ mục cho tài liệu tiếng Việt so với tài liệu tiếng Anh mà chúng ta phải giải quyết :

 Xác định ranh giới giữa các từ trong câu. Đối với tiếng Anh điều này quá dễ dàng vì khoảng trắng chính là ranh giới phân biệt các từ ngược lại tiếng Việt thì khoảng trắng khơng phải là ranh giới để xác định các từ mà chỉ là ranh giới để xác định các tiếng.

 Chính tả tiếng Việt còn một số điểm chưa thống nhất như sử dụng "y" hay

"i" ( ví dụ "quý" hay "quí" ), cách bỏ dấu ( "lựơng" hay "lượng" ), cách viết hoa tên riêng( "Khoa học Tự nhiên" hay "Khoa Học Tự Nhiên")... địi hỏi

q trình hiệu chỉnh chính tả cho văn bản cần lập chỉ mục và cho từ điển chỉ mục.

 Tồn tại nhiều bảng mã tiếng Việt đòi hỏi khả năng xử lý tài liệu ở các bảng mã khác nhau. Cách giải quyết là đưa tất cả về bảng mã chuẩn của hệ thống.

 Sự phong phú về nghĩa của một từ (từ đa nghĩa). Một từ có thể có nhiều nghĩa khác nhau trong những ngữ cảnh khác nhau nên việc tìm kiếm khó có được kết quả với độ chính xác cao.

Từ đồng nghĩa hoặc từ gần nghĩa: có nhiều từ khác nhau nhưng lại có

cùng ý nghĩa. Do đó, việc tìm kiếm theo từ khố thường khơng tìm thấy các websites chứa từ đồng nghĩa hoặc gần nghĩa với từ cần tìm. Vì vậy, việc tìm kiếm cho ra kết quả khơng đầy đủ.

 Có quá nhiều từ mà mật độ xuất hiện cao nhưng không mang ý nghĩa cụ thể nào mà chỉ là những từ nối, từ đệm hoặc chỉ mang sắc thái biểu cảm như những từ láy. Những từ này cần phải được xác định và loại bỏ ra khỏi tập các mục từ. Nó giống như stop-word trong tiếng Anh.

 Các văn bản có nội dung chính là một vấn đề cụ thể, một đề tài nghiên cứu khoa học nhưng đôi khi trọng số của các từ chun mơn này thấp so với tồn tập tài liệu. Vì vậy, một số thuật tốn tính trọng số bỏ sót những trường hợp như vậy. Kết quả là các từ chun mơn đó khơng được lập chỉ mục.

Trong các vấn đề trên thì vấn đề xác định ranh giới từ trong câu là quan trọng nhất vì nó ảnh hưởng lớn đến hiệu quả của q trình lập chỉ mục ( nếu quá trình tách từ sai có nghĩa là nội dung của câu bị phân tích sai ) và cũng là vấn đề khó khăn nhất. Các vấn đề còn lại chỉ là thuần tuý về mặt kỹ thuật mà hầu như chúng ta có thể

giải quyết một cách triệt để.

Một phần của tài liệu tim_hieu_va_xay_dung_search_engine (Trang 36 - 38)

Tải bản đầy đủ (DOC)

(149 trang)
w