Một số khó khăn trong phân cụm trang Web tiếng Việt

Một phần của tài liệu Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm (Trang 39 - 41)

2.6. Bài toán tách từ tự động tiếng Việt

2.6.1. Một số khó khăn trong phân cụm trang Web tiếng Việt

Hiện nay, chúng ta đã quen thuộc với rất nhiều cơng cụ hỗ trợ việc tìm kiếm thơng tin như Google, Yahoo Search, AltaVista, ... Tuy nhiên, đây là công cụ của người nước ngoài nên chúng chỉ giải quyết tốt đối với các yêu cầu của họ. Chúng ta cũng có một số cơng cụ hỗ trợ tìm kiếm thông tin tiếng Việt như: Vinaseek, Netnam, ... Các công cụ này cũng tách từ chủ yếu dựa vào khoảng

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007.

trắng nên việc tìm kiếm cũng chưa được cải thiện. Nhìn chung, để xây dựng một hệ thống tìm kiếm thơng tin Tiếng Việt, chúng ta gặp khó khăn trong việc tách từ Tiếng Việt và xác định bảng mã tiếng Việt. Đồng thời đó cũng chính là khó khăn trong việc phân cụm các tài liệu bằng tiếng Việt vì bước đầu tiên của phân cụm cũng chính là tách từ tiếng Việt [1].

Vấn đề bảng mã Tiếng Việt

Không như tiếng Anh, tiếng Việt có rất nhiều bảng mã địi hỏi phải xử lý. Một số cơng cụ tìm kiếm tiếng Việt hỗ trợ bảng mã rất tốt như Vinaseek, hỗ trợ mọi bảng mã (VNI, TCVN3, ViQR, ...)

Khó khăn trong tách từ Tiếng Việt

Có thể nói tách từ là giai đoạn khó khăn nhất khi xây dựng một hệ tìm kiếm thông tin Tiếng Việt và phân cụm tài liệu Tiếng việt. Đối với tiếng Anh,

việc xác định từ chỉ đơn giản dựa vào khoảng trắng để tách từ. Ví dụ, câu “I am a student” sẽ được tách thành 4 từ: I, am, a, student. Tuy nhiên, đối với Tiếng Việt, tách dựa vào khoảng trắng chỉ thu được các tiếng. Từ có thể được ghép từ một hay nhiều tiếng. Từ phải có ý nghĩa hồn chỉnh và có cấu tạo ổn định. Câu “Tơi là một sinh viên” được tách thành 4 từ: Tôi, là, một, sinh viên. Trong đó, từ “sinh viên” được hình thành từ hai tiếng “sinh” và “viên”.

Hiện nay có rất nhiều phương pháp được sử dụng để tách từ Tiếng Vịêt. Tuy nhiên, với sự phức tạp của ngữ pháp Tiếng Việt nên chưa có phương pháp nào đạt được chính xác 100%. Và việc lựa chọn phương pháp nào là tốt nhất

cũng đang là vấn đề tranh cãi.

Các khó khăn khác

Tiếng Việt có các từ đồng nghĩa nhưng khác âm. Các công cụ hiện nay không hỗ trợ việc xác định các từ đồng nghĩa. Vì vậy, kết qủa trả về sẽ không

đầy đủ.

Ngược lại, có những từ đồng âm khác nghĩa. Các hệ thống sẽ trả về các tài liệu có chứa các từ đã được tách trong câu hỏi mà không cần xác định chúng có thực sự liên quan hay khơng. Vì vậy, kết quả trả về sẽ khơng chính xác.

Một số từ xuất hiện rất nhiều nhưng khơng có ý nghĩa trong tài liệu. Các từ như: và, với, nhưng, ... có tần số xuất hiện rất lớn trong bất cứ văn bản nào.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007.

Nếu tìm cách trả về các tài liệu có chứa những từ này sẽ thu được kết quả vơ ích, khơng cần thiết. Do đó, chúng ta cần tìm cách loại bỏ các từ này trước khi tìm kiếm.

Một phần của tài liệu Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm (Trang 39 - 41)

Tải bản đầy đủ (PDF)

(74 trang)