Vấn đề tìm kiếm tiếng Việt và tiếp cận

Một phần của tài liệu LUẬN VĂN:NGHIÊN CỨU MÁY TÌM KIẾM QUA HỆ THỐNG GREENSTONE potx (Trang 45 - 46)

Do Tiếng Việt là ngôn ngữ đơn lập. Đặc điểm này bao quát tiếng Việt cả về mặt ngữ âm, ngữ nghĩa, ngữ pháp. Khác với các ngôn ngữ Ấn-Âu, mỗi từ là một nhóm các ký tự có nghĩa được cách nhau bởi một khoảng trắng. Còn tiếng Việt, và các ngôn ngữ đơn lập khác, thì khoảng trắng chỉ là căn cứ để nhận diện tiếng. Các tiếng kết hợp với nhau tạo nên từ. Từ là sự hoàn chỉnh về mặt nội dung, là đơn vị nhỏ nhất để đặt câu.Vì vậy tách từ là một khâu quan trọng trong quá trình lập chỉ mục.

Chúng tôi nhận thấy việc tách từ trong tiếng Việt là một bài toán khó vì những nguyên nhân sau đây:

- Từ ở dạng nguyên thể, hình thức và ý nghĩa của từ độc lập với cú pháp.

- Từ bao gồm nhiều tiếng.

- Từ bao gồm từ đơn (từ một tiếng) và từ phức (n tiếng , với n<5), bao gồm từ láy và từ ghép.

- Các tiếng cuối của từ này có thể là tiếng đầu của từ khác.

- Gianh giới giữa các từ có thể là dấu trắng cũng chính là gianh giới giữa các tiếng

Trong luận văn này, chúng tôi xây dựng tách từ trong văn bản tiếng Việt dựa trên thuật toán tách từ dài nhất (Longest matching), việc tách từ chủ yếu dựa trên các thông tin có trên từ điển. Do chỉ dựa vào từ điển mà không dựa trên văn cảnh nên phương pháp này có nhiều hạn chế trong việc xử lý các trường hợp nhập nhằng có trong văn bản.

Thuật toán tách từ dài nhất là thuật toán dựa trên tư tưởng tham lam, nó xét các tiếng từ trái qua phải, các tiếng đầu tiên dài nhất có thể mà xuất hiện

các tiếng. Thuật toán này chỉ đúng khi không có sự nhập nhằng những tiếng đầu của từ sau có thể ghép với từ trước tạo thành một từ có trong từ điển. Nếu xét từng câu một, độ phức tạp của thuật toán này là O (L * L * O (của thao tác tìm kiếm một từ trong từ điển)), L là số tiếng trong câu . Do số tiếng của một từ nhỏ hơn 5 nên có thể cải thiện thành O ( L*(độ phức tạp của thao tác tìm kiếm một từ trong từ điển)). Do vậy, để thuật toán nhanh cần xây dựng cách tìm một từ trong từ điển sao cho nhanh nhất có thể. Có thể dùng cách tìm kiếm bằng bảng băm, tìm kiếm nhị phân,….

Ví dụ minh hoạ: tôi yêu thích học môn toán

Một phần của tài liệu LUẬN VĂN:NGHIÊN CỨU MÁY TÌM KIẾM QUA HỆ THỐNG GREENSTONE potx (Trang 45 - 46)