Tách thuật ngữ

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 63 - 67)

c. Mô hình tập thô dung sai

4.2.3.Tách thuật ngữ

Như chúng ta đã đề cập trong phần Những vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên, nhiều phương pháp tách thuật ngữ đã được thế giới nghiên cứu và sử dụng như Đối sánh thuật ngữ dài nhất, Đồ thị chuyển trạng thái (Transducing Graph), Tách dựa cú pháp, Mô hình Markov ẩn… Trong đồ án này em lựa chọn phương pháp Đối sánh thuật ngữ dài nhất. Đây là một phương pháp dễ cài đặt, tốc độ phân tách nhanh, độ chính xác có thể chấp nhận được đối với một bài toán Tóm tắt văn bản.

Phương pháp này dựa trên một từ điển tiếng Việt, nói chính xác hơn là một danh sách các từ, cụm từ (term) tiếng Việt. Có hai phương pháp Đối sánh thuật ngữ dài nhất, đối sánh từ trái qua và đối sánh từ phải qua. Thuật toán đối sánh từ trái qua như sau :

Hình 4.3: Giải thuật tách term từ trái qua

Ví dụ: xét câu

Đầu tiên ta kiểm tra xem trong từ điển có term hôm nay trời đẹp không ? Kết quả là không có. Ta tách bớt âm tiết cuối ra, và kiểm tra hôm nay trời có trong từ điển không ? Kết quả cũng không có. Ta lại bỏ bớt một tiếng nữa ra, kiểm tra từ điển có term

hôm nay không? Kết quả là có, và hôm nay được coi là một term đã tìm thấy. Ta kiểm tra tiếp phần còn lại của câu, còn lại trời đẹp, kiểm tra xem có term này không . Kết quả là không có, ta lại bỏ tiếng đẹp đi và xét xem có term trời không? Kết quả là có, và ta thu được hai term từ truy vấn con thứ nhất là hôm naytrời. Xét đẹp xem có hay không ? Kết quả là có, và ta thu được từ truy vấn con thứ nhất các term hôm nay, trờiđẹp.

Thuật toán đối sánh từ phải qua chỉ khác thuật toán đối sánh từ trái qua đó là lấy chuỗi dài nhất từ cuối câu (vị trí xuất phát là bên phải nhất) và khi ta cắt chuỗi hay tiếng thì ta cắt phần bên trái nhất đi, giữ lại phần bên phải. Cuối cùng khi thuật toán kết thúc, ta đảo ngược lại thứ tự các term tách được trong danh sách term.

Đối với tiếng Việt, độ chính xác của thuật toán đối sánh từ phải qua cao hơn thuật toán từ bên trái, do trong cấu tạo các ngữ danh từ thì các tính từ đứng sau danh từ, còn phần mạo từ hay số từ đi trước không hay kết hợp với các tiếng của danh từ chính để có thể tạo ra mập mờ.

Xét ví dụ sau :

Ban công tác đã xác định được vấn đề.

Khi sử dụng thuật toán từ trái qua, ta sẽ tách được các term như sau : ban công, đã, xác định, được, vấn đề. Như vậy đã có sai sót ở đây.

Khi sử dụng thuật toán từ phải qua, ta sẽ tách được chính xác câu này. Kết quả như sau : vấn đề, được, xác định, đã, công tác, ban. Và ta chỉ cần đảo ngược lại thứ tự này.

Chúng ta còn có thể thấy rất nhiều câu mà khi dùng thuật toán từ phải qua sẽ khắc phục được sai sót của thuật toán từ trái qua như : “Chúng em thuộc địa bàn do anh ta quản lý”hay “Một chiều đường đã bị cấm lưu thông”…Tuy nhiên, cũng có nhiều câu mà cả hai thuật toán này đều không tách đúng. Ví dụ như câu “Học sinh học sinh học”. Rõ ràng, thuật toán Đối sánh thuật ngữ dài nhất tuy dễ cài đặt nhưng độ chính xác không cao như các thuật toán khác.

Thông qua các phân tích trên đây, em lựa chọn cài đặt thuật toán thuật toán Đối sánh thuật ngữ dài nhất từ phải qua cho ứng dụng của mình. Sau đây là sơ đồ cụ thể của thuật toán này :

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 63 - 67)