Phƣơng pháp Maximum Matching: Forward/Backward

Một phần của tài liệu Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ (Trang 30)

Phƣơng pháp khớp tối đa (MM - Maximum Matching) hay còn gọi là LRMM- Left Right Maximum Matching. Ở phƣơng pháp này, chúng ta sẽ duyệt một ngữ hoặc câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và cứ thực hiện lặp lại nhƣ vậy cho đến hết câu.

Dạng đơn giản của phƣơng pháp dùng để giải quyết nhập nhằng từ đơn. Giả sử chúng ta có một chuỗi ký tự C1, C2, …, Cn. Chúng ta sẽ áp dụng phƣơng pháp từ đầu chuỗi. Đầu tiên kiểm tra xem C1 có phải là từ hay không, sau đó kiểm tra xem C1C2 có phải là từ hay không. Tiếp tục thực hiện nhƣ thế cho đến khi tìm đƣợc từ dài nhất.

Dạng phức tạp: Quy tắc của dạng này là phân đoạn từ. Thông thƣờng ngƣời ta chọn phân đoạn ba từ có chiều dài tối đa. Thuật toán bắt đầu từ dạng đơn giản, cụ thể là nếu phát hiện ra những cách tách từ gây nhập nhằng, nhƣ ở ví dụ trên, giả sử C1 là từ và C1C2 cũng là một từ, khi đó chúng ta kiểm tra ký tự kế tiếp trong chuỗi C1, C2, ….., Cn để tìm tất cả các đoạn có ba từ bắt đầu với C1 hoặc C1C2.

Ví dụ: Giả sử chúng ta có đƣợc các đoạn sau:

- C1 C2 C3 C4

-C1C2 C3C4 C5 -C1C2 C3C4 C5C6

Khi đó chuỗi dài nhất sẽ là chuỗi thứ ba. Do đó từ đầu tiên của chuỗi thứ ba (C1C2) sẽ đƣợc chọn. Thực hiện các bƣớc cho đến khi đƣợc chuỗi từ hoành chỉnh.

Nhận xét:

Phƣơng pháp này thực hiện tách từ đơn giản, nhanh và chỉ cần dựa vào từ điển để thực hiện. Tuy nhiên, khuyết điểm của phƣơng pháp này cũng chính là từ điển, nghĩa là độ chính xác khi thực hiện tách từ phụ thuộc hoàn toàn vào tính đủ, tính chính xác của từ điển.

Một phần của tài liệu Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ (Trang 30)