Thuật tốn MM và các biến thể của nĩ

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 34)

Các nghiên cứu khác nhau cho thấy vấn đề tách từ khác nhau ở chỗ là giải quyết vấn đề nhập nhằng. MM cĩ nhiều hình thức khác nhau:

- MM đơn giản (Simple MM): hình thức cơ bản nhất là giải quyết nhập nhằng của từđơn. Ví dụ: giả sử C1, C2, … Cn biểu diễn cho dãy tiếng của 1 chuỗi. Chúng ta ở đầu của 1 chuỗi và muốn biết đâu là từ. Đầu tiên, chúng ra tìm trong tập từ vựng, nếu _C1_ là 1 từđơn 1 tiếng thì tìm tiếp _C1C2_ thử, và nếu nĩ là từ 2 tiếng và cứ tiếp tục như vậy cho đến khi sự kết hợp các tiếng tạo thành từ dài nhất trong tập từ vựng. Từ hợp lý nhất sẽ là từđược so khớp dài nhất. Chúng ta lấy từ này, sau

đĩ tiếp tục tiến trình cho đến khi từ cuối cùng của chuỗi được nhận ra.

- MM phức tạp (Complex MM): 1 biến thể khác của giải thuật MM được hồn thành bởi [20] cĩ hình thức phức tạp hơn hình thức cơ bản trên. Họ thêm 1 số

luật cho rằng việc tách từ hợp lý nhất là 1 dãy ba từ với chiều dài dài nhất. Một lần nữa, chúng ta lại bắt đầu ở đầu chuỗi và muốn biết đâu là từ. Nếu chúng ta bắt gặp

những đoạn nhập nhằng xảy ra (_C1_ là 1 từ, nhưng _C1C2_ cũng là 1 từ, …) thì chúng ta sẽ nhìn tiếp theo 2 từ để tìm ra dãy 3 từ cĩ thể cĩ bắt đầu với _C1_ và _C1C2_. Ví dụ: 1._C1_ _C2_ _C3C4_ 2._C1C2_ _C3C4_ _C5_ 3._C1C2_ _C3C4_ _C5C6_

Chuỗi với chiều dài dài nhất là cái thứ 3. Từ đầu tiên, _C1C2_ của chuỗi thứ

3 sẽđược xem như là 1 từđúng. Chúng ta chọn từ này, tiếp tục tiến trình từ tiếng C3

cho đến khi từ cuối cùng của chuỗi được nhận ra.

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 34)