Các luật khử nhập nhằng (Ambiguity Resolution Rules)

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 35)

Dựa vào đặc điểm riêng của tiếng Việt so với tiếng Trung Quốc, các luật sau

đây sẽđược áp dụng:

Luật 1: sử dụng Simple Maximum Matching lấy từ với chiều dài dài nhất, Complex maximum matching lấy từ đầu tiên từ dãy với chiều dài dài nhất. Nếu cĩ nhiều dãy với chiều dài dài nhất, áp dụng luật kế tiếp.

Luật 2: hai từ 2 tiếng khơng đi liền nhau. Điều này hồn tồn đúng trong tiếng Việt, chúng ta xem ví dụ sau đây:

Học sinh học sinh học Cĩ 1 số cách tách từ sau đây:

Học sinh#học sinh#học Học#sinh học#sinh học

Hai từ “Học sinh” và “học sinh” khơng bao giờ đi liền nha, cũng như “sinh học” khơng bao giờ đi liền với “sinh học”.

Luật 3: chiều dài biến động nhỏ nhất (smallest variance of word lengths). Cĩ 1 số ít điều kiện nhập nhằng mà trong luật 1 và luật 2 khơng thể giải quyết được. Ví dụ, cĩ 2 chuỗi (chunks) cĩ cùng chiều dài:

1. _C1C2_ _C3C4_ _C5C6_ 2. _C1C2C3_ _C4_ _C5C6_

Luật 3 sẽ lấy cái đầu tiên từ dãy với chiều dài biến động nhỏ nhất. Trong ví dụ trên, nĩ lấy _C1C2_ từ dãy đầu tiên. Luật này sẽ được áp dụng sau khi áp dụng luật 1. Giả sử của luật này là chiều dài từ phải được phân bố thường ngang nhau. Nếu cĩ nhiều hơn 1 dãy (chunk) thỏa mãn yêu cầu, áp dụng luật kế tiếp.

Luật 4: tần số tiếng cao nhất hay log thấp nhất. Ví dụ sau đây thể hiện rõ 2 chuỗi với cùng chiều dài, biến động:

1. _C1_ _C2_ _C3C4_ 2. _C1_ _C2C3_ _C4_

Cả hai dãy đều cĩ những từ 1 tiếng và 1 từ 2 tiếng. Nhưng cái nào sẽ đúng hơn. Ở đây, chúng ta sẽ tập trung vào những từ 1 tiếng. Các tiếng sẽ khác nhau ở

mức độ tự do hình vị (degree of morphemic freedom). Một vài tiếng hiếm khi được dùng như hình vị tự do. Tần số xuất hiện của các tiếng cĩ thể xem như là chỉ mục của mức độ tự do hình vị. Tiếng cĩ tần số cao rõ ràng là từđơn 1 tiếng và ngược lại. Cơng thức tính tổng độ tự do hình vị là tính tổng của log(frequency) của tất cả các từ 1 tiếng trong dãy. Lý do cho việc dùng biến đổi logarit là cùng lượng khác biệt tần số sẽ khơng cĩ ảnh hưởng phù hợp thơng quan tất cả vùng tần số.

Sau đĩ, luật 4 sẽ lấy từ đầu tiên của dãy với tổng log(frequency) lớn nhất. Khi 2 tiếng cĩ cùng giá trị tần số, lúc đĩ sẽ khơng cĩ nhập nhằng sau khi luật này

được áp dụng.

Chúng ta lấy ví dụ: Học sinh học sinh học

FMM: Học sinh#học sinh#học

BMM: Học#sinh học#sinh học

MMSeg(Luật 2): Học sinh#học#sinh học.

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 35)