Dựa theo luật

Một phần của tài liệu Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt (Trang 54)

Bao gồm các cách sau:

 Longest Math, Greedy Matching Models (Yuen Poowarawan, 1986; Sampan Raruom, 1991)

 Mô hình khớp tối đa (Maximal Matching Model -MMM). Mô hình này được chia thành " khớp tối đa tiến" (Forward Maximal Matching) và "khớp tối đa lùi" (Backward Maximal Matching).

Đối với phương pháp này thì một từ điển hoàn chỉnh là không thể thiếu. Tuy nhiên, dễ thấy rằng khó có thể có một từ điển hoàn chỉnh (đặc biệt là các ngôn ngữ vẫn còn tiếp tục phát triển hàng ngày trong thời đại ngày nay). Mô hình này phụ thuộc nhiều vào từ điển, một từ điển không hoàn chỉnh sẽ làm giảm hiệu suất của thuật toán.

Thuật toán so khớp tối đa MMM

Thuật toán so khớp tối đa hoạt động như tên của chính nó. Thuật toán giải quyết bài toán tách từ bằng cách chọn các tách từ nào có nhiều từ nhất (so khớp được nhiều nhất). Thuật toán được áp dụng để xây dựng chương trình tách từ tiếng Trung Quốc MMSEG [8][11]. Thuật toán này có nhiều biến thể khác nhau

 Dạng đơn giản, được dùng để giải quyết nhập nhằng từ đơn. Giả sử có một chuỗi kí tự (tương đương với chuỗi tiếng trong tiếng Việt) C1, C2,...,Cn. Ta bắt đầu từ chuỗi đầu tiên xem C1C2 có phải là từ hay không (so khớp với từ điển). Tiếp tục tìm cho đến khi tìm được từ dài nhất. Từ có vẻ hợp lí sẽ là từ dài nhất. Chọn từ đó, sau đó tìm kiếm như trên những từ còn lại cho đến khi xác định được toàn bộ chuỗi từ.

là đoạn 3 từ với chiều dài tối đa. Thuật toán bắt đầu như dạng đơn giản. Nếu phát hiện ra những các tách từ gây nhập nhằng (ví dụ, C1 là từ và C1C2 cùng là từ), ta xem các chữ kế tiếp để tìm tất cả các đoạn 3 từ có thể có bắt đầu với C1 hoặc C1C2. Ví dụ ta được những đoạn

- C1 C2 C3C4

- C1C2 C3C4 C5 - C1C2 C3C4 C5C6

Chuỗi dài nhất sẽ là chuỗi thứ ba. Vậy từ đầu tiên của chuỗi thứ ba sẽ được (C1C2) chọn. Thực hiện lại các bước cho đến khi được chuỗi từ hoàn chỉnh.

Một phần của tài liệu Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt (Trang 54)

Tải bản đầy đủ (PDF)

(81 trang)