Xuất giải thuật lelightwin nhằm cải tiến A* trong phân tích cú pháp tiếng Việt.

Một phần của tài liệu Phân tích cú pháp trong tổng hợp tiếng nói tiếng việt (Trang 40)

3.1.4.Nhận xét về thuật toán beam search

3.3. xuất giải thuật lelightwin nhằm cải tiến A* trong phân tích cú pháp tiếng Việt.

tích cú pháp tiếng Việt.

3.3.1.Đặt vấn đề

Theo như giải thuật A* đã trình bày ở trên thì tại bước 2, ta sẽ lấy ứng cử viên sáng giá nhất ra khỏi AGENDA và cho kết hợp với từng phần tử trong CHART, sự kết hợp này sẽ tạo ra một tổ hợp mới trong tập AGENDA. Nếu như hai phần tử có thể kết hợp thành một phần tử đầy đủ thì mọi chuyện trở nên quá dễ dàng. Tuy nhiên, đa số các trường hợp kết hợp như trên lại đều để lại biến wait dẫn đến việc các tổ hợp được sinh ra là quá nhiều. Ví dụ như trường hợp kết hợp hai phần tử N và N tạo ra đến 64 phần tử trong đó có đến 63 trường hợp là có biến wait. Nếu phân

tích những câu nhỏ tầm khoảng 20 tokens đổ xuống thì không gặp nhiều vấn đề. Nhưng nếu với những câu dài và khó với độ phức tạp là 40-50 tokens thì số lượng các bước cần phải lặp có thể lên đến gần 10000 bước!

Lí do của sự bùng nổ này là do tập luật cú pháp của chúng ta quá lớn. Cho nên khi kết hợp hai phần tử X và Y có sử dụng biến wait thì tất cả các luật cú pháp có dạng Z → X Y…. đều góp phần tạo ra tổ hợp phần tử khổng lồ.

Qua đó, ta có thể thấy rằng trong trường hợp tập luật cú pháp quá lớn, thì việc sử dụng biến wait có thể gây bùng nổ tổ hợp. Thế nên đồ án đã quyết định đề xuất ra một giải thuật để cải tiến cho thuật toán A* về vấn đề này, được gọi là giải thuật lelightwin.

Một phần của tài liệu Phân tích cú pháp trong tổng hợp tiếng nói tiếng việt (Trang 40)

Tải bản đầy đủ (DOCX)

(89 trang)
w