Xác suất ngữ pháp ngữ cảnh tự do (CFG):

Một phần của tài liệu Nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính luận văn thạc sĩ (Trang 73 - 75)

CFG có thể được tăng lên với xác suất cho mỗi qui tắc tạo mới. Thuận lợi của các xác suất CFG trên khả năng của chúng để bắt nhiều độ chính xác hơn trong cấu trúc sử dụng đã nhúng vào của ngôn ngữ nói để cực tiểu sự nhập nhằng cú pháp. Việc sử dụng xác suất trở nên gia tăng quan trọng để phân biệt nhiều lựa chọn cạnh tranh khi số các qui tắc là lớn.

Vấn đề nhận dạng được quan tâm với quá trình tính toán xác suất của ký hiệu bắt đầu S tạo ra dãy từ W = w1, w2, …wT, cho trước bộ ngữ pháp G:

P(SW|G) (3.27) Vấn đề huấn luyện được quan tâm với việc xác định tập các qui tắc trong G

các luật là cố định, phương pháp đơn giản nhất để dẫn suất các xác suất này là đếm số lần mỗi luật được sử dụng trong tập văn bao gồm những câu đã được phân tích cú pháp. Chúng ta biểu thị xác suất của một luật Aα bởi P(Aα|G). Nếu có m

luật bên tay trái không phải nút cuối A:Aα1, Aα2, …Aαm , chúng ta có thể lượng giá xác suất các luật này như sau:

𝑃(𝐴 →∝𝑗 |𝐺) = 𝐶(𝐴 → ∑ 𝐶(𝐴→∝∝𝑗 𝑖) 𝑚

𝑖=1 ) (3.28) Chúng ta để cho dãy từ W=w1, w2, …wT được tạo bởi xác suất CFG G, với các qui tắc Chomsky:

AiAmAn và Aiwl (3.29) Trong đó Am và An không có khả năng là nút cuối mà mở rộng Ai ở vị trí khác. Xác suất cho các qui tắc này phải thỏa mãn ràng buộc sau:

∑𝑚,𝑛𝑃(𝐴𝑖 → 𝐴𝑚𝐴𝑛|𝐺) + ∑ 𝑃(𝐴𝑙 𝑖 → 𝑤𝑙|𝐺) = 1 , đố𝑖 𝑣ớ𝑖 𝑡ấ𝑡 𝑐ả 𝑖 (3.30)

Hình 3.13. Xác suất bên trong được tính toán một cách đệ quy như tổng của tất cả các dẫn suất

Xác suất bên trong:

inside(j, Ai, k) = P(Aiwjwj+1…wk|G) (3.31) Như xác suất cấu thành bên trong, nó hỗ trợ một xác suất cho một dãy từ bên trong quá trình tạo thành.

Ngoài ra còn có xác suất bên ngoài cho nút không phải là nút cuối Ai bao gồm ws đến wt , trong đó chúng có thể được dẫn suất từ ký hiệu bắt đầu S, cùng với phần còn lại của các từ trong câu:

Hình 3.14. Định nghĩa xác suất bên ngoài

Xác suất bên trong và bên ngoài được sử dụng để tính toán xác suất câu:

𝑃(𝑆 → 𝑤1… 𝑤𝑇) = ∑ 𝑖𝑛𝑠𝑖𝑑𝑒(𝑠, 𝐴𝑖 𝑖, 𝑡)𝑜𝑢𝑡𝑠𝑖𝑑𝑒(𝑠, 𝐴𝑖, 𝑡), đố𝑖 𝑣ớ𝑖 𝑚ọ𝑖 𝑠 ≤ 𝑡 (3.33) Một vấn đề với xác suất CFG là nó giả định sự mở rộng bất kỳ nút không phải nút cuối là độc lập với sự mở rộng các nút khác. Vì vậy mỗi xác suất luật CFG được nhân với nhau mà không cần xem xét vị trí của nút trong cây phân tích cú pháp. Một vấn đề khác là sự thiếu nhay bén với các từ, mặc dù thong tin bộ từ vựng đóng vai trò quan trọng trong việc lựa chọn chính xác quá trình phân tích cú pháp của cụm từ nhập nhằng. Trong xác suất CFG, thông tin bộ từ vựng có thể chỉ được biểu diễn thông qua xác suất của các nút xuất hiện trước nút cuối, như động từ và danh từ, để được mở rộng theo bộ từ vựng. Ta có thể thêm các ràng buộc từ vựng cho xác suất CFG và tạo ra các xác suất CFG nhạy hơn trong cấu trúc cú pháp.

Một phần của tài liệu Nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính luận văn thạc sĩ (Trang 73 - 75)