Định nghĩa

Một phần của tài liệu LUẬN VĂN: PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN THỐNG KÊ docx (Trang 28 - 29)

Một hướng tiếp cận mới trong việc xây dựng bộ phân tích cú pháp là sử dụng phương pháp thống kê. Bài toán phân tích cú pháp giống như một bài toán trong học máy, thông qua quá trình huấn luyện xây dựng một mô hình xác suất, để thực hiện việc lựa chọn cây cú pháp phù hợp nhất. Trong phần này chúng ta sẽ tiếp cận văn phạm phi ngữ cảnh xác suất (PCFG – Probabilistic Context Free Grammar). Mô hình đơn giản nhất của PCFG là văn phạm phi ngữ cảnh (CFG – Context Free Grammar) với xác suất được thêm vào mỗi luật. Tại sao lại sử dụng PCFGs, đó là vì: PCFGs rất đơn giản và mô hình xác suất đơn giản đối với cấu trúc cây, mô hình toán học đơn giản, thuật toán không quá phức tạp, v.v…

Văn phạm phi ngữ cảnh xác suất bao gồm: - Tập các ký tự kết thúc { wk } với k = 1, 2, … V - Tập các ký tự không kết thúc { Ni } với i = 1, 2, … n - Ký tự N1 được gọi là ký tự bắt đầu

- Tập các luật có dạng Ni  αj với α  [ w x N ]*

- Tương ứng với mỗi luật là một xác suất P (Ni  αj) sao cho với J là tống số luật có vế trái là Ni.

Khi viết P (Ni  αj) có nghĩa là P (Ni  αj | Ni) – xác suất sử dụng luật Ni  αj khi xuất hiện vế trái Ni. Để miêu tả một câu là dùng chuỗi sau: w1w2…wm hay wab để miêu tả một chuỗi ký tự không kết thúc wa…wb. Một dạng rút gọn khi biểu diễn các nhánh cây có gốc là nốt Ni và dẫn xuất ra xâu wa…wb như sau:

Ta có thể hiểu rằng xâu wa…wb có thể dẫn xuất từ Nj. Xác suất của một câu sẽ được tính theo công thức

với t là cây cú pháp của xâu. Ta thử áp dụng PCFGs cho tập văn phạm ở phần 2.1: S  NP VP 1.0 (1) NP  N 1.0 (2) N  “tôi” 0.33 (3) N  “bò” 0.33 (4) N  “cỏ” 0.34 (5) VP  V 0.5 (6) VP  V PP 0.5 (7) V  “ăn” 0.5 (8) V  “bò” 0.5 (9) wa…wb N

20 PP  N 1.0 (10)

Hình 7: Cây cú pháp của câu "bò ăn cỏ "

Giả sử với cây cú pháp này ta sẽ tính toán xác suất của cây

Một phần của tài liệu LUẬN VĂN: PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN THỐNG KÊ docx (Trang 28 - 29)

Tải bản đầy đủ (PDF)

(78 trang)