Mô hình 2: Phân biệt định ngữ và bổ ngữ, subcategorization

Một phần của tài liệu LUẬN VĂN: PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN THỐNG KÊ docx (Trang 34 - 36)

Ta thử lấy một cây như sau trong tiếng Anh:

Hình 12: Cây cú pháp với hậu tố - C đánh dấu complement. "IBM" và "Lotus" là chủ ngữ và bổ ngữ, trong khi "Last week" là định ngữ.

Trong mô hình hai này, để đánh dấu đâu là bổ ngữ thì ta đưa thêm hậu tố -C vào mỗi ký tự không kết thúc. Tại sao việc xác định bổ ngữ lại quan trọng? Trong ví dụ trên, “IBM” được xác định là chủ ngữ của câu, còn “Last week” là thành phần bổ nghĩa, mặc dù cả hai cùng được gán nhãn NP, ngoài ra “Lotus” cũng là một danh từ được gán nhãn NP, ở đây “Last week” là một thành phần bổ nghĩa cho sự kiện, còn “Lotus” lại bổ nghĩa cho động từ “bought”. Vì vậy “Lotus” là bổ ngữ (complement), “Last week” là định ngữ (adjunction). Sự khác biệt về chức năng của hai nhãn NP

26

(“Last week”, và “IBM”) là không phù hợp trong cây cú pháp, vì hai nhãn NP đặt cùng vị trí. Ngoài ra, chúng ta chỉ có thể đưa những thông tin này vào trong quá trình phân tích. Việc đưa thông tin này vào làm tăng khả năng xác định cây cú pháp đúng, giảm sự nhập nhằng của văn phạm.

- Việc xác định bổ ngữ rất phức tạp đối với việc sử dụng xác suất. Thông tin về từ vựng là cần thiết. Ngoài ra, độ ưu tiên của các subcategoziation cũng cần được để ý đến.

- Trong quá trình phân tích cú pháp, việc phân biệt bổ ngữ và định ngữ cũng làm tăng độ chính xác.

Ta sử dụng ví dụ sau:

Hình 13: Hai ví dụ về các thành phần bổ trợ được sinh ra một cách độc lập đã gây ra sai số.

Việc xác định định ngữ và bổ ngữ có thể thông qua các luật đơn giản ví dụ như đối với Penn Treebank đó là một ký tự không kết thúc nếu là NP, SBAR, hoặc S có cha là S thì sẽ được đưa vào trong subcategoration frame. Trong ngôn ngữ có rất nhiêu luật quy định thành phần nào được đưa vào trong subcategorization frame, ví dụ trên chỉ là một trường hợp nhỏ. Dựa vào subcategorization frame ta có thể đưa ra được mô hình xác suất cho mô hình 2.

Mô hình một có thể được huấn luyện với tập dữ luyện nâng cao bao gồm các ký tự không kết thúc và quá trình học các thông tin từ vựng có thể chỉ ra được sự phân biệt giữa bổ ngữ và định ngữ. Tuy nhiên, nó vẫn còn gặp phải những ước lượng độc lập tồi. Đề giải quyết vấn đề này, quá trình xử lý mới thừa kế mô hình một được cải tiến bằng cách thêm vào xác suất phụ thuộc của subcategorization frame trái và phải:

- Lựa chọn head H với xác suất

- Lựa chọn subcat frames trái và phải, LC và RC với xác suất và . Mỗi một subcat frame là một tập (tập này có thể chứa các ký tự không kết thúc có nhãn giống nhau) các từ bổ nghĩa cho head ở phía trái hoặc phải.

27

- Tính toán xác suất cho các từ bồ nghĩa ở vế trái hoặc phải của head dựa vào

biểu thức và

. Vì vậy, subcat cần được thêm vào trạng thái của ngữ cảnh. Trong trường hợp bổ ngữ được sinh ra, chúng sẽ bị loại bỏ trong các tập subcat thích hợp. Quan trọng nhất là xác suất của ký tự STOP được gán là 0 khi tập subcat không rỗng và xác suất của bổ ngữ bằng 0 khi nó không nằm trong tập subcat nào cả.

Một phần của tài liệu LUẬN VĂN: PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN THỐNG KÊ docx (Trang 34 - 36)

Tải bản đầy đủ (PDF)

(78 trang)