Chương 7 VẤN ĐỀ PHÂN TÍCH CÚ PHÁP VÀ LTAG
7.2 Văn phạm kết nối cây từ vựng hoá (Lexicalized Tree Adjoining Grammar - LTAG)
TAG là một hệ hình thức viết lại dạng cây, được đưa ra vào nửa cuối thập kỉ 80. LTAG là một hệ hình thức tương đương, có thêm ràng buộc từ vựng hoá. LTAG đã được nghiên cứu kĩ cho tiếng Pháp và tiếng Anh (XTAG, 2001; Abeillé, 2002). Việc lựa chọn LTAG trong khuôn khổ dự án xuất phát từ 2 yếu tố lí thuyết và thực hành. Về mặt lí thuyết, giao diễn cú pháp/ngữ nghĩa trong TAG được thể hiện đơn giản hơn trong văn phạm phi ngữ cảnh, nhờ các miền địa phương mở rộng trong TAG; trong khi đó thì độ phức tạp thời gian của các bộ phân tích cú pháp TAG vẫn là thời gian đa thức (O(n6)). Về mặt thực hành, các công cụ tổng quát cho các hệ thống phân tích cú pháp dựa vào hệ hình thức LTAG khá nhiều (XTAG, Daylog) và cũng được triển khai ở LORIA từ lâu nay (Crabbé et al., 2003). Ngoài ra, có cả một chuẩn định dạng cho dữ liệu TAGML (Bonhomme & Lopez, 2000). Như vậy, trong khuôn khổ của đề tài này, nhiệm vụ chính của chúng tôi là thực hiện mô tả ngữ pháp tiếng Việt theo mô hình TAG.
Trong phần này chúng tôi tóm tắt các đặc điểm của mô hình LTAG.
LTAG thao tác với các đối tượng cơ bản có cấu trúc (cây) chứ không phải là các xâu.
Việc sử dụng các đối tượng có cấu trúc cho phép xây dựng các hệ hình thức có khả năng sinh mạnh, tức là cho phép sinh các mô tả cấu trúc chứ không chỉ sinh ra tập các xâu.
7.2.1 Định nghĩa hình thức của văn phạm TAG
Mô hình lí thuyết của văn phạm TAG là một bộ năm (Σ, N, I, A, S), trong đó:
o Σ: tập các kí hiệu kết thúc (bảng chữ cái chính) o N: tập các kí hiệu không kết thúc (bảng chữ cái phụ) o I: tập các cây cơ sở khởi đầu (initial)
o A: tập các cây cơ sở phụ trợ (auxiliary) o S: tiên đề (S ∈ N)
Các cây cơ sở trong văn phạm đều là các cây mà mỗi nút được đánh dấu (đặt tên) bằng một kí hiệu kết thúc hoặc không kết thúc. Các nút được đánh dấu bằng một kí hiệu kết thúc đều là các nút lá của cây.
Hai thao tác trong văn phạm TAG là phép nối (adjoining) và phép thế (substitution).
Đối với các cây khởi đầu, mỗi nút lá có kí hiệu không kết thúc có đánh dấu ↓ thể hiện khả năng thực hiện phép thế tại các nút đó.
Đối với các cây phụ trợ, mỗi cây đều có chứa một nút lá trùng tên với nút gốc (mang kí hiệu không kết thúc). Ở nút lá này được đánh dấu bằng kí hiệu * và được gọi là nút chân của cây phụ trợ. Mỗi cây phụ trợ chỉ có một nút chân.
Sơ đồ mô tả :
81
Hình7-2. Cây cơ sở
Phép nối được thực hiện tại một nút X trong một cây khởi đầu với một cây phụ trợ có nút gốc là X. Sơ đồ mô tả phép nối như sau:
Hình 7-3. Sơ đồ phép nối cây
Phép thế được thực hiện ở nút lá X trong cây khởi đầu với một cây khởi đầu khác có nút gốc là X. Sơ đồ mô tả phép thế như sau:
Hình 7-4. Sơ đồ phép thế
X X*
X
X
X
X↓
X↓ X*
X
cây cơ sở khởi đầu với các
nút thay thế ở lá cây cơ sở phụ trợ với nút chân
82
Ở các nút trong cây muốn ràng buộc cấm thực hiện phép nối, quy ước viết thêm kí hiệu NA.
Khi phân tích một câu với hệ hình thức TAG, kết quả thu được gồm có 2 cây: cây cú pháp biểu diễn phụ thuộc ngữ pháp giữa các thành phần, và cây dẫn xuất biểu thị phụ thuộc ngữ nghĩa.
Ở đây cần chú ý là khác với văn phạm phi ngữ cảnh trong đó khi cho cây cú pháp ta suy ra được ngay các dẫn xuất đã thực hiện, còn đối với TAG thì cho cây cú pháp không suy ra được các dẫn xuất - mà phải cần đến cây dẫn xuất để làm được điều này. Cây dẫn xuất có cấu tạo như sau: các nút trên cây được đánh dấu bằng tên của các cây cơ sở tham gia vào dẫn xuất, mỗi cung nối giữa 2 nút của cây được đánh dấu bằng thao tác thực hiện trên 2 cây tương ứng với 2 nút đó (phép nối hay phép thế) và vị trí thực hiện thao tác trên cây cơ sở. Các vị trí trên mỗi cây cơ sở được đánh số như sau: nút gốc được đánh số 0; các nút thuộc tầng có độ sâu 1 được đánh số từ 1 trở đi; các nút thuộc tầng n+1 (n>=1) được đánh số n.1, n.2 v.v.
Có 4 nguyên tắc xây dựng cây cơ sở trong mô hình TAG (Abeillé, 1993):
Nguyên tắc từ vựng hoá hay "neo" từ vựng: tất cả các cây cơ sở đều có ít nhất một trung tâm từ vựng khác rỗng
Nguyên tắc đồng xuất hiện vị từ và đối hay chia phạm trù: mọi vị từ chứa trong cấu trúc cơ sở của nó ít nhất một nút cho mỗi đối mà nó chia phạm trù.
Nguyên tắc ngữ nghĩa nhất quán: mọi cây ngữ pháp cơ sở đều có một ngữ nghĩa tương ứng khác rỗng.
Nguyên tắc phi hỗn hợp: mỗi cây cơ sở chỉ tương ứng với một đơn vị ngữ nghĩa.
Các tính chất ngữ pháp ràng buộc khả năng thực hiện các thao tác kết nối hay thay thế được thể hiện qua các cấu trúc đặc trưng (feature structure) gắn với mỗi nút trên cây ngữ pháp.
Cấu trúc đặc trưng của một đối tượng là một tập hợp các cặp thuộc tính và giá trị thuộc tính gắn với đối tượng đó. Mỗi khi thực hiện phép thế hay phép nối, người ta cũng thực hiện phép hợp nhất (unification) các cấu trúc đặc trưng (tức là hợp nhất các giá trị cho mỗi thuộc tính trong các cấu trúc đặc trưng được xét) tại nút nối hay nút thế. Nếu phép hợp nhất không thành công (sinh ra các thuộc tính có giá trị không nhất quán) thì thao tác đó không được phép. Trong mô hình TAG, các thuộc tính trong mỗi cấu trúc có thể được phân loại: thuộc tính trên và thuộc tính dưới. Việc phân loại này có ý nghĩa đối với phép thế và phép nối. Khi thực hiện phép nối ở một nút nào đó, thì các thuộc tính trên của nút đó được hợp nhất với các thuộc tính trên của nút gốc trong cây phụ trợ, còn các thuộc tính dưới của nút đó được hợp nhất với các thuộc tính dưới của nút chân trong cây phụ trợ. Hình 7-5 và Hình 7-6 dưới đây minh hoạ nguyên tắc kết hợp thuộc tính cho phép thế và phép nối.
Hình 7-5. Sơ đồ phép thế với cấu trúc đặc trưng
X
X X↓
t
tr br
t U tr br
83
Hình 7-6. Sơ đồ phép nối cây với cấu trúc đặc trưng
Một khái niệm khác cho mô hình TAG mở rộng là "họ" cây cơ sở. Họ cây cơ sở là một tập hữu hạn các cây cơ sở có quan hệ cải biến (transformation) với nhau.