Giao diện cú pháp/ngữ nghĩa dựa trên phép hợp nhất với TAG

Một phần của tài liệu Nghiên cứu tích hợp thành phần ngữ nghĩa vào văn phạm tag cho tiếng việt (Trang 37 - 40)

Trong phần này, luận văn trình bày về ngữ nghĩa TAG sử dụng để xây dựng ngữ nghĩa. Phần 2.3 trình bày làm thế nào để tạo ra một TAG trên một quy mô lớn cho các mảnh chính của tiếng Pháp. Phần 2.4 và 2.5 trình bày làm thế nào sử dụng nó để thực hiện xây dựng ngữ nghĩa trong hai cách khác nhau.

2.2.1 Dựa vào đặc trưng TAG

Phương pháp tiếp cận được trình bày trong phần này, biểu diễn ngữ nghĩa là kết hợp sử dụng phép hợp nhất. Chúng tôi sử dụng phép hợp nhất dựa trên phiên bản LTAG cụ thể là, dựa vào đặc trưng TAG (Feature-based TAG-FTAG). FTAG bao gồm một tập các cây cơ sở (cây khởi tạo và cây phụ trợ) và hai phép toán trên cây: Phép thế và phép nối (xem phần 1.1). Phép thế chèn một cây vào một nút lá của một cây khác trong khi đó phép nối (xem hình 1.11) chèn một cây phụ trợ vào một cây dẫn xuất (hoặc là một cây cơ sở hoặc là một cây kết quả của việc kết hợp từ một cây dẫn xuất với một cây cơ sở bằng cách sử dụng phép thế hoặc phép nối).

2.2.2 Ngôn ngữ biểu diễn ngữ nghĩa và cơ chế gắn kết

Khi thực hiện xây dựng ngữ nghĩa, hai câu hỏi chính được đặt ra: lựa chọn ngôn ngữ biểu diễn ngữ nghĩa và cơ chế “gắn kết” được sử dụng để đặt biểu diễn ngữ nghĩa cùng nhau. Phần lớn, các biểu diễn ngữ nghĩa có thể có các cấu trúc đặc trưng, các hạng tử lambda hoặc một vài logic dưới đặc tả (underspecified) trong khi đó cơ chế gắn kết có sẵn bao gồm phép hợp nhất, beta-giảm và logic tuyến tính.

36

Phương pháp được mô tả ở đây giả định quá trình xây dựng ngữ nghĩa dựa trên phép hợp nhất mà các biểu diễn ngữ nghĩa là các biểu diễn ngữ nghĩa phẳng trong phạm vi dưới đặc tả (underspecification)[10]. Quan trọng hơn, các tham số ngữ nghĩa (đó là, các chỉ số ngữ nghĩa biểu diễn cho các đối số còn thiếu của các hàm ngữ nghĩa) được biểu diễn bằng các biến hợp nhất. Như chúng ta thấy trong phần sau, giao diện cú pháp/ ngữ nghĩa được xác định bằng văn phạm theo cách như vậy, cũng như các hàm và các đối số được kết hợp, các tham số ngữ nghĩa được hợp nhất bằng quá trình xây dựng ngữ nghĩa kết hợp với các chỉ số ngữ nghĩa.

Ví dụ, biểu diễn ngữ nghĩa cho hàm ngữ nghĩa every và cho đối số có khả năng của nó cat như trong Ví dụ 1 và Ví dụ 2 mà nguyên tử bắt đầu với một chữ viết hoa là các biến hợp nhất.

Ví dụ 1: l0 :(X,h1 ,h2 ),h1 ≥ Lrestr ,h2 ≥ Lscope

Ví dụ 2: lc: cat(Y)

Kết hợp hai cách biểu diễn này sử dụng văn phạm đã được mô tả trong phần trước biểu diễn cho every cat được cho trong Ví dụ 3 mà cụ thể, xử lý hạn chế Lrestr trong biểu diễn từ every được hợp nhất với nhãn lc trong biểu diễn cho từ

cat và biến riêng X trong biểu diễn của every với biến Y trong từ cat.

Ví dụ 3: l0 :(X,h1 ,h2 ),h1 ≥ Lrestr ,h2 ≥ Lscope, lc: cat(Y)

Chi tiết về ngôn ngữ biểu diễn được sử dụng, tham khảo trong [11]. Tuy nhiên lưu ý rằng lựa chọn một ngôn ngữ biểu diễn ngữ nghĩa cụ thể và một cơ chế gắn kết cụ thể ở đây không đặc biệt quan trọng. Thực tế mục đích phương pháp tiếp cận có thể được áp dụng cho ngôn ngữ biểu diễn ngữ nghĩa khác sử dụng vài cơ chế gắn kết khác.

2.2.3 Mô hình hóa quan hệ giữa cú pháp và ngữ nghĩa

37

cho hàm ngữ nghĩa. Để xác định ánh xạ giữa cú pháp và ngữ nghĩa này, (i) mỗi cây cơ sở trong văn phạm được kết hợp với một biểu diễn ngữ nghĩa của kiểu được phác thảo ở trên và (ii) các nút thích hợp của cây cơ sở được thêm vào các chỉ số ngữ nghĩa hoặc các thông số.

Chính xác hơn, các nút thế của cây kết hợp với hàm ngữ nghĩa sẽ được kết hợp với tham số ngữ nghĩa trong các nút gốc và các nút nối nào đó sẽ được gán nhãn với các chỉ số ngữ nghĩa. Như vậy, các cây được kết hợp, tham số ngữ nghĩa và các chỉ số được hợp nhất bằng cơ chế hợp nhất FTAG mà chỉ số ngữ nghĩa cung cấp giá trị cho tham số ngữ nghĩa. Chẳng hạn trong ví dụ, các cây John, loves và Mary như trong hình 2.1. Cây loves được kết hợp với biểu diễn ngữ nghĩa bao gồm hai tham số ngữ nghĩa x và y. Những tham số này cũng bao gồm nhãn chủ thể và đối tượng các nút thế của cây này. Trái lại, nút gốc của cây John được gán nhãn với chỉ số ngữ nghĩa j. Nếu phân tích cú pháp chuỗi là John loves Mary, cây này sẽ được thay thế tại chủ thể nút thế của cây loves như vậy khởi tạo tham số x cho j. Và tương tự đối với cây Mary.

Hình 2.1- Mô tả ngữ nghĩa câu John loves Mary

Như trong mục 2.4 và 2.5, TAG với giao diện cú pháp/ ngữ nghĩa đã mô tả có thể được sử dụng để ràng buộc biểu diễn ngữ nghĩa hoặc trong hoặc sau quá trình dẫn xuất. Trong trường hợp đầu tiên, các biến hợp nhất thể hiện cả trên các

NP John S NP NP loves VP V NP Mary x j y m

name(j,john) love(x,y) name(m,mary)

38

nút cây và trong các biểu diễn ngữ nghĩa được khởi tạo như phép thế và phép nối được tiến hành và ngữ nghĩa tổng thể của câu được hợp nhất biểu diễn ngữ nghĩa của các cây cơ sở trong modul hợp nhất dẫn xuất của nó. Trong trường hợp thứ hai, từ vựng ngữ nghĩa được trích xuất từ văn phạm và được sử dụng để thực hiện xây dựng ngữ nghĩa trên rừng dẫn xuất (derivation forest) cơ bản.

Một phần của tài liệu Nghiên cứu tích hợp thành phần ngữ nghĩa vào văn phạm tag cho tiếng việt (Trang 37 - 40)

Tải bản đầy đủ (PDF)

(66 trang)