Kết hợp tính toán lambda trong biểudiễn ngữ nghĩa

Một phần của tài liệu Nghiên cứu tích hợp thành phần ngữ nghĩa vào văn phạm tag cho tiếng việt (Trang 33)

Bằng việc sử dụng tính toán lambda, chúng ta biểu diễn các ký hiệu thu được từ việc phân tích cú pháp thành các biểu thức lambda và tiến hành kết hợp chúng theo các quy tắc tính toán lambda.

Biểu diễn một số từ loại bằng biểu thức lambda

Để tiện theo dõi, phép áp dụng (M N) sẽ được viết thành (M@N). Trong phần này, chúng ta sẽ chỉ dừng lại ở việc xét cấu trúc ngữ pháp với các luật như sau:

1. S -> NP, VP; 2. NP -> PN; 3. NP -> Det, Noun; 4. VP -> IV; 5. VP -> TV, NP. Trong đó:

32

 S là ký hiệu của câu.

 NP là cụm danh từ.  VP là cum động từ.  PN là danh từ riêng.  Det là lượng từ.  Noun là danh từ.  IV là nội động từ.  TV là ngoại động từ.

Với phân tích này, biểu diễn lambda của các thành phần câu tương ứng là:

Danh từ thƣờng x.Noun(x) Danh từ riêng P.P@PN Ngoại động từ X.z.(X@x.TV(z, x)) Nội động từ x.IV(x) Lƣợng từ Lượng từ toàn thể: P.Q.x(P(x)Q(x)) Lượng từ tồn tại: P. Q. x(P(x)Q(x))

Chúng ta sẽ xét một ví dụ về việc kết hợp tính toán lambda vào việc xây dựng công thức logic từ câu trong ngôn ngữ tự nhiên. Xét ví dụ:

An thích Bình.

33

Với việc phân tích cú pháp, chúng ta sẽ thu được các thành phần: ngoại động từ "THÍCH", danh từ riêng là chủ ngữ "AN", danh từ riêng là tân ngữ "BÌNH". Với các thành phần này chúng ta sẽ có biểu diễn nghĩa tương ứng của chúng bằng biểu thức lambda:

Danh từ riêng AN, BÌNH: P.P@AN, P.P@BÌNH. Ngoại động từ THÍCH: X.z.(X@x.THÍCH(z,x)).

Quá trình kết hợp cùng được thực hiện theo phân tích cú pháp: ngoại động từ THÍCH kết hợp với danh từ riêng BÌNH thành cụm vị ngữ, sau đó cụm vị ngữ này kết hợp cùng danh từ riêng (đóng vai trò chủ ngữ) AN thành câu.

Tổng kết

Tóm lại, trong chương này, chúng ta đã mô tả ngắn gọn về văn phạm kết nối cây; phân tích cú pháp tiếng Việt đối với các câu danh ngữ, câu có động từ làm trung tâm, câu có tính từ làm trung tâm kết hợp sử dụng văn phạm TAG . Chúng ta đã biểu diễn được ngữ nghĩa của một câu trong ngôn ngữ tự nhiên thành một công thức logic với sự hỗ trợ của tính toán lambda. Trong chương tiếp theo chúng ta sẽ nghiên cứu tích hợp ngữ nghĩa vào trong văn phạm TAG trong ngôn ngữ tiếng Anh, tiếng Pháp, từ đó chúng ta có cái nhìn tổng thể để có thể xây dựng ngữ nghĩa vào TAG cho tiếng Việt.

34

Chƣơng 2- TÍCH HỢP NGỮ NGHĨA CHO VĂN PHẠM TAG 2.1 Giới thiệu

Phát triển một văn phạm kết nối cây (TAG) mà có chứa thông tin cần thiết để xây dựng tính toán ngữ nghĩa cơ bản của các câu là một kỹ thuật phức tạp. Để đảm bảo tính thống nhất, dễ viết, bảo trì và gỡ lỗi, bởi vậy nó quan trọng để thông tin này được mô tả theo mức thích hợp của sự trừu tượng. Trong phần thứ nhất của chương này (phần 2.2 và 2.3), luận văn trình bày làm thế nào để khai thác thông tin dùng chung của thông tin ngữ nghĩa vào trong TAG sử dụng một hình thức văn phạm có ý nghĩa đặc biệt được phát triển gần đây bởi [7].

Trong phần thứ hai của chương này trình bày làm thế nào kết quả TAG có thể được sử dụng để hỗ trợ xây dựng ngữ nghĩa đó là, kết hợp các câu được tạo ra bởi văn phạm với một biểu diễn ngữ nghĩa. Trái ngược với khung ngôn ngữ khác như văn phạm chức năng từ vựng (Lexical Functional Grammar-LFG), văn phạm cấu trúc đoạn hướng trung tâm (Head Driven Phrase Structure Grammar-HPSG) hoặc văn phạm phân loại (Categorial Grammar-CG), trong TAG không có sự thống nhất rõ ràng về cách thực hiện xây dựng ngữ nghĩa.Điều này là vì TAG kết hợp không chỉ với mộtdẫn xuất, mà với hai cấu trúc cụ thể là, cây dẫn xuất (derivation tree) và cây phân tích (derived tree), hai cấu trúc này hỗ trợ tốt nhất xây dựng ngữ nghĩa. Như cây cơ sở TAG cục bộ phụ thuộc tham số vị từ thì cây dẫn xuất có sự tương đồng với cây phụ thuộc ngữ nghĩa, cây dẫn xuất TAG được thực hiện để cung cấp một cơ sở thích hợp cho xây dựng ngữ nghĩa. Tuy nhiên, nó đã được chứng minh rằng cây dẫn xuất không cung cấp tất cả các thông tin cần thiết để thực hiện xây dựng ngữ nghĩa trong tất cả các trường hợp có thể [7,8,9] và thông tin từ cây phân tích cũng được đưa vào để xây dựng ngữ nghĩa.

Trong phần thứ hai của chương này, luận văn sẽ trình bày cách mô tả ngữ nghĩa TAG trong phần thứ nhất có thể được sử dụng để hỗ trợ hai phương pháp xây dựng ngữ nghĩa, cả hai đều dựa trên thông tin chứa trong cây phân tích. Phương pháp thứ nhất theo sự hợp nhất dựa trên thực tiễn văn phạm và thực hiện

35

xây dựng ngữ nghĩa trong quá trình phân tích cú pháp (phần 2.4) trong khi phương pháp thứ hai, xây dựng ngữ nghĩa được thực hiện sau phân tích cú pháp trên cơ sở một rừng dẫn xuất bằng cách tận dụng từ cấu trúc chia sẻ được hỗ trợ bởi các biểu diễn đóng như vậy. Kết quả của nghiên cứu đặt nền tảng cho khám phá hệ thống liên quan đến hiệu quả của hai phương pháp xây dựng ngữ nghĩa này cho TAG.

2.2. Giao diện cú pháp/ngữ nghĩa dựa trên phép hợp nhất với TAG

Trong phần này, luận văn trình bày về ngữ nghĩa TAG sử dụng để xây dựng ngữ nghĩa. Phần 2.3 trình bày làm thế nào để tạo ra một TAG trên một quy mô lớn cho các mảnh chính của tiếng Pháp. Phần 2.4 và 2.5 trình bày làm thế nào sử dụng nó để thực hiện xây dựng ngữ nghĩa trong hai cách khác nhau.

2.2.1 Dựa vào đặc trưng TAG

Phương pháp tiếp cận được trình bày trong phần này, biểu diễn ngữ nghĩa là kết hợp sử dụng phép hợp nhất. Chúng tôi sử dụng phép hợp nhất dựa trên phiên bản LTAG cụ thể là, dựa vào đặc trưng TAG (Feature-based TAG-FTAG). FTAG bao gồm một tập các cây cơ sở (cây khởi tạo và cây phụ trợ) và hai phép toán trên cây: Phép thế và phép nối (xem phần 1.1). Phép thế chèn một cây vào một nút lá của một cây khác trong khi đó phép nối (xem hình 1.11) chèn một cây phụ trợ vào một cây dẫn xuất (hoặc là một cây cơ sở hoặc là một cây kết quả của việc kết hợp từ một cây dẫn xuất với một cây cơ sở bằng cách sử dụng phép thế hoặc phép nối).

2.2.2 Ngôn ngữ biểu diễn ngữ nghĩa và cơ chế gắn kết

Khi thực hiện xây dựng ngữ nghĩa, hai câu hỏi chính được đặt ra: lựa chọn ngôn ngữ biểu diễn ngữ nghĩa và cơ chế “gắn kết” được sử dụng để đặt biểu diễn ngữ nghĩa cùng nhau. Phần lớn, các biểu diễn ngữ nghĩa có thể có các cấu trúc đặc trưng, các hạng tử lambda hoặc một vài logic dưới đặc tả (underspecified) trong khi đó cơ chế gắn kết có sẵn bao gồm phép hợp nhất, beta-giảm và logic tuyến tính.

36

Phương pháp được mô tả ở đây giả định quá trình xây dựng ngữ nghĩa dựa trên phép hợp nhất mà các biểu diễn ngữ nghĩa là các biểu diễn ngữ nghĩa phẳng trong phạm vi dưới đặc tả (underspecification)[10]. Quan trọng hơn, các tham số ngữ nghĩa (đó là, các chỉ số ngữ nghĩa biểu diễn cho các đối số còn thiếu của các hàm ngữ nghĩa) được biểu diễn bằng các biến hợp nhất. Như chúng ta thấy trong phần sau, giao diện cú pháp/ ngữ nghĩa được xác định bằng văn phạm theo cách như vậy, cũng như các hàm và các đối số được kết hợp, các tham số ngữ nghĩa được hợp nhất bằng quá trình xây dựng ngữ nghĩa kết hợp với các chỉ số ngữ nghĩa.

Ví dụ, biểu diễn ngữ nghĩa cho hàm ngữ nghĩa every và cho đối số có khả năng của nó cat như trong Ví dụ 1 và Ví dụ 2 mà nguyên tử bắt đầu với một chữ viết hoa là các biến hợp nhất.

Ví dụ 1: l0 :(X,h1 ,h2 ),h1 ≥ Lrestr ,h2 ≥ Lscope

Ví dụ 2: lc: cat(Y)

Kết hợp hai cách biểu diễn này sử dụng văn phạm đã được mô tả trong phần trước biểu diễn cho every cat được cho trong Ví dụ 3 mà cụ thể, xử lý hạn chế Lrestr trong biểu diễn từ every được hợp nhất với nhãn lc trong biểu diễn cho từ

cat và biến riêng X trong biểu diễn của every với biến Y trong từ cat.

Ví dụ 3: l0 :(X,h1 ,h2 ),h1 ≥ Lrestr ,h2 ≥ Lscope, lc: cat(Y)

Chi tiết về ngôn ngữ biểu diễn được sử dụng, tham khảo trong [11]. Tuy nhiên lưu ý rằng lựa chọn một ngôn ngữ biểu diễn ngữ nghĩa cụ thể và một cơ chế gắn kết cụ thể ở đây không đặc biệt quan trọng. Thực tế mục đích phương pháp tiếp cận có thể được áp dụng cho ngôn ngữ biểu diễn ngữ nghĩa khác sử dụng vài cơ chế gắn kết khác.

2.2.3 Mô hình hóa quan hệ giữa cú pháp và ngữ nghĩa

37

cho hàm ngữ nghĩa. Để xác định ánh xạ giữa cú pháp và ngữ nghĩa này, (i) mỗi cây cơ sở trong văn phạm được kết hợp với một biểu diễn ngữ nghĩa của kiểu được phác thảo ở trên và (ii) các nút thích hợp của cây cơ sở được thêm vào các chỉ số ngữ nghĩa hoặc các thông số.

Chính xác hơn, các nút thế của cây kết hợp với hàm ngữ nghĩa sẽ được kết hợp với tham số ngữ nghĩa trong các nút gốc và các nút nối nào đó sẽ được gán nhãn với các chỉ số ngữ nghĩa. Như vậy, các cây được kết hợp, tham số ngữ nghĩa và các chỉ số được hợp nhất bằng cơ chế hợp nhất FTAG mà chỉ số ngữ nghĩa cung cấp giá trị cho tham số ngữ nghĩa. Chẳng hạn trong ví dụ, các cây John, loves và Mary như trong hình 2.1. Cây loves được kết hợp với biểu diễn ngữ nghĩa bao gồm hai tham số ngữ nghĩa x và y. Những tham số này cũng bao gồm nhãn chủ thể và đối tượng các nút thế của cây này. Trái lại, nút gốc của cây John được gán nhãn với chỉ số ngữ nghĩa j. Nếu phân tích cú pháp chuỗi là John loves Mary, cây này sẽ được thay thế tại chủ thể nút thế của cây loves như vậy khởi tạo tham số x cho j. Và tương tự đối với cây Mary.

Hình 2.1- Mô tả ngữ nghĩa câu John loves Mary

Như trong mục 2.4 và 2.5, TAG với giao diện cú pháp/ ngữ nghĩa đã mô tả có thể được sử dụng để ràng buộc biểu diễn ngữ nghĩa hoặc trong hoặc sau quá trình dẫn xuất. Trong trường hợp đầu tiên, các biến hợp nhất thể hiện cả trên các

NP John S NP NP loves VP V NP Mary x j y m

name(j,john) love(x,y) name(m,mary)

38

nút cây và trong các biểu diễn ngữ nghĩa được khởi tạo như phép thế và phép nối được tiến hành và ngữ nghĩa tổng thể của câu được hợp nhất biểu diễn ngữ nghĩa của các cây cơ sở trong modul hợp nhất dẫn xuất của nó. Trong trường hợp thứ hai, từ vựng ngữ nghĩa được trích xuất từ văn phạm và được sử dụng để thực hiện xây dựng ngữ nghĩa trên rừng dẫn xuất (derivation forest) cơ bản.

2.3. Văn phạm và siêu văn phạm: khai thác thành phần thông tin chung

Trong phần này luận văn sẽ trình bày cách làm việc với siêu văn phạm đã được đề cập trong [2] cho phép đặc tả khai thác thành phần dùng chung của ánh xạ giữa cú pháp và ngữ nghĩa đã được trình bày trong các phần trước. Chúng ta bắt đầu trình bày về siêu văn phạm mở rộng được sử dụng. Sau đó chúng ta sẽ trình bày cách xác định giao diện cú pháp/ ngữ nghĩa.

2.3.1 Siêu văn phạm mở rộng

Siêu văn phạm mở rộng đã được trình bày trong [12] có thể được xem như một cách khái quát hóa của Shieber [13] mà TAG không đủ để mã hóa (theo một cách khác). Mục tiêu của ngôn ngữ như vậy là để cung cấp một hình thức mà cho phép nhà ngôn ngữ diễn tả kiến thức về ngữ pháp của mình một cách trực tiếp và tiện lơi: ngôn ngữ phải được diễn tả; nó cũng cho phép khai thác thành phần chung của sự dưa thừa thông tin.

Trong khuôn khổ luận văn không thể trình bày đầy đủ về siêu văn phạm mở rộng này, luận văn chỉ trình bày những kiến cần thiết, chi tiết tham khảo trong tài liệu [7,13,14].

Siêu văn phạm mở rộng (eXtensible MetaGrammar- XMG) được sử dụng hỗ trợ cả phân tích cú pháp và thông tin ngữ nghĩa. Để phân biệt các mức mô tả các loại thông tin khác nhau trên cùng một cây phân tích cú pháp, trong XMG có ba chiều:

 <syn> Chiều phân tích cú pháp (Syntactic dimension): mô tả các cây

39

nghĩa phẳng)

 <dyn>Chiều động (Dynamic dimension): được tính toán trước đó gọi là giao diện.

Trong chiều phân tích cú pháp, các mảnh cây có thể được mô tả để kết hợp với các mảnh cây khác để tạo ra cây đầy đủ. Những mảnh cây này có thể được gọi là các lớp. Tương tự như vậy, trong chiều ngữ nghĩa một phần công thức ngữ nghĩa phẳng có thể được định nghĩa và được gọi đến các lớp như vậy cũng cho phép khai thác thành phần thông tin chung ngữ nghĩa.

Phân tích cú pháp và các lớp ngữ nghĩa có thể được kết hợp sử dụng một trong ba phép toán là, phép hội (conjunction), phép tuyển (disjunction) và thừa kế (inheritance). Phép toán thừa kế được sử dụng để chuyên môn hóa một lớp bằng cách bổ sung thêm vào phần thông tin cho lớp cha. Cú pháp cụ thể của phép hội, phép tuyển và thừa kế lần lượt là ;, | và import.

Cuối cùng, các biến có thể được chia sẻ giữa các lớp theo hai trường hợp. Trong trường hợp thứ nhất, các biến chia sẻ thuộc về lớp liên kết bằng quan hệ thừa kế và pham vi của những biến này có thể được quản lý một cách rõ ràng bằng cách sử dụng khai báo import export. Trong trường hợp thứ hai, các biến chia sẻ thuộc khối thừa kế khác nhau và chia sẻ có thể được thực hiện bởi một cơ chế đặt tên gọi là giao diện cho phép đặt tên toàn cục của một giá trị nhất định. Ví dụ, trong lớp Subj dưới đây, nút X được đặt tên sujNode trong giao diện * = [SujNode = X].

class Subj declare ?X

{ <syn> { node [cat=s] node X [cat=n] } *= [sujNode=X]

40

}

Phạm vi của đặc trưng giao diện là toàn cục cho nhánh cha của nó trong phân cấp. Trong phần sau sẽ trình bày, giá trị của đặc trưng giao diện có thể được chia sẻ bởi lớp bất kỳ khác bằng việc dùng biến chia sẻ rõ ràng.

2.3.2 Xác định giao diện cú pháp/ ngữ nghĩa

Vấn đề chính khi phát triển TAG ngữ nghĩa qui mô lớn là cần đặc tả chính xác ánh xạ giữa cú pháp và ngữ nghĩa (mục 2.1.3). Trong [11], chúng ta xác định ánh xạ cho xây dựng một loạt cú pháp cùng ngữ nghĩa mà được biết là vấn đề khó đối với TAG. Tuy nhiên ở đây, chúng ta quan tâm đến vấn đề làm thế nào để thiết kế được TAG ngữ nghĩa qui mô lớn hiệu quả và tiện lợi.Trong khía cạnh này, động từ hoặc tổng quát hơn, hàm ngữ nghĩa được quan tâm đặc biệt vì chúng đại diện cho phần lớn các biến có thể. Do vậy chúng tôi tập trung vào động từ và đưa ra cách xác định giao diện cú pháp/ ngữ nghĩa cho khung phân loại cơ bản thay đổi (ngoại động từ, nội động từ, …) sự thực hiện đối số có thể thay đổi (cliticisation, sự trích chọn, sự bỏ qua) sự phân phối lại đối số (chủ động, bị động, dạng trung gian, bị động không ngôi, …) Do hạn chế về không gian một số loại khác của xây dựng cú pháp ngữ nghĩa, mặc dù chúng có thể được xử lý bằng việc sử dụng hình thức văn phạm, sẽ không được thảo luận ở đây.

Như đã minh họa trong phần 2.1.3, đặc tả giao điện cú pháp/ ngữ nghĩa bao gồm định nghĩa thích hợp ánh xạ giữa chức năng ngữ pháp (chủ ngữ, bổ ngữ,...) và các vai nghĩa (ví dụ, vai tác thể (agent), vai bị thể (Patient) hoặc trung lập arg1, arg2). Ví dụ, trong một câu chủ động với hai đối số danh từ, chủ ngữ NP được ánh xạ vào đối số (arg1) ngữ nghĩa thứ nhất và bổ ngữ cho đối số thứ 2 (arg2) trong khi với câu bị động, xảy ra sự đảo ngược, chủ ngữ NP ánh xạ đến

arg2 và bổ ngữ arg1.

Trong TAG, một từ được kết hợp với tập các cây phản ánh phạm vi hình dạng cú pháp từ này có thể xảy ra. Đối với một động từ (và tổng quát hơn, cho bất

Một phần của tài liệu Nghiên cứu tích hợp thành phần ngữ nghĩa vào văn phạm tag cho tiếng việt (Trang 33)

Tải bản đầy đủ (PDF)

(66 trang)