Tập nhãn chức năng cú pháp tiếng Việt

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích cú pháp phụ thuộc tiếng việt 10 (Trang 27 - 39)

3 Thực nghiệm

2.4 Tập nhãn chức năng cú pháp tiếng Việt

STT Tên Chú thích

1 SUB Nhãn chức năng chủ ngữ

2 DOB Nhãn chức năng tân ngữ trực tiếp

3 IOB Nhãn chức năng tân ngữ gián tiếp

4 TPC Nhãn chức năng chủ đề

5 PRD Nhãn chức năng vị ngữ không phải cụm động từ

6 LGS Nhãn chức năng chủ ngữ logic của câu ở thể bị động

7 EXT Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động

8 H Nhãn phần tử trung tâm (của cụm từ hoặc mệnh đề)

9-12 TC, CMD, EXC, SPL Nhãn phân loại câu: đề-thuyết, mệnh lệnh, cảm thán, đặc biệt

13 TTL Tít báo hay tiêu đề

14 VOC Thành phần than gọi

Tập nhãn quan hệ phụ thuộc đa ngôn ngữ (Universal Dependency - UD) được xây dựng bởi nhóm nghiên cứu của trường đại học Stanford là Marneffe và cộng sự [18]. Đây là một dự án được phát triển dựa vào chú giải treebank cho đa ngôn ngữ, với mục tiêu tạo điều kiện thuận lợi cho sự phát triển phân tích cú pháp đa ngơn ngữ, học chéo giữa các ngôn ngữ, nghiên cứu và phân tích từ góc độ loại hình ngơn ngữ. Tập nhãn phụ thuộc này được phát triển, cải tiến dựa vào tập nhãn phụ thuộc cho tiếng Anh (Stanford Dependency - SD) cũng do nhóm nghiên cứu trường đại học Stanford (Marneffe và cộng sự, 2006, 2008, và 2012) xây dựng dựa vào các nhãn từ loại đa ngôn ngữ (Petrov và cộng sự, 2012) và tập từ loại hình thái từ (Zeman, 2008).

Mục tiêu chung của việc phát triển một bộ nhãn phụ thuộc đa ngơn ngữ là để có thể cung cấp một kho ngữ liệu chung về các nhãn, các hướng dẫn tạo điều kiện thuận lợi cho việc xây dựng những cơng trình tương tự đối với các ngôn ngữ khác, cho phép mở rộng đối với một ngôn ngữ mới khi cần thiết. Nhóm nghiên cứu xây dựng nhãn phụ thuộc đa ngơn ngữ đã quyết định phát triển một phần nhãn từ loại được mở rộng từ tập nhãn từ loại chung. Các đặc tính hình thái của tập nhãn phụ thuộc đa ngơn ngữ nhằm mục đích cung cấp một tập cơ bản các đặc trưng quan trọng để có thể phân tích và những đặc trưng này phân bố rộng rãi trên các ngôn ngữ khác nhau. Các phụ thuộc được mô tả trong tập quan hệ phụ thuộc đa ngôn ngữ rút ra từ tập quan hệ phụ thuộc Stanford.

Tập nhãn phụ thuộc Stanford đã được xây dựng dựa vào những ý tưởng mô tả mối quan hệ ngữ pháp chung có thể thấy trong nhiều ngơn ngữ khác nhau. Tập nhãn này được tổ chức theo các nhóm về chủ ngữ, tân ngữ, các mệnh đề, từ hạn định của danh từ, hoặc các từ bổ nghĩa cho danh từ,... Stanford đưa ra gần 50 loại quan hệ phụ thuộc cho tiếng Anh dựa vào kho ngữ liệu PennTreebank [17]. Tất cả các quan hệ phụ thuộc đó đều là quan hệ hai ngôi: giữa một từ trung tâm và từ phụ thuộc của nó. Các quan hệ phụ thuộc trong tập nhãn phụ thuộc Stanford được thiết kế một cách dễ hiểu và rõ ràng. Mỗi một quan hệ được đưa ra bởi ba thành phần: tên quan hệ phụ thuộc, từ trung tâm và từ phụ thuộc.

Ví dụ: [26] Bell, based in Los Angeles, makes and distributes electronic, com- puter and building products.

Các quan hệ phụ thuộc của Stanford đưa ra cho câu trên là:

nsubj(makes-8, Bell-1)

nsubj(distributes-10, Bell-1) vmod(Bell-1, based-3)

nn(Angeles-6, Los-5)

prep in(based-3, Angeles-6) root(ROOT-0, makes-8)

conj and(makes-8, distributes-10) amod(products-16, electronic-11) conj and(electronic-11, computer-13) amod(products-16, computer-13)

conj and(electronic-11, building-15) amod(products-16, building-15)

dobj(makes-8, products-16)

dobj(distributes-10, products-16)

Mỗi nhãn quan hệ trong câu trên đều thể hiện một ý nghĩa nhất định. Những nhãn quan hệ này rất dễ hiểu cho hai từ phụ thuộc nhau trong câu. Ví dụ: quan hệ phụ thuộc dobj(makes-8, products-16) có nghĩa là: products là tân ngữ trực tiếp của makes.

phiên bản khác nhau trong những năm gần đây, để có thể định nghĩa một cách rõ ràng và phù hợp hơn đối với tiếng Anh. Phiên bản mới nhất được thay đổi để phù hợp hơn trong việc xây dựng tập nhãn phụ thuộc đa ngơn ngữ, vào tháng 4 năm 2015. Ngồi ra, một số phiên bản của nhãn quan hệ phụ thuộc Stanford đã được xây dựng và phát triển đối với một số ngôn ngữ khác như tiếng Trung quốc, tiếng Phần Lan [28], tiếng Ba tư [29],...

Để xây dựng được tập nhãn phụ thuộc đa ngơn ngữ, nhóm nghiên cứu đã thiết kế lại các nhãn cơ bản của tập nhãn phụ thuộc Stanford, cung cấp một cái nhìn sâu sắc và bao quát đối với nhiều ngôn ngữ khác nhau. Tập nhãn đa ngôn ngữ này được xây dựng dựa vào hai bước chính:

• Thêm hoặc tinh chỉnh các quan hệ trong SD để có thể đáp ứng tốt hơn đối với nhiều ngơn ngữ khác nhau.

• Bỏ bớt một số những đặc tính đặc trưng của tiếng Anh, để phù hợp với nhiều ngôn ngữ so với tập SD ban đầu.

Tập nhãn đa ngơn ngữ có thể được áp dụng cho nhiều ngơn ngữ khác nhau, có thể dùng để đề xuất những cải tiến trong phân tích cú pháp phụ thuộc, ngay cả đối với tiếng Anh. Nhóm nghiên cứu đã đưa ra được một tập nhãn cốt lõi gồm các quan hệ ngữ pháp đã được kiểm chứng một cách rộng rãi trên nhiều ngơn ngữ, có nghĩa là có thể áp dụng tập nhãn lõi này cho nhiều ngơn ngữ khác nhau. Ngồi ra cịn có thể bổ sung các nhãn mới khi cần thiết bằng cách phân nhóm cho các quan hệ ngơn ngữ đặc biệt, hay đối với những trường hợp riêng lẻ của một hoặc một nhóm các ngơn ngữ. Tập nhãn này có thể tương ứng với nhiều ngôn ngữ khác nhau như tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Trung quốc,... vì các ngơn ngữ hầu hết đều có những đặc điểm chung nên các tác giả đã tổng hợp những đặc điểm chung của các ngôn ngữ và đưa ra tập nhãn đa ngơn ngữ. Tập nhãn này rất có ích vì có thể chỉ ra một quan hệ phụ thuộc đối với cùng một câu, bằng các ngôn ngữ khác nhau.

Nhóm tác giả đã xây dựng một tập nhãn đa ngơn ngữ gồm có 40 nhãn. Được chia thành các nhóm sau:

ccomp, xcomp, iobj.

• Những phụ thuộc khơng cốt lõi của vị từ: nmod, advcl, advmod, neg.

• Những phụ thuộc mệnh đề đặc biệt: vocative, aux, mark, discourse, auxpass, punct, expl, cop.

• Những phụ thuộc danh từ: nummod, acl, amod, appos, det, nmod, neg.

• Những phụ thuộc về các từ khơng thể phân tích và các nhóm từ ghép: compound, mwe, goeswith, name, foreign.

• Những phụ thuộc về sự liên hợp: conj, cc, punct.

• Những phụ thuộc về sợ sở hữu, các giới từ, hoặc các trường hợp đặc biệt được đánh dấu: case.

• Những phụ thuộc về các thành phần tham gia: list, parataxis, remnant, dislocated, reparandum.

• Và những phụ thuộc khác: root, dep.

Tất cả những phụ thuộc này đều được định nghĩa và có ví dụ cụ thể trong tài liệu tham khảo [30]. Dựa vào tập nhãn đa ngôn ngữ chuẩn này, các nhóm nghiên cứu về các ngơn ngữ khác có thể sử dụng để phát triển, xây dựng một tập nhãn hồn chỉnh cho ngơn ngữ của mình.

2.3 Tập nhãn quan hệ phụ thuộc cho tiếng Việt

Nghiên cứu về tập nhãn quan hệ phụ thuộc đa ngôn ngữ, cùng với Viettree- bank, chúng tôi đã xây dựng một bộ nhãn cho tiếng Việt. Bộ nhãn này có những nhãn trùng với các nhãn trong tập nhãn phụ thuộc đa ngôn ngữ và một số nhãn mới. Bộ nhãn quan hệ phụ thuộc tiếng Việt gồm có 46 nhãn.

Những nhãn tiếng Việt có mà trong tập nhãn phụ thuộc đa ngơn ngữ khơng có là:

• cmpobj: Quan hệ so sánh.

Quan hệ cmpobj mô tả liên hệ so sánh khi có các phó từ so sánh như “hơn”, “kém”, “nhất”,. . . với danh từ đi sau. Ví dụ:

– Tôi giỏi hơn bạn → cmpobj(giỏi, bạn)

Tôi giỏi hơn bạn .

1 2 3 4 5

root

psubj apredmod cmpobj

punct

• nc: bổ nghĩa danh từ cho danh từ chỉ loại

Quan hệ nc biểu diễn mối liên hệ giữa danh từ chỉ loại với danh từ chung, trong đó danh từ chung bổ nghĩa cho danh từ chỉ loại. Các danh từ chỉ loại luôn đứng trước danh từ chung, ví dụ “cái”, “con”,. . . Chú ý rằng từ trung tâm của một cụm danh từ là danh từ chỉ loại.

– Hai con mèo đen đang ăn cá. → nc(con, mèo)

Hai con mèo đen đang ăn cá .

1 2 3 4 5 6 7 8 root num nc amod nsubj advmodt dobj punct

• ref: tham chiếu

Tham chiếu của một cụm danh từ là từ quan hệ liên kết mệnh đề quan hệ bổ nghĩa cho cụm danh từ đó. Từ quan hệ trong tiếng Việt là đại từ “mà”.

– Tơi nhìn thấy cuốn sách mà bạn mua. → ref(cuốn, mà)

Tôi thấy cuốn sách mà bạn mua .

1 2 3 4 5 6 7 8 root psubj rcmod nc ccomp ref nsubj punct

Chú ý rằng từ “mà” cịn có thể là liên từ hoặc trợ từ. Trong những trường hợp này thì nó khơng phải là từ tham chiếu. Khi sử dụng như liên từ, từ “mà” diễn đạt các loại ý nghĩa sau:

1. Liên từ biểu thị một kết quả: “Biết tay ăn mặn thì chừa, đừng trêu mẹ mướp mà xơ có ngày; Non kia ai đắp mà cao, sơng kia, biển nọ ai đào mà sâu”.

2. Liên từ biểu thị một mục đích: “Trèo lên trái núi mà coi, có bà quản tượng cưỡi voi bành vàng”.

3. Liên từ biểu thị một giả thiết: “Anh mà đến sớm thì đã gặp chị ấy”. Cịn khi sử dụng làm trợ từ, thì từ “mà” thường được đặt ở cuối câu để nhấn mạnh: “Đã bảo!; Anh cứ tin là nó làm được mà!”.

• question: từ để hỏi

Quan hệ này mơ tả phụ thuộc giữa từ chính và từ để hỏi, thường là “sao”, “tại sao”, “vì sao”,. . .

– Sao người dân phải gánh chịu hậu quả → question(phải, sao).

Sao người dân phải gánh_chịu hậu_quả ?

1 2 3 4 5 6 7 root nsubj question nc vv dobj punct • vcomp: bổ ngữ động từ của động từ

Quan hệ vcomp được sử dụng để chỉ định quan hệ giữa động từ chính và động từ phụ.

– Tơi chuyển tiền nộp học phí. → vcomp(chuyển, nộp)

Tơi chuyển tiền nộp học_phí .

1 2 3 4 5 root psubj dobj vcomp dobj punct

– có vốn mở cơ sở → vcomp(có, mở)

– tăng vốn làm ăn → vcomp(tăng, làm ăn) • vnom: danh từ hóa động từ

Động từ được danh từ hóa bằng một từ chỉ loại đứng trước nó. Ví dụ như “cái”, “sự”, “việc”,...

– Cái ăn khan hiếm quá! → vnom(cái, ăn)

Cái ăn khan_hiếm quá !

1 2 3 4 5 root vnom nsubj advmoda punct

– Sự học ngày càng phát triển trên q hương tơi. → vnom(sự, học) • vsubj: chủ ngữ động từ

Quan hệ vsubj mô tả hiện tượng động từ làm chủ ngữ. Trong tiếng Việt, chủ ngữ thường là danh từ, tuy nhiên có một số trường hợp tính từ, động từ, cụm chủ-vị có thể làm chủ ngữ.

– Học tập là nhiệm vụ chính → vsubj(là, học tập)

Học_tập là nhiệm_vụ chính .

1 2 3 4 5

root

vsubj dobj amod punct

– Nói chuyện với họ chán phè → vsubj(chán phè, Nói chuyện)

– Viết tiểu thuyết đã trở thành hẳn một nghề riêng → vsubj(trở thành,

viết)

• xsubj: chủ ngữ kiểm sốt

Quan hệ xsubj mô tả quan hệ giữa chủ ngữ của câu và một vị từ.

– Tơi thích ăn thịt → xsubj(ăn, tơi) – Tôi phải đi ngay đây → xsubj(đi, tôi)

Những nhãn quan hệ phụ thuộc mà tập nhãn phụ thuộc đa ngơn ngữ có cịn tiếng Việt khơng có là:

• aux: là quan hệ giữa một trợ động từ của một mệnh đề với động từ mà nó

bổ trợ.

Ví dụ: He should leave. → aux (leave, should).

He should leave .

1 2 3 4

root nsubj

aux punct

• advcl: Mơ tả quan hệ giữa một mệnh đề trạng ngữ bổ nghĩa cho một cụm

động từ hoặc một câu. Ví dụ: If you know who did it, you should tell the teacher. → advcl(know, tell).

If you know ... should tell the teacher

1 2 3 4 5 6 7 8

advcl

• cop: Quan hệ giữa hệ từ với root của câu (ví dụ: is, are,... )

Ví dụ: Bill is honest. → cop(honest, is).

Bill is honest .

1 2 3 4

root nsubj

cop punct

• csubjpass: Là quan hệ chỉ ra một mệnh đề là chủ ngữ bị động của một

câu.

Ví dụ: That she lied was suspected by everyone. → csubjpass(suspected,

That she lied was suspected by everyone .

1 2 3 4 5 6 7 8

csubjpass

• discourse: là quan hệ của các biểu tượng cảm xúc, những thán từ trong

câu như uhm-uh-a,... với root của câu.

Ví dụ: Iguazu is in Argentina :) → discourse(is, :)).

Iguazu is in Argentina :)

1 2 3 4 5

discourse

• dislocated: Là quan hệ được sử dụng cho các yếu tố trước hoặc sau của

một thành phần trong câu khơng có đầy đủ các quan hệ cú pháp cơ bản. Các thành phần này thường xuất hiện ngoại vi của một câu, và có thể được tách ra bởi một dấu phẩy.

Ví dụ: It must not it eat, the playdough. → dislocated(eat, playdough).

It must not it eat , the playdough .

1 2 3 4 5 6 7 8 9

dobj

dislocated

• expl: Là quan hệ giữa từ “there” với một động từ chính trong câu.

Ví dụ: There is a girl in the room. → expl(is, There).

There is a girl in the room .

1 2 3 4 5 6 7 8

expl

• goeswith: Là quan hệ giữa các từ thường đi với nhau, hoặc dùng để sửa

lỗi.

They come here with out legal permission .

1 2 3 4 5 6 7 8

goeswith

• name: Là quan hệ giữa các từ trong một tên riêng hoặc các từ trong một

cụm từ luôn đi cùng nhau.

Ví dụ: Carl XVI Gustaf → name(Carl, Gustaf).

Carl XVI Gustaf

1 2 3

name name

• foreign: là quan hệ giữa một chuỗi các từ nước ngoài (từ gốc) với thành

phần đầu tiên của cụm từ nó. Nhãn này khơng áp dụng cho các từ vay mượn hoặc cho tên riêng. Nó áp dụng cho các văn bản trích dẫn nước ngồi kết hợp với một câu hay một bài giảng của các ngơn ngữ chính.

Ví dụ: I guess that c’ est la vie. → foreign(c’, est).

I guess that c’ est la vie .

1 2 3 4 5 6 7 8 nsubj ccomp mark foreign foreign foreign punct

• list: Là quan hệ được sử dụng cho các chuỗi danh sách các mục được liệt

kê với nhau. Trong chuỗi danh sách này, các mục sau sẽ bổ nghĩa cho mục đầu tiên. Các chữ kí trong thư điện tử (email) thường chứa các quan hệ này. Các thông tin liên lạc khác nhau được gán nhãn là list, còn các quan

hệ trong từng cụm sẽ được gán nhãnappos. Ngồi ra, quan hệ này cịn được

sử dụng cho một chuỗi các thuộc tính hoặc các mơ tả được sử dụng trong một dòng tiêu đề hoặc một đánh giá nào đó (có thể về một sản phẩm hoặc một đánh giá cho cửa hàng,... ).

Ví dụ: Steve Jones Phone: 559814 Email: jones@abc.com → appos(Phone,

559814), list(Steve, Phone).

Steve Jones Phone: 559814 Email: jones@abc.com

1 2 3 4 5 6

name list

list

appos appos

• remnant: Là quan hệ tỉnh lược. Quan hệ này cho phép hiểu và xác định

đúng ngữ nghĩa của một câu mặc dù một số phần cú pháp đã bị rút gọn hoặc thay thế.

Ví dụ: Marie went to Paris and Miriam to Prague. → remnant(Paris,

Prague).

Marie went to Paris and Miriam to Prague .

1 2 3 4 5 6 7 8 9 remnant nsubj nmod cc case punct

• reparandum: Là quan hệ chỉ ra sự không trôi chảy trong một sự sửa chữa

lời nói. Sự khơng trơi chảy này dùng để sửa sai, và phụ thuộc vào sự sửa chữa.

Ví dụ: Go to the righ- to the left. → reparandum(left, righ-).

Go to the righ- to the left .

1 2 3 4 5 6 7 8 nmod case det reparandum case det punct

• vocative: Là các mối quan hệ xưng hô được sử dụng để chỉ ra người tham

gia đối thoại được đề cập trong văn bản (thường gặp ở các cuộc hội thoại, email, và các nhóm tin). Mối quan hệ này liên kết giữa tên của người tham gia đối thoại và hành động của người đó.

Ví dụ: Guys, take it easy! → vocative(take, Guys).

Guys , take it easy!

1 2 3 4 5

vocative

Ngoài tập nhãn phụ thuộc đa ngôn ngữ được so sánh bên trên, luận văn cũng so sánh giữa tập nhãn mà nhóm nghiên cứu của chúng tơi xây dựng được với tập nhãn phụ thuộc đa ngôn ngữ và tập nhãn phụ thuộc tiếng Anh do nhóm nghiên cứu trường Đại học Stanford xây dựng trong Bảng 2.5.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích cú pháp phụ thuộc tiếng việt 10 (Trang 27 - 39)

Tải bản đầy đủ (PDF)

(81 trang)