Nhãn quan hệ phụ thuộc thể hiện sự phụ thuộc giữa hai từ trong câu với nhau. Mỗi cặp từ loại khác nhau, ở những vị trí khác nhau thì sẽ có tên quan hệ phụ thuộc là khác nhau. Đây là cách làm tốt nhất và hiệu quả nhất để hiểu được mối quan hệ giữa hai từ. Nhãn quan hệ phụ thuộc được đồng nhất trong tồn bộ ngơn ngữ, và có một quy tắc chuyển đổi chung để làm điều đó. Có nhiều bộ nhãn quan hệ dùng cho một ngơn ngữ và độ chi tiết giữa các bộ nhãn là khác nhau.
Bảng 2.4: Tập nhãn chức năng cú pháp tiếng Việt.
STT Tên Chú thích
1 SUB Nhãn chức năng chủ ngữ
2 DOB Nhãn chức năng tân ngữ trực tiếp
3 IOB Nhãn chức năng tân ngữ gián tiếp
4 TPC Nhãn chức năng chủ đề
5 PRD Nhãn chức năng vị ngữ không phải cụm động từ
6 LGS Nhãn chức năng chủ ngữ logic của câu ở thể bị động
7 EXT Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động
8 H Nhãn phần tử trung tâm (của cụm từ hoặc mệnh đề)
9-12 TC, CMD, EXC, SPL Nhãn phân loại câu: đề-thuyết, mệnh lệnh, cảm thán, đặc biệt
13 TTL Tít báo hay tiêu đề
14 VOC Thành phần than gọi
Tập nhãn quan hệ phụ thuộc đa ngôn ngữ (Universal Dependency - UD) được xây dựng bởi nhóm nghiên cứu của trường đại học Stanford là Marneffe và cộng sự [18]. Đây là một dự án được phát triển dựa vào chú giải treebank cho đa ngôn ngữ, với mục tiêu tạo điều kiện thuận lợi cho sự phát triển phân tích cú pháp đa ngơn ngữ, học chéo giữa các ngơn ngữ, nghiên cứu và phân tích từ góc độ loại hình ngơn ngữ. Tập nhãn phụ thuộc này được phát triển, cải tiến dựa vào tập nhãn phụ thuộc cho tiếng Anh (Stanford Dependency - SD) cũng do nhóm nghiên cứu trường đại học Stanford (Marneffe và cộng sự, 2006, 2008, và 2012) xây dựng dựa vào các nhãn từ loại đa ngôn ngữ (Petrov và cộng sự, 2012) và tập từ loại hình thái từ (Zeman, 2008).
Mục tiêu chung của việc phát triển một bộ nhãn phụ thuộc đa ngơn ngữ là để có thể cung cấp một kho ngữ liệu chung về các nhãn, các hướng dẫn tạo điều kiện thuận lợi cho việc xây dựng những cơng trình tương tự đối với các ngôn ngữ khác, cho phép mở rộng đối với một ngơn ngữ mới khi cần thiết. Nhóm nghiên cứu xây dựng nhãn phụ thuộc đa ngôn ngữ đã quyết định phát triển một phần nhãn từ loại được mở rộng từ tập nhãn từ loại chung. Các đặc tính hình thái của tập nhãn phụ thuộc đa ngôn ngữ nhằm mục đích cung cấp một tập cơ bản các đặc trưng quan trọng để có thể phân tích và những đặc trưng này phân bố rộng rãi trên các ngôn ngữ khác nhau. Các phụ thuộc được mô tả trong tập quan hệ phụ thuộc đa ngôn ngữ rút ra từ tập quan hệ phụ thuộc Stanford.
Tập nhãn phụ thuộc Stanford đã được xây dựng dựa vào những ý tưởng mô tả mối quan hệ ngữ pháp chung có thể thấy trong nhiều ngơn ngữ khác nhau. Tập nhãn này được tổ chức theo các nhóm về chủ ngữ, tân ngữ, các mệnh đề, từ hạn định của danh từ, hoặc các từ bổ nghĩa cho danh từ,... Stanford đưa ra gần 50 loại quan hệ phụ thuộc cho tiếng Anh dựa vào kho ngữ liệu PennTreebank [17]. Tất cả các quan hệ phụ thuộc đó đều là quan hệ hai ngôi: giữa một từ trung tâm và từ phụ thuộc của nó. Các quan hệ phụ thuộc trong tập nhãn phụ thuộc Stanford được thiết kế một cách dễ hiểu và rõ ràng. Mỗi một quan hệ được đưa ra bởi ba thành phần: tên quan hệ phụ thuộc, từ trung tâm và từ phụ thuộc.
Ví dụ: [26] Bell, based in Los Angeles, makes and distributes electronic, com- puter and building products.
Các quan hệ phụ thuộc của Stanford đưa ra cho câu trên là:
nsubj(makes-8, Bell-1)
nsubj(distributes-10, Bell-1) vmod(Bell-1, based-3)
nn(Angeles-6, Los-5)
prep in(based-3, Angeles-6) root(ROOT-0, makes-8)
conj and(makes-8, distributes-10) amod(products-16, electronic-11) conj and(electronic-11, computer-13) amod(products-16, computer-13)
conj and(electronic-11, building-15) amod(products-16, building-15)
dobj(makes-8, products-16)
dobj(distributes-10, products-16)
Mỗi nhãn quan hệ trong câu trên đều thể hiện một ý nghĩa nhất định. Những nhãn quan hệ này rất dễ hiểu cho hai từ phụ thuộc nhau trong câu. Ví dụ: quan hệ phụ thuộc dobj(makes-8, products-16) có nghĩa là: products là tân ngữ trực tiếp của makes.
phiên bản khác nhau trong những năm gần đây, để có thể định nghĩa một cách rõ ràng và phù hợp hơn đối với tiếng Anh. Phiên bản mới nhất được thay đổi để phù hợp hơn trong việc xây dựng tập nhãn phụ thuộc đa ngôn ngữ, vào tháng 4 năm 2015. Ngoài ra, một số phiên bản của nhãn quan hệ phụ thuộc Stanford đã được xây dựng và phát triển đối với một số ngôn ngữ khác như tiếng Trung quốc, tiếng Phần Lan [28], tiếng Ba tư [29],...
Để xây dựng được tập nhãn phụ thuộc đa ngơn ngữ, nhóm nghiên cứu đã thiết kế lại các nhãn cơ bản của tập nhãn phụ thuộc Stanford, cung cấp một cái nhìn sâu sắc và bao quát đối với nhiều ngôn ngữ khác nhau. Tập nhãn đa ngôn ngữ này được xây dựng dựa vào hai bước chính:
• Thêm hoặc tinh chỉnh các quan hệ trong SD để có thể đáp ứng tốt hơn đối với nhiều ngơn ngữ khác nhau.
• Bỏ bớt một số những đặc tính đặc trưng của tiếng Anh, để phù hợp với nhiều ngôn ngữ so với tập SD ban đầu.
Tập nhãn đa ngơn ngữ có thể được áp dụng cho nhiều ngơn ngữ khác nhau, có thể dùng để đề xuất những cải tiến trong phân tích cú pháp phụ thuộc, ngay cả đối với tiếng Anh. Nhóm nghiên cứu đã đưa ra được một tập nhãn cốt lõi gồm các quan hệ ngữ pháp đã được kiểm chứng một cách rộng rãi trên nhiều ngơn ngữ, có nghĩa là có thể áp dụng tập nhãn lõi này cho nhiều ngôn ngữ khác nhau. Ngồi ra cịn có thể bổ sung các nhãn mới khi cần thiết bằng cách phân nhóm cho các quan hệ ngơn ngữ đặc biệt, hay đối với những trường hợp riêng lẻ của một hoặc một nhóm các ngơn ngữ. Tập nhãn này có thể tương ứng với nhiều ngơn ngữ khác nhau như tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Trung quốc,... vì các ngơn ngữ hầu hết đều có những đặc điểm chung nên các tác giả đã tổng hợp những đặc điểm chung của các ngôn ngữ và đưa ra tập nhãn đa ngơn ngữ. Tập nhãn này rất có ích vì có thể chỉ ra một quan hệ phụ thuộc đối với cùng một câu, bằng các ngôn ngữ khác nhau.
Nhóm tác giả đã xây dựng một tập nhãn đa ngơn ngữ gồm có 40 nhãn. Được chia thành các nhóm sau:
ccomp, xcomp, iobj.
• Những phụ thuộc khơng cốt lõi của vị từ: nmod, advcl, advmod, neg.
• Những phụ thuộc mệnh đề đặc biệt: vocative, aux, mark, discourse, auxpass, punct, expl, cop.
• Những phụ thuộc danh từ: nummod, acl, amod, appos, det, nmod, neg.
• Những phụ thuộc về các từ khơng thể phân tích và các nhóm từ ghép: compound, mwe, goeswith, name, foreign.
• Những phụ thuộc về sự liên hợp: conj, cc, punct.
• Những phụ thuộc về sợ sở hữu, các giới từ, hoặc các trường hợp đặc biệt được đánh dấu: case.
• Những phụ thuộc về các thành phần tham gia: list, parataxis, remnant, dislocated, reparandum.
• Và những phụ thuộc khác: root, dep.
Tất cả những phụ thuộc này đều được định nghĩa và có ví dụ cụ thể trong tài liệu tham khảo [30]. Dựa vào tập nhãn đa ngôn ngữ chuẩn này, các nhóm nghiên cứu về các ngơn ngữ khác có thể sử dụng để phát triển, xây dựng một tập nhãn hồn chỉnh cho ngơn ngữ của mình.