3 Thực nghiệm
2.5 So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc
nhãn phụ thuộc tiếng Anh (SD).
UD (2015) SD (2015) Tiếng Việt (2015) Ý nghĩa
nsubj nsubj nsubj, asubj, psubj Chủ ngữ của câu là các cụm danh từ, tính từ, đại từ csubj csubj csubj Mệnh đề là chủ ngữ của câu
dobj dobj dobj Tân ngữ trực tiếp của câu iobj iobj iobj Tân ngữ gián tiếp của câu ccomp ccomp ccomp Một mệnh đề bổ ngữ cho động từ
- acomp acomp Bổ ngữ tính từ
- attr question Từ để hỏi
advmod advmod advmoda Bổ ngữ là trạng từ quantmod advmodb
tmod advmodt quantmod tmod
neg neg neg Phủ định
det det, predet det, predet Từ hạn định của danh từ amod amod amod, acomp, apredmod Bổ nghĩa tính từ của danh từ
nummod num num Từ chỉ số lượng
appos appos appos Phần chêm vào của câu acl/relcl rcmod rcmod Bổ nghĩa là mệnh đề quan hệ
root root root Gốc của câu
punct punct punct Dấu câu
auxpass auxpass auxpass Động từ chỉ nghĩa bị động
dep dep dep Quan hệ tổng quát
case prep prep Bổ nghĩa là giới từ nmod pobj pobj Tân ngữ của giới từ
ncmod pcomp pcomp Bổ ngữ của giới từ là động từ hoặc một mệnh đề compound nn, number nn, number Bổ nghĩa cho danh từ
conj conj conj Giới từ liên hợp
cc cc cc Phần liên hợp
parataxis parataxis parataxis Liên kết giữa các thành phần đẳng lập mark mark mark Từ giới thiệu một mệnh đề phụ nsubjpass nsubjpass nsubjpass Chủ ngữ danh từ bị động xcomp xcomp vv Bổ ngữ động từ của vị từ
csubjpass csubjpass - Mệnh đề làm chủ ngữ bị động của câu advcl advcl - Mệnh đề trạng ngữ bổ nghĩa cho câu
aux aux - Trợ động từ trong câu
cop cop - Quan hệ giữa hệ từ và root trong câu
expl expl - Đại từ phản thân
discourse discourse parataxis? Phần nói thêm vào, chào hỏi. vocative vocative - Quan hệ về xưng hô
name mwe - Quan hệ giữa các từ trong tên riêng goeswith goeswith - Các cụm từ, các từ thường đi cùng nhau foreign - - Từ gốc là từ nước ngoài
list - - Danh sách liệt kê
remnant - - Quan hệ tỉnh lược
reparandum - - Quan hệ sửa sai
dislocated - -
- - cmpobj Quan hệ so sánh
- - nc Danh từ chỉ loại
- ref ref Nhãn tham chiếu
- - vcomp Bổ ngữ động từ của động từ - - vsubj Động từ làm chủ ngữ của câu
Chương 3
Thực nghiệm
3.1 Các cơng cụ phân tích cú pháp phụ thuộc
3.1.1 MSTParser
Kiến thức trong phần này trình bày theo tài liệu của tác giảRyan McDonald, Joakim Nivre [21] và trang Web:
http://www.seas.upenn.edu/ strctlrn/MSTParser/MSTParser.html [25]. MSTParser là cơng cụ phân tích cú pháp phụ thuộc mã nguồn mở, được phát triển bởi Jason Baldrige, Ryan McDonald cùng cộng sự. MSTParser là công cụ viết bằng ngôn ngữ Java và chạy trên giao diện dịng lệnh. MSTParser sử dụng thuật tốn huấn luyện MIRA và thuật tốn phân tích Eisner hoặc thuật tốn phân tích Chu-Liu-Edmonds. Cả hai thuật tốn này đều được sử dụng để tìm ra đồ thị phụ thuộc đúng nhất cho một câu đầu vào. MSTParser là một trong những cơng cụ phân tích cú pháp phụ thuộc tốt nhất trong Hội thảo về Xử lý ngôn ngữ tự nhiên (CoNLL-2006), công cụ đã được thử nghiệm cho rất nhiều ngôn ngữ khác nhau.
Định dạng đầu ra và đầu vào
Định dạng dữ liệu của MSTParser theo mẫu sau:
w1 w2 ..... wn
p1 p2 ..... pn
l1 l2 ..... ln
Trong đó:
• w1...wn: là n từ trong câu.
• p1...pn: là nhãn từ loại tương ứng của các từ trong câu.
• l1...ln: là nhãn phụ thuộc của từ phụ thuộc với từ trung tâm của nó trong câu.
• d1...dn: là số nguyên đại diện cho từ trung tâm mà từ phụ thuộc tương ứng phụ thuộc vào.
Nếu chỉ huấn luyện hoặc kiểm tra một phân tích cú pháp phụ thuộc khơng gán nhãn, thì sẽ khơng có hàng thứ 3 trong định dạng dữ liệu. Định dạng này giống nhau cho q trình huấn luyện và phân tích một dữ liệu mới. Trong dữ liệu mới cần phân tích hàng thứ 3 và hàng thứ 4 là một giá trị giả nào đó.
Thuật tốn phân tích và huấn luyện
MSTParser hoạt động theo thuật tốn phân tích cú pháp phụ thuộc dựa trên đồ thị. Cách tiếp cập này gồm có hai giai đoạn phục vụ cho việc huấn luyện. Giai đoạn đầu tiên, huấn luyện một mơ hình để dự đốn cây phụ thuộc chưa được gán nhãn cho một câu. Như vậy, trọng số của cạnh khơng có điều kiện trên các nhãn có thể được tham số hóa bằng các đặc trưng chỉ có trên cặp đầu tiên: s(i, j) =w.f(i, j). Kết quả là, giai đoạn đầu tiên của huấn luyện phân tích
cú pháp, chúng ta phải xác định các đặc trưng đại diện f(i, j) được trình bày trong Bảng 1.2 (Chương 1) cho một cung khơng được gán nhãn (i, j). Những
đặc trưng này đại diện cho cả hai thông tin về điểm đầu và mối quan hệ phụ thuộc cũng như đặc trưng của các nhãn thơng qua các nhãn thơ và mịn nếu có.
Khi đó, trọng số của cây phụ thuộc y cho câu x là:
s(x, y) =X
(i,j)
s(i, j) =X
(i,j)
w.f(i, j).
Một khi mơ hình đã được huấn luyện, việc chạy mơ hình trên dữ liệu mới là khá nhanh chóng. Tuy nhiên, nếu bộ dữ liệu lớn, thì quá trình huấn luyện sẽ mất khá nhiều thời gian.
Với phương thức hoạt động như trên, độ chính xác khi phân tích cú pháp phụ thuộc trên MSTParser trên các ngôn ngữ như trên Bảng 3.1.
Bảng 3.1: Kết quả của MSTParser.Ngôn ngữ ASU ASL