So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích cú pháp phụ thuộc tiếng việt 10 (Trang 39 - 42)

3 Thực nghiệm

2.5 So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc

nhãn phụ thuộc tiếng Anh (SD).

UD (2015) SD (2015) Tiếng Việt (2015) Ý nghĩa

nsubj nsubj nsubj, asubj, psubj Chủ ngữ của câu là các cụm danh từ, tính từ, đại từ csubj csubj csubj Mệnh đề là chủ ngữ của câu

dobj dobj dobj Tân ngữ trực tiếp của câu iobj iobj iobj Tân ngữ gián tiếp của câu ccomp ccomp ccomp Một mệnh đề bổ ngữ cho động từ

- acomp acomp Bổ ngữ tính từ

- attr question Từ để hỏi

advmod advmod advmoda Bổ ngữ là trạng từ quantmod advmodb

tmod advmodt quantmod tmod

neg neg neg Phủ định

det det, predet det, predet Từ hạn định của danh từ amod amod amod, acomp, apredmod Bổ nghĩa tính từ của danh từ

nummod num num Từ chỉ số lượng

appos appos appos Phần chêm vào của câu acl/relcl rcmod rcmod Bổ nghĩa là mệnh đề quan hệ

root root root Gốc của câu

punct punct punct Dấu câu

auxpass auxpass auxpass Động từ chỉ nghĩa bị động

dep dep dep Quan hệ tổng quát

case prep prep Bổ nghĩa là giới từ nmod pobj pobj Tân ngữ của giới từ

ncmod pcomp pcomp Bổ ngữ của giới từ là động từ hoặc một mệnh đề compound nn, number nn, number Bổ nghĩa cho danh từ

conj conj conj Giới từ liên hợp

cc cc cc Phần liên hợp

parataxis parataxis parataxis Liên kết giữa các thành phần đẳng lập mark mark mark Từ giới thiệu một mệnh đề phụ nsubjpass nsubjpass nsubjpass Chủ ngữ danh từ bị động xcomp xcomp vv Bổ ngữ động từ của vị từ

csubjpass csubjpass - Mệnh đề làm chủ ngữ bị động của câu advcl advcl - Mệnh đề trạng ngữ bổ nghĩa cho câu

aux aux - Trợ động từ trong câu

cop cop - Quan hệ giữa hệ từ và root trong câu

expl expl - Đại từ phản thân

discourse discourse parataxis? Phần nói thêm vào, chào hỏi. vocative vocative - Quan hệ về xưng hô

name mwe - Quan hệ giữa các từ trong tên riêng goeswith goeswith - Các cụm từ, các từ thường đi cùng nhau foreign - - Từ gốc là từ nước ngoài

list - - Danh sách liệt kê

remnant - - Quan hệ tỉnh lược

reparandum - - Quan hệ sửa sai

dislocated - -

- - cmpobj Quan hệ so sánh

- - nc Danh từ chỉ loại

- ref ref Nhãn tham chiếu

- - vcomp Bổ ngữ động từ của động từ - - vsubj Động từ làm chủ ngữ của câu

Chương 3

Thực nghiệm

3.1 Các cơng cụ phân tích cú pháp phụ thuộc

3.1.1 MSTParser

Kiến thức trong phần này trình bày theo tài liệu của tác giảRyan McDonald, Joakim Nivre [21] và trang Web:

http://www.seas.upenn.edu/ strctlrn/MSTParser/MSTParser.html [25]. MSTParser là cơng cụ phân tích cú pháp phụ thuộc mã nguồn mở, được phát triển bởi Jason Baldrige, Ryan McDonald cùng cộng sự. MSTParser là công cụ viết bằng ngôn ngữ Java và chạy trên giao diện dịng lệnh. MSTParser sử dụng thuật tốn huấn luyện MIRA và thuật tốn phân tích Eisner hoặc thuật tốn phân tích Chu-Liu-Edmonds. Cả hai thuật tốn này đều được sử dụng để tìm ra đồ thị phụ thuộc đúng nhất cho một câu đầu vào. MSTParser là một trong những cơng cụ phân tích cú pháp phụ thuộc tốt nhất trong Hội thảo về Xử lý ngôn ngữ tự nhiên (CoNLL-2006), công cụ đã được thử nghiệm cho rất nhiều ngôn ngữ khác nhau.

Định dạng đầu ra và đầu vào

Định dạng dữ liệu của MSTParser theo mẫu sau:

w1 w2 ..... wn

p1 p2 ..... pn

l1 l2 ..... ln

Trong đó:

• w1...wn: là n từ trong câu.

• p1...pn: là nhãn từ loại tương ứng của các từ trong câu.

• l1...ln: là nhãn phụ thuộc của từ phụ thuộc với từ trung tâm của nó trong câu.

• d1...dn: là số nguyên đại diện cho từ trung tâm mà từ phụ thuộc tương ứng phụ thuộc vào.

Nếu chỉ huấn luyện hoặc kiểm tra một phân tích cú pháp phụ thuộc khơng gán nhãn, thì sẽ khơng có hàng thứ 3 trong định dạng dữ liệu. Định dạng này giống nhau cho q trình huấn luyện và phân tích một dữ liệu mới. Trong dữ liệu mới cần phân tích hàng thứ 3 và hàng thứ 4 là một giá trị giả nào đó.

Thuật tốn phân tích và huấn luyện

MSTParser hoạt động theo thuật tốn phân tích cú pháp phụ thuộc dựa trên đồ thị. Cách tiếp cập này gồm có hai giai đoạn phục vụ cho việc huấn luyện. Giai đoạn đầu tiên, huấn luyện một mơ hình để dự đốn cây phụ thuộc chưa được gán nhãn cho một câu. Như vậy, trọng số của cạnh khơng có điều kiện trên các nhãn có thể được tham số hóa bằng các đặc trưng chỉ có trên cặp đầu tiên: s(i, j) =w.f(i, j). Kết quả là, giai đoạn đầu tiên của huấn luyện phân tích

cú pháp, chúng ta phải xác định các đặc trưng đại diện f(i, j) được trình bày trong Bảng 1.2 (Chương 1) cho một cung khơng được gán nhãn (i, j). Những

đặc trưng này đại diện cho cả hai thông tin về điểm đầu và mối quan hệ phụ thuộc cũng như đặc trưng của các nhãn thơng qua các nhãn thơ và mịn nếu có.

Khi đó, trọng số của cây phụ thuộc y cho câu x là:

s(x, y) =X

(i,j)

s(i, j) =X

(i,j)

w.f(i, j).

Một khi mơ hình đã được huấn luyện, việc chạy mơ hình trên dữ liệu mới là khá nhanh chóng. Tuy nhiên, nếu bộ dữ liệu lớn, thì quá trình huấn luyện sẽ mất khá nhiều thời gian.

Với phương thức hoạt động như trên, độ chính xác khi phân tích cú pháp phụ thuộc trên MSTParser trên các ngôn ngữ như trên Bảng 3.1.

Bảng 3.1: Kết quả của MSTParser.Ngôn ngữ ASU ASL

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích cú pháp phụ thuộc tiếng việt 10 (Trang 39 - 42)

Tải bản đầy đủ (PDF)

(81 trang)