Giải quyết nhập nhằng

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Xây dựng kho ngữ liệu cho bài toán phân tích cú pháp phụ thuộc tiếng Việt (Trang 75 - 79)

2. Một phát_ ngôn có_ thể gồm [nhiều câu hoặc một câu] duy_ nhất. CON Tenn , câi a)

4.5 Giải quyết nhập nhằng

Trong quá trình huấn luyện annotators, chúng tôi đã phát hiện ra nhiều hiện tượng gây nhập nhằng

giữa các nhãn gây khó khăn trong việc chỉnh sửa nhãn thủ công. Do đó, trong tài liệu hướng dẫn gán

nhãn thủ công của chúng tôi đề xuất các luật sau để giải quyết những khó khăn trong việc gán nhãn

phụ thuộc:

1. Nếu “A B” có head

động từ thì B là bổ

dong từ thì B lANmodifier của A. Ngược lại, nếu A là ngoại

3. Néu “A B” có

Ngược lại, nếu

4. Nộu“A B” cú ẽ

Ngược lại, nếu B odifier thì quan hệ nay là NMOD.

5. Nếu “A B” có head word A là ngữ NP và B là mệnh đề § đầy đủ thành phần chủ - vị thì quan

hệ này là RCMOD. Ngược lại, nếu B là mệnh đề S khuyết chủ ngữ và vị ngữ là ngữ VP thì mối quan hệ này là XCOMP:VCOMP.

6. Nếu “A B7 có head word A là ngữ NP và B là mệnh đề 5 đầy đủ thành phần chủ - vị thi quan

hệ này là RCMOD. Ngược lại, nếu B là mệnh đề S khuyết chủ ngữ và vi ngữ là ngữ ADJP thì mối quan hệ này là XCOMP:ACOMP.

Trong mục 4.2 khi nói về thách thức đối với việc gan nhãn tự động, chúng tôi đã đưa ra một ví dụ về

sự nhập nhằng giữa 2 nhãn VCOMP và VCOMP_ PASS mà converter không thể giải quyết được.

Để khắc phục lỗi này chúng tôi đã áp dụng một luật do chúng tôi đề xuất để giải quyết nhập nhằng

như sau:

e Nếu quan hệ giữa 2 động từ “A B” có head word A là động từ “bi/dugc” thì quan hệ này là

VCOMP trong câu chủ động và VCOMP_ PASS trong câu bị động.

61

Khi annotators dựa theo quy tắc này để chỉnh sửa nhãn bị gán sai bởi converter thì kết quả nhãn đúng sẽ được thể hiện trong hình 4.2. Với hình 4.2a, mối quan hệ giữa “bi” và “lac” đã được chỉnh thành VCOMP và mối quan hệ giữa “bi” và “đánh” vẫn giữ nguyên là VCOMP_ PASS.

ROOT ROOT

NSUB. | _ VCOMP NSUB. | VCOMP_PASS

Tôi bị lạc Tôi bị đánh

(a) Câu chủ động (b) Câu bị động

Hình 4.2: Áp dụng luật giải quyết nhập nhằng khi chỉnh sửa ngữ liệu thủ công.

Để đảm bảo tính nhất qu

liệu hướng dẫn gán nhãn

của chúng tôi là tài liệu d theo trong quá trình gan nhãn.

Hơn nữa, trong tài liệu b Nhiềư ví dụ minh họa cho những cấu trúc

có thể xuất hiện tron, eu dễ thực hiện theo. Ngoài ra, chúng tôi còn đề xuất thêm nj g hợp nhập nhằng trong tiếng Việt (được trình bày chỉ tiết tr ‘an nhãn của chúng tôi được đề cập trong mục 4.4. Trong phần này, bày quy trình của chúng tôi để huấn luyện những

người gin nhãn va đo 1u6 an và độ chính xác giữa họ.

4.6.1 Huấn luyện người gan nhãn ngữ liệu

Trước khi bắt đầu quá trình huấn luyện người gán nhãn, chúng tôi cố gắng xây dựng tài liệu hướng dẫn gán nhãn thủ công hoàn chỉnh nhất cỏ thể. Tuy nhiên, việc chỉnh sửa và cập nhật lại tài liệu

hướng dẫn trong quá trình huấn luyện là điều khó tránh khỏi vì kho ngữ liệu thực tế có cú pháp phức tạp hơn nhiều so với các ví dụ được đề cập trong tài liệu. Trong phần này, chúng tôi sẽ thảo luận về

phương pháp của chúng tôi để cải thiện chất lượng của hướng dẫn gán nhãn và để đảm bảo gán nhãn

chính xác và nhất quán.

Về trình độ của những người gán nhãn bao gồm sinh viên và giảng viên đại học Công Nghệ Thông Tin. Trong đó, có 3 sinh viên năm cuối có học lực giỏi của khoa Khoa Học Máy Tính cùng 2 giảng viên có kinh nghiệm xây dựng kho ngữ liệu và nghiên cứu về NLP. Sau quá trình xây dựng tài liệu hướng dẫn gan nhãn, chúng tôi đã huấn luyện hai người gán nhãn và yêu cầu họ gán nhãn 1000 câu. Trong giai đoạn đầu này, chúng tôi thường tổ chức các cuộc họp với người gán nhãn ngữ liệu để trao

62

đổi những vấn đề hoặc những khó khăn khiến họ không gán nhãn được hoặc cảm thấy chưa hợp lý. Những điểm này đều được chúng tôi ghi nhận và là đầu mối quan trọng cho việc cập nhật lại các hướng dẫn. Dựa trên những phản hồi này, chúng tôi đã sửa đổi các hướng dẫn không thể áp dụng cho ngữ liệu mới và những hướng dẫn không nằm trong tài liệu. Sau khi sửa đổi tài liệu hướng dẫn,

chúng tôi đã huấn luyện lại người gán nhãn với phiên bản thứ hai. Sau đó, chúng tôi thực hiện việc

đo độ chính xác và độ đồng thuận giữa họ để có thể kiểm tra chất lượng gán nhãn và đưa vào gán nhãn dữ liệu thực tế. Chúng tôi tiến hành đo qua 3 vòng và mỗi vòng người làm dữ liệu phải thực hiện việc chỉnh sửa và gán nhãn thủ công độc lập với nhau trên 1 tập dữ liệu gồm 50 câu. Quy trình huấn luyện người gán nhãn được chúng tôi thể hiện qua hình 4.3.

Thảo luận nhóm: _ -Rút kinh nghiệm những lỗi sai

-Cập nhật guidelines

Do độ chính xác,

độ đồng thuận

e Độ chính xác 5 a gin nhãn của từng người với bộ ngữ liệu

chuẩn. Còn độ

nhau.

e Chúng tôi thảo luận với những người gán nhãn về các lỗi và sự không nhất quán. Nếu các lỗi này là hiện tượng ngôn ngữ mới chưa được hướng dẫn trong tài liệu thì sẽ được cập nhật thêm

vào tài liệu. Trong trường hợp đó là hiện tượng đã có hướng dẫn nhưng được viết chưa rõ, gây

mập mờ khó hiểu cho người gán nhãn cũng được sửa đổi lại chỉ tiết hơn trong tài liệu. Ngoài hai

trường hợp trên, lỗi từ phía người gán nhãn nhớ sai hoặc làm không kĩ thì sẽ đào tào lại người gan nhãn.

Kết quả mà chúng tôi đạt được sau 3 vòng đo là cả độ chính xác và độ đồng thuận giữa hai người làm ngữ liệu đều trên mức 96% trong bảng 4.1. Trong quá trình này, chúng tôi không chỉ đòi hỏi việc

người làm ngữ liệu hiểu được các mối quan hệ phụ thuộc và nhãn phụ thuộc mà còn phải hiểu cũng như phân tích được cây thành tố để có thể xác định được lỗi sai từ công cụ chuyển đổi sai hay từ cây

thành tố. Và sau 3 vòng đo đã đạt được độ chính xác với độ đồng thuận cao nên chúng tôi ngừng việc

đo tiếp.

63

Độ đồng thuận

Set2 Sot3 99,84 100,0 99,72 97,36 98,87 98,42 D6 do

LAS

Chương 5

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Xây dựng kho ngữ liệu cho bài toán phân tích cú pháp phụ thuộc tiếng Việt (Trang 75 - 79)

Tải bản đầy đủ (PDF)

(101 trang)