Thử nghiệm trên bộ ngữ liệu VietTreebank

Một phần của tài liệu Gán nhãn từ tiếng việt qua phân tích cú pháp liên kết (Trang 46 - 51)

3.1. Giới thiệu VietTreebank

Ngân hàng câu được chú giải cú pháp (treebank) là kho ngữ liệu rất quan trọng trong nghiên cứu và xây dựng ứng dụng xử lý ngôn ngữ tự nhiên. Tiếng Việt là ngôn ngữ còn thiếu

46

nhiều tài nguyên trong đó có treebank. Tiếng Việt là ngôn ngữ đơn lập và không có ký tự tách từ cho nên việc phân tích câu có nhiều nhập nhằng. Quá trình gán nhãn được hỗ trợ bằng các công cụ gán nhãn tự động và công cụ soạn thảo. Nguồn ngữ liệu thô được lấy từ báo Tuổi Trẻ điện tử.

Treebank thường được dùng để xây dựng các hệ phân tích cú pháp, gán nhãn từ loại, tách từ. Các hệ đó lại có thể được dùng cho các ứng dụng như trích rút thông tin, dịch tự động, hỏi đáp, và tóm tắt văn bản. Ngoài ra treebank còn có thể được dùng cho các nghiên cứu ngôn ngữ học, chẳng hạn như khảo sát hiện tượng ngôn ngữ đặc thù nào đó. Gần đây cùng với sự ra đời của các phương pháp thống kê trên dữ liệu lớn thì treebank và các kho ngữ liệu khác càng đóng vai trò quan trọng hơn.

Với tiếng Việt, có ba mức độ gán nhãn là tách từ, gán nhãn từ loại, và gán nhãn cú pháp. Bước tách từ có nhiệm vụ xác định xem trong câu có những từ nào. Bước gán nhãn từ loại xác định từ loại cho các từ trong câu. Bước cuối cùng là gán nhãn cú pháp, bao gồm cả nhãn thành phần và nhãn chức năng. Mục tiêu chính của chúng tôi là nghiên cứu xây dựng kho ngữ liệu gồm 10 ngàn câu tiếng Việt được chú giải cú pháp. Quá trình xây dựng treebank có một số bước cơ bản là: tìm hiểu, thiết kế, xây dựng công cụ, thu thập ngữ liệu thô, và gán nhãn dữ liệu. Thực chất quá trình này là xoáy trôn ốc, vừa gán dữ liệu vừa hoàn thiện thêm tài liệu hướng dẫn gán nhãn (thiết kế) hay cải tiến công cụ.

Hiện tại VietTreebank đã có:

 70,000 câu đã được tách từ (khoảng 1 triệu đơn vị từ)

 10,000 câu đã được gán nhãn từ loại

 10,000 cây cú pháp;

 Khuôn dạng tương tự treebank tiếng Anh (Penn Treebank).

3.2. Kết quả thử nghiệm gán nhãn với VietTreebank

Trong thời gian thực hiện luận văn. Tôi đã xây dựng chương trình thử nghiệm phân tích các câu Tiếng Việt bằng văn phạm liên kết, qua đó xác định được từ loại của các từ trong câu. Chương trình được viết bằng ngôn ngữ Java, sử dụng IDE eclipse.

47

- Tập thử nghiệm thứ nhất (T1) gồm 100 câu (khoảng 1000 đơn vị từ) chưa được tách từ. Tập này sẽ đi qua bộ tách từ VnTokenizer trước khi gán nhãn từ loại.

- Tập thử nghiệm thứ hai (T2) cũng gồm 100 câu như trên nhưng đã tách từ trong bộ ngữ liệu VietTreebank cũng với khoảng 1000 đơn vị từ. Các câu đã được tách từ sẵn để đám bảo thử nghiệm được chính xác.

Kết quả gán nhãn từng từ trong câu đều được đối chiếu với các câu đã gán nhãn chuẩn. Dưới đây là kết quả thử nghiệm gán nhãn:

Tập T1 (không tách từ trước) Tập T2 (có tách từ trước)

Độ chính xác tập 100 câu thử nghiệm

85% 88%

Thời gian phân tích trung bình mỗi câu dưới 10 đơn vị từ

1.5 s 1.2 s

Thời gian phân tích trung bình mỗi câu từ 10 – 20 đơn vị từ

17 s 15s

Bảng sau cho thấy quan hệ giữa số kết quả phân tích và thời gian phân tích VPLK với số từ trong một câu.

Số từ Số kết quả phân tích Thời gian phân tích trung bình (s)

3 5 0.01

5 20 0.12

7 120 0.55

10 674 0.94

48 (adsbygoogle = window.adsbygoogle || []).push({});

Hình 11. Quan hệ giữa số kết quả phân tích trung bình và số từ trong một câu

Hình 12. Quan hệ giữa thời gian phân tích trung bình với số từ trong một câu

0 500 1000 1500 2000 2500 3 5 7 10 15 Số kết quả Số từ 0 0.5 1 1.5 2 2.5 3 5 7 10 15 Số từ

49

Các câu có kết quả chính xác và nhanh thường là các câu đơn, ngắn dưới 10 đơn vị từ. Các câu càng dài thì thời gian phân tích càng lâu và xảy ra bùng nổ số kết quả.phân tích. Một câu khoảng 10 đơn vị từ sẽ có hàng trăm đến hàng nghìn cách phân tích cú pháp liên kết (xét với tập luật VPLK thử nghiệm).

Qua kết quả thử nghiệm cho thấy độ chính xác của phương pháp gán nhãn Tiếng Việt bằng Văn phạm liên kết đạt gần 90 %. Đây là kết quả tương đối khả quan mặc dù bộ từ điển Văn phạm liên kết còn đang trong bước đầu xây dựng, số luật còn ít và độ chính xác không quá cao.

50

CHƯƠNG V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Một phần của tài liệu Gán nhãn từ tiếng việt qua phân tích cú pháp liên kết (Trang 46 - 51)