Kết quả cho thấy, hệ thống Sketch Engine đã có thể sử dụng để nghiên cứu từ
vựng cho tiếng Việt, mọi chức năng của hệ thống sử dụng cho tiếng Việt cũng đáp
ứng nhưđối với các ngôn ngữ khác; Phụ lục 1, liệt kê việc đánh giá của bộ quan hệ
ngữ pháp với kho ngữ liệu tiếng Việt và hệ thống Sketch Engine. Phụ lục cho thấy mọi truy vấn trong bộ quan hệ ngữ pháp cơ bản tiếng Việt đã phù hợp với hệ thống Sketch Engine, số lượng ngữ cảnh trong kho ngữ liệu phù hợp với mỗi truy vấn đã
được liệt kê chi tiết trong phụ lục 1.
4.3 Kết chương
Chương này trình bày về việc khai thác kho ngữ liệu thô tiếng Việt từ
Internet cho nghiên cứu từ vựng, việc xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt (được biểu diễn thông qua ngôn ngữ truy vấn kho ngữ liệu). Kết quả cho thấy hệ thống Sketch Engine đã có thể sử dụng để nghiên cứu từ vựng, xây dựng từđiển
68
cho tiếng Việt, mọi chức năng của hệ thống sử dụng cho tiếng Việt tương tự nhưđối với các ngôn ngữ khác.
Kho ngữ liệu thô có kích thước lớn có thể khai thác cho mô hình học máy bán giám sát ứng dụng trong các bài toán gán nhãn của xử lý ngôn ngữ tự nhiên. Với đề tài KC01.01/06-10 (2007-2009) đã cung cấp cho chúng ta một số tài nguyên thiết yếu xử lý tiếng Việt, trong đó các kho ngữ liệu cùng với các công cụ gán nhãn tiếng Việt tuy cho kết quả khá khả quan [9, 81]. Nhưng các công cụ này chủ yếu sử
dụng các mô hình học máy có giám sát, như thế, tốn rất nhiều thời gian và tiền bạc cho việc xây dựng và chuẩn bị dữ liệu huấn luyện mô hình, hơn nữa, với độ lớn cố định của dữ liệu huấn luyện không nâng cao được hiệu suất của các công cụ [67, 68]. Để giải quyết vấn đề này chúng ta có thể thử nghiệm mô hình bán giám sát như đã đề xuất trong bài toán gán nhãn tiếng Anh [68] cho tiếng Việt, mô hình sử dụng dữ liệu huấn luyện chưa gán nhãn trong sự giám sát của dữ liệu đã gán nhãn. Khi
đó, khối lượng lớn (hàng GB) dữ liệu không gán nhãn tiếng Việt có thể thu thập thông qua Internet, dữ liệu đã gán nhãn có thể thu được ởđề tài KC01.01/06-10.
Những đóng góp của của luận án thể hiện trong chương này là:
- Xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt (37 quan hệ ngữ pháp) cho hệ thống nghiên cứu từ vựng;
- Tích hợp kho ngữ liệu xây dựng từ Internet (kho ngữ liệu thô được gán nhãn từ loại bằng cách sử dụng công cụ sẵn có) cùng bộ quan hệ ngữ
pháp cho nghiên cứu từ vựng tiếng Việt vào hệ thống nghiên cứu từ vựng Sketch Engine. Bảng đánh giá chi tiết của mỗi truy vấn tương đương với mỗi mẫu cú pháp cơ bản được liệt kê trong phụ lục 1;
Phân tích cú pháp là bước quan trọng trong việc hiểu tựđộng văn bản, mỗi bộ phân tích cú pháp đòi hỏi phải xây dựng được bộ luật cú pháp của một văn phạm nào đó, bộ luật trong đó được trích rút tựđộng từ một số kho ngữ liệu chú giải đã tồn tại. Công việc này sẽđược trình bày ở chương tiếp theo của luận án.
69
5. CHƯƠNG 5. KHAI THÁC KHO NGỮ LIỆU CÓ CHÚ GIẢI
CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT
5.1 Giới thiệu
Phân tích cú pháp là bước quan trọng trong quá trính xử lý ngôn ngữ tự
nhiên, với bộ phân tích cú pháp chất lượng cao sẽ giúp tăng tính hiệu quả của các hệ
thống xử lý ngôn ngữ tự nhiên như dịch máy, tóm tắt văn bản, các hệ thống hỏi
đáp.. .
Đối với tiếng Việt, mọi bộ phân tích cú pháp đều cần bộ luật cú pháp tiếng Việt, hay còn gọi là văn phạm cho tiếng Việt, được biểu diễn bởi một hệ văn phạm hình thức cụ thể nào đó. Bộ luật này có thể thu thập từ một số kho ngữ liệu được xây dựng trong dự án KC01.01/06-10, đó là kho ngữ liệu chú giải cú pháp (VietTreebank) và kho từ vựng (từđiển) tiếng Việt dùng cho máy tính.
Trong VietTreebank, nhóm các chuyên gia ngôn ngữ học đã thực hiện việc chú giải thông tin cú pháp cho một kho văn bản tiếng Việt theo định dạng chú giải thành phần và đã được mã hóa dưới dạng đặt ngoặc. Kho ngữ liệu được chia làm ba tập tương ứng với ba mức gán nhãn là tách từ, gán nhãn từ loại và gán nhãn cú pháp. Tập gán nhãn cú pháp gồm 10471 câu (225085 đơn vị từ vựng). Độ dài của các câu nằm trong khoảng từ 2 tới 105 từ, với độ dài trung bình là 21.75 từ. Có 9314 câu (chiếm 88.95%) có độ dài không lớn hơn 40 từ. Tập nhãn của VietTreebank gồm 38 nhãn cú pháp (18 nhãn từ loại, 17 nhãn cụm từ, 3 nhãn phần tử rỗng) và 17 nhãn chức năng. Các cây cú pháp có chiều cao đa số nằm trong khoảng từ 5 đến 10, phổ biến nhất là bằng 7 (1436 câu). Đặc biệt có 2 câu có chiều cao bằng 27. Các thông tin chi tiết về VietTreebank được trình bày trong tài liệu [14].
Kho từ vựng (từđiển) tiếng Việt [127] dùng cho máy tính đã được xây dựng khoảng 35.000 mục từ với 41700 nghĩa từ nhằm phục vụ cho các ứng dụng xử lý ngôn ngữ Việt. Mô hình ngữ liệu của kho từ vựng được xây dựng theo chuẩn LMF
70
do tiểu ban kĩ thuật ISO/TC 37/Sc 4 phát triển. LMF được tổ chức thành các gói cho phép đặc tả các thông tin ngôn ngữở từng cấp độ.
Dựa vào thông tin cú pháp trong VietTreebank, từđiển tiếng Việt, luận án đi sâu vào nghiên cứu, xây dựng bộ luật của văn phạm phục vụ cho bài toán phân tích cú pháp tiếng Việt. Trong đó luận án đã phát triển và xây dựng thuật toán trích rút tự động bộ luật của văn phạm PCFG (Probability Context Free Grammar), LTAG (Lexicalized Tree Adjoining Grammar) từ VietTreebank và từ điển tiếng Việt, cài
đặt thử nghiệm và đánh giá. Đồng thời xây dựng được bộ phân tích cú pháp tiếng Việt trên văn phạm PCFG, trong đó thuật toán phân tích cú pháp cho mỗi câu, về cơ
bản tương tự như thuật toán PCYK của Jurafsky and Martin [41]. Với cách tiếp cận cho tiếng Việt, một câu đầu vào đã được gán nhãn từ loại15 bằng công cụ có sẵn, trong khi đối với Jurafsky và Martin thì câu đầu vào là một chuỗi các từ chưa được gán nhãn từ loại, việc tách từ dựa vào khoảng trắng. Sau khi gán nhãn từ loại xác suất P(từ loại| từ) trong một văn phạm không làm ảnh hưởng đến việc tìm cây phân tích có xác suất cao nhất (được chứng minh ở mục 5.3.2) nên trong thuật toán phân tích cú pháp PCYK đã được điều chỉnh bằng cách thay xác suất P(từ loại|từ)=1 thay vì phải tính xác suất đó trong Treebank.