Để so sánh và đánh giá tập cây khởi tạo, luận án xây dựng phần mềm với hai chức năng chính, chức năng thứ nhất là trích rút tựđộng các cây khởi tạo từ từđiển dựa vào thuật toán 5.12; Chức năng thứ hai là so sánh đưa ra các cây giao nhau, lệch nhau được sinh ra từ cùng một sốđộng từ trong các cây cơ bản của từđiển và VietTreebank. Kết quảđược cho trong Bảng 5.7.
Bảng 5. 7. Thống kê bộ cây cơ bản Spin từ từđiển so sánh với cây cơ bản của VietTreebank Bước Thử Nghiệm Số cây của từ điển Từ giao nhau (Both Word) Số cây của từ điển có neo là từ giao nhau (allXml Tree) Số cây của VietTreeban k có neo là từ giao nhau (allBank Tree) Số cây giao nhau (Both Tree) Tỷ lệ LTAG trùng nhau so với VNTree bank Tỷ lệ LTAG trùng nhau so với XMLtừ điển Trung bình số từ trên 1 cây giao nhau Từ loại chung 56386 1469 6355 3701 1481 40.02% 23.30% 0.999 Từ loại chi tiết (Vt,Vu) 59243 1469 6963 3701 892 24.10% 12.81% 1.65 0 2000 4000 6000 8000 10000 12000 14000
Từ loại chung Từ loại chi tiết (Vt,Vu)
BothTree allBankTree allXmlTree BothWord
106
Hình 5.13 cho thấy độ chênh lệch khá cao về các cây cơ bản giao nhau (phần cây cơ sở giao nhau được sinh ra từ từđiển và VietTreebank) giữa bước thử nghiệm bắt lấy từ loại chung và từ loại chi tiết khi cùng bắt nguồn từ 1469 từ neo là động từ.
Điều này cho thấy trong VietTreebank khi chú giải từ loại chưa nhất quán sử dụng từ loại chung hay tiểu từ loại cho mỗi từ vựng => Nhãn từ loại của các từ vựng trong VietTreebank cần thống nhất lại theo một tiêu chí chung (sử dụng từ loại chung hay tiểu từ loại);
Bảng 5.7 cho thấy cứ mỗi một từ giao nhau đã có xấp xỉ 1 cây khởi tạo giao nhau (ở bước thử nghiệm “ từ loại chung”), điều này chứng tỏ từđiển đã cung cấp
đủ thông tin cú pháp cơ bản trong VietTreebank. Nhưng tỷ lệ giữa các cây khởi tạo giao nhau với các cây của từđiển, các cây của VietTreeBank là thấp chứng tỏ trong từđiển mỗi cây khởi tạo thu được chưa cung cấp đủ thông tin cú pháp đa dạng như
trong VietTreebank, các cây cơ bản của VietTreebank cũng chưa bao phủ hết các cây cơ bản trong từđiển. Trong từđiển hiện tại mới có khung vị từ là động từ, chưa có hết các trường hợp vị từ khác (danh từ, tính từ, giới từ), đây cũng là một nguyên nhân dẫn đến tỷ lệ giao nhau còn thấp, cần bổ sung thêm các khung vị từ khác vào từđiển.
Các lỗi chú giải là không thể tránh khỏi đối với các treebank lớn, những lỗi trong các cây phân tích cú pháp sẽ dẫn đến các cây cơ bản không hợp lệ. Cây cơ bản
được gọi là không hợp lệ nếu nó không thoả mãn một yêu cầu ngôn ngữ học nào đó. Dựa trên một số tri thức ngôn ngữ tiếng Việt cho thấy cần phải lọc một số cây cơ
bản không hợp lệ với quy tắc ngữ pháp. Ví dụ, trong tiếng Việt, một tính từ (hoặc một cụm tính từ) không thể làm nút trung tâm tiếp theo cho một động từ…. Vì vậy, nếu có cây cơ bản trong đó có tính từ (danh từ, giới từ) là từ trung tâm của cụm
động từ (hoặc các loại cụm ngữ khác) thì cây này là không hợp lệ, cần được lọc ra. Một ví dụ khác về kiểu cây không hợp lệ là cây khởi tạo trong đó nút trung tâm có nhiều hơn 4 đối bắt buộc, trường hợp không xảy ra trong tiếng Việt, như cây trên Hình 5.14;.
107
Hình 5. 14. Một cây cơ bản không hợp lệ
Danh sách các cây khởi tạo thu được có trong VietTreebank không có trong từ điển sẽ cung cấp tri thức ngôn ngữ để lọc một số cây cơ bản không hợp lệ với quy tắc ngữ pháp khi trích rút từ VietTreebank (do phần mềm trích rút tự động văn phạm LTAG, hoặc do VietTreebank bị nhầm=>sửa lại trong VietTreebank;), ví dụ, các cây (VP (A tạm)); (S (VP (N nói)) (+NP)); (VP (N tai nạn) (+n));(VP (N nước)), có một số cây cơ bản của VietTreebank có nhiều đối (nhiều cây có nhiều hơn 4 đối) trong khi các cây cơ bản của từđiển có đối nhiều nhất là 3.
Thông qua việc kiểm tra tính hợp lệ của tập cây cơ bản được trích rút, luận án đề
xuất cải tiến và sửa lỗi cho VietTreebank, giúp nâng cao chất lượng của treebank tiếng Việt.
5.5 Kết chương
Chương này trình bày về văn phạm và các kiến thức cơ bản liên quan đến phân tích cú pháp. Đặc biệt là phát triển và xây dựng các thuật toán trích rút các luật văn phạm CFG, PCFG từ VietTreebank và văn phạm LTAG từ VietTreebank, từ điển tiếng Việt ứng dụng cho phân tích cú pháp tiếng Việt. Xây dựng hệ thống trích rút tự động các luật cho văn phạm PCFG, LTAG và bộ phân tích cú pháp cho câu tiếng Việt trên văn phạm PCFG. Bên cạnh đó luận án đề xuất nghiên cứu và triển khai hệ thống phân tích cú pháp trên văn phạm LTAG kết hợp xác suất thu được từ
VietTreebank và từđiển tiếng Việt.
Với bộ phân tích cú pháp tốt, VietTreebank có thể được tái mở rộng bằng cách phân tích tự động cú pháp của các câu đã chú giải từ loại tiếng Việt được lấy trực tiếp từ Internet (phương pháp thu thập văn bản từ các trang web được trình bày trong chương 2). Tuy nhiên, nếu các bộ phân tích cú pháp hiện tại cho kết quả chưa cao, VietTreebank có thể mở rộng bằng cách bán tự động, tức là sử dụng bộ phân tích cú pháp để chú giải tự động cú pháp từng câu23, sau đó, nhà chú giải có thể
108
chỉnh sửa từng câu nếu thấy cần thiết. Phương pháp này mang lại tích chính xác cho VietTreebank và giảm thiểu công sức cho các nhà chú giải.
Hơn nữa, VietTreebank hiện tại mới được mã hóa bằng định dạng dấu ngoặc, chưa hướng tới chuẩn quốc tế về chú giải tài nguyên ngôn ngữ. Để cộng
đồng quốc tế dễ dàng thụ hưởng và mở rộng thì Treebank cần được xây dựng hướng tới chuẩn Quốc tế về mô hình chú giải tài nguyên cú pháp. Đặc biệt đó là mô hình chú giải cú pháp VnSynAF được xây dựng ở chương 3.
Những đóng góp của nghiên cứu sinh trong chương này là:
- Xây dựng thuật toán, hệ thống trích rút tựđộng các luật văn phạm phi ngữ cảnh kết hợp xác suất (PCFG) từ kho văn bản đã gán nhãn cú pháp VietTreebank. Đồng thời xây dựng hệ thống phân tích cú pháp các câu tiếng Việt theo phương pháp thống kê trên văn phạm PCFG, trong đó thuật toán phân tích cú pháp đã được cải tiến từ thuật toán PCYK của Martin. [41]. Hệ thống này có tên là VNNLP được công bố tại địa chỉ http://www.nitaco.edu.vn/science-tech/phanha/;
- Tham gia triển khai thuật toán trích rút cây cơ bản của văn phạm kết nối cây (TAG) từ VietTreebank. Xây dựng và triển khai thuật toán trích rút cây cơ bản cho văn phạm TAG từ từđiển tiếng Việt. So sánh tập cây cơ bản trích rút từ VietTreebank và từđiển tiếng Việt để lọc ra các cây cơ bản không hợp lệ với cấu trúc ngữ pháp tiếng Việt và
109
KẾT LUẬN
Luận án tiếp cận phương pháp xây dựng kho ngữ liệu từ Internet trên thế giới
để phát triển cho tiếng Việt, xây dựng và phát triển mô hình chuẩn hoá kho ngữ liệu tiếng Việt theo mô hình chuẩn được phát triển bởi tiểu ban kĩ thuật ISO/TC 37/SC 4 [114]. Nghiên cứu và triển khai hệ thống truy vấn kho ngữ liệu Sketch Engine cho nghiên cứu từ vựng tiếng Việt dựa trên bộ quan hệ ngữ pháp và kho ngữ liệu tiếng Việt. Nghiên cứu, xây dựng thuật toán trích rút tự động các luật văn phạm PCFG, LTAG từ các kho ngữ liệu có chú giải cú pháp tiếng Việt phục vụ cho bài toán phân tích cú pháp.
1.Các kết quảđã đạt được
Kết quả nghiên cứu của luận án có ý nghĩa về khoa học và thực tiễn với các kết quả như sau:
1. Phát triển thuật toán thu thập văn bản tiếng Việt từ web để xây dựng kho ngữ liệu. Xây dựng công cụ thu thập tự động kho ngữ liệu từ
Internet có tên là Vncopus, triển khai thu thập kho ngữ liệu thô tiếng Việt từ Internet (100 triệu từ), công cụ này được công bố tại địa chỉ
http://www.nitaco.edu.vn/science-tech/phanha/
2. Xây dựng, triển khai các mô hình chuẩn hóa quốc tế về quản lý tài nguyên ngôn ngữđược phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4 cho tiếng Việt: Xây dựng mô hình chú giải mức hình thái-cú pháp (MAF- Morphosyntactic Annotation Framework) và mô hình chú giải mức cú pháp (SynAF-Syntactic Annotation Framework) cho tiếng Việt.
3. Xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt (37 quan hệ ngữ
pháp) cho hệ thống nghiên cứu từ vựng; Tích hợp kho ngữ liệu xây dựng từ Internet (kho ngữ liệu thô được gán nhãn từ loại bằng cách sử
dụng công cụ sẵn có) cùng bộ quan hệ ngữ pháp cho nghiên cứu từ
110
Bảng đánh giá chi tiết của mỗi truy vấn tương đương với mỗi mẫu cú pháp cơ bản được liệt kê trong phụ lục 1;
4. Xây dựng thuật toán, hệ thống trích rút tựđộng các luật văn phạm phi ngữ cảnh kết hợp xác suất (PCFG) từ kho văn bản đã gán nhãn cú pháp VietTreebank. Đồng thời xây dựng hệ thống phân tích cú pháp các câu tiếng Việt theo phương pháp thống kê trên văn phạm PCFG, trong đó thuật toán phân tích cú pháp đã được phát triển từ thuật toán PCYK của Martin. Hệ thống này được công bố tại địa chỉ
http://www.nitaco.edu.vn/science-tech/phanha/. Tham gia triển khai thuật toán trích rút cây cơ bản của văn phạm kết nối cây (TAG) từ
VietTreebank, và xây dựng, triển khai thuật toán trích rút cây cơ bản cho văn phạm TAG từ từđiển tiếng Việt. So sánh tập cây cơ bản trích rút từ VietTreebank và từ điển tiếng Việt để lọc ra các cây cơ bản không hợp lệ với cấu trúc ngữ pháp tiếng Việt và đánh giá độ tốt của VietTreebank cũng như từđiển.
2. Hướng nghiên cứu tiếp theo
Phần trên đã trình bày những nghiên cứu và đóng góp của tác giả về vấn đề
xây dựng, chuẩn hóa và khai thác kho ngữ liệu, các thực nghiệm trong các chương
đã cho các kết quả khả quan. Tuy nhiên để cải tiến hơn về độ chính xác, khả năng
ứng dụng của các hệ thống xử lý tựđộng văn bản luận án đưa ra một số hướng phát triển như sau:
1. Triển khai mô hình bán giám sát kết hợp sử dụng kho ngữ liệu đã gán nhãn và kho ngữ liệu thô có kích thước lớn để xây dựng công cụ gán nhãn từ loại tiếng Việt đạt hiệu suất cao hơn.
2. Mở rộng VietTreebank và tìm hiểu thêm một số văn phạm cho vấn đề
phân tích cú pháp. Nghiên cứu và triển khai hệ thống phân tích cú pháp trên văn phạm LTAG kết hợp xác suất.
111
3. Nghiên cứu xây dựng và khai thác kho ngữ liệu ngôn ngữở mức cao hơn đó là ngữ nghĩa.
4. Ứng dụng các chuẩn quốc tế về chú giải ngữ liệu cho tiếng Việt ở các mức hình thái-cú pháp, cú pháp, ngữ nghĩa, v.v.
112
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH LIÊN QUAN ĐẾN LUẬN ÁN
[1] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Lưu Văn Tăng,
Xây dựng sơ đồ mã hóa và công cụ trợ giúp gán nhãn tiếng Việt,
Proceedings of ICT.rda'08. Hanoi Aug. 8-9, 2008.
[2] Lê.H.Phương, Ng.T.M. Huyền, Nguyễn Phương Thái, Phan thị Hà, Trích rút tự động văn phạm LTAG cho tiếng Việt, Tạp chí Tin học và Điều khiển học, Tập 26 số 2, 2010.
[3] Phan Thị Hà, Nguyễn Thị Minh Huyền, Rút trích tựđộng văn phạm CFG từ
VietTreebank cho phân tích câu tiếng Việt, Tạp chí Khoa học Công nghệ các trường đại học, Số 80, 2011.
[4] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Adam Kilgarriff, Siva Reddy, Nghiên cứu từ vựng tiếng Việt với hệ thống Sketch Engine, Tạp chí Tin học Và Điều khiển học, Tập 27 số 3, 2011.
[5] Phan Thị Hà, Trịnh thị Vân Anh, Một số vấn đề trong phân tích tự động cú pháp tiếng Việt, Hội thảo Khoa học công nghệ, Học viện CNBCVT, Hà nội. 16-9, 2011.
[6] Phan Thị Hà, Hà Hải Nam, Automatic main text extraction from web pages, Tạp chí Khoa học và Công nghệ, Tập 51, Số 1, 2013.
113
TÀI LIỆU THAM KHẢO Tiếng Việt:
[1] Diệp Quang Ban, Ngữ pháp tiếng Việt (2 tập), NXB Giáo dục, 2005.
[2] Đinh Điền, Giáo trình xử lý ngôn ngữ tự nhiên, Đại học Khoa Học Tự Nhiên, 2004.
[3] Hồ Tú Bảo, Lương Chi Mai, Báo cáo xử lý tiếng Việt trong CNTT, Viện Công nghệ Thông tin, viện Khoa học Tiên tiến Nhật Bản, 2008.
[4] Nguyễn Quang Châu và cộng sự, Gán nhãn từ loại dựa trên văn phong và tính toán xác suất, Tạp chí phát triển KH&CN, tập 9-số 2, 2006.
[5] Vũ Dũng, Tiếng Việt và ngôn ngữ học hiện đại sơ khảo về cú pháp. VIET Stuttgart – Germany, 2004.
[6] Cao Xuân Hạo, Tiếng Việt sơ thảo ngữ pháp chức năng, NXB Khoa học Xã hội, 2006.
[7] Nguyễn Thị Minh Huyền và cộng sự, Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản Tiếng Việt, Báo cáo hội thảo ICT.rda,2003.
[8] Nguyễn thị Minh Huyền và cộng sự, Hướng dẫn nhận diện đơn vị từ trong văn bản tiếng Việt trong “Báo cáo kết quả sản phẩm SP 7.3- Kho ngữ liệu tiếng Việt có chú giải", KC01/01, Dự án VLSP, 2009.
[9] Phan Xuân Hiếu, Các báo cáo kỹ thuật, Sản phẩm 8.3, Dự án KC01/01, 2007-2009. (http://vlsp.vietlp.org:8080/demo/).
[10] Hoàng Phê và cộng sự, Từ điển tiếng Việt 2002, Nhà xuất bản Đà Nẵng - Trung Tâm TừĐiển Học.
[11] Lê Hồng Phương, Các phương pháp nhận dạng tên riêng trong văn bản, Đề
tài VLSP: Báo cáo kĩ thuật SP 8.2, 2008.
[12] Nguyễn Phương Thái và các cộng sự, Thiết kế tập nhãn cú pháp và hướng
dẫn gán nhãn, SP73 Phuluc1-12007.pdf, SP 7.3, KC01/01, Dự án VLSP,
114
[13] Nguyễn Phương Thái và các cộng sự, Hướng dẫn gán nhãn cú pháp, SP7.3 Baocaokythuat2-2008 thang3.pdf, SP 7.3, KC01/01, Dự án VLSP,2008 [14] Nguyễn Phương Thái và các cộng sự, Báo cáo kết quả sản phẩm SP 7.3- Kho
ngữ liệu tiếng Việt có chú giải, Quyển 1, 2009, KC01/01, Dự án VLSP,2009. [15] Nguyễn Quốc Thể, Lê Thanh Hương, Phân tích cú pháp tiếng Việt sử dụng
văn phạm phi ngữ cảnh từ vựng hóa kết hợp xác suất, FAIR conference, Nha Trang, Việt Nam, 2007.
[16] Uỷ ban khoa học xã hội Việt Nam, Ngữ pháp tiếng Việt, NXB Khoa học Xã hội, Hà nội, 1993.
Tiếng Anh:
[17] A. Abeillé, Une grammaire électronique du franc¸ais. CNRS, Paris, 2002. [18] A. Abeillé, Treebanks - Building and Using Parsed Corpora, Dordrecht:
Kluwer Academic Publishers, 2003.
[19] A. Berger, D.Pietras, V.D. Pietra, A maximum entropy approach to natural
language processing, Computational Linguistics, 22(1), 39–71. 1996.
[20] A. Ferraresi. E. Zanchetta, M. Baroni and S. Bernardini, 2008, Introducing
and evaluating ukWaC, a very large web-derived corpus of English, In S.
Evert, A. Kilgarriff and S. Sharoff (eds.) Proceedings of the 4th Web as Corpus Workshop (WAC-4) – Can we beat Google?, Marrakech, 1 June 2008.
[21] A. P. Dempster, N. M. Laird, and D. B. Rubin. 1977. Maximum Likelihood
from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical
Society, Series B, 39:1–38.1997
[22] A. K. Joshi, L. S. Levy, and M. Takahashi, Tree adjunct grammars, Journal of the Computer and System Sciences, 10:136–165, 1975.
[23] A. K. Joshi and Y. Schabes, Handbooks of Formal Languages and
115
[24] A. Kilgarriff and M. Rundell Lexical profiling software and its lexicographic
applications: a case study, Proceedings of EURALEX (Copenhagen), pp.
807–818, 2002.
[25] A. Kilgarriff, P. Rychlý, P. Smrz, and D. Tugwell, The sketch engine,
Proceedings of EURALEX (Lorient, France.http://www.sketchengine.co.uk/), 2004.
[26] A. Kilgarriff, Simple maths for keywords, Proceedings of the Corpus Linguistics Conference (University of Liverpool, UK), 2009.
[27] A. Kilgarriff, Reddy S., Pomikálek J., and Avinesh PVS, A corpus factory
for many languages, Proceedings of the Seventh conference on International
Language Resources and Evaluation (LREC’10) (Valletta, Malta) (Nicoletta Calzolari (Conference Chair), Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odijk, Stelios Piperidis, Mike Rosner, and Daniel Tapias, eds.),