1 Kiểm tra lỗi tự động dữ liệu được gán nhãn trong tiếng Việt Automatic Error Checking of Vietnamese Syntax - Annotated Corpus NXB H. : Khoa Luật, 2014 Số trang 48 tr. + Đặng Hồng Hạnh Đại học Công nghệ Luận văn ThS ngành: Hệ thống thông tin; Mã số: 60480104 Người hướng dẫn: TS. Nguyễn Phương Thái Năm bảo vệ: 2014 Keywords: Hệ thống thông tin; Kiểm tra lỗi tự động; Dữ liệu Content 1. ĐẶT VẤN ĐỀ Phân tích cú pháp là nhiệm vụ quan trọng trong việc xử lý ngôn ngữ tự nhiên. Trong đó, việc gán nhãn từ loại là trọng tâm hơn cả. Kho dữ liệu tiếng Anh được gán nhãn thành công là kho dữ liệu Peen Treebank. Kho dữ liệu này đã được gán nhãn nhờ sử dụng ba lược đồ chú thích cơ bản: Gán nhãn từ loại, Gán nhãn cú pháp, Gán nhãn gián đoạn. Tuy đã sử dụng nhiều hình thức gán nhãn để đảm bảo độ chính xác cao, nhưng vẫn không thể tránh việc xảy ra lỗi. Đối với văn bản tiếng Việt, ngày nay cũng đã có nhiều đề tài nghiên cứu phục vụ cho việc gán nhãn tiếng Việt. Đề tài phân tích cú pháp tiếng Việt được nhiều người biết đến là Đề tài VLSP của nhóm tác giả Hồ Tú Bảo, Nguyễn Phương Thái và các đồng nghiệp. Do việc gán nhãn có thể thực hiện tự động hoặc bằng tay, nên vấn đề hiện nay các nhà nghiên cứu gặp phải trong phân tích cú pháp đó là lỗi gán nhãn. Những lỗi này có thể là lỗi do nhận dạng từ vựng sai, lỗi do cú pháp. Kho dữ liệu cần nghiên cứu là rất lớn nên việc phát hiện lỗi bằng phương pháp thủ công là rất khó khăn. 2. MỤC ĐÍCH CỦA LUẬN VĂN Từ các đặc điểm nguyên nhân gây lỗi đa dạng, tập luật trong văn bản là rất lớn, ta thấy việc phát hiện lỗi bằng phương pháp thủ công là vô cùng khó khăn. Do đó cần có những phương pháp phát hiện lỗi tự động hỗ trợ con người tìm ra lỗi, từ đó tìm cách khắc phục lỗi làm cho tập nhãn ngày càng chính xác. Theo Dickinson, khi xem xét văn phạm, có những luật không có trong treebank, chúng là những luật lạ - gọi là những luật adhoc. Những luật này kỳ lạ vì nó không giống các luật trong treebank nhưng nó chưa chắc đã là lỗi, chúng được xếp vào cùng lớp khi nghiên cứu. Trong nghiên cứu của mình, Dickinson đưa ra hai phương pháp tính điểm cho các luật, từ những điểm số được tính toán sẽ xác định những luật có nguy cơ chứa lỗi – là những luật có tần suất xuất hiện thấp. Trong luận văn này, tôi xây dựng công cụ phát hiện lỗi tự động dựa trên việc phát hiện các luật Adhoc áp dụng cho treebank tiếng Việt theo hai phương pháp tính điểm cho tập luật của Dickinson đề xuất. 2 3. BỐ CỤC CỦA LUẬN VĂN Luận văn được trình bày trong 5 chương, có phần mở đầu, phần kết luận, phần mục lục, phần tài liệu tham khảo. Các nội dung cơ bản của luận văn được trình bày theo cấu trúc như sau: Chương 1: Giới thiệu chung Trong chương này, trình bày các khái niệm cơ bản: Dữ liệu được gán nhãn, Lỗi trong gán nhãn dữ liệu. Bên cạnh đó, cũng trình bày chi tiết các nguyên nhân gây ra lỗi trong gán nhãn dữ liệu. Đồng thời, chúng tôi giới thiệu bài toán Kiểm tra lỗi dữ liệu được gán nhãn. Chương 2: Giới thiệu về Treebank Trong chương 2, giới thiệu cụ thể Penn Treebank và VietTreebank. Với Penn Treebank, trình bày khái quát khái niệm và phương pháp thực hiện đối với ba kiểu lược đồ chú giải. Cùng với việc giới thiệu tổng quan về VietTreebank, chúng tôi cũng trình bày chi tiết bảng nhãn và hướng dẫn gán nhãn cho VietTreebank. Chương 3: Phương pháp phát hiện lỗi của Dickinson Đây là chương trình bày cơ sở để giải quyết bài toán đặt ra. Đầu tiên, chúng tôi trình bày các khái niệm của Dickinson về Lớp tương đương, Lớp tương đương hẹp. Tiếp theo là hai phương pháp tính điểm cho các luật trong tập dữ liệu do Dickinson đề xuất lần lượt được trình bày cụ thể. Chương 4: Kết quả thực nghiệm Trong chương này, trình bày quá trình chúng tôi thực nghiệm trên bộ dữ liệu VietTreebank và kết quả thu được sau khi thực nghiệm. Chương 5: Kết luận và hướng phát triển Kết luận đánh giá về phương pháp phát hiện lỗi do Dickinson đề xuất và nêu hướng phát triển tiếp theo của đề tài. References Tiếng Việt 1. Cao Xuân Hạo. 2006, Tiếng Việt sơ thảo ngữ pháp chức năng, NXB Khoa học Xã hội. 2. Nhữ Văn Kiên (2013), Nghiên cứu phương pháp tự động phát hiện lỗi trong kho dữ liệu tiếng Việt được chú giải từ loại, Luận văn thạc sỹ Khoa học máy tính, Trường đại học Bưu chính viễn thông. 3. Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền (2008), Xây dựng treebank Tiếng Việt. Hà nội : ICT-08. 4. SP 7.3 – Dự án VLSP 4. Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền Đào Minh Thu, Đào Thị Minh Ngọc, Lê Kim Ngân (2008), Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn, SP 7.3 – Dự án VLSP 5. Nguyễn Kim Thản. 2008, Cơ sở ngữ pháp tiếng Việt, NXB Khoa học Xã hội. 6. Vương Hoài Thu (2009), Phân tích cú pháp tiếng Việt theo tiếp cận thống kê, Khóa luận tốt nghiệp Công nghệ thông tin, Trường đại học Công nghệ, Đại học quốc gia Hà Nội. Tiếng Anh 7. Brill E (1999), Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging, Computational Linguistics, 21(4), p.543-565. 3 8. Dermatas E., Kokkinakis G (1995), Automatic Stochastic Tagging of Natural Language Texts, Computational Linguistics 21.2, p. 137 - 163. 9. El-Bèze M, Spriet T (1995), Etiquetage probabiliste et contraintes syntaxiques, Actes de la conférence sur le Traitement Automatique du Langage Naturel (TALN95), Marseille, France,14-16/6/1995. 10. Gertjan van Noord, Error mining for wide-coverage grammar engineering, In: ACL 2004, Barcelona. 11. Markus Dickinson (2008), Ad Hoc Treebank Structures, Proceedings of ACL-08: HLT Association for Computational Linguistics, Columbus, Ohio, USA, p.362–370 12. Markus Dickinson and Marwa Ragheb (2014), Dependency annotation of coordination for learner language. In Kim Gerdes, Eva Hajičová, and Leo Wanner (eds), Dependency Linguistics: Recent advances in linguistic theory using dependency structures. John Benjamins Publishing Company. 13. Schmid H (1994), Part-of-Speech Tagging with Neural networks, International Conference on Computational Linguistics, Japan, p. 172-176, Kyoto. 14. Tufis D (1999), Tiered Tagging and combined classifie", In Jelineck F. and Nörth E. (Eds), Text, Speech and Dialogue, Lecture Notes in Artificial Intelligence 1692, Springer. . Kho dữ liệu tiếng Anh được gán nhãn thành công là kho dữ liệu Peen Treebank. Kho dữ liệu này đã được gán nhãn nhờ sử dụng ba lược đồ chú thích cơ bản: Gán nhãn từ loại, Gán nhãn cú pháp, Gán nhãn. Lỗi trong gán nhãn dữ liệu. Bên cạnh đó, cũng trình bày chi tiết các nguyên nhân gây ra lỗi trong gán nhãn dữ liệu. Đồng thời, chúng tôi giới thiệu bài toán Kiểm tra lỗi dữ liệu được gán nhãn. . 1 Kiểm tra lỗi tự động dữ liệu được gán nhãn trong tiếng Việt Automatic Error Checking of Vietnamese Syntax - Annotated Corpus NXB H. : Khoa Luật, 2014 Số trang 48 tr. +