Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 78 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
78
Dung lượng
27,22 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vương Hồi Thu PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN THỐNG KÊ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Vương Hồi Thu PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN THỐNG KÊ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin Cán hướng dẫn: TS Lê Anh Cường HÀ NỘI – 2009 LỜI CẢM ƠN Đầu tiên xin tỏ lòng biết ơn sâu sắc đến thầy giáo hướng dẫn tôi,TS Lê Anh Cường, người hướng dẫn, bảo tạo điều kiện để tơi hồn thành luận văn Tôi xin gửi lời cảm ơn sâu sắc tới thầy giáo TS Nguyễn Phương Thái nhóm xây dựng ngữ liệu Viet Treebank, đặc biệt thầy Ngyễn Phương Thái, người hướng dẫn cung cấp tài liệu, liệu cần thiết cho q trình hồn thành luận văn Tơi xin chân thành cảm ơn thầy cô giáo trường Đại học Công nghệ, đặc biệt thầy cô mơn Khoa học máy tính, người dạy bảo, tạo điều kiện cho tơi suốt q trình học tập trường Cuối cùng, gia đình bạn bè hậu phương vững chắc, nguồn động viên giúp tơi hồn thành luận văn TĨM TẮT Phân tích cú pháp tốn quan trọng xử lý ngôn ngữ tự nhiên (XLNNTN) Kết phân tích cú pháp sử dụng nhiều ứng dụng XLNNTN khác dịch máy, hỏi đáp, trích chọn thơng tin… Xây dựng phân tích cú pháp cho tiếng Việt có độ xác cao cơng việc có ý nghĩa Mục tiêu đề luận văn xây dựng phân tích cú pháp tiếng Việt theo tiếp cận thống kê Đây hướng tiếp cận mẻ cách xây dựng phân tích cú pháp tiếng Việt Luận văn trình bày khái quát cách tiếp cận việc xây dựng phân tích cú pháp, sâu tìm hiều văn phạm phi ngữ cảnh xác suất từ vựng (Lexicalized Probabilistic Context Free Grammar) Cụ thể hơn, tìm hiểu, nghiên cứu mơ hình xác suất Collins [11], áp dụng cơng cụ phân tích Bikel’s [9] để thử nghiệm cho phân tích cú pháp tiếng Việt Phân tích cú pháp dựa theo thống kê cần có liệu để huấn luyện mơ hình Trong luận văn, sử dụng ngữ liệu Viet Treebank Kết thực nghiệm cho thấy độ xác (precision) 80% với 9000 câu huấn luyện 500 câu kiểm tra Những kết luận văn cho thấy rằng, tiếng Việt, mơ hình Collin có độ xác thấp so với mơ hình 2, mơ hình chưa thực hiệu Ngồi ra, kết thực nghiệm cịn số tham số mơ hình Collins có ảnh hưởng tới độ xác phân tích cú pháp MỤC LỤC MỞ ĐẦU Chương Giới thiệu 1.1 Xử lý ngôn ngữ tự nhiên vấn đề 1.2 Phân tích cú pháp ứng dụng xử lý ngôn ngữ tự nhiên 1.2.1 Định nghĩa: 1.2.2 Vai trị phân tích cú pháp xử lý ngơn ngữ tự nhiên .3 1.3 Phân tích cú pháp dành cho tiếng Việt 1.3.1 Nhập nhằng – vấn đề xử lý ngôn ngữ tự nhiên: 1.3.2 Phân tích cú pháp tiếng Việt .5 1.4 Mục tiêu Chương Phương pháp phân tích cú pháp 2.1 Văn phạm phi ngữ cảnh 2.2 Các phương pháp cổ điển 2.2.1 Phân tích top – down 2.2.2 Phân tích bottom – up: .10 2.2.3 So sánh top – down bottom – up 13 2.2.4 Thuật toán CYK (Cocke – Younger – Kasami) 13 2.2.5 Thuật toán Earley 15 2.3 Văn phạm phi ngữ cảnh xác suất (PCFGs) 19 2.3.1 Định nghĩa .19 2.3.2 Nhược điểm văn phạm phi ngữ cảnh xác suất 20 2.4 Văn phạm phi ngữ cảnh xác suất từ vựng (LPCFGs) 22 2.4.1 Cấu trúc head 22 2.4.2 Mơ hình một: Mơ hình sở 23 2.4.3 Mơ hình 2: Phân biệt định ngữ bổ ngữ, subcategorization 25 2.4.4 Mơ hình 3: Trace Wh-movement .27 Chương Tiếp cận xây dựng phân tích cú pháp Tiếng Việt 28 3.1 Penn Treebank 28 3.1.1 Gán nhãn từ loại .28 3.1.2 Bracketing .30 3.2 Viet Treebank .32 3.2.1 Mục tiêu 32 3.2.2 Danh sách từ loại nhãn cú pháp .32 3.2.3 Một số đặc điểm Viet Treebank 34 Chương Bộ phân tích cú pháp Bikel 35 4.1 Một số nhiệm vụ 35 4.1.1 Tiền xử lý 35 4.1.2 Huấn luyện 40 4.1.3 Các loại tham số đánh giá 42 4.1.4 Decode 48 4.2 Tổng quan phân tích cú pháp .49 4.2.1 Mở đầu 49 4.2.2 Vấn đề 50 4.2.3 Tổng quan hệ thống 50 4.2.4 Khả 54 4.3 Kết luận 55 Chương Áp dụng phân tích cú pháp Bikel liệu Viet Treebank 56 5.1 Gói ngơn ngữ tiếng Việt 56 5.2 Quá trình thực hiện: 57 5.2.1 Xử lý liệu 57 5.2.2 Cấu hình để thực hiện: .58 5.2.3 Huấn luyện 61 5.2.4 Phân tích cú pháp 62 5.2.5 Đánh giá kết quả: .62 5.3 Kết đạt được: 63 KẾT LUẬN .67 TÀI LIỆU THAM KHẢO 68 DANH SÁCH CÁC BẢNG Bảng 1: Bảng phân tích thuật tốn CYK 15 Bảng 2: Bảng nhãn từ loại Penn Treebank 29 Bảng 3: Bảng nhãn cú pháp Penn Treebank 31 Bảng 4: Nhãn từ loại Viet Treebank 32 Bảng 5: Bảng nhãn cụm từ Penn Treebank .33 Bảng 6: Bảng nhãn mệnh đề Viet Treebank 34 Bảng 7: Các mức back-off với .47 Bảng 8: Tham số Bikel đề xuất 47 Bảng 9: Cấu trúc back-off tham số 48 Bảng 10: Sô lượng câu để huấn luyện 58 Bảng 11: Bảng so sánh kết xâu dài không 40 từ .63 Bảng 12: Bảng so sánh kết xâu dài không 100 từ 64 DANH SÁCH CÁC HÌNH VẼ Hình 1: Mơ hình xử lý ngơn ngữ tự nhiên Hình 2: Cây cú pháp câu "tơi nhìn gái với ống nhịm" .5 Hình 3: Dẫn xuất phân tích top - down 10 Hình 4: Dẫn xuất phân tích bottom - up 13 Hình 5: Mã giả thuật toán Earley .17 Hình 6: Miêu tả dẫn xuất xâu từ Ni .1 Hình 7: Cây cú pháp câu "bị ăn cỏ " 20 Hình 8: Cây dẫn xuất thứ xâu "Trung hiểu Nam Thắng" .21 Hình 9: Cây dẫn xuất thứ hai xâu "Trung hiểu Nam hơnThắng" 21 Hình 10: Cây cú pháp xâu "bị ăn cỏ" có thêm thơng tin từ vựng .23 Hình 11: Miêu tả độ đo khoảng cách câu 25 Hình 12: Cây cú pháp với hậu tố - C đánh dấu complement "IBM" "Lotus" chủ ngữ bổ ngữ, "Last week" định ngữ 25 Hình 13: Hai ví dụ thành phần bổ trợ sinh cách độc lập gây sai số 26 Hình 14: Dữ liệu gán nhãn trước xử lý thủ cơng .30 Hình 15: Dữ liệu gán nhãn sau xử lý thủ cơng 30 Hình 16: Dữ liệu hoàn chỉnh 32 Hình 17: Liên kết từ Penn Treebank .36 Hình 18: Liên kết từ Viet Treebank 36 Hình 19: Nút NBP cần thêm nút NP 37 Hình 20: Nhãn NBP chỉnh sửa 38 Hình 21: Nâng cấc dấu câu lên, bên phải xuất dấu phẩy nằm cạnh 39 Hình 22: Nút có nhãn HEAD khơng ngoại lệ thay đổi nhãn chức 40 Hình 23: Một ví dụ hàm vi (“verb intervening”) nhận giá trị true, nhãn NP có động từ 41 Hình 24: Các thành phần luồng làm việc 51 MỞ ĐẦU Phân tích cú pháp tốn trung tâm XLNNTN Phân tích cú pháp sử dụng nhiều ứng dụng XLNNTN Độ xác phân tích cú pháp có ảnh hưởng lớn tới kết ứng dụng xử lý ngôn ngữ khác Các nghiên cứu xây dựng phân tích cú pháp tự động phát triển từ sớm có nhiều phân tích cú pháp với chất lượng tốt cho ngôn ngữ tiếng Anh, tiếng Trung [9] Ngày nay, nhiều ứng dụng XLNNTN nghiên cứu phát triển cho tiếng Việt nhu cầu phân tích cú pháp tiếng Việt với độ xác cao cấp thiết Tuy nhiên, nghiên cứu phân tích cú pháp tiếng Việt hạn chế tập trung chủ yếu vào tiếp cận cũ (Knowledge-based), với kết cịn hạn chế chưa có phân tích cơng bố rộng rãi Vì vậy, khóa luận hướng tới việc xây dựng phân tích cú pháp tiếng Việt theo tiếp cận thống kê Chúng theo tiếp cận sử dụng văn phạm phi ngữ cảnh xác suất từ vựng (Lexicalized Probabilistic Context Free Grammar) Luận văn nghiên cứu cách tiếp cận phân tích cú pháp, sâu tìm hiểu văn phạm phi ngữ cảnh xác suất từ vựng theo mơ hình Collins [11] Từ đó, dựa vào hiểu biết ngữ liệu Viet Treebank để huấn luyện đánh giá độ xác mơ hình dựa việc tích hợp tiếng Việt vào phân tích cú pháp Bikel [9] Kiến trúc cúa hệ phân tích cú pháp Bikel nghiên phân tích để sửa đổi đối tượng tương thích cho tiếng Việt khảo sát ảnh hưởng tham số khác phân tích cú pháp tiếng Việt ... cho tiếng Việt có độ xác cao cơng việc có ý nghĩa Mục tiêu đề luận văn xây dựng phân tích cú pháp tiếng Việt theo tiếp cận thống kê Đây hướng tiếp cận mẻ cách xây dựng phân tích cú pháp tiếng Việt. .. việc xây dựng phân tích cú pháp tiếng Việt theo tiếp cận thống kê với nghiên cứu cụ thể sau: - Nghiên cứu tiếp cận phương pháp phân tích cú pháp, tập trung vào tiếp cận sử dụng thông kê thông tin... theo cách khác Nam hiểu Trung nhiều Thành hiểu Trung 1.3.2 Phân tích cú pháp tiếng Việt Mặc dù phân tích cú pháp có vai trị trung tâm ứng dụng XLNNTN, nghiên cứu phân tích cú pháp cho tiếng Việt