1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích cú pháp tiếng việt sử dụng văn phạm phụ thuộc

72 1,7K 8

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 799 KB

Nội dung

Phân tích cú pháp tiếng việt sử dụng văn phạm phụ thuộc

Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Thông tin sinh viên Họ tên sinh viên: Điện thoại liên lạc Lớp: Khoa học máy tính K50 – Khoa CNTT Hệ đào tạo: Đại học hính quy Đồ án tốt nghiệp thực tại: Trường Đại học Bách Khoa Hà Nội Thời gian làm ĐATN: Từ ngày 1/3/2009 đến 31/5/2009 Mục đích nội dung ĐATN Tìm hiểu Văn phạm phụ thuộc cú pháp tiếng Việt Xây dựng Văn phạm phụ thuộc cho tiếng Việt Áp dụng Văn phạm phụ thuộc xây dựng chương trình phân tích cú pháp tiếng Việt Các nhiệm vụ cụ thể ĐATN • Tìm hiểu Văn phạm phụ thuộc • Tìm hiểu cú pháp tiếng Việt • Xây dựng Văn phạm phụ thuộc cho tiếng Việt • Thử nghiệm việc phân tích cú pháp tiếng Việt Văn phạm xây dựng Lời cam đoan sinh viên: Tôi – Trương Ngọc Khánh - cam kết ĐATN công trình nghiên cứu thân hướng dẫn ThS Nguyễn Thị Thu Hương Các kết nêu ĐATN trung thực, chép toàn văn công trình khác Hà Nội, ngày 28 tháng năm 2010 Tác giả ĐATN Xác nhận giáo viên hướng dẫn mức độ hoàn thành ĐATN cho phép bảo vệ: Hà Nội, ngày tháng năm 2009 Giáo viên hướng dẫn ThS Nguyễn Thị Thu Hương Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Phân tích cú pháp có vai trò quan trọng lĩnh vực xử lý văn bước trung gian nhiều toán lớn như: tóm tắt văn bản, dịch máy, hỏi đáp tự động Trong thời gian gần đây, phân tích cú pháp phụ thuộc thu hút quan tâm nhiều nhóm nghiên cứu xử lý ngôn ngữ tự nhiên giới quan hệ phụ thuộc hai từ vựng có ích khử nhập nhằng cú pháp có khả mô hình hóa ngôn ngữ có trật tự từ tự So với phương pháp phân tích cú pháp khác phân tích cú pháp văn phạm phi ngữ cảnh, văn phạm liên kết, phương pháp cho ta kết sát ngữ nghĩa Đồ án em trình bày cách xây dựng văn phạm phụ thuộc cho tiếng Việt thử nghiệm việc phân tích cú pháp dựa văn phạm Đồ án em gồm phần: Phần đầu đồ án giới thiệu Văn phạm phụ thuộc, giải thuật phân tích sử dụng Văn phạm liên phụ thuộc Phần thứ hai đồ án trình bày trình xây dựng Văn phạm phụ thuộc cho tiếng Việt Trước hết em trình bày tìm hiểu em cú pháp tiếng Việt Sau dựa kiến thức tìm hiểu đó, em trình bày trình xây dựng Văn phạm phụ thuộc cho tiếng Việt Trong phần cuối đồ án, em đưa đánh giá kết thử nghiệm áp dụng văn phạm xây dựng việc phân tích câu tiếng Việt Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc ABSTRACT OF THESIS Parsing has an important role in text processing because it is an intermediate step of many big problem such as text summarization, machine translation, question answering system,etc Recently, dependency parsing has been got much interest by many group of natural language process all over the world due to a dependency relation between two words can be useful for disambiguity and it has an ability of modeling many free-word order language Comparing to Context-free grammar and Link Grammar, the result of this approach is closer to semantic In my thesis, I present a Dependency Grammar for Vietnamese and a dependency parser based on it The first section of my thesis is the brief introduction to Dependency Grammar and the parsing algorithm The second section indicates how I built Dependency Grammar for Vietnamese Firstly, I demonstrate my researches of grammar of Vietnamese As the result of this stage, I illustrate the process of building Dependency Grammar for Vietnamese In the last section, I show and evaluate the result of the test from applying constructed parsing on Vietnamese Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc MỤC LỤC TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP ABSTRACT OF THESIS DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG .8 DANH MỤC TỪ VIẾT TẮT CHƯƠNG I: GIỚI THIỆU BÀI TOÁN PHÂN TÍCH CÚ PHÁP 10 A Một số phương pháp phân tích cú pháp dựa văn phạm phi ngữ cảnh .10 I Phân tích cú pháp từ xuống có quay lui 10 II Phân tích cú pháp từ lên có quay lui 10 III Giải thuật CYK 10 IV Giải thuật Earley 11 B Mô hình văn phạm từ vựng (Lexicalized Grammar) 11 I Văn phạm liên kết (Link Grammar) .12 II Văn phạm phụ thuộc (Dependency Grammar) 13 CHƯƠNG II: VĂN PHẠM PHỤ THUỘC .15 A Khái niệm VPPT .15 B Tính chất VPPT 16 C Các cách tiếp cận cho VPPT 18 I PTCP phụ thuộc điều khiển liệu .19 II PTCP phụ thuộc dựa vào văn phạm 19 D Thuật toán PTCP .20 I Giả thuyết ban đầu 20 II Các thuật toán PTCP cho VPPT 21 Thuật toán tìm kiếm Brute - force 21 Thuật toán ESH ESD 22 Thuật toán LSU 23 Thuật toán LSUP 25 4.1 Định nghĩa tính xạ ảnh 25 4.2 Xây dựng tính xạ ảnh 27 4.3 Độ phức tạp thuật toán .28 CHƯƠNG III: XÂY DỰNG VPPT CHO TIẾNG VIỆT 28 A CÚ PHÁP TIẾNG VIỆT 29 I Các loại từ tiếng Việt 29 Danh từ .29 1.1 Đặc điểm danh từ .29 1.2 Các loại danh từ 29 Động từ 31 2.1 Đặc điểm động từ 31 2.2 Các loại động từ 31 Tính từ 35 3.1 Đặc điểm tính từ 35 3.2 Các loại tính từ 35 Giới từ 36 Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc 4.1 Đặc điểm giới từ 36 4.2 Các loại giới từ 36 II Cấu trúc cụm từ 37 Cụm danh từ .37 1.1 Đặc điểm cụm danh từ 37 1.2 Cấu tạo cụm danh từ 37 1.3 Đặc điểm cụm động từ .40 1.4 Cấu tạo cụm động từ 40 Cụm tính từ 43 3.1 Phần phụ trước cụm tính từ 43 3.2 Phần trung tâm cụm tính từ 43 3.3 Phần phụ sau cụm tính từ 44 Cụm giới từ 44 3.1 Đặc điểm cụm giới từ 44 3.2 Cấu tạo cụm giới từ 45 III Quan hệ phụ thuộc loại từ 45 Quan hệ phụ thuộc danh từ động từ 45 Quan hệ phụ thuộc danh từ tính từ 46 Quan hệ phụ thuộc động từ tính từ 47 Quan hệ phụ thuộc động từ động từ 47 Các quan hệ phụ thuộc khác 48 5.1 Quan hệ phụ thuộc thành phần vị ngữ từ để hỏi 48 5.2 Quan hệ phụ thuộc thành phần vị ngữ liên từ thành phần phức 48 B XÂY DỰNG VPPT CHO TIẾNG VIỆT 49 I DANH TỪ VÀ CỤM DANH TỪ 50 Thành phần trước danh từ 50 Thành phần sau danh từ 51 Danh từ tổng hợp .52 II ĐỘNG TỪ VÀ CỤM ĐỘNG TỪ .52 Thành phần trước động từ 52 Phần sau cụm động từ 54 III TÍNH TỪ VÀ CỤM TÍNH TỪ 54 IV GIỚI TỪ VÀ CỤM GIỚI TỪ 55 V CÁC QUAN HỆ PHỤ THUỘC GIỮA CỤM DANH TỪ, CỤM ĐỘNG TỪ VÀ CỤM TÍNH TỪ .56 Quan hệ phụ thuộc danh từ động từ 56 Quan hệ phụ thuộc danh từ tính từ 58 Quan hệ phụ thuộc động từ tính từ 58 Quan hệ phụ thuộc động từ động từ 59 VI CÁC CẤU TRÚC CÂU KHÁC 60 Cấu trúc so sánh .60 1.1 Cấu trúc so sánh bậc cao 60 1.2 Cấu trúc so sánh / .61 Câu hỏi .62 Câu phức 62 Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc VII TỪ ĐIỂN 64 CHƯƠNG IV: CHƯƠNG TRÌNH PHÂN TÍCH VÀ THỬ NGHIỆM 65 A CHƯƠNG TRÌNH PHÂN TÍCH 65 I Các chức .65 II Cài đặt chương trình 66 Tách từ .66 Xây dựng danh sách quan hệ phụ thuộc 67 Cấu trúc liệu 67 B THỬ NGHIỆM .68 C ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN .70 I ĐÁNH GIÁ 70 II HƯỚNG PHÁT TRIỂN 71 Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc DANH MỤC CÁC HÌNH VẼ Hình Ví dụ câu phân tích VPLK 12 Hình Cấu trúc phụ thuộc câu tiếng Anh 15 Hình Cấu trúc liên hợp (Coordination) 18 Hình Một vài cấu trúc câu có tính xạ ảnh 26 Hình Một vài cấu trúc câu tính xạ ảnh 26 Hình Cấu tạo cụm giới từ 45 Hình Giao diện chương trình .65 Hình Ví dụ phân tích câu tiếng Việt VPPT 66 Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc DANH MỤC CÁC BẢNG Bảng Công thức từ VPLK .12 Bảng Cấu tạo cụm danh từ dạng đầy đủ .37 Bảng Cấu tạo thành phần phụ trước danh từ 38 Bảng Cấu tạo thành phần phụ sau danh từ 40 Bảng Cấu tạo phần đầu cụm động từ 41 Bảng Công thức từ 50 Bảng Các quan hệ phụ thuộc thành phần trước danh từ 50 Bảng Các quan hệ phụ thuộc thành phần sau danh từ 51 Bảng Các quan hệ phụ thuộc thành phần trước động từ .52 Bảng 10 Các quan hệ phụ thuộc thành phần trước tính từ .54 Bảng 11 Cấu tạo cụm giới từ 55 DANH MỤC TỪ VIẾT TẮT Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc Từ viết tắt Từ đầy đủ Ý nghĩa CYK Cocke-Younger-Kasami Giải thuật CYK ESH Exhaustive Search Head first Giải thuật ESH Exhaustive Search Head first with Uniqueness Giải thuật ESHU Exhaustive Search Dependent first Giải thuật ESD Exhaustive Search Dependent first with Uniqueness Giải thuật ESDU LSU List-based Search with Uniqueness Giải thuật LSU LSUP List-based Search with Uniqueness and Projectivity Giải thuật LSUP VPPT Văn phạm phụ thuộc VPLK Văn phạm liên kết PTCP Phân tích cú pháp ESHU ESD ESDU Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc CHƯƠNG I: GIỚI THIỆU BÀI TOÁN PHÂN TÍCH CÚ PHÁP Phân tích cú pháp bước xử lý quan trọng toán xử lý ngôn ngữ tự nhiên Mục tiêu trình phân tích cú pháp sinh cấu trúc cú pháp cho câu dựa từ tố tách từ bước phân tích từ vựng Do ngôn ngữ tự nhiên phức tạp nhiều so với ngôn ngữ lập trình nên ta thường gặp phải vấn đề nhập nhằng: tách từ, cú pháp câu phức tạp, …Chúng ta tìm hiểu số phương pháp phân tích cú pháp thường dùng A Một số phương pháp phân tích cú pháp dựa văn phạm phi ngữ cảnh I Phân tích cú pháp từ xuống có quay lui Phương pháp phân tích xây dựng suy dẫn từ gốc đến Các bước lưu lại thành lịch sử Khi rơi vào bế tắc, phân tích cú pháp quay lại bước lưu lại gần thử sản xuất khác Nếu quay lui đến sản xuất ban đầu mà không lựa chọn câu đầu vào sai cú pháp II Phân tích cú pháp từ lên có quay lui Phương pháp phân tích trái với phương pháp cú pháp từ xuống có quay lui xây dựng suy dẫn từ đến gốc Tuy nhiên, phân tích cú pháp thực quay lui giống phương pháp phân tích cú pháp từ xuống có quay lui Phương pháp phân tích từ xuống thông dụng nhờ vào tính hiệu xây dựng theo lối thủ công Ngược lại, phương pháp phân tích từ lên lại xử lý lớp văn phạm lược đồ dịch phong phú Cả hai phương pháp có độ phức tạp tính toán lớn (O(cn)) III Giải thuật CYK Đây giải thuật thường dùng để xác định xem xâu tạo văn phạm phi ngữ cảnh hay không Giải thuật thực hiên phân tích từ lên phương pháp từ lên dựa thuật toán quy hoạch động Để phân tích giải thuật, luật văn phạm phi ngữ cảnh phải chuyển sang dạng chuẩn CNF Giải thuật CYK hoạt động với thời gian (O(n 3)) hiệu 10 Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc (([TĐT1_D[...]... 25 Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc Đơn phụ thuộc trước Đơn phụ thuộc sau Đa phụ thuộc Đa phụ thuộc sau Chuỗi trước Chuỗi sau Phụ thuộc trước bị chắn Phụ thuộc sau bị chắn Phụ thuộc trước bị nhiều từ chắn Phụ thuộc sau bị nhiều từ chắn Phụ thuộc lồng Hình 4 Một vài cấu trúc câu có tính xạ ảnh Hình 5 Một vài cấu trúc câu không có tính xạ ảnh 26 Phân tích cú pháp tiếng Việt sử dụng. .. được 14 Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc CHƯƠNG II: VĂN PHẠM PHỤ THUỘC A Khái niệm VPPT Phân tích cú pháp phụ thuộc trong vài năm gần đây thu hút được sự quan tâm của cộng đồng nghiên cứu xử lý ngôn ngữ tự nhiên vì cú pháp phụ thuộc là một dạng biểu diễn câu có nhiều ứng dụng cho các bài toán phức tạp như trích chọn thông tin hay tóm tắt văn bản Mô hình văn phạm phụ thuộc (VPPT)... kết quả của quá trình phân tích cú pháp bằng văn phạm từ vựng cũng là một cây nhưng trong đó các nút là các từ trong câu đóng vai trò như kí hiệu kết thúc và không kết thúc trong văn phạm phi ngữ cảnh 11 Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc I Văn phạm liên kết (Link Grammar) Một văn phạm liên kết (VPLK) bao gồm một tập các từ (các ký hiệu kết thúc của bộ văn phạm) , mỗi từ có một yêu... là cách tiếp cận PTCP phụ thuộc dựa vào văn phạm Tức là, xây dựng bộ luật cho VPPT tiếng việt rồi dùng thuật toán LSUP sẽ mô tả dưới đây để phân tích câu I Giả thuyết ban đầu - Tính đồng nhất (Unity): kết quả cuối cùng của bước phân tích cú pháp sẽ là một cây đơn (với duy nhất một gốc) chứa tất cả các từ trong chuỗi đầu vào 20 Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc - Tính đơn nhất... hình văn phạm từ vựng (Lexicalized Grammar) Văn phạm từ vựng là bộ G = (L, R) trong đó L là tập các từ vựng và R là tập các luật của văn phạm Luật của văn phạm thể hiện cho cấu trúc ngữ pháp tổng quát của ngôn ngữ trong khi mục từ vựng mô tả các ràng buộc về từ vựng/ cú pháp giữa các từ Phân tích cú pháp bằng văn phạm từ vựng là quá trình áp dụng các luật của văn phạm vào các mục từ vựng Trái với văn phạm. .. phương pháp khác có thể sử dụng cả học máy và hình thức văn phạm, hai đặc trưng của hai cách tiếp cận này Tuy nhiên, hầu hết các phương pháp chỉ sử dụng một trong hai cách tiếp cận này 19 Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc Hầu hết các cách tiếp cận điều khiển bằng dữ liệu đều giả thiết rằng chuỗi đầu vào là câu hợp lệ và nhiệm vụ của bộ PTCP là trả lại cây phụ thuộc hợp lý nhất cho... dùng để phân tích cú pháp bằng VPPT Phần II: Xây dựng VPPT cho tiếng Việt (chương III) Chương này được chia làm hai phần chính là tìm hiểu cú pháp tiếng Việt và xây dựng VPPT cho tiếng Việt Trong phần tìm hiểu cú pháp tiếng Việt, chúng tôi đưa ra các đặc điểm của các loại từ như: danh từ, danh ngữ, động từ, động ngữ, tính từ, tính ngữ … cùng với các cấu trúc câu đơn giản trong tiếng Việt Vì tiếng Việt. .. điểm nổi bật của VPPT khi phân tích ngữ pháp cho ngôn ngữ có trật tự từ không xác định 13 Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc Trong đồ án này, chúng ta sẽ tìm hiểu về VPPT Đồ án bao gồm có 3 phần: Phần I: Tìm hiều về VPPT (chương II) Chương này sẽ trình bày các lí thuyết về VPPT, trong đó có: các định nghĩa, các tính chất, các hướng tiếp cận đề phân tích cú pháp bằng VPPT, các thuật... liệu Phân tích dựa vào văn phạm gồm hai phương pháp là PTCP phụ thuộc phi ngữ cảnh (context-free dependency) và dựa vào ràng buộc (constraint-based) - PTCP phụ thuộc phi ngữ cảnh (context-free dependency) PTCP phụ thuộc phi ngữ cảnh sẽ ánh xạ cấu trúc phụ thuộc vào cấu trúc phi ngữ cảnh và sử dụng lại các thuật toán dành cho văn phạm phi ngữ cảnh Nó bao gồm các thuật thoán PTCP biểu đồ, cũng được sử dụng. .. áp dụng rất nhiều cho các bộ PTCP Trên thế giới đã có nhiều bộ PTCP bằng VPLK như bộ PTCP cho tiếng Anh của Sleator & Temperley Hiện 12 Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc nay một số bộ PTCP cho tiếng Việt cũng đã sử dụng VPLK vì tính hiệu quả của nó Tuy nhiên, VPLK cũng có nhược điểm là tính “bất thường” của nó “Bất thường” ở đây là các luật của VPLK không dựa trên các luật của văn ... VPPT Văn phạm phụ thuộc VPLK Văn phạm liên kết PTCP Phân tích cú pháp ESHU ESD ESDU Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc CHƯƠNG I: GIỚI THIỆU BÀI TOÁN PHÂN TÍCH CÚ PHÁP Phân tích. .. Văn phạm phụ thuộc cho tiếng Việt Trong phần cuối đồ án, em đưa đánh giá kết thử nghiệm áp dụng văn phạm xây dựng việc phân tích câu tiếng Việt Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ. .. phần từ 25 Phân tích cú pháp tiếng Việt sử dụng Văn phạm phụ thuộc Đơn phụ thuộc trước Đơn phụ thuộc sau Đa phụ thuộc Đa phụ thuộc sau Chuỗi trước Chuỗi sau Phụ thuộc trước bị chắn Phụ thuộc sau

Ngày đăng: 17/04/2016, 22:19

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Sandra Kübler, Ryan McDonald, and Joakim Nivre, Dependency Parsing 2009 Sách, tạp chí
Tiêu đề: Dependency Parsing
[2] Nguyễn Chí Hoà. Ngữ pháp tiếng Việt thực hành. NXB Đại học Quốc gia Hà Nội, tháng 2/2004 Sách, tạp chí
Tiêu đề: Ngữ pháp tiếng Việt thực hành
Nhà XB: NXB Đại học Quốc gia HàNội
[3] Michael A. Covington, A Fundamental Algorithm for Dependency Parsing, Artificial Intelligence Center, The University of Georgia Sách, tạp chí
Tiêu đề: A Fundamental Algorithm for Dependency Parsing
[4] Gerold Schneider. A Linguistic Comparison of Constituency, Dependency and Link Grammar. July, 1998 Sách, tạp chí
Tiêu đề: A Linguistic Comparison of Constituency, Dependency andLink Grammar
[5] Joakim Nivre, Kemal Oflazer, Dependency Parsing of Turkish, 2008 Sách, tạp chí
Tiêu đề: Dependency Parsing of Turkish
[6] Cornelis H.A. Koster, Marc Seutter and Olaf Seibert, Parsing the Medline Corpus, Radboud University Nijmegen, The Netherlands Sách, tạp chí
Tiêu đề: Parsing the MedlineCorpus
[7] Normal. Fraser, Parsing and dependency grammar, pdf file Sách, tạp chí
Tiêu đề: Parsing and dependency grammar
[8] Fraser, Norman M. (1993) Dependency Parsing. Thesis, Ph.D., University of London Sách, tạp chí
Tiêu đề: Dependency Parsing
[9] Daniel D.K. Sleator, Davy Temperley. Parsing English with Link Grammar.CMU-CS-91-96, October 1991 Sách, tạp chí
Tiêu đề: Parsing English with Link Grammar

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w