Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 58 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
58
Dung lượng
160,15 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHUẤT THỊ THỦY XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – 2012 Khuất Thị Thủy XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG Chuyên ngành: Bảo đảm tốn học cho máy tính hệ thống tính tốn Mã số : 60.46.35 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS Nguyễn Thị Minh Huyền MỤC LỤC DANH MỤC CHỮ VIẾT TẮT .2 DANH MỤC HÌNH MỞ ĐẦU Chương Hệ hình thức văn phạm TAG 1.1 Văn phạm phi ngữ cảnh 1.2 Văn pham TAG .7 1.3 Giới thiệu sở liệu dùng cho phân tích cú pháp tiếng Anh dự án XTAG 16 1.4 Định dạng TAGML cho sở liệu TAG .19 Chương Xây dựng sở liệu dựa từ điển quy tắc ngữ pháp .24 2.1 Giới thiệu từ điển 24 2.2 Xây dựng sở liệu 26 Chương Trích rút tự động văn phạm TAG từ treebank tiếng Việt 32 3.1 Trích rút tự động văn phạm TAG từ treebank tiếng Việt 32 3.2 Đánh giá kết hai phương pháp 39 KẾT LUẬN 42 TÀI LIỆU THAM KHẢO .43 PHỤ LỤC 45 Luận văn tốt nghiệp DANH MỤC CHỮ VIẾT TẮT API Application Programming Interface LMF Lexical Markup Framework LLP2 Loria LTAG Parser LTAG Lexicalized Tree Adjoining Grammar TAG Tree Adjoining Grammar TAGML Tree Adjoining Grammars Markup Language XML eXtensible Markup Language Học viên: Khuất Thị Thủy DANH MỤC HÌNH Hình 1.1 Mơ tả khởi tạo Hình 1.2 Mơ tả phụ trợ Hình 1.3 Cây khởi tạo Hình 1.4 Cây phụ trợ Hình 1.5 Phép 10 Hình 1.6 Minh họa cho phép 10 Hình 1.7 Phép kết nối 11 Hình 1.8 Minh họa cho phép kết nối 12 Hình 1.9 Sơ đồ phép với cấu trúc đặc trưng 12 Hình 1.10 Sơ đồ phép kết nối với cấu trúc đặc trưng 13 Hình 1.11 Các sở câu “Yesterday John saw Marry” 13 Hình 1.12 Dẫn xuất câu “Yesterday John saw Marry” 14 Hình 1.13 Cây cú pháp câu “Yesterday John saw Marry” 14 Hình 1.14 dẫn xuất câu “Yesterday John saw Marry” 15 Hình 1.15 Cây minh họa cho họ nội động từ 18 Hình 1.16 Cây minh họa cho họ ngoại động từ 18 Hình 1.17 Cây minh họa cho họ mà động từ có xác hai bổ ngữ 19 Hình 1.18 Các phụ trợ giới từ 19 MỞ ĐẦU Phân tích cú pháp tốn quan trọng xử lý ngơn ngữ tự nhiên Kết phân tích cú pháp sử dụng nhiều ứng dụng dịch máy, hỏi đáp, trích chọn thơng tin… Phân tích cú pháp đưa mô tả quan hệ thành phần câu Bài tốn phân tích cú pháp liên quan tới hai khía cạnh: Khía cạnh thứ phân tích cú pháp thành phần tức xác định thành phần ngữ đoạn câu; khía cạnh thứ hai phân tích cú pháp phụ thuộc tức xác định phụ thuộc ngữ nghĩa từ câu Mỗi phân tích cú pháp cần tập quy tắc ngôn ngữ (chính đặc tả hình thức ngơn ngữ xét), quy tắc biểu diễn hệ hình thức văn phạm cụ thể Các hình thức văn phạm thường sử dụng phân tích cú pháp văn phạm phi ngữ cảnh văn phạm hợp Hợp văn phạm TAG văn phạm sử dụng phổ biến Đầu vào toán phân tích cú pháp câu phân tách thành từ, từ có đặc điểm hình thái xác định Quá trình kiểm tra cú pháp tiến hành phân tích tổ hợp từ đầu vào, dựa luật cú pháp để loại bỏ trường hợp bất quy tắc bước dựng lên cấu trúc cú pháp (cây cú pháp) câu Kết cần đạt hình thái câu Do đó, để phân tích cú pháp hoạt động cần có sở liệu văn phạm theo hệ hình thức văn phạm cụ thể nên việc xây dựng sở liệu cho phân tích cú pháp việc làm quan trọng Trong khuôn khổ luận văn tốt nghiệp cao học em xin trình bày nghiên cứu với đề tài: “Xây dựng sở liệu cho phân tích cú pháp tiếng Việt với hệ hình thức văn phạm TAG” Nội dung luận văn bố cục sau: Chương trình bày tổng quan hệ hình thức văn phạm TAG: Các sở, thao tác TAG, dẫn xuất; sở liệu cho phân tích cú pháp tiếng Anh với TAG, chuẩn mã hóa liệu cho TAG Đóng góp luận văn trình bày chương Chương trình bày thuật tốn để xây dựng sở liệu cho phân tích cú pháp tiếng Việt với hệ hình thức văn phạm TAG phương pháp dựa từ điển quy tắc ngữ pháp Chương luận văn trình bày phương pháp xây dựng sở liệu khác trích rút tự động văn phạm TAG từ Treebank tiếng Việt đưa đánh giá kết xây dựng sở liệu hai phương pháp Chƣơng Hệ hình thức văn phạm TAG Trước trình bày sở liệu cho phân tích cú pháp với hệ hình thức TAG chương trình bày kiến thức sở hình thức văn phạm TAG 1.1 Văn phạm phi ngữ cảnh Văn phạm hay văn phạm sinh bốn (Σ, V, σ, P) đó: - Σ: Bảng chữ hay bảng chữ từ văn phạm; - V: Bảng chữ phụ hay bảng chữ hỗ trợ văn phạm; Σ, V tập hữu hạn khác trống; V’ = Σ V - Bảng chữ hỗn hợp hay bảng chữ đầy đủ văn phạm; Σ V = Ø; - σ V gọi tiên đề hay ký hiệu xuất phát văn phạm; - P = {φ → ψ | φ (Σ V)+, ψ (Σ V)*, → (Σ V)}: Sơ đồ hay tập quy tắc văn phạm; r = φ → ψ gọi quy tắc (hay quy tắc quy tắc sinh) văn phạm; φ - vế trái, ψ - vế phải quy tắc r Quy tắc r gọi quy tắc kết (hoặc quy tắc kết thúc) ψ không ký hiệu thuộc ψ mà lại xuất vế trái quy tắc P ([6]) Văn phạm phi ngữ cảnh văn phạm mà quy tắc có dạng A → α, A ký hiệu không kết α xâu Văn phạm phi ngữ cảnh thường lựa chọn để biểu diễn cấu trúc cú pháp ngôn ngữ tự nhiên đủ mạnh để mơ tả hầu hết cấu trúc ngôn ngữ tự nhiên Văn phạm phi ngữ cảnh sử dụng để biểu diễn cấu trúc cú pháp ký hiệu kết thúc tương ứng với từ ngôn ngữ, ký hiệu không kết thúc tương ứng với phân loại cú pháp (hay từ loại) Tiên đề biểu diễn phân loại "câu" Các quy tắc sinh biểu diễn quy tắc ngữ pháp Ta chia chúng thành qui tắc từ vựng (chứa ký hiệu kết thúc) qui tắc ngữ đoạn (không chứa ký hiệu kết thúc nào) Với từ từ vựng có tập qui tắc sinh chứa từ vế phải Tuy nhiên văn phạm phi ngữ cảnh nhiều mặt hạn chế (sẽ trình bày rõ phần ưu điểm TAG) nên thực tế cần phát triển văn phạm có khả thể ý nghĩa ngơn ngữ học tốt TAG hình thức văn phạm 1.2 Văn pham TAG Văn phạm kết nối (Tree Adjoining Grammar - TAG) hệ hình thức viết lại dạng cây, đưa nửa cuối thập kỷ 80 Khác với văn phạm phi ngữ cảnh – hệ hình thức viết lại dạng xâu, TAG thao tác với đối tượng đối tượng có cấu trúc (cây) Vì vậy, TAG cho phép sinh mô tả cấu trúc tập xâu TAG sử dụng hai loại để biểu diễn cấu trúc tương ứng với đơn vị ngôn ngữ: Cây khởi tạo biểu diễn thành phần bắt buộc câu; Cây phụ trợ biểu diễn cấu trúc cho phép thêm vào thành phần phụ câu 1.2.1 Điṇ h nghia hình thứ c củ a văn pham TAG Văn phạm TAG gồm thành phần (N, Σ, I, A, S) ([7]): N: tập hữu hạn kí hiệu khơng kết thúc Σ: tập hữu hạn kí hiệu kết thúc I: tập hữu hạn khởi tạo Trong khởi tạo nút đánh nhãn kí hiệu kết thúc khơng kết thúc Các nút mà có nhãn kí hiệu khơng kết thúc đánh dấu thêm kí hiệu thay thế, kí hiệu thay đánh dấu dấu mũi tên xuống (xem hình 1.1) 21: if Rel = Argument then 22: if not ok and not IS-LINK-NODE(P) then 23: S ←SBUILD-SPINE-TREE(P); 24: ok ← true; 25: end if 26: end if 27: else 28: if not IS-LINK-NODE(P) and IS-PHRASAL(P) then 29: S ←SBUILD-SPINE-TREE(P); 30: end if 31: end if 32: P ←Hj; 33: end for Thuật tốn trích rút khởi tạo (spine) Hàm MERGE-LINKNODES(T) ghép nút liên kết spine thành nút Các thuật toán hàm tương ứng trích rút phụ trợ đẳng lập Thuật toán BUILD-SPINE-TREE(T) Input: Một phân tích T Output: Cây khởi tạo dạng spine 1: Tc ← COPY(T); 2: P ← Tc; 3: H ← NULL; 4: repeat 5: H ←HEAD-CHILD(P); 6: L←SISTERS(H); 7: if |L| > then 8: Rel ← GET-RELATION(H,L); 9: if Rel = Argument then for A L 10: 11: BUILD-ELEMENTARY-TREES(A); 12: A.kids ← ø; 13: A.type ← Substitution; 14: 15: end for else for A L 16: 17: P.kids ← P.kids \ A; 18: 19: end for end if 20: end if 21: P ←H; 22: until (H = NULL) 23: return MERGE-LINK-NODES(Tc); Thuật toán BUILD-MOD-TREE(T) Input: Một phân tích T Output: Một phụ trợ 1: Tc ← COPY(T); 2: H ← HEAD-CHILD(Tc); 3: H.kids ← ø; 4: H.type ← Foot; 5: M ← MODIFIER(H); 6: T′ ← BUILD-SPINE-TREE(M); 7: if |M.kids| > then 8: BUILD-ELEMENTARY-TREES(M); 9: end if 10: M ← T′; 11: return Tc; Thuật toán BUILD-CONJ-TREE(T) Input: Một phân tích T Output: Một đẳng lập 1: Tc ← COPY(T); 2: H ←HEAD-CHILD(Tc); 3: BUILD-ELEMENTARY-TREES(H); 4: K ←COORDINATOR(H); 5: BUILD-ELEMENTARY-TREES(K); 6: H.kids ← ø; 7: H.type ← Foot; 8: K.kids ← ø; 9: K.type ← Substitution; 10: return Tc; Cuối cùng, sử dụng tri thức ngôn ngữ để lọc bỏ không hợp lệ Dựa số tri thức ngôn ngữ tiếng Việt để lọc khơng hợp lệ Ví dụ, tiếng Việt, tính từ (hoặc cụm tính từ) làm phần phụ danh từ (hoặc cụm danh từ), nhiên ln phải sau danh từ Vì vậy, có có tính từ nằm bên trái danh từ khơng hợp lệ, cần lọc ([5]) 3.2 Đánh giá kêt hai phƣơng pháp Chúng sử dụng tập khởi tạo sinh chạy chương trình trích rút treebank tiếng Việt để so sánh với tập khởi tạo tạo chạy chương trình xây dựng sở liệu dựa từ điển quy tắc ngữ pháp có số kết sau: Thống kê số 31157 từ có từ điển 4339 từ có treebank có 3366 từ giao Từ 3366 từ giao dùng thuật tốn xây dựng sở liệu từ từ điển quy tắc ngữ pháp dựng được12432 (Tập X), có 6363 (tập Y) có Treebank sinh từ từ giao Trong số có 9820 thuộc X mà không thuộc Y, 3751 thuộc Y không thuộc X 2612 thuộc X Y Có khơng trùng sinh phương pháp do: - Do gán nhãn từ loại treebank chưa thống với tiểu từ loại, có từ dùng nhãn từ loại có từ lại dùng nhãn tiểu từ loại sinh phương pháp sử dụng từ điển quy tắc ngữ pháp lại sử dụng hai loại nhãn - Trong từ điển động từ có khung vị từ (ví dụ S + V + Obj ) khơng sinh có cú pháp (VP+(V “từ neo” ) + Obj), điều chưa có câu với động từ trung tâm mà bổ ngữ cho động từ khác động từ làm bổ ngữ có dạng (VP+(V “từ neo” ) + Obj) Ví dụ: Với từ “thay thế” Các cú pháp có xây dựng từ điển (S (+NP) (VP (V thay thế) (+NP))) (VP (Vs thay thế)) (S (+NP) (VP (V thay thế) (+VP))) (S (+NP) (VP (V thay thế) (+AP))) Các cú pháp có treebank (VP (V thay thế) (+NP)) Cú pháp trích rút từ Do đó, phương pháp dùng từ điển quy tắc ngữ pháp chưa phủ hết mẫu cú pháp tiếng Việt thực tế Phương pháp dùng từ điển quy tắc ngữ pháp xây dựng có cụm động từ làm trung tâm Thống kê cho thấy số thuộc tập Y có tất có 2840 cú pháp có động từ làm trung tâm nghĩa cịn 228 mà phương pháp xây dựng từ từ điển quy tắc ngữ pháp chưa phủ Và số 228 có trích rút từ treebank chưa ví dụ (S (VP (V đổ) (+NP) (PP)) (+NP)) (S (VP (V hết) (+NP) (PP)) (+NP)) (S (VP (V tưởng) (+sbar)) (+NP) (S (VP (V nhận thức) (+sbar)) (+NP)) … KẾT LUẬN Quá trình làm luận văn giúp cho em tăng khả tự tìm hiểu, tự nghiên cứu Và kiến thức em đạt sau hồn thành luận văn là: Về phương diện lý thuyết em tìm hiểu o Những kiến thức hệ hình thức văn phạm TAG – hệ hình thức sử dụng rộng rãi o Cơ sở liệu cho phân tích cú pháp tiếng Anh với hệ hình thức văn phạm dự án XTAG từ áp dụng cho việc xây dựng sở liệu cho phân tích cú pháp tiếng Việt o Chuẩn mã hóa sở liệu cho phân tích cú pháp với hệ hình thức văn phạm TAG TAGML Về phương diện thực hành sở tìm hiểu hai cách xây dựng sở liệu cho phân tích cú pháp tiếng Việt với hệ hình thức TAG em tìm hiểu về: Từ điển tiếng Việt máy tính, cấu trúc treebank tiếng Việt, thuật tốn trích rút từ treebank, sử dụng phần mềm vnExtractor để trích rút từ treebank tiếng Việt Bước đầu em với NCS Phan Thị Hà xây dựng phần sở liệu (các khởi tạo, cấu trúc câu với động từ làm trung tâm) cho phân tích cú pháp tiếng Việt với hệ hình thức văn phạm TAG phương pháp sử dụng từ điển quy tắc ngữ pháp Việc xây dựng phương pháp sử dụng từ điển quy tắc ngữ pháp với thuật tốn trình bày luận văn kết hợp với phương pháp trích rút để tạo kho ngữ liệu tốt mang lại hiệu cao cho phân tích cú pháp Tuy nhiên, chương trình xây dựng khởi tạo, cấu trúc câu với động từ làm trung tâm nên cần nghiên cứu thêm để phương pháp sử dụng từ điển quy tắc ngữ pháp xây dựng phụ trợ cấu trúc ngữ pháp với danh từ, tính từ làm trung tâm TÀI LIỆU THAM KHẢO Tiêng Việt Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Nguyễn Phương Thái (2008), Xây dựng treebank tiêng Việt, Kỷ yếu hội thảo ICT.rda’08 Hà Nội Đỗ Bá Lâm, Lê Thanh Hương (2008), Xây dựng hệ thống phân tích cú pháp tiêng Việt sử dụng văn phạm HPSG, Kỷ yếu hội thảo ICT.rda’08 Hà Nội Vũ Xuân Lương, Nguyễn Thị Minh Huyền (2008), Nghiên cứu xây dựng từ điển tiêng Việt cho máy tính, Kỷ yếu hội thảo ICT.rda’08 Hà Nội Vũ Xuân Lương, Nguyễn Thị Minh Huyền, Hồ Tú Bảo (2009), báo cáo kỹ thuật “hướng dẫn mô tả thông tin từ vựng từ điển dùng cho máy tính” , SP7.2 - Đề tài KC.01.01.05/06-10 Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, Phan Thị Hà (2010), Trích rút tự động văn phạm TAG cho tiêng Việt , Tạp chí Tin học Điều khiển học, vol 26, no 2, p 153-171 Đặng Huy Ruận (2005), Ngôn ngữ Otomat NXB ĐHQG Tiêng Anh Aravind K Joshi and Yves Schabes (1997), Tree-adjoining grammars, Handbook of formal languages, vol 3, pg 69 – 123 John Chen and K Vijay-Shanker (2000), Automated extraction of TAGs from the Penn treebank, Proceedings of the Sixth International Workshop on Parsing Technologies Le Hong Phuong, Laurent Romary, Azim Roussanaly, Nguyen Thi Minh Huyen (2006), A lexicalized tree adjoining grammar for Vietnamese, Proceedings of the 5th International Conference on Language Resources and Evaluation 10 Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly (2012), Vietnamese parsing with an automatically extracted tree-adjoining grammar, Proceedings of IEEE International 11 Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Nguyen Phuong Thai (2010), Automated extraction of tree adjoining grammars from a treebank for Vietnamese, Proceedings of The 10th International Conference on Tree Adjoining Grammars and Related Formalisms, Yale University, New Haven, USA 12 Patrice Bonhomme, Patrice Lopez (2000), Resources for Lexicalized Tree Adjoining Grammars and XML encoding: TagML, Proceedings of the 2nd International Conference on Language Resources and Evaluation 13 XTAG-Research-Group, (2001), A lexicalized tree adjoining grammar for English, Technical report, Institute for Research in Cognitive Science, University of Pennsylvania 14 Tài liệu kỹ thuật http://www.loria.fr/~azim/LLP2/help/fr/ công cụ LLP2 PHỤ LỤC Phụ lục 1: File tag.dtd chứa đặc tả liệu mô tả tài nguyên cú pháp từ vựng dùng cho phân tích cú pháp TAG tag.dtd (version 2.001b - "tagml lite") Version: 2.O01b Last modification: 01/09/02 Typical usage: to describe syntactic and lexical resources for a TAG Parser > "fs.dtd" > %FSLIB; %lex.type; #REQUIRED> Morphological %adj.type; %node.nargs; #REQUIRED> (#PCDATA)> END OF DTD ================================ > Phụ lục 2: Khung vị từ làm vị ngữ từ điển tiếng Việt Stt Khung vị từ Nhãn động từ Vu Ví dụ Động từ khơng làm vị ngữ, động từ tạm thời chưa xác định rõ ràng Sub+V Vi, Vs Bé ngủ Máu vừa chảy Chim hót Chó sủa Cơng việc ách lại Động từ tồn tại, trạng thái - đảo chủ ngữ V+Sub Sub +V Vs Nhà cháy - Cháy nhà Cầu sập - Sập cầu Nước vừa sôi - Sôi nước Tơi đọc sách Bộ đội phá cầu Tồn dân Sub+V+Dob Vt Sub+V+Obj_NP-Ins Vt Sub+V+Obj_NP-Dur Vs Sub+V+Obj_NP-VP-AP Vs, Vt Sub+V+Obj_VP Vm Sub+V+Obj_PP-Lo Vt Tàu rời ga Khách vào nhà Sub+V+Obj_PP-Lo Vs Ông bà sống quê Họ Hà Nội 10 Sub_NP+V+Obj_PP-Lo Sub_PP-Lo+V+ Obj_NP xây dựng chủ nghĩa xã hội Họ máy máy Con xe máy Doanh nghiệp tốn la Cụ hưởng thọ 80 tuổi Máy tính bảo hành năm Họ chầu chực ngày Anh cịn mẹ già Bé tập nói Ông thấy mệt mỏi Họ luyện tập chăm Ông muốn nghỉ ngơi Tôi phải Bé cần ăn rau Các em nên làm việc Động từ tồn tại, trạng thái - đảo bổ Vs ngữ: Tiền túi Trong túi tiền Mẹ hi vọng cha Làng xóm bị địch 11 Sub+V+Obj_Clause Vs, Vt tàn phá Nam cô khen Tôi dự đốn giá vàng tăng cao Tơi đốn chừng khoảng bốn mươi tuổi 12 Sub+V+Dob+Iob Vt Động từ trao nhận, bổ ngữ đảo cho Sub+V+Iob+Dob nhau: Em gửi thư cho anh - Em gửi cho anh thư Động từ gây khiến (2 bổ ngữ đảo 13 Sub+V+Obj_VP+Dob Sub+V+Dob+Obj_VP Vt cho nhau): Ông bẻ gãy cành Ông bẻ cành gãy Động từ tác động, bổ ngữ đảo cho 14 Sub+V+Dob+Obj_PP-Lo Sub+V+Obj_PP-Lo+Dob Vt nhau: Anh đặt sách lên bàn - Anh đặt lên bàn sách 15 Sub+V+Dob+Obj_PP-Lo Vt 16 Sub+V+Dob+Obj_VP Vt 17 Sub+V+Obj_NP+Dob Vt 18 Sub+V+Dob+Obj_NP-AP- Nó đâm đầu vào tường; Nó phi dao vào gốc Bố bắt cưới vợ Anh nhờ trông nhà Cô giãi bày tâm với người Thầy giáo cho cặn kẽ Vt VP Thầy giáo cho chúng tơi li tí 19 Sub+V+Dob+Obj_NP-Ins Vt 20 Sub+V+Dob+Obj_NP-AP Vs Bà phủ mặt bàn khăn trắng Người Việt ăn cơm đũa Nhà cách trường km Nhà cách ga xa ... kiến thức hệ hình thức văn phạm TAG – hệ hình thức sử dụng rộng rãi o Cơ sở liệu cho phân tích cú pháp tiếng Anh với hệ hình thức văn phạm dự án XTAG từ áp dụng cho việc xây dựng sở liệu cho phân. .. tích cú pháp tiếng Việt o Chuẩn mã hóa sở liệu cho phân tích cú pháp với hệ hình thức văn phạm TAG TAGML Về phương diện thực hành sở tìm hiểu hai cách xây dựng sở liệu cho phân tích cú pháp tiếng. .. dựng sở liệu hai phương pháp Chƣơng Hệ hình thức văn phạm TAG Trước trình bày sở liệu cho phân tích cú pháp với hệ hình thức TAG chương trình bày kiến thức sở hình thức văn phạm TAG 1.1 Văn phạm