Luận văn thạc sĩ HUS xây dựng hệ thống phân tích cú pháp – ngữ nghĩa tiếng việt với công cụ tulipa

71 1 0
Luận văn thạc sĩ HUS xây dựng hệ thống phân tích cú pháp – ngữ nghĩa tiếng việt với công cụ tulipa

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN —————————— Nguyễn Thị Huyên XÂY DỰNG HỆ THỐNG PHÂN TÍCH CÚ PHÁP - NGỮ NGHĨA TIẾNG VIỆT VỚI CÔNG CỤ TULIPA LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - 2016 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN —————————— Nguyễn Thị Huyên XÂY DỰNG HỆ THỐNG PHÂN TÍCH CÚ PHÁP - NGỮ NGHĨA TIẾNG VIỆT VỚI CÔNG CỤ TULIPA Chuyên ngành: Cơ sở toán cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thị Minh Huyền Hà Nội - 2016 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc tới TS Nguyễn Thị Minh Huyền, người tận tình bảo hướng dẫn em trình thực luận văn suốt năm học vừa qua Em xin chân thành cảm ơn thầy giáo, giáo, cán khoa Tốn - Cơ Tin học, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội trực tiếp giảng dạy, giúp đỡ em suốt thời gian học cao học làm việc Bộ môn Tin học Nhân dịp này, em xin gửi lời cảm ơn tới gia đình, bạn bè ln động viên, khuyến khích, tạo điều kiện cho em trình học tập thực luận văn Mặc dù cố gắng để hoàn thành luận văn, hạn chế kinh nghiệm thời gian, nên luận văn tránh khỏi thiếu sót Em mong nhận cảm thơng ý kiến đóng góp thầy cô bạn Hà Nội, ngày 25 tháng 11 năm 2016 Học viên Nguyễn Thị Huyên i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Danh sách bảng iv Danh sách hình vẽ v Lời mở đầu 1 Tổng quan phân tích cú pháp - ngữ nghĩa 1.1 1.2 Bài tốn phân tích cú pháp - ngữ nghĩa 1.1.1 Bài tốn phân tích cú pháp 1.1.2 Bài tốn phân tích ngữ nghĩa Dữ liệu cho phân tích cú pháp - ngữ nghĩa 1.2.1 Từ điển 1.2.2 Các kho văn 10 Các hệ hình thức văn phạm 2.1 2.2 17 Hệ hình thức văn phạm 17 2.1.1 Văn phạm TAG 18 2.1.2 Siêu văn phạm XMG 22 2.1.3 Văn phạm RCG 23 Biểu diễn tính tốn ngữ nghĩa logic 27 2.2.1 Logic bậc 28 2.2.2 Tính tốn ngữ nghĩa bậc dựa tính tốn lambda 29 2.2.3 Tính tốn ngữ nghĩa bậc dựa hợp 32 Công cụ phân tích cú pháp - ngữ nghĩa TuLiPA 36 ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.1 3.2 Một số cơng cụ phân tích cú pháp - ngữ nghĩa phổ biến cho văn phạm TAG 36 Công cụ TuLiPA 38 3.2.1 Chuyển đổi văn phạm TAG sang RCG 38 3.2.2 Phân tích cú pháp RCG 39 3.2.3 Chuyển đổi kết phân tích cú pháp RCG sang TAG 42 Xây dựng liệu cho phân tích cú pháp - ngữ nghĩa tiếng Việt 47 4.1 Bổ sung thông tin cho cấu trúc danh ngữ, động ngữ, tính ngữ tiếng Việt 47 4.1.1 Cấu trúc danh ngữ tiếng Việt 47 4.1.2 Cấu trúc động ngữ tiếng Việt 49 4.1.3 Cấu trúc tính ngữ tiếng Việt 51 4.2 Xây dựng từ điển mở rộng dựa VCL cho hệ hình thức F-LTAG 52 4.3 Kết 54 Kết luận 57 Các cơng trình cơng bố liên quan đến luận văn 59 Tài liệu tham khảo 60 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách bảng 1.1 Tập nhãn từ loại 11 1.2 Tập nhãn mệnh đề 12 1.3 Tập nhãn cụm từ 12 1.4 Nhãn chức cú pháp 13 1.5 Tập nhãn vai nghĩa Propbank 13 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách hình vẽ 1.1 Đồ thị phụ thuộc biểu diễn câu “Nó trả tiền” 1.2 Cây cú pháp thành phần biểu diễn câu “Nó trả tơi tiền” 1.3 Hai mục từ tương ứng với hình vị từ “yêu” từ điển in 1.4 Cây phân cấp động từ spray-9.7 1.5 Nhãn vai nghĩa lớp động từ give-13.1 với phép toán | 1.6 Biểu diễn AMR câu “The boy wants to go” 15 2.1 Các khởi tạo phụ trợ 19 2.2 Quá trình dẫn xuất câu “tôi ngủ ” 19 2.3 Hợp đặc trưng phép 20 2.4 Hợp đặc trưng phép kết nối 20 2.5 Quá trình hợp đặc trưng sinh câu “Cô không đẹp” 21 2.6 Ràng buộc đặc trưng phép kết nối 21 2.7 Hiện tượng lặp cấu trúc TAG 22 2.8 Mô tả cú pháp XMG 23 2.9 Quá trình dẫn xuất RCG 28 2.10 Biểu thức lambda câu “a woman walks” 32 2.11 Cây cú pháp biểu diễn câu “a woman walks” 34 2.12 Biểu diễn ngữ nghĩa “a woman walks” 35 3.1 Tổng quan hệ thống XTAG 37 3.2 Văn phạm TAG 39 3.3 Thuật tốn phân tích cú pháp Early 42 3.4 Dẫn xuất RCG dẫn xuất TAG tương ứng 42 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.5 Giao diện cú pháp ngữ nghĩa biểu diễn câu: “every man loves a woman” 46 4.1 Xây dựng biểu diễn ngữ nghĩa câu “Nó đọc sách” 53 4.2 Ràng buộc cấu trúc danh ngữ 54 4.3 Dữ liệu mẫu từ điển mở rộng 55 4.4 Kết phân tích cú pháp - ngữ nghĩa câu “họ hy sinh tổ quốc” 56 vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời mở đầu Trong giai đoạn nay, với bùng nổ Internet phát triển phương tiện truyền thông đại, giới thông tin trở nên đa dạng phong phú hết Khi đó, muốn cho máy tính hiểu hỗ trợ người khai thác thơng tin cách hiệu xử lí ngơn ngữ tự nhiên vấn đề quan trọng Đây lĩnh vực nhiều nhà khoa học giới quan tâm nghiên cứu suốt nhiều thập kỉ qua Một hướng nghiên cứu tích cực mang tính tảng xử lí ngơn ngữ tự nhiên xây dựng hệ thống biểu diễn ngữ nghĩa câu ngôn ngữ tự nhiên Các ứng dụng biểu diễn ngữ nghĩa ngôn ngữ tự nhiên phong phú, phải kể đến số ứng dụng dịch máy, xây dựng hệ thống hỏi đáp, nhận dạng tiếng nói, thiết kế người máy có khả hiểu nói tiếng người, Quá trình biểu diễn ngữ nghĩa câu ngơn ngữ tự nhiên địi hỏi phải giải hai toán quan trọng tốn phân tích cú pháp tốn phân tích ngữ nghĩa Trên giới, việc xây dựng mô hình tự động biểu diễn ngữ nghĩa ngơn ngữ tự nhiên có bước tiến đáng kể, với cơng cụ phần mềm cho phép tính tốn ngữ nghĩa kết hợp phân tích cú pháp ngơn ngữ thông dụng tiếng Anh, tiếng Pháp, sử dụng nhiều hệ hình thức văn phạm khác HPSG [7], TAG [8] Đối với tiếng Việt, vấn đề mới, kết đạt biểu diễn ngữ nghĩa hạn chế Luận văn tập trung vào việc xây dựng hệ thống phân tích cú pháp tính tốn ngữ nghĩa cho văn phạm TAG tiếng Việt sử dụng công cụ XMG TuLiPA Văn phạm kết nối TAG hệ hình thức thích hợp việc tính toán ngữ nghĩa dựa thành phần cú pháp Nội LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com dung luận văn chia thành chương: • Chương trình bày tổng quan tốn phân tích cú pháp - ngữ nghĩa • Chương trình bày kiến thức sở hệ hình thức văn phạm, cách biểu diễn tính tốn ngữ nghĩa logic làm tảng cho xây dựng hệ thống phân tích cú pháp - ngữ nghĩa • Chương giới thiệu chi tiết cơng cụ phân tích cú pháp - ngữ nghĩa TuLiPA • Chương tập trung xây dựng liệu cho hệ thống phân tích cú pháp - ngữ nghĩa tiếng Việt, tiến hành thực nghiệm đánh giá kết LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com – Chỉ có N2 (Ví dụ: mèo [N2 ]) Trong hai trường hợp đầu, N1 đóng vai trò trung tâm ngữ đoạn, trường hợp cuối N2 đóng vai trị trung tâm • Định tố khơng có tiếng Anh Từ đặc điểm danh ngữ nghiên cứu, luận văn đề xuất bổ sung số thông tin vào từ điển VCL sau: • Ràng buộc danh từ đếm hay khơng đếm Trong đó, số từ định từ không phép đứng trước danh từ khơng đếm Ví dụ: Chúng ta nói “những mèo ngủ ” mà khơng thể nói “những mèo ngủ ” • Ràng buộc cho phép danh từ đứng sau định tố Ví dụ: Các cụm danh từ “cái mèo, sách, ” khơng hợp lệ • Ràng buộc để danh từ vị N1 kết hợp với danh từ cho trước vị trí N2 Ví dụ: Danh từ “bút” kết hợp với số danh từ “cái bút, bút” mà kết hợp với từ quyển, con, phía trước 4.1.2 Cấu trúc động ngữ tiếng Việt Động ngữ tổ hợp từ tự khơng có kết từ đứng đầu, có quan hệ phụ thành tố thành tố phụ, thành tố động từ Về mặt cấu tạo, dạng đầy đủ nhất, động ngữ tiếng Việt có ba thành phần: phần trung tâm, phần phụ trước phần phụ sau Phần trung tâm động ngữ động từ tổ hợp nhiều động từ Luận văn tập trung tìm hiểu trường hợp thành tố động từ Về phần phụ trước động ngữ có tác dụng định tính mối quan hệ thời gian, trạng thái hành động nêu động từ thành tố Phần phụ sau có tác dụng mở rộng nội dung từ vựng động từ thành tố 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hiện tại, từ điển VCL liệt kê ba mẫu động từ mà không biểu diễn khung ngữ nghĩa Một số thông tin ngữ nghĩa cần bổ sung vào từ điển VCL: • Sub + V : Động từ biểu diễn vị từ đối (Arg0: Sub) Ví dụ: Câu “dân số biến động” biểu diễn cơng thức logic and(dân_số(x0 ), biến_động(x0 )) • Sub + V + Obj : Động từ cần hai đối số (Arg0: Sub, Arg1: Obj ) Ví dụ: “Nó bắt nạt tơi” biểu diễn sau: and(Nó(x0 ), tơi(y0 ), bắt_nạt(x0 , y0 )) • Sub + V + Obj + Obj : Động từ gán với khung ngữ nghĩa với ba đối (Arg0: Sub, Arg1: Obj, Arg2: Obj ) Ví dụ: Biểu diễn câu “Ngân hàng toán lãi suất cho khách hàng” sau: and(Ngân_hàng(x0 ), lãi_suất(y0 ), khách_hàng(z0 ), thanh_toán(x0 , y0 , z0 )) Ngoài ra, luận văn hướng tới mục tiêu gán khung ngữ nghĩa cho câu mang ý nghĩa giống mà không quan tâm tới dạng cấu trúc cú pháp khác chúng Ví dụ: Hai câu “tôi gửi hoa cho bạn” (Sub + V + PP + NP ) “tôi gửi cho bạn hoa” (Sub + V + NP + PP ) gán khung ngữ nghĩa với ba đối số (Arg0: tôi, Arg1: hoa, Arg2: bạn) Dựa mẫu động từ liệt kê VCL, động từ chia thành số lớp với ràng buộc cho lớp động từ có khả kết hợp với số khung cú pháp định: Động từ nội động (chết, hi sinh, nghỉ ngơi, ), động từ ngoại động (vẽ, đọc, ), động từ cho - nhận (biếu, vay, tặng, ), động từ tồn (còn, hết, ), động từ so sánh (hơn, kém, ), Ví dụ: Động từ nội động sử dụng cấu trúc câu: Sub + V + Obj + Obj Xem xét mối quan hệ phụ từ với động từ trung tâm, phần phụ trước động từ chia thành số nhóm: 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com • Chỉ tiếp diễn, tương tự hoạt động, trạng thái, đều, vẫn, cứ, còn, • Chỉ quan hệ thời gian hoạt động, trạng thái từng, đã, vừa, mới, đang, sẽ, • Chỉ mức độ trạng thái rất, hơi, khí, quá, • Nêu lên ý khẳng định hay phủ định có, khơng, chưa, chẳng, • Nêu ý kiến sai khiến, ngăn cấm, khuyên nhủ hãy, đừng, cần, nên, • Chỉ tần số xuất trạng thái thường, hay, hiếm, Cấu trúc phụ trước động từ cần bổ sung thêm số ràng buộc để đảm bảo chúng xếp theo trật tự định Ví dụ: Chúng ta nói “tơi khơng ngủ ” mà khơng thể nói “tơi khơng ngủ ” Phần phụ sau động từ phức tạp Xét riêng phương diện từ loại, phụ sau động từ yếu tố thuộc loại từ Chúng từ, cụm từ, mệnh đề tiếp diễn (ví dụ: nói mãi, chạy nữa), thời gian (ví dụ: làm việc hai ngày liền), địa điểm (ví dụ: ngồi bãi cỏ ), phương tiện (ví dụ: in máy ), lí (ví dụ: đau bị ngã ), so sánh (ví dụ: chạy ma đuổi ), 4.1.3 Cấu trúc tính ngữ tiếng Việt Tính ngữ tổ hợp từ tự khơng có kết từ đứng đầu, có quan hệ phụ thành tố với thành tố phụ, thành tố tính từ Cấu tạo chung tính ngữ gồm phần: Phần trung tâm, phần phụ trước, phần phụ sau Khi xem xét trường hợp tính từ đóng vai trị làm trung tâm vị ngữ, luận văn bổ sung hai khung vị từ vào từ điển VCL: • Sub + A Khung ngữ nghĩa tương ứng: Arg0: Sub Ví dụ: Câu: “Nó đẹp” biểu diễn ngữ nghĩa sau: and(Nó(x0 ), đẹp(x0 )) 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com • Sub + A + Obj (NP or PP) Khung ngữ nghĩa: Arg0: Sub, Arg1: Obj Ví dụ: Biểu diễn câu “Đường đông người” and(Đường(x0 ), người(y0 ), đơng(x0 , y0 )) Bên cạnh đó, xem xét mối quan hệ tính từ vị trí trung tâm với thành tố phụ, tính từ thành số lớp với ràng buộc tương ứng: Xét khả kết hợp với phụ từ mức độ rất, lắm, quá, cực kỳ, , tính từ chia thành hai lớp con: • Tính từ tương đối (tính từ có thang độ): Có thể kết hợp với phụ từ mức độ Ví dụ: tốt, nước hoa thơm lắm, • Tính từ tuyệt đối (tính từ khơng có thang độ): Khơng kết hợp với phụ từ mức độ Ví dụ: đen sì, vàng au, Xét khả kết hợp với phụ từ phía sau, tính từ chia làm hai loại: • Tính từ có thực từ làm rõ nghĩa (thường tính từ lượng) Ví dụ: Phố xá đơng người, anh nặng 50 cân, • Những tính từ khơng cần có thực từ làm rõ nghĩa (tính từ tính chất) Ví dụ: đẹp, xấu, Các cấu trúc phụ trước phụ sau tính từ giống với động từ Từ điển VCL cần bổ sung thông tin cho cấu trúc với biểu diễn ngữ nghĩa tương ứng 4.2 Xây dựng từ điển mở rộng dựa VCL cho hệ hình thức F-LTAG Dựa số nghiên cứu trình bày chương trước, luận văn tiến hành bổ sung thông tin cú pháp - ngữ nghĩa cho từ điển VCL, hướng tới từ điển mở rộng gồm mẩu XMG với ba thành phần: Phần thứ chứa mơ tả hình thái đặc trưng đơn vị từ vựng Phần thứ hai bao gồm mẩu XMG cách thức kết hợp chúng để hình thành họ 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com (SNpVpVNpTree) S NP↓[idx:i] NP[idx:x] (NpPTree) P Nó VP V[cateV =transitive] NP↓[idx=j] đọc NP[idx=y] l1 :đọc(i, j) N l0 :Nó (x) sách l2 :sách(y) Hình 4.1: Xây dựng biểu diễn ngữ nghĩa câu “Nó đọc sách” (cây cú pháp) với biểu diễn ngữ nghĩa (công thức LU ) tương ứng Phần thứ ba chứa thông tin việc kết nối mục từ với họ (mà từ làm từ neo) quan hệ logic từ câu Trong đó, từ nhiều nghĩa gán với nhiều họ biểu diễn ngữ nghĩa khác Thơng tin hình thái từ từ điển mở rộng trích rút tự động dựa từ điển VCL Để tiến hành xây dựng họ với biểu diễn ngữ nghĩa tương ứng, trước hết, cần xây dựng tất họ cho cấu trúc vị ngữ động từ VCL Bên cạnh đó, dựa số nghiên cứu trình bày phần 4.1, cấu trúc danh ngữ, tính ngữ, bổ nghĩa, ràng buộc thông tin từ nút cú pháp cần bổ sung cho phép sinh cấu trúc hợp lệ Ví dụ: Các mơ tả cho phân tích cú pháp - ngữ nghĩa câu “Nó đọc sách”: • Thơng tin hình thái: Nó[pos = p;] đọc[pos = v; cateV = transitive;] sách[pos = n;] • Thơng tin từ vựng: – Mục từ “Nó ” từ neo họ NpPTree – Mục từ “sách” gắn với họ NpNTree – Mục từ “đọc” gắn với họ SNpVpVNpTree với mô tả ngữ nghĩa hai đối số 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com + NpDNp NP NpNTree NpDNpNTree NP[ctable=-] NP D NP*[ctable=+] [ctable=+] N D NP[ctable=-] mèo N mèo NpNNpTree+ NP N NP* NpNTree ⇒ NpNNpNTree NP[ctable=-] N mèo NP NpDNpNNpNTree NP N NP[ctable=-] ⇒ N mèo D NP[ctable=+] nhữngN NP[ctable=-] N mèo Hình 4.2: Ràng buộc cấu trúc danh ngữ • Mơ tả họ với biểu diễn ngữ nghĩa thể hình 4.1 Sau trình dẫn xuất hợp đặc trưng bản, biểu diễn ngữ nghĩa bậc câu thu sau: and(Nó(x), đọc(x, y), sách(y)) Ràng buộc [cateV = transitive] cú pháp thơng tin hình thái từ vựng giúp hạn chế cho phép kết nối động từ ngoại động vào cấu trúc để hình thành SN pV pV N pT ree Ngồi ra, hình 4.2 ví dụ cho việc hạn chế không cho phép định từ đứng trước danh từ không đếm được, cụ thể nói “những mèo” mà khơng thể nói “những mèo” Ví dụ liệu mẫu từ điển mở rộng mơ tả hình 4.3 4.3 Kết Với hỗ trợ công cụ XMG TuLiPA, luận văn triển khai mở rộng từ điển VCL hướng tới xây dựng hệ thống phân tích cú pháp - ngữ nghĩa cho văn phạm TAG tiếng Việt Một hệ thống cung cấp cho đầu không cấu trúc cú pháp mà công thức logic biểu diễn ngữ nghĩa câu, từ đó, thực việc suy luận tri thức từ câu 54 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 4.3: Dữ liệu mẫu từ điển mở rộng ban đầu Hiện tại, số lượng mảnh siêu văn phạm XMG xây dựng 93 mảnh cho phép mô tả khoảng 212 TAG, đồng thời, luận văn xây dựng chương trình ngơn ngữ lập trình Java cho phép trích rút tự động thơng tin hình thái tất từ VCL gán động từ với họ tương ứng Ngoài ra, từ danh từ, tính từ từ đóng vai trị bổ nghĩa kết nối thủ công chúng với cấu trúc cú pháp - ngữ nghĩa xây dựng Sau toàn trình trên, kết đạt sau: Đã gán khoảng 23 826 mục từ tổng số 44 812 mục từ từ điển VCL với TAG biểu diễn ngữ nghĩa logic Ngồi ra, mục từ VCL gắn với nhiều họ khác nhau, đó, từ điển mở rộng xây dựng chứa tổng số 28 027 mục từ Bộ từ điển sử dụng làm đầu vào công cụ TuLiPA, cho phép sinh biểu diễn cú pháp - ngữ nghĩa số lượng lớn câu tiếng Việt Hình 4.4 thể kết phân tích cú pháp - ngữ nghĩa câu “họ hi sinh tổ quốc” Trong đó, gắn với 55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 4.4: Kết phân tích cú pháp - ngữ nghĩa câu “họ hy sinh tổ quốc” đơn vị từ vựng hiển thị khung phía dưới, bên trái hình vẽ Cơng cụ TuLiPA cho phép sinh đầu gồm dẫn xuất phân tích biểu diễn câu đặt hai khung tương ứng “Derivation tree” “Derived tree” Biểu diễn ngữ nghĩa thu cho câu đầu vào thể phần công cụ 56 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận Luận văn tìm hiểu xây dựng hệ thống phân tích cú pháp - ngữ nghĩa tiếng Việt, với điểm quan trọng sau: • Tìm hiểu tốn phân tích cú pháp - phân tích ngữ nghĩa, tốn quan trọng lĩnh vực xử lí ngơn ngữ tự nhiên Phân tích kho ngữ liệu dùng cho phân tích cú pháp - ngữ nghĩa • Tìm hiểu hệ văn phạm hình thức TAG, cách biểu diễn tính tốn ngữ nghĩa logic • Giới thiệu số cơng cụ phân tích cú pháp, ngữ nghĩa; liệu cho phân tích cú pháp, ngữ nghĩa tiếng Việt • Kết quả: Mở rộng từ điển tiếng Việt cho máy tính VCL với thông tin cú pháp - ngữ nghĩa, kết hợp với công cụ XMG TuLiPA để xây dựng hệ thống phân tích cú pháp - ngữ nghĩa tiếng Việt Thực nghiệm tiến hành xây dựng khoảng 93 mảnh XMG cho phép biểu diễn 212 họ TAG, trích rút thơng tin hình thái từ từ điển VCL gán 28 027 mục từ với họ xây dựng cho phép biểu diễn cú pháp ngữ nghĩa số lượng lớn câu ngơn ngữ tự nhiên Khó khăn vấn đề cần phát triển • Khó khăn: Từ điển VCL thiếu thông tin: – VCL không bao gồm thông tin đối số danh từ, tính từ cấu trúc đối số – Các thông tin ràng buộc phân loại động từ, tính từ, danh từ, trạng từ phải xây dựng tay → tại, nhiều cấu trúc bổ nghĩa ràng 57 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com buộc chưa xem xét • Hướng phát triển: – Xây dựng liệu test gồm tập hợp câu ngôn ngữ tiếng Việt để đánh giá hiệu hệ thống – Nghiên cứu tích hợp mảnh XMG trích rút tự động cơng trình [4] số tác giả trước vào hệ thống phân tích cú pháp - ngữ nghĩa 58 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Các cơng trình cơng bố liên quan đến luận văn [1] Thi Huyen Nguyen, Minh Hai Nguyen, Thi Minh Huyen Nguyen and The Quyen Ngo (2016), “Towards a syntactically and semantically enriched lexicon for Vietnamese processing”, The 12th IEEE RIVF International Conference on Computing and Communication Technologies, Hanoi, Vietnam 59 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo Tài liệu tiếng Việt [1] Đào Minh Thu, Đào Thị Minh Ngọc, Nguyễn Mai Vân, Lê Kim Ngân, Lê Thanh Hương, Nguyễn Phương Thái, Đỗ Bá Lâm (2009), Tập quy tắc cú pháp tiếng Việt, SP8.5 – Đề tài KC.01.01.05/06-10 [2] Hoàng Phê (2002), Từ điển tiếng Việt, NXB Đà Nẵng, Việt Nam [3] H M Linh, N T Lương, N V Hùng, N T M Huyền, L H Phương, P T Huê (2015), “Xây dựng kho ngữ liệu mẫu có gán nhãn vai nghĩa cho tiếng Việt”, Hội thảo quốc gia lần thứ 17, Một số vấn đề chọn lọc công nghệ thông tin truyền thông, pp 409–414, Hà Nội, Việt Nam [4] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, and Phan Thị Hà (2010), “Trích rút tự động văn phạm TAG cho tiếng Việt” Tin học Điều khiển học, 26(2), pp 153-171 [5] Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền (2008), “Xây dựng treebank tiếng Việt”, Kỷ yếu hội thảo ICT.rd’08, Hà Nội [6] Nguyễn Tài Cẩn (1998), Ngữ pháp tiếng Việt, NXB Đại học Quốc gia, Hà Nội, Việt Nam Tài liệu tiếng Anh [7] Ann Copestake, Dan Flickinger (2000), “An open source grammar development environment and broadcoverage English grammar using HPSG”, In PROCEEDINGS OF LREC 2000, pp 591–600 60 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [8] Aravind K Joshi and Yves Schabes (1997), Handbooks of Formal Languages and Automata, chapter Tree Adjoining Grammars, Springer-Verlag [9] Avanti M Deshpande (2012), “A Survey: Structure of Machine Readable Dictionary”, International Journal of Engineering and Innovative Technology (IJEIT), vol [10] Boullier, Pierre (2000), “Range concatenation grammars”, In Proceedings of the Sixth International Workshop on Parsing Technologies (IWPT 2000), pp 53–64 [11] B Levin (1993), “English Verb Classes and Alternation: A Preliminary Investigation”, Chicago: The University of Chicago Press [12] Claire Gardent and Laura Kallmeyer (2003), “Semantic construction in Feature-Based TAG”, In Proceedings of the 10th Conference of the European Chapter of the Association for Computational Linguistics, pp 123–130, Budapest, Hungary [13] CLEAR (Computational Language and Education Research) (2012), “VerbNet Annotation Guidelines”, University of Colorado, Boulder [14] C F Baker, C J Fillmore, and J B.Lowe (1998), “The berkeley framenet project”, In Proceedings of COLING/ACL [15] Denys Duchier, Joseph Le Roux, and Yannick Parmentier (2004), “The metagrammar compiler: An NLP application with a multiparadigm architecture”, In Proceedings of the 2nd International Mozart/Oz Conference (MOZ’2004), pp 175–187, Charleroi, Belgium [16] E r ic Villem ont de la C lerger ie (2005), “DyALog: a tabular logic programming based environment for NLP”, In Proceedings of 2nd International Workshop on Constraint Solving and Language Processing, pp 18–33, Barcelona, Spain [17] Gil Francopoulo, Monte George, Nicoletta Calzolari, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria (2006), “Lexical Markup Framework”, Lexical Markup Framework ISOCD24613-revision-9, ISO Geneva 61 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [18] Hoang Anh Viet, Dinh Thi Phuong Thu, Huynh Quyet Thang (2007), “Vietnamese Parse Applying the PCFG model”, Proceedings of the Second Asia Pacific International Conference on Information Science and Technology, pp 13-14 [19] Johan Bos (1995), “Predicate logic unplugged”, In Proceedings of the tenth Amsterdam Colloquium, pp 133–142, Amsterdam [20] K K Schuler (2006), “Verbnet: A broad-coverage, comprehensive verb lexicon”, Ph.D dissertation, University of Pennsylvania [21] Lam Do B., Huong Le T (2008), “Implementing A Vietnamese Syntactic Parser Using HPSG”, The International Conference on Asian Language Processing (IALP), pp 12-14, Chiang Mai, Thailand [22] Le-Hong P., T M H Nguyen, and A Roussanaly (2012), “Vietnamese parsing with an automatically extracted tree-adjoining grammar”, Proceedings of IEEE-RIVF International Conference, Ho Chi Minh City, Vietnam [23] L Banarescu, C Bonial, S Cai, M Georgescu, K Griffitt, U Hermjakob, K Knight, P Koehn, M Palmer, N Schneider (2013), “Abstract Meaning Representation for Sembanking”, Proc Linguistic Annotation Workshop [24] M P Marcus, B Santorini, and M A Marcinkiewicz (1993), “Building a large annotated corpus of english: The penn treebank”, Computational Linguistics, vol 19, no 2, pp 313–330 [25] Patrick Blackburn and Johan Bos (2003), Computational semantics, Theoria, (18): 27–45 [26] P Boullier (1999), “On TAG parsing”, Proc TALN 99, 6e Conf Annuelle sur le Traitement Automatique des Langues Naturelles 1, pp 75–84 [27] P Boullier (1999), “On TAG and multi-component TAG parsing”, INRIA Research Report 3668 [28] P K M Palmer and D Gildea (2005), “The proposition bank: An annotated corpus of semantic roles”, Journal Computational Linguistics archive, vol 31, no 1, pp 71–106 62 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [29] Richard Montague, “The proper treatment of quantification in ordinary English” (1974), In Richmond Thomason, editor, Formal Philosophy: Selected Papers of Richard Montague, pp 247–270, Yale Univ.Press, New Haven [30] Thanh Bon Nguyen, Thi Minh Huyen Nguyen, Laurent Romary, and Xuan Luong Vu (2004), “Developping tools and building linguistic resources for Vietnamese morpho-syntactic processing”, In Proceedings of the Fourth International Conference on Language Resources and Evaluation, pp 1231–1234, Lisbon, Portugal [31] T Lichte (2007), “An MCTAG with tuples for coherent constructions in German”, Proc 12th Conf on Formal Grammar 2007 1, 1–12 [32] T M H Nguyen, L Romary, M Rossignol, and X L Vu (2006), “A lexicon for Vietnamese language processing”, Language Resources and Evaluation, vol 40, no 3-4, pp 291–309 [33] XTAG-Research-Group (2001), “A lexicalized tree adjoining grammar for English”, Technical report, Institute for Research in Cognitive Science, University of Pennsylvania [34] Yannick Parmentier, Timm Lichte, Laura Kallmeyer, Johannes Dellert, and Wolfgang Maier (2008), “TuLiPA: A syntax-semantics parsing environment for mildly context-sensitive formalisms”, In 9th workshop on Tree-Adjoining Grammar and related formalisms (TAG+ 9), pp 121–128 Website [35] https://en.wikipedia.org/wiki/Lambda_calculus [36] https://framenet.icsi.berkeley.edu/fndrupal/about [37] http://www.loria.fr/ azim/LLP2/help/fr/index.html 63 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... cho xây dựng hệ thống phân tích cú pháp - ngữ nghĩa • Chương giới thiệu chi tiết cơng cụ phân tích cú pháp - ngữ nghĩa TuLiPA • Chương tập trung xây dựng liệu cho hệ thống phân tích cú pháp - ngữ. .. cụ phân tích cú pháp - ngữ nghĩa TuLiPA Nội dung chương trình bày chi tiết q trình phân tích cú pháp ngữ nghĩa văn phạm TAG sử dụng công cụ TuLiPA 3.1 Một số cơng cụ phân tích cú pháp - ngữ nghĩa. .. thức cú pháp, ngữ nghĩa số nguồn tài nguyên quan trọng phục vụ cho phân tích cú pháp ngữ nghĩa 1.1 Bài tốn phân tích cú pháp - ngữ nghĩa 1.1.1 Bài tốn phân tích cú pháp Trong ngơn ngữ học, cú pháp

Ngày đăng: 15/12/2022, 10:29

Tài liệu cùng người dùng

Tài liệu liên quan