Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
594,75 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN —————————— Nguyễn Thị Huyên XÂYDỰNGHỆTHỐNGPHÂNTÍCHCÚPHÁP - NGỮNGHĨATIẾNGVIỆTVỚICÔNGCỤTULIPA LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN —————————— Nguyễn Thị Huyên XÂYDỰNGHỆTHỐNGPHÂNTÍCHCÚPHÁP - NGỮNGHĨATIẾNGVIỆTVỚICÔNGCỤTULIPA Chuyên ngành: Cơ sở toán cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thị Minh Huyền Hà Nội - 2016 Lời cảm ơn Đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc tới TS Nguyễn Thị Minh Huyền, người tận tình bảo hướng dẫn em trình thực luận văn suốt năm học vừa qua Em xin chân thành cảm ơn thầy giáo, cô giáo, cán khoa Toán - Cơ Tin học, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội trực tiếp giảng dạy, giúp đỡ em suốt thời gian học cao học làm việc Bộ môn Tin học Nhân dịp này, em xin gửi lời cảm ơn tới gia đình, bạn bè động viên, khuyến khích, tạo điều kiện cho em trình học tập thực luận văn Mặc dù cố gắng để hoàn thành luận văn, hạn chế kinh nghiệm thời gian, nên luận văn tránh khỏi thiếu sót Em mong nhận cảm thông ý kiến đóng góp thầy cô bạn Hà Nội, ngày 25 tháng 11 năm 2016 Học viên Nguyễn Thị Huyên i Mục lục Danh sách bảng iv Danh sách hình vẽ v Lời mở đầu 1 Tổng quan phântíchcúpháp - ngữnghĩa 1.1 1.2 Bài toán phântíchcúpháp - ngữnghĩa 1.1.1 Bài toán phântíchcúpháp 1.1.2 Bài toán phântíchngữnghĩa Dữ liệu cho phântíchcúpháp - ngữnghĩa 1.2.1 Từ điển 1.2.2 Các kho văn 10 Các hệ hình thức văn phạm 2.1 2.2 17 Hệ hình thức văn phạm 17 2.1.1 Văn phạm TAG 18 2.1.2 Siêu văn phạm XMG 22 2.1.3 Văn phạm RCG 23 Biểu diễn tính toán ngữnghĩa logic 27 2.2.1 Logic bậc 28 2.2.2 Tính toán ngữnghĩa bậc dựa tính toán lambda 29 2.2.3 Tính toán ngữnghĩa bậc dựa hợp 32 Côngcụphântíchcúpháp - ngữnghĩaTuLiPA ii 36 3.1 3.2 Một số côngcụphântíchcúpháp - ngữnghĩa phổ biến cho văn phạm TAG 36 CôngcụTuLiPA 38 3.2.1 Chuyển đổi văn phạm TAG sang RCG 38 3.2.2 Phântíchcúpháp RCG 39 3.2.3 Chuyển đổi kết phântíchcúpháp RCG sang TAG 42 Xâydựng liệu cho phântíchcúpháp - ngữnghĩatiếngViệt 47 4.1 Bổ sung thông tin cho cấu trúc danh ngữ, động ngữ, tính ngữtiếngViệt 47 4.1.1 Cấu trúc danh ngữtiếngViệt 47 4.1.2 Cấu trúc động ngữtiếngViệt 49 4.1.3 Cấu trúc tính ngữtiếngViệt 51 4.2 Xâydựng từ điển mở rộng dựa VCL cho hệ hình thức F-LTAG 52 4.3 Kết 54 Kết luận 57 Các công trình công bố liên quan đến luận văn 59 Tài liệu tham khảo 60 iii Danh sách bảng 1.1 Tập nhãn từ loại 11 1.2 Tập nhãn mệnh đề 12 1.3 Tập nhãn cụm từ 12 1.4 Nhãn chức cúpháp 13 1.5 Tập nhãn vai nghĩa Propbank 13 iv Danh sách hình vẽ 1.1 Đồ thị phụ thuộc biểu diễn câu “Nó trả tiền” 1.2 Cây cúpháp thành phần biểu diễn câu “Nó trả tiền” 1.3 Hai mục từ tương ứng với hình vị từ “yêu” từ điển in 1.4 Cây phân cấp động từ spray-9.7 1.5 Nhãn vai nghĩa lớp động từ give-13.1 với phép toán | 1.6 Biểu diễn AMR câu “The boy wants to go” 15 2.1 Các khởi tạo phụ trợ 19 2.2 Quá trình dẫn xuất câu “tôi ngủ ” 19 2.3 Hợp đặc trưng phép 20 2.4 Hợp đặc trưng phép kết nối 20 2.5 Quá trình hợp đặc trưng sinh câu “Cô không đẹp” 21 2.6 Ràng buộc đặc trưng phép kết nối 21 2.7 Hiện tượng lặp cấu trúc TAG 22 2.8 Mô tả cúpháp XMG 23 2.9 Quá trình dẫn xuất RCG 28 2.10 Biểu thức lambda câu “a woman walks” 32 2.11 Cây cúpháp biểu diễn câu “a woman walks” 34 2.12 Biểu diễn ngữnghĩa “a woman walks” 35 3.1 Tổng quan hệthống XTAG 37 3.2 Văn phạm TAG 39 3.3 Thuật toán phântíchcúpháp Early 42 3.4 Dẫn xuất RCG dẫn xuất TAG tương ứng 42 v 3.5 Giao diện cúphápngữnghĩa biểu diễn câu: “every man loves a woman” 46 4.1 Xâydựng biểu diễn ngữnghĩa câu “Nó đọc sách” 53 4.2 Ràng buộc cấu trúc danh ngữ 54 4.3 Dữ liệu mẫu từ điển mở rộng 55 4.4 Kết phântíchcúpháp - ngữnghĩa câu “họ hy sinh tổ quốc” vi 56 Lời mở đầu Trong giai đoạn nay, với bùng nổ Internet phát triển phương tiện truyền thông đại, giới thông tin trở nên đa dạng phong phú hết Khi đó, muốn cho máy tính hiểu hỗ trợ người khai thác thông tin cách hiệu xử lí ngôn ngữ tự nhiên vấn đề quan trọng Đây lĩnh vực nhiều nhà khoa học giới quan tâm nghiên cứu suốt nhiều thập kỉ qua Một hướng nghiên cứu tích cực mang tính tảng xử lí ngôn ngữ tự nhiên xâydựnghệthống biểu diễn ngữnghĩa câu ngôn ngữ tự nhiên Các ứng dụng biểu diễn ngữnghĩa ngôn ngữ tự nhiên phong phú, phải kể đến số ứng dụng dịch máy, xâydựnghệthống hỏi đáp, nhận dạng tiếng nói, thiết kế người máy có khả hiểu nói tiếng người, Quá trình biểu diễn ngữnghĩa câu ngôn ngữ tự nhiên đòi hỏi phải giải hai toán quan trọng toán phântíchcúpháp toán phântíchngữnghĩa Trên giới, việc xâydựng mô hình tự động biểu diễn ngữnghĩa ngôn ngữ tự nhiên có bước tiến đáng kể, vớicôngcụphần mềm cho phép tính toán ngữnghĩa kết hợp phântíchcúpháp ngôn ngữthôngdụngtiếng Anh, tiếng Pháp, sử dụng nhiều hệ hình thức văn phạm khác HPSG [7], TAG [8] Đối vớitiếng Việt, vấn đề mới, kết đạt biểu diễn ngữnghĩa hạn chế Luận văn tập trung vào việc xâydựnghệthốngphântíchcúpháp tính toán ngữnghĩa cho văn phạm TAG tiếngViệt sử dụngcôngcụ XMG TuLiPA Văn phạm kết nối TAG hệ hình thức thích hợp việc tính toán ngữnghĩa dựa thành phầncúpháp Nội dung luận văn chia thành chương: • Chương trình bày tổng quan toán phântíchcúpháp - ngữnghĩa • Chương trình bày kiến thức sở hệ hình thức văn phạm, cách biểu diễn tính toán ngữnghĩa logic làm tảng cho xâydựnghệthốngphântíchcúpháp - ngữnghĩa • Chương giới thiệu chi tiết côngcụphântíchcúpháp - ngữnghĩaTuLiPA • Chương tập trung xâydựng liệu cho hệthốngphântíchcúpháp - ngữnghĩatiếng Việt, tiến hành thực nghiệm đánh giá kết – Chỉ có N2 (Ví dụ: mèo [N2 ]) Trong hai trường hợp đầu, N1 đóng vai trò trung tâm ngữ đoạn, trường hợp cuối N2 đóng vai trò trung tâm • Định tố tiếng Anh Từ đặc điểm danh ngữ nghiên cứu, luận văn đề xuất bổ sung số thông tin vào từ điển VCL sau: • Ràng buộc danh từ đếm hay không đếm Trong đó, số từ định từ không phép đứng trước danh từ không đếm Ví dụ: Chúng ta nói “những mèo ngủ ” mà nói “những mèo ngủ ” • Ràng buộc cho phép danh từ đứng sau định tố Ví dụ: Các cụm danh từ “cái mèo, sách, ” không hợp lệ • Ràng buộc để danh từ vị N1 kết hợp với danh từ cho trước vị trí N2 Ví dụ: Danh từ “bút” kết hợp với số danh từ “cái bút, bút” mà kết hợp với từ quyển, con, phía trước 4.1.2 Cấu trúc động ngữtiếngViệt Động ngữ tổ hợp từ tự kết từ đứng đầu, có quan hệ phụ thành tố thành tố phụ, thành tố động từ Về mặt cấu tạo, dạng đầy đủ nhất, động ngữtiếngViệt có ba thành phần: phần trung tâm, phần phụ trước phần phụ sau Phần trung tâm động ngữ động từ tổ hợp nhiều động từ Luận văn tập trung tìm hiểu trường hợp thành tố động từ Về phần phụ trước động ngữ có tác dụng định tính mối quan hệ thời gian, trạng thái hành động nêu động từ thành tố Phần phụ sau có tác dụng mở rộng nội dung từ vựng động từ thành tố 49 Hiện tại, từ điển VCL liệt kê ba mẫu động từ mà không biểu diễn khung ngữnghĩa Một số thông tin ngữnghĩa cần bổ sung vào từ điển VCL: • Sub + V : Động từ biểu diễn vị từ đối (Arg0: Sub) Ví dụ: Câu “dân số biến động” biểu diễn công thức logic and(dân_số(x0 ), biến_động(x0 )) • Sub + V + Obj : Động từ cần hai đối số (Arg0: Sub, Arg1: Obj ) Ví dụ: “Nó bắt nạt tôi” biểu diễn sau: and(Nó(x0 ), tôi(y0 ), bắt_nạt(x0 , y0 )) • Sub + V + Obj + Obj : Động từ gán với khung ngữnghĩavới ba đối (Arg0: Sub, Arg1: Obj, Arg2: Obj ) Ví dụ: Biểu diễn câu “Ngân hàng toán lãi suất cho khách hàng” sau: and(Ngân_hàng(x0 ), lãi_suất(y0 ), khách_hàng(z0 ), thanh_toán(x0 , y0 , z0 )) Ngoài ra, luận văn hướng tới mục tiêu gán khung ngữnghĩa cho câu mang ý nghĩa giống mà không quan tâm tới dạng cấu trúc cúpháp khác chúng Ví dụ: Hai câu “tôi gửi hoa cho bạn” (Sub + V + PP + NP ) “tôi gửi cho bạn hoa” (Sub + V + NP + PP ) gán khung ngữnghĩavới ba đối số (Arg0: tôi, Arg1: hoa, Arg2: bạn) Dựa mẫu động từ liệt kê VCL, động từ chia thành số lớp với ràng buộc cho lớp động từ có khả kết hợp với số khung cúpháp định: Động từ nội động (chết, hi sinh, nghỉ ngơi, ), động từ ngoại động (vẽ, đọc, ), động từ cho - nhận (biếu, vay, tặng, ), động từ tồn (còn, hết, ), động từ so sánh (hơn, kém, ), Ví dụ: Động từ nội động sử dụng cấu trúc câu: Sub + V + Obj + Obj Xem xét mối quan hệ phụ từ với động từ trung tâm, phần phụ trước động từ chia thành số nhóm: 50 • Chỉ tiếp diễn, tương tự hoạt động, trạng thái, đều, vẫn, cứ, còn, • Chỉ quan hệ thời gian hoạt động, trạng thái từng, đã, vừa, mới, đang, sẽ, • Chỉ mức độ trạng thái rất, hơi, khí, quá, • Nêu lên ý khẳng định hay phủ định có, không, chưa, chẳng, • Nêu ý kiến sai khiến, ngăn cấm, khuyên nhủ hãy, đừng, cần, nên, • Chỉ tần số xuất trạng thái thường, hay, hiếm, Cấu trúc phụ trước động từ cần bổ sung thêm số ràng buộc để đảm bảo chúng xếp theo trật tự định Ví dụ: Chúng ta nói “tôi không ngủ ” mà nói “tôi không ngủ ” Phần phụ sau động từ phức tạp Xét riêng phương diện từ loại, phụ sau động từ yếu tố thuộc loại từ Chúng từ, cụm từ, mệnh đề tiếp diễn (ví dụ: nói mãi, chạy nữa), thời gian (ví dụ: làm việc hai ngày liền), địa điểm (ví dụ: ngồi bãi cỏ ), phương tiện (ví dụ: in máy ), lí (ví dụ: đau bị ngã ), so sánh (ví dụ: chạy ma đuổi ), 4.1.3 Cấu trúc tính ngữtiếngViệt Tính ngữ tổ hợp từ tự kết từ đứng đầu, có quan hệ phụ thành tố với thành tố phụ, thành tố tính từ Cấu tạo chung tính ngữ gồm phần: Phần trung tâm, phần phụ trước, phần phụ sau Khi xem xét trường hợp tính từ đóng vai trò làm trung tâm vị ngữ, luận văn bổ sung hai khung vị từ vào từ điển VCL: • Sub + A Khung ngữnghĩa tương ứng: Arg0: Sub Ví dụ: Câu: “Nó đẹp” biểu diễn ngữnghĩa sau: and(Nó(x0 ), đẹp(x0 )) 51 • Sub + A + Obj (NP or PP) Khung ngữ nghĩa: Arg0: Sub, Arg1: Obj Ví dụ: Biểu diễn câu “Đường đông người” and(Đường(x0 ), người(y0 ), đông(x0 , y0 )) Bên cạnh đó, xem xét mối quan hệ tính từ vị trí trung tâm với thành tố phụ, tính từ thành số lớp với ràng buộc tương ứng: Xét khả kết hợp với phụ từ mức độ rất, lắm, quá, cực kỳ, , tính từ chia thành hai lớp con: • Tính từ tương đối (tính từ có thang độ): Có thể kết hợp với phụ từ mức độ Ví dụ: cô tốt, nước hoa thơm lắm, • Tính từ tuyệt đối (tính từ thang độ): Không kết hợp với phụ từ mức độ Ví dụ: đen sì, vàng au, Xét khả kết hợp với phụ từ phía sau, tính từ chia làm hai loại: • Tính từ có thực từ làm rõ nghĩa (thường tính từ lượng) Ví dụ: Phố xá đông người, anh nặng 50 cân, • Những tính từ không cần có thực từ làm rõ nghĩa (tính từ tính chất) Ví dụ: đẹp, xấu, Các cấu trúc phụ trước phụ sau tính từ giống với động từ Từ điển VCL cần bổ sung thông tin cho cấu trúc với biểu diễn ngữnghĩa tương ứng 4.2 Xâydựng từ điển mở rộng dựa VCL cho hệ hình thức F-LTAG Dựa số nghiên cứu trình bày chương trước, luận văn tiến hành bổ sung thông tin cúpháp - ngữnghĩa cho từ điển VCL, hướng tới từ điển mở rộng gồm mẩu XMG với ba thành phần: Phần thứ chứa mô tả hình thái đặc trưng đơn vị từ vựng Phần thứ hai bao gồm mẩu XMG cách thức kết hợp chúng để hình thành họ 52 (SNpVpVNpTree) S NP↓[idx:i] NP[idx:x] (NpPTree) P Nó VP V[cateV =transitive] NP↓[idx=j] đọc NP[idx=y] l1 :đọc(i, j) N l0 :Nó (x) sách l2 :sách(y) Hình 4.1: Xâydựng biểu diễn ngữnghĩa câu “Nó đọc sách” (cây cú pháp) với biểu diễn ngữnghĩa (công thức LU ) tương ứng Phần thứ ba chứa thông tin việc kết nối mục từ với họ (mà từ làm từ neo) quan hệ logic từ câu Trong đó, từ nhiều nghĩa gán với nhiều họ biểu diễn ngữnghĩa khác Thông tin hình thái từ từ điển mở rộng trích rút tự động dựa từ điển VCL Để tiến hành xâydựng họ với biểu diễn ngữnghĩa tương ứng, trước hết, cần xâydựng tất họ cho cấu trúc vị ngữ động từ VCL Bên cạnh đó, dựa số nghiên cứu trình bày phần 4.1, cấu trúc danh ngữ, tính ngữ, bổ nghĩa, ràng buộc thông tin từ nút cúpháp cần bổ sung cho phép sinh cấu trúc hợp lệ Ví dụ: Các mô tả cho phântíchcúpháp - ngữnghĩa câu “Nó đọc sách”: • Thông tin hình thái: Nó[pos = p;] đọc[pos = v; cateV = transitive;] sách[pos = n;] • Thông tin từ vựng: – Mục từ “Nó ” từ neo họ NpPTree – Mục từ “sách” gắn với họ NpNTree – Mục từ “đọc” gắn với họ SNpVpVNpTree với mô tả ngữnghĩa hai đối số 53 + NpDNp NP NpNTree NpDNpNTree NP[ctable=-] NP D NP*[ctable=+] [ctable=+] N D NP[ctable=-] mèo N mèo NpNNpTree+ NP N NP* NpNTree ⇒ NpNNpNTree NP[ctable=-] N mèo NP NpDNpNNpNTree NP N NP[ctable=-] ⇒ N mèo D NP[ctable=+] nhữngN NP[ctable=-] N mèo Hình 4.2: Ràng buộc cấu trúc danh ngữ • Mô tả họ với biểu diễn ngữnghĩa thể hình 4.1 Sau trình dẫn xuất hợp đặc trưng bản, biểu diễn ngữnghĩa bậc câu thu sau: and(Nó(x), đọc(x, y), sách(y)) Ràng buộc [cateV = transitive] cúphápthông tin hình thái từ vựng giúp hạn chế cho phép kết nối động từ ngoại động vào cấu trúc để hình thành SN pV pV N pT ree Ngoài ra, hình 4.2 ví dụ cho việc hạn chế không cho phép định từ đứng trước danh từ không đếm được, cụ thể nói “những mèo” mà nói “những mèo” Ví dụ liệu mẫu từ điển mở rộng mô tả hình 4.3 4.3 Kết Với hỗ trợ côngcụ XMG TuLiPA, luận văn triển khai mở rộng từ điển VCL hướng tới xâydựnghệthốngphântíchcúpháp - ngữnghĩa cho văn phạm TAG tiếngViệt Một hệthống cung cấp cho đầu không cấu trúc cúpháp mà công thức logic biểu diễn ngữnghĩa câu, từ đó, thực việc suy luận tri thức từ câu 54 Hình 4.3: Dữ liệu mẫu từ điển mở rộng ban đầu Hiện tại, số lượng mảnh siêu văn phạm XMG xâydựng 93 mảnh cho phép mô tả khoảng 212 TAG, đồng thời, luận văn xâydựng chương trình ngôn ngữ lập trình Java cho phép trích rút tự động thông tin hình thái tất từ VCL gán động từ với họ tương ứng Ngoài ra, từ danh từ, tính từ từ đóng vai trò bổ nghĩa kết nối thủ công chúng với cấu trúc cúpháp - ngữnghĩaxâydựng Sau toàn trình trên, kết đạt sau: Đã gán khoảng 23 826 mục từ tổng số 44 812 mục từ từ điển VCL với TAG biểu diễn ngữnghĩa logic Ngoài ra, mục từ VCL gắn với nhiều họ khác nhau, đó, từ điển mở rộng xâydựng chứa tổng số 28 027 mục từ Bộ từ điển sử dụng làm đầu vào côngcụ TuLiPA, cho phép sinh biểu diễn cúpháp - ngữnghĩa số lượng lớn câu tiếngViệt Hình 4.4 thể kết phântíchcúpháp - ngữnghĩa câu “họ hi sinh tổ quốc” Trong đó, gắn với 55 Hình 4.4: Kết phântíchcúpháp - ngữnghĩa câu “họ hy sinh tổ quốc” đơn vị từ vựng hiển thị khung phía dưới, bên trái hình vẽ CôngcụTuLiPA cho phép sinh đầu gồm dẫn xuất phântích biểu diễn câu đặt hai khung tương ứng “Derivation tree” “Derived tree” Biểu diễn ngữnghĩa thu cho câu đầu vào thể phầncôngcụ 56 Kết luận Luận văn tìm hiểu xâydựnghệthốngphântíchcúpháp - ngữnghĩatiếng Việt, với điểm quan trọng sau: • Tìm hiểu toán phântíchcúpháp - phântíchngữ nghĩa, toán quan trọng lĩnh vực xử lí ngôn ngữ tự nhiên Phântích kho ngữ liệu dùng cho phântíchcúpháp - ngữnghĩa • Tìm hiểu hệ văn phạm hình thức TAG, cách biểu diễn tính toán ngữnghĩa logic • Giới thiệu số côngcụphântíchcú pháp, ngữ nghĩa; liệu cho phântíchcú pháp, ngữnghĩatiếngViệt • Kết quả: Mở rộng từ điển tiếngViệt cho máy tính VCL vớithông tin cúpháp - ngữ nghĩa, kết hợp vớicôngcụ XMG TuLiPA để xâydựnghệthốngphântíchcúpháp - ngữnghĩatiếngViệt Thực nghiệm tiến hành xâydựng khoảng 93 mảnh XMG cho phép biểu diễn 212 họ TAG, trích rút thông tin hình thái từ từ điển VCL gán 28 027 mục từ với họ xâydựng cho phép biểu diễn cúphápngữnghĩa số lượng lớn câu ngôn ngữ tự nhiên Khó khăn vấn đề cần phát triển • Khó khăn: Từ điển VCL thiếu thông tin: – VCL không bao gồm thông tin đối số danh từ, tính từ cấu trúc đối số – Các thông tin ràng buộc phân loại động từ, tính từ, danh từ, trạng từ phải xâydựng tay → tại, nhiều cấu trúc bổ nghĩa ràng 57 buộc chưa xem xét • Hướng phát triển: –Xâydựng liệu test gồm tập hợp câu ngôn ngữtiếngViệt để đánh giá hiệu hệthống– Nghiên cứu tích hợp mảnh XMG trích rút tự động công trình [4] số tác giả trước vào hệthốngphântíchcúpháp - ngữnghĩa 58 Các công trình công bố liên quan đến luận văn [1] Thi Huyen Nguyen, Minh Hai Nguyen, Thi Minh Huyen Nguyen and The Quyen Ngo (2016), “Towards a syntactically and semantically enriched lexicon for Vietnamese processing”, The 12th IEEE RIVF International Conference on Computing and Communication Technologies, Hanoi, Vietnam 59 Tài liệu tham khảo Tài liệu tiếngViệt [1] Đào Minh Thu, Đào Thị Minh Ngọc, Nguyễn Mai Vân, Lê Kim Ngân, Lê Thanh Hương, Nguyễn Phương Thái, Đỗ Bá Lâm (2009), Tập quy tắc cúpháptiếng Việt, SP8.5 – Đề tài KC.01.01.05/06-10 [2] Hoàng Phê (2002), Từ điển tiếng Việt, NXB Đà Nẵng, Việt Nam [3] H M Linh, N T Lương, N V Hùng, N T M Huyền, L H Phương, P T Huê (2015), “Xây dựng kho ngữ liệu mẫu có gán nhãn vai nghĩa cho tiếng Việt”, Hội thảo quốc gia lần thứ 17, Một số vấn đề chọn lọc công nghệ thông tin truyền thông, pp 409–414, Hà Nội, Việt Nam [4] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, and Phan Thị Hà (2010), “Trích rút tự động văn phạm TAG cho tiếng Việt” Tin học Điều khiển học, 26(2), pp 153-171 [5] Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền (2008), “Xây dựng treebank tiếng Việt”, Kỷ yếu hội thảo ICT.rd’08, Hà Nội [6] Nguyễn Tài Cẩn (1998), Ngữpháptiếng Việt, NXB Đại học Quốc gia, Hà Nội, Việt Nam Tài liệu tiếng Anh [7] Ann Copestake, Dan Flickinger (2000), “An open source grammar development environment and broadcoverage English grammar using HPSG”, In PROCEEDINGS OF LREC 2000, pp 591–600 60 [8] Aravind K Joshi and Yves Schabes (1997), Handbooks of Formal Languages and Automata, chapter Tree Adjoining Grammars, Springer-Verlag [9] Avanti M Deshpande (2012), “A Survey: Structure of Machine Readable Dictionary”, International Journal of Engineering and Innovative Technology (IJEIT), vol [10] Boullier, Pierre (2000), “Range concatenation grammars”, In Proceedings of the Sixth International Workshop on Parsing Technologies (IWPT 2000), pp 53–64 [11] B Levin (1993), “English Verb Classes and Alternation: A Preliminary Investigation”, Chicago: The University of Chicago Press [12] Claire Gardent and Laura Kallmeyer (2003), “Semantic construction in Feature-Based TAG”, In Proceedings of the 10th Conference of the European Chapter of the Association for Computational Linguistics, pp 123–130, Budapest, Hungary [13] CLEAR (Computational Language and Education Research) (2012), “VerbNet Annotation Guidelines”, University of Colorado, Boulder [14] C F Baker, C J Fillmore, and J B.Lowe (1998), “The berkeley framenet project”, In Proceedings of COLING/ACL [15] Denys Duchier, Joseph Le Roux, and Yannick Parmentier (2004), “The metagrammar compiler: An NLP application with a multiparadigm architecture”, In Proceedings of the 2nd International Mozart/Oz Conference (MOZ’2004), pp 175–187, Charleroi, Belgium [16] E r ic Villem ont de la C lerger ie (2005), “DyALog: a tabular logic programming based environment for NLP”, In Proceedings of 2nd International Workshop on Constraint Solving and Language Processing, pp 18–33, Barcelona, Spain [17] Gil Francopoulo, Monte George, Nicoletta Calzolari, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria (2006), “Lexical Markup Framework”, Lexical Markup Framework ISOCD24613-revision-9, ISO Geneva 61 [18] Hoang Anh Viet, Dinh Thi Phuong Thu, Huynh Quyet Thang (2007), “Vietnamese Parse Applying the PCFG model”, Proceedings of the Second Asia Pacific International Conference on Information Science and Technology, pp 13-14 [19] Johan Bos (1995), “Predicate logic unplugged”, In Proceedings of the tenth Amsterdam Colloquium, pp 133–142, Amsterdam [20] K K Schuler (2006), “Verbnet: A broad-coverage, comprehensive verb lexicon”, Ph.D dissertation, University of Pennsylvania [21] Lam Do B., Huong Le T (2008), “Implementing A Vietnamese Syntactic Parser Using HPSG”, The International Conference on Asian Language Processing (IALP), pp 12-14, Chiang Mai, Thailand [22] Le-Hong P., T M H Nguyen, and A Roussanaly (2012), “Vietnamese parsing with an automatically extracted tree-adjoining grammar”, Proceedings of IEEE-RIVF International Conference, Ho Chi Minh City, Vietnam [23] L Banarescu, C Bonial, S Cai, M Georgescu, K Griffitt, U Hermjakob, K Knight, P Koehn, M Palmer, N Schneider (2013), “Abstract Meaning Representation for Sembanking”, Proc Linguistic Annotation Workshop [24] M P Marcus, B Santorini, and M A Marcinkiewicz (1993), “Building a large annotated corpus of english: The penn treebank”, Computational Linguistics, vol 19, no 2, pp 313–330 [25] Patrick Blackburn and Johan Bos (2003), Computational semantics, Theoria, (18): 27–45 [26] P Boullier (1999), “On TAG parsing”, Proc TALN 99, 6e Conf Annuelle sur le Traitement Automatique des Langues Naturelles 1, pp 75–84 [27] P Boullier (1999), “On TAG and multi-component TAG parsing”, INRIA Research Report 3668 [28] P K M Palmer and D Gildea (2005), “The proposition bank: An annotated corpus of semantic roles”, Journal Computational Linguistics archive, vol 31, no 1, pp 71–106 62 [29] Richard Montague, “The proper treatment of quantification in ordinary English” (1974), In Richmond Thomason, editor, Formal Philosophy: Selected Papers of Richard Montague, pp 247–270, Yale Univ.Press, New Haven [30] Thanh Bon Nguyen, Thi Minh Huyen Nguyen, Laurent Romary, and Xuan Luong Vu (2004), “Developping tools and building linguistic resources for Vietnamese morpho-syntactic processing”, In Proceedings of the Fourth International Conference on Language Resources and Evaluation, pp 1231–1234, Lisbon, Portugal [31] T Lichte (2007), “An MCTAG with tuples for coherent constructions in German”, Proc 12th Conf on Formal Grammar 2007 1, 1–12 [32] T M H Nguyen, L Romary, M Rossignol, and X L Vu (2006), “A lexicon for Vietnamese language processing”, Language Resources and Evaluation, vol 40, no 3-4, pp 291–309 [33] XTAG-Research-Group (2001), “A lexicalized tree adjoining grammar for English”, Technical report, Institute for Research in Cognitive Science, University of Pennsylvania [34] Yannick Parmentier, Timm Lichte, Laura Kallmeyer, Johannes Dellert, and Wolfgang Maier (2008), “TuLiPA: A syntax-semantics parsing environment for mildly context-sensitive formalisms”, In 9th workshop on Tree-Adjoining Grammar and related formalisms (TAG+ 9), pp 121–128 Website [35] https://en.wikipedia.org/wiki/Lambda_calculus [36] https://framenet.icsi.berkeley.edu/fndrupal/about [37] http://www.loria.fr/ azim/LLP2/help/fr/index.html 63 ... công cụ phân tích cú pháp - ngữ nghĩa TuLiPA • Chương tập trung xây dựng liệu cho hệ thống phân tích cú pháp - ngữ nghĩa tiếng Việt, tiến hành thực nghiệm đánh giá kết Chương Tổng quan phân tích. .. toán phân tích từ vựng cú pháp Đây lúc cần đầu tư nghiên cứu xử lí ngữ nghĩa hướng tới hệ thống phân tích cú pháp - ngữ nghĩa hoàn chỉnh cho tiếng Việt 1.2 Dữ liệu cho phân tích cú pháp - ngữ nghĩa. .. toán phân tích ngữ nghĩa Ngữ nghĩa biểu thị mối quan hệ từ, cụm từ, ký hiệu ý nghĩa chúng thể câu Bài toán phân tích ngữ nghĩa thể nhiều cấp độ: Phân tích ngữ nghĩa từ, cụm từ, phân tích vai nghĩa