Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 74 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
74
Dung lượng
256,93 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - NGUYỄN VĂN HƢNG NGHIÊN CỨU TÍCH HỢP THÀNH PHẦN NGỮ NGHĨA VÀO VĂN PHẠM TAG CHO TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – Năm 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - NGUYỄN VĂN HƢNG NGHIÊN CỨU TÍCH HỢP THÀNH PHẦN NGỮ NGHĨA VÀO VĂN PHẠM TAG CHO TIẾNG VIỆT Chuyên ngành: Cơ sơ toán học cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN THỊ MINH HUYỀN Hà Nội – Năm 2014 Lời cảm ơn Trong trình thực luận văn suốt q trình học lớp cao học Cơ sở tốn học cho tin học, em nhận bảo, hướng dẫn tận tâm TS Nguyễn Thị Minh Huyền Em xin tới cô lời cảm ơn chân thành sâu sắc Ngoài ra, em xin gửi lời cảm ơn tới thầy giáo, cô giáo, cán bộ, nhân viên khoa Toán- Cơ- Tin học, trường đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội tận tình dạy dỗ giúp đỡ em suốt trình học tập Nhân dịp này, em xin gửi lời cảm ơn tới gia đình, bạn bè động viên, khuyến khích tạo điều kiện cho em trình học tập trình thực luận văn Do hạn chế kiến thức, kinh nghiệm, thời gian tìm hiểu, thực đặc biệt việc chưa có hiểu biết hệ thống ngữ pháp, ngữ nghĩa nên luận văn chắn cịn nhiều hạn chế, thiếu sót Em mong nhận nhiều ý kiến đóng góp thầy, bạn để em có nhìn sâu sắc vấn đề Hà Nội, tháng 12 năm 2014 Học viên Nguyễn Văn Hưng MỤC LỤC MỞ ĐẦU Chƣơng 1- KIẾN THỨC CƠ SỞ 1.1 Văn phạm kết nối TAG 1.1.1 Giới thiệu TAG 1.1.2 Định nghĩa hình thức văn phạm TAG 1.1.3 Các thao tác văn phạm TAG 1.1.4 Cây dẫn xuất văn phạm kết nối .9 1.1.5 Cấu trúc đặc trưng TAG .11 1.2 Phân tích cú pháp tiếng Việt 12 1.2.1 Danh ngữ 12 1.2.2 Động từ 14 1.2.3 Tính từ 18 1.3 Biểu diễn ngữ nghĩa logic vị từ cấp 27 1.3.1 Biểu diễn ngữ nghĩa 27 1.3.2 Phân tích cú pháp biểu diễn ngữ nghĩa 30 1.3.3 Kết hợp tính tốn lambda biểu diễn ngữ nghĩa 31 Chƣơng 2- TÍCH HỢP NGỮ NGHĨA CHO VĂN PHẠM TAG 34 2.1 Giới thiệu .34 2.2 Giao diện cú pháp/ngữ nghĩa dựa phép hợp với TAG 35 2.3 Văn phạm siêu văn phạm: khai thác thành phần thông tin chung 38 2.4 Cây phân tích xây dựng ngữ nghĩa 46 2.5 Rừng dẫn xuất, từ vựng ngữ nghĩa xây dựng ngữ nghĩa .46 Chƣơng 3- XÂY DỰNG VĂN PHẠM TAG CĨ TÍCH HỢP NGỮ NGHĨA CHO TIẾNG VIỆT .54 3.1 Công cụ TULIPA XMG 54 3.2 Dữ liệu đầu vào 54 3.3 Thực nghiệm 59 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 62 DANH MỤC CÁC HÌNH Hình 1.1: Mô tả phụ trợ Hình 1.2: Cây phụ trợ .7 Hình 1.3: Cây khởi tạo Hình 1.4 Mơ tả phép nối Hình 1.5: Phép nối Hình 1.6: Mơ tả phép Hình 1.7: Phép Hình 1.8: Cây dẫn xuất CFG Hình 1.9: Cây dẫn TAG 10 Hình 1.10: Cây dẫn xuất 11 Hình 1.11: Cấu trúc đặc trưng với phép nối 11 Hình 1.12: Cấu trúc đặc trưng với phép 12 Hình 2.1- Mơ tả ngữ nghĩa câu John loves Mary 37 Hình 2.2 Các sở TAG bao gồm ngữ nghĩa 47 Hình 2.3 Cây dẫn xuất TAG bao gồm ngữ nghĩa 48 Hình 2.4 Cây dẫn xuất cho câu Jean court (Jean chạy) .49 Hình 3.1:Kết phân tích cú pháp/ngữ nghĩa câu “An thích Bình” 60 Hình 3.2:Kết phân tích cú pháp/ngữ nghĩa câu “Một gió bất ngờ đến” 61 MỞ ĐẦU Để máy tính hiểu xử lý ngơn ngữ người tốn khó ngành khoa học máy tính Lĩnh vực xử lý ngôn ngữ tự nhiên (natural language processing – NLP) đời nhằm giải vấn đề Các toán ứng dụng bật lĩnh vực xử lý ngôn ngữ tự nhiên như: Nhận dạng chữ viết, nhận dạng giọng nói, dịch tự động, tìm kiếm thơng tin, … thu nhiều thành tựu định Các bước để xử lý ngôn ngữ tự nhiên gồm: phân tích hình thái, phân tích cú pháp, phân tích ngữ nghĩa, phân tích ngữ dụng Trong phân tích ngữ nghĩa bước xử lý khó khăn liên quan đến việc hiểu ý nghĩa ngơn ngữ - cơng cụ hồn hảo tư giao tiếp Bài toán biểu diễn ngữ nghĩa ngôn ngữ tự nhiên nhà khoa học giới nghiên cứu từ nhiều thập kỷ trước, phải kể đến cơng trình Montague (1974) ngữ nghĩa hình thức, quy tắc ngữ pháp kết hợp đồng thời với quy tắc ngữ nghĩa để xây dựng không cú pháp mà hạng thức lambda biểu diễn nghĩa thành phần cú pháp Cho đến nhà khoa học có nhiều bước tiến quan trọng việc xây dựng mơ hình để biểu diễn tính tốn ngữ nghĩa phần văn bản, từ cấp độ từ vựng tới cấp độ ngữ, cấp độ câu rộng cấp văn Các cơng trình nghiên cứu xử lý ngôn ngữ tự nhiên cho tiếng Việt năm gần đạt nhiều thành định Tuy nhiên phần lớn tập trung vào tốn phân tích từ vựng, phân tích cú pháp Với kết đạt xử lí từ vựng cú pháp, lúc cần đầu tư cho nghiên cứu xử lí ngữ nghĩa tiếng Việt Luận văntập trung nghiên cứu tích hợp thành phần ngữ nghĩa vào văn phạm TAG cho tiếng Việt Cấu trúc luận văn trình bày sau: • Chƣơng 1: Kiến thức sở: Trong chương này, luận văn giới thiệu kiến thức sở phục vụ cho cơng việc tích hợp thành phần ngữ nghĩa văn phạm TAG, phân tích cú pháp tiếng việt, biểu diễn ngữ nghĩa logicvị từ cấp • Chƣơng 2: Tích hợp ngữ nghĩa vào văn phạm TAG: Chương nghiên cứu phương pháp xây dựng ngữ nghĩa vào văn phạm TAG • Chƣơng 3: Xây dựng văn phạm TAG có thành phần ngữ nghĩa cho tiếng Việt: Chương nghiên cứu sử dụng công cụ TULIPA để tích hợp thành phần ngữ nghĩa vào văn phạm TAG, xây dựng văn phạm TAG có thành phần ngữ nghĩa cho tiếng Việt đưa kết thực nghiệm số câu tiếng Việt cụ thể • Kết luận: Phần tóm tắt lại nội dung luận văn đưa hướng phát triển luận văn Chƣơng 1- KIẾN THỨC CƠ SỞ Chương diễn giải kiến thức cần thiết cho việc xử lý ngữ nghĩa Các kiến thức sở bao gồm: văn phạm kết nối TAG, phân tích cú pháp tiếng Việt thảo luận phương pháp biểu diễn ngữ nghĩa logicvị từ cấp 1.1 Văn phạm kết nối TAG 1.1.1 Giới thiệu TAG Văn phạm kết nối (Tree Adjoining Grammar-TAG[4]) đưa Joshi, Levy Takahashi (1975), Joshi (1985) TAG thao tác với đối tượng đối tượng có cấu trúc (cây) xâu Việc sử dụng đối tượng có cấu trúc cho phép xây dựng hệ hình thức có khả sinh mạnh tức cho phép sinh mơ tả cấu trúc Các hệ hình thức thích hợp với mơ tả ngơn ngữ học hệ hình thức có khả sinh yếu, tức sinh tập xâu Cây biểu diễn cấu trúc tương ứng với đơn vị ngơn ngữ học Có hai loại bản: o Cây khởi tạo: tương ứng với cấu trúc gồm thành phần bắt buộc câu o Cây phụ trợ: tương ứng với cấu trúc cho phép thêm vào thành phần phụ câu 1.1.2 Định nghĩa hình thức văn phạm TAG Văn phạm TAG năm (∑, N, I, A, S) đó: - ∑: tập ký hiệu kết thúc (bảng chữ chính) - N: tập ký hiệu không kết thúc (bảng chữ phụ) - I: tập “khởi tạo” (initial trees) - A: tập “phụ trợ” (auxiliary trees) - S: tiên đề, S ∈ N Cây văn phạm mà nút đánh dấu ký hiệu (kết thúc không kết thúc) Cây phụ trợ: có chứa nút trùng tên (cùng phân loại) với nút gốc, nút ký hiệu với dấu * bên cạnh gọi nút chân phụ trợ (xem Hình 1.1) X Ví dụ phụ trợ (xem Hình 1.2): X* Hình 1.1: Mô tả phụ trợ (β1) ADV (β2) VP VP* VP VP* ADJ sớm Hình 1.2: Cây phụ trợ Ví dụ khởi tạo (xem Hình 1.3): (α1) NP An (α3)S (α2) NP cơm NP↓ VP V Hình 1.3: Cây khởi tạo NP↓ ăn 1.1.3 Các thao tác văn phạm TAG Thao tác văn phạm TAG gồm: phép nối (adjoining) phép (substitution) a Phép nối Đối với T GG (a) tạo ST cách xóa tất nút T thơng tin ngữ nghĩa (nếu có) ghi nhãn nút Gọi kết văn phạm cú pháp túy SG (b) tạo mục từ vựng ngữ nghĩa, có: tên cây, biểu diễn ngữ nghĩa liên quan siêu văn phạm với này, địa Gorn thông tin ngữ nghĩa gán nhãn cho nút 2.5.3 Biểu diễn ngữ nghĩa Như [17] đưa ra, biểu diễn tính tốn ngữ nghĩa từ tập phân tích cú pháp cách tự nhiên để đối phó với bùng nổ tổ hợp dẫn đến từ liệt kê tất cách đọc câu định: cách thực xây dựng ngữ nghĩa sở tập phân tích cú pháp dẫn xuất, chia sẻ thành phần cú pháp mà có cách đọc đơn giản chia sẻ trình xây dựng ngữ nghĩa Khi kết hợp với sử dụng việc xác định ngôn ngữ biểu diễn ngữ nghĩa, phương pháp tiếp cận cho phép số lượng lớn cấu trúc chia sẻ làm tăng hiệu Bây chúng tơi trình bày làm để từ vựng ngữ nghĩa mà trình bày phần 2.5.2 tự động trích xuất từ ngữ nghĩa TAG mơ tả phần 2.2, sử dụng phép hội với rừng dẫn xuất để xây dựng biểu diễn ngữ nghĩa Một rừng dẫn xuất biểu diện nhỏ gọn dẫn xuất phát sinh từ phân tích cú pháp câu Nó biểu diễn hai đồ thị and/or văn phạm phi ngữ cảnh dạng xác thay đổi tùy thuộc vào mức độ chia sẻ cần thiết [18] Ở giả định định dạng CFG mà quy tắc có dạng: DTNodeId :: ElTreeId + ElTreeId :: Lemma.TreeName ← (DTNode/Op.Node) với DTNodeId, DTNode nút định danh dẫn xuất, ElTreeId định danh sở gán nhãn nút dẫn xuất, Op s cho phép cho phép nối Node xác định nút sở mà Op diễn Để thực xây dựng ngữ nghĩa, đơn giản duyệt qua rừng dẫn xuất từ trên-xuống dưới, lập bảng thành phần tìm thấy kiểm tra trước xây dựng mục mà chưa có bảng xây dựng Đối với dẫn xuất tập phân tích cú pháp, xây dựng ngữ nghĩa thực cách giảm đệ qui sau: Để xây dựng ngữ nghĩa sem dẫn xuất với gốc DTNodeId cho qui tắc tập phân tích cú pháp DTNodeId :: ElTreeId ← Dtrs Lemma.TreeName ← terminal(DTNodeId) HeadSem ← lexSem(Lemma.TreeName) SemDtrs ← dtrsSem(HeadSem,Dtrs) Sem ← HeadSem + SemDtrs Trong terminal thủ tục ánh xạ mà nút dẫn xuất cho nút kết thúc trực tiếp gián tiếp viết lại tập phân tích; lexSem chức lấy từ vựng ngữ nghĩa mô tả phần trước, ngữ nghĩa từ vựng liên quan đến cặp (lemma, TreeName) định; dtrs-Sem thủ tục (được mô tả đây) xây dựng biểu diễn ngữ nghĩa lớp quy tắc định ngữ nghĩa đầu lhs nó; + biểu thị phép tốn tích lũy biểu diễn ngữ nghĩa xây dựng thủ tục dtrsSem xác định sau Để xây dựng ngữ biểu diễn ngữ nghĩa Sem lớp DTNodeId /Op.NodeId| Odtrs qui tắc cho ngữ nghĩa đầu HeadSem lhs nó, thực Lemma.TreeName ← terminal(DTNodeId) HeadSemD1 ← lexSem(Lemma.TreeName) tagUnify(HeadSem,HeadSemD1) semODtrs ← dtrsSem(HeadSem,ODtrs) Sem ← HeadSemD1 + semODtrs Trong tagUnify thực phép toán hợp áp dụng dẫn xuất TAG (xem hình 2.2) nhãn nút cung cấp từ vựng ngữ nghĩa mô tả phần trước Tổng kết Tóm lại, chương này, nghiên cứu xây dựng ngữ nghĩa theo hai phương pháp xây dựng ngữ nghĩa q trình dẫn xuất xây dựng ngữ nghĩa sau trình dẫn xuất sử dụng văn phạm TAG tiếng Pháp Trong chương nghiên cứu xây dựng ngữ nghĩa vào văn phạm TAG ứng dụng cho tiếng Việt Chƣơng 3-XÂY DỰNG VĂN PHẠM TAG CĨ TÍCH HỢP NGỮ NGHĨA CHO TIẾNG VIỆT Để xây dựng hệ thống phân tích cú pháp tính tốn ngữ nghĩa tiếng Việt, nói, chúng tơi sửdụng công cụ XMG TuLiPA Công cụ XMG cho phép biên dịch văn phạm LTAG có ngữ nghĩa từmô tả siêu văn phạm Công cụ TuLiPA sử dụng tài nguyên văn phạm LTAG có ngữ nghĩa thu bướctrước thực hai tác vụ phân tích cú pháp tính tốn ngữ nghĩa cho câu đầu vào 3.1 Công cụ TULIPA XMG TuLiPA (Tübingen Linguistic Parsing Architecture) phát triển trường Đại học Tübingen, Đức TuLiPA môi trường phân tích cú pháp đa hình thức dựa phân tích cú pháp văn phạm ghép nối vùng Nó hỗ trợ văn phạm kết nối đa thành phần XMG công cụ biên dịch siêu văn phạm, cho phép thiết kế siêu văn phạm Để thực tích hợp thành phần ngữ nghĩa vào TAG cần công cụ sau: • XMG-Tuebingen (https://sourcesup.renater.fr/xmg/#Requirements), cơng cụ cho phép chuyển đổi file mg chứa nội dung mô tả cấu trúc mảnh sang định dạng XML • Công cụ LEX2ALL, sử dụng để chuyển đổi file từ điển hình thái từ sang chuẩn XML • TuLiPA, cơng cụ để thực phân tích cú pháp tích hợp ngữ nghĩa vào văn phạm TAG 3.2 Tổ chức liệu 3.2.1 Cấu trúc liệu Về tài nguyên: Tài nguyên để thực xây dựng ngữ nghĩa bao gồm: • Thứ cần văn phạm (TAG) chứa thơng tin ngữ nghĩa Chính xác hơn, văn phạm xét tạo sơ đồ liên quan đến công thức ngữ nghĩa phẳng Cụ thể văn phạm biên dịch từ siêu văn phạm sử dụng hình thức XMG • Thứ hai cần từ điển Chúng ta cần từ điển chứa bổ đề (lemmas) từ điển chứa thông tin hình thái • Thứ ba, sử dụng kho ngữ liệu, chẳng hạn tập câu chuyển sang văn phạm Cú pháp từ vựng (lemmas) Đây tệp chứa nhiều thông tin (bao gồm ngữ nghĩa) Nó có trường sau: *ENTRY: dùng để lưu chữ lemma, *CAT: loại cú pháp, *SEM: Thông tin ngữ nghĩa *LAM: biểu diễn thông tin ngữ nghĩa hạng tử lambda (trường tùy chọn) *ACC: động từ chấp nhận (đối với động từ có nhiều nghĩa) khơng dùng *FAM: họ *EX: danh sách ngoại lệ (trong tagml đặc trưng có giá trị "-") khơng dùng *EQUATIONS: phương trình neo có dạng: node -> feat = val *COANCHORS: phương trình đồng neo,có dạng: node -> lemma / category Những phương trình sử dụng để xác định mục từ vựng mà thêm vào Lưu ý: Tất trường xếp theo thứ tự Mục hình thái từ (Morphological entry) : Chứa thơng tin hình thái từ, từ loại đặc trưng từ Tồn hình thái có dạng lexical item associated lemma [ feat1 = val1 ; feat2 = val2 ; etc (optional ";")] Trong lexical item mục từ vựng xếp theo bảng, associate lemma (bổ đề liên quan) [feat 1= val1] cặp thuộc tính giá trị mục từ tương ưng 3.2.2 Mô tả mảnh Phần mô tả số lớp cụ thể bảnbao gồm phân tích cú pháp tích hợp ngữ nghĩasử dụng cú pháp XMG q trình tích hợp ngữ nghĩa vào văn phạm TAG cho tiếng Việt Lớp phân tích cú pháp - Cây động từ: class verbal export ?VP ?V ?P ?M ?I ?I2 declare ?VP ?V ?P ?M ?I ?I2 VP {{ node ?VP [cat=vp,bot=[idx = ?I,pIdx=?P,idx2 = ?I2]]; node ?V (mark=anchor,name=Anchor) [cat=v,top=[idx = ?I,pIdx=?P,idx2 = ?I2]]; V ?VP ->+ ?V }*=[prop=?P,arg1 = ?I]%Ràng buộc ngữ nghĩa } Trong đó, nút VP có từ loại (cat) vp, cấu trúc đặc trưng đáy (bot) có biến ràng buộc ngữ nghĩa idx, pIdx, idx2 - Cây chủ ngữ tắc class CanSubject export ?S ?NP ?VP ?M ?I ?Min ?P1 ?P2 ?P declare ?S ?NP ?VP ?M ?I ?Min ?P1 ?P2 ?P { { NP node ?S [cat = s,top=[pIdx=?P1], bot=[%inv=no, pIdx=? P2],dIdx = ?P2]; node ?NP (name=SubjNode, mark = subst, gf=subj) [cat=n, top=[idx=?I, minsIdx=?P2]]; node ?VP [cat = vp,top=[pIdx=?P2],dIdx = ?P]; ?S -> ?NP; ?S -> ?VP; ?NP >> ?VP }*=[subjIdx=?I,mins=?Min ,dIdx = ?P2,dIdx = ?P] } S VP - Cây bổ ngữ VP class Object export ?S ?VP ?NP ?V ?C ?I ?Min ?P declare ?S ?VP ?NP ?V ?C ?I ?Min ?P { { node ?VP [cat = vp,dIdx = ?P,idx2 = ?I]; NP V node ?NP (name=ObjNode, mark=subst, gf=obj)[cat=n, top=[idx=?I,minsIdx=?Min,idx2 = ?I],dIdx = ? P]; node ?V [cat=v,idx2 =?I]; ?VP ->+ ?NP; ?VP -> ?V; ?V >>+ ?NP }*=[objIdx=?I,mins=?Min] } - Họ ngoại động từ class transitive declare ?Verb ?N0 ?N1 ?Rel ?U ?V ?Min { ?Verb=verbal[]; ?N0 =CanSubject[]; ?N1=Object[]; ?Rel=BinaryRel[]; ?Verb.?VP = ?N0.?VP; ?N0.?S = ?N1.?S; ?Verb.?VP = ?N1.?VP; ?Verb.?V = ?N1.?V; ?N1.?C=acc *=[arg1=?U,subjIdx=?U,arg2=?V ,objIdx=?V,mins=?Min,prop=?Min] } - Cây nội động từ S N VP V N S class intransitive declare ?Verb ?N0 ?Rel ?U ?Min { ?Verb=verbal[]; ?N0 = CanSubject[]; ? Rel=UnaryRel[]; ?Verb.?VP = ?N0.?VP *=[arg1=?U,subjIdx=?U, mins=? Min,prop=?Min] } - Cây danh từ riêng cla ss Pro per Na me declare ?NP ? Sem ?I N VP V { ?NP=noun[]; ?Sem=SemProperName[]; ?NP.?D=no *=[arg1=?I,i=?I] } Lớp ngữ nghĩa Lớp ngữ nghĩa đối class UnaryRel declare !L ?X ?P { {!L:?P(?X) } *=[rel=?P,arg1=?X,prop=!L] } Lớp ngữ nghĩa hai đối class BinaryRel declare !L ?X ?Y ?P { {!L:?P(?X,?Y) } *=[rel=?P,arg1=?X,arg2=?Y,prop=!L] } Lớp ngữ nghĩa cho danh từ đối: class SemUnaryNoun declare !L ?X ?P { {!L:?P(?X) } *=[rel=?P,arg1=?X,prop=!L] } Lớp ngữ nghĩa cho danh từ riêng đối: class SemProperName declare !L ?P ?X { {!L:?P(?X) } *=[rel=?P,i=?X] } Lớp ngữ nghĩa lượng từ ba đối class SemDetQuant declare !L ?X ?P ?P1 ?P2 ?Restr ?Min { {!L:?P(?X,?P1,?P2); ?Restr