Xử lý ngôn ngữ tự nhiên bằng máy tính và ứng dụng trong việc dịch xuôi ngược anh việt báo cáo nghiệm thu đề tài nghiên cứu khoa học

50 0 0
Xử lý ngôn ngữ tự nhiên bằng máy tính và ứng dụng trong việc dịch xuôi ngược anh việt báo cáo nghiệm thu đề tài nghiên cứu khoa học

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA BACREICRHIGR BAO CAO NGHIEM THU DE TAI NGHIEN CUU KHOA HOC XỬ LY NGƠN NGỮ TU NHIÊN BẰNG MÁY TÍNH VÀ UNG DUNG TRONG VIEC DICH XUGI, NGƯỢC ANH - VIET Chit nhiém dé tai: PGS.TS Phan Thj Tươi TP.HCM, 8/2003 MUC LUC TRANG NOI DUNG Chương 1: Đặt vấn để 1.1 Mở đẫu 1.2 Đặt vấn để -.- Phần 1: Cơ sở lý thuyết -e-eer Chương 2: Ngôn ngữ tự nhiên ngôn ngữ hình thức 2.1 Ngơn ngữ tự nhiên : 10 10 1.3 Những nghiên cứu liền quan 2.1.1 Văn phạm tiếng Anh 10 13 2.1.2 Văn phạm tiếng Việt 18 Chương 3: Giải thuật phân tích cú phấp ccreeeenerrerrenrre 19 2.2 Ngơn ngữ hình thức Phân tích cú pháp từ xuống 19 3.2 3.3 Phân tích cú pháp từ lên Phân tích cú pháp theo giải thuật Earley 3.4 Giải thuật Cocke, Kasami, Younger 20 3.1 19 19 3.5 Phân tích cú pháp theo sơ đổ 3.5.1 Bộ phân tích cú pháp sơ đổ từ lên 3.5.2 Bộ phân tích cú pháp sơ đồ từ xuống 23 chen 27 Chương 4: Hệ thống nét văn phạm gia tỐ Chương 5: Ngữ nghĩa dạng luận ly 5.1 Dang luan ly 5.2 Ngôn ngữ dạng luận lý 5.3 Mã hóa nhập nhằng dạng luận W 5.4 Hành vi phát ngôn câu nhúng sree-eeeeee Chương 6: Liên kết cú pháp ngữ nghĩa 6.1 Giải thuật diễn dịch 6.3 Xử lý diễn dịch ngữ nghĩa 6.2 Văn phạm đơn giản từ điển với diễn địch ngữ nghĩa 6.4 Tổng hợp câu từ đạng luận lý Phần 2: Dạng luận lý địch máy Chương 7: Giải thuật tạo tự động dạng luận lý i -Ö 3Ó 37 37 38 40 46 7.1 Thử nghiệm tạo tự động dạng luận lý cho câu ngôn ngữ tự nhiên 50 7.2 Kiểm tra phù hợp 7.3 Kiến trúc chương trình 7.3.1 Kiến trúc chương trình 7.3.2 Từ điển có hệ thống nét 7.4 Văn phạm 7.4.1 Tập luật sinh văn phạm tiếng Anh 7.4.2 Tập luật sinh văn phạm lưu vẾC .v.ccssserrrrrrrirrree 7.4.3 Tập luật sinh văn phạm kiểm tra phù hợp hệ thống nét 7.4.4 Tập luật sinh văn phạm gia tố ve 7.4.5 Tập luật sinh ánh xạ văn phạm tiếng Việt có hệ thống nét 65 7.4.6 Ví dụ minh họa Chương 8: Kết chương trình minh họa hướng dẫn sử dụng 8.1 Chương trình §.2 Kết chương trình minh họa hướng dẫn sử dụng 8.3 Các mơđun §.4 Một số ví dụ dịch cácccâu don g giản từv Việt ssangg Anh: ngược lại 102 ) Điều biểu dién hai khả năng: (EVERY cl : (CHILD1 cl) (A pl : (PET! p!) (LOVES1 (A pl : (PET1 pl) (EVERY cl : (CHILDI c1) LOVESI Rut gon lai: =(EVERY cl p1))) c1 pl))) cl: (CHILD cl)) Every child didn’t run wé thanh: ( < EVERY cl CHILD>) bao gém: (NOT (EVERY cl : (CHILD cl) (RUNI cl))) va (EVERY cl: (CHILD cl) (NOT (RUN1 c1))) 34 «Ẳ Tên riêng đại từ khảo tới Tên riêng cần làm sáng td ngữ cảnh ~ John tham lý qua (NAME < nhiều John khác Việc xử lý dạng luận variable> ): Thí dụ John ran trở thành: ( (NAMEjI “John ”)) (PRO Tương tự đại từ đại từ quan hệ, sử dụng ) Every man liked him té thanh: ( m2))), day (PRO m2 (HE1 ml MANI> (PRO nghĩa cho từ he him Như với ))) Có thể thêm bổ ngữ cần, ví dụ như: in the hallway cha để Có ba dẫn xuất sở để kết hợp dạng luận lý là: Tác nhân (agent), tiện (instrument) (theme) nạn nhân (vicim) bổ ngữ (objec) phương Nó gọi chung bổ ngữ (objecÐ dạng luận lý 2”(esists e1: (& (BREAK E1) (AGENT el (NAME jl “John”)) (THEME el (RO il IT1)) (INSTR el < THE hi HAMMER>))) el: “va Vì mơ hình cịn tổng qt, thường bỏ qua “(exits & (“va viết lại 2”, sau: 2”(BREAK e1 [AGENT (NAME jl “John ”] {THEME (PRO il IT1)} [INSTR < THE hi HAMMER > 1) > Một cách xác BREAK thay l), PEACH PEACH1>1})) Câu ( the peach: Eat va hỏi Wh phức e[AGENT (COMMAND MAN1>] ml (V |_np [SEM ?semv) (NP SEM ?semnp) (NP WH-VAR ?v SEM (PRO ?v ?sempro)) > PRO SEM ?sempro) NP VAR NP VAR SEM Isemv) ?v SEM (NAME ?v SEM ?v ?semname)) > (NAME (?semnart ?: (2semenp ?v)>) > SEM (ART ?semname) SEM ?semart) (CNP ?semenp) (CNP SEM ?semnK) > (N SEM ?semn) Nét ddu cho S, VP, NP, CNP: VAR Hình 10 Văn phạm gia tố @ Nét VAR Nét Var biến ngôn ngữ tương đương với thành phần hợp thành Nó hữu dụng cho việc xử lý bổ ngữ phát triển sau Nó tự động tạo q trình phân tích cú pháp, thành phần từ vựng xây dựng từ từ điển, sau chúng chuyển lên nút VAR nét ddu “head feature” Bảng giới thiệu số từ với thông tin ngữ nghĩa từ điển â can car (art AGR 3s, SEM A) (aux SUBCAT base SEM CAN1) (n SEM CARI AGR 3s) (v SEM CRY1 VFORM base SUBCAT _none) cry decide | (v SEM DECIDES1 VFORM base SUBCAT _none) decide | (v SEM DECIDES-ON1 VFORM base SUBCAT _pp:on) dog (n SEM DOGI AGR 3s) has (aux VFORM pres AGR 3s SUBCAT pastprt SEM perf) fish (n SEM FISH1 AGR 3s) (n SEM (PLUR FISH) AGR 3p) fish house _| (n SEM HOUSE] AGR 3s) he (pro SEM HE1 AGR 3s) in (p PFORM {LOC MOT} SEM IN-LOC1) J1 (name AGR 3s SEM “Ji”) man) (n SEM MANI1 men on (n SEM (PLUR MAN]1) AGR 3p) (p PFORM {LOC,on} SEM ON-LOC1) AGR 3p) 39 saw (v SEM SEES1 VFORM past SUBCAT_np) see ASTPRT+) (v SEM SEES1 VFORM base SUBCAT _np IRREG-PAST+ EN-P she the (ART SEM THE AGR {3s,3p}) to (pro SEM SHE1 AGR 3s) (to AGR-VFORM inf) Hình 11 Từ điển 6.3 Xử lý điễn dịch ngữ nghĩa để xử lý diễn Phương pháp phân tích sơ đồ (chart parsing) sửa đổi dịch ngữ nghĩa theo bước sau: tạo e Khi luật từ vựng dùng nét VAR biến ngơn ngữ lập phép © Mỗi thành phần xây dựng, SEM thiết thu giảm lambda Ví dụ diễn dich cu: Jill saw the dog mới, j1 khởi tạo nét a Tit Jill phân tích tên, Biến ngơn ngữ VAR NAME nên NP Từ VAR nét b Thành phần xây dựng luật để tạo E jl “Jill”) (theo đầu, VAR j1 truyền lên NP, SEM NP (NAM luật 5) c Mục từ cho từ saw sinh thành phần V với SEM VAR evi nét đ Mục từ the cho SEM THE va VAR dl e Mục từ dog sinh thành phần N với SEM DOG] với VAR di tạo NP với f Luật kết hợp với cdc nét SEM THE vàDOGI SEM SEM (THE di: (DOG1 d1)) va VAR dl động từ VAR g (THE dl: (DOGI dl)) duge xây dựng với SEM Iuật VP với VAR evÌ SEM d1))) (lambda x( ev1 x (THE dl (DOG1 h Muc két hdp v6i NP (NAME ji “Jill”) thành SEM: ( evl (NAME phép thu gidm lambda để tạo jl “Jill”) < THE evi 40 dl (DOGI d1)>) va VAR © Cây phân tích với hệ théng nét SEM va VAR d1)>) [§ SEM ( ev] (NAME il “Jill”) NAME SEM “Jill” VAR V SEM VAR ART SEM THE the saw Jill Hình 12 Cée cum | CNP SEM DOG VAR dog Cây phân tích với SEM VAR dàng lambda reduce gidi tit va cde cum động tit (Prepositional Phrases and Verb Phrases) * Trợ động từ Thí dụ luật sinh có trợ động từ: > (VP SEM (lambda al (2semaux (?semvp al)))) SEM (AUX SUBCAT ?v SEM ?semaux) (VP VFORM ?v 2semvp) p biểu thức Nếu ?semaux toán tử khiếm khuyết CAN], ?semv luật thì, SEM VP can lambda nhu (lambda x (LAUGHSI c3 x)), theo c3 aÙ))) Trong thực laugh 1a (lambda al (CANI (đambda x (LAUGHSI khuyết động từ bổ qua toán hạng CANI Trong trường hợp có nhiều khiếm xử lý tương tự * Cụm giới từ (PPs) oun phrase) cụm PPs xử lý tương tự cụm danh từ (NP:n trường hợp động từ VP, thay từ đầu (head word), giới từ tác động vị từ độc lập Thi du: The man in the corner ate lunch PP modifies NP “the man” 41 in the alley The dog barked PP modifies VP “barked” She is ready totake —_ up the challenge “up” flags object of “take-up” a) PP bổ nghĩa cho cụm danh từ SEM PP vị từ nguyên để áp dụng cho SEM NP: (PP SEM (lambda y (?semp y ?semnp))) > (P SEM ?semp) (NP SEM ?semnp) NP , SEM PP vị từ nguyên: (lambda y (IN-LOC1 y)) Trong ngữ cảnh ihe man in the corner, ching ta cần luật gán cho CNP (Common Noun Phrase) thành phần PP như: (CNP SEM (lambda nl (& ?semenp) (PP SEM ?sempp) SEM (?semenp ni) (sempp nl) man vị từ nguyên MAN]1, SEM corner là: ni (lambda CORNER iI>))n1))) (& (đambda y (IN-LOCI y (dambda ni) (MANI > (CNP SEM man ín the (IN-LOC] yVP PP Cry có dạng luận lý the corner là: (lambda x (CRIES1 cl x)) Như dạng luận lý đối cry in (lambda a (& CRIESI c1 a) N-LOCI Luật gia tố với ngữ nghĩa thích hợp là: (VP VAR ?v SEM (lambda c1 ))) x(& (?semvp SEM ?semvp) )PP SEM ?sempp) 42 x) (3sempp ?)))) > (VP VAR Ww sử dụng luật sau: Cây phân tích cho cụm động từ (VP): cry in the corner cl (CORNERI [vP SEM (lambda x (&(CRIES1 cl x) (IN-LOC c1 V |_pp: Dạng luận lý VP là: (đlambda s (DECIDES-ONI s 1)), véi xuất đối số -_ Diễn dịch giới từ vị từ: (PP PRED - PFROM ?pf SEM ?semnp) > (P ROOT ?pf) (NP SEM ?semnp) - Dién dich NP PP đối số động từ Nét đầu cho PP là: PFORM văn phạm 9.72] Hai phân tích trình bày sử dụng (2sempp ?v)))) > (VP VAR ?v SEM (lambda x1 (& (?semvp x!) ?semvp) (PP PRED + SEM ?sempp) (VP VAR ?v SEM (VP SEM on}] SEM (lambda x2 (?semv ?v x2 ?sempp))) > (v[_np_pp: ?semvp) (PP PRED-PFORM On SEM ?sempp) Nghĩa c.1 d6 couch la đối số (PRED-), nghĩa c.2 couch 1a bé ngi vi tri cho decides [VP SEM lambda x (DECIDES-ON1 el x) PP SEM PRED-PFORM| V SEM DECIDES-ON1 VAR el on [Decide Ï_ P.SEM ON-LOCI L- _| NPSEM _ couch a (.1) ] ] VP SEM lambda x (&(DECIDESI e1 x)(ON-LOC1 e1)) | VP SEM lambda y(DECIDESI el y) PP SEM lambda x (ON-LOCI x) Ỉ [ [ V SEM DECIDES1 VAR el P SEM ON-LOC1 /™ a ơn ` |Decide | NP SEM | couch (c.2) Hình 14 Hai phân tích cho VP « Tổng hợp ngữ nghĩa hợp thuộc tính Trên đây, dùng biểu lambda phép rút gọn lambda để điểu khiển việc diễn giải ngữ nghĩa Tuy nhiên, ln dùng biểu thức lambda thực diễn dịch ngữ nghĩa trực tiếp cách sử mà dụng giá trị thuộc tính biến Cụ thể là, thay đùng luật văn phạm 9.3 {2]: (S SEM (?semvp ?semnp)) >(NP SEM ?semnp)(VP SEM ?semvp) thi ta thém thuộc tính SUB7 luật lúc có dang: (S SEM (?semvp)) > (NP SEM ?semnp)(VP SUBJ ?semnp SEM 3semvp) SEM chủ ngữ trở thành phận thành phần VP thuộc tính SUBJ Tương tự luật văn phạm 9.3[2] trở thành: (VP VAR?% SUBI ?semsubj (V [_np]SEM ?semv)(NP SEM ?semnp) SEM(?sem 44 ?v ?semsubj ?semnp) -> Hình 26 trình bày cách sử dụng luật để xây dựng SEM cau Jill saw the dog S SEM ((PAST SEE)) si (NAME jl “Jill”)(THE dl (DOG! d1))) NP SEM (NAME jl “Jill”) | E SEM((PAST SEE]) sl (NAME jl “Jill”)(THE di (DOGi d1))) VAR si jl “Jill”) lve SUBJ(NAM [ NP SEM (THE d1 (DOG1 41) VAR d1_ | V SEM (PAST SEE1) VAR sl [ the saw | Hill Hình 15 | | dog Cây phân tích với thuộc tinh SUBJ với phân So sánh phân tích hình 15 sử dụng văn phạm hình 16 cách xử lý tích hình 12 sử dụng văn phạm hình 10 ta thấy có khác vào, VP SEM VP định dé đầy đủ với chủ ngữ thêm VP biểu thức lambda mà áp văn phạm hình 10 SEM dụng cho chủ ngữ Một lợi điểm phương pháp khơng cần có chế đặc biệt để xử rút gọn lambda lý việc diễn dịch ngữ nghĩa Đặc biệt không cần sử dụng phép vấn để quan Ngữ nghĩa tổng hợp nhờ việc hợp thuộc tính SUBJ Một _ sinh trọng khác là, văn phạm xác định hình thức diễn luận lý sang câu từ dạng luận lý nó, có nghĩa ngược từ dạng biểu ngơn ngữ tự nhiên (S SEM ?semvp) > (NP SEM (VP VAR ?semv) 3.(VP VAR 2?v SUBJ ?v SUBI ?semsubj)(VP SUBJ ?semsubj SEM ?semsubj SEM(?semv 2semsubj SEM(?semv ?semvp) ?v semsubj)) > (V{_none]SEM ?v semsubj)) 2semv) (NP SEM ?semnp) > (V[_np]SEM SEM ?semname) (NP VAR ?v SEM(NAME ?v ?semname)) —> (NAME 2sempro) (NP VAR ?v SEM(PRO ?v 2sempro)) > (PRO SEM SEM ?semart)(CNP SEM (NP VAR ?v SEM(?semart 2v Isemenp)) > (ART ?semenp) (CNP VAR ?v SEM (2semn)) > (N SEM ?semn) Hình l6 Văn phạm với thuộc tinh SUBJ 45 dùng kỹ Tuy nhiên tất biểu thức lambda đểu bị bỏ ta thuật hợp thuộc câu Sue and Sam lambda Nếu câu vào VP, sử dụng biến tính Để xử lý nhóm chủ ngữ liên kết lại saw Jack, nghĩa nhóm động từ phải biểu thức sử dụng kỹ thuật hợp thuộc tính chủ ngữ chèn SUBJ biến phải đơng với SEM Sue lời giải đáp lẫn Sam, điều cịn để mở phải nghiên cứu có 6.4 Tổng hợp câu từ dạng luận lý tích câu, đưa Trong phan trước sử dụng văn phạm để phân giải tốn dạng luận lý Ở phần xem xét để làm cách đưa đạng luận lý ngược, có nghĩa tổng hợp câu từ dạng luận lý nó, phải tất thành phần từ vựng với nghĩa thích hợp Tuy nhiên khơng khơng Để biết văn phạm ngược được, ví dụ văn phạm hình 10 sao, ta xét thí dụ sau: Hãy sinh câu từ dạng luận lý có SEM là: [(PAST SEE1)s1 (NAME jl “Jill”)(THE dl (DOG1 d1))) văn phạm gia tố Trong văn phạm hình 10, luật với ký tự mục tiêu S, để chỗ dạng có đối số, cịn SEM câu lại có đối số Vấn phép tốn ngược với luận lý sinh nhờ phép thu giảm lambda, mà với SEM lại có ba phép thu giảm phép trừu tượng hóa lambda Nhưng ứng phép trừu tượng lambda là: d1)))) (lambda c ((PAST SEE1)c (NAME jl “Jill”)(THE d1 (DOG (lambda a ((PAST SEE1)s1 a (THE dl (DOG1 dl)))) (lambda o ((PAST SEE1)s1 (NAME jl “Jill”)o)) 10 Vi sinh câu từ văn phạm hình giống Chúng ta nói việc phân tích tổng hợp q trình cú pháp Phân tích bắt đầu với Cả hai coi q trình xây dựng luận lý cân âm từ cố tìm mơ tả cho chúng, xác định dạng để mơ tả cho nó, từ xác định từ để thực Thí dụ: dùng văn phạm hình 16 để tổng hợp câu với SEM: j1 “IiIPXTHE d1 (DOGI đ1)))) (S SEM (ŒAST SEE1)s1(NAME thành phần sau: Thanh phan S viết lại theo luật 1, có danh sách (NP SEM ?semsubj) (VP SUBJ %semsubj SEM ((PAST (DOGI đ1)))) SEE1) s1 (NAME Thành phần NP không cho thông tỉn gi 46 jl “Sill”)(THE dl có luật phù hợp với cấu Thành phần VP đối chiếu với văn phạm buộc trúc SEM Kết biến sau bị ràng %semv < (PAST SEE1) wesl 2semsubj < (NAME jl “Jill”) 2semnp

Ngày đăng: 05/10/2023, 20:33

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan