1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ phát triển công cụ gióng hàng văn bản song ngữ

81 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 566 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN MINH HẢI PHÁT TRIỂN CÔNG CỤ GIÓNG HÀNG VĂN BẢN SONG NGỮ LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN MINH HẢI PHÁT TRIỂN CƠNG CỤ GIĨNG HÀNG VĂN BẢN SONG NGỮ Chuyên ngành: Cơ sở Toán cho Tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thị Minh Huyền Hà Nội – 2016 Lài cam ơn Trong trình thnc hi¾n lu¾n văn nhung năm HQ c vùa qua, em nh¾n đưoc sn chi bao hưóng dan t¾n tâm cna TS Nguyen Th% Minh Huyen Em xin gui tói lịi cam ơn chân thành sâu sac nhat Ngoài ra, em xin gui lịi cam ơn tói thay giáo, giáo, cán b®, nhân viên Khoa Tốn - Cơ - Tin HQc, khoa Tốn - Cơ - Tin trưịng Đai HQc, HQ c trưòng Đai Khoa HQ c em nhung năm giang đưòng đai HQ c tn nhiên, Đai HQ c Quoc gia Hà N®i quoc gia Tula t¾n tình day giúp đõ HQ c cao HQ c Nhân d%p này, em xin gui lịi cam ơn tói gia đình, ban bè đ®ng viên, khuyen khích tao đieu ki¾n cho em q trình HQ c t¾p q trình thnc hi¾n lu¾n văn Do han che ve kien thúc, kinh nghi¾m, thịi gian tìm hieu thnc hi¾n nên lu¾n văn chac chan cịn nhieu thieu sót Em rat mong se nh¾n đưoc nhieu ý kien đóng góp cna thay, ban đe em có đưoc nhìn sâu sac ve van đe Hà N®i, tháng 12 năm 2016 HQc viên Nguyen Minh Hai Mnc lnc Lài cam ơn Me ĐAU 1 CÁC CÁCH TIEP C¾N GIĨNG HÀNG 1.1 Kien thúc chuan b% 1.2 Boi canh 1.3 Các hưóng tiep c¾n gióng hàng hi¾n .9 1.3.1 Phương pháp gióng hàng dna vào chieu dài câu 1.3.2 Phương pháp gióng hàng dna vào điem tương đong 16 1.3.3 Phương pháp gióng hàng dna vào tù vnng 19 1.3.4 Ket hop phương pháp 26 1.4 M®t so cơng cu gióng hàng .29 1.4.1 NATools 30 1.4.2 GIZA++ 30 1.4.3 hunalign 30 1.4.4 Per-Fide 30 1.4.5 cwb-align 31 1.4.6 WinAlign 31 GIÓNG HÀNG VĂN BAN SONG NGU ANH - VIfiT 33 2.1 Đ¾c điem tieng Anh tieng Vi¾t 33 2.2 Các nghiên cúu công cu ve gióng hàng văn ban song ngu múc câu tieng Vi¾t 36 2.3 Công cu XAlign 40 2.3.1 Thuắt toỏn quy hoach đng 41 2.3.2 Cau trúc chương trình 42 2.3.3 Tien xu lý du li¾u 43 2.3.4 Các cai tien ve thu¾t tốn tham so cơng cu viXAlign .43 2.3.5 M®t so hưóng cai tien cơng cu tien hành .46 2.4 Thu th¾p du li¾u .47 2.5 Ket qua 48 2.6 Úng dung 50 2.6.1 Su dung kho ngu li¾u song ngu huan luy¾n h¾ thong d%ch máy Moses50 KET LU¾N 53 TÀI LIfiU THAM KHAO 55 Danh sách bang 1.1 Thong kê so lưong gióng hàng moi loai 1.2 Ví du ve gióng hàng 1.3 Các loai gói câu 11 1.4 Ưóc lưong tham so 12 1.5 Thong kê so lưong gióng hàng moi loai 14 1.6 Ket qua chay thu¾t tốn Gale-Church 15 1.7 Ket qua chay chương trình khác cna Simard Plamondon 19 1.8 đ chớnh xỏc cna so cắp giúng hng theo so bưóc l¾p khác cna thu¾t tốn Kay 23 2.1 Bang ti l¾ câu chúa điem tương đong đơn gian 36 2.2 Chi tiet ve kho ngu li¾u EVB .37 2.3 Ket qua thu nghi¾m trờn bđ du liắu cna thuắt toỏn Nguyen Quang Huy 40 2.4 Ti l¾ gióng hàng giá tr% phat 45 2.5 Ket qua chay công cu XAlign trưóc sau cai tien .49 2.6 Ti l¾ xác tùng loai gióng hàng 49 2.7 Điem Bleu cna h¾ thong 52 Danh sách hình ve 1.1 Mơ hình Markov sinh gói câu .11 1.2 Cơ che cna Jacal 17 1.3 Thu¾t tốn Kay 20 1.4 Khoi tao bang AST 21 1.5 C¾p nh¾t bang AST 22 2.1 Bieu o đ di cõu tieng Viắt 34 2.2 Bieu đo đ® dài câu tieng Anh 35 2.3 Bieu đo đ® dài c¾p gióng hàng 35 2.4 Thu¾t tốn EVS 37 Me ĐAU Xu lý ngơn ngu tn nhiên (XLNNTN) m®t lĩnh vnc phát trien manh me Theo tő chúc MarketsAndMarkets tőng giá tr% cna th% trưịng XLNNTN tồn the giói se tăng tù 7,63 ti la vào năm 2016 đen 16,07 ty đô-la vào năm 20211 Các lĩnh vnc nho XLNNTN het súc đa dang Trong đó, d%ch máy lĩnh vnc xuat hi¾n đau tiên m®t nhung lĩnh vnc khó nhat cna XLNNTN e xõy dnng oc mđt hắ thong d%ch mỏy tot can cú mđt kho du liắu song ngu lón Sau thu th¾p đưoc kho ngu li¾u ay, can phai tien hành gióng hàng Gióng hàng có ngha l tng ỳng mđt khoi ban vúi ban d%ch cna o ngơn ngu khác Khoi văn ban có nhieu múc múc văn ban, múc đoan văn, múc câu, múc cum tù, múc tù Trong gióng hàng múc câu đóng vai trị rat quan TRQNG Nhung thu¾t tốn h¾ thong gióng hàng múc câu đau tiên địi vào nhung năm cuoi th¾p ky 1980 đau 1990 ban đau dành cho c¾p ngôn ngu châu Âu tieng Anh, tieng Pháp, tieng Đúc mo r®ng dan cho nhieu ngơn ngu khác tieng Trung Quoc, tieng Nh¾t Ban, tieng Hàn Các cơng trình rat đa dang ve cách tiep c¾n chat lưong ngày tot Đoi vói tieng Vi¾t, nghiên cúu lĩnh vnc d%ch máy nói chung gióng hàng nói riêng cịn cha oc thu nghiắm trờn nhieu bđ du liắu khỏc vói kích thưóc đn lón Đ¾c điem cna tieng Vi¾t rat khác vói ngơn ngu châu Âu, nhieu thu¾t tốn làm vi¾c tot c¾p ngôn ngu châu Âu cho ket qua c¾p ngơn ngu có tieng Vi¾t Ngồi kho ngu li¾u song ngu có tieng Vi¾t cịn nho 1Tham processing market khao by type báo cáo & "Natural language technologies" trang web: http://www.marketsandmarkets.com/Market-Reports/natural-language-processing-nlp825.html?gclid=CMbTxdGo0s8CFUYIvAodRgAEhg bé han che ca ve súc ngưòi súc cna Boi the, nghiên cúu gióng hàng đoi vói tieng Vi¾t cịn nhieu van đe phai giai quyet Đó lý tác gia cHQN đe tài "Phát trien cơng cu gióng hàng văn ban song ngu" Trong so ngôn ngu the giói, tieng Anh ngơn ngu đưoc su dung phő bien nhat, ngơn ngu lĩnh vnc ngoai giao, kinh te, văn hóa, Chính the đe tài t¾p trung vào song ngu Anh - Viắt Muc tiờu cna luắn gom cú: ã Khao sát hưóng nghiên cúu cơng trình san có ve gióng hàng văn ban song ngu múc cõu trờn the giúi v Viắt Nam ã Xõy dnng mđt kho ngu liắu song ngu Anh - Viắt giúng hàng múc câu • Cai tien cơng cu gióng hàng văn ban song ngu Anh - Vi¾t XAlign cai thi¾n đ chớnh xỏc v đ phn ã Phõn tớch cỏc ket qua đat đưoc đe hưóng mói nham nâng cao ket qua mo r®ng cho c¾p ngơn ngu khác Cau trúc cna lu¾n văn gom cú phan chớnh: ã Mo au: Giúi thiắu đe tài, lý lna cHQN, muc tiêu cau trỳc luắn ã Chng 1: Túm tat l%ch su nhu cau ve gióng hàng văn ban song ngu múc câu; so lý thuyet; khao sát chi tiet m®t so cơng trình nghiên cúu cơng cu ve gióng hàng văn ban song ngu múc câu • Chương 2: Khao sát cơng trình ve gióng hàng văn ban song ngu múc câu cho c¾p ngơn ngu có tieng Vi¾t; Phân tích phương pháp, thu¾t tốn, cau trúc công cu XAlign; báo cáo cai tien cna tác gia c®ng sn cơng cu ket qua at oc ã Ket luắn: Tng ket lai nđi dung trình bày lu¾n văn, ket qua đat đưoc hưóng nghiên cúu phát trien sap tói Chương CÁC CÁCH TIEP C¾N GIĨNG HÀNG Trong chương này, luắn a mđt so kien thỳc chuan b%; boi canh sn can thiet cna gióng hàng văn ban song ngu mỳc cõu; mđt so húng tiep cắn; tiờu chuan ỏnh giỏ đ hiắu qua cna mđt hắ thong khao sát m®t so cơng cu gióng hàng văn ban song ngu múc câu 1.1 Kien thÉc chuan b% Văn ban song ngu (parallel corpus) văn ban v mđt hoắc nhieu hn ban d%ch hoắc cna nú o ngôn ngu khác Văn ban song ngu ton tai rat nhieu Đien hình sách Kinh Thánh đưoc d%ch nhieu thú tieng; văn ban cna Liên Hop Quoc von đưoc viet bang nhieu thú tieng; viet song ngu trang web Trong lu¾n văn, chi xét văn ban m®t ban d%ch cna nó, khơng quan tâm đen văn ban goc văn ban ban d%ch lai Neu khơng có thích thêm, nói đen văn ban song ngu, hieu văn ban ban d%ch cna Gióng hàng văn ban song ngu (parallel corpus alignment) l tng ỳng mđt khoi văn ban o m®t ngơn ngu vói ban d%ch cna o m®t ngơn ngu khác Tùy theo pham vi cna khoi văn ban ta có múc gióng hàng khác Múc r®ng nhat gióng hàng văn ban câu cna m®t ngơn ngu tro lên chi chiem m®t lưong rat khoang 0,28 % Do đó, tác gia v ong nghiắp mo rđng en cỏc 1:3, 3:1, 2:3, 3:2 3:3 Như v¾y cơng thúc truy hoi cna ma tr¾n chi phí se đưoc viet lai là: D(i, j − 1) + d(0, 0, 0; tj , 0, 0) + penalty01 D(i − 1, j) + d(si, 0, 0; 0, 0, 0) + penalty10 D(i − 1, j − 1) + d(si, 0, 0; t j, 0, 0) D(i − 1, j − 2) + d(si, 0, 0; tj, tj−1, 0) + penalty12 D(i, j) = min D(iD(i − 2, ++d(s , 0; 0), 0) ++ i, s  − j2,−j 1) − 2) d(s si−1 , 0;tj,tj0, , tj−1 i ,i−1 penalty21 penalty22 D(i − 1, j − 3) + d(si, 0, 0; tj, tj−1,   (2.3.1) tj−2) + penalty13 D(i − 3, j − 1) + d(si, si−1, si−2; tj, 0, 0) + penalty31 D(i − 2, j − 3) + d(si, si−1, 0; tj, tj−1, tj−2) + penalty23 D(i − 3, j − 2) + d(s , s , s ; t , t , 0) + penalty i i−2 i−2 j j−1 32   D(i − 3, j − 3) + d(si , si−1 , si−2 ; tj , tj−1 , tj−2 ) + penalty33 Cai tien thú hai đieu chinh giá tr% penalty đoi vói tùng loai gióng hàng Dna vào kho ngu li¾u Anh - Vi¾t gom 5027 câu tieng Anh 4843 câu tieng Vi¾t gióng hàng xác thn cơng đe tính xác suat tùng loai gióng hàng câu so vói hàng 1:1, tù đieu chinh lai giá tr% Penalty cho phù hop Loai gióng hàng 1:1 đưoc cHQN làm moc đe so sánh gióng hàng loai chiem gan 90% văn ban Do penalty11 = 0, tham so loai gióng hàng khác đưoc tính theo cơng thúc: P (match(i : j)) 177, đó, ≤ i, j ≤ 3, P (match(i : j)) xác suat gióng hàng i : j kho ngu li¾u song ngu Giá tr% 177 đưoc xác đ%nh bang cách thu nhieu giá tr% khác giá tr% cho ket qua gióng hàng tot nhat Bang tham so penaltyij cho bang 2.3.4 Loai gióng hàng i : j xay có giá tr% penaltyij lón Loai gióng hàng Ti l¾ Tham so Giá tr% 1:0 0,0021 penalty10 482 0:1 0,0058 penalty01 547 1:1 0,8908 _ _ 2:1 0,0536 penalty21 200 1:2 0,0298 penalty12 -177 2:2 0,0024 penalty22 44 3:1 0,0086 penalty31 426 1:3 0,0030 penalty13 -265 3:2 0,0011 penalty32 657 2:3 0,0018 penalty23 795 3:3 0,0002 penalty33 4691 tù tro lên 0,0028 _ _ Bang 2.4: Ti l¾ gióng hàng giá tr% phat 2.3.5 M®t so hưáng cai tien cơng cn tien hành SE dnng điem tương đong đe cai tien Thong kê ti l¾ điem tương đong câu tieng Anh tieng Vi¾t ta thay so câu có chúa điem tương đong dang đơn gian khoang 10% Do ú tỏc gia e ngh% mđt húng cai tien thuắt tốn dna thơng tin ve điem tương đong Cu the neu c¾p gióng hàng có chúa điem tương đong, ta se cđng vo hm chi phớ ma trắn mđt giá tr% âm wc Chang han, hàm chi phí cho gióng hàng 1:2 cơng thúc 2.3.1 se là: D(i − 1, j − 2) + d(si, tj; 0, tj−1; 0, 0) + penalty12, khơng có điem tương  D(i, j) = đong  − 1, j − 2) + d(si, tj; 0, tj−1; 0, 0) + penalty12 + wc, có điem tương đong D(i  (2.3.2) áp dung tương tn cho loai gióng hàng khác SE dnng thu¾t tốn Maximum Entropy M®t hưóng cai tien nua cho cơng cu phát hi¾n c¾p gióng hàng 1:1 vói xác suat cao nham làm điem neo phân chia văn ban thành đoan su dung ket hop thu®c tính dna thơng tin tù vnng Xét văn ban S T có n m câu, vói moi câu si văn ban S, ta xác đ%nh √ √ √ 2α n câu tj xung quanh v% trí n (nghĩa i×m − α n ≤ j ≤ i×m + α n) tao thành i×m n n c¾p úng viên (si, tj) Vói moi c¾p (si, tj), ta tính hàm tiên nghi¾m p(1|(si, tj) theo phng phỏp Maximum Entropy vúi cỏc thuđc tớnh l: ã Ti lắ đ di cõu ã Ti lắ v% trớ câu văn ban so vói đưịng chéo • So c¾p tù d%ch cna theo tù đien song ngu ã So long cắp iem tng ong Tùy bien tham so tùy theo chu đe văn ban Qua tìm hieu các ket qua gióng hàng văn ban khác nhau, tác gia nh¾n thay đoi vói tham so trung bình đ® dài câu, ti l¾ gióng hàng loai 1:1, 1:0, 0:1, 2:2 thay đői tùy theo chn đe Do m®t hưóng tiep c¾n đe cai tien cơng cu viXAlign xây dnng b® tham so khác tùy theo chn đe văn ban đưa vào Nhung vi¾c can làm cho húng tiep cắn ny l: ã Xõy dnng cỏc kho ngu li¾u song ngu Anh - Vi¾t gióng hàng múc câu tùy theo chn đe • Tien hành thong kê tham so ti l¾ gióng hàng kho ngu liắu ny ã Ci phỏt hiắn chn đe văn ban cho viXAlign tùy theo chn đe se áp dung riêng b® tham so cho chn đe Trên m®t so hưóng cai tien công cu mà tác gia đe xuat tien hành Do thịi gian khơng cho phép nên ket qua chưa thu đưoc khơng trình bày lu¾n văn 2.4 Thu th¾p dE li¾u Các tham so chương trình đưoc huan luy¾n tù kho ngu li¾u, ú mđt kho ngu liắu lún v phong phỳ rat can thiet Vi¾c thu th¾p thêm du li¾u m®t phan cna cai tien cơng cu Tác gia đong nghi¾p tien hành thu th¾p thêm du li¾u song ngu Anh Vi¾t lĩnh vnc du l%ch Hi¾n nay, lưong khách du l%ch nưóc ngồi đen du l%ch tai Vi¾t Nam lón, theo thong kê cna Tőng cuc Du l%ch Vi¾t Nam, tháng đau năm 2016, lưong khách quoc te đen Vi¾t Nam 7.265.380 lưot khách Nhu cau tra cúu thông tin du l%ch hau het bang tieng Anh Đó lý chn đe du l%ch đưoc cHQN Du li¾u ket hop vói kho ngu li¾u có song ngu cuon "Hồng tu bé", "Lưoc su thịi gian" "Kinh Thánh" đe huan luy¾n du li¾u Các du li¾u du l%ch đưoc thu th¾p chn yeu thn cơng tù nguon sau: ã Ti liắu giay: s tay du l%ch o đ%a danh, sách lu¾t du l%ch, tap chí du l %ch, tò rơi, tò gap quang cáo du l%ch, ső tay hưóng dan su dung khách san, sách day hđi thoai tieng Anh vúi du khỏch ã Cỏc ban song ngu giói thi¾u ve di tích đưoc ghi bia, bang giói thi¾u o di tích, %a iem du l%ch ã Cỏc du liắu: bao gom nguon o muc Tài li¾u giay o dang t¾p tin văn ban; phan có có thêm văn ban ho sơ đe ngh% công nh¾n di san văn hóa cna Vi¾t Nam, văn ban hop tác du l%ch vói quoc gia • Mđt so trang web song ngu giúi thiắu ve du l%ch Vi¾t Nam Các du li¾u sau thu th¾p se đưoc tinh chinh đe thành t¾p văn ban thuan Ví du, sách se trai qua q trình scan cho anh roi đưoc m®t chương trình trích rút văn ban tù Sau văn ban se đưoc chinh sua lai thn cơng cho xác Đe tao du li¾u huan luy¾n, chúng tơi tien hành gióng hàng đoan văn ban Loai bo tat ca nhung đoan gióng hàng kieu xóa 1:0 chèn 0:1 Du li¾u sau đưoc gióng hàng múc câu boi cơng cu viXAlign roi ket qua đưoc hi¾u chinh lai thn cơng Hi¾n tai, chúng tơi tao kho ngu li¾u song ngu du l%ch gom 5027 câu tieng Anh 4843 câu tieng Vi¾t 2.5 Ket qua Cơng cu gióng hàng viXAlign sau cai tien lan đau tiên đưoc chay thu ngu li¾u song ngu tác pham "Hồng tu bé" có chúa 1663 câu tieng Vi¾t 1660 câu tieng Anh kho ngu li¾u du l%ch song ngu Vi¾t - Anh, thu đưoc ket qua bang 2.5 (ket qua so sánh vói cơng cu chưa cai tien) Ket qua gióng hàng cho tùng loai gióng hàng đưoc li¾t kê bang 2.6 Thong kê tùng loai gióng hàng, thu¾t tốn cho ket qua tot vói gióng hàng 1:1, v¾y gióng hàng 1:0 hay 0:1 hay 2:2 cho ket qua bang Đieu có the hàm phat cHQN cho loai gióng hàng 1:0, 0;1 hay 2:2 chưa tot can nghiên cúu đ® xác đ® phn đ® đo F1 kho ngu li¾u trưóc 0,8142 0,7621 0,7873 Hồng tu bé sau 0,8915 0,8818 0,8866 Hồng tu bé trưóc 0,7417 0,8082 0,7735 Du li¾u du l %ch sau 0,9255 0,9271 0,9263 Du li¾u du l %ch Bang 2.5: Ket qua chay công cu XAlign trưóc sau cai tien Loai Ti l¾ xác 1:0 0:1 1:1 0,9588 1:2 0,8561 2:1 0,7840 2:2 1:3 0,2857 3:1 0,575 2:3 3:2 3:3 tù tro lên Bang 2.6: Ti l¾ xác tùng loai gióng hàng cai thi¾n thêm Tőng ket lai, viXAlign cai thi¾n ket qua trung bình tù 7-10% ca ve đ® xác, đ® phn đ® đo F1 so vói XAlign 2.6 Úng dnng 2.6.1 SE dnng kho ngE li¾u song ngE huan luy¾n h¾ thong d%ch máy Moses D%ch tn đ®ng cịn GQI d%ch máy (Machine translation)1 m®t hắ thong tn đng d%ch ban o mđt ngôn ngu tn nhiên (nguon) thành ban d%ch tương đương m®t ngơn ngu tn nhiên khác (đích) Các hưóng tiep c¾n d%ch máy đa dang, bao gom có: dna lu¾t, d%ch máy thong kê, hưóng lai hai phương pháp lu¾t d%ch máy thong kê, su dung HQ c máy sâu (deep learning) Trong phương pháp trên, phương pháp d%ch máy thong kê đòi lâu Warren Weaver giói thi¾u năm 1949, phát trien manh tù cuoi nhung năm 1980 cho đen van to l mđt cụng cu hiắu qua lĩnh vnc d%ch máy đưoc su dung r®ng rãi nhat tiep tuc đưoc nhieu nhà nghiên cúu quan tâm Ý tưong cna d%ch máy thong kê su dung xác suat p(e|f ) đe chuoi e ngơn ngu đích ban d%ch cna chuoi f ngụn ngu nguon Moses2 l mđt hắ thong d%ch máy thong kê đòi vào năm 2005 đưoc chia se mien phí Du li¾u huan luy¾n Moses ngu li¾u song ngu gióng hàng o múc câu vói so lưong lón ca ngu li¾u đơn ngu lón (đe h¾ thong HQ c hình thúc cna ngơn ngu đau ra) e pha huan luy¾n, Moses trích rút tù c¾p câu gióng hàng tù cum tù đe xác đ%nh c¾p tù cum tù tương úng e pha d%ch, Moses se ghép chuoi cum tù tương úng vói ban goc Đau đưoc chinh sua nhị vào vi¾c HQ c nguon du li¾u đơn ngu cna ngơn ngu đích Đieu mau chot cho tính hi¾u qua cna Moses nói riêng h¾ thong d%ch máy thong kê nói chung du li¾u huan luy¾n phai tot, rat nhieu đa dang Chính the cơng cu viXAlign đưoc dùng đe tao kho ngu li¾u song ngu Anh - Vi¾t gióng hàng múc câu đe huan luy¾n Moses d%ch tù tieng Anh sang tieng Vi¾t Tham khao tù nguon Wikipedia: https://en.wikipedia.org/wiki/Machine_translation Tham khao tù trang web cna Moses: http://www.statmt.org/moses/?n=Moses.Overview Đe đánh giá chat lưong ban d%ch máy, ta dùng điem Bleu Papineni đe xuat vào năm 2001 [13] Bleu đánh giá chat lưong ban d%ch máy dna vi¾c so sánh ban d %ch máy vói mđt cỏc ban d%ch chuan chuyờn gia d%ch Ban d%ch máy sát vói ban d%ch chuan đưoc đánh giá cao Điem tương đong giua moi đoan văn ban d%ch máy (thưịng o múc câu) vói t¾p đoan ban d%ch chuan tương úng đưoc tính dna so tù mà đoan chung sau lay giá tr% trung bình điem Van đe ve múc đ® de hieu xác ve ngu pháp không đưoc xem xét Cu the điem Bleu đưoc tính theo cơng thúc sau: Bleu = BP × eΣN n=1 wn log(pn) Trong đó: • pn so n-gram cna ban d%ch máy mà xuat hi¾n t¾p ban d%ch tham chieu chia cho tőng n-gram cna ban d%ch máy ΣN • wn TRQNG so dương (có tőng n= wn = 1) • BP TRQNG so phat ngan đe phát ban d%ch ngan so vói ban goc, phat ngan đưoc tính tốn tồn bđ kho ngu liắu v oc lna cHQN nh l hàm so mũ giam o r/c vói c đ® dài cna ban d%ch úng viên r đ® dài cna ban d %ch tham chieu: BP =   1 neu c > r  c e1 neu c ≤ r r − Điem Bleu xác đ%nh đưoc nam khoang tù đen 100, gan vói 100 ban d%ch máy đưoc đánh giá có chat lưong Chúng tơi su dung 5000 c¾p câu song ngu du l%ch Vi¾t-Anh mà chúng tơi thu th¾p đưoc đe làm ngu li¾u huan luy¾n H¾ thong d%ch máy Vi¾t–Anh Moses Cách tien hành thnc nghi¾m sau: Chia 5000 c¾p câu song ngu du l%ch Vi¾t-Anh thành phan, cú lan lưot giu lai phan (1000 c¾p câu) đe làm du li¾u kiem tra cịn phan cịn lai (4000 c¾p câu) huan luy¾n H¾ thong d%ch máy Ta thu đưoc H¾ thong d%ch máy khác đưoc đánh so 2, 3, 4, 5, H¾ thong Bleu H¾ thong Bleu (+) 1,05 4,16 3,11 3,70 10,23 6,53 5,06 12,88 7,82 3,12 4,40 2,83 14,29 11,46 1,28 Bang 2.7: Điem Bleu cna h¾ thong Huan luy¾n H¾ thong d%ch máy bang Kho ngu li¾u 58020 c¾p câu song ngu Vi¾tAnh, vói câu song ngu thu®c nhieu lĩnh vnc khác đe làm du li¾u huan luy¾n h¾ thong d%ch máy Chúng tơi su dung c¾p H¾ thong d%ch máy Vi¾t – Anh (1, 2), (1,3), (1,4), (1,5), (1,6) đe d%ch lan lưot 1000 câu tieng Vi¾t mà chúng tơi lan lưot đe lai lan chia kho ngu li¾u song ngu du l%ch Vi¾t - Anh Sau dùng cơng cu tính điem Bleu cna Moses đe tính điem cho tùng h¾ d%ch so sánh ket qua tính đưoc Ket qua cho thay ca h¾ thong 2, 3, 4, 5, đeu cai thi¾n điem so vói h¾ thong bang 2.7 Ket qua trung bình cai thi¾n đưoc 6,04 điem Bleu Ket qua ve điem Bleu huan luy¾n kho ngu li¾u song ngu lĩnh vnc hep du l%ch cho thay neu h¾ thong d%ch máy thong kê biet cách nh¾n biet văn ban can d%ch thu®c lĩnh vnc su dung riêng tham so cho lĩnh vnc ay se cai thi¾n chat lưong d%ch nhieu Van đe lai can xây dnng kho ngu li¾u song ngu Anh - Vi¾t gióng hàng múc câu chun bi¾t cho tùng lĩnh vnc Và tác gia tích cnc xây dnng nhung kho ngu li¾u này, cơng cu gióng hàng viXAlign đóng vai trị rat lón KET LU¾N Lu¾n văn giói thi¾u tốn gióng hàng văn ban song ngu múc câu, lưoc su giai quyet toán nghiên cúu the giói ve gióng hàng văn ban song ngu múc câu như: dna đ® dài câu, điem tương đong, thông tin tù vnng ket hop Mđt so cụng cu v kho ngu liắu song ngu női b¾t dành cho c¾p ngơn ngu đưoc trình bày lu¾n văn Đoi vói tieng Vi¾t, lu¾n văn phân tích đ¾c điem anh hưong đen gióng hàng múc câu cna tieng Vi¾t, đ¾c bi¾t moi tương quan vói tieng Anh, cơng trình mói ve tốn gióng hàng văn ban song ngu Anh - Viắt mỳc cõu v mđt so kho ngu li¾u song ngu Anh - Vi¾t có Các đóng góp cna tác gia đưoc trình bày phan cai tien cơng cu viXAlign nâng cao đ® xác đ® phn cna cơng cu viXAlign thêm 6-10% thu th¾p du li¾u song ngu Anh - Vi¾t lĩnh vnc du l%ch đưoc 5027 câu tieng Anh 4843 cõu tieng Viắt Mđt so ỳng dung nh su dung kho ngu li¾u song ngu thu th¾p đưoc đe huan luy¾n h¾ d%ch máy Moses giúp nâng cao điem Bleu đưoc trình bày Các hưóng nghiên cúu mói đe cai thi¾n ket qua gióng hàng múc câu hi¾n tai cho văn ban song ngu có tieng Viắt: ã p dung iem tng ong e tng đ xác tính őn đ%nh cna thu¾t tốn gióng hàng đ¾c bi¾t đoi vói nhung văn ban khơng phân đoan • Áp dung thơng tin tù vnng khác nhãn tù loai, cum tù vào gióng hàng văn ban múc câu • Xây dnng tù đien song ngu xác suat đe áp dung thu¾t tốn gióng hàng dna vo thụng tin tự vnng ã Tiep tuc hon thiắn kho ngu li¾u du l%ch song ngu Anh - Vi¾t • Khao sát tham so gióng hàng vói thu¾t toán dna chieu dài câu chn đe văn ban khác như: văn HQc, du l%ch, khoa HQc, tin túc, kinh te Ve m¾t úng dung, đe úng gúp thờm cụng cu v du liắu cho cđng đong xu lý ngơn ngu tieng Vi¾t, tác gia thnc hiắn cỏc cụng viắc sau: ã Chia se mó nguon cơng cu viXAlign • Xây dnng úng dung web gióng hàng văn ban múc câu cho song ngu có tieng Vi¾t sinh tù đien song ngu xác suat • Xây dnng cơng cu thu th¾p du li¾u song ngu ú cú tieng Viắt tự web ã Tiep tuc thu th¾p du li¾u song ngu lĩnh vnc du l%ch lĩnh vnc khác Nhung nghiên cúu đóng góp cna lu¾n văn cho tốn gióng hàng văn ban song ngu tieng Vi¾t bưóc mo đau cho nghiên cúu tốn d%ch máy tn đ®ng cho tieng Viắt õy l mđt bi toỏn khú ũi hoi nghiên cúu lâu dài Cơng cu gióng hàng văn ban song ngu múc câu tiep theo công cu gióng hàng văn ban song ngu múc tù vói vi¾c thu th¾p kho ngu li¾u song ngu tù đien song ngu se đau vào hi¾u qua cho cỏc hắ thong d%ch mỏy tn đng Ti li¾u tham khao Tieng Anh [1] Brown, Peter F and Lai, Jennifer C and Mercer, Robert L Aligning sentences in parallel corpora Proceedings of the 29th annual meeting on Association for Computational Linguistics, 169–176, 1991 [2] Brown, Peter F and Desouza, Peter V and Mercer, Robert L and Pietra, Vincent J Della and Lai, Jenifer C Class-based n-gram models of natural language Computational linguistics, vol 18, 4, 467–479, 1992 [3] Stanley F Chen Aligning sentences in bilingual corpora using lexical information Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics (ACL), 1993 [4] Dinh Dien and Hoang Kiem Building an annotated English-Vietnamese parallel corpus for training vietnamese-related NLPs 2002 [5] William A Gale and Kenneth W Church A program for aligning sentences in bilingual corpora Computational Linguistics, 19:75–102, 1993 [6] Hai-Long Trieu, Phuong-Thai Nguyen and Le-Minh Nguyen A new feature to improve Moore’s sentence alignment method VNU Journal of Science: Comp Science & Com Eng Vol 31 No 32-44, 2015 [7] Nguyen T.M.H and Rossignol M A language-independent method for the alignment of parallel corpora 2004 [8] Martin Kay Text-translation alignment ACH/ALLC ’91: "Making Connections" Confer- ence Handbook, Tempe, Arizona, March 1991 [9] Kutuzov A.B Increasing sentence alignment quality in parallel English - Russian corpus through the use of part-of-speech tagging, 2013 [10] Moore, Robert C Fast and Accurate Sentence Alignment of Bilingual Corpora Proceedings of the annual meetings of the Association for Machine Translation in the Americas, 2002 [11] corpora alignment, André Santos A survey on parallel MI-Star, 2011 [12] Simard M and Plamondon P Bilingual sentence alignment: balancing robustness and accuracy Machine Translation 13, 1, 59-80, 1998 [13]K Papipeni, S Roukos, T Ward, and W Zhu Bleu: a method for automatic evaluation of machine translation Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia pp 311-318, 2002 [14] Yong Xu, Aurelien Max, Francois Yvon Sentence alignment for literary texts: the state-ofthe-art and beyond LiLT volume 12, 6, October 2015 Tieng Vi¼t [15] Nguyen Quang Huy, Nguyen Văn Vĩnh, Pham Nghĩa Luân, Nguyen Quỳnh Anh Nghiên cúu phương pháp dóng hàng câu cho c¾p ngơn ngu Anh - Vi¾t H®i thao quoc gia lan thú XVII, 2014 ... HỌC KHOA HỌC TỰ NHIÊN NGUYỄN MINH HẢI PHÁT TRIỂN CÔNG CỤ GIÓNG HÀNG VĂN BẢN SONG NGỮ Chuyên ngành: Cơ sở Toán cho Tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS... ban, gióng hàng múc văn ban xác đ%nh văn ban ban d%ch cna văn ban e múc thap gióng hàng o múc chương (neu văn ban chia làm nhieu chương) nghĩa gióng hàng chương vói chương; roi đen gióng hàng. .. D GQI t¾p c¾p gióng hàng Ctotal Xét gióng hàng A D GQI TA (D) t¾p c¾p gióng hàng A phát hi¾n, CA(D) t¾p c¾p gióng hàng xác so đó, nghĩa CA(D) = TTA(D) Ctotal Đ® xác cna gióng hàng A D đưoc đ%nh

Ngày đăng: 24/12/2021, 21:36

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w