trình bày lý do chọn đề tài dịch tự động anh - việt dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ
Trang 1Qua ten gQi cila d~ ad 1a "D~cht1!dQng Anh - Vi~t d\1'a tren vi~c hQc 1u~t chuy~n d6i tu ngfi' li~u song ngfi"', chung toi se 1ffn 11.1'<;It giai thich 19 do chQn d~
ad, ml;lc dich nghien Gun, doi tu'<;Ingnghien Gun, ph<;lm vi nghien CUll,9 nghla
khoa hQcva 9nghla th\1'Cti~n cila d~ tai nay Nhung tru'oc bet, chung toi xin giai
thich so 1u<;lCcac thu~t ngu trong ten gQi cila d~ tai: thu~t ngu "ngfi' li~u" dU<;lc t<;lmd~ch tu thu~t ngfi'tieng Anh "corpus", c6 nghla 1a "kho du li~u, kho su'Ut~p
tai li~u, " (theo Tu di~n Anh-Vi~t, ~H Ngo<;lingu, NXBGD-2000 trang 368)
Can ngu 1i~u "song ngu" (d~ch tu tieng Anh 1a: bilingual corpus hay parallel text hay bitext) 1a ngu li~u t6n t<;lidyoi hai ngon ngu va chung 13.ban d~chcila nhau.
1.1 LY DO CHON IrE TAl
Chung toi chQnd~ t~ti "djch t~(aQng Anh- Vift " VInhung 1)' do sail:
1 Trang boi canh to~m du boa va bung n6 thong tin nhu hi~n nay, nhu du n~m b~t nhanh cac tri thuG v~ khoa hQc - Gong ngh~ cila nudc ngoai ma chil yell du'<;Icviet b~ng tieng Anh ngay cang IOn (hon 80% [106]) Vi~c
d~ch thil Gong b~ng ngu'ai doi hoi thai gian va Gong suc rat lOn, d~c bi~t 13.
nhung tri thuG chuyen nganh doi hoi ngu'ai dich phai c6 chuyen man trong lInh v\1'cma minh dang d~ch Chinh VI v~y, nhu du t\1'dQng boa Gong taG dich thu~t Anh-Vi~t ngay trd Den thiet th\1'c
2 Tuy hi~n nay, chat 1u<;lngd~ch cila may khong th~ b~ng nguai du<;lC,nhu'ng dich may c6 mQt s6 u'u di~m nhu: may tinh c6 th~ d~ch nhanh gap hang tram 1ffn con ngltai, dich thong bier m~t moi, ban d~ch khong b~ phl;l thuQc vao quail di~m cila nguai d~ch Moi truong cila van ban d~ch trang d~ch may
Trang 2la van ban di~n 1:11,vi v~y ta khong phai ma't thai gian in ban g6c ra/go ban dich vila; co th~ dich cac tai li~u m~t ma khang S9 bi IOd thong tin
3 Trong lInh vvc Khoa hQc-Ky thn~t (KHKT), tie'ng Anh hi~n nay dU9Cxem
la thu tie'ng qu6c te' (nha't la trong thai d~i Internet ngay nay) - thu tie'ng ph6 bie'n nha't, duge nghien CUllky luong va da duge hinh thUGboa d~y du nha't Chinh vi v~y ma tuy~t d~i da s6 cae eong trlnh nghien CUllv~ dich may d€u xua't phat tITtie'ng Anh: la'y tie'ng Anh lam g6c va nghien cuu
chuy~n ngu vai thu tie'ngeua nuae mlnh (nhu: Nga,Anh - Phap, Anh-Nh~t, Anh-Hoa )vai vi~e nghien CUlldich xuoi tru'acr6i dieh ngu9c sail
Tren tinh th~n do, chung toi da chQn tie'ng "Anhla ngan ngu ngu6n (source language) d~ nghien CUllchuy~n ngu tvdQng sang ngan ngu dich (target language) la tie'ng Vi~t yai cach chQn nhu v~y, chung tai se ke'thlia dU9C ra't nhi€u tITcac ma hinh va ngu li~u lien quail de'n vi~c phan rich tie'ng Anh (hlnh thai, ngii' phap, ngil' nghla) va chung toi chi t~p trung VaG ph~n chuy~n d6i sang tie'ng Vi~t ma thai
Chung toi chQn each tie'p c~n "dich tv dQng Anh-Vi~t dI!a tTen vifC l'l9c luqt
chuyln ddi tif ngilli~u song ngil" vi nhii'ng 1;' do sail:
4 Vi~c thie't ke' bQ lu~t chuy~n d6i cho cac h~ dich may la mQt Gong vi~c va cling t6n kern, ma't thai gian va cong suc cua cae ehuyen gia ma van khang giai quye't dU9Che't cac truang hQp trong thvc te' dich Vi V?y, chung tai mu6n chQn de tai dich rhea huang tie'p c~n rnai d6 la xay dvng bQ lu?t chuy~n d6i mQt each tv dQng bAng Gongngh~ may hQe(machine learning)
5 Vi~c hQc tl1 ngil' li~u tuy khong mai, nhung quail trQng 18.hQc tITngil' li~u d~ng naG, hQc cai gi va hQCnhu the' naG la di€u chung toi rnu6n dua ra trong lu~n an nay: chung toi hQc tITngu li~u song ngu (chu khong phai ddn ngu); hQc lu~t ehuy~n d6i (chu khong phai hQc cac can s5 th6ng ke);
Trang 31.2 MT)CBICH NGmEN CUD
M\lc dich cila d~ tai la nghien CUllx6y dlfng mQtmo hinh djch tlf dQng
Anh-Vi~tm6'ic6 nhung d~c di6m sail:
1 Dl,I'atren co sa 19thuye't cila ngon ngu hQc so sanh Anh-Vi~t.
2 Dl,I'atren vi~c hQc tli'ngu li~u song ngu Anh-Vi~t da gall TItan ngon ngu
3 Dl,I'atren cac ke't qua phan rich tie'ng Anh 06 san
4 Cho phep w sua sai nha co che'h6i tie'pke't qua dtch
5 T:;iora san ph~m ph\lla kho ngu li~u song ngu Anh-Vi~t c6 gall TItan
1.3 BOI TU<)NGNGIDEN CUD
D6 d:;itduQcm1,lcdich n6i tren, chung toi dn nghien CUllcac va'n d~ sail:
1 Cac ke't qua phan rich 11,I'dQng v~ m~t ngon ngu ciia tie'ng Anh
2 Cae ke't qua nghien CUllso sanh doi chie'u giua tieng Anh va tie'ng Vi~t a cac ca'p dQ tren cac binh di~n d6 tli' d6 xay dl,I'ngDen mo hint hQe eae lu?t chuy6n d6i W dQng tU tie'ng Anh sang tie'ng Vi~t
3 Cae bai tOaDe6 lien quail de'n vi~e dteh W dQng tu Anh sang Vi~t dl,I'a tren lu~t chuy6n d6i duQcrut ra tli'ngu li~u song ngu Anh-Vi~t
1.4 PRAM VI NGHIEN CUD
Vi~c dtch tl,I'dQng tli' mQt ngon ngu ngu6n sang ngon ngu dieh baa g6m hang ch1,lcGongdo:;inva lien quan de'n nhi~u khia c:;inh,lint vl,I'c.M6i cong do';ln l';li duQc thl,I'chi~n bai hang tram Gong trlnh nghien CUllkhac nhau voi ra't nhi~u cach tie'p c~n khac nhau M6i Gong trlnh thuang duQc thl,I'Chi~n bai mQt nh6m cae nha nghien CUlltrong nhi~u Dam VI v~y, trong khuon kh6 cila mQt lu?n an
tie'n S1,chung toi gioi h';ln chi:nghien cau x6y d/lng mo hinh t6ng thi! clIo h? djch
Anh- Vi?t va gidi quye't mQtso' biti roan lien quan de'n tie'ng Vi?t trong mo hinh do.
Trang 4Trang s6 hang ch1;lcGong ao1;lllcua dich may, thl dc Gong ao1;lll lien quail a€n phan rich ngon ngfi' ngu6n (0 day la ti€ng Anh) chi€m ti l~ J<j}aIOn Chun"g
baa g6m: ti6n xiTly, phan dch hinh thai, til phap, cu phap, ngu nghIa, Ta't ca
cac Gong ao<;inphan rich tieng Anh nay ail au9c nghien CUllva cling ti'mr (so vdi ta't ca cac ngon ngfi' khac) boi hang ch1;lcngan nha khoa hQc (v6 ngon ngfi', tin hQc, ngon ngfi' hQc- tint toan, ) tren kh~p the gidi -(chu yell la My) til hon 50
nam qua Hgu bet cac Gongtrlnh phan rich tieng Anh d6u dil dU9CGongb6 va
th~m chi Gong khai luau ca mil ngu6n (source) va nhfi'ng dfi'li~u dn thi€t (tren Internet) cho m1;lcdich nghien CUll.VI v~y, d6i vdi ph~n phan rich tieng Anh, tuy chung toi c6 giai quyet mQt s6 va'n a6 (dil c6 cong b6 qua mQt s6 bai bao), nhung khong a~t thanh bai roan 0 day, ma chung toi chu yell ke' thila cac mo hint, cac ke't qua t6t nha't til nuDc ngoai ma chung toi c6 dU9C(tinh den 2001)
C1;lth~ lu~n an au9c gioi h<;introng ph<;imvi nghien cuu' sail:
1 Nghien cuu xay dvng mo hinh gall nhiln ngon ngu (hinh thai, ngfi' phap, ngu nghIa cho tie'ng Anh va tieng Vi~t) tV dQng cho cac don vi ngon ngu trang kho ngfi'li~u song ngfi'Anh-Vi~t ai~n tll' (kho ngu li~u nay ail du'9Cxay dvng san boi mQt Gongtrlnh kh~c bell nganh ngon ngu hQc so sanh)
2 Nghien CUllxay dvng mo hinh hQc d~ rut ra cac qui Iu?t chuy~n d6i mQt cach tv dQng til kho ngu li~u song ngu Anh-Vi~t ail dU9Cgall nhan n6i tren
3 Nghien CUlldi d~t thvc nghi~m h~ dich tv a<)ng til Anh sang Vi~t dva tren cac qui lu?t chuy~n d6i dU9CrUt ra n6i tren
4 Cu6i cling, chung toi gidi h<;inchi xiT ly ngu li~u song ngfi' hay dich cac
van ban tie'ng Anh thong thuang, cac tai li~u khoa hQc/ky thu~t chuyen
nganh tin hQc/di~n tiTVImUGaQ nh~p nh~ng cua nhung tai li~u nay thap, nen
may tinh c6 kha nang giai quye't au9c Day cling la xu huang chung cho cac h~ dich may tren the gidi hi~n nay
Trang 51.5 YNGHIAKHOAHQC vA TH1)'CTIENCUADETAI
1.5.1 Y NGHlA KHOA HQC
f)~ tai nay dua ra me>tmo hinh djch mai tho vi~c dich tlf de>ngn6i chung va
vi~c dich Anh - Vi~t n6i rieng Bay la me>tmo hlnh moi VIn6 c6 nhting ai~m
moi sail (so voi cac IDOhlnh tu'ong tlf):
1 Dva lIen co sd I)" thuye't cila ngon ngti hQc so sanh Anh- Vi~t: khat voi cac
mo hlnh dich khat chil ye'u dva lIen cd Sd I)"thuye't xac sua't th6ng ke.
2 Dva lIen vi~c hQc a~ nit ra be>lu~t chuy~n d6i ngon ngli tu'ong minh, g§n gl1i voi cac nhs ngon ngti hQc: ehli'khong ph,ij la me>tbang kh6ng 16 cae can so',
.
th6ng ke/xac sua't kh6 n~m b~t bdi nguoi
3 Dva lIen vi<$chQe tu ngfi' li~u song ngti Anh- Vi<$tdil gall nhan ngon ngti : day
la phuong phap hQe giam sat, khae voi cae mo hlnh diet khae chil ye'u dva lIen vi<$ehQe khong giam sa1
4 Ke' thua cae ke't qua phan tIch tie'ng Anh e6 san: eho phep xli' I)"tie'p lIen dgu
ra cila nhting bQ phan rich tie'ng Anh eila the' gioi, khong phai xli' I)" tu a§u
nhu cae mo hint khae
5 Cho phep tv sli'a sai nho co the' h6i tie'p ke't qua diet: ke't qua dich cila may sail khi duQc hi~u chinh bdi nguoi (post-edit), duQe alia nguQe vao kho ngfi' li~u hua'n 1uy~n a~ tai hua'n luy~n eho may bie't tranh cae 16i sai m~e phai
6 T~o ra san ph~m ph\! Is kho ngti li<$usong ngti Anh- Vi<$tdil duQc gall nhan ngon ngfi'nh~m ph\!e V\!eho: nganh ngon ngti hQc so sanh, xli' 19 tie'ng Vi<$ttv ae>ng,giang d~y tie'ng Anh/tie'ng Vi~t,
7 Thea quail di~m thve te': "m\!e tieu chinh la djch ehli' khong phai la hdu: chi
dn hi~u d mue dQVITaail a~ khli'nh~p nh~ng khi dn thie't"
Trang 61.5.2 Y NGHlA TH{jCTIEN
D€ tai nay co y nghla thl!C ti~n ra't IOn: no se tl! ciQngboa cong lac dtch thu~t cac tai li~u KHKT, gap ph~n ti6p thu nhanh cac thong tin, tri thuc v€ khoa hQCva cong ngh~ tren th6 gidi mQt cach nhanh chong C1,lth€ la ta co th€ dung chuang trlnh dtch na y ci€:
1 Dtch cac tai li~u KHKT (trudc m~t la cac tai li~u huang d2n su dl:1Dgmay tint, cac giao trinh tin hQc nh~p mon, ) r6i hi~u chlnh l~i bCiinguai K6t qua dtch cia ciuejchi~u chinh nay se ciuejcdua nguejc vaG kho ngu li~u song ngu Anh- Vi~t d€ tai hua'n luy~n h~ nh~m nit ra bQ lu~t chuy€n d6i ngay cang chinh xac bon va cha't luejng dtch ngaY,cang ciuejcdi thi~n Hi~n t~i a H6ng-Kong cia co dich V1,ldtch thue Anh-Hoa chuyen dtch cac tai li~u huang d2n su dllng cua hang IBM va MicJosoft b~ng may r6i hi~u chinh bCiinguai
2 Giup nguai Vi~t yell tierig Anh c6 th€ truy c~p va tin: kiem thong tin tren Internet qua cac trang Web b~ng tieng Anh (hi~n chiem cia s6) Hi~n nay IreD Internet da co mQt so trang Web chua cac bQ dtch cac thli tieng thong dllng (Anh, Phap, Nga, Nh~t, y, ) ci€ giup cho nguai acac nude ci6 c6 th€ dQc
trang Web b~ng thli tieng cua nudc hQ
3 Giup cac khach du Itch nudc ngoai Wi Vi~t Nam traG ci6i bang nhung diu dam tho~i thong thuang Hi~n nay IreD tht truang cae nudc (Nh~t, Chau Au) dil xua't hi~n cac h~ dtch thuong m~i ch~y IreD may dm ray (pocket PC) danh cho khach du Itch N6 cling giup vi~c dich cac tai li~u m~t ma khong sej
bt ro ri thong tin nhu khi dtch boi nguai
4 Giup vi~c dich tho tai li~u b~ng ti6ng Anh cho nhii'ng nguai lam cong lac phan lo<;lihay ki€m soar tai li~u ti6ng Anh co th€ n~m b~t nhanh mQt cach so lu<;jcnQi dung cac tai li~u d6