Luận văn ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản tiếng việt

44 6 0
Luận văn ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mangh■■ng Luôn 123doc Th■a thu■n l■icam s■ tr■ h■u k■t s■ nghi■m t■im■t d■ng s■website mang kho m■i th■ m■ l■i d■n CH■P vi■n nh■ng cho ■■u kh■ng ng■■i NH■N quy■n chia dùng, l■ CÁC s■l■i v■i và■I■U t■t công h■n mua nh■t 2.000.000 ngh■ bán KHO■N cho tàihi■n ng■■i li■u TH■A tài th■ hàng li■u dùng hi■n THU■N ■■u ■ t■t Khi ■■i, Vi■t c■ khách b■n l■nh Nam Chào online hàng v■c: Tác m■ng tr■ không tài phong thành b■n khác chun ■■n thành tíngì d■ng, v■i so nghi■p, viên 123doc v■i công c■a b■n hồn ngh■ 123doc g■c h■o, thơng B■n và■■ n■p có tin, cao th■ ti■n ngo■i tính phóng vào ng■, Khách trách tài to,kho■n nhi■m thu nh■ c■a ■■i hàng tùy123doc, v■i ý cót■ng th■b■n d■ ng■■i dàng s■ dùng ■■■c tra c■u M■c h■■ng tàitiêu li■u nh■ng hàng m■t■■u quy■n cáchc■a l■i123doc.net sau xác,n■p nhanh ti■n tr■ chóng thành website th■ vi■n tài li■u online l■n nh■t Vi■t Nam, cung c■p nh■ng tài li■u ■■c khơng th■ tìm th■y th■ tr■■ng ngo■i tr■ 123doc.net Nhi■u event thú v■, event ki■m ti■n thi■t th■c 123doc luôn t■o c■ h■i gia t■ng thu nh■p online cho t■t c■ thành viên c■a website Mangh■n Luôn Th■a Xu■t Sau Nhi■u 123doc h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thông dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mơ ngun b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n 123doc Sau Th■a Xu■t h■■ng phát thu■n cam nh■n m■t t■k■t s■ t■i ýxác n■m t■■ng d■ng s■ nh■n website mang ■■i, t■o t■l■i c■ng ■■ng d■n 123doc CH■P nh■ng ■■u ■■ng h■ NH■N ■ã quy■n th■ng chia t■ng ki■m CÁC s■s■ l■i b■■c ti■n vàchuy■n ■I■U t■t mua online kh■ng nh■t bán KHO■N sang b■ng cho tài ■■nh ng■■i li■u ph■n tài TH■A v■ li■u hàng thơng dùng tríTHU■N hi■u c■a ■■u tin Khi qu■ Vi■t xác khách nh■t, minh Nam Chào hàng uy tài l■nh Tác m■ng tín kho■n tr■ phong v■c cao thành b■n email nh■t tàichuyên ■■n li■u thành b■n Mong v■i nghi■p, viên kinh ■ã 123doc 123doc.net! mu■n ■■ng c■a doanh hoàn mang 123doc kýonline v■i h■o, Chúng l■ivà 123doc.netLink cho Tính ■■ n■p tơi c■ng cao ■■n cung ti■n tính ■■ng th■i vào c■p trách xác tài ■i■m D■ch xãkho■n th■c nhi■m h■itháng V■ m■t s■ c■a (nh■ ■■i ■■■c ngu■n 5/2014; 123doc, v■i ■■■c g■i t■ng tài 123doc v■ mô nguyên b■n ng■■i ■■a t■s■ v■■t d■■i tri dùng ■■■c ch■ th■c m■c ■ây) email M■c h■■ng quý 100.000 cho b■n tiêu báu, b■n, nh■ng ■ã hàng phong l■■t tùy ■■ng ■■u quy■n truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau vuingày, n■p lòng “■i■u giàu ti■n s■ ■■ng tr■ giá Kho■n h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i không t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Luônh■n Th■a Xu■t Sau Nhi■u 123doc Mang h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chun ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n cơng ■■ng c■a c■ doanh b■n hồn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thơng B■n 123doc.netLink cho viên Tính ■■ n■p có tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t u■t phát Nhi■u Mang Luôn 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n t■ m■t tr■ t■ h■u ýk■t s■ thú nghi■m t■i ýt■■ng xác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event t■o kho m■i ■■i, t■o t■ c■ng th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■ng ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia ki■m t■ng ki■m dùng, l■ CÁC s■ th■c ti■n s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công online h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N b■ng sang b■ng cho tài ■■nh hi■n tài ng■■i li■u ph■n tài TH■A li■u tài v■ th■ li■u hàng t■o li■u thơng dùng trí hi■u hi■n THU■N hi■u c■ c■a ■■u ■ tin qu■ t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia nh■t, b■n nh■t, minh l■nh Nam t■ng Chào online uy hàng uy tài v■c: l■nh thu Tác tín m■ng tín kho■n tr■ cao nh■p khơng tài phong v■c cao thành b■n nh■t email nh■t tài online khác chun ■■n li■u thành tín Mong b■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã mu■n t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n mang hoàn mang ngh■ 123doc ký g■c online thành v■i l■i h■o, Chúng l■i thông B■n cho 123doc.netLink cho viên Tính ■■ n■p có c■ng tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i ■■ng tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác xã tài ■i■m D■ch xã to,h■i kho■n th■c nhi■m h■i thum■t tháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ngu■n ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cótài g■i t■ng th■ tài 123doc nguyên v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t tri d■■i tri dùng ■■■c ch■ th■c tra th■c m■c ■ây) email c■u quý M■c h■■ng quý 100.000 cho tài báu, b■n tiêu báu, li■u b■n, nh■ng phong ■ã hàng phong m■t l■■t tùy ■■ng ■■u phú, quy■n cách truy thu■c phú, ky, c■a c■p ■a ■a l■i b■n vào d■ng, 123doc.net m■i d■ng, sau xác, vuingày, n■p giàu lòng “■i■u nhanh giàu ti■n giá s■ ■■ng tr■ giá Kho■n chóng h■u tr■ thành tr■ nh■p ■■ng 2.000.000 website ■■ng Th■a th■ email th■i vi■n th■i Thu■n mong c■a thành mong tài v■ li■u mu■n viên mu■n S■ online ■■ng D■ng t■o click t■o l■n ■i■u ký, D■ch ■i■u vào nh■t l■t link ki■n ki■n V■” vào Vi■t 123doc cho top sau cho Nam, cho 200 ■ây cho ■ã cung các (sau g■i users website c■p users ■âynh■ng có ■■■c cóph■ thêm thêm tài bi■n g■i thu thu li■u t■t nh■p nh■t nh■p ■■c T■it■i Chính khơng t■ng Chính Vi■tth■i vìth■ Nam, vìv■y v■y ■i■m, tìm 123doc.net t■123doc.net th■y l■chúng tìm ki■m tơi th■ racó ■■i thu■c ■■i tr■■ng th■ nh■m nh■m c■p top ngo■i ■áp 3nh■t ■áp Google ■ng tr■ ■KTTSDDV ■ng 123doc.net nhu Nh■n nhuc■u c■u ■■■c chia theo chias■ quy■t danh s■tàitài hi■u li■u li■uch■t ch■t c■ng l■■ng l■■ng ■■ng vàvàki■m bình ki■mch■n ti■n ti■nonline online website ki■m ti■n online hi■u qu■ uy tín nh■t Nhi■u Mang Ln 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p không tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mơ ngun b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t -o0o - Sinh viên thực hiện: Đinh Văn Toản Giáo viên hƣớng dẫn: Mã số sinh viên: 110584 CHƢƠNG 1: THÔNG TIN LỜI CẢM ƠN Đầu tiên em xin chân thành cảm ơn đến thầy cô khoa Công nghệ thông tin Trƣờng Đại học dân lập Hải Phịng tận tình dạy bảo cho em suốt thời gian học tập trƣờng Em xin gửi lời biết ơn sâu sắc đến Ths.Nguyễn Thị Xuân Hƣơng dành nhiều thời gian tâm huyết hƣớng dẫn nghiên cứu giúp em hoàn thành luận văn tốt nghiệp Mặc dù em có nhiều cố gắng hồn thiện luận văn tất nhiệt tình lực mình, nhiên khơng thể tránh khỏi thiếu sót, nên em mong nhận đƣợc đóng góp q báu thầy bạn Hải Phòng, tháng 07 năm 2011 Sinh viên Đinh Văn Toản DANH MỤC HINH VẼ CHƢƠNG 1: 10 1.1.1 Phát biểu toán 10 1.1.2 Đặc điểm 10 1.2 Giới thiệu cơng trình có 11 1.2.1 AMPad 11 1.2.2 VietPad 11 1.2.3 viAccent 12 1.2.4 VietMarker 13 1.2.5 14 CHƢƠNG 2: 15 2.1 Giới thiệu 15 2.2 Nguyên lý thành phần: 17 2.2.1 18 2.3 Mơ hình dịch: 21 2.3.1 Sự gióng hàng (alignment): 21 2.4 Giải mã (Decode) 28 2.4.1 Translation Options 29 2.4.2 Thuật toán (Core Algorithm) 30 2.4.3 Kết hợp lại giả thuyết (Recombining Hypotheses) 31 2.4.4 32 (Beam Search) 2.4.5 CHƢƠNG 3: - (N-Best Lists Generation) THỰC NGHIỆM 36 38 3.1 Cấu hình hệ điều hành 38 3.2 Các công cụ sử dụng 38 3.2.1 Bộ công cụ xây dựng mô hình ngơn ngữ - SRILM: 38 3.2.2 Bộ cơng cụ xây dựng mơ hình dịch máy thống kê – MOSES: 38 3.2.3 Các bƣớc huấn luyện dich kiểm tra 39 3.2.4 Chuẩn hóa liệu 40 3.2.5 Xây dựng mơ hình ngơn ngữ 40 3.2.6 Huấn luyện mơ hình: 40 3.2.7 41 3.2.8 Đánh giá kết dịch 42 KẾT LUẬN 43 TÀI LIỆU THAM KHẢO 44 DANH MỤC HINH VẼ Hinh 1.2.1-1 Thêm dấu tiếng Việt tự động AMPad 11 Hình 1.2.2-2 Gõ tiếng Việt không dấu VietPad 12 Hình 1.2.3-3 Văn sau thực chức thêm dấu tiếng Việt VietPad 12 Hình 1.2.3-4 : Gõ tiếng việt không dấu viAccent 13 Hình 1.2.4-5 Văn sau thực chức thêm dấu Vietmarker 14 2.1.1-6 Tăng kích cỡ LM cải thiện điểm BLEU 16 2.2.1-7 Kiến trúc hệ thống SMT 17 Hình 2.2-8 Mơ hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 18 Hình 2.3.1-9 Sự tƣơng ứng - câu tiếng Anh câu tiếng Pháp 21 Hình 2.3.1-10 Sự tƣơng ứng câu tiếng Anh với câu tiếng Tây Ban Nha cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh 22 Hình 2.3.1-11 Sự tƣơng ứng - nhiều câu tiếng Anh với câu tiếng Pháp 22 Hình 2.3.1-12 Sự tƣơng ứng nhiều - nhiều câu tiếng Anh với câu tiếng Pháp 22 L Chữ viết tiếng Việt có ẦU có xuất dấu dấu ký tự Điều giúp cho tiếng Việt “thêm thanh, thêm điệu” Tuy nhiên, việc “thêm thanh, thêm điệu” làm cho việc gõ tiếng Việt trở nên tốn nhiều thời gian đƣợc nhiều e-mail r Chúng ta thật vất vả phải vừa đọc vừa đốn nội dung Chính phát triển cơng cụ giúp thêm dấu tiếng Việt vào văn không dấu việc cần thiết thú vị : VietPad chƣơng trình text editor Việt Unicode phát triển Quân Nguyễn nhóm phát triển http://vietpad.sourceforge.net viAccess, phần mềm bỏ dấu tiếng việt online địa chỉ: http://vietlabs.com/vietizer.html AMPad Trần Triết Tâm nâng cấp chƣơng trình “AutoMark” chuyển đổi xác đến khoảng 80% hơn.VietMarker, đƣợc phát triển nhóm nghiên cứu giảng viên sinh viên Học viện Công nghệ Bƣu Viễn thơng, đạt đƣợc độ tài hƣớng đến việc giải toán thêm dấu tiếng việt theo mơ hình dịch máy thống kê Dịch máy phƣơng pháp thống kê (Statistical Machine Translation) T xây dựng từ điển, luật chuyển đổi tay, hệ dịch tự động xây dựng từ điển, quy luật dựa kết thống kê có đƣợc từ liệu Chính vậy, dịch máy dựa vào thống kê có tính khả chuyển cao, có khả áp dụng đƣợc cho cặp ngơn ngữ Luận văn đƣợc tổ chức thành chƣơng với nội dung nhƣ sau: Chƣơng 1: Chƣơng 2: , Chƣơng , CHƢƠNG 2: 2.1.1 Phát biểu tốn Bài tốn đƣợc phát biểu nhƣ sau: Input: Cho văn tiếng Việt không dấu OutPut: Chuyển văn không dấu thành có dấu Sử dụng phƣơng pháp dịch máy thống kê để biên dịch 2.1.2 Đặc điểm xuất dấu nhƣ dấu ký tự làm phong phú thêm cho ngôn từ tiếng Việt, góp phần tăng độ biểu cảm tiếng Việt Dấu phần “bất khả phân” âm tiết tiếng Việt Khi loại bỏ dấu thanh, việc hiểu nghĩa từ, gồm hay nhiều âm tiết kết hợp với nhau, trở nên khó khăn dễ gây hiểu lầm Để thêm dấu, trƣớc tiên, ta cần phải xác định ranh giới từ Bài toán xác định ranh giới từ văn tiếng Việt có dấu việc thử thách, khơng có dấu, việc nhận diện ranh giới từ tiếng Việt nhƣ số ngơn ngữ Châu Á khác, từ tả khơng tƣơng ứng với “từ” văn Đối với thứ tiếng Châu Âu, ta dễ dàng nhận từ, từ đƣợc phân cách khoảng trắng Điều lại không với tiếng Việt Trong tiếng Việt, tiếng_hay gọi âm tiết_đƣợc phân cách khoảng trắng, từ Sau nhận diện đƣợc ranh giới từ, ta cần phải xác định cho từ có dấu có dạng thể khơng dấu nhƣ Việc xác định gây nhiều khó khăn, từ từ khơng dấu có nhiều từ có dấu tƣơng ứng với Ví dụ 1-1 : Từ khơng dấu “me” có từ có dấu tƣơng ứng “mẹ”, “mẻ” “mè” Do đó, sau giải xong toán tách từ tiếng Việt không dấu, ta cần phải giải thêm tốn xác định từ có dấu thích hợp với từ khơng dấu 10 3.4.2 Thuật tốn (Core Algorithm) (beam search algorithm), câu tiếng Anh đầu đƣợc sinh từ trái sang phải dạng giả thiết Tiến trình đƣợc minh họa hình sau: Bắt đầu từ giả thuyết đầu tiên, mở rộng từ tiếng nƣớc ngồi Maria, đƣợc dịch Mary Từ tiếng nƣớc đƣợc đánh dấu đƣợc dịch (đánh dấu dấu hoa thị) Chúng ta mở rộng giả thuyết việc dịch từ nƣớc ngồi ví dụ nhƣ lựa chọn từ bruja Chúng ta sinh giả thuyết từ giả thuyết mở rộng Cho giả thuyết mở rộng ta sinh giả thuyết cách dịch từ no did not Trạng thái khởi tạo khơng có từ tiếng nƣớc đƣợc dịch sang từ tiếng Anh đƣợc sinh Một trạng thái đƣợc tạo cách mở rộng từ tiếng Anh đầu với dịch cụm từ từ đầu vào tiếng nƣớc chƣa đƣợc dịch 30 n dịch cụm từ đƣợc thêm vào Mỗi trạng thái tìm kiếm (giả thuyết) đƣợc thể bởi: Một liên kết ngƣợc trở lại với trạng thái trƣớc tốt (cần thiết cho việc tìm kiếm dịch tốt câu giải thuật quay lui thông qua trạng thái tìm kiếm) Các từ tiếng Anh cuối đƣợc sinh ( cần thiết cho việc tính tốn mơ hình ngơn ngữ tiếp theo) (cần thiết tính tốn cho chi óp méo tƣơng lai) (đƣợc tính tốn trƣớc lƣu trữ phù hợp) khả dịch Phần mô tả làm tối ƣu việc tìm kiếm cách loại bỏ giả thuyết mà phần đƣờng dẫn khơng cho dịch tốt Chúng ta giới thiệu khái niệm trạng thái so sánh đƣợc, cho phép định nghĩa cụm giả thuyết tốt cắt bỏ giả thuyết không phù hợp cụm 3.4.3 Kết hợp lại giả thuyết (Recombining Hypotheses) Kết hợp lại giả thuyết cách tốt để giảm khơng gian tìm kiếm hai giả thuyết đƣợc kết hợp lại thỏa mãn : Hai từ tiếng Anh cuối đƣợc sinh 31 , ví dụ Giả thuyết khơng phải phần đƣờng dẫn cho dịch tốt loại bỏ Chú ý giả thuyết cấp thấp phần đƣờng dẫn cho dịch tốt thứ hai điều quan trọng việc sinh danh sách n giả thuyết tốt 3.4.4 Tìm kiếm ch m (Beam Search) Chúng ta ƣớc lƣợng có giả thuyết đƣợc sinh trình tìm kiếm Xem xét giá trị cho thuộc tính giả thuyết nhất, ƣớc lƣợng cận số giả thuyết N Trong nf số từ tiếng nƣớc ngồi |Ve| kích thƣớc từ vựng tiếng Anh Thực tế số từ tiếng Anh đƣợc sinh nhỏ nhiều so với |Ve| Vấn đề bùng nổ hàm mũ đƣợc bao trùm giả thuyết xác định khả từ tiếng nƣớc số lƣợng từ tiếng nƣớc cắt bỏ giả thuyết cấp dƣới Chúng ta dựa việc xem xét giả thuyết cấp dƣới nằm đánh giá giả thuyết Tuy nhiên việc nhìn chung tiêu chuẩn tồn nghiêng tìm kiếm dịch dễ tìm thấy phần đầu câu Ví dụ có ba cụm từ tiếng ngồi mà dễ dàng dịch sang cụm từ tiếng Anh t tiếng Anh Việc phâ 32 nhân tố ((vd , ( vd: n = 100) Lƣu ý kiểu cắt tỉa rủi ro (trái ngƣợc với tái tổ hợp) Nếu chi phí tƣơng lai khơng đủ, chúng tơi giả thuyết đƣờng dẫn đến tốt Trong phiên đặc biệt chi phí tƣơng lai , nghĩa khơng chi phí tƣơng lai không đủ Trong thực tế, loại cắt tỉa giảm khơng gian tìm kiếm Hình dƣới đƣa giả mã cho thuật toán sử dụng cho tìm kiếm Đối với số từ nƣớc , chồng giả thuyết tạo Giả thuyết ban đầu đƣợc đặt ngăn xếp cho Bắt đầu với giả thuyết này, dụng giả thuyết khơng có nƣớc đƣợc sinh sử Mỗi giả thuyết có nguồn gốc đƣợc đặt ngăn xếp dựa số lƣợng từ nƣớc 33 initialize hypothesisStack[0 nf]; create initial hypothesis hyp_init; add to stack hypothesisStack[0]; for i=0 to nf-1: for each hyp in hypothesisStack[i]: for each new_hyp that can be derived from hyp: nf[new_hyp] = number of foreign words covered by new_hyp; add new_hyp to hypothesisStack[nf[new_hyp]]; prune hypothesisStack[nf[new_hyp]]; find best hypothesis best_hyp in hypothesisStack[nf]; output best path that leads to best_hyp; đƣợc c Để loại trừ giả thuyết từ chùm xem xét chi phí , mà cịn ƣớc lƣợng chi phí tƣơng lai Trong tính tốn chi phí rẻ tƣơng lai cho giả thuyết, tính tốn đánh bại mục đích việc tìm kiếm chùm 34 Chi phí tƣơng lai gắn liền với từ nƣớc ngồi chƣa đƣợc dịch Trong khn khổ mơ hình cụm từ, khơng từ đơn lẻ đƣợc dịch riêng lẻ, mà cịn liên tiếp nhƣ cụm từ Mỗi hoạt động dịch mang chi phí dịch, Đối với mơ hình dịch chi phí mơ hình ngơn ngữ, tƣơng lai, xem xét ngơn ngữ Chi phí mơ hình ngơn ngữ thƣờng đƣợc tính mơ hình ngơn ngữ trigram Tuy nhiên, khơng biết từ tiếng Anh trƣớc cho dịch Vì vậy, gần chi phí cách tính tốn c mơ hình ngơn ngữ cho từ tiếng Anh tạo Điều có nghĩa, có từ tiếng Anh đƣợc sinh xác suất unigram Nếu hai từ đƣợc tạo ra, xác suất unigram từ xác suất bigram từ thứ hai, Đối với chuỗi nƣớc ngồi tính tốn chi phí cho tùy chọn dịch Cách rẻ để phí cho tuỳ chọn cho khái niệm Các tùy chọn đƣờng mang theo tùy chọn : Cij Chi phí dịch c01c12c25 = 1,9578 *10-7 35 3.4.5 - (N-Best Lists Generation) Thông thƣờng, hy vọng giải mã cung cấp cho dịch tốt cho đầu vào theo mơ hình Nhƣng số ứng dụng, quan tâm dịch tốt thứ hai, dịch tốt thứ ba,… Một phƣơng pháp phổ biến nhận dạng giọng nói, xuất sử dụng hệ thống giải mã nhƣ mơ hình sở để sinh tập hợp dịch ứng cử cho câu đầu vào Sau đó, đƣợc sử dụng để Một danh sách - dịch dịch ứng cử Nhƣ tập hợp dịch đại diện đồ thị từ (Ueffing et al., EMNLP 2002) rừng phân tích cú pháp (Langkilde, EACL 2002) Những cấu trúc liệu thay cho phép đại diện nhỏ gọn tập hợp lớn nhiều ứng cử Tuy nhiên, điều khó khăn nhiều để phát cấu trúc liệu Các cung đồ thị Tìm kiếm Trong trình mở rộng Các giả thuyết mở rộng liên kết tạo thành đồ thị ƣờng dẫn nhánh chọn dịch cho giả thuyết mà từ nhiều giả thuyết đƣợc sinh Đƣờng dẫn tham gia giả thuyết đƣợc kết hợp lại Thông thƣờng, kết hợp lại giả thuyết, đơn giản loại bỏ giả thuyết , khơng thể phần đƣờng tốt thông qua đồ thị tìm kiếm (nói cách khác dịch tốt nhất) Nhƣng kể từ đơn giản quan tâm đến dịch tốt thứ hai, thơng tin giả thuyết Nếu làm điều này, đồ thị tìm kiếm chứa đƣờng dẫn cho giả thuyết giả thuyết cuối ( giả thuyết tất từ nƣớc ngoài) 36 Nếu lƣu trữ thông tin nhiều cách để đạt đƣợc giả thuyết, số lƣợng đƣờng nhân thông qua đồ thị Để giữ cho thông tin kết hợp nhƣ , lƣu giữ hồ sơ : nhận dạng giả thuyết trƣớc nhận dạng giả thuyết chi phí thấp chi phí từ trƣớc đến chi phí giả thuyết cao Hình dƣới cho ví dụ cho hệ vòng cung nhƣ vậy: trƣờng hợp này, tƣơng đƣơng tìm kiếm heuristic Do đó, giả thuyết Nhƣng muốn giữ cho thông tin đƣờng dẫn từ giả thuyết 2, vòng cung Cung chi phí thêm từ Lƣu ý chi phí từ giả thuyết giả thuyết không đƣợc lƣu trữ, đƣợc từ cấu trúc liệu giả thuyết 37 CHƢƠNG 4: THỰC NGHIỆM 4.1 Cấu hình hệ điều hành CPU Core i3 2.1 GHz RAM 2G Hệ điều hành Ubuntu 11.04 SWAP 5G 4.2 Các công cụ sử dụng 4.2.1 Bộ công cụ xây dựng mơ hình ngơn ngữ - SRILM: SRILM cơng cụ để xây dựng áp dụng mơ hình ngôn ngữ thống kê , chủ yếu để sử dụng nhận dạng tiếng nói, gắn thẻ thống kê phân khúc, dịch máy thống kê Bộ công cụ đƣợc phát triển “Phịng thí nghiệm nghiên cứu cơng nghệ giọng nói SRI” từ năm 1995, chạy tảng Linux nhƣ Windows SRILM bao gồm thành phần sau: Một tập hợp thƣ viện C++ giúp cài đặt mơ hình ngơn ngữ, hỗ trợ cấu trúc liệu chức tiện ích nhỏ Một tập hợp chƣơng trình thực thi thực nhiệm vụ xây dựng mơ hình ngơn ngữ, đào tạo thử nghiệm mơ hình ngơn ngữ liệu, gắn thẻ phân chia văn bản, Bộ cơng cụ SRILM có nhiều chƣơng trình con, để xây dựng mơ hình thêm dấu cho văn tiếng việt ta sử dụng chƣơng trình sau : 4.2.1.1 Ngram-count: Chƣơng trình Ngram-count thống kê tần số xuất cụm Ngram Kết việc thống kê đƣợc ghi lại vào tệp sử dụng chúng để xây dựng mơ hình ngơn ngữ 4.2.2 Bộ cơng cụ xây dựng mơ hình dịch máy thống kê – MOSES: Moses hệ thống dịch máy thống kê cho phép ngƣời dùng xây dựng mơ hình dịch cho cặp ngơn ngữ với đầu vào tập hợp văn song ngữ, đƣợc nhiều trƣờng đại học 38 - tệp moses.ini chứa tham số cho giải mã nhƣ: đƣờng dẫn đến tệp phrase-table, đƣờng dẫn đến tệp chứa mơ hình ngơn ngữ, số lƣợng tối đa cụm từ ngơn ngữ đích đƣợc dịch cụm từ ngơn ngữ nguồn, Để xây dựng đƣợc mơ hình dịch thống kê, ta sử dụng script: trainmodel.perl với số tham số sau: root-dir cài đặt thƣ mục gốc nơi lƣu trữ tệp đầu corpus tên tệp văn huấn luyện (bao gồm ngôn ngữ nguồn đích) e mở rộng tệp văn huấn luyện ngơn ngữ đích f đuôi mở rộng tệp văn huấn luyện ngôn ngữ nguồn lm language model: :: : thiết lập file cấu hình mơ hình ngơn ngữ theo định dạng trình bày phần max-phrase-length độ dài lớn cụm từ lƣu trữ tệp phrase-table Cơng cụ gióng hàng GIZA++ 4.2.3 Các bƣớc huấn luyện dich kiểm tra Chuẩn hóa liệu Dữ liệu đƣợc chia làm loại Dữ liệu song ngữ : Văn tiếng Việt khơng dấu Văn tiếng Việt có dấu Dữ liệu đơn ngữ Văn tiếng Việt có dấu Xây dựng mơ hình ngơn ngữ Xây dựng mơ hình dịch Dịch máy Đánh giá kết dịch 39 4.2.4 Chuẩn hóa liệu Bộ công cụ Tokenizer, lowercase, , nhƣ: tách từ, tách câu, chuyển sang chữ thƣờng, … 4.2.5 Xây dựng mơ hình ngơn ngữ Sử dụng cơng cụ SRILM để xây dựng mơ hình ngơn ngữ Kết sau xây dựng mơ hình ngơn ngữ tri-gam: Bảng thống kê n-gram \data\ ngram 1=6773 ngram 2=162282 ngram 3=92846 \1-grams: -2.6378 ! -0.9554 -3.523143 " -0.2592531 -4.542355 $ -0.1713233 -3.916798 % -0.2839231 -2.823495 ' -0.4149792 -2.759014 ( -0.3535762 -2.827075 ) -0.4755327 4.2.6 Huấn luyện mơ hình: GIZA++ Mơ hình dịch (phrase-table) 40  Kết file phrase-table : ! ' ! ||| ! ' ! ||| 1 1 2.718 ||| ||| 5 ! ' ! ||| ! ' ! ||| 1 1 2.718 ||| ||| 5 ! ' ' Do la mot viec ||| ! ' ' Đó việc ||| 1 0.767028 2.718 ||| ||| 1 ! ' ' Do la mot ||| ! ' ' Đó ||| 1 0.767028 2.718 ||| ||| 1 ! ' ' Do la ||| ! ' ' Đó ||| 1 0.769353 2.718 ||| ||| 1 ! ' ' Do ||| ! ' ' Đó ||| 1 0.797297 2.718 ||| ||| 1 ! ' ' Duoc , neu anh ||| ! ' ' Đƣợc , anh ||| 1 0.897503 2.718 ||| ||| 1 ! ' ' Duoc , neu ||| ! ' ' Đƣợc , ||| 1 0.924477 2.718 ||| ||| 1 ! ' ' Duoc , ||| ! ' ' Đƣợc , ||| 1 0.986842 2.718 ||| ||| 1 ! ' ' Duoc ||| ! ' ' Đƣợc ||| 1 0.986842 2.718 ||| ||| 1 ! ' ' may cung the , ||| ! ' ' mày , ||| 1 0.0870583 2.718 ||| ||| 1 ! ' ' may cung the ||| ! ' ' mày ||| 1 0.0870583 2.718 ||| ||| 1 ! ' ' may cung ||| ! ' ' mày ||| 1 0.127426 2.718 ||| ||| 4.2.7 Đầu vào : văn tiếng Việt không dấu Kết trả đƣa vào hệ thống thêm dấu Văn xác toi ngo rang co ta toi ngờ rang co ta ngờ cô ta khong noi cho toi biet không noi cho toi biết không nói cho tơi biết su_that sự_thật thật toi bi dau bao_tu toi bi đâu bao_tử bị đau bao tử du_doi dữ_dội dội toi hoan_toan toi hồn_tồn tơi hồn tồn tin tin_tuong vao tai_nang cua tin_tƣởng vào tài_năng cua tƣởng vào tài cac bac_si bác_sĩ bác sĩ toi thich luc_nao nghe_noi cung toi lúc_nào ve thích nghe_nói cung tơi lúc ve thích nghe nói phủ 41 chinh_phu my chính_phủ my nhung co_phan mỹ nhung cổ_phần cổ phần bang anh bay_gio dang_gia bang anh bây_giờ đáng_giá bảng anh đáng giá 2.75 bang 2.75 bang 2.75 bảng 10 bang anh la du 10 bang anh la du tien xang cho cuoc tiền xăng cho hanh_trinh cua chung_toi hành_trình cua chúng_tôi 10 bảng anh đủ tiền xăng cho hành trình chúng_tơi 4.2.8 Đánh giá kết dịch Chỉ số BLEU Individual N-gram scoring 1-gram 2-gram 3-gram 4-gram 5-gram 6-gram 7-gram 8-gram 9-gram -BLEU: 0.0968 0.0006 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 "ref" # Chỉ số BlEU:Là số đánh giá chất lƣợng dịch máy dịch thống kê từ ngôn ngữ sang ngôn ngữ khác Nếu kết gần giống với cách hiểu tự nhiên chất lƣợng dịch tốt Điểm BlEU đƣợc tính cách so sánh câu cần dịch với tập hợp tham chiếu dịch tốt Sau lấy giá trị trung bình tƣơng ứng điểm số riêng lẻ Chỉ số nằm khoảng đến Nếu gần1 chất lƣợng dịch tốt (sát nghĩa) 42 KẾT LUẬN Bài toán thêm dấu tiếng Việt vào văn không dấu ƣớng tới tiếp cận khác sử dụng mơ hình dịch máy thống kê cho tiếng Việt k đƣợc mục tiêu nhƣ phần giới thiệu nhƣng thời gian có hạn, nên Tuy nhiên, luận văn đạt đƣợc số kết quả: Về lý thuyết: Tìm hiểu, nghiên cứu mơ hình dịch máy thống kê Về thực nghiệm: Sử dụng công cụ mã nguồn mở Moses, GIZA++, SRILM, … để xây dựng mơ hình dịch máy thống kê Cài đặt ứng dụng đƣợc mô hình dịch máy thống kê cho tốn bỏ dấu tiếng Việt Do thời gian có hạn, nên k Trong tƣơng lai, ê - t V 43 TÀI LIỆU THAM KHẢO Tài liệu tham khảo Tiếng Việt [1] Thắng, Tơ Hồng NGRAM s.l : Khóa luận tốt nghiệp Trƣờng đại học Công Nghệ, 2007 Tài liệu tham khảo Tiếng Anh [1] Thắng, Tô Hồng Building language model for vietnamese and its application, graduation thesis 2008 [2] Brown, P F, Cocke J., Della Pietra V., Della Pietra S., Jelinek F., Lafferty J D., Mercer R L., and Roossin P S A statistical approach to machine translation s.l : Computational Linguistics, 1990 [3] http://www.statmt.org/moses/ [4] MOSES Statistical Machine Translation System User Manual and Code Guide Philipp Koehn pkoehn@inf.ed.ac.uk University of Edinburgh 44 ... Về thực nghiệm: Sử dụng công cụ mã nguồn mở Moses, GIZA++, SRILM, … để xây dựng mơ hình dịch máy thống kê Cài đặt ứng dụng đƣợc mô hình dịch máy thống kê cho tốn bỏ dấu tiếng Việt Do thời gian... Dữ liệu song ngữ : Văn tiếng Việt khơng dấu Văn tiếng Việt có dấu Dữ liệu đơn ngữ Văn tiếng Việt có dấu Xây dựng mơ hình ngơn ngữ Xây dựng mơ hình dịch Dịch máy Đánh giá kết dịch 39 4.2.4 Chuẩn... biểu toán Bài toán đƣợc phát biểu nhƣ sau: Input: Cho văn tiếng Việt không dấu OutPut: Chuyển văn khơng dấu thành có dấu Sử dụng phƣơng pháp dịch máy thống kê để biên dịch 2.1.2 Đặc điểm xuất dấu

Ngày đăng: 05/08/2021, 22:07

Tài liệu cùng người dùng

Tài liệu liên quan