1. Trang chủ
  2. » Thể loại khác

Luận văn xây dựng mô hình ngôn ngữ cho tiếng việt

46 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 1,29 MB

Nội dung

1 LỜI CẢM ƠN Em xin chân thành cảm ơn thầy, cô khoa Công nghệ Thông tin Trường Đại học Dân lập Hải Phịng tận tình dạy d kiến thức quý báu suốt bốn năm học vừa qua Em xin tỏ lòng biết ơn sâu sắc đến Ths Nguyễn Thị Xuân Hương, người tận tình giúp đỡ truyền đạt nhiều kinh nghiệm để đề tài thực hồn thành Cuối em xin gửi lời cảm ơn chân thành tới tất người thân bạn bè giúp đỡ, động viên em nhiều trình học tập thực đề tài Em xin trân thành cảm ơn! Hải Phòng, tháng 07 năm 2011 Sinh viên Lưu Văn Sơn Th■ah■■ng Mang Luôn 123doc thu■n l■icam s■ tr■ h■u k■t s■ nghi■m t■im■t d■ng s■website mang kho m■i th■ m■ l■i d■n CH■P vi■n nh■ng cho ■■u kh■ng ng■■i NH■N quy■n chia dùng, l■ CÁC s■l■i v■i và■I■U t■t công h■n mua nh■t 2.000.000 ngh■ bán KHO■N cho tàihi■n ng■■i li■u TH■A tài th■ hàng li■u dùng hi■n THU■N ■■u ■ t■t Khi ■■i, Vi■t c■ khách b■n l■nh Nam Chào online hàng v■c: Tác m■ng tr■ khơng tài phong thành b■n khác chun ■■n thành tíngì d■ng, v■i so nghi■p, viên 123doc v■i cơng c■a b■n hồn ngh■ 123doc g■c h■o, thơng B■n và■■ n■p có tin, cao th■ ti■n ngo■i tính phóng vào ng■, Khách trách tài to,kho■n nhi■m thu nh■ c■a ■■i hàng tùy123doc, v■i ý cót■ng th■b■n d■ ng■■i dàng s■ dùng ■■■c tra c■u M■c h■■ng tàitiêu li■u nh■ng hàng m■t■■u quy■n cáchc■a l■i123doc.net sau xác,n■p nhanh ti■n tr■ chóng thành website th■ vi■n tài li■u online l■n nh■t Vi■t Nam, cung c■p nh■ng tài li■u ■■c khơng th■ tìm th■y th■ tr■■ng ngo■i tr■ 123doc.net Nhi■u event thú v■, event ki■m ti■n thi■t th■c 123doc luôn t■o c■ h■i gia t■ng thu nh■p online cho t■t c■ thành viên c■a website Mangh■n Luôn Th■a Xu■t Sau Nhi■u 123doc h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mơ nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n 123doc Sau Th■a Xu■t h■■ng phát thu■n cam nh■n m■t t■k■t s■ t■i ýxác n■m t■■ng d■ng s■ nh■n website mang ■■i, t■o t■l■i c■ng ■■ng d■n 123doc CH■P nh■ng ■■u ■■ng h■ NH■N ■ã quy■n th■ng chia t■ng ki■m CÁC s■s■ l■i b■■c ti■n vàchuy■n ■I■U t■t mua online kh■ng nh■t bán KHO■N sang b■ng cho tài ■■nh ng■■i li■u ph■n tài TH■A v■ li■u hàng thông dùng tríTHU■N hi■u c■a ■■u tin Khi qu■ Vi■t xác khách nh■t, minh Nam Chào hàng uy tài l■nh Tác m■ng tín kho■n tr■ phong v■c cao thành b■n email nh■t tàichuyên ■■n li■u thành b■n Mong v■i nghi■p, viên kinh ■ã 123doc 123doc.net! mu■n ■■ng c■a doanh hoàn mang 123doc kýonline v■i h■o, Chúng l■ivà 123doc.netLink cho Tính ■■ n■p tơi c■ng cao ■■n cung ti■n tính ■■ng th■i vào c■p trách xác tài ■i■m D■ch xãkho■n th■c nhi■m h■itháng V■ m■t s■ c■a (nh■ ■■i ■■■c ngu■n 5/2014; 123doc, v■i ■■■c g■i t■ng tài 123doc v■ mô nguyên b■n ng■■i ■■a t■s■ v■■t d■■i tri dùng ■■■c ch■ th■c m■c ■ây) email M■c h■■ng quý 100.000 cho b■n tiêu báu, b■n, nh■ng ■ã hàng phong l■■t tùy ■■ng ■■u quy■n truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau vuingày, n■p lòng “■i■u giàu ti■n s■ ■■ng tr■ giá Kho■n h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n Th■a Xu■t Sau Nhi■u 123doc Mang h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thông dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chun ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thơng B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t u■t phát Nhi■u Mang Ln 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n t■ m■t tr■ t■ h■u ýk■t s■ thú nghi■m t■i ýt■■ng xác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event t■o kho m■i ■■i, t■o t■ c■ng th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■ng ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia ki■m t■ng ki■m dùng, l■ CÁC s■ th■c ti■n s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công online h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N b■ng sang b■ng cho tài ■■nh hi■n tài ng■■i li■u ph■n tài TH■A li■u tài v■ th■ li■u hàng t■o li■u thơng dùng trí hi■u hi■n THU■N hi■u c■ c■a ■■u ■ tin qu■ t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia nh■t, b■n nh■t, minh l■nh Nam t■ng Chào online uy hàng uy tài v■c: l■nh thu Tác tín m■ng tín kho■n tr■ cao nh■p khơng tài phong v■c cao thành b■n nh■t email nh■t tài online khác chuyên ■■n li■u thành tín Mong b■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã mu■n t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n mang hoàn mang ngh■ 123doc ký g■c online thành v■i l■i h■o, Chúng l■i thông B■n cho 123doc.netLink cho viên Tính ■■ n■p có c■ng tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i ■■ng tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác xã tài ■i■m D■ch xã to,h■i kho■n th■c nhi■m h■i thum■t tháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ngu■n ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cótài g■i t■ng th■ tài 123doc ngun v■ mơ nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t tri d■■i tri dùng ■■■c ch■ th■c tra th■c m■c ■ây) email c■u quý M■c h■■ng quý 100.000 cho tài báu, b■n tiêu báu, li■u b■n, nh■ng phong ■ã hàng phong m■t l■■t tùy ■■ng ■■u phú, quy■n cách truy thu■c phú, ky, c■a c■p ■a ■a l■i b■n vào d■ng, 123doc.net m■i d■ng, sau xác, vuingày, n■p giàu lòng “■i■u nhanh giàu ti■n giá s■ ■■ng tr■ giá Kho■n chóng h■u tr■ thành tr■ nh■p ■■ng 2.000.000 website ■■ng Th■a th■ email th■i vi■n th■i Thu■n mong c■a thành mong tài v■ li■u mu■n viên mu■n S■ online ■■ng D■ng t■o click t■o l■n ■i■u ký, D■ch ■i■u vào nh■t l■t link ki■n ki■n V■” vào Vi■t 123doc cho top sau cho Nam, cho 200 ■ây cho ■ã cung các (sau g■i users website c■p users ■âynh■ng có ■■■c cóph■ thêm thêm tài bi■n g■i thu thu li■u t■t nh■p nh■t nh■p ■■c T■it■i Chính khơng t■ng Chính Vi■tth■i vìth■ Nam, vìv■y v■y ■i■m, tìm 123doc.net t■123doc.net th■y l■chúng tìm ki■m tơi th■ racó ■■i thu■c ■■i tr■■ng th■ nh■m nh■m c■p top ngo■i ■áp 3nh■t ■áp Google ■ng tr■ ■KTTSDDV ■ng 123doc.net nhu Nh■n nhuc■u c■u ■■■c chia theo chias■ quy■t danh s■tàitài hi■u li■u li■uch■t ch■t c■ng l■■ng l■■ng ■■ng vàvàki■m bình ki■mch■n ti■n ti■nonline online website ki■m ti■n online hi■u qu■ uy tín nh■t Sinh viên: Lƣu Văn Sơn - CT1102 Nhi■u Mang Luôn 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p không tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mơ ngun b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t MỤC LỤC DANH MỤC CHỮ VIẾT TẮT DANH MỤC BẢNG M CHƢƠNG 1: TỔNG QUAN VỀ MƠ HÌNH NGƠN NGỮ 1.1 N-gram 1.2 Xây dựng mơ hình ngơn ngữ 1.2.1 Ước lượng cực đại hóa khả (MLE) 1.2.2 Các phương pháp làm mịn 1.3 Kỹ thuật làm giảm kích thước liệu 16 1.3.1 Loại bỏ (pruning): 17 1.3.2 Đồng hóa (Quantization) 19 1.3.3 Nén (Compression) 19 1.4 Đánh giá mơ hình ngơn ngữ 19 1.4.1 Entropy – Độ đo thông tin 19 1.4.2 Perplexity – Độ hỗn loạn thông tin 21 1.4.3 MSE - Lỗi trung bình bình phương 22 CHƢƠNG 2: NG DỤNG CỦA MƠ HÌNH NGƠN NGỮ TRONG DỊCH MÁY THỐNG KÊ…… 23 2.1 Dịch máy 23 2.2 Dịch máy thống kê 24 2.2.1 Giới thiệu 24 2.2.2 Nguyên lý thành phần 26 2.2.3 Mơ hình dịch 27 2.2.4 Bộ giải mã 32 2.3 Các phương pháp đánh giá dịch 33 2.3.1 Đánh giá trực tiếp người 33 2.3.2 Đánh giá tự động: phương pháp BLEU 33 CHƢƠNG 3: THỰC NGHIỆM 35 3.1 Cài đặt hệ thống 35 Sinh viên: Lƣu Văn Sơn - CT1102 3.1.1 Cấu hình hệ điều hành 35 3.1.2 Các công cụ sử dụng 35 3.1.3 Các bước huấn luyện dich kiểm tra 36 3.1.4 Chuẩn hóa liệu 36 3.1.5 Xây dựng mơ hình ngơn ngữ 36 3.1.6 Xây dựng mơ hình dịch 36 3.1.7 Hiệu chỉnh trọng số 37 3.1.8 Dịch máy 37 3.1.9 Đánh giá kết dịch 37 3.2 Bộ công cụ xây dựng mơ hình ngơn ngữ - SRILM: 38 3.2.1 Ngram-count: 38 3.2.2 Ngram: 40 3.3 Bộ cơng cụ xây dựng mơ hình dịch máy thống kê – MOSES: 41 3.4 Kết thực nghiệm đánh giá N-gram ứng dụng SMT 43 KẾT LUẬN 45 TÀI LIỆU THAM KHẢO 46 Sinh viên: Lƣu Văn Sơn - CT1102 DANH MỤC CHỮ VIẾT TẮT LM: Mơ hình ngơn ngữ MKN: Phương pháp làm mịn Kneser-Ney cải tiến MLE: Ước lượng cực đại hóa khả MSE: Lỗi trung bình bình phương MT: Dịch máy SMT: Dịch máy phương pháp thống kê DANH MỤC HÌNH Hình 1.1: Mơ hình Markov bậc 23 Hình 2.2 : Tăng kích cỡ LM cải thiện điểm BLEU 25 Hình 2.3 : Kiến trúc hệ thống SMT 26 Hình 2.4 : Mơ hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 27 Hình 2.5: Sự tương ứng - câu tiếng Anh câu tiếng Pháp 28 Hình 2.6: Sự tương ứng câu tiếng Anh với câu tiếng Tây Ban Nha cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh 28 Hình 2.7 : Sự tương ứng - nhiều câu tiếng Anh với câu tiếng Pháp 29 Hình 2.8 : Sự tương ứng nhiều - nhiều câu tiếng Anh với câu tiếng Pháp 29 Hình 2.9: Minh họa dịch máy thống kê dựa vào cụm từ 30 Hình 2.10: Mơ hình dịch dựa cú pháp 32 Hình 2.11: Sự trùng khớp dịch máy với dịch mẫu 34 DANH MỤC BẢNG Bảng 3.1:Thống kê cụm N-gram với phương pháp làm mịn 43 Bảng 3.2: Kết theo độ đo BLEU đánh giá SMT với mơ hình Ngram khác 43 Sinh viên: Lƣu Văn Sơn - CT1102 Mô hình ngơn ngữ thành phần quan trọng ứng dụng nhận dạng tiếng nói, phân đoạn từ, dịch thống kê, … Và chúng thường mô hình hóa sử dụng n-gram Trên giới có nhiều nước cơng bố nghiên cứu mơ hình ngơn ngữ áp dụng cho ngơn ngữ họ Việt Nam, việc nghiên cứu xây dựng mơ hình ngơn ngữ chuẩn cho tiếng Việt cịn mẻ gặp nhiều khó khăn Chính điều gợi ý thúc đẩy lựa chọn tập trung nghiên cứu vấn đề để tạo điều kiện cho việc xử lý ngơn ngữ tiếng Việt vốn vô phong phú chương: Chương 1: : trình bày khái quát lý thuyết mơ hình ngơn ngữ, khó khăn cịn tồn phương pháp khắc phục, trọng tâm nghiên cứu phương pháp làm mịn, Chương 2: kê, , công cụ mã nguồn mở SRILIM để xây dựng mơ hình ngơn ngữ cho tiếng Việt MOSES để dịch máy thống kê, Sinh viên: Lƣu Văn Sơn - CT1102 CHƢƠNG 1: TỔNG QUAN VỀ MƠ HÌNH NGƠN NGỮ Mơ hình ngơn ngữ (Language Model - LM) phân phối xác suất ngữ liệu đơn ngữ, sử dụng nhiều tốn khác xử lý ngơn ngữ tự nhiên, ví dụ như: dịch máy phương pháp thống kê, nhận dạng giọng nói, nhận dạng chữ viết tay, sửa lỗi tả, … Thực chất, LM hàm chức có đầu vào chuỗi từ đầu điểm đánh giá xác suất người ngữ nói chuỗi Chính vậy, mơ hình ngơn ngữ tốt đánh giá câu ngữ pháp, trôi chảy cao chuỗi từ có thứ tự ngẫu nhiên, ví dụ sau: P(“hơm trời nắng”) > P(“trời nắng hôm”) 1.1 N-gram Cách thông dụng dùng để mơ hình hóa ngơn ngữ vào LM thơng qua n-gram Với mơ hình n-gram, coi văn bản, đoạn văn chuỗi từ liền kề nhau, w1, w2, …, wn-1, wn, sau phân tích xác suất chuỗi với cơng thức xác suất kết hợp: P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wm|w1w2…wm-1) từ liên quan có điều kiện tới tồn từ trước (ta gọi lịch sử kiện từ đó) Tuy nhiên, việc sử dụng tồn từ trước để đốn nhận từ khơng thể thực hai nguyên nhân sau Đầu tiên phương pháp không khả thi mặt tính tốn tốn q nhiều thời gian, tài nguyên hệ thống cho lần dự đoán Hai là, nhiều trường hợp, sau duyệt vài từ lịch sử, ta nhận thấy câu chưa gặp trước Bởi kể biết toàn lịch sử từ, xác suất khơng biết Thay vào đó, mơ hình ngơn ngữ thường ước lượng tương đối xác suất dựa giả định Markov (hay mơ hình Markov ẩn), từ chịu ảnh hưởng từ vài từ trước Một mơ hình Markov bậc n giả định n từ trước có liên hệ ngữ cảnh với từ cần xác định Việc định từ trước mà LM quan tâm gọi bậc n (order) LM, thường gọi 1-gram (unigram), 2-gram (bigram), 3-gram (trigram), 4-gram (fourgram) tương ứng với mơ hình Markov bậc một, hai, ba, bốn Sinh viên: Lƣu Văn Sơn - CT1102 Ví dụ, muốn ước lượng xác suất 2-gram từ wi với mơ hình Markov bậc dựa hai từ trước đó:P(w1,w2,…,wi)=P(wi/wi2,wi-1) wi-3 wi-2 wi-1 wi wi+1 Hình 1.1: Mơ hình Markov bậc Một cách tổng qt, xác suất xuất từ (wm) coi phụ thuộc vào n từ đứng liền trước (wm-nwm-n+1…wm-1) khơng phải phụ thuộc vào tồn dãy từ đứng trước (w1w2…wm-1) Như vậy, cơng thức tính xác suất văn tính lại theo cơng thức: P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wm-1|wm-n-1wm-n …wm-2)* P(wm|wm-nwm-n+1…wm-1) 1.2 Xây dựng mơ hình ngơn ngữ Để xây dựng (huấn luyện) mơ hình ngơn ngữ ta cần ngữ liệu đơn ngữ (corpus) có kích thước tương đối ước lượng thống kê có nhiệm vụ mơ hình hóa lượng xác suất ngữ liệu Các ước lượng mà LM sử dụng, theo cách khác nhau, cần đến tần suất n-gram, cần phải đếm số lần xuất n-gram từ 1-gram số bậc mơ hình huấn luyện 1.2.1 Ƣớc lƣợng cực đại hóa khả (MLE) Chúng ta sử dụng kết đếm n-gram để xây dựng mơ hình ước lượng cực đại hóa khả (Maximium Likelihood Estimation - MLE) với tần suất tương đối n-gram ngữ liệu Với MLE, xác suất unigram định xuất đơn giản tần suất xuất ngữ liệu c(wi‟) = |wi‟| số lần xuất từ wi‟ ngữ liệu Phương pháp gọi cực đại hóa giá trị đầu để mơ hình hóa ngữ liệu huấn luyện Ví dụ, ngữ liệu Brown, ngữ liệu với triệu Sinh viên: Lƣu Văn Sơn - CT1102 từ, từ khóa “Chinese” xuất 400 lần Vậy xác suất mà mơ hình ngơn ngữ dùng MLE gán cho unigram “Chinese” Xác suất điều kiện n-gram tổng quát với bậc > là: tức tần suất từ thường xuyên xuất sau lịch sử có bậc n-1 Để minh họa, ta tiếp tục ví dụ trên, xác suất bigram “Chinese food” xuất số lần từ “food” xuất sau từ “Chinese” chia cho c(Chinese) = 400 Trong ngữ liệu Brown, cụm từ “Chinese food” xuất 120 lần, nên: PMLE(food|Chinese) = 0.3 1.2.2 Các phƣơng pháp làm mịn Tuy MLE phương pháp dễ hiểu, dễ sử dụng để ước lượng xác suất cho mơ hình, thực tế ta gặp phải vấn đề liệu thưa (data sparseness problem) Tức tập ngữ liệu dùng để xây dựng LM dù lớn đến mấy, tập hữu hạn câu vơ số câu ngơn ngữ tự nhiên Do LM sử dụng MLE gán xác suất cho nhiều n-gram tốt Để giảm thiểu vấn đề này, người ta thường khơng sử dụng MLE mà thay vào phương pháp ước lượng xác suất thống kê phức tạp Các phương pháp gọi làm mịn (smoothing) hay trừ hao (discounting), mà phần xác suất từ kiện mơ hình dành cho kiện chưa xuất Việc lấy từ trừ hao đề tài nghiên cứu nhiều Ví dụ, cách cổ điển làm mịn phương pháp Add-one smoothing, phương pháp này, ta thêm lượng l vào kết đếm số lần xuất từ vựng ngữ liệu Hai khái niệm quan trọng sử dụng trình làm mịn mơ hình ngơn ngữ backoff interpolation Khi LM gặp n-gram chưa biết, việc tính xác suất sử dụng thơng tin từ (n-1)-gram, kiện (n-1)-gram chưa xuất q trình huấn luyện LM lại sử dụng thơng tin xác suất từ (n-2)gram, … Và tiếp tục tính xác suất n-gram Quá trình gọi backoff định nghĩa sau: Sinh viên: Lƣu Văn Sơn - CT1102 i Trong hệ số trừ hao dựa tần suất xuất w i n lịch sử tham số backoff Khi số lượng từ vựng đủ lớn, cần gán xác suất cho số từ từ điển (out of vocabulary - OOV) mức unigram Chẳng hạn ta có từ điển chuyên ngành không muốn chia sẻ lượng xác suất từ vựng (các danh từ chung, số thực đặc biệt, …) cho OOV Một cách khác làm mịn LM dành lượng xác suất nhỏ gán cho từ từ điển mức unigram Phương pháp Interpolation kết hợp thông tin thống kê n-gram qua tất bậc LM Nếu bậc LM n cơng thức đệ quy interpolation sau: P(wi|wi-n+1 wi-1) = P(wi|wi-n+1 wi-1) + (1- )P(wi|wi-n+2 wi-1) Trong trọng số định bậc LM có ảnh hưởng lớn đến giá trị đầu Tổng trọng số sử dụng cho tất bậc n-gram Có nhiều cách để xác định giá trị cho trọng số này, phương pháp interpolation đơn giản giá trị giảm theo số bậc n-gram Tuy nhiên thường chúng tính tốn tùy theo điều kiện ngữ cảnh cụ thể, tức theo tần suất bậc n-gram lịch sử Các trọng số khơng tính tốn từ liệu huấn luyện, mà sử dụng tập liệu held-out riêng biệt – tập dùng để huấn luyện tham số, mà trường hợp giá trị Cần phải nhận thấy khác biệt hai phương pháp interpolation sử dụng thông tin từ bậc thấp liệu xác suất n-gram cần tính khác 0; backoff lại tìm kiếm đến liệu khác gần Những tiểu mục phần trình bày số phương pháp làm mịn phổ biến Chiết khấu (Discounting): giảm (lượng nhỏ) xác suất cụm Ngram có xác suất lớn để bù cho cụm Ngram không xuất tập huấn luyện Truy hồi (Back-off) : tính tốn xác suất cụm Ngram khơng xuất tập huấn luyện dựa vào cụm Ngram ngắn có xác suất lớn Nội suy (Interpolation): tính toán xác suất tất cụm Ngram dựa vào xác suất cụm Ngram ngắn Sinh viên: Lƣu Văn Sơn - CT1102 10 1.2.2.1 Các thuật toán chiết khấu (Discounting) Nguyên lý thuật toán chiết khấu giảm xác suất cụm Ngram có xác suất lớn để bù cho cụm Ngram chưa xuất tập huấn luyện Các thuật toán trực tiếp làm thay đổi tần số xuất tất cụm Ngram Ở đề cập đến thuật toán chiết khấu phổ biến: Thuật toán Add-one Phương pháp làm mịn add-one cộng thêm vào tần số xuất tất cụm N-gram nhân với phân số chuẩn hóa (để bảo tồn tổng xác suất) P(wi|wi-n+1 wi-1) = C(wi-n+1 wi-1wi) + C(wi-n+1 wi-1) + V Trong V kích thước từ vựng Chúng ta thấy thuật toán làm thay đổi đáng kể xác suất cụm Ngram xuất tập huấn luyện kích thước từ điển V lớn Trong thực nghiệm, vài cụm Ngram có xác suất giảm gần 10 lần, kích thước từ điển lớn tần số xuất cụm Ngram khơng cao Để thuật tốn thêm hiệu quả, người ta sử dụng cơng thức sau: P(w1w2 wn) = Trong C(w1w2 wn) + C(w1w2 wn-1) + M chọn khoảng [0, 1], với số giá trị thông dụng sau: = 0: không làm mịn (MLE) = 1: phương pháp add-one = : gọi phương pháp Jeffreys – Perks Và M cụm N-gram có VN Thuật toán Witten-Bell Thuật toán Witten-Bell hoạt động dựa nguyên tắc: Khi gặp cụm N-gram có tần số 0, ta coi lần cụm từ xuất Như vậy, xác suất cụm N-gram có tần số tính dựa vào xác suất gặp cụm N-gram lần Với unigram, gọi T số cụm unigram khác xuất hiện, M tổng số cụm unigram thống kê, tổng số kiện (T+M), xác suất để Sinh viên: Lƣu Văn Sơn - CT1102 32 Hình 2.10: Mơ hình dịch dựa cú pháp 2.2.4 Bộ giải mã Như trình bày phần trên, nhiệm vụ giải mã là: cho trước câu ngơn ngữ nguồn f, tìm câu ngơn ngữ đích e tốt dịch từ f Câu ngơn ngữ đích e tốt câu làm cho giá trị P(f|e)*P(e) lớn Bộ giải mã phát triển cho mơ hình dịch cụm từ giới thiệu Marcu Wong, sử dụng phương pháp leo đồi Do khơng gian tìm kiếm lớn, nên giải mã mơ hình dịch máy thống kê thường áp dụng thuật tốn tìm kiếm tối ưu Thuật tốn mà giải mã thường áp dụng có tên A*, phương pháp tìm kiếm tốt - đầu tiên.Giải thuật A* tóm tắt sau: bước mở rộng không gian tìm kiếm, ta sử dụng hàm ước lượng, đánh giá trọng số để kết tìm ln tốt kết tìm thấy Ngữ liệu sau qua mơ hình ngơn ngữ mơ hình dịch ta bảng xác suất cho thơng số tương ứng Vấn đề tìm tích số P(e)P(v|e) lớn Có hai thuật giải thuật tốn tối ưu cho mơ hình tìm kiếm: thuật giải tìm kiếm tham lam, thuật giải tìm kiếm dựa ngăn xếp, thuật tốn tìm kiếm Sinh viên: Lƣu Văn Sơn - CT1102 33 theo chu trình Hamilton tối ưu Hai thuật giải có thời gian nhanh xử lý nhanh thuật toán kết thấp thuật toán Bộ giải mã thực tìm kiếm theo chùm (beam search) tương tự cơng việc Tillmann Och Bắt đầu việc định nghĩa khái niệm lựa chọn dịch mô tả chế hoạt động beam search thành phần cần thiết ước lượng giá trị tương lai khái niệm sinh danh sách n-best 2.3 Các phƣơng pháp đánh giá dịch Đánh giá độ xác hệ thống dịch máy nhiệm vụ vất vả khó khăn Để đánh giá độ xác dịch, ta đánh giá trực tiếp thơng qua người dùng đánh giá tự động máy tính 2.3.1 Đánh giá trực tiếp ngƣời Để đánh giá độ xác hệ thống dịch máy, ta để người trực tiếp đánh giá Chúng ta đưa thước đo cho độ trơi chảy dịch (ví dụ từ đến hay từ đến 10 tùy thuộc vào độ trơi chảy dịch), sau cho người tham gia đánh giá đánh giá câu dịch theo thang điểm Như vậy, văn có điểm trung bình cao, chất lượng dịch tốt Ngồi ra, đánh giá độ trơi chảy, độ xác dịch thông qua thời gian mà người đọc đọc hiểu dịch Rõ ràng, dịch mà người đọc đọc hiểu nhanh, dịch xác Phương án đánh giá dịch người dễ thực hiện, chi phí lớn, dịch có kích thước lớn phương pháp hiệu Ngày nay, mơ hình dịch máy áp dụng phương pháp đánh giá tự động, chi phí thấp hiệu cao 2.3.2 Đánh giá tự động: phƣơng pháp BLEU BLEU(Bilingual Evaluation Understudy) thuật toán để đánh giá chất lượng văn máy dịch từ ngôn ngữ tự nhiên khác Ý tưởng phương pháp so sánh kết dịch tự động máy với dịch mẫu người, dịch máy giống với dịch mẫu người dịch xác Việc so sánh thực thông qua việc thống kê trùng khớp từ hai dịch có tính đến thứ tự chúng câu (phương pháp n-grams theo từ) Sinh viên: Lƣu Văn Sơn - CT1102 34 Trong ví dụ hình 2.10, có hai dịch máy đem so sánh với ba dịch mẫu người Có thể thấy rằng, dịch thứ máy có nhiều từ chung (đóng khung) với dịch mẫu dịch máy thứ hai, nên theo phương pháp kết luận : dịch máy thứ xác dịch máy thứ hai Hình 2.11: Sự trùng khớp dịch máy với dịch mẫu Với dịch máy dịch mẫu thứ n, phương pháp BLEU trước tiên thống kê số lần tối thiểu cụm Ngram xuất cặp câu (câu dịch máy câu dịch mẫu), sau đem tổng chia cho tổng số cụm Ngram toản dịch máy Tỉ lệ trùng khớp dịch máy dịch mẫu thứ n tính theo cơng thức : Pn = số lượng tối thiểu cụm w có mẫu s dịch máy w s s dịch máy s số lượng cụm n-gram w dịch máy w Trong s câu dịch máy, w cụm ngram có câu s Điểm BLEU đánh giá dịch máy với n dịch mẫu tính theo công thức : BLEU = BP * ( N i=N log pi) i=1 Trong : c>r BP = e(1-r/c) với c

Ngày đăng: 05/08/2021, 22:15

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Huy Nguyễn Thạc. Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp Bloom Filter. Hà Nội : s.n., 2010 Sách, tạp chí
Tiêu đề: Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp Bloom Filter
[2]. Brown, P. F, Cocke J., Della Pietra V., Della Pietra S., Jelinek F., Lafferty J. D., Mercer R. L., and Roossin P. S. A statistical approach to machine translation. s.l. : Computational Linguistics, 1990 Sách, tạp chí
Tiêu đề: A statistical approach to machine translation
[3]. Chen, S. and Goodman, J. An empirical study of smoothing tech-niques for language modeling. s.l. : Computer Speech & Language, 1999 Sách, tạp chí
Tiêu đề: An empirical study of smoothing tech-niques for language modeling
[4]. Kneser, R. and Ney, H. Improved backing-off for m-gram language modelling. s.l. : In Proceedings of the IEEE Conference on Acoustics, Speech and Signal Processing, 1995 Sách, tạp chí
Tiêu đề: Improved backing-off for m-gram language modelling
[5]. MacCartney, Bill. NLP Lunch Tutorial: Smoothing. 21 April 2005. Tài liệu tham khảo trực tuyến Sách, tạp chí
Tiêu đề: NLP Lunch Tutorial: Smoothing
[2]. Lê Anh Cường, Cao Văn Việt, Nguyễn Việt Hà. Xây dựng mô hình ngôn ngữ tiếng Việt và ứng dụng, Trường ĐH Công Nghệ, ĐHQG Hà Nội Khác
[3]. Thắng Tô Hồng. NGRAM. Trường đại học Công Nghệ, 2007. [4]. , , ,Trường ĐH Công Nghệ, ĐHQG Hà Nội, 2009.Tài liệu tham khảo Tiếng Anh Khác
[1]. Thắng Tô Hồng. Building language model for vietnamese and its application, graduation thesis. 2008 Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w