1. Trang chủ
  2. » Luận Văn - Báo Cáo

Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center

52 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 52
Dung lượng 1,22 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ DƢƠNG THỊ HƢỜNG TỐI ƢU BẢNG CỤM TỪ CHO DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà nội – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ DƢƠNG THỊ HƢỜNG TỐI ƢU BẢNG CỤM TỪ CHO DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM Ngành Công nghệ thông tin Chuyên ngành Hệ thống thông tin Mã số 60 48 01 04 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC Tiến Sĩ – Nguyễn Văn Vinh Hà nội 2015 LỜI CAM ĐOAN Tôi xin cam đoan nội dun[.]

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ DƢƠNG THỊ HƢỜNG TỐI ƢU BẢNG CỤM TỪ CHO DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà nội – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ DƢƠNG THỊ HƢỜNG TỐI ƢU BẢNG CỤM TỪ CHO DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: Tiến Sĩ – Nguyễn Văn Vinh Hà nội- 2015 LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn đƣợc đồng ý sử dụng thông tin để xây dựng luận văn không sử dụng tùy ý nội dung luận văn vào mục đích khác; Bên cạnh nội dung luận văn hồn tồn tơi thực dƣới hƣớng dẫn tận tình TS Nguyễn Văn Vinh – Bộ mơn Khoa học máy tính – Khoa Cơng nghệ thông tin, Trƣờng Đại học công nghệ, Đại học Quốc gia Hà Nội Tôi xin cam đoan nguồn tài liệu tham khảo đƣợc liệt kê sử dụng nguyên tắc Tôi xin chịu trách nhiệm với lời cam đoan trƣớc Hội đồng phản biện./ Học viên Dƣơng Thị Hƣờng MỤC LỤC LỜI CAM ĐOAN DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ GIỚI THIỆU CHƢƠNG TỔNG QUAN VỀ DỊCH MÁY VÀ DỊCH MÁY THỐNG KÊ 1.1 Tổng quan Dịch máy 1.1.1 Định nghĩa 1.1.2 Lịch sử dịch máy 1.1.3 Vai trò dịch máy 1.1.4 Mơ hình tổng qt dịch máy 1.1.5 Hƣớng tiếp cận dịch máy 1.2 Tổng quan Dịch máy thống kê 1.2.1 Giới thiệu 1.2.2 Chu kỳ phát triển hệ dịch thống kê 1.2.3 Phân loại dịch máy thống kê 1.2.4 Phƣơng pháp tiếp cận 12 1.2.5 Một số cơng cụ nhóm nghiên cứu SMT 13 CHƢƠNG MƠ HÌNH DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ 14 2.1 Giới thiệu mô hình dịch máy dựa cụm từ 14 2.2 Kiến trúc mơ hình dịch máy thống kê dựa cụm từ 14 2.2.1 Mơ hình ngôn ngữ (P(e)) 14 2.2.2 Mơ hình dịch 16 2.2.3 Mơ hình chuyển đổi trật tự từ (reordering model) 17 2.2.4 Mô hình log-tuyến tính áp dụng cho tốn dịch máy 18 2.2.5 Giải mã 20 CHƢƠNG TỐI ƢU BẢNG CỤM TỪ CHO DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ 23 3.1 Giới thiệu 23 3.2 Mơ hình Entropy tƣơng tự cho mơ hình dịch bảng cụm từ 24 3.2.1 C p cụm từ nguyên tử c p cụm từ tổng hợp 24 3.2.2 Mơ hình Entropy cho dịch máy 27 3.2.3 Tính tốn P s, t 28 3.2.4 Tính tốn 29 3.3 ng dụng cho mơ hình dịch máy dựa vào cụm 30 3.3.1 Mơ hình dịch 30 3.3.2 Xây dựng tập h trợ 30 3.3.3 Thuật toán Pruning 31 CHƢƠNG ĐÁNH GIÁ THỰC NGHIỆM BẰNG HỆ DỊCH MÁY THỐNG KÊ MOSES 33 4.1 Môi trƣờng triển khai 33 4.2 Xây dựng chƣơng trình dịch thực tối ƣu bảng cụm từ 34 4.2.1 Chuẩn bị liệu chuẩn hóa liệu 34 4.2.2 Xây dựng mơ hình ngơn ngữ, mơ hình dịch 34 4.2.3 Cắt gọt (Pruning) bảng cụm từ theo mơ hình Entropy 35 4.2.4 Đánh giá kết dịch 37 4.3 Thực nghiệm đánh giá kết dịch từ tiếng Anh sang tiếng Việt 38 4.3.1 Đánh giá kết liệu huấn luyện bảng cụm từ 39 KẾT LUẬN 41 THAM KHẢO 42 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Thuật ngữ/Từ viết tắt Mô tả SMT Statistical Machine Translation MT Machine Transtion ALPAC Automatic Language Processing Advisory Committee - Hội đồng tƣ vấn xử lý ngôn ngữ tự động BLEU BiLingual Evaluation Understudy DANH MỤC CÁC BẢNG Bảng 3.1: Bảng dịch cụm từ với kiện liên kết 27 Bảng 4.1: Ngữ liệu tiếng việt 39 Bảng 4.2: Ngữ liệu tiếng anh 39 Bảng 4.3: Dữ liệu đầu vào 39 DANH MỤC CÁC HÌNH VẼ Hình 1.1: Lịch sử dịch máy Hình 1.2 Sơ đồ tổng quát hệ dịch máy Hình 1.3: Sơ đồ hệ dịch phƣơng pháp thống kê Hình 1.5: Chu kì phát triển hệ dịch thống kê Hình 1.6 Sự tƣơng ứng - một, câu tiếng Anh câu tiếng Pháp Hình 1.7 Sự tƣơng ứng câu tiếng Anh với câu tiếng Tây Ban Nha cho thêm từ vô giá trị null vào đầu câu tiếng Anh Hình 1.8 Sự tƣơng ứng - nhiều câu tiếng Anh với câu tiếng Pháp Hình 1.9 Sự tƣơng ứng nhiều - nhiều câu tiếng Anh với câu tiếng Pháp Hình 1.10 Mơ hình dịch dựa cú pháp 12 Hình 1.11 Dịch liên ngữ 13 Hình 2.1 Kiến trúc mơ hình dịch máy thống kê dựa cụm từ 14 Hình 2.1 Một từ tiếng Việt tƣơng ứng với ho c nhiều từ tiếng Anh (1 - n) 16 Hình 2.2 Một ho c nhiều từ tiếng Việt tƣơng ứng với từ tiếng Anh (n - 1) 16 Hình 2.3 Nhiều từ tiếng Việt tƣơng ứng với nhiều từ tiếng Anh (n – n) 16 Hình 2.4 Gióng hàng trƣớc chuyển đổi 17 Hình 2.5 Gióng hàng sau chuyển đổi 18 Hình 2.6 Mơ hình log-tuyến tính 19 Hình 2.7: Thuật tốn giải mã A* cho dịch máy 20 Hình 2.8: Thuật tốn beamsearch pruning đánh giá chất lƣợng dịch 21 GIỚI THIỆU Trong bối cảnh phát triển giới ngày nay, nhu cầu trao đổi thông tin ngày nhiều, số lƣợng ngôn ngữ sử dụng lớn Tuy nhiên, vấn đề khó khăn g p phải số lƣợng ngơn ngữ sử dụng lớn cần phải có đội ngũ phiên dịch lớn để dịch văn bản, tài liệu, lời nói từ ngơn ngữ nƣớc sang ngơn ngữ nƣớc khác Do vậy, để cải tiến đƣợc tình trạng cần phải có mơ hình tự động công việc dịch để h trợ làm giảm sức lao động ngƣời Từ đó, việc nghiên cứu dịch máy đƣợc tiến hành từ máy tính điện tử đời Cơng việc đƣa mơ hình tự động cho việc dịch đƣợc phát triển, m c dù chƣa giải đƣợc triệt để lớp ngôn ngữ tự nhiên Dịch máy giải pháp h trợ cho việc đối thoại ngƣời – máy Trong số hƣớng nghiên cứu dịch máy nay, hƣớng tiếp cận thống kê đƣợc đánh giá hƣớng phát triển tiềm thu hút đƣợc quan tâm nhiều nhà nghiên cứu giới Thay xây dựng từ điển, quy luật chuyển đổi tay, hệ dịch tự động xây dựng từ điển, quy luật dựa kết thống kê có đƣợc từ kho ngữ liệu Chính vậy, dịch máy thống kê có tính khả chuyển cao áp dụng đƣợc cho c p ngôn ngữ Cơ sở phƣơng pháp dịch thống kê dịch máy thống kê sở từ, cụm từ cú pháp Trong đó, dịch máy thống kê sở cụm từ có mục đích để giảm bớt hạn chế dịch máy thống kê sở từ cách dịch cụm từ, độ dài cụm từ nguồn cụm từ đích khác Các cụm từ kỹ thuật thƣờng không cụm từ theo nghĩa ngôn ngữ học mà cụm từ đƣợc tìm thấy cách sử dụng phƣơng pháp thống kê để trích rút từ c p câu Việc sử dụng cụm từ theo nghĩa ngôn ngữ học tức dựa cú pháp, xem phân loại cú pháp làm giảm chất lƣợng dịch máy phƣơng pháp Khi kích thƣớc tập văn huấn luyện lớn, số lƣợng cụm n-gram kích thƣớc mơ hình ngơn ngữ lớn Nó khơng gây khó khăn việc lƣu trữ, mà làm tốc độ xử lý mơ hình ngơn ngữ giảm xuống nhớ máy tính hạn chế Để xây dựng mơ hình ngơn ngữ hiệu quả, phải giảm kích thƣớc mơ hình ngơn ngữ mà đảm bảo độ xác Do vậy, việc cần có kỹ thuật để tối ƣu bảng cụm từ, làm giảm kích thƣớc mơ hình ngơn ngữ cần thiết Vì mà tơi chọn đề tài hƣớng đến việc giải toàn “Tối ƣu bảng cụm từ cho dịch máy thống kê dựa vào cụm”, phƣơng pháp mang lại tính hiệu cao, phƣơng pháp dịch máy đƣợc nghiên cứu nhiều Trong luận này, tơi trình bày theo bố cục nhƣ sau: - Chƣơng 1: Tơi tìm hiểu trình bày khái quát dịch máy dịch máy thống kê - Chƣơng 2: Trình bày chi tiết mơ hình dịch máy thống kê dựa vào cụm từ - Chƣơng 3: Đây nội dung nghiên cứu luận văn Trong chƣơng tập trung nghiên cứu chi tiết phƣơng pháp tối ƣu bảng cụm từ cho dịch máy thống kê dựa vào cụm, cụ thể mơ hình “Entropy-based Pruning” đƣợc đề xuất Wang Ling[7] - Chƣơng 4: Tôi tập trung vào việc mô tả thực nghiệm, bao gồm công việc xây dựng cài đ t chƣơng trình h trợ việc xây dựng đƣợc mơ hình ngơn ngữ, mơ hình dịch máy thống kê kết thực nghiệm đạt đƣợc - Phần cuối kết luận danh mục tài liệu, báo tham khảo 28 hợp A1 ∩ B1 , đƣợc độc lập từ C1 Và S3 nhóm A1 C1 độc lập từ B1 Theo dự kiến, kiện đƣợc mã hóa cụm từ c p p A1 ∩ B1 ∩ C1 , giả định A1 , B1 and C1 tất phụ thuộc Chúng ta thấy kiện S1 , S ho c S3 có "xác suất tƣơng tự" kiện đƣợc mã hóa c p cụm từ, loại bỏ cụm từ c p với tác động tối thiểu cụm từ dự đốn Để thức hóa ý niệm "xác suất tƣơng tự", ta áp dụng entropy tƣơng đối ho c phân kỳ KullbackLeibler, xác định phân kỳ mơ hình dịch cắt gọt Pp (s, t) mơ hình khơng đƣợc cắt gọt p(s, t) là: D( Trong P) = - ∑ log Công thức 3.1 , độ lệch xác suất đƣợc tạo từ mơ hình đƣợc cắt gọt xác suất ban đầu từ mơ hình chƣa đƣợc cắt gọt cho m i c p ngôn ngữ nguồn – đích s,t Đây tần suất c p s,t xuất hiện, đƣa P s,t Mục tiêu tối thiểu giá trị D P), thực cắt gọt cục c p cụm từ p s,t với giá trị thấp cho - log Lý tƣởng giảm thiểu entropy tƣơng đối cho tất câu nguồn câu đích có thể, khơng phải tất cụm từ mơ hình Tuy nhiên, giảm thiểu hàm mục tiêu nhƣ khó phải xếp lại, xác suất đƣợc gán cho c p cụm từ c p câu m i mô hình phụ thuộc vào vị trí tất c p cụm từ khác đƣợc sử dụng câu Bởi vấn đề phụ thuộc nhau, nên giảm bớt vấn đề để giảm vấn đề cục Vì vậy, giả định tất c p cụm từ có xác suất nhƣ nhau, bối cảnh nội dung câu Nhƣ vậy, thuật tốn cắt gọt có ngƣỡng cắt gọt tất c p cụm từ mà khơng đáp ứng đƣợc tiêu chí sau: - log > Cơng thức 3.2 Các thành phần hàm tỷ lệ tạo mơ hình cắt gọt mơ hình khơng đƣợc cắt gọt (s,t) Việc tính giá trị 3.2.3 Tính tốn P(s, t) , trọng lƣợng cho m i c p s,t P đƣợc trình bày mục dƣới 29 Thuật ngữ P s, t đƣợc xem nhƣ hàm trọng số cho m i c p s,t Ở khơng có phân phối ƣu tiên cho mơ hình P s,t Trong luận văn áp dụng phân phối khác cho P s,t Đầu tiên, phối đồng tất cụm từ có trọng lƣợng , thứ hàm đa thức định nghĩa là: Cơng thức 3.3 P(s,t) = Trong đó, N số c p câu liệu song song, N s,t số c p câu s đƣợc quan sát câu nguồn t đƣợc quan sát câu đích Sử dụng phân phối này, mơ hình đƣợc sử dụng thiên cắt gọt c p cụm từ với c p s,t 3.2.4 Tính tốn Việc tính tốn phụ thuộc vào cách thích ứng giải mã, c p cụm từ đƣợc cắt gọt từ mơ hình Trong trƣờng hợp mơ hình ngơn ngữ truy hồi Back-off , điều đƣợc giải cách tính tốn khác biệt ƣớc tính n-gram ƣớc tính truy hồi Tuy nhiên, giải mã thƣờng có chức khác Việc giải mã đƣợc thực cách sử dụng mộ giải mã Viterbi - theo MOSES (Koehn cộng sự, 2007), dịch với điểm cao đƣợc chọn Ví dụ, với s=”Lan in Viet Nam” t=” Lan Viet Nam”, giải mã chọn dẫn xuất với xác suất cao từ s sang t Sử dụng mơ hình khơng cắt gọt, mục hai cách sử dụng cụm từ p s,t ho c yếu tố h trợ tập S1 , S ho c S3 M t khác, theo mơ hình cắt gọt p s,t khơng tồn tại, S1 , S S3 sử dụng Nhƣ vậy, c p s,t có tình xảy Đầu tiên, xác suất c p cụm từ p s,t thấp phần tử xác xuất SP p s,t , hai mơ hình chọn phần tử đó, trƣờng hợp =1 Nó xảy ra, định nghĩa tính mà c p cụm từ dài hơn, chẳng hạn nhƣ trọng lƣợng từ vựng, ho c áp dụng làm mịn (Foster et al, 2006) Thứ hai, xác suất p s,t với xác suất phần từ thuộc SP p s,t , cho dù mô hình khơng đƣợc cắt gọt đƣợc chọn để sử dụng p s,t ho c phần tử đó, lƣợng xác suất mơ hình cắt gọt mơ hình khơng đƣợc cắt gọt giống trƣờng hợp =1) Cuối c ng, xác suất p s,t cao hơn, mơ hình chƣa cắt gọt 30 chọn xác xuất p s,t , mơ hình cắt gọt tạo yếu tố có khả SP(p(s,t)) Do đó, việc xác xuất hai mơ hình tạo tỷ lệ xác suất p s,t xác suất phần từ có khả SP p s,t Từ thấy hàm là: ∏ Với ∏ P p s,t Công thức 3.4 biểu diễn cho xác suất p s,t chu i khả dịch cụm từ dịch từ s sang t, với xác suất tất xác suất chu i Thay vào cơng thức 3.2, điều kiện cuối phải đƣợc thỏa mãn để c p cụm từ là: ∏ P(s,t)log > Cơng thức 3.5 3.3 ng dụng cho mơ hình dịch máy dựa vào cụm 3.3.1 Mơ hình dịch Các mơ hình dịch Mose đƣợc cấu tạo mơ hình dịch cụm từ mơ hình xếp lại cụm từ Trong mơ hình đầu tiên, m i c p cụm từ p s,t , xác suất việc dịch từ s sang t cách kết hợp nhiều đ c tính , đƣợc đo theo , (p)=∏ Các mơ hình xếp lại tƣơng tự, nhƣng xếp lại cục p với cụm từ trƣớc phía đích, , ho c nhiều (p| , ,) = ∏ Công thức 3.6) y dựng tập h trợ Vê bản, thực mơ hình tƣơng đối để tính tốn thành phần đƣợc mơ tả cơng thức 3.5 Đó P s,t , P p s|t argmax(SP(p(s,t))) Tính tốn phân bổ đồng phân phối đa thức P s,t đơn giản, phân bổ đồng đảm bảo giá trị cho tất s t, phối đa thức đƣợc mơ hình hóa cách chiết xuất số đếm từ ngữ liệu giống Tính P s|t khơng q khó khăn, ta cần tính tính PT(p(s,t)), đƣợc thực cách lấy đ c tính dịch p áp dụng cho trọng số m i đ c tính 3.3.2 31 Thách thức tính giá trị argmax SP p s,t , tƣơng tự nhƣ việc giải mã dịch máy, cần tìm dịch tốt ̂ cho câu s, với giá trị ̂ argma P(s|t)P(t) Trong thực tế, khơng tìm khơng gian dịch, nhƣng khơng gian nguồn chu i dịch cụm từ ( , , ( áp dụng từ s để tạo đầu t với điểm số cho P(t)∏ Thuật tốn xác định SP p s,t đƣợc mơ tả nhƣ tƣơng thích với thuật tốn giải mã Mose, nơi mà giới hạn khơng gian tìm kiếm thành khơng gian SP p s,t , khơng gian tìm kiếm cấu tạo đầu t, mà không sử dụng p Điều đƣợc thực cách sử dụng bắt buộc thuật toán giải mã đề xuất Schwartz, 2008 Thứ hai, số điểm giả định dịch không phụ thuộc vào xác xuất P t mơ hình ngơn ngữ, tất nguồn khơng gian tìm kiếm có t nhƣ nhau, chúng tơi loại bỏ xác xuất từ số điểm đ c tính Cuối cùng, thay sử dụng tìm kiếm Beam, ta phải hiểu hết khía cạnh tìm kiếm tất khơng gian tìm kiếm, để giảm bớt giả định phát sinh l i tìm kiếm giai đoạn Điều có thể, c p cụm từ thƣờng nhỏ so với văn từ , có ràng buộc khơng gian tìm kiếm cho t, nên độ lớn nhỏ không gian tìm kiếm thơng thƣờng với tất dịch 3.3.3 Thuật toán Pruning Thuật toán đƣợc dùng để tạo mơ hình dịch đƣợc cắt gọt nhƣ sau: thực duyệt qua tất cụm từ ( , , ( Và giải mã cách sử dụng thuật tốn giải mã, từ đến , để có đƣờng tốt S Nếu khơng có đƣờng đƣợc tìm thấy nghĩa là ngun tử Sau thực cắt gọt dựa công thức 3.5 Thuật toán 1: Cắt gọt độc lập Yêu cầu: Ngƣỡng cắt gọt , Mơ hình chƣa đƣợc cắt gọt { ( for ( , ) ( , , S:=argmax(SP( ))\ Score:= If S then Score: = End if P(s,t)log ∏ , , ( ( } } 32 If score then Prune( ) End if End for Return Mơ hình dã cắt gọt Nút thắt thuật tốn tìm argmax(SP(s,t)), điều xuất tƣơng đối đơn giản tƣơng tự nhƣ công việc giải mã tài liệu, kích thƣớc cơng việc trật tự khác độ lớn, cần giải mã m i c p cụm từ mơ hình dịch, khơng phải cho mơ hình lớn với hàng triệu c p cụm từ, đƣợc giải mục “Pruning Setup” đƣợc trình bày cụ thể mục sau Một vấn đề khác với thuật toán việc định để cắt gọt m i c p cụm từ đƣợc giả định, tất c p cụm từ khác đƣợc giữ ngun mơ hình Vì vậy, có thách thức c p cụm từ đƣợc cắt gọt dẫn xuất sử dụng dẫn đến dịch giống Tuy nhiên, xảy việc đƣợc cắt gọt dẫn xuất nhƣ khơng cịn Một giải pháp để thực giải vấn đề thực cắt gọt l p l p lại từ c p cụm từ nhỏ số từ tăng kích thƣớc m i lần l p Tuy nhiên, việc khơng mong muốn, mơ hình hƣớng vào việc loại bỏ c p cụm từ nhỏ, mà c p cụm từ nhỏ thƣờng hữu ích chúng đƣợc sử dụng nhiều dẫn xuất để thay c p cụm từ lớn Trong ví dụ trên, mơ hình loại bỏ giữ , chƣa có lựa chọn tốt để giữ loại bỏ , thƣờng xuyên sử dụng dẫn xuất c p cụm từ 33 CHƢƠNG ĐÁNH GIÁ THỰC NGHIỆM BẰNG HỆ DỊCH MÁY THỐNG KÊ MOSES Để phục vụ cho việc thử nghiệm hệ dịch, sử dụng phần mềm opensource Moses làm công cụ thử nghiệm Moses hệ thống dịch máy thống kê cho phép ngƣời dùng xây dựng mơ hình dịch cho c p ngôn ngữ với đầu vào tập hợp văn song ngữ, đƣợc nhiều trƣờng đại học, nhóm nghiên cứu tiếng xử lý ngôn ngữ tự nhiên dịch máy thống kê nhƣ Edinburg Scotland , RWTH Aachen (Germany), tham gia phát triển Đây phần mềm có chất lƣợng tốt, khả mở rộng cao đƣợc dùng để xây dựng nhiều hệ thống dịch thử nghiệm cho nhiều c p ngôn ngữ nhƣ Anh-Czech, Anh-Trung, Anh-Pháp, Moses cho phép tự đào tạo mơ hình dịch cho c p câu song ngữ Nhiệm vụ thu thập cung cấp liệu đầu vào ngữ liệu song ngữ, sau Moses tự động huấn luyện mơ hình dịch Hệ thống dịch máy thống kê chứa số thành phần sau: - Tệp phrase-table: tệp chứa cụm song ngữ theo định dạng: “cụm từ ngơn ngữ đích | cụm từ ngôn ngữ nguồn | xác suất” - tệp moses.ini chứa tham số cho giải mã nhƣ: đƣờng dẫn đến tệp phrase-table, đƣờng dẫn đến tệp chứa mơ hình ngơn ngữ, số lƣợng tối đa cụm từ ngơn ngữ đích đƣợc dịch cụm từ ngôn ngữ nguồn, Để xây dựng đƣợc mơ hình dịch thống kê, ta sử dụng script: trainmodel.perl với số tham số sau: - -root-dir cài đ t thƣ mục gốc nơi lƣu trữ tệp đầu - -corpus tên tệp văn huấn luyện (bao gồm ngơn ngữ nguồn đích - -e mở rộng tệp văn huấn luyện ngôn ngữ đích - -f mở rộng tệp văn huấn luyện ngôn ngữ nguồn - -lm language model: :: : thiết lập file cấu hình mơ hình ngơn ngữ theo định dạng trình bày phần 3.3 - -max-phrase-length độ dài lớn cụm từ lƣu trữ tệp phrase-table 4.1 Mơi trƣờng triển khai Cấu hình phần cứng phần mềm cài đ t - CPU Intel Core i3 - RAM 4GB 34 - Hệ điều hành Ubuntu 12.04 LTS, 64 bit Hệ thống dịch máy Moses cài đ t Os khác nhƣ Linux, OSX hay Windows Ở phần demo cài đ t chạy test case Linux cụ thể Ubuntu phiên 12.04 LTS Các công cụ theo: - Hệ thống cài Boost - SRILM - CMPH Library Công cụ xây dựng mô hình dịch: GIZA++, mkcls 4.2 Xây dựng chƣơng trình dịch thực tối ƣu bảng cụm từ 4.2.1 Chuẩn bị liệu chuẩn hóa liệu Dữ liệu đầu vào cần đƣợc chuẩn hóa theo dạng qui định Việc chuẩn hóa liệu bao gồm công việc nhƣ: - Tách từ - Tách câu - Chuyển sang chữ thƣờng, chữ hoa - Loại bỏ từ dƣ thừa -… Việc chuẩn hóa liệu bƣớc tiền xử lý hệ dịch máy Có nhiều phƣơng pháp để chuẩn hóa liệu đầu vào đƣợc cung cấp miễn phí dƣới dạng mã nguồn mở 4.2.2 Xây dựng mơ hình ngơn ngữ, mơ hình dịch  Bộ cơng cụ xây dựng mơ hình ngơn ngữ - SRILM - SRILM gói cơng cụ để xây dựng mơ hình dịch ngơn ngữ Nó giúp xây dựng đƣợc mơ hình ngơn ngữ trƣớc cho vào máy dịch SRILM bao gồm thành phần sau: - Một tập hợp thƣ viện C + + giúp cài đ t mơ hình ngôn ngữ, h trợ cấu trúc liệu chức tiện ích nhỏ - Một tập hợp chƣơng trình thực thi, thực nhiệm vụ xây dựng mơ hình ngơn ngữ, đào tạo thử nghiệm mơ hình ngơn ngữ liệu, gắn thẻ ho c phân chia văn bản, Bộ cơng cụ SRILM có nhiều chƣơng trình con, để xây dựng mơ hình ngơn ngữ, chúng tơi sử dụng chƣơng trình Ngram-count Ngram[], dung lƣợng khoảng 90MB liệu đơn ngữ 35  Bộ công cụ GIZA++ Chúng ta sử dụng GIZA++ để xây dựng mơ hình dịch dùng mkcls để ƣớc lƣợng giá trị cực đại cho m i mơ hình Chức chủ yếu GIZA++ gióng hàng từ từ nguồn ngữ liệu song ngữ GIZA++ đƣợc tích hợp với MOSES để huấn luyện, xây dựng mơ hình dịch Sau chuẩn hóa liệu xây dựng mơ hình ngơn ngữ, mơ hình dịch việc dịch máy Bộ ngữ liệu song ngữ c p ngôn ngữ khác Tiến hành dịch so sánh kết 4.2.3 Cắt gọt (Pruning) bảng cụm từ theo mơ hình Entropy Để xây thực cắt gọt bảng cụm từ, sử dụng công cụ SALM tích hợp tự động với Moses SALM cho phép loại bỏ cụm từ dƣ thừa nhằm giảm kích thƣớc bảng Phrase tăng tốc độ dịch Tuy nhiên, việc thực tính tốn điểm quan trọng Johnson et al., 2007 3, sử dụng phiên cập nhật lại code Chris Dyer thƣ mục “contrib/relent-filter/sigtest-filter” Chúng ta thực nhƣ sau: Bƣớc 1: Cài đ t công cụ h trợ Tải cài SALM4 Bƣớc 2: Biên dịch Chạy "make SALMDIR=/path/to/SALM" in "contrib/relent-filter/sigtestfilter" để tạo thực thi filter-pt Bƣớc 3: chuẩn bị file liệu s_train: file liệu gốc để training Trong phần thực nghiệm chọn s_train là: “ ~/tools/work/corpus/50001b_train.en “ t_train: file liệu mục tiêu Trong phần thực nghiệm chọn t_train “~/tools/work/corpus/50001b_train” moses_ini: đƣờng dẫn đến file cấu hình Moses sau tuning , phần thực nghiệm dùng “~/tools/work/mert-work/moses.ini” pruning_binaries: đƣờng dẫn đến thƣ mục pruning, phần thực nghiệm dùng “~/tools/moses/bin” (5) pruning_scripts: đƣờng dẫn đến thƣ mục: "contrib/relent- http://www.aclweb.org/anthology/D/D07/D07-1103.pdf http://projectile.sv.cmu.edu/research/public/tools/salm/salm.htm#update 36 filter/scripts" (6 sigbin: đƣờng dẫn đến "contrib/relent-filter/sigtest-filter" (7) output_dir: đƣờng dẫn thƣ mục chứa kết đầu Trong phần thực nghiệm chọn “~/tools/” Bƣớc 4: Xây dựng mảng hậu tố cho liệu training song ngữ ngôn ngữ nguồn ngơn ngữ đích % SALM/Bin/Linux/Index/IndexSA.O32 % SALM/Bin/Linux/Index/IndexSA.O32 Bƣơc 5: tính điểm cho c p cụm từ % perl /calcPruningScores.pl -moses_ini \ -training_s -training_t \ -prune_bin -prune_scripts \ -moses_scripts /scripts/training/ \ -workdir -dec_size 10000 Kết đầu bƣớc file đƣợc sinh thƣ mục /scores/ dir: count.txt : đếm c p cụm từ cho N(s, t) N (s, *) N (*, t) divergence.txt: log phân kỳ c p cụm từ empirical.txt - phân phối thực nghiệm c p cụm từ N s, t / N (*, *) rel_ent.txt: entropy tƣơng đối c p cụm từ significance.txt : tính điểm quan trọng c p cụm từ Chúng ta sử dụng tập tin cho cắt gọt kết hợp điểm số cách sử dụng scripts /interpolateScores.pl Để thực cắt gọt bảng cụm từ, chạy /prunePT.pl, điều cắt gọt c p cụm từ dựa tập tin điểm số đƣợc sử dụng Bƣớc 6: thực cắt gọt với mô hình entropy Ví dụ, để cắt gọt giảm 30% kích thƣớc bảng cụm từ, ta sử dụng entropy quan hệ nhƣ sau: % perl /prunePT.pl -table \ -scores /scores/rel_ent.txt -percentage 70 > Ho c cắt gọt ngƣỡng 37 % perl /prunePT.pl -table \ -scores /scores/rel_ent.txt -threshold 0.1 > Bƣớc 7: thay với % perl /prunePT.pl -table \ -scores /scores/rel_ent.txt -percentage 70 > Bƣớc 8: Song song hóa Các scripts /calcPruningScores.pl đòi hỏi việc giải mã buộc toàn c p cụm từ bảng cụm từ, nhƣ trừ đƣợc sử dụng cho ngữ liệu nhỏ, thƣờng địi hỏi lƣợng lớn thời gian để xử lý Vì vậy, khuyên ngƣời dùng chạy nhiều trƣờng hợp /calcPruningScores.pl song song để xử lý phần khác bảng cụm từ Để làm điều này, chạy câu lệnh sau: % perl /calcPruningScores.pl -moses_ini \ -training_s -training_t \ -prune_bin -prune_scripts \ -moses_scripts /scripts/training/ \ -workdir -dec_size 10000 -start -end 100000 4.2.4 Đánh giá kết dịch Kết dịch máy thống kê có xác hay khơng dựa vào số dịch máy Có số cần quan tâm số BLEU [11] số NIST  Chỉ số BLEU Đây số đánh giá chất lƣợng dịch máy dịch thống kê từ ngôn ngữ sang ngôn ngữ khác Kết dịch máy thống kê xác số BLEU cao ngƣợc lại Điểm số BLEU đƣợc tính dựa vào việc so sánh câu dịch đƣợc với tập hợp câu dịch tốt, sau lấy giá trị trung bình từ câu Chỉ số BLEU có giá trị nằm từ đến Chỉ số gần chất lƣợng dịch tốt, số nhỏ gần tới chất lƣợng dịch BLEU tính điểm cách đối chiếu kết dịch với tài liệu dịch tham khảo tài liệu nguồn M c dù điểm BLEU thƣờng không thực tƣơng quan với đánh giá thủ công ngƣời với loại hệ thống khác nhau, nhƣng đảm bảo xác để đánh giá hệ thống 38 dịch thống kê Chính vậy, luận văn này, điểm BLEU đƣợc sử dụng làm tiêu chuẩn đánh giá chất lƣợng dịch Chúng tơi lấy trung bình hình học điểm xác sửa đổi văn liệu thử sau nhân kết yếu tố hình phạt ngắn gọn theo cấp số nhân Hiện nay, trƣờng hợp gấp việc bình thƣờng hóa văn đƣợc thực trƣớc tính tốn độ xác Đầu tiên tính trung bình hình học độ xác n-gram sửa đổi, pn, sử dụng n-gram đến chiều dài N trọng lƣợng tích cực WN cách tổng hợp Tiếp theo, gọi c độ dài cụm từ mục tiêu r chiều dài tham khảo liệu hiệu Chúng ta ƣớc tính phạt ngắn gọn BP { Sau đó, BLEU= BP.exp(∑ ) Các cách xếp hạng nhiều rõ ràng việc tính bleu log BLEU = min(1-r/c, 0) + ∑ (Cơng thức 4.1) Trong sở chúng tôi, sử dụng N = trọng lƣợng đồng wn = 1/N  Chỉ số NIST Về phƣơng pháp đánh giá nhờ số NIST tƣơng tự nhƣ số BLEU nhƣng có số khác biệt Chỉ số NIST cung cấp thông tin cần thiết để đánh giá trọng số dịch 4.3 Thực nghiệm đánh giá kết dịch từ tiếng Anh sang tiếng Việt Từ liệu gồm 50.000 câu tiếng anh 50.000 câu tiếng việt Sau training liệu sinh bảng cụm từ cụm từ-table.gz)  Ngữ liệu tiếng Việt: Một ngữ liệu nhỏ đơn ngữ tiếng Việt đƣợc sử dụng với mục đích củng thêm cố kết với việc thử nghiệm nhiều ngữ liệu khác Ngữ liệu đƣợc xây dựng từ nhiều viết “Báo Lao động” phiên điện tử thuộc nhiều lĩnh vực khác nhƣ khoa học, kinh tế, thể thao, văn hóa [3] Các thống kê ngữ liệu đƣợc liệt kê bảng dƣới đây: 39 Bảng 4.1: Ngữ liệu tiếng việt Số lƣợng câu Số lƣợng từ Số lƣợng từ vựng 54643 580754 24097 Độ dài trung bình câu 10.628  Ngữ liệu tiếng Anh: Bảng 4.2: Ngữ liệu tiếng anh Số lƣợng câu Số lƣợng từ Số lƣợng từ vựng 54643 614578 23084 Độ dài trung bình câu 11.247  Bảng liệu đầu vào: Bảng 4.3: Dữ liệu đầu vào Dữ liệu Dữ liệu huấn luyện Dữ liệu điều Chỉnh tham số Dữ liệu đánh giá Ngôn ngữ Tiếng Anh Tiếng Việt Tiếng Anh Tiếng Việt Tiếng Anh Tiếng Việt Độ dài trung bình Tên tệp tin thực nghiệm Câu Từ Từ vựng 54643 614578 23084 11.247 50001b_train.en 54643 580754 24097 10.628 50001b_train.vn 201 2403 966 11.995 50001_dev.en 201 2221 1002 11.049 50001_dev.vn 500 5620 1844 11.24 50001_test.en 500 5264 1851 10.528 50001_test.vn 4.3.1 Đánh giá kết liệu huấn luyện bảng cụm từ Dữ liệu huấn luyện đƣợc thay đổi theo kích thƣớc tập ngữ liệu đầu vào, việc thay đổi trình làm tăng ho c giảm số câu số dịng c p ngữ liệu đầu vào Việc thay đổi liệu huấn luyện làm ảnh hƣởng đến mơ hình dịch, mơ hình ngơn ngữ, … từ ảnh hƣởng lớn đến trình đánh giá chất lƣợng dịch máy Đối với liệu bảng cụm từ gốc, với 50.000 c p câu, ta có kết nhƣ sau: 40 Nhƣ vậy, liệu huấn luyện 50.000 c p câu cho ta kết bảng cụm từ sinh có kích thƣớc 162MB, với điểm BLEU 0.3407 Sau thực cắt gọt bảng cụm từ ta có kết nhƣ sau: Bảng 4.4: So sánh í h thước bảng cụm từ sau tối ưu Kích thƣớc bảng Entropy (m) Pruning 97MB(60%) 33.98 129MB(80%) 34.03 162MB(100%) 34.07 Nhìn vào kết bảng 4.4 so sánh kết ta thấy, xét tập ngữ liệu 50.000 câu kích cỡ bảng cụm từ 162 Mb, với điểm BLEU 34.07, sau thực cắt gọt 60% điểm BLEU 33.98, chênh lệch 0.09 giảm dung lƣợng bảng từ 162Mb xuống 97Mb Cắt gọt 80% điểm BLEU 34.03, chênh lệch 0.04 giảm dung lƣợng bảng từ 162Mb xuống 129Mb Nhƣ vậy, kích thƣớc liệu bảng cụm từ sau đƣợc cắt gọt giảm đáng kể so với bảng cụm trƣớc đƣợc cắt gọt Chúng ta không cần phải dùng đến không gian nhớ lớn để lƣu bảng cụm từ 41 KẾT LUẬN Trong luận văn hƣớng tới mục đích tìm hiểu nghiên cứu phƣơng pháp cải thiện bảng cụm từ m t hiệu cụ thể dung lƣợng bảng cụm từ trình dịch nhƣng đảm bảo đƣợc chất lƣợng dịch Qua bốn chƣơng, luận văn trình bày cách tiếp cận dịch máy dựa cụm từ, phƣơng pháp tối ƣu bảng cụm từ theo kỹ thuật Pruning (cụ thể mơ hình “Entropy-based Pruning” , đồng thời áp dụng vào toán dịch Anh – Việt Các kết đạt đƣợc là: - Trình bày cách tiếp cận dịch máy thống kê sở cụm từ - Trình bày phƣơng pháp cắt gọt bảng cụm từ theo mơ hình “Entropybased Pruning” - Áp dụng phƣơng pháp cắt gọt bảng cụm từ theo mơ hình “Entropybased Pruning” dịch Anh – Việt, đánh giá thử nghiệm với c p ngữ liệu song ngữ cho kết khả quan Hƣớng phát triển: Với kết đạt đƣợc luận văn này, hy vọng tƣơng lai cải thiện đƣợc chất lƣợng dịch thời gian dịch cách cập nhật ngữ liệu đầu vào đủ lớn, giảm kích thƣớc bảng cụm từ, thay đổi vài tham số để q trình huấn luyện mơ hình đƣợc tốt hơn: - Thử nghiệm với liệu đa dạng lớn - Tìm hiểu thêm phƣơng pháp cắt gọt bảng cụm từ - Tìm hiểu phƣơng pháp cải tiến để kết hiệu - Áp dụng cho chiều dịch từ Việt – Anh 42 THAM KHẢO Tài liệu tiếng Việt [1] Đào Ngọc Tú 2012 , “Nghiên cứu vào dịch thống kê dựa vào cụm từ thử nghiệm với c p ngôn ngữ Anh – Việt” Luận văn Thạc sỹ, Học viện Cơng nghệ Bƣu Viễn thơng [2] Nguyễn Văn Vinh 2005 , “Xây dựng chƣơng trình dịch tự động AnhViệt phƣơng pháp dịch thống kê” Luận văn Thạc sĩ, Đại học Công nghệ, Đại học Quốc gia Hà Nội Tài liệu tiếng Anh [3] Daniel Jurafsky and James H Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, chapter 6, February 2000 [4] Och F.J and Ney H., “Discriminative training and maximum entropy models for statistical machine translation” In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pages 295-302, Philadelphia, PA, July 2002 [5] Kenji Yamada and Kevin Knight, A Syntax-based Statistical Translation Model, Information Sciences Institute, University of Southern California [6] Philipp Koehn and Kevin Knight, “Introduction to Statistical Machine [7] WangLing, JoaoGrac, Isabel, Trancoso, AlanBlack, “Entropy-based Pruning for Phrase-based Machine Translation” [8] Papineni, Kishore, Salim Roukos, Todd Ward and Wei-Jing Zhu (2002), BLEU: a method for automatic evaluation of machine translation In Proceedings of the 40th Annual Meeting of the ACL, pages 311-318, Philadelphia, PA ... Pairs In->em In->na In->no In->dentro In->dentro de Portugal->Portugal John->John Composite Phrase Pairs In Portugal -> em Portugal John in->John em John in->John na John in->John no John in->John... biểu diễn d a i - bi-1 , vị trí bắt đầu cụm từ fi , cịn bi-1 vị trí kết thúc cụm từ fi-1 d(ai - bi-1) =  |ai - bi-1 - 1| với  số nhỏ Khi đó, xác suất dịch P f|e đƣợc tính theo cơng thức: i=n P(f|e)... với số tham số sau: - -root-dir cài đ t thƣ mục gốc nơi lƣu trữ tệp đầu - -corpus tên tệp văn huấn luyện (bao gồm ngơn ngữ nguồn đích - -e đuôi mở rộng tệp văn huấn luyện ngơn ngữ đích - -f

Ngày đăng: 02/06/2022, 23:37

HÌNH ẢNH LIÊN QUAN

TỐI ƢU BẢNG CỤM TỪ - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
TỐI ƢU BẢNG CỤM TỪ (Trang 1)
TỐI ƢU BẢNG CỤM TỪ - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
TỐI ƢU BẢNG CỤM TỪ (Trang 2)
Hình 1.1: Lịch sử của dịch máy - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
Hình 1.1 Lịch sử của dịch máy (Trang 11)
Do vậy, để cải tiến đƣợc tình trạng này cần phải có một mô hình tự động trong công việc dịch, và việc nghiên cứu về dịch máy đã đƣợc tiến hành ngay từ  khi chiếc máy tính điện tử đầu tiên ra đời - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
o vậy, để cải tiến đƣợc tình trạng này cần phải có một mô hình tự động trong công việc dịch, và việc nghiên cứu về dịch máy đã đƣợc tiến hành ngay từ khi chiếc máy tính điện tử đầu tiên ra đời (Trang 14)
+ Mô hình tốt hơn: Ở đây, mục tiêu là phải phát triển mô hình mà mô hình này mô tả càng nhiều các thuộc tính của ngôn ngữ tự nhiên và các tham số  tự do của nó có thể đƣợc ƣớc lƣợng từ dữ liệu huấn luyện - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
h ình tốt hơn: Ở đây, mục tiêu là phải phát triển mô hình mà mô hình này mô tả càng nhiều các thuộc tính của ngôn ngữ tự nhiên và các tham số tự do của nó có thể đƣợc ƣớc lƣợng từ dữ liệu huấn luyện (Trang 17)
Mô hình dịch có 3 phƣơng pháp tiếp cận chính: -Mô hình dịch dựa trên từ (word-based)  - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
h ình dịch có 3 phƣơng pháp tiếp cận chính: -Mô hình dịch dựa trên từ (word-based) (Trang 18)
Hình 1.7 Sự tương ứng giữa câu tiếng Anh với câu tiếng Tây Ban Nha khi cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh  - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
Hình 1.7 Sự tương ứng giữa câu tiếng Anh với câu tiếng Tây Ban Nha khi cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh (Trang 19)
nào sẽ đƣợc ánh xạ với từ vô giá trị đó. Hình 1.7 [1] ở dƣới thể hiện một tƣơng ứng từ giữa hai câu tiếng Anh và tiếng Tây Ban Nha khi cho thêm từ vô giá trị  vào đầu câu tiếng Anh - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
n ào sẽ đƣợc ánh xạ với từ vô giá trị đó. Hình 1.7 [1] ở dƣới thể hiện một tƣơng ứng từ giữa hai câu tiếng Anh và tiếng Tây Ban Nha khi cho thêm từ vô giá trị vào đầu câu tiếng Anh (Trang 19)
Hình 1.10 Mô hình dịch dựa trên cây cú pháp - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
Hình 1.10 Mô hình dịch dựa trên cây cú pháp (Trang 22)
Hình 1.11 Dịch liên ngữ - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
Hình 1.11 Dịch liên ngữ (Trang 23)
Kết nối trong mô hình dóng hàng từ có thể là –1 một từ của câu nguồn tƣơng ứng với một từ trong câu đích , 1 – nhiều  một từ tƣơng ứng với nhiều từ ,  hay nhiều - nhiều  nhiều từ tƣơng ứng với nhiều từ  - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
t nối trong mô hình dóng hàng từ có thể là –1 một từ của câu nguồn tƣơng ứng với một từ trong câu đích , 1 – nhiều một từ tƣơng ứng với nhiều từ , hay nhiều - nhiều nhiều từ tƣơng ứng với nhiều từ (Trang 26)
Trong khi mô hình ngôn ngữ bảo đảm cho câu đích đƣợc dịch trôi chảy thì mô hình dịch đảm bảo cho việc câu đích đƣợc dịch tƣơng ứng với câu nguồn - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
rong khi mô hình ngôn ngữ bảo đảm cho câu đích đƣợc dịch trôi chảy thì mô hình dịch đảm bảo cho việc câu đích đƣợc dịch tƣơng ứng với câu nguồn (Trang 26)
mô hình dóng hàng từ và mô hình dịch: - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
m ô hình dóng hàng từ và mô hình dịch: (Trang 27)
Hình 2.5 Gióng hàng sau khi chuyển đổi - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
Hình 2.5 Gióng hàng sau khi chuyển đổi (Trang 28)
Hình 2.6 Mô hình log-tuyến tính - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
Hình 2.6 Mô hình log-tuyến tính (Trang 29)
Hình 2.8: Thuật toán beamsearch pruning đánh giá chất lượng dịch - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
Hình 2.8 Thuật toán beamsearch pruning đánh giá chất lượng dịch (Trang 31)
3.2.2. Mô hình Entropy cho dịch máy - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
3.2.2. Mô hình Entropy cho dịch máy (Trang 37)
3.2.2. Mô hình Entropy cho dịch máy - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
3.2.2. Mô hình Entropy cho dịch máy (Trang 37)
Thuật toán đƣợc dùng để tạo ra một mô hình dịch đƣợc cắt gọt nhƣ sau: thực  hiện  duyệt  qua  tất  cả  các  cụm  từ   (    ,......, (     - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
hu ật toán đƣợc dùng để tạo ra một mô hình dịch đƣợc cắt gọt nhƣ sau: thực hiện duyệt qua tất cả các cụm từ ( ,......, ( (Trang 41)
Return Mô hình dã cắt gọt - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
eturn Mô hình dã cắt gọt (Trang 42)
Bảng 4.1: Ngữ liệu tiếng việt. - Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center
Bảng 4.1 Ngữ liệu tiếng việt (Trang 49)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN