... không_ phả i trở_thành không_ đún g làm nhà chỗ_ở quê_hương trở_thành quê_hương anh_ta không làm không 18 go Giải mã Mở rộng không gian giả thuyết He did not go home anh_ta làm không thực_hiện ... vào liệu huấn luyện: Dữ liệu huấn luyện đủ lớn cho chất lượng dịch cao (trường hợp ngữ liệu lĩnh vực chung 160,000 cặp câu) Dữ liệu huấn luyện nhỏ cho chất lượng dịch thấp (trường hợp liệu ... ngữ Dữ liệu thưa: p(z | x y) = c(xyz)/ c(xy) Ngữ liệu giới hạn: “xyz” không xuất hiện p(z| xy)=0 câu v chứa “xyz” bị gán p(v)=0 Cần ước lượng lại p(z|xy): Phương pháp làm mịn (smoothing):...
Ngày tải lên: 09/08/2015, 14:42
... MEM) 4.5.1 Tổng Quan Tư tưởng Maximum Entropy không tính đến ràng buộc mô hình đồng tốt Tức mô hình Maximum Entropy mô hình tất biết không thừa nhận mà chưa biết Ta xem xét ví dụ trực quan sau: ... yêu cầu đặc trưng đưa phải phê chuẩn tập liệu mẫu, tập liệu mẫu giữ lại từ tập liệu ban đầu Nếu đặc trưng không cung cấp lượng tăng hàm log-likelihood tập liệu giữ lại đặc trưng bị loại bỏ Tuy nhiên, ... C lớn Hình 13 cho ta thấy thể hình học trực quan Ở đây, P không gian phân phối xác suất (không điều kiện) điểm, thường gọi đơn hình (simplex) Nếu ta không áp đặt ràng buộc, tất mô hình xác suất...
Ngày tải lên: 09/06/2015, 13:08
Tối ưu bảng cụm từ cho dịch máy thống kê dựa vào cụm
... MỤC CÁC HÌNH VẼ GIỚI THIỆU CHƢƠNG TỔNG QUAN VỀ DỊCH MÁY VÀ DỊCH MÁY THỐNG KÊ Error! Bookmark not defined 1.1 Tổng quan Dịch máy Error! Bookmark not defined 1.1.1 Định nghĩa ... Error! Bookmark not defined 1.1.4 Mô hình tổng quát dịch máy Error! Bookmark not defined 1.1.5 Hƣớng tiếp cận dịch máy Error! Bookmark not defined 1.2 Tổng quan Dịch máy thống kê Error! Bookmark ... Bookmark not defined Bảng 4.1: Ngữ liệu tiếng việt Error! Bookmark not defined Bảng 4.2: Ngữ liệu tiếng anh Error! Bookmark not defined Bảng 4.3: Dữ liệu đầu vào Error! Bookmark...
Ngày tải lên: 27/08/2016, 23:01
Luận văn sử dụng mô hình xác suất cho bài toán chuyển đổi trật tự từ trong dịch máy thống kê anh – việt dựa trên ngữ
Ngày tải lên: 27/08/2014, 17:14
Dịch máy Anh - Việt dựa trên phương pháp thống kê tích hợp với thông tin ngôn ngữ
... làm mịn (smoothing) Nếu “z” chưa theo sau “xy” văn bản, “z” theo sau “y” Nếu điều đúng, chuỗi từ “xyz” không tồi Nếu không “z” lại từ không phổ biến không Trong nhiều trường hợp, liệu học ta không ... liệu cho hệ dịch 5.1.1 Chuẩn bị ngữ liệu 5.1.1.1 Ngữ liệu song ngữ Các kết luận văn thử nghiệm tập ngữ liệu song ngữ sau: Tập liệu gồm 17795 cặp câu pháp luật nhóm đề tài SP7.4 cung cấp Tập liệu ... hình thái mà tập liệu học Với từ biến đổi hình thái có liệu học, lựa chọn theo cách dịch trực tiếp word-word lựa chọn tốt Tuy nhiên, với từ biến đổi hình thái mà lại không xuất liệu học lựa chọn...
Ngày tải lên: 25/03/2015, 09:40
043_Phân tích thiết kế và xây dựng hệ thống phòng chống virus thông minh dựa trên hành vi hoạt động của Virus
... cần quan tâm để ý việc có tiến trình hoạt động, tiến trình hay module nạp Khi chiếm việc kiểm soát ... chương trình, đưa thuật toán nhất, nghiên cứu đưa kết luận đâu virus đơn giản cấu trúc lẫn cài đặt không hiệu quả: a) Xác định virus dựa độ nguy hiểm trung bình + Mỗi hành động nguy hiểm đánh trọng...
Ngày tải lên: 06/10/2013, 20:20
ỨNG DỤNG MÔ HÌNH DỊCH MÁY THỐNG KÊ CHO BÀI TOÁN BỎ DẤU CHO VĂN BẢN TIẾNG VIỆT
... lập không? Các điểm gần có kề trực tiếp (theo khối), theo đƣờng chéo hay không? Từ tiếng Anh từ tiếng nƣớc điểm tiềm kết nối mà chƣa đƣợc gióng hàng có xa không chúng có không đƣợc gióng hàng không? ... 4.2.3 Các bƣớc huấn luyện dich kiểm tra Chuẩn hóa liệu Dữ liệu đƣợc chia làm loại Dữ liệu song ngữ : Văn tiếng Việt không dấu Văn tiếng Việt có dấu Dữ liệu đơn ngữ Văn tiếng Việt có dấu Xây dựng mô ... phƣơng pháp “làm mịn kết thống kê nhằm đánh giá xác (mịn hơn) xác suất cụm N-gram Các phƣơng pháp “làm mịn đánh giá lại xác suất cụm N-gram cách: Gán cho cụm N-gram có xác suất (không xuất hiện)...
Ngày tải lên: 26/04/2013, 11:47
ỨNG DỤNG của mô HÌNH NGÔN NGỮ TRONG DỊCH máy THỐNG kê
... xuất không k lần chiếm h% so với tổng số cụm Ngram Ví dụ: h=50, chọn k cho số lượng cụm Ngram xuất không k lần (sẽ bị loại bỏ) chiếm 50% tổng số cụm Ngram thống kê Phương pháp nhanh độ xác không ... mô hình dịch dựa từ cụm từ quan tâm đến tương ứng ngữ nghĩa từ câu ngôn ngữ nguồn đích mà không quan tâm tới ngữ pháp, hình thái hai câu Mô hình dịch dựa cú pháp không quan tâm tới ngữ nghĩa từ ... n-gram ngữ liệu Với MLE, xác suất unigram định xuất đơn giản tần suất xuất ngữ liệu c(wi‟) = |wi‟| số lần xuất từ wi‟ ngữ liệu Phương pháp gọi cực đại hóa giá trị đầu để mô hình hóa ngữ liệu huấn...
Ngày tải lên: 10/12/2013, 14:43
Nghiên cứu giải mã trong kỹ thuật dịch máy thống kê
... kê CHƢƠNG - NGHIÊN CỨU TỔNG QUAN Khởi đầu đề tài, tác giả trình bày số khái niệm dịch máy, khó khăn dịch máy giới thiệu số hệ thống dịch máy miễn phí có 1.1 TỔNG QUAN VỀ DỊCH MÁY Dịch máy hay ... Roulette_Whell [Tổng] : Tính tổng tất giá trị lực nhiểm sắc thể dân số, gọi tổng S [Chọn]: Khởi tạo số ngẫu nhiên khoảng từ [0, S], gọi r [Lặp]: Thông qua dân số, tính tổng lực từ 0, gọi s Khi tổng s lớn ... SMT, ta thường thiết lập M = 20.000 Không có giới hạn thời gian, giữ lại hết không gian giả thuyết để tìm kiếm Vì thế, thiết lập tập T không đổi, thuật toán không mở rộng giả thuyết lớn giả thuyết...
Ngày tải lên: 30/12/2013, 13:46
LUẬN VĂN: Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản Tiếng Việt ppt
... lập không? Các điểm gần có kề trực tiếp (theo khối), theo đƣờng chéo hay không? Từ tiếng Anh từ tiếng nƣớc điểm tiềm kết nối mà chƣa đƣợc gióng hàng có xa không chúng có không đƣợc gióng hàng không? ... 4.2.3 Các bƣớc huấn luyện dich kiểm tra Chuẩn hóa liệu Dữ liệu đƣợc chia làm loại Dữ liệu song ngữ : Văn tiếng Việt không dấu Văn tiếng Việt có dấu Dữ liệu đơn ngữ Văn tiếng Việt có dấu Xây dựng mô ... phƣơng pháp “làm mịn kết thống kê nhằm đánh giá xác (mịn hơn) xác suất cụm N-gram Các phƣơng pháp “làm mịn đánh giá lại xác suất cụm N-gram cách: Gán cho cụm N-gram có xác suất (không xuất hiện)...
Ngày tải lên: 08/03/2014, 20:20
Luận văn:NGHIÊN CỨU GIẢI MÃ TRONG KỸ THUẬT DỊCH MÁY THỐNG KÊ pptx
... kê CHƢƠNG - NGHIÊN CỨU TỔNG QUAN Khởi đầu đề tài, tác giả trình bày số khái niệm dịch máy, khó khăn dịch máy giới thiệu số hệ thống dịch máy miễn phí có 1.1 TỔNG QUAN VỀ DỊCH MÁY Dịch máy hay ... Roulette_Whell [Tổng] : Tính tổng tất giá trị lực nhiểm sắc thể dân số, gọi tổng S [Chọn]: Khởi tạo số ngẫu nhiên khoảng từ [0, S], gọi r [Lặp]: Thông qua dân số, tính tổng lực từ 0, gọi s Khi tổng s lớn ... SMT, ta thường thiết lập M = 20.000 Không có giới hạn thời gian, giữ lại hết không gian giả thuyết để tìm kiếm Vì thế, thiết lập tập T không đổi, thuật toán không mở rộng giả thuyết lớn giả thuyết...
Ngày tải lên: 11/03/2014, 14:20
Nghiên cứu khai thác sử dụng một số phương pháp phân tích số liệu thống kê dựa trên phần mềm SPSS
Ngày tải lên: 14/05/2014, 18:34
ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx
... hợp từ không dịch đƣợc từ ngữ liệu chia làm hai dạng, dạng từ hoàn toàn ngữ liệu, cách khắc phục dạng mở rộng ngữ liệu huấn luyện Dạng thứ hai từ ngữ liệu nhƣng biến cách lại nằm ngữ liệu, ví ... 𝑖𝑔 × 𝑝( |𝑖𝑔 𝑏𝑟𝑖𝑑𝑔𝑒𝑠) × 𝑝( |𝑏𝑟𝑖𝑑𝑔𝑒𝑠 ) Trong thực tế, ngữ liệu thƣờng bị phân tán, từ không tồn ngữ liệu xác suất xuất Điều dẫn đến xác suất chuỗi từ đƣợc tính tích xác suất từ ... thành ngữ có vai trò cú pháp ý nghĩa riêng biệt đƣợc nối với Về vấn đề từ chƣa gặp ngữ liệu huấn luyện, chẳng hạn nhƣ tên riêng, tác giả không đổi dịch, từ khác tách từ ghép tách phụ tố động từ làm...
Ngày tải lên: 28/06/2014, 16:20
CẢI TIẾN CHẤT LƯỢNG DỊCH máy THỐNG kê VIỆT – ANH BẰNG mô HÌNH PHÁT SINH từ CHỨC NĂNG
... wi+1lần lượt từ liền kề bên trái liền kề bênphảicủawi wi-2và wi+2lần lượt từ liền kề bên trái liền kề bên phải wi-1 wi+1 Pi-1vàPi+1lần lượt từ loại từ liền kề bên trái liền kề bênphảicủawi Pi-2vàPi+2lần ... xuyên không gióng hàng Giai đoạn thực qua bước: Bƣớc 1: Tính xác suất p(w) từ w không gióng hàngtheo công thức (1): p w = Số phân đoạn từ không gióng hàng c w Sốphânđoạntừcủa w trongngữ liệu (1) ... Chúng tiến hành thống kê từ chức ngữ liệu đơn ngữ tiếng Anh Kết thống kê trình bày bảng Bảng Thống kê từ chức Từ chức Số lần không gióng hàng Số lần xuất TL không gióng hàng The Of In To For That...
Ngày tải lên: 09/10/2015, 06:39
THAY đổi TRỌNG số mô HÌNH GIẢI mã TRONG DỊCH máy THỐNG kê
... phổ biến Để khắc phục không đồng đa dạng ngôn ngữthì có hai nhánh chọn liệu chọn trọng số: công trình theo hướng tiếp cận chọn liệu rút trích từ tập tổng quát tập câu có liên quan với tập câu cần ... chưa xuất liệu học.Trong trường hợp ngữ liệu song ngữ đủ lớn, từ dấu hiệu cho câu xuất thuộc lĩnh vực khác Do đó, từ chưa biết đặc trưng để gom nhóm ngữ liệu Từ không gióng hàng Từ không gióng ... gióng hàng thể không đồng hai ngôn ngữ Ta hiểu từ không gióng hàng ngôn ngữ nguồn từ mà không dịch từ ngôn ngữ đích Từ không gióng hàng thách thức lớn dịch máy thống kê.Khi xuất từ không gióng hàng...
Ngày tải lên: 09/10/2015, 06:40
tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt
... Trường hợp từ không dịch từ ngữ liệu chia làm hai dạng, dạng từ hoàn toàn ngữ liệu, cách khắc phục dạng mở rộng ngữ liệu huấn luyện Dạng thứ hai từ ngữ liệu biến cách lại nằm ngữ liệu, ví dụ hệ ... TÀI LIỆU THAM KHẢO VÀ PHỤ LỤC: trình bày thông tin khác có liên quan sử dụng đề tài CÔNG TRÌNH ĐÃ CÔNG BỐ: liệt kê báo khoa học, công trình công bố trình thực đề tài Trang 10 CHƯƠNG 2: TỔNG QUAN ... xác suất không khả thi câu đích tạo chuỗi từ vựng ngôn ngữ đích, chuỗi câu ngữ pháp Do đó, công thức Bayes dùng để triển khai cho xác suất = : (2.1) Vì câu tiếng Anh e không đổi nên ( ) không ảnh...
Ngày tải lên: 16/10/2015, 16:16
Tối ưu bảng cụm từ để cái tiến dịch máy thống kê
... He did not go home Anh_ta làm không nhà Nó thực_hiện trở thành chỗ Đàn_ông không_ đúng quê_hương trở_thành làm quê_hương anh_ta đi _về đã _không làm _không_ đúng Mở rộng không gian giả thuyết: He Did ... Ngữ liệu tiếng việt Ngữ liệu tiếng Anh: Dung lượng Gzip 8.12Mb 1.73Mb Số lượng câu 74642 Số lượng từ 1096072 Bảng 3.2: Ngữ liệu tiếng anh Độ dài trung bình câu 14.68 40 Dữ liệu đầu vào: Dữ liệu ... kết liệu huấn luyện bảng cụm từ Dữ liệu huấn luyện thay đổi theo kích thước tập ngữ liệu đầu vào, việc thay đổi trình làm tăng giảm số câu (số dòng) cặp ngữ 44 liệu đầu vào Việc thay đổi liệu...
Ngày tải lên: 29/05/2016, 16:52
TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH VIỆT
... in the distant provinces of the sở Mặc khác, ngữ liệu không bao phủ hết nhãn từ loại từ dẫn đến 5.3.1.2 empire Ngữ liệu hệ dịch không hiệu Nhƣng quan tâm thực ông tỉnh xa xôi Chuyển đổi trật tự ... phụ tố làm giảm hiệu hệ dịch i Tuy nhiên , không rõ liệu Hoàng chơi ngày hôm không Ảnh hƣởng thông tin từ loại câu tiếng Anh: Calisto tuyên bố ông không mạo hiểm cầu thủ Kết thực nghiệm cho thấy ... coastal|coastal|JJ Quang|Quang|NNP xuất ngữ liệu huấn luyện nhƣng đƣợc đánh nhãn từ loại chƣa Ninh|Ninh|NNP province|province|NN on|on|IN Sept|Sept|NNP gặp, hệ dịch xem nhƣ từ không dịch đƣợc .|.|...
Ngày tải lên: 11/10/2016, 20:28
XÂY DỰNG HỆ THỐNG CUNG CẤP DỊCH VỤ QUA SMS DỰA TRÊN VỊ TRÍ THUÊ BAO DI ĐỘNG
... việc truyền số liệu người sử dụng báo hiệu phần tử mạng GSM [11] MSC thường tổng đài lớn điều khiển quản lí số điều khiển trạm gốc BSC Bộ ghi định vị thường trú HLR HLR sở liệu quan trọng mạng ... mạng đồng không đồng mà không cần lắp thêm LMU Việc thực A-GPS không ảnh hưởng nhiều đến hạ tầng mạng hỗ trợ tốt cho việc roaming, nhiên với MS yêu cầu phải có thêm phần mạng A-GPS Bảng tổng kết ... sở liệu cần thiết cho số liệu thuê bao quản lí di động thuê bao Chức hệ thống chuyển mạch quản lí thông tin người sử dụng mạng GSM mạng khác Trung tâm chuyển mạch dịch vụ di động MSC 17 MSC tổng...
Ngày tải lên: 18/12/2013, 19:46