Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
1,17 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - TRẦN THỊ BÍCH LIỄU MÔHÌNHÔTÔMÁTHỮUHẠNTRONGHỆTHỐNGDỊCHTỰĐỘNG ANH_VIỆT Chuyên ngành: CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KỸ THUẬT Chuyên ngành: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN TS NGUYỄN THỊ THU HƢƠNG Hà Nội – Năm 2015 LỜI CAM ĐOAN Luận văn thạc sỹ nghiên cứu thực hướng dẫn TS Nguyễn Thị Thu Hƣơng Với mục đích học tập, nghiên cứu để nâng cao kiến thức trình độ chuyên môn nên làm luận văn cách nghiêm túc hoàn toàn trung thực Để hoàn thành luận văn này, tài liệu tham khảo liệt kê, cam đoan không chép toàn văn công trình thiết kế tốt nghiệp người khác Hà nội, tháng 10 năm 2015 Học viên Trần Thị Bích Liễu LỜI CẢM ƠN Trước hết em xin chân thành gửi lời cảm ơn sâu sắc tới Thầy cô giáo trường Đại học Bách Khoa Hà Nội nói chung thầy cô viện Công nghệ Thông tin & Truyền thông tận tình giảng dạy, truyền đạt cho em kiến thức kinh nghiệm quý báu thời gian học tập cao học trường Em xin gửi lời cảm ơn đến TS.Nguyễn Thị Thu Hương – Bộ môn Khoa học máy tính, viện Công nghệ Thông tin & Truyền thông trường Đại học Bách Khoa Hà Nội hết lòng hướng dẫn, giúp đỡ dạy tận tình trình em làm luận văn Cuối cùng, em xin gửi lời cảm ơn chân thành tới gia đình, bạn bè quan tâm, động viên, đóng góp ý kiến giúp đỡ trình học tập, nghiên cứu hoàn thành đồ án tốt nghiệp Hà Nội, ngày 18 tháng 10 năm 2015 Trần Thị Bích Liễu Lớp cao học 13BCNTT-VINH_Khóa 2013B Viện CNTT&TT – ĐH Bách Khoa HN DANH MỤC CÁC TỪVIẾT TẮT VÀ KÍ HIỆU EBMT Dịch máy dựa ví dụ HMM Môhình Markov ẩn DANH MỤC BẢNG Bảng 1.1 Mô tả hàm 12 Bảng 1.2 Mô tả hàm 14 Bảng 1.3 Mô tả hàm ôtômáthữuhạn không đơn định với dịch chuyển 15 Bảng 2.1 Xác suất chuyển (mảng a, p(ti|ti-1) tính từ ngữ liệu 87-tag Brown không làm trơn Các cột có nhãn kiện điều kiện Ký hiệu ký hiệu đầu câu 28 Bảng 2.2 Khả xảy quan sát (mảng b) tính từ ngữ liệu 87-tag Brown không làm trơn 29 DANH MỤC HÌNH VẼ Hình 1.1 Sơ đồ trạng thái mô tả Ôtômáthữuhạn 11 Hình 1.2 Sơ đồ trạng thái mô tả Ôtômáthữuhạn M’ 13 Hình 1.4 Sơ đồ trạng thái tối thiểu hóa ôtômáthữuhạn đơn định 17 Hình 1.5 Sơ đồ trạng thái ôtômáthữuhạn đơn định 18 Hình 1.6 Gán xác suất cho dãy từ điển 19 Hình 1.7 Biểu diễn xích Markov trạng thái đầu trạng thái 20 kết thúc 20 Hình 2.1 Hoạt động phân tích từ vựng 21 Hình 2.2 Môhình phân tích từ vựng cho ngôn ngữ tập Pascal 22 Hình 2.3 Xây dựng ôtômát âm tiết 23 Hình 2.4 Xây dựng ôtômáttừ vựng 24 Hình 2.5 mô tả xác suất tiên nghiệm gán nhãn từ loại sử dụng HMM 27 Hình 2.6 Là gán nhãn từ với khả xuất từ B .27 Hình 3.1 Môhình tổng quát cho hệ EBMT .32 Hình 3.2 Các trường hợp xây dựng ôtômát .39 Hình 3.3 Ví dụ đồ thị từ 45 Hình 4.1 Môhìnhhệthốngdịch máy Anh-Việt ví dụ .59 Hình 4.2 Màn hình giao diện chương trình .60 MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC TỪVIẾT TẮT VÀ KÍ HIỆU DANH MỤC BẢNG DANH MỤC HÌNH VẼ.…………………………………………………………………………………………………6 MỤC LỤC MỞ ĐẦU CHƢƠNG I : MÔHÌNHÔTÔMÁTHỮUHẠN .10 1.1 Khái niệm ôtômáthữuhạn 10 1.2 Tối thiểu hoá Ôtômáthữuhạn 15 1.3 Môhình Xích Markov [2] 19 CHƢƠNG II: ỨNG DỤNG CỦA ÔTÔMÁTHỮUHẠN 21 2.1 Bộ phân tích từ vựng 21 2.2 Bài toán tách từ tiếng việt 23 2.2.1 Xây dựng ôtômát âm tiết 23 2.2.2 Xây dựng ôtômáttừ vựng .24 2.3 Môhình Markov ẩn (Hidden Markov Model) toán gán nhãn từ loại 25 CHƢƠNG III: BIỂU DIỄN NGỮ LIỆU MẪU TRONG BÀI TOÁN DỊCH MÁY ANH_VIỆT 30 3.1 Phƣơng pháp dịch máy ví dụ .30 3.2 Biểu diễn ngữ liệu mẫu toán dịch máy ví dụ .34 3.3 Giải thuật tìm kiếm A* tìm kiếm ví dụ 45 3.3.1 Mục tiêu 45 3.3.2 Giới thiệu thuật toán A* 46 3.3.3 Phân loại tập ứng cử viên 46 3.3.4 Biểu diễn không gian tìm kiếm 47 3.3.5 Giải thuật tìm kiếm 51 3.3.6 Giới hạn tập ứng cử viên 55 CHƢƠNG IV: THỬ NGHIỆM HỆDỊCH MÁY ANH_VIỆT 57 4.1 Tổng quát hệthốngdịch máy Anh_Việt .57 4.2 Môhìnhhệthốngdịch máy Anh-Việt ví dụ .59 4.3 Đánh giá kết thu đƣợc 60 KẾT LUẬN 63 TÀI LIỆU THAM KHẢO 64 MỞ ĐẦU Lý chọn đề tài Ôtômáthữuhạnmôhình sử dụng kỹ thuật tin học Đặc biệt, ôtômáthữuhạn công cụ hữu hiệu sử dụng xử lý ngôn ngữ tự nhiên với nhiều toán phổ biến : toán tách từ, toán gán nhãn từ toán dịch máy Mục đích nghiên cứu - Nghiên cứu môhìnhôtômáthữuhạn - Tìm hiểu ứng dụng ôtômáthữuhạn xử lý ngôn ngữ tự nhiên - Nghiên cứu phương pháp xây dựng ngữ liệu tiếng Anh nhờ công cụ ôtômát - Thử nghiệm ứng dụng dịch máy ví dụ Phạm vi nghiên cứu Luận văn tập trung nghiên cứu môhìnhôtômáthữuhạn ứng dụng toán xử lý ngôn ngữ tự nhiên Nội dung luận văn gồm có phần mở đầu, chương, phần kết luận, tài liệu tham khảo Chƣơng 1.Mô hìnhôtômáthữuhạn Chương nghiên cứu môhìnhôtômáthữuhạn Chƣơng 2.Ứng dụng ôtômáthữuhạn Chương nghiên cứu ứng dụng ôtômáthữuhạn như: toán gán nhãn từ, toán dịch máy Chƣơng Biểu diễn ngữ liệu mẫu toán dịch máy Anh_Việt Chương trình bày biểu diễn ngữ liệu mẫu toán dịch máy Anh_Việt Chƣơng Thử nghiệm hệdịch máy Anh_Việt Chương không sâu vào nghiên cứu thiết kế chương trình dịch máy Anh_Việt đưa kết đạt hệthốngdịch máy Anh_Việt CHƢƠNG I : MÔHÌNHÔTÔMÁTHỮUHẠN 1.1 Khái niệm ôtômáthữuhạn Lý thuyết ôtômát nghiên cứu môhình loại máy trừu tượng có khả tính toán Từ hàng chục năm trước máy tính điện tử đời, nhà toán học Anh Alan Turing đưa môhình máy Turing, môhình sử dụng để đánh giá khả “tính máy” Hiện có nhiều loại ôtômát, sử dụng lĩnh vực khác đời sống Theo [6], ôtômáthữuhạnmôhình đơn giản loại máy tính toán mà thời điểm, hệthống xác định số hữuhạn trạng thái (states) Mỗi trạng thái hệthống thể tóm tắt thông tin liện quan đến input chuyển qua xác định phép chuyển dãy input Đặc điểm hoạt động loại ôtômát thay đổi trạng thái dựa trạng thái hành “tín hiệu” đưa vào Ôtômáthữuhạnmôhìnhhữu hiệu cho phần cứng phần mềm Là công cụ để thiết kế kiểm tra hoạt động mạch logic, đặc biệt mạch dãy Sử dụng phổ biến chương trình dịch, đặc biệt sinh chương trình dịch để phân tích từ vựng, tức phân chia văn chương trình nguồn thành dãy từ tố Là môhình để xây dựng hệ phản ứng (reactive system) sử dụng kỹ thuật để điều khiển thiết bị máy bán hàng tự động, thang máy , máy quay video, lò vi sóng Là môhình để phân tích kho văn lớn tập hợp câc trang web, tập hợp câu mẫu hệthốngdịch máy để tìm xuất từ, ngữ hay mẫu khác Là môhình cho hệthống xác minh, làm việc với giao thức truyền thông, nhằm đảm bảo việc truyền tin an toàn mạng 10 s’.paths sinh cách thêm vào ghi S sau phần tử s.paths s’.node = e.destination s’.input sinh cách xóa phần đầu s.input s’.trans = Phép chọn toán tử E, S NIL Toán tử I: o Ý nghĩa: Thực phép chèn Trạng thái sinh có đỉnh giống trạng thái trước o Điều kiện: s.trans NIL s.input không rỗng o Kết quả: s’.paths sinh cách thêm vào ghi I sau phần tử s.paths s’.node = s.node s’.input sinh cách xóa phần đầu s.input s’.trans = Phép chọn toán tử E, S NIL Toán tử D: o Ý nghĩa: Thực phép xóa o Điều kiện: s.trans NIL s.paths chứa đường có ghi cuối ghi I s.node e.source o Kết quả: s’.paths sinh cách từs.paths: đường có ghi cuối ghi I xóa bỏ; ghi D thêm vào đường lại s’.node = e.destination 50 s’.input =s.input s’.trans = Phép chọn toán tử E, S NIL Ở định nghĩa phía trên, phép chọn toán tử S NILsẽ cho kết S có khả toán tử S áp dụng cho s’, ngược lại kết NIL Khả đánh giá tồn đầu s’.input từ nội dung, có cạnh có đỉnh đầu s’.node nhãn từ có nhãn từ loại không giống hệt đầu s’.input Phép chọn toán tử E, S NILsẽ cho kết E có cạnh có đỉnh đầu s’.node nhãn đầu s’.input, ngược cho kết giống phép chọn toán tử S NIL Toán tử T không thực thực trình so khớp điều kiển thứ tự áp dụng toán tử khác thông qua thuộc tính trans Điều kiện áp dụng thứ hai toán tử D ngăn chặn việc thêm ghi D vào sau ghi I Nó có nghĩa ta áp dụng quy tắc phải đặt ghi D lên trước ghi I chuỗi so khớp I D nhằm tránh dư thừa xuất nhiều lần chuỗi so khớp chất c Trạng thái xuất phát trạng thái kết thúc Trong trạng thái xuất phát thuộc tính paths danh sách chuỗi so khớp rỗng, thuộc tính node đỉnh xuất phát, thuộc tính input toàn chuỗi từ câu đầu vào thuộc tính trans toán tử E Một trạng thái kết thúc trạng thái mà thuộc tính node đỉnh kết thúc thuộc tính input rỗng 3.3.5 Giải thuật tìm kiếm Từ trạng thái tìm kiếm xuất phát hình thành định nghĩa phía trên, với toán tử trạng thái kết thúc, trình tìm kiếm thực để tìm trạng thái kết thúc có chi phí nhỏ Là điều kiện xuất phát, cận chi phí phải đưa ra, ngưỡng khoảng cách nhân với tổng độ dài câu đầu vào câu ví dụ đồ thị a Hàm đánh giá Với giải thuật A*, hàm đánh giá định nghĩa sau: 51 chi phí từ trạng thái ban đầu đến trạng thái s, chi phí trạng thái svà tính từ s.paths Nếu s trạng thái kết thúc, cận chi phí để từ trạng thái s tới trạng thái kết thúc - Tất câu đồ thị có số từ nội dung số từ chức Vì thế, dễ dàng xác định số từ nội dung đồ thị, số từ nội dung câu đầu vào, số từ chức đồ thị, số từ chức câu đầu vào mà chưa xử lý trạng thái s Gọi số Cận chi phí tính dựa vào số từ chưa xử lý, ký hiệu bên - Hơn nữa, với giả sử toán tử E, S, I D áp dụng cho trạng thái s mà áp dụng toán tử D trước cần thiết, cận chi phí từ s tới trạng thái đích ký hiệu bằn toán tử Giá trị với o biểu thị định nghĩa sau đâu với loại toán tử o Toán tử E: Toán tử S: cộng với chi phí nhỏ ghi S Toán tử I: đầu o s.input từ nội dung, ngược o lại Toán tử D: o cạnh có đỉnh đầu s.node nhãn từ chức năng, 52 cạnh có đỉnh đầu s.node nhãn o từ nội dung, ngược lại, với: o - Bằng việc sử dụng giá trị trên, h”(s) định nghĩa là: (1) h”(s,E) s.trans toán tử E (2) giá trị nhỏ h”(s, S),h”(s,I) h”(s,D)nếu s.trans toán tử S (3) giá trị nhỏ h”(s,I) h”(s,D) s.trans toán tử NIL b.Thuật toán Thuật toán tìm kiếm mô tả bên sử dụng OPEN danh sách trạng thái chưa mở rộng CLOSED trạng thái mở rộng Hai trạng thái giống bước (5) có nghĩa chúng có giá trị giống thuộc tính trừ thuộc tính paths (1) Đặt giá trị giới hạn cận gọi OPEN danh sách bao gồm trạng thái xuất phát (2) Kết thúc trừ OPEN có đỉnh có chi phí không vượt cận (3) Lấy đỉnh s có giá trị nhỏ f” khỏi OPEN đặt s vào CLOSED (4) Nếu s trạng thái kết thúc, giữ s làm lời giải, cập nhật giá trị cận giá trị s quay lại bước (2) (5) Mở rộng s thành trạng thái với trạng thái s’, f”(s’) không vượt cận trên, thực theo nhánh điều kiện sau: a Nếu trạng thái giống s’ OPEN lẫn CLOSED, đưas’ vào OPEN b Nếu có trạng thái giống s’ có chi phí lớn chi phí s’ OPEN CLOSED, xóa bỏ đưa s’ vào OPEN 53 c Nếu có trạng thái giống s’ có chi phí chi phí s’ CLOSED, xóa bỏ đưa s’ vào OPEN d Nếu có trạng thái giống s’ có chi phí chi phí s’ OPEN, thêm đường s’.paths vào thuộc tính paths trạng thái (6) Trở lại bước (2) c Tối ưu Đồ thị từ thường có lượng cạnh bắt nguồn từ đỉnh xuất phát nhiều so với đỉnh khác Vì thế, toán tử D áp dụng cho trạng thái có thuộc tính node đỉnh xuất phát, nhiều đỉnh sinh làm tốn thời gian xử lý, trường hợp mà đầu chuỗi so khớp ghi loại D Lần này, toán tử D áp dụng cho trạng thái có đỉnh đỉnh xuất phát, trạng thái mở rộng thành trạng thái có đỉnh đỉnh giả Đỉnh giả (minh họa hình 3.5) đỉnh đầu cạnh có nhãn từ thứ hai câu ví dụ, cạnh vào luồng đồ thị bình thường Một trạng thái có đỉnh đỉnh giả mở rộng thành trạng thái có đỉnh bình thường toán tử E hay S, thành trạng thái có đỉnh đỉnh giả thứ hai nhờ toán tử D Hình 3.5 Minh họa tạo đỉnh giả 54 Từ công tức ngưỡng khoảng cách, ta xác định số bước đỉnh giả cần chuẩn bị Gọi L độ dài câu ví dụ, d số ghi loại D nằm đầu chuỗi so khớp, câu đầu vào với khoảng cách nhỏ thể câu tạo thành từ câu ví dụ cách xóa d từ đầu Từ rút khoảng cách nhỏ Nếu khoảng cách lớn ngưỡng giới hạn Θ, việc tìm kiếm dừng lại Vì thế, d, từ dó rút với ràng buộc Số nguyên d lớn thỏa mãn điều kiện số đỉnh giả cần phải chuẩn bị 3.3.6 Giới hạn tập ứng cử viên Tuy có giới hạn ngưỡng khoảng cách phong phú câu ví dụ khiến cho việc tìm kiếm tất tập ứng cử viên trở nên không hợp lý Do vậy, cần đề giới hạn tập ứng cử viên trước thực trình tìm kiếm Có thể rút nhận xét rằng, với câu đầu vào câu ví dụ chênh lệch số lượng từ, tìm kết có chi phí nằm ngưỡng cho trước Dễ dàng nhận thấy, chi phí nhỏ tìm chuỗi so khớp hoàn toàn câu ngắn xóa phần chênh hai câu Như vậy, ta có: Giải bất phương trình ta kết quả: hay viết gọn thành: Đây giới hạn cho tập ứng cử viên đưa vào tìm kiếm 55 56 CHƢƠNG IV: THỬ NGHIỆM HỆDỊCH MÁY ANH_VIỆT Sau xây dựng ngữ liệu mẫu tìm câu giống với câu cần dịch nhờ thuật toán A*, hệthốngdịch máy phải thực nhiều công đoạn khác để tạo dịch thay câu mẫu với thao tác S, I, D thực số biến đổi khác liên quan đến hình thái biến đổi số nhiều, thì, thể độngtừ Sau tóm tắt môhình tổng quát hệthốngdịch máy 4.1 Tổng quát hệthốngdịch máy Anh_Việt HệthốngdịchAnh – Việttựđộng xây dựng theo trình tự gồm giai đoạn Xây dựng đồ thị chứa ngữ liệu phục vụ cho việc tìm kiếm câu mẫu tương tự với câu đầu vào - Tệp đầu vào : ngữ liệu gồm 30 cặp câu song ngữ anhviệt ( câu ghi dòng) - Kết : xây dựng đồ thị chứa lớp đồ thị phân chia theo số từ nội dung từ chức câu - Nội dung công việc : Thực trình gán nhãn cho câu tiếng anh , sử dụng lý thuyết ôtômáthữuhạn đơn định để xây dựng đồ thị Tìm kiếm câu tương tự với câu đầu vào a Khoanh vùng tập mẫu: Từ câu đầu vào, xác định tập đồ thị tìm kiếm b Với đồ thị thuộc tập đồ thị trên, thực so khớp dựa giải thuật A* để tìm ví dụ “giống với câu đầu vào nhất” - Ngữ liệu vào : câu tiếng anh cần dịch , đồ thị biểu diễn tập ngữ liệu mẫu - Kết : tìm câu tiếng anh gần giống với câu đầu vào với dãy ghi thao tác Insert , Substitution , Delete , Exact cần thực để biến câu mẫu thành câu đích - Nội dung thực : 57 o Xác định số từ nội dung từ chức câu đầu vào o Khoanh vùng tập mẫu: Từ câu đầu vào, xác định tập đồ thị tìm kiếm dựa số từ nội dung từ chức o Với đồ thị thuộc tập đồ thị trên, thực so khớp dựa giải thuật A* để tìm ví dụ “giống với câu đầu vào nhất” 3.Thực trình dịch để đạt câu dịchđíchtừ câu tương tự tìm bước trước - Ngữ liệu vào : câu tương tự với câu đầu vào danh sách toán tử cần thực thay - Kết : câu dịch tiếng việt cho câu tiếng anh đầu vào - Nội dung hoạt động : o Thực phép thay để biến ví dụ thành câu đầu Bước bao gồm việc phân tích hình thái từ tra từtừ điển o Thực thêm từ vào ví dụ để tạo thành câu đầu Bước cần phân tích hình thái từ để tìm nghĩa tiếng Việt Ngoài ra, cần sử dụng chương trình phân tích cú pháp để xác định vị trí từ cần thêm 58 4.2 Môhìnhhệthốngdịch máy Anh-Việt ví dụ Môhìnhhệthống thiết kế theo sơ đồ : Hình 4.1 Môhìnhhệthốngdịch máy Anh-Việt ví dụ Chương trình xây dựng ngôn ngữ C++ môi trường VS Studio 2010 tác giả Nguyễn Quang Đại, lớp khoa học máy tính K51, trường Đại học Bách khoa Hà Nội Giao diện chương trình : 59 Hình 4.2 Màn hình giao diện chƣơng trình 4.3 Đánh giá kết thu đƣợc Vì mục đích luận văn nghiên cứu môhìnhôtômáthữuhạn nên tập trung vào xây dựng ôtômát thử nghiệm giải thuật A* tạo tập ngữ liệu mẫu song ngữ Anh_Việt cách từ câu có tập cặp câu song ngữ ta tạo câu cần dịch cách thay đổi số từ để phục vụ cho việc thêm , bớt , sửa , xóa không làm thay đổi cấu trúc câu Ví dụ : tập ngữ liệu cặp câu song ngữ có cặp câu : You can contact us by mail or email Bạn liên lạc với qua thư từ hay email Ôtômát cho ngữ liệu thiết lập thời gian tìm kiếm chấp nhận Để thử nghiệm đưa vào số câu tương tự, có cách thay đổi ,thêm bớt số từ không làm thay đổi cấu trúc ngữ pháp câu Dưới đưa số trường hợp kết dịch tương ứng chương trình 1) You can contact us by mail or new email Bạn liên lạc với qua thư từ hay email 60 2) You can contact us by mail Bạn liên lạc với qua thư từ 3) You can inform us by phone Bạn báo tin cho với qua âm tỏ lời nói 4) she contact us by email Cô liên lạc với qua email Tập ngữ liệu gồm 30 câu tạo theo cách ta thấy kết thu tương đối khả quan, câu dịch tương đối sát nghĩa Tuy nhiên lấy câu từ nhiều nguồn khác internet kết dịch số câu môhình xây dựng chưa tốt 1) he likes playing football anh chơi bóng đá 2) people understand that Mladic is absolutely central to that process Những dân tộc hiểu MLADIC tuyệt đối PROCESS Với câu có độ dài ngắn chấp nhận , với câu có độ dài tương đối cấu trúc cú pháp phức tạp kết dịch sai nhiều Nguyên nhân do: - Chọn nghĩa từ điển chưa xác ( ví dụ nhầm lẫn từ loại số trường hợp - Phân tích hình thái từ chưa chuẩn : số trường hợp đưa dạng chuẩn chưa danh từ số nhiều , độngtừ khứ - Câu dài có cấu trúc phức tạp - Bộ tập ngữ liệu cặp câu song ngữ , chưa bao quát nhiều dạng câu - Các từ thay thế, chèn vào chưa lấy nghĩa đặt vị trí Các nguyên nhân nói không liên quan đến công việc luận văn xây dựng ôtômát để biểu diễn ngữ liệu Chỉ có nhược điểm chương trình chạy chậm phải dịch câu dài với nhiều từ nội dung từ chức 61 Như kết luận ôtômáthữuhạn công cụ hữu hiệu để biểu diễn ngữ liệu cho hướng tiếp cận dịch máy này, phương pháp chứng minh đạt hiệu cao dịch lĩnh vực chuyên môn hẹp 62 KẾT LUẬN Kết đạt đƣợc luận văn Với thời gian hạn hẹp, luận văn đạt kết sau: Nghiên cứu hệthống lại ứng dụng môhìnhôtômáthữuhạn thực tế, đặc biệt ứng dụng điển hình xử lý ngôn ngữ tự nhiên Nghiên cứu thuật toán tối thiểu hóa ôtômáthữuhạn trường hợp cụ thể để xây dựng đồ thị biểu diễn kho ngữ liệu song ngữ cho toán dịch máy ví dụ Thử nghiệm việc xây dựng đồ thị cho tập câu mẫu ngắn gồm 30 câu bước đầu thử nghiệm hệthốngdịch máy AnhViệt Hƣớng nghiên cứu Do chưa có đủ thời gian làm thực nghiệm, đặc biệt thực gióng hàng cho ngữ liệu song ngữ, luận văn xây dựng ngữ liệu mẫu nhỏ, liên quan đến nhiều lĩnh vực đời sống Tuy nhiên để sử dụng hiệu hệthốngdịch máy, hướng phát triển tập trung vào lĩnh vực cụ thể, chẳng hạn hướng dẫn sử dụng thiết bị điện tử Khi ngữ liệu lớn, cần cải tiến thuật toán để tìm kiếm ngữ liệu hiệu 63 TÀI LIỆU THAM KHẢO [1] Eiichiro Sumita, Example-based machine translation using DP-matching between word sequences,Volume 21,Text, Speech and Language Technology pp 189-209 [2] Hopcroft, J.E, Ullmann, J.D.Motwani,R., Introduction to Automata Theory, Languages and Computation, 3rd Edition Addison Wesley/Pearson, 2000 [3] Pushpak Bhattacharyya, Machine Translation, CRC Press, 2005 [4] Takao Doi, Hirofumi Yamamoto, Eiichiro Sumita, Example-Based Machine Translation using efficient sentence retrieval based on Edit-Distance ACM Transactions on Asian Language Information Processing (TALIP), 2005 [5] Takao Doi, Eiichiro Sumita, Splitting Input Sentence for Machine Translation Using Language model with Sentence Similarity Proceedings of the 20th international conference on Computational Linguistics,2004 [6] Thomas A Sudkamp, Languages and Machines, Addison-Wesley, 2005 [7] Juravsky D., Martin J Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition Pearson/Prentice Hall, 2009 [8] Jan Daciuk, Rechard E.Watson, Incremental Construction of Minimal Acyclic Finite-State Automata, Journal Computational Linguistics - Special issue on finite-state methods in NLP, Volume 26 Issue 1, March 2000 [9] Nguyễn Văn Ba,Lý thuyết ngôn ngữ tính toán Nhà xuất Đại học Quốc gia Hà Nội, 2007 [10] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương.Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt , Kỷ yếu ICT/RDA , 2003 [11] Đỗ Bích Ngọc Đồ án tốt Nghiệp ĐHBK Hà Nội 64 ... DANH MỤC HÌNH VẼ Hình 1.1 Sơ đồ trạng thái mô tả Ôtômát hữu hạn 11 Hình 1.2 Sơ đồ trạng thái mô tả Ôtômát hữu hạn M’ 13 Hình 1.4 Sơ đồ trạng thái tối thiểu hóa ôtômát hữu hạn đơn định... ôtômát hữu hạn không đơn định ta xây dựng ôtômát hữu hạn đơn định tương đương Định lý : Nếu ngôn ngữ L đoán nhận ôtômát hữu hạn không đơn định tồn ôtômát hữu hạn đơn định đoán nhận L * Ôtômát hữu hạn. .. nghiên cứu mô hình ôtômát hữu hạn Chƣơng 2.Ứng dụng ôtômát hữu hạn Chương nghiên cứu ứng dụng ôtômát hữu hạn như: toán gán nhãn từ, toán dịch máy Chƣơng Biểu diễn ngữ liệu mẫu toán dịch máy Anh_Việt