1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mô hình ôtômát hữu hạn tỏng hệt hống dịch tự động anh việt

64 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 1,3 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - TRẦN THỊ BÍCH LIỄU MƠ HÌNH ƠTƠMÁT HỮU HẠN TRONG HỆ THỐNG DỊCH TỰ ĐỘNG ANH_VIỆT Chuyên ngành: CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KỸ THUẬT Chuyên ngành: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN TS NGUYỄN THỊ THU HƢƠNG Hà Nội – Năm 2015 LỜI CAM ĐOAN Luận văn thạc sỹ nghiên cứu thực hướng dẫn TS Nguyễn Thị Thu Hƣơng Với mục đích học tập, nghiên cứu để nâng cao kiến thức trình độ chun mơn nên tơi làm luận văn cách nghiêm túc hoàn toàn trung thực Để hoàn thành luận văn này, tài liệu tham khảo liệt kê, cam đoan khơng chép tồn văn cơng trình thiết kế tốt nghiệp người khác Hà nội, tháng 10 năm 2015 Học viên Trần Thị Bích Liễu LỜI CẢM ƠN Trước hết em xin chân thành gửi lời cảm ơn sâu sắc tới Thầy cô giáo trường Đại học Bách Khoa Hà Nội nói chung thầy cô viện Công nghệ Thông tin & Truyền thơng tận tình giảng dạy, truyền đạt cho em kiến thức kinh nghiệm quý báu thời gian học tập cao học trường Em xin gửi lời cảm ơn đến TS.Nguyễn Thị Thu Hương – Bộ mơn Khoa học máy tính, viện Công nghệ Thông tin & Truyền thông trường Đại học Bách Khoa Hà Nội hết lòng hướng dẫn, giúp đỡ dạy tận tình trình em làm luận văn Cuối cùng, em xin gửi lời cảm ơn chân thành tới gia đình, bạn bè quan tâm, động viên, đóng góp ý kiến giúp đỡ q trình học tập, nghiên cứu hồn thành đồ án tốt nghiệp Hà Nội, ngày 18 tháng 10 năm 2015 Trần Thị Bích Liễu Lớp cao học 13BCNTT-VINH_Khóa 2013B Viện CNTT&TT – ĐH Bách Khoa HN DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÍ HIỆU EBMT Dịch máy dựa ví dụ HMM Mơ hình Markov ẩn DANH MỤC BẢNG Bảng 1.1 Mô tả hàm  12 Bảng 1.2 Mô tả hàm  14 Bảng 1.3 Mô tả hàm  ôtômát hữu hạn không đơn định với dịch chuyển  15 Bảng 2.1 Xác suất chuyển (mảng a, p(ti|ti-1) tính từ ngữ liệu 87-tag Brown không làm trơn Các cột có nhãn kiện điều kiện Ký hiệu ký hiệu đầu câu 28 Bảng 2.2 Khả xảy quan sát (mảng b) tính từ ngữ liệu 87-tag Brown không làm trơn 29 DANH MỤC HÌNH VẼ Hình 1.1 Sơ đồ trạng thái mơ tả Ơtơmát hữu hạn 11 Hình 1.2 Sơ đồ trạng thái mơ tả Ơtơmát hữu hạn M’ 13 Hình 1.4 Sơ đồ trạng thái tối thiểu hóa ơtơmát hữu hạn đơn định 17 Hình 1.5 Sơ đồ trạng thái ôtômát hữu hạn đơn định 18 Hình 1.6 Gán xác suất cho dãy từ điển 19 Hình 1.7 Biểu diễn xích Markov khơng có trạng thái đầu trạng thái 20 kết thúc 20 Hình 2.1 Hoạt động phân tích từ vựng 21 Hình 2.2 Mơ hình phân tích từ vựng cho ngơn ngữ tập Pascal 22 Hình 2.3 Xây dựng ôtômát âm tiết 23 Hình 2.4 Xây dựng ơtơmát từ vựng 24 Hình 2.5 mơ tả xác suất tiên nghiệm gán nhãn từ loại sử dụng HMM 27 Hình 2.6 Là gán nhãn từ với khả xuất từ B .27 Hình 3.1 Mơ hình tổng qt cho hệ EBMT .32 Hình 3.2 Các trường hợp xây dựng ôtômát .39 Hình 3.3 Ví dụ đồ thị từ 45 Hình 4.1 Mơ hình hệ thống dịch máy Anh-Việt ví dụ .59 Hình 4.2 Màn hình giao diện chương trình .60 MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÍ HIỆU DANH MỤC BẢNG DANH MỤC HÌNH VẼ.…………………………………………………………………………………………………6 MỤC LỤC MỞ ĐẦU CHƢƠNG I : MƠ HÌNH ƠTƠMÁT HỮU HẠN .10 1.1 Khái niệm ôtômát hữu hạn 10 1.2 Tối thiểu hố Ơtơmát hữu hạn 15 1.3 Mô hình Xích Markov [2] 19 CHƢƠNG II: ỨNG DỤNG CỦA ÔTÔMÁT HỮU HẠN 21 2.1 Bộ phân tích từ vựng 21 2.2 Bài toán tách từ tiếng việt 23 2.2.1 Xây dựng ôtômát âm tiết 23 2.2.2 Xây dựng ôtômát từ vựng .24 2.3 Mơ hình Markov ẩn (Hidden Markov Model) toán gán nhãn từ loại 25 CHƢƠNG III: BIỂU DIỄN NGỮ LIỆU MẪU TRONG BÀI TOÁN DỊCH MÁY ANH_VIỆT 30 3.1 Phƣơng pháp dịch máy ví dụ .30 3.2 Biểu diễn ngữ liệu mẫu tốn dịch máy ví dụ .34 3.3 Giải thuật tìm kiếm A* tìm kiếm ví dụ 45 3.3.1 Mục tiêu 45 3.3.2 Giới thiệu thuật toán A* 46 3.3.3 Phân loại tập ứng cử viên 46 3.3.4 Biểu diễn không gian tìm kiếm 47 3.3.5 Giải thuật tìm kiếm 51 3.3.6 Giới hạn tập ứng cử viên 55 CHƢƠNG IV: THỬ NGHIỆM HỆ DỊCH MÁY ANH_VIỆT 57 4.1 Tổng quát hệ thống dịch máy Anh_Việt .57 4.2 Mơ hình hệ thống dịch máy Anh-Việt ví dụ .59 4.3 Đánh giá kết thu đƣợc 60 KẾT LUẬN 63 TÀI LIỆU THAM KHẢO 64 MỞ ĐẦU Lý chọn đề tài Ơtơmát hữu hạn mơ hình sử dụng kỹ thuật tin học Đặc biệt, ôtômát hữu hạn công cụ hữu hiệu sử dụng xử lý ngôn ngữ tự nhiên với nhiều toán phổ biến : toán tách từ, toán gán nhãn từ toán dịch máy Mục đích nghiên cứu - Nghiên cứu mơ hình ôtômát hữu hạn - Tìm hiểu ứng dụng ôtômát hữu hạn xử lý ngôn ngữ tự nhiên - Nghiên cứu phương pháp xây dựng ngữ liệu tiếng Anh nhờ công cụ ôtômát - Thử nghiệm ứng dụng dịch máy ví dụ Phạm vi nghiên cứu Luận văn tập trung nghiên cứu mơ hình ơtơmát hữu hạn ứng dụng tốn xử lý ngơn ngữ tự nhiên Nội dung luận văn gồm có phần mở đầu, chương, phần kết luận, tài liệu tham khảo Chƣơng 1.Mơ hình ơtơmát hữu hạn Chương nghiên cứu mơ hình ơtơmát hữu hạn Chƣơng 2.Ứng dụng ôtômát hữu hạn Chương nghiên cứu ứng dụng ôtômát hữu hạn như: toán gán nhãn từ, toán dịch máy Chƣơng Biểu diễn ngữ liệu mẫu tốn dịch máy Anh_Việt Chương trình bày biểu diễn ngữ liệu mẫu toán dịch máy Anh_Việt Chƣơng Thử nghiệm hệ dịch máy Anh_Việt Chương không sâu vào nghiên cứu thiết kế chương trình dịch máy Anh_Việt đưa kết đạt hệ thống dịch máy Anh_Việt CHƢƠNG I : MƠ HÌNH ƠTƠMÁT HỮU HẠN 1.1 Khái niệm ơtơmát hữu hạn Lý thuyết ơtơmát nghiên cứu mơ hình loại máy trừu tượng có khả tính tốn Từ hàng chục năm trước máy tính điện tử đời, nhà toán học Anh Alan Turing đưa mơ hình máy Turing, mơ hình sử dụng để đánh giá khả “tính máy” Hiện có nhiều loại ôtômát, sử dụng lĩnh vực khác đời sống Theo [6], ôtômát hữu hạn mơ hình đơn giản loại máy tính tốn mà thời điểm, hệ thống xác định số hữu hạn trạng thái (states) Mỗi trạng thái hệ thống thể tóm tắt thơng tin liện quan đến input chuyển qua xác định phép chuyển dãy input Đặc điểm hoạt động loại ôtômát thay đổi trạng thái dựa trạng thái hành “tín hiệu” đưa vào Ơtơmát hữu hạn mơ hình hữu hiệu cho phần cứng phần mềm  Là công cụ để thiết kế kiểm tra hoạt động mạch logic, đặc biệt mạch dãy  Sử dụng phổ biến chương trình dịch, đặc biệt sinh chương trình dịch để phân tích từ vựng, tức phân chia văn chương trình nguồn thành dãy từ tố  Là mơ hình để xây dựng hệ phản ứng (reactive system) sử dụng kỹ thuật để điều khiển thiết bị máy bán hàng tự động, thang máy , máy quay video, lị vi sóng  Là mơ hình để phân tích kho văn lớn tập hợp câc trang web, tập hợp câu mẫu hệ thống dịch máy để tìm xuất từ, ngữ hay mẫu khác  Là mơ hình cho hệ thống xác minh, làm việc với giao thức truyền thơng, nhằm đảm bảo việc truyền tin an tồn mạng 10  s’.paths sinh cách thêm vào ghi S sau phần tử s.paths  s’.node = e.destination  s’.input sinh cách xóa phần đầu s.input  s’.trans = Phép chọn toán tử E, S NIL  Toán tử I: o Ý nghĩa: Thực phép chèn Trạng thái sinh có đỉnh giống trạng thái trước o Điều kiện:  s.trans NIL  s.input không rỗng o Kết quả:  s’.paths sinh cách thêm vào ghi I sau phần tử s.paths  s’.node = s.node  s’.input sinh cách xóa phần đầu s.input  s’.trans = Phép chọn toán tử E, S NIL  Toán tử D: o Ý nghĩa: Thực phép xóa o Điều kiện:  s.trans NIL  s.paths chứa đường có ghi cuối ghi I  s.node e.source o Kết quả:  s’.paths sinh cách từs.paths: đường có ghi cuối ghi I xóa bỏ; ghi D thêm vào đường lại  s’.node = e.destination 50  s’.input =s.input  s’.trans = Phép chọn toán tử E, S NIL Ở định nghĩa phía trên, phép chọn toán tử S NILsẽ cho kết S có khả tốn tử S áp dụng cho s’, ngược lại kết NIL Khả đánh giá tồn đầu s’.input từ nội dung, có cạnh có đỉnh đầu s’.node nhãn từ có nhãn từ loại khơng giống hệt đầu s’.input Phép chọn tốn tử E, S NILsẽ cho kết E có cạnh có đỉnh đầu s’.node nhãn đầu s’.input, ngược cho kết giống phép chọn toán tử S NIL Toán tử T khơng thực thực q trình so khớp điều kiển thứ tự áp dụng tốn tử khác thơng qua thuộc tính trans Điều kiện áp dụng thứ hai toán tử D ngăn chặn việc thêm ghi D vào sau ghi I Nó có nghĩa ta áp dụng quy tắc phải đặt ghi D lên trước ghi I chuỗi so khớp I D nhằm tránh dư thừa xuất nhiều lần chuỗi so khớp chất c Trạng thái xuất phát trạng thái kết thúc Trong trạng thái xuất phát thuộc tính paths danh sách chuỗi so khớp rỗng, thuộc tính node đỉnh xuất phát, thuộc tính input tồn chuỗi từ câu đầu vào thuộc tính trans toán tử E Một trạng thái kết thúc trạng thái mà thuộc tính node đỉnh kết thúc thuộc tính input rỗng 3.3.5 Giải thuật tìm kiếm Từ trạng thái tìm kiếm xuất phát hình thành định nghĩa phía trên, với tốn tử trạng thái kết thúc, q trình tìm kiếm thực để tìm trạng thái kết thúc có chi phí nhỏ Là điều kiện xuất phát, cận chi phí phải đưa ra, ngưỡng khoảng cách nhân với tổng độ dài câu đầu vào câu ví dụ đồ thị a Hàm đánh giá Với giải thuật A*, hàm đánh giá định nghĩa sau: 51 chi phí từ trạng thái ban đầu đến trạng thái s, chi phí trạng thái svà tính từ s.paths Nếu s trạng thái kết thúc, cận chi phí để từ trạng thái s tới trạng thái kết thúc - Tất câu đồ thị có số từ nội dung số từ chức Vì thế, dễ dàng xác định số từ nội dung đồ thị, số từ nội dung câu đầu vào, số từ chức đồ thị, số từ chức câu đầu vào mà chưa xử lý trạng thái s Gọi số Cận chi phí tính dựa vào số từ chưa xử lý, ký hiệu bên - Hơn nữa, với giả sử toán tử E, S, I D áp dụng cho trạng thái s mà áp dụng tốn tử D trước cần thiết, cận chi phí từ s tới trạng thái đích ký hiệu bằn toán tử Giá trị với o biểu thị định nghĩa sau đâu với loại toán tử o  Toán tử E:  Tốn tử S: cộng với chi phí nhỏ ghi S  Toán tử I: đầu o s.input từ nội dung, ngược o lại  Tốn tử D: o khơng có cạnh có đỉnh đầu s.node nhãn từ chức năng, 52 khơng có cạnh có đỉnh đầu s.node nhãn o từ nội dung, ngược lại, với: o - Bằng việc sử dụng giá trị trên, h”(s) định nghĩa là: (1) h”(s,E) s.trans toán tử E (2) giá trị nhỏ h”(s, S),h”(s,I) h”(s,D)nếu s.trans toán tử S (3) giá trị nhỏ h”(s,I) h”(s,D) s.trans toán tử NIL b.Thuật tốn Thuật tốn tìm kiếm mơ tả bên sử dụng OPEN danh sách trạng thái chưa mở rộng CLOSED trạng thái mở rộng Hai trạng thái giống bước (5) có nghĩa chúng có giá trị giống thuộc tính trừ thuộc tính paths (1) Đặt giá trị giới hạn cận gọi OPEN danh sách bao gồm trạng thái xuất phát (2) Kết thúc trừ OPEN có đỉnh có chi phí khơng vượt q cận (3) Lấy đỉnh s có giá trị nhỏ f” khỏi OPEN đặt s vào CLOSED (4) Nếu s trạng thái kết thúc, giữ s làm lời giải, cập nhật giá trị cận giá trị s quay lại bước (2) (5) Mở rộng s thành trạng thái với trạng thái s’, f”(s’) không vượt cận trên, thực theo nhánh điều kiện sau: a Nếu khơng có trạng thái giống s’ OPEN lẫn CLOSED, đưas’ vào OPEN b Nếu có trạng thái giống s’ có chi phí lớn chi phí s’ OPEN CLOSED, xóa bỏ đưa s’ vào OPEN 53 c Nếu có trạng thái giống s’ có chi phí chi phí s’ CLOSED, xóa bỏ đưa s’ vào OPEN d Nếu có trạng thái giống s’ có chi phí chi phí s’ OPEN, thêm đường s’.paths vào thuộc tính paths trạng thái (6) Trở lại bước (2) c Tối ưu Đồ thị từ thường có lượng cạnh bắt nguồn từ đỉnh xuất phát nhiều so với đỉnh khác Vì thế, toán tử D áp dụng cho trạng thái có thuộc tính node đỉnh xuất phát, nhiều đỉnh sinh làm tốn thời gian xử lý, trường hợp mà đầu chuỗi so khớp ghi loại D Lần này, toán tử D áp dụng cho trạng thái có đỉnh đỉnh xuất phát, trạng thái mở rộng thành trạng thái có đỉnh đỉnh giả Đỉnh giả (minh họa hình 3.5) đỉnh đầu cạnh có nhãn từ thứ hai câu ví dụ, cạnh vào luồng đồ thị bình thường Một trạng thái có đỉnh đỉnh giả mở rộng thành trạng thái có đỉnh bình thường tốn tử E hay S, thành trạng thái có đỉnh đỉnh giả thứ hai nhờ tốn tử D Hình 3.5 Minh họa tạo đỉnh giả 54 Từ công tức ngưỡng khoảng cách, ta xác định số bước đỉnh giả cần chuẩn bị Gọi L độ dài câu ví dụ, d số ghi loại D nằm đầu chuỗi so khớp, câu đầu vào với khoảng cách nhỏ thể câu tạo thành từ câu ví dụ cách xóa d từ đầu Từ rút khoảng cách nhỏ Nếu khoảng cách lớn ngưỡng giới hạn Θ, việc tìm kiếm dừng lại Vì thế, d, từ dó rút với ràng buộc Số nguyên d lớn thỏa mãn điều kiện số đỉnh giả cần phải chuẩn bị 3.3.6 Giới hạn tập ứng cử viên Tuy có giới hạn ngưỡng khoảng cách phong phú câu ví dụ khiến cho việc tìm kiếm tất tập ứng cử viên trở nên không hợp lý Do vậy, cần đề giới hạn tập ứng cử viên trước thực trình tìm kiếm Có thể rút nhận xét rằng, với câu đầu vào câu ví dụ chênh lệch số lượng từ, khơng thể tìm kết có chi phí nằm ngưỡng cho trước Dễ dàng nhận thấy, chi phí nhỏ tìm chuỗi so khớp hoàn toàn câu ngắn xóa phần chênh hai câu Như vậy, ta có: Giải bất phương trình ta kết quả: hay viết gọn thành: Đây giới hạn cho tập ứng cử viên đưa vào tìm kiếm 55 56 CHƢƠNG IV: THỬ NGHIỆM HỆ DỊCH MÁY ANH_VIỆT Sau xây dựng ngữ liệu mẫu tìm câu giống với câu cần dịch nhờ thuật tốn A*, hệ thống dịch máy cịn phải thực nhiều công đoạn khác để tạo dịch thay câu mẫu với thao tác S, I, D thực số biến đổi khác liên quan đến hình thái biến đổi số nhiều, thì, thể động từ Sau tóm tắt mơ hình tổng qt hệ thống dịch máy 4.1 Tổng quát hệ thống dịch máy Anh_Việt Hệ thống dịch Anh – Việt tự động xây dựng theo trình tự gồm giai đoạn Xây dựng đồ thị chứa ngữ liệu phục vụ cho việc tìm kiếm câu mẫu tương tự với câu đầu vào - Tệp đầu vào : ngữ liệu gồm 30 cặp câu song ngữ anh việt ( câu ghi dòng) - Kết : xây dựng đồ thị chứa lớp đồ thị phân chia theo số từ nội dung từ chức câu - Nội dung cơng việc : Thực q trình gán nhãn cho câu tiếng anh , sử dụng lý thuyết ôtômát hữu hạn đơn định để xây dựng đồ thị Tìm kiếm câu tương tự với câu đầu vào a Khoanh vùng tập mẫu: Từ câu đầu vào, xác định tập đồ thị tìm kiếm b Với đồ thị thuộc tập đồ thị trên, thực so khớp dựa giải thuật A* để tìm ví dụ “giống với câu đầu vào nhất” - Ngữ liệu vào : câu tiếng anh cần dịch , đồ thị biểu diễn tập ngữ liệu mẫu - Kết : tìm câu tiếng anh gần giống với câu đầu vào với dãy ghi thao tác Insert , Substitution , Delete , Exact cần thực để biến câu mẫu thành câu đích - Nội dung thực : 57 o Xác định số từ nội dung từ chức câu đầu vào o Khoanh vùng tập mẫu: Từ câu đầu vào, xác định tập đồ thị tìm kiếm dựa số từ nội dung từ chức o Với đồ thị thuộc tập đồ thị trên, thực so khớp dựa giải thuật A* để tìm ví dụ “giống với câu đầu vào nhất” 3.Thực trình dịch để đạt câu dịch đích từ câu tương tự tìm bước trước - Ngữ liệu vào : câu tương tự với câu đầu vào danh sách toán tử cần thực thay - Kết : câu dịch tiếng việt cho câu tiếng anh đầu vào - Nội dung hoạt động : o Thực phép thay để biến ví dụ thành câu đầu Bước bao gồm việc phân tích hình thái từ tra từ từ điển o Thực thêm từ vào ví dụ để tạo thành câu đầu Bước cần phân tích hình thái từ để tìm nghĩa tiếng Việt Ngồi ra, cần sử dụng chương trình phân tích cú pháp để xác định vị trí từ cần thêm 58 4.2 Mơ hình hệ thống dịch máy Anh-Việt ví dụ Mơ hình hệ thống thiết kế theo sơ đồ : Hình 4.1 Mơ hình hệ thống dịch máy Anh-Việt ví dụ  Chương trình xây dựng ngôn ngữ C++ môi trường VS Studio 2010 tác giả Nguyễn Quang Đại, lớp khoa học máy tính K51, trường Đại học Bách khoa Hà Nội Giao diện chương trình : 59 Hình 4.2 Màn hình giao diện chƣơng trình 4.3 Đánh giá kết thu đƣợc Vì mục đích luận văn nghiên cứu mơ hình ôtômát hữu hạn nên tập trung vào xây dựng ôtômát thử nghiệm giải thuật A* tạo tập ngữ liệu mẫu song ngữ Anh_Việt cách từ câu có tập cặp câu song ngữ ta tạo câu cần dịch cách thay đổi số từ để phục vụ cho việc thêm , bớt , sửa , xóa khơng làm thay đổi cấu trúc câu Ví dụ : tập ngữ liệu cặp câu song ngữ có cặp câu : You can contact us by mail or email Bạn liên lạc với chúng tơi qua thư từ hay email Ơtơmát cho ngữ liệu thiết lập thời gian tìm kiếm chấp nhận Để thử nghiệm đưa vào số câu tương tự, có cách thay đổi ,thêm bớt số từ không làm thay đổi cấu trúc ngữ pháp câu Dưới đưa số trường hợp kết dịch tương ứng chương trình 1) You can contact us by mail or new email Bạn liên lạc với chúng tơi qua thư từ hay email 60 2) You can contact us by mail Bạn liên lạc với qua thư từ 3) You can inform us by phone Bạn báo tin cho với chúng tơi qua âm tỏ lời nói 4) she contact us by email Cô liên lạc với qua email Tập ngữ liệu gồm 30 câu tạo theo cách ta thấy kết thu tương đối khả quan, câu dịch tương đối sát nghĩa  Tuy nhiên lấy câu từ nhiều nguồn khác internet kết dịch số câu mơ hình xây dựng chưa tốt 1) he likes playing football anh chơi bóng đá 2) people understand that Mladic is absolutely central to that process Những dân tộc hiểu MLADIC tuyệt đối tơi PROCESS Với câu có độ dài ngắn chấp nhận , với câu có độ dài tương đối cấu trúc cú pháp phức tạp kết dịch cịn sai nhiều Ngun nhân do: - Chọn nghĩa từ điển chưa xác ( ví dụ nhầm lẫn từ loại số trường hợp - Phân tích hình thái từ chưa chuẩn : số trường hợp đưa dạng chuẩn chưa danh từ số nhiều , động từ khứ - Câu dài có cấu trúc phức tạp - Bộ tập ngữ liệu cặp câu song ngữ , chưa bao quát nhiều dạng câu - Các từ thay thế, chèn vào chưa lấy nghĩa đặt vị trí Các ngun nhân nói khơng liên quan đến cơng việc luận văn xây dựng ôtômát để biểu diễn ngữ liệu Chỉ có nhược điểm chương trình chạy chậm phải dịch câu dài với nhiều từ nội dung từ chức 61 Như kết luận ôtômát hữu hạn công cụ hữu hiệu để biểu diễn ngữ liệu cho hướng tiếp cận dịch máy này, phương pháp chứng minh đạt hiệu cao dịch lĩnh vực chuyên môn hẹp 62 KẾT LUẬN Kết đạt đƣợc luận văn Với thời gian hạn hẹp, luận văn đạt kết sau: Nghiên cứu hệ thống lại ứng dụng mơ hình ơtơmát hữu hạn thực tế, đặc biệt ứng dụng điển hình xử lý ngơn ngữ tự nhiên Nghiên cứu thuật tốn tối thiểu hóa ơtơmát hữu hạn trường hợp cụ thể để xây dựng đồ thị biểu diễn kho ngữ liệu song ngữ cho toán dịch máy ví dụ Thử nghiệm việc xây dựng đồ thị cho tập câu mẫu ngắn gồm 30 câu bước đầu thử nghiệm hệ thống dịch máy Anh Việt Hƣớng nghiên cứu Do chưa có đủ thời gian làm thực nghiệm, đặc biệt thực gióng hàng cho ngữ liệu song ngữ, luận văn xây dựng ngữ liệu mẫu nhỏ, liên quan đến nhiều lĩnh vực đời sống Tuy nhiên để sử dụng hiệu hệ thống dịch máy, hướng phát triển tập trung vào lĩnh vực cụ thể, chẳng hạn hướng dẫn sử dụng thiết bị điện tử Khi ngữ liệu lớn, cần cải tiến thuật tốn để tìm kiếm ngữ liệu hiệu 63 TÀI LIỆU THAM KHẢO [1] Eiichiro Sumita, Example-based machine translation using DP-matching between word sequences,Volume 21,Text, Speech and Language Technology pp 189-209 [2] Hopcroft, J.E, Ullmann, J.D.Motwani,R., Introduction to Automata Theory, Languages and Computation, 3rd Edition Addison Wesley/Pearson, 2000 [3] Pushpak Bhattacharyya, Machine Translation, CRC Press, 2005 [4] Takao Doi, Hirofumi Yamamoto, Eiichiro Sumita, Example-Based Machine Translation using efficient sentence retrieval based on Edit-Distance ACM Transactions on Asian Language Information Processing (TALIP), 2005 [5] Takao Doi, Eiichiro Sumita, Splitting Input Sentence for Machine Translation Using Language model with Sentence Similarity Proceedings of the 20th international conference on Computational Linguistics,2004 [6] Thomas A Sudkamp, Languages and Machines, Addison-Wesley, 2005 [7] Juravsky D., Martin J Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition Pearson/Prentice Hall, 2009 [8] Jan Daciuk, Rechard E.Watson, Incremental Construction of Minimal Acyclic Finite-State Automata, Journal Computational Linguistics - Special issue on finite-state methods in NLP, Volume 26 Issue 1, March 2000 [9] Nguyễn Văn Ba,Lý thuyết ngơn ngữ tính tốn Nhà xuất Đại học Quốc gia Hà Nội, 2007 [10] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương.Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt , Kỷ yếu ICT/RDA , 2003 [11] Đỗ Bích Ngọc Đồ án tốt Nghiệp ĐHBK Hà Nội 64 ... toán dịch máy Anh_ Việt Chƣơng Thử nghiệm hệ dịch máy Anh_ Việt Chương không sâu vào nghiên cứu thiết kế chương trình dịch máy Anh_ Việt đưa kết đạt hệ thống dịch máy Anh_ Việt CHƢƠNG I : MƠ HÌNH... 51 3.3.6 Giới hạn tập ứng cử viên 55 CHƢƠNG IV: THỬ NGHIỆM HỆ DỊCH MÁY ANH_ VIỆT 57 4.1 Tổng quát hệ thống dịch máy Anh_ Việt .57 4.2 Mơ hình hệ thống dịch máy Anh- Việt ví dụ ... Máy chuyển đổi hữu hạn trạng thái Máy chuyển đổi hữu hạn trạng thái dạng ôtômát hữu hạn thực ánh xạ hai tập ký hiệu thông thường chuyển đổi hữu hạn trạng thái mô tả ôtômát hữu hạn băng, dùng

Ngày đăng: 28/02/2021, 00:00

w