Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 21 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
21
Dung lượng
2,51 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHAN THÀNH NHÂN - PHAN MINH HUY DỊCH MÁY TIỂU LUẬN MÔN HỌC Xử lý ngơn ngữ tự nhiên Tp Hồ Chí Minh - 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHAN THÀNH NHÂN - PHAN MINH HUY DỊCH MÁY TIỂU LUẬN MÔN HỌC Xử lý ngôn ngữ tự nhiên GIẢNG VIÊN PGS.TS Đinh Điền Tp Hồ Chí Minh - 2021 Mục lục GIỚI THIỆU 1.1 Khái niệm dịch máy 1.2 Tại cần dịch máy? 1.3 Tại dịch máy khó? 1.4 Lịch sử dịch máy Các phương pháp dịch máy 2.1 Dịch máy cổ điển 2.1.1 Dịch trực tiếp 2.1.2 Dịch dựa chuyển đổi 10 2.1.3 Dịch dựa ngôn ngữ trung gian (liên ngữ) 11 Dịch máy dựa thống kê 12 2.2 Mơ hình transformer cho dịch máy 13 3.1 Tổng quan mơ hình 13 3.2 Encoder 15 3.2.1 Self-attention layer 16 3.2.2 Multi Head Attention 17 Decoder 18 3.3.1 Masked Multi Head Attention 18 3.3.2 Fully Connected Layer cuối cùng, hàm softmax hàm loss 19 3.3 Tài liệu tham khảo 20 MỤC LỤC Chương GIỚI THIỆU 1.1 Khái niệm dịch máy Khái niệm dịch máy nhiều tác giả lĩnh vực xử lý ngơn ngữ tự nhiên định nghĩa, có vài điểm khác biệt hầu hết tương ứng với định nghĩa sau: Một dịch máy (Machine Translation System) hệ thống sử dụng máy tính để chuyển đổi văn viết tự nhiên ngôn ngữ thành tương đương dịch ngôn ngữ khác Nói chung, dịch thuật nỗ lực khó khăn, hấp dẫn mãnh liệt người, phong phú lĩnh vực sáng tạo khác người Ngơn ngữ văn cần dịch cịn gọi ngôn ngữ nguồn, ngôn ngữ dịch gọi ngơn ngữ đích Sơ đồ sau thể vị trí hệ dịch máy tiến trình dịch tài liệu Đầu vào hệ dịch máy thường văn viết ngôn ngữ nguồn, trinh dịch chia thành hai giai đoạn, đầu tiên, văn phân tích thành thành phần, sau dịch thành văn dạng ngơn ngữ đích Kết dịch người hiệu đính để trở thành dịch tốt Như q trình dịch, người tác động vào bước xử lý với mục đích làm cho kết dịch tốt 1.2 CHƯƠNG GIỚI THIỆU Tại cần dịch máy? Ngày có khoảng 7000 ngơn ngữ giới, phân bố không đồng Các ngôn ngữ phân loại theo nguồn gốc gồm: Ấn Âu, Sê mít, Thổ, Hán-Tạng Nam Phương; theo loại hình gồm: ngơn ngữ hịa kết, ngơn ngữ chắp dính, ngơn ngữ đơn lập ngơn ngữ đa tổng hợp Do đó, nhu cầu trao đổi thơng tin quốc gia, văn hóa, người, làm cho việc dịch trở nên quan trọng Công việc dịch sử dụng người cơng việc có tính thủ cơng, chất lượng cao suất thấp giá thành cao Từ đó, dịch máy đời để đáp ứng nhu cầu dịch thuật người Mỗi cách dịch – cách dịch dùng người dịch dịch máy – có vai trò, ưu/nhược điểm riêng Dùng máy dịch Ưu điểm Dùng người dịch - Chi phí rẻ; - Có thể sử dụng ngôn ngữ tinh vi, phức - Tốc độ dịch nhanh; tạp; - Được dùng để dịch hàng loạt, khối lượng - Thể cảm xúc văn gốc lớn; - Có thể cải tiến dịch thô thành - Cung cấp dịch thô văn dịch có chất lượng cao (ý chính) - Thường đưa dịch có độ xác - Chi phí cao; thấp; - Mất nhiều thời gian - Không tập trung vào ngữ cảnh giải mã - Chất lượng dịch không đồng Nhược điểm nghĩa bóng ngơn ngữ; (phụ thuộc vào người dịch) - Không thể sử dụng kinh nghiệm hay cảm xúc người viết; Tóm lại, với phát triển mạnh mẽ khoa học công nghệ, khối lượng thông tin trao đổi người ngày nhiều Trong nhiều trường hợp có, người khơng cần đến chất lượng dịch cao sử dụng người phiên dịch mà cần có dịch nháp có chất lượng khơng q thấp khơng phải chờ đợi lâu Với trường hợp cụ thể này, hệ dịch máy chất lượng bình thường đáp ứng tốt người phiên dịch giỏi Do vậy, nhu cầu cần có hệ dịch máy tất yếu Nếu xây dựng hệ dịch máy thành công, công cụ giúp người tiếp cận với kho tri thức viết ngôn ngữ khác 1.3 Tại dịch máy khó? Bài tốn dịch máy tốn khó người, lý sau: 1.4 LỊCH SỬ DỊCH MÁY • Sự đa dạng ngôn ngữ giới − Trật tự từ: SOV, SVO, VSO, OSV; − Trật tự từ tự theo quy tắc; − Sự khác cách diễn đạt khái niệm − • Sự nhập nhằng ngôn ngữ − Từ đồng nghĩa; − Từ nhiều nghĩa; − • Sự đa dạng hình thái ngơn ngữ − Sự khác đơn vị từ − 1.4 Lịch sử dịch máy Ngành dịch máy có q trình phát triển 50 năm, có giai đoạn không phát triển dịch máy chuyên ngành phát triển khoa học máy tính với nhiều kết lý thuyết ứng dụng thực tế Có thể chia phát triển ngành dịch máy thành ba thời kỳ, kể từ năm 1949 với ý tưởng sơ khai hệ dịch máy (2006) với đời nhiều trình dịch máy tương đối hồn thiện, có ứng dụng vào sống • Giai đoạn 1930 - 1940 Từ kỷ 17 nhiều nhà nghiên cứu có nỗ lực việc xây dựng cách biểu diễn chung cho tất ngơn ngữ Năm 1933, có hai phát minh cấp sáng chế liên quan đến việc xây dựng thiết bị dịch ngôn ngữ George Artsrouni người Pháp gốc Armenia thiết kế thiết bị lưu trữ tìm kiếm nhanh chóng cặp từ - giải nghĩa hai cặp ngôn ngữ Cũng năm đó, người Nga tên Petr Smirnov-Troyanskii thiết kế thiết bị dịch máy gồm cơng đoạn: Phân tích câu nguồn, chuyển đổi từ ngữ sinh câu đích Thiết kế Troyanskii chưa trở thành thực ý tưởng cho nhiều loại máy dịch thiết kế sau • Giai đoạn 1940 - 1970 Vào cuối năm 1940, máy tính phát minh ứng dụng thành công vào việc giải mật mã, nhiều người nghĩ đến khả ứng dụng máy tính vào việc phiên dịch với quan điểm coi việc dịch từ ngôn ngữ sang tiếng Anh tương tự việc giải mã văn tiếng Anh viết loại mật mã Khái niệm dịch máy (machine translation) Warren Weaver đề vào năm 1949 Những chương trình dịch tự động đơn giản sử dụng phương pháp dịch từ sang từ (word-for-word translation) cho kết giới hạn từ ngữ có nghĩa khác ngữ cảnh khác Năm 1954, công ty IBM trường đại học tổng hợp Georgetown hợp tác xây dựng chương trình dịch tự động Nga-Anh kết hạn chế Với khả giới hạn máy tính năm 1950-1960 việc nghiên cứu lý thuyết xử lý ngôn ngữ tự nhiên chập chững, kết thu lĩnh vực dịch tự động thời kỳ không đạt kết khả quan 8 CHƯƠNG GIỚI THIỆU • Giai đoạn 1970 - 1990 Vào đầu năm 1970, sau số thành công nghiên cứu lý thuyết xử lý ngôn ngữ tự nhiên sức mạnh máy tính tăng lên đáng kể (với đời mạch tích hợp), nhiều trung tâm nghiên cứu bắt đầu quay lại đầu tư vào dịch máy Hàng loạt đề án dịch tự động nhiều tổ chức quốc gia triển khai – Hệ thống TAUM-METEO (1977) đại học Montréal – Canada chuyên dịch tin tức khí tượng từ tiếng Anh sang tiếng Pháp – Hệ thống METAL (1985) Linguistic Research Center, đại học Texas, dịch từ tiếng Đức sang tiếng Anh – Chương trình máy tính hệ (The Fifth Generation) phủ Nhật Bản, mục tiêu chương trình hệ thống dịch tự động xi ngược Anh-Nhật, NhậtAnh • Giai đoạn 1990 - Đầu năm 1990, với phát triển mạnh mẽ Internet, nhu cầu trao đổi thơng tin bùng nổ, cộng với tích lũy kiến thức mặt ngơn ngữ, sức mạnh máy tính tăng lên hàng ngày nhiều thành tựu mặt lý thuyết, việc phát triển hệ thống dịch tự động trở nên cần thiết Ngày nay, chất lượng nhiều hệ thống dịch mức chấp nhận số ứng dụng dịch tự động vào sống số lĩnh vực hẹp Theo ước tính John Hutchins, vào năm 2001, có khoảng 1000 phần mềm dịch tự động ngôn ngữ bán thị trường Tiêu biểu thời điểm server dịch tự động Internet; chẳng hạn dịch vụ Babel Fish, WorldLingo hay dự án công ty Microsoft cộng tác với trường đại học tổng hợp Stanford cho việc nhận dạng chữ viết, nhận dạng tiếng nói, dịch tự động, tóm tắt nội dung Tại Việt Nam, ngồi chương trình dịch tự động Anh-Việt EVTran 3.0 tác giả Lê Khánh Hùng, cịn có số chương trình khác thử nghiệm phạm vi hẹp chưa đưa thị trường Các chương trình dịch tự động nghiên cứu Việt Nam chủ yếu hướng vào việc dịch tự động Anh-Việt có sẵn nhiều kết nghiên cứu tiếng Anh, dịch từ tiếng Anh sang ngơn ngữ khác để áp dụng vào chương trình Chương Các phương pháp dịch máy 2.1 Dịch máy cổ điển Có chiến lược dịch máy chủ yếu biến thể bao gồm: • Dịch trực tiếp; • Dịch dựa chuyển đổi • Dịch dựa ngơn ngữ trung gian (liên ngữ) 2.1.1 Dịch trực tiếp Khái niệm Dịch trực tiếp phương pháp phát triển cho cặp ngôn ngữ cụ thể, tiến trình dịch trình biến đổi từ ngơn ngữ nguồn sang ngơn ngữ đích dựa từ điển song ngữ số quy tắc từ vựng kết hợp với số quy tắc xử lý ngữ pháp đơn giản Sơ đồ hệ dịch trực tiếp thể mơ hình 10 CHƯƠNG CÁC PHƯƠNG PHÁP DỊCH MÁY Các giai đoạn Một hệ dịch trực tiếp hoạt động theo giai đoạn: • Tiền xử lý: Ngắt đoạn cần dịch thành dãy câu • Xử lý: Hệ phân tích câu cần dịch thành dãy từ, sau dựa từ điển song ngữ, tìm hình thái nghĩa cho từ hay cụm từ • Sinh câu đích thích hợp Ưu - nhược điểm Các hệ dịch trực tiếp có ưu điểm đơn giản có tốc độ nhanh Phương pháp thích hợp với việc dịch lĩnh vực chun mơn (khơng có nhiều nhập nhằng ngữ nghĩa) cho kết tốt áp dụng cho cặp ngơn ngữ có nhiều điểm tương đồng ngữ pháp từ vựng (như tiếng Pháp tiếng Anh, ) Với cặp ngôn ngữ tương đồng hơn, với nguồn có khơng gian nghĩa mở (như tác phẩm văn học), cách tiếp cận tỏ thiếu hiệu 2.1.2 Dịch dựa chuyển đổi Dịch chuyển đổi cú pháp Dịch chuyển đổi cú pháp thực phân tích cú pháp câu nhập vào sau áp dụng luật ngơn ngữ từ vựng (hay cịn gọi luật chuyển đổi) để ánh xạ thông tin văn phạm từ ngôn ngữ sang ngôn ngữ khác Dịch chuyển đổi cú pháp cộng phân giải ngữ nghĩa Dung hồ mức độ phân tích cú pháp phân giải ngữ nghĩa Hệ dịch chủ yếu dựa vào phân tích cú pháp, phân giải ngữ nghĩa mức cần thiết để khử nhập nhằng nghĩa 2.1 DỊCH MÁY CỔ ĐIỂN 11 Quy trình dịch chuyển đổi Một hệ dịch máy theo phương pháp chuyển đổi hoạt động theo bước: • Phân tích: Phân tích câu cần dịch thành dãy hình thái từ sau dựng cú pháp cho câu • Chuyển đổi: Chuyển đổi cú pháp - ứng với luật sinh ngơn ngữ nguồn có kèm theo quy tắc dịch, chọn luật tương ứng ngơn ngữ đích để xây dựng cú pháp ngơn ngữ đích từ cú pháp ngơn ngữ nguồn • Sinh câu đích: Từ cú pháp → tổng hợp từ vựng sinh văn dịch Ưu - nhược điểm Ưu điểm: hệ dịch chuyển đổi cho kết dịch tốt câu đích sinh chuyển tải nội dung ngữ pháp ngữ nghĩa Nhược điểm: hệ dịch chuyển đổi phải đối mặt với vấn đề nhập nhằng văn phạm nhập nhằng ngữ nghĩa, có nhiều phương pháp xây dựng để vượt qua hai vấn đề nan giải này, chưa có phương pháp chứng tỏ vượt trội mặt kết 2.1.3 Dịch dựa ngơn ngữ trung gian (liên ngữ) Như mơ hình lý thuyết nêu, dịch liên ngữ phương pháp dịch máy sát nghĩa Sơ đồ hình tháp thể tương quan ba phương pháp dịch việc xử lý liệu dịch, đó, dịch liên ngữ nằm mức cao việc hiểu ý nghĩa câu Ưu - nhược điểm Ưu điểm: 12 CHƯƠNG CÁC PHƯƠNG PHÁP DỊCH MÁY • Kết dịch tốt câu đích biểu đạt nội dung câu nguồn mặt: từ vựng, ngữ pháp ngữ nghĩa • Xây dựng hệ dịch đa ngôn ngữ liên ngữ thuận lợi: Ta cần xây dựng tri thức chuyển đổi ngơn ngữ liên ngữ Nhược điểm: • Chưa có mơ hình thực tế lý thuyết xây dựng liên ngữ đủ phong phú để biểu đạt sắc thái ngôn ngữ khác (cho đến nay) • Dịch liên ngữ xây dựng ngôn ngữ trung gian biểu diễn độc lập với ngôn ngữ tự nhiên biểu diễn khác biệt ý nghĩa đến mức tinh tế ngơn ngữ có hệ dịch Khó khăn lớn không dễ xây dựng ngôn ngữ trung gian! 2.2 Dịch máy dựa thống kê Tiếp cận dịch máy dựa thống kê xuất vào cuối năm 1980, đề xuất trung tâm nghiên cứu IBM TJ Watson với hệ dịch máy Anh-Pháp Candide Ý tưởng dịch máy thống kê đơn giản túy tốn học: Thay xây dựng từ điển, quy luật chuyển đổi tay, hệ dịch tự động xây dựng từ điển, quy luật dựa thống kê Cách tiếp cận khơng địi hỏi phân tích sâu ngơn ngữ, chúng thực hồn tồn tự động q trình phân tích, chuyển đổi, tạo câu dựa kết thống kê có từ kho ngữ liệu (corpus) Phương pháp dịch dựa thống kê đòi hỏi phải có tập liệu cực lớn câu tương đương ngơn ngữ nguồn ngơn ngữ đích để kết thống kê xác, trở ngại cho đề án thực theo phương pháp chi phí cơng sức lớn Một điều đáng ngạc nhiên logic phương pháp dịch thống kê không quan tâm đến việc xử lý ngữ nghĩa chất lượng dịch phương pháp cao Hệ dịch Arập-Anh NSA chí khơng sử dụng từ điển dịch nghĩa bóng nhiều thành ngữ Arập Vào thời điểm nay, hệ dịch thống kê tiên phong việc đạt câu dịch có chất lượng cao Chương Mơ hình transformer cho dịch máy 3.1 Tổng quan mơ hình Kiến trúc tổng quan mơ hình transformer bao gồm phần lớn Encoder Decoder Encoder dùng để học vector biểu câu với mong muốn vector mang thơng tin hồn hảo câu Decoder thực chức chuyển vector biểu diễn thành ngơn ngữ đích Cụ thể, encoder mơ hình transformer nhận câu tiếng anh, mã hóa thành vector biểu diễn ngữ nghĩa câu, sau mơ hình decoder nhận vector biểu diễn này, dịch thành câu tiếng việt Ví dụ 3.1 Khi dịch câu tiếng Anh: “ little sun ”thành câu tiếng Việt: “mặt trời bé nhỏ”như sau: Một ưu điểm transformer mơ hình có khả xử lý song song cho từ Các encoder mô hình transformer bao gồm nhiều encoder layer khác, encoder layer xử lý đồng thời từ 13 14 CHƯƠNG MƠ HÌNH TRANSFORMER CHO DỊCH MÁY Chúng ta tìm hiểu số khía cạnh cần thiết trước sâu vào tìm hiểu hai thành phần mơ hình Word embedding Word Embedding tên gọi chung mơ hình ngơn ngữ phương pháp học theo đặc trưng Xử lý ngôn ngữ tự nhiên(NLP), từ cụm từ ánh xạ sang vector số (thường số thực) Đây cơng cụ đóng vai trị quan trọng hầu hết thuật toán, kiến trúc Machine Learning, Deep Learning việc xử lý đầu vào dạng text, chúng hiểu đầu vào dạng số, từ thực công việc phân loại, hồi quy, Word Embedding phân chủ yếu thành loại: • Frequency-based embedding, • Prediction-based embedding Trong phạm vi tiểu luận này, dừng lại khái niệm word embedding mà không sâu vào cách tạo word embedding Phương pháp sinusoidal position encoding Position Encoding dùng để đưa thông tin vị trí từ vào mơ hình transformer Đầu tiên, từ biểu diễn vector sử dụng ma trận word embedding có số dịng kích thước tập từ vựng Sau từ câu tìm kiếm ma trận này, nối thành dòng ma trận chiều chứa ngữ nghĩa từ riêng biệt Transformer xử lý từ song song, đó, với word embedding mơ hình khơng thể biết vị trí từ Như vậy, cần chế để đưa thơng tin vị trí từ vào vector đầu vào Đó lúc positional encoding xuất giải vấn đề Vị trí từ mã hóa vector có kích thước word embedding cộng trực tiếp vào word embedding 3.2 ENCODER 15 Cụ thể, vị trí chẵn, ta sử dụng hàm sin, với vị trí lẽ ta sử dụng hàm cos để tính giá trị chiều pit = f (t)i = 3.2 sin ωt · t i = 2k cos ωt · t i = 2k + , với ωt = 100002k/d Encoder Encoder mơ hình transformer bao gồm nhiều encoder layer tương tự Mỗi encoder layer transformer lại bao gồm thành phần multi head attention feedforward network, ngồi cịn có skip connection normalization layer Encoder nhận ma trận biểu diễn từ cộng với thơng tin vị trí thơng qua positional encoding Sau đó, ma trận xử lý Multi Head Attention Multi Head Attention thật chất self-attention, mà để mơ hình có ý nhiều kiểu hình khác nhau, mơ hình đơn giản sử dụng nhiều self-attention 16 CHƯƠNG MƠ HÌNH TRANSFORMER CHO DỊCH MÁY 3.2.1 Self-attention layer Self Attention cho phép mơ hình mã hóa từ sử dụng thông tin từ liên quan tới Ví dụ từ mã hóa, ý vào từ liên quan mặt trời Có thể tưởng tượng chế self attention giống chế tìm kiếm Với từ cho trước, chế cho phép mơ hình tìm kiếm cách từ cịn lại, từ “giống”để sau thơng tin mã hóa dựa tất từ Đầu tiên, với từ cần tạo vector: query, key, value vector cách nhân ma trận biểu diễn từ đầu vào với ma trận học tương ứng • Query vector: vector dùng để chứa thông tin từ tìm kiếm, so sánh Giống câu query google search • Key vector: vector dùng để biểu diễn thông tin từ so sánh với từ cần tìm kiếm Ví dụ, trang web mà google so sánh với từ khóa mà bạn tìm kiếm • Value vector: vector biểu diễn nội dung, ý nghĩa từ Các bạn tượng tượng, nội dung trang web hiển thị cho người dùng sau tìm kiếm Để tính tương quan, đơn giản cần tính tích vơ hướng dựa vector query key Sau dùng hàm softmax để chuẩn hóa số tương quan đoạn − 1, cuối cùng, tính trung bình cộng có trọng số vector values sử dụng số tương quan tính Cụ thể hơn, q trình tính tốn attention vector tóm tắt làm bước sau: Bước 1: Tính ma trận query, key, value cách khởi tạo ma trận trọng số query, key, vector, sau nhân input với ma trận trọng số để tạo thành ma trận tương ứng Bước 2: Tính attention weights Nhân ma trận key, query vừa tính với để với ý nghĩa so sánh câu query key để học mối tương quan Sau chuẩn hóa đoạn [0 − 1] hàm softmax có nghĩa câu query giống với key, có nghĩa khơng giống Bước 3: Tính output Nhân attention weights với ma trận value Điều có nghĩa biểu diễn từ trung bình có trọng số (attention weights) ma trận value 3.2 ENCODER 3.2.2 17 Multi Head Attention Chúng ta muốn mơ hình học nhiều kiểu mối quan hệ từ với Với self-attention, học kiểu hình, để mở rộng khả này, đơn giản thêm nhiều self-attention Tức cần nhiều ma trận query, key, value mà Giờ ma trận trọng số key, query, value có thêm chiều - chiều sâu (depth) Multi head attention cho phép mơ hình ý đến đồng thời mẫu dễ quan sát sau • Chú ý đến từ kế trước từ 18 CHƯƠNG MƠ HÌNH TRANSFORMER CHO DỊCH MÁY • Chú ý đến từ kế sau từ • Chú ý đến từ liên quan từ 3.3 Decoder Decoder thực chức giải mã vector câu nguồn thành câu đích, decoder nhận thơng tin từ encoder vector key value Kiến trúc decoder giống với encoder, ngoại trừ có thêm multi head attention nằm dùng để học mối liên quan giữ từ dịch với từ câu nguồn 3.3.1 Masked Multi Head Attention Masked Multi Head Attention tất nhiên multi head attention mà nói đến trên, có chức dùng để encode từ câu câu đích trình dịch, nhiên, lúc cài đặt cần lưu ý phải che từ tương lai chưa mơ hình dịch đến, để làm việc đơn giản cần nhân với vector chứa giá trị 0, Trong decoder cịn có multi head attention khác có chức ý từ mơ hình encoder, layer nhận vector key value từ mô hình encoder, đầu từ layer phía Đơn giản muốn so sánh tương quan từ dịch với từ nguồn 3.3 DECODER 3.3.2 19 Fully Connected Layer cuối cùng, hàm softmax hàm loss Giống nhiều mơ hình khác, cần thêm fully connected layer để chuyển đầu từ layer phía trước thành ma trận có chiều số từ mà ta cần dự đoán Sau đến hàm softmax để tính xác suất từ xuất Hàm loss ta sử dụng cross-entropy loss 20 CHƯƠNG MƠ HÌNH TRANSFORMER CHO DỊCH MÁY Tài liệu tham khảo [1] Speech and Language Processing: An Introduction to Natural Language Processing Computational Linguistics and Speech Recognition, Daniel Jurafsky & James H Martin 2006 [2] https://towardsdatascience.com/transformers-89034557de14 [3] https://github.com/pbcquoc/transformer 21 ...ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHAN THÀNH NHÂN - PHAN MINH HUY DỊCH MÁY TIỂU LUẬN MÔN HỌC Xử lý ngôn ngữ tự nhiên GIẢNG VIÊN PGS.TS Đinh... Ngơn ngữ văn cần dịch cịn gọi ngôn ngữ nguồn, ngôn ngữ dịch gọi ngơn ngữ đích Sơ đồ sau thể vị trí hệ dịch máy tiến trình dịch tài liệu Đầu vào hệ dịch máy thường văn viết ngôn ngữ nguồn, trinh dịch. .. thức viết ngôn ngữ khác 1.3 Tại dịch máy khó? Bài tốn dịch máy tốn khó người, lý sau: 1.4 LỊCH SỬ DỊCH MÁY • Sự đa dạng ngôn ngữ giới − Trật tự từ: SOV, SVO, VSO, OSV; − Trật tự từ tự theo quy