(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	51
Dung lượng	0,98 MB

Nội dung

(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer(Luận văn thạc sĩ) Nghiên cứu dịch máy Trung Việt dựa vào mô hình transformer

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ──────── * ─────── Phạm Minh Nguyên NGHIÊN CỨU DỊCH MÁY TRUNG-VIỆT DỰA VÀO MƠ HÌNH TRANSFORMER LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN HÀ NỘI 08 – 2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ──────── * ─────── Phạm Minh Nguyên NGHIÊN CỨU DỊCH MÁY TRUNG-VIỆT DỰA VÀO MƠ HÌNH TRANSFORMER Ngành : Cơng nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 8480104.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Văn Vinh HÀ NỘI 08 – 2020 LỜI CAM ĐOAN Với mục đích học tập, nghiên cứu để nâng cao kiến thức trình độ chuyên môn nên làm luận văn cách nghiêm túc hoàn toàn trung thực Trong luận văn tơi có sử dụng số tài liệu tham khảo số tác giả Tôi thích nêu phần tài liệu tham khảo cuối luận văn Tôi xin cam đoan chịu trách nhiệm nội dung trung thực luậnvăn tốt nghiệp Thạc sĩ Hà Nội, ngày 20 tháng 08 năm 2020 Phạm Minh Nguyên LỜI CẢM ƠN Lời đầu tiên, xin chân thành cảm ơn thầy cô giáo trường Đại Học Công Nghệ - Đại học Quốc Gia Hà Nội, đặc biệt thầy cô khoa Công Nghệ Thông Tin truyền đạt cho kiến thức, kinh nghiệm vô quý báu suốt thời gian qua Tôi xin gửi lời cảm ơn đến TS Nguyễn Văn Vinh – giảng viên khoa Công Nghệ Thông tin – Trường Đại học Cơng Nghệ tận tình giúp đỡ, trực tiếp bảo hướng dẫn tận tình suốt q trình làm luận văn Cuối cùng, tơi xin cảm ơn đến gia đình, bạn bè động viên, đóng góp ý kiến giúp đỡ q trình học tập, nghiên cứu hoàn thành luận văn Do thời gian, kiến thức kinh nghiệm tơi cịn hạn chế nên khóa luận khơng thể tránh khỏi sai sót Tơi hy vọng nhận ý kiến nhận xét, góp ý thầy giáo bạn để đồ án hoàn Tôi xin chân thành cảm ơn! Hà Nội, ngày 20 tháng 08 năm 2020 Phạm Minh Nguyên MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN .4 MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU MỞ ĐẦU 10 CHƯƠNG 1: TỔNG QUAN VỀ DỊCH MÁY 12 1.1 Khái niệm dịch máy .12 1.2 Kiến trúc chung hệ dịch máy 13 1.3 Các cách tiếp cận dịch máy .14 1.3.1 Dịch máy thống kê 14 1.3.2 Dịch máy mạng nơ ron .15 1.4 Tiếng Trung Quốc vấn đề dịch máy Trung – Việt 16 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 18 2.1 Mạng nơ ron nhân tạo 18 2.1.1 Mạng nơ ron truyền thẳng 20 2.1.2 Mạng nơ ron hồi quy 21 2.1.3 Mạng nhớ dài - ngắn (LSTM) 22 2.1.4 Huấn luyện mạng nơ ron 24 2.2 Word Embedding 25 2.2.1 Word2vec 26 2.2.2 GloVe 27 2.3 Mơ hình seq2seq 28 2.4 Mơ hình Transformer 31 2.4.1 Giới thiệu 31 2.4.2 Self-attention 31 2.4.3 Tổng quan mơ hình 35 2.4.4 Bộ mã hóa 37 2.4.5 Bộ giải mã 40 2.4.6 Ứng dụng Attention mô hình Transformer 41 CHƯƠNG 3: DỊCH MÁY TRUNG-VIỆT DỰA VÀO MƠ HÌNH TRANSFORMER 42 3.1 Giới thiệu 42 3.2 Định hướng giải pháp 42 3.3 Thử nghiệm 42 3.3.1 Thử nghiệm mô hình Transformer 42 3.3.2 Thử nghiệm mơ hình dịch máy nơ ron sử dụng RNN Attention 44 3.4 Đánh giá 45 3.4.1 Phương pháp đánh giá 45 3.4.2 Kết 46 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49 TÀI LIỆU THAM KHẢO 50 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu viết tắt Thuật ngữ đầy đủ Giải thích RNN Recurrent neural network Mạng nơ ron hồi quy FFNN Feed forward network NLP Natural processing LSTM Long short term memory Word2Vec Word to vector BOW Bag of word Mơ hình túi từ CBOW Continue bag of word Mơ hình túi từ liên tiếp GloVe Global vector Mơ hình vector tồn cục BLEU Bilingual Evaluation Điểm đánh giá chất lượng Understudy Score dịch máy neural Mạng nơ ron truyền thẳng language Xử lý ngôn ngữ tự nhiên Mạng nhớ dài ngắn DANH MỤC HÌNH VẼ Hình 1.1: Q trình xử lý tài liệu dịch máy 12 Hình 1.2: Các loại hệ thống dịch máy 13 Hình 1.3: Kiến trúc mã hóa – giải mã 15 Hình 1.4: Ví dụ xếp từ tiếng Trung tiếng Việt 16 Hình 2.1: Mơ hình mạng nơ ron đơn giản 18 Hình 2.2: Ví dụ nơ ron nhân tạo 19 Hình 2.3: Một số hàm kích hoạt thơng dụng 20 Hình 2.4: Mạng nơ ron truyền thẳng .21 Hình 2.5: Mạng nơ ron hồi quy .22 Hình 2.6: Mạng nhớ dài ngắn 23 Hình 2.7: Cổng quên 23 Hình 2.8: Cổng vào 24 Hình 2.9: Cổng 24 Hình 2.10: Cấu trúc huấn luyện mạng nơ ron .25 Hình 2.11: Biểu diễn Word Embedding 26 Hình 2.12: Mơ hình CBOW Skip-grams 27 Hình 2.13: Kiến trúc mơ hình Seq2Seq 28 Hình 2.14: Minh họa mơ hình seq2seq dung tốn dịch máy 30 Hình 2.15: Q trình tính tốn vector attention 32 Hình 2.16: Kiến trúc mơ hình Transformer 36 Hình 2.17: Bộ mã hóa giải mã mơ hình transformer 37 Hình 2.18: Một lớp mã hóa mơ hình Transformer 38 Hình 2.19: Ví dụ biểu diễn từ đầu vào 39 Hình 2.20: Q trình tính toán vector attention với nhiều “head” 39 Hình 2.21: Bộ giải mã mơ hình transformer 40 DANH MỤC BẢNG BIỂU Bảng 3-1: Thơng tin cấu hình phần cứng 42 Bảng 3-2: Thống kê liệu sử dụng 43 Bảng 3-3: Các tham số huấn luyện mơ hình Transformer 44 Bảng 3-4: Các tham số huấn luyện sử dụng RNN Attention 44 Bảng 3-5: Điểm BLEU hệ thống dịch máy Trung – Việt 46 Bảng 3-6: Một số kết dịch 46 MỞ ĐẦU Cùng với phát triển quan hệ kinh tế Trung – Việt, số lượng văn dịch Trung – Việt ngày lớn, nhu cầu đặt cần thiết kế mơ hình tự động để hỗ trợ dịch thuật Trước dịch máy thực theo từ hay cụm từ, tức dựa vào hàng triệu từ hay cụm từ dịch để đối chiếu, so sánh chọn cụm từ sát phương pháp thống kê để đưa vào kết Hiện dịch máy thực theo câu, dùng ngữ cảnh để định xem từ ngữ cảnh chọn nghĩa cho xác Các nghiên cứu chuyển dần sang dịch máy nơ ron (Neural Machine Translation), cách tiếp cận dịch máy phổ biến năm gần cho kết thực tốt, tới mức ngang hoặc người RNN, LSTM, GRU phương pháp tiếp cận đại mô hình ngơn ngữ dịch máy, từ khắc phục hạn chế việc phụ thuộc xa mạng nơ ron truyền thống Tuy nhiên nhiều tốn dịch thuật, việc cải thiện khơng đáng kể Chính kỹ thuật attention áp dụng để mang lại hiệu cao Cách tiếp cận sequence-to-sequence with attention mơ hình áp dụng kỹ thuật attention kết hợp với LSTM Năm 2017, kỹ sư Google giới thiệu kỹ thuật self-attention đề xuất mơ hình Transformer, cho phép thay hồn tồn kiến trúc recurrent mơ hình RNN mơ hình fullconnected Dịch máy lúc hoàn toàn dựa vào kỹ thuật attention Tại Việt Nam, vấn đề dịch máy quan tâm Tuy nhiên, nghiên cứu tiếng Việt cịn Khoảng năm trở lại có số nhóm nghiên cứu dịch máy tiếng Việt chủ yếu tập trung vào hệ dịch Anh-Việt, Pháp-Việt Hiện Google hệ thống dịch mở sử dụng nhiều giới tích hợp tiếng Việt vào hệ thống họ Hệ dịch mở Google dịch tốt tiếng Anh với ngôn ngữ khác, nhiên với cặp ngôn ngữ khác Trung-Việt Google sử dụng tiếng Anh làm trung gian nên chất lượng dịch cịn thấp Trong phạm vi khóa luận trình bày mơ hình Transformer – mơ hình dịch máy hình hồn tồn dựa vào kĩ thuật attention ứng dụng vào dịch máy Trung-Việt Luận văn có bố cục gồm chương chính: Chương 1: Tổng quan dịch máy Chương giới thiệu tổn quan dịch máy, số cách tiếp cận dịch máy, tiếng Trung vấn đề dịch máy Trung – Việt Chương 2: Cơ sở lý thuyết 10 Hình 2.17: Bộ mã hóa giải mã mơ hình transformer Một ưu điểm transformer mơ hình có khả xử lý song song cho từ Đầu vào đẩy vào lúc Bộ mã hóa mơ hình transformer bao gồm tập gồm N = lớp giống nhau, lớp bao gồm lớp Lớp chế multi-head self-attention, lớp thứ mạng feed-forward kết nối đẩy đủ Đầu lớp LayerNorm(x + Sublayer(x)), Sublayer(x) hàm thực bới lớp Bộ giải mã: bao gồm tập gồm N = lớp giống Ngoài hai lớp giống mã hóa, giải mã cịn có lớp để thực multi-head attention đầu lớp giải mã Ở có thay đổi chế self-attention mã hóa Dưới trình bày chi tiết mã hóa giải mã mơ hình transformer 2.4.4 Bộ mã hóa Dữ liệu đầu vào mã hóa thành vector, sau đưa vào các lớp xếp chồng lên Các thành phần lớp biểu diễn hình 2.18 37 Hình 2.18: Một lớp mã hóa mơ hình Transformer 2.4.4.1 Input Embedding Các câu đầu vào mã hóa thành vector việc sử dụng Word Embedding trình bày phần 2.2 2.4.4.2 Positional Encoding Input embeddings phần cho giúp ta biểu diễn ngữ nghĩa từ, nhiên từ vị trí khác câu lại mang ý nghĩa khác Đó lý Transformers có thêm phần Positional Encoding biết thêm thơng tin vị trí từ Giá trị tính sau: 𝑃𝐸(𝑝𝑜𝑠,2𝑖) = sin(𝑝𝑜𝑠/100002𝑖/𝑑𝑚𝑜𝑑𝑒𝑙 ) 𝑃𝐸(𝑝𝑜𝑠,2𝑖+1) = cos(𝑝𝑜𝑠/100002𝑖/𝑑𝑚𝑜𝑑𝑒𝑙 ) Trong đó: • pos vị trí từ câu • PE giá trị phần tử thứ i embeddings có độ dài 𝑑𝑚𝑜𝑑𝑒𝑙 Như mã hóa nhận ma trận biểu diễn từ cộng với thơng tin vị trí thơng qua positional encoding 38 Hình 2.19: Ví dụ biểu diễn từ đầu vào Sau đó, ma trận xử lý Multi Head Attention Multi Head Attention thực chất là sử dụng nhiều self-attention 2.4.4.3 Multi Head Attention Hình 2.20: Quá trình tính tốn vector attention với nhiều “head” Vấn đề self-attention attention từ “chú ý” vào Chúng ta muốn mơ hình học nhiều kiểu mối quan hệ giữ từ với Ý tưởng thay sử dụng self-attention sử dụng nhiều self-attention 39 Đơn giản cần nhiều ma trận query, key, value Mỗi “head” cho output riêng, ma trận kết hợp với nhân với ma trận trọng số để có ma trận attention MultiHead(Q, K, V ) = Concat(head1 , , headh)WO Mỗi encoder decoder Transformer sử dụng N attention Mỗi attention biến đổi tuyến tính q, k, k với ma trận huấn luyện khác tương ứng Mỗi phép biến đổi cung cấp cho phép chiếu khác cho q, k v Vì vậy, N attention cho phép xem mức độ phù hợp từ N quan điểm khác Điều cuối đẩy độ xác tổng thể cao hơn, theo kinh nghiệm Việc chuyển đổi làm giảm kích thước đầu chúng, đó, chí N attention sử dụng, độ phức tạp tính tốn giữ ngun Trong multi-head attention, ghép vectơ đầu theo sau phép biến đổi tuyến tính 2.4.5 Bộ giải mã Bộ giải mã thực chức giải mã vector câu nguồn thành câu đích, giải mã nhận thơng tin từ mã hóa vector key value Kiến trúc giải mã giống với mã hóa, ngoại trừ có thêm masked multi-head attention nằm giữ dùng để học mối liên quan giữ từ dịch với từ câu nguồn Hình 2.21: Bộ giải mã mơ hình transformer 40 Masked multi-head attention tất nhiên multi-head attention mà nói đến trên, nhiên từ tương lai chưa mơ hình dịch đến che lại Trong giải mã có multi-head attention khác có chức ý từ mã hóa, layer nhận vector key value từ mã hóa, output từ layer phía Đơn giản muốn so sánh tương quan giữ từ dịch vời từ nguồn 2.4.6 Ứng dụng Attention mô hình Transformer Mơ hình Transformer sử dụng multi-head attention theo cách khác [2] Thứ Trong lớp “encoder-decoder attention”, câu truy vấn đến từ lớp giải mã trước khóa giá trị đến từ đầu mã hóa Điều cho phép tất các vị trí giải mã tham gia vào tất vị trí chuỗi đầu vào Nó tương tự chế encoder-decoder attention mơ hình sequence-to-sequence Tiếp đến mã hóa chứa lớp self-attention Trong lớp self-attention, tất khóa, giá trị truy vấn đến từ nơi, trường hợp đầu lớp trước mã hóa Mỗi vị trí mã hóa tham gia vào tất vị trí lớp trước mã hóa Ngồi ra, lớp self-attention giải mã cho phép vị trí giải mã tham dự tất vị trí giải mã bao gồm vị trí Chúng ta cần ngăn chặn luồng thông tin bên trái giải mã để bảo tồn thuộc tính tự động hồi quy Điều thực bên scaled dot-product attention cách che tất giá trị đầu vào softmax tương ứng với kết nối không hợp lệ 41 CHƯƠNG 3: DỊCH MÁY TRUNG-VIỆT DỰA VÀO MƠ HÌNH TRANSFORMER 3.1 Giới thiệu Dịch máy vấn đề khó lâu đời trí tuệ nhân tạo Mặc dù có lịch sử lâu đời vấn đề dịch động nhiều thách thức vấn đề mặt ngơn ngữ văn hóa Luận văn tập trung vào việc nghiên cứu dịch thuật với cặp ngôn ngữ Trung – Việt 3.2 Định hướng giải pháp Để xây dựng hệ thống dịch máy Trung-Việt, sử dụng cách tiếp cận dịch máy mạng nơ ron, sử dụng mơ hình Transformer trình bày chương Đầu tiên, hệ thống “học” để có mạng nơ ron với trọng số tương ứng Đầu vào tập liệu tiếng Trung dịch tiếng Việt tương ứng Dữ liệu tiền xử lý, sau đưa vào huấn luyện Quá trình dịch sử dụng thông tin “học” để xây dựng câu dịch 3.3 Thử nghiệm 3.3.1 Thử nghiệm mô hình Transformer 3.3.1.1 Cấu hình phần cứng Bảng 3-1: Thơng tin cấu hình phần cứng Cấu hình Chỉ số CPU Intel(R) Xeon(R) CPU @ 2.30GHz GPU NVIDIA Tesla K80 RAM 16 OS Linux 3.3.1.2 Dữ liệu sử dụng Dữ liệu tiếng Trung lấy từ tập truyện “全职高手”tại http://www.jjwxc.net/, dịch tiếng Việt nhóm dịch giả nhà Xuất Hà Nội dịch Dữ liệu bao gồm 16.483 cặp câu Trung-Việt, chia thành tập liệu sau: 42 Bảng 3-2: Thống kê liệu sử dụng Số câu Số tokens Số từ Độ dài trung bình câu train.vi 14896 231789 7586 15.56049 train.cn 14896 15104 15.70959 dev.vi 1070 2662 16.81963 dev.cn 1070 3724 16.77383 test.vi 517 1741 16.02901 test.cn 517 2253 16.19923 234010 17997 17948 8287 8375 Dữ liệu sau thu thập tách từ, sử dụng công cụ VnCoreNLP [12] với tiếng Việt Stanford Word Segmenter [9] với tiếng Trung biểu diễn vector để đưa vào huấn luyện Quá trình huấn luyện sử dụng Tensor2Tensor 3.3.1.3 Tối ưu hóa Có nhiều thuật tốn tối ưu hóa sử dụng, bật SGD Mặc dù Adam mắt gần cộng đồng nghiên cứu NLP sử dụng thường xuyên vượt trội rõ ràng Adam so với SGD Ở sử dụng Adam [6] Tuy nhiên learning rate điều chỉnh suốt trình học, ý tưởng khởi động tốc độ học ban đầu giảm dần cuối theo công thức sau: −0.5 𝑙𝑟𝑎𝑡𝑒 = 𝑑𝑚𝑜𝑑𝑒𝑙 ∗ min(𝑠𝑡𝑒𝑝_𝑛𝑢𝑚−0.5 , 𝑠𝑡𝑒𝑝𝑛𝑢𝑚 ∗ 𝑤𝑎𝑟𝑚𝑢𝑝_𝑠𝑡𝑒𝑝𝑠 −1.5 ) Ngoài việc điều chỉnh siêu tham số có tác động lớn tới độ phức tạp độ nặng mơ hình, lựa chọn tham số sau: • Mơ hình: T2T cung cấp hai mơ hình với hai tham số xác định trước transformer_big_single_gpu (BIG) transformer_base_single_gpu (BASE) mà khác biệt kích thước mơ hình Theo báo “Attention Is All You Need” [2], mơ hình BIG tỏ tốt mơ hình BASE, mặc dù BIG tốn nhiều nhớ Ở lựa chọn mơ hình BIG • Kích thước lơ (batch size): tập liệu huấn luyện chia nhỏ thành batch, batch chứa training samples, số lượng samples 43 gọi batch size Việc lựa chọn batch size lớn hay nhỏ ảnh hưởng đến tốc độ tính tốn thơng lượng đào tạo Tốc độ tính tốn giảm dần tăng dần batch size tất hoạt động GPU hoạt động song song theo lô Ngược lại, thông lượng đào tạo tăng tuyến tính với kích thước lơ [6] Ở lựa chọn batch size 2000 • Bộ mã hóa giải mã tổng hợp xếp chồng lên layer Mỗi layer bao gồm layer (sub-layer) sub-layer multi-head selfattention với số head 16 Sub-layer thứ hai feedforward network Đầu sub-layer có số chiều 1024 Bảng 3-3: Các tham số huấn luyện mơ hình Transformer Tham số Giá trị N hiden size 1024 batch size 2000 num head 16 optimizer adam warmup_steps 16.000 train steps 300.000 3.3.2 Thử nghiệm mơ hình dịch máy nơ ron sử dụng RNN Attention Để so sánh với mơ hình Transformer, tơi tiến hành thử nghiệm hệ thống dịch sử dụng RNN Attention cấu hình phần cứng liệu sử dụng với mơ hình Transformer Để huấn luyện hệ dịch, sử dụng công cụ OpenNMT [11], sử dụng tham số theo báo Sennrich cộng [14] Cụ thể sau: Bảng 3-4: Các tham số huấn luyện sử dụng RNN Attention Tham số Giá trị hidden layer size 1024 embedding size 512 encoder depth 44 Tham số Giá trị decoder depth hidden dropout 0.2 embedding dropout 0.2 source word dropout 0.2 label smoothing 0.1 optimizer adam learning_rate 0.0001 warmup_scheme 16.000 infer_mode 300.000 3.4 Đánh giá 3.4.1 Phương pháp đánh giá Bilingual Evaluation Understudy Score hay ngắn gọn BLEU score thang điểm dùng phổ biến đánh giá chất lượng dịch máy BLEU Kishore Papineni cộng đề xuất lần đầu vào năm 2002 qua nghiên cứu “A Method for Automatic Evaluation of Machine Translation” [4] BLEU tính dựa số lượng n-grams giống câu dịch mơ hình (output) với câu tham chiếu tương ứng (label) có xét tới yếu tố độ dài câu Số n-grams tối đa BLEU khơng giới hạn, xét ý nghĩa, cụm từ q dài thường khơng có nhiều ý nghĩa, nghiên cứu cho thấy với 4-gram, điểm số BLEU trung bình cho khả dịch thuật người giảm nhiều nên n-grams tối đa thường sử dụng 4-gram Công thức để tính điểm đánh sau: 𝑁 𝑠𝑐𝑜𝑟𝑒 = exp {∑ 𝑤𝑖 log(𝑝𝑖 ) − max ( 𝑖=1 𝑝𝑖 = ∑𝑗 𝑁𝑅𝑗 ∑𝑗 𝑁𝑇𝑗 45 𝐿𝑟𝑒𝑓 − 1,0)} 𝐿𝑡𝑟𝑎 Trong đó: • 𝑁𝑅𝑗 số lượng n-grams phân đoạn j dịch dùng để tham khảo • 𝑁𝑇𝑗 số lượng n-grams phân đoạn j dịch máy • 𝐿𝑟𝑒𝑓 số lượng n-grams phân đoạn j dịch máy • 𝐿𝑡𝑟𝑎 số lượng từ dịch máy Giá trị score đánh giá mức độ tương ứng hai dịch thực phân đoạn, phân đoạn hiểu đơn vị tối thiểu dịch, thông thường phân đoạn câu hoặc đoạn Việc thống kê đồ trùng khớp n-grams dựa tập hợp ngrams phân đoạn, trước hết tính phân đoạn, sau tính lại giá trị tất phân đoạn 3.4.2 Kết Dưới điểm số BLEU sử dụng hệ thống để dịch liệu kiểm thử từ tiếng Trung sang tiếng Việt Để đánh giá hệ thống, so sánh với hệ thống dịch sử dụng RNN attention với chung liệu huấn luyện kiểm thử Có thể thấy mơ hình Transformer cho kết tốt mơ hình dịch nơ ron sử dụng RNN attention Bảng 3-5: Điểm BLEU hệ thống dịch máy Trung – Việt Loại dịch máy BLEU RNN + Attention 16.73 Transformer 30.07 Dưới số kết dịch Trung Việt sử dụng mơ hình Transformer: Bảng 3-6: Một số kết dịch STT Đầu vào Đầu Ở phòng họp lớn, bắt đầu, 议室，刚入门便可看到 bạn thấy 一面几乎占满整面墙壁 hình điện tử bao phủ gần toàn tường, 的电子显示屏，上面显 hiển thị thứ hạng 示得是 “ 荣耀职业联盟 “Liên minh chuyên nghiệp Vinh Quang” 这里是一间很宽大的会 46 Tham chiếu Nơi phòng họp rộng , vào cửa nhìn thấy bảng điện tử chiếm trọn vách tường , mặt hiển thị bảng xếp hạng chiến tích “ Liên ” thống kê kỹ thuật 的战绩排行和一些技术 minh chuyên nghiệp Vinh Quang ” số liệu thống kê 统计。现如今的荣耀已经发展到如此程度了吗？叶修摇了摇头，他心中并不太肯定。叶修这话说完，那三位 Hiện Vinh Quang Vinh Quang phát triển đến trình độ pháttriển tới trình độ ư? ? DiệpTu lắcđầu, Diệp Tu lắc đầu, lịng gã khơng q lịng khơng chắn chắn Diệp Tu nói xong, ba người lao ra, Phong Hoa nhìn hai tên lưu manh uống rượu: Tơi lại qua cửa sổ đá? Diệp Tu vừa dứt lời, ba người lao ra, Phong Hoa mờ mịt nhìn hai tên lưu manh rượu chè : Sao qua cửa sổ đá ? Ba người ngẩn , Lưu Mộc gia nhập bọn họ không phản ứng, bọn họ chờ Ly Hận Kiếm xuất hiện! Ba người khác ngẩn , họ chưa kịp có phản ứng Lưu Mộc gia nhập, đám chờ Ly Hận Kiếm xuất đây! 但这一次，他的 Nhưng lần này, gã khơng thuận theo , 连击却没有那么顺畅 người mà không làm ，因为这已是狂暴 trạng thái Bá Thể, trạng thái cuồng bạo để 状态下的猫妖，提速 cơng kích vào trạng thái, 后的移动和攻击让 tăng tốc cơng kích Nguyệt Trung Miên 月中眠的动作都有些 tùy tiện Nhưng lúc đây, liên kích lại khơng thơng thuận ban đầu, Miêu Yêu cuồng bạo, tốc độ cơng kích nhanh đến mức Nguyệt Trung Miên khơng theo kịp 已经都冲出去了，枫桦却还是望着那两个在喝酒的流氓茫然：我怎么过去那个石窗？另三人一怔，这个流木的加入他们一点反应都没有，他们还在等着离恨剑出现呢！跟不上了。 47 Hai người bất Hai người thật hết đắc dĩ cách 两人都挺无奈。大家齐盯着叶修的 Mọi người đồng thời nhìn hình Diệp 屏幕，就见他的角色 Tu, thấy nhân vật có 玩命飞奔，时不时 chạy trốn lên, lại nhìn sau, 扭头甩一下身后， người nhìn thấy 于是大家都看到他 có người cướp qi, cịn ba công hội lớn 身后有大片的追兵，正是三大公会的玩家。 48 Mọi người đồng thời nhìn chằm chằm hình Diệp Tu, thấy nhân vật liều mạng chạy bay, lại ngối cổ nhìn phía sau, tất người thấy đống lớn truy binh phía sau hắn, người chơi ba công hội lớn KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Sau thời gian nghiên cứu, hướng dẫn tận tình TS Nguyễn Văn Vinh, tơi hoàn thành luận văn “Nghiên cứu dịch máy Trung – Việt dựa vào mơ hình Transformer” Luận văn đạt kết sau: • Tìm hiểu hệ thống kiến thức liên quan: o Tổng quan dịch máy, số cách tiếp cận dịch máy o Mạng nơ ron nhân tạo, huấn luyện mạng nơ ron o Mơ hình dịch máy nơ ron tập trung nghiên cứu mơ hình Transformer • Cài đặt thử nghiệm mơ hình Transformer tối ưu tham số mơ hình áp dụng cho cặp ngơn ngữ Trung – Việt • Thử nghiệm so sánh mơ hình Transformer với mơ hình dịch máy nơ ron sử dụng RNN Attention • Trau dồi kiến thức ngôn ngữ dịch thuật Hướng phát triển tương lai Với kiến thức kỹ có từ khóa luận,trong tương lai tơi tiếp tục thu thập bổ sung ngữ liệu cho hệ thống, đồng thời khai thác thêm đặc trưng ngôn ngữ thêm nguồn liệu mở từ điển vào hệ thống để nâng cao chất lượng dịch Đồng thời tìm hiểu thêm biến thể mơ hình Transformer thử nghiệm với nhiều cặp ngơn ngữ khặp 49 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] GS Hồ Tú Bảo, GS Lương Chi Mai (2005), “Về xử lý tiếng Việt công nghệ thông tin” Available: http://www.jaist.ac.jp/~bao/Writings/VLSPwhitepaper%20-%20Final.pdf Tiếng Anh: [2] A Vaswani et al., “Attention Is All You Need,” arXiv:1706.03762 [cs], Dec 2017 Available: http://arxiv.org/abs/1706.03762 [3] Daniel Jurafsky & James H Martin, 2006 Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition [4] G Doddington, “Automatic evaluation of machine translation quality using ngram co-occurrence statistics,” in Proceedings of the second international conference on Human Language Technology Research, San Diego, California, 2002, p 138, doi: 10.3115/1289189.1289273 Krzysztof Wołk, Krzysztof Marasek, 2015 Neural-based Machine Translation for Medical Text Domain Based on European Medicines Agency Leaflet Texts ScienceDirect Available at: http://www.sciencedirect.com/science/article/pii/S1877050915025910 [5] [6] M Popel and O Bojar, “Training Tips for the Transformer Model,” The Prague Bulletin of Mathematical Linguistics, vol 110, no 1, pp 43–70, Apr 2018 [7] M.-T Luong, H Pham, and C D Manning, “Effective Approaches to Attention-based Neural Machine Translation,” arXiv:1508.04025 [cs], Sep 2015 Available: http://arxiv.org/abs/1508.04025 [8] M.-T Luong, Q V Le, I Sutskever, O Vinyals, and L Kaiser, “Multi-task Sequence to Sequence Learning,” arXiv:1511.06114 [cs, stat], Mar 2016 Available: http://arxiv.org/abs/1511.06114 [9] P.-C Chang, M Galley, and C D Manning, “Optimizing Chinese word segmentation for machine translation performance,” in Proceedings of the Third Workshop on Statistical Machine Translation - StatMT ’08, Columbus, Ohio, 2008, pp 224–232 [10] P Koehn, “Neural Machine Translation,” arXiv:1709.07809 [cs], Sep 2017 Available: http://arxiv.org/abs/1709.07809 [11] Guillaume Klein, Yoon Kim, Yuntian Deng, Jean Senellart, Alexander M Rush 2017 OpenNMT: Open-Source for Neural Machine Translation Proceedings of AMTA 2018, vol 1: MT Research Track 50 [12] T Vu, D Q Nguyen, D Q Nguyen, M Dras, and M Johnson, “VnCoreNLP: A Vietnamese Natural Language Processing Toolkit,” in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, New Orleans, Louisiana, Jun 2018, pp 56–60, doi: 10.18653/v1/N18-5012 [13] T Mikolov, K Chen, G Corrado, and J Dean, “Efficient Estimation of Word Representations in Vector Space,” arXiv:1301.3781 [cs], Sep 2013 Available: http://arxiv.org/abs/1301.3781 [14] R Sennrich and B Zhang, “Revisiting Low-Resource Neural Machine Translation: A Case Study,” in Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, Jul 2019, pp 211–221, doi: 10.18653/v1/P19-1021 51 ... vào dịch máy Trung- Việt Luận văn có bố cục gồm chương chính: Chương 1: Tổng quan dịch máy Chương giới thiệu tổn quan dịch máy, số cách tiếp cận dịch máy, tiếng Trung vấn đề dịch máy Trung – Việt. .. mơ hình mạng nơ ron nhân tạo mơ hình Transformer áp dụng khóa luận Chương 3: Dịch máy Trung- Việt dựa vào mơ hình Transformer Chương trình bày việc áp dụng mơ hình Transformer dịch máy Trung – Việt. .. TRIỂN Kết luận Sau thời gian nghiên cứu, hướng dẫn tận tình TS Nguyễn Văn Vinh, tơi hoàn thành luận văn ? ?Nghiên cứu dịch máy Trung – Việt dựa vào mơ hình Transformer? ?? Luận văn đạt kết sau: • Tìm hiểu

Ngày đăng: 05/01/2023, 16:34