(Luận văn thạc sĩ) nghiên cứu dịch máy trung việt dựa vào mô hình transformer

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ──────── * ─────── Phạm Minh Nguyên NGHIÊN CỨU DỊCH MÁY TRUNG-VIỆT DỰA VÀO MƠ HÌNH TRANSFORMER LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN HÀ NỘI 08 – 2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ──────── * ─────── Phạm Minh Nguyên NGHIÊN CỨU DỊCH MÁY TRUNG-VIỆT DỰA VÀO MƠ HÌNH TRANSFORMER Ngành : Cơng nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 8480104.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Văn Vinh HÀ NỘI 08 – 2020 LỜI CAM ĐOAN Với mục đích học tập, nghiên cứu để nâng cao kiến thức trình độ chuyên môn nên làm luận văn cách nghiêm túc hoàn toàn trung thực Trong luận văn tơi có sử dụng số tài liệu tham khảo số tác giả Tôi thích nêu phần tài liệu tham khảo cuối luận văn Tôi xin cam đoan chịu trách nhiệm nội dung trung thực luậnvăn tốt nghiệp Thạc sĩ Hà Nội, ngày 20 tháng 08 năm 2020 Phạm Minh Nguyên LỜI CẢM ƠN Lời đầu tiên, xin ch n thành cảm n thầy cô giáo tr ờng Đại Học Công Nghệ - Đại học Quốc Gia Hà Nội, đ c iệt thầy cô khoa Công Nghệ Thông Tin truyền đạt cho kiến thức, kinh nghiệm vô quý báu suốt thời gian qua Tôi xin gửi lời cảm n đến TS Nguyễn Văn Vinh – giảng viên khoa Công Nghệ Thông tin – Tr ờng Đại học Công Nghệ tận tình giúp đỡ, trực tiếp bảo h ớng dẫn tận tình suốt trình làm luận văn Cuối cùng, xin đ ợc cảm n đến gia đình, ạn è động viên, đóng góp ý kiến giúp đỡ trình học tập, nghiên cứu hoàn thành luận văn Do thời gian, kiến thức kinh nghiệm tơi cịn hạn chế nên khóa luận khơng thể tránh khỏi sai sót Tơi hy vọng nhận đ ợc ý kiến nhận xét, góp ý thầy giáo bạn để đồ án đ ợc hồn h n Tơi xin chân thành cảm n! Hà Nội, ngày 20 tháng 08 năm 2020 Phạm Minh Nguyên MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU MỞ ĐẦU 10 CHƯƠNG 1: TỔNG QUAN VỀ DỊCH MÁY 12 1.1 Khái niệm dịch máy 12 1.2 Kiến trúc chung hệ dịch máy 13 1.3 Các cách tiếp cận dịch máy 14 1.3.1 Dịch máy thống kê 14 1.3.2 Dịch máy mạng n ron 15 1.4 Tiếng Trung Quốc vấn đề dịch máy Trung – Việt 16 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 18 2.1 Mạng n ron nh n tạo 18 2.1.1 Mạng n ron truyền thẳng 20 2.1.2 Mạng n ron hồi quy 21 2.1.3 Mạng nhớ dài - ngắn (LSTM) 22 2.1.4 Huấn luyện mạng n ron 24 2.2 Word Embedding 25 2.2.1 Word2vec 26 2.2.2 GloVe 27 2.3 Mơ hình seq2seq 28 2.4 Mơ hình Transformer 31 2.4.1 Giới thiệu 31 2.4.2 Self-attention 31 2.4.3 Tổng quan mơ hình 35 2.4.4 Bộ mã hóa 37 2.4.5 Bộ giải mã 40 2.4.6 Ứng dụng Attention mơ hình Transformer 41 CHƯƠNG 3: DỊCH MÁY TRUNG-VIỆT DỰA VÀO MƠ HÌNH TRANSFORMER 42 3.1 Giới thiệu 42 3.2 Định h ớng giải pháp 42 3.3 Thử nghiệm 42 3.3.1 Thử nghiệm mơ hình Transformer 42 3.3.2 Thử nghiệm mơ hình dịch máy n ron sử dụng RNN Attention 44 3.4 Đánh giá 45 3.4.1 Ph ng pháp đánh giá 45 3.4.2 Kết 46 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49 TÀI LIỆU THAM KHẢO 50 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu viết tắt Thuật ngữ đầy đủ Giải thích RNN Recurrent neural network Mạng n ron hồi quy FFNN Feed forward network NLP Natural processing LSTM Long short term memory Word2Vec Word to vector BOW Bag of word Mơ hình túi từ CBOW Continue bag of word Mơ hình túi từ liên tiếp GloVe Global vector Mơ hình vector tồn cục BLEU Bilingual Evaluation Điểm đánh giá chất l ợng Understudy Score dịch máy neural Mạng n ron truyền thẳng language Xử lý ngôn ngữ tự nhiên Mạng nhớ dài ngắn DANH MỤC HÌNH VẼ Hình 1.1: Q trình xử lý tài liệu dịch máy 12 Hình 1.2: Các loại hệ thống dịch máy 13 Hình 1.3: Kiến trúc mã hóa – giải mã 15 Hình 1.4: Ví ụ xếp từ tiếng Trung tiếng Việt 16 Hình 2.1: Mơ hình mạng n ron đ n giản 18 Hình 2.2: Ví ụ n ron nh n tạo 19 Hình 2.3: Một số hàm kích hoạt thơng dụng 20 Hình 2.4: Mạng n ron truyền thẳng 21 Hình 2.5: Mạng n ron hồi quy 22 Hình 2.6: Mạng nhớ dài ngắn 23 Hình 2.7: Cổng quên 23 Hình 2.8: Cổng vào 24 Hình 2.9: Cổng 24 Hình 2.10: Cấu trúc huấn luyện mạng n ron 25 Hình 2.11: iểu diễn Word Embedding 26 Hình 2.12: Mơ hình C OW Skip-grams 27 Hình 2.13: Kiến trúc mơ hình Seq2Seq 28 Hình 2.14: Minh họa mơ hình seq2seq dung toán dịch máy 30 Hình 2.15: Q trình tính tốn v ctor att ntion 32 Hình 2.16: Kiến trúc mơ hình Transformer 36 Hình 2.17: ộ mã hóa giải mã mơ hình transformer 37 Hình 2.18: Một lớp mã hóa mơ hình Transformer 38 Hình 2.19: Ví ụ biểu diễn từ đầu vào 39 Hình 2.20: Q trình tính toán v ctor att ntion với nhiều “h a ” 39 Hình 2.21: ộ giải mã mơ hình transformer 40 DANH MỤC BẢNG BIỂU ảng 3-1: Thông tin cấu hình phần cứng 42 ảng 3-2: Thống kê liệu sử dụng 43 ảng 3-3: Các tham số huấn luyện mơ hình Transformer 44 ảng 3-4: Các tham số huấn luyện sử dụng RNN Attention 44 ảng 3-5: Điểm BLEU hệ thống dịch máy Trung – Việt 46 ảng 3-6: Một số kết dịch 46 MỞ ĐẦU Cùng với phát triển quan hệ kinh tế Trung – Việt, số l ợng văn dịch Trung – Việt ngày lớn, o nhu cầu đ t cần thiết kế mô hình tự động để hỗ trợ dịch thuật Tr ớc đ y ịch máy đ ợc thực theo từ hay cụm từ, tức dựa vào hàng triệu từ hay cụm từ đ ợc dịch để đối chiếu, so sánh chọn cụm từ sát ph ng pháp thống kê để đ a vào kết Hiện dịch máy thực theo câu, dùng ngữ cảnh để định xem từ ngữ cảnh chọn nghĩa cho xác Các nghiên cứu o chuyển dần sang dịch máy n ron (N ural Machin Translation), đ y cách tiếp cận dịch máy phổ biến năm gần đ y cho kết thực tốt, tới mức ngang ho c h n ng ời RNN, LSTM, GRU ph ng pháp tiếp cận đại mơ hình ngơn ngữ dịch máy, từ khắc phục đ ợc hạn chế việc phụ thuộc xa mạng n ron truyền thống Tuy nhiên nhiều toán dịch thuật, việc cải thiện khơng đáng kể Chính kỹ thuật att ntion đ ợc áp dụng để mang lại hiệu cao h n Cách tiếp cận sequence-to-sequence with attention mơ hình áp dụng kỹ thuật attention kết hợp với LSTM Năm 2017, kỹ s Googl giới thiệu kỹ thuật self-att ntion đề xuất mơ hình Transformer, cho phép thay hồn tồn kiến trúc recurrent mơ hình RNN mơ hình fullconnected Dịch máy lúc hồn toàn dựa vào kỹ thuật attention Tại Việt Nam, vấn đề dịch máy đ ợc quan tâm Tuy nhiên, nghiên cứu tiếng Việt Khoảng năm trở lại đ y có số nhóm nghiên cứu dịch máy tiếng Việt nh ng chủ yếu tập trung vào hệ dịch Anh-Việt, Pháp-Việt Hiện Google hệ thống dịch mở đ ợc sử dụng nhiều giới tích hợp tiếng Việt vào hệ thống họ Hệ dịch mở Google dịch tốt tiếng Anh với ngôn ngữ khác, nhiên với c p ngôn ngữ khác nh Trung-Việt Google sử dụng tiếng Anh làm trung gian nên chất l ợng dịch thấp Trong phạm vi khóa luận trình bày mơ hình Transformer – mơ hình dịch máy hình hồn tồn dựa vào kĩ thuật attention ứng dụng vào dịch máy Trung-Việt Luận văn có bố cục gồm ch ng chính: Chƣơng 1: Tổng quan dịch máy Ch ng giới thiệu tổn quan dịch máy, số cách tiếp cận dịch máy, tiếng Trung vấn đề dịch máy Trung – Việt Chƣơng 2: C sở lý thuyết 10 H nh 2.17: Bộ mã hóa giải mã mơ hình transformer Một u điểm transformer mơ hình có khả xử lý song song cho từ Đầu vào đ ợc đẩy vào lúc Bộ mã hóa mơ hình transformer bao gồm tập gồm N = lớp giống nhau, lớp bao gồm lớp Lớp c chế multi-head self-attention, lớp thứ mạng feed-forward kết nối đẩy đủ Đầu lớp Lay rNorm(x + Su lay r(x)), Sublayer(x) hàm đ ợc thực bới lớp Bộ giải mã: ao gồm tập gồm N = lớp giống Ngoài hai lớp giống nh ộ mã hóa, giải mã cịn có lớp để thực multi-head attention đầu lớp giải mã Ở đ y có thay đổi c chế self-attention mã hóa D ới đ y trình bày chi tiết mã hóa giải mã mơ hình transformer 2.4.4 Bộ mã hóa Dữ liệu đầu vào đ ợc mã hóa thành v ctor, sau đ ợc đ a vào các lớp đ ợc xếp chồng lên Các thành phần lớp đ ợc biểu diễn nh hình 2.18 37 H nh 2.18: Một lớp mã hóa mơ hình Transformer 2.4.4.1 Input Embedding Em Các c u đầu vào đ ợc mã hóa thành vector việc sử dụng Word ing đ ợc trình bày phần 2.2 2.4.4.2 Positional Encoding Input embeddings phần cho giúp ta biểu diễn ngữ nghĩa từ, nhiên từ vị trí khác câu lại mang ý nghĩa khác Đó lý o Transformers có thêm phần Positional Enco ing biết thêm thông tin vị trí từ Giá trị đ ợc tính nh sau: ( ( ( ) ) ) ( ) Trong đó:  pos vị trí từ câu  PE giá trị phần tử thứ i m ings có độ dài Nh mã hóa nhận ma trận biểu diễn từ đ ợc cộng với thông tin vị trí thơng qua positional encoding 38 H nh 2.19: Ví dụ biểu diễn từ đầu vào Sau đó, ma trận đ ợc xử lý Multi Head Attention Multi Head Attention thực chất là sử dụng nhiều self-attention 2.4.4.3 Multi Head Attention H nh 2.20: Quá trình tính tốn vector attention với nhiều “head” Vấn đề self-attention attention từ “chú ý” vào Chúng ta muốn mơ hình học nhiều kiểu mối quan hệ giữ từ với Ý t ởng thay sử dụng self-attention sử dụng nhiều self-attention 39 Đ n giản cần nhiều ma trận query, key, value Mỗi “h a ” cho output riêng, ma trận đ ợc kết hợp với nhân với ma trận trọng số để có đ ợc ma trận attention MultiHead(Q, K, V ) = Concat(head1 , , headh)WO Mỗi encoder decoder Transformer sử dụng N attention Mỗi attention biến đổi tuyến tính q, k, k với ma trận huấn luyện khác t ng ứng Mỗi phép biến đổi cung cấp cho phép chiếu khác cho q, k v Vì vậy, N attention cho phép xem mức độ phù hợp từ N quan điểm khác Điều cuối đẩy độ xác tổng thể cao h n, theo kinh nghiệm Việc chuyển đổi làm giảm kích th ớc đầu chúng, o đó, chí N att ntion đ ợc sử dụng, độ phức tạp tính tốn giữ ngun Trong multi-head att ntion, ghép v ct đầu theo sau phép biến đổi tuyến tính 2.4.5 Bộ giải mã Bộ giải mã thực chức giải mã vector câu nguồn thành c u đích, o ộ giải mã nhận thơng tin từ mã hóa vector key value Kiến trúc giải mã giống với mã hóa, ngoại trừ có thêm masked multi-head attention nằm giữ ùng để học mối liên quan giữ từ đ ợc dịch với từ đ ợc câu nguồn H nh 2.21: Bộ giải mã mơ hình transformer 40 Masked multi-head attention tất nhiên multi-h a att ntion mà nói đến trên, nhiên từ t ng lai ch a đ ợc mơ hình dịch đến đ ợc che lại Trong giải mã cịn có multi-head attention khác có chức ý từ mã hóa, layer nhận vector key value từ mã hóa, output từ layer phía ới Đ n giản muốn so sánh t ng quan giữ từ đ ợc dịch vời từ nguồn 2.4.6 Ứng dụng Attention mơ hình Transformer Mơ hình Transformer sử dụng multi-head attention theo cách khác [2] Thứ Trong lớp “ nco r- co r att ntion”, c u truy vấn đến từ lớp giải mã tr ớc khóa giá trị đến từ đầu mã hóa Điều cho phép tất các vị trí giải mã tham gia vào tất vị trí chuỗi đầu vào Nó t ng tự nh c chế encoder-decoder attention mơ hình sequence-to-sequence Tiếp đến mã hóa chứa lớp self-attention Trong lớp self-attention, tất khóa, giá trị truy vấn đến từ n i, tr ờng hợp đầu lớp tr ớc mã hóa Mỗi vị trí mã hóa tham gia vào tất vị trí lớp tr ớc mã hóa Ngồi ra, lớp self-attention giải mã cho phép vị trí giải mã tham dự tất vị trí giải mã bao gồm vị trí Chúng ta cần ngăn ch n luồng thông tin bên trái giải mã để bảo tồn thuộc tính tự động hồi quy Điều đ ợc thực bên scaled dot-product attention cách che tất giá trị đầu vào softmax t ng ứng với kết nối không hợp lệ 41 CHƢƠNG 3: DỊCH MÁY TRUNG-VIỆT DỰA VÀO MƠ HÌNH TRANSFORMER 3.1 Giới thiệu Dịch máy vấn đề khó l u đời trí tuệ nhân tạo M c dù có lịch sử l u đời nh ng vấn đề dịch động nhiều thách thức vấn đề m t ngôn ngữ văn hóa Luận văn tập trung vào việc nghiên cứu dịch thuật với c p ngôn ngữ Trung – Việt 3.2 Định hƣớng giải pháp Để xây dựng hệ thống dịch máy Trung-Việt, đ y sử dụng cách tiếp cận dịch máy mạng n ron, sử dụng mơ hình Transform r nh trình ày ch ng Đầu tiên, hệ thống đ ợc “học” để có đ ợc mạng n ron với trọng số t ng ứng Đầu vào tập liệu tiếng Trung dịch tiếng Việt t ng ứng Dữ liệu đ ợc tiền xử lý, sau đ a vào huấn luyện Q trình dịch sử dụng thơng tin “học” đ ợc để xây dựng câu dịch 3.3 Thử nghiệm 3.3.1 Thử nghiệm mơ hình Transformer 3.3.1.1 Cấu hình phần cứng ảng 3-1: Thơng tin cấu hình phần cứng Cấu hình Chỉ số CPU Intel(R) Xeon(R) CPU @ 2.30GHz GPU NVIDIA Tesla K80 RAM 16 OS Linux 3.3.1.2 Dữ liệu sử dụng Dữ liệu tiếng Trung đ ợc lấy từ tập truyện “全职高手”tại http://www.jjwxc.net/, dịch tiếng Việt đ ợc nhóm dịch giả nhà Xuất Hà Nội dịch Dữ liệu bao gồm 16.483 c p câu Trung-Việt, đ ợc chia thành tập liệu nh sau: 42 ảng 3-2: Thống kê liệu sử dụng Số câu Số tokens Số từ Độ dài trung bình câu train.vi 14896 231789 7586 15.56049 train.cn 14896 15104 15.70959 dev.vi 1070 2662 16.81963 dev.cn 1070 3724 16.77383 test.vi 517 1741 16.02901 test.cn 517 2253 16.19923 234010 17997 17948 8287 8375 Dữ liệu sau đ ợc thu thập đ ợc tách từ, sử dụng công cụ VnCoreNLP [12] với tiếng Việt Stanford Word Segmenter [9] với tiếng Trung đ ợc biểu diễn v ctor để đ a vào huấn luyện Quá trình huấn luyện sử dụng Tensor2Tensor 3.3.1.3 Tối ưu hóa Có nhiều thuật tốn tối u hóa sử dụng, bật h n SGD M c dù Adam đ ợc mắt gần đ y đ ợc cộng đồng nghiên cứu NLP sử dụng th ờng xuyên v ợt trội rõ ràng Adam so với SGD Ở đ y sử dụng Adam [6] Tuy nhiên learning rate đ ợc điều chỉnh suốt trình học, ý t ởng khởi động tốc độ học an đầu giảm dần cuối theo cơng thức sau: ( ) Ngồi việc điều chỉnh siêu tham số có tác động lớn tới độ phức tạp độ n ng mô hình, đ y lựa chọn tham số nh sau:  Mơ hình: T2T cung cấp hai mơ hình với hai tham số đ ợc xác định tr ớc transformer_big_single_gpu (BIG) transformer_base_single_gpu (BASE) mà khác biệt kích th ớc mơ hình Theo báo “Att ntion Is All You N ” [2], mơ hình BIG tỏ tốt h n mơ hình ASE, m c dù BIG tốn nhiều nhớ h n Ở đ y lựa chọn mơ hình BIG  Kích th ớc lơ (batch size): tập liệu huấn luyện chia nhỏ thành batch, batch chứa training samples, số l ợng samples 43 đ ợc gọi batch size Việc lựa chọn batch size lớn hay nhỏ ảnh h ởng đến tốc độ tính tốn thơng l ợng đào tạo Tốc độ tính toán giảm dần tăng ần batch size tất hoạt động GPU hoạt động song song th o lô Ng ợc lại, thơng l ợng đào tạo tăng tuyến tính với kích th ớc lô [6] Ở đ y lựa chọn batch size 2000  Bộ mã hóa giải mã tổng hợp xếp chồng lên layer Mỗi layer bao gồm layer (sub-lay r) su -lay r multi-head selfattention với số head 16 Sub-layer thứ hai feedforward n twork Đầu sub-layer có số chiều 1024 ảng 3-3: Các tham số huấn luyện mơ hình Transformer Tham số Giá trị N hiden size 1024 batch size 2000 num head 16 optimizer adam warmup_steps 16.000 train steps 300.000 3.3.2 Thử nghiệm mơ hình dịch máy nơ ron sử dụng RNN Attention Để so sánh với mơ hình Transformer, tơi tiến hành thử nghiệm hệ thống dịch sử dụng RNN Attention cấu hình phần cứng liệu sử dụng với mơ hình Transformer Để huấn luyện hệ dịch, sử dụng công cụ OpenNMT [11], sử dụng tham số theo báo Sennrich cộng [14] Cụ thể nh sau: ảng 3-4: Các tham số huấn luyện sử dụng RNN Attention Tham số Giá trị hidden layer size 1024 embedding size 512 encoder depth 44 Tham số Giá trị decoder depth hidden dropout 0.2 embedding dropout 0.2 source word dropout 0.2 label smoothing 0.1 optimizer adam learning_rate 0.0001 warmup_scheme 16.000 infer_mode 300.000 3.4 Đánh giá 3.4.1 Phương pháp đánh giá Bilingual Evaluation Understudy Score hay ngắn gọn BLEU score thang điểm đ ợc dùng phổ biến đánh giá chất l ợng dịch máy LEU đ ợc Kishore Papineni cộng đề xuất lần đầu vào năm 2002 qua ài nghiên cứu “A Method for Automatic Evaluation of Machine Translation” [4] LEU đ ợc tính dựa số l ợng n-grams giống câu dịch mơ hình (output) với câu tham chiếu t ng ứng (label) có xét tới yếu tố độ dài câu Số n-grams tối đa BLEU khơng giới hạn, nh ng xét ý nghĩa, cụm từ q ài th ờng khơng có nhiều ý nghĩa, nghiên cứu cho thấy với 4-gram, điểm số BLEU trung bình cho khả dịch thuật ng ời giảm nhiều nên n-grams tối đa th ờng đ ợc sử dụng 4-gram Cơng thức để tính điểm đánh giá nh sau: {∑ ( ) ∑ ∑ 45 ( )} Trong đó:  số l ợng n-grams ph n đoạn j dịch ùng để tham khảo  số l ợng n-grams ph n đoạn j dịch máy  số l ợng n-grams ph n đoạn j dịch máy  số l ợng từ dịch máy Giá trị scor đánh giá mức độ t ng ứng hai dịch đ ợc thực ph n đoạn, đ y ph n đoạn đ ợc hiểu đ n vị tối thiểu dịch, thông th ờng ph n đoạn câu ho c đoạn Việc thống kê đồ trùng khớp n-grams dựa tập hợp ngrams ph n đoạn, tr ớc hết đ ợc tính ph n đoạn, sau tính lại giá trị tất ph n đoạn 3.4.2 Kết D ới đ y điểm số BLEU sử dụng hệ thống để dịch liệu kiểm thử từ tiếng Trung sang tiếng Việt Để đánh giá hệ thống, so sánh với hệ thống dịch sử dụng RNN attention với chung liệu huấn luyện kiểm thử Có thể thấy mơ hình Transformer cho kết tốt h n mơ hình ịch n ron sử dụng RNN attention ảng 3-5: Điểm BLEU hệ thống dịch máy Trung – Việt Loại dịch máy BLEU RNN + Attention 16.73 Transformer 30.07 D ới đ y số kết dịch Trung Việt sử dụng mơ hình Transformer: ảng 3-6: Một số kết dịch STT Đầu vào Đầu Ở đ y phòng họp lớn, bắt đầu, 议室，刚入门便可看到 bạn thấy 一面几乎占满整面墙壁 hình điện tử bao phủ gần nh toàn ộ t ờng, 的电子显示屏，上面显 hiển thị thứ hạng 示得是 “ 荣耀职业联盟 “Liên minh chuyên nghiệp Vinh Quang” 这里是一间很宽大的会 46 Tham chiếu N i phòng họp rộng , vào cửa nhìn thấy bảng điện tử chiếm trọn vách t ờng , m t hiển thị bảng xếp hạng chiến tích “ Liên ” thống kê kỹ thuật 的战绩排行和一些技术 minh chuyên nghiệp Vinh Quang ” số liệu thống kê 统计。现如今的荣耀已经发展到如此程度了吗？叶修摇了摇头，他心中并不太肯定。叶修这话说完，那三位 Hiện Vinh Quang Vinh Quang đ y phát triển đến trình độ pháttriển tới trình độ nh ? ? DiệpTu lắcđầu, Diệp Tu lắc đầu, lịng gã khơng q lịng khơng chắn chắn Diệp Tu nói xong, ba ng ời lao ra, Phong Hoa nhìn hai tên l u manh uống r ợu: Tơi lại qua đ ợc cửa sổ đá? Diệp Tu vừa dứt lời, ba ng ời lao ra, Phong Hoa mờ mịt nhìn hai tên l u manh r ợu chè : Sao qua đ ợc cửa sổ đá ? a ng ời ngẩn , L u Mộc gia nhập bọn họ không phản ứng, bọn họ chờ Ly Hận Kiếm xuất hiện! a ng ời khác ngẩn , họ ch a kịp có phản ứng L u Mộc gia nhập, đám chờ Ly Hận Kiếm xuất đ y! 但这一次，他的 Nh ng lần này, gã không thuận theo , 连击却没有那么顺畅 ng ời mà không làm ，因为这已是狂暴 trạng thái Bá Thể, trạng thái cuồng bạo để 状态下的猫妖，提速 cơng kích vào trạng thái, 后的移动和攻击让 tăng tốc cơng kích Nguyệt Trung Miên 月中眠的动作都有些 tùy tiện Nh ng lúc đ y, liên kích lại khơng thơng thuận nh an đầu, đ y Miêu Yêu cuồng bạo, tốc độ cơng kích nhanh đến mức Nguyệt Trung Miên không theo kịp 已经都冲出去了，枫桦却还是望着那两个在喝酒的流氓茫然：我怎么过去那个石窗？另三人一怔，这个流木的加入他们一点反应都没有，他们还在等着离恨剑出现呢！跟不上了。 47 Hai ng ời bất Hai ng ời thật hết đắc ĩ cách 两人都挺无奈。大家齐盯着叶修的 Mọi ng ời đồng thời nhìn hình Diệp 屏幕，就见他的角色 Tu, thấy nhân vật có 玩命飞奔，时不时 chạy trốn lên, lại nhìn sau, 扭头甩一下身后， ng ời nhìn thấy 于是大家都看到他 có ng ời c ớp qi, cịn ba cơng hội lớn 身后有大片的追兵，正是三大公会的玩家。 48 Mọi ng ời đồng thời nhìn chằm chằm hình Diệp Tu, thấy nhân vật liều mạng chạy nh ay, lại ngối cổ nhìn phía sau, tất ng ời thấy đ ợc đống lớn truy binh phía sau hắn, ng ời ch i ba công hội lớn KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết luận Sau thời gian nghiên cứu, ới h ớng dẫn tận tình TS Nguyễn Văn Vinh, tơi hồn thành luận văn “Nghiên cứu dịch máy Trung – Việt dựa vào mơ hình Transformer” Luận văn đạt đ ợc kết nh sau:  Tìm hiểu hệ thống kiến thức liên quan: o Tổng quan dịch máy, số cách tiếp cận dịch máy o Mạng n ron nh n tạo, huấn luyện mạng n ron o Mơ hình dịch máy n ron tập trung nghiên cứu mơ hình Transformer  Cài đ t thử nghiệm mơ hình Transformer tối u tham số mơ hình áp dụng cho c p ngôn ngữ Trung – Việt  Thử nghiệm so sánh mơ hình Transformer với mơ hình dịch máy n ron sử dụng RNN Attention  Trau dồi kiến thức ngôn ngữ dịch thuật Hƣớng phát triển tƣơng lai Với kiến thức kỹ có đ ợc từ khóa luận,trong t ng lai tiếp tục thu thập bổ sung ngữ liệu cho hệ thống, đồng thời khai thác thêm đ c tr ng ngôn ngữ thêm nguồn liệu mở nh từ điển vào hệ thống để nâng cao chất l ợng dịch Đồng thời tìm hiểu thêm biến thể mơ hình Transformer thử nghiệm với nhiều c p ngôn ngữ kh p 49 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] GS Hồ Tú Bảo, GS L ng Chi Mai (2005), “Về xử lý tiếng Việt công nghệ thông tin” Availa l : http://www.jaist.ac.jp/~bao/Writings/VLSPwhitepaper%20-%20Final.pdf Tiếng Anh: [2] A Vaswani t al., “Att ntion Is All You N 2017 Available: http://arxiv.org/abs/1706.03762 ,” arXiv:1706.03762 [cs], D c [3] Daniel Jurafsky & James H Martin, 2006 Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition [4] G Do ington, “Automatic valuation of machin translation quality using ngram co-occurr nc statistics,” in Proc ings of th s int rnational conference on Human Language Technology Research, San Diego, California, 2002, p 138, doi: 10.3115/1289189.1289273 Krzysztof Wołk, Krzysztof Maras k, 2015 Neural-based Machine Translation for Medical Text Domain Based on European Medicines Agency Leaflet Texts ScienceDirect Available at: http://www.sciencedirect.com/science/article/pii/S1877050915025910 [5] [6] M Pop l an O ojar, “Training Tips for th Transform r Mo l,” Th Pragu Bulletin of Mathematical Linguistics, vol 110, no 1, pp 43–70, Apr 2018 [7] M.-T Luong, H Pham, an C D Manning, “Eff ctiv Approach s to Attention- as N ural Machin Translation,” arXiv:1508.04025 [cs], S p 2015 Available: http://arxiv.org/abs/1508.04025 [8] M.-T Luong, Q V Le, I Sutskever, O Vinyals, an L Kais r, “Multi-task S qu nc to S qu nc L arning,” arXiv:1511.06114 [cs, stat], Mar 2016 Availa l : http://arxiv.org/abs/1511.06114 [9] P.-C Chang, M Gall y, an C D Manning, “Optimizing Chin s wor segmentation for machine translation p rformanc ,” in Proc ings of th Thir Workshop on Statistical Machine Translation - StatMT ’08, Colum us, Ohio, 2008, pp 224–232 [10] P Ko hn, “N ural Machin Translation,” arXiv:1709.07809 [cs], S p 2017 Available: http://arxiv.org/abs/1709.07809 [11] Guillaume Klein, Yoon Kim, Yuntian Deng, Jean Senellart, Alexander M Rush 2017 OpenNMT: Open-Source for Neural Machine Translation Proceedings of AMTA 2018, vol 1: MT Research Track 50 [12] T Vu, D Q Nguyen, D Q Nguyen, M Dras, and M Johnson, “VnCor NLP: A Vi tnam s Natural Languag Proc ssing Toolkit,” in Proc ings of th 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, New Orleans, Louisiana, Jun 2018, pp 56–60, doi: 10.18653/v1/N18-5012 [13] T Mikolov, K Ch n, G Corra o, an J D an, “Effici nt Estimation of Wor R pr s ntations in V ctor Spac ,” arXiv:1301.3781 [cs], S p 2013 Availa l : http://arxiv.org/abs/1301.3781 [14] R S nnrich an Zhang, “R visiting Low-Resource Neural Machine Translation: A Cas Stu y,” in Proc ings of th 57th Annual M ting of th Association for Computational Linguistics, Florence, Italy, Jul 2019, pp 211–221, doi: 10.18653/v1/P19-1021 51 ... trình bày mơ hình Transformer – mơ hình dịch máy hình hồn tồn dựa vào kĩ thuật attention ứng dụng vào dịch máy Trung- Việt Luận văn có bố cục gồm ch ng chính: Chƣơng 1: Tổng quan dịch máy Ch ng giới... tâm Tuy nhiên, nghiên cứu tiếng Việt Khoảng năm trở lại đ y có số nhóm nghiên cứu dịch máy tiếng Việt nh ng chủ yếu tập trung vào hệ dịch Anh -Việt, Pháp -Việt Hiện Google hệ thống dịch mở đ ợc sử... Kết luận Sau thời gian nghiên cứu, ới h ớng dẫn tận tình TS Nguyễn Văn Vinh, tơi hoàn thành luận văn ? ?Nghiên cứu dịch máy Trung – Việt dựa vào mơ hình Transformer” Luận văn đạt đ ợc kết nh sau:

Định dạng
Số trang	51
Dung lượng	1,7 MB

(Luận văn thạc sĩ) nghiên cứu dịch máy trung việt dựa vào mô hình transformer​

(Luận văn thạc sĩ) nghiên cứu dịch máy trung việt dựa vào mô hình transformer