Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam.
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - Nguyễn Thị BíchĐiệp NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP TIẾP CẬN DỰA TRÊN CẤU TRÚC VÀ THỐNG KÊTRONG DỊCH TỰ ĐỘNG NGÔN NGỮ KÝ HIỆU VIỆT NAM LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội – Năm 2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - Nguyễn Thị BíchĐiệp NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP TIẾP CẬN DỰA TRÊN CẤU TRÚC VÀ THỐNG KÊTRONG DỊCH TỰ ĐỘNG NGÔN NGỮ KÝ HIỆU VIỆT NAM LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Mã số: 48 01 01 Xác nhận Học viện Người hướng dẫn Người hướng dẫn (Ký, ghi rõ họ tên) Khoa học Công nghệ (Ký, ghi rõ họ tên) TS Vũ Tất Thắng Hà Nội – Năm 2023 PGS TS Phùng Trung Nghĩa LỜI CAM ĐOAN Tôi xin cam đoan luận án: "Nghiên cứu phát triển phương pháp tiếp cậndựa cấu trúc thống kê dịch tự động ngơn ngữ ký hiệu Việt Nam" cơng trình nghiên cứu hướng dẫn khoa học tập thể hướng dẫn Luận án sử dụng thông tin trích dẫn từ nhiều nguồn tham khảo khác thơng tin trích dẫn ghi rõ nguồn gốc Các kết nghiên cứu công bố chung với tác giả khác trí đồng tác giả đưa vào luận án Các số liệu, kết trình bày luận án hoàn toàn trung thực chưa cơng bố cơng trình khác ngồi cơng trình cơng bố tác giả Luận án hồn thành thời gian tơi làm nghiên cứu sinh Học viện Khoa học Công nghệ, Viện Hàn lâm Khoa học Công nghệ ViệtNam HàNội,tháng năm2023 Tác giả Nguyễn Thị Bích Điệp LỜI CẢM ƠN Lời đầu tiên, xin cảm ơnTS Vũ Tất ThắngvàPGS TS PhùngTrung Nghĩa, thầy tận tình hướng dẫn định hướng trình nghiên cứu để tơi hồn thành luận án Tơi xin cảm ơnTS Vũ Thị Hải Hà– Viện Ngôn ngữ học, Viện Hàn lâm Khoa học xã hội Việt Nam người tận tình giúp đỡ trình xây dựng liệu phục vụ cho tốn Tơi xin bày tỏ lòng cảm ơn sâu sắc tới Thầy, Cô Viện Công nghệ thông tin, Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam nhà khoa học đầu ngành lĩnh vực nghiên cứu côPGS TS Lương Chi Mai, thầyTS Nguyễn Văn Vinh, thầyTS NguyễnPhương Tháiđã có góp ý khoa học xác đáng để tơi bổ sung, chỉnh sửa đánh giá kết tồn diệnhơn Cuối xin cảm ơn Ban giám hiệu trường Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên đồng nghiệp nơi tác giả công tác tạo điều kiện công việc ủng hộ để luận án hoànthành Hà Nội, thángn ă m Nguyễn Thị Bích Điệp MỤC LỤC Trang LỜICAMĐOAN .i LỜICẢMƠN ii DANH MỤC TỪVIẾTTẮT v DANH MỤCHÌNHẢNH vi DANH MỤCBẢNGBIỂU .vii MỞĐẦU CHƯƠNG TỔNG QUAN VỀ BÀI TỐN DỊCH NGƠN NGỮ KÝ HIỆU VIỆTNAM 1.1 Tổng quan ngôn ngữkýhiệu .7 1.1.1 Lịch sử phân loại ngôn ngữ ký hiệu trênthếgiới 1.1.2 Đặc điểm cú pháp câu ngôn ngữ ký hiệuViệt Nam 1.2 Các nghiên cứuliênquan .11 1.3 Bài toán dịch ngôn ngữ ký hiệuViệtNam 16 1.4 Kếtluậnchương 19 CHƯƠNG CÁC KIẾN THỨCCƠSỞ 20 2.1 Kiến thức sở vềdịch máy 20 2.2 Dịch dựatrênluật 23 2.2.1 Các hướng tiếpcậnchính 23 2.2.2 Nguyên tắc bảncủaRBMT 24 2.2.3 Các thành phần hệthốngRBMT 25 2.2.4 Ưu nhược điểmcủaRBMT 26 2.3 Dịch máythốngkê .27 2.4 Dịch máy dựa trênmạngrơron .29 2.4.1 Mơ hình SequencetoSequence .31 2.4.2 Mơ hìnhTransformer 35 2.5 Đánh giá chất lượng bảndịchmáy .38 2.5.1 Khái quát đánh giá chất lượng bảndịchmáy 38 2.5.2 Điểm đánhgiáBLEU 39 2.5.3 Điểm đánh giá hiệu suất mơ hình ngơnngữPerplexity 40 2.6 Kếtluậnchương 41 CHƯƠNG3 PHƯƠNG PHÁP TIẾP CẬN DỰA TRÊN CẤU TRÚC TRONGDỊCH TỰ ĐỘNG NGÔN NGỮ KÝ HIỆUVIỆTNAM 42 3.1 Giới thiệu vềbàitoán 42 3.2 Xây dựng sở liệu ban đầu chobàitoán .43 3.2.1 Tập từđiểnVSL-Lexicon 43 3.2.2 Bộ liệu songngữVie-VSL10k 45 3.3 Vấn đề tổnghợpluật 47 3.3.1 Tính chất rút gọn trongcâu VSL 47 3.3.2 Tập hợp đặc điểm cú phápcâuVSL 47 3.4 Xây dựng hệ thống dịch dựatrênluật 53 3.5 Các thực nghiệm đánh giá hệ thống dịch dựatrênluật .55 3.6 Kếtluậnchương 60 CHƯƠNG LÀM GIÀU DỮ LIỆU CHO BÀI TOÁN DỊCH TỰ ĐỘNG NGÔNNGỮ KÝ HIỆUVIỆT NAM 62 4.1 Giới thiệu chung kỹ thuật làm giàu liệu trongdịchmáy 62 4.2 Cơ sở phương phápđềxuất 64 4.3 Quy trình làm giàudữliệu 67 4.4 Kết thực nghiệm vàđánh giá 71 4.5 Kếtluậnchương 74 CHƯƠNG PHƯƠNG PHÁP TIẾP CẬN DỰA TRÊN THỐNG KÊ VÀ MẠNGNORON TRONG DỊCH TỰ ĐỘNG NGÔN NGỮ KÝ HIỆUVIỆT NAM 75 5.1 Cải tiến mơ hình dịch IBM cho toándịch Vie-VSL 75 5.2 Mơ hình Sequence to Sequence chobàitốn .83 5.2.1 Mơ hình mã hóa vàgiải mã .84 5.2.2 Huấnluyệnmạng 86 5.2.3 Tiến trìnhdịch 87 5.3 Mơ hình Transformer cho bàitoán dịch .89 5.3.1 Q trình mã hóa vàgiảimã 90 5.3.2 Khởi tạo mơhìnhTransformer 91 5.4 Đánh giá kết quảthựcnghiệm 93 5.5 Kếtluậnchương 95 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂNNGHIÊNCỨU 97 DANH MỤC CÔNG TRÌNH CỦATÁCGIẢ 99 TÀI LIỆUTHAMKHẢO .100 DANH MỤC TỪ VIẾT TẮT Ký hiệu Tên đầy đủ Tên tiếng Việt ASL American Sign Language Ngôn ngữ ký hiệu Mỹ BLEU Bilingual Evaluation Understudy Điểm đánh giá dịch song ngữ BSL British Sign Language Ngôn ngữ ký hiệu Anh DSG Deutsche Gebärdensprache Ngôn ngữ ký hiệu Đức DRS Discourse Representation Structure Cấu trúc đại diện diễn đạt KSL Korean Sign Language Ngôn ngữ ký hiệu Hàn Quốc ISL Indian Sign Language Ngôn ngữ ký hiệu Ấn Độ MT Machine Translation Dịch máy NMT Neural Machine Translation Dịch máy dựa mạng Nơron SMT Statistical Machine Translation Dịch máy thống kê RBMT Rules Based Machine Translation Dịch máy dựa luật PSL Pakistani Sign Language Ngôn ngữ ký hiệu Pakistan SL Sign Language Ngôn ngữ ký hiệu STAG Synchronous Tree Adjoining Grammar Cây đồng ngữ pháp liền kề VRML Virtual Reality Modeling Language Mô hình ngơn ngữ thực tế ảo VSL Vietnamese Sign Language Ngôn ngữ ký hiệu Việt Nam Vie- Vietnamese VSL Language VLSP Association - Vietnamese Sign Tiếng Việt - Ngôn ngữ ký hiệu Việt Nam for Vietnamese Cộng đồng xử lí văn tiếng Language and Speech Processing nói tiếng Việt DANH MỤC HÌNH ẢNH Hình 1.1 Hai chiều tốn dịch ngơn ngữkýhiệu 11 Hình 1.2 Q trình dịch ngơn ngữ thơng thường thành ngơn ngữkýhiệu 12 Hình 2.1 Q trình phát triểncủaMT .22 Hình 2.2 So sánh kết dịch dựa SMTvàNMT 22 Hình 2.3 Sơ đồ dịch máy dựatrênluật 23 Hình 2.4 Dịch máy dựa mơhình SMT 28 Hình 2.5 Mơ hình ngơn ngữ sử dụngmạngRNN 31 Hình 2.6 Kiến trúc encoder-decoder sử dụngmạngRNN .31 Hình 2.7 Encoder hai chiều sử dụng cácmạngRNN 32 Hình 2.8 Minh họa q trình tính tốn trạng thái ẩn dự đốn decoder.34Hình 2.9 RNNvà LSTM .36 Hình 2.10 Kiến trúccủaTransformers 37 Hình 3.1 Hình ảnh mơ hình 3D mã số VSL0153trongVSL-Lexicon 45 Hình 3.2 Cây cú pháp phân tích câu cơngcụPARSE 52 Hình 3.3 Quy trình xây dựng hệ thống dịch máytheoluật 54 Hình 3.4 Thống kê điểm BLEU trung bình tậpkiểmtra .59 Hình 4.1 Cấu trúc phân cấptrong WordNet 65 Hình 4.2 Cấu trúc thượng danh hạ danh từ khố“conchó” 66 Hình 4.3 Minh hoạ tiêu chuẩn với tậpSynset𝐸𝑖𝑗 66 Hình 4.4 Cấu trúc thượng danh từkhoá“cam” 69 Hình 4.5 Ví dụ xây dựng tập T sinh dữliệumới 70 Hình 4.6 Ví dụ xây dựng tập T sinh liệu khơng phù hợp vớiđộngtừ .72 Hình 5.1 Liên kết từ đầu vào từ đầu dịchcâuVie-VSL 76 Hình 5.2 Ví dụ minh hoạ xếp lại từ dịchcâuVie-VSL .76 Hình 5.3 Mơ hình mã hố giải mã tốndịchVie-VSL 85 Hình 5.4 BảnđồAttention 92 DANH MỤC BẢNG BIỂU Bảng 1.1 Một số mẫu câu rút gọn giới từ vàliêntừ .10 Bảng 1.2 Một số dự án sử dụng dịch máy kết hợp cho mục tiêu dịch text-to-text củabài tốn dịch ngơn ngữkýhiệu 14 Bảng 2.1 Chỉ số perplexity số kho ngữ liệuphổbiến 41 Bảng 3.1 Bảng mô tả từđiểnVSL-Lexicon 44 Bảng 3.2 Các số liệu thống kê liệu câu tiếng ViệttrongVie-VSL-10k 46 Bảng 3.3 Các từ rút gọn trongcâuVSL 47 Bảng 3.4 Cấu trúc chuyển đổi trật tự danh từ- số từ câuVSL(a) 48 Bảng 3.5 Cấu trúc chuyển đổi trật tự động từ - từ phủ định trongcâuVSL 48 Bảng 3.6 Cấu trúc chuyển đổi trật tự động từ - từ phủ định trongcâuVSL 48 Bảng 3.7 Cấu trúc chuyển đổi trật tự từ câu nghi vấn trongVSL (a) 48 Bảng 3.8 Cấu trúc chuyển đổi trật tự từ câu phủ địnhtrong VSL 49 Bảng 3.9 Kết quảtáchtừ 49 Bảng 3.10 Nhãntừloại 50 Bảng 3.11 Tập nhãncụmtừ 50 Bảng 3.12 Nhãnmệnh đề .51 Bảng 3.13 Một số luật trích rút cho hệ thốngdịchRule-based 52 Bảng 3.14 Thông số tập liệu thử nghiệmhệthống 56 Bảng315 Điểm BLEU đánh giátrêntậpkiểmtra dữliệu miềncác câutrongyhọc57 Bảng 3.16.Điểm BLEUđánhgiá trêntậpkiểm tradữliệu miềncác câutrongvănhọc 58 Bảng3.17.TổnghợpđiểmBLEUhệthốngdịchdựatrênluậtvớimộtsốtậpkiểmtra 59 Bảng 4.1 Liệt kê số liệu nghiên cứu lĩnh vực dịch máy chủđề dịch ngôn ngữkýhiệu 63 Bảng 4.2 Kết thuật toán làm giàu liệutừVie-VSL10k 72 Bảng 4.3 Chỉ số Perplexity kho ngữ liệu đãxâydựng 73 Bảng 5.1 Một số lần lặp với xác suất dịch từ tiếng Việt sang dạng văn bảnVSL với mơ hìnhIBM 77 Bảng 5.2 Một số lần lặp với xác suất dịch từ tiếng Việt sang dạng văn bảnVSL với mơ hìnhIBM 78 Bảng 5.3 Khoảng cách Jaro khoảngcáchJaro-Winkeler 80 Bảng5.4 Kết xác suất dịch với mơ hình IBM có tốiưuhố 81 Bảng5.5 Kết xác suất dịch với mơ hình IBM có tốiưuhố 82 Bảng 5.6 So sánh điểm BLEU số mơ hình dịch liệu gốc dữliệulàmgiàu 94 Bảng 5.7 Tham chiếu điểm BLEU toán dịch ngôn ngữ kýhiệukhác 95