1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bắt lỗi chính tả bằng phương pháp transformer

50 62 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 2,22 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN MINH BẰNG BẮT LỖI CHÍNH TẢ BẰNG PHƯƠNG PHÁP TRANSFORMER Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 08 năm 2020 I CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học: GS.TS Phan Thị Tươi Cán chấm nhận xét 1: PGS.TS Quản Thành Thơ Cán chấm nhận xét 2: TS Lê Thị Ngọc Thơ Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 24 tháng 08 năm 2020 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch: PGS.TS Dương Tuấn Anh Thư ký: TS Võ Thị Ngọc Châu Phản biện 1: PGS.TS Quản Thành Thơ Phản biện 2: TS Lê Thị Ngọc Thơ Ủy viên: PGS.TS Lê Anh Cường Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH & KTMT II ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Minh Bằng Ngày, tháng, năm sinh: 13/01/1981 Chuyên ngành: Khoa học máy tính MSHV:1670212 Nơi sinh: Bình Dương Mã số : 60480101 I TÊN ĐỀ TÀI: Bắt lỗi tả phương pháp Transformer (Spelling Errors Correction by Transformer method) II NHIỆM VỤ VÀ NỘI DUNG: - Nghiên cứu phương pháp bắt lỗi tả cho văn ngôn ngữ tự nhiên, tập trung vào phương pháp học sâu - Nghiên cứu phương pháp TRANSFORMER để áp dụng cho luận văn - Có thể nghiên cứu phương pháp học sâu kết hợp khác để thực luận văn - Tìm hiểu, khai thác xây dựng tập liệu huấn luyện tiếng Việt cho mơ hình học sâu để bắt lỗi tả tiếng Việt - Xây dựng mơ hình thử nghiệm đơn giản bắt lỗi tả tiếng Việt III NGÀY GIAO NHIỆM VỤ: 19/08/2019 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 03/08/2020 V CÁN BỘ HƯỚNG DẪN: GS.TS Phan Thị Tươi Tp HCM, ngày tháng năm 2020 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) TRƯỞNG KHOA KH & KTMT (Họ tên chữ ký) III LỜI CẢM ƠN Quá trình học tập trường Đại học Bách Khoa thành phố Hồ Chí Minh để lại cho nhiều ấn tượng sâu sắc Tôi học tập làm việc môi trường tốt, tiếp thu nhiều kiến thức kinh nghiệm quý báu Tuy nhiên, có lúc tơi phải trải qua nhiều khó khăn thử thách Những lúc ấy, nhận quan tâm giúp đỡ từ gia đình, thầy bạn bè Đó động lực to lớn để tơi vượt qua khó khăn đạt kết ngày hôm Trước hết, xin gửi lời cảm ơn sâu sắc đến gia đình, đặc biệt vợ gái Vợ thấu hiểu, quan tâm cố gắng để tạo điều kiện thuận lợi cho tơi giúp tơi có thêm động lực học tập làm việc Tiếp theo, xin gửi lời cảm ơn chân thành đến cô hướng dẫn đề tài GS.TS Phan Thị Tươi Cô theo sát, hỗ trợ định hướng cho đề tài luận văn tơi Bên cạnh tơi gửi lời cảm ơn đến thầy cô giảng dạy, truyền đạt lại kiến thức kỹ quý báu cho Sau cùng, xin gửi lời cám ơn đến bạn bè đồng nghiệp giúp đỡ cho lời khun hữu ích Tơi xin cảm ơn đến toàn thể nhà trường thầy cô, bạn sinh viên tạo môi trường học tập đầy động hào hứng Một lần nữa, tơi xin chân thành cảm ơn Hồ Chí Minh, ngày 03 tháng 08 năm 2020 Nguyễn Minh Bằng IV TĨM TẮT LUẬN VĂN Trong thời đại cách mạng cơng nghiệp 4.0 nay, lĩnh vực trí tuệ nhân tạo nói chung xử lý ngơn ngữ tự nhiên nói riêng có vai trị đặc biệt quan trọng tác động to lớn đến đời sống kinh tế, xã hội Những nghiên cứu lĩnh vực ứng dụng triển khai thực tế bước cải thiện đời sống ngày tốt Tính phát sửa lỗi tả có mặt hầu hết ứng dụng liên quan đến văn bản, từ máy tính thiết bị di động Khi nhập từ khơng xác, hệ thống phát lỗi, lỗi tả từ khơng phù hợp ngữ cảnh Sau đó, hệ thống tự động sửa từ khác đề xuất danh sách từ thay Dựa nghiên cứu học sâu, đề tài ứng dụng kết hợp phương pháp mơ hình giúp bắt số lỗi tả mức đơn giản cho tiếng Việt Đây hướng nghiên cứu có thuận lợi, khó khăn riêng so với phương pháp truyền thống Những thuận lợi kể tới việc rút trích đặc trưng khơng cịn làm cách thủ cơng mà tích hợp hồn tồn mơ hình học máy giúp giảm phức tạp tăng độ hiệu Đặc biệt với nghiên cứu gần mơ hình sequence-to-sequence, kỹ thuật Attention[9], kiến trúc Transformer [37] mơ hình BERT[39] cho chất lượng vượt trội so với phương pháp trước Hơn phương pháp học sâu phù hợp với phần cứng tính tốn song song GPU giúp tăng tốc q trình xử lý Bên cạnh đó, tồn khó khăn, thách thức lớn vấn đề liệu Các phương pháp học sâu đòi hỏi lượng liệu lớn để làm việc tốt Dù có hạn chế mặt liệu, bước đầu đề tài cho kết tương đối khả quan V ABSTRACT In the inductrial revolution 4.0 nowaday, Artificial Intelligence in general and Computer Vision in particular play a special role and have a great impact on economic and social life The research in this field has been applied in practice, and gradually make our lives better Spelling detection and correction has been in most text-related applications, from computers to mobile devices When an incorrect word is entered, the system will detect errors which are spelling errors or errors in context Then, the system automatically corrects it with a different word or suggests a list of replaceable words Based on the research for deep learning, the thesis has applied and combined these methods to create a model to detect some basic spelling errors in Vietnamese This is a new approach which has not only some advantages but also some disadvantages The advantages include combining the feature extraction and machine learning to reduce the complexity and increase the efficiency Especially, in some related works on Sequence-to-sequence model, Attention technique[9], Transformer architecture[37] and BERT model[39] are more superior than the privious methods Moreover the deep learning methods use the parallel hardware such as GPU to speed up the processing time Beside, there are some challenges and training data is one of them The deep learning method requires a large data to work well in real Although there is some the data limitation, the results are positive VI LỜI CAM ĐOAN Luận văn tơi có tham khảo tài liệu từ nhiều nguồn khác nguồn tham khảo trích dẫn rõ ràng phần tài liệu tham khảo Ngồi phần trích dẫn, tơi xin cam đoan tồn nội dung báo cáo tự soạn thảo dựa tìm hiểu kết nghiên cứu tơi, khơng chép từ tài liệu khác Tôi hoàn toàn chịu xử lý theo quy định có sai phạm xảy liên quan đến cam đoan Hồ Chí Minh, ngày 03 tháng 08 năm 2020 Nguyễn Minh Bằng VII MỤC LỤC TÓM TẮT LUẬN VĂN V MỤC LỤC VIII DANH SÁCH HÌNH VẼ X DANH SÁCH BẢNG XI DANH MỤC TỪ VIẾT TẮT XII CHƯƠNG 1: GIỚI THIỆU 1.1 Giới thiệu đề tài 1.2 Mục tiêu đề tài 1.3 Ý nghĩa đề tài 1.3.1 Ý nghĩa thực tiễn 1.3.2 Ý nghĩa khoa học 1.4 Phạm vi đề tài 1.5 Bố cục luận văn CHƯƠNG 2: CƠNG TRÌNH LIÊN QUAN 2.1 Phương pháp phát lỗi tả 2.1.1 Phương pháp tra cứu từ điển 2.1.2 Phương pháp phân tích n-gram 2.2 Phương pháp sửa lỗi tả 2.2.1 Khoảng cách chỉnh sửa tối thiểu (Minimum edit distance) 2.2.2 Khóa tương tự (Similarity key technique) 2.2.3 Kỹ thuật dựa luật (Rule-based techniques) 2.2.4 Phương pháp xác suất (Probabilistic Techniques) 2.2.5 Phương pháp dựa học sâu (Deep Learning) CHƯƠNG 3: CƠ SỞ LÝ THUYẾT 13 3.1 Mã hóa BPE (Byte Pair Encoding) 13 3.2 Kiến trúc Transformer 15 3.2.1 Encoder Decoder 15 3.2.2 Các tiến trình self-attention encoder-decoder attention 16 3.3 Mơ hình BERT 16 3.3.1 Fine-tuning model BERT 17 VIII 3.3.2 Masked ML (MLM) 18 3.3.3 Dự đoán câu - Next Sentence Prediction (NSP) 20 3.3.4 Các kiến trúc mơ hình BERT 21 CHƯƠNG 4: PHƯƠNG PHÁP ĐỀ XUẤT 22 4.1 Xây dựng tập liệu 22 4.1.1 Thu thập liệu văn 22 4.1.2 Tự động tạo văn sai tả 23 4.2 Mơ hình học sâu bắt lỗi tả tiếng Việt 25 CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 27 5.1 Tiêu chí đánh giá 27 5.1.1 Phương pháp BLEU 27 5.1.2 Độ xác 28 5.2 Chuẩn bị liệu 28 5.3 Cài đặt thực nghiệm 29 5.4 Kết thực nghiệm 30 TỔNG KẾT 33 TÀI LIỆU THAM KHẢO 34 IX DANH SÁCH HÌNH VẼ Hình 2.1 Mơ hình Sequence to Sequence 10 Hình 2.2 Minh họa mơ hình seq2seq dùng kỹ thuật attention[9] 11 Hình 3.1 Sơ đồ kiến trúc transformer kết hợp với attention[37] 15 Hình 3.2 Tồn tiến trình pre-training fine-tuning BERT[39] 17 Hình 3.3 Sơ đồ kiến trúc BERT cho tá vụ Masked ML 19 Hình 3.4 Sơ đồ kiến trúc model BERT cho tác vụ NSP 20 Hình 4.1 Cơng cụ tự động trích xuất văn sử dụng thư viện Scrapy 23 Hình 4.2 Minh họa kết tạo câu sai từ câu 25 Hình 4.3 Kiến trúc mơ hình bắt lỗi tả Tiếng Việt [38] 26 X Bước 2: Lần lượt áp dụng luật biến đổi (tìm/thay thế) cho từ để tạo nên phiên sai tả câu, bảng 4.1 mô tả luật biến đổi mà đề tài sử dụng Bước 3: Mỗi bước áp dụng luật thành cơng (có thay đổi câu) tạo nên cặp câu đúng-sai Lưu tất cặp câu đúng-sai vào file kết Lần lượt thực quy trình cho tất câu tả trích xuất từ website, kết tạo câu sai từ câu minh hoạ hình 4.2 Bảng 4.1: Các luật biến đổi từ thành từ sai tả STT Lỗi Luật biết đổi Sử dụng dấu hỏi/ngã Thay dấu hỏi/ngã cho nhau: “ẻ/ẽ”, “ể/ễ”, “ỷ/ỹ”, “ủ/ũ”, “ử/ữ”, “ỉ/ĩ”, “ỏ/õ”, “ổ/ỗ”, “ả/ã”, “ẩ/ẫ”, “ẳ/ẵ” Phụ âm đầu Thay phụ âm đầu cho nhau: “ch/tr”, “s/x”, “d/gi”, “d/gi/v”, “u/h/qu” Phụ âm cuối Thay phụ âm cuối cho nhau: “c/t”, “n/ng”, “i/y” Thay chữ tiếng Việt có dấu thành khơng dấu: “à|á|ạ|ả|ã|â|ầ|ấ|ậ|ẩ|ẫ|ă|ằ|ắ|ặ|ẳ|ẵ/a”, “è|é|ẹ|ẻ|ẽ|ê|ề|ế|ệ|ể|ễ/e”, Dấu Tiếng Việt Kiểu gõ TELEX “ì|í|ị|ỉ|ĩ/i”, “ị|ó|ọ|ỏ|õ|ơ|ồ|ố|ộ|ổ|ỗ|ơ|ờ|ớ|ợ|ở|ỡ/o”, “ù|ú|ụ|ủ|ũ|ư|ừ|ứ|ự|ử|ữ/u”, “ỳ|ý|ỵ|ỷ|ỹ/y”, “đ/d” Bỏ dấu Tiếng Việt thêm ký tự tương ứng, mô trường hợp gõ sai sử dụng kiểu gõ TELEX: “à/af”, “á/as”, “ạ/aj”, “ả/ar”, “ã/ax”, “â/aa”, “ầ/aaf”, “ấ/aas”, “ậ/aaj”, “ẩ/aar”, “ẫ/aax”, “ă/aw”, “ằ/awf”, “ắ/aws”, “ặ/awj”, “ẳ/awr”, “ẵ/awx”, “è/ef”, “é/es”, “ẹ/ej”, “ẻ/er”, “ẽ/ex”, “ê/ee”, “ề/ee”, “ế/ees”, “ệ/eej”, “ể/eer”, “ễ/eex”, “ì/if”, “í/is”, “ị/ij”, “ỉ/ir”, “ĩ/ix”, “ị/of”, “ó/os”, “ọ/oj”, “ỏ/or”, “õ/ox”, “ô/oo”, “ồ/oof”, “ố/oos”, “ộ/ooj”, “ổ/oor”, “ỗ/oox”, “ơ/ow”, “ờ/owf”, “ớ/ows”, “ợ/owj”, “ở/owr”, “ỡ/owx”, 24 “ù/uf”, “ú/us”, “ụ/uj”, “ủ/ur”, “ũ/ux”, “ư/uw”, “ừ/uwf”, “ứ/uws”, “ự/uwj”, “ử/uwr”, “ữ/uwx”, “ỳ/yf”, “ý/ys”, “ỵ/yj”, “ỷ/yr”, “ỹ/yx”, “đ/dd” Kiểu gõ VNI Bỏ dầu Tiếng Việt thêm ký tự số tương ứng, mô trường hợp gõ sai sử dụng kiểu gõ VNI: 'à/a2', 'á/a1', 'ạ/a5', 'ả/a3', 'ã/a4', 'â/a6', 'ầ/a62', 'ấ/a61', 'ậ/a65', 'ẩ/a63', 'ẫ/a64', 'ă/a8', 'ằ/a82', 'ắ/a81', 'ặ/a85', 'ẳ/a83', 'ẵ/a84', 'è/e2', 'é/e1', 'ẹ/e5', 'ẻ/e3', 'ẽ/e4', 'ê/e6', 'ề/e62', 'ế/e61', 'ệ/e65', 'ể/e63', 'ễ/e64', 'ì/i2', 'í/i1', 'ị/i5', 'ỉ/i3', 'ĩ/i4', 'ị/o2', 'ó/o1', 'ọ/o5', 'ỏ/o3', 'õ/o4', 'ơ/o6', 'ồ/o62', 'ố/o61', 'ộ/o65', 'ổ/o63', 'ỗ/o64', 'ơ/o7', 'ờ/o72', 'ớ/o71', 'ợ/o75', 'ở/o73', 'ỡ/o74', 'ù/u2', 'ú/u1', 'ụ/u5', 'ủ/u3', 'ũ/u4', 'ư/u7', 'ừ/u72', 'ứ/u71', 'ự/u75', 'ử/u73', 'ữ/u74', 'ỳ/y2', 'ý/y1', 'ỵ/y5', 'ỷ/y3', 'ỹ/y4', 'đ/d9' Hình 4.2: Minh họa kết tạo câu sai từ câu 4.2 Mô hình học sâu bắt lỗi tả tiếng Việt Để bắt lỗi tả tiếng Việt, luận văn sử dụng chủ yếu kỹ thuật dịch máy dựa kiến trúc Transformer[37] nhóm nghiên cứu Kenji Imamura 25 Eiichiro Sumita[38] cải tiến sử dụng mơ hình BERT[39] huấn luyện để thay cho Encoder Transformer Tuy nhiên luận văn có số thay đổi, bổ sung cho phù hợp với tốn bắt lỗi tả tiếng Việt, cụ thể thay mơ hình BERT huấn luyện trước từ liệu tiếng Anh (bert-base-uncased) thành mô hình BERT huấn luyện trước sử dụng liệu đa ngôn ngữ (bert-base-multilingual-cased), xử lý liệu huấn luyện format đưa vào đầu vào BERT Encoder xử lý chuỗi tokens, kết trả câu tả Ví dụ hoạt động mơ sau: • Câu nhập câu sai tả: Xinh viên Việt Nam rấc giõi • Áp dụng tokenizer, sub-words thêm ký tự đặc biệt: [CLS] Xi ##nh viên Việt Nam r ##ấ ##c gi ##õi [SEP] • Chuỗi token xuất từ mơ hình: ▁Sinh ▁viên ▁Việt ▁Nam ▁rất ▁giỏi • Kết câu tả cuối cùng: Sinh viên Việt Nam giỏi Kiến trúc mơ hình bắt lỗi tả tiếng Việt luận văn đề xuất hình 4.3: Hình 4.3: Kiến trúc mơ hình bắt lỗi tả luận văn 26 CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ Từ mơ hình nêu chương 4, luận văn thực số thực nghiệm nhằm đánh giá tính hiệu mơ tìm siêu tham số phù hợp với mơ hình đề Trình tự bước thực nghiệm mơ tả sau 5.1 Tiêu chí đánh giá 5.1.1 Phương pháp BLEU Trong năm qua, số độ đo (metrics) đề xuất để đánh giá hệ thống sửa lỗi, độ đo đề xuất để khắc phục điểm yếu độ đo trước Tuy nhiên, khơng có độ đo ưu việt Do đó, việc sử dụng chúng phụ thuộc vào mục tiêu nghiên cứu ứng dụng [22] Trong phạm vi đề tài luận văn, coi tác vụ sửa lỗi tả tác vụ dịch máy đơn ngơn ngữ (dịch từ văn sai tả sang văn tả) chúng tơi đánh giá hệ thống dựa phương pháp đánh giá chất lượng dịch phương pháp BLEU[26] Ý tưởng phương pháp so sánh kết dịch tự động máy với dịch chuẩn dùng làm đối chiếu Việc so sánh thực thông qua việc thống kê trùng khớp từ hai dịch có tính đến thứ tự chúng câu (phương pháp n-grams theo từ) [13] Phương pháp dựa hệ số tương quan dịch máy dịch xác thực người để đánh giá chất lượng hệ thống dịch Cơng thức để tính điểm đánh giá BLEU sau [26]: 𝑠𝑐𝑜𝑟𝑒 = 𝑒𝑥𝑝

Ngày đăng: 03/03/2021, 19:53

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Andrej Karpathy, Justin Johnson, and Fei-Fei Li (2015), "Visualizing and understanding recurrent networks", CoRR, abs/1506.02078 Sách, tạp chí
Tiêu đề: Visualizing and understanding recurrent networks
Tác giả: Andrej Karpathy, Justin Johnson, and Fei-Fei Li
Năm: 2015
[2] Andrew McCallum, Kedar Bellare, and Fernando Pereira (2012), "A conditional random field for discriminatively-trained finite-state string edit distance", arXiv preprint, arXiv:1207.1406 Sách, tạp chí
Tiêu đề: A conditional random field for discriminatively-trained finite-state string edit distance
Tác giả: Andrew McCallum, Kedar Bellare, and Fernando Pereira
Năm: 2012
[3] Christopher D. Manning and Hinrich Sch¨utze (1999), "Foundations of Statistical Natural Language Processing", MIT Press, Cambridge, MA, USA Sách, tạp chí
Tiêu đề: Foundations of Statistical Natural Language Processing
Tác giả: Christopher D. Manning and Hinrich Sch¨utze
Năm: 1999
[4] Claudio Lottaz, Christian Iseli, C Victor Jongeneel, and Philipp Bucher (2003), "Modeling sequencing errors by combining hidden markov models", Bioinformatics 19(suppl 2), ii103–ii112 Sách, tạp chí
Tiêu đề: Modeling sequencing errors by combining hidden markov models
Tác giả: Claudio Lottaz, Christian Iseli, C Victor Jongeneel, and Philipp Bucher
Năm: 2003
[5] Clifton Phua, Vincent Lee, and K Smith-Miles (2006), "The personal name problem and a recommended data mining solution", Encyclopedia of Data Warehousing and Mining Sách, tạp chí
Tiêu đề: The personal name problem and a recommended data mining solution
Tác giả: Clifton Phua, Vincent Lee, and K Smith-Miles
Năm: 2006
[6] Culy C. & Riehemann S.S (2003), "The limits of N-gram translation evaluation metrics", Proceedings of the Ninth Machine Translation Summit. New Orleans, Louisiana, USA Sách, tạp chí
Tiêu đề: The limits of N-gram translation evaluation metrics
Tác giả: Culy C. & Riehemann S.S
Năm: 2003
[7] Daphne Koller and Nir Friedman (2009), "Probabilistic Graphical Models: Principles and Techniques - Adaptive Computation and Machine Learning", The MIT Press Sách, tạp chí
Tiêu đề: Probabilistic Graphical Models: Principles and Techniques - Adaptive Computation and Machine Learning
Tác giả: Daphne Koller and Nir Friedman
Năm: 2009
[8] Denny Britz (2015), "Recurrent Neural Networks Tutorial, Part 1 – Introduction to RNNs", http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/ Sách, tạp chí
Tiêu đề: Recurrent Neural Networks Tutorial, Part 1 – Introduction to RNNs
Tác giả: Denny Britz
Năm: 2015
[9] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio (2014), "Neural machine translation by jointly learning to align and translate", arXiv preprint, arXiv:1409.0473 Sách, tạp chí
Tiêu đề: Neural machine translation by jointly learning to align and translate
Tác giả: Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio
Năm: 2014
[10] Emmanuel J Yannakoudakis and David Fawthrop (1983), "The rules of spelling errors", Information Processing & Management 19(2), 87–99 Sách, tạp chí
Tiêu đề: The rules of spelling errors
Tác giả: Emmanuel J Yannakoudakis and David Fawthrop
Năm: 1983
[11] Fred J. Damerau (1964), "A technique for computer detection and correction of spelling errors", Commun. ACM 7(3), 171–176 Sách, tạp chí
Tiêu đề: A technique for computer detection and correction of spelling errors
Tác giả: Fred J. Damerau
Năm: 1964
[12] Hochreiter S., Schmidhuber J. (1997), "Long Short-Term Memory", Neural Computation 9(8), 1735-1780 Sách, tạp chí
Tiêu đề: Long Short-Term Memory
Tác giả: Hochreiter S., Schmidhuber J
Năm: 1997
[13] Hovy E.H. (1999), "Toward finely differentiated evaluation metrics for machine translation", Proceedings of the Eagles Workshop on Standards and Evaluation, Pisa, Italy Sách, tạp chí
Tiêu đề: Toward finely differentiated evaluation metrics for machine translation
Tác giả: Hovy E.H
Năm: 1999
[14] Ilya Sutskever, Oriol Vinyals, and Quoc V Le (2014), "Sequence to sequence learning with neural networks", Advances in neural information processing systems, 3104-3112 Sách, tạp chí
Tiêu đề: Sequence to sequence learning with neural networks
Tác giả: Ilya Sutskever, Oriol Vinyals, and Quoc V Le
Năm: 2014
[15] Joseph J Pollock and Antonio Zamora (1983), "Collection and characterization of spelling errors in scientific and scholarly text", Journal of the Association for Information Science and Technology 34(1), 51–58 Sách, tạp chí
Tiêu đề: Collection and characterization of spelling errors in scientific and scholarly text
Tác giả: Joseph J Pollock and Antonio Zamora
Năm: 1983
[16] Julian R. Ullmann (1977), "A binary n-gram technique for automatic correction of substitution, deletion, insertion and reversal errors in words", The Computer Journal 20(2), 141–147 Sách, tạp chí
Tiêu đề: A binary n-gram technique for automatic correction of substitution, deletion, insertion and reversal errors in words
Tác giả: Julian R. Ullmann
Năm: 1977
[18] Kyunghyun Cho, Bart Van Merri¨enboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio (2014), "Learning phrase representations using rnn encoder-decoder for statistical machine translation", arXiv preprint, arXiv:1406.1078 Sách, tạp chí
Tiêu đề: Learning phrase representations using rnn encoder-decoder for statistical machine translation
Tác giả: Kyunghyun Cho, Bart Van Merri¨enboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio
Năm: 2014
[19] Lawrence Philips (1990), "Hanging on the metaphone", Computer Language Magazine 7(12), 39–44 Sách, tạp chí
Tiêu đề: Hanging on the metaphone
Tác giả: Lawrence Philips
Năm: 1990
[20] Leon Davidson (1962), "Retrieval of misspelled names in an airlines passenger record system", Communications of the ACM 5(3), 169–171 Sách, tạp chí
Tiêu đề: Retrieval of misspelled names in an airlines passenger record system
Tác giả: Leon Davidson
Năm: 1962
[21] Linda G Means (1988), "Cn yur cmputr raed ths?", In Proceedings of the second conference on Applied natural language processing, 93–100 Sách, tạp chí
Tiêu đề: Cn yur cmputr raed ths
Tác giả: Linda G Means
Năm: 1988

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w