Khóa luận tốt nghiệp sửa lỗi chính tả tiếng việt dựa trên tiếp cận học sâu

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM NGƠ TRUNG HIẾU KHĨA LUẬN TỐT NGHIỆP SỬA LỖI CHÍNH TẢ DỰA TRÊN TIẾP CẬN HỌC SÂU Vietnamese Text Correction Using Deep Learning Approach KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM TP HỒ CHÍ MINH, 2020 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA CÔNG NGHỆ PHẦN MỀM NGÔ TRUNG HIẾU – 16520396 KHĨA LUẬN TỐT NGHIỆP SỬA LỖI CHÍNH TẢ DỰA TRÊN TIẾP CẬN HỌC SÂU Vietnamese Text Correction Using Deep Learning Approach KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS HUỲNH NGỌC TÍN TP HỒ CHÍ MINH, 2020 DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số …………………… ngày ………………… Hiệu trưởng Trường Đại học Công nghệ Thông tin ………………………………………… – Chủ tịch ………………………………………… – Thư ký ………………………………………… – Ủy viên ………………………………………… – Ủy viên ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 20 NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN) Tên khóa luận: SỬA LỖI CHÍNH TẢ DỰA TRÊN TIẾP CẬN HỌC SÂU Nhóm SV thực hiện: Cán hướng dẫn: MSSV: Ngơ Trung Hiếu TS Huỳnh Ngọc Tín 16520396 Đánh giá Khóa luận Về báo cáo: Số trang 73 Số chương Số bảng số liệu Số hình vẽ 25 Số tài liệu tham khảo 19 Sản phẩm Một số nhận xét hình thức báo cáo: Cuốn báo cáo trình bày ngắn gọn, rõ ràng, mạch lạc, sẽ, hình thức hài hịa Về nội dung nghiên cứu: o Bước đầu hiểu công việc nghiên cứu khoa học Có khả tìm kiếm tài liệu, tự đọc, phân tích, tổng hợp thơng tin o Bài tốn sửa lỗi tả cổ điển Tuy nhiên, học viên tập trung vào sử dụng phương pháp tiện cận đại, để tạo kết tốt Về chương trình ứng dụng: Có khả ứng dụng cho việc sửa lỗi tả cho liệu đầu vào toán khác Về thái độ làm việc sinh viên: Có tinh thần học hỏi, cầu tiến Có liên hệ báo cáo cơng việc với giảng viên hướng dẫn Đánh giá chung: ● Khóa luận với chủ đề phương pháp tiếp cận mẻ ● Khả làm việc nghiên cứu tốt Áp dụng công nghệ vào tốn Điểm sinh viên: Ngơ Trung Hiếu:……… /10 Người nhận xét (Ký tên ghi rõ họ tên) ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 20 NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ PHẢN BIỆN) Tên khóa luận: SỬA LỖI CHÍNH TẢ DỰA TRÊN TIẾP CẬN HỌC SÂU SV thực hiện: Cán phản biện: MSSV: 16520396 Ngơ Trung Hiếu Đánh giá Khóa luận Về báo cáo: Số trang 73 Số chương Số bảng số liệu Số hình vẽ 25 Số tài liệu tham khảo 19 Sản phẩm Một số nhận xét hình thức báo cáo: Về nội dung nghiên cứu: -3 Về chương trình ứng dụng: Về thái độ làm việc sinh viên: Đánh giá chung: Điểm sinh viên: Ngô Trung Hiếu: ……… /10 Người nhận xét (Ký tên ghi rõ họ tên) LỜI CẢM ƠN Khoảng thời gian thực khóa luận khoảng thời gian đầy thử thách em Để hồn thành khóa luận này, em xin gửi lời cảm ơn sâu sắc đến TS Huỳnh Ngọc Tín, thầy tận tình giúp đỡ tài liệu chuyên mơn lẫn lời khun góp ý kịp thời để tạo nhiều điều kiện để em hồn thành khóa luận cách tốt Ngồi ra, em xin chân thành cảm ơn đến tất thầy cô trường Đại học Công nghệ Thông tin nói chung thầy khoa Cơng nghệ Phần mềm nói riêng dạy dỗ truyền đạt cho em kiến thức kinh nghiệm suốt trình em học tập trường để em vận dụng vào việc thực khóa luận Một lần em xin chân thành cảm ơn chúc quý thầy cô anh chị sức khỏe thành cơng sống Tp Hồ Chí Minh, ngày tháng năm 20 Sinh viên thực đề tài Ngơ Trung Hiếu ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN ĐỀ CƯƠNG CHI TIẾT TÊN ĐỀ TÀI: Sửa lỗi tả Tiếng Việt dựa tiếp cận học sâu Cán hướng dẫn: TS Huỳnh Ngọc Tín Thời gian thực hiện: Từ ngày 01/10/2020 đến ngày 05/01/2021 Sinh viên thực hiện: Ngô Trung Hiếu - 16520396 Nội dung đề tài Mục tiêu: Xây dựng model NLP dựa phương pháp học sâu có khả sửa lỗi tả cho Tiếng Việt cụ thể ứng dụng mơ hình Transformers pretrained BERT với độ xác cao nhằm trở thành thành phần cốt lõi cho tốn NLP khác nói chung thân tốn sửa lỗi nói riêng Phương pháp thực hiện: _ Phân tích đề tài _ Nghiên cứu, tìm hiểu báo, kiến thức trước _ Nghiên cứu công nghệ, thư viện để áp dụng _ Phát triển hoàn thiện sản phẩm Kết mong đợi: Hồn thiện mơ hình hoạt động tốt với độ xác cao đồng thời tối ưu tốc độ phần mềm Kế hoạch thực hiện: STT Cơng việc thực Thời gian thực Tìm hiểu tốn, phân tích đề tài 1/10/2020 đến 3/10/2020 Tìm hiểu paper liên quan, kỹ thuật sử dụng 4/10/2020 đến 17/10/2020 tốn Tìm hiểu Text Preprocessing 18/10/2020 đến 1/11/2020 Tìm hiểu kiến thức học sâu Tìm hiểu mơ hình Transformers, BERT Tìm hiểu thư viện cho DeepLearning (PyTorch) 1/11/2020 đến 15/11/2020 Hiện thực paper 15/11/2020 đến 15/12/2020 Huấn luyện đánh giá cải tiến mơ hình 15/12/2020 đến 05/01/2020 Xác nhận CBHD TP HCM, ngày tháng 10 năm 2020 (Ký tên ghi rõ họ tên) Sinh viên Ngô Trung Hiếu KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Các nội dung mà nhóm thực trình nghiên cứu đề tài này: ● Tìm hiểu, nghiên cứu thực trạng vấn đề tại, từ đưa phát biểu tốn lộ trình nghiên cứu, thực ● Nghiên cứu số cơng trình ngồi nước, khóa học, qua nhóm lĩnh hội nhiều kiến thức lĩnh vực: học máy, xử lý ngôn ngữ tự nhiên, xử lý liệu lớn, khai thác liệu, … ● Xây dựng hệ thống sửa lỗi tả, đồng thời cung cấp API đạt tốc độ để ứng dụng cho bên phía xuất cần gợi ý sửa lỗi tả Đồng thời trở thành phần core cho toán sau ● Thực tiến trình tiền xử lý liệu, tạo thuật toán tạo lỗi để phù hợp với toán, đồng thời cung cấp lượng lớn liệu từ thuật toán khiến cho việc huấn luyện trở nên dễ dàng ● Thực nghiên cứu trước để từ có sở để đánh giá mơ hình nhóm: Word2Vec, Microsoft ● Kết hợp mơ hình Transformers dùng cho tốn translation mơ hình pretrained BERT dùng để fine tune cho downstream task ● Thực giao diện hình thức website để triển khai phần demo nhỏ mơ hình nêu lên website ● Thực đánh giá kết đạt dựa liệu Hướng phát triển Với kết đạt sau số hướng phát triển mà nhóm đề ra: 42 ● Tiến hành nghiên cứu liên quan tới việc fine tune liệu tương lai cho mơ hình Đánh giá liệu có làm nhiễu mơ hình khơng hay thật mơ hình có khả nắm bắt tất lỗi đưa vào ● Nâng cao thời gian xử lý vấn đề kiến trúc mơ hình khiến cho việc dự đốn lâu so với phương pháp đề cập 43 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Nguyen Thi Xuan Huong, Thai Dang, Cuong Anh Le (2015) Using Large N-gram for Vietnamese Spell Checking [2] Pieter Fivez, Simon Suster, Walter Daelemans (2017) Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and Character N-Gram Embeddings [3] Ha Thanh Nguyen, Tran Binh Dang, Le Minh Nguyen (2019) Deep Learning Approach for Vietnamese Consonant Misspell Correction [4] Jinhua Zu, Yingce Xia, Lijun Wu, Di He, Tao Quin, Wengang Zhou, Houquiang Li, Tie-Yan Liu (2020) Incorporating BERT into Machine Translation [5] Ashish Vaswani, Noam Shazeer, Nikki Parmar, Jakob Uszokerit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, ILLia Polosukhin (2017) Attention Is All You Need [6] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova (2018) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [7] Rico Sennrich, Barry Haddow, Alexandra Birch (2016) Neural Machine Translation of Rare Words with Subword Units [8] Rumelhart, David E; Hinton, Geoffrey E, and Williams, Ronald J (1985) Learning internal representations by error propagation [9] Sepp Horchreiter, Jurgen Schimidhuber (1997) Long Short-Term Memory [10] Mike Schuster, Kaisuke Nakajima (2012) Japanese and Korean Voice Search [11] Tomas Mikolov (2013) Efficient Estimation of Word Representation in Vector Space 44 [12] Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, Yoshua Bengio (2014) Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling [13] Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu (2002) Bleu: a Method for Automatic Evaluation of Machine Translation Internet [14] Peter Norvig (2017) How to Write a Spelling Corrector, https://norvig.com/spell-correct.html [15] Transformers, người máy biến hình biến đổi giới NLP https://viblo.asia/p/transformers-nguoi-may-bien-hinh-bien-doi-the-gioi-nlp-924lJP OXKPM [16] Vo Quoc Binh, News corpus https://github.com/binhvq/news-corpus#full-txt-v2 [17] Pham Dinh Khanh, Thực hành BERT https://phamdinhkhanh.github.io/2020/06/04/PhoBERT_Fairseq.html [18] Forum Machine Learning, Tổng hợp Transfer Learning https://forum.machinelearningcoban.com/t/tong-hop-transfer-learning/5388 [19] Jay Alammar, Illustrated BERT http://jalammar.github.io/illustrated-bert/ [20] OpenNMT-py: Open Source Neural Machine Translation https://github.com/OpenNMT/OpenNMT-py 45 PHỤ LỤC 1: MƠ HÌNH TRANSFORMERS Trước có đời Transformers, hầu hết tác vụ xử lý ngôn ngữ tự nhiên, đặc biệt dịch máy sử dụng kiến trúc Recurrent Neural Networks (RNNs) cải tiến GRU LSTM Transformers kiến trúc NLP nhằm mục đích giải toán chuỗi (sequence to sequence) đồng thời giải vấn đề trước mà RNN gặp phải mất thông tin/sự phụ thuộc xa units (long-range dependencies) mà khơng gặp chút khó khăn Transformers dựa hoàn toàn chế self-attention để tính tốn thể đầu vào đầu mà không cần sử dụng chuỗi RNN Các biến thể BERT, GPT-2 tạo state-of-the-art cho tác vụ liên quan đến NLP 46 Mô hình Transformers bao gồm hai phần Mã hóa (Encoder) Giải mã (Decoder) Hình 6.1 Mơ hình Transformers - nguồn [5] Mỗi phần có thành phần sử dụng chung kiến trúc khối Multihead Attention, Feed Forward, số block khác biệt Chi tiết thành phần trình bày Encoder 1.1 Input Embedding 47 Máy tính khơng hiểu câu chữ mà đọc số, vector, ma trận; ta phải biểu diễn câu chữ dạng vector, gọi input embedding Điều đảm bảo từ gần nghĩa có vector gần giống Hiện có nhiều pretrained word embeddings GloVe, Fasttext, gensim Word2Vec, cho bạn lựa chọn Hình 6.2 Input Embedding Transformers - nguồn [15] Ở hướng tiếp cận chúng ta, Input Embedding lấy thông qua từ mô hình BERT 1.2 Positional Encoding Word embeddings phần cho giúp ta biểu diễn ngữ nghĩa từ, nhiên từ vị trí khác câu lại mang ý nghĩa khác Đó lý Transformers có thêm phần Positional Encoding để chèn thêm thơng tin vị trí từ 48 Hình 6.3 Positional Encoding Transformers - nguồn [15] 1.3 Self-Attention Self-Attention chế giúp Transformers "hiểu" liên quan từ câu Ví dụ từ "kicked" câu "I kicked the ball" (tôi đá bóng) liên quan đến từ khác? Rõ ràng liên quan mật thiết đến từ "I" (chủ ngữ), "kicked" lên "liên quan mạnh" "ball" (vị ngữ) 49 Ngoài từ "the" giới từ nên liên kết với từ "kicked" gần khơng có Hình 6.4 Self-attention Transformers - nguồn [15] 1.4 Multi-head Attention Vấn đề Self-attention attention từ "chú ý" vào Điều hợp lý thơi rõ ràng "nó" phải liên quan đến "nó" nhiều Ví dụ sau: 50 Hình 6.5 Multi-head Transformers - nguồn [15] Nhưng không mong muốn điều này, ta muốn tương tác từ KHÁC NHAU câu Tác giả giới thiệu phiên nâng cấp Self-attention Multi-head attention Ý tưởng đơn giản thay sử dụng Self-attention (1 head) ta sử dụng nhiều Attention khác (multi-head) Attention ý đến phần khác câu 1.5 Residuals Trong mơ hình tổng quan trên, sub-layer residual block Cũng giống residual blocks Computer Vision, skip connections Transformers cho phép thông tin qua sublayer trực tiếp Thông tin (x) cộng với attention (z) thực Layer Normalization 51 Hình 6.6 Residuals Transformers - nguồn [15] 1.6 Feed Forward Sau Normalize, vectors z đưa qua mạng fully connected trước đẩy qua Decoder Vì vectors khơng phụ thuộc vào nên ta tận dụng tính tốn song song cho câu 52 Hình 6.7 Feed Forward Transformers - nguồn [15] Decoder 2.1 Masked Multi-head Attention Giả sử bạn muốn Transformers thực tốn English-France translation, cơng việc Decoder giải mã thông tin từ Encoder sinh từ tiếng Pháp dựa những từ trước đó Vậy nên, ta sử dụng Multi-head attention câu Encoder, Decoder "thấy" từ mà cần dịch Để ngăn điều đó, Decoder dịch đến từ thứ i, phần sau câu tiếng Pháp bị che lại (masked) Decoder phép "nhìn" thấy phần dịch trước 53 Hình 6.8 Masked Decoder Transformers - nguồn [15] Quá trình decode Quá trình decode giống với encode, khác Decoder decode từ input Decoder (câu tiếng Pháp) bị masked Sau masked input đưa qua sub-layer #1 Decoder, khơng nhân với ma trận trọng số để tạo Q, K, V mà nhân với ma trận trọng số WQ K V lấy từ Encoder với Q từ Masked multi-head attention đưa vào sub-layer #2 #3 tương tự Encoder Cuối cùng, vector đẩy vào lớp Linear (là mạng Fully Connected) theo sau Softmax xác suất từ 54 PHỤ LỤC 2: MƠ HÌNH BERT BERT viết tắt cụm từ Bidirectional Encoder Representations from Transformers có nghĩa mơ hình biểu diễn từ theo chiều ứng dụng kỹ thuật Transformer BERT thiết kế để huấn luyện trước biểu diễn từ (pre-train word embedding) Điểm đặc biệt BERT điều hịa cân bối cảnh theo chiều trái phải Cơ chế attention Transformer truyền toàn từ câu văn đồng thời vào mơ hình lúc mà không cần quan tâm đến chiều câu Do Transformer xem huấn luyện hai chiều (bidirectional) thực tế xác nói huấn luyện không chiều (non-directional) Đặc điểm cho phép mô hình học bối cảnh từ dựa tồn từ xung quanh bao gồm từ bên trái từ bên phải BERT phương thức cho pre-trained Language Model thể hiện, ý nghĩa huấn luyện BERT cho mục đích "am hiểu ngơn ngữ" tập train lớn ví dụ Wikipedia Và sau sử dụng lại mơ hình cho tác vụ quan tâm ví dụ (question answering) BERT train theo kiểu unsupervised tập liệu lớn, với điều public website nhiều ngôn ngữ Đồng thời representation BERT thể ngữ cảnh so với phương pháp word embedding hồi xưa 55 Hình 6.9 Các bước sử dụng BERT - nguồn [18] 56 ...ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM NGƠ TRUNG HIẾU – 16520396 KHĨA LUẬN TỐT NGHIỆP SỬA LỖI CHÍNH TẢ DỰA TRÊN TIẾP CẬN HỌC SÂU Vietnamese... CÁN BỘ HƯỚNG DẪN) Tên khóa luận: SỬA LỖI CHÍNH TẢ DỰA TRÊN TIẾP CẬN HỌC SÂU Nhóm SV thực hiện: Cán hướng dẫn: MSSV: Ngơ Trung Hiếu TS Huỳnh Ngọc Tín 16520396 Đánh giá Khóa luận Về báo cáo: Số trang... NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 20 NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ PHẢN BIỆN) Tên khóa luận: SỬA LỖI CHÍNH TẢ DỰA TRÊN

Định dạng
Số trang	73
Dung lượng	1,41 MB