Điều chỉnh bert cho các bài toán xử lý ngôn ngữ tự nhiên trong tiếng việt

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Điều chỉnh BERT cho toán xử lý ngôn ngữ tự nhiên tiếng Việt NGUYỄN VẠN NHÃ nha282@gmail.com Ngành Hệ thống thông tin Giảng viên hướng dẫn: TS Nguyễn Kiêm Hiếu Viện: Công nghệ thông tin truyền thông Chữ ký GVHD HÀ NỘI, 10/2020 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Nguyễn Vạn Nhã Đề tài luận văn : Điều chỉnh BERT cho tốn xử lý ngơn ngữ tự nhiên tiếng Việt Chuyên ngành : Hệ thống thông tin Mã số SV : CAC19001 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 31/10/2020 với nội dung sau: STT Yêu cầu hội Nội dung chỉnh sửa đồng Cần diễn giải Trình bày chức lớp Trang 37 cách tiếp cận mơ hình nhận diện thực thể (mơ hình đề có tên xuất cụ thể hơn) Trình bày rõ kịch thử nghiệm, diễn giải kết thử nghiệm Ghi Visualize ảnh hưởng từ với từ Trang 46 tốn tìm câu hỏi tương đồng Trình bày phương pháp tối ưu Trang 34 tham số sử dụng Thêm biểu đồ ROC-AUC, kết Trang tập phát triển tốn 44, 45 tìm câu hỏi tương đồng nhận xét Thêm bảng so sánh kết Trang 38 BERT loại thực thể riêng toán nhận diện thực thể Thêm cách chia liệu huấn Trang 40 luyện phát triển, chọn mơ hình tốn phân tích cảm xúc Sửa chữa Gộp chương với chương Trang 47 hình thức, lỗi tả Sửa lỗi tả, đồng thuật Trên luận văn ngữ tiếng Anh sang tiếng Việt toàn luận văn Thêm bảng từ viết tắt Trang 10 Thêm trích dẫn tài liệu Trang 11, 26 Hà Nội, ngày 26 tháng 11 năm 2020 Giáo viên hướng dẫn Tác giả luận văn TS Nguyễn Kiêm Hiếu Nguyễn Vạn Nhã CHỦ TỊCH HỘI ĐỒNG PGS.TS Trần Đình Khang LỜI CAM ĐOAN Tôi - Nguyễn Vạn Nhã - cam kết luận văn cơng trình nghiên cứu thân tôi, hướng dẫn TS Nguyễn Kiêm Hiếu Các kết công bố báo cáo trung thực, chép cá nhân, tổ chức công bố khác Tất trích dẫn tham chiếu rõ ràng Ngày 25 tháng 10 năm 2020 Tác giả luận văn Nguyễn Vạn Nhã Xác nhận người hướng dẫn Lời cảm ơn Đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy Nguyễn Kiêm Hiếu hướng dẫn ân cần, tận tình, kiên nhẫn với em tạo động lực cho em khoảng thời gian thực luận văn Em xin chân thành cảm ơn Viện Công nghệ thông tin truyền thông tạo cho em môi trường thuận lợi để học tập nghiên cứu Em xin gửi lời cảm ơn đến gia đình ln quan tâm, ủng hộ hết lòng vật chất tinh thần suốt thời gian qua Do thời gian kiến thức có hạn nên khơng tránh khỏi thiếu sót định Em mong nhận đóng góp q báu thầy bạn Cuối cùng, em xin gửi lời chúc sức khỏe, hạnh phúc tới thầy cơ, gia đình bạn bè Tóm tắt nội dung luận văn Đào tạo trước mơ hình ngơn ngữ chứng minh có hiệu để cải thiện nhiều tốn xử lý ngơn ngữ tự nhiên BERT (Bidirectional Encoder Representations from Transformer) hiểu mô hình học sẵn học véc tơ đại diện theo ngữ cảnh hai chiều từ, sử dụng học chuyển đổi sang toán khác lĩnh vực xử lý ngôn ngữ tự nhiên BERT tạo cách mạng NLP đạt kết tối ưu cho 11 nhiệm vụ xử lý ngôn ngữ tự nhiên tiếng Anh Bởi việc ứng dụng BERT vào tiếng Việt vấn đề cần thiết để giải tốt toán NLP tiếng Việt, xu hướng nghiên cứu cộng đồng nghiên cứu NLP cho tiếng Việt Luận văn tập trung vào việc áp dụng điểu chỉnh BERT để giải số toán xử lý ngôn ngữ tự nhiên tiếng Việt : tách từ, tìm câu hỏi tương đồng, phân tích cảm xúc, nhận diện thực thể có tên Các kết đạt vượt độ xác với phương pháp trước Bên cạnh luận văn đưa số cách để cải thiện tốc độ mơ hình để phù hợp triển khai ứng dụng thực tế HỌC VIÊN Ký ghi rõ họ tên MỤC LỤC CHƯƠNG GIỚI THIỆU VỀ MƠ HÌNH NGƠN NGỮ, TRANSFORMER , BERT 11 1.1 Mơ hình ngơn ngữ 11 1.1.1 Mơ hình ngơn ngữ thống kê 11 1.1.2 Mơ hình ngơn ngữ mạng neural 12 1.2 Transformers 15 1.3 BERT 17 CHƯƠNG MỘT SỐ BÀI TOÁN NLP CƠ BẢN TRONG TIẾNG VIỆT 23 2.1 Cấu tạo từ tiếng Việt 23 2.2 Bài toán tách từ tiếng Việt 23 2.3 Bài toán nhận diện thực thể có tên 24 2.4 Bài tốn phân tích cảm xúc 26 2.5 Bài tốn tìm tương đồng câu hỏi tiếng Việt 27 CHƯƠNG CÁC MƠ HÌNH HUẤN LUYỆN TRƯỚC BERT 32 3.1 3.2 3.3 3.4 BERTmultilingual 32 3.1.1 Giới thiệu 32 3.1.2 Nguồn liệu lấy mẫu 32 3.1.3 Tách từ 32 PhoBERT 32 3.2.1 Giới thiệu 32 3.2.2 Nguồn liệu 33 3.2.3 Tách từ 33 BERT4news (ours) 33 3.3.1 Giới thiệu 33 3.3.2 Tách từ 33 3.3.3 Huấn luyện trước 33 BERT4ecomerce (ours) 33 CHƯƠNG KẾT QUẢ THỰC NGHIỆM TRÊN MỘT VÀI BÀI TOÁN TIẾNG VIỆT 34 4.1 Bài toán tách từ tiếng Việt 34 4.1.1 Biểu diễn toán 34 4.1.2 Mơ hình 34 4.2 4.3 4.4 4.5 4.1.3 Dữ liệu 34 4.1.4 Kết thực nghiệm 35 Bài toán nhận diện thực thể có tên 36 4.2.1 Giới thiệu toán 36 4.2.2 Dữ liệu 36 4.2.3 Mơ hình 37 4.2.4 Kết thực nghiệm 38 Bài tốn phân tích cảm xúc 40 4.3.1 Giới thiệu 40 4.3.2 Mơ hình 40 4.3.3 Dữ liệu 41 4.3.4 Kết thực nghiệm 41 Bài tốn tìm câu hỏi tương đồng 42 4.4.1 Giới thiệu 42 4.4.2 Mơ hình 42 4.4.3 Dữ liệu 44 4.4.4 Kết thực nghiệm 45 Cải thiện hiệu trình dự đoán bert 48 4.5.1 BERT cho biểu diễn câu 48 4.5.2 Nén BERT 50 CHƯƠNG KẾT LUẬN 51 5.1 Kết luận 51 5.2 Hướng phát triển 51 TÀI LIỆU THAM KHẢO 52 DANH MỤC HÌNH VẼ Hình 1.1 Kiến trúc mạng RNN 13 Hình 1.2 Kiến trúc mạng LSTM 14 Hình 1.3 Mơ hình transformers 15 Hình 1.4 Kiến trúc self attention 16 Hình 1.5 Kiến trúc multihead attention 17 Hình 1.6 Kến trúc mơ hình BERT 19 Hình 1.7 Biểu diễn đầu vào mơ hình BERT 19 Hình 1.8 Kết BERT SquAD1.1 21 Hình 1.9 Kết BERT GLUE benchmark 22 Hình 2.1 QA-LSTM Attention 30 Hình 4.1 Mơ hình BERT cho tốn tách từ 34 Hình 4.2 Kiến trúc BERT cho tốn nhận diện thực thể có tên 38 Hình 4.3 Kiến trúc BERT cho toán phân lại cảm xúc 41 Hình 4.4 Kiến trúc BERT cho tốn tìm câu hỏi tương đồng 43 Hình 4.5 Các phương pháp deeplearning truyền thống cho toán tìm câu hỏi tương đồng 43 Hình 4.6 ROC curves mơ hình liệu thử nghiệm 46 Hình 4.7 Visualize ma trận attention BERT and CNN 48 Hình 4.8 Kiến trúc S-BERT 49 DANH MỤC BẢNG Bảng 4.1 Kết liệu VLSP 35 Bảng 4.2 Thông kê thực thể liệu VLPS 2018 36 Bảng 4.3 Tạo joint tag cho từ tất cấp 37 Bảng 4.4 Kết BERT loại thực thể 39 Bảng 4.5 Kết VLSP liệu 2018 39 Bảng 4.6 Kết tập thử nghiệm aivivn contest 42 Bảng 4.7 Tham số mơ hình deeplearning 43 Bảng 4.8 Tham số điều chỉnh mơ hình BERT 44 Bảng 4.9 Thống kê liệu câu hỏi thegioididong 44 Bảng 4.10 Kết mơ hình tập phát triển 45 Bảng 4.11 MAP mơ hình liệu thử nghiệm 47 Bảng 4.12 Kết S-BERT liệu câu hỏi thegioididong 50 DANH MỤC TỪ VIẾT TẮT BERT Bidirectional Encoder Representations from Transformers LSTM Long Short-Term Memory RNN Recurrent Neural Network NLP Natural Language Processing NER Named Entity Recognition CNN Convolutional Neural Network 10 Hình 4.3 Kiến trúc BERT cho tốn phân lại cảm xúc Mơ hình sử dụng kiến trúc đơn giản để dư đoán nhãn, dropout sau biểu diễn [CLS] hàm phân loại softmax lớp mơ hình BERT 4.3.3 Dữ liệu Dữ liệu sử dụng lấy từ contest “Phân loại sắc thái bình luận” https://www.aivivn.com bao gồm liệu VLSP 2016 số chỉnh sửa Tập liệu bao gồm 16087 câu đánh giá gán nhãn Dữ liệu thử nghiệm bao gồm 10981 câu đánh giá Để phát điểm dừng việc huấn luyện, tập liệu ban đầu chia thành hai tập ngẫu nhiên: huấn luyện (80%) phát triển (20%) Mơ hình huấn luyện với 10 vịng lặp mơ hình dùng đánh giá tập thử nghiệm chọn với tiêu chí có điểm F1 cao trình huấn luyện 4.3.4 Kết thực nghiệm Trong phần thực nghiệm này, luận văn có so sánh cá mơ hình BERT với phương pháp truyền thống chiến thắng thi Bảng 4.6 cho thấy BERT hiệu so với phương pháp truyền thống với mơ hình đơn, việc kết hợp nhiều mơ hình hay điều chỉnh tham số đạt kết cao 41 Bảng 4.6 Kết tập thử nghiệm aivivn contest Mơ hình F1 2st place: SVM + Feature Engine + 0.89140 Ensemble 1st place: TextCNN+VDCNN+HARNN+SARNN 0.90087 BERTmultilingual 0.89336 BERT4ecommerce 0.90246 PhoBERT 0.90119 BERT4news 0.90268 Bert4multilingual không đạt F1 cao mơ hình huấn luyện trước khác cho thấy việc tạo mơ hình huấn luyện trước cho tiếng việt, hay tiếp tục huấn luyện mơ hình BERT cho lĩnh vực riêng đem lại hiểu cao 4.4 Bài tốn tìm câu hỏi tương đồng 4.4.1 Giới thiệu Tìm câu hỏi tương đồng bán tốn quan trọng hỏi đáp Dựa vào tri thức có đoạn hỏi đáp có, tìm câu trả lời có để trả lời cho câu hỏi người dùng Một cách đơn giản ta tìm câu hỏi có tương đồng với câu hỏi người dùng, sau dùng câu trả lời câu hỏi có trả lời cho câu hỏi người dùng Giả sử có tập câu hỏi Q = {q ,q , q n }, với câu hỏi người dùng q new ta cần tìm câu hỏi q i cho q i q new hai câu hỏi tương đồng (hay có nghĩa mục đích hỏi) 4.4.2 Mơ hình Mơ hình sử dụng kiến trúc BERT BASE, sử dụng mơ hình huấn luyện trước BERT4ecomerce, PhoBERT,BERT4news để so sánh hiệu toán Tham số tất lớp mô hình BERT tinh chỉnh lúc Mã [CLS] dùng để phân loại mã [SEP] (phân tách câu) thêm vào đầu vào mơ sau : BERT – Input(q ,q ) = [CLS]q [SEP]q [SEP], q ,q hai câu hỏi 42 Hình 4.4 Kiến trúc BERT cho tốn tìm câu hỏi tương đồng Để so sánh với phương pháp học sâu truyền thống, số mô hình học sâu : CNN ([40] [41]), LSTM ([42]) sử dụng tốn Hình 4.5 Các phương pháp deeplearning truyền thống cho tốn tìm câu hỏi tương đồng Các tham số mô hình thể bảng : Bảng 4.7 Tham số mơ hình deeplearning Emb- Hid-size L-rate P drop Batch Epochs 43 size 300 300 0.0001 LSTM/CNNattention CNN 300 300 300 ABCNN 300 LSTM 0.2 size 64 25 0.0001 0.2 64 25 0.003 0.5 64 25 0.001 0.2 32 25 Bảng 4.8 Tham số điều chỉnh mơ hình BERT BERT4multilingual PhoBERT BERT4news BERT4ecomerce max_length learningrate 200 2e-5 200 200 200 2e-5 2e-5 2e-5 step max 650 1600 1000 900 4.4.3 Dữ liệu Dữ liệu thu thập từ câu hỏi từ người dùng phần QA https://www.thegioididong.com - website thương mại điện tử nhãn điện thoại di động, máy tính xách tay thiết bị điện tử khác Bảng 4.9 Thống kê liệu câu hỏi thegioididong Cặp câu hỏi Train 5996 Dev 847 Test 1068 Độ dài trung bình 27 Từ vựng 5821 Một Elastic engine xây dựng từ kho liêu thu thập, sau chọn ngẫu nhiên tập câu hỏi Mỗi câu hỏi đẩy vào Elastic lấy 10 câu hỏi liên quan Sau 10 câu hỏi gán nhãn lại người Để tăng độ khó cho tập liệu, câu hỏi có điểm Elastic cao loại bỏ (các câu đơn giản có khác biệt ngữ nghĩa từ vựng) Dữ liệu sau chia thành nhóm : liệu huấn luyện, liệu dùng để điều chỉnh tham số mơ hình, liệu dùng để thử nghiệm (Bảng 4.9) 44 4.4.4 Kết thực nghiệm Các mơ hình triển khai Tensorflow tất thử nghiệm thực GPU Nvidia Tesla p100 16Gb Ở MAP sử dụng để làm độ đo xác để đánh giá Bảng 4.10 trình bày kết thực nghiệm chi tiết Thegioididong Kết chia thành ba phần: mạng nơ-ron với LSTM / CNN; BERT đào tạo trước kho ngữ liệu khác nhau; mơ hình bag-of-word Trong tất mơ hình ngoại trừ PhoBERT, mơ hình sử dụng âm tiết làm đầu vào Trong PhoBERT, sử dụng mơ đun tích hợp để tách từ Nói chung, Bảng 4.10 cho thấy cách tiếp cận học sâu tốt mơ hình sở, có gia tăng đáng kể mơ hình BERT, đặc biệt đào tạo trước với liệu miền cụ thể Để đánh giá độ xác mơ hình cho tốn tìm câu hỏi tương đồng luận văn sử dụng độ đo MAP Mean Average Precision (MAP) Map độ xác trung bình trung bình cho tập hợp truy vấn trung bình điểm xác trung bình cho truy vấn định nghĩa : AP = ∑ P@r r R Trong r rank tài liệu liên quan, R tổng số tài liệu liên quan P @ r độ xác top-r tài liệu trích rút Q MAP = ∑ AP(q) q =1 Q Trong q câu truy vấn Q tổng số câu hỏi truy vấn Bảng 4.10 Kết mơ hình tập phát triển Mơ hình MAP LSTM 55.68 CNN 57.48 ABCNN 59.21 LSTM attention 57.48 BERTmultilingual 68.48 PhoBERT 71.97 BERT4news 73.21 BERT4ecommerce 76.32 45 Các mơ hình chọn với điểm số MAP cao tập phát triển trình huấn luyện Kết tập phát triển trình bày bảng 4.10 Hình 4.6 ROC curves mơ hình liệu thử nghiệm Như trình bày Bảng 4.11 hình 4.6 cải thiện đáng kể đạt cách sử dụng BERT Các mơ hình học sâu truyền thống khơng hoạt động hiệu tình Một nguyên nhân quan trọng liệu ít, lĩnh vực đặc thù, mà việc huấn luyện mơ hình học sâu truyền thống khó Đối với BERT, tận dụng tri thức mơ hình ngơn ngữ học lượng lớn liệu tiếng Việt, hiệu với tập liệu nhỏ Đặc biệt, Bert4Ecommerce đạt độ xác cao (70,50% MAP 77.4% AUC) Từ vựng thương mại điện tử bao gồm loạt từ dùng cho thiết bị công nghệ Iphone, Samsung S9, "Mua-tra-gop" (trả góp), v.v Hơn nữa, liệu thương mại điện tử liệu xã hội nói chung khơng có đảm bảo tả, ngữ pháp cách sử dụng từ Ví dụ, nhiều lỗi tả từ viết tắt “thoong bao” (thông báo), ”mk” (mật khẩu) ”ss” (Samsung), ”f” (bàn phím) tìm thấy tập liệu Do đó, đào tạo lại nhúng từ miền thương mại điện tử bắt buộc hiệu nhiều so với việc sử dụng mô hình đào tạo trước liệu nguồn tin tức Wiki tin tức tình 46 Bảng 4.11 MAP mơ hình liệu thử nghiệm Mơ hình MAP LSTM 52.60 CNN 53.10 ABCNN 51.52 LSTM attention 55.50 BERTmultilingual 61.60 PhoBERT 65.50 BERT4news 68.22 BERT4ecommerce 70.50 Elastic search 52.00 SVM 49.75 47 Bằng cách visualize ma trận attention mơ hình BERT CNN, luận văn chế self attention BERT học mối quan hệ ngữ nghĩa hai câu tốt chế attention biết đến CNN Hình 4.7 thể mối quan hệ từ với từ câu hỏi truy vấn (trục Y) câu hỏi ứng viên (trục X).Màu sắc hình thể độ lớn trọng số liên kết hai câu hỏi, màu tối tương quan với giá trị lớn Sự phân bố attention BERT thưa ABCNN Điều giúp tăng cường tương tác từ quan trọng “slide” với “màn hình”, ”lock”, ”phím” với “khóa máy” Hình 4.7 Visualize ma trận attention BERT and CNN Kết public PACLIC 2020 (the 34th Pacific Asia Conference on Language, Information and Computation) 4.5 Cải thiện hiệu q trình dự đốn bert 4.5.1 BERT cho biểu diễn câu BERT thấy mơ hình đại cho hầu hết nhiệm vụ NLP dự đoán độ tương đồng hai câu Tuy nhiên yêu đầu vào hai câu, điều yêu cầu chi phí tính tốn lớn Giả sửa với tốn tìm cặp câu có độ tương tự cao tập n =10000 câu yêu cầu khoảng n *(n − 1) / = 49 995000 dự đoán Với card V100 GPU phải 65 chạy xong khoảng 50 triệu dự đoán Một phương pháp phổ biến để giải vấn đề tốn phân cụm hay tìm kiếm dựa ngữ nghĩa ánh xạ câu tới không gian véc tơ cho câu giống mặt ngữ nghĩa có khoảng cách gần 48 Các nhà nghiên cứu bắt đầu đẩy câu riêng lẻ vào BERT tạo phép nhúng câu cố định Phổ biến cách tiếp cận sử dụng lấy trung bình đầu BERT biểu diễn từ câu lấy biểu diễn mã [CLS] Như thấy mang lại kết tệ Để tăng hiệu năng, [43] phát triển mạng siamese BERT (S-BERT) Kiến trúc cho phép tạo véc tơ cố định với câu đầu vào sử dụng độ đo tương tự cosine hay Manhatten/ Euclidean để tìm câu tương tự mặt ngữ nghĩa Để điều chỉnh BERT, S-BERT tạo mạng triplet network để cập nhật trọng số cho phép nhúng câu có ý nghĩa mặt ngữ nghĩa so sánh độ đo tương tự cosine Hình 4.8 Kiến trúc S-BERT Triplet Objective Function : Với câu gốc a, câu tích cực p, câu tiêu cực n, triplet loss điều chỉnh mạng cho khoảng cách a p nhỏ khoảng cách a n Về mặt toán học, S-BERT tối thiểu hóa hàm mát sau: max( sa − s p − sa − sn + ε , 0) Kết đạt Mơ hình huấn luyện liệu câu hỏi giới di động (trong mục 4.2.3), sử dụng BERT4ecomerce để thử nghiệm 49 Bảng 4.12 Kết S-BERT liệu câu hỏi thegioididong Mơ hình MAP BERT4ecommerce 70.5 BERT (CLS véc tơ) 56.6 S-BERT 64.7 Bảng 4.12 cho thấy độ xác giảm tốc độ cho tốn tìm kiếm dựa ngữ nghĩa tăng kể, Thay 60 để chạy 50 triệu suy diễn, với S-BERT với câu mới, việc tìm kiếm câu tương tự cịn tính s Mơ hình BERT việc lấy mã [CLS] làm véc tơ biểu diễn cho câu cho kết tệ S-BERT việc sử dụng triplet network để cập nhật tham số đem lại kết ấn tượng 4.5.2 Nén BERT Quantization (lượng tử hóa) có nghĩa giảm trọng số mơ hình Một phương pháp đầy hứa hẹn [44], [45] k-means quantization: với ma trận trọng số W mơ hình gồm số thực dấu phẩy động, tác giả nhóm tất chúng thành N cụm Sau đó, họ biến W thành ma trận giá trị nguyên từ [1 N], giá trị trỏ đến N tâm cụm Bằng cách này, họ nén phần tử ma trận từ số thực 32 bit thành số nguyên log (N)-bit Kiến trúc máy tính thường cho phép giảm xuống bit Lưu ý trường hợp thứ hai trường hợp gặp mã hóa ma trận trọng số - làm cho chứa giá trị riêng biệt - làm tổn hại mơ hình q nhiều Trong phần này, luận văn sử dụng BERT4ecomerce, quy trình mơ tả khơng dành riêng cho BERT4ecomerce áp dụng cho nhiều mơ hình khác Đầu tiên, điều chỉnh liệu hỏi đáp thegioidiong mục 4.4.3 Sau đó, luận văn sử dụng kết hợp công cụ tiêu chuẩn sau: Đầu tiên giảm độ xác mơ hình lượng tử hóa động Int8 sử dụng thư viện PyTorch Chúng ta lượng tử hóa lớp kết nối đầy đủ Các ma trận lượng tử hóa chuyển đổi thành định dạng ma trận thưa Chúng ta sử dụng HDF5 với nén gzip để lưu trữ trọng số Luận văn thử nghiệm với mơ hình hỏi đáp giảm kích thước nhớ mã hóa từ 340MB (BERT đầy đủ) xuống 75MB, nhiên độ xác giảm 10% so với ban đầu (70%) 50 CHƯƠNG KẾT LUẬN 5.1 Kết luận Luận văn tập trung vào việc áp dụng thành tựu BERT tiếng Anh cho tiếng Việt, giải số toán xử lý ngôn ngữ tự nhiên: Tách từ tiếng Việt, tìm câu hỏi tương đồng, phân tích cảm xúc, nhận diện thực thể có tên Luận văn trình bày cách áp dụng vào toán đạt kết tốt, cải thiện tất toán xét (0.5% với toán tách từ tiếng Việt, 15% với tốn tìm câu hỏi tương đồng, 1% với phân tích cảm xúc, 2-4% với tốn nhận diện thực thể có tên) Điều bật là mơ hình đầu cuối, khơng cần phải tiền xử lý hay trích chọn đặc trưng kỹ phương pháp trước, kết tận dụng cho tốn khác Trong q trình làm luận văn, em nhóm đóng góp mơ hình ngơn ngữ BERT (BERT4news BERT4ecommerce) với PhoBERT (VinAI) mơ hình ngơn ngữ tốt cho tiếng Việt kho liệu lớn phục vụ cho cộng đồng nghiên cứu NLP tiếng Việt Một số kết trình bày luận văn trình bày trong: ThiThanh Ha, Van-Nha Nguyen, Kiem-Hieu Nguyen, Tien-Thanh Nguyen and KimAnh Nguyen Utilizing Bert for Question Retrieval on Vietnameses E-commerce Sites PACLIC 2020 5.2 Hướng phát triển Bằng việc chứng minh tính hiệu BERT tốn xử lý ngơn ngữ tự nhiên tiếng Việt, em tiếp tục thử nghiệm số toán phức tạp như: dịch máy, đọc hiểu Kèm theo việc phân tích ảnh hưởng BERT liệu tiếng Việt dạng tách từ hay ý nghĩa lớn việc cải thiện hiệu hệ thống Ngoài để triển khai thực tế tốc độ vấn đề quan tâm sử dụng BERT, kỹ thuật nén BERT tốt hơn, đạt độ cao so với mơ hình gốc vấn đề đáng quan tâm việc nghiên cứu BERT Nén mơ hình phục vụ mục đích khác nhau: làm cho mơ hình nhỏ mặt vật lý để tiết kiệm dung lượng đĩa, làm cho u cầu nhớ tính tốn làm cho nhanh Một số phương pháp nén BERT Quantization, Prunning hay Knowledge distillation hướng nghiên cứu để làm tăng hiệu suất mô hình 51 TÀI LIỆU THAM KHẢO [1] “Mơ hình ngơn ngữ - Xử lý ngôn ngữ tự nhiên (Trường đại học khoa học kỹ thuật Nagaoka).” https://sites.google.com/a/jnlp.org/viet/kien-thuc-co-ban-vexu-ly-ngon-ngu-tu-nhien/mo-hinh-ngon-ngu (accessed Nov 25, 2020) [2] A Sherstinsky, “Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) Network,” Phys Nonlinear Phenom., vol 404, p 132306, Mar 2020, doi: 10.1016/j.physd.2019.132306 [3] S Hochreiter and J Schmidhuber, “Long Short-Term Memory,” Neural Comput., vol 9, no 8, pp 1735–1780, Nov 1997, doi: 10.1162/neco.1997.9.8.1735 [4] A Vaswani et al., “Attention is All you Need,” in Advances in Neural Information Processing Systems 30, I Guyon, U V Luxburg, S Bengio, H Wallach, R Fergus, S Vishwanathan, and R Garnett, Eds Curran Associates, Inc., 2017, pp 5998–6008 [5] R Paulus, C Xiong, and R Socher, “A Deep Reinforced Model for Abstractive Summarization,” presented at the International Conference on Learning Representations, Feb 2018, Accessed: Oct 22, 2020 [Online] Available: https://openreview.net/forum?id=HkAClQgA- [6] Z Lin et al., “A Structured Self-attentive Sentence Embedding,” Mar 2017 [7] J Cheng, L Dong, and M Lapata, “Long Short-Term Memory-Networks for Machine Reading,” in Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Austin, Texas, Nov 2016, pp 551–561, doi: 10.18653/v1/D16-1053 [8] A Parikh, O Täckström, D Das, and J Uszkoreit, “A Decomposable Attention Model for Natural Language Inference,” in Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Austin, Texas, Nov 2016, pp 2249–2255, doi: 10.18653/v1/D16-1244 [9] J Devlin, M.-W Chang, K Lee, and K Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume (Long and Short Papers), Minneapolis, Minnesota, Jun 2019, pp 4171–4186, doi: 10.18653/v1/N19-1423 [10] Y Wu et al., “Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation,” Sep 2016 [11] Y Zhu et al., “Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books,” in Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV), USA, Dec 2015, pp 19–27, doi: 10.1109/ICCV.2015.11 [12] A Wang, A Singh, J Michael, F Hill, O Levy, and S Bowman, “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding,” in Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, Brussels, Belgium, Nov 2018, pp 353–355, doi: 10.18653/v1/W18-5446 52 [13] E Brill, “Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging,” Comput Linguist., vol 21, no 4, pp 543–565, 1995 [14] M Mohri, “Weighted Finite-State Transducer Algorithms An Overview,” Form Lang Appl., vol 148, Jan 2004, doi: 10.1007/978-3-540-39886-8_29 [15] “(PDF) Maximum Entropy Fundamentals.” https://www.researchgate.net/publication/228873617_Maximum_Entropy_Fu ndamentals (accessed Nov 24, 2020) [16] M Awad and R Khanna, “Support Vector Machines for Classification,” 2015, pp 39–66 [17] D D Pham, G B Tran, and S B Pham, “A Hybrid Approach to Vietnamese Word Segmentation Using Part of Speech Tags,” in Proceedings of the 2009 International Conference on Knowledge and Systems Engineering, USA, Oct 2009, pp 154–161, doi: 10.1109/KSE.2009.44 [18] P Wang, Y Qian, F K Soong, L He, and H Zhao, “Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Recurrent Neural Network,” ArXiv151006168 Cs, Oct 2015, Accessed: Nov 24, 2020 [Online] Available: http://arxiv.org/abs/1510.06168 [19] M Silfverberg, T Ruokolainen, K Lindén, and M Kurimo, “Part-ofSpeech Tagging using Conditional Random Fields: Exploiting Sub-Label Dependencies for Improved Accuracy,” in Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), Baltimore, Maryland, 2014, pp 259–264, doi: 10.3115/v1/P142043 [20] R Sankaravelayuthan, Lexical gaps in the vocabulary structure of a language 2019 [21] S Robertson, S Walker, S Jones, M Hancock-Beaulieu, and M Gatford, Okapi at TREC-3 1994 [22] T Mikolov, K Chen, G S Corrado, and J Dean, Efficient Estimation of Word Representations in Vector Space 2013 [23] M Tan, C dos Santos, B Xiang, and B Zhou, “LSTM-based Deep Learning Models for Non-factoid Answer Selection,” ArXiv151104108 Cs, Mar 2016, Accessed: Oct 21, 2020 [Online] Available: http://arxiv.org/abs/1511.04108 [24] D Bahdanau, K Cho, and Y Bengio, “Neural machine translation by jointly learning to align and translate,” arXiv, p 1409.0473, 2014 [25] A M Rush, S Chopra, and J Weston, “A Neural Attention Model for Abstractive Sentence Summarization,” in Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal, Sep 2015, pp 379–389, doi: 10.18653/v1/D15-1044 [26] “Teaching machines to read and comprehend | Proceedings of the 28th International Conference on Neural Information Processing Systems Volume 1.” https://dl.acm.org/doi/10.5555/2969239.2969428 (accessed Oct 22, 2020) 53 [27] Y Wu et al., “Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation,” ArXiv160908144 Cs, Oct 2016, Accessed: Oct 13, 2020 [Online] Available: http://arxiv.org/abs/1609.08144 [28] D Q Nguyen and A T Nguyen, “PhoBERT: Pre-trained language models for Vietnamese,” ArXiv200300744 Cs, Apr 2020, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/2003.00744 [29] Y Liu et al., “RoBERTa: A Robustly Optimized BERT Pretraining Approach,” ArXiv, 2019 [30] D Q Nguyen, D Q Nguyen, T Vu, M Dras, and M Johnson, “A Fast and Accurate Vietnamese Word Segmenter,” p [31] T Vu, D Q Nguyen, D Q Nguyen, M Dras, and M Johnson, “VnCoreNLP: A Vietnamese Natural Language Processing Toolkit,” in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, New Orleans, Louisiana, Jun 2018, pp 56–60, doi: 10.18653/v1/N18-5012 [32] R Sennrich, B Haddow, and A Birch, “Neural Machine Translation of Rare Words with Subword Units,” in Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Berlin, Germany, Aug 2016, pp 1715–1725, doi: 10.18653/v1/P161162 [33] T Kudo and J Richardson, “SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing,” in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, Brussels, Belgium, Nov 2018, pp 66–71, doi: 10.18653/v1/D18-2012 [34] T Kudo, “Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates,” in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Melbourne, Australia, Jul 2018, pp 66–75, doi: 10.18653/v1/P18-1007 [35] D P Kingma and J Ba, “Adam: A Method for Stochastic Optimization,” ArXiv14126980 Cs, Jan 2017, Accessed: Oct 21, 2020 [Online] Available: http://arxiv.org/abs/1412.6980 [36] H T M Nguyen, Q T Ngo, L X Vu, V M Tran, and H T T Nguyen, “VLSP Shared Task: Named Entity Recognition,” J Comput Sci Cybern., vol 34, no 4, Art no 4, 2018, doi: 10.15625/1813-9663/34/4/13161 [37] M Q N Pham, “A Feature-Based Model for Nested Named-Entity Recognition at VLSP-2018 NER Evaluation Campaign,” J Comput Sci Cybern., vol 34, no 4, Art no 4, 2018, doi: 10.15625/18139663/34/4/13163 [38] K A Nguyen, N Dong, and C Nguyen, “Attentive Neural Network for Named Entity Recognition in Vietnamese,” in 2019 IEEE-RIVF International Conference on Computing and Communication Technologies (RIVF), Mar 2019, pp 1–6, doi: 10.1109/RIVF.2019.8713740 54 [39] “2018 pham ZA-NER: Vietnamese Named Entity Recognition at VLSP 2018 Evaluation Campaign.pdf,” Google Docs https://drive.google.com/file/d/1tLPn6DZgJ1QbyINJPZ69lF1aSPLV0HWE/v iew?usp=sharing&usp=embed_facebook (accessed Oct 14, 2020) [40] W Yin, H Schütze, B Xiang, and B Zhou, “ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs,” Trans Assoc Comput Linguist., vol 4, pp 259–272, 2016, doi: 10.1162/tacl_a_00097 [41] L Yang, H Zamani, Y Zhang, J Guo, and W B Croft, “Neural Matching Models for Question Retrieval and Next Question Prediction in Conversation,” ArXiv170705409 Cs, Jul 2017, Accessed: Oct 14, 2020 [Online] Available: http://arxiv.org/abs/1707.05409 [42] N Othman, R Faiz, and K Smaïli, Manhattan Siamese LSTM for Question Retrieval in Community Question Answering 2019 [43] N Reimers and I Gurevych, “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks,” in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLPIJCNLP), Hong Kong, China, Nov 2019, pp 3982–3992, doi: 10.18653/v1/D19-1410 [44] R Cheong and R Daniel, “transformers.zip: Compressing Transformers with Pruning and Quantization,” p 13 [45] S Han, H Mao, and W J Dally, “Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding,” ArXiv151000149 Cs, Feb 2016, Accessed: Oct 21, 2020 [Online] Available: http://arxiv.org/abs/1510.00149 55 ... chuyển đổi sang toán khác lĩnh vực xử lý ngôn ngữ tự nhiên BERT tạo cách mạng NLP đạt kết tối ưu cho 11 nhiệm vụ xử lý ngôn ngữ tự nhiên tiếng Anh Bởi việc ứng dụng BERT vào tiếng Việt vấn đề cần... xử lý ngôn ngữ tự nhiên phải cú hích lớn để cải tiến tốn xử lí ngơn ngữ tự nhiên cho tiếng Việt 22 CHƯƠNG MỘT SỐ BÀI TOÁN NLP CƠ BẢN TRONG TIẾNG VIỆT 2.1 Cấu tạo từ tiếng Việt Văn tiếng Việt tạo... giải tốt toán NLP tiếng Việt, xu hướng nghiên cứu cộng đồng nghiên cứu NLP cho tiếng Việt Luận văn tập trung vào việc áp dụng điểu chỉnh BERT để giải số toán xử lý ngôn ngữ tự nhiên tiếng Việt :

Tiêu đề	Điều chỉnh BERT cho các bài toán xử lý ngôn ngữ tự nhiên trong tiếng Việt
Tác giả	Nguyễn Vạn Nhã
Người hướng dẫn	TS. Nguyễn Kiêm Hiếu
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Hệ thống thông tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2020
Thành phố	Hà Nội

Định dạng
Số trang	55
Dung lượng	1,22 MB