Rút trích thực thể được định danh bằng phương pháp học sâu

94 4 0
Rút trích thực thể được định danh bằng phương pháp học sâu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Trần Quang Huy RÚT TRÍCH THỰC THỂ ĐƯỢC ĐỊNH DANH BẰNG PHƯƠNG PHÁP HỌC SÂU LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH Thành phố Hồ Chí Minh – 2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Trần Quang Huy RÚT TRÍCH THỰC THỂ ĐƯỢC ĐỊNH DANH BẰNG PHƯƠNG PHÁP HỌC SÂU Chuyên ngành: Khoa Học Máy Tính Mã số: 8480101 LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS BÙI THANH HÙNG Thành phố Hồ Chí Minh – 2021 LỜI CAM ĐOAN Tôi xin cam đoan luận văn đề tài “Rút trích thực thể định danh phương pháp học sâu” với hướng dẫn khoa học TS Bùi Thanh Hùng cơng trình nghiên cứu cá nhân thời gian qua Mọi số liệu sử dụng phân tích luận văn kết nghiên cứu tơi tự tìm hiểu, phân tích cách khách quan, trung thực, có nguồn gốc rõ ràng chưa công bố hình thức Tơi xin chịu hồn tồn trách nhiệm có khơng trung thực thơng tin sử dụng cơng trình nghiên cứu LỜI CẢM ƠN Lời cảm ơn trân trọng em muốn dành tới thầy cô Khoa Công nghệ thông tin trường Đại học Sư Phạm Thành phố Hồ Chí Minh tận tình giảng dạy truyền đạt kiến thức quý báu suốt khoá cao học vừa qua, giúp em có kiến thức chun mơn tảng để làm sở lý luận khoa học cho luận văn Đặc biệt em xin chân thành cảm ơn thầy TS Bùi Thanh Hùng dìu dắt hướng dẫn em suốt trình làm luận văn, bảo định hướng thầy giúp em tự tin nghiên cứu vấn đề giải toán cách khoa học Em xin trân trọng cảm ơn Ban Giám hiệu trường Đại học Sư Phạm Thành phố Hồ Chí Minh Phịng Sau Đại Học trường Đại học Sư Phạm Thành phố Hồ Chí Minh tạo điều kiện cho em học tập làm luận văn cách thuận lợi Cuối cùng, em xin cảm ơn gia đình, bạn bè, người thân bên để động viên nguồn cổ vũ lớn lao, động lực giúp em hoàn thành luận văn Mặc dù cố gắng nhiều, chắn trình học tập thực luận văn không tránh khỏi thiết sót Em mong thơng cảm bảo tận tình thầy bạn TP.HCM, ngày tháng năm 2021 Học viên Trần Quang Huy MỤC LỤC TÓM TẮT ………………………………………………………………… i DANH MỤC CHỮ VIẾT TẮT…………………………………….….…… ii DANH MỤC HÌNH……………………………… ………… …….………iii DANH MỤC BẢNG…………………………….…………… …………….iv CHƯƠNG TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU……………… 1.1 Lý chọn đề tài……………………………………………………… 1.2 Mục đích nghiên cứu………………………………………………… 1.3 Đối tượng, phạm vi nghiên cứu……………………………………… 1.4 Phương pháp nghiên cứu……………………………………………… 1.5 Ý nghĩa khoa học thực tiễn………………………………………… 1.6 Bố cục luận văn……………………………………………………… CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Bài tốn rút trích thực thể định danh…………………………… 2.2 Các hướng tiếp cận giải toán……………………………… 2.2.1 Hướng tiếp cận dựa tập luật 2.2.2 Hướng tiếp cận dựa máy học thống kê 11 2.2.3 Hướng tiếp cận học sâu 13 2.3 Các nghiên cứu liên quan…………………………………………… 16 2.4 Hướng đề xuất nghiên cứu…………………………………………… 19 2.5 Xử lý ngôn ngữ tự nhiên………………………………………………21 2.5.1 Tách từ 21 2.5.2 POS tagging 22 2.5.3 Xác định cụm từ (Chunking) 24 2.5.4 Phân tích cú pháp (Parsing) 26 2.6 Biểu diễn từ………………………………………………………… 27 2.6.1 One hot véc tơ 28 2.6.2 CBOW (Continuous Bag of Words) - Túi từ liên tục 29 2.6.3 Skip gram 31 2.7 Học sâu……………………………………………………………… 32 2.7.1 Mạng nơ ron nhân tạo (Artificial Neural Network - ANN) 32 2.7.2 Mạng nơ ron hồi quy - RNN 35 2.7.3 Mạng nơ ron ngắn dài LSTM 37 2.7.4 Mạng nơ ron dài ngắn song song BiLSTM 39 2.7.5 Mơ hình máy biến áp - Transformer 40 2.7.6 Mơ hình BERT 43 2.7.7 Mơ hình PhoBERT 46 CHƯƠNG MƠ HÌNH ĐỀ XUẤT……………………………………… 49 3.1 Tổng quan mơ hình đề xuất……………………………………… 49 3.2 Các đặc trưng mơ hình…………………………………………… 50 3.2.1 Nhúng từ 50 3.2.2 Mơ hình BERT 52 3.2.3 Mơ hình PhoBERT 54 3.2.4 Mơ hình PhoBERT + LSTM 55 3.2.5 Mơ hình PhoBERT + BiLSTM 56 3.2.6 Mơ hình PhoBERT + BiLSTM + CRF 57 3.2.7 Rút trích thực thể định danh 58 3.3 Phương pháp đánh giá kết quả……………………………………… 60 CHƯƠNG THỰC NGHIỆM…………………………………………… 61 4.1 Dữ liệu……………………………………………………………… 61 4.1.1 Thu thập liệu 61 4.1.2 Xử lý liệu 65 4.2 Kết thực nghiệm 65 4.2.1 Công nghệ sử dụng 65 4.2.2 Trích xuất đặc trưng 66 4.2.3 Rút trích thực thể định danh 68 4.3 Xây dựng ứng dụng………………………………………………… 74 4.3.1 Thiết kế 74 4.3.2 Ứng dụng Rút trích thực thể định danh 76 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN…………………… 77 5.1 Kết luận……………………………………………………………… 77 5.2 Hướng phát triển………………………………………………………77 CÔNG TRÌNH CƠNG BỐ………………………………………………… 79 TÀI LIỆU THAM KHẢO………………………………………………… 80 TĨM TẮT Rút trích thực thể đinh danh (Named Entities Recognition – NER) công việc quan trọng khai thác thông tin (Information Retrival – IR) nhằm tìm kiếm phân loại thực thể định nội dung văn Nó ứng dụng nhiều các giải thuật giải tốn dịch tự động, tóm tắt văn bản, nhận biệt thực thể y học… Trong luận văn trình bày cách tổng quan phương pháp có để trích xuất thực thể định danh, sở phân tích đánh giá phương pháp có Sau xem xét hướng tiếp cận khác nhau, luận văn lựa chọn xây dựng tốn rút trích thực thể định danh với ngôn ngữ Tiếng Việt dựa pretrain model BERT PhoBERT kết hợp với số mạng học sâu: LSTM, BiLSTM, CRF Mơ hình xây dựng qua bước: Tiền xử lý liệu đầu vào, nhúng từ dựa pretrain model cuối mạng học sâu để tiến hành phân lớp Luận văn tiến hành thử pretrain mơ hình: Bert, PhoBert, PhoBert + LSTM, PhoBert + BiLSTM, PhoBert + BiLSTM + CRF, với liệu VLSP 2016 Kết thu đánh giá qua độ đo F1_score với mô hình đạt kết cao PhoBert + BiLSTM + CRF: 0.935 0.952 với IOB tag Kết lần lần thực nghiệm sở cho việc phân tích đánh giá mơ hình Cuối để minh hoạ cho q trình dự đốn nhãn thực thể, luận văn xây dựng ứng dụng web dự đốn dựa thư viện Flask rút trích thực thể định danh đoạn văn từ mơ hình đạt kết cao DANH MỤC CHỮ VIẾT TẮT KÍ HIỆU TÊN TIẾNG ANH Ý NGHĨA NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên NER Named Entity Recognition Nhận diện thực thể định danh PER Personal Nhãn biểu thị thực thể tên người LOC Location Nhãn biểu thị thực thể tên địa danh ORG Organization Nhãn biểu thị thực thể tên tổ chức MISC Miscellaneous Nhãn biểu thị thực thể không thuộc loại RNN Recurrent Neural Network Mạng nơ ron hồi quy LSTM Long Short Term Memory Mạng nơ ron ngắn dài BiLSTM Bidirectional Long Short Term Memory Mạng nơ ron ngắn dài song song BERT Bidirectional Encoder Representations from Transformers Lớp Encoder song song từ Transformer VLSP Vietnamese Language and Speech Processing Xử lý ngôn ngữ tiếng nói Tiếng Việt DANH MỤC HÌNH Hình 2.1 Sơ đồ hướng tiếp cận cho toán NER Hình 2.2 Phương pháp rút trích NE dựa phương pháp máy học 12 Hình 2.3 Ví dụ học sâu 13 Hình 2.4 Nguyên lý hoạt động học sâu 14 Hình 2.5 Ứng dụng mơ hình học sâu cho tốn NER 14 Hình 2.6 Cây cú pháp 26 Hình 2.7 Cấu trúc CBOW 30 Hình 2.8 Mơ hình CBOW 31 Hình 2.9 Mơ hình Skip-gram 32 Hình 2.10 Mạng nơ ron nhân tạo 33 Hình 2.11 Quá trình huấn luyện mạng nơ ron 34 Hình 2.12 Mơ hình RNN 36 Hình 2.13 Kiến trúc RNN 37 Hình 2.14 Cấu trúc LSTM 38 Hình 2.15 Trạng thái tế bào 39 Hình 2.16 Bidirectional LSTM 40 Hình 2.17 Mơ hình seq2seq có attention layer 41 Hình 2.18 Kiến trúc Transformer 42 Hình 2.19 Cấu trúc Bert 43 Hình 2.20 Nguyên lý hoạt động Encoder 44 Hình 2.21 Nhúng từ Bert 46 Hình 3.1 Sơ đồ cấu trúc mơ hình sử dụng cho tốn NER… ………50 Hình 3.2 Sơ đồ cấu trúc mơ hình tinh chỉnh Bert 60 Hình 3.3 Mơ hình áp dụng PhoBert + LSTM cho tốn NER 56 Hình 3.4 Mạng BiLSTM cho NER 57 Hình 3.5 Mơ hình kết hợp BiLSTM CRF cho trình phân lớp 58 Hình 3.6 Q trình dự đốn nhãn từ text 59 Hình 4.1 Cấu trúc NER_dataset.csv……….…………………….………… 62 68 PER, ORG, LOC Mảng feature thu ứng với từ câu set từ feature ngược lại Để tăng hiệu suất rút trích features luận văn có sử dụng thêm dictionary gồm: vnLocation.txt, vnOrganization.txt, vnFullNames.txt, vnPersonalPositions.txt VINAI 4.2.3 Rút trích thực thể định danh Mơ hình với tốn tốn rút trích thực thể định danh trải qua giai đoạn: giai đoạn training giai đoạn dự đoán nhãn mơ tả hình: Hình 4.2 Q trình rút trích thực thể định danh 69 Q trình huấn luyện liệu diễn theo tiến trình sau: • Bước 1: Đọc file liệu csv Đỗ liệu vào ba mảng: Word, label, features Lấy kí tự ‘/n’ làm dấu hiệu nhận biết kết thúc câu Mỗi mảng có độ dài tối đa 128 Thêm token đặc biệt [CLS] [SEP] vào đầu cuối câu • Bước 2: Mảng features bổ sung cách rút trích thêm đăc trưng nhận diện từ nhãn POS từ điển, sau véc tơ mảng giá trị: cho features nhận diện từ cho từ khơng thuộc loại features Đối với mảng word label véc tơ hố thơng qua q trình nhúng từ pretrain model • Bước 3: Véc tơ thu tiến hành huấn luyện pretrain model, dự đoán nhãn qua lớp linear mạng học sâu • Bước 4: Tính tốn hàm mát với tập validation cập nhập trọng số mô hình • Bước 5: Lưu mơ hình Luận văn tiến hành huấn luyện liệu mơ hình với tham số sau: Bảng 4.3 Tham số mơ hình huấn luyện Epoch Batch size Hàm mát Activate function Optimization Hidden size Dropout Số lớp LSTM Số lớp BiLSTM 100 Categorical cross entropy Softmax Adam 768 0.3 2 70 Trong trình huấn luyện, ta đánh giá hiệu mơ hình tập validation, sau lưu lại model validation loss giảm nhằm giữ lại model tốt Kết thu đánh giá qua F1 (cơng thức 3.1) Precision Recall tỷ lệ phần trăm thực thể đặt tên xác, xác định hệ thống tỷ lệ phần trăm thực thể xác định có tên tương ứng có liệu Hệ thống trích chọn thơng tin thực thể đặt tên đánh giá thực thể Kết cập nhật best score sau epoches dựa tag NER IOB NER sau: Với mơ hình Bert PhoBert kết thu sau: Bảng 4.4 So sánh kết mô hình Bert PhoBert Mơ hình F1 score F1 score with IOB tag Bert 0.943 0.925 PhoBert 0.944 0.927 Qua kết cho thấy việc áp dụng PhoBert cho mơ hình rút trích thực thể định danh cho ngôn ngữ Tiếng Việt đạt kết cao Bert Vì pretrained model huấn luyện riêng cho ngơn ngữ Tiếng Việt Với mơ hình PhoBert PhoBert + LSTM kết thu sau: 71 Bảng 4.5 So sánh kết mơ hình PhoBert PhoBert + LSTM Mơ hình F1 score F1 score with IOB tag PhoBert 0.944 0.927 PhoBert + LSTM 0.946 0.930 Giữa mơ hình PhoBert PhoBert + LSTM, thấy PhoBert + LSTM, áp lớp mạng LSTM hidden size 768 đạt kết qủa cao hơn, chứng tỏ việc thay lớp linear thông thường lớp mạng học sâu đạt hiệu cao cho q trình phân lớp Với mơ hình PhoBert +BiLSTM PhoBert +BiLSTM + CRF kết thu sau: Bảng 4.6 So sánh kết mơ hình PhoBert +BiLSTM PhoBert +BiLSTM + CRF Mơ hìnhs F1 score F1 score with IOB tag PhoBert +BiLSTM 0.948 0.931 PhoBert +BiLSTM + CRF 0.952 0.935 Việc PhoBert +BiLSTM + CRF đạt kết huấn luyện cao cho thấy hiệu việc kết hợp hai mạng học sâu cho trình phân lớp tận dụng khả rút trích đặc trưng thơng minh LSTM khả dự đoán chuỗi nhãn mạnh mẽ CRF Kết huấn luyện mơ hình so sánh mối tương qua hiệu suất dựa vào bảng tổng hợp 72 Bảng 4.7 Kết huấn luyện mơ hình cho tốn NER PhoBert PhoBert +BiLSTM +BiLSTM +CRF Bert PhoBert PhoBert +LSTM F1 score with IOB tag 0.925 0.927 0.930 0.931 0.935 F1 score 0.943 0.944 0.946 0.948 0.952 Cụ thể với nhãn sau: Bảng 4.8 Kết huấn luyện mơ hình cho toán NER với nhãn Nhãn Bert PhoBert PhoBert +LSTM PhoBert PhoBert +BiLSTM +BiLSTM +CRF O 0.998 0.998 0.998 0.998 0.998 MISC 0.934 0.923 0.929 0.941 0.947 PER 0.979 0.981 0.981 0.980 0.983 ORG 0.841 0.862 0.857 0.858 0.862 LOC 0.962 0.954 0.962 0.961 0.969 Kết huấn luyện mơ hình trực quan hố biểu đồ đây: 73 Chart Title 0.955 0.95 0.945 0.94 0.935 0.93 0.925 0.92 0.915 0.91 Bert PhoBert PhoBert F1 score with IOB tag PhoBert PhoBert +BiLSTM +CRF F1 score Hình 4.3 Biểu đồ so sánh kết mơ hình đề xuất Với kết huấn luyện mơ hình mơ tả qua biểu đồ thấy sử dụng PhoBert tốt BERT Về việc kết hợp với phương pháp học sâu cho thấy PhoBert + BiLSTM tốt PhoBert + LSTM Tuy nhiên, kết hợp với CRF, PhoBert + BiLSTM + CRF mơ hình tốt với 0,952 điểm F1 Kết tương tự Bảng 4.7 chúng tơi phân tích kết thẻ IOB Vì PhoBert đào tạo liệu lớn Tiếng Việt, PhoBert kết hợp với phương pháp học sâu mang lại kết tốt Từ kết Bảng 4.7 Hình 4.2, chúng tơi có mơ hình tốt kết hợp PhoBert + BiLSTM + CRF Qua năm lần thực nghiệm năm mơ hình, tạm đánh giá rằng: Bert đánh giá cao mơ hình học máy có hiệu suất cho toán gán nhãn liệu, nhiên pretrain model xây dựng cho nhiều ngơn ngữ Do ngơn ngữ Tiếng Việt, PhoBert thật đem lại kết tương đối tốt Việc kết hợp thêm mạng nơ ron để tận dụng features rút trích độ chênh lệch performence khơng cao nhìn chung tương đối khả quan 74 Đối với giai đoạn dự đốn nhãn, q trình trải qua bước sau: • Bước 1: Câu liệu đầu vào nguyên dạng văn bản, nên phải tiến hành xử lý tokenize từ (trong đề tài luận văn sử dụng tokenize PhoBert) • Bước 2: Thực rút trích features tương tự q trình huấn luyện Sau nhúng từ (dựa pretrain model) Kết thúc q trình thu véc tơ đại diện từ • Bước 3: Sử dụng model lưu từ trình huấn luyện tiến hành dự đoán nhãn thực thể, xuất kết Để trực quan hố q trình dự đoán nhãn, luận văn xây dựng ứng dụng web app chạy localhost trình bày 4.3 Xây dựng ứng dụng 4.3.1 Thiết kế Ứng dụng thiết kế trang HTML gồm: • • • • Một textbox để nhâp đoạn văn cần rút trích NE Một combobox để chọn loại NE cần rút trích Một button Submit để tiến hành rút trích Một khung kết Kiến trúc mơ tả hình: 75 Hình 4.4 Ứng dụng rút trích thực thể định danh File api.py chứa mã thực thi trình thơng dịch Python để chạy ứng dụng web Flask Tiến trình thực hiện: Đầu tiên app khởi tạo Flask instance với đối số name Flask biết tìm thấy thư mục chứa file HTML, Sau đó, sử dụng route decorator (@ app.route ('/')) để định URL kích hoạt việc thực thi hàm index.html Áp dụng model lưu (ở dạng file vner_model.bin) cho văn thô mà người dùng nhập trích xuất thực thể có tên xác định trước (ORG, LOC, PER & MISC) Tiếp theo, app sử dụng phương thức POST để vận chuyển liệu đến server Cuối cùng, cách đặt đối số debug = True bên phương thức app.run, chúng tơi kích hoạt thêm trình gỡ lỗi Flask 76 4.3.2 Ứng dụng Rút trích thực thể định danh Luận văn xây dựng web app dự đoán NER dựa Flask built localhost sau: Đoạn văn nhập vào khung Your text, đoạn văn lấy xuống tiến hành tokenize rút trích đặt trưng trên, sau sử dụng model lưu tiến hành rút trích NER Hình 4.5 Mơ tả app rút trích NER (Nhập text) Loại NER chọn từ khung Select Text submit cụm từ NER tương tứng khung Result Hình 4.6 Mơ tả app rút trích NER (Kết quả) 77 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chương tổng kết kết đạt từ trình nghiên cứu đề tài đề xuất số hướng phát triển tương lai 5.1 Kết luận Luận văn xây dựng toán nhận dạng tên riêng tiếng Việt (Vietnamese Named Entity Recognition) dựa mơ hình transformer huấn luyện trước (Bert and PhoBert) Luận văn đề xuất mơ hình lai kết hợp PhoBert số mơ hình học sâu như: Long Shorted Term Memory (LSTM), Bidirectional Long Shorted Term Memory (BiLSTM) Conditional Random Fields (CRF) Dựa kết lần thực nghiệm mô hình đề xuất để phân tích hiệu mơ hình Luận văn tiến hành thực nghiệm liệu VLSP 2016 đánh giá độ đo F1 score IoB tag Bên cạnh luận văn có số mặt hạn chế như: chưa so sánh thời gian huấn luyện mơ hình, chưa đủ thời gian để quán việc sử dụng đặc trưng ngôn ngữ mơ hình để có đánh giá so sánh hiệu suất mơ hình với cách chuẩn xác khách quan 5.2 Hướng phát triển Trong tương lai, luận văn hướng tới việc áp dụng mơ hình số tập dataset khác nhằm mở rộng thêm label cho tốn NER, rút trích đặc trưng tay sử dụng từ điển mang lại hiệu tốt nhiều thời gian đặc trưng rút trích chưa thật đầy đủ 78 nên việc nghiên cứu áp dụng số mạng học sâu vào công đoạn rút trích đặc trưng mở hướng nghiên cứu cho luận văn với hy vọng mang lại kết khả quan Bên cạnh cấu trúc ngữ pháp ngôn ngữ tiếng Việt vô phức tạp nên việc xử lý liệu đầu vào gặp nhiều khó khăn dẫn tới q trình dự đốn nhãn phát sinh lỗi câu đầu vào khơng chuẩn đó, tìm giải pháp cho vấn đề việc cần thiết cho luận văn tương lai 79 CƠNG TRÌNH CƠNG BỐ Bui Thanh Hung, Tran Quang Huy (2021) Named Entity Recognition based on Combining Pre-trained Transformer Model and Deep Learning The 3rd International Conference on Sustainable and Innovative Solutions for Current Challenges in Engineering & Technology (ICSISCET 2021) (11.2021) 80 TÀI LIỆU THAM KHẢO [1] Ms Maithilee L Patawar, Mrs M A Potey Approaches to Named Entity Recognition: A Survey, International Journal of Innovative Research in Computer and Communication Engineering, Vol 3, Issue 12, December 2015 [2] Christopher Olah, Understanding LSTM Networks, C’olah Blog, 2015 [3] Rayner Alfred, Leow Chin Leong, Chin Kim On, and Patricia Anthony, Malay Named Entity Recognition Based on Rule-Based Approach, International Journal of Machine Learning and Computing, Vol 4, No 3, June 2014 [4] Michael Andersch, Learn More about Deep Learning with GPUs, [https://devblogs.nvidia.com/inference-next-step-gpu-accelerated-deeplearning/] [5] Franỗois Chollet, Deep Learning with Python, Manning Publications Co, 2018 [6] Jing Li, Aixin Sun, Jianglei Han, and Chenliang Li, A Survey on Deep Learning for Named Entity Recognition, 18 Mar 2020 [7] The Anh Le and Mikhail S Burtsev, A Deep Neural Network Model for the Task of Named Entity Recognition, International Journal of Machine Learning and Computing, February 2019 [8] Ngoc C Lê, Ngoc-Yen Nguyen, On the Vietnamese Name Entity Recognition: A Deep Learning Method Approach, International Conference on Computing and Communication Technologies (RIVF), Nov 2019 [9] Yu Wang, Yining Sun, Application of Pre-training Models in Named Entity Recognition, eprint arXiv:2002.08902, Feb 2020 81 [10] The Viet Bui, Thi Oanh Tran, Improving Sequence Tagging for Vietnamesen Text using Transformer-based Neural Models, Conference PACLIC 2020, Jun 2020 [11] Dat Quoc Nguyen and Anh Tuan Nguyen 2020 PhoBERT: Pre-trained language models for Vietnamese In Findings of EMNLP 2020, pages 1037– 1042 [12] Phạm Nguyên Khang, Trần Nguyễn Minh Thơ, Sự Ảnh Hưởng Của Phương Pháp Tách Từ Trong Bài Toán Phân Lớp Văn Bản Tiếng Việt, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX ―Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9), 4-5/8/2016 [13] Nguyễn Lê Minh, Cao Hoàng Trụ, Phân cụm từ Tiếng Việt phương pháp học máy cấu trúc, đề tài Nhà nước “Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt” mã số KC01 [14] Xin Rong, word2vec Parameter Learning Explained, November 2014 [15] Facundo Bre, Nadia Denise Roman, An efficient metamodel-based method to carry out multi-objective building performance optimizations, Energy and Buildings · January 2020 [16] Denny Britz, Recurrent Neural Networks Tutorial, Part – Introduction to RNNs, WILDML_Artificial Intelligence, Deep Learning, and NLP, 2015 [17] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A N., … Polosukhin, I Attention is all you need Advances in neural information processing systems (2017) [18] Linh The Nguyen, Dat Quoc Nguyen, PhoNLP: A joint multi-task learning model for Vietnamese part-of-speech tagging, named entity recognition and dependency parsing, Association for Computational Linguistics 11-2021 82 [19] Asif Ekbal, Rejwanul Haque, Named Entity Recognition in Bengali: A Conditional Random Field Approach [20] Zhiheng Huang, Wei Xu, Kai Yu, "Bidirectional LSTM-CRF models for sequence tagging " arXiv preprint arXiv:1508.01991, 2015 [21] Huyen Nguyen, Quyen Ngo, Luong Vu, Vu Tran, and Hien Nguyen 2019 VLSP Shared Task: Named Entity Recognition Journal of Computer Science and Cybernetics, 34(4):283–294 [22] Huyen T M Nguyen, Hung V Nguyen, Quyen T Ngo, Luong X Vu, Vu Mai Tran, Bach X Ngo, Cuong A Le, VLSP Shared Task: Sentiment Analysis, Journal of Computer Science and Cybernetics, Vol 34, No 4, pp 283-294, 2018

Ngày đăng: 31/08/2023, 16:00

Tài liệu cùng người dùng

Tài liệu liên quan