1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng thực thể có tên trong văn bản tiếng anh với mô hình học sâu

20 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỀN TÁT THÀNH PHẠM DUY THANH NHẬN DẠNG THựC THẺ CÓ TÊN TRONG VĂN BẢN TĨỂNG ANH VỚI MÔ HÌNH HỌC SÂU LUẬN VÃN THẠC sĩ CÔNG NGHỆ THÔNG TIN TP HỒ CHÍ MINH, NĂM 202[.]

Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỀN TÁT THÀNH PHẠM DUY THANH NHẬN DẠNG THựC THẺ CÓ TÊN TRONG VĂN BẢN TĨỂNG ANH VỚI MƠ HÌNH HỌC SÂU LUẬN VÃN THẠC sĩ CÔNG NGHỆ THÔNG TIN TP.HỒ CHÍ MINH, NĂM 2023 Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỀN TÁT THÀNH PHẠM DUY THANH NHẬN DẠNG THựC THẺ CÓ TÊN TRONG VĂN BẢN TĨỂNG ANH VỚI MƠ HÌNH HỌC SÂU LUẬN VÃN THẠC sĩ CƠNG NGHỆ THÔNG TIN MÃ SỐ: 8480201 NGƯỜI HƯỚNG DẲN KHOA HỌC PGS.TS NGUYỀN TUẤN ĐÃNG TP.HƠ CHÍ MINH, NĂM 2023 CHƯƠNG 1: GIỚI THIỆU TỒNG QUAN VỀ ĐÈ TÀI 1.1 Lý chọn đề tài Ngày nay, với phát triên bùng nơ cùa Cơng nghệ thơng tin nói chung, ứng dụng mạng xã hội nói riêng Facebook, Instagram hệ thống Chatpot (hỏi đáp) mang lại khối lượng thông tin khổng lồ Một đặc điểm cụ thể cùa loại văn bán thường loại văn bàn phi cấu trúc, câu hr thường sừ dụng văn bàn nói quan trọng bao gồm nhiều miền liệu không liên quan đến Nhận dạng thực thể có tên (NER) đời giãi pháp, cầu nối quan trọng việc kết nối liệu cỏ cấu trúc với liệu phi cấu trúc Chính thực trạng gây khơng khó khăn, thách thức cho tốn nhận dạng thực thể có tên văn bàn Với giúp đỡ cùa kiến trúc mạng nơron nhân tạo khác nhau, hệ thống NER ngày đạt hiệu suất hứa hẹn cho số tác vụ với mội số loại thực thể hạn chế Bên cạnh số kỳ thuật nhúng (embedding) mạng nơron dài ngắn (LSTM) - mạng nơ ron hồi quy (RNN) Tuy nhiên, thời gian đào tạo cùa mơ lâu Một mặt, hầu hết ngôn ngữ miền giá trị, chi có lượng nhó liệu huấn luyện giám sát, ràng buộc Mặt khác, có ràng buộc ngữ nghĩa loại từ định danh, việc khái quát hóa từ mẫu liệu nhó khơng thống khó Do đó, cấu trúc câu cần đặc tả dề hiểu để trờ thành nguồn tri thức ngôn ngừ riêng, chẳng hạn thư viện (dataset) chuyên gia nghiên cứu, sứ dụng rộng rãi để giãi cơng việc Có thể thấy để đánh giá hệ thống NER tăng hiệu suất cùa hệ thống, giâm lượng tác vụ thích, mờ rộng quy mơ miền giá trị, thực thể cịn phái tạo mơ hình đối phó với ngữ cảnh phức tạp Ý thức tầm quan trọng thách thức việc triển kliai hệ thống nhận dạng thực thể có tên văn bàn nên chọn đề tài “Nhận dạng thực thể có tên văn tiếng Anh vói mơ hình học sâu” với mong muốn cãi thiện số hiệu cùa thực trạng hệ thống NER đại 1.1 Mục tiêu nghiên cứu ứng dụng mơ liìnli học sâu để giải hiệu q tốn nhận dạng thực thể có tên văn bàn tiếng Anh 1.2 Đối tượng phạm vi nghiên cứu - Đối tượng nghiên cứu • Các mơ hình học sâu nhận dạng tên thực thể tiếng Anh: • Bộ liệu từ chuyên gia (datasets) - Phạm vi nghiên cứu Luận văn tập trung nghiên cứu ứng dụng cùa xứ lý ngôn ngừ tự nhiên nhtr tách văn bản, nhúng từ, nhận dạng thực thể có tên văn bán triển khai ứng dụng hệ thống nhận dạng thực thể có tên văn bân tiếng Anh 1.3 Phưong pháp nghiên cứu - Tìm hiểu, phân tích tổng hợp tài liệu có liên quan đến đề tài hr nguồn như: Internet, báo công bố, sách, giáo trình ngồi nước - Tổng hợp phát triển kết quà báo cùa tác già nghiên cứu thành cơng trước - Tìm hiểu tập liệu từ chuyên gia - Phân tích chương trình mẫu, nguồn mờ liên quan đến đề tài làm sờ thực lại cho phù họp với nhu cầu cũa đề tài 1.4 Ý nghĩa thực tiền đề tài - Trình bày khái niệm, cách tiếp cận, tinh chinh mơ hình học sâu cụ thể mơ hình BERT - ứng dụng mơ hình học sâu để giải hiệu tốn nhận dạng thực thể có tên văn tiếng Anh - Nghiên cứu tiến quy trình triển khai hệ thống NER với mơ hình học sâu CHƯƠNG 2: CÁC VẤN ĐỀ TỒNG QUAN 2.1 Giới thiệu Học sâu (Deep learning) 2.1.1 Mối quan hệ AI, Machine learning Deep learning 2.2 Named Entity Recognitrion (NER) 2.2.1 Lịch sử phát triển NER 2.2.2 Tổng quan tình hình nghiên cứu 2.2.3 Khái niệm NER 2.2.4 Cách hoạt động NER 2.2.5 Các bước tiếp cận NER 2.2.5.1 Hướng tiếp cận Rule-based (dựa quy tắc) 2.2.5.2 Hướng tiếp cận Statistical learning (học có thống kê) 2.3 Xử lý ngơn ngữ tự nhiên 2.3.1 Giói thiệu chung 2.3.2 Một số thư viện học sâu (học máy ứng dụng) 2.3.2.1 Pandas 2.3.2.2 Nurnpy 2.3.2.3 NLTK (Natural Language Toolkit) 2.3.2.4 Pytorch 2.4 Đáuh giá mơ hình máy học, học sâu 2.4.1 Dưới khớp khớp 2.4.2 Các thông số đánh giá 2.4.2.1 Độ xác (accuracy) 2.4.2.2 Ma trận Confusion 2.4.2.3 Thông sổ recall precision 2.4.2.4 Điểm F1 2.5 Học chuyển giao (Transfer learning) 2.5.1 Giới thiệu Transfer learning 2.5.2 Định nghĩa học chuyển giao 2.5.3 Lợi thách thức học chuyển giao 2.5.4 ứng dụng học chuyển giao CHƯƠNG 3: MƠ HÌNH BERT (BIDIRECTIONAL ENCODER REPRESENTATIONS FROM TRANSFORMER) 3.1 Một số khái niệm mơ hình BERT 3.1.1 Co’ chế Attention 1.1.1 Giới thiệu Attention ỉ.1.2 Muỉti-heađ Attention 3.1.2 Mơ hình Transformer 3.1.2.1 Kiến trúc mơ hình 3.1.2.2 Bộ mà hóa 3.1.2.3 Bộ Giãi mà 3.1.3 BERT 3.1.3 ỉ Kiến trúc BERT 3.1.3.2 Biếu diễn dừ liệu đầu vào 3.1.3.3 Tiền huấn luyện mơ hình CHƯƠNG 4: TINH CHỈNH MƠ HÌNH BERT ĐẺ NHẬN DẠNG THựC THẺ CÓ TÊN TRONG VÃN BẢN TIẾNG ANH 4.1 Mơ tả tốn tập liệu 4.1.1 Mơ tả tốn Ttnh chinh mơ hinh Hiệu wổt mơ hình Hình 16: mơ tà tốn 4.1.2 Tổng quan mơ hình 4.1.3 Mơ tả tập liệu Mơ hình sữ dụng tập liệu WikiANN [10] (đối klú gọi PANX) liệu nhận dạng thực thể đa ngôn ngữ bao gồm viết Wikipedia thích thè LOC (vị trí), PER (người) ORG (tổ chức) tập dừ liệu hỗ trợ 176 282 ngôn ngừ từ kho dừ liệu WikiANN gốc Ờ luận văn này, sữ dụng ngôn ngữ tiếng Anh Tập liệu bao gồm tập nhó: train (20000 mẫu), validation (10000 mẫu), test (10000 mẫu) Bộ liệu xây dựng nhãn sau: STT Nhãn Ghi PER Người LOC Địa điểm ORG Tô chức Không phải thực thê Trong tập liệu mầu đirợc phân thành dòng mẫu phân tách thành bốn cột (4 khóa) ‘token 'nertags 'ỉangs 'spans ’ nlnr sau: Bàng 1: Bàng mô tà liệu Tokens "formerly", "He", [ "played", "for", "Almere", Langs Nertags "en", "en", "en", Spans [ "ORG: [ 0, 0, 0, 0, 3, [ 4, 0,3, 4,0] "en", "en", "en", "en", Ahnere City", "en", "en", "en" ] "ORG: "City", "and", "Chiangrai", "United",] Chiangrai United" ] • Cột Tokens: Danh sách mà từ câu • Cột Ner_tags: Danh sách nhãn phân loại, với giá trị bao gồm o (0), B-PER(1), I-PER(2), B-ORG(3), I-ORG(4), B-LOC(5), I-LOC(6) • Cột Langs: Một danh sách tính chuỗi tương ứng với ngơn ngĩr cùa Token • Cột Spans: Một danh sách thực thề đặt tên văn bàn đầu vào định dạng : Nền tàng: Sứ dụng Google Colab để xây dựng mơ hình thực nghiệm Sau thực mô tá dừ liệu trên, dùng liệu áp dụng thứ cho mơ hình BERT mục 4.1.1 4.1.4 Xây dựng mơ hình thử nghiệm BERT BERT mơ hình đào tạo trước nhir trình bày Clnrơng Nên đây, thực huấn luyện BERT cho toán nhận dạng tên thực thể liệu trợ giúp cùa thư viện Huggingface Python Mơ hình giữ ngun lóp trừ lớp cuối cùa BERT, thay vào mạng lan truyền thẳng với số unit với số head attention cùa mơ hình BERT Mơ hình tinh chinh từ mộ hình BERT phục vụ cho toán nhận dạng tên thực thể (Named Entity Regcognization) Đầu tiên với việc tinh chinh mơ hình (fine tuning) Chúng ta thực bước sau: Huấn luyện Tokenizer tập liệu import tập dĩr liệu wikiann hr HuggingFace cần xác định số thông số sau: độ dài trình ựr tối đa (max_length = 512), kích thước tìr vựng mặc định (vocab_size = 30522), đệm số chuỗi để độ dài thành tối đa để chuồi nhau, không bàng thi tiến hành cắt bớt chuỗi có độ dài lớn max_length đề chuỗi có kích tlnrớc Chèn mà thơng báo, [UNK] thơng báo khơng có từ vựng, [SEP] phân tách hai câu khác đầu vào, [PAD] điền vào câu không đạt đến độ dài tối đa (vi màng mã thông báo phái có kích thước), [CLS] Đại điện đầu vào, [MASK] sứ dụng đào tạo trước mơ hình hóa ngôn ngữ mặt nạ (MLM) Sau đào tạo tokenizer xong, tiến hành mã hóa tập liệu Vì BERT yêu cầu đầu vào phái địnli dạng cụ thể Đối với chuỗi đầu vào mã hóa cần tạo input_ids (một chuỗi số nguyên xác định token đầu vào với chi mục cùa liệu cùa BERT), attention_mask (một chuỗi 0, với cho tất cà token đầu vào cho tất cà token đệm, labels (ờ có giá trị từ đến 4) Dữ liệu thô BERT Tokenứer ị TộO input T*o input type ids Token_type_id$ Attentionmask BERT Layer Import pytorch model Classification Hinh 1: Nhiệm vụ phân loại DatasetDlct({ validation: Dataset({ features: ['input_ids', 'attention_mask', ’labels’], num_rows: 10000 )) test: Dataset({ features: ĩ'input_ids', ’attention_mask’, ’labels'], numrows: 10000 }) B train: Dataset({ features: ['input_ids’, ‘attention_mask’, ’labels’], num_rows: 2000Ỡ }) }) Hình 2: Bộ dừ liệu sau kill đưa đầu vào cùa BERT Sau mà hóa xong Bộ dừ liệu định dạng lại hình bao gồm vector mã hóa sau embedding {' att®rvtlon_iwsk * : [[1, 1, 1, 1, 1, 1, 1« 1, 1, 1, 1, 1, 1, 1, 1, 1}, [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], ’input_ids*: [[101, 1054, 1012, 1044, 1012, 15247, 1006, 2358, 1012, 5623, 2314, 1007, 1006, 5986, 2620, 12464, 1007, 102 ], [101, 1025, 1005, 1005, 1005, 15387, 11409, 5104, 13887, 1005, 1005, 1005, 102]], •labels’: [[-100, 3, 3, 3, 3, a, 0, 3, 3, a, a, 0, 0, e, e, a, a, -100], t-iee, e, 0, a a 1, 2, 0, a -100]]} Hình 3: Một mẫu liệu tập “Train” sau klii mà hóa Sau chuẩn bị xong dừ liệu đầu vào, tiến hành thiết lập đối số hàm huấn luyện Ví dụ số vòng lặp (batch_size), số chu kỳ huấn luyện (epoch), huấn luyện theo step hay epoch (evaluation_stragtegy) Quá trình tinh chinh: lớp BERT huấn luyện sẵn mã hóa nhiều thơng tin ngơn ngừ, việc huấn luyện khơng tốn q nhiều tài ngun Thay huấn luyện lóp mơ hình lớn tìr đầu chi tập trung huấn luyện lớp để phù họp với mơ hình cùa Pre-training Fine-Tuning Hình :Q trinli tính chinh BERT [16] Trọng số cùa tồn mơ hình cập nliật sau epoch Mơ hình huấn luyện với số lần lặp (batch_size) 16 với chu kỳ huấn luyện ià epoch Sau mô hình đào tạo tập ‘train tính tốn số liệu (precision, recall, Fl score, accuracy) từ tập ‘test’ Kết mơ hình thu được: Bàng 2: Bàng kết q cùa mơ hình BBU trình huấn luyện Tên trường Number Precision Recall Flscore LOC 8746 0.8616 0.8913 0.8762 ORG 7090 0.7630 0.7497 0.7563 PER 6251 0.8833 0.8987 0.8909 0.8370 0.8480 0.8425 Overall Với accuracy: 0.9268 Có thể thấy kết q cùa mơ hình tốt, nhiên thời gian huấn luyện mơ hình tương đối lâu với GPU Tesla 16GB trung binh khống phút mồi vịng lặp 4.1.5 Một số mơ hình BERT *Distill Bert Uncased (DBU) Là mơ hình nhó hơn, nlnmg đánh giá nhanh BERT DBU giữ lại khoảng 97% hiệu dự đoán chi sừ dụng nứa tham số DBU sữ dụng kỳ thuật distillation, giúp BBU liệu huấn luyện trước cùa DBU Nếu muốn tốc độ dự đốn nhanh DBU lựa chọn Nhưng muốn tập trung vào hiệu q cùa mơ hình Thì nên chọn số mơ hình khác cùa BERT Với kết q nói trên, sau tiến hành huấn luyện lại model với cài đặt tương tự vòng lặp (epoch) thiết bị GPU Tesla 16GB sữ dụng mơ hình DISTILBERT BASE UNCASED [9] Sau train dừ liệu ta thu kết quà sau: Bàng 3: Bàng kết cũa mơ hình DBU q tình huấn luyện Tên trường Number Precision Recall Flscore LOC 8746 0.8557 0.8824 0.8688 ORG 7090 0.7364 0.7434 0.7399 PER 6251 0.8729 0.8928 0.8827 0.8228 0.84076 0.8316 Overall Với accuracy: 0.9229 Với mơ hình DBU ta thấy Fl_Score (hiệu q) thấp so với mơ hình BBU Tuy nhiên, thời gian huấn luyện giám xuống khoảng 16 phút, kết tương đồng Mặc dù vậy, mơ hình BBU có loss nhị so với DBU hình 4.2 Trainning Loss DBU 'BBU Hình 5: Trainning loss cùa DistilBert Based Uncased Bert Base Uncased *MÔ hình RoBERTa (Robustly Optimized BERT) Mơ hình giới thiệu bời Facebook AI [20], phiên bán huấn luyện lại cùa BERT với phương pháp huấn luyện tốt với dừ liệu tăng gấp mười lần RoBERTa sữ dụng Batch size lớn trình đào tạo (từ 256 đến 8000 Batch size) Có nhiều training data bao gồm 160GB văn bàn để huấn luyện Trong đó: • 16GB data cùa Wikipedia tiếng Anh sứ dụng để huấn luyện BERT; • 63 triệu bàn tin (76GB CommonCrawl News dataset (C-NEWS)); • Ngữ điệu văn Web OpenWebText(38Gb); • 31 GbBCommon Crawl Stories; Thời gian huấn luyện với GPU cùa Tesla 1024 V100 khống ngày mơ hình Để tăng cường q trình huấn luyện RoBERTa khơng sứ dụng chế dự đoán câu (NSP) từ BERT mà sừ dụng kỳ thuật Dynamic masking (mặt nạ động) Mơ hình BERT thu static mask (mặt nạ tĩnh) trình tiền xừ lý liệu Trong klii thi RoBERTa sứ dụng dynamic mask, sequence đưa vào mơ hình thi mầu mặt nạ tạo Bang cách này, trình nhập liên tục lượng lớn liệu, mơ hình sê dần thích ímg với chiến lượng masking khác nhau, học nhiều cách biểu diễn ngơn ngữ khác Static mask hồn thành trình tiền xứ lý dừ liệu Để tránh tình trạng mask giống cho trường họp huấn luyện gặp phái chu trình (epoch), dĩr liệu huấn luyện chép imrời bán che mười phương thức mask khác Tuy nhiên, phương thírc mask cũa câu, mơ hình sè gặp lại số lần liên tục trinh đào tạo [20] Dynamic mask tạo cho chuỗi chuỗi đưa vào mơ hình Vì mơ hình pre-training đirợc nhiều bước hơn, nhiều tập dừ liệu lớn hơn.[20] Masking SQu AI) 2.0 MNLI-m SST-2 reference 76.3 84.3 92.8 84.3 84.0 92.5 929 Our reimplemenlation: static 78.3 dynamic 78.7 Hình 6: Bàng so sánh Dynamic masking Static masking [20] BERT sir dụng hr vựng BPE (byte-Pair Encoding) [21] cấp độ ký tự với kích thước ba mươi nghìn đào tạo sau xứ lý tnrớc đầu vào bang quy tắc mã hóa (tokeniation rule) Đối với RoBERTa khơng áp dụng quy tắc lại sứ dụng BPE với cấp byte lớn đề đào tạo BERT Bộ cấp độ ký tự mã hóa có kích tlnrớc lên đến năm mươi nghìn đơn vị subword mà không cần xứ lý trước mã hóa đầu vào *XLM-RoBERTa Là mơ hình đa ngữ sứ dụng rộng rãi huấn luyện dừ liệu CommonCrawl Kiến trúc mơ hình dựa mơ hình RoBERTa 0Q 1O3 '°2 ì '°1 I 10" e 6« a.4 2«8 lllllllllllllllllllllll I un, a a* J * II as X ■ CommonCrawl n ỉ!3 C-S- »g ga iỉ j-a § 15-Ê.a as\3 y J Ií I Wikipedia Hình 7: Lượng liệu sứ dụng cho mơ hình XML-RoBERTa Báng 4: Khác biệt BERT, XLM-RoBERTa Tác vụ BERT XLM-RoBERTa Masking static dynamic NSP Có sứ dụng Khơng sứ dụng English Wiki Wiki +BookCorpus + +BookCorpus CommonCrawl 256 8000 1.000.000 300.000 Vocabilary size 30.000 25.000 Tokenization Wordpiece Sentencepiece Dataset Batch size Số bước huấn luyện (step) Đối với mơ hình XLM-RoBERTa theo theo nghiên cứu cùa Jowita Podak Phiìine Zeinert (2020) [22] Chúng ta thấy mơ hình sữ dụng huấn luyện với dìr liệu ngôn ngĩr lớn task ngôn ngữ nhiều (hơn 100 ngôn ngữ) nên hiệu quà với loại ngơn ngữ cịn tùy thuộc nhiều đến khối lượng liệu mà ngơn ngữ có thư viện huấn luyện Cụ thể bàng cho thấy Ngôn ngữ tiếng Anh với dĩr liệu lớn nên hiệu q cùa việc huấn luyện mơ hình khơng cao mơ hình XLM-RoBERTa dataset Wikiann llllllllllllllllllllllllililih Hình 8: Hiệu huấn luyện cùa mơ hình XLM-RoBERT mBERT dataset Wikiann [22] Fl-score = 77,9% ngôn ngữ tiếng Anh thấp dừ liệu huấn luyện cho tiếng Anh chiếm nhiều mà đầu vào huấn luyện cụ thể tất cà ngơn ngữ Tuy nhiên trung bình hiệu q cùa mơ hình cao 87% Theo nghiên cứu khác cùa Julien Sclìeỉb (2023) thực đầu vào huấn luyện liệu với 21 ngôn ngừ Sau đó, tính hiệu q mơ hình dựa dừ liệu tiếng Anh thu hiệu q mơ hình ấn tượng, thơng tin bàng sau: Báng 5: Kết q cùa mơ hình XLM-RoBERTa q trình huấn luyện dataset Wikiann Tên trường Number Precision Recall Flscore LOC 184430 0.8941 0.9048 0.8994 ORG 129760 0.8283 0.8298 0.8291 PER 130471 0.9043 0.9188 0.9115 0.8870 0.8781 0.8830 Overall Với accuracy: 0.9398 4.2 Tổng kết Qua mơ hình: mơ hình BERT BASE UNCASED DISTILBERT BASE UNCASED, XML-RoBERTa dir liệu Wikiann, rút kết luận rằng: Đối với rirng nhiệm vụ tập liệu đặc thù mà có chiến lược lựa chọn mơ hình huấn luyện cho phù họp Đối với mơ hình XML-RoBERTa với liệu huấn luyện lớn, thực mà hóa theo câu đưa vào mơ hình nên thường sứ dụng để huấn luyện nhiệm vụ phức tạp (thực nhiều liệu lúc) Đối với mơ hình DistillBERT Base Uncased thường sữ dụng để huấn luyện nhanh nhiệm vụ cụ thể Tuy huấn luyện nhanh, mơ hình rút hiệu q tốt gần tương tự mơ hình BERT Việc học chuyển giao dùng để tiền huấn luyện cho mơ hình Nó giúp mơ hình kế thừa đặc thù liệu cùa mơ hình chuyển giao Qua thấy tầm quan trọng việc học chuyển giao tổ chức mơ hình học sâu Tuy rằng, việc học chuyển giao mơ hình đại BERT địi hói thời gian huấn luyện lâu nhung với kết mang lại thay thời gian cải thiện mơ hình, chuẩn bị liệu thi đáng giá Đến đây, kết luận nhiệm vụ cụ thể khác khơng phải lúc sứ dụng mơ hình đại mà tùy theo mục đích cùa nhiệm vụ ta lựa chọn mơ hình cho phù họp CHƯƠNG 5: KÉT LUẬN VÀ KHUYẾN NGHỊ Trong phạm vi luận văn này, số khó khăn việc thực huấn luyện mơ hình (dung lượng GPU, khã đọc chạy thĩr nghiệm ngôn ngữ Python ) Tơi đà trình bày cụ thể mơ hình BERT sơ lược số mơ hình phát triển hr mơ hình BERT Trong đó, luận văn trình bày sứ dụng mơ hình BERT bàn để thực tinh chinh toán nhận dạng thực thể có tên văn bán tiếng Anh Việc sứ dụng mơ hình học sâu tiên tiến, cách pre-train mơ hình BERT cho phép máy tính giái tốn xứ lý ngơn ngĩr tự nhiên mà không yêu cầu cần sữ dụng nhiều kiến thức ngơn ngĩr lập trình KÉT LUẬN • Luận văn giới thiệu, tống họp số khái niệm machine learning, deep learning, học chuyển giao • Giới thiệu khái niệm mơ hình BERT, quy trình tinh chinh mơ hình qua írng dụng mơ hình tinh chinh để nâng cao độ xác, hiệu suất cũa mơ hình tiết kiệm thời gian đào tạo • Tìm hiểu sơ hrợc số mơ hình BERT khác, chưa sâu cụ thể KHUYẾN NGHỊ • Cài thiện độ xác cùa mơ hình ứng dụng vào nhiều lình vực khác nhau, ví dụ: Nhận dạng thực thể có tên văn bân số ngơn ngĩr khác • Xây dựng mơ hình lớn nhằm mục đích nhận dạng thực thể có tên văn bán tiếng Anh chuyên ngành ĐỊNH HUỚNG phát triền • Mờ rộng liệu huấn luyện theo lĩnh vực khác • Mờ rộng hướng nghiên cứu kết hợp với mơ hình mạng khác để tăng độ xác cũa mơ hình huấn luyện nhằm hồn thiện mơ hình thực nghiệm • Tiến hành so sánh mơ hình huấn luyện đà đạt với số mơ hình huấn luyện khác để có nhìn cụ thể tốn nhận dạng thực thể có tên văn bàn tiếng Anh • Nghiên círu thêm số mơ hình xung quanh mơ hình BERT bân đế phát triển hệ thống nhận dạng tên thực thể

Ngày đăng: 16/05/2023, 17:50

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w