1. Trang chủ
  2. » Luận Văn - Báo Cáo

Trích xuất thông tin thực thể và quan hệ trong văn bản tiếng việt bằng mô hình đồ thị động

73 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA - PHẠM LƯƠNG HÀO TRÍCH XUẤT THƠNG TIN THỰC THỂ VÀ QUAN HỆ TRONG VĂN BẢN TIẾNG VIỆT BẰNG MƠ HÌNH ĐỒ THỊ ĐỘNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 8.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2023 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG – HCM Cán hướng dẫn khoa học: PGS.TS Quản Thành Thơ Cán chấm nhận xét 1: TS Lê Thanh Vân Cán chấm nhận xét 2: PGS.TS Đỗ Văn Nhơn Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 10 tháng năm 2023 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch: PGS.TS Phạm Trần Vũ Thư ký: TS Nguyễn Lê Duy Lai Phản biện 1: TS Lê Thanh Vân Phản biện 2: PGS.TS Đỗ Văn Nhơn Ủy viên: TS Mai Hoàng Bảo Ân Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG PGS.TS Phạm Trần Vũ TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự - Hạnh phúc —————————— ————————— NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Phạm Lương Hào Ngày, tháng, năm sinh: 29/04/1998 Chuyên ngành: Khoa học máy tính MSHV: 2070634 Nơi sinh: Bình Định Mã số: 8480101 I TÊN ĐỀ TÀI: TRÍCH XUẤT THÔNG TIN THỰC THỂ VÀ QUAN HỆ TRONG VĂN BẢN TIẾNG VIỆT BẰNG MƠ HÌNH ĐỒ THỊ ĐỘNG (EXTRACTING ENTITY AND RELATION INFORMATION IN VIETNAMESE DOCUMENTS USING DYNAMIC GRAPH MODEL) II NHIỆM VỤ VÀ NỘI DUNG: - Rút trích thơng tin thực thể quan hệ văn tiếng Việt ứng dụng kĩ thuật học sâu, xử lý ngôn ngữ tự nhiên sử dụng mơ hình đồ thị động - Đề xuất thực phương pháp tiếp cận để giải toán - Thực nghiệm đánh giá phương pháp đề xuất III NGÀY GIAO NHIỆM VỤ: 06/02/2023 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 09/06/2023 V CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ Tp HCM, ngày 09 tháng 06 năm 2023 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) HỘI ĐỒNG NGÀNH (Họ tên chữ ký) PGS.TS Quản Thành Thơ TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH (Họ tên chữ ký) i LỜI CẢM ƠN Sau thời gian tiến hành triển khai nghiên cứu, em hoàn thành nội dung luận văn Luận văn hoàn thành không công sức thân tác giả mà cịn có giúp đỡ, hỗ trợ tích cực nhiều cá nhân tập thể Trước hết, em xin gửi lời cảm ơn chân thành sâu sắc đến PGS.TS Quản Thành Thơ, thầy người hướng dẫn trực tiếp trình thực luận văn, ý kiến đóng góp thầy giúp em hình thành hồn thiện nhiều ý tưởng Hơn hết thầy người truyền cảm hứng cho em nhiều niềm đam mê với học máy, học sâu, xử lí ngơn ngữ tự nhiên Em xin gửi lời cảm ơn đến toàn thể anh, chị, em đồng nghiệp công ty ZaloPay, ngân hàng số Cake by VPBank tạo điều kiện cho em trình học thực luận văn tốt nghiệp Em xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, anh, chị lớp cao học động viên, quan tâm giúp đỡ em trình học tập thực luận văn Cuối lời cảm ơn tới Thắm, người hỗ trợ nhiều giai đoạn khó nhằn luận văn Cảm ơn em đồng hành với anh suốt q trình làm đề tài ii TĨM TẮT LUẬN VĂN Rút trích thực thể quan hệ nhiệm vụ quan trọng khai thác thông tin Mọi thứ bao gồm danh từ, tên địa chỉ, mối quan hệ mối quan hệ ngữ nghĩa hai thực thể Phương pháp truyền thống thường sử dụng mơ hình "đường ống", coi công việc thành phần riêng biệt đường ống Điều dẫn đến lỗi xếp tầng từ tác vụ nhận dạng thực thể sang tác vụ trích xuất quan hệ Hơn nữa, mơ hình "đường ống" khơng thể chứng minh đóng góp nhiệm vụ trích xuất quan hệ vấn đề nhận dạng thực thể Do đó, luận văn này, tác giả tập trung vào cơng việc trích xuất quan hệ thực thể chung, mơ hình đầu cuối để trích xuất thực thể quan hệ, tác giả đề xuất ba cải tiến hiệu suất mơ hình sở: • Sử dụng thơng tin loại thực thể vào dự đoán quan hệ: tác giả sử dụng thông tin loại thực thể cho việc dự đoán loại quan hệ hai thực thể Trong tác giả dùng thêm cổng cập nhật để lọc lượng thông tin cần dùng từ loại thực thể nhằm hạn chế vấn đề lỗi xếp chồng từ lớp nhận dạng thực thể lan sang lớp nhận dạng quan hệ • Sử dụng thơng tin quan hệ vào dự đoán loại thực thể: để phần chia sẻ thơng tin từ việc rút trích quan hệ cho việc rút trích thực thể, sau rút trích quan hệ, học viên nhúng thông tin loại quan hệ vào hai thực thể cấu thành quan hệ, thực phân lớp thực thể, thực thể lúc gắn thêm nhãn thể thực thể có đóng góp vào mối quan hệ hay khơng Điều cung cấp thêm thơng tin cho mơ hình, giúp cải thiện độ xác • Tích hợp thơng tin đồng tham chiếu vào dự đốn quan hệ: tác giả tích hợp thông tin đồng tham chiếu từ câu vào véc tơ biểu diễn quan hệ Theo quan sát thực nghiệm chứng tỏ việc tích hợp thêm thơng tin đồng tham chiếu góp phần cải thiện độ xác cho việc dự đốn quan hệ iii ABSTRACT OF DISSERTATION Extracting entities and relationships is one of the most important tasks in information extraction Everything includes nouns, names, and addresses, and a relationship is the semantic connection between two entities Traditional methods often use "pipeline" models, treating these tasks as separate components in the pipeline This leads to cascading errors from the entity recognition task to the relationship extraction task Furthermore, these "pipeline" models fail to demonstrate the contribution of the relationship extraction task to the entity recognition problem Therefore, in this thesis, the author focuses on the joint extraction of entities and relationships, which is an end-to-end model for extracting entities and relationships The author proposes three improvements for the performance of the base model: • Utilizing entity type information for relationship prediction: The author incorporates entity type information to predict the relationship type between two entities A gating mechanism is used to filter the necessary information from entity types, aiming to mitigate the cascading errors from the entity recognition layer to the relationship recognition layer • Incorporating relationship information for entity prediction: To some extent, sharing information from relationship extraction to entity extraction, after extracting relationships, the model embeds the relationship type information into the entities forming the relationship and performs entity classification Each entity is labeled to indicate whether it contributes to a specific relationship or not This provides additional information to the model and improves accuracy • Integrating coreference information into relationship prediction: The author integrates coreference information of words in the sentence into the relationship representation vector Observations and experiments show that incorporating coreference information helps improve the accuracy of relationship prediction iv LỜI CAM ĐOAN Tôi xin cam đoan luận văn tốt nghiệp: "TRÍCH XUẤT THƠNG TIN THỰC THỂ VÀ QUAN HỆ TRONG VĂN BẢN TIẾNG VIỆT BẰNG MƠ HÌNH ĐỒ THỊ ĐỘNG" cơng trình nghiên cứu thân Những phần sử dụng tài liệu tham khảo luận văn nêu rõ phần tài liệu tham khảo Các số liệu, kết trình bày luận văn hồn tồn trung thực, sai tơi xin chịu hoàn toàn trách nhiệm chịu kỷ luật môn nhà trường đề Học viên Phạm Lương Hào v Mục lục Giới thiệu đề tài 1.1 Tổng quan Động lực 1.2 Mục tiêu đề tài 1.3 Giới hạn đề tài 1.4 Đối tượng nghiên cứu 1.5 Cấu trúc luận văn Các 2.1 2.2 2.3 2.4 công trình liên quan Các mơ hình Làm giàu liệu Bổ sung thông tin cho mơ hình Sử dụng mơ hình kết hợp 1 3 12 14 16 Kiến thức tảng 3.1 Tích chập rời rạc 3.2 Hàm kích hoạt 3.2.1 Hàm kích hoạt Softmax 3.2.2 Hàm kích hoạt ReLU 3.3 Giải thuật xuống đồi (Gradient Descent) 3.4 Hàm lỗi cross entropy 3.5 Mạng nơ ron nhân tạo (Artifical neuron network) 3.6 Mơ hình mạng nơ ron hồi quy (Recurrent neural network - RNN) 3.7 Mơ hình mạng nhớ ngắn - dài hạn (Long Short - Term Memory - LSTM) Bi-LSTM 3.8 Cơ chế Attention 3.8.1 Cơ chế Attention cho mơ hình seq2seq 3.8.2 Các loại chế Attention 3.9 Mơ hình Transformer 3.10 Mơ hình BERT biến thể vi 18 18 18 18 19 19 19 20 22 24 27 28 29 30 33 3.10.1 Mô hình BERT 3.10.2 Mơ hình RoBERTa 3.10.3 Mô hình PhoBERT 33 35 36 Phương pháp nghiên cứu 4.1 Tiền xử lý liệu 4.2 Mơ hình đồ thị động đa tác vụ 4.2.1 Lớp biểu diễn từ (Token representation layer) 4.2.2 Lớp lan truyền đồng tham chiếu (Coreference propagation layer) 4.2.3 Lớp lan truyền quan hệ (Relation propagation layer) 4.2.4 Lớp dự đoán cuối (Final prediction layer) 4.2.5 Huấn luyện 38 39 42 44 Kết 5.1 5.2 5.3 5.4 48 48 51 52 52 53 54 54 thực nghiệm Tập liệu Phương pháp đánh giá Hiện thực mơ hình Kết thực nghiệm 5.4.1 Vai trò lớp mã hóa từ 5.4.2 Bổ sung thêm quan hệ có hướng 5.4.3 Lan truyền đồng tham chiếu xác định quan hệ 44 45 46 46 Tổng kết 56 Tài liệu tham khảo 58 vii Danh sách hình vẽ 2.1 2.2 2.3 2.4 Kiến trúc tổng quan mơ hình DyGIE++ Hiệu suất biến thể BERT tác vụ liệu Một số ví dụ mơ tả cách đánh dấu Tổng quan mơ hình NER RE với đánh dấu 10 13 14 15 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 Mạng nơ ron sinh học mạng nơ ron nhân tạo Cấu tạo nút nơ ron Mạng nơ ron nhân tạo nhiều lớp (Multilayer perceptron) Mơ hình RNN Minh hoạ mô-đun lặp lại LSTM Kiến trúc tổng quan mơ hình Bi-LSTM Cơ chế Attention cho mơ hình seq2seq Kiến trúc Transformer Q trình tính tốn Self-Attention Kiến trúc mô hình BERT Dữ liệu đầu vào mơ hình BERT 20 21 22 23 25 26 28 31 32 34 34 4.1 4.2 Minh họa cho liệu tiếng Việt [4] Kiến trúc mơ hình đồ thị động cho tiếng Việt - VNDyGIE 41 43 5.1 5.2 Số lượng từ tập huấn luyện kiểm tra Phân bố liệu tập huấn luyện kiểm tra 50 51 viii Chương Kết thực nghiệm 5.1 Tập liệu Trong luận văn này, ta sử dụng tập liệu VLSP 2020 Vietnamese Relation Extraction [4] để huấn luyện mơ hình đánh giá tính khả thi phương pháp đề xuất văn tiếng Việt Bộ liệu kế thừa phát triển từ nhiệm vụ VLSP-2018 Named Entity Recognition for Vietnamese (VNER 2018) Các liệu sưu tầm từ báo điện tử đăng tải mạng Trong đó, có ba loại thực thể đặt tên Location (LOC), Organization (ORG) Person (PER) Dựa ba loại thực thể thích này, tác giả chọn bốn loại quan hệ có phạm vi bao phủ đủ rộng đáng quan tâm gần gũi với thực tế Lựa chọn tác giả tham chiếu sửa đổi dựa kiểu quan hệ kiểu sử dụng tác vụ ACE 2005 [1] Các quan hệ xác định tránh chồng chéo ngữ nghĩa nhiều tốt Một số kiểu quan hệ có hướng, nghĩa thực thể chúng không đối xứng (nhạy cảm theo thứ tự) Những khác vô hướng (đối xứng) Các đối số mối quan hệ không xếp theo thứ tự 48 Bảng 5.1: Các loại quan hệ VLSP 2020 STT Quan hệ LOCATED PART - WHOLE PERSONAL - SOCIAL AFFILIATION Đối số PER - LOC, ORG - LOC LOC – LOC, ORG – ORG, ORG - LOC PER - PER Hướng Có hướng Có hướng Khơng hướng PER – ORG, PER - LOC, Có hướng ORG – ORG, LOC - ORG Bảng 5.1 mô tả loại quan hệ sử dụng tập liệu • LOCATED: Mối quan hệ LOCATED thể vị trí vật lý người Khi quan hệ kết nối tổ chức địa điểm nơi tổ chức đặt trụ sở hoạt động kinh doanh Đây mối quan hệ có hướng • PART - WHOLE: Nếu mối quan hệ nói địa lý thể vị trí địa điểm tổ chức phần địa điểm, tổ chức khác Mối quan hệ PART - WHOLE mơ tả quan hệ cấp hành thứ bậc tổ chức • PERSONAL - SOCIAL: Quan hệ PERSONAL - SOCIAL diễn tả mối quan hệ người với Cả hai đối số phải thực thể người Loại quan hệ đối xứng Ví dụ loại quan hệ bao gồm: – Mối liên hệ hai thực thể mối quan hệ nghề nghiệp/chính trị/kinh doanh nào, – Mối quan hệ gia đình/họ hàng, – Mối quan hệ cá nhân khác • AFFILIATION: Mối quan hệ thể loại quan hệ đây: – Mối quan hệ người người sử dụng lao động họ (tổ chức), – Quyền sở hữu cá nhân với tổ chức sở hữu người đó, – Mối quan hệ người sáng lập/nhà đầu tư (cá nhân tổ chức) tổ chức, 49 – Mối quan hệ người sở giáo dục mà người theo học, – Mối quan hệ người tổ chức mà người thành viên (cơ quan phủ bầu, đội, đảng, ), – Mối quan hệ vị trí địa trị tổ chức mà thành viên, – Một người công dân/cư dân địa điểm Dữ liệu huấn luyện phát triển bao gồm văn thô thêm thẻ thực thể thông tin quan hệ, phân tách thư mục tương ứng với miền khác Bảng 5.2: Phân bố loại quan hệ tập liệu Quan hệ LOCATED PART - WHOLE PERSONAL - SOCIAL AFFILIATION Tập huấn luyện 509 1025 98 753 Tập kiểm tra 346 513 98 502 Bảng 5.2 thể phân bố quan hệ tập huấn luyện kiểm tra Trong đó, ta nhận thấy có cân đối nhãn có 98 nhãn PERSONAL - SOCIAL tập huấn luyện so với 1025 nhãn PART WHOLE Hình 5.1: Số lượng từ tập huấn luyện kiểm tra 50 Hình 5.1 thể phân bố từ hai tập liệu huấn luyện kiểm tra Ta thấy đa số tài liệu có chiều dài 400 - 500 từ, đặc biệt có số tài liệu dài chứa tới 2700 từ Hình 5.2: Phân bố liệu tập huấn luyện kiểm tra Hình 5.2 mô tả số lượng quan hệ tồn tài liệu Xét hai tập huấn luyện kiểm tra, số lượng quan hệ tài liệu có khác biệt, khơng chênh lệch nhiều Tuy nhiên, với số câu văn dài, chứa nhiều quan hệ, ta cần phải xử lý tay, để cắt câu văn dài thành câu văn nhỏ hơn, đảm bảo không ảnh hưởng đến ngữ nghĩa đoạn văn Quá trình tìm kiếm ứng cử viên chủ thể quan hệ cần xét hết tất từ tiềm câu Do đó, câu văn dài làm tiêu tốn nhiều tài nguyên nhớ, làm chậm q trình tính tốn mơ hình 5.2 Phương pháp đánh giá Các tác vụ nhận dạng thực thể quan hệ dự đoán nhãn đối tượng Do đó, ta sử dụng độ đo trung bình điều hịa F1 để đánh giá hiệu suất mơ hình thí nghiệm • Mỗi cặp từ gắn nhãn quan hệ tính khẳng định (TP) phủ định sai (FN), tùy thuộc vào việc có hệ thống gắn nhãn xác hay khơng, 51 • Mỗi cặp từ gắn nhãn với mối quan hệ khác tiêu chuẩn vàng tính phủ định (TN) khẳng định sai (FP) Giá trị F1-score cho nhãn quan hệ trung bình điều hịa giá trị Precision (P) Recall (R) với công thức sau: F = ∗ P ∗ R/(P + R) (5.1) Trong đó, Precision Recall xác định sau: P = T P/(T P + F P ) R = T P/(T P + F N ) 5.3 (5.2) (5.3) Hiện thực mơ hình Trong đề tài này, mơ hình thực hóa sử dụng ngơn ngữ Python 3.8, kết hợp với PyTorch thư viện AllenNLP [10] Môi trường dùng để huấn luyện đánh giá Google Colab (cấu hình GPU) Các mơ hình BERT sử dụng thí nghiệm lấy từ kho liệu HuggingFace Quá trình huấn luyện thực với tối ưu Adam kèm với cấu hình learning_rate = 0.001 cho tác vụ × 10−5 cho rút trích BERT Mỗi mạng nơ ron truyền thẳng chứa lớp ẩn, sử dụng hàm kích hoạt ReLU với tỉ lệ bỏ bớt 0.4 Trong số, số lượng đơn vị nơ ron lớp chọn 150 Sau cài đặt thông số chung trên, siêu tham số lại thiết kế cho thí nghiệm trình bày phần 5.4 Kết thực nghiệm Trong phần này, tác giả trình bày kết thực nghiệm từ hướng phát triển đề xuất mô hình ban đầu Mỗi thí nghiệm bao gồm thơng tin: mơ hình rút trích thơng tin sử dụng cho lớp mã hóa từ; trọng số tác vụ trọng số thành phần đóng góp vào hàm lỗi 4.6; Rel F1 điểm số F1 tác vụ xác định quan hệ; NER F1 điểm số F1 tác vụ xác định thực thể 52 5.4.1 Vai trị lớp mã hóa từ Các câu văn dạng văn đưa qua lớp mã hóa từ để xử lý rút trích đặc trưng Bước giúp chuyển đổi liệu dạng ngôn ngữ tự nhiên sang dạng số với lượng thông tin bảo tồn nhiều Ngôn ngữ tiếng Việt có đặc điểm khác với ngơn ngữ khác nên cần rút trích thông tin đặc trưng phù hợp Do vậy, ta tiến hành thí nghiệm ảnh hưởng rút trích thơng tin lên hiệu suất xác định thực thể quan hệ Ở ta sử dụng ba biến thể BERT BERT, RoBERTa [15] PhoBERT phương pháp đề xuất Kiến trúc sở DyGIE++ sử dụng BERT nên ta sử dụng làm tham chiếu, RoBERTa đóng vai trị phiên thiện BERT, thêm vào để đánh giá hiệu cải thiện mơ hình rút trích nói chung, cuối cùng, dùng PhoBERT để xác nhận vai trò rút trích đặc trưng phù hợp cho loại ngôn ngữ, tiếng Việt Bảng 5.3: Tác động rút trích thơng tin lên kết dự đốn quan hệ Mơ hình VNDyGIE(BERT) VNDyGIE(RoBERTa) VNDyGIE(PhoBERT) Trọng số tác vụ Rel F1 λE = 1, λR = 1, λC = 0.432 λE = 1, λR = 1, λC = 0.47 λE = 1, λR = 1, λC = 0.637 NER F1 0.778 0.802 0.893 Bảng 5.3 mô tả hiệu suất kiến trúc đồ thị động xác định thực thể quan hệ với rút trích thơng tin khác Theo liệu bảng, ta nhận thấy mơ hình sử dụng RoBERTa đạt kết cao BERT (Rel F1 0.47 so với 0.432, NER F1 0.802 so với 0.778) Dữ liệu cho thấy việc nâng cao chất lượng rút trích tác động tốt tới hiệu suất mơ hình Hơn nữa, với thơng số, mơ hình đề xuất sử dụng PhoBERT đạt hiệu cao nhất, với điểm số F1 tác vụ quan hệ 0.637 nhận dạng thực thể 0.893 Mơ hình đồ thị động sử dụng lan truyền thông tin cụm từ với nhau, nên việc cụm từ mã hóa tốt, có chứa thơng tin ngữ cảnh giúp mơ hình học nhiều kiến thức quan trọng hơn, từ đó, cải thiện hiệu suất tác vụ đầu Hiệu suất cao mô hình sử dụng PhoBERT khẳng định tầm quan trọng việc chọn rút trích thơng tin đặc trưng phù hợp với toán sử dụng kiến trúc đồ thị động 53 5.4.2 Bổ sung thêm quan hệ có hướng Tập liệu VLSP2020 chứa loại quan hệ, có loại có hướng Xét ví dụ bao gồm hai câu văn, "Việt Nam sở hữu quần đảo Trường Sa" "Quần đảo Trường Sa thuộc sở hữu Việt Nam" Trong hai câu văn, mối quan hệ hai thực thể "Việt Nam" "quần đảo Trường Sa" PART - WHOLE Trong trường hợp có hai câu văn xuất tập huấn luyện, mơ hình học nửa, gặp khó khăn gặp trường hợp lại Do vậy, ta tạo thêm mối quan hệ ngược chiều, ví dụ REVERSE - PART - WHOLE Áp dụng phương pháp cho quan hệ có hướng huấn luyện lại mơ hình, ta thu kết sau: Bảng 5.4: Kết rút trích thơng tin bổ sung mối quan hệ Mơ hình VNDyGIE(BERT) VNDyGIE(RoBERTa) VNDyGIE(PhoBERT) Trọng số tác vụ Rel F1 λE = 1, λR = 1, λC = 0.478 λE = 1, λR = 1, λC = 0.516 λE = 1, λR = 1, λC = 0.651 NER F1 0.793 0.801 0.894 So sánh với bảng 5.3, ta thấy kết Rel F1 bảng 5.4 có cải thiện rõ rệt Riêng với mơ hình đề xuất, kết Rel F1 sau thêm quan hệ cao 0.014 so với thí nghiệm trước đó, NER F1 khơng thay đổi nhiều Thí nghiệm chủ yếu đẩy mạnh tác vụ mục tiêu xác định quan hệ, vậy, hiệu suất tác vụ nhận dạng thực thể có thay đổi Tuy nhiên, gia tăng đáng kể Rel F1 chứng minh việc làm giàu thông tin quan hệ giúp mô hình đạt hiệu suất cao 5.4.3 Lan truyền đồng tham chiếu xác định quan hệ Tiếp tục phát triển dựa kết thí nghiệm trước để kiểm tra ảnh hưởng thông tin đồng tham chiếu lên kết xác định quan hệ Trong thí nghiệm này, ta thêm lỗi đồng tham chiếu vào hàm mát để tối ưu hóa Ngồi ra, mơ hình kết hợp hai kiến trúc BERT tiền huấn luyện [21] đạt kết cao tập liệu VLSP2020 đưa vào làm tham chiếu để so sánh 54 Bảng 5.5: Tác dụng lan truyền đồng tham chiếu xác định quan hệ Mô hình Trọng số tác vụ EnsembleBERT [21] VNDyGIE VNDyGIE + Coref _ λE = 1, λR = 1, λC = λE = 1, λR = 1, λC = 0.5 Rel F1 0.644 0.651 0.654 NER F1 _ 0.894 0.893 Đa phần ngơn ngữ có sử dụng đại từ, từ đồng tham chiếu, để giúp văn phong mượt mà Ở câu văn sử dụng đại từ, ta khơng có thơng tin chủ từ mà đại diện, khó để xác định mối quan hệ Ví dụ, đại từ "nó" tiếng Việt sử dụng để nhiều từ loại khác người, động vật, mệnh đề, xác định mối quan hệ liên quan từ "nó" gặp nhiều khó khăn từ loại đại diện dẫn tới mối quan hệ khác Do vậy, việc xác định đồng tham chiếu để cung cấp thơng tin cho mơ hình cần thiết Bảng 5.5 cho thấy hiệu suất mơ hình có sử dụng thông tin đồng tham chiếu cao mô hình cấu hình thiếu thơng tin đồng tham chiếu Cuối cùng, mơ hình đề xuất đầy đủ đạt kết Rel F1 0.654 cao mơ hình cơng bố tập VLSP2020, có Rel F1 0.644 Kết chứng minh tính khả thi độ hiệu phương pháp đề xuất Hơn nữa, mơ hình đề xuất mơ hình đa tác vụ, đạt độ xác cao với tác vụ phụ xác định thực thể, NER F1 đạt 0.893 55 Chương Tổng kết Qua trình phát triển mạnh mẽ gần lĩnh vực trí tuệ nhân tạo nói chung xử lý ngơn ngữ nói riêng, nhiều cơng trình nghiên cứu thành cơng, đạt hiệu cao liên tục công bố Tuy nhiên, với đặc điểm ngôn ngữ quốc gia khác nhau, lĩnh vực xử lý văn nhiều thành tựu quốc tế chưa áp dụng Việt Nam Hiện tại, việc nghiên cứu phát triển giải thuật, kết hợp phương pháp học máy cho tốn rút trích quan hệ thực thể, quan hệ tiếng Việt khiêm tốn, không tạo nên môi trường đánh giá khách quan nhiều ngữ cảnh khác Với mục tiêu kế thừa thành tựu trí tuệ nhân tạo giới, đem ứng dụng, phát huy Việt Nam, luận văn đề xuất chứng minh tính hiệu mơ hình đồ thị động việc giải tốn trích xuất thơng tin tiếng Việt Mơ hình mơ hình học sâu mạnh mẽ huấn luyện liệu lớn đạt độ xác cao việc nhận dạng thơng tin thực thể quan hệ văn tiếng Việt Điều giúp cải thiện đáng kể hiệu suất độ tin cậy q trình trích xuất liệu Mơ hình đồ thị động cịn có tính tổng quát hóa cao, dễ mở rộng, tùy chỉnh, thực đa tác vụ Do đó, làm cơng cụ hữu ích tiềm cho việc phát triển lĩnh vực xử lý ngôn ngữ tự nhiên Việt Nam Tuy nhiên, kiến trúc đòi hỏi người sử dụng phải có kiến thức, tìm hiểu định liệu đầu vào Việc lựa chọn rút trích đặc trưng phù hợp, biểu diễn từ giàu thơng tin giúp cải thiện kết mơ hình Thực tế chứng minh tác vụ trích xuất thơng tin từ văn ngày cần thiết xuất gần gũi sống Sự xuất 56 công cụ trí tuệ nhân tạo mạnh mẽ ChatGPT dần thay đổi sống người Song hành sóng phát triển mạnh mẽ đó, mơ hình học sâu ứng dụng kiến trúc đồ thị dần xây dụng chỗ đứng, đạt thành tích cao Kiến trúc đồ thị nhánh tiếp cận cịn mới, thử thách, có nhiều vấn đề để giải khám phá Riêng luận văn này, tác giả làm thực nghiệm liệu thuộc lĩnh vực báo hành chính, chưa tận dụng mạnh tổng qt mơ hình đồ thị Trong văn tiếng Việt, mối quan hệ xuất thường xuyên từ câu, với từ câu khác Do vậy, mơ hình đề xuất cần có khả xác định loại quan hệ tồn câu khác Trong tương lai, sử dụng mơ hình đồ thị cho nhiều tác vụ khác nhau, nhiều nguồn liệu khác đóng góp cơng sức vào q trình phát triển lĩnh vực xử lý ngôn ngữ tự nhiên Việt Nam 57 Tài liệu tham khảo [1] Ace 2005 multilingual training corpus https://catalog.ldc.upenn edu/LDC2006T06 Accessed: 2023-02-05 [2] Genia http://www.geniaproject.org/home Accessed: 2023-02-05 [3] Scispacy https://allenai.github.io/scispacy/ Accessed: 2023-0512 [4] Vlsp 2020 https://vlsp.org.vn/vlsp2020 Accessed: 2023-02-05 [5] Dzmitry Bahdanau, Kyunghyun Cho, and Y Bengio Neural machine translation by jointly learning to align and translate ArXiv, 1409, 09 2014 [6] Livio Baldini Soares, Nicholas FitzGerald, Jeffrey Ling, and Tom Kwiatkowski Matching the blanks: Distributional similarity for relation learning In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 2895–2905, Florence, Italy, July 2019 Association for Computational Linguistics [7] Iz Beltagy, Kyle Lo, and Arman Cohan SciBERT: A pretrained language model for scientific text In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3615–3620, Hong Kong, China, November 2019 Association for Computational Linguistics [8] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova BERT: Pre-training of deep bidirectional transformers for language understanding In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human 58 Language Technologies, Volume (Long and Short Papers), pages 4171– 4186, Minneapolis, Minnesota, June 2019 Association for Computational Linguistics [9] Timothy Dozat and Christopher D Manning Deep biaffine attention for neural dependency parsing CoRR, abs/1611.01734, 2016 [10] Matt Gardner, Joel Grus, Mark Neumann, Oyvind Tafjord, Pradeep Dasigi, Nelson F Liu, Matthew Peters, Michael Schmitz, and Luke Zettlemoyer AllenNLP: A deep semantic natural language processing platform In Proceedings of Workshop for NLP Open Source Software (NLP-OSS), pages 1–6, Melbourne, Australia, July 2018 Association for Computational Linguistics [11] Alex Graves, Greg Wayne, and Ivo Danihelka Neural turing machines CoRR, abs/1410.5401, 2014 [12] Ralph Grishman Information extraction IEEE Intell Syst., 30(5):815, 2015 [13] Sepp Hochreiter and Jă urgen Schmidhuber Long short-term memory Neural computation, 9:1735–80, 12 1997 [14] Chaitanya Kulkarni, Wei Xu, Alan Ritter, and Raghu Machiraju An annotated corpus for machine reading of instructions in wet lab protocols In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume (Short Papers), pages 97–106, New Orleans, Louisiana, June 2018 Association for Computational Linguistics [15] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov Roberta: A robustly optimized bert pretraining approach, 2019 cite arxiv:1907.11692 [16] Yi Luan, Luheng He, Mari Ostendorf, and Hannaneh Hajishirzi Multitask identification of entities, relations, and coreferencefor scientific knowledge graph construction In Proc Conf Empirical Methods Natural Language Process (EMNLP), 2018 59 [17] Yi Luan, Dave Wadden, Luheng He, Amy Shah, Mari Ostendorf, and Hannaneh Hajishirzi A general framework for information extraction using dynamic span graphs In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume (Long and Short Papers), pages 3036–3046, Minneapolis, Minnesota, June 2019 Association for Computational Linguistics [18] Thang Luong, Hieu Pham, and Christopher D Manning Effective approaches to attention-based neural machine translation In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1412–1421, Lisbon, Portugal, September 2015 Association for Computational Linguistics [19] Tomas Mikolov, Martin Karafiát, Lukas Burget, Jan Cernocký, and Sanjeev Khudanpur Recurrent neural network based language model volume 2, pages 1045–1048, 01 2010 [20] Dat Quoc Nguyen and Anh Tuan Nguyen PhoBERT: Pre-trained language models for Vietnamese In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 1037–1042, Online, November 2020 Association for Computational Linguistics [21] Minh Quang Nhat Pham An empirical study of using pre-trained BERT models for Vietnamese relation extraction task at VLSP 2020 In Proceedings of the 7th International Workshop on Vietnamese Language and Speech Processing, pages 13–18, Hanoi, Vietnam, December 2020 Association for Computational Lingustics [22] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, L ukasz Kaiser, and Illia Polosukhin Attention is all you need In I Guyon, U Von Luxburg, S Bengio, H Wallach, R Fergus, S Vishwanathan, and R Garnett, editors, Advances in Neural Information Processing Systems, volume 30 Curran Associates, Inc., 2017 [23] David Wadden, Ulme Wennberg, Yi Luan, and Hannaneh Hajishirzi Entity, relation, and event extraction with contextualized span representations ArXiv, abs/1909.03546, 2019 60 [24] Shanchan Wu and Yifan He Enriching pre-trained language model with entity information for relation classification In Proceedings of the 28th ACM International Conference on Information and Knowledge Management, CIKM ’19, page 2361–2364, New York, NY, USA, 2019 Association for Computing Machinery [25] Deming Ye, Yankai Lin, Peng Li, and Maosong Sun Packed levitated marker for entity and relation extraction In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 4904–4917, Dublin, Ireland, May 2022 Association for Computational Linguistics [26] Zexuan Zhong and Danqi Chen A frustratingly easy approach for entity and relation extraction In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 50–61, Online, June 2021 Association for Computational Linguistics 61 PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: PHẠM LƯƠNG HÀO Ngày, tháng, năm sinh: 29/04/1998 Nơi sinh: Bình Định Địa liên lạc: 2E đường 79, phường Tân Quy, quận 7, Thành phố Hồ Chí Minh Q TRÌNH ĐÀO TẠO - Tháng 9/2016 - Tháng 4/2020: Sinh viên chuyên ngành Khoa học máy tính, khoa Khoa học Kỹ thuật Máy tính, trường Đại học Bách Khoa - ĐHQG-HCM - Tháng 9/2020 - nay: Học viên cao học, chuyên ngành Khoa học Máy tính, trường Đại học Bách Khoa – ĐHQG-HCM Q TRÌNH CƠNG TÁC - Tháng 4/2020 - Tháng 10/2022: Lập trình viên, Cơng ty cổ phần ZION - Tháng 10/2022 - nay: Lập trình viên cao cấp, Công ty TNHH befinancial 62

Ngày đăng: 25/10/2023, 22:15

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w