Tóm tắt: Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	26
Dung lượng	1,3 MB

Nội dung

Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản.

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Thị Thanh Thủy NGHIÊN CỨU CÁC PHƯƠNG PHÁP HỌC MÁY CHO TRÍCH XUẤT THƠNG TIN TỰ ĐỘNG TỪ VĂN BẢN Chuyên ngành: Hệ thống thông tin Mã số: 9.48.01.04 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - 2023 Cơng trình hồn thành tại: Học viện Cơng nghệ Bưu Viễn thơng Người hướng dẫn khoa học: GS.TS Từ Minh Phương PGS.TS Ngô Xuân Bách Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án cấp Học viện họp tại: Học viện Cơng nghệ Bưu Viễn thơng Vào hồi ……… ngày …… tháng …… năm ……… Có thể tìm hiểu luận án tại: Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Tính cấp thiết luận án Ngày nay, liệu coi nguồn tài nguyên vô quan trọng với gia tăng nhanh chóng theo thời gian Tuy nhiên, việc tìm kiếm trích chọn thông tin người dùng cần từ nguồn liệu điều khơng dễ dàng Trích xuất thơng tin thực trích xuất tự động thơng tin có cấu trúc thực thể, mối quan hệ thực thể, ý kiến/quan điểm mô tả thực thể, hay kiện từ nguồn liệu khơng có cấu trúc bán cấu trúc Mục tiêu cuối chuyển thông tin văn sang hình thức dễ tiếp cận để tiếp tục xử lý, nhằm hỗ trợ tốt cho người dùng Mục tiêu phạm vi nghiên cứu luận án Mục tiêu luận án nghiên cứu đề xuất số phương pháp học máy nhằm giải nâng cao hiệu cho trích xuất thông tin tự động từ văn bản, bao gồm hai nội dung cụ thể sau: 1) Nghiên cứu đề xuất phương pháp trích xuất thơng tin cho ngơn ngữ tài nguyên cách khai thác nguồn liệu gán nhãn từ ngôn ngữ khác tốn khai phá quan điểm dựa khía cạnh tiếng Việt, với hai nhiệm vụ: (1) trích xuất loại khía cạnh (2) phân loại quan điểm cho khía cạnh (đã trích xuất) Đây tốn có ý nghĩa thực tế mang tính ứng dụng cao, cung cấp thơng tin ý kiến/quan điểm chi tiết đến khía cạnh cụ thể sản phẩm/dịch vụ đề cập câu (thay xác định ý kiến/quan điểm tổng thể cho toàn văn đầu vào) 2) Nghiên cứu đề xuất phương pháp học sâu tiên tiến để giải nâng cao hiệu cho số nhiệm vụ trích xuất thơng tin lĩnh vực xử lý văn pháp quy tiếng Việt, với nhiệm vụ: (1) trích xuất thực thể tham chiếu từ văn pháp quy, (2) phân loại quan hệ thực thể tham chiếu thực thể văn pháp quy xem xét Văn pháp quy văn quan Nhà nước ban hành để điều tiết hoạt động Nhà nước xã hội, có số lượng lớn gia tăng, cập nhật theo thời gian Trích xuất thông tin văn pháp quy bước quan trọng để xây dựng cơng cụ/hệ thống xử lý văn pháp quy tự động, tìm kiếm, tra cứu, phân tích, truy vấn, nhằm hỗ trợ tốt cho người dùng Ngoài ra, luận án tập trung nghiên cứu đề xuất phương pháp kết hợp ưu điểm phương pháp học máy truyền thống với phương pháp học sâu nhằm cải thiện hiệu cho nhiệm vụ trích xuất thơng tin Các đóng góp luận án Đóng góp thứ đề xuất giải pháp nâng cao hiệu cho trích xuất khía cạnh phân loại quan điểm ngôn ngữ tiếng Việt cách khai thác nguồn liệu gán nhãn sẵn từ ngơn ngữ khác Đóng góp thứ hai đề xuất phương pháp trích xuất thơng tin sử dụng học máy truyền thống học sâu cho văn pháp quy tiếng Việt Các thơng tin trích xuất bao gồm thực thể tham chiếu mối quan hệ thực thể văn pháp quy Đóng góp thứ ba đề xuất phương pháp trích xuất kết hợp đồng thời thực thể quan hệ văn pháp quy tiếng Việt sử dụng mô hình dựa học sâu Bố cục luận án Nội dung luận án tổ chức thành bốn chương Chương Tổng quan trích xuất thơng tin tự động từ văn Chương Trích xuất khía cạnh phân loại quan điểm cho tiếng Việt tận dụng nguồn liệu gán nhãn từ ngôn ngữ khác [4, 6] Chương Trích xuất thực thể quan hệ văn pháp quy tiếng Việt sử dụng học máy truyền thống học sâu [1, 5] Chương Trích xuất kết hợp đồng thời thực thể quan hệ văn pháp quy tiếng Việt sử dụng phương pháp học sâu [2, 3] Cuối số Kết luận luận án định hướng phát triển nghiên cứu CHƯƠNG 1: TỔNG QUAN VỀ TRÍCH XUẤT THƠNG TIN TỰ ĐỘNG TỪ VĂN BẢN 1.1 Giới thiệu trích xuất thơng tin Trích xuất thơng tin (Information Extraction, IE) việc phát chọn thông tin có cấu trúc cách tự động từ nguồn khơng có cấu trúc bán cấu trúc (ví dụ: báo, văn web, đánh giá sản phẩm mạng xã hội, ấn phẩm khoa học, hồ sơ y tế,…) Có thể chia thành bốn nhóm tốn trích xuất thơng tin: 1) Trích xuất thực thể có tên; 2) Trích xuất ý kiến/quan điểm mơ tả thực thể; 3) Trích xuất quan hệ; 4) Trích xuất kiện kịch Hiện thực tế có nhiều ứng dụng trích xuất thông tin, từ ứng dụng quản lý thông tin cá nhân, tới ứng dụng doanh nghiệp (như theo dõi tin tức, chăm sóc khách hàng, làm liệu), đến ứng dụng lĩnh vực khoa học (ví dụ, tin sinh học), đặc biệt phát triển mạnh mẽ ứng dụng hướng web (như sở liệu trích dẫn, sở liệu ý kiến/quan điểm, trang web cộng đồng, so sánh mua sắm) 1.2 Các phương pháp tiếp cận dựa học máy để giải tốn trích xuất thơng tin 1) Phương pháp tiếp cận dựa phân loại: quy tốn trích xuất thơng tin tốn phân loại sử dụng phương pháp học có giám sát Một số phương pháp học máy sử dụng nhiều hiệu toán phân loại bao gồm: Phân loại Bayes đơn giản, Cây định, Máy véc-tơ tựa (SVM) Trong đó, SVM đánh giá kỹ thuật phân lớp có độ xác cao nhiều toán phân loại khác xử lý ngôn ngữ tự nhiên 2) Phương pháp tiếp cận dựa gán nhãn chuỗi: coi tốn trích xuất thông tin nhiệm vụ gán nhãn chuỗi Một số mơ hình gán nhãn chuỗi sử dụng rộng rãi bao gồm: mơ hình Markov ẩn, Mơ hình Markov cực đại hóa Entropy Trường ngẫu nhiên có điều kiện (CRF) Trong đó, CRF phương pháp sử dụng phổ biến hiệu nhiều toán gán nhãn chuỗi 3) Phương pháp tiếp cận sử dụng học sâu: Học sâu bước tiến vượt bậc học máy ứng dụng hiệu nhiều lĩnh vực khác Ưu điểm phương pháp có khả mơ hình hóa nhiều loại liệu, kết hợp nhiều nguồn thơng tin có độ xác cao Một số phương pháp học sâu sử dụng cho trích xuất thông tin: Kỹ thuật nhúng từ, Mạng nơ-ron hồi quy, LSTM (Long Short-Term Memory), Mơ hình Seq2Seq, Cơ chế Attention, Transformer 1.3 Phương pháp thực nghiệm đánh giá kết Các bước thực thực nghiệm sau: thu thập gán nhãn liệu, trích chọn đặc trưng, huấn luyện mơ hình học máy, kiểm tra mơ hình với mẫu liệu mới, đánh giá kết Để đánh giá kết quả, thực nghiệm tiến hành nhiều lần tập liệu, theo phương pháp kiểm tra chéo Kết tính trung bình số lần thực nghiệm Ngồi độ xác chung (accuracy), kết tính độ đo độ xác (precision), độ phủ (recall) độ đo F1 CHƯƠNG 2: TRÍCH XUẤT KHÍA CẠNH VÀ PHÂN LOẠI QUAN ĐIỂM CHO TIẾNG VIỆT TẬN DỤNG NGUỒN DỮ LIỆU ĐÃ ĐƯỢC GÁN NHÃN TỪ NGÔN NGỮ KHÁC Nội dung Chương trình bày đề xuất giải pháp nâng cao hiệu cho trích xuất khía cạnh phân loại quan điểm ngôn ngữ tiếng Việt cách khai thác nguồn liệu gán nhãn sẵn từ ngơn ngữ khác (tiếng Anh) 2.1 Trích xuất khía cạnh phân loại quan điểm Trích xuất khía cạnh phân loại quan điểm hai nhiệm vụ toán khai phá quan điểm dựa khía cạnh, đó: (1) Trích xuất loại khía cạnh, nghĩa thực xác định danh mục khía cạnh (cặp thực thể thuộc tính), mà có ý kiến/quan điểm thể văn bản; (2) Phân loại quan điểm, nghĩa thực gán nhãn quan điểm cho loại khía cạnh xác định nhiệm vụ (1) (Hình 2.1) Hình 2.1 Trích xuất khía cạnh phân loại quan điểm 2.2 Đề xuất phương pháp trích xuất khía cạnh phân loại quan điểm cho tiếng Việt Phương pháp tổng thể đề xuất để giải hai nhiệm vụ trích xuất khía cạnh phân loại quan điểm bao gồm ba bước (Hình 2.2): (1) xây dựng liệu huấn luyện, (2) trích chọn đặc trưng, (3) huấn luyện mơ hình trích xuất loại khía cạnh mơ hình phân loại quan điểm Hình 2.2 Phương pháp đề xuất cho trích xuất khía cạnh phân loại quan điểm tiếng Việt 1) Xây dựng liệu: Sự khác biệt phương pháp đề xuất tập liệu huấn luyện xây dựng từ hai nguồn: (1) liệu gán nhãn tiếng Việt (2) liệu gán nhãn tiếng nước (trong trường hợp tiếng Anh) Dữ liệu tiếng Anh dịch sang tiếng Việt công cụ dịch tự động (Google Translate) 2) Trích chọn đặc trưng: Với nhiệm vụ trích xuất khía cạnh, hai loại đặc trưng sử dụng đặc trưng (ngrams tiếng Việt) nhúng từ Với nhiệm vụ phân loại quan điểm, ba loại đặc trưng sử dụng là: từ quan trọng, nhúng từ, đặc trưng loại khía cạnh 3) Mơ hình huấn luyện: Cho N số lượng loại khía cạnh muốn trích xuất, nghiên cứu thực huấn luyện N phân loại cho N loại khía cạnh phân loại để xác định loại quan điểm Thuật tốn học có giám sát sử dụng Máy véc-tơ tựa 2.3 Xây dựng tập liệu Tập liệu tiếng Việt thu thập từ trang web Foody (có tại: https://www.foody.vn/) Tập liệu tiếng Anh trích xuất từ nhiệm vụ SemEval-2016 Dữ liệu tiếng Việt thu thập, tiền xử lý gán nhãn liệu với nhãn loại khía cạnh loại quan điểm (Bảng 2.1) Bảng 2.1 Loại khía cạnh quan điểm hai tập liệu 10 hình WEmb) Có hai lý chính: 1) số lượng mẫu tích cực tập liệu cao nhiều so với số lượng mẫu tiêu cực; 2) quan điểm tích cực thường nêu trực tiếp rõ ràng, quan điểm tiêu cực thường dạng tiềm ẩn Ví dụ câu có quan điểm tiêu cực “Chúng tơi phải đợi thức ăn khoảng nửa tiếng.”, hay “Kim chi không cay mà lại ngọt.” Bảng 2.3 Kết trích xuất loại khía cạnh mơ hình đề xuất (tính theo % độ đo F1) Bảng 2.4 Kết phân loại quan điểm (với k=5 từ) 11 CHƯƠNG 3: TRÍCH XUẤT THỰC THỂ VÀ QUAN HỆ TRONG VĂN BẢN PHÁP QUY TIẾNG VIỆT SỬ DỤNG HỌC MÁY TRUYỀN THỐNG VÀ HỌC SÂU Nội dung Chương trình bày đề xuất phương pháp trích xuất thơng tin sử dụng học máy truyền thống học sâu cho văn pháp quy tiếng Việt Các thơng tin trích xuất bao gồm thực thể tham chiếu mối quan hệ thực thể văn pháp quy 3.1 Trích xuất thơng tin văn pháp quy Trích xuất thông tin văn pháp quy tiếng Việt nghiên cứu Chương bao gồm hai nhiệm vụ chính: (1) trích xuất thực thể tham chiếu từ văn pháp quy, (2) phân loại quan hệ thực thể văn pháp quy (Hình 3.1 trình bày ví dụ) Trích xuất thực thể tham chiếu từ văn pháp quy việc trích xuất tham chiếu tên văn đề cập/nhắc đến văn pháp quy xem xét Phân loại quan hệ thực thể văn pháp quy việc phân loại mối liên quan thực thể văn tham chiếu đề cập (đã trích xuất nhiệm vụ trước) thực thể văn xem xét Việc xác định thực thể tham chiếu yêu cầu cần thiết để nhận mối quan hệ văn phần văn bản, đồng thời sử dụng cho tốn khác Việc xác định mối quan hệ thực thể giúp người dùng thuận tiện việc tìm kiếm, tra cứu, phân tích, hay truy vấn nội dung văn pháp quy 12 Hình 3.1 Ví dụ thực thể tham chiếu mối quan hệ thực thể tham chiếu với văn pháp quy xem xét 3.2 Đề xuất phương pháp trích xuất thực thể quan hệ 1) Trích xuất thực thể tham chiếu: Đề xuất mơ hình: (1) Mơ hình dựa CRF, (2) Mơ hình BiLSTM BiLSTM-CRF Các mơ hình BiLSTM BiLSTM-CRF bao gồm ba lớp: biểu diễn từ, biểu diễn câu suy diễn (Hình 3.2) Hình 3.2 Các mơ hình BiLSTM BiLSTM-CRF cho trích xuất thực thể tham chiếu 13 2) Phân loại quan hệ thực thể văn pháp quy: Được thực với hai phương pháp học máy truyền thống (Hình 3.3) học sâu (Hình 3.4) Hình 3.3 Phân loại quan hệ thực thể văn pháp quy sử dụng học máy truyền thống Hình 3.4 Mơ hình BiLSTM cho phân loại quan hệ thực thể văn pháp quy 14 3.3 Xây dựng tập liệu Nguồn liệu thu thập từ Cổng thông tin “Cơ sở liệu Quốc gia Văn pháp luật” Nhà nước, http://vbpl.vn Dữ liệu thu thập, tiền xử lý gán nhãn liệu với hai nhãn loại thực thể tham chiếu loại quan hệ Các thông tin thống kê liệu trình bày Bảng 3.1, 3.2 Bảng 3.1 Thông tin thống kê loại thực thể tham chiếu Bảng 3.2 Thông tin thống kê loại quan hệ 15 3.4 Kết thực nghiệm 1) Trích xuất thực thể tham chiếu Kết Bảng 3.3 cho thấy: 1) Tất mơ hình có kết cao (từ 95,78% đến 96,62% tính theo độ đo F1); 2) Biến thể sử dụng đặc trưng thủ cơng bổ sung cho kết trích xuất tốt so với phiên có đặc trưng (n-grams đặc trưng học tự động), khẳng định tầm quan trọng đặc trưng thủ cơng việc trích xuất tham chiếu từ văn pháp quy tiếng Việt Mơ hình tốt nghiên cứu đề xuất BiLSTM-CRF với đặc trưng thủ cơng, đạt 96,62% tính theo độ đo F1, cải thiện 0,60% (giảm tỷ lệ lỗi 15,01%) so với mơ hình CRF, cải thiện 0,39% (giảm tỷ lệ lỗi 10,34%) so với mơ hình BiLSTM Bảng 3.3 Hiệu mơ hình trích xuất thực thể tham chiếu Hiệu mơ hình BiLSTM-CRF loại thực thể tham chiếu thu tương đối tốt hầu hết loại thực thể tham chiếu (Bảng 3.4), thấp loại “Thơng tư liên 16 tịch” (91,03% tính theo độ đo F1), có tần suất xuất toàn tập liệu (424 lần) Các loại thực thể tham chiếu khác có kết F1 thấp “Bộ luật” (94,51%) “Nghị quyết” (91,29%), loại thực thể có tần số xuất thấp tập liệu “Hiến pháp” có tần suất xuất tập liệu (103 lần), kết đạt độ đo F1 cao (99,23%), thực tế số lượng văn “Hiến pháp” hệ thống văn pháp quy nhỏ so với loại văn pháp quy khác, thực thể tham chiếu loại văn có định dạng giống hầu hết câu Bảng 3.4 Hiệu mơ hình BiLSTM-CRF loại thực thể tham chiếu 2) Phân loại quan hệ thực thể văn pháp quy Phương pháp sử dụng học máy truyền thống (Bảng 3.5): phương pháp kết hợp đặc trưng n-grams TF-IDF cho kết tốt hơn, đạt độ xác 95,68%, độ phủ 95,67% độ đo F1 95,57% 17 Phương pháp sử dụng học sâu (Bảng 3.6): Kết thực nghiệm phân loại quan hệ thực thể văn pháp quy với mơ hình BiLSTM đề xuất cho kết tốt so với phương pháp học máy truyền thống tốt (SVM) Tính trung bình, phương pháp phân loại dựa BiLSTM đạt độ xác 97,03%, độ phủ 97,03% độ đo F1 97,03% Bảng 3.5 Kết phân loại quan hệ sử dụng SVM (%) Bảng 3.6 Kết phân loại quan hệ với mơ hình BiLSTM (%) 18 CHƯƠNG 4: TRÍCH XUẤT KẾT HỢP ĐỒNG THỜI THỰC THỂ VÀ QUAN HỆ TRONG VĂN BẢN PHÁP QUY TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU Nội dung Chương trình bày đề xuất phương pháp trích xuất kết hợp đồng thời thực thể tham chiếu quan hệ thực thể văn pháp quy tiếng Việt sử dụng kiến trúc mã hóa-giải mã dựa Transformer với chế giải mã song song không tự hồi quy 4.1 Đặt vấn đề Nghiên cứu Chương đề xuất phương pháp trích xuất thơng tin thực thể tham chiếu quan hệ thực thể văn pháp quy theo cách tuần tự, (1) trích xuất thực thể tham chiếu, sau (2) phân loại quan hệ thực thể tham chiếu trích xuất thực thể văn xem xét Phương pháp dễ thực tách tốn thành hai nhiệm vụ trích xuất thực thể tham chiếu phân loại quan hệ riêng rẽ Tuy nhiên, thực tế thấy, với phương pháp trích xuất dẫn đến việc lan truyền lỗi trích xuất thơng tin, nghĩa xác định thực thể tham chiếu loại thực thể tham chiếu sai dẫn đến xác định mối quan hệ thực thể tham chiếu thực thể văn xem xét bị sai Mặt khác, việc xác định mối quan hệ thực thể tham chiếu liên quan đến loại thực thể: ví dụ nghị định thường thay nghị định khác, luật, nghị định thường dựa luật, điều ngược lại không Như vậy, chất thấy hai nhiệm vụ trích xuất thực thể tham chiếu phân loại quan hệ thực thể 19 văn pháp quy có liên quan có chia sẻ thông tin chung với Nghiên cứu Chương khắc phục vấn đề kể phương pháp trích xuất thơng tin thực thể quan hệ theo cách cách đề xuất xây dựng mơ hình trích xuất kết hợp, sử dụng kết gần nghiên cứu học sâu, để xử lý đồng thời hai nhiệm vụ trích xuất thực thể tham chiếu xác định quan hệ thực thể văn pháp quy 4.2 Đề xuất mơ hình trích xuất kết hợp thực thể quan hệ Mơ hình đề xuất thực xử lý theo câu s (được biểu diễn dạng chuỗi n từ s = t1t2 tn) văn x Đầu mơ hình bao gồm m ba (khơng có thứ tự), ba tương ứng với thực thể tham chiếu theo mẫu (rstart, rend, rel), rstart rend biểu thị vị trí bắt đầu/kết thúc thực thể tham chiếu câu đầu vào rel nhãn kết hợp loại thực thể tham chiếu loại quan hệ “reference_type/relation_type” Hình 4.1 Minh họa kiến trúc mơ hình đề xuất 20 Kiến trúc tổng thể mơ hình bao gồm bốn thành phần (Hình 4.1): mã hóa câu, tăng cường đầu vào, giải mã dự đốn Hình 4.2 Bộ tăng cường đầu vào Nghiên cứu khác nghiên cứu trước đề xuất sử dụng phương pháp tăng cường đầu vào giải mã với thông tin đầu mối quan trọng văn tham chiếu nhằm cải thiện hiệu mơ hình trích xuất kết hợp Bộ tăng cường đầu vào huấn luyện độc lập với mơ hình trích xuất kết hợp (Hình 4.2) 4.3 Kết thực nghiệm 1) Các mơ hình thực nghiệm: nghiên cứu tiến hành thử nghiệm để so sánh mơ hình đề xuất với phương pháp thực nghiên cứu trước (đã đánh giá tốt): CasRel, SPERT, JointER SPN Các thực nghiệm thực tập liệu xây dựng Chương luận án 21 2) Kết thử nghiệm Mơ hình đề xuất đạt kết vượt trội tất mơ hình sở hai trường hợp, trích xuất thực thể tham chiếu trích xuất kết hợp thực thể tham chiếu quan hệ (Bảng 4.1) Với trường hợp trích xuất thực thể tham chiếu, mơ hình đề xuất đạt độ đo F1 99,7%, cải thiện 0,4% so với mô hình SPN (là mơ hình đạt độ đo F1 tốt nhóm mơ hình sở xem xét) Với trường hợp trích xuất kết hợp thực thể tham chiếu quan hệ, mơ hình đề xuất đạt độ đo F1 99,4%, cải thiện 1,1% (giảm tỷ lệ lỗi 65%) so với mơ hình SPN Bảng 4.1 Kết so sánh mơ hình trích xuất Kết sử dụng tăng cường đầu vào (Bảng 4.2): Ba biến thể sau sử dụng tăng cường đầu vào hoạt động tốt so với biến thể đầu không sử dụng tăng cường đầu vào Điều khẳng định tính hiệu phương pháp tăng cường đầu 22 vào giải mã đề xuất Kết thực nghiệm cách tiếp cận dựa phân loại vượt trội so với cách tiếp cận dựa từ điển đơn giản Hơn nữa, hai biến thể dựa phân loại cho kết tương tự, cho thấy tính ổn định phương pháp tăng cường đề xuất Bảng 4.2 Tác dụng tăng cường đầu vào 23 KẾT LUẬN Sau trình nghiên cứu, đề tài luận án “Nghiên cứu phương pháp học máy cho trích xuất thơng tin tự động từ văn bản” đạt kết đóng góp sau: 1) Đề xuất giải pháp nâng cao hiệu cho trích xuất khía cạnh phân loại quan điểm ngôn ngữ tiếng Việt cách khai thác nguồn liệu gán nhãn sẵn từ ngôn ngữ khác Phương pháp đề xuất giúp giải khó khăn việc thiếu tài nguyên liệu huấn luyện số ngơn ngữ có tài nguyên cho toán (như tiếng Việt) Kết có cơng trình [4, 6] 2) Nghiên cứu đề xuất phương pháp trích xuất thơng tin sử dụng học máy truyền thống học sâu cho văn pháp quy tiếng Việt Các thơng tin trích xuất bao gồm thực thể tham chiếu mối quan hệ thực thể văn pháp quy Kết có cơng trình [1, 5] 3) Nghiên cứu đề xuất phương pháp trích xuất kết hợp thực thể quan hệ văn pháp quy tiếng Việt sử dụng mơ hình dựa học sâu Mơ hình trích xuất kết hợp sử dụng kiến trúc mã hóa-giải mã dựa Transformer với chế giải mã song song khơng tự hồi quy để trích xuất đồng thời thực thể tham chiếu quan hệ văn pháp quy (khác với nghiên cứu đóng góp thứ hai thực trích xuất thơng tin theo cách tuần tự) Kết có cơng trình [2, 3] 24 DANH MỤC CÁC CƠNG TRÌNH CƠNG BỐ TẠP CHÍ KHOA HỌC [1] Nguyễn Thị Thanh Thủy, Đặng Bảo Chiến, Triệu Khương Duy, Ngô Xuân Bách, Từ Minh Phương, Phân loại quan hệ tham chiếu văn pháp quy, Vol No (2020): Journal of Science and Technology on Information and Communications (ISSN: 2525-2224), pp.69-78, 2020 [2] Nguyễn Thị Thanh Thủy, Nguyễn Ngọc Điệp, Một phương pháp trích xuất kết hợp thực thể quan hệ tham chiếu văn pháp quy, Vol No (2021): Journal of Science and Technology on Information and Communications (ISSN: 25252224), pp.100-108, 2021 [3] Nguyen Thi Thanh Thuy, Nguyen Ngoc Diep, Ngo Xuan Bach, Tu Minh Phuong, Joint Reference and Relation Extraction from Legal Documents with Enhanced Decoder Input, Vol 23 No (2023): Cybernetics and Information Technologies (ISSN: 13144081), pp.72-86, 2023 (Scopus, Q2) HỘI NGHỊ KHOA HỌC [4] Nguyen Thi Thanh Thuy, Ngo Xuan Bach, Tu Minh Phuong, Cross-Language Aspect Extraction for Opinion Mining, KSE 2018, pp 67-72, 2018 [5] Ngo Xuan Bach, Nguyen Thi Thanh Thuy, Dang Bao Chien, Trieu Khuong Duy, To Minh Hien, and Tu Minh Phuong, Reference Extraction from Vietnamese Legal Documents, SoICT 2019, pp 486-493, 2019 [6] Nguyen Thi Thanh Thuy, Ngo Xuan Bach, Tu Minh Phuong, Leveraging Foreign Language Labeled Data for Aspect-Based Opinion Mining, RIVF 2020, pp 1-6, 2020

Ngày đăng: 13/10/2023, 09:55