1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện quan hệ nhân quả giữa các sự kiện trong văn bản với học sâu

60 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 60
Dung lượng 1,66 MB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Phát quan hệ nhân kiện văn với học sâu PHẠM VĂN ĐẠT dat.pvcb190198@sis.hust.edu.vn Ngành Khoa học liệu Giảng viên hướng dẫn: TS Nguyễn Thị Oanh Viện: Công nghệ Thông tin Truyền thơng HÀ NỘI, 04/2021 CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Phạm Văn Đạt Đề tài luận văn: Phát quan hệ nhân kiện văn với học sâu Chuyên ngành: Khoa học liệu Mã số HV: CB190198 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 24/04/2021 với nội dung sau: - Bổ sung thêm tham khảo mơ hình tồn giới Phần 2.3 Bổ sung nội dung chi tiết phần kết luận Chương Hà nội, ngày Giáo viên hướng dẫn tháng năm 2021 Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Mục lục Chương 1: Giới thiệu toán 10 1.1 Đặt vấn đề 10 1.2 Mục tiêu phạm vi luận văn 11 1.2.1 Mục tiêu luận văn 11 1.2.2 Phạm vi luận văn 12 1.3 Định hướng phương pháp giải 12 Chương 2: Cơ sở lý thuyết 13 2.1 Biểu diễn tài liệu với định dạng (CAT-)XML 13 2.1.1 Tài liệu XML 13 2.1.2 Tài liệu định dạng (CAT-)XML 14 2.2 Mạng nơ-ron 14 2.2.1 Tổng quan kiến trúc 14 2.2.2 Huấn luyện mơ hình 16 2.2.3 Biểu diễn từ word2vec 17 2.2.4 Mạng nơ-ron hồi quy (Recurrent neural network) 19 2.2.5 Mạng nơ-ron tích chập đồ thị (Graph Convolutional Networks) 24 2.2.6 Các khái niệm khác 26 2.3 Hiện trạng mơ hình tồn giới 29 2.3.1 Mô hình phân loại Feature Based Local Pairwise 29 2.3.2 Mơ hình phân loại dựa tối ưu ILP 31 2.3.3 Mơ hình Edge-Enhanced Graph Convolution Networks 31 Chương 3: Mô hình đề xuất 35 3.1 Mơ hình posGCN 35 3.1.1 Cấu trúc tầng biểu diễn câu 36 3.1.2 Cấu trúc tầng biểu diễn cặp kiện 38 3.1.3 Cấu trúc tầng lỗi phân loại 39 3.2 Các mơ hình cải tiến mơ hình posGCN 40 3.2.1 Mơ hình posGCN-EC 41 3.2.2 Mô hình posGCN-OC 44 3.2.3 Mơ hình posGCN-AC 44 Chương 4: Thử nghiệm 46 4.1 Dữ liệu thử nghiệm 46 4.1.1 Tập liệu EventStoryLine 46 4.1.2 Chiến lược chia liệu thử nghiệm 47 4.2 Kết 49 4.2.1 Độ đo sử dụng 49 4.2.2 Các tham số chung ban đầu 49 4.2.3 So sánh với kết công bố 50 4.2.4 Lựa chọn tham số 51 4.2.5 Kết mô hình cải tiến 54 Chương 5: Kết luận 57 5.1 Kết đạt 57 5.2 Định hướng phát triển đề tài 58 Tài liệu tham khảo 59 LỜI CẢM ƠN Một cột mốc quan trọng lại đến, trình học thạc sĩ trơi qua thật nhanh Ngồi nhìn lại, tơi hạnh phúc viết dòng Trải qua trình này, nỗ lực thân không đủ Tôi muốn gửi lời cảm ơn đến Viện Cơng Nghệ Thơng Tin Truyền Thơng tạo chương trình Học bổng miễn học phí, đem lại hội học tập tốt Em muốn gửi lời cảm ơn đến thầy cô viện truyền tải kiến thức quý báu Chúc thầy cô tràn đầy sức khỏe, nhiệt huyết thành công Em xin gửi lời cảm ơn đến cô TS Nguyễn Thị Oanh, thầy Th.S Ngô Văn Linh hướng dẫn, hỗ trợ em nhiều trình học tập thực đề tài Em xin gửi lời cảm ơn đến anh Nguyễn Hữu Thiện đưa cho em lời khuyên trình thực đề tài Con xin cảm ơn ba mẹ anh nhiều lần động viên trình học tập Cảm ơn người bạn đồng hành môn học, đặc biệt bạn Đặng Trung Anh, bạn Nguyễn Hoàng Kỳ bạn Nguyễn Văn Minh Cuối cùng, xin cảm ơn em, Nguyễn Thị Cẩm Vân, người bên cạnh, nguồn động lực cho anh hành trình Cơng trình vậy, khơng tránh khỏi thiếu sót Tơi vui biết ơn nhận góp ý đề tài Xin chân thành cảm ơn! Học viên Phạm Văn Đạt TÓM TẮT ĐỀ TÀI Trong lĩnh vực Xử lý ngôn ngữ tự nhiên, tồn nhóm tốn liên quan đến kiện câu câu Thông thường ta có văn thơ giải toán xác định kiện xuất câu văn từ nảy sinh toán khác từ cặp kiện xác định Bài toán mà luận văn đề cập đến tốn Đó tốn Phân loại cặp kiện có quan hệ nhân quả, gọi toán gốc Trong luận văn trình bày lý thuyết biểu diễn văn dạng (CAT-)XML format, Học máy, Mạng nơ-ron, đặc biệt Mạng hồi quy (RNN) Mạng tích chập đồ thị (GCN) Từ sở xây dựng mơ hình chúng tơi Các mơ hình xây dựng mơ hình học sâu, với thành phần cốt lõi Mạng LSTM, GCN, với việc sử dụng kĩ thuật biểu diễn đầu word embedding kết hợp với Position embedding Ngồi ra, mơ hình cải tiến, chúng tơi cịn thử nghiệm kỹ thuật Kiểm soát biểu diễn câu Đây kĩ thuật nghiên cứu biểu diễn thành phần văn kiểm soát biểu diễn từ kiện tác động đến mơ hình phân loại Các thí nghiệm thực nghiệm xuất phát từ mơ hình khơng có mạng GCN đến mơ hình sử dụng GCN đặc biệt mơ hình Kiểm sốt biểu diễn câu Qua q trình tối ưu tham số đánh giá kết với mơ hình báo giải tốn tương tự, từ chúng tơi tìm điểm mạnh biểu diễn thông tin cấu trúc mạng GCN hiệu giả thuyết Kiểm soát biểu diễn câu DANH MỤC HÌNH VẼ Hình 1.1 Ví dụ cấu trúc kiện có quan hệ nhân văn 10 Hình 2.1 Ảnh minh họa nơ-ron thần kinh mơ hình tốn học 15 Hình 2.2: Minh họa mạng nơ-ron đơn giản (có tầng ẩn) 15 Hình 2.3 Kiến trúc CBOW kiến trúc Skip-gram 17 Hình 2.4 Minh họa quan hệ từ qua biểu diễn word2vec 18 Hình 2.5 Minh họa quan hệ tương tự theo chiều 19 Hình 2.6 Cấu trúc mạng nơ-ron hồi quy tiêu chuẩn 20 Hình 2.7 Nhân mạng nơ-ron hồi quy 21 Hình 2.8 Cấu trúc nhân mạng LSTM 21 Hình 2.9 Cell state mạng LSTM 10 22 Hình 2.10 Forget gate nhân LSTM 10 22 Hình 2.11 Input gate nhân LSTM 11 23 Hình 2.12 Kết hợp tạo cell state nhân LSTM 11 23 Hình 2.13 Output gate nhân LSTM 23 Hình 2.14 Minh họa sử dụng hàm Average nén thông tin đồ thị 25 Hình 2.15 Ví dụ cấu phụ thuộc có cấu trúc đồ thị 26 Hình 2.16 Minh họa mơ hình sử dụng dropout 27 Hình 2.17 Ví dụ so sánh Max pooling average pooling 28 Hình 2.18 Mơ hình EE-GCN 32 Hình 3.1 Kiến trúc mơ hình posGCN 35 Hình 3.2 Kiến trúc tầng biểu diễn câu 36 Hình 3.3 Các thành phần position embedding 37 Hình 3.4 Kiến trúc tầng biểu diễn cặp kiện 38 Hình 3.5 Kiến trúc Loss layers 39 Hình 3.6 Cấu trúc chung mơ cải tiến 41 Hình 3.7 Cấu trúc module sinh “Lỗi kiểm sốt” mơ hình posGCN-EC 43 DANH MỤC BẢNG Bảng 4.1 Tập liệu EventStory v0.9 46 Bảng 4.2 Thống kê nhãn tập Cách chia số 48 Bảng 4.3 Thống kê phần tập liệu Cách chia số 48 Bảng 4.4 Các siêu tham số mơ hình posGCN 50 Bảng 4.5 Các siêu tham số huấn luyện mơ hình posGCN 50 Bảng 4.6 Kết mơ hình posGCN tập liệu theo Cách chia số 51 Bảng 4.7 Kết mơ hình posGCN tập liệu theo Cách chia số 52 Bảng 4.8 Kết mơ hình posGCN theo giá trị số chiều vector position embedding 52 Bảng 4.9 Kết mơ hình posGCN theo giá trị số câu hàng xóm lân cận 53 Bảng 4.10 Kết mơ hình posGCN theo giá trị số tầng mạng GCN 54 Bảng 4.11: Kết mô hình posGCN với tham số tối ưu 54 Bảng 4.12 Các giá trị siêu tham số thành phần mạng sinh “Lỗi kiểm soát” mơ hình cải tiến 55 Bảng 4.13 Kết mơ hình Kiểm sốt biểu diễn câu 55 Chương 1: Giới thiệu toán 1.1 Đặt vấn đề Trong lĩnh vực nghiên cứu mơ hình học máy, tốn phân loại (classification) nói chung coi tốn kinh điển, đóng vai trò quan trọng tác vụ quản lý trích rút thơng tin Từ tốn phân loại ảnh, phân loại giọng nói đến tốn phân loại spam hay phân loại văn nói chung Trong văn ta thường ý đến kiện diễn văn Và kể lại, thuật lại ta thường tập chung nói kiện Xuất phát từ thực tế sinh nên toán nhằm xác định kiện có văn Nhóm toán phát triển phân loại xác định mối quan hệ kiện Một loại mối quan hệ quan hệ nhân Dưới ví dụ văn có kiện cấu trúc quan hệ nhân chúng Hình 1.1 Ví dụ cấu trúc kiện có quan hệ nhân văn Ta phân tích ví dụ Hình 1.1, kiện kiện kill gắn với từ "killed", "killing" "murder", mô tả việc bà mẹ bị giết hại Nó kết kiện gắn với từ “crossfire”, “spraying”, “struct” Sự kiện Nguồn ảnh: Trong báo tham khảo (GAO, Lei, 2019) [6] 10 Chương 4: Thử nghiệm Trong chương chúng tơi trình bày trình thực nghiệm huấn luyện, tối ưu tham số, đánh giá kết mơ hình posGCN mơ hình cải tiến Thực so sánh kết với mơ hình báo [6] Trong mã nguồn mơ hình posGCN mơ hình cài tiến, chúng tơi có tham khảo mã nguồn [10], để xây dựng thành phần mạng GCN mô hình Để thu thành phần phụ thuộc câu sử dụng công cụ [11], với phiên 4.2 4.1 Dữ liệu thử nghiệm 4.1.1 Tập liệu EventStoryLine Chúng sử dụng tập liệu EventStoryLine v0.9 [12] Tập liệu EventStoryLine có văn lưu trữ dạng (CAT-)XML [4] Trong cấu trúc thư mục tập liệu ta có file văn định dạng (CAT-)XML nằm thư mục event_mentions_extended Mỗi văn file XML văn chia theo topic Tương ứng với file văn có file chứa id (thứ tự văn bản) từ kiện có quan hệ nhân văn bản, file nằm thư mục evaluation_format Những file file chứa nhãn cặp kiện có quan hệ nhân tập liệu Trong Bảng 4.1 thông tin tổng quan tập liệu Thống số Giá trị Số topic 22 Số văn 258 Số câu 4,316 Số từ kiện 5,334 Số cặp từ kiện có quan hệ nhân câu 1,770 Số cặp từ kiện có quan hệ nhân liên câu 3,855 Tổng cặp từ kiện có quan hệ nhân 5,625 Bảng 4.1 Tập liệu EventStory v0.9 46 Như trình bày Phần 2.1, thực phân tích cấu trúc quy ước định dạng file (CAT-)XML, sinh tương ứng văn dạng XML thành file sau: ● File thứ nhất: dòng tương ứng quy ước cho từ dấu câu, ký hiệu đặc biệt Trong file chứa dòng hết văn Cấu trúc dịng có dạng: “ x” Trong đó, x từ, dấu câu kí tự đặc biệt ● File thứ 2: id từ từ kiện văn Tiếp đó, thực lặp văn bản, tổ hợp kiện tất cặp kiện văn tương ứng với ví dụ học Cặp kiện gán nhãn khơng có file nhãn, có file nhãn tương ứng văn xét Trong q trình lặp này, chúng tơi đồng thời xác định phụ thuộc câu văn tính ma trận kề tương ứng Cùng với đó, chúng tơi xây dựng từ điển từ có văn chuyển đổi từ văn thành id từ điển để phục vụ xác định giá trị vector word2vec tương ứng Tổng kết lại, điểm liệu có thơng tin sau: tên văn bản, vị trí từ kiện thứ nhất, vị trí từ kiện thứ 2, nhãn liệu Từ tên văn chúng tơi tham chiếu sang tập văn bản, tập phụ thuộc văn để có thông tin cần thiết Tổng hợp tất điểm liệu sinh từ tất văn chúng tơi có tập liệu đầu vào 4.1.2 Chiến lược chia liệu thử nghiệm Chúng thực tạo hai chiến lược chia liệu để huấn luyện đánh giá mơ hình Đó Chiến lược chia phổ biến (Cách chia số 1) Chiến lược chia để so sánh (Cách chia số 2) Mục đích chia liệu theo Cách chia số để có có mơ hình huấn luyện đánh giá khách quan mục đích chia liệu theo Cách chia số để có sở so sánh kết với mơ hình Dưới chi tiết việc thực cách chia 4.1.2.1 Chiến lược chia phổ biến (Cách chia số 1) Sắp xếp topic theo thứ tự tăng dần id, tiến hành chia tập liệu thành tập huấn luyện testing với tỉ lệ 80:20 điểm liệu sinh từ 20 topic đầu tập developing điểm liệu sinh từ topic cuối Dưới thống kê tập liệu Tên Tổng số điểm liệu Số điểm liệu intra-sent nhãn Tập huấn luyện Testing Developing 38429 9608 6297 1293 279 174 47 Số điểm liệu intra-sent nhãn 4350 1077 660 Số điểm liệu cross-sent nhãn 2772 690 375 Số điểm liệu cross-sent nhãn 30014 7562 5088 Bảng 4.2 Thống kê nhãn tập Cách chia số Trong tập huấn luyện có chênh lệch lớn số lượng điểm liệu tập nhãn nhãn (1:10), tiến hành khởi tạo trùng lặp thêm số lượng nhãn từ điểm liệu nhãn Tập Huấn luyện cho số lượng điểm liệu nhãn Như có 30299 điểm liệu nhãn trùng lặp thêm tổng điểm liệu tập huấn luyện 68728 Tập liệu chia theo Cách chia số dùng Phần 4.2.3, Phần 4.2.4 4.1.2.2 Chiến lược chia để so sánh (Cách chia số 2) Điểm khác biệt Cách chia số so với Cách chia số Cách chia số sử dụng tồn 20 topic đầu chia 5-fold (phần), topic liên tục fold Sẽ có mơ hình huấn luyện đánh giá Quá trình huấn luyện thực sau Mơ hình sử dụng fold gồm topic đầu tập tesing, 4-fold lại gồm 16 topic cuối dùng làm tập huấn luyện Mơ hình thứ sử dụng topic từ đến topic thứ làm tập testing 16 topic lại làm liệu huấn luyện Tương tự huấn huyện kiểm thử cho mơ hình thứ 3, thứ thứ Kết đánh giá tổng thể kết trung bình mơ hình Tên Fold Fold Fold Fold Fold Devel oping Tổng số điểm liệu 10151 9000 5839 4485 18562 6297 Số điểm liệu intra-sent nhãn 302 321 346 263 340 174 Số điểm liệu intra-sent nhãn 1250 1072 980 657 1468 660 Số điểm liệu cross-sent nhãn 720 696 784 656 606 375 Số điểm liệu cross-sent nhãn 7879 6911 3729 2909 16148 5088 Bảng 4.3 Thống kê phần tập liệu Cách chia số 48 Chúng tiến hành thêm trùng lặp điểm liệu nhãn tập huấn luyện huấn luyện mơ hình tương ứng Tập liệu chia theo Cách chia số dùng Phần 4.2.2 4.2 Kết 4.2.1 Độ đo sử dụng Các kết mơ hình luận văn sử dụng độ F1 score để đánh giá Như trình bày Phần 4.1 tập liệu luận văn sử dụng có chênh lệch lớn tỉ lệ nhãn liệu nhãn liệu 1, cần độ đo cân yếu tố ưu tiên đánh giá mức độ phân loại xác cho nhãn Độ đo F1 score phù hợp cho nhu cầu Ta có cơng thức độ F1 score 𝐹1 = ∗ 𝑝𝑟𝑒𝑠𝑐𝑖𝑠𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑠𝑐𝑖𝑠𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 PT 4.1 Trong đó: 𝑝𝑟𝑒𝑠𝑐𝑖𝑠𝑜𝑛 tỉ lệ nhãn phân loại tổng số điểm liệu phân loại nhãn 𝑟𝑒𝑐𝑎𝑙𝑙 tỉ lệ nhãn phân loại tổng số điểm liệu thực có nhãn Ta thấy giá trị điểm F1 cân giá trị 𝑝𝑟𝑒𝑠𝑐𝑖𝑠𝑜𝑛 𝑟𝑒𝑐𝑎𝑙𝑙 Giá trị F1 thuộc khoảng giá trị 𝑝𝑟𝑒𝑠𝑐𝑖𝑠𝑜𝑛 𝑟𝑒𝑐𝑎𝑙𝑙 gần với giá trị nhỏ Do ta có thang đo kết mơ hình sát đáng 4.2.2 Các tham số chung ban đầu Các mơ hình luận văn có gốc mơ hình đề xuất posGCN Do vậy, chúng tơi cảm tính tạo tham số chung ban đầu Bảng 4.4 Từ tham số tiến hành huấn luyện mơ hình posGCN đánh giá kết quả, so sánh kết với báo [6] Phần 4.2.3 Từ cấu trúc mạng tầng mơ trình bày Phần 3.1, ta có giá trị tham số sau: STT Tham số Giá trị Số chiều vector vị trí tương đối từ so với từ kiện Số chiều vector vị trí tương đối câu so với câu chứa từ kiện Số câu hàng xóm lân cận câu chứa từ kiện Số tầng LSTM bi-direct mức từ 49 Số chiều vector đầu tầng LSTM bi-direct mức từ Số tầng GCN Tầng pooling sau tầng cuối GCN Số tầng LSTM bi-direct mức câu Số chiều vector đầu tầng LSTM bi-direct mức câu 10 Tầng pooling sau tầng LSTM mức câu 11 Số tầng Feed Forward 200 Max-pooling 200 Max-pooling Bảng 4.4 Các siêu tham số mơ hình posGCN Tập vector word2vec sử dụng để tham chiếu GloVe.6B có số chiều vector từ tham chiếu 300 Ngồi ra, cịn có tham số để sử dụng trình huấn luyện sau STT Tham số Batch size Learning rate Optimizer Delay early stopping Num epoch Giá trị 32 0.0003 Adam 30 100 Bảng 4.5 Các siêu tham số huấn luyện mơ hình posGCN 4.2.3 So sánh với kết cơng bố Trong phần chúng tơi trình bày kết huấn luyện mơ hình posGCN Tập liệu sử dụng tập liệu chia theo Cách chia số Phần 4.1.2.2 cách đánh giá mơ hình tương tự báo [6] Trong báo [6] sử dụng cách đánh giá 5-fold Theo cách đánh giá này, 20 topic (sắp xếp tăng dần theo id topic) tập liệu chia thành phần đánh giá kết mơ hình phần sau lấy trung bình kết phần Chúng tơi có bảng kết mơ sau 50 Tên Mơ hình [6] Mơ hình posGCN Số lượng tham số mơ hình - 5781582 Thời gian huấn luyện - 8.9 (h) F1-intra 44.7 (%) 49.2 (%) F1-cross 40.6 (%) 53.6 (%) F1-both 41.9 (%) 55.6 (%) Bảng 4.6 Kết mơ hình posGCN tập liệu theo Cách chia số Trên Bảng 4.6, giá trị F1-intra điểm F1 score tính tất điểm liệu đơn câu tập kiểm thử, F1-cross điểm F1 score tính tất điểm liệu liên câu tập kiểm thử, F1-both điểm F1 tính tất điểm liệu tập kiểm thử Lưu ý, giá trị F1 kết tính trung bình tương ứng với mơ hình đánh giá So sánh tương ứng với kết báo gốc thấy điểm F1-intra, F1-cross, F1-both 49.2, 53.6, 55.6 lớn kết tương ứng báo [6] 44.7, 40.6, 41.9 Từ ta kết luận hiệu mơ hình posGCN Mơ hình học sâu cho thấy hiệu Khả tìm kiếm thể đặc trưng ẩn vốn mạnh mơ hình học sâu thể Cụ thể việc sử dụng sức mạnh tổng hợp thông tin theo chiều mạng LSTM, tổng hợp thông tin theo không gian mạng GCN Một điểm đặc biệt kết mơ hình posGCN so với kết [6] điểm phân loại mơ hình posGCN cho điểm F1-cross tốt điểm F1-intra Nghĩa mơ hình posGCN phân loại có điểm liệu cặp kiện có quan hệ nhân liên câu tốt điểm liệu có cặp kiện câu Điều ngược lại so với kết [6] Kết cho thấy mơ hình posGCN giải nhược điểm mơ hình [6], cho kết không tốt điểm liệu cặp kiện liên câu Như [6] trình bày, tác phải dụng kiện đồng tham chiếu có thể, nhằm đưa trường hợp liên câu trường hợp đơn câu, để có kết phân loại tốt Ở mơ hình posGCN, chúng tơi khơng cần phải thực việc có kết phân loại tốt Tiếp theo thực tối ưu tham số mơ hình posGCN Phần 4.2.4 4.2.4 Lựa chọn tham số Chúng thực huấn luyện đánh giá mơ hình posGCN tập liệu tạo theo Cách chia số Phần 4.1.1.1 Sở dĩ không sử dụng chia liệu theo Cách chia số Phần 4.1.1.2 trình huấn luyện đánh giá theo Cách chia số cần thực lượng công việc gấp lần cách chia số Do thời gian thực thí nghiệm tốn Vì lý 51 đó, thí nghiệm ưu tiên sử dụng chiến lược chia liệu theo Cách chia số Ở phần này, kết mơ hình posGCN theo Cách chia số sở để so sánh mơ hình tối ưu siêu tham số sau, sở để đánh giá hiệu mơ hình cải tiến Sử dụng giá trị tham số ban đầu Phần 4.2.2 Thực đánh giá tập liệu Testing, có bảng kết Giá trị Tên Số lượng tham số mơ hình 5781582 Thời gian huấn luyện 10.5 (h) F1-intra 69.8 (%) F1-cross 78.0 (%) F1-both 76.5 (%) Bảng 4.7 Kết mơ hình posGCN tập liệu theo Cách chia số Trong phần thử nghiệm tối ưu giá trị siêu tham số mơ hình posGCN, để có mơ hình posGCN tốt Tất thí nghiệm thực tập liệu chia theo Cách chia số 4.2.4.1 Tối ưu số chiều vector position embedding Giữ nguyên giá trị tham số Phần 4.2.2, tiến hành thử nghiệm huấn luyện đánh giá mơ hình posGCN với giá trị khác cho số chiều vector position embedding 2, 16 Kết thể bảng Số chiều vector position embedding Thời gian huấn luyện 16 15.2 (h) 10.5 (h) 16.1 (h) 12.2 (h) F1-intra 68.2 (%) 69.8 (%) 67.5 (%) 65.7 (%) F1-cross 73.1 (%) 78.0 (%) 76.5 (%) 77.1 (%) F1-both 72.5 (%) 76.5 (%) 75.0 (%) 74.9 (%) Bảng 4.8 Kết mơ hình posGCN theo giá trị số chiều vector position embedding Chúng ta thấy mơ hình cho kết tốt giá trị số chiều vector position embedding 52 4.2.4.2 Tối ưu số câu hàng xóm lân cận Trong phần này, tiếp tục thực trình tối ưu giá trị tham số số câu hàng xóm lân cận câu chứa từ kiện Giữ nguyên giá trị tham số Phần 4.2.2 Chúng tiến hành thử nghiệm huấn luyện đánh giá mơ hình posGCN thêm với giá trị số câu hàng xóm lân cận 1, Chúng tơi có bảng kết sau Số câu hàng xóm lân cận Thời gian huấn luyện 15.1 (h) 10.5 (h) 10.3 (h) 11.5 (h) F1-intra 68.4 (%) 69.8 (%) 72.5 (%) 73.4 (%) F1-cross 79.2 (%) 78.0 (%) 72.8 (%) 77.6 (%) F1-both 76.9 (%) 76.5 (%) 73.2 (%) 77.0 (%) Bảng 4.9 Kết mơ hình posGCN theo giá trị số câu hàng xóm lân cận Chúng ta thấy, giá trị số câu hàng xóm cho kết F1-intra F1-both tốt Tuy nhiên, giá trị số hàng xóm giá trị cho F1cross tốt Điều cho ta nhận định tự nhiên điểm dự liệu đơn câu ta cần sử dụng nhiều thông tin câu hàng xóm điểm liệu liên câu Đánh giá giá trị F1-both kết sử dụng câu hàng xóm so với sử dụng câu hàng xóm xấp xỉ nhau, 76.9 % so với 77.0% Song, sử dụng câu hàng xóm lại đem lại tốc độ tính tốn nhanh Do vậy, để cân đối chúng tơi chọn số câu hàng xóm làm giá trị tối ưu 4.2.4.3 Tối ưu số tầng mạng GCN Trong phần này, tiếp tục thực trình tối ưu giá trị tham số số hàng xóm lân cận câu chứa từ kiện, dựa kết mơ hình tối ưu Phần 4.2.4.2 Chúng tiến hành thử nghiệm huấn luyện đánh giá mơ hình posGCN thêm giá trị số tầng GCN Chúng tơi có bảng kết sau Số tầng mạng GCN Thời gian huấn luyện F1-intra 11.0 (h) 5.7 (h) 10.5 (h) 13.7 (h) 74.2 (%) 74.2 (%) 69.8 (%) 69.3 (%) 53 F1-cross 78.5 (%) 80.1 (%) 78.0 (%) 73.1 (%) F1-both 77.8 (%) 79.2 (%) 76.5 (%) 72.7 (%) Bảng 4.10 Kết mô hình posGCN theo giá trị số tầng mạng GCN Chúng ta thấy mơ hình cho kết tốt giá trị số tầng GCN Ở giá trị số tầng GCN lớn cho kết thấp Điều cho thấy ta nâng mức tổng hợp thông tin cấu trúc đồ thị câu mức cao, làm giảm hiệu phân loại mơ hình Chúng tơi cho tổng hợp mức cao làm đặc trưng cục làm cho mơ hình khơng phân biệt mức độ đóng góp thơng tin khác nốt đồ thị câu Như chúng tơi hồn thành tối ưu mơ hình siêu tham số cho mơ hình posGCN Sử dụng tham số tốt Số chiều vector position embedding=4, số câu hàng xóm=1, số tầng GCN=2, chúng tơi có kết mơ hình posGCN tốt sau: Tên Giá trị Số tham số 5701178 Thời gian huấn luyện 4.8 (h) F1-intra 75.0 (%) F1-cross 80.1 (%) F1-both 79.2 (%) Bảng 4.11: Kết mơ hình posGCN với tham số tối ưu Sử dụng kết tham số tối ưu, tiến hành huấn luyện đánh giá mơ hình cải tiến posGCN-EC, posGCN-OC, posGCN-AC 4.2.5 Kết mơ hình cải tiến Sử dụng tham số tối ưu Phần 4.2.4.3, phần tiến hành huấn luyện đánh giá mơ hình cải tiến posGCN-EC, posGCNOC, posGCN-AC trình bày Phần 3.2 Tập liệu sử dụng tập liệu theo Cách chia số phương pháp đánh giá tương tự Phần 4.2.4 Bảng giá trị siêu tham số thành phần mạng sinh “Lỗi kiểm soát” Tham số Số tầng LSTM bi-direct Giá trị 54 Số chiều vector đầu tầng LSTM bi-direct Tầng pooling sau tầng LSTM 200 Max-pooling Bảng 4.12 Các giá trị siêu tham số thành phần mạng sinh “Lỗi kiểm soát” mơ hình cải tiến Ngồi ra, giá trị trọng số thành phần lỗi kiểm soát khởi tạo ngẫu nhiên tối ưu trình huấn luyện Tổng hợp kết đạt mơ hình cải tiến thể bảng Mơ hình Số tham số posGCN posGCNEC posGCNOC posGCNAC 5701178 7307578 7307578 8913978 4.8 (h) 10.4 (h) 12.9 (h) 25.5 (h) F1-intra 75.0 (%) 77.4 (%) 75.9 (%) 75.6 (%) F1-cross 80.1 (%) 82.2 (%) 82.3 (%) 84.7 (%) F1-both 79.2 (%) 81.3 (%) 81.1 (%) 82.7 (%) Thời gian huấn luyện Bảng 4.13 Kết mơ hình Kiểm sốt biểu diễn câu Từ kết Bảng 4.13, thấy mô hình posGCN-EC, posGCNOC posGCN-AC thể hiệu giả thuyết Phần 3.2.1, Phần 3.2.2 Phần 3.2.3 Kết mơ hình tốt mơ hình posGCN Đánh giá chi tiết ta thấy, độ đo F1-intra, mơ hình posGCN-EC cho kết tốt Điều cho thấy, điểm liệu có cặp kiện câu, áp dụng kiểm soát biểu diễn lẫn từ kiện lên lên câu chứa cặp từ kiện đem lại kết phần loại tốt Ngược lại, điểm liệu có cặp kiện liên câu, áp dụng kiểm soát biểu diễn từ kiện lên câu hàng xóm cho kết phân loại tốt Như ta thấy Bảng 4.13, độ đo F1-cross, mơ hình posGCN-OC cho kết tốt mơ hình posGCN-EC Tuy nhiên, mơ hình posGCN-AC mơ hình cho kết điểm F1-cross cao Điều cho thấy, kiểm soát biểu diễn từ kiện lên câu chứa từ kiện cịn lại có tác dụng tăng hiệu suất phân loại cho điểm liệu có cặp kiện liên câu Mặt khác, giá trị điểm F1-intra mơ hình posGCN-AC, thấp so với mơ hình posGCN-OC thấp mơ hình posGCN-EC Điều tác dụng đối nghịch lý thuyết kiểm soát điểm liệu đơn câu Ở điểm F1-both, mơ hình posGCN-AC cho kết tốt 3.5% so với mơ hình posGCN Như chung thành công việc xây dựng mơ hình có độ hiệu cao áp dụng tốt cho tất loại điểm liệu 55 Tóm lại, kết luận thực kiểm soát biểu diễn lẫn từ kiện lên câu chứa từ kiện tạo mơ hình phân loại điểm liệu có cặp kiện câu tốt, kết hợp thêm kiểm soát biểu diễn từ kiện lên câu không chứa từ kiện tạo mơ hình phân loại điểm liệu có cặp kiện liên câu tốt Ngồi ra, Bảng 4.13, tất mơ hình cho kết phân loại điểm liệu có cặp kiện liên câu tốt điểm liệu có cặp kiện đơn câu Điều thể việc thông tin số lượng câu hàng xóm ví dụ đơn câu so với liên câu ảnh hưởng đến kết phân loại mơ hình Cũng củng cố thêm quan điểm sử dụng mơ hình để phân loại tốt cho loại câu không hợp lý, tương tự việc sử dụng mô hình phân loại [6] 56 Chương 5: Kết luận Ở chương này, tổng hợp lại kết nghiên cứu đạt được, kinh nghiệm rút qua trình thực đề tài luận văn Từ đó, xây dựng hướng phát triền đề tài 5.1 Kết đạt Qua trình thực đề tài, tơi tìm hiểu lý thuyết biểu diễn văn bản, mạng nơ-ron học sâu mạng LSTM, GCN, khái niệm khác học sâu Tơi tìm hiểu cơng trình tồn giới, hướng tiếp cận tốn có theo phương pháp học máy cổ điển phương pháp sử dụng học sâu Từ xác định nhược điểm mơ hình tồn tại, ánh dụng lý thuyết xây dựng mơ hình đề xuất riêng luận văn Đó mơ hình posGCN, posGCN-EC, posGCN-OC posGCN-AC Các mơ hình đề xuất mơ hình học sâu giải hạn chế biểu diễn đặc trưng đầu vào thủ công Chúng đề xuất kỹ thuật biểu diễn thơng tin vị trí tương từ kiện, câu kiện làm thông tin đầu vào Chúng tơi đánh giá đóng góp quan trọng giúp biểu diễn phân biệt ví dụ học văn Các mơ hình đề xuất sử dụng mạng LSTM để tích hợp thông tin chuỗi cho biểu diễn từ biểu diễn câu, sử dụng mạng GCN để tích hợp thơng tin biểu diễn hàng xóm vào biểu diễn nốt từ câu Ngồi ra, chúng tơi đưa giả thuyết kiểm soát biểu diễn câu Từ đó, xây dựng thành phần “Lỗi kiểm soát” từ việc sử dụng kết hợp biểu diễn từ tầng GCN Tóm tắt lại, qua trình thực đề tài thân đạt kết sau Về phương pháp nghiên cứu ● Được thực nghiên cứu theo quy trình ● Làm quen tiếp thu phương pháp nghiên cứu hàn lâm Về tốn đề tài ● Có mơ hình đem lại kết tốt mơ hình tốt báo gốc Giải nhược điểm mô hình [6] ● Mạng GCN thể hiệu tổng hợp thơng tin có tính khơng gian ● Các mơ hình Kiểm sốt biểu diễn câu chứng minh giả thuyết kiểm soát biểu diễn ● Nắm bắt nguyên lý kiểm soát biểu diễn mơ hình Kiểm sốt biểu diễn câu, từ ưu tiên nguyên lý sử dụng tùy theo mục đích 57 5.2 Định hướng phát triển đề tài Qua trình thực thí nghiệm xây dựng đánh giá mơ hình đề tài, thấy việc huấn luyện mơ hình giải phân loại cho phân loại cặp kiện có quan hệ nhân câu cặp kiện liên câu chưa đem lại hiệu tốt Điều đặc việc rõ kết Phần 4.2.5 Mơ hình posGCN-EC phân loại tốt cho điểm liệu đơn câu Mơ hình posGCN-AC phân loại tốt cho điểm liệu liên câu Ngoài ra, từ cách tiếp cận sử dụng mạng GCN cho liệu văn bản, chúng tơi nhận thấy có hương phát triển đề tài sau: • Xây dựng mơ hình riêng biệt để phân loại cho loại điểm liệu đơn câu liên câu tương ứng • Xây dựng mơ hình cải tiến sử dụng thông tin quan hệ phụ thuộc phụ thuộc tích hợp vào biểu diễn cạnh đồ thị câu • Sử dụng đặc trưng ngữ pháp, từ vựng làm biểu diễn đầu vào từ văn Ngồi ra, tốn đề tài tốn mở, cịn nhiều hướng phát triển cho đề tài Theo với phát triển mơ hình mạng Deep Learning hướng phát triển chúng tơi thử nghiệm số mạng “State of the art” Tranformer [13], Bird [14], Các ý tưởng quan hệ từ kiện từ, câu văn Ngồi ra, chúng tơi thử nghiệm mơ hình tập liệu khác tập tempeval-3 [15], tiến tới đưa mơ hình vào thực tiễn 58 Tài liệu tham khảo [1] T N KIPF and M WELLING, "Semi-supervised classification with graph convolutional networks," in arXiv preprint arXiv:1609.02907, 2016 [2] S & S J Hochreiter, "Long short-term memory," in Neural computation, 9(8), 1997, pp 1735-1780 [3] I S K C G C a J D Tomas Mikolov, "Efficient Estimation of Word Representations in Vector Space," in Proceedings of Workshop at ICLR, 2013 [4] A MENGEL and W LEZIUS, "An XML-based Representation Format for Syntactically Annotated Corpora," in LREC, 2000 [5] S IOFFE and C SZEGEDY, "Batch normalization: Accelerating deep network training by reducing internal covariate shift," in International conference on machine learning PMLR, 2015, pp 448-456 [6] L GAO, P K CHOUBEY and R HUANG, "Modeling document-level causal structures for event causal relation identification," in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume (Long and Short Papers), 2019, pp 1808-1817 [7] B BEAMER and R GIRJU, "Using a bigram event model to predict causal potential," in International Conference on Intelligent Text Processing and Computational Linguistics, Springer, Berlin, Heidelberg, 2009, pp 430-441 [8] A Schrijver, "Theory of linear and integer programming," in John Wiley & Sons, 1998 [9] S CUI, "Edge-enhanced graph convolution networks for event detection with syntactic relation," in Proceedings of the 2020 59 Conference on Empirical Methods in Natural Language Processing: Findings, 2020, pp 2329-2339 [10] Y a Q P a M C D Zhang, "Graph Convolution over Pruned Dependency Trees Improves Relation Extraction," in Empirical Methods in Natural Language Processing (EMNLP), 2018 [11] C D S M B J F J R B S & M D Manning, "The Stanford CoreNLP natural language processing toolkit," in Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations, 2014, pp 55-60 [12] T CASELLI and P VOSSEN, "The event storyline corpus: A new benchmark for causal and temporal relation extraction," in Proceedings of the Events and Stories in the News Workshop, 2017, pp 77-86 [13] A N K S T & S I Radford, " Improving language understanding with unsupervised learning," in Technical report, OpenAI, 2018 [14] M.-W C K L K T Jacob Devlin, "Bert: Pre-training of deep bidirectional transformers for language understanding," in eprint arXiv:1810.04805, 2018 [15] N UZZAMAN, " Semeval-2013 task 1: Tempeval-3: Evaluating time expressions, events, and temporal relations," in Second Joint Conference on Lexical and Computational Semantics (* SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), 2013, pp 1-9 60 ... định mối quan hệ kiện Một loại mối quan hệ quan hệ nhân Dưới ví dụ văn có kiện cấu trúc quan hệ nhân chúng Hình 1.1 Ví dụ cấu trúc kiện có quan hệ nhân văn Ta phân tích ví dụ Hình 1.1, kiện kiện... dẫn đến xảy số kiện khác liên quan gắn với từ “trial”, “accuse”, Trong ví dụ tồn nhiều cặp kiện có quan hệ nhân liên quan đến kiện Từ kết hợp với thực thể câu với kiện có quan hệ nhân xác định... định chất quan hệ nhân cặp kiện câu khác biệt so với cặp kiện liên câu Ví dụ quan hệ từ câu hữu ích việc xác định cặp kiện có quan hệ nhân câu sử dụng cho xác định cặp kiện có quan hệ nhân liên

Ngày đăng: 10/12/2021, 19:32

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] T. N. KIPF and M. WELLING, "Semi-supervised classification with graph convolutional networks," in arXiv preprint arXiv:1609.02907, 2016 Sách, tạp chí
Tiêu đề: Semi-supervised classification with graph convolutional networks
[2] S. &. S. J. Hochreiter, "Long short-term memory," in Neural computation, 9(8), 1997, pp. 1735-1780 Sách, tạp chí
Tiêu đề: Long short-term memory
[3] I. S. K. C. G. C. a. J. D. Tomas Mikolov, "Efficient Estimation of Word Representations in Vector Space," in Proceedings of Workshop at ICLR, 2013 Sách, tạp chí
Tiêu đề: Efficient Estimation of Word Representations in Vector Space
[4] A. MENGEL and W. LEZIUS, "An XML-based Representation Format for Syntactically Annotated Corpora," in LREC, 2000 Sách, tạp chí
Tiêu đề: An XML-based Representation Format for Syntactically Annotated Corpora
[5] S. IOFFE and C. SZEGEDY, "Batch normalization: Accelerating deep network training by reducing internal covariate shift," in International conference on machine learning. PMLR, 2015, pp. 448-456 Sách, tạp chí
Tiêu đề: Batch normalization: Accelerating deep network training by reducing internal covariate shift
[6] L. GAO, P. K. CHOUBEY and R. HUANG, "Modeling document-level causal structures for event causal relation identification," in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies, Volume 1 (Long and Short Papers), 2019, pp. 1808-1817 Sách, tạp chí
Tiêu đề: Modeling document-level causal structures for event causal relation identification
[7] B. BEAMER and R. GIRJU, "Using a bigram event model to predict causal potential," in International Conference on Intelligent Text Processing and Computational Linguistics, Springer, Berlin, Heidelberg, 2009, pp. 430-441 Sách, tạp chí
Tiêu đề: Using a bigram event model to predict causal potential
[8] A. Schrijver, "Theory of linear and integer programming," in John Wiley & Sons, 1998 Sách, tạp chí
Tiêu đề: Theory of linear and integer programming
[9] S. CUI, "Edge-enhanced graph convolution networks for event detection with syntactic relation," in Proceedings of the 2020 Sách, tạp chí
Tiêu đề: Edge-enhanced graph convolution networks for event detection with syntactic relation
[10] Y. a. Q. P. a. M. C. D. Zhang, "Graph Convolution over Pruned Dependency Trees Improves Relation Extraction," in Empirical Methods in Natural Language Processing (EMNLP), 2018 Sách, tạp chí
Tiêu đề: Graph Convolution over Pruned Dependency Trees Improves Relation Extraction
[11] C. D. S. M. B. J. F. J. R. B. S. &. M. D. Manning, "The Stanford CoreNLP natural language processing toolkit," in Proceedings of 52nd annual meeting of the association for computational linguistics:system demonstrations, 2014, pp. 55-60 Sách, tạp chí
Tiêu đề: The Stanford CoreNLP natural language processing toolkit
[12] T. CASELLI and P. VOSSEN, "The event storyline corpus: A new benchmark for causal and temporal relation extraction," in Proceedings of the Events and Stories in the News Workshop, 2017, pp. 77-86 Sách, tạp chí
Tiêu đề: The event storyline corpus: A new benchmark for causal and temporal relation extraction
[13] A. N. K. S. T. &. S. I. Radford, " Improving language understanding with unsupervised learning," in Technical report, OpenAI, 2018 Sách, tạp chí
Tiêu đề: Improving language understanding with unsupervised learning
[14] M.-W. C. K. L. K. T. Jacob Devlin, "Bert: Pre-training of deep bidirectional transformers for language understanding," in eprint arXiv:1810.04805, 2018 Sách, tạp chí
Tiêu đề: Bert: Pre-training of deep bidirectional transformers for language understanding
[15] N. UZZAMAN, " Semeval-2013 task 1: Tempeval-3: Evaluating time expressions, events, and temporal relations," in Second Joint Conference on Lexical and Computational Semantics (* Sách, tạp chí
Tiêu đề: Semeval-2013 task 1: Tempeval-3: Evaluating time expressions, events, and temporal relations

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w