Ứng dụng mạng nơ ron đồ thị cho bài toán rút trích quan hệ giữa các thực thể trên tập dữ liệu tiếng việt

71 9 0
Ứng dụng mạng nơ ron đồ thị cho bài toán rút trích quan hệ giữa các thực thể trên tập dữ liệu tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA ——————– PHẠM ĐĂNG KHOA ỨNG DỤNG MẠNG NƠ RON ĐỒ THỊ CHO BÀI TỐN RÚT TRÍCH QUAN HỆ GIỮA CÁC THỰC THỂ TRÊN TẬP DỮ LIỆU TIẾNG VIỆT Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 8480101 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2023 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM Cán hướng dẫn khoa học: PGS.TS Quản Thành Thơ Cán chấm nhận xét 1: PGS.TS Đỗ Văn Nhơn Cán chấm nhận xét 2: PGS.TS Võ Thị Ngọc Châu Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 11 tháng 07 năm 2023 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) Chủ tịch: TS Nguyễn Đức Dũng Thư ký: TS Trương Thị Thái Minh Phản biện 1: PGS.TS Võ Thị Ngọc Châu Phản biện 2: PGS.TS Đỗ Văn Nhơn Uỷ viên: TS Bùi Thanh Hùng Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH TS Nguyễn Đức Dũng PGS.TS Phạm Trần Vũ ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: PHẠM ĐĂNG KHOA MSHV: 1970590 Ngày, tháng, năm sinh: 04/09/1992 Nơi sinh: Đắc Lắc Chuyên ngành: Khoa học Máy tính Mã số : 8480101 I TÊN ĐỀ TÀI: ỨNG DỤNG MẠNG NƠ RON ĐỒ THỊ CHO BÀI TỐN RÚT TRÍCH QUAN HỆ GIỮA CÁC THỰC THỂ TRÊN TẬP DỮ LIỆU TIẾNG VIỆT ( GRAPH NEURAL NETWORK FOR RELATION EXTRACTION IN VIETNAMESE DATASET ) II NHIỆM VỤ VÀ NỘI DUNG: - Rút trích quan hệ thực thể tiếng Việt phương pháp ứng dụng kỹ thuật xử lý ngôn ngữ tự nhiên, mơ hình học sâu đặc biệt mơ hình GNN Nghiên cứu đề xuất phương pháp nhằm cải thiện độ xác mơ hình Thực nghiệm đánh giá kết phương pháp đề xuất III NGÀY GIAO NHIỆM VỤ : 09/05/2022 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 09/06/2023 V.CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ Tp HCM, ngày 09 tháng 06 năm 2023 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) HỘI ĐỒNG NGÀNH (Họ tên chữ ký) PGS.TS Quản Thành Thơ TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH (Họ tên chữ ký) PGS.TS Phạm Trần Vũ i LỜI CẢM ƠN Lời đầu tiên, Em xin gửi lời cảm ơn chân thành sâu sắc đến PGS.TS Quản Thành Thơ, người dành thời gian hướng dẫn giúp đỡ em suốt trình nghiên cứu hoàn thành luận văn Em nhận nhiều lời khuyên, chia sẻ kinh nghiệm từ Thầy giai đoạn phát triển đề tài, hỗ trợ dẫn Thầy giúp em vượt qua khó khăn, thách thức q trình thực hoàn thành đề tài Em xin gửi lời cảm ơn đến Thầy, Cô khoa Khoa Học Kỹ Thuật Máy Tính truyền đạt nhiều kiến thức kinh nghiệm cho em suốt q trình học tập, bạn khố học giúp đỡ, trao đổi chia sẻ kinh nghiệm với em trình học tập nghiên cứu Đặc biệt hỗ trợ bạn Lê Hoàng, thầy hướng dẫn giới thiệu, giúp đỡ em nhiều trình tìm hiểu định hướng đề tài luận văn Em xin gửi lời cảm ơn đến ban lãnh đạo đồng nghiệp công ty Multi-it nơi em làm việc Công ty tạo điều kiện thuận lợi, đặc biệt việc xếp công việc thời gian linh động thời gian học tập hoàn thành luận văn Đồng thời em nhận hỗ trợ động viên đồng nghiệp thời gian vừa học tập, vừa làm việc công ty Cuối cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè người ln dành ủng hộ, quan tâm, động viên nguồn động lực cho em suốt trình học tập, nghiên cứu thực đề tài luận văn Nếu không nhận động viên, hỗ trợ đỡ từ người, chắn em khơng thể hồn thành tốt luận văn Một lần em xin dành biết ơn trân trọng hỗ trợ, giúp đỡ động viên tất người thời gian thực luận văn, suốt thời gian tham gia khoá học ii TĨM TẮT LUẬN VĂN Rút trích quan hệ tác vụ quan trọng tốn rút trích thơng tin, kết tốn rút trích quan hệ hỗ trợ cho nhiều ứng dụng khác hệ thống hỏi đáp, xây dựng sở tri thức Bài tốn rút trích quan hệ thực thể toán tương đối phức tạp nhiều hướng tiếp cận Trong nội dung đề tài luận văn này, học viên tập trung vào tốn học có giám sát, với phương pháp ứng dụng Graph Neural Network - GNN (Mạng Nơ-ron Đồ Thị), hướng tương đối mới, để giải toán rút trích quan hệ thực thể tập liệu tiếng Việt Trong nội dung đề tài này, học viên thực cơng việc • Tìm hiểu thêm GNN, thử nghiệm phương pháp ứng dụng mạng GNN cho bài tốn rút trích quan hệ thực thể tiếng việt, với mong muốn đóng góp ứng dụng tham khảo giúp mở rộng thêm phương pháp giải tốn rút trích quan hệ, với liệu tiếng Việt việc ứng dụng mơ hình GNN tập liệu tiếng Việt VLSP-2020-RE [1] Trong đó, việc xử lý liệu cho phù hợp yêu cầu toán, với liệu tiếng Việt trọng tâm • Sử dụng BERT trình embedding vector từ đầu vào, để tăng chất lượng embedding cải thiện kết đầu • Thử nghiệm mơ hình tìm hiểu ảnh hưởng cạnh nút, qua việc điều chỉnh số cạnh so với mơ hình đầy đủ qua đánh giá chọn lựa cho việc định hướng điều chỉnh mơ hình iii ABSTRACT OF DISSERTATION Extracting relations is an important task in information extraction, and the results of relation extraction can provide support for various applications such as question-answering systems and knowledge base construction The problem of extracting relations between entities is relatively complex and has multiple approaches In the content of this thesis, the researchers focus on the supervised learning problem, applying the GNN method, a relatively new approach, to address the problem of extracting relations between entities in Vietnamese datasets Through this thesis, the researchers perform the following tasks: • Further investigate GNN and experiment with applying GNN to extract relations between Vietnamese entities, aiming to contribute a reference application and expand the methods for solving relation extraction problems with Vietnamese data The application is performed on the VLSP-2020-RE Vietnamese dataset Processing the data appropriately according to the requirements of the Vietnamese relation extraction task is crucial to obtain suitable data for the training process • Utilize BERT for embedding input word vectors to enhance embedding quality and improve output results • Experiment with the model, including studying the impact of edge nodes by removing some edge nodes from the complete model, thereby evaluating choices for model orientation and adjustment to optimize computational costs iv LỜI CAM ĐOAN Tôi xin cam đoan luận văn tốt nghiệp: “ỨNG DỤNG MẠNG NƠ RON ĐỒ THỊ CHO BÀI TỐN RÚT TRÍCH QUAN HỆ GIỮA CÁC THỰC THỂ TRÊN TẬP DỮ LIỆU TIẾNG VIỆT” cơng trình nghiên cứu thân Những phần sử dụng tài liệu tham khảo luận văn nêu rõ phần tài liệu tham khảo Các số liệu, kết trình bày luận văn hồn tồn trung thực, sai tơi xin chịu hoàn toàn trách nhiệm chịu kỷ luật môn nhà trường đề Học viên Phạm Đăng Khoa v Mục lục Chương GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu đề tài 1.2 Mơ tả tốn rút trích quan hệ thực thể 1.3 Mục tiêu nhiệm vụ luận văn 1.4 Giới hạn đề tài 1.5 Đóng góp luận văn 1.6 Tóm tắt nội dung Chương CƠ SỞ KIẾN THỨC 2.1 Mơ hình Artificial Neural Network - ANN 2.2 Mơ hình Recurrent Neural Network - RNN 11 2.3 Mơ hình Long Short-Term Memory 16 2.4 Cơ chế Attention 21 2.5 Mơ hình Graph Neural Network - GNN 25 Chương CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN 30 Chương MƠ HÌNH ĐỀ XUẤT 35 4.1 Mơ Hình 35 4.2 Quá trình xử lý liệu 41 4.2.1 Tiền xử lý liệu 41 4.2.2 Chuyển liệu đầu vào sang định dạng phù hợp 42 4.3 Phương pháp đánh giá 44 4.3.1 precision, recall f1-score 44 4.3.2 micro-F1 45 4.4 Đề xuất sử dụng BERT cho tác vụ embedding vector đầu vào tiền xử lý liệu 46 4.4.1 Tham số cấu hình mơ hình 48 vi 4.4.2 Kết thực nghiệm thảo luận 49 Chương KẾT LUẬN 52 Tài liệu tham khảo 55 vii Danh sách hình vẽ 1.1 Mơ tả tốn rút trích quan hệ thực thể tốn rút trích thơng tin (Information Extraction) 2.1 Các thành phần nơ-ron thần kinh sinh học [2] 2.2 Cấu trúc perceptron 10 2.3 Cấu trúc mơ hình Recurrent Neural Network 12 2.4 Cơ chế hoạt động perceptron mô hình Recurrent Neural Network 13 2.5 Cơ chế hoạt động perceptron mô hình Long ShortTerm Memory 19 2.6 Kiến trúc mơ hình Bidirectional LSTM 21 2.7 Một số ứng dụng đồ thị [3] 25 2.8 Sơ đồ thể pipeline [3] xây dựng GNN model 26 2.9 Tích chập chiều tích chập đồ thị [3] 2.10 Quá trình tổng hợp cập nhật GNN [3] 27 28 2.11 Công thức tổng quát hàm tính tốn chế tổng hợp cập nhật [3] 29 3.1 Các mốc quan trọng tốn rút trích quan hệ sử dụng GNN[4] 30 3.2 Các báo tham khảo đề tài luận văn sử dụng GNN - hướng non-syntactic sử dụng cạnh 31 3.3 Tham khảo cách thức xây dựng cạnh, nút [5] 31 3.4 Tham khảo mơ hình Edge Oriented Graph - EOG [6] 32 viii F1 = ∗ precision ∗ recall precision + recall 4.3.2 micro-F1 Micro-precision, micro-recall micro-F1 số đánh giá quan trọng đánh giá hiệu suất mơ hình tồn quan hệ tốn phân loại quan hệ Micro-precision tính tỷ lệ quan hệ phân loại so với tổng số quan hệ dự đốn, tính đến tất quan hệ Cơng thức tính microprecision sau: micro-precision = ∑TP ∑ T P+ ∑ FP (4.9) Trong đó: − TP tổng tổng số quan hệ phân loại (true positive) − FP tổng tổng số quan hệ phân loại sai (false positive) tất quan hệ Micro-recall tính tỷ lệ quan hệ phân loại so với tổng số quan hệ thực tế liệu, tính đến tất quan hệ Cơng thức tính micro-recall sau: micro-recall = ∑TP ∑ T P+ ∑ FN (4.10) Trong đó: − TP tổng tổng số quan hệ phân loại − FN tổng tổng số quan hệ bị phân loại sai (false negative) tất quan hệ 45 Micro-F1 score trung bình điều hòa micro-precision microrecall, kết hợp khả phân loại xác khả bao phủ tất quan hệ micro-F1 = ∗ micro-precision ∗ micro-recall micro-precision + micro-recall (4.11) Micro-F1 score đưa đánh giá tồn diện hiệu suất mơ hình phân loại quan hệ toán relation extraction 4.4 Đề xuất sử dụng BERT cho tác vụ embedding vector đầu vào tiền xử lý liệu Tập liệu tiếng việt VLSP-2020-RE sử dụng đề tài tập liệu với đoạn văn lấy trang báo internet từ nhiều nguồn khác Chính mà liệu có tính đa dạng, nhiều record dạng chuẩn, nhiều liệu có độ dài lớn số record liệu có số câu lớn nhiều thực thể, quan hệ so với record cịn lại Hình 4.4 mô tả biểu đồ mô tả số lượng hệ record liệu tập train dev Theo dataset, số lượng quan hệ (trục y) document (trục x): : Ở tập train có document gồm 241 quan hệ, 43 lần so với mức trung bình tầm 5.37 quan hệ/document Tỉ lệ tập test trung bình 5.9, document nhiều khoảng 35 quan hệ Học viên sử dụng GPU A100 - 80GB, GPU thương mại có dung lượng GPU cao server cho thuê GPU cho trình huấn luyện, phải giảm 70% tham số chiều dài véc-tơ đầu vào mơ hình so với chiều dài tham số tham khảo cơng trình nghiên cứu liên quan [21] 46 Hình 4.4: Biểu đồ mơ tả số lượng quan hệ record liệu tập train dev train được, kết chưa tốt Do đặc thù mơ hình GNN yêu cầu phải xây dựng đồ thị gồm nhiều nút document, chi phí tính khơng gian tốn lớn, có nhiều quan hệ mẫu liệu nhiều câu document cần nhiều khơng gian tính tốn − Học viên thử tách đoạn văn lớn thành đoạn nhỏ mà đảm bảo thực thể câu không thay đổi (quan hệ không thay đổi), ảnh hưởng tới ngữ cảnh liên kết câu − Tuy nhiên, tập liệu có quan hệ xét tới cặp thực thể bên câu (intra-sentence hay sentence-level), tập xét tới cặp quan hệ có hai câu khác (inter-sentence hay document-level), nên việc tách đoạn khơng ảnh hưởng q nhiều tới việc dự đốn quan hệ Mặc dù có cải thiện tốt hiệu không cần sử dụng GPU lớn giảm kích thước liệu xử lý kết f1-score tốt Tuy nhiên, mơ hình chưa có thực đạt hiệu mong đợi Học viên tiếp tục sử dụng BERT để embedding cho từ đầu vào thay 47 đưa trực tiếp từ vào để dùng lớp embedding thơng thường mơ hình Việc sử dụng BERT để embedding vector từ đầu vào cho kết tốt rõ rệt 0.61 so với việc đưa trực tiếp từ vào để sử dụng cách embedding thơng thường mơ hình có kết 0.53 4.4.1 Tham số cấu hình mơ hình Bảng 4.2: Các tham số cho mơ hình GNN edge orientation Tham số Batch size Epochs Learning rate Regularization LSTM dimension in Dimension out Dropout word embedding layer (in) Dropout classification layer (out) Word dimension β Optimizer Inference iterations Giá trị 50 0.0035 0.00011 73 73 0.52 0.27 192 0.7 Adam [0,2] Bảng 4.2 mô tả tham số dùng cho mơ hình Thay đổi so với mơ hình tham khảo, học viên sử dụng BERT cho tầng embedding, mơ hình huấn luyện với batch size dùng 50 epoch Tầng Embedding có dropout (in) với tỉ lệ 0.52 Tầng relation classification có dropout (out) 0.27 giá trị learning rate 0.0035, véc-tơ biểu diễn từ có độ dài 192 Giá trị β 0.75, nghiêng phía đường ngắn hơn, thể mối quan hệ hai nút mô tả tốt thông qua đường ngắn hai nút Tuy nhiên, có tham gia đáng kể đường dài trình đồ thị tổng hợp tham số Số bước l từ tới thể 48 số bước từ nút xét tới nút lân cận mô tả cạnh nút Trong thử nghiệm, học viên thử chạy tối đa bước từ tới 4, giá trị l cho kết tốt với tập liệu tiếng việt VLSP-2020 l 4.4.2 Kết thực nghiệm thảo luận Bảng 4.3: Kết thực nghiệm mơ hình GNN - EoG (Edge orientation Graph) so với phương pháp khác tập liệu tiếng việt VLSP-2020-RE Mơ hình BERT - base (HT-HUS) BERT - ES (MinhPQN) GNN - EoG micro f1 tập dev 0.93 0.71 0.61 Việc sử dụng BERT q trình embedding vector từ đầu vào có hiệu rõ tốt, so với việc đưa trực tiếp từ vào sử dụng phương pháp embedding bình thường one-hot encoding Ở giai đoạn đầu thí nghiệm kết f1-score chưa sử dụng BERT 0.53, sau sử dụng BERT để embedding từ đầu vào, kết nâng lên nhanh 0.610 bảng 4.3 Trong bảng 4.3, kết tập dev mô hình so sánh với kết báo Vietnamese relation extraction with BERT-based models at VLSP 2020 tác giả T.Nguyễn H.Mẫn [23] An empirical study of using pre-trained BERT [22] tác giả P.Q.N.Minh Kết việc thử nghiệm GNN thấp so với mơ hình sử dụng BERT, thời gian chuẩn bị có giới hạn, học viên chưa đủ thời gian thử nghiệm, cải thiện chất lượng liệu tốt thử nghiệm nhiều tùy chỉnh với mơ hình 49 Bảng 4.4: Kết thực nghiệm so sánh việc sử dụng toàn cạnh loại bỏ số cạnh Loại bỏ cạnh EoG đầy đủ MM ME MS ES SS ES, SS (EE trực tiếp từ nút E ) Dùng cạnh MM, ME, MS, ES, SS ME, MS, ES, SS MM, MS, ES, SS MM, ME, ES, SS MM, ME, MS, SS MM, ME, MS, ES MM, ME, MS MM, ME, MS, ES, SS, EE dev micro f1 0.581 0.571 0.546 0.567 0.600 0.588 0.616 0.543 Để đánh giá đóng góp loại cạnh việc tổng hợp đặc trưng cho việc dự đoán quan hệ, học viên thử nghiệm việc loại bớt số cạnh so sánh với mơ hình đầy đủ Kết thử nghiệm hình 4.4 cho thấy: − Ảnh hưởng cạnh MM, MS không lớn loại cạnh khỏi mơ hình, với mức giảm 0.01 0.014 − Với cạnh ME mức độ giảm 0.035, tương đối nhiều so với mức đầy đủ 0.581 − Trong đó, khơng có cạnh SS ES kết lại có phần nhỉnh đạt 0.588 0.600 So với mơ hình đầy đủ, kết cải thiện tốt − Việc kết hợp loại bỏ hai cạnh ES SS, hai cạnh mà loại bỏ mang lại kết tốt hơn, cho kết cao 0.616 − Đặc biệt, trường hợp, cạnh EE suy trực tiếp từ hai nút E, không thông qua nút trung gian (bỏ Inference Layer) kết f1 không vượt mức 0.543 cách kết mô hình đầy đủ 0.04 (4%) 50 cách kết tốt gần 0.07 (7%) Điều thể chênh lệch khơng sử dụng có sử dụng inference layer, nghĩa việc sử dụng đặc trưng tổng hợp đồ thị, cụ thể vai trị cạnh khác có ảnh hưởng rõ tới việc tổng hợp đặc trưng phục vụ cho việc suy luận đặc trưng cạnh EE cách gián tiếp Các nhận xét mức độ ảnh hướng loại bỏ cạnh mơ hình phụ thuộc nhiều vào tính chất tập liệu, tình trạng xử lý liệu Kết sử dụng để đánh giá ảnh hưởng loại cạnh, tìm thêm hướng cho việc cải thiện trình xử lý liệu điều chỉnh mơ hình để cải thiện thêm kết dự đoán 51 Chương KẾT LUẬN Trong nội dung đề tài, học viên giải vấn đề: − Xử lý liệu cho phù hợp với yêu cầu với yêu cầu tốn, đặc biệt với liệu tiếng Việt Với mơ hình GNN, để phục vụ cho việc xây dựng nút, cạnh hiệu dựa vào thực thể hay câu, liệu đầu vào cần phải tiền xử lý nhiều để có liệu phù hợp cho trình huấn luyện − Sử dụng BERT trình embedding vector từ đầu vào, giúp cải thiện kết huấn luyện Qua trình thực đề tài tập liệu VLSP-2020-RE với mơ hình GNN, học viên nhận thấy số vấn đề sau: Các mơ hình có sử dụng đồ thị thường phải tiêu tốn chi phí nhiều cho việc xây dựng đồ thị từ cách cạnh nút, số lượng cặp thực thể có bắt cặp có quan hệ ảnh hưởng nhiều tới kích thước liệu mẫu liệu, dẫn tới việc phải tách câu hiệu để tránh cặp thực thể không cần thiết, tiêu tốn nhớ gây nhiễu Với tập liệu tiếng Việt VLSP-2020-RE đoạn tài liệu mẫu liệu cần tiền xử lý để có kích thước, số lượng câu, thực thể giới hạn để tránh việc không đủ nhớ trình huấn luyện, đồng thời việc có phân bố q khác số lượng câu, thực thể mẫu liệu ảnh hưởng yếu tố gây nhiễu, làm ảnh hưởng tới chất lượng mơ hình học Sử dụng pre-train model BERT q trình embedding vector từ đầu vào mang lại hiệu rõ rệt ứng dụng cách phù hợp 52 Việc thêm bớt nút, cạnh mơ hình GNN cung cấp thêm chọn lựa cho việc định hướng, thử nghiệm điều chỉnh linh hoạt mơ hình, tuỳ vào hiểu biết tập liệu tính chất, đóng góp nút cạnh mơ hình Kết thử nghiệm trình thực cịn chưa cao, có thêm điều chỉnh, bổ sung phát triển thêm tương lai đặc biệt hướng bản, gần với mơ hình tại: − Tiếp tục xử lý thêm liệu, theo hướng trực quan hố dựa đặc tính thực thể việc đóng góp vào việc xây dựng đồ thị Đồng thời, tìm hiểu thêm mức độ ảnh hưởng loại cạnh tới kết mơ hình Từ làm giàu thêm liệu dựa hiểu biết mơ hình GNN sử dụng tính chất liệu − Can thiệp sâu vào mơ hình tại, thay đổi số layer tầng trung gian Cuối cùng, mơ hình phát triển thêm với hướng mở rộng hơn, kết hợp thêm phương pháp tiềm như: − Áp dụng thêm Graph Attention (GAT) [24], phương pháp dựa ý tưởng chế Attention ứng dụng đồ thị, để tăng hiệu với việc tập trung vào thành phần quan trọng đồ thị − Mơ hình khơng sử dụng cú pháp, ngữ pháp, nhiên việc xây dựng đồ thị mô tả quan hệ thành phần hồn tồn sử dụng hiểu biết dependency tree hay syntactic để cải thiện chất lượng việc xây dựng nút, cạnh chế tổng hợp GNN cho tốn trích quan hệ 53 Hiện tại, việc nghiên cứu phát triển giải thuật, kết hợp phương pháp học máy cho tốn rút trích quan hệ thực thể tiếng Việt chưa nhiều đa dạng Qua đề tài này, học viên muốn tìm hiểu thêm GNN, thử nghiệm phương pháp ứng dụng mạng GNN cho tốn rút trích quan hệ thực thể tiếng Việt Với mong muốn đóng góp ứng dụng tham khảo giúp mở rộng thêm phương pháp giải tốn rút trích quan hệ với liệu tiếng Việt, học viên hy vọng phương pháp ứng dụng mạng nơ-ron đồ thị cho tốn rút trích thực thể tiếng Việt tham khảo phát triển, mở rộng tương lai 54 Tài liệu tham khảo [1] V T Mai, H.-Q Le, D.-C Can, T M H Nguyen, T N L Nguyen, and T T Doan, “Overview of VLSP RelEx shared task: A data challenge for semantic relation extraction from Vietnamese news,” in Proceedings of the 7th International Workshop on Vietnamese Language and Speech Processing, (Hanoi, Vietnam), pp 92–98, Association for Computational Lingustics, Dec 2020 [2] G Roffo, “Ranking to learn and learning to rank: On the role of ranking in pattern recognition applications,” CoRR, vol abs/1706.05933, 2017 [3] J Zhou, G Cui, S Hu, Z Zhang, C Yang, Z Liu, L Wang, C Li, and M Sun, “Graph neural networks: A review of methods and applications,” AI Open, vol 1, pp 57–81, 2020 [4] D Liu, Y Zhang, and Z Li, “A survey of graph neural network methods for relation extraction,” in 2022 IEEE 10th Joint International Information Technology and Artificial Intelligence Conference (ITAIC), vol 10, pp 2209–2223, 2022 [5] W Xu, K Chen, and T Zhao, “Document-level relation extraction with reconstruction,” in AAAI Conference on Artificial Intelligence, 2020 [6] F Christopoulou, M Miwa, and S Ananiadou, “Connecting the dots: Document-level neural relation extraction with edge-oriented graphs,” in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), (Hong Kong, 55 China), pp 4925–4936, Association for Computational Linguistics, Nov 2019 [7] E Christopoulou, “Textual relation extraction with edge-oriented graph neural models,” Student thesis: Phd in The University of Manchester, 2020 [8] F Scarselli, M Gori, A C Tsoi, M Hagenbuchner, and G Monfardini, “The graph neural network model,” Trans Neur Netw., vol 20, p 61–80, jan 2009 [9] M Schuster and K Paliwal, “Bidirectional recurrent neural networks,” IEEE Transactions on Signal Processing, vol 45, no 11, pp 2673– 2681, 1997 [10] D Q Nguyen and A Tuan Nguyen, “PhoBERT: Pre-trained language models for Vietnamese,” in Findings of the Association for Computational Linguistics: EMNLP 2020, (Online), pp 1037–1042, Association for Computational Linguistics, Nov 2020 [11] J Devlin, M.-W Chang, K Lee, and K Toutanova, “BERT: Pretraining of deep bidirectional transformers for language understanding,” in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, vol (Long and Short Papers), (Minneapolis, Minnesota), pp 4171–4186, Association for Computational Linguistics, June 2019 [12] J J Hopfield, “Artificial neural networks,” IEEE Circuits and Devices Magazine, vol 4, no 5, pp 3–10, 1988 56 [13] Y LeCun, Y Bengio, and G Hinton, “Deep learning,” nature, vol 521, no 7553, pp 436–444, 2015 [14] T Mikolov, M Karafiát, L Burget, J Cernockỳ, and S Khudanpur, “Recurrent neural network based language model.,” in Interspeech, vol 2, pp 1045–1048, Makuhari, 2010 [15] A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, A N Gomez, Ł Kaiser, and I Polosukhin, “Attention is all you need,” Advances in neural information processing systems, vol 30, 2017 [16] N Peng, H Poon, C Quirk, K Toutanova, and W.-t Yih, “Crosssentence n-ary relation extraction with graph LSTMs,” Transactions of the Association for Computational Linguistics, vol 5, pp 101–115, 2017 [17] D Marcheggiani and I Titov, “Encoding sentences with graph convolutional networks for semantic role labeling,” in Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, (Copenhagen, Denmark), pp 1506–1515, Association for Computational Linguistics, Sept 2017 [18] D Nathani, J Chauhan, C Sharma, and M Kaul, “Learning attentionbased embeddings for relation prediction in knowledge graphs,” CoRR, vol abs/1906.01195, 2019 [19] G Nan, Z Guo, I Sekulic, and W Lu, “Reasoning with latent structure refinement for document-level relation extraction,” in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, (Online), pp 1546–1557, Association for Computational Linguistics, July 2020 57 [20] A Bastos, A Nadgeri, K Singh, I O Mulang’, S Shekarpour, and J Hoffart, “RECON: relation extraction using knowledge graph context in a graph neural network,” CoRR, vol abs/2009.08694, 2020 [21] F Christopoulou, M Miwa, and S Ananiadou, “A walk-based model on entity graphs for relation extraction,” in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), (Melbourne, Australia), pp 81–88, Association for Computational Linguistics, July 2018 [22] P Q N Minh, “An empirical study of using pre-trained BERT models for vietnamese relation extraction task at VLSP 2020,” CoRR, vol abs/2012.10275, 2020 [23] T Nguyễn and H Mẫn, “Vietnamese relation extraction with BERTbased models at VLSP 2020,” in Proceedings of the 7th International Workshop on Vietnamese Language and Speech Processing, (Hanoi, Vietnam), pp 30–34, Association for Computational Lingustics, Dec 2020 [24] P Velickovic, G Cucurull, A Casanova, A Romero, P Lio’, and Y Bengio, “Graph attention networks,” ArXiv, vol abs/1710.10903, 2018 58 PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: PHẠM ĐĂNG KHOA Ngày, tháng, năm sinh: 04/09/1992 Nơi sinh: Đắc Lắc Địa liên lạc: 106C - thôn Kim Châu, xã Dray Bhăng, huyện Cư Kuin, tỉnh Đắc Lắc QUÁ TRÌNH ĐÀO TẠO - Tháng 9/2010 – Tháng 4/2015: Sinh viên, chuyên ngành Kỹ Thuật Điện, khoa Điện - Điện Tử, trường Đại học Bách Khoa ĐHQG-HCM - Tháng 9/2019 – nay: Học viên cao học, chuyên ngành Khoa học Máy tính, trường Đại học Bách Khoa – ĐHQG-HCM Q TRÌNH CƠNG TÁC - Tháng 2/2016 – Tháng 12/2017: Kỹ sư điện, Công ty cổ phần xây dựng Coteccons - Tháng 2/2018 – Tháng 6/2018: Kỹ sư điện, Công ty điện Sanyo Engineering - Tháng 3/2019 – Tháng 3/2020: Kỹ sư sản xuất, Công ty Intel Việt Nam - Tháng 4/2020 – Tháng 4/2021: Lập trình viên, Cơng ty phần mềm PIX - Tháng 4/2021 - nay: Lập trình viên, Cơng ty dịch vụ phần mềm logistic Multi:IT A/S

Ngày đăng: 25/10/2023, 22:19

Tài liệu cùng người dùng

Tài liệu liên quan