MÔ HÌNH NGÔN NGỮ TIỀN HUẤN LUYỆN CHO BÀI TOÁN GÁN NHÃN NGỮ NGHĨA TRÊN VĂN BẢN Y SINH MÔ HÌNH NGÔN NGỮ TIỀN HUẤN LUYỆN CHO BÀI TOÁN GÁN NHÃN NGỮ NGHĨA TRÊN VĂN BẢN Y SINH MÔ HÌNH NGÔN NGỮ TIỀN HUẤN LUYỆN CHO BÀI TOÁN GÁN NHÃN NGỮ NGHĨA TRÊN VĂN BẢN Y SINH MÔ HÌNH NGÔN NGỮ TIỀN HUẤN LUYỆN CHO BÀI TOÁN GÁN NHÃN NGỮ NGHĨA TRÊN VĂN BẢN Y SINH MÔ HÌNH NGÔN NGỮ TIỀN HUẤN LUYỆN CHO BÀI TOÁN GÁN NHÃN NGỮ NGHĨA TRÊN VĂN BẢN Y SINH MÔ HÌNH NGÔN NGỮ TIỀN HUẤN LUYỆN CHO BÀI TOÁN GÁN NHÃN NGỮ NGHĨA TRÊN VĂN BẢN Y SINH MÔ HÌNH NGÔN NGỮ TIỀN HUẤN LUYỆN CHO BÀI TOÁN GÁN NHÃN NGỮ NGHĨA TRÊN VĂN BẢN Y SINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN VĂN TRỊ – PHAN THIÊN PHÚC MÔ HÌNH NGƠN NGỮ TIỀN HUẤN LUYỆN CHO BÀI TỐN GÁN NHÃN NGỮ NGHĨA TRÊN VĂN BẢN Y SINH KHÓA LUẬN TỐT NGHIỆP CỬ NHÂN CNTT CHƯƠNG TRÌNH CHÍNH QUY Tp Hồ Chí Minh, tháng 06/2022 TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN VĂN TRỊ – 18120614 PHAN THIÊN PHÚC – 18120514 MƠ HÌNH NGƠN NGỮ TIỀN HUẤN LUYỆN CHO BÀI TOÁN GÁN NHÃN NGỮ NGHĨA TRÊN VĂN BẢN Y SINH KHÓA LUẬN TỐT NGHIỆP CỬ NHÂN CNTT CHƯƠNG TRÌNH CHÍNH QUY GIÁO VIÊN HƯỚNG DẪN Ths TUẤN NGUN HỒI ĐỨC Tp Hồ Chí Minh, tháng 06/2022 Lời cảm ơn Chúng em xin chân thành cảm ơn Khoa Công Nghệ Thông Tin, trường Đại Học Khoa Học Tự Nhiên, Đại học Quốc Gia Tp.HCM tạo điều kiện cho chúng em hoàn thành tốt khóa luận tốt nghiệp Chúng em xin chân thành bày tỏ lòng biết ơn sâu sắc đến thầy Tuấn Ngun Hồi Đức - Bộ mơn Hệ thống thơng tin – Khoa cơng nghệ thơng tin Trong q trình làm việc, thầy ln tận tình hướng dẫn, định hướng, giúp đỡ động viên nhóm chúng em nhiều Chúng em xin gửi lời cảm ơn đến quý Thầy Cô khoa Công Nghệ Thông Tin tận tình giảng dạy suốt thời gian chúng em học trường Thầy Cô trang bị cho chúng em kiến thức tảng vững suốt trình học tập, giúp chúng em thêm phần tự tin để hồn thành tốt khóa luận tốt nghiệp Bên cạnh đó, chúng em xin bày tỏ lời cảm ơn chân thành đến cha mẹ, anh chị, bạn bè động viên, khích lệ, giúp chúng em vượt qua khó khăn suốt q trình thực luận văn Một lần nữa, nhóm xin cảm ơn mong nhận góp ý kiến xây dựng, chân thành từ tất người Đề cương chi tiết ĐỀ CƯƠNG KHỐ LUẬN TỐT NGHIỆP MƠ HÌNH NGƠN NGỮ TIỀN HUẤN LUYỆN CHO BÀI TOÁN GÁN NHÃN NGỮ NGHĨA TRÊN VĂN BẢN Y SINH (Pre-trained language model for biomedical Semantic Role Labeling) THÔNG TIN CHUNG Người hướng dẫn: Ths Tuấn Ngun Hồi Đức (Khoa Cơng nghệ Thơng tin) Nhóm sinh viên thực hiện: Phan Thiên Phúc (MSSV: 18120514) Nguyễn Văn Trị (MSSV: 18120614) Loại đề tài: Nghiên cứu Thời gian thực hiện: Từ 01/2022 đến 07/2022 NỘI DUNG THỰC HIỆN 2.1 Giới thiệu đề tài Chăm sóc sức khỏe ln nhu cầu thiết yếu người, thời kì đại dịch xuất khiến giới phải chịu thiệt hại nặng nề Y Sinh (Biomedicine) ngành khoa học nghiên cứu, ứng dụng cơng nghệ vào việc chăm sóc sức khỏe người Ngành khoa học ngày khẳng định tiềm to lớn chẩn đốn điều trị bệnh thời gian gần đây, có xuất đại dịch COVID-19 Đây hội tốt cho nhóm ngành khoa học nói chung nhóm ngành xử lý ngơn ngữ tự nhiên (Natural Language Processing) nói riêng, nghiên cứu ứng dụng họ góp phần vào phát triển ngành Y Sinh Sự phát triển không ngừng Y Sinh thời gian gần dẫn đến việc kho tri thức ngành tích luỹ cách chóng mặt, phần lớn dạng văn Việc khai thác hiệu kho tri thức giúp ích nhiều cho hoạt động nghiên cứu sau Tuy nhiên, với khối lượng văn đồ sộ ngữ liệu sử dụng việc học tập huấn luyện lại ỏi Hiện giới có nhiều kho ngữ liệu lớn dùng làm ngữ liệu cho việc huấn luyện FrameNet[ CITATION \l 1033 ], VerbNet[ CITATION \l 1033 ], PropBank[ CITATION \l 1033 ] Tuy nhiên ngữ liệu thu thập có tính tổng quát khó ứng dụng sâu vào chuyên ngành nào, Y Sinh Trong lĩnh vực Y Sinh, việc khai thác văn Y Sinh thách thức lớn hệ thống ngơn ngữ có tính trừu tượng, cấu trúc phức tạp, từ vựng ngữ nghĩa khác biệt so với ngôn ngữ đơn Việc hạn chế vấn đề ngữ liệu ỏi đầu vào gây nhiều khó khăn việc học tập huấn luyện, khiến cho kết khơng kì vọng Đã có nhiều cơng trình nghiên cứu phục vụ cho việc khắc phục vấn đề ngữ liệu cho tốn Gán nhãn ngữ nghĩa [ CITATION \l 1033 ] Vì vậy, khóa luận chọn nghiên cứu đề xuất giải pháp giúp khắc phục vấn đề ngữ liệu huấn luyện cho toán Gán nhãn ngữ nghĩa từ văn Y Sinh 2.2 Mục tiêu đề tài Nghiên cứu đề xuất mơ hình học sâu cho tốn Gán nhãn Ngữ nghĩa văn Y sinh tiến hành thử nghiệm đánh giá mơ hình Mơ hình đề xuất cần đáp ứng hai tiêu chí mà Khóa luận hướng tới: Vận dụng kỹ thuật học sâu tiên tiến thu hút nhiều quan tâm cộng đồng nghiên cứu (như kỹ thuật Transformer) Tích hợp giải pháp khắc phục vấn đề cố hữu toán Gán nhãn Ngữ nghĩa văn Y sinh: Kích thước ngữ liệu huấn luyện hạn chế (dưới 2000 câu [ CITATION \l 1033 ]) so với ngữ liệu huấn luyện lĩnh vực tổng quát (hơn 10000 câu[ CITATION \l 1033 ]) 2.3 Phạm vi đề tài Phạm vi đề tài: Nghiên cứu sở lý thuyết PAS tổng quát PAS lĩnh vực Y Sinh Nghiên cứu ngữ liệu PAS có lĩnh vực Y Sinh phân tích điểm mạnh, điểm hạn chế ngữ liệu: BioProp [ CITATION \l 1033 ], PASBio [ CITATION \l 1033 ], GREC [ CITATION \l 1033 ] Khảo sát trạng nghiên cứu SRL nói chung SRL cho văn Y Sinh nói riêng Đề xuất mơ hình lựa chọn ngữ liệu phù hợp với mơ hình để xuất Huấn luyện mơ hình đề xuất phân tích, đánh giá kết thử nghiệm 2.4 Cách tiếp cận kiến Khố luận nghiên cứu mơ hình học sâu sử dụng phương pháp Multitask Learning mơ hình học sâu (Deep Learning), sử dụng phương pháp Nhận dạng thực thể (Entity Regconization) làm tác vụ bổ trợ (Auxiliary task), thu thập thêm thơng tin để bổ trợ cho q trình Gán nhãn ngữ nghĩa Từ giải vấn đề ngữ liệu cho văn lĩnh vực Y Sinh 2.5 Kết dự kiến đề tài Dự kiến kết đạt đề tài: Mô hình học sâu sử dụng kỹ thuật Transformer giúp Gán nhãn ngữ nghĩa tự động tập ngữ liệu có kích thước hạn chế 2.6 Kế hoạch thực Tháng 2, năm 2022 Nghiên cứu báo khoa học, tìm hiểu cơng trình liên quan: Phan Thiên Phúc, Nguyễn Văn Trị Tháng 3, năm 2022 Xây dựng đề cương nghiên cứu: Phan Thiên Phúc, Nguyễn Văn Trị Tìm hiểu chi tiết lý thuyết cách xây dựng mơ hình học sâu lĩnh vực xử lý ngôn ngữ tự nhiên: Phan Thiên Phúc, Nguyễn Văn Trị Tìm hiểu phương pháp sử dụng: o Multitask Learning: Phan Thiên Phúc, Nguyễn Văn Trị Tháng 4, năm 2022 Tìm hiểu làm quen với tập ngữ liệu Y Sinh đề xuất: Phan Thiên Phúc, Nguyễn Văn Trị Thực triển khai xây dựng mơ hình Gán nhãn ngữ nghĩa có kết hợp với phương pháp tìm hiểu: Phan Thiên Phúc, Nguyễn Văn Trị Viết báo cáo khoá luận chương 1, 2, 3: Phan Thiên Phúc, Nguyễn Văn Trị Tháng 5, năm 2022 Viết báo cáo khoá luận chương 4, 5: Phan Thiên Phúc, Nguyễn Văn Trị Hồn thành xây dựng mơ hình đề ra, thử chạy tập ngữ liệu cho trước đánh giá kết quả: Phan Thiên Phúc, Nguyễn Văn Trị Tháng 6, năm 2022 Hoàn thành báo cáo khoá luận: Phan Thiên Phúc, Nguyễn Văn Trị Đánh giá, so sánh kết mơ hình xây dựng với báo, cơng trình nghiên cứu liên quan Tìm cách tối ưu, cải tiến mơ hình xây dựng được: Phan Thiên Phúc, Nguyễn Văn Trị Tháng 7, năm 2022 Hồn thành mơ hình, mục tiêu đề kết dự kiến đề tài: Phan Thiên Phúc, Nguyễn Văn Trị Trình bày bảo vệ khoá luận trước Hội Đồng: Phan Thiên Phúc, NguyễnVăn Trị Mục lục Lời cảm ơn i Đề cương chi tiết ii Mục lục vi Danh sách hình .ix Danh sách bảng .x Chương Giới thiệu 12 1.1 Lý chọn đề tài 12 1.2 Giới thiệu đề tài 13 1.3 Thách thức toán hướng giải đề tài 13 1.4 Mục tiêu đề tài 14 Chương Cấu trúc đối số vị ngữ 14 2.1 Cấu trúc đối số vị ngữ 15 2.2 Các khung đối số phổ biến .17 2.2.1 VerbNet .18 2.2.2 FrameNet 19 2.2.3 PropBank 19 2.3 Cấu trúc đối số vị ngữ văn Y Sinh 19 2.4 Các khung đối số Y Sinh 21 2.4.1 BioProp .21 2.4.1.1 Giới thiệu chung 21 2.4.1.2 Khung động từ Y Sinh BioProp .22 2.4.2 GREC 23 2.4.2.1 Giới thiệu chung 23 2.4.2.2 Thống kê nhãn ngữ nghĩa 23 2.4.3 PASBio 24 2.4.3.1 Giới thiệu chung 24 2.4.3.2 Xây dựng PASBio 24 2.4.3.3 Khung động từ PASBio 24 2.4.3.4 Kết 25 2.4.4 Nhận xét 25 Chương Những nghiên cứu rút trích Cấu trúc Đối số Vị ngữ 26 3.1 Hướng tiếp cận dựa luật 26 3.2 Hướng tiếp cận Khớp mẫu .28 3.3 Hướng tiếp cận học máy 31 3.3.1 Học máy có giám sát 31 3.3.2 Học máy bán giám sát .33 3.3.3 Học không giám sát 34 3.3.4 Học sâu 35 3.3.4.1 Bio 36 3.3.4.2 Span 38 3.3.4.3 Dependency .43 Chương Phương pháp thực 50 4.1 Giới thiệu mơ hình học sâu Transformer 50 4.2 Head 53 4.3 Transformer 54 4.3.1 BERT 54 Hình 4.5: Mơ hình Masked LM BERT Để Masked LM có 15% số lượng từ chuỗi thay token (gọi mask) Khi mơ hình dự đoán từ bị che mask với ngữ cảnh 85% từ cịn lại khơng bị che Q trình qua bước xử lý: Thêm classification layer với input output Encoder Nhân vector đầu với ma trận embedding để đưa chúng khơng gian từ vựng (vocabulary dimensional) Tính xác suất từ tập từ vựng sử dụng hàm softmax Chỉ từ đánh dấu mask đánh giá qua hàm loss function Điều giúp BERT hiểu ngữ cảnh tốt Next Sentence Prediction Để dự đốn câu có phải câu câu hay khơng, mơ hình sử dụng 50% lượng liệu đầu vào cặp câu mà câu thứ câu thứ Trong 50% số cặp cịn lại chọn ngẫu nhiên từ tập liệu Khi xử lý liệu đầu vào tuân theo nguyên tắc sau : Chèn token CLS vào trước câu SEP vào cuối câu Các token câu đánh dấu A B 56 Chèn thêm vector embedding biểu diễn vị trí token câu NSP bao gồm bước sau: Toàn câu đầu vào đưa vào Transformer Chuyển vector output CLS kích thước 2x1 classification layer Tính tốn xác suất IsNextSequence softmax Fine-tuning Để fine-turning mơ hình lấy hiden state lớp cuối (đầu lớp Transformer cho token đầu tiên).Tham số trình fine-turning W Tất tham số BERT W fine-turning để tối ưu hóa hàm lỗi 4.3.2 BioBERT BioBERT (Bidirectional Encoder Representations from Transformers for Biomedical Text Mining[ CITATION 60 \l 1033 ]) mơ hình biểu diễn ngơn ngữ y sinh thiết kế cho tác vụ khai thác văn y sinh nhận dạng thực thể đặt tên (NER), trích xuất quan hệ (RE), trả lời câu hỏi (QA), BioBERT biến thể mơ hình BERT giới thiệu chương trước, đến từ nhà nghiên cứu Đại Học Hàn Quốc trung tâm Clova AI Các nhà nghiên cứu thêm vào kho tài liệu BERT gốc với PubMed PMC PubMed kho lưu trữ trích dẫn tóm tắt y sinh, PMC kho lưu trữ điện tử báo toàn văn Trong hội nghị Bioinformatics'2020, họ giới thiệu mơ hình biểu diễn ngơn ngữ y sinh quản lý nhiệm vụ trích xuất quan hệ khám phá thuốc để đặt tên cho số loại thuốc Bằng cách sử dụng mô hình đào tạo trước bao gồm kho ngữ liệu tên miền y sinh tổng quát, nhà nghiên cứu đóng gói thuật ngữ chun ngành Y sinh mà mơ hình ngơn ngữ chung khó sánh 57 Văn chia nhỏ BERT BioBERT thông qua WordPiece tokenizer (một thuật tốn mã hóa từ khóa phụ thường sử dụng cho BERT, DistilBERT, and Electra)[ CITATION 61 \l 1033 ], chia nhỏ từ thành từ phụ thường dùng Lấy ví dụ, từ Immunoglobulin mã hóa thành phần cấu thành là: I ## mm ## una ## g ## lo ## bul ## in Những mảnh ghép từ sử dụng tính linh hoạt ký tự nghĩa chung từ thông qua tổ hợp ký tự Các tác vụ tinh chỉnh để đạt kết tốt với BioBERT bao gồm nhận dạng thực thể đặt tên (NER), gán nhãn ngữ nghĩa (SRL) trích xuất mối quan hệ (RE) Với kiến trúc gần giống tất tác vụ, BioBERT tỏ vượt trội hẳn so với BERT mơ hình đại trước nhiều nhiệm vụ khai thác văn y sinh đào tạo trước kho ngữ liệu y sinh Trong BERT đạt hiệu suất tương đương với mơ hình đại trước đây, BioBERT vượt trội đáng kể so với chúng ba nhiệm vụ khai thác văn y sinh đại diện sau: Nhận dạng thực thể có tên y sinh - biomedical named entity recognition (cải thiện 0,62% điểm F1)[ CITATION 62 \l 1033 ], trích xuất quan hệ y sinh - biomedical relation extraction (cải thiện 2,80% điểm F1)[ CITATION 63 \l 1033 ] trả lời câu hỏi y sinh - biomedical question answering (cải thiện 12,24% MRR)[ CITATION 64 \l 1033 ] Chương Thực nghiệm kết Chương trình bày q trình thực nghiệm khóa luận kết đạt áp dụng mơ hình tiền huấn luyện vào văn Y Sinh 5.1 Dữ liệu thực nghiệm – GREC 5.1.1 Giới thiệu chung Trong ngữ liệu Y Sinh giới thiệu chương 2, khóa luận sử dụng ngữ liệu GREC GREC kho ngữ liệu xây dựng Thompson cộng 58 vào năm 2008 [34] cơng trình trực thuộc trung tâm Text Mining (NaCTeM), khoa Khoa học Máy tính, trường đại học Manchester, Anh Cơng trình bổ sung hoàn thiện từ năm 2008 01/08/2011 Bộ ngữ liệu lấy từ phần khái quát 677 báo nghiên cứu Y Sinh nghiên cứu sinh có kinh nghiệm lĩnh vực Y Sinh Mơ hình xét thấy phù hợp với ngữ cảnh khóa luận điểm sau: Mục tiêu liệu gán nhãn đối số vị ngữ cho kiện đưa câu Bộ ngữ liệu gán nhãn thực thể có tên (NER) 5.1.2 Thống kê câu Bảng số thống kê liên quan đến câu liệu Bảng 5.5: Thống kê số câu GREC STT Tiêu chí Thống kê Tổng số câu 1489 (câu) Tổng số kiện gán nhãn 4770 (sự kiện) Số lượng từ trung bình câu 26 (từ / câu) Số từ cao câu ~70 (từ) Từ ta thấy số đặc điểm ngữ liệu theo thống kê câu dài chứa nhiều kiện Nhưng đặc điểm lợi q trình huấn luyện mơ hình 5.1.3 Thống kê nhãn ngữ nghĩa Dưới 13 nhãn ngữ nghĩa ngữ liệu Bảng 5.6: Thống kê ngữ nghĩa GREC Nhãn ngữ nghĩa AGENT Ý nghĩa Đối tượng gây ra/ xúc tác 59 Ví dụ (bằng tiếng Anh) (*in đậm: cụm gán nhãn, *in nghiêng: vị ngữ chính) The narL gene product phản ứng THEME Ảnh hưởng/ kết phản ứng Trạng thái MANNER INSTRUMENT LOCATION SOURCE DESTINATION TEMPORAL CONDITION RATE phản ứng Phương pháp/ cách activates the nitrate reductase operon The narL gene product activates the nitrate reductase operon cpxA gene increases the levels of csgA phản ứng xảy transcription by dephosphorylation of CpxR Chất xúc tác phản ứng EnvZ functions through OmpR to control NP porin gene expression in Escherichia coli K12 Nơi diễn phản ứng Phosphorylation of OmpR modulates expression of the ompF and ompC genes in Escherichia coli Điểm bắt đầu A transducing lambda phage was isolated from a strain harboring a glpD’’lacZ fusion Điểm kết thúc Transcription of gntT is activated by binding of the cyclic AMP (cAMP)cAMP receptor protein (CRP) complex to a CRP binding site Liên quan với phản ứng The Alp protease activity khác is detected in cells after introduction of plasmids carrying the alpA gene Điều kiện hay thay đổi Strains carrying a điểu kiện để xảy phản mutation in the crp ứng structural gene fail to repress ODC and ADC activities in response to increased cAMP Sự thay đổi số liệu marR mutations elevated inaA expression by 10-to 60 DESCRIPTIVE-AGENT Thông tin AGENT DESCRIPTIVE-THEME Thông tin THEME PURPOSE Mục đích/ lý kiện xảy 20-fold over that of the wild-type The FNR protein resembles CRP The FNR protein resembles CRP The fusion strains were used to study the regulation of the cysB gene by assaying the fused lacZ gene product Các đối số xuất nhiều liệt kê sau: Bảng 5.7: Các đối số xuất nhiều GREC S TT Nhãn ngữ nghĩa Số lượng THEME 3353 AGENT 1698 LOCATION 526 Ta có số nhận xét từ thống kê sau Bộ liệu có số lượng nhãn ngữ nghĩa phong phú, điều làm tăng mức độ chi tiết phân tích kiện Có chênh lệnh lớn nhãn ngữ nghĩa xuất ngữ liệu 5.1.4 Thống kê nhãn thực thể GREC có 5041 nhãn thực thể chia thành 61 loại gán nhãn Đây ưu điểm ngữ liệu 5.2 Kịch thực 5.2.1 Các mơ hình thực nghiệm so sánh Sau phân tích, đánh giá để đề xuất mơ hình phù hợp (Chương 4), chúng em tiến hành thực nghiệm so sánh với mơ hình biến thể để thể nhìn nhận, đánh giá khách quan Các mơ hình thực nghiệm sau: Bảng 5.8: Các mơ hình thực nghiệm với mơ hình BERT 61 STT Số chiều Embedding 768 Word Softmax 768 Word CRF Loại Embedding Lớp đầu Bảng 5.9: Các mơ hình thực nghiệm với mơ hình BioBERT STT Số chiều Embedding 768 Word Softmax 768 Word CRF Loại Embedding Lớp đầu Các mơ hình thực nghiệm sử dụng Highway connection để giảm tình trạng bùng nổ đạo hàm mát đạo hàm 5.2.2 Phương pháp kiểm định Tập liệu huấn luyện bao gồm 1489 câu Vì số lượng liệu hạn chế này, nên khoá luận sử dụng phương pháp K-fold Cross Validation với K = 10 5.3 Kết thực nghiệm Kết mơ hình thực nghiệm thể bảng sau: Bảng 5.10: Kết thực nghiệm với mơ hình BERT STT Số chiều Embedding Loại Embedding Lớp đầu 768 Word Softmax 768 Word CRF P R F1 67.95 56.13 61.48 67.81 63.3 65.48 Bảng 5.11: Kết thực nghiệm với mơ hình BioBERT STT Số chiều Embedding Loại Embedding Lớp đầu 768 Word Softmax 62 P R 68.26 65.77 F1 67 768 Word CRF 71.14 66.74 68,87 5.4 Thảo luận Bảng 5-6 5-7 trình bày kết thử nghiệm hai biến thể mơ hình BERT khác nhau, số liệu F1 tăng dần ta cải tiến theo định hướng mà khóa luận lựa chọn, sử dụng mơ hình tiền huấn luyện chun biệt vào lĩnh vực văn (lĩnh vực Y sinh) So sánh hàng hàng hai bảng 5-6 Chúng giống số chiều embedding loại embedding Chỉ khác lớp đầu ra: hàng Softmax, hàng hai CRF Kết thử nghiệm cho thấy CRF mô hình phù hợp cho lớp đầu cho độ đo F1 cao Khi so sánh số tổng quát hai bảng 5-6 5-7, với cài đặt, ta thấy mơ hình BioBERT so với mơ hình BERT cho F1 tăng 5,5% 3,4% với lớp đầu Softmax CRF Điều cho thấy rõ hiệu mô hình tiền huấn luyện chuyên biệt vào lĩnh vực văn việc nâng cao hiệu mô hình học sâu 63 Chương Kết luận phương hướng phát triển Chương cuối đưa kết luận kết thúc việc nghiên cứu khóa luận đề hướng phát triển sau 6.1 Kết luận 6.1.1 Các lý thuyết tìm hiểu Các mơ hình, cơng trình nghiên cứu năm gần tốn “Rút trích cấu trúc đối số vị ngữ” Mơ hình Transformer với mơ hình tiền huấn luyện BERT BioBERT Bộ ngữ liệu GREC cho văn Y Sinh 6.1.2 Đóng góp khóa luận Xây dựng mơ hình Deep Learning với kỹ thuật state-of-the-art thu hút nhiều quan tâm cộng đồng nghiên cứu để phục vụ cho văn lĩnh vực Y Sinh với ngữ liệu huấn luyện có kích thước hạn chế so sánh với ngữ liệu huấn luyện văn lĩnh vực tổng quát 6.2 Hướng phát triển Mơ hình khóa luận có nhiều hứa hẹn khơng văn Y Sinh mà cịn áp dụng cho ngữ liệu khác nhờ áp dụng mơ hình state-of-the-art Nghiên cứu, phát triển thêm giải pháp để cải tiến mơ hình nhằm đạt độ đo F1 cao như: Ứng dụng kỹ thuật xử lý có liệu gán nhãn, ví dụ kỹ thuật Transfer Learning để tận dụng tri thức học từ toán lân cận Sử dụng học đa tác vụ (Multi-task learning) với học chủ động (Active Learning) 64 Tài liệu tham khảo [1] C R C J F E J W J R M U M R L Johnson, "The framenet project: Tools for lexicon building," 2001 [2] H T D a M P K Kipper, "Class-based construction of a verb lexicon," Proceedings of AAAI-2000, pp 691-696, 2000 [3] P K a M Palmer, "From treebank to propbank," Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC-2002), 2002 [4] F Ikhwantri, "Multi-task active learning for neural semantic role labeling on low resource conversational corpus" [5] N FitzGerald, "Semantic role labeling with neural network factors" [6] R T.-H T Y.-S S W K a T.-Y S W.-C Chou, "“A semi-automatic method for annotating a biomedical proposition bank," Proceed-ings of the Workshop on Frontiers in Linguistically Annotated Corpora 2006, pp 5-12, 2006 [7] S P K a C N W T., "PASBio: predicate-argument structures for event extraction in molecular biology" [8] R T.-H T Y.-S S W K a T.-Y S W.-C Chou, "A semi-automatic method for annotating a biomedical proposition bank," Workshop on Frontiers in Linguistically Annotated Corpora 2006, 2006 [9] R M A F W A R M a F I Valdi Rachman, "Semantic Role Labeling in Conversational Chat using Deep Bi-Directional Long Short-Term Memory Networks with Attention Mechanism," 2018 [10] O T K G D D Nicholas FitzGerald, "Semantic Role Labeling with Neural Network Factors" [11] S M A A R D B J.-P Koenig, "Head-Driven Phrase Structure Grammar: The handbook" [12] S P A I & C Maria Liakata, "From trees to predicate-argument structures," 2002 [13] W a N Collier, "Exploring Predicate-Argument Relations for," pp 267-280, 2005 [14] G Stevens, "XARA: An XML- and rule-based semantic role labeler," he Linguistic Annotation Workshop, 45th Annual Meeting of the Association for Computational Linguistics, 2007 [15] R Ellen, "Automatically constructing a dictionary for information extraction," in Proceedings of the 11th National Conference on Artificial Intelligence, p 811–816, 1993 [16] E Riloff, "Automatically Generating Extraction Patterns from Untagged Text," Thirteenth National Conference on Artificial Intelligence, pp 1044-1049, 1996 [17] E a M S Riloff, "An empirical approach to conceptual case," Sixth Workshop on Very Large, p 49– 56, 1998 [18] X Z Y H P G D Q K a M L M Huang, "Discovering patterns to extract protein-protein interactions from full texts," Bioinformatics, pp 3604-3612, 2004 [19] C.-S ( L a T C Smith, "Semantic role labeling via consensus," CONLL '05 Proceedings of the Ninth Conference, pp 185-188, 2005 65 [20] D B a C Eugene, "Assigning function tags to parsed text," First Annual Meeting of the North American Chapter of the ACL (NAACL), p 234–240, 2000 [21] H S W J a A P S Mihai, "Using Predicate-Argument Structure for Information Extraction," 41 th Annual Conference on the Association for Computational Linguistics, 2003 [22] W.-C C Y.-C L W K Y.-S S T.-Y S a W.-L H R T.-H Tsai, "BIOSMILE: Adapting Semantic Role Labeling for Biomedical Verbs: An Exponential Model Coupled with Automatically Generated Template Features," BioNLP 2006 Conference, 2006 [23] R S S a S Stevenson, "Unsupervised Semantic Role Labeling," EMNLP ’04, 2004 [24] R S S a S Stevenson, "Exploiting a Verb Lexicon in Automatic," EMNLP ’05, 2005 [25] W a N Collier, "Exploring Predicate-Argument Relations for," 2005 [26] L Kallmeyer, "Parsing beyond context-free grammars," 2010 [27] H Z a S H Z Li, "Syntax Role for Neural Semantic Role Labeling," 2009 [28] C P v I Sag, "Head-driven phrase structure grammar," 1994 [29] J Z a W Xu, "End-to-end Learning of Semantic Role Labeling Using Recurrent Neural" [30] J Y L a L C S V Mehta, "Towards Semi-Supervised Learning for Deep Semantic Role Labeling," 2018 [31] M W J X Y C a X S Z Tan, "Deep Semantic Role Labeling with Self-Attention" [32] P V D A D W a A M E Strubell1, "Linguistically-Informed Self-Attention for Semantic Role Labeling," 2008 [33] P S a J Lin, "Simple BERT Models for Relation Extraction" [34] S T N S J C N A S a C D M Kshirsagar, "Frame-Semantic Role Labeling with Heterogeneous Annotations," 2015 [35] D C A F T M N S a N A S D Das, "Frame-Semantic Parsing," 2014 [36] O T K G a D D N FitzGerald, "Semantic Role Labeling with Neural Network Factors," 2015 [37] K L M L a L Z L He, "Deep Semantic Role Labeling: What Works and What’s Next," 2017 [38] S L K K B A V R A F W a R M F Ikhwantri, "Multi-Task Active Learning for Neural Semantic Role Labeling on Low," 2018 [39] N R a I Gurevych, "Optimal Hyperparameters for Deep LSTM-Networks for Sequence Labeling Tasks," 2017 [40] H S a Y M H Ouchi, "A Span Selection Model for Semantic Role Labeling," 2018 [41] S T K L L Z C D a N A S S Swayamdipta, "Syntactic Scaffolds for Semantic Structures," 2018 [42] K L O L a L Z L He, "Jointly Predicting Predicates and Arguments in Neural Semantic Role Labeling," 2018 [43] L H M L a L Z K Lee, "End-to-end Neural Coreference Resolution," 2017 [44] M R a M Lapata, "Neural Semantic Role Labeling with Dependency Path Embeddings," 2016 66 [45] A F a I T D Marcheggiani, "A Simple and Accurate Syntax-Agnostic Neural Model," 2017 [46] D M a I Titov, "Encoding Sentences with Graph Convolutional Networks for Semantic Role Labeling," 2017 [47] S H Z L a H Z J Cai, "A Full End-to-End Semantic Role Labeler, Syntax-agnostic Over Syntaxaware?," 2018 [48] Z L H Z H B a G L S He, "Syntax for Semantic Role Labeling, To Be, Or Not To Be," 2018 [49] H Z a S H Z Li, "Syntax Role for Neural Semantic Role Labeling," 2009 [50] Z L M Z M Z G F R W a L S Q Xia, "Syntax-Aware Neural Semantic Role Labeling," 2019 [51] J K K a D Klein, "Parsing with Traces: An O(n4) Algorithm and a Structural Representation," 2017 [52] S C a C S J Bos, "Wide-Coverage Semantic Representations from a CCG Parser," 2000 [53] K V.-S a A K J., "SOME COMPUTATIONAL PROPERTISS OF TREE ADJOINING GRAMM," 1975 [54] L Y a S Anoop, "Exploration of the LTAG-Spinal Formalism and Treebank for Semantic Role Labeling," 2009 [55] L Kallmeyer, "Parsing beyond context-free grammars," 2010 [56] I M a O I T Shi, "Semantic Role Labeling as Syntactic Dependency Parsing," 2020 [57] Q X S Z Y J Z L G F a M Z Y Zhang, "Semantic Role Labeling as Dependency Parsing: Exploring Latent Tree Structures Inside Arguments," 2021 [58] A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, A N Gomez, L Kaiser and I Polosukhin, "Attention Is All You Need," 217 [59] J Devlin, M.-W Chang, K Lee and K Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," 2018 [60] W Y S K D K S K C H S J K Jinhyuk Lee, "BioBERT: a pre-trained biomedical language representation model for biomedical text mining," 2019 [61] S S E a D Z Posted by Xinying Song, "A Fast WordPiece Tokenization System," 2021 [62] K A Basel Alshaikhdeeb, "Biomedical Named Entity Recognition: A Review," 2016 [63] J L T S Rui Xing, "BioRel: towards large-scale biomedical relation extraction," 2020 [64] H Sofia J.Athenikos, "Biomedical question answering: A survey" [65] William B Cavnar and John M Trenkle, "N-Gram-Based Text Categorization," in In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, 1994, pp 161-175 [66] Kaizhong Zhang and Dennis Shasha, "Simple fast algorithms for the editing distance between trees and related problems," SIAM Journal on Computing, vol 18, no 6, pp 1245-1262, 1989 67 68 ... NGUYỄN VĂN TRỊ – 18120614 PHAN THIÊN PHÚC – 18120514 MƠ HÌNH NGƠN NGỮ TIỀN HUẤN LUYỆN CHO BÀI TOÁN GÁN NHÃN NGỮ NGHĨA TRÊN VĂN BẢN Y SINH KHĨA LUẬN TỐT NGHIỆP CỬ NHÂN CNTT CHƯƠNG TRÌNH CHÍNH QUY... cường ngữ liệu huấn luyện cho trường hợp ngữ liệu huấn luyện nhờ vào việc tích hợp tri thức ngữ pháp vào khối ngữ liệu chưa gán nhãn dùng để huấn luyện mơ hình LSTM thành phần khơng quán ngữ nghĩa. .. mơ hình mơ hình ngơn ngữ tiền huấn luyện có đặc điểm sau: Có thể gán nhãn ngữ nghĩa văn Y Sinh cách tự động Hoạt động với liệu huấn luyện có kích thước hạn chế (dưới 2000 câu) so với liệu huấn