1. Trang chủ
  2. » Luận Văn - Báo Cáo

CNTT7 nguyễn văn ước

61 173 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 1,42 MB

Nội dung

Trích chọn quan hệ, xử lí ngôn ngữ tự nhiên, y sinh học, mạng nơron tích chập, tác dụng phụ của thuốc Đồ án tập trung giới thiệu một kỹ thuật học sâu, cụ thể là mạng nơron tích chập, và ứng dụng vào bài toán trích chọn quan hệ hóa chất gây ra bệnh. Trên cơ sở nghiên cứu về các phương pháp trích chọn quan hệ nói chung và các phương pháp sử dụng kỹ thuật học sâu nói riêng, đồ án đã đạt được các kết quả cơ bản sau:  Tìm hiểu và cung cấp được cái nhìn tổng quan về một bài toán trích chọn quan hệ nói chung và bài toán trích chọn quan hệ hóa chất gây ra bệnh nói riêng một bài toán hay, khó và có ý nghĩa thực tiễn cao.  Dựa trên việc nghiên cứu và tìm hiểu về các phương pháp trích chọn quan hệ sử dụng mạng nơron tích chập và các phương pháp biểu diễn văn bản sử dụng đường đi phụ thuộc ngắn nhất, Word Embedding, đồ án đã đề xuất được mô hình sử dụng mạng nơron vào bài toán trích chọn quan hệ hóa chất gây ra bệnh và đề xuất một mô hình kết hợp sử dụng hai phương pháp bỏ phiếu và tính trung bình phân phối.  Tiến hành thực nghiệm trên bộ dữ liệu BioCreative V CDR. Kết quả của 20 lần chạy ngẫu nhiên cho thấy F1 trung bình đạt 56.20%. Kết quả so sánh mô hình học sâu mà đồ án xây dựng với một số phương pháp nghiên cứu gần đây trên thế giới trên cùng một tập dữ liệu BC5 CDR đã chứng minh tính cạnh tranh về mặt hiệu suất cũng như tiềm năng phát triển của mô hình  Mô hình kết hợp đề xuất tiến hành 2 thực nghiệm với mục đích tăng tính ổn định của mô hình, cũng như giảm thiểu sự phụ thuộc của kết quả và các khởi tạo ngẫu nhiên, đồ án đề xuất việc xây dựng mô hình kết hợp đầu ra của nhiều mô hình mạng nơron tích chập rời rạc.  Cuối cùng, từ các thực nghiệm ta thấy rằng ngưỡng 30% là tốt nhất đối với mô hình kết hợp. Tức là nếu trong số 97 mô hình con, có ít nhất 30 mô hình đưa ra kết quả một ví dụ có nhãn CID thì mô hình kết hợp cũng đưa ra nhãn cuối cùng cho ví dụ đó là CID.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Văn Ước TRÍCH CHỌN QUAN HỆ TRONG DỮ LIỆU Y SINH SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC SÂU TIÊN TIẾN ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Truyền thơng Mạng máy tính HÀ NỘI – 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Nguyễn Văn Ước TRÍCH CHỌN QUAN HỆ TRONG DỮ LIỆU Y SINH SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC SÂU TIÊN TIẾN ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Truyền thơng Mạng máy tính Cán hướng dẫn: ThS Lê Hoàng Quỳnh HÀ NỘI - 2019 TĨM TẮT Bài tốn phát hóa chất, bệnh mối quan hệ chúng văn đóng vai trò quan trọng lĩnh vực y sinh học kết hạn chế chi phí cao phát triển nhanh chóng số lượng tài liệu Các nhà nghiên cứu đề xuất nhiều phương pháp tiếp cận để giải tốn trích chọn quan hệ cách tự động, bao gồm phương pháp thủ công, học máy dựa đặc trưng gần học sâu Nhận thấy ưu điểm học sâu dựa tảng tìm hiểu nghiên cứu liên quan, đồ án tập trung giải tốn trích chọn quan hệ dựa phương pháp học sâu sử dụng mạng nơ-ron tích chập xây dựng mơ hình kết hợp dựa nhiều mơ hình học sâu riêng lẻ Phạm vi đồ án tập trung vào mối quan hệ nội câu thể quan hệ hóa chất gây bệnh (hay gọi phản ứng phụ thuốc) Trong quan hệ biểu diễn dạng đường phụ thuộc ngắn phụ thuộc tốn trích chọn quan hệ giải dạng toán phân lớp Kết thử nghiệm liệu thực tế BioCreative V Chemical Disease Relation cho thấy mơ hình học sâu dựa mạng nơ-ron tích chập mà đồ án xây dựng đạt kết cạnh tranh so sánh với nghiên cứu liên quan Ngoài ra, để khắc phục số nhược điểm mơ hình học sâu tăng hiệu suất mơ hình, đồ án xây dựng hệ thống kết hợp nhiều mơ hình khác phương pháp bỏ phiếu tính trung bình phân phối Thực nghiệm chứng minh, việc kết hợp nhiều mơ hình học sâu có tác dụng tăng hiệu suất đảm bảo tính ổn định mơ hình Từ khóa: Trích chọn quan hệ, xử lí ngơn ngữ tự nhiên, y sinh học, mạng nơ-ron tích chập, tác dụng phụ thuốc iii LỜI CẢM ƠN Lời đầu tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới ThS Lê Hồng Quỳnh, CN Cấn Duy Cát, giảng viên khoa Công nghệ thông tin, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội - Người dành tâm huyết hướng dẫn tơi hồn thành đồ án tốt nghiệp Sự hướng dẫn tận tình giúp đỡ tơi nhiều việc hoàn thành tốt đồ án ngày hơm Qua đó, tơi nhận nhiều học quý báu Tôi xin cảm ơn đến Quý thầy cô trường Đại học Công nghệ - Đại học Quốc gia Hà Nội truyền đạt kiến thức, tạo điều kiện thuận lợi trình học tập trường, giúp tơi hồn thành đồ án Tôi xin gửi lời cảm ơn tới thầy cơ, anh chị, bạn sinh viên Phòng thí nghiệm Khoa học liệu Cơng nghệ tri thức DS&KTLab, khoa Công nghệ thông tin giúp nhiều việc hồn thiện kiến thức thiếu Tôi xin gửi lời cảm ơn tới bạn lớp K59N ủng hộ, khuyến khích tơi suốt q trình học tập trường Cuối cùng, tơi muốn gửi lời cảm ơn vơ hạn tới gia đình thân yêu, bạn bè, người tin tưởng ủng hộ Tôi xin chân thành cảm ơn! Hà Nội, ngày tháng năm 2019 Sinh viên thực Nguyễn Văn Ước iv LỜI CAM ĐOAN Tôi xin cam đoan kết đạt đồ án kết cơng trình nghiên cứu riêng tơi hướng dẫn ThS Lê Hồng Quỳnh, khơng chép lại từ tổ chức cá nhân khác Trong toàn nội dung đồ án, điều trình bày cá nhân, tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày tháng năm 2019 Sinh viên thực Nguyễn Văn Ước v MỤC LỤC Tóm tắt iii Lời cảm ơn iv Lời cam đoan v Mục lục vi Danh mục từ viết tắt .viii Danh mục Hình ảnh ix Danh mục bảng biểu x MỞ ĐẦU CHƯƠNG GIỚI THIỆU BÀI TỐN TRÍCH CHỌN QUAN HỆ 1.1 Động lực nghiên cứu 1.2 Phát biểu toán 1.2.1 Định nghĩa toán 1.2.2 Ví dụ 1.3 Khó khăn thách thức CHƯƠNG CÁC HƯỚNG TIẾP CẬN PHỔ BIẾN CHO BÀI TỐN TRÍCH CHỌN QUAN HỆ 12 2.1 Các phương pháp thủ công 12 2.2 Các phương pháp học máy có giám sát 12 2.2.1 Học máy dựa đặc trưng 12 2.2.2 Học sâu 14 2.3 Học máy không giám sát 15 2.4 Phương pháp học từ xa bán giám sát 15 CHƯƠNG MẠNG NƠ-RON TÍCH CHẬP 16 3.1 Mạng nơ-ron nhân tạo 16 3.2 Mạng nơ-ron tích chập 18 3.2.1 Tích chập 18 3.2.2 Tổng quan mạng nơ-ron tích chập 19 vi 3.3 Mạng nơ-ron tích chập áp dụng cho tốn xử lí ngơn ngữ tự nhiên 22 CHƯƠNG MƠ HÌNH ĐỀ XUẤT VÀ CÁC KHÁI NIỆM LIÊN QUAN 25 4.1 Đường phụ thuộc ngắn 25 4.1.1 Cây phụ thuộc đường phụ thuộc ngắn 25 4.1.2 Chuẩn hóa phụ thuộc 25 4.2 Đề xuất mơ hình phân lớp quan hệ dựa mạng nơ ron tích chập 26 4.2.1 Biểu diễn đầu vào 26 4.2.2 Biểu diễn quan hệ phụ thuộc: 27 4.2.3 Phân lớp 31 4.2.4 Hàm huấn luyện mục tiêu phương pháp huấn luyện 31 4.3 Đề xuất mơ hình kết hợp 31 4.4 Các siêu tham số mô hình 32 CHƯƠNG KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 34 5.1 Tập liệu phương pháp đánh giá 34 5.1.1 Tập liệu 34 5.1.2 Độ đo sử dụng để đánh giá mơ hình 34 5.2 Kết đánh giá 35 5.2.1 Kết phân lớp mơ hình CNN 35 5.2.2 Kết phân lớp mơ hình kết hợp 38 KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO 43 TÀI LIỆU THAM KHẢO 45 Phụ lục 1: Tóm tắt kết CID BioCreative V 48 Phụ lục 2: Tóm tắt kết CID BioCreative V 49 Phụ lục 3: Chi tiết kết thay đổi số lượng mơ hình sử dụng phương pháp bỏ phiếu 50 vii DANH MỤC TỪ VIẾT TẮT STT Tên viết tắt Thuật ngữ ANN Artificial neural network – Mạng nơ-ron nhân tạo BC5 BioCreative V CDR Chemical Disease Relation CNN Convolutional Neural Network – Mạng nơ-ron tích chập CID Chemical-induced Desease – Hóa chất gây bệnh CTD Comparative Toxicogenomics Database – Cơ sở liệu so sánh độc tính NER Named Entity Recognition – Nhận dạng thực thể định danh NLP Natural Language Processing – Xử lí ngơn ngữ tự nhiên RE Relation Extraction – Trích chọn quan hệ 10 SDP Shortest Dependency Path – Đường phụ thuộc ngắn 11 SVM Support Vector Machine – Máy véc-tơ hỗ trợ viii DANH MỤC HÌNH ẢNH Hình 1.1 Tăng trưởng trích dẫn PubMed từ năm 1986 đến 2017 Hình 1.2 Mối quan hệ nội (trong) câu Hình 1.3 Mối quan hệ liên (ngoài) câu Hình 3.1 Mơ hình mạng nơ-ron nhân tạo 16 Hình 3.2 Tích chập với lọc 3×3 19 Hình 3.3 Mơ hình mạng nơ-ron tích chập 20 Hình 3.4 Tích chập hẹp tích chập rộng 20 Hình 3.5 Ví dụ kích thước bước nhảy 21 Hình 3.6 Pooling layer 21 Hình 3.7 Minh họa kiến trúc mạng nơ-ron tích chập để phân lớp câu 24 Hình 4.1 Ví dụ phụ thuộc 25 Hình 4.2 Ví dụ phụ thuộc chuẩn hóa 26 Hình 4.3 Tổng quan mơ hình đề xuất 27 Hình 4.4 Sử dụng tích chập để trích chọn đặc trưng kí tự 29 Hình 4.5 Một ví dụ biểu diễn từ, tích chập lớp max-pooling 30 Hình 4.6 Mơ hình kết hợp 32 Hình 5.1 Sự thay đổi P, R, F1 thay đổi số lượng mô hình phương pháp bỏ phiếu 40 Hình 5.2 Sự thay đổi hiệu suất mơ hình kết hợp thay đổi ngưỡng bỏ phiếu với 97 mơ hình 42 ix DANH MỤC BẢNG BIỂU Bảng 5.1 Thống kê liệu CDR 34 Bảng 5.2 Ma trận độ đo để đánh giá mơ hình 34 Bảng 5.3 Kết 20 lần chạy mơ hình CNN 35 Bảng 5.4 Hiệu suất mơ hình tập liệu BioCreative V CDR 37 Bảng 5.5 So sánh kết mức tóm tắt thay đổi số lượng mơ hình với cách kết hợp 39 Bảng 5.6 Kết mơ hình kết hợp sử dụng 97 mơ hình 41 x đội tham gia tốn trích chọn quan hệ hóa chất gây bệnh (Chemical-Induced Disease relation extraction – CID) Trong phạm vi so sánh này, ta xét đến hai kết (i) kết trung bình 18 đội tham gia nhiệm vụ (có sử dụng nhãn thực thể) (ii) kết đội đứng đầu sử dụng phương pháp đồng xuất  UET-CAM [22] sử dụng phương pháp học máy có giám sát sử dụng đặc trưng phong phú, cải tiến học từ xa sử dụng sở liệu hệ gen độc tính so sánh (Comparative Toxicogenomics Database – CTD)  hybridDNN [23] Zhou cộng thiết kế hệ thống lai cho tốn trích chọn quan hệ Kế thừa từ thuộc tính bổ sung phương pháp dựa đặc trưng, phương pháp dựa nhân mạng nơ-ron, hệ thống lai kết hợp thơng tin từ vựng, cú pháp ngữ nghĩa, đạt cải tiến đáng kể so với phương pháp riêng lẻ  cduCNN [24] sử dụng thông tin nén đường phụ thuộc ngắn (SDP) hai thực thể tương ứng để phân loại mối quan hệ ngữ nghĩa chúng Mơ hình đề xuất có khả sử dụng đặc điểm ngôn ngữ đặc trưng kiến trúc câu, chẳng hạn biểu diễn từ, biểu diễn ký tự, đặc trưng vị trí, WordNet nhãn từ loại Bảng 5.4 Hiệu suất mơ hình tập liệu BioCreative V CDR Mơ hình Tập đặc trưng P R F1 Kết thức Kết trung bình* 47.09 42.61 43.37 BioCreative Kết đội đứng đầu* 55.67 58.44 57.03 UET-CAM SVM, tập đặc trưng phong phú 53.41 49.91 51.60 (Le cộng sự, 2015) + Tập liệu silverCID 57.63 60.23 58.90 hybridDNN Đặc trưng cú pháp, biểu diễn từ 62.15 47.28 53.70 (Zhou cộng + Ngữ cảnh 62.39 47.47 53.92 62.86 47.47 54.09 2016) + Vị trí cduCNN Biểu diễn thành phần, DU 57.24 55.27 56.24 (Can cộng sự, 2019) + Chuẩn hóa liên từ 56.95 56.14 56.54 56.66 55.94 56.30 57.11 55.31 56.20 + Chuẩn hóa giới từ Mơ hình đề xuất *Kết cung cấp BioCreative V 37 Bảng 5.4 so sánh kết mơ hình đề xuất kết so sánh nói Để đảm bảo tính khách quan, việc đánh giá mơ hình thực sử dụng cơng cụ đánh giá thức BC5 CDR trả kết mức tóm tắt Kết so sánh mơ hình học sâu mà đồ án xây dựng với số phương pháp nghiên cứu gần giới tập liệu BC5 CDR chứng minh tính cạnh tranh mặt hiệu suất tiềm phát triển mơ hình  Kết mơ hình mà đồ án xây dựng vượt cao hẳn mức trung bình 16 đội tham gia thách thức BC5 CDR, nhiên kết đội xếp hạng sử dụng phương pháp đồng xuất  So sánh với mơ hình UET-CAM, mơ hình học máy dựa tập đặc trưng lớn, kết F1 mơ hình học sâu mà đồ án đề xuất cao 4.6% so với mơ hình sở, điều chứng minh hiệu việc áp dụng mơ hình học sâu vào miền liệu Tuy nhiên giai đoạn tại, đồ án chưa sử dụng thêm liệu bổ sung phương pháp học bán giám sát, học từ xa, nên kết thấp so với UET-CAM mơ hình học thêm với tập silverCID  So sánh với mơ hình hybridDNN, mơ hình học sâu mà đồ án đề xuất cho kết F1 cao 2.11% Điều phần chứng tỏ tính cạnh tranh kiến trúc mạng mà đồ án đề xuất, hiệu việc sử dụng đường phụ thuộc ngắn  Mơ hình sử dụng đồ án lấy ý tưởng tham khảo từ mơ hình cduCNN với số thay đổi cài đặt tham số, kết hai mơ hình ngang 5.2.2 Kết phân lớp mơ hình kết hợp Theo kết đưa bảng 5.3, độ lệch chuẩn mơ hình với 20 lần chạy 0.63, chênh lệch kết tốt kết theo P 2.76%, theo R 3.73%, theo F 2.45% Với mục đích tăng tính ổn định mơ hình, giảm thiểu phụ thuộc kết khởi tạo ngẫu nhiên, đồ án đề xuất việc xây dựng mơ hình kết hợp đầu nhiều mơ hình mạng nơ-ron tích chập rời rạc trình bày mục 4.3 Tuy nhiên, việc xây dựng mơ hình kết hợp có nhiều yếu tố cần phải xem xét:  Một mơ hình kết hợp sử dụng mơ hình con?  Để kết hợp kết quả, sử dụng bỏ phiếu số đông hay tính phân phối trung bình?  Nếu sử dụng bỏ phiếu số đơng, ngưỡng lựa chọn bao nhiêu? 38 a Thực nghiệm 1: Lựa chọn số mô hình để kết hợp phương pháp kết hợp Trong thực nghiệm này, đồ án tiến hành thử so sánh kết việc kết hợp từ đến 100 mơ so sánh hai phương pháp bỏ phiếu (lấy ngưỡng 50%) tính trung bình phân phối Bảng 5.5 So sánh kết mức tóm tắt thay đổi số lượng mơ hình với cách kết hợp Bỏ phiếu Trung bình phân phối Số mơ hình P R F1 P R F1 61.24 51.48 55.94 57.10 50.19 53.42 61.76 51.33 56.06 61.94 47.94 54.05 10 62.7 51.26 56.41 62.93 48.41 54.72 15 63.15 51.06 56.47 61.18 49.53 54.74 20 63.61 51.06 56.65 61.86 49.91 55.24 25 64.05 50.77 56.64 61.63 50.47 55.49 50 65.44 50.55 57.04 61.04 49.53 54.69 75 66.30 50.36 57.24 60.67 51.22 55.54 100 67.08 50.27 57.47 60.57 51.59 55.72 TB 57.11 55.31 56.20 57.11 55.31 56.20 Kết bảng 5.5 cho thấy việc kết hợp nhiều mơ hình cho kết tốt kết trung bình nhiều mơ hình Chi tiết kết thay đổi số lượng mơ hình sử dụng phương pháp bỏ phiếu trình bày phụ lục  Đối với mơ hình kết hợp dựa bỏ phiếu theo số đông, kết tốt đạt sử dụng số lượng mô hình khoảng từ 95 đến 100 57.66%, tăng 1.46% so với kết trung bình  Đối với mơ hình kết hợp dựa phân phối trung bình, kết tốt đạt sử dụng số lượng mơ hình khoảng từ 75 đến 80 55.85%, giảm 0.35% so với kết trung bình Trong hầu hết trường hợp, sử dụng phương pháp kết hợp kết dựa bỏ phiếu theo số đông cho kết tốt sử dụng sử dụng phân phối trung bình lần chạy Để làm rõ ảnh hưởng số lượng sử dụng để kết hợp lên hiệu suất mơ hình Hình 5.1 cho thấy thay đổi giá trị P, R, F1 thay đổi số lượng 39 0.7 0.65 0.6 0.55 0.5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 0.45 Số lượng mơ hình P R F1 Hình 5.1 Sự thay đổi P, R, F1 thay đổi số lượng mơ hình phương pháp bỏ phiếu Từ hình 5.1 ta có nhận xét sau:  Số lượng mơ hình tăng dần dẫn đến F1 tăng dần  Khi số lượng mơ hình khoảng từ 95 đến 100, F1 dần hội tụ 40 b Thực nghiệm 2: Lựa chọn ngưỡng kết hợp phương pháp bỏ phiếu Thực nghiệm phương pháp kết hợp dựa bỏ phiếu cho kết tốt phương pháp kết hợp dựa tính trung bình Tuy nhiên phương pháp bỏ phiếu không định phải dựa số đơng Đối với mơ hình kết hợp dựa phương pháp bỏ phiếu, việc định lựa chọn kết không định phải dựa vào số đông (majority vote, tức đảm bảo có 50% phân lớp gán nhãn dương phân lớp kết hợp đưa nhãn dương) Chúng ta đặt ngưỡng để thay đổi ưu tiên vào lớp dương hay lớp âm Ngưỡng bỏ phiếu nhỏ tức ưu tiên cho lớp dương, cần số phân lớp đơn lẻ định ví dụ dương mơ hình kết hợp đưa nhãn dương Ngược lại, ngưỡng bỏ phiếu lớn đảm bảo tính xác mơ hình, giảm khả tìm thêm kết (đặc biệt ví dụ khác nhiều so với ví dụ xuất tập kiểm thử huấn luyện) Thực nghiệm xét ngưỡng kết hợp từ 1-100 mơ hình để đánh giá hiệu suất mơ hình với ngưỡng khác Phần sử dụng số mơ hình đạt kết tốt thực nghiệm 1, 97 mơ hình Bảng 5.6 so sánh kết mơ hình kết hợp sử dụng 97 mơ hình với ngưỡng khác (từ – 100 mô hình con) Bảng 5.6 Kết mơ hình kết hợp sử dụng 97 mơ hình Ngưỡng lựa chọn P R F1 34.12 65.12 44.78 10 43.51 63.59 51.67 20 49.19 60.58 54.29 30 57.45 58.01 57.73 40 61.59 54.02 57.56 50 67.08 50.27 57.47 60 70.15 44.45 54.42 70 73.34 38.45 50.45 80 77.02 31.79 45.00 90 83.21 23.81 37.03 100 86.37 9.18 16.60 số mơ hình 41 Hình 5.2 biểu đổ cho thấy thay đổi hiệu suất mơ hình kết hợp thay đổi ngưỡng bỏ phiếu với 97 mơ hình 100 90 80 70 60 50 40 30 20 10 10 20 30 40 P 50 60 R F1 70 80 90 100 Hình 5.2 Sự thay đổi hiệu suất mơ hình kết hợp thay đổi ngưỡng bỏ phiếu với 97 mơ hình Nhận xét, đường đồ thị lên số mơ hình tăng dần, hội tụ khoảng 30 mơ hình xuống số lượng mơ hình tăng dần Từ ta thấy ngưỡng 30 mơ hình tốt mơ hình kết hợp Tức số 97 mơ hình con, có 30 mơ hình đưa kết ví dụ có nhãn CID mơ hình kết hợp đưa nhãn cuối cho ví dụ CID 42 KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO Kết đạt được: Đồ án tập trung giới thiệu kỹ thuật học sâu, cụ thể mạng nơ-ron tích chập, ứng dụng vào tốn trích chọn quan hệ hóa chất gây bệnh Trên sở nghiên cứu phương pháp trích chọn quan hệ nói chung phương pháp sử dụng kỹ thuật học sâu nói riêng, đồ án đạt kết sau:  Tìm hiểu cung cấp nhìn tổng quan tốn trích chọn quan hệ nói chung tốn trích chọn quan hệ hóa chất gây bệnh nói riêng - tốn hay, khó có ý nghĩa thực tiễn cao  Dựa việc nghiên cứu tìm hiểu phương pháp trích chọn quan hệ sử dụng mạng nơ-ron tích chập phương pháp biểu diễn văn sử dụng đường phụ thuộc ngắn nhất, Word Embedding, đồ án đề xuất mơ hình sử dụng mạng nơ-ron vào tốn trích chọn quan hệ hóa chất gây bệnh đề xuất mơ hình kết hợp sử dụng hai phương pháp bỏ phiếu tính trung bình phân phối  Tiến hành thực nghiệm liệu BioCreative V CDR Kết 20 lần chạy ngẫu nhiên cho thấy F1 trung bình đạt 56.20% Kết so sánh mơ hình học sâu mà đồ án xây dựng với số phương pháp nghiên cứu gần giới tập liệu BC5 CDR chứng minh tính cạnh tranh mặt hiệu suất tiềm phát triển mơ hình  Mơ hình kết hợp đề xuất tiến hành thực nghiệm với mục đích tăng tính ổn định mơ hình, giảm thiểu phụ thuộc kết khởi tạo ngẫu nhiên, đồ án đề xuất việc xây dựng mơ hình kết hợp đầu nhiều mơ hình mạng nơ-ron tích chập rời rạc  Cuối cùng, từ thực nghiệm ta thấy ngưỡng 30% tốt mơ hình kết hợp Tức số 97 mơ hình con, có 30 mơ hình đưa kết ví dụ có nhãn CID mơ hình kết hợp đưa nhãn cuối cho ví dụ CID Định hướng phát triển: Để khắc phục hạn chế nêu đồng thời phát huy tiềm mơ hình đề xuất sử dụng kỹ thuật học sâu, mơ hình đề xuất phát triển theo định hướng sau:  Áp dụng đường phụ thuộc tăng cường mạng nơ-ron đệ quy biểu diễn đường dẫn phụ thuộc để có thêm thơng tin  Áp dụng thêm bước phát đồng tham chiếu cho văn trước đưa vào mơ hình dự đốn dùng mạng nơ-ron tích chập, điều làm giảm bỏ sót câu mang mối quan hệ đề cập không trực tiếp thuốc bệnh 43  Áp dụng kết hợp số kỹ thuật học sâu khác mạng nơ-ron Long ShortTerm Memory để so sánh kết  Tìm hiểu nâng cấp mơ hình sử dụng trích chọn quan hệ liên câu mức tồn tóm tắt, thay dừng lại mức nội câu Với phương pháp đánh giá toàn văn giảm tối đa sai số mà bước gặp phải  Sử dụng thêm liệu bổ sung (tập silverCID, v.v…) phương pháp học bán giám sát, học từ xa để cải thiện kết 44 TÀI LIỆU THAM KHẢO [1] H Moses III, J B Martin, Biomedical research and health advances (2011) [2] C.-C Huang, Z Lu, Community challenges in biomedical text mining over 10 years: success, failure and the future, Briefings in bioinformatics 17 (1) (2015) 132–144 [3] Hoang-Quynh Le, Duy-Cat Can, Sinh T Vu, Thanh Hai Dang, Mohammad Taher Pilehvar and Nigel Collier (2018) Large-scale Exploration of Neural Relation Classification Architectures In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (pp 2266-2277) [4] A Culotta, A McCallum, J Betz, Integrating probabilistic extraction models and data mining to discover relations and patterns in text, in: Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, Association for Computational Linguistics, 2006, pp 296–303 [5] C C Aggarwal, C Zhai, Mining text data, Springer Science & Business Media, 2012 [6] J Li, Y Sun, R J Johnson, D Sciaky, C.-H Wei, R Leaman, A P Davis, C J Mattingly, T C Wiegers, Z Lu, Biocreative V CDR task corpus: a resource for chemical disease relation extraction, Database Oxford 2016 doi:10.1093/database/baw068 [7] G A Pavlopoulos, V J Promponas, C A Ouzounis, I Iliopoulos, Biological information extraction and co-occurrence analysis, in: Biomedical Literature Mining, Springer, 2014, pp 77–92 [8] C.-H Wei, Y Peng, R Leaman, A P Davis, C J Mattingly, J Li, T C Wiegers, Z Lu, Overview of the biocreative v chemical disease relation (cdr) task, in: Proceedings of the fifth BioCreative challenge evaluation workshop, 2015, pp 154–166 [9] Y Peng, M Torii, C H Wu, K Vijay-Shanker, A generalizable nlp framework for fast development of pattern-based biomedical relation extraction systems, BMC bioinformatics 15 (1) (2014) 285 [10] Le, H.Q., Tran, M.V., Dang, T.H., Ha, Q.T., Collier, N.: Sieve-based coreference resolution enhances semi-supervised learning model for chemical-induced disease relation extraction Database 2016 (07 2016) https://doi.org/10.1093/database/baw102 [11] Rink, B., Harabagiu, S.: Utd: Classifying semantic relations by combining lexical and semantic resources In: Proceedings of the 5th International Workshop on Semantic Evaluation pp 256-259 Association for Computational Linguistics (2010) 45 [12] T Barnickel, J Weston, R Collobert, H.-W Mewes, V St ¨ umpflen, Large scale application of neural network based semantic role labeling for automated relation extraction from biomedical texts, PLoS One (7) (2009) e6393 [13] Z Zhao, Z Yang, L Luo, H Lin, J Wang, Drug drug interaction extraction from biomedical literature using syntax convolutional neural network, Bioinformatics 32 (22) (2016) 3444–3453 [14] H Zhou, H Deng, L Chen, Y Yang, C Jia, , D Huang, Exploiting syntactic and semantics information for chemical–disease relation extraction, Database (Oxford) 2016 (2016) baw048 doi:10.1093/database/baw048 [15] F Mehryary, J Bj ă orne, S Pyysalo, T Salakoski, F Ginter, Deep learning with minimal training data: Turkunlp entry in the bionlp shared task 2016, in: Proceedings of the the 4th BioNLP Shared Task Workshop, Association for Computational Linguistics, 2016, pp 73–81 [16] M Habibi, L Weber, M L Neves, D L Wiegandt, U Leser, Deep learning with word embeddings improves biomedical named entity recognition, Bioinformatics 33 (14) (2017) i37–i48 [17] C Quan, M Wang, F Ren, An unsupervised text mining method for relation extraction from biomedical literature, PloS one (7) (2014) e102039 [18] H.-Q Le, M.-V Tran, T H Dang, Q.-T Ha, N Collier, Sieve-based coreference resolution enhances semi-supervised learning model for chemical-induced disease relation extraction, Database 2016 doi:https://doi.org/10.1093/database/baw102 [19] Farrokh Mehryary, Jari Bjăorne, Sampo Pyysalo, Tapio Salakoski, and Filip Ginter 2016 Deep learning with minimal training data: Turkunlp entry in the bionlp shared task 2016 In Proceedings of the the 4th BioNLP Shared Task Workshop, pages 73–81 Association for Computational Linguistics [20] Zhou, H., Deng, H., Chen, L., Yang, Y., Jia, C., Huang, D.: Exploiting syntactic and semantics information for chemical-disease relation extraction Database 2016 (04 2016) https://doi.org/10.1093/database/baw048 [21] Can, Duy-Cat, Hoang-Quynh Le, and Quang-Thuy Ha "Improving Semantic Relation Extraction System with Compositional Dependency Unit on Enriched Shortest Dependency Path." In Asian Conference on Intelligent Information and Database Systems, pp 140-152 Springer, Cham, 2019 46 [22] Le, H.Q., Tran, M.V., Dang, T.H., Ha, Q.T., Collier, N.: Sieve-based coreference resolution enhances semi-supervised learning model for chemical-induced disease relation extraction Database 2016 (07 2016) https://doi.org/10.1093/database/baw102 [23] Zhou, H., Deng, H., Chen, L., Yang, Y., Jia, C., Huang, D.: Exploiting syntactic and semantics information for chemical{disease relation extraction Database 2016 (04 2016) https://doi.org/10.1093/database/baw048 [24] Can, Duy-Cat, Hoang-Quynh Le, and Quang-Thuy Ha "Improving Semantic Relation Extraction System with Compositional Dependency Unit on Enriched Shortest Dependency Path." In Asian Conference on Intelligent Information and Database Systems, pp 140-152 Springer, Cham, 2019 [25] Goyal, Kush, and Pushpak Bhattacharyya "Literature Survey on Relation Extraction and Relational Learning" [26] Nanda Kambhatla 2004 Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations In Proceedings of the ACL 2004 on Interactive poster and demonstration sessions Association for Computational Linguistics, page 22 [27] Bunescu, R.C., Mooney, R.J.: A shortest path dependency kernel for relation extraction In: Proceedings of the conference on human language technology and empirical methods in natural language processing pp 724-731 Association for Computational Linguistics (2005) 47 PHỤ LỤC 1: TÓM TẮT KẾT QUẢ CID BIOCREATIVE V Hệ thống TP FP FN P R F1 Dùng từ điển 1341 1799 647 42.71 67.45 52.3 DNorm 1593 370 395 81.15 80.13 80.64 Nhóm 276 1545 549 443 73.78 77.72 75.7 Nhóm 277 1629 191 359 89.51 81.94 85.56 Nhóm 285 1,249 892 739 58.34 62.83 60.5 Nhóm 288 1669 339 319 83.12 83.95 83.53 Nhóm 290 1284 712 704 64.33 64.59 64.46 Nhóm 293 1278 503 710 71.76 64.29 67.82 Nhóm 296 708 66 1280 91.47 35.61 51.27 Nhóm 304 1713 277 275 86.08 86.17 86.12 Nhóm 309 1372 684 616 66.73 69.01 67.85 Nhóm 310 1627 247 361 86.82 81.84 84.26 Nhóm 314 1660 192 328 89.63 83.5 86.46 Nhóm 315 1502 335 486 81.76 75.55 78.54 Nhóm 325 1661 339 327 83.05 83.55 83.3 Nhóm 363 1606 168 382 90.53 80.78 85.38 Nhóm 364 1703 606 285 73.75 85.66 79.26 Nhóm 365 1590 582 398 73.2 79.98 76.44 Trung bình 1487 418 501 78.99 74.81 76.03 (Nguồn: BioCreative V) 48 PHỤ LỤC 2: TÓM TẮT KẾT QUẢ CID BIOCREATIVE V Hệ thống TP FP FN P R F1 Mức văn 815 4145 251 16.43 76.45 27.05 Mức câu 570 1672 496 25.42 53.47 34.46 Nhóm 276 574 544 492 51.34 53.85 52.56 Nhóm 288 623 496 443 55.67 58.44 57.03 Nhóm 289 358 346 708 50.85 33.58 40.45 Nhóm 290 346 536 720 39.23 32.46 35.52 Nhóm 293 354 296 712 54.46 33.21 41.26 Nhóm 299 321 261 745 55.15 30.11 38.96 Nhóm 303 241 199 825 54.77 22.61 32.01 Nhóm 304 552 497 514 52.62 51.78 52.2 Nhóm 310 602 1099 464 35.39 56.47 43.51 Nhóm 316 454 633 612 41.77 42.59 42.17 Nhóm 322 341 462 725 42.47 31.99 36.49 Nhóm 334 441 615 625 41.76 41.37 41.56 Nhóm 335 351 390 715 47.37 32.93 38.85 Nhóm 338 576 635 490 47.56 54.03 50.59 Nhóm 341 408 432 658 48.57 38.27 42.81 Nhóm 363 506 493 560 50.65 47.47 49.01 Nhóm 364 595 1835 471 24.49 55.82 34.04 Nhóm 365 532 464 534 53.41 49.91 51.6 Trung bình 454 569 612 47.09 42.61 43.37 (Nguồn: BioCreative V) 49 PHỤ LỤC 3: CHI TIẾT KẾT QUẢ KHI THAY ĐỔI SỐ LƯỢNG MƠ HÌNH CON SỬ DỤNG PHƯƠNG PHÁP BỎ PHIẾU Số mơ hình P R F1 Số mơ hình P R F1 61.24 61.65 61.65 61.96 51.48 51.12 51.41 51.13 55.94 55.89 56.07 56.03 31 32 33 34 64.50 64.35 64.63 64.55 50.77 50.59 50.91 50.54 56.82 56.65 56.96 56.69 10 61.76 62.11 62.19 62.18 62.52 62.70 51.33 51.15 51.14 50.90 51.13 51.26 56.06 56.10 56.13 55.98 56.25 56.41 35 36 37 38 39 40 64.43 64.60 64.76 64.70 64.71 64.89 50.59 50.65 50.80 50.62 50.65 50.69 56.68 56.78 56.94 56.80 56.82 56.92 11 12 13 62.69 62.87 62.99 51.19 51.10 50.85 56.36 56.38 56.27 41 42 43 65.08 64.94 65.17 50.63 50.69 50.58 56.95 56.94 56.96 14 15 16 17 63.15 63.15 63.24 63.21 51.10 51.06 50.88 50.83 56.49 56.47 56.39 56.35 44 45 46 47 65.27 65.11 65.12 65.25 50.65 50.61 50.68 50.67 57.04 56.95 57.00 57.04 18 19 20 63.41 63.63 63.61 50.90 50.85 51.06 56.47 56.53 56.65 48 49 50 65.30 65.44 65.44 50.50 50.48 50.55 56.95 56.99 57.04 21 22 23 63.63 63.70 63.97 50.81 50.74 50.84 56.50 56.49 56.65 51 52 53 65.44 65.77 65.62 50.51 50.40 50.47 57.01 57.07 57.06 24 25 26 27 63.89 64.05 64.01 64.19 50.88 50.77 50.84 51.04 56.65 56.64 56.67 56.86 54 55 56 57 65.60 65.55 65.73 65.88 50.51 50.52 50.63 50.65 57.07 57.06 57.20 57.27 28 29 30 63.99 64.24 64.48 50.84 50.70 50.84 56.66 56.67 56.85 58 59 60 65.78 65.65 65.74 50.43 50.40 50.54 57.09 57.02 57.15 50 61 62 63 64 65 66 67 65.78 65.92 65.98 66.16 66.30 65.78 66.27 50.50 50.41 50.42 50.44 50.23 50.20 50.44 57.14 57.13 57.16 57.24 57.16 56.94 57.28 81 82 83 84 85 86 87 66.72 66.59 66.67 66.71 66.65 66.79 66.83 50.38 50.28 50.40 50.07 50.40 50.28 50.37 57.41 57.30 57.40 57.20 57.40 57.37 57.44 68 69 70 66.12 66.10 66.13 50.37 50.43 50.53 57.18 57.21 57.29 88 89 90 66.84 67.01 66.76 50.40 50.17 50.37 57.47 57.38 57.42 71 72 73 74 75 76 66.24 66.28 66.40 66.46 66.30 66.38 50.40 50.37 50.47 50.47 50.36 50.31 57.24 57.24 57.35 57.37 57.24 57.24 91 92 93 94 95 96 66.68 66.93 66.92 67.04 67.17 67.12 50.32 50.03 50.47 50.33 50.31 50.2 57.36 57.26 57.54 57.5 57.53 57.44 77 78 79 80 66.32 66.42 66.50 66.74 50.29 50.35 50.37 50.37 57.2 57.28 57.32 57.41 97 98 99 100 67.19 67.12 67.05 67.08 50.5 50.26 50.31 50.27 57.66 57.48 57.49 57.47 51 ... 20 ví dụ trên, kích thước bước nhảy Kích thước bước nhảy lớn mức ảnh hưởng lọc kích thước đầu nhỏ Hình 3.5 biểu diễn việc sử dụng bước nhảy sử dụng bước nhảy ta kích thước đầu tương ứng Nguồn:... Bước nhảy (Stride size): Một đại lượng khác cho mạng nơ-ron tích chập kích thước bước nhảy (stride size), khoảng cách mà lọc di chuyển bước sau thực tích chập Trong tất 20 ví dụ trên, kích thước... hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày tháng năm 2019 Sinh viên thực Nguyễn Văn Ước v MỤC LỤC Tóm tắt iii Lời cảm ơn iv Lời cam đoan

Ngày đăng: 11/07/2019, 17:39

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w