Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 53 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
53
Dung lượng
1,52 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phí Văn Thủy TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP DỰA VÀO MƠ HÌNH PHÂN TÍCH CÂY PHỤ THUỘC TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Phí Văn Thủy TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP DỰA VÀO MƠ HÌNH PHÂN TÍCH CÂY PHỤ THUỘC TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin Cán hướng dẫn: TS Phan Xuân Hiếu Cán đồng hướng dẫn: ThS Trần Mai Vũ VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Phi Van Thuy EXTRACTING COMPLEX BIOLOGICAL EVENTS BASED ON DEPENDENCY TREE MODEL OF TEXTS ON CANCER GENETICS Major: Information Technology Supervisor: Dr Phan Xuan Hieu Co-Supervisor: MSc Tran Mai Vu HA NOI - 2013 Lời cảm ơn Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Tiến sĩ Phan Xuân Hiếu, Thạc sĩ Trần Mai Vũ – người tận tình bảo hướng dẫn tơi q trình thực khố luận tốt nghiệp Tôi chân thành cảm ơn thầy, cô cán trường Đại Học Công Nghệ tạo điều kiện thuận lợi cho học tập nghiên cứu Tôi xin gửi lời cảm ơn chân thành tới Thạc sĩ Trần Mai Vũ, người tận tình hỗ trợ kiến thức chuyên môn, giúp đỡ hồn thành khóa luận Tơi xin gửi lời cảm ơn tới anh chị bạn sinh viên phịng thí nghiệm KT-Lab giúp tơi nhiều việc thu thập xử lý liệu Cuối cùng, tơi muốn gửi lời cảm ơn tới gia đình bạn bè, người thân yêu bên cạnh, động viên tơi suốt q trình thực khóa luận tốt nghiệp Tôi xin chân thành cảm ơn ! Hà Nội, ngày 15 tháng năm 2013 Sinh viên Phí Văn Thủy TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP DỰA VÀO MƠ HÌNH PHÂN TÍCH CÂY PHỤ THUỘC TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN Phí Văn Thủy Khóa QH-2009-I/CQ , ngành Cơng nghệ thơng tin Tóm tắt Khóa luận tốt nghiệp: Thuật ngữ trích chọn sự kiện y sinh học sử dụng để đề cập đến tốn trích chọn mơ tả hoạt động quan hệ hoặc nhiều thực thể từ tài liệu y sinh học Việc tự động nhận dạng đối tượng lớp kiện riêng, trích chọn tham số liên quan chúng biểu diễn thơng tin trích chọn vào dạng có cấu trúc từ cơng trình khoa học giúp cộng đồng nghiên cứu y sinh học nhanh chóng thu nhận kết nghiên cứu lĩnh vực liên quan mật thiết tới việc đảm bảo sức khỏe người Các kết cho thấy hiệu trích chọn kiện phức hợp (sự kiện có thể nhận tham số thực thể hoặc kiện khác) đạt khoảng 40-50% F1 BioNLP Shared Task 2011 Khóa luận đề xuất mơ hình học máy cho tốn trích chọn sự kiện y sinh phức hợp áp dụng vào Cancer Genetics (CG) task – tốn trích chọn thơng tin BioNLP Shared Task (ST) 2013 Mục đích CG task trích chọn thơng tin tự động từ văn trình sinh học, liên quan đến phát triển tiến triển bệnh ung thư Mơ hình chúng tơi gồm ba thành phần chính: (1) nhận diện trigger; (2) trích chọn ứng viên kiện; (3) xếp hạng đưa kết Khi đánh giá tập liệu phát triển cung cấp bởi BioNLP-ST 2013, với khoảng 1000 câu lấy từ PubMed, thu kết bước đầu khả quan: độ đo F1 trích chọn kiện phức hợp đạt từ 50% đến 70% Mơ hình phù hợp với miền liệu bệnh ung thư di truyền cho hiệu tốt mơ hình sở chúng tơi đưa Từ khóa: Event extraction, Dependency tree, Cancer Genetics Task i EXTRACTING COMPLEX BIOLOGICAL EVENTS BASED ON DEPENDENCY TREE MODEL OF TEXTS ON CANCER GENETICS Phi Van Thuy Course: QH-2009-I/CQ , major: Information technology Abstract: The term biomedical event extraction is used to refer to the task of extracting descriptions of actions and relations among one or more entities from the biomedical literature Generally, event extraction is to identify any instance of a particular class of events in a biomedical text, to extract the relevant arguments of the event, and to represent the extracted information into a structured form This helps the community of biomedical researchers to quickly get the latest research results in the fields closely related to ensuring human health The final results enabled to observe the state-of-the-art performance of the community on the bio-event extraction task, which showed that the automatic extraction of complex events was a lot more challenging, having achieved 40-50% in F1-score, in BioNLP Shared Task 2011 In this thesis, we propose a machine learning model for complex event extraction task and apply to Cancer Genetics (CG) task – the information extraction task in BioNLP-ST 2013 The CG task aims to advance the automatic extraction of information from statements on the biological processes relating to the development and progression of cancer Our model consists of three modules: (1) trigger detection; (2) candidate event extraction; (3) ranking and returning output Our approach obtains competitive results in the extraction of complex events from the BioNLP-ST Shared Task 2013 with a F1-score of 50-70% in development The new model fits the data domain of cancer genetics and perform better than the base model we proposed Keywords: Event extraction, Dependency tree, Cancer Genetics Task ii Lời cam đoan Em xin cam đoan cơng trình nghiên cứu mình, có giúp đỡ từ giáo viên hướng dẫn Tiến sĩ Phan Xuân Hiếu Thạc sĩ Trần Mai Vũ Các nội dung nghiên cứu kết đề tài trung thực, khơng chép từ nguồn có sẵn Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo Nếu phát có gian lận nào, em xin hoàn toàn chịu trách nhiệm trước hội đồng, kết khóa luận tốt nghiệp Sinh viên Phí Văn Thủy iii Mục lục Tóm tắt nội dung i Lời cam đoan ii Mục lục iv Danh sách bảng vi Danh sách hình vẽ vii Bảng ký hiệu viii Mở đầu Chương Bài tốn trích chọn kiện liên quan đến bệnh ung thư di truyền văn y sinh học 1.1 Giới thiệu chung 1.2 Các khái niệm liên quan đến toán 1.3 Phát biểu toán .7 1.4 Khó khăn thách thức 1.5 Phương pháp đánh giá .9 1.5.1 Khớp hoàn toàn 1.5.2 Khớp biên xấp xỉ Chương Các hướng tiếp cận giải toán trích chọn kiện văn y sinh học 11 2.1 Trích chọn kiện dựa vào phân tích phụ thuộc cú pháp .11 2.2 Trích chọn kiện dựa vào hệ thống đường ống 12 2.3 Mơ hình học máy đề xuất cho tốn trích chọn kiện liên quan đến bệnh ung thư di truyền 14 2.3.1 Thành phần nhận diện trigger 15 2.3.2 Thành phần trích chọn kiện đơn .16 2.3.3 Thành phần trích chọn kiện phức .17 Chương Mơ hình giải tốn trích chọn kiện y sinh phức hợp dựa vào mô hình phân tích phụ thuộc 19 iv 3.1 Cơ sở lý thuyết .19 3.1.1 Chuyển đổi cấu trúc kiện sang dạng biểu diễn phụ thuộc 19 3.1.2 Giải thuật Earley paresr 21 3.2 Mơ hình đề xuất giải tốn 23 3.2.1 Thành phần nhận diện trigger 24 3.2.2 Thành phần trích chọn ứng viên kiện .25 3.2.3 Thành phần xếp hạng đưa kết 26 Chương Thực nghiệm đánh giá 28 4.1 Môi trường liệu thực nghiệm .28 4.1.1 Môi trường thực nghiệm 28 4.1.2 Dữ liệu thực nghiệm 28 4.2 Giới thiệu phần mềm thực nghiệm 31 4.3 Thực nghiệm 32 4.3.1 Thực nghiệm nhận diện trigger 32 4.3.2 Thực nghiệm trích chọn kiện phức hợp 34 4.4 Nhận xét thảo luận 36 Kết luận định hướng 39 Tài liệu tham khảo 40 Tiếng Anh 40 v Danh sách bảng Bảng 1: Các kiểu thực thể CG task Bảng 2: Các kiểu sự kiện CG task Bảng 3: Kết với tập kiểm thử theo lớp sự kiện 12 Bảng 4: Phân loại kiểu sự kiện CG task .17 Bảng 5: Kết với trích chọn sự kiện phức hợp liên quan đến bệnh ung thư di truyền .18 Bảng 6: Các loại đặc trưng thành phần nhận diện trigger 26 Bảng 7: Môi trường thực nghiệm 30 Bảng 8: Thống kê chung dữ liệu thực nghiệm 33 Bảng 9: Thống kê sự kiện tập dữ liệu 33 Bảng 10: Các loại đặc trưng nhận diện trigger 35 Bảng 11: Kết với trích chọn sự kiện phức hợp liên quan đến bệnh ung thư di truyền dựa vào mơ hình phân tích phụ thuộc 36 Bảng 12: Một số kiểu lỗi nhận diện thiếu sự kiện 36 Bảng 13: Thống kê kiểu thực thể/sự kiện tham số cho sự kiện Regulation 37 Bảng 14: So sánh kết giữa mơ hình sở mơ hình mới đề xuất .38 vi với, num(edge) số cạnh có liên kết tới nút POccurence(argument|node) phân phối biểu diễn đồng xuất nhãn thực thể/trigger tham số kiểu kiện P(edge|argument) = λ * PClassifier(edge|argument) + (1- λ) * PPrior(edge|argument) λ tham số nội suy đoạn [0, 1] PClassifier(edge|argument) xác suất thu từ phân lớp cạnh PPrior(edge|argument) xác suất ưu tiên cho cạnh tập liệu huấn luyện (xác suất điều kiện tiên nghiệm) Xác suất tổng số lần xuất điều kiện chia cho tổng số lần xuất Các cạnh liên kết trực tiếp đến ROOT không liên quan đến kiện phức hợp đích có giá trị mặc định Trọng số cho ứng viên kiện tính giá trị ROOT Chúng sử dụng tham số ngưỡng filter_threshold để loại bỏ có cạnh với P(edge|argument) nhỏ filter_threshold Mặt khác, sử dụng tham số ngưỡng cutoff_threshold để lựa chọn ứng viên với giá trị cao Các ứng viên cấu trúc ứng viên khác bị loại bỏ từ kết cuối Những phụ thuộc tốt chuyển dạng biểu diễn cấu trúc kiện (theo standoff format sử dụng BioNLP Shared Task 2013) hệ thống đưa kết cuối 27 Chương Thực nghiệm đánh giá 4.1 Môi trường thực nghiệm liệu thực nghiệm 4.1.1 Môi trường thực nghiệm Bảng 7: Môi trường thực nghiệm 4.1.2 Thành phần Chỉ số CPU Intel Core i3 2.53GHz RAM 2G HDD 320GB Hệ điều hành Windows Ultimate Dữ liệu thực nghiệm Dữ liệu BioNLP-ST 2013 sử dụng định dạng standoff17 tương tự BioNLPST 2011 Với dạng biểu diễn standoff, tài liệu văn tách riêng với file gán nhãn (được kết nối đến vị trí cụm từ văn thơng qua vị trí (offset) kí tự) Định dạng file BioNLP-ST 2013 xác định bởi phần hậu tố tên file: “.txt”, “.a1” hoặc “.a2”: File văn (.txt): chứa văn từ tài liệu gốc Ví dụ: RFLAT-1, a new zinc finger transcription factor that activates RANTES gene … File gán nhãn đầu vào (.a1): chứa nhãn thực thể cho sẵn, đầu vào cho toán Chú ý file gán nhãn a1 gán nhãn thủ công cung cấp cho đội liệu huấn luyện kiểm thử Ví dụ: T1 T2 Protein RFLAT-1 Protein 63 69 RANTES File gán nhãn đích (.a2): chứa nhãn cho kiện thông tin liên quan, mục tiêu cho trích chọn toán T13 E1 Positive_regulation 53 62 activates Positive_regulation:T13 Theme:T1 Cấu trúc gán nhãn chung: Tất file gán nhãn có cấu trúc nhau: dịng chứa nhãn nhãn có ID xuất dòng, ngăn cách 17 http://2013.bionlp-st.org/file-formats 28 phần lại bởi kí tự TAB Phần cịn lại cấu trúc khác theo kiểu gán nhãn Tất ID nhãn chứa kí tự viết hoa xác định kiểu gán nhãn số Các kí tự ID bắt đầu liên quan đến kiểu gán nhãn sau: T: nhãn biên cụm từ (thực thể / trigger) (text-bound annotation) E: kiện (event) M: modification Nhãn biên cụm từ: xác định cụm từ thực thể hoặc trigger gán kiểu cho chúng Nhãn cho sẵn ba ngăn cách bởi kí tự SPACE (type, start-offset, end-offset); start-offset số kí tự cụm gán nhãn văn (file “.txt”, kí tự bắt đầu 0), endoffset số kí tự sau cụm gán nhãn Nhãn cho trigger nhãn biên cụm từ, có định dạng với thực thể, có ID khác với thực thể Nhãn kiện: có ID nhất, định nghĩa kiểu, trigger tham số ID kiện xuất đầu tiên, ngăn cách bởi kí tự TAB TYPE:ID xác định kiểu kiện trigger thơng qua ID Trigger ngăn cách với tham số bởi kí tự SPACE Các tham số kiện tập cặp ROLE:ID ngăn cách bởi kí tự SPACE, với ROLE vai trò tham số kiện, ID xác định thực thể hoặc kiện ứng với vai trị Nhãn modification: kiện trạng thái suy luận hoặc ngữ cảnh phủ định [8] [15] Nhãn bắt đầu với ID, ngăn cách bởi kí tự TAB với kiểu modification (Speculation hoặc Negation), ngăn cách bởi kí tự SPACE với ID nhãn mà sửa đổi áp dụng M1 M2 Speculation E1 Negation E2 Chúng tiến hành thực nghiệm với tập liệu huấn luyện phát triển18 cung cấp bởi BioNLP-ST 2013 Kết đánh giá thực tập liệu phát triển gán nhãn chuẩn Một số thống kê liệu sau 18 http://2013.bionlp-st.org/tasks 29 Bảng 8: Thống kê chung dữ liệu thực nghiệm Câu Thực thể Thực thể phân biệt Trigger Trigger phân biệt Sự kiện Speculation Nhãn Negation Modification Tổng cộng Dữ liệu huấn luyện Dữ liệu phát triển 3040 1003 11034 3665 3901 1554 7370 2420 1426 732 8803 2915 309 103 361 111 670 214 Bảng 9: Thống kê sự kiện tập dữ liệu Sự kiện STT 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Số kiện Tập huấn luyện Tập phát triển 275 72 Development 410 166 Blood_vessel_development 110 43 Growth 98 42 Death 196 69 Cell_death 67 27 Breakdown 215 43 Cell_proliferation Cell_division 29 Remodeling Reproduction 170 54 Mutation 125 45 Carcinogenesis 284 85 Metastasis 49 13 Metabolism 33 Synthesis 24 12 Catabolism 717 253 Gene_expression 96 17 Transcription 11 Translation 13 Protein_processing 66 30 Phosphorylation 4 Dephosphorylation 33 DNA_methylation DNA_demethylation 163 65 Pathway 492 127 Localization 197 80 Binding Dissociation 1026 291 Regulation Kiểu 30 30 31 32 33 34 35 36 37 38 39 40 1793 1126 693 39 148 58 24 8803 Positive_regulation Negative_regulation Planned_process Acetylation Glycolysis Glycosylation Cell_transformation Cell_differentiation Ubiquitination Amino_acid_catabolism Infection Total 621 352 279 10 53 22 13 2915 Chúng tiến hành số thống kê kiểu thực thể, trigger tham số cho từng kiểu kiện riêng 4.2 Giới thiệu phần mềm thực nghiệm Chúng xây dựng phần mềm gồm chức sau: Nhận diện trigger đánh giá kết Trích chọn ứng viên kiện Xếp hạng phụ thuộc đưa kết Các mơ-đun phần mềm: Trigger_feature_extract: Trích chọn đặc trưng trigger cho toán nhận diện trigger Liblinear: triển khai thuật toán học máy hồi quy logistic nhận diện trigger (là mã nguồn mở) Prob_Earley_parser: Trích chọn ứng viên kiện Trees_rank: Xếp hạng phụ thuộc đưa kết cuối Evaluator: Đánh giá kết pha chạy 31 Hình 10: Các mơ-đun phần mềm thực nghiệm 4.3 Thực nghiệm Chúng tiến hành thực nghiệm: Thực nghiệm nhận diện trigger: Trích chọn đặc trưng trigger, phân lớp chúng vào 41 lớp (40 lớp ứng với 40 kiểu kiện lớp -1 khơng trigger) Từ lấy kết trigger đại diện cho bốn kiểu kiện phức hợp Thực nghiệm trích chọn kiện phức hợp: Trích chọn ứng viên kiện cho câu văn y sinh học Sau xếp hạng đưa kết bốn kiểu kiện phức hợp CG Task Các thực nghiệm tiến hành tập liệu huấn luyện (training) tập liệu phát triển (development) cung cấp bởi BioNLP-ST 2013 Tập liệu phát triển giúp đánh giá mô hình đề xuất liệu Tiêu chí “khớp hồn tồn” (trình bày ở phần I.5) áp dụng cho trình đánh giá 4.3.1 Thực nghiệm nhận diện trigger Tỉ lệ số trigger chứa token tập huấn luyện (CG dataset) 7078/7410 = 95.5%, tập liệu phát triển (CG dataset) 2350/2453 = 95.8% Theo Jari Bjorne cộng [9], Chúng tơi đơn giản hóa tốn cách thu gọn trigger chứa nhiều token từ đại diện (head word) cú pháp chúng (ví dụ: “acts” thay cho “acts as a costimulatory signal”) 32 Hình ví dụ câu tập liệu huấn luyện cho nhận diện trigger, thực thể bao tag , ; trigger bao tag , In contrast, tunicamycin had little effect on the viability and MTT responses of the cells used Hình 11: Ví dụ câu tập dữ liệu huấn luyện cho nhận diện trigger Mô hình cài đặt sử dụng phân lớp hồi quy logistic dựa vào loại đặc trưng: Bảng 10: Các loại đặc trưng nhận diện trigger STT Loại đặc trưng Đặc trưng token Đặc trưng tần suất Chuỗi phụ thuộc Mô tả đặc trưng Bao gồm cách viết hoa, xuất dấu câu, kí tự số, từ gốc, bigram trigram, xuất từ điển chứa trigger (được xây dựng dựa vào tập liệu huấn luyện) Bao gồm số thực thể câu Các chuỗi phụ thuộc đến độ sâu ba, xây dựng từ token phân lớp Tại độ sâu, đặc trưng mức token kiểu phụ thuộc đưa vào, thứ tự kiểu phụ thuộc chuỗi Sau tiến hành thực nghiệm gồm bước: 1) Trích chọn đặc trưng trigger 2) Học (theo phương pháp hồi quy logistic) 3) Kiểm thử (theo phương pháp hồi quy logistic) Chúng thu kết nhận diện trigger: độ xác 96.8%, độ hồi tưởng 94.4% độ đo F1 95.6% Chúng lấy kết từ thành phần nhận diện trigger đầu vào cho thành phần trích chọn ứng viên kiện, cho bốn kiểu kiện phức hợp: Regulation, Positive regulation, Negative regulation Planned process 33 4.3.2 Thực nghiệm trích chọn kiện phức hợp Chúng tơi xây dựng phân tích phương pháp xác suất theo Earley parser để lựa chọn ứng viên kiện tốt Các thiết lập tối ưu cho tập tham số sử dụng tập liệu phát triển (development test) để đánh giá là: α=0.5; filter_threshold=0.2; cutoff_threshold=0.45 Để minh họa cho liệu ứng viên kiện sinh từ giải thuật Earley parser, ta xét hai ví dụ sau: Tập luật (ví dụ 1): ROOT ::= NEGATIVE_REGULATION NEGATIVE_REGULATION ::= NEGATIVE_REGULATION_TRIGGER CAUSE THEME NEGATIVE_REGULATION ::= NEGATIVE_REGULATION_TRIGGER THEME CAUSE NEGATIVE_REGULATION ::= CAUSE NEGATIVE_REGULATION_TRIGGER THEME NEGATIVE_REGULATION ::= CAUSE THEME NEGATIVE_REGULATION_TRIGGER NEGATIVE_REGULATION ::= THEME NEGATIVE_REGULATION_TRIGGER CAUSE NEGATIVE_REGULATION ::= THEME CAUSE NEGATIVE_REGULATION_TRIGGER CELL_PROLIFERATION ::= CELL_PROLIFERATION_TRIGGER THEME CELL_PROLIFERATION ::= THEME CELL_PROLIFERATION_TRIGGER METASTASIS ::= METASTASIS_TRIGGER THEME METASTASIS ::= THEME METASTASIS_TRIGGER NEGATIVE_REGULATION_TRIGGER ::= inhibiting CELL_PROLIFERATION_TRIGGER ::= growth METASTASIS_TRIGGER ::= metastasis CAUSE ::= GENE_OR_GENE_PRODUCT THEME ::= CELL_PROLIFERATION THEME ::= METASTASIS THEME ::= CELL CELL ::= tumor_cell GENE_OR_GENE_PRODUCT ::= u-995 Cây phân tích cho ví dụ 1: Đầu vào: u995 inhibiting tumor_cell growth metastasis 0:[ROOT](0) 0:[NEGATIVE_REGULATION](0) 0:[CAUSE](0) 0:[GENE_OR_GENE_PRODUCT](0) > 0:[u995](0) 0:[NEGATIVE_REGULATION_TRIGGER](0) > 0:[inhibiting](0) 34 0:[THEME](0) 0:[METASTASIS](0) 0:[THEME](0) 0:[CELL_PROLIFERATION](0) 0:[THEME](0) 0:[CELL](0) > 0:[tumor_cell](0) 0:[CELL_PROLIFERATION_TRIGGER](0) > 0:[growth](0) 0:[METASTASIS_TRIGGER](0) > 0:[metastasis](0) Tập luật (ví dụ 2): ROOT ::= NEGATIVE_REGULATION SIMPLE_CHEMICAL NEGATIVE_REGULATION_TRIGGER ::= inhibited LOCALIZATION_TRIGGER ::= migration THEME ::= LOCALIZATION LOCALIZATION ::= LOCALIZATION_TRIGGER THEME LOCALIZATION ::= THEME LOCALIZATION_TRIGGER CELL ::= huvec SIMPLE_CHEMICAL ::= thymidine Cây phân tích cho ví dụ 2: Đầu vào: u995 inhibited huvec migration thymidine 0:[ROOT](0) 0:[NEGATIVE_REGULATION](0) 0:[CAUSE](0) 0:[GENE_OR_GENE_PRODUCT](0) > 0:[u995](0) 0:[NEGATIVE_REGULATION_TRIGGER](0) > 0:[inhibited](0) 0:[THEME](0) 0:[LOCALIZATION](0) 0:[THEME](0) 0:[CELL](0) > 0:[huvec](0) 0:[LOCALIZATION_TRIGGER](0) > 0:[migration](0) 0:[SIMPLE_CHEMICAL](0) > 0:[thymidine](0) 35 Bảng 11 kết trích chọn kiện tập liệu phát triển, theo phương thức decomposition Theo phương phức này, kiện với nhiều tham số, chẳng hạn: event-type:trigger-id arg1-type:arg1-id arg2-type:arg2-id phân tách thành nhiều kiện đơn tham số: event-type:trigger-id arg1-type:arg1-id event-type:trigger-id arg2-type:arg2-id Bảng 11: Kết với trích chọn sự kiện phức hợp liên quan đến bệnh ung thư di truyền dựa vào mơ hình phân tích phụ thuộc STT Kiểu kiện Regulation Positive_regulation Negative_regulation Planned_process F1 (%) 69.55 68.13 68.57 49.99 4.4 Nhận xét thảo luận Các phân tích từ tập liệu phát triển (development set) mà thực cho thấy thành phần nhận diện trigger đưa kết với độ xác cao: F1=95.6% Chúng tơi chọn ngẫu nhiên 50 false negative event (thực tế kiện hệ thống dự đốn khơng phải kiện) để phân tích lỗi Có 29 trigger 21 kiện mà hệ thống khơng dự đốn kiện Bảng 12 liệt kê số kiểu lỗi Bảng 12: Một sớ kiểu lỗi nhận diện thiếu sự kiện STT Nguyên nhân Nhập nhằng kiểu kiện Đồng tham chiếu Không khớp với mẫu kiện Khơng có thể tập huấn luyện Khơng có tham số Khơng có luật Earley Trigger 7 Sự kiện 10 Hiệu trích chọn kiện phức hợp đạt độ xác kém so với kiện đơn (các kiện nhận tham số thực thể) phức tạp cấu trúc Các tham số kiện phức hợp đa dạng kiểu thực thể/sự kiện, điều 36 ảnh hưởng đến hiệu nặng trích chọn chúng Bảng 13 thống kê kiểu thực thể/sự kiện tham số cho kiểu kiện Regulation Bảng 13: Thống kê kiểu thực thể/sự kiện tham số cho sự kiện Regulation Tham số Theme:Entity Cause:Entity CSite:Entity Theme:Event Cause:Event Training Kiểu thực thể/sự kiện Gene_or_gene_product Cancer Cell Gene_or_gene_product Cancer Cell Gene_or_gene_product Blood_vessel_development Positive_regulation Gene_expression Localization Cell_proliferation Development Negative_regulation Carcinogenesis Metastasis Growth Cell_death Regulation Pathway Binding Cell_transformation Negative_regulation Blood_vessel_development Localization Positive_regulation Development Carcinogenesis Gene_expression Development Số lượng 67 32 26 25 23 12 36 29 25 24 21 17 16 15 13 13 13 12 12 12 10 41 17 15 15 14 13 12 37 Kiểu thực thể/sự kiện Số lượng Gene_or_gene_product Cell Cancer Gene_or_gene_product Cancer 10 Negative_regulation Blood_vessel_development Positive_regulation Metastasis Cell_proliferation Pathway Localization Gene_expression Binding Regulation Development Cell_transformation Carcinogenesis Cell_death 13 12 11 8 5 4 3 Negative_regulation Positive_regulation Metastasis Blood_vessel_development Development Regulation Cell_transformation Carcinogenesis Gene_expression 12 8 4 3 Khi so sánh kết với mơ hình sở (mơ hình đề xuất chương 2), mơ hình cho hiệu cao từ 5-13% Điều cho thấy ưu điểm mơ hình dựa phân tích phụ thuộc trích chọn kiện phức hợp Bảng 14: So sánh kết giữa mơ hình sở mơ hình mới đề xuất STT Kiểu kiện Regulation Positive_regulation Negative_regulation Planned_process F1 % (Mơ hình sở) 61.48 57.76 55.60 45.42 38 F1 % (Mơ hình mới) 69.55 68.13 68.57 49.99 Kết luận định hướng Với kết đạt được, báo cáo nghiên cứu khoa học đã đóng góp: Trình bày khái qi tốn trích chọn kiện liên quan đến bệnh ung thư di truyền Trình bày hai hướng tiếp cận điển hình giải tốn Trình bày mơ hình sở đề xuất, giải cho tốn trích chọn kiện liên quan đến bệnh ung thư di truyền Đề xuất xây dựng mơ hình dựa học máy có giám sát với tập giàu đặc trưng, tập luật phân tích quy hoạch động Earley parser, giải cho tốn trích chọn kiện phức hợp văn bệnh ung thư di truyền Thực nghiệm dựa tập liệu phát triển (cung cấp bởi BioNLP-ST 2013) cho kết khả quan mơ hình sở Định hướng nghiên cứu: Tiếp tục cải tiến mơ hình trích chọn kiện phức hợp tránh vấn đề khớp (over-fitting) để áp dụng mơ hình với đa miền (cross-domain) y sinh học 39 Tài liệu tham khảo Tiếng Anh [1] C Hong-Woo, T Ohta, J.D Kim, and J Tsujii, "Building Patterns for Biomedical Event Extraction," In the 15th International conference on Genome Informatics GIW 163-164 2004 [2] David Campos, Sérgio Matos and José Luís Oliveira (2012) Biomedical Named Entity Recognition: A Survey of Machine-Learning Tools, Theory and Applications for Advanced Text Mining, Prof Shigeaki Sakurai (Ed.), ISBN: 978-953-51-0852-8, InTech, DOI: 10.5772/51066 [3] David Martinez and Timothy Baldwin Word sense disambiguation for event trigger word detection in biomedicine, BMC Bioinformatics 2011, 12(Suppl 2):S4 [4] David McClosky, Mihai Surdeanu, and Chris Manning 2011 Event extraction as dependency parsing In Proceedings of the Association for Computational Linguistics: Human Language Technologies 2011 Conference (ACLHLT’11), Main Conference, Portland, Oregon, June [5] David McClosky, Mihai Surdeanu, and Christopher D Manning 2011b Event extraction as dependency parsing in BioNLP 2011 In BioNLP 2011 Shared Task [6] Earley, Jay (1968) An Efficient Context-Free Parsing Algorithm CarnegieMellon Dissertation [7] Eugene Charniak and Mark Johnson 2005 Coarse-to-Fine n-Best Parsing and MaxEnt Discriminative Reranking In ACL The Association for Computer Linguistics [8] Eisner, Jason, and Nathaniel Filardo Use of Modality and Negation in Semantically-Informed Syntactic MT Datalog 2.0 [9] Jari Bjorne, Juho Heimonen, Filip Ginter, Antti Airola, Tapio Pahikkala, and Tapio Salakoski 2009 Extracting complex biological events with rich graphbased feature sets In Proceedings of the BioNLP 2009 Workshop Companion Volume for Shared Task, pages 10–18, Boulder, Colorado, June Association for Computational Linguistics 40 [10] Jin-Dong Kim, Sampo Pyysalo, Tomoko Ohta et al Overview of BioNLP Shared Task 2011 In Proceedings of the BioNLP Shared Task 2011 Workshop (2011), pp 1-6 [11] Jin-Dong Kim, Tomoko Ohta, Sampo Pyysalo, Yoshinobu Kano, and Jun’ichi Tsujii 2009 Overview of BioNLP’09 shared task on event extraction In Proceedings of the Workshop on BioNLP: Shared Task, pages 1–9 Association for Computational Linguistics [12] Jin-Dong Kim, Yue Wang, Toshihisa Takagi, and Akinori Yonezawa 2011b Overview of the Genia Event task in BioNLP Shared Task 2011 In Proceedings of the BioNLP 2011 Workshop Companion Volume for Shared Task, Portland, Oregon, June Association for Computational Linguistics [13] Hale, J (2001) A probabilistic Earley parser as a psycholinguistic model In Proceedings of NAACL, volume 2, pages 159-166 [14] Makoto Miwa, Paul Thompson, John McNaught, Douglas B Kell and Sophia Ananiadou (2012) Extracting semantically enriched events from biomedical literature BMC Bioinformatics, 13:108 [15] Minka, T (2001) Algorithms for maximum-likelihood logistic regression Statistics Tech Report[J], volume 758 [16] Poon, Hoifung, and Lucy Vanderwende Joint inference for knowledge extraction from biomedical literature Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics Association for Computational Linguistics, 2010 [17] Velldal, Erik, et al Speculation and negation: Rules, rankers, and the role of syntax Computational Linguistics 38.2 (2012): 369-410 41 ... NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Phi Van Thuy EXTRACTING COMPLEX BIOLOGICAL EVENTS BASED ON DEPENDENCY TREE MODEL OF TEXTS ON CANCER GENETICS Major: Information... chúng tơi đưa Từ khóa: Event extraction, Dependency tree, Cancer Genetics Task i EXTRACTING COMPLEX BIOLOGICAL EVENTS BASED ON DEPENDENCY TREE MODEL OF TEXTS ON CANCER GENETICS Phi Van Thuy Course:... extraction of complex events was a lot more challenging, having achieved 40-50% in F1-score, in BioNLP Shared Task 2011 In this thesis, we propose a machine learning model for complex event extraction