TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP DỰA VÀO MÔ HÌNH PHÂN TÍCH CÂY PHỤ THUỘC TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phí Văn Thủy TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP DỰA VÀO MƠ HÌNH PHÂN TÍCH CÂY PHỤ THUỘC TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Phí Văn Thủy TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP DỰA VÀO MƠ HÌNH PHÂN TÍCH CÂY PHỤ THUỘC TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin Cán hướng dẫn: TS Phan Xuân Hiếu Cán đồng hướng dẫn: ThS Trần Mai Vũ VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Phi Van Thuy EXTRACTING COMPLEX BIOLOGICAL EVENTS BASED ON DEPENDENCY TREE MODEL OF TEXTS ON CANCER GENETICS Major: Information Technology Supervisor: Dr Phan Xuan Hieu Co-Supervisor: MSc Tran Mai Vu HA NOI - 2013 Lời cảm ơn Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Tiến sĩ Phan Xuân Hiếu, Thạc sĩ Trần Mai Vũ – người tận tình bảo hướng dẫn tơi q trình thực khố luận tốt nghiệp Tôi chân thành cảm ơn thầy, cô cán trường Đại Học Công Nghệ tạo điều kiện thuận lợi cho học tập nghiên cứu Tôi xin gửi lời cảm ơn chân thành tới Thạc sĩ Trần Mai Vũ, người tận tình hỗ trợ kiến thức chuyên môn, giúp đỡ hồn thành khóa luận Tơi xin gửi lời cảm ơn tới anh chị bạn sinh viên phịng thí nghiệm KT-Lab giúp tơi nhiều việc thu thập xử lý liệu Cuối cùng, tơi muốn gửi lời cảm ơn tới gia đình bạn bè, người thân yêu bên cạnh, động viên tơi suốt q trình thực khóa luận tốt nghiệp Tôi xin chân thành cảm ơn ! Hà Nội, ngày 15 tháng năm 2013 Sinh viên Phí Văn Thủy TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP DỰA VÀO MƠ HÌNH PHÂN TÍCH CÂY PHỤ THUỘC TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN Phí Văn Thủy Khóa QH-2009-I/CQ , ngành Cơng nghệ thơng tin Tóm tắt Khóa luận tốt nghiệp: Thuật ngữ trích chọn sự kiện y sinh học sử dụng để đề cập đến tốn trích chọn mơ tả hoạt động quan hệ hoặc nhiều thực thể từ tài liệu y sinh học Việc tự động nhận dạng đối tượng lớp kiện riêng, trích chọn tham số liên quan chúng biểu diễn thơng tin trích chọn vào dạng có cấu trúc từ cơng trình khoa học giúp cộng đồng nghiên cứu y sinh học nhanh chóng thu nhận kết nghiên cứu lĩnh vực liên quan mật thiết tới việc đảm bảo sức khỏe người Các kết cho thấy hiệu trích chọn kiện phức hợp (sự kiện có thể nhận tham số thực thể hoặc kiện khác) đạt khoảng 40-50% F1 BioNLP Shared Task 2011 Khóa luận đề xuất mơ hình học máy cho tốn trích chọn sự kiện y sinh phức hợp áp dụng vào Cancer Genetics (CG) task – tốn trích chọn thơng tin BioNLP Shared Task (ST) 2013 Mục đích CG task trích chọn thơng tin tự động từ văn trình sinh học, liên quan đến phát triển tiến triển bệnh ung thư Mơ hình chúng tơi gồm ba thành phần chính: (1) nhận diện trigger; (2) trích chọn ứng viên kiện; (3) xếp hạng đưa kết Khi đánh giá tập liệu phát triển cung cấp bởi BioNLP-ST 2013, với khoảng 1000 câu lấy từ PubMed, thu kết bước đầu khả quan: độ đo F1 trích chọn kiện phức hợp đạt từ 50% đến 70% Mơ hình phù hợp với miền liệu bệnh ung thư di truyền cho hiệu tốt mơ hình sở chúng tơi đưa Từ khóa: Event extraction, Dependency tree, Cancer Genetics Task i EXTRACTING COMPLEX BIOLOGICAL EVENTS BASED ON DEPENDENCY TREE MODEL OF TEXTS ON CANCER GENETICS Phi Van Thuy Course: QH-2009-I/CQ , major: Information technology Abstract: The term biomedical event extraction is used to refer to the task of extracting descriptions of actions and relations among one or more entities from the biomedical literature Generally, event extraction is to identify any instance of a particular class of events in a biomedical text, to extract the relevant arguments of the event, and to represent the extracted information into a structured form This helps the community of biomedical researchers to quickly get the latest research results in the fields closely related to ensuring human health The final results enabled to observe the state-of-the-art performance of the community on the bio-event extraction task, which showed that the automatic extraction of complex events was a lot more challenging, having achieved 40-50% in F1-score, in BioNLP Shared Task 2011 In this thesis, we propose a machine learning model for complex event extraction task and apply to Cancer Genetics (CG) task – the information extraction task in BioNLP-ST 2013 The CG task aims to advance the automatic extraction of information from statements on the biological processes relating to the development and progression of cancer Our model consists of three modules: (1) trigger detection; (2) candidate event extraction; (3) ranking and returning output Our approach obtains competitive results in the extraction of complex events from the BioNLP-ST Shared Task 2013 with a F1-score of 50-70% in development The new model fits the data domain of cancer genetics and perform better than the base model we proposed Keywords: Event extraction, Dependency tree, Cancer Genetics Task ii Lời cam đoan Em xin cam đoan cơng trình nghiên cứu mình, có giúp đỡ từ giáo viên hướng dẫn Tiến sĩ Phan Xuân Hiếu Thạc sĩ Trần Mai Vũ Các nội dung nghiên cứu kết đề tài trung thực, khơng chép từ nguồn có sẵn Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo Nếu phát có gian lận nào, em xin hoàn toàn chịu trách nhiệm trước hội đồng, kết khóa luận tốt nghiệp Sinh viên Phí Văn Thủy iii Mục lục Tóm tắt nội dung i Lời cam đoan ii Mục lục iv Danh sách bảng vi Danh sách hình vẽ vii Bảng ký hiệu viii Mở đầu Chương Bài tốn trích chọn kiện liên quan đến bệnh ung thư di truyền văn y sinh học 1.1 Giới thiệu chung 1.2 Các khái niệm liên quan đến toán 1.3 Phát biểu toán .7 1.4 Khó khăn thách thức 1.5 Phương pháp đánh giá .9 1.5.1 Khớp hoàn toàn 1.5.2 Khớp biên xấp xỉ Chương Các hướng tiếp cận giải toán trích chọn kiện văn y sinh học 11 2.1 Trích chọn kiện dựa vào phân tích phụ thuộc cú pháp .11 2.2 Trích chọn kiện dựa vào hệ thống đường ống 12 2.3 Mơ hình học máy đề xuất cho tốn trích chọn kiện liên quan đến bệnh ung thư di truyền 14 2.3.1 Thành phần nhận diện trigger 15 2.3.2 Thành phần trích chọn kiện đơn .16 2.3.3 Thành phần trích chọn kiện phức .17 Chương Mơ hình giải tốn trích chọn kiện y sinh phức hợp dựa vào mô hình phân tích phụ thuộc 19 iv 3.1 Cơ sở lý thuyết .19 3.1.1 Chuyển đổi cấu trúc kiện sang dạng biểu diễn phụ thuộc 19 3.1.2 Giải thuật Earley paresr 21 3.2 Mơ hình đề xuất giải tốn 23 3.2.1 Thành phần nhận diện trigger 24 3.2.2 Thành phần trích chọn ứng viên kiện .25 3.2.3 Thành phần xếp hạng đưa kết 26 Chương Thực nghiệm đánh giá 28 4.1 Môi trường liệu thực nghiệm .28 4.1.1 Môi trường thực nghiệm 28 4.1.2 Dữ liệu thực nghiệm 28 4.2 Giới thiệu phần mềm thực nghiệm 31 4.3 Thực nghiệm 32 4.3.1 Thực nghiệm nhận diện trigger 32 4.3.2 Thực nghiệm trích chọn kiện phức hợp 34 4.4 Nhận xét thảo luận 36 Kết luận định hướng 39 Tài liệu tham khảo 40 Tiếng Anh 40 v Danh sách bảng Bảng 1: Các kiểu thực thể CG task Bảng 2: Các kiểu sự kiện CG task Bảng 3: Kết với tập kiểm thử theo lớp sự kiện 12 Bảng 4: Phân loại kiểu sự kiện CG task .17 Bảng 5: Kết với trích chọn sự kiện phức hợp liên quan đến bệnh ung thư di truyền .18 Bảng 6: Các loại đặc trưng thành phần nhận diện trigger 26 Bảng 7: Môi trường thực nghiệm 30 Bảng 8: Thống kê chung dữ liệu thực nghiệm 33 Bảng 9: Thống kê sự kiện tập dữ liệu 33 Bảng 10: Các loại đặc trưng nhận diện trigger 35 Bảng 11: Kết với trích chọn sự kiện phức hợp liên quan đến bệnh ung thư di truyền dựa vào mơ hình phân tích phụ thuộc 36 Bảng 12: Một số kiểu lỗi nhận diện thiếu sự kiện 36 Bảng 13: Thống kê kiểu thực thể/sự kiện tham số cho sự kiện Regulation 37 Bảng 14: So sánh kết giữa mơ hình sở mơ hình mới đề xuất .38 vi với,  num(edge) số cạnh có liên kết tới nút  POccurence(argument|node) phân phối biểu diễn đồng xuất nhãn thực thể/trigger tham số kiểu kiện  P(edge|argument) = λ * PClassifier(edge|argument) + (1- λ) * PPrior(edge|argument)  λ tham số nội suy đoạn [0, 1]  PClassifier(edge|argument) xác suất thu từ phân lớp cạnh  PPrior(edge|argument) xác suất ưu tiên cho cạnh tập liệu huấn luyện (xác suất điều kiện tiên nghiệm) Xác suất tổng số lần xuất điều kiện chia cho tổng số lần xuất Các cạnh liên kết trực tiếp đến ROOT không liên quan đến kiện phức hợp đích có giá trị mặc định Trọng số cho ứng viên kiện tính giá trị ROOT Chúng sử dụng tham số ngưỡng filter_threshold để loại bỏ có cạnh với P(edge|argument) nhỏ filter_threshold Mặt khác, sử dụng tham số ngưỡng cutoff_threshold để lựa chọn ứng viên với giá trị cao Các ứng viên cấu trúc ứng viên khác bị loại bỏ từ kết cuối Những phụ thuộc tốt chuyển dạng biểu diễn cấu trúc kiện (theo standoff format sử dụng BioNLP Shared Task 2013) hệ thống đưa kết cuối 27 Chương Thực nghiệm đánh giá 4.1 Môi trường thực nghiệm liệu thực nghiệm 4.1.1 Môi trường thực nghiệm Bảng 7: Môi trường thực nghiệm 4.1.2 Thành phần Chỉ số CPU Intel Core i3 2.53GHz RAM 2G HDD 320GB Hệ điều hành Windows Ultimate Dữ liệu thực nghiệm Dữ liệu BioNLP-ST 2013 sử dụng định dạng standoff17 tương tự BioNLPST 2011 Với dạng biểu diễn standoff, tài liệu văn tách riêng với file gán nhãn (được kết nối đến vị trí cụm từ văn thơng qua vị trí (offset) kí tự) Định dạng file BioNLP-ST 2013 xác định bởi phần hậu tố tên file: “.txt”, “.a1” hoặc “.a2”:  File văn (.txt): chứa văn từ tài liệu gốc Ví dụ: RFLAT-1, a new zinc finger transcription factor that activates RANTES gene …  File gán nhãn đầu vào (.a1): chứa nhãn thực thể cho sẵn, đầu vào cho toán Chú ý file gán nhãn a1 gán nhãn thủ công cung cấp cho đội liệu huấn luyện kiểm thử Ví dụ: T1 T2 Protein RFLAT-1 Protein 63 69 RANTES  File gán nhãn đích (.a2): chứa nhãn cho kiện thông tin liên quan, mục tiêu cho trích chọn toán T13 E1 Positive_regulation 53 62 activates Positive_regulation:T13 Theme:T1 Cấu trúc gán nhãn chung: Tất file gán nhãn có cấu trúc nhau: dịng chứa nhãn nhãn có ID xuất dòng, ngăn cách 17 http://2013.bionlp-st.org/file-formats 28 phần lại bởi kí tự TAB Phần cịn lại cấu trúc khác theo kiểu gán nhãn Tất ID nhãn chứa kí tự viết hoa xác định kiểu gán nhãn số Các kí tự ID bắt đầu liên quan đến kiểu gán nhãn sau:  T: nhãn biên cụm từ (thực thể / trigger) (text-bound annotation)  E: kiện (event)  M: modification Nhãn biên cụm từ: xác định cụm từ thực thể hoặc trigger gán kiểu cho chúng Nhãn cho sẵn ba ngăn cách bởi kí tự SPACE (type, start-offset, end-offset); start-offset số kí tự cụm gán nhãn văn (file “.txt”, kí tự bắt đầu 0), endoffset số kí tự sau cụm gán nhãn Nhãn cho trigger nhãn biên cụm từ, có định dạng với thực thể, có ID khác với thực thể Nhãn kiện: có ID nhất, định nghĩa kiểu, trigger tham số ID kiện xuất đầu tiên, ngăn cách bởi kí tự TAB TYPE:ID xác định kiểu kiện trigger thơng qua ID Trigger ngăn cách với tham số bởi kí tự SPACE Các tham số kiện tập cặp ROLE:ID ngăn cách bởi kí tự SPACE, với ROLE vai trò tham số kiện, ID xác định thực thể hoặc kiện ứng với vai trị Nhãn modification: kiện trạng thái suy luận hoặc ngữ cảnh phủ định [8] [15] Nhãn bắt đầu với ID, ngăn cách bởi kí tự TAB với kiểu modification (Speculation hoặc Negation), ngăn cách bởi kí tự SPACE với ID nhãn mà sửa đổi áp dụng M1 M2 Speculation E1 Negation E2 Chúng tiến hành thực nghiệm với tập liệu huấn luyện phát triển18 cung cấp bởi BioNLP-ST 2013 Kết đánh giá thực tập liệu phát triển gán nhãn chuẩn Một số thống kê liệu sau 18 http://2013.bionlp-st.org/tasks 29 Bảng 8: Thống kê chung dữ liệu thực nghiệm Câu Thực thể Thực thể phân biệt Trigger Trigger phân biệt Sự kiện Speculation Nhãn Negation Modification Tổng cộng Dữ liệu huấn luyện Dữ liệu phát triển 3040 1003 11034 3665 3901 1554 7370 2420 1426 732 8803 2915 309 103 361 111 670 214 Bảng 9: Thống kê sự kiện tập dữ liệu Sự kiện STT 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Số kiện Tập huấn luyện Tập phát triển 275 72 Development 410 166 Blood_vessel_development 110 43 Growth 98 42 Death 196 69 Cell_death 67 27 Breakdown 215 43 Cell_proliferation Cell_division 29 Remodeling Reproduction 170 54 Mutation 125 45 Carcinogenesis 284 85 Metastasis 49 13 Metabolism 33 Synthesis 24 12 Catabolism 717 253 Gene_expression 96 17 Transcription 11 Translation 13 Protein_processing 66 30 Phosphorylation 4 Dephosphorylation 33 DNA_methylation DNA_demethylation 163 65 Pathway 492 127 Localization 197 80 Binding Dissociation 1026 291 Regulation Kiểu 30 30 31 32 33 34 35 36 37 38 39 40 1793 1126 693 39 148 58 24 8803 Positive_regulation Negative_regulation Planned_process Acetylation Glycolysis Glycosylation Cell_transformation Cell_differentiation Ubiquitination Amino_acid_catabolism Infection Total 621 352 279 10 53 22 13 2915 Chúng tiến hành số thống kê kiểu thực thể, trigger tham số cho từng kiểu kiện riêng 4.2 Giới thiệu phần mềm thực nghiệm Chúng xây dựng phần mềm gồm chức sau:  Nhận diện trigger đánh giá kết  Trích chọn ứng viên kiện  Xếp hạng phụ thuộc đưa kết Các mơ-đun phần mềm:  Trigger_feature_extract: Trích chọn đặc trưng trigger cho toán nhận diện trigger  Liblinear: triển khai thuật toán học máy hồi quy logistic nhận diện trigger (là mã nguồn mở)  Prob_Earley_parser: Trích chọn ứng viên kiện  Trees_rank: Xếp hạng phụ thuộc đưa kết cuối  Evaluator: Đánh giá kết pha chạy 31 Hình 10: Các mơ-đun phần mềm thực nghiệm 4.3 Thực nghiệm Chúng tiến hành thực nghiệm:  Thực nghiệm nhận diện trigger: Trích chọn đặc trưng trigger, phân lớp chúng vào 41 lớp (40 lớp ứng với 40 kiểu kiện lớp -1 khơng trigger) Từ lấy kết trigger đại diện cho bốn kiểu kiện phức hợp  Thực nghiệm trích chọn kiện phức hợp: Trích chọn ứng viên kiện cho câu văn y sinh học Sau xếp hạng đưa kết bốn kiểu kiện phức hợp CG Task Các thực nghiệm tiến hành tập liệu huấn luyện (training) tập liệu phát triển (development) cung cấp bởi BioNLP-ST 2013 Tập liệu phát triển giúp đánh giá mô hình đề xuất liệu Tiêu chí “khớp hồn tồn” (trình bày ở phần I.5) áp dụng cho trình đánh giá 4.3.1 Thực nghiệm nhận diện trigger Tỉ lệ số trigger chứa token tập huấn luyện (CG dataset) 7078/7410 = 95.5%, tập liệu phát triển (CG dataset) 2350/2453 = 95.8% Theo Jari Bjorne cộng [9], Chúng tơi đơn giản hóa tốn cách thu gọn trigger chứa nhiều token từ đại diện (head word) cú pháp chúng (ví dụ: “acts” thay cho “acts as a costimulatory signal”) 32 Hình ví dụ câu tập liệu huấn luyện cho nhận diện trigger, thực thể bao tag , ; trigger bao tag , In contrast, tunicamycin had little effect on the viability and MTT responses of the cells used Hình 11: Ví dụ câu tập dữ liệu huấn luyện cho nhận diện trigger Mô hình cài đặt sử dụng phân lớp hồi quy logistic dựa vào loại đặc trưng: Bảng 10: Các loại đặc trưng nhận diện trigger STT Loại đặc trưng Đặc trưng token Đặc trưng tần suất Chuỗi phụ thuộc Mô tả đặc trưng Bao gồm cách viết hoa, xuất dấu câu, kí tự số, từ gốc, bigram trigram, xuất từ điển chứa trigger (được xây dựng dựa vào tập liệu huấn luyện) Bao gồm số thực thể câu Các chuỗi phụ thuộc đến độ sâu ba, xây dựng từ token phân lớp Tại độ sâu, đặc trưng mức token kiểu phụ thuộc đưa vào, thứ tự kiểu phụ thuộc chuỗi Sau tiến hành thực nghiệm gồm bước: 1) Trích chọn đặc trưng trigger 2) Học (theo phương pháp hồi quy logistic) 3) Kiểm thử (theo phương pháp hồi quy logistic) Chúng thu kết nhận diện trigger: độ xác 96.8%, độ hồi tưởng 94.4% độ đo F1 95.6% Chúng lấy kết từ thành phần nhận diện trigger đầu vào cho thành phần trích chọn ứng viên kiện, cho bốn kiểu kiện phức hợp: Regulation, Positive regulation, Negative regulation Planned process 33 4.3.2 Thực nghiệm trích chọn kiện phức hợp Chúng tơi xây dựng phân tích phương pháp xác suất theo Earley parser để lựa chọn ứng viên kiện tốt Các thiết lập tối ưu cho tập tham số sử dụng tập liệu phát triển (development test) để đánh giá là: α=0.5; filter_threshold=0.2; cutoff_threshold=0.45 Để minh họa cho liệu ứng viên kiện sinh từ giải thuật Earley parser, ta xét hai ví dụ sau:  Tập luật (ví dụ 1): ROOT ::= NEGATIVE_REGULATION NEGATIVE_REGULATION ::= NEGATIVE_REGULATION_TRIGGER CAUSE THEME NEGATIVE_REGULATION ::= NEGATIVE_REGULATION_TRIGGER THEME CAUSE NEGATIVE_REGULATION ::= CAUSE NEGATIVE_REGULATION_TRIGGER THEME NEGATIVE_REGULATION ::= CAUSE THEME NEGATIVE_REGULATION_TRIGGER NEGATIVE_REGULATION ::= THEME NEGATIVE_REGULATION_TRIGGER CAUSE NEGATIVE_REGULATION ::= THEME CAUSE NEGATIVE_REGULATION_TRIGGER CELL_PROLIFERATION ::= CELL_PROLIFERATION_TRIGGER THEME CELL_PROLIFERATION ::= THEME CELL_PROLIFERATION_TRIGGER METASTASIS ::= METASTASIS_TRIGGER THEME METASTASIS ::= THEME METASTASIS_TRIGGER NEGATIVE_REGULATION_TRIGGER ::= inhibiting CELL_PROLIFERATION_TRIGGER ::= growth METASTASIS_TRIGGER ::= metastasis CAUSE ::= GENE_OR_GENE_PRODUCT THEME ::= CELL_PROLIFERATION THEME ::= METASTASIS THEME ::= CELL CELL ::= tumor_cell GENE_OR_GENE_PRODUCT ::= u-995 Cây phân tích cho ví dụ 1: Đầu vào: u995 inhibiting tumor_cell growth metastasis 0:[ROOT](0) 0:[NEGATIVE_REGULATION](0) 0:[CAUSE](0) 0:[GENE_OR_GENE_PRODUCT](0) > 0:[u995](0) 0:[NEGATIVE_REGULATION_TRIGGER](0) > 0:[inhibiting](0) 34 0:[THEME](0) 0:[METASTASIS](0) 0:[THEME](0) 0:[CELL_PROLIFERATION](0) 0:[THEME](0) 0:[CELL](0) > 0:[tumor_cell](0) 0:[CELL_PROLIFERATION_TRIGGER](0) > 0:[growth](0) 0:[METASTASIS_TRIGGER](0) > 0:[metastasis](0)  Tập luật (ví dụ 2): ROOT ::= NEGATIVE_REGULATION SIMPLE_CHEMICAL NEGATIVE_REGULATION_TRIGGER ::= inhibited LOCALIZATION_TRIGGER ::= migration THEME ::= LOCALIZATION LOCALIZATION ::= LOCALIZATION_TRIGGER THEME LOCALIZATION ::= THEME LOCALIZATION_TRIGGER CELL ::= huvec SIMPLE_CHEMICAL ::= thymidine Cây phân tích cho ví dụ 2: Đầu vào: u995 inhibited huvec migration thymidine 0:[ROOT](0) 0:[NEGATIVE_REGULATION](0) 0:[CAUSE](0) 0:[GENE_OR_GENE_PRODUCT](0) > 0:[u995](0) 0:[NEGATIVE_REGULATION_TRIGGER](0) > 0:[inhibited](0) 0:[THEME](0) 0:[LOCALIZATION](0) 0:[THEME](0) 0:[CELL](0) > 0:[huvec](0) 0:[LOCALIZATION_TRIGGER](0) > 0:[migration](0) 0:[SIMPLE_CHEMICAL](0) > 0:[thymidine](0) 35 Bảng 11 kết trích chọn kiện tập liệu phát triển, theo phương thức decomposition Theo phương phức này, kiện với nhiều tham số, chẳng hạn: event-type:trigger-id arg1-type:arg1-id arg2-type:arg2-id phân tách thành nhiều kiện đơn tham số: event-type:trigger-id arg1-type:arg1-id event-type:trigger-id arg2-type:arg2-id Bảng 11: Kết với trích chọn sự kiện phức hợp liên quan đến bệnh ung thư di truyền dựa vào mơ hình phân tích phụ thuộc STT Kiểu kiện Regulation Positive_regulation Negative_regulation Planned_process F1 (%) 69.55 68.13 68.57 49.99 4.4 Nhận xét thảo luận Các phân tích từ tập liệu phát triển (development set) mà thực cho thấy thành phần nhận diện trigger đưa kết với độ xác cao: F1=95.6% Chúng tơi chọn ngẫu nhiên 50 false negative event (thực tế kiện hệ thống dự đốn khơng phải kiện) để phân tích lỗi Có 29 trigger 21 kiện mà hệ thống khơng dự đốn kiện Bảng 12 liệt kê số kiểu lỗi Bảng 12: Một sớ kiểu lỗi nhận diện thiếu sự kiện STT Nguyên nhân Nhập nhằng kiểu kiện Đồng tham chiếu Không khớp với mẫu kiện Khơng có thể tập huấn luyện Khơng có tham số Khơng có luật Earley Trigger 7 Sự kiện 10 Hiệu trích chọn kiện phức hợp đạt độ xác kém so với kiện đơn (các kiện nhận tham số thực thể) phức tạp cấu trúc Các tham số kiện phức hợp đa dạng kiểu thực thể/sự kiện, điều 36 ảnh hưởng đến hiệu nặng trích chọn chúng Bảng 13 thống kê kiểu thực thể/sự kiện tham số cho kiểu kiện Regulation Bảng 13: Thống kê kiểu thực thể/sự kiện tham số cho sự kiện Regulation Tham số Theme:Entity Cause:Entity CSite:Entity Theme:Event Cause:Event Training Kiểu thực thể/sự kiện Gene_or_gene_product Cancer Cell Gene_or_gene_product Cancer Cell Gene_or_gene_product Blood_vessel_development Positive_regulation Gene_expression Localization Cell_proliferation Development Negative_regulation Carcinogenesis Metastasis Growth Cell_death Regulation Pathway Binding Cell_transformation Negative_regulation Blood_vessel_development Localization Positive_regulation Development Carcinogenesis Gene_expression Development Số lượng 67 32 26 25 23 12 36 29 25 24 21 17 16 15 13 13 13 12 12 12 10 41 17 15 15 14 13 12 37 Kiểu thực thể/sự kiện Số lượng Gene_or_gene_product Cell Cancer Gene_or_gene_product Cancer 10 Negative_regulation Blood_vessel_development Positive_regulation Metastasis Cell_proliferation Pathway Localization Gene_expression Binding Regulation Development Cell_transformation Carcinogenesis Cell_death 13 12 11 8 5 4 3 Negative_regulation Positive_regulation Metastasis Blood_vessel_development Development Regulation Cell_transformation Carcinogenesis Gene_expression 12 8 4 3 Khi so sánh kết với mơ hình sở (mơ hình đề xuất chương 2), mơ hình cho hiệu cao từ 5-13% Điều cho thấy ưu điểm mơ hình dựa phân tích phụ thuộc trích chọn kiện phức hợp Bảng 14: So sánh kết giữa mơ hình sở mơ hình mới đề xuất STT Kiểu kiện Regulation Positive_regulation Negative_regulation Planned_process F1 % (Mơ hình sở) 61.48 57.76 55.60 45.42 38 F1 % (Mơ hình mới) 69.55 68.13 68.57 49.99 Kết luận định hướng Với kết đạt được, báo cáo nghiên cứu khoa học đã đóng góp:  Trình bày khái qi tốn trích chọn kiện liên quan đến bệnh ung thư di truyền  Trình bày hai hướng tiếp cận điển hình giải tốn  Trình bày mơ hình sở đề xuất, giải cho tốn trích chọn kiện liên quan đến bệnh ung thư di truyền  Đề xuất xây dựng mơ hình dựa học máy có giám sát với tập giàu đặc trưng, tập luật phân tích quy hoạch động Earley parser, giải cho tốn trích chọn kiện phức hợp văn bệnh ung thư di truyền  Thực nghiệm dựa tập liệu phát triển (cung cấp bởi BioNLP-ST 2013) cho kết khả quan mơ hình sở Định hướng nghiên cứu:  Tiếp tục cải tiến mơ hình trích chọn kiện phức hợp tránh vấn đề khớp (over-fitting) để áp dụng mơ hình với đa miền (cross-domain) y sinh học 39 Tài liệu tham khảo Tiếng Anh [1] C Hong-Woo, T Ohta, J.D Kim, and J Tsujii, "Building Patterns for Biomedical Event Extraction," In the 15th International conference on Genome Informatics GIW 163-164 2004 [2] David Campos, Sérgio Matos and José Luís Oliveira (2012) Biomedical Named Entity Recognition: A Survey of Machine-Learning Tools, Theory and Applications for Advanced Text Mining, Prof Shigeaki Sakurai (Ed.), ISBN: 978-953-51-0852-8, InTech, DOI: 10.5772/51066 [3] David Martinez and Timothy Baldwin Word sense disambiguation for event trigger word detection in biomedicine, BMC Bioinformatics 2011, 12(Suppl 2):S4 [4] David McClosky, Mihai Surdeanu, and Chris Manning 2011 Event extraction as dependency parsing In Proceedings of the Association for Computational Linguistics: Human Language Technologies 2011 Conference (ACLHLT’11), Main Conference, Portland, Oregon, June [5] David McClosky, Mihai Surdeanu, and Christopher D Manning 2011b Event extraction as dependency parsing in BioNLP 2011 In BioNLP 2011 Shared Task [6] Earley, Jay (1968) An Efficient Context-Free Parsing Algorithm CarnegieMellon Dissertation [7] Eugene Charniak and Mark Johnson 2005 Coarse-to-Fine n-Best Parsing and MaxEnt Discriminative Reranking In ACL The Association for Computer Linguistics [8] Eisner, Jason, and Nathaniel Filardo Use of Modality and Negation in Semantically-Informed Syntactic MT Datalog 2.0 [9] Jari Bjorne, Juho Heimonen, Filip Ginter, Antti Airola, Tapio Pahikkala, and Tapio Salakoski 2009 Extracting complex biological events with rich graphbased feature sets In Proceedings of the BioNLP 2009 Workshop Companion Volume for Shared Task, pages 10–18, Boulder, Colorado, June Association for Computational Linguistics 40 [10] Jin-Dong Kim, Sampo Pyysalo, Tomoko Ohta et al Overview of BioNLP Shared Task 2011 In Proceedings of the BioNLP Shared Task 2011 Workshop (2011), pp 1-6 [11] Jin-Dong Kim, Tomoko Ohta, Sampo Pyysalo, Yoshinobu Kano, and Jun’ichi Tsujii 2009 Overview of BioNLP’09 shared task on event extraction In Proceedings of the Workshop on BioNLP: Shared Task, pages 1–9 Association for Computational Linguistics [12] Jin-Dong Kim, Yue Wang, Toshihisa Takagi, and Akinori Yonezawa 2011b Overview of the Genia Event task in BioNLP Shared Task 2011 In Proceedings of the BioNLP 2011 Workshop Companion Volume for Shared Task, Portland, Oregon, June Association for Computational Linguistics [13] Hale, J (2001) A probabilistic Earley parser as a psycholinguistic model In Proceedings of NAACL, volume 2, pages 159-166 [14] Makoto Miwa, Paul Thompson, John McNaught, Douglas B Kell and Sophia Ananiadou (2012) Extracting semantically enriched events from biomedical literature BMC Bioinformatics, 13:108 [15] Minka, T (2001) Algorithms for maximum-likelihood logistic regression Statistics Tech Report[J], volume 758 [16] Poon, Hoifung, and Lucy Vanderwende Joint inference for knowledge extraction from biomedical literature Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics Association for Computational Linguistics, 2010 [17] Velldal, Erik, et al Speculation and negation: Rules, rankers, and the role of syntax Computational Linguistics 38.2 (2012): 369-410 41 ... NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Phi Van Thuy EXTRACTING COMPLEX BIOLOGICAL EVENTS BASED ON DEPENDENCY TREE MODEL OF TEXTS ON CANCER GENETICS Major: Information... chúng tơi đưa Từ khóa: Event extraction, Dependency tree, Cancer Genetics Task i EXTRACTING COMPLEX BIOLOGICAL EVENTS BASED ON DEPENDENCY TREE MODEL OF TEXTS ON CANCER GENETICS Phi Van Thuy Course:... extraction of complex events was a lot more challenging, having achieved 40-50% in F1-score, in BioNLP Shared Task 2011 In this thesis, we propose a machine learning model for complex event extraction

Tiêu đề	Trích Chọn Sự Kiện Y Sinh Phức Hợp Dựa Vào Mô Hình Phân Tích Cây Phụ Thuộc Trong Văn Bản Về Bệnh Ung Thư Di Truyền
Tác giả	Phí Văn Thủy
Người hướng dẫn	TS. Phan Xuân Hiếu, ThS. Trần Mai Vũ
Trường học	Việt Nam National University, Hanoi University of Engineering and Technology
Chuyên ngành	Công nghệ thông tin
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2013
Thành phố	Hà Nội

Định dạng
Số trang	53
Dung lượng	1,52 MB