A hybrid approach to finding phenotype candidates in genetic text

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ HOÀNG QUỲNH MỘT HƯỚNG TIẾP CẬN LAI ĐỂ NHẬN DẠNG CÁC ỨNG VIÊN KIỂU HÌNH TRONG VĂN BẢN SINH HỌC TÓM TẮT LUẬN VĂN CAO HỌC Hanoi – 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ LÊ HỒNG QUỲNH MỘT HƯỚNG TIẾP CẬN LAI ĐỂ NHẬN DẠNG CÁC ỨNG VIÊN KIỂU HÌNH TRONG VĂN BẢN SINH HỌC Chuyên ngành : Khoa học máy tính Mã số : 60 48 01 TÓM TẮT LUẬN VĂN CAO HỌC Giáo viên hướng dẫn: PGS.TS Hà Quang Thụy Hanoi – 2012 Table of Contents Introduction 1.1 Motivation and problem definition 1.2 Phenotype definition 1.3 The challenges of phenotype entity recognition Related works 2.1 Useful resources 2.1.1 GENIA and JNLPBA corpora 2.1.2 The online mendelian inheritance in man 2.1.3 The human phenotype ontology 2.1.4 The mammalian phenotype ontology 2.1.5 The unified medical language system 2.1.6 KMR corpus 2.2 Related researches 2.2.1 Baseline method: Khordad et al (2011) Methods 3.1 Schema 3.2 Annotated data sources 3.3 Proposed model 3.3.1 Pre-processing 3.3.2 Machine learning labeler 3.3.3 Knowledge-based labeler 3.3.4 Merge results 1 6 7 9 10 11 11 16 16 20 22 22 22 24 25 Experimental results and evaluation 29 4.1 Metrics 29 4.2 Experiments on the KMR corpus 31 iv TABLE OF CONTENTS 4.3 4.4 Experiments on the Phenominer Discussion 4.4.1 Discussion on corpora 4.4.2 Discussion on results Conclusion v corpus 32 35 35 36 40 Tóm tắt Nhận dạng thực thể định danh (NER) nghiên cứu rộng rãi cho tên gen sản phẩm gen, nhiên lại có giải pháp đề xuất cho kiểu hình Kiểu hình trơng đợi đóng vai trò quan trọng việc suy luận vai trò gen bệnh di truyền phức tạp, nhiên ngữ nghĩa phức tạp phạm vi kiểu hình làm cho trở nên khó để phân tích Ngược lại với cách tiếp cận trước đây, đánh giá kỹ thuật tiên tiến dựa việc kết hợp học máy sử dụng tập đặc trưng phong phú với tài nguyên tri thức miền có Phương pháp đánh giá hai tập liệu chuẩn, số tập liệu mà chúng tơi xây dựng bao gồm 112 tóm tắt PMC thu từ việc tìm kiếm ngữ nghĩa với bệnh tự động miễn dịch ciw sở liệu Online Mendelian Inheritance of Man Kết phương pháp lai đáng khích lệ, tốt kết thu sử dụng HMM, CRF phương pháp dựa tri thức F1 hệ thống 75.37 cho thực thể BF micro average F1 toàn hệ thống 84.01 Từ khóa- trường ngẫu nhiên điều kiện; y sinh học; học máy; rối loạn di truyền; kiểu hình, khai phá văn CHƯƠNG GIỚI THIỆU Nhận dạng thực thể (NER) y sinh học kỹ thuật tính tốn sử dụng để nhân dạng phân lớp chuỗi văn xác định khái niệm quan trọng y sinh học Luận văn tập trung vào việc phân tích nhận dạng lớp thực thể mới: kiểu hình (phenotype) Theo Hoehndorf et al (2010), kiểu hình quan trọng phân tích chế phân tử bệnh, dự kiến đóng vai trò chủ chốt việc suy luận vai trò gen bệnh di truyền phức tạp Định nghĩa dựa phân tích nghiên cứu Scheuermann et al (2009) Định nghĩa: Thực thể kiểu hình (hoặc tổ hợp các) đặc trưng thể sinh vật xác định tương tác ngun nhân di truyền mơi trường Ví dụ: [lack of kidney] (thiếu thận), [abnormal cell migration] (bất thường việc chuyển đổi tế bào), [absent ankle reflexes] (khơng có phản xạ mắt cá chân), [susceptibility to ulcerative colitis] (nhạy cảm với viêm loét đại tràng) Định nghĩa kiểu hình yêu cầu xác định nguyên nhân tiềm ẩn kiểu hình Việc thường khó khăn, luận văn tập trung vào nhận dạng đặc trưng thể ứng viên kiểu hình, ngun nhân gây nên xác định bước xử lý sau Định nghĩa: Thực thể đặc trưng thể (BF) đề cập đến đặc tính phận thể sinh vật CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN Những động lực thách thức đề cập đến chương dẫn tới nhiều giải pháp khác đề xuất dựa nhiều nguồn tài nguyên 2.1 Các tài nguyên hữu ích Sử dụng tài ngun có sẵn khơng giúp tận dụng tri thức từ nghiên cứu khác mà giúp giảm thiểu cơng sức Cho đến nay, có nhiều tài nguyên sử dụng tin sinh học Một số hữu ích cho toán nhận dạng thực thể liệu y sinh học - Tập liệu JNLPBA thu từ liệu GENIA phiên 3.02 corpus, bao gồm 2000 tóm tắt (20,546 câu, 400,000 từ), sử dụng lớp protein, DNA, RNA, cell line cell type - Online mendelian inheritance in man (OMIM) danh mục cập nhật liên tục gen, rối loạn di truyền đặc điểm di truyền người Có 4500 tóm lược lâm sàng OMIM - Human phenotype ontology (HPO) bao gồm 9500 thuật ngữ gốc (hơn 15000 từ đồng nghĩa) mô tả đặc trưng kiểu hình người (thống kê năm 2012) - Mammalian phenotype ontology (MP) có 9000 thuật ngữ gốc (khoảng 24000 đồng nghĩa) mô tả bất thường kiểu hình chuột (thống kê năm 2012) - Unified medical language system (UMLS) tập hợp tập tin phần mềm mang lại nhiều từ vựng tiêu chuẩn lĩnh vực y sinh học sức khỏe - Tập ngữ liệu KMR thích thủ cơng nghiên cứu Khordad et al (2011) Tập ngữ liệu chứa 3784 token (120 câu) với 110 đề cập đến kiểu hình Ngữ liệu KMR thu từ báo PubMed năm 2009 lĩnh vực di truyền người 2.2 Phương pháp so sánh sở: Khordad et al (2011) Luận văn sử dụng phương pháp Khordad et al (2011) phương pháp sở để so sánh thực nghiệm Phương pháp Khordad et al (2011) dựa MetaMap, UMLS Metathesaurus Human Phenotype Ontology Từ hệ thống sử dụng tài nguyên nói trên, năm luật nhằm nắm bắt đặc điểm ngơn ngữ hình thái kiểu hình áp dụng để nâng cao hiệu hệ thống Hình 2.3 mơ tả mơ hình hệ thống Hình 2.3: Mơ hình hệ thống nghiên cứu Khordad et al (2011) CHƯƠNG PHƯƠNG PHÁP 3.1 Lược đồ Luận văn tiến hành nhận dạng hai loại thực thể: GGP (gen sản phẩm gene) BF (đặc tính thể) Định nghĩa: Thực thể gen sản phẩm gen (GGP) đề cập đến ba thành phần phân tử vĩ mơ chính: DNA, RNA protein DNA RNA chuỗi axit nucleic chứa dẫn di truyền sử dụng trình phát triển chức sinh vật Protein chuỗi polypeptide, phận chuỗi polypeptide, tạo thành cấu trúc thuận lợi cho chức sinh học Như giải thích chương 1, luận văn sử dụng khái niệm đặc tính thể ứng viên kiểu hình Định nghĩa: Thực thể đặc trưng thể (BF) đề cập đến đặc tính phận thể sinh vật Hình 3.1 mơ hình tổng quan (khơng thức) thực thể BF Mơ hình đưa mơ tả trực quan dạng thực thể kiểu hình thơng qua việc khảo sát liệu, là: thuộc tính cấu trúc, thuộc tính định tính, thuộc tính chức thuộc tính q trình 3.2 Tài nguyên liệu gán nhãn Trong nghiên cứu này, thu thập gán nhãn ngữ liệu mới: Phenominer corpus Ngữ liệu Phenominer phiên 1.0 chứa 112 tóm tắt mà chúng tơi lựa chọn từ PubMed Central (PMC) 19 bệnh tự miễn dịch (bệnh phát sinh từ phản ứng miễn dịch không phù hợp thể chống lại chất mơ bình thường diện thể) lựa chọn từ OMIM thu thập tập ngữ liệu Phenominer dựa bệnh Việc gán nhãn thực chuyên gia gán nhãn có kinh nghiệm lĩnh vực y sinh học gán nhãn GENIA corpus, sử dụng công cụ Brat Tổng số token (câu) ngữ liệu Phenominer 26,026 (1976), có 1611 thực thể GGP 472 thực thể BFMột số thực thể khác liên quan đến kiểu hình gán nhãn: ORGANISM (sinh vật), ANATOMY (bộ phận thể), DISEASE (bệnh) and CHED (hóa chất thuốc), thực thể sử dụng bước nghiên cứu Khơng có giao mặt câu ngữ liệu Phenominer ngữ kiệu KMR Hình 3.1: Mơ hình tổng quan khơng thức thực thể BF 3.3 Mơ hình đề xuất Hệ thống luận văn xây dựng bao gồm gán nhãn học máy gán nhãn dựa tri thức, kết hợp mô-đun kết hợp kết sử dụng luật Hệ thống mô tả hình 3.2 3.3.1 Bộ gán nhãn học máy Trong gán nhãn học máy, so sánh hai phương pháp học máy sử dụng rộng rãi: mô hình Markov ẩn (Hidden Markov ModelsHMM) trường ngẫu nhiên điều kiện (Conditional Random Fields CRF) Cả hai mơ hình học có giám sát, nhãn lớp dựa chuẩn BIO Bộ gán nhãn học máy sử dụng tập đặc trưng phong phú kết hợp đặc trưng thông dụng hiệu thường sử dụng cho NER văn y sinh học hai đặc trưng thu từ MetaMap gán nhãn Genia tagger (bảng 3.3) Bảng 3.3: Tập đặc trưng sử dụng gán nhãn học máy Đặc trưng LX OR Mô tả Từ xét Orthography Ví dụ wi initCap, isDate, allCap, isDigit Ngữ cảnh (context) wi-2, wi-1 History context wi+1, wi+2 Future context wi-2 wi-1 Conjoined context PS Từ loại RB, CD, NN, JJ, NNP MM MetaMap tag cgab, fndg, neop GE GENIA tag B_GGP, I_GGP 3.3.2 Bộ gán nhãn dựa tri thức Bộ gán nhãn dựa tri thức chia thành mô-đun đối sánh luật môđun đối sánh từ điển - Đối sánh luật triển khai cách tiếp cận Khordad et al (2011) sử dụng MetaMap, phần UMLS, HPO luật dựa kinh nghiệm để nhận dạng kiểu hình - Đối sánh từ điển sử dụng kỹ thuật đối sánh chuỗi dài (longest string matching) để nhận dang thực thể từ tài nguyên: o Thực thể BF: HPO (9500 thuật ngữ, 15819 từ đồng nghĩa) MP (9162 thuật ngữ, 23712 từ đồng nghĩa) o Thực thể GGP: Danh sách gen cung cấp National Center for Biotechnology Information (khoảng triệu tên gen) 3.3.3 Mô-đun kết hợp kết Từ hai gán nhãn nói trên, ta thu kết đầu (một gán nhãn học máy, mô-đun đối sánh luật mô-đun đối sánh từ điển) Nếu có xung đột xảy đầu này, mô-đun kết hợp CT kết chịu trách nhiệm chọn kết cuối Mô-đun kết hợp kết sử dụng luật sau (xử lý theo câu): - Theo Jimeno et al (2008), kết hợp nhãn thực thể giả định cách thu thập kết thực thể đề xuất phương pháp  Nhãn O có độ ưu tiên thấp - Dựa việc phân tích thể học BF GGP, nhận thấy có nhiều trường hợp GGP phần nằm BF  Nhãn GGP có độ ưu tiên thấp BF - Nếu có xung đột ranh giới từ, hợp thực thể “láng giềng” có chia sẻ chuỗi token thành thực thể chọn cho nhãn có độ ưu tiên cao Hình 3.2: Kiến trúc gán nhãn kiểu hình CHƯƠNG KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Các độ đo - Luận văn sử dụng độ đo tiêu chuẩn (độ xác P, độ hồi tường R F1), F1 sở cho so sánh - F1 cho hệ thống tính tốn theo hai kiểu tính trung bình: micro-average F1 macro-average F1 - Việc đối sánh với ngữ liệu tiêu chuẩn sử dụng đối sánh phần (partial matching), tức đối sánh tính xác thực thể gán nhãn liệu tiêu chuẩn thực thể gán nhãn hệ thống có phần trùng 4.2 Thực nghiệm tập liệu KMR Kết thực nghiệm tập liệu KMR đưa bảng 4.1 Bảng 4.1 Kết nhận dạng thực thể BF liệu KMR sử dụng mơ hình lai (hybrid) phương pháp đối sánh phần Model Lớp Metric Khordad HMM CRF KB Hybrid P 90.74 37.54 65.09 87.64 86.37 BF R 88.44 31.18 71.83 79.36 84.19 F 89.58 34.07 68.29 83.29 85.27 4.3 Thực nghiệm tập liệu Phenominer Kết thực nghiệm tập liệu Phenominer đưa bảng 4.2 Bảng 4.2: Kết cho thực thể liệu Phenominer sử dụng mơ hình lai (hybrid) phương pháp đối sánh phần Model Lớp Metric Khordad GENIA HMM CRF KB Hybrid P 65.89 34.17 63.23 61.24 74.49 BF R 57.44 36.81 64.09 60.91 76.28 F 61.38 35.44 63.66 61.07 75.37 P GGP R F Micro avg F1 Total Macro avg F1 - 78.35 83.61 80.98 - 62.54 64.27 63.39 54.31 49.42 74.96 83.46 78.98 74.71 71.32 92.74 61.31 73.82 71.62 67.45 85.11 83.37 84.23 84.01 79.80 4.4 Thảo luận - Tập ngữ liệu Phenominer phức tạp tập ngữ liệu KMR mặt cấu trúc kiểu hình ngữ cảnh chứa chúng Độ dài trung bình kiểu hình tập ngữ liệu KMR 1.72 tokens với kiểu hình dài chứa tokens Ngược lại, độ dài trung bình thực thể BF Phenominer 2.89 tokens, BF dài chứa 16 tokens, thực thể GGP dài chứa 16 tokens - Kết hệ thống tập ngữ liệu Phenominer (F1: 75.37 BF micro-average F1: 84.01 tồn hệ thống) đáng khích lệ, hy vọng, chứng minh sức mạnh việc kết hợp học máy tri thức miền 10 CHƯƠNG KẾT LUẬN Luận văn trình bày cách tiếp cận lai kết hợp phương pháp học máy phương pháp dựa tri thức để nhận dạng thực thể kiểu hình Trong gán nhãn học máy, đặc trưng thường gặp cho nhận dạng thực thể y sinh học, đề xuất hai đặc trưng thu từ MetaMap gán nhãn Genia Bộ gán nhãn dựa tri thức sử dụng nhiều tài nguyên hữu ích HPO, MP, v.v Luận văn xây dựng tập ngữ liệu “phenominer corpus”, bao gồm 112 tóm tắt Các tóm tắt lựa chọn từ PMC dựa 19 bệnh tự miễn dịch Các thực nghiệm đánh giá chứng minh phương pháp lai cho kết tốt tập ngữ liệu KMR tập ngữ liệu Phenominer (F: 85.27 tập ngữ liệu KMR 84.01 tập ngữ liệu Phenominer) Trong bước nghiên cứu này, chúng tơi có nhiều ý tưởng để thực hiện, ví dụ nhận dạng thêm thực thể khác liên quan đến kiểu hình, áp dụng học máy cho mơ-đun kết hợp kết quả, mở rộng tập liệu Phenominer phiên 1.0 với nhiều thể kiểu hình hơn, v.v 11 Tài liệu tham khảo Hoehndorf, R., Oellrich, A., and Rebholz-Schuhmann, R (2010) Interoperability between phenotype and anatomy ontologies Bioinformatics, 24(24):3112-3118 Jimeno, A., Jimenez-Ruiz, E., Lee, V., Gaudan, S., Berlanga, R., and RebholzSchuhmann, D.(2008) Assessment of disease named entity recognition on a corpus of annotated sentences BMC Bioinformatics, 9(Suppl 3):S3 Khordad, M., Mercer, R E., and Rogan, P (2011) Improving phenotype name recognition In Advances in Artificial Intelligence, volume 6657/2011, pages 246- 257 Lecture Notes in Computer Science Kim, J D., Ohta, T., Tateishi, Y., and Tsujii, J (2003) GENIA corpus - a semantically annotated corpus for bio-textmining Bioinformatics, 19(Suppl.1):180-182 Lafferty, J., McCallum, A., and Pereira, F (2001) Conditional random fields: probabilistic models for segmenting and labeling sequence data In Proceedings of the Eighteenth International Conference on Machine Learning, pages 282289 Scheuermann, R., Ceusters, W., and Smith, B (2009) Toward an ontological treatment of disease and diagnosis In AMIA Summit on Translational Bioinformatics,San Francisco, CA, pages 116-120 Smith, C L and Eppig, J T (2009) The mammalian phenotype ontology: enabling robust annotation and comparative analysis Wiley Interdisciplinary Reviews: Systems Biology and Medicine, 1(3):390399 … 12 Công bố khoa học [1] Mai-Vu Tran, Tien-Tung Nguyen, Thanh-Son Nguyen, Hoang-Quynh Le Automatic Named Entity Set Expansion Using Semantic Rules and Wrappers for Unary Relations In International Conference on Asian Language Processing 2010 Page 170-173 Harbin, China; December 28-30, 2010, DOI: 10.1109/IALP.2010.73 [2] Hoang-Quynh Le, Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong Phan and Quang- Thuy Ha An Integrated Approach Using Conditional Random Fields for Named Entity Recognition and Person Property Extraction in Vietnamese Text In Proceedings of International Conference on Asian Language Processing 2011 Page 115-118 DOI: 10.1109/IALP.2011.37 [3] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Anika Oellrich, Ai Kawazoe, Martin Hall-May and Dietrich Rebholz-Schuhmann A hybrid approach to finding phenotype candidates in genetic text In the 24th conference on Computational Linguistics (COLING 2012) Accepted as long paper 13 ... on Machine Learning, pages 282289 Scheuermann, R., Ceusters, W., and Smith, B (2009) Toward an ontological treatment of disease and diagnosis In AMIA Summit on Translational Bioinformatics,San... Dietrich Rebholz-Schuhmann A hybrid approach to finding phenotype candidates in genetic text In the 24th conference on Computational Linguistics (COLING 2012) Accepted as long paper 13 ... International Conference on Asian Language Processing 2011 Page 115-118 DOI: 10.1109/IALP.2011.37 [3] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Anika Oellrich, Ai Kawazoe, Martin Hall-May and

Định dạng
Số trang	17
Dung lượng	859,38 KB