NHẬN DẠNG THỰC THỂ TRONG SINH HỌC BẰNG HMM (Hidden Markov Model )
NHẬN DẠNG THỰC THỂ TRONG SINH HỌC BẰNG HMM (Hidden Markov Model ) Giảng viên: TS Nguyễn Trí Thành Nhóm Nội dung I Giới thiệu tốn nhận dạng thực thể sinh học II Cơ sở lý thuyết HMM III Phương pháp giải tốn IV Thực nghiệm V Kết luận Trích xuất thơng tin gì? Trích chọn thơng tin lĩnh vực quan trọng khai phá liệu văn Trích xuất thơng tin thực việc trích rút thơng tin có cấu trúc từ văn khơng có cấu trúc Tức rút thông tin định nghĩa trước thực thể mối quan hệ thực thể từ văn dạng ngôn ngữ tự nhiên điền thông tin vào văn ghi liệu có cấu trúc dạng mẫu định nghĩa trước Giới thiệu tồn nhận dạng thực thể sinh học văn Bài toán nhận dạng thực thể sinh học văn toán phân loại từ, ngữ liên quan đến thuật ngữ sinh học tên gọi VD: Các loại Gen, Protein,DNA, Cell Mục đích: Nhận dạng, thống kê thực thể sinh học từ xây dựng quan hệ quan hệ thực thể Các khó khăn tốn Các thuật ngữ y sinh học nhiều, phức tạp khơng có quy luật nhận biết cụ thể Các thuật ngữ tồn nhiều ngoại lệ Từ điển y sinh học chưa có chuẩn Các thực thể y sinh phần lớn danh từ riêng, không viết hoa Tên thực thể Y sinh thường bao gồm nhiều từ ví dụ: CD28 surface receptor tên thực thể ngắn kết hợp để tạo tên thực thể dài Vì vậy, khó xác định biên tên thực thể Cơ sở lý thuyết HMM (Hidden Markov Model) Mơ hình Markov ẩn giới thiệu nghiên cứu vào cuối năm 1960 đầu năm 1970 ,cho đến ứng dụng nhiều nhận dạng tiếng nói, tin sinh học xử lý ngơn ngữ tự nhiên HMM mơ hình máy trạng thái hữu hạn (probabilistic finite state machine) với tham số biểu diễn xác suất chuyển trạng thái xác suất sinh liệu quan sát trạng thái Đồ thị có hướng mơ tả mơ hình HMM Si trạng thái thời điểm t=i chuỗi trạng thái S, Oi liệu quan sát thời điểm t=i chuỗi O Xác suất P(S,O) sau: Quá trình tìm chuỗi trạng thái tối ưu mô tả tốt chuỗi liệu quan sát cho trước thực kĩ thuật lập trình quy hoạch động sử dụng thuật tốn Viterbi Mơ hình giải tốn Thực nghiệm Môi trường: Chip: Intel(R) Core(TM) Duo CPU 1.8GHz Ram: 1.00 GB Hệ điều hành: Microsoft Windows 7, XP2, Linux Trình duyệt Mozila Firefox 5.0 Cơng cụ Geniatagger-1.0 Đây công cụ đánh phân biệt đánh dấu thực thể tên y sinh học văn Gen, Protien, DNA, RNA Công cụ Tsujii laboratory, University of Tokyo phát triển GENIA Tagger Demo Site dùng demo chức cho Geniatagger-1.0 http://text0.mib.man.ac.uk/software/geniatagger/ File thử nghiệm Analysis of myeloid-associated genes in human hematopoietic progenitor cells Bello-Fernandez et al Exp Hematol 1997 Oct;25(11) Các thẻ viết tắt Kết gán thẻ cho từ loại Kết nhận dạng thực thể Kết luận Báo cáo hệ thống hóa số vấn đề lý thuyết trích chọn thơng tin, toán nhận biết loại thực thể sinh học đồng thời trình bày, phân tích, đánh giá số hướng tiếp cận toán nhận biết loại thực thể Một số vấn đề giải pháp toán nhận biết loại thực thể sinh học dựa mô hinh HMM đề xuất, thực nghiệm thu số kết khả quan Trên sở tốn trích chọn thực thể sinh học, chúng tơi dự định tìm hiểu xây dựng hệ thống trích chọn quan hệ thực thể sinh học (protein/gen) từ tìm mối quan hệ nơi sinh người Và hi vọng mở rộng framework nhiều loại thực thể khác dịa danh, tên người, tên bệnh, thuốc áp dụng cho nhiều liệu Một số tài liệu tham khảo [1] Hồ Tú Bảo Giới thiệu tin sinh học Viện Công nghệ Thông tin, TTKHTN&CNQG, Viện Khoa học Công nghệ Tiến tiến Nhật Bản (JAIST) [2] Nguyễn Cẩm Tú Nhận biết loại thực thể văn tiếng Việt nhằm hỗ trợ web ngữ nghĩa tìm kiếm hướng thực thể, Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ - ĐH Quốc Gia Hà Nội, 2005 [3] Trần Thị Ngân, Lê Hoàng Quỳnh, Nguyễn Thanh Sơn Nhận biết số thực thể đặc trưng cho liệu y tế tiếng Việt tiếp cận học bán giám sát, Báo cáo NCKH năm 2009, Trường Đại học Công Nghệ - ĐH Quốc Gia Hà Nội [4] Đào Minh Tùng, Chu Thị Thủy, Hà Thị Oanh, Trần Phi Dũng Mơ hình trích chọn quan hệ tương tác Protein-Gen dựa kỹ thuật Boostrapping học máy SVM Báo cáo NCKH năm 2011, Trường ĐH Công Nghệ - ĐH Quốc Gia Hà Nội [5] Hanna Wallach Efficient Training of Conditional Random Fields Doctor of Philosophy, University Of Edinburgh, 2002 [6] Marie-Francine Moens Information Extraction: Algorithms and Prospects in a Retrieval Context, Katholieke Universiteit Leuven, Belgium [7] Nigel Collier, Chikashi Nobata and Jun-ichi Tsujii Extracting the Names of Genes and Gene Products with a Hidden markov Model Department of Infomation Science Graduate School of Science University of Tokyo, Hongo-7-3-1 Bunkyo-ku, Tokyo 113, Japan [8] Huang M cộng Discovering patterns to extract protein-protein interactions from full biomedical texts Bioinformatics, 360-3612 [9] Kim S cộng PIE: an online prediction system for protein-protein interactions from text Nucleic Acids Research, Special Issue on Web Services [10] Miwa M cộng Combining multiple layers of syntactic information for protein-protein interaction extraction In Proceeding of Third International Symposium on Semantic Mining in Biomedicine (SMBM), 101-108, September 2008 [11] Van Landeghem S cộng Extracting protein-protein interactions from text using rich feature vectors and feature selection In Proceeding of Third International Symposium on Semantic Mining in Biomedicine (SMBM), TUCS, Turku, Finland, pp.77-84 [12] GuoDong Zhou, Jian Su Named Entity Recognition using an HMM-based Chunk Tagger [13].Website: http://vi.wikipedia.org/wiki/M%C3%B4_h%C3%ACnh_Markov_%E1%BA%A9n Thank you ! ... có cấu trúc dạng mẫu định nghĩa trước Giới thiệu tồn nhận dạng thực thể sinh học văn Bài toán nhận dạng thực thể sinh học văn toán phân loại từ, ngữ liên quan đến thuật ngữ sinh học tên gọi... toán nhận biết loại thực thể Một số vấn đề giải pháp toán nhận biết loại thực thể sinh học dựa mô hinh HMM đề xuất, thực nghiệm thu số kết khả quan Trên sở tốn trích chọn thực thể sinh học, ... Cell Mục đích: Nhận dạng, thống kê thực thể sinh học từ xây dựng quan hệ quan hệ thực thể Các khó khăn toán Các thuật ngữ y sinh học nhiều, phức tạp quy luật nhận biết cụ thể Các thuật