MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINH pptx

23 345 0
MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINH pptx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MộT Số TÀI NGUYÊN CHO NHậN DạNG THựC THể Y SINH TRẦN MAI VŨ NỘI DUNG  Thực thể y sinh  Một số kho dữ liệu về y sinh  Một số công cụ nhận diện thực thể y sinh  Kế hoạch tiếp theo Thực thể y sinh  Các thực thể y sinh phổ biến:  Protein, DNA, RNA, Cell line, Cell type, Gene…  Disease (bệnh), Symptom (triệu chứng), Virus, Atom… => Kiểu hình(Phenotype), Gene, Bệnh (Disease) , Hóa chất (Chemical) 3 Thách thức 4  Thiếu quy ước đặc tên trong sinh học  Sự đa dạng trong thuật ngữ:  Dùng từ tiếng Anh: Vd: light, map, complement,…tên gene  Sử dụng số: Vd: 9-cis retinoic acid  Sử dụng các ký tự và mã: M(2)201  Sự lồng nhau giữa các tên:  Vd: “[leukaemic[T [cell line]] Kit225]”  Sự phối hợp: “B and T cells”  Sự đồng âm  Tính đa nghĩa  Nhiều biến thể của một tên:  Vd: “-150 CD28 response element (CD28RE)/AP-1 site” cũng là “-150 CD28RE/AP-1 site”. Phenotype Entity  Kiểu hình(Phenotype):  Đặc tính ấn định bởi di truyền có thể quan sát được của một tế bào hoặc sinh vật [1]  Tổ hợp của các đặc điểm quan sát được hoặc những đặc điểm của một sinh vật: như hình thái, sự phát triển, đặc tính sinh hóa hoặc sinh lý, vật hậu học (phenology), hành vi, và các sản phẩm của hành vi (chẳng hạn như tổ của một con chim).[2]  Ví dụ: 4-5 finger syndactyly 5 [1]. Strachan, T., Read, A.: Human Molecular Genetics, 3rd edn. Garland Science/Taylor & Francis Group (2003) [2]. http://en.wikipedia.org/wiki/Phenotype Pubmed  PubMed Central (Trung tâm lưu trữ báo điện tử về y sinh và khoa học đời sống của Viện Y học quốc gia Mỹ)  PubMed cung cấp quyền truy cập miễn phí tới CSDL Medline. MEDLINE: là csdl thư mục hàng đầu của thư viện y khoa quốc gia Hoa Kỳ, gồm: - 4.800 nhan đề tạp chí về y khoa - 19 triệu tham chiếu (references) lưu trữ từ đầu thập niên 50’ đến nay. 6 Pubmed MeSH  MeSH(Medical Subject Heading): Tiêu đề y khoa là tập các từ vựng dùng để phân loại các bài báo trong Medline. Các từ vựng này được mô tả theo cấu trúc cây.  Ví dụ:  21,973 mô tả  Hàng nghìn tham chiếu chéo UMLS  UMLS(Unified Medical Language System): bao gồm các cụm khái niệm y học cùng nghĩa(đồng nghĩa, biến thể của từ, từ trong các ngôn ngữ, từ viết tắt)  Hơn 1.5 triệu từ tiếng Anh nằm trong hơn 60 nhóm và được tổ chức trong 775 nghìn khái niệm MedTag  L. Smith và cộng sự. MedTag là CSDL kết hợp của 3 bộ  MedPost: 6700 câu đã gắn nhãn từ loại (POSTagger chính xác 97.4%)  GENETAG: 15000 câu đã gắn nhãn Gene và Protein.  ABGene: 4000 câu đã gắn nhãn Gene và Protein [...]... 20 S SVM sh Dạng tự sy Nhãn cú pháp H HMM gn Chuỗi gene tr Luật C CRF wv Biến thể của từ ab Viết tắt M MEMM ln Độ dài từ ca Các thực thể khác lx Từ vựng gz Tra từ điển do Thông tin tài liệu af Các thông tin liên quan (ngram) po Nhãn từ loại pa Dấu ngoặc or Chính tả np Nhãn cụm danh từ pr Sử dụng các nhãn đã dữ đoán 21 Một số phương pháp giải quyết Định hướng tiếp theo  Nhận dạng Phenotype, Gene, Bệnh...  Nhận dạng Phenotype, Gene, Bệnh (Disease), Hóa chất (Chemical)  Vấn đề: Phenotype chưa có tập dữ liệu huấn luyện, chỉ có HPO  Dự kiến:  Sử dụng CALBC làm tập huấn luyện  Dùng HPO nhận dạng các câu có chứa Phenotype, sử dụng các câu tìm được làm câu huấn luyện  Thử nghiệm trên một số đặc trưng đã khảo sát THANK YOU ... nghĩa và 133 nhãn con tương ứng UMLS Human Phenotype Ontology  Là ontology về các kiểu hình trên người, phát triển dựa trên các thông tin từ kho dữ liệu OMIM (Online Mendelian Inheritance in Man)  Gần 10 nghìn từ về kiểu hình trên người  Gần 50 nghìn chú thích về sự di truyền bệnh Một số Corpora khác ABNER    B Settles (2004) Biomedical Named Entity Recognition Using Conditional Random Fields and...GENIA 11  Junichi Tsujii (University of Tokyo)  Genia  Corpus 44 nhãn thực thể  Genia Ontology  Genia Tools GENIA Sentence Splitter: Tách câu (mô hình ME)  GENIA Tagger: PosTag, NER, Shallow parsing  CALBC Corpora  CALBC (Collaborative Annotation of a Large Biomedical Corpus) Challenge task A: Named Entity Recognition Challenge task B: Concept identification CALBC Corpora... http://pages.cs.wisc.edu/~bsettles/abner/ (Java) Sử dụng mô hình CRF(Mallet) và 2 loại đặc trưng chính: Chính tả: viết hoa, chữ số, …  Ngữ nghĩa: Thêm đặc trưng lớp ngữ nghĩa của từ Ví dụ:  Banner    Leaman, R & Gonzalez G (2008) BANNER: An executable survey of advances in biomedical named entity recognition Pacific Symposium on Biocomputing 13:652-663(2008) Tác giả Bob Leaman và Graciela Gonzalez http://banner.sourceforge.net/ . MộT Số TÀI NGUYÊN CHO NHậN DạNG THựC THể Y SINH TRẦN MAI VŨ NỘI DUNG  Thực thể y sinh  Một số kho dữ liệu về y sinh  Một số công cụ nhận diện thực. thực thể y sinh  Kế hoạch tiếp theo Thực thể y sinh  Các thực thể y sinh phổ biến:  Protein, DNA, RNA, Cell line, Cell type, Gene…  Disease (bệnh), Symptom

Ngày đăng: 14/03/2014, 15:20

Hình ảnh liên quan

=> Kiểu hình(Phenotype), Gene, Bệnh (Disease) , Hóa chất (Chemical) - MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINH pptx

gt.

; Kiểu hình(Phenotype), Gene, Bệnh (Disease) , Hóa chất (Chemical) Xem tại trang 3 của tài liệu.
 Kiểu hình(Phenotype): - MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINH pptx

i.

ểu hình(Phenotype): Xem tại trang 5 của tài liệu.
 GENIA Sentence Splitter: Tách câu (mơ hình ME) - MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINH pptx

entence.

Splitter: Tách câu (mơ hình ME) Xem tại trang 11 của tài liệu.
 Là ontology về các kiểu hình trên người, phát triển dựa trên các thông tin từ kho  - MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINH pptx

ontology.

về các kiểu hình trên người, phát triển dựa trên các thông tin từ kho Xem tại trang 15 của tài liệu.
B. Settles (2004). Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets - MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINH pptx

ettles.

(2004). Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets Xem tại trang 17 của tài liệu.
 Sử dụng mơ hình CRF(Mallet) và 2 loại đặc trưng chính: - MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINH pptx

d.

ụng mơ hình CRF(Mallet) và 2 loại đặc trưng chính: Xem tại trang 17 của tài liệu.

Từ khóa liên quan

Mục lục

  • Một số tài nguyên cho nhận dạng thực thể y sinh

  • NỘI DUNG

  • Thực thể y sinh

  • Thách thức

  • Phenotype Entity

  • Pubmed

  • Slide 7

  • MeSH

  • UMLS

  • MedTag

  • GENIA

  • Slide 12

  • CALBC Corpora

  • Slide 14

  • Human Phenotype Ontology

  • Một số Corpora khác

  • ABNER

  • Banner

  • Slide 19

  • Các loại đặc trưng

Tài liệu cùng người dùng

Tài liệu liên quan