Ba tài nguyên biểu hiệ ny sinh làm tập dữ liệu kiể- 123docz.net

2.1. PHÁT BIỂU BÀI TOÁN VÀ MÔ HÌNH GIẢI QUYẾT

2.1.3. Ba tài nguyên biểu hiệ ny sinh làm tập dữ liệu kiểm thử

Ba kho ngữ liệu biểu hiện y sinh “chuẩn” đã được cộng đồng công nhận là

11 http://rgd.mcw.edu 12 http://omia.angis.org.au

Phenominer 2012 (viết tắt là P2012), Phenominer 2013 (viết tắt là P2012) và Khordad Corpus ((viết tắt là Khordad) được luận án sử dụng làm các tập dữ liệu kiểm thử đánh giá hiệu năng mô hình đoán nhận thực thể biểu hiện y sinh được sinh ra, và thông qua đó, đánh giá chất lượng của kho ngữ liệu mở rộng tích hợp từ hai ontology sẵn có.

Phenominer 2012

Kho ngữ liệu Phenominer 2012 là bộ sưu tập 112 bài tóm tắt của PubMed Central (PMC) được lựa chọn trên 19 bệnh tự miễn dịch mà đã được chọn từ OMIM, và từ các bản ghi này các trích dẫn đã được chọn. Những bệnh này bao gồm bệnh tiểu đường loại 1, bệnh Grave, bệnh Crohn, bệnh tự miễn dịch, bệnh đa xơ cứng và viêm khớp. Tổng số tokens trong kho dữ liệu là 26,026, trong đó có 472 thực thể biểu hiện (khoảng 392 thuật ngữ đơn nhất).

Phenominer 2013

Kho ngữ liệu Phenominer 2013 gồm 80 tóm tắt của PubMed Central liên quan đến bệnh tim mạch, chứa 1.211 thực thể biểu hiện (khoảng 968 thuật ngữ đơn nhất). Mặc dù nhỏ, tất cả các thực thể được dán nhãn trong hai kho dữ liệu được thực hiện bởi cùng một người chú thích y sinh học có kinh nghiệm cao, người đã chú thích trong GENIA và BioNLP.

Công cụ Brat hỗ trợ nhận biết các thực thể biểu hiện vì sử dụng lược đồ gán nhãn BIO bình thường (Begin In Out), trong đó `B' là bắt đầu của một khái niệm, 'I' bên trong một khái niệm và 'O' bên ngoài bất kỳ khái niệm nào, tức là:

between airway responsiveness sẽ được chú thích là OB-PH I-PH, trong đó `O 'nghĩa là bên ngoài một thực thể biểu hiện,`B-PH' và `I-PH 'bắt đầu và bên trong một thực thể biểu hiện.

Tập dữ liệu Khordad

Kho ngữ liệu Khordad có xuất xứ từ hai cơ sở dữ liệu sẵn có: PubMed (2009) và BioMedCentral (2004). Tất cả biểu hiện HPO đã được tìm kiếm trong các cơ sở dữ liệu này và bất cứ bài báo nào mà có chứa ít nhất ba biểu hiện khác nhau đã được thêm vào bộ sưu tập.

Tập dữ liệu được tạo ra từ 100 bài báo và chứa 2.755 câu với 4.233 biểu hiện có chú thích. Nó không chú thích đầy đủ tất cả các tên biểu hiện. Khoảng

10% các tên biểu hiện bị thiếu. Tuy nhiên, vì hiện tại chúng ta thiếu kho dữ liệu có chú thích cho biểu hiện, nên kho dữ liệu này vẫn là một sự lựa chọn có giá trị.

Hình 2.1. Mô hình hai pha giải quyết bài toán

Ba tài nguyên biểu hiệ ny sinh làm tập dữ liệu kiểm thử

Một ví dụ về ontology miền

Công cụ xây dựng ontology