Thành phần xây dựng kho ngữ liệu HPO_NC

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí (Trang 56 - 59)

2.2. Thành phần xây dựng và tích hợp các kho ngữ liệu thực thể biểu hiệ ny

2.2.2. Thành phần xây dựng kho ngữ liệu HPO_NC

Hình 2.3 mô tả thành phần xây dựng kho ngữ liệu HPO_NC các biểu hiện thực thể người gồm bốn bước chính. Nội dung thực hiện của mỗi bước được trình bày như dưới đây.

Hình 2.3. Mô hình xây dựng kho ngữ liệu HPO_NC các thực thể biểu hiện người

Bước 1 (Trích xuất 1). Xây dựng bảng quan hệ tài liệu OMIM với thực thể biểu hiện người HP

Bảng 2.1. Quan hệ giữa tài liệu OMIM có chỉ số OMIM ID: 600361 với các thực thể biểu hiện người (theo chỉ số) nhận được từ phenotype_annotation.tab

OMIMID HPID 1 600361 0000006 2 600361 0000763 ... ... ... 22 600361 0011463 23 600361 0012514

Sử dụng tập tài liệu phenotype_annotation.tab(13) để xây dựng bảng quan hệ giữa tài liệu OMIM với thuật ngữ HPO. Trong mỗi bản ghi thuộc phenotype_annotation.tab, một chỉ số thực thể người (HPID) đi ngay trước một chỉ số tài liệu OMIM (OMIMID) cho biết thực thể biểu hiện người với chỉ số HPID có xuất hiện trong tài liệu OMIM với chỉ số OMIMID. Luận án tiến hành

13http://compbio.charite.de/hudson/job/hpo.annotations/lastStableBuild/artifact/misc/phenotype_annotation.ta b

trích xuất tự động cặp hai chỉ số HPID và OMIMID nói trên từ các bản ghi của tập tài liệu của để hình thành được bảng quan hệ (HPID, OMIMID). Ví dụ, mối quan hệ giữa tài liệu OMIM với chỉ số 600361 với 23 thực thể biểu hiện người (thông qua các chỉ số HPID của chúng) được chỉ dẫn trong Bảng 2.1.

Bước 2 (Trích xuất 2). Xây dựng bảng quan hệ tài liệu OMIM với tài liệu PubMed

Hình 2.4. OMIMID 600361 có quan hệ với chín PubMedID

Luận án sử dụng tiện ích OMIM14 để xây dựng bảng quan hệ giữa tài liệu OMIM với tài liệu PubMed thông qua các chỉ số của chúng. Sử dụng lời gọi OMIM với đối số là chỉ số OMIM sẽ nhận được các các chỉ số PubMed trong danh sách “REFERENCES” từ kết quả trở về. Lọc các chỉ số PubMed từ danh sách này sẽ nhận được danh sách các chỉ số PubMed (PMID) tương ứng với chỉ số OMIMID đã cho. Ví dụ với lời gọi OMIM với đối số “600361”15, luận án trích xuất được chín PubMedID với chỉ số 9497266, 5652992, 1557949,

14http://omim.org/

6133167, 6707656, 10996781, 18336586, 15482954, 12601114 quan hệ với OMIM với chỉ số 600361 (Hình 2.4).

Bước 3 (Kết hợp). Xây dựng bảng quan hệ tài liệu PubMed với các thực thể biểu hiện người HP

Từ hai bảng (OMIMID, HPID) qua Bước 1 và bảng (OMIMID, PMID) qua Bước 2 xây dựng bảng (PMID, HPID) theo cách mỗi PMID quan hệ với một OMIMID theo quan hệ (OMIMID, PMID) sẽ có quan hệ với mọi HPID theo quan hệ (OMIMID, HPID). Với ví dụ được đề cập, 23 HPID quan hệ với OMIMID 600361 sẽ quan hệ với chín PMID và nhận được 9*23 dòng quan hệ (PMID, HPID).

Bước 4 (Bộ lọc 2, Bộ lọc 3). Xây dựng kho ngữ liệu HPO_NC

Từ bảng (OMIMID, PMID), bộ lọc 2 tiến hành lọc ra được danh sách các PMID đơn nhất có liên quan tới các HPID (có nghĩa là các văn bản tóm tắt PubMed có chứa các thực thể biểu hiện người).

Tiếp đó, theo danh sách các PMID đơn nhất, Bộ lọc 2 tiến hành lọc các tài liệu PubMed có chứa thực thể biểu hiện người từ tập toàn bộ các tài liệu PubMed.

Cuối cùng, tiến hành chunking các tài liệu PubMed được nhận biết là có chứa thực thể biểu hiện người từ kết quả của Bộ lọc 2. Với mỗi tài liệu, từ bảng (PMID, HPID) nhận được danh sách HPID tương ứng với PMID của tài liệu đó. Từ kho ngữ liệu HPO nhận được các thực thể biểu hiện người tương ứng với các HPID trong danh sách. Tiến hành sánh khớp các thực thể biểu hiện người này vào tài liệu PubMed để gán nhãn các thực thể biểu hiện người trong tài liệu.

Kết quả nhận được kho ngữ liệu HPO_NC_corpus chứa các tài liệu PubMed đã được gán nhãn thực thể. Kho ngữ liệu HPO_NC_corpus đóng vai trò tập dữ liệu huấn luyện xây dựng mô hình nhận dạng thực thể biểu hiện y sinh.

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí (Trang 56 - 59)