1. 3 Định nghĩa về bài toán đối sánh
3.1.1. Miền dữ liệu
Thực thể kiểu hình4 (Phenotype) của một cơ thể sinh vật là các đặc điểm có thể quan sát, đo đếm được như màu sắc, chiều cao, kích thước, hình dạng,…Thực thể kiểu hình được xác định bởi kiểu gen của một cá nhân và những gen thể hiện, biến dị di truyền ngẫu nhiên và do ảnh hưởng của môi trường. Như con người có mắt màu nâu, màu đen, màu xanh. Đặc điểm kiểu hình cũng được định nghĩa là việc thể hiện những đặc điểm của một sinh vật là bình thường hoặc dị thường. Ví dụ trong phát triển của cơ thể người, người bình thường có tứ chi phát triển bình thường với đầy đủ các ngón chân, ngón tay, tuy nhiên sự phát triển bất thường hay còn gọi là dị thường có thể là sự dính chi như các ngón tay hoặc chân dính liền vào nhau hoặc hai chân hợp nhất, đơn giản hơn như người có 5 ngón tay là bình thường, có 6 ngón tay là dị thường. Tuy nhiên do thay đổi môi trường sống sinh lý thực thể kiểu hình cũng thay đổi trong quá trình sống.
Theo các nhà nghiên cứu [18], ontology thực thể kiểu hình được xây dựng để phục vụ cho nhu cầu của cộng đồng, như chú thích của sự liên kết giữa kiểu gen – kiểu hình (genotype-phenotype) ở chuột hoặc ở người. Các thông tin về kiểu hình được nhận biết theo cách truyền thống là sử dụng các văn bản có sẵn của các lĩnh vực trong cơ sở dữ liệu. Theo đó các nhà nghiên cứu [19] nghiên cứu về các bệnh ở người thông qua việc nghiên cứu các thực thể kiểu hình với quy mô lớn.
Như đã đề cập ở trên, trong luận văn này chúng tôi sử dụng hệ gen của chuột để nghiên cứu các bệnh ở người và miền dữ liệu các Ontology về thực thể được sử dụng là thực thể kiểu hình ở người - Human Phenotype Ontology (HPO) và thực thể kiểu hình ở động vật có vú - Mammalian Phenotype Ontology (MPO)
Ontology HPO – thực thể kiểu hình ở người được biết đến một công cụ cho việc chú thích và phân tích bệnh di truyền ở người [22]. Ở người có rất nhiều các bệnh di truyền mỗi bệnh lại có sự kết hợp riêng về các đặc trưng kiểu hình. Việc phân tích tính toán của dữ liệu kiểu hình bị cản trở bởi việc không đầy đủ về các cấu trúc dữ liệu tính toán. Vì vậy, HPO đã được phát triển với hơn 9,900 thuật ngữ về kiểu hình với 15,800 từ đồng nghĩa [8]. Thuật ngữ đại diện cho những bất thường về kiểu hình riêng biệt và đã chú thích tất cả các bệnh theo thuyết di truyền trực tuyến (Online Mendelian Inheritance in Man) ở người với các thuật ngữ thuộc HPO. HPO có thể đoán nhận được sự tương tự về kiểu hình giữa các bệnh. HPO được cấu trúc với mục đích phủ tất cả các kiểu hình không bình thường mà gây ra các bệnh thường gặp ở người.
HPO được xây dựng với OBO-edit, để xác định các thuật ngữ và liên kết giữa chúng trên cơ sở một danh sách các mô tả từ cơ sở dữ liệu Online Mendelian
4
Inheritance in Man (OMIM). Với các mô tả xuất hiện nhiều lần trong cơ sở dữ liệu OMIM sẽ tạo ra một thuật ngữ trong OBO. Việc sử dụng dữ liệu của OMIM trong việc phân tích tính toán gặp phải trở ngại chính là OMIM không sử dụng một từ vựng đã được kiểm tra và rất khó khăn để nhận ra từ đồng nghĩa. Thuật toán Smith-Waterman [25] được sử dụng để ghép các miêu tả được sử dụng trong OMIM như là đồng nghĩa hoặc là con của các thuật ngữ HPO. Mỗi thuật ngữ trong HPO miêu tả một kiểu hình dị thường – abnormal. Các thuật ngữ có quan hệ với các thuật ngữ cha là quan hệ “is - a” – “cha – con”. Hầu hết các thuật ngữ trong HPO miêu tả các cơ quan dị thường.
Ontology thứ hai chính là MP (Mammalian Phenotype) Ontology, là một công cụ cho việc phân tích, chú thích và so sánh các thông tin về kiểu hình của động vật có vú. MP Ontology [24] hỗ trợ các mức khác nhau và đầy đủ tri thức về kiểu hình và chú thích linh hoạt về các kiểu di truyền riêng.
Ngày nay, MP Ontology sử dụng cơ sở dữ liệu hệ gen của chuột là Mouse Genome Database và Rat Genome Database để đại diện cho các dữ liệu kiểu hình. Chuột là mô hình sinh vật đứng đầu cho việc nghiên cứu sinh học của người và bệnh, mục tiêu là so sánh và xây dựng một mô hình mới của động vật thông qua công nghệ di truyền. Việc nghiên cứu trên chuột có nhiều lợi ích hơn với tiến hành trên con người. Bởi chuột là loại động vật có vú nhỏ, chu trình sống ngắn lại có một hệ gen đầy đủ, với rất nhiều công cụ có sẵn cho việc tiến hành thực nghiệm chính xác trên hệ gen của nó. The Mouse Genome Database (MGD) tại website the Mouse Genome Informatics5 như là một mô hình tổ chức cơ sở dữ liệu về chuột, tượng trưng cho di truyền học, hệ gen và sinh học của chuột như là nguồn tài nguyên chung cho việc học về loài động vật có vú. Trong những năm gần đây, MP Ontology ngày càng mô tả chính xác hơn các kiểu hình và cho phép truy cập dễ dàng để tương tác với các chuỗi kiểu hình. Thống kê cho thấy, MP có 8.800 thuật ngữ về kiểu hình với 23.700 từ đồng nghĩa [8]. Các mức thuật ngữ đầu tiên của MP Ontology bao gồm các hệ thống sinh lý, hành vi, các kiểu hình phát triển, sự sống sót hay già hóa. Mỗi thuật ngữ MP Ontology chỉ có một định danh duy nhất, một định nghĩa và nhiều đồng nghĩa.
5
Hình 3.2. Những thuật ngữ đầu tiên của hai Ontology