Chƣơng 3– NHẬN DẠNGTHỰC THỂ BIỂU HIỆNTRONG VĂN BẢN Y SINH TIẾNG ANH
3.1.1. Động cơ và khái quát bài toánnhận dạngthực thể biểu hiện
Nhƣ đã đƣợc phân tích ở chƣơng 1, nhận dạng thực thểy sinh chính là một bƣớc nền tảng trong việc xây dựng các hệ thống thuộc lĩnh vực này. Dƣới đây là một định nghĩa về nhận dạng thực thể y sinh [CTLA4].
“Nhận dạng thực thể y sinh (Biomedical NER) là một (nhóm) kỹ thuật tính tốn được dùng để nhận dạng và phân lớp các chuỗi văn bản về các khái niệm quan trọng trong văn bản y sinh.”
Trong giai đoạn đầu những năm 2000, các nghiên cứu về y sinh tập trung nhiều vào việc phân tích các bệnh thơng qua mối quan hệ giữa bệnh và gene.Chính
67
vì thế các thực thể liên quan đến gene nhƣ gene, tế bào, DNA...đƣợc quan tâm chủ yếu trong nhận dạng thực thể y sinh. Tuy nhiên kể từ sau khi cộng đồng nghiên cứu y sinh phát hiện và xác nhận mối quan hệ giữa bộ gen, môi trƣờng (environment) và biểu hiện, các dữ liệu biểu hiện đã đƣợc sử dụng trong nhiều vấn đề liên quan đến bệnh nhƣ nghiên cứu mối quan hệ giữa bệnh và gen [HSG11, SOK13], thay đổi mục đích thuốc (drug repurposing) [HHH12] hay trong một số nghiên cứu về sự tiến hóa [MAC07]. Một số tài nguyên đã đƣợc phát triển cho các mối quan hệ giữa kiểu gen và biểu hiện nhƣ cơ sở dữ liệu Mouse Genome Informatics database (MGD) [BSS03], cơ sở dữ liệu Online Mendelian Inheritance of Man(OMIM) [MC07] hay ontology Mammalian Phenotype (MP),các cơ sở dữ liệu và ontology nàyhỗ trợ những nhà nghiên cứu phân tích đƣợc các mỗi quan hệ giữa gen và bệnh cũng nhƣ các khung nhìn đa chiều biểu diễn cho các khái niệm cần quan tâm.
Hình 3.1. Biểu diễn của biểu hiện trong văn bản tường thuật và các thuật ngữ trước và sau biên soạn.
Hình 3.1, thể hiện một quá trình phân giải một thuật ngữ y sinh liên quan đến chuộtthông qua các khái niệm trong các ontology. Dựa trên các khái niệm trong các
68
ontology y sinh xuất hiện cùng nhau, những nhà nghiên cứu y sinh có thể hiểu rõ hơn về bản chất của các thuật ngữ cần phân tích.
Hình 3.2. Ví dụ chứa các thực thể biểu hiện, gen, bệnh và mối quan hệ giữa chúng
Sự phân giải cácthực thể biểu hiện ở mức độ ontology đã đƣợc các nhà khoa học chứng minh rằng có khả năng hỗ trợ cho việc dự đoán các mối liên kết giữa gen-bệnh hoặc các liên kết thuốc - bệnh mới [HHH12].Theo Hoehndorf và cộng sự [HOR10], biểu hiệnđóng vai trị rất quan trọng khi phân tích cơ chế phân tử của bệnh, nó cũng đƣợc dự kiến là sẽ đóng vai trị chủ chốt trong việc suy luận vai trò của gen trong các bệnh di truyền phức tạp.Bất kỳ sự tiến bộ nào trong việc nhận dạng biểu hiện sẽ góp phần thúc đẩy sự phát triển của các nghiên cứu nêu trên. Hình 3.2 đƣa ra một ví dụ có chứa các thực thể biểu hiện, gen và bệnh, ở đây có chứa mối liên kết tiềm ẩn giữa bệnh ―systemic lupus erythematosus‖ và biểu hiện“IgG1
disorder” cũng nhƣ giữa chúng và ba thực thể gen và sản phẩm của gen (gene and
gene product - GGP).
69
Cho đến nay, đã có nhiều nghiên cứu về gán nhãn tự động các gen, protein và bệnh trong tài liệu khoa học y sinh, nhƣng các nghiên cứu về nhận dạng và chuẩn hóa biểu hiện thì vẫn cịn rất nhiều hạn chế. Điều này một phần là do sự phức tạp của các đoạn văn bản mô tả biểu hiện, nhƣng cũng có thể là do tính chất khơng hồn thiện của các dữ liệu biểu hiện [HBK12] và việc thiếu các nguồn tài nguyên ngữ nghĩa toàn diện hỗ trợ cho việc phân tích.
Nhìn nhận đƣợc tiềm năng và nắm bắt động cơ nghiên cứu, luận án đề xuất một mơ hình để nhận dạng các thực thể biểu hiện tiềm năng có dạng phức tạp bằng các kỹ thuật học máy thống kê. Đóng góp chủ yếu của nghiên cứu này trong luận án nằm ở ba điểm: Thứ nhất, phân tích và hệ thống hóa khái niệm biểu hiện trong dữ liệu y sinh. Thứ hai, xây dựng bộ dữ liệu gán nhãn phục vụ cho bài toán nhận dạng thực thể biểu hiện và các bài tốn sau đó, đáp ứng bổ sung phần nào nhu cầu của cộng đồng nghiên cứu về một bộ dữ liệu gán nhãn thực thể đầy đủ cho văn bản y sinh, trong đó bao gồm cả biểu hiện.Và cuối cùng, luận án đề xuất mơ hình nhận