Chƣơng 3– NHẬN DẠNGTHỰC THỂ BIỂU HIỆNTRONG VĂN BẢN Y SINH TIẾNG ANH
3.1.2. Một số khái niệm cơ bản liên quan đến thực thể biểu hiệnvà một số thực thể liên quan
các đặc trƣng cũng nhƣ đƣợc đánh giá thông qua các độ đo tin cậy.
Cùng với việc đƣa ra một mơ hình tối ƣu cho nhận dạng thực thể biểu hiện, luận án cũng trình bày các nghiên cứu liên quan đến vấn đề thích nghi miền dữ liệu(domain adaptation) trong miền thực thể biểu hiện. Đây là một vấn đề đặt ra khi
các tập dữ liệu huấn luyện cho mơ hình học thƣờng đƣợc xây dựng với chi phí tốn kèm, khó bao phủ đƣợc hết tồn bộ miền dữ liệu cũng nhƣ các tri thức miền hỗ trợ nhƣ ontology và các luật chƣa đầy đủ, thì việc xây dựng mơ hình nhận dạng cần có khả năng ―thích nghi‖ tốt trên nhiều miền dữ liệu.
3.1.2. Một số khái niệm cơ bản liên quan đến thực thể biểu hiện và một số thực thể liên quan thể liên quan
Không nhƣ các gen hay cấu trúc giải phẫu cơ thể (anatomy), biểu hiện và các đặc điểm của nó là những khái niệm phức tạp, và không tạo thành một lớp đồng nhất các đối tƣợng (nhƣ một thực thể thông thƣờng trong thế giới thực). Cụ thể, các đặc điểm y sinh nhƣ ―eye colour‖ (màu mắt), ―blood group” (nhóm máu),
70
“hemoglobin concentration‖ (nồng độ hemoglobin)là các cụm từ mơ tả về cấu trúc
hình thái, q trình sinh lý và hành vi của một sinh vật. Khi những mô tả chỉ về chất hay lƣợngcủa các đặc điểm này đƣợc sử dụng để nói về một sinh vật cụ thể nào đó, chúng ta có cái gọi là ―biểu hiện‖, ví dụ ―blue eyes‖ (mắt xanh), ―blood group
AB‖(nhóm máu AB), “not having between 13 and 18 gm/dl hemoglobin
concentration”(khơng có nồng độ hemoglobin nằm trong khoảng 13-18 gm/dl‖.
Chính vì tính chất phức tạp của biểu hiện, cho đến nay, trong hiểu biết của nghiên cứusinh, mới có rất ít nghiên cứu cung cấp các tiêu chuẩn tích hợp dữ liệu cho biểu hiện. Điều đó có nghĩa là các mô tả về biểu hiện có xu hƣớng gói gọn trong phạm vi của một hoặc một vài nghiên cứu thuộc về một nhóm tác giả nào đó, và các biểu hiện của biểu hiện có thể khơng đƣợc xem xét đến nếu nó nằm ngồi miền dữ liệu mà tác giả đang quan tâm tại thời điểm công bố nghiên cứu [BR04]. Trong một số nghiên cứu, biểu hiện chỉ đƣợc gọi một cách đơn giản là "thông tin về
biểu hiện" (phenotypic information) thay vì một định nghĩa cụ thể [HOR10]. Trong
hệ thống CSI-OMIM [CGE11], biểu hiện đƣợc coi là ―các thuật ngữ sinh học bao
gồm các dấu hiệu và triệu chứng lâm sàng‖. Freimer và Sabatti (2003) [FS03] mô
tả biểu hiệnlà "bất kỳ hình thái, đặc điểm sinh hóa, sinh lý hay hành vi của một sinh
vật (...) Tất cả các đặc điểm biểu hiện đều là thể hiện của sự kết hợp giữa biểu hiện của một kiểu gen và ảnh hưởng của một môi trường cụ thể". Khordad, Mercer và
Rogan (2011) [KMR11] định nghĩa biểu hiện là "các đặc tính di truyền xác định
quan sát được của một tế bào hay sinh vật, bao gồm các kết quả của bất kỳ kiểm tra nào ngoại trừ các kiểm tra của kiểu gen (...) Một biểu hiện của sinh vật được xác định thông qua sự tương tác giữa cơ chế di truyền của nó và mơi trường."
Định nghĩa của thực thể biểu hiện sử dụng trong luận án này dựa trên các phân tích trong nghiên cứu của Scheuermann và cộng sự (2009) [SCW09] và BioTop (2008) [BSS08].
“Thực thể biểu hiện (phenotype, viết tắt là PH) là một đề cập dưới dạng văn bản mơ tả một đặc tính quan sát được hoặc đo lường được của một sinh vật một
71
cách cụ thể hoặc trừu tượng. Thực thể biểu hiện có thể được tiếp tục chia thành thực thể bị tác động và mơ tả cho thực thể đó.”
Ví dụ: ―lack of kidney‖ (thiếu thận), ―abnormal cell migration‖ (bất thƣờng trong việc chuyển đổi tế bào), ―absent ankle reflexes‖ (khơng có phản xạ mắt cá chân), ―susceptibility to ulcerative colitis‖ (nhạy cảm với viêm loét đại tràng), v.v..
Có ba điểm cần làm rõ với định nghĩa nói trên.
Thứ nhất, vì sự đa dạng của biểu hiện trên sinh vật nên luận án quyết định chỉ tập trung vào định nghĩa biểu hiện trên chuột (với vai trò là sinh vật mẫu) và con ngƣời (với vai trị là lồi quan trọng nhất).
Thứ hai, biểu hiện có thể đƣợc phân chia thành nhiều loại. Ở đây luận án chia biểu hiện thành bốn loại cơ bản: các thuộc tính cấu trúc (xác định sự có hay vắng mặt của bất kỳ thành phần nào trong cơ thể sinh vật), các thuộc tính chất/lƣợng, các thuộc tính chức năng (liên quan đến sự hoạt động của các chức năng của bộ phận cơ thể sinh vật) và các thuộc tính quá trình (biểu diễn đặc tính của q trình sinh lý, sinh hóa trong cơ thể). Những trƣờng hợp trên là những trƣờng hợp phổ biến nhất của biểu hiện, trong thực tế có nhiều biểu hiện biểu hiện khác mà khơng thể liệt kê hết hoặc nhóm chúng vào các lớp chung nhƣ trên. Ví dụ, những đặc tính khơng thể đo đạc hay quan sát đƣợc bởi ngƣời khác mà thể hiện qua kinh nghiệm hay cảm nhận của bản thân sinh vật, nhƣ "pain" (đau), "stress" (căng thẳng) hay "itchiness" (ngứa). Trong phạm vi nghiên cứu của luận án này, chúng cũng đƣợc coi là các biểu hiện. Tuy nhiên do các thuộc tính q trình là thuộc tính mơ tả thực thể trừu tƣợng
quá trình sinh học, việc định nghĩa và nhận dạng các thực thể chƣa thể đáp ứng đƣợc nhu cầu xây dựng hệ thống ở thời điểm hiện tại. Vì vậy, nghiên cứu nhận dạng thực thể biểu hiện trong luận án bỏ qua thực thể biểu hiện về thuộc tính q trình.
Ngồi thực thể biểu hiện, trong nghiên cứu này, hệ thống mà luận án xây dựng còn nhận dạng thêm năm loại thực thể điển hình khác trong lĩnh vực y sinh, lần lƣợt là: sinh vật, bộ phận cơ thể, gen và các sản phẩm của gen, bệnh và thuốc và hóa
72
chất. Các định nghĩa luận án nêu ra dƣới đây dựa trên nghiên cứu của Scheuermann và cộng sự (2009) [SCW09] và BioTop (2008) [BSS08].
Thực thể sinh vật (organism, viết tắt là OR) là đề cập đến một kiểu hệ thống
sinh học có sự sống, có chức năng như một tổng thể ổn định.
Định nghĩa này bao gồm cả sinh vật đa bào và đơn bào. Đặc biệt, khác với thực thể sinh vật trong dữ liệu thơng thƣờng, do tính chất đặc thù của dữ liệu y sinh, trong miền này thực thể sinh vật chấp nhận cả các đề cập đến tên chung của lồi, nhóm sinh vật hay một cá thể.
Ví dụ: "Hepatitis type B virus", "food sanitation inspectors", "cholera cases", "hypergammaglobulinaemic patients", "45-year-old male", "asthmatics", "Mary Jane", "mouse", v.v..
Thực thể bộ phận cơ thể (anatomy, viết tắt là AN) là một đề cập đến cấu
trúc giải phẫu hay các thành phần vật lý khác trong hay trên bề mặt cơ thể người hoặc chuột, bao gồm các cơ quan, tế bào, các phần khác của cơ thể máu, dịch cơ thể, các mơ và sự kết hợp của chúng.
Ví dụ: “endothelial cells”, “liver”, “nervous system”, “HeLa cells”, “left collar bone”, “both kidneys‖, v.v..
Thực thể gen và các sản phẩm của gen (gene and gene product, viết tắt là
GG) là một trong ba thành phần phân tử vĩ mơ chính: DNA, RNA hoặc protein. DNA và RNA là các chuỗi axit nucleic chứa các chỉ dẫn di truyền được sử dụng trong quá trình phát triển các chức năng của một sinh vật. Protein là chuỗi polypeptide, hoặc các bộ phận của chuỗi polypeptide, tạo thành những cấu trúc thuận lợi cho các chức năng sinh học của cơ thể…
Ví dụ: “cryoglobulins”, “anticariolipin antibodies”, “AFM044xg3”, “chromosome 17q”, “CC16 protein”, v.v..
Thực thể bệnh (disease, viết tắt là DS) được đề cập đến như là một sự bất
thường trải qua trong một quá trình bệnh lý của cơ thể sinh vật donguyên nhân một hoặc nhiều rối loạn trong cơ thể đó.
73
Ví dụ: "Felty’s syndrome", "rheumatoid arthritis", "heterozygous C2
deficiency", [SARS], v.v..
Thực thể thuốc và hóa chất (chemical and drug, viết tắt là CD) là các thành
phần hay họ hóa học khác với DNA, RNA và protein (GG).
Ví dụ: “Panadol”, “antibiotic”, “calcium”, “3-ethyl-2-methylhexane”, “C6H12O6”, v.v..
Hình 3.3 đƣa ra một mô tả trực quan về các loại của thực thể biểu hiện cũng nhƣ liên kết ngữ nghĩa giữa biểu hiện và các thực thể y sinh khác.
Hình 3.3. Lược đồ ngữ nghĩa của các loại thực thể nhận dạng trong luận án
(Các thực thể nhƣ Hóa chất & thuốc, Gene và sản phẩm của Gene, Bộ phận
cơ thể, Sinh vật, Bệnh vàBiểu hiện là các thực thể mà luận án xét đến) 3.1.3. Vấn đề về thích nghi miền trong nhận dạng thực thể y sinh
Một thách thức lớn nữa đối với bài toán NER trong dữ liệu y sinh là vấn đề
thích nghi miền dữ liệu (domain adaptation). Các nghiên cứu NER y sinh thƣờng sử
dụng một tập nhỏ các dữ liệu đƣợc gán nhãn để nghiên cứu và thực nghiệm. Các
74
nhà khoa học sử dụng một giả định ngầm rằng dữ liệu trong tƣơng lai sẽ đƣợc trích ra từ một phân phối tƣơng tự với các dữ liệu đã đƣợc gán nhãn và do đó việc giảm thiểu các lỗi dự đốn trong dữ liệu thực nghiệm sẽ dẫn đến việc giảm thiểu các lỗi tƣơng tự trong dữ liệu thực tế. Vì việc gán nhãn dữ liệu do các chuyên giatiến hành thủ công rất tốn thời gian và chi phí, các dữ liệu gán nhãn này thƣờng rất nhỏ [KOT03, PGH07, KMR11], nhiều nhất khơng vƣợt q vài nghìn văn bản tóm tắt Medline. Nhƣng rõ ràng việc sử dụng những tập dữ liệu gán nhãn nhỏ nhƣ thế để dự đốn cho một nhóm dữ liệu khác trong một kho dữ liệu khổng lồ nhƣ Medline với 22 triệu tóm tắt là một cơng việc hết sức "nguy hiểm". Vì tính chất phong phú và hƣớng chuyên ngành của dữ liệu y sinh, một bộ dữ liệu thƣờng sẽ chỉ hƣớng về một chủ đề hay có cùng tính chất nào đó. Hệ thống đƣợc xây dựng phù hợp cho dữ liệu thuộc về chủ đề này chƣa chắc có thể hoạt động hiệu quả khi chuyển sang tập dữ liệu thuộc chủ đề khác hay các tập dữ liệu trộn lẫn của nhiều chủ đề khác nhau, mặc dù chúng đều là dữ liệu y sinh và có nhiều điểm tƣơng đồng.
Cho đến nay, chƣa có một nghiên cứu nào làm sáng tỏ đƣợc vấn đề chuyển dịch trong các miền gần cho bài toán nhận dạng thực thể y sinh theo một cách đơn giản. Nghiên cứu tiếp cận gần nhất với khảo sát của nghiên cứu sinh trong phần này là nghiên cứu của Wang và cộng sự (2009) trong miền dữ liệu y sinh [WKS09]. Các tác giả khảo sát các tài ngun tiềm năng của sự khơng tƣơng thích giữa các tập dữ liệu nhận dạng thực thể y sinh quan trọng với các lƣợc đồ chú thích khác nhau: GENIA (2,000 tóm tắt Medline), GENETAG (khoảng 20,000 câu Medline) và AlMed (255 tóm tắt Medline). Nghiên cứu này tập trung vào nhận dạng Protein và quan sát thấy sự tụt giảm về hiệu suất khoảng 12% của độ đo F1 khi kết hợp dữ liệu từ các tập dữ liệu khác nhau. Nhiều lý do đã đƣợc đƣa ra nhƣ sự khác nhau về ranh giới thực thể, phạm vi của định nghĩa về thực thể, phân phối các thuộc tính của lớp thực thể và độ trùng lặp giữa các tập dữ liệu.
Năm 2006, Tsai và cộng sự công bố một nghiên cứu về sự khác biệt của giản đồ gán nhãn giữa dữ liệu JNLPBA (2,000 tóm tắt Medline) và dữ liệu BioCreative (15,000 câu Medline) [TWC06] và cố gắng hịa hợp các tiêu chí ánh xạ. Họ chứng
75
minh rằng nới lỏng các tiêu chí ánh xạ biên sẽ có tác dụng tối đa hóa hiệu suất thực nghiệm chéo miền (cross domain).
Wagholikar và cộng sự[WTJ13] nghiên cứu tác dụng của việc làm hòa hợp các quy tắc gán nhãn dữ liệu trong tập dữ liệu i2b2 2010 và các hồ sơ bệnh án điện tử Mayo Clinic Rochester (MCR). Họ kết luận rằng hiệu quả của tổng hợp (pooling) - tức là trộn các tập dữ liệu bằng cách đảm bảo một định dạng chung và hài hòa về mặt ngữ nghĩa - phụ thuộc vào nhiều yếu tố, bao gồm khả năng tƣơng thích giữa các giản đồ chú thích và sự khác biệt về kích cỡ. Các tác giả cũng nhận thấy rằng cách tổng hợp đơn giản có hiệu suất (tính theo F1) giảm 12% đối với MRC và 4% đối với i2b2. Các tác giả cũng nhận định rằng sự khơng cân bằngnày có thể là do bị ảnh hƣởng bởi kích thƣớc của tập dữ liệu, tức là do MCR có kích thƣớc nhỏ hơn nên nó phải chịu mất mát nhiều hơn vì bộ phân lớp sẽ có xu hƣớng ―thiên vị‖ đối với i2b2.
Trong phạm vi nghiên cứu của luận án,nghiên cứu sinh cố gắng làm sáng tỏ mức độ tụt giảm hiệu quả theo các chiến lƣợc kết hợp dữ liệu khác nhau trong bài tốn thích nghi miền về dữ liệu nhận dạng thực thể biểu hiện.