Dữliệu đánh giá và tài nguyên hỗ trợ

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng (Trang 79 - 85)

Chƣơng 3– NHẬN DẠNGTHỰC THỂ BIỂU HIỆNTRONG VĂN BẢN Y SINH TIẾNG ANH

3.2.2. Dữliệu đánh giá và tài nguyên hỗ trợ

Hiện nay, một trong những vấn đề lớn của nhận dạng thực thể biểu hiện chính là vấn đề thiếu một tập dữ liệu có thể đƣợc sử dụng cho huấn luyện và kiểm thử mơ hình. Một số các dữ liệu có liên quan đến biểu hiện thì lại không tuân theo các định dạng gán nhãn phù hợp cho thực thể biểu hiện (nhƣ tập dữ liệu OMIM [MC07]) hoặc quá nhỏ và mang tính địa phƣơng, khơng phù hợp để đánh giá một hệ thống phức tạp (KMR[KMR11]). Việc xây dựng một bộ dữ liệu đƣợc gán nhãn địi hỏi tốn thời gian và chi phí lớn, tuy nhiên bộ dữ liệu nhƣ thế sẽ đóng vai trị chủ chốt trong việc xử lý bài toán, đặc biệt là cung cấp những minh chứng trong ngữ cảnh cụ thể cho những nhận định lý thuyết về biểu hiện mà luận án đƣa ra. Trong nghiên cứu này, hai bộ dữ liệu phục vụ cho bài toán nhận dạng thực thể biểu hiệnvà đánh giá hiệu quả của thích nghi miền dữ liệu đƣợc xây dựng.

a. Tập dữ liệu Phenominer Avề các bệnh tự miễn dịch di truyền

(autoimmune diseases)

Tập dữ liệu Phenominer A đƣợc thu thập dựa trên hai tiêu chí sau:

78

 Thứ nhất, các tóm tắt PubMed Central (PMC) nói về 19 bệnh tự miễn dịch di truyền đã đƣợc xác định trƣớc. Bệnh tự miễn dịch là bệnh phát sinh từ các phản ứng miễn dịch không phù hợp của cơ thể chống lại các chất và các mơ bình thƣờng hiện diện trong cơ thể, 19 bệnh này đƣợc xác định thông qua OMIM [MC07], chúng đƣợc liệt kê trong Bảng 3.1.

 Thứ hai, để đảm bảo các tóm tắt này có một liên kết nhất định với biểu hiện, các tóm tắt phải đảm bảo có chứa ít nhất một cụm từ chỉ biểu hiệnđến từ các nguồn sau: (1) trƣờng mơ tả tóm tắt dấu hiệu lâm sàng (clinical synopsis) của tài liệu OMIM tƣơng ứng, (2) Human Phenotype Ontology (HPO) và (3) Mammalian Phenotype Ontology [SE09].

Bảng3.1. Danh sách các bệnh tự miễn dịch được sử dụng để xây dựng dữ liệu Phenominer A

STT Tên bệnh Đối tƣợng

1 Auto immune thyroid disease Ngƣời

2 Auto immune skin diseases Ngƣời

3 Immune-mediated diseases Ngƣời

4 Immuno-mediated gastrointestinal Ngƣời

5 Celiac's disease/ Celiac disease Ngƣời

6 Graves's disease/ Grave disease Ngƣời

7 Hashimoto's disease/ Hashimoto disease Ngƣời

8 Crohn's disease/ Crohn disease Ngƣời

9 Addison's disease/ Addison disease Ngƣời

10 Type 1 diabetes Ngƣời

11 Rheumatoid arthritis Ngƣời

12 Multiple sclerosis Ngƣời

79

13 Systemic lupus erythematosus Ngƣời

14 Asthma Ngƣời

15 Familial psoriasis Ngƣời

16 Auto immune encephalomyeliti Chuột

17 Inflammatory arthritis Chuột

18 Histamine sensitization Chuột

19 Mouse lupus Chuột

Dữ liệu Phenominer A về các bệnh tự miễn dịch chứa 110 tóm tắt PMC. Việc gán nhãn đƣợc các chuyên gia có kinh nghiệm trong lĩnh vực y sinhthực hiện đã gán nhãn dữ liệu GENIA và BioNLP, sử dụng công cụ gán nhãn BRAT14 của nhóm NLPLab.Khơng có sự giao nhau nào về mặt câu giữa dữ liệu Phenominer A, Phenominer Bvà dữliệu KMR [KMR11] (đây là dữ liệu dùng để đối sánh kết quả trong một số thực nghiệm bên dƣới, mô tả về dữ liệu KMR sẽ đƣợc nêu trong mục (c) của phần 3.2.2 dƣới đây).

b. Tập dữ liệu Phenominer B về các bệnh tim mạch di truyền

(cardiovascular diseases)

Một yêu cầu tiên quyết để nghiên cứu về thích nghi miền dữ liệu là các tập dữ liệu phải có chung nguyên tắc gán nhãn, nói cách khác, các dữ liệu phải đƣợc chuẩn hóa về cùng một dạng. Đây không phải là một việc thuận lợi trong bối cảnh nghiên cứu hiện nay, vì vậy luận án xây dựng một bộ dữ liệu khác để phục vụ cho nghiên cứu này: Dữ liệu Phenominer B đƣợc xây dựng tƣơng tự với tập dữ liệu Phenominer A với trọng tâm xoay xung quanh một nhóm bệnh khác đƣợc lựa chọn từ cơ sở dữ liệu kinh điển về các bệnh di truyền OMIM. Các bệnh đƣợc lựa chọn là bệnh tim mạch (cardiovascular diseases),60 bệnh cụ thể đƣợc sử dụng để thu thập dữ liệu nhƣ

14Brat rapid annotation tool. http://brat.nlplab.org

80

bệnh cơ tim (cardiomyopathy), tăng huyết áp (hypertension), xơ vữa động mạch (atherosclerosis), . Dữ liệu Phenominer B cũng dựa trên các nguyên tắc gán nhãn và do cùng một chuyên gia gán nhãn nhƣ với Phenominer A. Bảng 3.2 đƣa ra so sánh giữa Phenominer A và Phenominer B trên một số tiêu chí về thống kê.

Bảng 3.2. Các đặc điểm của dữ liệu Phenominer A về bệnh tự miễn dịch và Phenominer B về bệnh tim mạch Phenominer A Phenominer B P1 P2 P3 P4 SLTT 110 80 ─ ─ ─ ─ SLHV 27.421 26.578 ─ ─ ─ ─ SLC 842 888 DTBC 32,57 29,93 ─ ─ ─ ─ AN 194 (138) 195 (133) 0,33 0,26 0,07 0,08 CD 44 (33) 147 (75) 0,08 0,07 0,05 0,01 DS 892 (282) 955 (442) 0,39 0,27 0,11 0,09 GG 1.663 (928) 754 (511) 0,41 0,45 0,15 0,16 OR 799 (429) 770 (323) 0,56 0,67 0,36 0,54 PH 507 (423) 1.430 (1.113) 0,52 0,33 0,04 0,02 Trong bảng 3.2:

- SLTT: Số văn bản tóm tắt cấu thành dữ liệu - SLHV: Số từ vựng (token) có trong dữ liệu - SCL: Số lƣợng câu

- DTBC: Độ dài trung bình câu, AN, CD, DS, GG, OR, PH là số lƣợng tƣơng ứng với mỗi loại thực thể. Số trong dấu ngoặc đơn chỉ số lƣợng sau khi đã loại bỏ trùng lặp.

- P1: Xác suất một từ nằm trong thực thể lớp X ở Phenominer A cũng nằm trong thực thể lớp X ở Phenominer B. P2: Xác suất một từ nằm trong thực thể lớp X

81

ở Phenominer B cũng nằm trong thực thể lớp X ở Phenominer A. P3: Xác suất một thực thể lớp X ở Phenominer A cũng là một thực thể lớp X ở Phenominer B. P5: Xác suất một thực thể lớp X ở Phenominer B cũng là một thực thể lớp X ở Phenominer A

c. Tập dữ liệu KMR

Tập dữ liệu KMR đƣợc gán nhãn thủ công trong nghiên cứu của Khordad và

cộng sự(2011) [KMR11] chứa 120 câu (3.784 từ vựng)xây dựng từ 4 bài báo của PubMed năm 2009 trong lĩnh vực di truyền của con ngƣời, dữ liệu này đƣợc gán nhãn với 110 thực thể biểu hiện. Các thực thể biểu hiện đƣợc gán nhãn dựa trên tập danh sách các thuật ngữ xuất hiện trong ontology HPO – ontology về các thuật ngữ biểu hiện của ngƣời và chuột.

82

Hình 3.5. Mơ hình nhận dạng thực thể biểu hiện và các thực thể liên quan

3.2.3. Mơ hình đề xuất

Dựa trên những kiến thức thu nhận đƣợc từ các cơng trình nghiên cứu liên quan, luận án trình bày một mơ hình nhận dạng thực thể biểu hiện và các thực thể liên quan sử dụng kỹ thuật học máy gán nhãn chuỗi với các đặc trƣng phong phú về tri thức miền.So với các nghiên cứu trƣớc đó của Khordad và cộng sự [KMR11] và Groza và cộng sự [GZH12] nhận dạng thực thể thông qua các luật biểu diễn thực thể biểu hiện, mơ hình đề xuất sử dụng mơ hình học máy thống kê để học các đặc trƣng của thực thể biểu hiện và các thực thể liên quan. Phƣơng pháp học máy cho phép mơ hình có thể linh hoạt hơn trong việc nhận dạng, không quá phụ thuộc vào kiến thức chun gia và có thể tìm ra các biểu diễn khác của thực thể biểu hiện. Bên cạnh đấy, mơ hình đề xuất cố gắng đƣa thêm hầu hết các tri thức miền về thực thể biểu hiện và các thực thể liên quan nhằm giúp mơ hình học máy có thể tăng tính ngữ nghĩa, khả năng suy luận đối với các thực thể liên quan tri thức miền.

Mơ hình gồm 4 phần chính (Hình 3.5):

Tiền xử lý: Đầu tiên, hệ thống thu thập dữ liệu là các tóm tắt khoa học từ

nguồn cung cấp (PubMed), tách chúng thành các câu và từ vựng (token) sử dụng thƣ viện OpenNLP với mơ hình Maxent. Hệ thống tiếp tục nhận dạng các từ viết tắt bằng công cụ BioText15, tức là tạo một danh sách các từ viết tắt địa phƣơng (thƣờng đƣợc chú thích trong lần sử dụng đầu tiên) sau đó thay thế tất cả các từ viết tắt bằng dạng đầy đủ của nó trong tồn bộ văn bản.  Trích chọn đặc trƣng là pha xử lý cần phải có trƣớc khi huấn luyện hay gán

nhãn dữ liệu. Nhiệm vụ của pha này là trích xuất ra các đặc trƣng đã xác định trƣớc của từng từ vựng trong câu. Các đặc trƣng này sẽ đƣợc mô tả cụ thể trong phần 3.2.4.

15http://biotext.berkeley.edu/software.html

83

Thành phần học máy gán nhãn chuỗi là thành phần sử dụng các kỹ thuật

học máy nhƣ CRF hay Entropy cực đại để huấn luyện các vector đặc trƣng đã đƣợc sinh ra từ bƣớc 2. Trong phần thực nghiệm luận án sẽ chỉ ra hiệu quả của từng phƣơng pháp cụ thể qua đấy lựa chọn ra một phƣơng pháp học máy tốt nhất cho hệ thống thực tế.

Thành phần giải mã và gán nhãn cho câu đầu vào là thành phần đƣợc sử

dụng trong quá trình kiểm thử hay nhận dạng dữ liệu thực tế. Trong thành phần này hệ thống sẽ sử dụng mơ hình đƣợc huấn luyện ở bƣớc 3 cùng một số phƣơng pháp giải mã nhƣ Viterbi hay tìm kiếm chùm (Beam search) để tìm ra đƣợc các nhãn tối ƣu cho các từ vựng (token).

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng (Trang 79 - 85)

Tải bản đầy đủ (PDF)

(137 trang)