1.4.Nhận dạngthực thể trong dữliệu văn bả ny sinh tiếng Anh và một số nghiên cứu liên quan
1.4.1. Những thách thức đối với xử lý dữliệ uy sinh
Khai phá văn bản y sinh nói chung và nhận dạng thực thể y sinh nói riêng có nhiều điểm khác biệt so với lĩnh vực nghiên cứu này cho dữ liệu thông thƣờng. Nhận xét này thể hiện ở hai điểm: Thứ nhất, do mục tiêu cụ thể của các hệ thống khai phá văn bản y sinh, bên cạnh những đối tƣợng kinh điển nhƣ ngƣời, tổ chức, địa điểm, v.v.. hệ thống khai phá văn bản y sinh thƣờng hƣớng tới một số đối tƣợng khác biệt hơn so với dữ liệu thơng thƣờng địi hỏi phải có những mơ hình nhận dạng thực thể chuyên biệt cho từng hệ thống, ví dụ nhƣ hệ thống liên quan đến các bệnh di truyền đòi hỏi nhận diện các loại thực thể liên quan đến gene, protein, bệnh di truyền, thuốc, triệu chứng…, trong khi các hệ thống giám sát bệnh truyền nhiệm lại yêu cầu nhận dạng các loại thực thể nhƣ bệnh di truyền, số bệnh nhân, nguyên nhân... Thứ hai, là ở tính đặc thù của các từ chuyên ngành trong lĩnh vực y sinh, các từ chuyên ngành này thƣờng không tuân theo những quy luật từ vựng và ngữ nghĩa thông thƣờng. Các khảo sát gần đây [ZDY07, ZD09] trong lĩnh vực này cho thấy các công cụ để khai phá văn bản và dữ liệu mở thông thƣờng không phù hợp cho miền dữ liệu y sinh chính bởi tính chun ngành cao của nó. Chính vì lý do này,các nghiên cứu trong lĩnh vực y sinh thƣờng đòi hỏi sự hỗ trợ mang tính kinh nghiệm của các chuyên gia (các nhà sinh vật học và bác sĩ) trong việc xác định và hỗ trợ giải quyết các nhiệm vụ. Cohen và Hunter [CH08] cho rằng phƣơng pháp tiếp cận hiệu quả nhất đối với khai phá văn bản y sinh là sự kết hợp giữa các tri thức từ chuyên gia và các kỹ thuật tính tốn.
Phần dƣới đây tóm tắt một số khó khăn chung của nhận dạng thực thể trong lĩnh vực y sinh đƣợc Lin và cộng sự (2004) nêu ra [LTC04].
Nhiều thực thể chứa các từ viết tắt, chữ cái Hy Lạp, các dấu câu (nhƣ dấu gạch nối), v.v.. Cho đến nay chƣa có một bộ danh pháp hay tiêu chuẩn đặt tên chính thức nào cho thực thể biểu hiện.
30
Rất khó xác định chính xác biên của thực thể biểu hiện, một thực thể biểu hiện khơng những có thể rất dài mà cịn có thể chứa cả liên từ, từ phủ định, bổ từ, v.v..
Vì thực thể biểu hiện có thể chứa thực thể khác trong nó, vì vậy tồn tại nhiều nhập nhằng giữa thực thể biểu hiện và các thực thể khác (nhƣ bệnh, gene và sản phẩm của gene, bộ phận cơ thể).
1.4.2. Động cơ nghiên cứu
Hiện nay, số lƣợng các văn bản y tế và sinh học dƣới dạng điện tử trên Internet cũng nhƣ đƣợc lƣu trữ trong các hệ thống y tế đang tăng với tốc độ chóng mặt. Việc khai thác hiệu quả nguồn tài nguyên này có thể đƣa tới nguồn tri thức hữu ích cho ngƣời dùng nhƣ phát hiện bệnh dịch sớm, tổng hợp các kinh nghiệm phòng và chữa bệnh, nghiên cứu các cơ chế di truyền, tuyên truyền và nâng cao sức khỏe cộng đồng, v.v.. Vấn đề này càng cần phải đƣợc quan tâm thích đáng khi con ngƣời đang phải đối mặt với nhiều dịch bệnh truyền nhiễm mới đang phát triển và có chiều hƣớng gia tăng trong thời gian gần đây nhƣ cúm A H1N1, H5N1, Ebola, MERS- CoV v.v.. Những nghiên cứu liên quan đến xử lý ngôn ngữ tự nhiên cho văn bản y sinh (Biomedical Natural Language Processing; BioNLP) đã mang đến nhiều lợi ích cho việc khai thác nguồn dữ liệu y sinh, có thể kể đến những cơ sở dữ liệu hay ontology y sinh đƣợc xây dựng tự động hỗ trợ cho những nhà nghiên cứu sinh, bác sĩ hay những hệ thống theo dõi thông tin về diễn biến dịch bệnh truyền nhiễm đang phát triển trên thế giới.
Trong những hệ thống đấy, nhận dạng thực thể y sinh là một thành phần quan trọng trong q trình phân tích và tổng hợp thơng tin từ văn bản y sinh. Đây là một bài tốn khó vì mỗi một loại thực thể y sinh lại bao hàm nhiều tính chất đặc thù khác nhau về ngơn ngữ và y sinh địi hỏi ngƣời nghiên cứu cần phải có sự kết hợp kiến thức cả xử lý ngôn ngữ tự nhiên và kiến thức y sinh mới có thể đƣa ra một phƣơng pháp hay mơ hình nhận dạng thực thể hiệu quả.
31
1.4.3. Các nghiên cứu liên quan
Các hƣớng nghiên cứu đối với nhận dạng thực thể y sinh thay vì tập trung vào việc đề xuất các phƣơng pháp mới có hiệu quả tốt hơn thì tập trung vào việc giải quyết nhận dạng các loại thực thể y sinh khác nhau với các đặc trƣng riêng cho từng miền dữ liệu riêng biệt. Hầu hết các nghiên cứu về nhận dạng thực thể y sinh đều tập trung vào một số loại thực thể đƣợc đƣa ra thông qua một số nhiệm vụ cộng đồng đƣợc công bố tại chuỗi hội nghị hay hội thảo lớn về xử lý ngôn ngữ tự nhiên cho văn bản y sinh (chẳng hạn, BioNLP). Theo thống kê dựa trên kết quả nghiên cứu của Huang và Lu (2015) [HL15] có khoảng 14 nhiệm vụ cộng đồng về nhận dạng thực thể y sinh trong giai đoạn 2002-2014 thuộc các chuỗi hội nghị, hội thảo lớn về BioNLP nhƣ BioCreAtivE [WAC12], BioNLP [NBK13], i2b2 [USS10], JNLPBA [KOT04], và LLL [NE05],… (xem Hình 1.2).
Hình 1.2. Các nhiệm vụ về xử lý ngơn ngữ tự nhiên cho văn bản y sinh trong giai đoạn 2002-2014 [HL15]
Các nhiệm vụ này tập trung vào bốn nhóm thực thể chính là gene, hóa chất, thuốc và bệnh, trong từng nhóm lại có các loại thực thể khác ở mức độ cụ thể hơn nhƣ nhóm gene có thêm protein, tế bào, gene, nhóm bệnh có thể chia nhỏ theo các
32
loại bệnh (ung thƣ, bệnh liên quan đến tim, bệnh tự miễn dịch),… Bên cạnh các thực thể phổ biến đƣợc nêu ra tại các nhiệm vụ, một số loại thực thể cũng nhận đƣợc nhiều sự quan tâm và đƣa vào bài toán nhận dạng thực thể nhƣ thực thể biểu hiện, dấu hiệu và triệu chứng (sign and symptom), sinh vật (organism, species),…
Về mặt phƣơng pháp, các nghiên cứu nhận dạng thực thể y sinh cũng sử dụng các phƣơng pháp nhận dạng thực thể truyền thống và kết hợp thêm các đặc trƣng hay tri thức liên quan đến miền dữ liệu y sinh. Có thể chia các hƣớng tiếp cận về nhận dạng thực thể y sinh theo 3 nhóm: nhóm phƣơng pháp sử dụng luật và mẫu ngữ nghĩa cấu thành thực thể y sinh, nhóm phƣơng pháp sử dụng học máy thống kê, nhóm phƣơng pháp kết hợp các mơ hình nhận dạng (ensemble models methods).
a. Phương pháp sử dụng các luật và mẫu ngữ nghĩa cấu thành thực thể y
sinh
Các phƣơng pháp trong nhóm này thƣờng dựa trên các đặc điểm chính tả và từ vựng để nhận diện thực thể, các loại thực thể có thể nhận dạng tốt là protein [FTT98] và tên hóa chất [NRV03]. Những phƣơng pháp đơn giản này có thể đƣợc cải tiến bằng cách bổ sung thông tin ngữ cảnh đang xem xét [HC03] và kết quả của phân tích cú pháp để xác định biên thực thể [FEO02]. Một số hƣớng nghiên cứu mới hơn sử dụng các ontology để sinh các mẫu tổng quát cho một loại thực thể, nhƣ các nghiên cứu sử dụng mơ hình EQ (Entity-Quality model) để nhận dạng thực thể biểu hiệncủa Collier và cộng sự (2013) [COG13] hay Groza và cộng sự (2013) [GHZ13]. Tuy nhiên, trong khi phƣơng pháp tiếp cận dựa trên luật thƣờng đạt đƣợc hiệu suất tốt hơn so với phƣơng pháp tiếp cận dựa trên từ điển, thì việc tạo ra các luật một cách thủ cơng là q trình tốn nhiều thời gian, bên cạnh đấyviệc sinh các luật ln rất cụ thể nhằm mục đích đạt đƣợc độ chính xác cao nên chúng rất khó đƣợc sử dụng để mở rộng đến các lớp thực thể khác.
b. Phương pháp sử dụng kỹ thuật học máy thống kê
Theo xu hƣớng chung của các nghiên cứu về nhận dạng thực thể, cácphƣơng pháp học máy là nhóm đƣợc sử dụng phổ biến và đạt hiệu quả tốt trên nhiều loại
33
thực thể y sinh khác nhau. Hầu hết các phƣơng pháp học máy thống kê đƣợc sử dụng thuộc về dạng học có giám sát tuy nhiên cũng có một số nghiên cứu sử dụng một số kỹ thuật nhƣ bootstrapping hay các kỹ thuật bán giám sát khác [MHC04, UCO11]. Các phƣơng pháp học giám sát đƣợc sử dụng cho NER có thể đƣợc phân thành hai nhóm: phƣơng pháp tiếp cận dựa trên phân lớp và phƣơng pháp tiếp cận dựa trên chuỗi.
Cách tiếp cận dựa trên phân lớp chuyển đổi nhiệm vụ NER thành một vấn đề phân lớp, có thể đƣợc áp dụng cho các từ riêng lẻ hoặc nhóm từ. Các bộ phân lớp thƣờng đƣợc sử dụng cho NER y sinh bao gồm bộ phân lớp sử dụng Naive Bayes [NCT99] và bộ phân lớp sử dụng máy vector hỗ trợ (Support Vector Machine, SVM) [MFM05, TC05]. Một cách tiếp cận phổ biến để phân lớp các cụm là tuân theo lƣợc đồ gán nhãn BIO [RM95], trong đó một từ vựng (token) riêng lẻ đƣợc phân lớp thành bắt đầu (B) một thực thể, nằm trong biên (I) một thực thể hay nằm ngoài (O) biên của thực thể. Hiệu suất của cách tiếp cận dựa trên phân lớp phụ thuộc rất nhiều vào sự lựa chọn các đặc trƣng đƣợc sử dụng để huấn luyện, và nhiều tác giả đã nghiên cứu các cách kết hợp đặc trƣng khác nhau. Ví dụ, nhóm nghiên cứu của Mitsumori [MFM05], xem xét các đặc tính hình thái-cú pháp của các thực thể định danh, Takeuchi và Collier [TC05] xem xét các đặc trƣng chính tả và các danh từ chính.
Không giống nhƣ các phƣơng pháp tiếp cận dựa trên phân lớp, hệ thống NER
dựa trên gán nhãn chuỗi xem xét việc gán một chuỗi các từ hồn chỉnh thay vì
từng từ riêng hoặc cụm từlẻ. Chúng đƣợc huấn luyện với các tập dữ liệu đƣợc gán nhãn nhằm mục đích dự đốn chuỗi các nhãn có khả năng nhất cho một chuỗi quan sát. Những kỹ thuật thƣờng đƣợc sử dụng cho NER y sinh là mơ hình Markov ẩn (Hidden Markov Model, HMM) [KCO05], phƣơng pháp dựa trên mơ hình Markov entropy cực đại (Maximum Entropy Markov Model, MEMM) [SSM09] hay trƣờng ngẫu nhiên có điều kiện (Conditional Random Fields, CRF) [OMT06]. Cũng giống nhƣ các phƣơng pháp thống kê khác, phƣơng pháp tiếp cận dựa trên chuỗi có thể
34
đƣợc huấn luyện dựa rên một loạt các đặc trƣng bao gồm các đặc trƣng chính tả, thơng tin tiền tố và hậu tố, và từ loại [KCO05].
c. Phương pháp lai ghép các mơ hình(ensemble models methods)
Nhóm phƣơng pháp lai ghép các mơ hìnhnhận dạng với cách tiếp cận khơng chỉ sử dụng một phƣơng pháp duy nhất để thực hiện NER y sinh mà thay vào đó là dựa vào nhiều kỹ thuật và các nguồn tài nguyên khác nhau. Những cách tiếp cận kết hợp thƣờng khá thành công trong việc ghép các phƣơng pháp tiếp cận dựa trên từ điển hoặc dựa trên luật với các phƣơng pháp học máy thống kê. Một bằng chứng về những ƣu điểm của phƣơng pháp tiếp cận lai là nghiên cứu của Abacha và cộng sự [AZ11b] so sánh hiệu quả của các phƣơng pháp tiếp cận dựa trên luật và thống kê phổ biến cho NER y tế và kết luận rằng phƣơng pháp kết hợp sử dụng học máy và tri thức miền có kết quả tốt hơn. Có rất nhiều hệ thống NER y sinh lai. Ví dụ, Sasaki và cộng sự [STM08] sử dụng một phƣơng pháp tiếp cận dựa trên từ điển để xác định tên protein song song với gán nhãn từ loại. Sau đó, họ sử dụng một phƣơng pháp tiếp cận dựa trên CRF để giảm các kết quả sai, thiếu trong chuỗi kết quả đƣợc dán nhãn. Một phƣơng pháp khác tạo ra một bộ siêu học máy (metalearners) từ nhiều phƣơng pháp thống kê. Ví dụ, Zhou và cộng sự [ZSZ05] xây dựng bộ nhận dạng thực thểtừ việc lai ghép hai mơ hình HMMs đƣợc đào tạo với các dữ liệu khác nhau và đầu ra của chúng đƣợc kết hợp sử dụng SVM để nhận dạng protein và gen. Tƣơng tự nhƣ vậy, Mika và Rost [MR04] tạo một bộ đa học máy để nhận dạng tên protein từ ba mơ hình SVM huấn luyện trên các tập dữ liệu và đặc trƣng khác nhau, đầu ra của chúng đƣợc kết hợp bằng mơ hình SVM thứ tƣ. Cuối cùng Cai và Cheng [CC09] trình bày một cách tiếp cận cho NER y sinh sử dụng ba bộ phân lớp khác nhau để nâng cao khả năng tổng quát của hệ thống.