Chƣơng 3– NHẬN DẠNGTHỰC THỂ BIỂU HIỆNTRONG VĂN BẢN Y SINH TIẾNG ANH
3.3.2. Thực nghiệm 2: so sánh kết quả của mơ hình đề xuất với một số nghiên cứu liên quan
cứu liên quan
Để thu đƣợc một đánh giá khách quan phƣơng pháp đƣợc đề xuất, luận án thiết kế một số thực nghiệm để so sánh kết quả giữa hệ thống mà luận án xây dựng với một số nghiên cứu liên quan khác.
Mục tiêu của bài toán là tập trung vào nhận dạngthực thể biểu hiện, mặc dù có khá nhiều nghiên cứu liên quan đến nhận dang thực thể biểu hiện nhƣ nghiên cứu của Khordad và cộng sự [KMR11], Groza và cộng sự [GZH12], Groza và cộng sự [GKD15], Collier và cộng sự [COG15], tuy nhiên hầu hết các nghiên cứu đều tập trung vào việc sử dụng các tập luật nhận dạng đƣợc xây dựng từ các tri thức miền có sẵn nhƣ HPO, MP. Các phƣơng án sử dụng tập luật thƣờng phụ thuộc nhiều vào các tri thức miền có sẵn và yếu trong các tính huống phát hiện thực thể mới không liên quan. Bên cạnh đấy việc so sánh với các phƣơng pháp phụ thuộc tập luật dựa trên tri thức miền thƣờng khá hẹp không phủ đầy đủ toàn bộ miền dữ liệu thực thể biểu hiện cần xem xét nhƣ hình 3.3.
Luận án hƣớng tới việc sử dụng kỹ thuật học máy để khắc phục các hạn chế của phƣơng pháp dựa trên luật, chính vì vậy nghiên cứu của Khordad và cộng sự [KMR11]đƣợc sử dụng để làm phƣơng pháp so sánh với mơ hình đƣợc đề xuất.Đây là nghiên cứu đầu tiên thực hiện bài toán nhận dạng thực thể biểu hiện trong văn bản y sinh học bằng kỹ thuật nhận dạng chuỗi tự động.Đối với nghiên cứu này, hai yếu tố đƣợc quan tâm là phƣơng pháp và dữ liệu. Do mã nguồn của nghiên cứu này khơng đƣợc cơng khai, nghiên cứu sinh đã lập trình lại hệ thống theo mô tả trong [KMR11] và cho kết quả kiểm thử trên tập dữ liệu KMR không sai lệch nhiều so với kết quả mà Khordad và cộng sự đã công bố. Các thực nghiệm sẽ đƣợc tiến hành lần lƣợt bằng hai phƣơng pháp trên dữ liệu KMR và Phenominer A để đánh giá kết quả.
Ngoài ra, để kiểm định chất lƣợng của hệ thống đối với các thực thể khác (cụ thể ở đây luận án lựa chọn thực thể y sinh phổ biến nhất và có liên quan chặt chẽ tới biểu hiện là GG), công cụ GENIA Tagger [TTK05] đƣợc lựa chọn để gán nhãn thực
91
thể GG trong hai tập dữ liệu Phenominer. GENIA tagger là một công cụ nhận dạng thực thể GG tiên tiến đƣợc đánh giá tƣơng đối tốt trong cộng đồng nghiên cứu, nó đƣợc huấn luyện sử dụng bộ dữ liệu JNLPBA 2004 với hiệu quả cho 5 loại thực thể Protein, DNA, RNA, Cell line và Cell type là 71,37. Do chỉ so sánh trong việc nhận dạng thực thể GG nên nghiên cứu sinh ghép 3 kết quả của thực thể Protein, DNA và RNA từ Genia Tagger thành nhãn thực thể GG để so sánh. Cùng với GENIA Tagger, công cụ Lineaus [GNB10] cũng đƣợc sử dụng để so sánh kết quả nhận dạng thực thể về loài (OR).
Bên cạnh các nghiên cứu trên, luận án cũng đƣa ra các kết quả so sánh nhận dạng thực thể bằng kỹ thuật đối sánh từ điển sử dụng tri thức miền từ các ontology liên quan với các thực thể. Kỹ thuật đối sánh từ điển đƣợc sử dụng trong trƣờng hợp này là đối sánh dài nhất (longest matching), đây là phƣơng pháp thƣờng đƣợc sử dụng trong việc nhận dạng thực thể bằng từ điển. Có 5 bộ nhận dạng bằng từ điển sử dụng các tài nguyên trong mục 3.2.4 đƣợc mô tả nhƣ sau:
- Bộ nhận dạng GG sử dụng từ điển về Gene do NCBI cung cấp.
- Bộ nhận dạng PH sử dụng danh sách thuật ngữ từ ontology HPO và MP. - Bộ nhận dạng CD sử dụng danh sách thuật ngữ từ ontology Jochem. - Bộ nhận dạng AN sử dụng danh sách thuật ngữ từ ontology FMA. - Bộ nhận dạng DS sử dụng danh sách thuật ngữ từ cơ sở dữ liệu UMLS.
Kết quả so sánh đƣợc mô tả trong bảng 3.5 dƣới đây:
Bảng 3.5. Thực nghiệm so sánh mơ hình đề xuất và các hệ thống khác
Phenominer A Phenominer B Tập KMR Phƣơng pháp Thực thể P R F P R F P R F Khordad et al. PH 65,89 57,44 61,38 64,28 60,34 62,25 90,74 88,44 89,58 Genia Tagger GG 71,36 75,58 73,41 71,13 72,57 71,84 Lineaus OR 56,81 57,28 57,04 54,81 55,39 55,10 Từ điển PH 51,24 50,91 51,07 57,31 52,71 54,91 87,26 82,35 84,73 Từ điển GG 87,29 60,44 71,42 79,24 62,17 69,67 Từ điển CD 91,49 56,07 69,53 87,24 55,43 67,79 Từ điển AN 83,46 50,13 62,64 84,57 48,77 61,86 Từ điển DS 57,82 34,27 43,03 51,25 31,04 38,66 MEM + BS PH 73,72 76,06 74,87 74,68 78,13 76,37 86,37 84,19 85,27
92 GG 82,49 81,47 81,98 80,63 78,52 79,56 OR 72,80 78,14 75,38 80,17 75,13 77,57 CD 79,59 81,25 80,41 78,55 82,97 80,70 AN 72,43 82,45 77,11 73,45 79,69 76,44 DS 75,77 72,91 74,32 72,16 69,84 70,98 ALL (micro avg-F1) 78,41 78,35 ALL (macro avg-F1) 77,34 76,94
Có thể thấy mơ hình mà luận án đề xuất đem lại kết quả tốt hơn so với bộ gán nhãn GENIA Tagger trên dữ liệu Phenominer. Cụ thể, độ F của mơ hình đề xuất cao hơn khá nhiều so với GENIA tagger (khoảng 8,0 trên cả hai tập dữ liệu Phenominer).Kết quả vƣợt trội này cũng đƣợc thể hiện khi so sánh với công cụ Lineaus trên cả hai tập với 18,34 trên tập Phenominer A và 22,47 trên tập Phenominer B.
Đối với dữ liệu KMR, không ngạc nhiên khi kết quả của mơ hình thấp hơn so với kết quả của phƣơng pháp đƣợc Khordad và cộng sự đề xuấtnăm 2011 [KMR11] vì bản thân phƣơng pháp tham chiếu này đã xây dựng và sử dụng một số luật tƣơng đối chặt dựa trên quá trình khảo sát trực tiếp dữ liệu KMR. Tuy nhiên, kết quả F1 đạt 85,27% đối với một tập dữ liệu hoàn toàn mới của phƣơng pháp lai ghép đã là một kết quả tƣơng đối khả quan.
Đối với dữ liệu Phenominer A và B, phƣơng pháp của Khordad đem lại kết quả không đƣợc tốt với F1 là 61,38 (Phenominer A) và 62,25 (Phenominer B), kém hơn nhiều so với kết quả của mơ hình đề xuất (74,87 trên Phenominer A và 76,37 Phenominer B). Một trong những lý do là vì dữ liệu Phenominer A và Bphức tạp hơn tập ngữ liệu KMR về cả mặt cấu trúc biểu hiện và ngữ cảnh chứa chúng (độ dài trung bình của thực thể PH trong tập ngữ liệu KMR là 1,7 từ vựng với biểu hiện dài nhất chứa 5 từ vựng, trong khi đó độ dài trung bình của thực thể PH trong Phenominer A là 2,9từ vựng và Phenominer B là 3,2, PH dài nhất chứa đến 16 từ vựng).
93
So sánh hiệu quả của mơ hình nhận dạng dựa trên từ điển với mơ hình đề xuất đều khơng cho kết quả khả quan do giá trị độ đo hồi tƣởng thấp mặc dù độ đo chính xác là tƣơng đối tốt trên các thực thể GG, AN, CD (đều đạt trên 80%).Những kết quả trên cho thấy tính đúng đắn của các kỹ thuật đƣợc lựa chọn trong mơ hình đề xuất.