Chƣơng 3– NHẬN DẠNGTHỰC THỂ BIỂU HIỆNTRONG VĂN BẢN Y SINH TIẾNG ANH
3.3.3. Thực nghiệm 3: đánh giá đóng góp của từng tài nguyên đối với kết quả nhận diện thực thể
nhận diện thực thể
Để đƣa ra một cái nhìn khách quan và tổng thể về sự đóng góp của các tài nguyên đối với hiệu quả của hệ thống nhận dạng thực thể, nghiên cứu sinh thực hiện việc đánh giá từng tài nguyên bằng chiến thuật loại bỏ các đặc trƣng liên quan đến từng loại từ điển để xem hiệu quả thay đổi thế nào. Kết quả tính tốn sẽ đƣợc thể hiện dựa trên cả hai loại đối sánh mẫu kết quả là: đối sánh một phần và đối sánh chặt. Trong các thực nghiệm này, phƣơng pháp MEM+BS, tập dữ liệu Phenominer A và độ đo trung bình vi mơ F1 (micro average F1) sẽ đƣợc sử dụng để quyết định kết quả. Các kết quả đƣợc trình bày trong Bảng 3.6, trong đó mỗi hàng ngang biểu diễn kết quả khi loại bỏ một tài nguyên khỏi hệ thống (đƣợc ký hiệu bằng dấu “─‖ tại ô tƣơng ứng).
Bảng 3.6. Kết quả đánh giá tài ngun của mơ hình nhận dạng thực thể (Các kết quả dựa trên đối sánh một phần).
J U H M G L F P C B PH OR AN GG CD DS ALL ─ + + + + + + + + + 73,7 75,6 76,2 63,8 78,9 74,2 67,8 + ─ + + + + + + + + 68,3 72,1 76,8 79,4 78,7 61,4 69,9 + + ─ + + + + + + + 61,8 74,0 77,1 80,9 80,4 73,6 69,8 + + + ─ + + + + + + 54,4 75,2 75,6 81,6 80,4 73,2 70 + + + + ─ + + + + + 74,6 75,4 77,1 79,7 80,4 74,3 76,5 + + + + + ─ + + + + 73,2 49,9 76,7 82 79,3 73,8 75,4 + + + + + + ─ + + + 74,9 75,4 59,0 82 80,4 74,3 75
94
+ + + + + + + ─ + + 74,7 75,4 77,1 82 80,4 74,3 76,1 + + + + + + + + ─ + 74,9 75,4 77,1 82 41,6 74,3 73,2 + + + + + + + + + ─ 74,9 75,4 76,0 82 80,4 74,3 76,3 + + + + + + + + + + 74,9 75,4 77,1 82 80,4 74,3 77,3
Các tài nguyên được viết tắt bằng ký hiệu như sau J: JNLPBA và Genia tagger, U: UMLS và MetaMap, H: Human Phenotype Ontology, M: Mammalian Phenotype Ontology, G: Gene Dictionary của NCBI, L: Linnaeus, F: Foundation Model of Anatomy, P: Phenotypic Trait Ontology, C: từ điển Jochem, B: Brenda Tissue Ontology.
Cột ALL đưa ra kết quả của toàn hệ thống sử dụng micro average F1
Kết quả thu đƣợc cho thấy rằng tất cả các tài nguyên đều có tác dụng nâng cao kết quả của hệ thống, tuy nhiên sự đóng góp của chúng là khác nhau. Một số tài nguyên giúp cải thiện kết quả rất nhiều, một số lại chỉ góp một phần rất nhỏ; một vài tài nguyên chỉ có ảnh hƣởng đến một loại thực thể duy nhất, nhƣng lại có những tài nguyên mà sự xuất hiện của nó nâng cao kết quả khi nhận dạng một loạt thực thể. Một số thay đổi rõ rệt về mặt kết quả đƣợc in đậm trong Bảng 3.6, ví dụ dữ liệu JNLPBA đem lại kết quả tốt hơn nhiều cho GG (82,0 so sánh với 63,8), HPO và MP giúp tăng kết quả nhận dạng PH lần lƣợt từ 61,8 và 54,4 lên 74,9.
3.3.4. Thực nghiệm 4: ứng dụng mơ hình đề xuất đểnhận dạng thực thể y sinh trong cuộc thi BioCreAtIvE V CDR Task