Mô t£ th¸c nghiªm: mˆc ích cıa th¸c nghiªm này ánh giá tính chính xác cıa thành ph¶n trích chÂn s¸ kiªn ˜Òc n∏u trong mˆc 4.4.
Phát bi∫u th¸c nghiªm
• ¶u vào: mÎt bài báo ch˘a s¸kiªn d‡ch bªnh.
• ¶u ra: thông tin v∑ s¸ kiªn d‡ch bªnh gÁm tên bªnh, thÌi gian và ‡a i∫m bùng phát d‡ch bªnh.
CH◊ÃNG 4. TH‹C NGHIõM VÀ ÁNH GIÁ KòT QUÉ 36
cıa quá trình phát hiªn s¸kiªn.
Do mÎt s¸ kiªn E ˜Òc ‡nh nghæa là mÎt bÎ gÁm tên bªnh, thÌi gian, và ‡a i∫m bùng phát d‡ch bªnh nh˜ trong công th˘c (3.1), nh˜ v™y mÎt s¸ kiªn úng nên ch˘a ¶y ıba thành ph¶n trên. Khi y∏u tËthÌi gian cıa s¸kiªn không ˜Òc
∑ c™p rõ ràng, tác gi£ s˚ dˆng ngày xußt b£n bài báo nh˜ là thÌi gian cıa s¸
kiªn. Trong các tr˜Ìng hÒp khác, n∏u mÎt s¸ kiªn không bao gÁm tên bªnh ho∞c
‡a i∫m bùng phát thì nó ˜Òc xem là mÎt s¸ kiªn sai.
∫ ánh giá Î chính xác cıa quá trình trích chÂn, tác gi£ ti∏n hành hai thí nghiªm có tên là thí nghiªm c và thí nghiªm d. Thí nghiªm th˘ nhßt chø s˚ dˆng lu™t trong khi ó thí nghiªm th˘ hai k∏t hÒp lu™t và hÂc máy (NER).
Tác gi£ s˚ dˆng ba Î o là Î chính xác (Precision - P), Î hÁi t˜ng (Recall - R), và Î o F (F-score) ∫ so sánh kh£n´ng trích chÂn cıa hai thí nghiªm. Các
Î o này ˜Òc bi∫u diπn trong công th˘c (4.2), (4.3), và (4.4).
Î chính xác (P)= sË s¸ kiªn úng
sË s¸ kiªn úng + sË s¸ kiªn sai (4.2)
vÓi:
• sË s¸ kiªn úng là sË s¸ kiªn ˜Òc mô hình trích chÂn chính xác. • sË s¸ kiªn sai là sË s¸ kiªn ˜Òc mô hình trích chÂn sai.
Î hÁi t˜ng (R)= sË s¸ kiªn úng sË s¸ kiªn úng +sË s¸ kiªn không ˜Òc tìm thßy (4.3) vÓi: • sË s¸ kiªn úng là sË s¸ kiªn ˜Òc mô hình trích chÂn chính xác. • sË s¸ kiªn không ˜Òc tìm thßy là sË s¸ kiªn mà thành ph¶n trích chÂn không tìm thßy. F1 = 2⇥P ⇥R (P +R) (4.4) D¸a trên công th˘c (4.2), (4.3), và (4.4), tác gi£ so sánh kh£ n´ng trích chÂn cıa Thí nghiªm c và Thí nghiªm d. K∏t qu£ so sánh ˜Òc minh ho§ trong b£ng 4.7, trong ó hàng th˘ hai minh ho§ k∏t qu£ cıa Thí nghiªm c và hàng th˘ ba minh ho§ k∏t qu£ trong Thí nghiªm d.
B£ng 4.7: So sánh Î chính xác quá trình trích chÂn gi˙a Thí nghiªm c andThí nghiªm d
Tên thí nghiªm SËs¸kiªn úng SËs¸kiªn sai P (%) R (%) F1 Thí nghiªm c 127 25 83.55 92.02 87.58
Thí nghiªm d 136 16 89.47 94.44 91.89
Trong Thí nghiªm c, Î o F kho£ng ⇡87.58% trong khi nó là ⇡91.89% trong
˜Òc c£i thiªn⇡4.31% so vÓi thí nghiªm th˘ nhßt. Nguyên nhân cıa s¸ khác biªt này s≥ ˜Òc trình bày trong ph¶n ti∏p theo cıa lu™n v´n.