Ánh gía quá trình trích chÂn s¸ kiªn

Một phần của tài liệu Trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến (Trang 46)

Mô t£ th¸c nghiªm: mˆc ích cıa th¸c nghiªm này ánh giá tính chính xác cıa thành ph¶n trích chÂn s¸ kiªn ˜Òc n∏u trong mˆc 4.4.

Phát bi∫u th¸c nghiªm

• ¶u vào: mÎt bài báo ch˘a s¸kiªn d‡ch bªnh.

• ¶u ra: thông tin v∑ s¸ kiªn d‡ch bªnh gÁm tên bªnh, thÌi gian và ‡a i∫m bùng phát d‡ch bªnh.

CH◊ÃNG 4. TH‹C NGHIõM VÀ ÁNH GIÁ KòT QUÉ 36

cıa quá trình phát hiªn s¸kiªn.

Do mÎt s¸ kiªn E ˜Òc ‡nh nghæa là mÎt bÎ gÁm tên bªnh, thÌi gian, và ‡a i∫m bùng phát d‡ch bªnh nh˜ trong công th˘c (3.1), nh˜ v™y mÎt s¸ kiªn úng nên ch˘a ¶y ıba thành ph¶n trên. Khi y∏u tËthÌi gian cıa s¸kiªn không ˜Òc

∑ c™p rõ ràng, tác gi£ s˚ dˆng ngày xußt b£n bài báo nh˜ là thÌi gian cıa s¸

kiªn. Trong các tr˜Ìng hÒp khác, n∏u mÎt s¸ kiªn không bao gÁm tên bªnh ho∞c

‡a i∫m bùng phát thì nó ˜Òc xem là mÎt s¸ kiªn sai.

∫ ánh giá Î chính xác cıa quá trình trích chÂn, tác gi£ ti∏n hành hai thí nghiªm có tên là thí nghiªm c và thí nghiªm d. Thí nghiªm th˘ nhßt chø s˚ dˆng lu™t trong khi ó thí nghiªm th˘ hai k∏t hÒp lu™t và hÂc máy (NER).

Tác gi£ s˚ dˆng ba Î o là Î chính xác (Precision - P), Î hÁi t˜ng (Recall - R), và Î o F (F-score) ∫ so sánh kh£n´ng trích chÂn cıa hai thí nghiªm. Các

Î o này ˜Òc bi∫u diπn trong công th˘c (4.2), (4.3), và (4.4).

Î chính xác (P)= sË s¸ kiªn úng

sË s¸ kiªn úng + sË s¸ kiªn sai (4.2)

vÓi:

• sË s¸ kiªn úng là sË s¸ kiªn ˜Òc mô hình trích chÂn chính xác. • sË s¸ kiªn sai là sË s¸ kiªn ˜Òc mô hình trích chÂn sai.

Î hÁi t˜ng (R)= sË s¸ kiªn úng sË s¸ kiªn úng +sË s¸ kiªn không ˜Òc tìm thßy (4.3) vÓi: • sË s¸ kiªn úng là sË s¸ kiªn ˜Òc mô hình trích chÂn chính xác. • sË s¸ kiªn không ˜Òc tìm thßy là sË s¸ kiªn mà thành ph¶n trích chÂn không tìm thßy. F1 = 2⇥P ⇥R (P +R) (4.4) D¸a trên công th˘c (4.2), (4.3), và (4.4), tác gi£ so sánh kh£ n´ng trích chÂn cıa Thí nghiªm c và Thí nghiªm d. K∏t qu£ so sánh ˜Òc minh ho§ trong b£ng 4.7, trong ó hàng th˘ hai minh ho§ k∏t qu£ cıa Thí nghiªm c và hàng th˘ ba minh ho§ k∏t qu£ trong Thí nghiªm d.

B£ng 4.7: So sánh Î chính xác quá trình trích chÂn gi˙a Thí nghiªm c andThí nghiªm d

Tên thí nghiªm SËs¸kiªn úng SËs¸kiªn sai P (%) R (%) F1 Thí nghiªm c 127 25 83.55 92.02 87.58

Thí nghiªm d 136 16 89.47 94.44 91.89

Trong Thí nghiªm c, Î o F kho£ng ⇡87.58% trong khi nó là ⇡91.89% trong

˜Òc c£i thiªn⇡4.31% so vÓi thí nghiªm th˘ nhßt. Nguyên nhân cıa s¸ khác biªt này s≥ ˜Òc trình bày trong ph¶n ti∏p theo cıa lu™n v´n.

Một phần của tài liệu Trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến (Trang 46)