SËbài báo liên quan TÍng sËbài báo Îchính xác (%)
311 486 64
∫ ánh giá hiªu n´ng cıa ch˘c n´ng này, tác gi£ l¸a chÂn ng®u nhiên 486 bài báo t¯t™p d˙liªu ∫ ánh giá Î chính xác b¨ng tay. Îchính xác ˜Òc tính toán b¨ng công th˘c (4.1) và k∏t qu£ ˜Òc trình bày trong b£ng 4.5.
Î chính xác= sË bài báo liên quan
tÍng sË (4.1)
vÓi:
• sË bài báo liên quan là sË bài báo liên quan tÓi mi∑n d˙ liªu d‡ch bªnh. • tÍng sË là tÍng sË bài báo ˜Òc lßy ng®u nhiên.
K∏t qu£ trong b£ng 4.5 cho thßy t lª lÈi cao hay nói cách khác Î chính xác cıa t™p lu™t khá thßp. i∑u này là do sË l˜Òng cách bài báo liên quan tÓi d‡ch bªnh ít trong khi tÍng sË bài báo có sËl˜Òng lÓn (chi ti∏t s≥ ˜Òc bàn lu™n trong ph¶n 4.5. Tác gi£ chßp nh™n t lª lÈi cao ( Î chính xác thßp) ∫ §t Î cân b¨ng cho Î o hÁi t˜ng. Nh˜ v™y, hiªu n´ng chung cıa ch˘c n´ng s≥ ˜Òc c£i thiªn.
4.3.2 ánh giá quá trình phân lÓp
Mô t£ th¸c nghiªm: mˆc ích cıa th¸c nghiªm này ánh giá kh£n´ng phân lÓp cıa ph˜Ïng pháp ∑xußt so vÓi ph˜Ïng pháp chødùng hÂc máy ˜Òc nêu trong mˆc 3.5.
Phát bi∫u th¸c nghiªm
• ¶u vào: mÎt t™p các bài báo ã ˜Òc lÂc.
• ¶u ra: các bài báo ˜Òc gán nhãn EVENT ho∞c NOT_EVENT.
D˙ liªu th¸c nghiªm: d˙ liªu là 686 bài báo sau khi ˜Òc lÂc bi bÎ lÂc d˙
liªu.
Tác gi£ ti∏n hành hai th¸c nghiªm ∫ ánh giá hiªu n´ng cıa bÎ phân lÓp. Th¸c nghiªm th˘ nhßt có tên là Th¸c nghiªm a k∏t hÒp gi˙a lu™t và hÂc máy. Th¸c nghiªm th˘ hai có tên là Th¸c nghiªm b chø s˚ dˆng hÂc máy. Các Î o
˜Òc s˚ dˆng ∫ ánh giá hai bÎ phân lÓp là Î chính xác (Precision - P), Î hÁi t˜ng (Recall - R), và Î o F1 (F1-score) d¸a trên ánh giá chéo 10-fold cross validation.
Trong th¸c nghiªm th˘nhßt, tác gi£l¸a chÂn 686 bài báo t¯t™p d˙liªu ã ˜Òc lÂc và gán nhãn chúng vÓi nhãn là EVENT ho∞c NOT_EVENT. Tác gi£bi∫u diπn
B£ng 4.6: So sánh kh£n´ng phân lÓp gi˙aThí nghiªm a andThí nghiªm b
Thí nghiªm a Thí nghiªm b
Fold Precision (%) Recall (%) Î o F-1 Precision (%) Recall (%) Î o F-1
1 80.56 87.88 84.06 72.22 76.47 74.29 2 72.13 75.86 73.95 73.97 79.41 76.59 3 81.90 84.31 83.09 80.00 83.81 81.86 4 79.73 84.29 81.95 72.92 78.36 75.54 5 73.94 81.88 77.71 75.14 78.98 77.01 6 69.95 73.34 71.60 70.89 76.65 73.66 7 73.58 75.73 74.64 71.76 75.20 73.44 8 71.33 80.24 75.52 70.00 75.51 72.65 9 72.37 76.92 74.58 67.27 80.57 73.32 10 75.26 77.15 76.19 69.37 73.48 71.36 Avg 75.07 79.76 77.33 72.35 77.84 74.97
t™p d˙ liªu này là t™p d˙ liªu cıa thí nghiªm a. Trong thí nghiªm th˘ hai, tác gi£
l¸a chÂn ng®u nhiên 50 bài báo t¯t™p d˙ liªu ban ¶u (t™p d˙liªu này ch˜a ˜Òc i qua bÎ lÂc d˙ liªu) và thêm chúng vào 686 bài báo ban ¶u. Tác gi£ gÂi t™p d˙
liªu này là t™p d˙ liªu cıa thí nghiªm b. Nh˜ v™y, sË bài báo trong thí nghiªm b là 736.
Sau khi chu©n b‡ t™p d˙ liªu hußn luyªn cho hai thí nghiªm, tác gi£so sánh kh£
n´ng phân lÓp cıa hai thí nghiªm này. K∏t qu£ so sánh ˜Òc minh ho§ trong b£ng 4.6, nÏi mà k∏t qu£ cıa thí nghiªm b n¨m trong ba cÎt bên ph£i, trong khi chúng
˜Òc bi∫u diπn ba cÎt bên trái trongthí nghiªm a. K∏t qu£trung bình cıa Î o F-1 trong hai thí nghiªm chø ra r¨ng kh£n´ng phân lÓp cıa bÎphân lÓp trong thí nghiªm a tËt hÏn trong thí nghiªm b ⇡2.36%. S¸ chênh lªch cıa hai bÎ phân lÓp không lÓn do tác gi£chø thêm vào 50 bài báo. K∏t qu£ th¸c nghiªm trong b£ng 4.6 chø ra r¨ng ph˜Ïng pháp k∏t hÒp gi˙a lu™t và hÂc máy §t k∏t qu£ tËt hÏn ph˜Ïng pháp chø s˚ dˆng hÂc máy trong bài toán phát hiªn s¸ kiªn d‡ch bªnh.
4.4 ánh gía quá trình trích chÂn s¸ kiªn
Mô t£ th¸c nghiªm: mˆc ích cıa th¸c nghiªm này ánh giá tính chính xác cıa thành ph¶n trích chÂn s¸ kiªn ˜Òc n∏u trong mˆc 4.4.
Phát bi∫u th¸c nghiªm
• ¶u vào: mÎt bài báo ch˘a s¸kiªn d‡ch bªnh.
• ¶u ra: thông tin v∑ s¸ kiªn d‡ch bªnh gÁm tên bªnh, thÌi gian và ‡a i∫m bùng phát d‡ch bªnh.
CH◊ÃNG 4. TH‹C NGHIõM VÀ ÁNH GIÁ KòT QUÉ 36
cıa quá trình phát hiªn s¸kiªn.
Do mÎt s¸ kiªn E ˜Òc ‡nh nghæa là mÎt bÎ gÁm tên bªnh, thÌi gian, và ‡a i∫m bùng phát d‡ch bªnh nh˜ trong công th˘c (3.1), nh˜ v™y mÎt s¸ kiªn úng nên ch˘a ¶y ıba thành ph¶n trên. Khi y∏u tËthÌi gian cıa s¸kiªn không ˜Òc
∑ c™p rõ ràng, tác gi£ s˚ dˆng ngày xußt b£n bài báo nh˜ là thÌi gian cıa s¸
kiªn. Trong các tr˜Ìng hÒp khác, n∏u mÎt s¸ kiªn không bao gÁm tên bªnh ho∞c
‡a i∫m bùng phát thì nó ˜Òc xem là mÎt s¸ kiªn sai.
∫ ánh giá Î chính xác cıa quá trình trích chÂn, tác gi£ ti∏n hành hai thí nghiªm có tên là thí nghiªm c và thí nghiªm d. Thí nghiªm th˘ nhßt chø s˚ dˆng lu™t trong khi ó thí nghiªm th˘ hai k∏t hÒp lu™t và hÂc máy (NER).
Tác gi£ s˚ dˆng ba Î o là Î chính xác (Precision - P), Î hÁi t˜ng (Recall - R), và Î o F (F-score) ∫ so sánh kh£n´ng trích chÂn cıa hai thí nghiªm. Các
Î o này ˜Òc bi∫u diπn trong công th˘c (4.2), (4.3), và (4.4).
Î chính xác (P)= sË s¸ kiªn úng
sË s¸ kiªn úng + sË s¸ kiªn sai (4.2)
vÓi:
• sË s¸ kiªn úng là sË s¸ kiªn ˜Òc mô hình trích chÂn chính xác. • sË s¸ kiªn sai là sË s¸ kiªn ˜Òc mô hình trích chÂn sai.
Î hÁi t˜ng (R)= sË s¸ kiªn úng sË s¸ kiªn úng +sË s¸ kiªn không ˜Òc tìm thßy (4.3) vÓi: • sË s¸ kiªn úng là sË s¸ kiªn ˜Òc mô hình trích chÂn chính xác. • sË s¸ kiªn không ˜Òc tìm thßy là sË s¸ kiªn mà thành ph¶n trích chÂn không tìm thßy. F1 = 2⇥P ⇥R (P +R) (4.4) D¸a trên công th˘c (4.2), (4.3), và (4.4), tác gi£ so sánh kh£ n´ng trích chÂn cıa Thí nghiªm c và Thí nghiªm d. K∏t qu£ so sánh ˜Òc minh ho§ trong b£ng 4.7, trong ó hàng th˘ hai minh ho§ k∏t qu£ cıa Thí nghiªm c và hàng th˘ ba minh ho§ k∏t qu£ trong Thí nghiªm d.
B£ng 4.7: So sánh Î chính xác quá trình trích chÂn gi˙a Thí nghiªm c andThí nghiªm d
Tên thí nghiªm SËs¸kiªn úng SËs¸kiªn sai P (%) R (%) F1 Thí nghiªm c 127 25 83.55 92.02 87.58
Thí nghiªm d 136 16 89.47 94.44 91.89
Trong Thí nghiªm c, Î o F kho£ng ⇡87.58% trong khi nó là ⇡91.89% trong
˜Òc c£i thiªn⇡4.31% so vÓi thí nghiªm th˘ nhßt. Nguyên nhân cıa s¸ khác biªt này s≥ ˜Òc trình bày trong ph¶n ti∏p theo cıa lu™n v´n.
4.5 Phân tích lÈi và bàn lu™n
4.5.1 Phân tích lÈi bÎ lÂc d˙ liªu
Trong quá trình phát hiªn s¸ kiªn, k∏t qu£trong b£ng 4.5 chø ra r¨ng bÎlÂc d˙
liªu ho§t Îng không tËt trong mÎt sË tr˜Ìng hÒp. ∫ tìm ra nguyên nhân t lª lÈi cao (36%), tác gi£ ki∫m tra thı công các bài báo ˜Òc l¸a trÂng trong mˆc 4.3.1. K∏t qu£phân tích chøra r¨ng trong các tr˜Ìng hÒp bÎlÂc d˙liªu ho§t Îng không tËt, mÎt vài lu™t trong M®u 1 (3.2) và M®u 2 (3.3) không phı h∏t các tr˜Ìng hÒp cıa d˙ liªu. Nguyên nhân là do các chı ∑ có th∫ có cùng mÎt Îng t¯. Ví dˆ,
Îng t¯ t˚ vong có th∫ thuÎc chı ∑ d‡ch bªnh ho∞c ch˙a bªnh. N∏u Îng t¯ này xußt hiªn trong mÎt bài báo, bÎ lÂc d˙liªu s≥ cho r¨ng bài báo thuÎc chı ∑d‡ch bªnh; tuy nhiên, trong th¸c th∏ nó l§i thuÎc chı ∑ ch˙a bªnh nh˜ trong Ví dˆ 7.
Ví dˆ 7: “UËng thuËc h§ sËt sau 30 phút bªnh nhân t˚ vong"
Ví dˆ này ˜Òc phát hiªn bi M®u 1 (3.2) - “bªnh nhân # t˚ vong", tuy nhiên, trong th¸c t∏, nguyên nhân t˚ vong liên quan tÓi viªc ch˙a tr‡ (uËng thuËc) thay vì b‡ nhiπm bªnh. HÏn n˙a, mÎt sË lu™t cıa M®u 2 (3.3) (m®u k∏t hÒp gi˙a mÎt tên bªnh và mÎt Îng t¯) nh¶m l®n gi˙a s¸kiªn d‡ch bªnh và chı ∑ liên quan tÓi bªnh nh˜ trong Ví dˆ 8.
Ví dˆ 8: “Phát hiªn chıng virus mÓi gây bªnh tay chân miªng"
Lu™t cıaM®u 2 (3.3) -“tay chân miªng # phát hiªn" phát hiªn ra s¸kiªn trong ví dˆ trênm; tuy nhiên, ví dˆ trên ∑ c™p tÓi viªc phát hiªn ra mÎt chıng virus mÓi cıa bªnh tay chân miªng ch˘ không ph£i là s¸ bùng phát cıa bªnh tay chân miªng.
4.5.2 Phân tích lÈi quá trình trích chÂn s¸ kiªn
Trong pha trích chÂn s¸ kiªn, k∏t qu£ trong b£ng 4.7 chø ra r¨ng Î chính xác cıa quá trình trích chÂn trong Thí nghiªm d cao hÏn Thí nghiªm c ⇡5.92%. Ban
¶u, tác gi£ khá ng§c nhiên vÓi k∏t qu£so sánh này do Thí nghiªm c s˚dˆng lu™t
∫ trích chÂn thông tin. Thông th˜Ìng, s˚ dˆng lu™t s≥ cho Î chính xác cao.
∫ tìm nguyên nhân lÈi xußt hiªn trong pha trích chÂn, tác gi£ ki∫m tra thı
công các bài báo cho k∏t qu£ không úng trong c£ hai thí nghiªm ( ˜Òc ∑ c™p trong ph¶n 4.4). K∏t qu£ ki∫m tra ˜Òc th∫ hiªn trong b£ng 4.8 và 4.9.
K∏t qu£ thËng kê trong b£ng 4.8 và 4.9 chø ra r¨ng nguyên nhân gây lÈi trong quá trình trích chÂn trong c£hai thí nghiªm xußt phát t¯ quá trình trích chÂn ‡a i∫m, và ôi khi trong quá tình trích chÂn tên bªnh. Trong Thí nghiªm c, tác gi£
CH◊ÃNG 4. TH‹C NGHIõM VÀ ÁNH GIÁ KòT QUÉ 38
B£ng 4.8: LÈi trongThí nghiªm c (15 trên 25 lÈi)
STT Doc ID Mô t£ lÈi
Thông tin úng Thông tin trích chÂn
1 4 Congo NULL
2 7 Th‡ trßn Kon-Plong Ly, tønh Pray
Veng NULL 3 13 Ph˜Ìng 6, Qu™n 8, Ph˜Ìng 14, Thành phËHÁChí Minh Qu™n 5, Qu™n 8, Ph˜Ìng 7, Qu™n Bình Th§nh, Huyªn Hóc Môn 4 17 xóm 1, tr‡ trßn Ngô DÁng, huyªn
Giao Thu , tønh Nam ‡nh
Nam ‡nh
5 24 tay chân miªng bªnh sËt xußt huy∏t
6 26 ph˜Ìng 8, qu™n 5, thành phËHÁChí
Minh
qu™n Long Biên
7 32 ph˜Ìng 7, qu™n 8, thành phË HCM NULL
8 64 bªnh sËt rét bªnh sËt xußt huy∏t
9 65 xóm 3, ph˜Ìng Tran Hung Dao,
thành phËKon Tum
à NÆng
10 79 Hà nÎi NULL
11 89 cúm A/H1N1 viêm phÍi (triªu ch˘ng)
12 92 cúm A/H1N1 bªnh lao
13 96 th‡ trßn Ea T’ling và các xã: Nam
Dông, Tam Th≠ng, D’Dak Rong
NULL
14 105 d‡ch t£ tiêu ch£y cßp
15 108 xã Tam Quan, thành phËTam D£o,
Quan NÎi, Quan Ngo§i, làng Chanh,
làng Màu, và Nhân Ly
B£ng 4.9: LÈi trongThí nghiªm d
STT Doc ID Mô t£ lÈi
Thông tin úng Thông tin trích chÂn
1 16 làng Thanh Long, xã Ph˜Óc Mˇ,
thành phËQuy NhÏn
Bình ‡nh
2 17 huyªn Giao Thıy, Nam ‡nh, cúm
A (H5N1)
Nam ‡nh, cúm
3 21 MπS, V´n Giang, H˜ng Yên H˜ng Yên
4 23 Bà R‡a - VÙng Tàu NULL
5 25 xóm 4, xã Hòa An, huyªn Krong
Pac, Dak Lak
xã Hòa An, huyªn Chiêm Hóa,
Tuyên Quang 6 26 ph˜Ìng 8, qu™n 5, thành phËHÁChí Minh (P.8, Q.5, TP. HCM) NULL 7 32 ph˜Ìng 7, qu™n 8, thành phË HCM (P.7, Q.8, TP. HCM) NULL
8 39 M‰ Cày Nam, M‰ Cày B≠c, GiÁng
Trôm, Th§nh Phú, Châu Thành, Ba
Tri, ChÒLách
B∏n Tre
9 40 ph˜Ìng 6, qu™n 8 (P.6, Q.8) TP. HCM
10 45 H˜ng Yên, Yên ‡nh, Thanh Hóa,
Vænh Phúc, Ba ình, Hà NÎi
Hà NÎi, Vænh Phúc
11 46 Thu™n An, Dæ An, huyªn B∏n Cát,
th‡trßn ThıD¶u MÎt, Bình D˜Ïng
Bình D˜Ïng
12 47 ph˜Ìng Kim Long và H˜Ïng Long,
thành phËHu∏
NULL
13 69 làng Tân An HÎi, huyªn Cı Chi,
thành phËHCM NULL 14 84 ph˜Ìng Thanh Bình, qu™n H£i Châu, thành phË à NÆng, ak Lak ph˜Ìng Thanh Bình, thành phË Ninh Binh,thành phË à NÆng, qu™n H£i Châu 15 106 ph˜Ìng 7, qu™n Tân Bình qu™n 1
16 109 qu™n Hoàng Mai, Hai Bà Tr˜ng,
Thanh Xuân, qu™n Hoàn Ki∏m,
Thanh Trì, Ëng a, Qu£ng Ninh,
B≠c Giang, Nam ‡nh, Thái Bình,
Hà Nam, H˜ng Yên
CH◊ÃNG 4. TH‹C NGHIõM VÀ ÁNH GIÁ KòT QUÉ 40
các tr˜Ìng hÒp. Trong mÎt sËít tr˜Ìng hÒp, n∏u thông tin ‡a i∫m ˜Òc vi∏t t≠t, nh˜v™y các lu™t không th∫ nh™n ra ˜Òc nh˙ng thông tin này nh˜ trong Ví dˆ 9.
Ví dˆ 9: “Phát hiªn mÎt tr˜Ìng hÒp bªnh nhân nhiπm cúm A H5N1 t§i P.7, Q.8, TP. HCM"
Trong ví dˆ này, ph˜Ìng 7, qu™n 8, và thành phË HÁ Chí Minh ˜Òc vi∏t t≠t; do ó, các lu™t không th∫ nh™n ra ˜Òc các thông tin này.
Trong Thí nghiªm d, nguyên nhân chính làm gi£m Î chính xác cıa quá trình trích chÂn là Îchính xác cıa bÎnh™n d§ng th¸c th∫ (NER). Trong mÎt sËtr˜Ìng hÒp, bÎ nh™n d§ng th¸c th∫ không th∫ phát hiªn ra các ‡a i∫m ˜Òc vi∏t t≠t (nh˜trong ví dˆ 9). Trong mÎt sËtr˜Ìng hÒp khác, bÎnh™n d§ng th¸c th∫ b‰qua các thông tin ‡a i∫m ˜Òc ∑ c™p nh˜ các thông tin v∑ tÍ ch˘c nh˜ trong Ví dˆ
10.
Ví dˆ 10: “Ngày 12/03/2012, d‡ch tiêu ch£y cßp ã bùng phát t§i Hà NÎi,
H£i Phòng, Qu£ng Ninh, B∏n Tre, và C¶n ThÏ"
Trong ví dˆ này, Hà NÎi, H£i Phòng, Qu£ng Ninh, B∏n Tre, và C¶n ThÏ ˜Òc nh™n d§ng nh˜ nh˙ng tÍ ch˘c ( ˜Òc gán nhãn <ORG> và </ORG>). Nh˙ng thông tin này s≥ b‡ b‰qua trong quá trình trích chÂn.
Trong c£hai thí nghiªm, mÎt vài tên bªnh sau quá trình trích chÂn không chính xác do chúng không n¨m trong t¯ i∫n tên bªnh. HÏn n˙a, t¯ i∫n tên bªnh ch˘a mÎt sË tên bªnh giËng vÓi các triªu ch˘ng cıa bªnh, nh˜ v™y, s¸ t˜Ïng ˜Ïng này t§o ra s¸ nh¶m l®n trong quá trình trích chÂn tên bªnh. Ví dˆ, trong b£ng 4.8, tên bªnh A H5N1 trong bài báo th˘ 89 ˜Òc phát hiªn nh˜ bªnh viên phÍi (pneumonia) trong khi viêm phÍi là mÎt triªu tr˘ng cıa cúm A/H5N1.
Bên c§nh í, có mÎt sË y∏u tË tác Îng làm gi£m hiªu qu£ cıa quá trình trích chÂn. ¶u tiên, các lÈi so§n th£o cıa các ‡a i∫m trong bài báo làm gi£m Îchính xác cıa quá trình trích chÂn. Ví dˆ, “ ≠k L≠k" ˜Òc vi∏t là “ ≠c L≠c", tuy nhiên
“ ≠c L≠c" không xußt hiªn trong t¯ i∫n ‡a i∫m. Nh˜ v™y, thông tin v∑ ‡a i∫m có th∫ b‡ b‰qua. Th˘hai, n∏u thông tin cıa ‡a i∫m không ˜Òc mô t£mÎt cách rõ ràng nh˜ “các huyªn phía Tây cıa tønh B∏n Tre"; nh˜ v™y, bÎ nh™n d§ng th¸c th∫ không th∫ nh™n d§ng ˜Òc các thông tin này. CuËi cùng, mÎt nguyên nhân quan trÂng khác là s¸nh™p nh¨ng cıa ‡a i∫m. Trong th¸c t∏, mÎt tên ‡a i∫m có th∫ ˜Òc ∞t tên cho nhi∑u ‡a danh. N∏u bài báo không ∑ c™p các thông tin này rõ ràng, thông tin ‡a i∫m có th∫ b‡ nh¶m l®n nh˜ trong Ví dˆ 11.
Ví dˆ 11: “Ngày 05/10/2012, S Y t∏ Qu£ng Ninh thông báo ã phát hiªn vi
khu©n t£ t§i th‡ trßn ông H£i"
Trong ví dˆ này, th‡ trßn ông H£i là ‡a danh có th∫ thuÎc c£ Trà Vinh và Qu£ng Ninh, tuy nhiên bài báo chø ∑câp tÓi tên th‡ trßn, nh˜v™y ch˘c n´ng trích chÂn không th∫ quy∏t ‡nh ông H£i thuÎc Qu£ng Ninh hay Trà Vinh.
nh˜mÎt sË thành ph¶n cıa v‡ trí ˜Òc trích chÂn nh˜ trong hàng th˘4 cıa b£ng 4.8 (chø Nam ‡nh ˜Òc trích chÂn) và trong b£ng 4.9 (chø Bình D˜Ïng ˜Òc trích chÂn).
Nguyên nhân cuËi cùng là các ‡a i∫m ˜Òc ∑ c™p trong bài báo không ph£i là các ‡a i∫m bùng phát d‡ch bªnh. Do ó, các thông tin ˜Òc trích chÂn là không chính xác nh˜ trong hàng 9 cıa b£ng 4.8 và hàng 8 cıa b£ng 4.9.
4.6 TÍng k∏t
Trong ch˜Ïng này tác gi£ ã trình bày các k∏t qu£ th¸c nghiªm ch˘ng minh