T lª lÈi cıa ch˘c n´ng lÂc d˙ liªu

Một phần của tài liệu (LUẬN văn THẠC sĩ) trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến 04 (Trang 45)

SËbài báo liên quan TÍng sËbài báo Îchính xác (%)

311 486 64

∫ ánh giá hiªu n´ng cıa ch˘c n´ng này, tác gi£ l¸a chÂn ng®u nhiên 486 bài báo t¯t™p d˙liªu ∫ ánh giá Î chính xác b¨ng tay. Îchính xác ˜Òc tính toán b¨ng công th˘c (4.1) và k∏t qu£ ˜Òc trình bày trong b£ng 4.5.

Î chính xác= sË bài báo liên quan

tÍng sË (4.1)

vÓi:

• sË bài báo liên quan là sË bài báo liên quan tÓi mi∑n d˙ liªu d‡ch bªnh. • tÍng sË là tÍng sË bài báo ˜Òc lßy ng®u nhiên.

K∏t qu£ trong b£ng 4.5 cho thßy t lª lÈi cao hay nói cách khác Î chính xác cıa t™p lu™t khá thßp. i∑u này là do sË l˜Òng cách bài báo liên quan tÓi d‡ch bªnh ít trong khi tÍng sË bài báo có sËl˜Òng lÓn (chi ti∏t s≥ ˜Òc bàn lu™n trong ph¶n 4.5. Tác gi£ chßp nh™n t lª lÈi cao ( Î chính xác thßp) ∫ §t Î cân b¨ng cho Î o hÁi t˜ng. Nh˜ v™y, hiªu n´ng chung cıa ch˘c n´ng s≥ ˜Òc c£i thiªn.

4.3.2 ánh giá quá trình phân lÓp

Mô t£ th¸c nghiªm: mˆc ích cıa th¸c nghiªm này ánh giá kh£n´ng phân lÓp cıa ph˜Ïng pháp ∑xußt so vÓi ph˜Ïng pháp chødùng hÂc máy ˜Òc nêu trong mˆc 3.5.

Phát bi∫u th¸c nghiªm

• ¶u vào: mÎt t™p các bài báo ã ˜Òc lÂc.

• ¶u ra: các bài báo ˜Òc gán nhãn EVENT ho∞c NOT_EVENT.

D˙ liªu th¸c nghiªm: d˙ liªu là 686 bài báo sau khi ˜Òc lÂc bi bÎ lÂc d˙

liªu.

Tác gi£ ti∏n hành hai th¸c nghiªm ∫ ánh giá hiªu n´ng cıa bÎ phân lÓp. Th¸c nghiªm th˘ nhßt có tên là Th¸c nghiªm a k∏t hÒp gi˙a lu™t và hÂc máy. Th¸c nghiªm th˘ hai có tên là Th¸c nghiªm b chø s˚ dˆng hÂc máy. Các Î o

˜Òc s˚ dˆng ∫ ánh giá hai bÎ phân lÓp là Î chính xác (Precision - P), Î hÁi t˜ng (Recall - R), và Î o F1 (F1-score) d¸a trên ánh giá chéo 10-fold cross validation.

Trong th¸c nghiªm th˘nhßt, tác gi£l¸a chÂn 686 bài báo t¯t™p d˙liªu ã ˜Òc lÂc và gán nhãn chúng vÓi nhãn là EVENT ho∞c NOT_EVENT. Tác gi£bi∫u diπn

B£ng 4.6: So sánh kh£n´ng phân lÓp gi˙aThí nghiªm a andThí nghiªm b

Thí nghiªm a Thí nghiªm b

Fold Precision (%) Recall (%) Î o F-1 Precision (%) Recall (%) Î o F-1

1 80.56 87.88 84.06 72.22 76.47 74.29 2 72.13 75.86 73.95 73.97 79.41 76.59 3 81.90 84.31 83.09 80.00 83.81 81.86 4 79.73 84.29 81.95 72.92 78.36 75.54 5 73.94 81.88 77.71 75.14 78.98 77.01 6 69.95 73.34 71.60 70.89 76.65 73.66 7 73.58 75.73 74.64 71.76 75.20 73.44 8 71.33 80.24 75.52 70.00 75.51 72.65 9 72.37 76.92 74.58 67.27 80.57 73.32 10 75.26 77.15 76.19 69.37 73.48 71.36 Avg 75.07 79.76 77.33 72.35 77.84 74.97

t™p d˙ liªu này là t™p d˙ liªu cıa thí nghiªm a. Trong thí nghiªm th˘ hai, tác gi£

l¸a chÂn ng®u nhiên 50 bài báo t¯t™p d˙ liªu ban ¶u (t™p d˙liªu này ch˜a ˜Òc i qua bÎ lÂc d˙ liªu) và thêm chúng vào 686 bài báo ban ¶u. Tác gi£ gÂi t™p d˙

liªu này là t™p d˙ liªu cıa thí nghiªm b. Nh˜ v™y, sË bài báo trong thí nghiªm b là 736.

Sau khi chu©n b‡ t™p d˙ liªu hußn luyªn cho hai thí nghiªm, tác gi£so sánh kh£

n´ng phân lÓp cıa hai thí nghiªm này. K∏t qu£ so sánh ˜Òc minh ho§ trong b£ng 4.6, nÏi mà k∏t qu£ cıa thí nghiªm b n¨m trong ba cÎt bên ph£i, trong khi chúng

˜Òc bi∫u diπn ba cÎt bên trái trongthí nghiªm a. K∏t qu£trung bình cıa Î o F-1 trong hai thí nghiªm chø ra r¨ng kh£n´ng phân lÓp cıa bÎphân lÓp trong thí nghiªm a tËt hÏn trong thí nghiªm b ⇡2.36%. S¸ chênh lªch cıa hai bÎ phân lÓp không lÓn do tác gi£chø thêm vào 50 bài báo. K∏t qu£ th¸c nghiªm trong b£ng 4.6 chø ra r¨ng ph˜Ïng pháp k∏t hÒp gi˙a lu™t và hÂc máy §t k∏t qu£ tËt hÏn ph˜Ïng pháp chø s˚ dˆng hÂc máy trong bài toán phát hiªn s¸ kiªn d‡ch bªnh.

4.4 ánh gía quá trình trích chÂn s¸ kiªn

Mô t£ th¸c nghiªm: mˆc ích cıa th¸c nghiªm này ánh giá tính chính xác cıa thành ph¶n trích chÂn s¸ kiªn ˜Òc n∏u trong mˆc 4.4.

Phát bi∫u th¸c nghiªm

• ¶u vào: mÎt bài báo ch˘a s¸kiªn d‡ch bªnh.

• ¶u ra: thông tin v∑ s¸ kiªn d‡ch bªnh gÁm tên bªnh, thÌi gian và ‡a i∫m bùng phát d‡ch bªnh.

CH◊ÃNG 4. TH‹C NGHIõM VÀ ÁNH GIÁ KòT QUÉ 36

cıa quá trình phát hiªn s¸kiªn.

Do mÎt s¸ kiªn E ˜Òc ‡nh nghæa là mÎt bÎ gÁm tên bªnh, thÌi gian, và ‡a i∫m bùng phát d‡ch bªnh nh˜ trong công th˘c (3.1), nh˜ v™y mÎt s¸ kiªn úng nên ch˘a ¶y ıba thành ph¶n trên. Khi y∏u tËthÌi gian cıa s¸kiªn không ˜Òc

∑ c™p rõ ràng, tác gi£ s˚ dˆng ngày xußt b£n bài báo nh˜ là thÌi gian cıa s¸

kiªn. Trong các tr˜Ìng hÒp khác, n∏u mÎt s¸ kiªn không bao gÁm tên bªnh ho∞c

‡a i∫m bùng phát thì nó ˜Òc xem là mÎt s¸ kiªn sai.

∫ ánh giá Î chính xác cıa quá trình trích chÂn, tác gi£ ti∏n hành hai thí nghiªm có tên là thí nghiªm c và thí nghiªm d. Thí nghiªm th˘ nhßt chø s˚ dˆng lu™t trong khi ó thí nghiªm th˘ hai k∏t hÒp lu™t và hÂc máy (NER).

Tác gi£ s˚ dˆng ba Î o là Î chính xác (Precision - P), Î hÁi t˜ng (Recall - R), và Î o F (F-score) ∫ so sánh kh£n´ng trích chÂn cıa hai thí nghiªm. Các

Î o này ˜Òc bi∫u diπn trong công th˘c (4.2), (4.3), và (4.4).

Î chính xác (P)= sË s¸ kiªn úng

sË s¸ kiªn úng + sË s¸ kiªn sai (4.2)

vÓi:

• sË s¸ kiªn úng là sË s¸ kiªn ˜Òc mô hình trích chÂn chính xác. • sË s¸ kiªn sai là sË s¸ kiªn ˜Òc mô hình trích chÂn sai.

Î hÁi t˜ng (R)= sË s¸ kiªn úng sË s¸ kiªn úng +sË s¸ kiªn không ˜Òc tìm thßy (4.3) vÓi: • sË s¸ kiªn úng là sË s¸ kiªn ˜Òc mô hình trích chÂn chính xác. • sË s¸ kiªn không ˜Òc tìm thßy là sË s¸ kiªn mà thành ph¶n trích chÂn không tìm thßy. F1 = 2⇥P ⇥R (P +R) (4.4) D¸a trên công th˘c (4.2), (4.3), và (4.4), tác gi£ so sánh kh£ n´ng trích chÂn cıa Thí nghiªm c và Thí nghiªm d. K∏t qu£ so sánh ˜Òc minh ho§ trong b£ng 4.7, trong ó hàng th˘ hai minh ho§ k∏t qu£ cıa Thí nghiªm c và hàng th˘ ba minh ho§ k∏t qu£ trong Thí nghiªm d.

B£ng 4.7: So sánh Î chính xác quá trình trích chÂn gi˙a Thí nghiªm c andThí nghiªm d

Tên thí nghiªm SËs¸kiªn úng SËs¸kiªn sai P (%) R (%) F1 Thí nghiªm c 127 25 83.55 92.02 87.58

Thí nghiªm d 136 16 89.47 94.44 91.89

Trong Thí nghiªm c, Î o F kho£ng ⇡87.58% trong khi nó là ⇡91.89% trong

˜Òc c£i thiªn⇡4.31% so vÓi thí nghiªm th˘ nhßt. Nguyên nhân cıa s¸ khác biªt này s≥ ˜Òc trình bày trong ph¶n ti∏p theo cıa lu™n v´n.

4.5 Phân tích lÈi và bàn lu™n

4.5.1 Phân tích lÈi bÎ lÂc d˙ liªu

Trong quá trình phát hiªn s¸ kiªn, k∏t qu£trong b£ng 4.5 chø ra r¨ng bÎlÂc d˙

liªu ho§t Îng không tËt trong mÎt sË tr˜Ìng hÒp. ∫ tìm ra nguyên nhân t lª lÈi cao (36%), tác gi£ ki∫m tra thı công các bài báo ˜Òc l¸a trÂng trong mˆc 4.3.1. K∏t qu£phân tích chøra r¨ng trong các tr˜Ìng hÒp bÎlÂc d˙liªu ho§t Îng không tËt, mÎt vài lu™t trong M®u 1 (3.2) và M®u 2 (3.3) không phı h∏t các tr˜Ìng hÒp cıa d˙ liªu. Nguyên nhân là do các chı ∑ có th∫ có cùng mÎt Îng t¯. Ví dˆ,

Îng t¯ t˚ vong có th∫ thuÎc chı ∑ d‡ch bªnh ho∞c ch˙a bªnh. N∏u Îng t¯ này xußt hiªn trong mÎt bài báo, bÎ lÂc d˙liªu s≥ cho r¨ng bài báo thuÎc chı ∑d‡ch bªnh; tuy nhiên, trong th¸c th∏ nó l§i thuÎc chı ∑ ch˙a bªnh nh˜ trong Ví dˆ 7.

Ví dˆ 7: “UËng thuËc h§ sËt sau 30 phút bªnh nhân t˚ vong"

Ví dˆ này ˜Òc phát hiªn bi M®u 1 (3.2) - “bªnh nhân # t˚ vong", tuy nhiên, trong th¸c t∏, nguyên nhân t˚ vong liên quan tÓi viªc ch˙a tr‡ (uËng thuËc) thay vì b‡ nhiπm bªnh. HÏn n˙a, mÎt sË lu™t cıa M®u 2 (3.3) (m®u k∏t hÒp gi˙a mÎt tên bªnh và mÎt Îng t¯) nh¶m l®n gi˙a s¸kiªn d‡ch bªnh và chı ∑ liên quan tÓi bªnh nh˜ trong Ví dˆ 8.

Ví dˆ 8: “Phát hiªn chıng virus mÓi gây bªnh tay chân miªng"

Lu™t cıaM®u 2 (3.3) -“tay chân miªng # phát hiªn" phát hiªn ra s¸kiªn trong ví dˆ trênm; tuy nhiên, ví dˆ trên ∑ c™p tÓi viªc phát hiªn ra mÎt chıng virus mÓi cıa bªnh tay chân miªng ch˘ không ph£i là s¸ bùng phát cıa bªnh tay chân miªng.

4.5.2 Phân tích lÈi quá trình trích chÂn s¸ kiªn

Trong pha trích chÂn s¸ kiªn, k∏t qu£ trong b£ng 4.7 chø ra r¨ng Î chính xác cıa quá trình trích chÂn trong Thí nghiªm d cao hÏn Thí nghiªm c ⇡5.92%. Ban

¶u, tác gi£ khá ng§c nhiên vÓi k∏t qu£so sánh này do Thí nghiªm c s˚dˆng lu™t

∫ trích chÂn thông tin. Thông th˜Ìng, s˚ dˆng lu™t s≥ cho Î chính xác cao.

∫ tìm nguyên nhân lÈi xußt hiªn trong pha trích chÂn, tác gi£ ki∫m tra thı

công các bài báo cho k∏t qu£ không úng trong c£ hai thí nghiªm ( ˜Òc ∑ c™p trong ph¶n 4.4). K∏t qu£ ki∫m tra ˜Òc th∫ hiªn trong b£ng 4.8 và 4.9.

K∏t qu£ thËng kê trong b£ng 4.8 và 4.9 chø ra r¨ng nguyên nhân gây lÈi trong quá trình trích chÂn trong c£hai thí nghiªm xußt phát t¯ quá trình trích chÂn ‡a i∫m, và ôi khi trong quá tình trích chÂn tên bªnh. Trong Thí nghiªm c, tác gi£

CH◊ÃNG 4. TH‹C NGHIõM VÀ ÁNH GIÁ KòT QUÉ 38

B£ng 4.8: LÈi trongThí nghiªm c (15 trên 25 lÈi)

STT Doc ID Mô t£ lÈi

Thông tin úng Thông tin trích chÂn

1 4 Congo NULL

2 7 Th‡ trßn Kon-Plong Ly, tønh Pray

Veng NULL 3 13 Ph˜Ìng 6, Qu™n 8, Ph˜Ìng 14, Thành phËHÁChí Minh Qu™n 5, Qu™n 8, Ph˜Ìng 7, Qu™n Bình Th§nh, Huyªn Hóc Môn 4 17 xóm 1, tr‡ trßn Ngô DÁng, huyªn

Giao Thu , tønh Nam ‡nh

Nam ‡nh

5 24 tay chân miªng bªnh sËt xußt huy∏t

6 26 ph˜Ìng 8, qu™n 5, thành phËHÁChí

Minh

qu™n Long Biên

7 32 ph˜Ìng 7, qu™n 8, thành phË HCM NULL

8 64 bªnh sËt rét bªnh sËt xußt huy∏t

9 65 xóm 3, ph˜Ìng Tran Hung Dao,

thành phËKon Tum

à NÆng

10 79 Hà nÎi NULL

11 89 cúm A/H1N1 viêm phÍi (triªu ch˘ng)

12 92 cúm A/H1N1 bªnh lao

13 96 th‡ trßn Ea T’ling và các xã: Nam

Dông, Tam Th≠ng, D’Dak Rong

NULL

14 105 d‡ch t£ tiêu ch£y cßp

15 108 xã Tam Quan, thành phËTam D£o,

Quan NÎi, Quan Ngo§i, làng Chanh,

làng Màu, và Nhân Ly

B£ng 4.9: LÈi trongThí nghiªm d

STT Doc ID Mô t£ lÈi

Thông tin úng Thông tin trích chÂn

1 16 làng Thanh Long, xã Ph˜Óc Mˇ,

thành phËQuy NhÏn

Bình ‡nh

2 17 huyªn Giao Thıy, Nam ‡nh, cúm

A (H5N1)

Nam ‡nh, cúm

3 21 MπS, V´n Giang, H˜ng Yên H˜ng Yên

4 23 Bà R‡a - VÙng Tàu NULL

5 25 xóm 4, xã Hòa An, huyªn Krong

Pac, Dak Lak

xã Hòa An, huyªn Chiêm Hóa,

Tuyên Quang 6 26 ph˜Ìng 8, qu™n 5, thành phËHÁChí Minh (P.8, Q.5, TP. HCM) NULL 7 32 ph˜Ìng 7, qu™n 8, thành phË HCM (P.7, Q.8, TP. HCM) NULL

8 39 M‰ Cày Nam, M‰ Cày B≠c, GiÁng

Trôm, Th§nh Phú, Châu Thành, Ba

Tri, ChÒLách

B∏n Tre

9 40 ph˜Ìng 6, qu™n 8 (P.6, Q.8) TP. HCM

10 45 H˜ng Yên, Yên ‡nh, Thanh Hóa,

Vænh Phúc, Ba ình, Hà NÎi

Hà NÎi, Vænh Phúc

11 46 Thu™n An, Dæ An, huyªn B∏n Cát,

th‡trßn ThıD¶u MÎt, Bình D˜Ïng

Bình D˜Ïng

12 47 ph˜Ìng Kim Long và H˜Ïng Long,

thành phËHu∏

NULL

13 69 làng Tân An HÎi, huyªn Cı Chi,

thành phËHCM NULL 14 84 ph˜Ìng Thanh Bình, qu™n H£i Châu, thành phË à NÆng, ak Lak ph˜Ìng Thanh Bình, thành phË Ninh Binh,thành phË à NÆng, qu™n H£i Châu 15 106 ph˜Ìng 7, qu™n Tân Bình qu™n 1

16 109 qu™n Hoàng Mai, Hai Bà Tr˜ng,

Thanh Xuân, qu™n Hoàn Ki∏m,

Thanh Trì, Ëng a, Qu£ng Ninh,

B≠c Giang, Nam ‡nh, Thái Bình,

Hà Nam, H˜ng Yên

CH◊ÃNG 4. TH‹C NGHIõM VÀ ÁNH GIÁ KòT QUÉ 40

các tr˜Ìng hÒp. Trong mÎt sËít tr˜Ìng hÒp, n∏u thông tin ‡a i∫m ˜Òc vi∏t t≠t, nh˜v™y các lu™t không th∫ nh™n ra ˜Òc nh˙ng thông tin này nh˜ trong Ví dˆ 9.

Ví dˆ 9: “Phát hiªn mÎt tr˜Ìng hÒp bªnh nhân nhiπm cúm A H5N1 t§i P.7, Q.8, TP. HCM"

Trong ví dˆ này, ph˜Ìng 7, qu™n 8, và thành phË HÁ Chí Minh ˜Òc vi∏t t≠t; do ó, các lu™t không th∫ nh™n ra ˜Òc các thông tin này.

Trong Thí nghiªm d, nguyên nhân chính làm gi£m Î chính xác cıa quá trình trích chÂn là Îchính xác cıa bÎnh™n d§ng th¸c th∫ (NER). Trong mÎt sËtr˜Ìng hÒp, bÎ nh™n d§ng th¸c th∫ không th∫ phát hiªn ra các ‡a i∫m ˜Òc vi∏t t≠t (nh˜trong ví dˆ 9). Trong mÎt sËtr˜Ìng hÒp khác, bÎnh™n d§ng th¸c th∫ b‰qua các thông tin ‡a i∫m ˜Òc ∑ c™p nh˜ các thông tin v∑ tÍ ch˘c nh˜ trong Ví dˆ

10.

Ví dˆ 10: “Ngày 12/03/2012, d‡ch tiêu ch£y cßp ã bùng phát t§i Hà NÎi,

H£i Phòng, Qu£ng Ninh, B∏n Tre, và C¶n ThÏ"

Trong ví dˆ này, Hà NÎi, H£i Phòng, Qu£ng Ninh, B∏n Tre, và C¶n ThÏ ˜Òc nh™n d§ng nh˜ nh˙ng tÍ ch˘c ( ˜Òc gán nhãn <ORG> và </ORG>). Nh˙ng thông tin này s≥ b‡ b‰qua trong quá trình trích chÂn.

Trong c£hai thí nghiªm, mÎt vài tên bªnh sau quá trình trích chÂn không chính xác do chúng không n¨m trong t¯ i∫n tên bªnh. HÏn n˙a, t¯ i∫n tên bªnh ch˘a mÎt sË tên bªnh giËng vÓi các triªu ch˘ng cıa bªnh, nh˜ v™y, s¸ t˜Ïng ˜Ïng này t§o ra s¸ nh¶m l®n trong quá trình trích chÂn tên bªnh. Ví dˆ, trong b£ng 4.8, tên bªnh A H5N1 trong bài báo th˘ 89 ˜Òc phát hiªn nh˜ bªnh viên phÍi (pneumonia) trong khi viêm phÍi là mÎt triªu tr˘ng cıa cúm A/H5N1.

Bên c§nh í, có mÎt sË y∏u tË tác Îng làm gi£m hiªu qu£ cıa quá trình trích chÂn. ¶u tiên, các lÈi so§n th£o cıa các ‡a i∫m trong bài báo làm gi£m Îchính xác cıa quá trình trích chÂn. Ví dˆ, “ ≠k L≠k" ˜Òc vi∏t là “ ≠c L≠c", tuy nhiên

“ ≠c L≠c" không xußt hiªn trong t¯ i∫n ‡a i∫m. Nh˜ v™y, thông tin v∑ ‡a i∫m có th∫ b‡ b‰qua. Th˘hai, n∏u thông tin cıa ‡a i∫m không ˜Òc mô t£mÎt cách rõ ràng nh˜ “các huyªn phía Tây cıa tønh B∏n Tre"; nh˜ v™y, bÎ nh™n d§ng th¸c th∫ không th∫ nh™n d§ng ˜Òc các thông tin này. CuËi cùng, mÎt nguyên nhân quan trÂng khác là s¸nh™p nh¨ng cıa ‡a i∫m. Trong th¸c t∏, mÎt tên ‡a i∫m có th∫ ˜Òc ∞t tên cho nhi∑u ‡a danh. N∏u bài báo không ∑ c™p các thông tin này rõ ràng, thông tin ‡a i∫m có th∫ b‡ nh¶m l®n nh˜ trong Ví dˆ 11.

Ví dˆ 11: “Ngày 05/10/2012, S Y t∏ Qu£ng Ninh thông báo ã phát hiªn vi

khu©n t£ t§i th‡ trßn ông H£i"

Trong ví dˆ này, th‡ trßn ông H£i là ‡a danh có th∫ thuÎc c£ Trà Vinh và Qu£ng Ninh, tuy nhiên bài báo chø ∑câp tÓi tên th‡ trßn, nh˜v™y ch˘c n´ng trích chÂn không th∫ quy∏t ‡nh ông H£i thuÎc Qu£ng Ninh hay Trà Vinh.

nh˜mÎt sË thành ph¶n cıa v‡ trí ˜Òc trích chÂn nh˜ trong hàng th˘4 cıa b£ng 4.8 (chø Nam ‡nh ˜Òc trích chÂn) và trong b£ng 4.9 (chø Bình D˜Ïng ˜Òc trích chÂn).

Nguyên nhân cuËi cùng là các ‡a i∫m ˜Òc ∑ c™p trong bài báo không ph£i là các ‡a i∫m bùng phát d‡ch bªnh. Do ó, các thông tin ˜Òc trích chÂn là không chính xác nh˜ trong hàng 9 cıa b£ng 4.8 và hàng 8 cıa b£ng 4.9.

4.6 TÍng k∏t

Trong ch˜Ïng này tác gi£ ã trình bày các k∏t qu£ th¸c nghiªm ch˘ng minh

Một phần của tài liệu (LUẬN văn THẠC sĩ) trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến 04 (Trang 45)

Tải bản đầy đủ (PDF)

(61 trang)