Trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến

61 22 0
Trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ÑI H≈C QU»C GIA HÀ NÀI TR◊ÕNG ÑI H≈C CÔNG NGHõ NGUN MINH TIịN TRÍCH CH≈N S‹ KIõN D¿CH BõNH CHO Hõ TH»NG GIÁM SÁT TR‹C TUN LN VãN THĐC Sfl CƠNG NGHõ THƠNG TIN HÀ NÀI - 2014 ĐI H≈C QU»C GIA HÀ NÀI TR◊ÕNG ĐI H≈C CƠNG NGHõ NGUN MINH TIịN TRÍCH CH≈N S‹ KIõN D¿CH BõNH CHO Hõ TH»NG GIÁM SÁT TR‹C TUN Ngành: Cơng nghª Thơng tin Chun ngành: Mã sË: Hª thËng Thơng tin 60480104 LN VãN THĐC Sfl CƠNG NGHõ THƠNG TIN NG◊ÕI H◊ŒNG DàN KHOA HOC: Ti∏n sˇ Nguyπn Trí Thành HÀ NÀI - 2014 LÌi cam oan Tơi xin cam oan lu™n Trớch chn sá kiên dch bênh cho thậng giám sát tr¸c tuy∏n” cơng trình nghiên c˘u cıa riêng tơi Các sË liªu, k∏t qu£ ˜Ịc trình bày lu™n v´n hồn tồn trung th¸c ch˜a tng ềc cụng bậ bòt k mẻt cụng trỡnh no khỏc Tụi ó trớch dđn ảy cỏc ti liªu tham kh£o, cơng trình nghiên c˘u liên quan  nểc v quậc t NgoĐi tr cỏc ti liêu tham kh£o này, lu™n v´n cơng viªc cıa riêng tơi Hà NỴi, ngày tháng n´m 2014 Tác gi£ Nguyπn Minh Ti∏n LÌi c£m Ïn Tr˜Ĩc tiên, tơi xin g˚i lÌi c£m Ïn sâu s≠c nhßt tĨi TS Nguyπn Trí Thành, ngi ã t™n tình chø b£o h˜Ĩng dđn tụi quỏ trỡnh thác hiên lun tật nghiªp Tơi xin g˚i lÌi c£m Ïn chân thành tĨi PGS.TS Hà Quang Thˆy, ng˜Ìi ã t™n tình giúp Ơ, ‡nh h˜Ĩng góp ˛ cho tơi st thÌi gian tụi nghiờn cu v lm viêc tĐi phũng thớ nghiªm Cơng nghª Tri th˘c (Knowledge Technology Laboratory - KT-Lab) Tơi xin g˚i lÌi c£m Ïn tĨi TS Phan Xn Hi∏u, nghiên c˘u sinh Tr¶n Mai VÙ, nh˙ng ng˜Ìi ã cÍ vÙ, giúp Ơ óng góp ˛ ki∏n cho tơi st q trình hÂc t™p nghiên c˘u tĐi trèng Đi hc Cụng nghê - Đi hc Quậc gia H Nẻi Tụi chõn thnh cÊm ẽn cỏc thảy, cụ, v cỏn bẻ trèng Đi hc Cụng nghê Đi hc Quậc gia H Nẻi ó giÊng dĐy v tĐo i∑u kiªn thu™n lỊi cho tơi hÂc t™p, nghiên c˘u, hồn thành lu™n v´n Bên c§nh ó, tơi xin c£m Ïn anh, ch‡, b§n sinh viên thuẻc phũng nghiờn cu Cụng nghê Tri thc (KT-Lab) ó giúp Ơ tơi hồn thành lu™n v´n Tơi xin g˚i lèi cÊm ẽn tểi nhng ng nghiêp tĐi Bẻ mụn Cụng nghê Phản mm - Khoa Cụng nghê Thụng tin - Tr˜Ìng §i hÂc S˜ ph§m Kˇ Thu™t H˜ng n ã ıng hỴ, cÍ vÙ tơi st thÌi gian hÂc t™p, nghiên c˘u hoàn thành lu™n v´n CuËi cùng, tơi mn g˚i lÌi c£m Ïn ∞c biªt tĨi gia ình, b§n bè, nh˙ng ng˜Ìi thân u ln bờn cĐnh ẻng viờn tụi suật quỏ trỡnh hc v thác hiên lun tật nghiêp Tụi xin chân thành c£m Ïn! HÂc viên Nguyπn Minh Ti∏n Mˆc lˆc TÍng quan v∑ tốn trích xt sá kiên 1.1 Bi toỏn trớch xuòt thụng tin t d˙ liªu lĨn 1.1.1 Bài toán trích xt thơng tin 1.1.2 D liêu lển - Cẽ hẻi v thách th˘c cho lỉnh v¸c trích chÂn thơng tin 1.2 Tng quan v sá kiên 1.2.1 nh nghổa sá kiên 1.2.2 Trớch chn sá kiên 1.3 Bi toỏn trớch chn sá kiên dch bênh 1.3.1 Trích chÂn s¸ kiên dch bênh - nghổa v tảm quan trng 1.3.2 Phỏt hiên sá kiên 1.3.3 Trớch chn sá kiên 1.4 nghổa bi toỏn trớch chn sá kiên dch bªnh 1.4.1 fi nghæa khoa hÂc 1.4.2 fi nghỉa th¸c t∏ 1.5 Khó kh´n thách th˘c 1.6 TÍng k∏t 8 9 10 10 10 11 11 MỴt sË ph˜Ïng pháp ti∏p c™n 2.1 Ph˜Ïng pháp ti∏p c™n d¸a lu™t 2.1.1 Lu™t cú pháp 2.1.2 Lu™t ng˙ nghæa 2.2 Ph˜Ïng pháp ti∏p c™n d¸a hÂc máy 2.3 Ph˜Ïng pháp k∏t hÒp lu™t hÂc máy 2.4 MỴt sË nh™n xét 2.5 TÍng k∏t 12 12 12 13 14 15 15 17 18 18 19 20 20 Mô 3.1 3.2 3.3 3.4 hỡnh xuòt Cỏc c tớnh ca sá kiên d‡ch bªnh Phát bi∫u tốn Ph˜Ïng pháp ∑ xußt Mơ hình phát hiên v trớch chn sá kiªn 1 M÷C L÷C 3.5 3.6 3.7 Bi toỏn phỏt hiên sá kiên 3.5.1 Phát bi∫u toán 3.5.2 Xây d¸ng t™p lu™t 3.5.3 Xây d¸ng mơ hình phân lĨp Bài tốn trớch chn sá kiên 3.6.1 Phát bi∫u toán 3.6.2 Trích chÂn thÌi gian 3.6.3 Trích chÂn tên bªnh 3.6.4 Trích chÂn ‡a i∫m TÍng k∏t Thác nghiêm v ỏnh giỏ kt qu£ 4.1 Mơi tr˜Ìng cơng cˆ cài ∞t 4.1.1 Còu hỡnh phản cng 4.1.2 Cơng cˆ ph¶n m∑m 4.1.3 Các gói ch˜Ïng trình 4.2 Xây dáng d liêu 4.2.1 Thu th™p d˙ liªu 4.2.2 Ti∑n x˚ l˛ d˙ liªu 4.3 ỏnh gớa quỏ trỡnh phỏt hiên sá kiên 4.3.1 ỏnh giỏ bẻ lc d liêu 4.3.2 ánh giá q trình phân lĨp 4.4 ánh gớa quỏ trỡnh trớch chn sá kiên 4.5 Phân tích lÈi bàn lu™n 4.5.1 Phân tớch lẩi bẻ lc d liêu 4.5.2 Phân tích lÈi q trình trích chÂn s¸ 4.6 TÍng k∏t kiªn 21 21 22 24 25 25 26 27 27 29 30 30 30 30 30 32 32 33 33 33 34 35 37 37 37 41 Danh mˆc t¯ vi∏t t≠t STT 10 11 12 13 14 15 T¯ vi∏t t≠t IE IR DM DSSs OMSs RSs MUC ACE NOAA TDT NLP NER TF-IDF CRFs Maxent T¯ ¶y ı Information Extraction Information Retrieval Data Mining Decision Supporting Systems Online Monitoring Systems Recommendation Systems Message Understanding Conference Automatic Content Extraction National Oceanic and Atmospheric Administration Topic Detection and Tracking Natural Language Processing Named Entity Recognition Term Frequency - Inverse Document Frequency Conditional Random Fields Maximum Entropy Model Danh sách b£ng 1.1 ThËng kê d˙ liªu Twitter 3.1 Danh sách t¯/cˆm t¯ th˜Ìng xuyên 23 4.1 4.2 4.3 4.4 4.5 4.6 4.7 Còu hỡnh phản cng ềc s dng thác nghiêm Cụng c phản mm ềc s dng thác nghiªm Danh sách lĨp t¯ng gói ph¶n m∑m Cỏc thnh phản ca mẻt bi bỏo T lª lÈi cıa ch˘c n´ng lÂc d˙ liªu So sánh kh£ n´ng phân lĨp gi˙a Thí nghiªm a and Thí nghiªm b So sánh Ỵ xác q trình trích chÂn gi˙a Thí nghiªm c and Thí nghiªm d LÈi Thí nghiªm c (15 25 lÈi) LÈi Thí nghiªm d 30 31 32 33 34 35 4.8 4.9 36 38 39 Danh sách hình v 1.1 1.2 1.3 Sá tng trng d liêu t n´m 2004 ∏n n´m 2020 D˙ liªu Internet 60 giây Các b˜Ĩc q trình khám phá tri th˘c cÏ s d˙ liªu [15] 3.1 3.2 3.3 3.4 Quỏ trỡnh phỏt hiên v trớch chn sá kiên Thnh phản phỏt hiên sá kiên Thnh phản trớch chn sá kiên Bi∫u diπn cıa phân cßp ‡a i∫m 21 22 25 28 Lèi núi ảu Trớch chn/trớch xuòt thụng tin (Information Extraction - IE), ∞c biªt trích chÂn/trích xuòt sá kiên (Event Extraction - EE) l mẻt lổnh vác khai phỏ d liêu (Data Mining - DM) K∏t qu£ cıa q trình trích chÂn có th∫ ˜Ịc dùng cho hª thËng hÈ trỊ quy∏t ‡nh (Decision Supporting Systems - DSSs), hª thËng t˜ vòn (Recommendation Systems - RSs), hoc cỏc thậng giỏm sát tr¸c tuy∏n (Online Monitoring Systems - OMSs) [20] Nh˙ng nm gản õy, trớch chn sá kiên ó thu hỳt nhi∑u s¸ quan tâm t¯ nhà khoa hÂc lổnh vác khai phỏ d liêu núi chung v trớch chn thụng tin núi riờng Trớch chn sá kiên ềc xuòt lản ảu tiờn tĐi hẻi thÊo Message Understanding Conference nm 1987 [19] Trong hẻi ngh ny, mẻt sá kiên ềc nh nghổa nh sau: mẻt sá kiên bt bc ph£i có tác nhân (actor), thÌi gian x£y sá kiên (time), a im (place) v tỏc ẻng tểi mơi tr˜Ìng xung quanh (impact on the surrounding environment) Bênh c§nh ó, ch˜Ïng trình Automatic Content Extraction (ACE) ˜a nh nghổa: sá kiên l mẻt hnh ẻng ềc tĐo bi ng˜Ìi tham gia ˜Ịc chia thành tám loĐi: cuẻc sậng (life), sá di chuyn (movement), sá chuyn (transection), kinh doanh (business), xung ẻt (conflict), liờn (contact), ng˜Ìi (personnel) lu™t phát (justice) Theo inh nghỉa ca Allen v cẻng sá [1], mẻt sá kiên bao gm bận thuẻc tớnh: phẽng thc (modality), sá phõn (Positive, Negative), m˘c Ỵ (Specific, Generic) thÌi i∫m (Past, Present, Future, Unspecified) Lun "Trớch chn sá kiên dch bênh cho thậng giỏm sỏt trác tuyn" trung vào nghiên c˘u cách th˘c ph˜Ïng pháp gi£i quyt bi toỏn trớch chn sá kiên dch bênh Qua ó, ˜a mơ hình, gi£i pháp cho vßn ∑ trớch chn sá kiên dch bênh trờn d liêu ti∏ng Viªt Lu™n v´n s˚ dˆng ph˜Ïng pháp k∏t hỊp gi˙a lu™t (rule-based) hÂc máy ∫ gi£i quy∏t hai tốn lĨn nghiên c˘u, ó là: tốn phỏt hiên sá kiên v bi toỏn trớch chn sá kiªn K∏t qu£ cıa nghiên c˘u danh sách sá kiên dch bênh ềc trác quan húa trờn thËng giám sát tr¸c tuy∏n, nÏi mà ng˜Ìi dùng có th∫ theo dõi tình hình diπn bi∏n d‡ch bªnh lónh th Viêt Nam Còu trỳc lun ềc chia làm bËn ch˜Ïng, nỴi dung ˜Ịc mơ t£ nh˜ sau: Ch˜Ïng 1: TÍng quan v∑ tốn trích chÂn s¸ kiªn Ch˜Ïng trình bày cÏ b£n v∑ tốn trớch chn sá kiên bậi cÊnh bựng 10 CHNG TH‹C NGHIõM VÀ 36 ÁNH GIÁ KòT QUÉ cıa quỏ trỡnh phỏt hiên sá kiên Do mẻt sá kiên E ềc nh nghổa l mẻt bẻ gm tờn bênh, thÌi gian, ‡a i∫m bùng phát d‡ch bªnh nh˜ cụng thc (3.1), nh vy mẻt sá kiên ỳng nên ch˘a ¶y ı ba thành ph¶n Khi y∏u tậ thèi gian ca sá kiên khụng ềc cp rõ ràng, tác gi£ s˚ dˆng ngày xußt b£n bỏo nh l thèi gian ca sá kiên Trong cỏc trèng hềp khỏc, nu mẻt sá kiên khụng bao gm tên bªnh ho∞c ‡a i∫m bùng phát ˜Ịc xem l mẻt sá kiên sai ỏnh giỏ ẻ xác cıa q trình trích chÂn, tác gi£ ti∏n hành hai thí nghiªm có tên thí nghiªm c v thớ nghiêm d Thớ nghiêm th nhòt s dˆng lu™t ó thí nghiªm th˘ hai k∏t hÒp lu™t hÂc máy (NER) Tác gi£ s˚ dˆng ba Ỵ o Ỵ xác (Precision - P), Î hÁi t˜ng (Recall - R), Î o F (F-score) ∫ so sánh kh£ n´ng trích chÂn cıa hai thớ nghiêm Cỏc ẻ o ny ềc biu din cơng th˘c (4.2), (4.3), (4.4) Ỵ xác (P) = sậ sá kiên ỳng sậ sá kiên ỳng + sậ sá kiên sai (4.2) vểi: ã sậ sá kiên ỳng l sậ sá kiên ềc mụ hỡnh trớch chn chớnh xỏc ã sậ sá kiên sai l sậ sá kiên ềc mụ hỡnh trớch chn sai ẻ hi tng (R) = sậ sá kiên ỳng sậ sá kiên ỳng + sậ sá kiên khụng ềc tỡm thòy (4.3) vểi: ã sậ sá kiên ỳng l sậ sá kiên ềc mụ hỡnh trớch chn chớnh xỏc ã sậ sá kiên khụng ềc tỡm thòy l sậ sá kiên m thnh phản trớch chn khụng tỡm thòy F1 = 2P R (P + R) (4.4) D¸a cơng th˘c (4.2), (4.3), (4.4), tác gi£ so sánh kh£ n´ng trích chÂn cıa Thí nghiªm c Thí nghiªm d K∏t qu£ so sánh ˜Ịc minh ho§ b£ng 4.7, ó hng th hai minh hoĐ kt quÊ ca Thớ nghiêm c hàng th˘ ba minh ho§ k∏t qu£ Thớ nghiêm d BÊng 4.7: So sỏnh ẻ chớnh xỏc q trình trích chÂn gi˙a Thí nghiªm c and Thí nghiªm d Tên thí nghiªm Thí nghiªm c Thí nghiªm d Sậ sá kiên 127 136 ỳng Sậ sá kiên sai 25 16 P (%) 83.55 89.47 R (%) 92.02 94.44 F1 87.58 91.89 Trong Thớ nghiêm c, ẻ o F kho£ng ⇡87.58% ⇡91.89% Thí nghiêm d Kt quÊ chng minh ẻ chớnh xỏc thí nghiªm th˘ hai CH◊ÃNG TH‹C NGHIõM VÀ ÁNH GIÁ KịT Q 37 ˜Ịc c£i thiªn ⇡4.31% so vểi thớ nghiêm th nhòt Nguyờn nhõn ca sá khỏc biêt ny s ềc trỡnh by phản tip theo cıa lu™n v´n 4.5 4.5.1 Phân tích lÈi bàn lun Phõn tớch lẩi bẻ lc d liêu Trong quỏ trỡnh phỏt hiên sá kiên, kt quÊ bÊng 4.5 bẻ lc d liêu hoĐt ẻng khụng tËt mỴt sË tr˜Ìng hỊp ∫ tìm ngun nhân t lª lÈi cao (36%), tác gi£ ki∫m tra thı cơng báo ˜Ịc l¸a trÂng mˆc 4.3.1 Kt quÊ phõn tớch cỏc trèng hềp bẻ lc d liêu hoĐt ẻng khụng tật, mẻt vi lut Mđu (3.2) v Mđu (3.3) khơng phı h∏t tr˜Ìng hỊp cıa d˙ liªu Nguyên nhân chı ∑ có th∫ có mỴt Ỵng t¯ Ví dˆ, Ỵng t¯ t˚ vong cú th thuẻc ch dch bênh hoc cha bênh Nu ẻng t ny xuòt hiên mẻt bi bỏo, bẻ lc d liêu s cho bi bỏo thuẻc ch dch bênh; nhiờn, thác th nú lĐi thuẻc ch cha bênh nh Vớ d Ví dˆ 7: “ng thc h§ sËt sau 30 phút bªnh nhân t˚ vong" Ví dˆ ˜Ịc phát hiên bi Mđu (3.2) - bênh nhõn # t vong", nhiên, th¸c t∏, nguyên nhân t˚ vong liên quan tĨi viªc ch˙a tr‡ (ng thc) thay b nhim bênh Hẽn na, mẻt sậ lut ca Mđu (3.3) (mđu kt hềp gia mẻt tờn bênh v mẻt ẻng t) nhảm lđn gia sá kiên dch bênh chı ∑ liên quan tĨi bªnh nh˜ Ví dˆ Ví dˆ 8: “Phát hiªn chıng virus mĨi gõy bênh tay chõn miêng" Lut ca Mđu (3.3) - “tay chân miªng # phát hiªn" phát hiªn sá kiên vớ d trờnm; nhiờn, vớ d trờn cp tểi viêc phỏt hiên mẻt chng virus mĨi cıa bªnh tay chân miªng ch˘ khơng ph£i l sá bựng phỏt ca bênh tay chõn miêng 4.5.2 Phõn tớch lẩi quỏ trỡnh trớch chn sá kiên Trong pha trớch chn sá kiên, kt quÊ bÊng 4.7 ẻ chớnh xỏc ca quỏ trỡnh trớch chÂn Thí nghiªm d cao hÏn Thí nghiªm c 5.92% Ban ảu, tỏc giÊ khỏ ngĐc nhiờn vểi kt qu£ so sánh Thí nghiªm c s˚ dˆng lu™t ∫ trích chÂn thơng tin Thơng th˜Ìng, s˚ dˆng lu™t s≥ cho Ỵ xác cao ∫ tìm ngun nhõn lẩi xuòt hiên pha trớch chn, tỏc giÊ ki∫m tra thı công báo cho k∏t qu£ khơng úng c£ hai thí nghiªm ( ˜Ịc ∑ c™p ph¶n 4.4) K∏t qu£ ki∫m tra ˜Ịc th∫ hiªn b£ng 4.8 4.9 K∏t qu£ thËng kê bÊng 4.8 v 4.9 nguyờn nhõn gây lÈi q trình trích chÂn c£ hai thớ nghiêm xuòt phỏt t quỏ trỡnh trớch chn a i∫m, q tình trích chÂn tên bênh Trong Thớ nghiêm c, tỏc giÊ nhn lu™t ˜Ịc s˚ dˆng q trình trích chÂn không bao phı h∏t CH◊ÃNG TH‹C NGHIõM VÀ STT Doc ID 13 17 24 26 32 64 65 10 11 12 13 79 89 92 96 14 15 105 108 ÁNH GIÁ KòT QUÉ B£ng 4.8: LÈi Thí nghiªm c (15 25 lÈi) Mơ t£ lÈi Thơng tin úng Thơng tin trích chÂn Congo NULL Th‡ trßn Kon-Plong Ly, tønh Pray NULL Veng Ph˜Ìng 6, Qu™n 8, Ph˜Ìng 14, Qu™n 5, Qu™n 8, Ph˜Ìng 7, Qu™n Thnh phậ H Chớ Minh Bỡnh ThĐnh, Huyên Húc Mụn xúm 1, tr tròn Ngụ Dng, huyên Nam nh Giao Thu , tønh Nam ‡nh tay chân miªng bªnh sËt xt huy∏t ph˜Ìng 8, qu™n 5, thành phË HÁ Chí qu™n Long Biên Minh ph˜Ìng 7, qu™n 8, thành phË HCM NULL bênh sật rột bênh sật xuòt huyt xúm 3, ph˜Ìng Tran Hung Dao, NỈng thành phË Kon Tum H nẻi NULL cỳm A/H1N1 viờm phi (triêu chng) cỳm A/H1N1 bênh lao th tròn Ea Tling v cỏc xã: Nam NULL Dông, Tam Th≠ng, D’Dak Rong d‡ch t£ tiêu ch£y cßp xã Tam Quan, thành phË Tam D£o, xó Tam Quan Quan Nẻi, Quan NgoĐi, lng Chanh, lng Màu, Nhân Ly 38 CH◊ÃNG TH‹C NGHIõM VÀ STT Doc ID 16 17 21 23 25 26 32 39 10 40 45 11 46 12 47 13 69 14 84 15 16 106 109 ÁNH GIÁ KòT QUÉ B£ng 4.9: LÈi Thí nghiªm d Mơ t£ lÈi Thơng tin úng Thơng tin trích chÂn làng Thanh Long, xã Ph˜Ĩc Mˇ, Bình ‡nh thành phË Quy NhÏn huyªn Giao Thıy, Nam ‡nh, cúm Nam ‡nh, cúm A (H5N1) Mπ S, V´n Giang, H˜ng Yên H˜ng Yên Bà R‡a - VÙng Tàu NULL xóm 4, xã Hịa An, huyªn Krong xã Hịa An, huyªn Chiêm Hóa, Pac, Dak Lak Tun Quang ph˜Ìng 8, qu™n 5, thành phË HÁ Chí NULL Minh (P.8, Q.5, TP HCM) ph˜Ìng 7, qu™n 8, thành phË HCM NULL (P.7, Q.8, TP HCM) M‰ Cày Nam, M‰ Cày B≠c, GiÁng B∏n Tre Trơm, Th§nh Phú, Châu Thành, Ba Tri, ChỊ Lách ph˜Ìng 6, qu™n (P.6, Q.8) TP HCM H˜ng Yên, Yên ‡nh, Thanh Hóa, Hà NỴi, Vỉnh Phúc Vỉnh Phúc, Ba ình, Hà NỴi Thu™n An, Dổ An, huyên Bn Cỏt, Bỡnh Dẽng th tròn Th Dảu Mẻt, Bỡnh Dẽng phèng Kim Long v Hẽng Long, NULL thnh phậ Hu lng Tõn An Hẻi, huyên Cı Chi, NULL thành phË HCM ph˜Ìng Thanh Bình, qu™n H£i ph˜Ìng Thanh Bình, thành phË Châu, thành phË NỈng, ak Lak Ninh Binh,thành phË NỈng, qu™n H£i Châu ph˜Ìng 7, qu™n Tân Bình qu™n qu™n Hồng Mai, Hai Bà Tr˜ng, Hà NỴi Thanh Xn, qu™n Hồn Ki∏m, Thanh Trì, Ëng a, Qu£ng Ninh, B≠c Giang, Nam ‡nh, Thái Bình, Hà Nam, H˜ng Yên 39 CH◊ÃNG TH‹C NGHIõM VÀ ÁNH GIÁ KịT Q 40 tr˜Ìng hỊp Trong mỴt sË tr˜Ìng hỊp, n∏u thơng tin ‡a i∫m ˜Ịc vi∏t t≠t, nh˜ v™y lu™t khơng th∫ nh™n ˜Ịc nh˙ng thơng tin nh˜ Vớ d Vớ d 9: Phỏt hiên mẻt trèng hềp bênh nhõn nhim cỳm A H5N1 tĐi P.7, Q.8, TP HCM" Trong ví dˆ này, ph˜Ìng 7, qu™n 8, thành phË HÁ Chí Minh ˜Ịc vi∏t t≠t; ó, lu™t khơng th∫ nh™n ˜Ịc thơng tin Trong Thí nghiªm d, ngun nhân làm gi£m Ỵ xác cıa q trình trích chÂn ẻ chớnh xỏc ca bẻ nhn dĐng thác th (NER) Trong mẻt sậ trèng hềp, bẻ nhn dĐng thác th khơng th∫ phát hiªn ‡a i∫m ˜Ịc vi∏t t≠t (nh˜ ví dˆ 9) Trong mỴt sË tr˜Ìng hềp khỏc, bẻ nhn dĐng thác th b qua cỏc thơng tin ‡a i∫m ˜Ịc ∑ c™p nh˜ thơng tin v∑ tÍ ch˘c nh˜ Ví dˆ 10 Ví dˆ 10: “Ngày 12/03/2012, d‡ch tiêu ch£y cßp ã bùng phỏt tĐi H Nẻi, HÊi Phũng, QuÊng Ninh, Bn Tre, v Cản Thẽ" Trong vớ d ny, H Nẻi, HÊi Phịng, Qu£ng Ninh, B∏n Tre, C¶n ThÏ ˜Ịc nh™n d§ng nh˜ nh˙ng tÍ ch˘c ( ˜Ịc gán nhãn ) Nh˙ng thông tin s≥ b‡ b‰ qua q trình trích chÂn Trong c£ hai thí nghiªm, mẻt vi tờn bênh sau quỏ trỡnh trớch chn khụng chớnh xỏc chỳng khụng năm t in tờn bênh Hẽn na, t in tờn bênh cha mẻt sậ tên bªnh giËng vĨi triªu ch˘ng cıa bªnh, nh˜ vy, sá tẽng ẽng ny tĐo sá nhảm lđn q trình trích chÂn tên bªnh Ví dˆ, b£ng 4.8, tên bªnh A H5N1 báo th˘ 89 ˜Ịc phát hiªn nh˜ bªnh viên phÍi (pneumonia) viờm phi l mẻt triêu trng ca cỳm A/H5N1 Bờn cĐnh ớ, cú mẻt sậ yu tậ tỏc ẻng lm giÊm hiêu quÊ ca quỏ trỡnh trớch chn ảu tiên, lÈi so§n th£o cıa ‡a i∫m báo làm gi£m Ỵ xác cıa q trình trích chÂn Ví dˆ, “ ≠k L≠k" ˜Ịc vi∏t “ ≠c L≠c", nhiên “ ≠c L≠c" khơng xt hiªn t¯ i∫n ‡a i∫m Nh˜ v™y, thơng tin v∑ ‡a i∫m có th∫ b‡ b‰ qua Th˘ hai, n∏u thơng tin cıa ‡a i∫m khơng ˜Ịc mơ t£ mẻt cỏch rừ rng nh cỏc huyên phớa Tõy ca tứnh Bn Tre"; nh vy, bẻ nhn dĐng thác th khơng th∫ nh™n d§ng ˜Ịc thơng tin Ci cựng, mẻt nguyờn nhõn quan trng khỏc l sá nhp nhăng ca a im Trong thác t, mẻt tờn a i∫m có th∫ ˜Ịc ∞t tên cho nhi∑u ‡a danh N∏u báo không ∑ c™p thông tin rõ ràng, thơng tin ‡a i∫m có th∫ b‡ nh¶m l®n nh˜ Ví dˆ 11 Ví dˆ 11: “Ngày 05/10/2012, S Y t∏ Qu£ng Ninh thông báo ã phát hiên vi khuân tÊ tĐi th tròn ụng HÊi" Trong ví dˆ này, th‡ trßn ơng H£i ‡a danh có th∫ thc c£ Trà Vinh Qu£ng Ninh, nhiên báo chø ∑ câp tĨi tên th‡ trßn, nh˜ v™y ch˘c n´ng trích chÂn khơng th∫ quy∏t ‡nh ơng H£i thc Qu£ng Ninh hay Trà Vinh Ngun nhân gây lÈi khác ∏n t¯ thơng tin khơng ¶y ı cıa ‡a i∫m, ví dˆ CH◊ÃNG TH‹C NGHIõM VÀ NH GI KũT QUẫ 41 nh mẻt sậ thnh phản cıa v‡ trí ˜Ịc trích chÂn nh˜ hàng th˘ cıa b£ng 4.8 (chø Nam ‡nh ˜Ịc trích chÂn) b£ng 4.9 (chø Bình D˜Ïng ˜Ịc trích chÂn) Nguyên nhân cuËi ‡a i∫m ˜Òc ∑ c™p báo không ph£i ‡a i∫m bùng phát d‡ch bªnh Do ó, thơng tin ˜Ịc trích chÂn khơng xác nh˜ hàng cıa b£ng 4.8 hàng cıa b£ng 4.9 4.6 TÍng k∏t Trong ch˜Ïng tác gi£ ã trình bày cỏc kt quÊ thác nghiêm chng minh phẽng phỏp xuòt chẽng Kt quÊ thác nghiêm trung vào hai tốn quan trÂng, ó tốn phỏt hiên sá kiên v bi toỏn trớch chn sá kiên Kt quÊ thác nghiêm cho thòy phẽng phỏp xuòt phự hềp cho bi toỏn trớch chn sá kiên dch bênh Bờn cĐnh ú, tỏc giÊ cng nh˙ng tr˜Ìng hỊp làm gi£m Ỵ xác pha phỏt hiên v trớch chn sá kiên Tng kt K∏t qu£ §t ˜Ịc Lu™n v´n ã trình bày kin thc cẽ bÊn v trớch chn sá kiên v trớch chn sá kiên dch bênh trờn d liêu ting Viêt Bờn cĐnh ú, lun ó trỡnh by chi ti∏t ph˜Ïng pháp ti∏p c™n tốn trích chn sá kiên v trung vo phẽng phỏp kt hỊp gi˙a lu™t ng˙ nghỉa hÂc máy ∫ gi£i quyt bi toỏn phỏt hiên v trớch chn sá kiên dch bênh Lun cng xuòt mụ hỡnh giÊi quy∏t hai tốn quan trÂng, ó là: tốn phỏt hiên v bi toỏn trớch chn sá kiên, thụng qua ú trớch chn cỏc sá kiên dch bênh dựng cho thậng giỏm sỏt trác tuyn Vn-Loc Trong bi toỏn phỏt hiên sá kiên, lun s dng phẽng pháp k∏t hÒp gi˙a lu™t hÂc máy, vểi bi toỏn trớch chn sá kiên, lun s dˆng lu™t ∫ trích chÂn thÌi gian, t¯ i∫n tên bªnh ∫ trích chÂn tên bênh hÂc máy (NER) k∏t hỊp vĨi t¯ i∫n ‡a i∫m ∫ trích chÂn a im bựng phỏt dch bênh Kt quÊ thác nghiêm cho thßy ph˜Ïng pháp k∏t hỊp gi˙a lu™t hÂc máy cho k∏t qu£ tËt mi∑n d˙ liªu ti∏ng Viêt Lun ó s dng ba ẻ o l: Î o xác (precision), Î o hÁi t˜ng (recall), Ỵ o F-1 (F-1 measured) ∫ ánh giá k∏t quÊ ca quỏ trỡnh phỏt hiên sá kiên vểi cỏc kt quÊ lản lềt l: ẻ o chớnh xỏc (75.07%), Î o hÁi t˜ng (79.76%), Î o F-1 (77.33%) Bên c§nh ó, lu™n v´n s˚ dˆng ph˜Ïng pháp ánh giỏ th cụng trờn bi toỏn trớch xuòt sá kiên, kt quÊ ẻ chớnh xỏc Đt 89.04 Kt quÊ thác nghiêm minh chng phẽng phỏp lun xuòt Đt k∏t qu£ kh£ quan có th∫ áp dˆng thác t HĐn ch Mc dự Đt ềc nhng kt qu£ kh£ quan ban ¶u, song lu™n ph˜Ïng pháp lu™n xuòt vđn cũn mẻt sậ nhềc im cản khc phc nh sau: ã Tp lut ềc xõy dáng thı cơng, o ó khó có th∫ bao phı tồn bẻ d liêu iu ny dđn n lut có th∫ b‰ sót nh˙ng d˙ liªu có liên quan tểi d liêu ã Kt quÊ ca bẻ phõn lểp cha cao sá nhp nhăng gia mẻt b£n ch˘a 42 CH◊ÃNG TH‹C NGHIõM VÀ ÁNH GIÁ KũT QUẫ 43 sá kiên dch bênh thác sá v mẻt bÊn l thụng bỏo ã Trong mẻt vi trèng hềp cũn xÊy trèng hềp nhp nhăng gi˙a ‡a i∫m n∏u v´n b£n không ∑ c™p ı thơng tin (ví dˆ: chø nêu tên xã hoc huyên m khụng nờu ảy thụng tin) ã Cha phỏt hiên ềc cỏc sá kiên trựng lp, cha gom nhóm ˜Ịc v´n b£n liên quan tĨi mỴt sá kiên theo thèi gian Hểng phỏt trin ã CÊi thiên ẻ bao ph ca lut ềc s dng pha phỏt hiên sá kiên ã Nõng cao ẻ xác cıa mơ hình phân lĨp pha phát hiên sá kiên ã Nõng cao ẻ chớnh xỏc ca quỏ trỡnh nhn dĐng thác th ã GiÊi quyt bi toỏn nhp nhăng v a im xÊy sá kiên ã Phỏt hiên sá trựng lp v gom nhúm cỏc bi bỏo liờn quan tểi mẻt sá kiên Cụng bậ khoa hÂc • Minh-Tien Nguyen and Tri-Thanh Nguyen, “Extraction of Disease Events for a Real-time Monitoring System”, in the Proceedings of the 4th Symposium on Information and Communication Technology - SoICT, Danang, Vietnam, (December 2013) • Mai-Vu Tran, Minh-Hoang Nguyen, Sy-Quan Nguyen, Minh-Tien Nguyen, and Xuan-Hieu Phan (2012) “VnLoc: A Real–time News Event Extraction Framework for Vietnamese", in the Proceedings of the 4th International Conference on Knowledge and Systems Engineering - KSE, Danang, Vietnam, (August 2012) 44 Tài liªu tham kh£o [1] James Allen, Ron Papka, and Victor Larvenko On-line new event detection and tracking SIGIR, pages pp 37–45, 1998 [2] Chinatsu Aone and Mila Ramos-Santacruz Rees: A large-scale relation and event extraction system In In: 6th Applied Natural Language Processing Conference (ANLP 2000):pp 76–83 Association for Computational Linguistics, 2000 [3] Douglas E Appelt Introduction to information extraction technology In Tutorial held at IJCAI-99, Stockholm, Sweden, 1999 [4] Adam L Berger, Vincent J Della Pietra, and Stephen A Della Pietra A maximum entropy approach to natural language processing Computational Linguistics, 22.1:39–71, 1996 [5] Jethro Borsje, Frederik Hogenboom, and Flavius Frasincar Semi-automatic financial events discovery based on lexico-semantic patterns International Journal of Web Engineering and Technology, 6(2):115–140, 2010 [6] Philippe Capet, Thomas Delavallade, Takuya Nakamura, Agnes Sandor, Cedric Tarsitano, and Stavroula Voyatzi A risk assessment system with automatic extraction of event types Intelligent Information Processing IV, IFIP International Federation for Information Processing Springer Boston, vol 288:220–229, 2008 [7] Lee Chang-Shing, Yea-Juan Chen, and Zhi-Wei Jian Ontology-based fuzzy event extraction agent for chinese e-news summarization In Expert Systems with Applications 25(3), 431– 447, 2003 [8] K Bretonnel Cohen, Karin Verspoor, Helen L Johnson, Chris Roeder, Philip V Ogren, William A Baumgartner, Elizabeth White Jr., Hannah Tipney, and Lawrence Hunter High-precision biological event extraction with a concept recognizer In In: Workshop on BioNLP: Shared Task collocated with the NAACL-HLT 2009 Meeting pp 50–58 Association for Computational Linguistics, 2009 45 TÀI LIõU THAM KHÉO 46 [9] Nigel Collier, Reiko Matsuda Goodwin, John McCrae, Son Doan, Ai Kawazoe, Mike Conway, Asanee Kawtrakul, Koichi Takeuchi, and Dinh Dien An ontology-driven system for detecting global health events In Proceedings of the 23rd International Conference on Computational Linguistics Association for Computational Linguistics, 2010 [10] H Cunningham, D Maynard, K Bontcheva, and V Tablan Gate: A framework and graphical development environment for robust nlp tools and applications In In: 40th Anniversary Meeting of the Association for Computational Linguistics (ACL 2002) pp 168–175 Association for Computational Linguistics, 2002 [11] Hamish Cunningham Gate, a general architecture for text engineering In Computers and the Humanities 36(2), 223–254, 2002 [12] Son Doan, Ai Kawazoe, and Nigel Collier Global health monitor - a web-based system for detecting and mapping infectious diseases Proc International Joint Conference on Natural Language Processing (IJCNLP), Companion Volume, Hyderabad, India:pp 951–956, 2008 [13] George Doddington, Alexis Mitchell, Mark Przybocki, Lance Ramshaw, Stephanie Strassel, and Ralph Weischedel The automatic content extraction (ace) program – tasks, data, and evaluation In LREC, 2004 [14] Li Fang, Huanye Sheng, and Dongmo Zhang Event pattern discovery from the stock market bulletin In: 5th International Conference on Discovery Science (DS 2002) Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, vol 2534:35–49, 2002 [15] Usama M Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth From data mining to knowledge discovery in databases In AI Magazine (AIM) 17(3):37-54, 1996 [16] Jungermann Felix and Katharina Morik Enhanced services for targeted information retrieval by event extraction and data mining In: 13th International Conference on Natural Language and Information Systems: Applications of Natural Language to Information Systems (NLDB 2008) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5039:335–336, 2008 [17] Ralph Grishman, Silja Huttunen, and Roman Yangaber Information extraction for enhenced access to disease outbreak reports Journal of Biomedical Informastic, 35(4):pp 236–246, 2002 [18] Ralph Grishman, Silja Huttunen, and Roman Yangarber Real-time event extraction for infectious disease outbreaks Proceeding HLT ’02 Proceedings of TÀI LIõU THAM KHÉO 47 the second international conference on Human Language Technology Research, 2002 [19] Ralph Grishman and Beth Sundheim Message understanding conference-6: a brief history Proceedings of the 16th conference on Computational linguistics, COLING, Stroudsburg, PA, USA, Volume 1:pp 466–471, 1996 [20] Frederik Hogenboom, Flavius Frasincar, Uzay Kaymak, and Franciska de Jong An overview of event extraction from text Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011), 779:pp 48–57, 2011 [21] Chun Hong-Woo, Young-Sook Hwang, and Hae-Chang Rim Unsupervised event extraction from biomedical literature using co-occurrence information and basic patterns In: 1st International Joint Conference on Natural Language Processing (IJCNLP 2004) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 3248:777–786, 2004 [22] John Lafferty, Kamal Nigam, and Andrew McCallum Using maximum entropy for text classification IJCAI-99 Workshop on Machine Learning for Information Filtering, Vol.1:61–67, 1999 [23] Mingrong Liu, Yicen Liu, Liang Xiang, Xing Chen, and Qing Yang Extracting key entities and significant events from online daily news In: 9th International Conference on Intelligent Data Engineering and Automated Learning (IDEAL 2008) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5326:201–209, 2008 [24] Vargas-Vera Maria and David Celjuska Event recognition on news stories and semi-automatic population of an ontology In In: 3rd IEEE/WIC/ACM International Conference on Web Intelligence (WI 2004) pp 615–618, 2004 [25] Okamoto Masayuki and Masaaki Kikuchi Discovering volatile events in your neighborhood: Local-area topic extraction from blog entries In: 5th Asia Information Retrieval Symposium (AIRS 2009) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5839:181–192, 2009 [26] John Naisbitt Megatrends: Ten new directions transforming our lives In Grand Central Publishing, 1998 [27] Minh-Tien Nguyen and Tri-Thanh Nguyen Extraction of disease events for a real-time monitoring system In SoICT, Danang, Vietnam, 2013 TÀI LIõU THAM KHÉO 48 [28] Yoko Nishihara, Keita Sato, and Wataru Sunayama Event extraction and visualization for obtaining personal experiences from blogs HCI (9), pages 315–324, 2009 [29] Leonid Peshkin and Avi Pfeffer Bayesian information extraction network In Proc of the 18th International Joint Conference on Artificial Intelligence (IJCAI), 2003 [30] Cimiano Philipp and Steffen Staab Learning by googling In SIGKDD Explorations Newsletter 6(2), 24–33, 2004 [31] Jakub Piskorski, Hristo Tanev, and Pinar Oezden Wennerberg Extracting violent events from on-line news for ontology population In: 10th International Conference on Business Information Systems (BIS 2007) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 4439:287–300, 2007 [32] Vasin Punyakanok, Dan Roth, and Wen tau Yih The importance of syntactic parsing and inference in semantic role labeling In Computational Linguistics 34(2), 257–287, 2008 [33] Adwait Ratnaparkhi A maximum entropy model for part-of-speech tagging Proceedings of the Conference on Empirical Methods in Natural Language Processing, Vol 1:133–142, 1996 [34] Ronald Rosenfeld A maximum entropy approach to adaptive statistical language modelling Computer Speech & Language, 10.3:187–228, 1996 [35] Pakhomov Serguei Semi-supervised maximum entropy based approach to acronym and abbreviation normalization in medical texts In In: 40th Annual Meeting of the Association for Computational Linguistics (ACL 2002) pp 160–167 Association for Computational Linguistics, 2002 [36] Keh-Yih Su, Tung-Hui Chiang, and Jing-Shin Chang An overview of corpusbased statistics-oriented (cbso) techniques for natural language processing In Computational Linguistics and Chinese Language Processing 1(1), 101–157, 1996 [37] Hristo Tanev, Jakub Piskorski, and Martin Atkinson Real-time news event extraction for global crisis monitoring In Proceedings of the 13th International Conference on Applications of Natural Language to Information Systems (NLDB 2008) Lecture Notes in Computer Science, Vol 5039, Springer-Verlag Berlin Heidelberg:pp 207–218, 2008 [38] Mai-Vu Tran, Minh-Hoang Nguyen, Sy-Quan Nguyen, Minh-Tien Nguyen, and Xuan-Hieu Phan Vnloc: A real-time news event extraction framework for TÀI LIõU THAM KHÉO 49 vietnamese The Fourth International Conference on Knowledge and Systems Engineering (KSE), pages pp 161–166, 2012 [39] Svitlana Volkova, Doina Caragea, William H Hsu, and Swathi Bujuru Animal disease event recognition and classification 2010 [40] Feiyu Xu, Hans Uszkoreit, and Hong Li Automatic event and relation detection with seeds of varying complexity In In: AAAI Workshop on Event Extraction and Synthesis, 2006 [41] Akane Yakushiji, Yuka Tateisi, Yusuke Miyao, and Jun’ichi Tsujii Event extraction from biomedical papers using a full parser In Pacific Symposium on Biocomputing 2001:408-419, 2001 Phˆ lˆc 50 ... chọn thời gian Luật Trích chọn tên bệnh Sự kiện Dữ liệu Từ điển tên bệnh Trích chọn địa điểm Cây phân cấp địa điểm Hình 3.3: Thành ph¶n trích chn sá kiên gm ba chc nng: trớch chn thèi gian, trích. .. thu thập liệu Tiền xử lý liệu Bộ phát kiện Bộ trích chọn kiện Trực quan hố Hình 3.1: Q trình phát hiên v trớch chn sá kiên t cỏc trang trờn Internet chuy∫n cho thành ph¶n ti∑n x˚ l˛ d˙ liêu ã Tin... cıa bỴ phân lĨp (giám sát ho∞c khơng giám sát) Trong ó tốn phân lĨp ã §t ˜Òc nh˙ng k∏t qu£ kh£ quan ti∏ng Anh, nú vđn gp nhiu khú khn ting Viêt ∞c tr˜ng ngơn ng˙ Th˘ hai, q trình trích chÂn phˆ

Ngày đăng: 16/03/2021, 12:31

Mục lục

  • Tổng quan về bài toán trích xuất sự kiện

    • Bài toán trích xuất thông tin từ dữ liệu lớn

      • Bài toán trích xuất thông tin

      • Dữ liệu lớn - Cơ hội và thách thức cho lĩnh vực trích chọn thông tin

      • Tổng quan về sự kiện

        • Định nghĩa sự kiện

        • Trích chọn sự kiện

        • Bài toán trích chọn sự kiện dịch bệnh

          • Trích chọn sự kiện dịch bệnh - Ý nghĩa và tầm quan trọng

          • Phát hiện sự kiện

          • Trích chọn sự kiện

          • Ý nghĩa bài toán trích chọn sự kiện dịch bệnh

            • Ý nghĩa khoa học

            • Ý nghĩa thực tế

            • Khó khăn và thách thức

            • Một số phương pháp tiếp cận

              • Phương pháp tiếp cận dựa trên luật

                • Luật cú pháp

                • Phương pháp tiếp cận dựa trên học máy

                • Phương pháp kết hợp luật và học máy

                • Một số nhận xét

                • Mô hình đề xuất

                  • Các đặc tính của sự kiện dịch bệnh

                  • Phát biểu bài toán

                  • Phương pháp đề xuất

                  • Mô hình phát hiện và trích chọn sự kiện

                  • Bài toán phát hiện sự kiện

                    • Phát biểu bài toán

                    • Xây dựng tập luật

Tài liệu cùng người dùng

Tài liệu liên quan