Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
1,93 MB
Nội dung
ÑI H≈C QU»C GIA HÀ NÀI TR◊ÕNG ÑI H≈C CÔNG NGHõ NGUN MINH TIịN TRÍCH CH≈N S‹ KIõN D¿CH BõNH CHO Hõ TH»NG GIÁM SÁT TR‹C TUN LN VãN THĐC Sfl CÔNG NGHõ THÔNG TIN HÀ NÀI - 2014 TIEU LUAN MOI download : skknchat@gmail.com ÑI H≈C QU»C GIA HÀ NÀI TR◊ÕNG ĐI H≈C CƠNG NGHõ NGUN MINH TIịN TRÍCH CH≈N S‹ KIõN D¿CH BõNH CHO Hõ TH»NG GIÁM SÁT TR‹C TUN Ngành: Cơng nghª Thơng tin Chun ngành: Mã sË: Hª thËng Thơng tin 60480104 LN VãN THĐC Sfl CÔNG NGHõ THÔNG TIN NG◊ÕI H◊ŒNG DàN KHOA HOC: Ti∏n sˇ Nguyπn Trí Thành HÀ NÀI - 2014 TIEU LUAN MOI download : skknchat@gmail.com LÌi cam oan Tơi xin cam oan lun Trớch chn sá kiên dch bênh cho thậng giỏm sỏt trác tuyn l cụng trỡnh nghiờn c˘u cıa riêng tơi Các sË liªu, k∏t qu£ ˜Ịc trình bày lu™n v´n hồn tồn trung th¸c v cha tng ềc cụng bậ bòt k mẻt cụng trỡnh no khỏc Tụi ó trớch dđn ảy tài liªu tham kh£o, cơng trình nghiên c˘u liên quan n˜Ĩc qc t∏ Ngo§i tr¯ tài liªu tham kh£o này, lu™n v´n cơng viªc cıa riêng tơi Hà NỴi, ngày tháng n´m 2014 Tác gi£ Nguyπn Minh Ti∏n TIEU LUAN MOI download : skknchat@gmail.com LÌi c£m Ïn Tr˜Ĩc tiên, tơi xin g˚i lÌi c£m Ïn sâu s≠c nhßt tĨi TS Nguyπn Trí Thành, ngi ã t™n tình chø b£o h˜Ĩng d®n tơi quỏ trỡnh thác hiên lun tật nghiêp Tụi xin g˚i lÌi c£m Ïn chân thành tĨi PGS.TS Hà Quang Thˆy, ng˜Ìi ã t™n tình giúp Ơ, ‡nh h˜Ĩng góp ˛ cho tơi st thÌi gian tơi nghiờn cu v lm viêc tĐi phũng thớ nghiêm Cụng nghª Tri th˘c (Knowledge Technology Laboratory - KT-Lab) Tơi xin g˚i lÌi c£m Ïn tĨi TS Phan Xn Hi∏u, nghiên c˘u sinh Tr¶n Mai VÙ, nh˙ng ng˜Ìi ã cÍ vÙ, giúp Ơ óng góp ˛ ki∏n cho tơi st q trình hÂc t™p nghiên c˘u t§i tr˜Ìng §i hÂc Cơng nghª - §i hÂc Qc gia Hà Nẻi Tụi chõn thnh cÊm ẽn cỏc thảy, cụ, v cỏn bẻ trèng Đi hc Cụng nghê Đi hc Quậc gia H Nẻi ó giÊng dĐy v tĐo iu kiên thu™n lỊi cho tơi hÂc t™p, nghiên c˘u, hồn thành lu™n v´n Bên c§nh ó, tơi xin c£m Ïn cỏc anh, ch, v cỏc bĐn sinh viờn thuẻc phũng nghiên c˘u Cơng nghª Tri th˘c (KT-Lab) ã giúp Ơ tơi hồn thành lu™n v´n Tơi xin g˚i lÌi c£m ẽn tểi nhng ng nghiêp tĐi Bẻ mụn Cụng nghê Phản mm - Khoa Cụng nghê Thụng tin - Trèng §i hÂc S˜ ph§m Kˇ Thu™t H˜ng Yên ã ıng hỴ, cÍ vÙ tơi st thÌi gian hÂc t™p, nghiên c˘u hồn thành lu™n v´n Ci cùng, tơi mn g˚i lÌi c£m Ïn ∞c biªt tĨi gia ình, b§n bè, nh˙ng ng˜Ìi thân u ln bên c§nh Ỵng viên tơi st q trình hÂc t™p thác hiên lun tật nghiêp Tụi xin chõn thnh c£m Ïn! HÂc viên Nguyπn Minh Ti∏n TIEU LUAN MOI download : skknchat@gmail.com Mˆc lˆc TÍng quan v∑ bi toỏn trớch xuòt sá kiên 1.1 Bi toỏn trớch xuòt thụng tin t d liêu lển 1.1.1 Bài tốn trích xt thơng tin 1.1.2 D˙ liªu lĨn - Cẽ hẻi v thỏch thc cho lổnh vác trớch chÂn thông tin 1.2 Tng quan v sá kiên 1.2.1 ‡nh nghỉa s¸ kiªn 1.2.2 Trớch chn sá kiên 1.3 Bài tốn trích chÂn s¸ kiªn d‡ch bªnh 1.3.1 Trớch chn sá kiên dch bênh - nghổa v tảm quan trng 1.3.2 Phỏt hiên sá kiên 1.3.3 Trớch chn sá kiên 1.4 fi nghỉa tốn trích chn sá kiên dch bênh 1.4.1 fi nghæa khoa hÂc 1.4.2 fi nghỉa th¸c t∏ 1.5 Khó kh´n thách th˘c 1.6 TÍng k∏t 8 9 10 10 10 11 11 MỴt sË ph˜Ïng pháp ti∏p c™n 2.1 Ph˜Ïng pháp ti∏p c™n d¸a lu™t 2.1.1 Lu™t cú pháp 2.1.2 Lu™t ng˙ nghæa 2.2 Ph˜Ïng pháp ti∏p c™n d¸a hÂc máy 2.3 Ph˜Ïng pháp k∏t hỊp lu™t hÂc máy 2.4 MỴt sË nh™n xét 2.5 TÍng k∏t 12 12 12 13 14 15 15 17 18 18 19 20 20 Mơ 3.1 3.2 3.3 3.4 hình ∑ xt Các ∞c tớnh ca sá kiên dch bênh Phỏt biu bi toỏn Ph˜Ïng pháp ∑ xußt Mụ hỡnh phỏt hiên v trớch chn sá kiªn TIEU LUAN MOI download : skknchat@gmail.com 1 M÷C L÷C 3.5 3.6 3.7 Bi toỏn phỏt hiên sá kiên 3.5.1 Phát bi∫u toán 3.5.2 Xây d¸ng t™p lu™t 3.5.3 Xây d¸ng mơ hình phân lĨp Bài tốn trớch chn sá kiên 3.6.1 Phát bi∫u toán 3.6.2 Trích chÂn thÌi gian 3.6.3 Trích chÂn tên bªnh 3.6.4 Trích chÂn ‡a i∫m TÍng k∏t Thác nghiêm v ỏnh giỏ kt qu£ 4.1 Mơi tr˜Ìng cơng cˆ cài ∞t 4.1.1 Còu hỡnh phản cng 4.1.2 Cơng cˆ ph¶n m∑m 4.1.3 Các gói ch˜Ïng trình 4.2 Xây dáng d liêu 4.2.1 Thu th™p d˙ liªu 4.2.2 Ti∑n x˚ l˛ d˙ liªu 4.3 ỏnh gớa quỏ trỡnh phỏt hiên sá kiên 4.3.1 ỏnh giỏ bẻ lc d liêu 4.3.2 ánh giá q trình phân lĨp 4.4 ánh gớa quỏ trỡnh trớch chn sá kiên 4.5 Phân tích lÈi bàn lu™n 4.5.1 Phân tớch lẩi bẻ lc d liêu 4.5.2 Phân tích lÈi q trình trích chÂn s¸ 4.6 TÍng k∏t kiªn 21 21 22 24 25 25 26 27 27 29 30 30 30 30 30 32 32 33 33 33 34 35 37 37 37 41 TIEU LUAN MOI download : skknchat@gmail.com Danh mˆc t¯ vi∏t t≠t STT 10 11 12 13 14 15 T¯ vi∏t t≠t IE IR DM DSSs OMSs RSs MUC ACE NOAA TDT NLP NER TF-IDF CRFs Maxent T¯ ¶y ı Information Extraction Information Retrieval Data Mining Decision Supporting Systems Online Monitoring Systems Recommendation Systems Message Understanding Conference Automatic Content Extraction National Oceanic and Atmospheric Administration Topic Detection and Tracking Natural Language Processing Named Entity Recognition Term Frequency - Inverse Document Frequency Conditional Random Fields Maximum Entropy Model TIEU LUAN MOI download : skknchat@gmail.com Danh sách b£ng 1.1 ThËng kê d˙ liªu Twitter 3.1 Danh sách t¯/cˆm t¯ th˜Ìng xuyên 23 4.1 4.2 4.3 4.4 4.5 4.6 4.7 Còu hỡnh phản cng ềc s dng thác nghiêm Cơng cˆ ph¶n m∑m ˜Ịc s˚ dˆng thác nghiêm Danh sách lĨp t¯ng gói ph¶n m∑m Cỏc thnh phản ca mẻt bi bỏo T lª lÈi cıa ch˘c n´ng lÂc d˙ liªu So sánh kh£ n´ng phân lĨp gi˙a Thí nghiªm a and Thí nghiêm b So sỏnh ẻ chớnh xỏc quỏ trỡnh trích chÂn gi˙a Thí nghiªm c and Thí nghiªm d LÈi Thí nghiªm c (15 25 lÈi) LÈi Thí nghiªm d 30 31 32 33 34 35 4.8 4.9 TIEU LUAN MOI download : skknchat@gmail.com 36 38 39 Danh sách hình v≥ 1.1 1.2 1.3 Sá tng trng d liêu t nm 2004 ∏n n´m 2020 D˙ liªu Internet 60 giây Các b˜Ĩc q trình khám phá tri th˘c cÏ s d˙ liªu [15] 3.1 3.2 3.3 3.4 Q trình phỏt hiên v trớch chn sá kiên Thnh phản phỏt hiên sá kiên Thnh phản trớch chn sá kiên Bi∫u diπn cıa phân cßp ‡a i∫m TIEU LUAN MOI download : skknchat@gmail.com 21 22 25 28 LÌi nói ¶u Trích chÂn/trích xt thơng tin (Information Extraction - IE), ∞c biêt l trớch chn/trớch xuòt sá kiên (Event Extraction - EE) l mẻt lổnh vác khai phỏ d liªu (Data Mining - DM) K∏t qu£ cıa q trình trích chÂn có th∫ ˜Ịc dùng cho hª thËng hÈ trÒ quy∏t ‡nh (Decision Supporting Systems - DSSs), cỏc thậng t vòn (Recommendation Systems - RSs), hoc cỏc thậng giỏm sỏt trác tuyn (Online Monitoring Systems - OMSs) [20] Nhng nm gản õy, trớch chn sá kiên ó thu hỳt nhiu sá quan tõm t cỏc nh khoa hc lổnh vác khai phỏ d liêu nói chung trích chÂn thơng tin nói riêng Trích chn sá kiên ềc xuòt lản ảu tiờn tĐi hỴi th£o Message Understanding Conference n´m 1987 [19] Trong hỴi ngh ny, mẻt sá kiên ềc nh nghổa nh sau: mẻt sá kiên bt buẻc phÊi cú tỏc nhõn (actor), thèi gian xÊy sá kiên (time), a im (place) tác Ỵng tĨi mơi tr˜Ìng xung quanh (impact on the surrounding environment) Bênh c§nh ó, ch˜Ïng trình Automatic Content Extraction (ACE) a nh nghổa: sá kiên l mẻt hnh ẻng ềc tĐo bi ngèi tham gia v ềc chia thnh tỏm loĐi: cuẻc sậng (life), sá di chuyn (movement), sá chuyn (transection), kinh doanh (business), xung ẻt (conflict), liên hª (contact), ng˜Ìi (personnel) lu™t phát (justice) Theo inh nghổa ca Allen v cẻng sá [1], mẻt sá kiên bao gm bận thuẻc tớnh: phẽng thc (modality), sá phõn (Positive, Negative), mc ẻ (Specific, Generic) thÌi i∫m (Past, Present, Future, Unspecified) Lu™n v´n "Trích chn sá kiên dch bênh cho thậng giỏm sỏt tr¸c tuy∏n" t™p trung vào nghiên c˘u cách th˘c ph˜Ïng pháp gi£i quy∏t tốn trích chÂn s¸ kiªn d‡ch bªnh Qua ó, ˜a mơ hình, gi£i phỏp cho vòn trớch chn sá kiên dch bênh mi∑n d˙ liªu ti∏ng Viªt Lu™n v´n s˚ dˆng ph˜Ïng pháp k∏t hÒp gi˙a lu™t (rule-based) hÂc máy ∫ gi£i quy∏t hai tốn lĨn nghiên c˘u, ú l: bi toỏn phỏt hiên sá kiên v bi toỏn trớch chn sá kiên Kt quÊ ca nghiờn cu l danh sỏch cỏc sá kiên dch bênh ềc trác quan húa trờn thậng giỏm sỏt trác tuyn, nẽi mà ng˜Ìi dùng có th∫ theo dõi tình hình diπn bin dch bênh trờn lónh th Viêt Nam Còu trỳc lu™n v´n ˜Ịc chia làm bËn ch˜Ïng, nỴi dung ˜Ịc mơ t£ nh˜ sau: Ch˜Ïng 1: TÍng quan v∑ toỏn trớch chn sá kiên Chẽng ny trỡnh by cẽ bÊn v bi toỏn trớch chn sá kiên bậi c£nh bùng 10 TIEU LUAN MOI download : skknchat@gmail.com CH◊ÃNG TH‹C NGHIõM VÀ 36 ÁNH GIÁ KòT QUÉ cıa quỏ trỡnh phỏt hiên sá kiên Do mẻt sá kiên E ềc nh nghổa l mẻt bẻ gm tờn bênh, thÌi gian, ‡a i∫m bùng phát d‡ch bªnh nh˜ cụng thc (3.1), nh vy mẻt sá kiên ỳng nên ch˘a ¶y ı ba thành ph¶n Khi y∏u tậ thèi gian ca sá kiên khụng ềc cp rõ ràng, tác gi£ s˚ dˆng ngày xußt b£n bỏo nh l thèi gian ca sá kiên Trong cỏc trèng hềp khỏc, nu mẻt sá kiên khụng bao gm tên bªnh ho∞c ‡a i∫m bùng phát ˜Ịc xem l mẻt sá kiên sai ỏnh giỏ ẻ xác cıa q trình trích chÂn, tác gi£ ti∏n hành hai thí nghiªm có tên thí nghiªm c v thớ nghiêm d Thớ nghiêm th nhòt s dˆng lu™t ó thí nghiªm th˘ hai k∏t hÒp lu™t hÂc máy (NER) Tác gi£ s˚ dˆng ba Ỵ o Ỵ xác (Precision - P), Î hÁi t˜ng (Recall - R), Î o F (F-score) ∫ so sánh kh£ n´ng trích chÂn cıa hai thớ nghiêm Cỏc ẻ o ny ềc biu din cơng th˘c (4.2), (4.3), (4.4) Ỵ xác (P) = sậ sá kiên ỳng sậ sá kiên ỳng + sậ sá kiên sai (4.2) vểi: ã sậ sá kiên ỳng l sậ sá kiên ềc mụ hỡnh trớch chn chớnh xỏc ã sậ sá kiên sai l sậ sá kiên ềc mụ hỡnh trớch chn sai ẻ hi tng (R) = sậ sá kiên ỳng sậ sá kiên ỳng + sậ sá kiên khụng ềc tỡm thòy (4.3) vểi: ã sậ sá kiên ỳng l sậ sá kiên ềc mụ hỡnh trớch chn chớnh xỏc ã sậ sá kiên khụng ềc tỡm thòy l sậ sá kiên m thnh phản trớch chn khụng tỡm thòy F1 = 2P R (P + R) (4.4) D¸a cơng th˘c (4.2), (4.3), (4.4), tác gi£ so sánh kh£ n´ng trích chÂn cıa Thí nghiªm c Thí nghiªm d K∏t qu£ so sánh ˜Ịc minh ho§ b£ng 4.7, ó hng th hai minh hoĐ kt quÊ ca Thớ nghiêm c hàng th˘ ba minh ho§ k∏t qu£ Thớ nghiêm d BÊng 4.7: So sỏnh ẻ chớnh xỏc q trình trích chÂn gi˙a Thí nghiªm c and Thí nghiªm d Tên thí nghiªm Thí nghiªm c Thí nghiªm d Sậ sá kiên 127 136 ỳng Sậ sá kiên sai 25 16 P (%) 83.55 89.47 R (%) 92.02 94.44 F1 87.58 91.89 Trong Thớ nghiêm c, ẻ o F kho£ng ⇡87.58% ⇡91.89% Thí nghiêm d Kt quÊ chng minh ẻ chớnh xỏc thí nghiªm th˘ hai TIEU LUAN MOI download : skknchat@gmail.com CH◊ÃNG TH‹C NGHIõM VÀ ÁNH GIÁ KòT QUÉ 37 ˜Ịc c£i thiªn ⇡4.31% so vĨi thí nghiªm th˘ nhòt Nguyờn nhõn ca sá khỏc biêt ny s ềc trình bày ph¶n ti∏p theo cıa lu™n v´n 4.5 4.5.1 Phân tích lÈi bàn lu™n Phân tích lÈi bẻ lc d liêu Trong quỏ trỡnh phỏt hiên sá kiên, kt quÊ bÊng 4.5 bẻ lc d liêu hoĐt ẻng khụng tật mẻt sậ tr˜Ìng hỊp ∫ tìm ngun nhân t lª lÈi cao (36%), tác gi£ ki∫m tra thı công báo ˜Ịc l¸a trÂng mˆc 4.3.1 K∏t qu£ phân tớch cỏc trèng hềp bẻ lc d liêu hoĐt ẻng khụng tật, mẻt vi lut M®u (3.2) M®u (3.3) khơng phı h∏t tr˜Ìng hỊp cıa d˙ liªu Ngun nhân chı ∑ có th∫ có mỴt Ỵng t¯ Ví dˆ, Ỵng t¯ t˚ vong có th∫ thc chı dch bênh hoc cha bênh Nu ẻng t ny xuòt hiên mẻt bi bỏo, bẻ lc d liêu s cho bi bỏo thuẻc ch dch bênh; nhiờn, thác th nú lĐi thuẻc ch ch˙a bªnh nh˜ Ví dˆ Ví dˆ 7: Uậng thuậc hĐ sật sau 30 phỳt bênh nhõn t vong" Vớ d ny ềc phỏt hiên bi Mđu (3.2) - “bªnh nhân # t˚ vong", nhiên, thác t, nguyờn nhõn t vong liờn quan tểi viêc ch˙a tr‡ (ng thc) thay b‡ nhiπm bªnh HÏn na, mẻt sậ lut ca Mđu (3.3) (mđu kt hềp gia mẻt tờn bênh v mẻt ẻng t) nhảm lđn gia sá kiên dch bênh v ch liờn quan tĨi bªnh nh˜ Ví dˆ Ví dˆ 8: “Phát hiªn chıng virus mĨi gây bªnh tay chân miêng" Lut ca Mđu (3.3) - tay chõn miêng # phỏt hiên" phỏt hiên sá kiên vớ dˆ trênm; nhiên, ví dˆ ∑ c™p tĨi viêc phỏt hiên mẻt chng virus mểi ca bênh tay chõn miêng ch khụng phÊi l sá bựng phỏt cıa bªnh tay chân miªng 4.5.2 Phân tích lÈi q trỡnh trớch chn sá kiên Trong pha trớch chn sá kiên, kt quÊ bÊng 4.7 ẻ xác cıa q trình trích chÂn Thí nghiªm d cao hẽn Thớ nghiêm c 5.92% Ban ảu, tỏc gi£ ng§c nhiên vĨi k∏t qu£ so sánh Thí nghiªm c s˚ dˆng lu™t ∫ trích chÂn thơng tin Thơng th˜Ìng, s˚ dˆng lu™t s≥ cho Ỵ chớnh xỏc cao tỡm nguyờn nhõn lẩi xuòt hiên pha trích chÂn, tác gi£ ki∫m tra thı cơng báo cho k∏t qu£ không úng c£ hai thớ nghiêm ( ềc cp phản 4.4) K∏t qu£ ki∫m tra ˜Ịc th∫ hiªn b£ng 4.8 4.9 K∏t qu£ thËng kê b£ng 4.8 4.9 nguyờn nhõn gõy lẩi quỏ trỡnh trớch chn cÊ hai thớ nghiêm xuòt phỏt t¯ q trình trích chÂn ‡a i∫m, q tình trích chÂn tên bªnh Trong Thí nghiªm c, tỏc giÊ nhn cỏc lut ềc s dˆng q trình trích chÂn khơng bao phı h∏t TIEU LUAN MOI download : skknchat@gmail.com CH◊ÃNG TH‹C NGHIõM VÀ STT Doc ID 13 17 24 26 32 64 65 10 11 12 13 79 89 92 96 14 15 105 108 ÁNH GIÁ KòT QUÉ B£ng 4.8: LÈi Thí nghiªm c (15 25 lÈi) Mơ t£ lÈi Thơng tin úng Thơng tin trích chÂn Congo NULL Th‡ trßn Kon-Plong Ly, tønh Pray NULL Veng Ph˜Ìng 6, Qu™n 8, Ph˜Ìng 14, Qu™n 5, Qu™n 8, Ph˜Ìng 7, Qun Thnh phậ H Chớ Minh Bỡnh ThĐnh, Huyên Húc Mụn xúm 1, tr tròn Ngụ Dng, huyên Nam ‡nh Giao Thu , tønh Nam ‡nh tay chân miªng bênh sật xuòt huyt phèng 8, qun 5, thnh phậ HÁ Chí qu™n Long Biên Minh ph˜Ìng 7, qu™n 8, thnh phậ HCM NULL bênh sật rột bênh sật xuòt huy∏t xóm 3, ph˜Ìng Tran Hung Dao, NỈng thành phË Kon Tum Hà nỴi NULL cúm A/H1N1 viêm phÍi (triêu chng) cỳm A/H1N1 bênh lao th tròn Ea Tling xã: Nam NULL Dông, Tam Th≠ng, D’Dak Rong d‡ch t£ tiêu ch£y cßp xã Tam Quan, thành phË Tam DÊo, xó Tam Quan Quan Nẻi, Quan NgoĐi, lng Chanh, làng Màu, Nhân Ly TIEU LUAN MOI download : skknchat@gmail.com 38 CH◊ÃNG TH‹C NGHIõM VÀ STT Doc ID 16 17 21 23 25 26 32 39 10 40 45 11 46 12 47 13 69 14 84 15 16 106 109 ÁNH GIÁ KòT QUÉ B£ng 4.9: LÈi Thí nghiªm d Mơ t£ lÈi Thơng tin úng Thơng tin trích chÂn làng Thanh Long, xã Ph˜Ĩc Mˇ, Bình ‡nh thành phË Quy NhÏn huyªn Giao Thıy, Nam ‡nh, cúm Nam ‡nh, cúm A (H5N1) Mπ S, V´n Giang, H˜ng Yên H˜ng Yên Bà R‡a - VÙng Tàu NULL xóm 4, xã Hịa An, huyªn Krong xã Hịa An, huyªn Chiêm Hóa, Pac, Dak Lak Tun Quang ph˜Ìng 8, qu™n 5, thành phË HÁ Chí NULL Minh (P.8, Q.5, TP HCM) ph˜Ìng 7, qu™n 8, thành phË HCM NULL (P.7, Q.8, TP HCM) M‰ Cày Nam, M‰ Cày B≠c, GiÁng B∏n Tre Trơm, Th§nh Phú, Châu Thành, Ba Tri, ChỊ Lách ph˜Ìng 6, qu™n (P.6, Q.8) TP HCM H˜ng n, n ‡nh, Thanh Hóa, Hà NỴi, Vỉnh Phúc Vỉnh Phúc, Ba ình, Hà NỴi Thu™n An, Dỉ An, huyên Bn Cỏt, Bỡnh Dẽng th tròn Th Dảu MỴt, Bình D˜Ïng ph˜Ìng Kim Long H˜Ïng Long, NULL thnh phậ Hu lng Tõn An Hẻi, huyên C Chi, NULL thành phË HCM ph˜Ìng Thanh Bình, qu™n H£i ph˜Ìng Thanh Bình, thành phË Châu, thành phË NỈng, ak Lak Ninh Binh,thành phË NỈng, qu™n H£i Châu ph˜Ìng 7, qu™n Tân Bình qu™n qu™n Hồng Mai, Hai Bà Tr˜ng, Hà NỴi Thanh Xn, qu™n Hồn Ki∏m, Thanh Trì, Ëng a, Qu£ng Ninh, B≠c Giang, Nam ‡nh, Thái Bình, Hà Nam, H˜ng Yên TIEU LUAN MOI download : skknchat@gmail.com 39 CH◊ÃNG TH‹C NGHIõM VÀ ÁNH GIÁ KòT Q 40 tr˜Ìng hỊp Trong mỴt sË tr˜Ìng hỊp, n∏u thơng tin ‡a i∫m ˜Ịc vi∏t t≠t, nh˜ v™y lu™t khơng th∫ nh™n ˜Ịc nh˙ng thơng tin nh˜ Ví dˆ Ví dˆ 9: Phỏt hiên mẻt trèng hềp bênh nhõn nhim cỳm A H5N1 t§i P.7, Q.8, TP HCM" Trong ví dˆ này, ph˜Ìng 7, qu™n 8, thành phË HÁ Chí Minh ˜Ịc vi∏t t≠t; ó, lu™t khơng th∫ nh™n ˜Ịc thơng tin Trong Thí nghiªm d, ngun nhân làm gi£m Ỵ xác cıa q trình trích chÂn Ỵ xác cıa bỴ nh™n dĐng thác th (NER) Trong mẻt sậ trèng hềp, bẻ nhn dĐng thác th khụng th phỏt hiên cỏc ‡a i∫m ˜Ịc vi∏t t≠t (nh˜ ví dˆ 9) Trong mẻt sậ trèng hềp khỏc, bẻ nhn dĐng thác th∫ b‰ qua thơng tin ‡a i∫m ˜Ịc ∑ c™p nh˜ thơng tin v∑ tÍ ch˘c nh˜ Ví dˆ 10 Ví dˆ 10: “Ngày 12/03/2012, d‡ch tiêu chÊy còp ó bựng phỏt tĐi H Nẻi, HÊi Phũng, Qu£ng Ninh, B∏n Tre, C¶n ThÏ" Trong ví dˆ này, Hà NỴi, H£i Phịng, Qu£ng Ninh, B∏n Tre, Cản Thẽ ềc nhn dĐng nh nhng t chc ( ˜Ịc gán nhãn ) Nh˙ng thơng tin s≥ b‡ b‰ qua q trình trích chÂn Trong cÊ hai thớ nghiêm, mẻt vi tờn bênh sau quỏ trỡnh trớch chn khụng chớnh xỏc chỳng khụng năm t¯ i∫n tên bªnh HÏn n˙a, t¯ i∫n tên bênh cha mẻt sậ tờn bênh giậng vểi cỏc triêu chng ca bênh, nh vy, sá tẽng ẽng ny tĐo sá nhảm lđn quỏ trỡnh trớch chn tờn bªnh Ví dˆ, b£ng 4.8, tên bªnh A H5N1 báo th˘ 89 ˜Ịc phát hiªn nh˜ bªnh viờn phi (pneumonia) viờm phi l mẻt triêu trng ca cỳm A/H5N1 Bờn cĐnh ớ, cú mẻt sậ yu tậ tỏc ẻng lm giÊm hiêu quÊ ca quỏ trỡnh trớch chn ảu tiờn, cỏc lẩi soĐn thÊo ca ‡a i∫m báo làm gi£m Ỵ xác cıa q trình trích chÂn Ví dˆ, “ ≠k L≠k" ˜Òc vi∏t “ ≠c L≠c", nhiên “ c Lc" khụng xuòt hiên t in a im Nh˜ v™y, thơng tin v∑ ‡a i∫m có th∫ b‡ b‰ qua Th˘ hai, n∏u thông tin cıa ‡a i∫m khơng ˜Ịc mơ t£ mỴt cách rõ ràng nh˜ “các huyên phớa Tõy ca tứnh Bn Tre"; nh vy, bẻ nhn dĐng thác th khụng th nhn dĐng ềc cỏc thơng tin Ci cùng, mỴt ngun nhân quan trÂng khỏc l sá nhp nhăng ca a im Trong thác t∏, mỴt tên ‡a i∫m có th∫ ˜Ịc ∞t tên cho nhi∑u ‡a danh N∏u báo không ∑ c™p thông tin rõ ràng, thông tin ‡a i∫m cú th b nhảm lđn nh Vớ d 11 Ví dˆ 11: “Ngày 05/10/2012, S Y t∏ Qu£ng Ninh thụng bỏo ó phỏt hiên vi khuân tÊ tĐi th trßn ơng H£i" Trong ví dˆ này, th‡ trßn ơng H£i ‡a danh có th∫ thc c£ Trà Vinh Qu£ng Ninh, nhiên báo chø ∑ câp tĨi tên th‡ trßn, nh˜ v™y ch˘c n´ng trích chÂn khơng th∫ quy∏t ‡nh ơng H£i thc Qu£ng Ninh hay Trà Vinh Nguyên nhân gây lÈi khác ∏n t¯ thông tin khơng ¶y ı cıa ‡a i∫m, ví dˆ TIEU LUAN MOI download : skknchat@gmail.com CH◊ÃNG TH‹C NGHIõM VÀ NH GI KũT QUẫ 41 nh mẻt sậ thnh phản cıa v‡ trí ˜Ịc trích chÂn nh˜ hàng th˘ cıa b£ng 4.8 (chø Nam ‡nh ˜Ịc trích chÂn) b£ng 4.9 (chø Bình D˜Ïng ˜Ịc trích chÂn) Nguyên nhân cuËi ‡a i∫m ˜Òc ∑ c™p báo không ph£i ‡a i∫m bùng phát d‡ch bªnh Do ó, thơng tin ˜Ịc trích chÂn khơng xác nh˜ hàng cıa b£ng 4.8 hàng cıa b£ng 4.9 4.6 TÍng k∏t Trong ch˜Ïng tác gi£ ã trình bày cỏc kt quÊ thác nghiêm chng minh phẽng phỏp xuòt chẽng Kt quÊ thác nghiêm trung vào hai tốn quan trÂng, ó tốn phỏt hiên sá kiên v bi toỏn trớch chn sá kiên Kt quÊ thác nghiêm cho thòy phẽng phỏp xuòt phự hềp cho bi toỏn trớch chn sá kiên dch bênh Bờn cĐnh ú, tỏc giÊ cng nh˙ng tr˜Ìng hỊp làm gi£m Ỵ xác pha phỏt hiên v trớch chn sá kiên TIEU LUAN MOI download : skknchat@gmail.com TÍng k∏t K∏t qu£ §t ˜Ịc Lu™n v´n ã trình bày ki∏n th˘c cÏ b£n v∑ trớch chn sá kiên v trớch chn sá kiên dch bênh trờn d liêu ting Viêt Bờn cĐnh ú, lu™n v´n ã trình bày chi ti∏t ph˜Ïng pháp tip cn bi toỏn trớch chn sá kiên v trung vào ph˜Ïng pháp k∏t hỊp gi˙a lu™t ng˙ nghỉa hÂc máy ∫ gi£i quy∏t tốn phát hiªn v trớch chn sá kiên dch bênh Lun cng ∑ xt mơ hình gi£i quy∏t hai tốn quan trÂng, ó là: tốn phát hiªn tốn trớch chn sá kiên, thụng qua ú trớch chn cỏc sá kiên dch bênh dựng cho thậng giỏm sỏt trác tuyn Vn-Loc Trong bi toỏn phỏt hiên sá kiên, lu™n v´n s˚ dˆng ph˜Ïng pháp k∏t hÒp gi˙a lu™t hÂc máy, vĨi tốn trích chÂn sá kiên, lun s dng lut trớch chn thÌi gian, t¯ i∫n tên bªnh ∫ trích chÂn tên bênh hÂc máy (NER) k∏t hỊp vĨi t¯ i∫n ‡a i∫m ∫ trích chÂn ‡a i∫m bùng phát d‡ch bênh Kt quÊ thác nghiêm cho thòy phẽng phỏp kt hÒp gi˙a lu™t hÂc máy cho k∏t qu£ tËt mi∑n d˙ liªu ti∏ng Viªt Lu™n v´n ã s˚ dˆng ba Ỵ o là: Ỵ o xác (precision), Î o hÁi t˜ng (recall), Î o F-1 (F-1 measured) ∫ ánh giá k∏t qu£ cıa trình phát hiên sá kiên vểi cỏc kt quÊ lản lềt l: Î o xác (75.07%), Î o hÁi t˜ng (79.76%), v ẻ o F-1 (77.33%) Bờn cĐnh ú, lun s˚ dˆng ph˜Ïng pháp ánh giá thı công toỏn trớch xuòt sá kiên, kt quÊ ẻ chớnh xỏc Đt 89.04 Kt quÊ thác nghiêm minh chng phẽng phỏp lun xuòt Đt kt quÊ khÊ quan v cú th ỏp dng thác t HĐn ch Mc dự Đt ềc nhng kt quÊ khÊ quan ban ảu, song lun phẽng phỏp lun xuòt vđn cũn mẻt sậ nhềc im cản khc phc nh sau: ã T™p lu™t ˜Ịc xây d¸ng thı cơng, o ó khó cú th bao ph ton bẻ d liêu iu d®n ∏n t™p lu™t có th∫ b‰ sót nh˙ng d liêu cú liờn quan tểi d liêu ã Kt quÊ ca bẻ phõn lểp cha cao sá nhp nhăng gia mẻt bÊn cha 42 TIEU LUAN MOI download : skknchat@gmail.com CH◊ÃNG TH‹C NGHIõM VÀ ÁNH GI KũT QUẫ 43 sá kiên dch bênh thác sá v mẻt bÊn l thụng bỏo ã Trong mỴt vài tr˜Ìng hỊp cịn x£y tr˜Ìng hỊp nh™p nhăng gia cỏc a im nu bÊn khụng ∑ c™p ı thơng tin (ví dˆ: chø nêu tên xó hoc huyên m khụng nờu ảy thụng tin) ã Cha phỏt hiên ềc cỏc sá kiên trựng lp, ch˜a gom nhóm ˜Ịc v´n b£n liên quan tĨi mẻt sá kiên theo thèi gian Hểng phỏt trin ã CÊi thiên ẻ bao ph ca lut ềc s dng pha phỏt hiên sá kiên ã Nõng cao Ỵ xác cıa mơ hình phân lĨp pha phỏt hiên sá kiên ã Nõng cao ẻ chớnh xỏc ca quỏ trỡnh nhn dĐng thác th ã GiÊi quyt bi toỏn nhp nhăng v a im xÊy sá kiên ã Phỏt hiên sá trựng lp v gom nhúm cỏc bi bỏo liờn quan tểi mẻt sá kiên TIEU LUAN MOI download : skknchat@gmail.com Cơng bË khoa hÂc • Minh-Tien Nguyen and Tri-Thanh Nguyen, “Extraction of Disease Events for a Real-time Monitoring System”, in the Proceedings of the 4th Symposium on Information and Communication Technology - SoICT, Danang, Vietnam, (December 2013) • Mai-Vu Tran, Minh-Hoang Nguyen, Sy-Quan Nguyen, Minh-Tien Nguyen, and Xuan-Hieu Phan (2012) “VnLoc: A Real–time News Event Extraction Framework for Vietnamese", in the Proceedings of the 4th International Conference on Knowledge and Systems Engineering - KSE, Danang, Vietnam, (August 2012) 44 TIEU LUAN MOI download : skknchat@gmail.com Tài liªu tham kh£o [1] James Allen, Ron Papka, and Victor Larvenko On-line new event detection and tracking SIGIR, pages pp 37–45, 1998 [2] Chinatsu Aone and Mila Ramos-Santacruz Rees: A large-scale relation and event extraction system In In: 6th Applied Natural Language Processing Conference (ANLP 2000):pp 76–83 Association for Computational Linguistics, 2000 [3] Douglas E Appelt Introduction to information extraction technology In Tutorial held at IJCAI-99, Stockholm, Sweden, 1999 [4] Adam L Berger, Vincent J Della Pietra, and Stephen A Della Pietra A maximum entropy approach to natural language processing Computational Linguistics, 22.1:39–71, 1996 [5] Jethro Borsje, Frederik Hogenboom, and Flavius Frasincar Semi-automatic financial events discovery based on lexico-semantic patterns International Journal of Web Engineering and Technology, 6(2):115–140, 2010 [6] Philippe Capet, Thomas Delavallade, Takuya Nakamura, Agnes Sandor, Cedric Tarsitano, and Stavroula Voyatzi A risk assessment system with automatic extraction of event types Intelligent Information Processing IV, IFIP International Federation for Information Processing Springer Boston, vol 288:220–229, 2008 [7] Lee Chang-Shing, Yea-Juan Chen, and Zhi-Wei Jian Ontology-based fuzzy event extraction agent for chinese e-news summarization In Expert Systems with Applications 25(3), 431– 447, 2003 [8] K Bretonnel Cohen, Karin Verspoor, Helen L Johnson, Chris Roeder, Philip V Ogren, William A Baumgartner, Elizabeth White Jr., Hannah Tipney, and Lawrence Hunter High-precision biological event extraction with a concept recognizer In In: Workshop on BioNLP: Shared Task collocated with the NAACL-HLT 2009 Meeting pp 50–58 Association for Computational Linguistics, 2009 45 TIEU LUAN MOI download : skknchat@gmail.com TÀI LIõU THAM KHÉO 46 [9] Nigel Collier, Reiko Matsuda Goodwin, John McCrae, Son Doan, Ai Kawazoe, Mike Conway, Asanee Kawtrakul, Koichi Takeuchi, and Dinh Dien An ontology-driven system for detecting global health events In Proceedings of the 23rd International Conference on Computational Linguistics Association for Computational Linguistics, 2010 [10] H Cunningham, D Maynard, K Bontcheva, and V Tablan Gate: A framework and graphical development environment for robust nlp tools and applications In In: 40th Anniversary Meeting of the Association for Computational Linguistics (ACL 2002) pp 168–175 Association for Computational Linguistics, 2002 [11] Hamish Cunningham Gate, a general architecture for text engineering In Computers and the Humanities 36(2), 223–254, 2002 [12] Son Doan, Ai Kawazoe, and Nigel Collier Global health monitor - a web-based system for detecting and mapping infectious diseases Proc International Joint Conference on Natural Language Processing (IJCNLP), Companion Volume, Hyderabad, India:pp 951–956, 2008 [13] George Doddington, Alexis Mitchell, Mark Przybocki, Lance Ramshaw, Stephanie Strassel, and Ralph Weischedel The automatic content extraction (ace) program – tasks, data, and evaluation In LREC, 2004 [14] Li Fang, Huanye Sheng, and Dongmo Zhang Event pattern discovery from the stock market bulletin In: 5th International Conference on Discovery Science (DS 2002) Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, vol 2534:35–49, 2002 [15] Usama M Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth From data mining to knowledge discovery in databases In AI Magazine (AIM) 17(3):37-54, 1996 [16] Jungermann Felix and Katharina Morik Enhanced services for targeted information retrieval by event extraction and data mining In: 13th International Conference on Natural Language and Information Systems: Applications of Natural Language to Information Systems (NLDB 2008) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5039:335–336, 2008 [17] Ralph Grishman, Silja Huttunen, and Roman Yangaber Information extraction for enhenced access to disease outbreak reports Journal of Biomedical Informastic, 35(4):pp 236–246, 2002 [18] Ralph Grishman, Silja Huttunen, and Roman Yangarber Real-time event extraction for infectious disease outbreaks Proceeding HLT ’02 Proceedings of TIEU LUAN MOI download : skknchat@gmail.com TÀI LIõU THAM KHÉO 47 the second international conference on Human Language Technology Research, 2002 [19] Ralph Grishman and Beth Sundheim Message understanding conference-6: a brief history Proceedings of the 16th conference on Computational linguistics, COLING, Stroudsburg, PA, USA, Volume 1:pp 466–471, 1996 [20] Frederik Hogenboom, Flavius Frasincar, Uzay Kaymak, and Franciska de Jong An overview of event extraction from text Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011), 779:pp 48–57, 2011 [21] Chun Hong-Woo, Young-Sook Hwang, and Hae-Chang Rim Unsupervised event extraction from biomedical literature using co-occurrence information and basic patterns In: 1st International Joint Conference on Natural Language Processing (IJCNLP 2004) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 3248:777–786, 2004 [22] John Lafferty, Kamal Nigam, and Andrew McCallum Using maximum entropy for text classification IJCAI-99 Workshop on Machine Learning for Information Filtering, Vol.1:61–67, 1999 [23] Mingrong Liu, Yicen Liu, Liang Xiang, Xing Chen, and Qing Yang Extracting key entities and significant events from online daily news In: 9th International Conference on Intelligent Data Engineering and Automated Learning (IDEAL 2008) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5326:201–209, 2008 [24] Vargas-Vera Maria and David Celjuska Event recognition on news stories and semi-automatic population of an ontology In In: 3rd IEEE/WIC/ACM International Conference on Web Intelligence (WI 2004) pp 615–618, 2004 [25] Okamoto Masayuki and Masaaki Kikuchi Discovering volatile events in your neighborhood: Local-area topic extraction from blog entries In: 5th Asia Information Retrieval Symposium (AIRS 2009) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5839:181–192, 2009 [26] John Naisbitt Megatrends: Ten new directions transforming our lives In Grand Central Publishing, 1998 [27] Minh-Tien Nguyen and Tri-Thanh Nguyen Extraction of disease events for a real-time monitoring system In SoICT, Danang, Vietnam, 2013 TIEU LUAN MOI download : skknchat@gmail.com TÀI LIõU THAM KHÉO 48 [28] Yoko Nishihara, Keita Sato, and Wataru Sunayama Event extraction and visualization for obtaining personal experiences from blogs HCI (9), pages 315–324, 2009 [29] Leonid Peshkin and Avi Pfeffer Bayesian information extraction network In Proc of the 18th International Joint Conference on Artificial Intelligence (IJCAI), 2003 [30] Cimiano Philipp and Steffen Staab Learning by googling In SIGKDD Explorations Newsletter 6(2), 24–33, 2004 [31] Jakub Piskorski, Hristo Tanev, and Pinar Oezden Wennerberg Extracting violent events from on-line news for ontology population In: 10th International Conference on Business Information Systems (BIS 2007) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 4439:287–300, 2007 [32] Vasin Punyakanok, Dan Roth, and Wen tau Yih The importance of syntactic parsing and inference in semantic role labeling In Computational Linguistics 34(2), 257–287, 2008 [33] Adwait Ratnaparkhi A maximum entropy model for part-of-speech tagging Proceedings of the Conference on Empirical Methods in Natural Language Processing, Vol 1:133–142, 1996 [34] Ronald Rosenfeld A maximum entropy approach to adaptive statistical language modelling Computer Speech & Language, 10.3:187–228, 1996 [35] Pakhomov Serguei Semi-supervised maximum entropy based approach to acronym and abbreviation normalization in medical texts In In: 40th Annual Meeting of the Association for Computational Linguistics (ACL 2002) pp 160–167 Association for Computational Linguistics, 2002 [36] Keh-Yih Su, Tung-Hui Chiang, and Jing-Shin Chang An overview of corpusbased statistics-oriented (cbso) techniques for natural language processing In Computational Linguistics and Chinese Language Processing 1(1), 101–157, 1996 [37] Hristo Tanev, Jakub Piskorski, and Martin Atkinson Real-time news event extraction for global crisis monitoring In Proceedings of the 13th International Conference on Applications of Natural Language to Information Systems (NLDB 2008) Lecture Notes in Computer Science, Vol 5039, Springer-Verlag Berlin Heidelberg:pp 207–218, 2008 [38] Mai-Vu Tran, Minh-Hoang Nguyen, Sy-Quan Nguyen, Minh-Tien Nguyen, and Xuan-Hieu Phan Vnloc: A real-time news event extraction framework for TIEU LUAN MOI download : skknchat@gmail.com TÀI LIõU THAM KHÉO 49 vietnamese The Fourth International Conference on Knowledge and Systems Engineering (KSE), pages pp 161–166, 2012 [39] Svitlana Volkova, Doina Caragea, William H Hsu, and Swathi Bujuru Animal disease event recognition and classification 2010 [40] Feiyu Xu, Hans Uszkoreit, and Hong Li Automatic event and relation detection with seeds of varying complexity In In: AAAI Workshop on Event Extraction and Synthesis, 2006 [41] Akane Yakushiji, Yuka Tateisi, Yusuke Miyao, and Jun’ichi Tsujii Event extraction from biomedical papers using a full parser In Pacific Symposium on Biocomputing 2001:408-419, 2001 TIEU LUAN MOI download : skknchat@gmail.com Phˆ lˆc 50 TIEU LUAN MOI download : skknchat@gmail.com ... mỴt ho∞c nhi∑u Bài tốn trích chÂn sá kiên cú th ềc minh hoĐ hỡnh 3.3 BỴ trích chÂn Trích chọn thời gian Luật Trích chọn tên bệnh Sự kiện Dữ liệu Từ điển tên bệnh Trích chọn địa điểm Cây phân... thu thập liệu Tiền xử lý liệu Bộ phát kiện Bộ trích chọn kiện Trực quan hố Hình 3.1: Q trình phát hiên v trớch chn sá kiên t cỏc trang trờn Internet chuy∫n cho thành ph¶n ti∑n x˚ l˛ d˙ liêu ã Tin... ÑI H≈C CÔNG NGHõ NGUN MINH TIịN TRÍCH CH≈N S‹ KIõN D¿CH BõNH CHO Hõ TH»NG GIÁM SÁT TR‹C TUN Ngành: Cơng nghª Thơng tin Chun ngành: Mã sË: Hª thËng Thơng tin 6048 0 104 LN VãN THĐC Sfl CƠNG NGHõ THƠNG