Bài toỏn trớch xuòt thụng tin t¯ d˙ liêu lển
Bài toỏn trớch xuòt thụng tin
Trớch xuòt thụng tin (IE) cú th∫ ˜ềc coi năm gi˙a thu hÁi thụng tin (Information Retrieval - IR) và hi∫u v´n b£n (Text Understanding) [3] Không giËng vÓi thu hÁi thụng tin chứ t™p trung vào cỏc mâu thụng tin cú liờn quan trong v´n bÊn, trớch xuòt thụng tin cũn quan tõm tểi cỏc sá kiên cú liờn quan trong v´n bÊn và bi∫u diπn chúng d˜Ói d§ng các khuôn m®u (template) Bên c§nh ó, khác vÓi hi∫u v´n bÊn chứt™p trung trờn mẻt phản nh‰cıa v´n bÊn (cõu, oĐn v´n), trớch xuòt thụng tin quan tõm tểi toàn bẻ nẻi dung v´n bÊn.
Theo Peshkin và Pfeffer [29], trớch xuòt thụng tin cú th∫ ˜ềc ‡nh nghổa: nh˜ là mẻt cụng viêc i∑n thụng tin vào cỏc mđu t¯ cỏc d˙ liêu khụng bi∏t tr˜ểc trong mi∑n ˜ềc ‡nh nghổa tr˜ểc Mˆc tiờu cıa trớch xuòt thụng tin là lòy t¯ cỏc v´n bÊn cỏc thụng tin nÍi b™t cıa cỏc sá kiên, thác th∫, ho∞c cỏc mậi quan hê Nh˜ v™y, cú th∫ coi trớch xuòt thụng tin là mẻt kˇ nghê lòy và bi∫u diπn tri th˘c thành cỏc thụng tin cú ‡nh dĐng và h˙u ớch t¯ nguÁn d˙ liêu vụ t™n trờn Internet.
V™y bài toán trích chÂn thông tin có th∫ ˜Òc phát bi∫u nh˜ sau:
• ảu ra: thụng tin h˙u ớch (tri th˘c) cú còu trỳc.
CH◊ÃNG 1 T NG QUAN Vó BÀI TOÁN TRÍCH XUáT S‹ KIõN 2
D˙ liêu ảu vào cho bài toỏn trớch chÂn thụng tin ròt phong phỳ và a dĐng D˙ liêu cú th∫ là cú còu trỳc (structured), bỏn còu trỳc (semi-structured), khụng cú còu trỳc (unstructured), ho∞c cú th∫ là d˙ liêu khụng gian (partial), d˙ liêu thèi gian (temporal) Vểi bòt k˝ dĐng d˙ liêu nào, nhiêm vˆ cıa trớch chÂn thụng tin cÙng phÊi ˜a ra cỏc k∏t quÊcú còu trỳc ng≠n và ˛ nghổa.
D˙ liêu lển - Cẽ hẻi và thỏch th˘c cho lổnh vác trớch chÂn thông tin
“We are drowning in data, but starving for knowledge!" [26] 1 John chứ ra răng chỳng ta ang d˜ th¯a d˙ liêu tuy nhiờn lĐi nghốo nàn v∑ tri th˘c.
Theo thËng kê cıa NOAA (National Oceanic and Atmospheric Administration, USA) tớnh tểi thèi i∫m thỏng 04-2012, d˙ liêu ng˜èi dựng tĐo ra trờn Internet khoÊng gản 60.000 Terabytes và s≥ t´ng lờn khoÊng 160.000 Terabytes trong vũng
8 n´m tểi Sá t´ng tr˜ng ˜ềc minh hoĐ trong hỡnh 1.1 2
Hỡnh 1.1: Sá t´ng tr˜ng d˙ liêu t¯ n´m 2004 ∏n n´m 2020
Theo thậng kờ t¯statisticbrain.com 3 ngày 01-01-2014 trờn d˙liêu Twitter, mẩi ngày cú khoÊng 135.000 ng˜èi ´ng nh™p vào Twitter; sậl˜ềng cỏc thụng iêp mẻt ngày trờn Twitter là khoÊng 58 triêu tweet; trung bỡnh mẩi giõy cú khoÊng 9.100 thụng iêp ˜ềc ng˜èi dựng ˜a lờn Twitter Sậliêu chi ti∏t ˜ềc minh hoĐ trong b£ng 1.1.
Theo thậng k∏ cıa Qmee 4 5 , d˙ liêu trờn Internet trong 60 giõy cú th∫ ˜ềc
1 John Naisbitt (www.naisbitt.com/)
2 http://celebrating200years.noaa.gov/visions/data_mgmt/
3 http://www.statisticbrain.com/twitterstatistics/
4 http://blog.qmee.com/qmee-online-in-60-seconds/
5 http://www.independent.co.uk/life-style/gadgets-and-tech/news/what-happens-in-60-seconds-on-the-internet-
BÊng 1.1: Thậng kờ trờn d˙ liêu Twitter
Sậ l˜ềng cỏc ng˜èi dựng ´ng k˛ tớch các 645.750.000
Sậ l˜ềng cỏc ng˜èi dựng ´ng nh™p mẻt ngày 135.000
Sậ l˜ềng cỏc trang ∞c biêt ˜ềc th´m hàng thỏng 190 triêu
Sậ l˜ềng thụng iêp mẻt ngày 58 triêu
Sậ l˜ềng cỏc truy vòn thụng quan ch˘c n´ng tỡm ki∏m mẻt ngày 2.1 t
Sậ l˜ềng cỏc ng˜èi dựng tớch các hàng thỏng 115 triêu
Sậ ngày mà tÍng sậ thụng iêp Đt tểi 1 t 5 ngày
Sậ l˜ềng cỏc thụng iêp mẻt giõy 9.100 trác quan hoỏ nh˜ hỡnh 1.2.
Hỡnh 1.2: D˙ liêu trờn Internet trong 60 giõy
Thụng qua hỡnh 1.2, mẩi giõy ng˜èi dựng tÊi lờn 72 giè video, cú khoÊng 2 triêu cõu truy vòn trờn Google, khoÊng 41.000 thụng iêp ˜ềc ng˜èi dựng Facebook tÊi lờn mẩi giõy, khoÊng 20 triêu b˘c Ênh ˜ềc tÊi lờn Flick, 204 triêu email ˜ềc g˚i Nh˙ng con sậthậng kờ trờn cho thòy d˙liêu ˜ềc ˜a lờn Internet cú sậl˜ềng lÓn và phong phú v∑ chıng lo§i.
T¯ cỏc thậng kờ trờn, chỳng ta cú th∫ thòy răng d˙ liêu cú xu h˜ểng bựng nÍ trờn Internet Tuy nhiờn, nhi∑u d˙ liêu khụng Êm bÊo răng ng˜èi dựng cú nhi∑u thông tin và càng không th∫ nói r¨ng ng˜Ìi dùng có th∫ n≠m b≠t ˜Òc tri th˘c mẻt cỏch hi∫n nhiờn và dπ dàng Trong thác t∏, quỏ trỡnh bi∏n Íi t¯ d˙ liêu sang thụng tin và cuậi cựng sang tri th˘c là mẻt quỏ trỡnh lõu dài, ũi h‰i nhi∑u ph˜ẽng pháp x˚l˛ ph˘c t§p Quá trình bi∏n Íi này có th∫ ˜Òc minh ho§trong hình 1.3.
Theo Fayyad và cẻng sá [15], quỏ trỡnh bi∏n Íi t¯ d˙ liêu thành tri th˘c là mẻt quỏ trỡnh bi∏n Íi lõu dài, cản nhi∑u b˜ểc x˚ l˛ ph˘c tĐp Trong suật quỏ trỡnh này, d˙ liêu ˜ềc th∫ hiên ba m˘c: d˙ liêu, thụng tin (mđu), và tri th˘c.
CH◊ÃNG 1 T NG QUAN Vó BÀI TOÁN TRÍCH XUáT S‹ KIõN 4 ly understandable patterns in data (Fayyad, Piatetsky-Shapiro, and Smyth 1996).
Here, data are a set of facts (for example, cases in a database), and pattern is an expres- sion in some language describing a subset of the data or a model applicable to the subset.
Hence, in our usage here, extracting a pattern also designates fitting a model to data; find- ing structure from data; or, in general, mak- ing any high-level description of a set of data.
The term process implies that KDD comprises many steps, which involve data preparation, search for patterns, knowledge evaluation, and refinement, all repeated in multiple itera- tions By nontrivial, we mean that some search or inference is involved; that is, it is not a straightforward computation of predefined quantities like computing the av- erage value of a set of numbers.
The discovered patterns should be valid on new data with some degree of certainty We also want patterns to be novel (at least to the system and preferably to the user) and poten- tially useful, that is, lead to some benefit to the user or task Finally, the patterns should be understandable, if not immediately then after some postprocessing
The previous discussion implies that we can define quantitative measures for evaluating extracted patterns In many cases, it is possi- ble to define measures of certainty (for exam- ple, estimated prediction accuracy on new data) or utility (for example, gain, perhaps in dollars saved because of better predictions or speedup in response time of a system) No- tions such as novelty and understandability are much more subjective In certain contexts, understandability can be estimated by sim- plicity (for example, the number of bits to de- scribe a pattern) An important notion, called interestingness (for example, see Silberschatz and Tuzhilin [1995] and Piatetsky-Shapiro and Matheus [1994]), is usually taken as an overall measure of pattern value, combining validity, novelty, usefulness, and simplicity Interest- ingness functions can be defined explicitly or can be manifested implicitly through an or- dering placed by the KDD system on the dis- covered patterns or models
Given these notions, we can consider a pattern to be knowledge if it exceeds some in- terestingness threshold, which is by no means an attempt to define knowledge in the philosophical or even the popular view As a matter of fact, knowledge in this definition is purely user oriented and domain specific and is determined by whatever functions and thresholds the user chooses.
Data mining is a step in the KDD process that consists of applying data analysis and discovery algorithms that, under acceptable computational efficiency limitations, pro- duce a particular enumeration of patterns (or models) over the data Note that the space of
Figure 1 An Overview of the Steps That Compose the KDD Process
Hỡnh 1.3: Cỏc b˜ểc trong quỏ trỡnh khỏm phỏ tri th˘c trong cẽ s d˙ liêu [15]
– õy, d˙ liêu cú th∫ coi là mẻt t™p hềp cỏc sá kiên (cỏc bÊn ghi trong cẽ s d˙ liêu) Thụng tin (mđu) là mẻt sá bi∫u diπn trong mẻt ngụn ng˙ mụ tÊ cıa mẻt t™p con d˙ liêu Cuậi cựng, thụng tin s≥ là tri th˘c n∏u nú v˜ềt qua mẻt ng˜ễng (threshold) Trong khuụn khÍ lu™n v´n, tỏc giÊ Áng quan i∫m v∑ d˙ liêu, thụng tin, và tri th˘c vểi Fayyad và cẻng sá.
Mẻt i∑u rừ ràng, sá bựng nÍ d˙ liêu trờn Internet tĐo ra nh˙ng thu™n lềi và thỏch th˘c cho cỏc nhà khoa hÂc khi muận thu hÁi thụng tin ảu tiờn, sá phỏt tri∫n cıa Internet và sá bựng nÍ thụng tin tĐo ra nhi∑u nguÁn thụng tin N∏u nh˜ tr˜ểc õy, nguÁn d˙ liêu chı y∏u là v´n bÊn (text) thỡ hiên nay d˙ liêu ròt phong phỳ, bao gÁm cỏc d˙liêu v´n bÊn, hỡnhÊnh, õm thanh, cỏc d˙liêu thèi gian, khụng gian Nh˙ng nguÁn d˙liêu tĐo i∑u kiên thu™n lềi cho nh˙ng nghiờn c˘u v∑ trớch chÂn thụng tin Bờn cĐnh ú, d˙ liêu hiên nay khụng ẽn thuản là tin t˘c, nú cũn bao gÁm thụng tin cỏ nhõn (cÊm xỳc, ˛ ki∏n) T¯ nh˙ng d˙ liêu mểi này, trớch chÂn thông tin có th∫ thu hÁi nh˙ng thông tin mÓi phˆc vˆ cho quá trình tích hÒp thông tin.
Tuy nhiờn, bờn cĐnh nh˙ng thu™n lềi, sá bựng nÍv∑ d˙ liêu tĐo ra nh˙ng thỏch th˘c khụng nh‰ trong lổnh vác trớch chÂn thụng tin ảu tiờn, vểi sá ra èi cıa cỏc d˙ liêu mểi ũi h‰i cản phÊi cú nh˙ng kˇ thu™t phự hềp ụi khi trong mẻt sậ tr˜èng hềp, trớch chÂn thụng tin phÊi ˜ẽng ảu vểi nh˙ng d˙ liêu ph˘c tĐp nh˜ hỡnhÊnh, õm thanh, d˙liêu khụng gian, ho∞c thèi gian Th˘hai, sá ang dĐng v∑ nguÁn d˙ liêu ũi h‰i quỏ trỡnh tớch hềp d˙ liêu ph˘c tĐp i∑u này xuòt phỏt do mˆc ớch cıa trớch chÂn thụng tin là lòy ra mẻt l˜ềng nh‰ thụng tin cú ˛ nghổa, do ú, sau quỏ trỡnh trớch chÂn, d˙ liêu cản ˜ềc tÍng hềp t¯ nhi∑u nguÁn khỏc nhau ∫ cuậi cựng ˜a ra d˙ liêu cú ˛ nghổa vểi ng˜èi dựng Cuậi cựng, bài toỏn v∑ tậc ẻ x˚ l˛ và tớnh toỏn cản ˜ềc giÊi quy∏t Vểi sá bựng nÍ v∑ sậ l˜ềng và ph˘c tĐp v∑ nẻi dung yờu cảu cỏc ph˜ẽng phỏp trớch chÂn thụng tin phÊi cú thèi gian x˚ l˛ hÒp l˛.
TÍng quan v∑ sá kiên
Trớch chÂn sá kiên
Trớch xuòt sá kiên cú th∫ coi là mẻt lổnh vác con cıa trớch chÂn thụng tin Tuy nhiờn, trớch chÂn sá kiên cú sá khỏc biêt vểi lổnh vác cha cıa nú N∏u nh˜ trớch chÂn thụng tin chứ quan tõm vểi cỏc d˙ liêu rèi rĐc (tờn ng˜èi, ‡a i∫m, cỏc con sậ, ) thỡ trớch chÂn sá kiên quan tõm nhi∑u hẽn tểi tớnh còu trỳc và m˘c ẻ liờn quan cıa thụng tin trong mẻt sákiên Qua ú, ng˜èi Âc cú th∫ dπ dàng suy lu™n ra cỏc thụng tin cú˛ nghổa Vớ dˆ, vểi cõu “Thờm mẻt trƠ t˚ vong do bênh tay chõn miêng tĐi QuÊng Nam vào ngày 12/06/2012" Trong vớ dˆ này, trớch chÂn thụng tin ˜a ra cỏc k∏t quÊ rèi rĐc nh˜: mẻt, QuÊng Nam, ho∞c 12/06/2012; trong khi trớch chÂn sá kiên s≥ ˜a ra mẻt bẻ cỏc thuẻc tớnh bi∫u diπn cho sá kiên gÁm {tay chõn miêng, QuÊng Nam, 12/06/2012} Rừ ràng, vểi t™p d˙ liêu trờn, thụng tin s≥ h˙u ớch và ảy ı hẽn cỏc thụng tin rèi rĐc.
Mẻt cỏch tÍng quỏt, cú th∫ coi trớch chÂn sá kiên nh™n ảu vào là cỏc v´n bÊn khụng cú còu trỳc và ảu ra là tri th˘c ˜ềc bi∫u diπn d˜ểi dĐng thụng tin cú còu trỳc Nh˙ng thụng tin này cú th∫ làm ảu vào cho nh˙ng hê thậng giỏm sỏt (monitoring systems) ho∞c cỏc hê thậng hẩ trề ra quy∏t ‡nh (supported decision systems) Trớch chÂn sá kiên cú th∫ ˜ềc ỏp dˆng cho mẻt mi∑n d˙ liêu cˆ th∫
(close domain) nh˜ d‡ch bênh, chỏy nÍ, ho∞c mi∑n d˙ liêu m (open domain),Áng thèi ˜a ra cỏc thụng tin xung quang sá kiên ú, thụng th˜èng bao gÁm: tỏc
CH◊ÃNG 1 T NG QUAN Vó BÀI TOÁN TRÍCH XUáT S‹ KIõN 8 nhân, thÌi gian, ‡a i∫m, sË l˜Òng,
Theo Grishman và cẻng sá, trớch chÂn sá kiên là mẻt bài toỏn khú do vòn ∑ x˚ l˛ ngụn ng˙ tá nhiờn (Natural Language Processing - NLP) và ∞c tr˜ng d˙ liêu [19] Dπ dàng nh™n thòy trớch chÂn sá kiên phˆ thuẻc nhi∑u vào NLP, cˆ th∫ là bài toỏn nh™n dĐng thác th∫ (Named Entity Recognition - NER) M∞c dự NER ó thu ˜ềc nh˙ng k∏t qua khÊ quan, tuy nhiờn vđn cũn mẻt sậ thỏch th˘c lển,
∞c biêt vểi cỏc ngụn ng˙khụng phÊi ti∏ng Anh Bờn cĐnh ú, d˙liêu ảu vào cıa trớch chÂn sá kiên ròt a dĐng nờn s≥ Ênh h˜ng tểi tớnh hiêu quÊ cıa quỏ trỡnh trích chÂn.
Bài toỏn trớch chÂn sá kiên d‡ch bênh
Trớch chÂn sá kiên d‡ch bênh - fi nghổa và tảm quan trÂng 8
Trớch chÂn sákiên d‡ch bênh cú th∫ coi là mẻt lổnh vác con trong trớch chÂn sá kiên N∏u nh˜ trớch chÂn sá kiên cú th∫ ỏp dˆng cho cÊ mi∑n d˙ liêu úng (close domain) ho∞c mi∑n d˙ liêu m (open domain) thỡ trớch chÂn sá kiên d‡ch bênh chứ quan tõm tểi nh˙ng v´n bÊn liờn quan tểi d‡ch bênh Vớ dˆ, khi ng˜èi dựng Âc cỏc bài bỏo liờn quan tểi mẻt d‡ch bênh (tay chõn miêng), h muận lòy ra cỏc thụng tin cẽ bÊn, dπ nhể cıa toàn bẻbài bỏo gÁm: tờn bênh, ‡a i∫m bựng phỏt, và thèi gian bựng phỏt Nh˜ v™y, yờu cảu là cản phÊi trớch chÂn ˜ềc cỏc thụng tin cẽ bÊn cıa mẻt sá kiên d‡ch bênh t¯ mẻt v´n bÊn ảu vào.
Bài toỏn trớch chÂn d‡ch bênh cú ˛ nghổa quan trÂng khụng chứ trong nghiờn c˘u mà cũn trong èi sậng, ∞c biêt trong tr˜èng hềp cỏc d‡ch bênh nguy hi∫m bựng phỏt và lõy lan trờn diên rẻng Do mẻt d‡ch bênh th˜èng bựng phỏt trong mẻt thèi gian ng≠n và lõn lan ròt nhanh trờn mẻt phĐm vi rẻng, do v™y nú cú th∫ tĐo ra cỏc tỡnh huậng xòu Ênh h˜ng tểi ng˜èi dõn và n∑n kinh t∏ Do ú, trớch chÂn và giỏm sỏt sálõy lan cıa cỏc d‡ch bênh cú ˛nghổa ròt quan trÂng trong viêc ậi phú vểi sá lõy lan cıa chỳng.
Bài toỏn phỏt hiên và trớch chÂn sá kiên d‡ch bênh ˜ềc ∑ c™p t¯ khỏ sểm và nh™n ˜ềc nhi∑u sá quan tõm t¯ phớa cỏc nhà khoa hÂc Grishman và cẻng sá
[17] s˚ dˆng cỏc mđu sá kiên (event patterns) ∫ phõn tớch cỏc cõu ảu vào và trớch chÂn ra cỏc sákiên d‡ch bênh Cỏc mđu sákiên này ˜ềc xõy dáng dáa trờn mậi quan hê gi˙a cỏc t¯ Vớ dˆ, mđu “np (DISEASE) vg (KILL) np (VICTIM)" s≥ ˜ềc s˚ dˆng ∫ ậi sỏnh vểi cõu “Cholera killed 23 inhabitants" Mẻt sá kiên ˜ềc phỏt hiên dáa trờn ràng buẻc cıa hai cˆm danh t¯ gÁm: outbreak of và died from Trong nghiờn c˘u cıa mỡnh, hiêu quÊcıa quỏ trỡnh trớch chÂn khoÊng 53.98% (F-score).
Volkova và cẻng sá [39] quan tõm tểi trớch chÂn sá kiên d‡ch bênh trờn ẻng v™t Quỏ trỡnh nh™n dĐng sákiên gÁm ba b˜ểc: ảu tiờn là nh™n dĐng thác th∫ t¯ cỏc b´n bÊn khụng cú còu trỳc, th˘hai là phõn lểp cỏc cõu dáa trờn cỏc thác th∫, và cuậi cựng là cỏc thác th∫ trong mẻt cõu ˜ềc k∏t hềp ∫ tĐo thành sákiên ẻ chớnh xỏc trong pha nh™n dĐng sá kiên và phõn lểp lản l˜ềt là 75% và 65% trờn hai t™p d˙ liêu là WordNet và GoogleSet.
Doan và cỏc cẻng sá [12] xõy dáng hê thậng Global Health Monitor cho phộp hi∫n th‡ cỏc sá kiên d‡ch bênh trờn toàn th∏ giểi Hê thậng gÁm ba thành phản chớnh: (1) phõn lểp chı ∑, (2) nh™n dĐng thác th∫ (NER), và (3) phỏt hiên cỏc thành phản cıa sá kiên (disease/location detection) Cỏc tỏc giÊ s˜ dˆng Naive Bayes cho bài toỏn phõn lểp chı ∑ và Đt ẻ chớnh xỏc khoÊng 88.10% Trong thành phản nh™n dĐng thác th∫, cỏc tỏc giÊ s˚ dˆng Support Vector Machine và Đt ẻ chớnh xỏc vào khoÊn 76.97% (F-score) Trong b˜ểc cuậi cựng, tỏc giÊ s˚ dˆng mẻt Ontology [9] vểi ẻ chớnh xỏc khoÊng 93.49%.
Nh˜ v™y, cÙng giậng nh˜ ‡nh nghổa v∑ sá kiên, mẻt sá kiên d‡ch bênh cú th∫ coi nh˜ mẻt mđu (template) ch˘a cỏc thuẻc tớnh cıa sá kiên Trớch chÂn sá kiên d‡ch bênh chứ quan tõm tểi nh˙ng d˙liêu liờn quan tểi d‡ch bênh (con ng˜èi ho∞c ẻng v™t).
Phỏt hiên sá kiên
Bài toỏn trớch chÂn sá kiên d‡ch bênh cú th∫ phỏt bi∫u thành hai bài toỏn nh‰, ú là: bài toỏn phỏt hiên sákiên và bài toỏn trớch chÂn sákiên Bài toỏn phỏt hiên sákiên trÊlèi cõu h‰i “làm th∏ nào ∫ phỏt hiên ˜ềc mẻt v´n bÊn cú ch˘a sá kiên d‡ch bênh?" T˘c là cho tr˜ểc ảu vào là mẻt v´n bÊn, quỏ trỡnh phỏt hiên sá kiên phÊi quy∏t ‡nh v´n bÊn ú cú ch˘a sákiên d‡ch bênh hay khụng? Theo Grishman và cẻng sá[17], phỏt hiên sákiên là quỏ trỡnh hÂc khụng giỏm sỏt, tỏc giÊs˚ dˆng cỏc t¯ khoỏ ∫ quy∏t ‡nh mẻt v´n bÊn cú ch˘a sá kiên d‡ch bênh hay khụng Hai t¯ khoá ˜Òc tác gi£ s˚ dˆng là “outbreak of " và “died from ".
Theo Doan và cẻng sá[12], bài toỏn phỏt hiên sákiên cú th∫ coi nh˜quỏ trỡnh hÂc cú giỏm sỏt Trong nghiờn c˘u cıa mỡnh, tỏc giÊ s˜ dˆng ph˜ẽng phỏp phõn lểp Naive Bayes ∫ phõn lểp cỏc tài liêu Bẻ phõn lểp này dáa trờn mẻt t™p cỏc d˙ liêu ó ˜ềc gỏn nhón Qua quỏ trỡnh huòn luyên, bẻ phõn lểp s≥ quy∏t ‡nh mẻt v´n bÊn ảu vào cú ch˘a sá kiên d‡ch bênh hay khụng.
Trớch chÂn sá kiên
N∏u nh˜bài toỏn phỏt hiên sákiên trÊlèi cõu h‰i “mẻt v´n bÊn cú ch˘a sá kiên hay khụng?", thỡ bài toỏn trớch chÂn sákiên trÊlèi cõu h‰i“làm th∏ nào trớch chÂn cỏc thuẻc tớnh cıa mẻt sá kiên?" Ph˜ẽng phỏp s˚dˆng lu™t (hÂc khụng giỏm sỏt) ˜ềc s˚dˆng t¯ròt sểm ∫ giÊi quy∏t bài toỏn này [17] Quỏ trỡnh trớch chÂn băng ph˜ẽng phỏp này th˜èng s˚ dˆng cỏc lu™t dáa trờn quỏ trỡnh khÊo sỏt d˙ liêu ∫ trớch chÂn ra cỏc thuẻc tớnh cıa mẻt sá kiên.
CH◊ÃNG 1 T NG QUAN Vó BÀI TOÁN TRÍCH XUáT S‹ KIõN 10
Mẻt cỏch ti∏p c™n khỏc là s˚ dˆng hÂc mỏy và cỏc kˇ thu™t cıa NLP ∫ giÊi quy∏t bài toỏn trớch chÂn sá kiên Quỏ trỡnh này th˜èng s˚ dˆng NER ∫ lòy ra cỏc thuẻc tớnh cẽ bÊn cıa sá kiên nh˜: thèi gian, ‡a i∫m, tờn ng˜èi, sau ú k∏t hềp cỏc thuẻc tớnh này thành mẻt sá kiên [12, 39] Bờn cĐnh ú, NER cú th∫ k∏t hềp vểi Ontology ∫ tÍ ch˘c cỏc sá kiên theo mẻt còu trỳc ˜ềc ‡nh tr˜ểc.
Nh˜ v™y, cú th∫ núi bài toỏn trớch chÂn sá kiên núi chung và trớch chÂn d‡ch bênh núi riờng cú th∫ ˜ềc chia thành hai bài toỏn nh‰, ú là: phỏt hiên sá kiên và trớch chÂn sá kiên Trong lu™n v´n này, tỏc giÊ s≥ mụ tÊ chi ti∏t cỏc kˇ thu™t ˜ềc ỏp dˆng trong hai bài toỏn này ch˜ẽng 3.
fi nghổa bài toỏn trớch chÂn sá kiên d‡ch bênh
fi nghổa khoa hÂc
V∑ m∞t khoa hÂc, trớch chÂn sá kiên núi chung và trớch chÂn sá kiên d‡ch bênh núi riờng là mẻt trong nh˙ng bài toỏn cẽ bÊn cıa trớch chÂn thụng tin GiÊi quy∏t tật bài toỏn này s≥ là ti∑n ∑ tật cỏc cỏc bài toỏn khỏc nh˜phỏt hiên chuẩi sákiên, dá oỏn xu h˜ểng, hay là ảu vào cho cỏc hê thậng giỏm sỏt và hẩ trề ra quy∏t
‡nh Bờn cĐnh ú, cỏc nghiờn c˘u liờn quan tểi trớch chÂn sá kiên d‡ch bênh trờn th∏ giÓi ã thu ˜Òc nh˙ng k∏t qu£ kh£ quan, tuy nhiên không nhi∑u nghiên c˘u ˜ềc ti∏n hành trờn d˙ liêu ti∏ng Viêt [27, 38, 12] Do ú, bài toỏn này cản ˜ềc giÊi quy∏t mẻt cỏch thoÊ ỏng trờn mi∑n d˙liêu ti∏ng Viêt.
fi nghổa thác t∏
Bài toỏn trớch chÂn sá kiên d‡ch bênh cú ˛ nghổa ròt lển trong thác t∏, ∞c biêt trong tr˜èng hềp cỏc d‡ch bênh bựng phỏt Trong tr˜èng hềp này, cỏc nhà quÊn l˛, chớnh phı, và cụng dõn cản nh˙ng giÊi phỏp ∫ theo dừi diπn ti∏n tỡnh hỡnh d‡ch bênh, ∫ t¯ ú cú nh˙ng quy∏t ‡nh phự hềp Trong ng˙ cÊnh bựng nÍ thụng tin liờn quan tểi mẻt d‡ch bênh, trớch chÂn sá kiên là mẻt giÊi phỏp phự hềp ∫ ˜a nh˙ng thông tin h˙u ích tÓi ng˜Ìi dùng.
Hiên tĐi cú mẻt sậ hê thậng ỏp dˆng kˇ thu™t trớch chÂn sá kiên và trác quan hoỏ ∫cung còp thụng tin cho ng˜èi dựng Grishman và cẻng sáxõy dáng hêthậng Peoteous-BIO cung còp cỏc thụng tin d‡ch bênh d˜ểi dĐng sákiên cho ng˜èi dựng
[18] D˙ liêu trong hê thậng ˜ềc lòy t¯ cỏc trang web và cỏc bỏo cỏo cıa tÍ ch˘c World Health Organization (WHO) 13 và ProMed 14 Collier và cẻng sá ó xõy dáng hê thậng BioCaster nẽi mà ng˜èi dựng cú th∫ theo dừi mẻt sậ loĐi sá kiên trờn toàn th∏ giểi, ∞c biêt là sákiên d‡ch bênh 15 T˜ẽng tá, hê thậng HealthMap cıa Freifeld Clark C và cẻng sácho phộp ng˜èi dựng theo dừi tỡnh hỡnh d‡ch bênh
13 http://www.who.int/csr/don/en/
15 http://born.nii.ac.jp trờn toàn th∏ giểi 16 TĐi Viêt Nam, Tran và cẻng sá ó xõy dáng hê thậng theo dừi ba loĐi sá kiên chớnh là: chỏy nÍ, tai nĐn giao thụng, và tẻi phĐm 17 [38] vểi nguÁn d˙ liêu t¯ cỏc trang web.
Khó kh´n và thách th˘c
M∞c dự ˜ềc nhi∑u nhà khoa hÂc ảu t˜ nghiờn c˘u, tuy nhiờn trớch chÂn sá kiên vđn phÊi ậi m∞t vểi nhi∑u thỏch th˘c trong viêc nõng cao ẻ chớnh xỏc cıa quỏ trỡnh trớch chÂn ảu tiờn, ẻchớnh xỏc cıa quỏ trỡnh trớch chÂn phˆthuẻc ròt lển vào bài toỏn phỏt hiên sá kiên Trong khi ú, bài toỏn phỏt hiên sá kiên phˆ thuẻc vào ẻ chớnh xỏc cıa bẻ phõn lểp (giỏm sỏt ho∞c khụng giỏm sỏt) Trong khi ó bài toán phân lÓp ã §t ˜Òc nh˙ng k∏t qu£ kh£ quan trong ti∏ng Anh, nú vđn g∞p nhi∑u khú kh´n trong ti∏ng Viêt do ∞c tr˜ng ngụn ng˙.
Th˘ hai, do quỏ trỡnh trớch chÂn phˆ thuẻc nhi∑u vào cỏc kˇ thu™t cıa NLP,
∞c biêt là NER Tuy bài toỏn NER ó ˜ềc giÊi quy∏t trờn ti∏ng Anh tuy nhiờn trờn ti∏ng Viêt nú vđn cũn hĐn ch∏ Hẽn n˙a, mẻt sậy∏u tậ v∑ m∞t ngụn ng˙ nh˜ nh™p nhăng ng˙nghổa (Word Sense Disambiguation), hiên t˜ềng Áng tham chi∏u (Co-References), ho∞c nh™n dĐng tớnh ng˙nghổa cıa tiờu ∑ bÊn tin (Syntactically Ambiguious Headlines) cúÊnh tỏc ẻng khụng nh‰ tểi ẻ chớnh xỏc cıa quỏ trỡnh trích chÂn.
Cuậi cựng, quỏ trỡnh trác quan hoỏ g∞p khoỏ kh´n khi d˙liêu trớch chÂn khụng ảy ı Vớ dˆ, vểi cõu “Bênh si bựng phỏt tĐi Hà Nẻi t¯ ảu thỏng 4", k∏t quÊ cıa quỏ trỡnh trớch chÂn là {bênh si, Hà Nẻi, thỏng 4} Vểi thụng tin v∑ ‡a i∫m khụng chi ti∏t, s≥ ròt khú ∫ bi∏t chớnh xỏc d‡ch bênh bựng phỏt õu (qu™n, huyên, ho∞c ˜èng) Bờn cĐnh ú, thèi gian cıa sá kiên cÙng khụng cˆ th∫, dđn
∏n viêc tớnh thèi gian chớnh xỏc cıa sá kiên g∞p khú kh´n.
TÍng k∏t
Trong ch˜ẽng 1, lu™n v´n ó trỡnh bày cẽ bÊn v∑ bài toỏn trớch chÂn sá kiên, vai trũ cıa trớch chÂn thụng tin trong ng˙ cÊnh bựng nÍ d˙ liêu TrÂng tõm cıa ch˜ẽng này trỡnh bày nh˙ng khỏi niêm cẽ bÊn cıa trớch chÂn sákiên núi chung và trớch chÂn sá kiên d‡ch bênh núi riờng Bờn cĐnh ú, ch˜ẽng này cÙng ∑ c™p tểi hai bài toỏn cẽ bÊn cıa trớch chÂn sá kiên d‡ch bênh, ú là: bài toỏn phỏt hiên sá kiên và bài toỏn trớch chÂn s˜ kiên; Áng thèi nờu rừ ˛ nghổa cıa bài toỏn trớch chÂn sá kiên d‡ch bờnh trong khoa hÂc và thác t∏ Trong ch˜ẽng ti∏p theo, lu™n v´n s≥ trỡnh bày mẻt sậph˜ẽng phỏp ti∏p c™n ∫ giÊi quy∏t bài toỏn trớch chÂn sá kiên và sákiên d‡ch bênh.
Mẻt sậ ph˜ẽng phỏp ti∏p c™n
Trong ch˜ẽng này, tỏc giÊ s≥ trỡnh bày mẻt sậ ph˜ẽng phỏp ti∏p c™n cho bài toỏn trớch chÂn sá kiên d‡ch bênh Cỏc ph˜ẽng phỏp này bao gÁm: ph˜ẽng phỏp dáa trờn lu™t, ph˜ẽng phỏp dáa trờn hÂc mỏy, và ph˜ẽng phỏp k∏t hềp gi˙a lu™t và hÂc mỏy Phản cuậi cựng, tỏc giÊ ˜a ra mẻt sậ bàn lu™n v∑ cỏc ph˜ẽng phỏp.
Dáa trờn cẽsnày, tỏc giÊs≥láa chÂn ph˜ẽng phỏp phự hềp cho bài toỏn ch˜ẽng3.
Ph˜ẽng phỏp ti∏p c™n dáa trờn lu™t
Lu™t cú pháp
Lu™t cú pháp, ôi khi còn ˜Òc gÂi là các m®u cú pháp (lexico-syntactic patterns) cú th∫ coi là ph˜ẽng phỏp ˜ềc s˚ dˆng sểm trong bài toỏn trớch chÂn sá kiên.
Các m®u này ˜Òc sinh ra t¯các chuyên gia mi∑n (domain experts) d˜Ói d§ng các lu™t (rules) [20] i∫n hỡnh cho ph˜ẽng phỏp này chớnh là cỏc lu™t ˜ềc bi∫u diπn d˜Ói d§ng bi∫u th˘c chính quy (regular expression).
Cỏc lu™t cỳ phỏp k∏t hềp sá bi∫u diπn cıa cỏc k˛ tá và cỏc thụng tin cỳ phỏp vểi cỏc bi∫u th˘c chớnh quy Sau khi cỏc bi∫u th˘c chớnh quy ˜ềc xõy dáng, nh˙ng bi∫u th˘c này ˜ềc so khểp vểi d˙ liêu trong v´n bÊn ảu vào ∫ trớch chÂn ra cỏc thụng tin t˜ẽng ˘ng Trong mẻt sậtr˜èng hềp, lu™t cỳ phỏp ˜ềc bi∫u diπn dĐng ẽn giÊn hẽn, ú là cỏc t¯ khoỏ Cỏc lu™t cỳ phỏp ˜ềc s˚ dˆng trong trớch chÂn sá kiên [5, 11, 10] Trong nghiờn c˘u cıa mỡnh, Nishihara và cẻng sás˚ dˆng ba t¯ khoá: ‡a i∫m (place), Ëi t˜Òng (object), và hành vi(action) ∫ bi∫u diπn mẻt sá kiên ˜ềc trớch chÂn t¯blogs [28] Trong lổnh vác ti∑n tê và chớnh tr‡, Aone và cẻng sá dựng cỏc lu™t cỳ phỏp ∫ trớch chÂn cỏc thụng tin cıa mẻt sá kiên [2].
Xu và cẻng sá s˚ dˆng cỏc mđu cỳ phỏp ∫ hÂc cỏc mđu t¯ d˙ liêu cỏc sá kiên
[40] Các m®u này óng vai trò là t™p nhân (seeds) trong kˇ thu™t bootstrapping.
∞c biêt, cỏc lu™t cỳ phỏp cũn ˜ềc s˚ dˆng ∫ trớch chÂn cỏc thụng tin trong mi∑n d˙ y sinh Yakushiji và cẻng sá s˚ dˆng mẻt bẻ phõn tớch k∏t hềp vểi ng˙ phỏp ∫ xỏc ‡nh mậi quan hê và cỏc sá kiên [41] Cỏc lu™t cỳ phỏp ‡nh nghổa cỏc còu trỳc tham sậbờn trong v´n bÊn.
Lu™t ng˙ nghổa
Trong trớch chÂn sá kiên s˚dˆng lu™t, ụi khi phÊi trớch chÂn cỏc khỏi niêm cú ˛ nghổa ∞c biêt ho∞c cỏc mậi quan hê gi˙a cỏc thành phản ˜ềc trớch chÂn Tuy nhiờn, cỏc lu™t cỳ phỏp khụng giÊi quy∏t ˜ềc vòn ∑ này ∫ giÊi quy∏t vòn ∑ này, ph˜ẽng phỏp th˜èng ˜ềc ỏp dˆng là s˚dˆng lu™t ng˙nghổa (lexico-semantic patterns) Cỏc lu™t ng˙nghổa khụng ẽn giÊn là t™p hềp cıa cỏc t¯d˜ểi dĐng bi∫u th˘c chớnh quy mà là cỏc mđu ˜ềc xõy dáng d˜ểi dĐng cỏc t¯ và mậi quan hê gi˙a chúng.
Cỏc lu™t này ˜ềc s˚ dˆng vểi nhi∑u mˆc ớch khỏc nhau Li Fang và cẻng sá ó s˚ dˆng cỏc lu™t ng˙ nghổa ∫ trớch chÂn thụng tin t¯ sàn giao d‡ch tr˘ng khoỏn (stock market) [14] Cohen và cẻng sá [8] s˚dˆng khỏi niêm bẻ nh™n dĐng (recognizer) trờn mi∑n d˙ liêu y sinh ∫ trớch chÂn cỏc sá kiên y sinh t¯ t™p d˙ liêu Cỏch ti∏p c™n t˜ẽng tá cÙng ˜ềc ỏp dˆng bi Vargas-Vera và Celjuska [24] khi tỏc giÊ ∑ xuòt mẻt bẻ khung (framework) cho viêc nh™n diên cỏc sá kiên t™p trung trờn cỏc bài bỏo cıa Knowledge Media Institute (KMi) Capet và cẻng sá
[6] s˚ dˆng cỏc mđu ng˙ nghổa ∫ trớch chÂn sá kiên cho hê thậng tá ẻng cÊnh báo sÓm.
Trớch chÂn sákiên t¯ cỏc v´n bÊn khụng cú còu trỳc cú th∫ ˜ềc ỏp dˆng trong nhi∑u lổnh vác, ∞c biêt trong mi∑n d˙ liêu d‡ch bênh Grishman R và cẻng sá ó s˚ dˆng 120 mđu sá kiên ngụn ng˙ (linguasitc event patterns) ∫ phõn tớch cỏc cõu và trớch chÂn cỏc thụng tiờn liờn quan tểi mẻt sá kiên d‡ch bênh [17].
CH◊ÃNG 2 MÀT Sằ PH◊ÃNG PHÁP TIũP CọN 14
Cỏc mđu này ˜ềc xõy dáng dáa trờn cỏc t¯ cà mậi quan hê gi˙a chỳng Vớ dˆ, mđu “np (DISEASE) vp (KILL) np (VICTIM)" s≥ so khểp vểi mẻt mênh ∑ nh˜
“Cholera killed 23 inhabitants" Mẻt sá kiên ˜ềc nh™n dĐng khi nú ch˘a hai cˆm t¯ “outbreak of " và “people died from " Các m®u này ˜Òc áp dˆng ∫ trích chÂn cỏc sá kiên d‡ch bênh và Đt ẻ o F (F-score) là ⇡ 53.98%.
Ph˜ẽng phỏp ti∏p c™n dáa trờn hÂc mỏy
Ph˜ẽng phỏp dáa trờn hÂc mỏy th˜èng ˜ềc s˚ dˆng cho cỏc ˘ng dˆng x˚ l˛ ngụn ng˙ tá nhiờn và yờu cảu t™p d˙ liêu huòn luyên lển ∫ huòn luyên mụ hỡnh sao cho xòp xứvểi cỏc hiên t˜ềng ngụn ng˙[20] Cỏch ti∏p c™n này th˜èng dáa trờn mụ hỡnh xỏc suòt (probabilistic models), l˛ thuy∏t thụng tin (information theory), và Đi sậ tuy∏n tớnh (linear algebra) Trong thác t∏, mẻt sậ cỏch ti∏p c™n cẽ bÊn cú th∫ chứ ra là Term Frequency - Inverse Document Frequency (TF-IDF), word sense disambiguation, n-grams, và phân cˆm.
Cú th∫tỡm thòy nhi∑u vớ dˆv∑ viêc s˚dˆng cỏc ti∏p c™n dáa trờn d˙liêu ∫trớch chÂn sá kiên trong cỏc nghiờn c˘u v∑ trớch chÂn thụng tin N´m 2009, Okamoto và cẻng sá [25] dáng mẻt khung (framework) ∫ phỏt hiên cỏc sá kiên cˆc bẻ (local events) Trong nghiên c˘u cıa mình, tác gi£ s˚ dˆng các kˇ thu™t cıa phân cˆm phõn còp Trong khi bÊn thõn phõn cˆm cú th∫ sinh ra cỏc k∏t quÊ tật cho trớch chÂn sá kiên, Liu M và cẻng sá [23] k∏t hềp cỏc Á th‡ cú trÂng sậ vụ h˜ểng chia ụi (weighted undirected bipartite graphs) và phõn cˆm ∫ trớch chÂn cỏc thác th∫ chớn và cỏc sákiên cú ˛ nghổa t¯ cỏc thụng tin hàng ngày Cỏc kˇ thu™t phõn cˆm cÙng ˜ềc s˚ dˆng bi Tanev và cẻng sá [37] ∫ trớch chÂn cỏc sá kiên bĐo lác và thÊm hoĐ cho hê thậng giỏm sỏt.
Bờn cĐnh ú, cỏc kˇ thu™t dáa trờn d˙ liêu cÙng ˜ềc ỏp dˆng cho mi∑n d˙ liêu d‡ch bênh Doan S và cẻng sá[12] xõy dáng hê thậng giỏm sỏt s˘c khoƠ toàn cảu (Global Health Monitor system) hi∫n th‡ sálõy lan d‡ch bênh trờn th∏ giểi Hê thậng này gÁm ba thành phản chớnh: (1) phõn lểp chı ∑, (2) nh™n dĐng thác th∫, và (3) phỏt hiên tờn bênh và ‡a i∫m bựng phỏt d‡ch bênh Trong thành phản th˘ nhòt, bẻ phõn lểp Naive Bayes ˜ềc s˚ dˆng và ẻ chớnh xỏc cıa quỏ trỡnh phõn lểp khoÊng ⇡ 88.10% Trong thành phản th˘ hai, tỏc giÊ s˚ dˆng Support Vector Machine (SVM) cho bài toỏn nh™n dĐng thác th∫ và ẻ chớnh xỏc khoÊng
⇡76.97% vểi ẻ o F (F-score) Thành phản cuậi cựng tỏc giÊs˚dˆng mẻt ontology(BioCaster Ontology) ∫ phỏt hiên tờn bênh và ‡a i∫m bựng phỏt ẻchớnh xỏc cıa thành phản th˘ ba này khoÊng ⇡ 93.40%.
Ph˜ẽng phỏp k∏t hềp lu™t và hÂc mỏy
Ph˜ẽng phỏp k∏t hềp (lai - hybrid) th˜èng ˜ềc s˚dˆng trong cỏc bài toỏn trớch chÂn sákiên Hảu h∏t cỏc hêthậng h˜ểng tri th˘c (knowledge-driven systems) ˜ềc bÍsung bi ph˜ẽng phỏp dáa trờn hÂc mỏy, và nh˜v™y, nú cú th∫ giÊi quy∏t khuy∏t i∫m cıa ph˜ẽng phỏp s˚dˆng lu™t Vớ dˆ, Jungermann và Morik [16] k∏t hềp cỏc lu™t ng˙ nghổa vểi Conditional Random Fields (CRFs - ˜ềc bi∫u diπn nh˜cỏc Á th‡ vụ h˜ểng) ∫ trớch chÂn cỏc sá kiên t¯ phiờn hÂp toàn th∫ cıa ngh‡ viên ˘c.
Piskorski và cẻng sá[31] s˚dˆng cỏc kˇ thu™t bootstrapping vểi thậng kờ ∫ trớch chÂn cỏc sá kiên liờn quan tểi bĐo lác t¯ cỏc bÊn tin trác tuy∏n vểi ẻ chớnh xỏc và hÁi t˜ng cao – ây, tác gi£ ã gi£i quy∏t h§n ch∏ cıa thu™t toán hÂc m®u cú giỏm sỏt vểi cỏc cˆm Chun và cẻng sá [21] trớch chÂn cỏc sá kiên y sinh băng cách s˚ dˆng các lu™t cú pháp k∏t hÒp vÓi Áng tham chi∏u (co-occurrences) Lee và cẻng sá [7] s˚ dˆng ontology mè (ontology-based fuzzy) ∫ trớch chÂn sá kiên t¯ cỏc bÊn tin ti∏ng Trung Quậc Tỏc giÊ ó s˚dˆng thậng kờ dáa trờn ng˙ phỏp (grammar-based statistical) và gán nhãn t¯lo§i (part-of-speech tagging); nh˜v™y, ph˜ẽng phỏp này cú th∫ ˜ềc coi là ph˜ẽng phỏp lai.
Volkova S và cẻng sá [39] s˚ dˆng nh™n dĐng thác th∫ và phõn lểp m˘c cõu ∫ trớch chÂn cỏc sá kiên d‡ch bênh trờn ẻng v™t Quỏ trỡnh nh™n dĐng thác th∫ sá kiên gÁm ba b˜ểc: (1) nh™n dĐng thác th∫ t¯ v´n bÊn, (2) cỏc cõu ˜ềc phõn loĐi dáa trờn cỏc thác th∫, (3) và cỏc thác th∫ trong mẻt cõu sá kiên ˜ềc tÍ hềp ∫ tĐo thành mẻt còu trỳc Trong quỏ trỡnh nh™n dĐng sá kiê, cỏc sá kiên ỳng phÊi ch˘a mẻt tờn bênh và mẻt ẻng t¯ liờn quan tểi bênh ú ẻ chớnh xỏc cıa bẻ nh™n dĐng sá kiên và bẻphõn lểp m˘c cõu là 75% và 65% trờn hai t™p ∞c tr˜ng là Google-Set và WordNet Bờnh cĐnh ú, ph˜ẽng phỏp cıa Son D và cẻng sá[12] ˜ềc ∑ c™p trong mˆc 2.2 cÙng cú th∫ coi là ph˜ẽng phỏp lai do s˚dˆng ontology trong quỏ trỡnh trớch chÂn sákiên.
Mẻt sậ nh™n xột
Nh˜ ó trỡnh bày trong mˆc 2.1, cỏc hê thậng tri th˘c (knowledge systems) ban ảu th˜èng s˚dˆng ph˜ẽng phỏp ti∏p c™n s˚dˆng lu™t (rule-based) Ph˜ẽng phỏp này cú mẻt sậ ˜u i∫m cho bài toỏn trớch chÂn sá kiên i∑u tiờn, ph˜ẽng phỏp ti∏p c™n dáa trờn lu™t cản ớt d˙ liêu huòn luyên hẽn ph˜ẽng phỏp ti∏p c™n dáa trờn d˙ liêu [20] Bờn cĐnh ú, ph˜ẽng phỏp này cÙng cú th∫ xõy dáng cỏc bi∫u th˘c tật ∫ trớch chÂn cỏc thành phản sá kiên dáa trờn t¯ váng, cỳ phỏp, và cỏc thành phản ng˙ nghổa Ti∏p c™n theo mđu (lu™t) là mẻt cỏch ti∏p c™n hềp l˛ khi cản trớch chÂn cỏc thụng tin ∞c biêt (vớ dˆ nh˜ cỏc thụng tin thèi gian ˜ềc
∑ c™p khụng rừ ràng: “hụm qua", “rĐng sỏng nay") Cú th∫ dπ dàng nh™n thòy ph˜ẽng phỏp ti∏p c™n dáa trờn lu™t Đt ẻ chớnh xỏc ròt cao (do ˜ềc xõy dáng
CH◊ÃNG 2 MÀT Sằ PH◊ÃNG PHÁP TIũP CọN 16
∫ lòy ra cỏc thụng tin ∞c biêt) nh˜ng cú ẻ hÁi t˜ng thòp Khi chứ quan tõm tểi ẻ chớnh xỏc thỡ s˚ dˆng lu™t là mẻt ph˜ẽng phỏp hiêu quÊ.
Bờn cĐnh nh˙ng˜u i∫m, ph˜ẽng phỏp s˚dˆng lu™t cÙng cú nh˙ng nh˜ềc i∫m
[20] ảu tiờn, ∫ xõy dáng ˜ềc t™p lu™t cú chòt l˜ềng ũi h‰i ng˜èi dõy dáng cú ki∏n th˘c v∑ ngụn ng˙, t¯ váng, và trong mẻt sậ tr˜èng hềp cũn yờu cảu thờm cú sá tham gia cıa nh˙ng chuyờn gia mi∑n Hẽn n˙a, nh˜ ó ∑ c™p trờn, cỏc lu™t th˜èng ˜ềc s˚dˆng ∫ lòy ra nh˙ng thụng tin ∞c biêt; do ú, khi thay Íi mi∑n ˘ng dˆng cản phÊi thay Íi lĐi cỏc lu™t cho phự hềp ụi khi viêc thay Íi này tận nhi∑u thÌi gian và chi phí [36].
Ng˜Òc l§i vÓi cách ti∏p c™n dùng lu™t, cách ti∏p c™n s˚dˆng hÂc máy không òi h‰i nhi∑u ki∏n th˘c v∑ ngụn ng˙ và chuyờn và mi∑n; tuy nhiờn, ph˜ẽng phỏp này ũi h‰i mẻt l˜ềng lển d˙ liêu ∫ làm t™p huòn luyên Dáa trờn cỏc d˙ liêu này, cỏc ph˜ẽng phỏp dáa trờn d˙liêu s≥ dựng cỏc mụ hỡnh xỏc suòt ∫ xòp sứ mụ hỡnh huòn luyên vểi d˙ liêu Ph˜ẽng phỏp này cú nh˙ng ˜u i∫m sau [20] Th˘ nhòt, cỏch ti∏p c™n này khụng yờu cảu cú sá tham gia cıa chuyờn gia mi∑n và chuyờn gia ngụn ng˙ Th˘hai, cỏc mụ hỡnh sau khi huòn luyên dπ dàng ˜ềc s˚ dˆng vểi nhi∑u mi∑n d˙ liêu khỏc nhau.
Tuy nhiên, cách ti∏p c™n s˚dˆng hÂc máy cÙng có nh˙ng nh˜Òc i∫m riêng [20]. ảu tiờn, cỏc ph˜ẽng phỏp ti∏p c™n dáa trờn d˙ liêu khụng giÊi quy∏t ˜ềc vòn ∑ ng˙nghổa trong bài toỏn trớch chÂn sá kiên (vớ dˆ, cỏc ph˜ẽng phỏp này chứ phỏt hiên cỏc quan hê trong t™p d˙ liêu mà khụng giÊi quy∏t ˜ềc vòn ∑ ng˙ nghổa).
Mẻt nh˜ềc i∫m khỏc là cỏc ph˜ẽng phỏp này yờu cảu mẻt l˜ềng lển d˙ liêu ∫ huòn luyên mụ hỡnh nh˜ng trong mẻt sậ tr˜èng hềp, viêc gỏn nhón d˙ liêu tận thèi gian và chi phớ Cuậi cựng, do cỏc ph˜ẽng phỏp này dáa trờn cỏc mụ hỡnh xỏc suòt thậng kờ, do ú, trong mẻt sậ tr˜èng hềp k∏t quÊ cıa quỏ trỡnh trớch chÂn khụng cao phỏt sinh t¯ quỏ trỡnh làm d˙ liêu huòn luyên.
Trong thác t∏, cỏc hê thậng tri th˘c (knowledge systems) th˜èng cú sá k∏t hềp gi˙a cỏc ph˜ẽng phỏp s˚ dˆng lu™t và ph˜ẽng phỏp dáa trờn hÂc mỏy (mˆc 2.3).
Ph˜ẽng phỏp k∏t hềp ra èi ∫ giÊi quy∏t cỏc nh˜ềc i∫m cıa ph˜ẽng phỏp ti∏p c™n s˚dˆng lu™t và hÂc mỏy Ph˜ẽng phỏp này th˜èng ˜ềc ỏp dˆng ∫ giÊi quy∏t vòn ∑ thi∏u chuyờn gia mi∑n ˘ng dˆng khi hê thậng cú s˚dˆng cỏc lu™t [30] Bờn c§nh ó, các nhà nghiên c˘u cÙng có th∫ k∏t hÒp các ti∏p c™n thËng kê vÓi tri th˘c (vớ dˆ ∫ trỏnh cỏc k∏t quÊ khụng mong muận [35] ho∞c bÍ sung cho cỏc ph˜ẽng phỏp thậng kờ [32]) Hẽn n˙a, chỳng ta cú th∫ ràng buẻc cỏc ph˜ẽng phỏp hÂc (data-driven approaches) b¨ng cách s˚ dˆng tri th˘c chuyên gia ∫ t§o ra các mô hình tËt.
Trong cỏc hê thậng trớch chÂn sá kiên s˚ dˆng ph˜ẽng phỏp lai, do cú s˚ dˆng cỏc ph˜ẽng phỏp ti∏p c™n s˚dˆng hÂc mỏy nờn vđn yờu cảu cú d˙liêu huòn luyên.
Bờn cĐnh ú, trong cỏc hê này vđn cản phÊi cú cỏc lu™t, tuy nhiờn s≥ khụng nhòt thi∏t ph£i có chuyên gia mi∑n do tri th˘c t¯ chuyên gia mi∑n có th∫ ˜Òc bÍ sung t¯ d˙ liêu Hẽn n˙a, k∏t hềp vểi lu™t s≥ giỳp cỏc hê thậng trớch chÂn sá kiên thu ˜ềc cỏc thụng tin ∞c biêt Tuy nhiờn, ph˜ẽng phỏp này cú mẻt nh˜ềc i∫m ú là y∏u tớch hềp hê thậng khi k∏t hềp hai ph˜ẽng phỏp dáa trờn lu™t và d˙ liêu [20].
Trong lu™n v´n, tỏc giÊ láa chÂn ph˜ẽng phỏp k∏t hềp gi˙a lu™t và hÂc mỏy (hybrid) bi mẻt sậl˛do sau õy Th˘nhòt, d˙liêu trong hê thậng nhi∑u (khoÊng gản 4 triêu bài bỏo), n∏u d˙ liêu này ˜ềc dựng trác ti∏p cho b˜ểc phõn lểp thỡ s≥ làm t´ng thèi gian phỏt hiên sá kiên Do ú, tỏc giÊ s˚ dˆng cỏc lu™t cỳ phỏp (t¯ khoỏ) ∫ loĐi b‰ bểt d˙ liêu d˜ th¯a tr˜ểc khi s˚ dˆng bẻ phõn lểp Th˘ hai, trong ba thụng tin cıa sá kiên gÁm: thèi gian, tờn bênh, và ‡a i∫m bựng phỏt cú thụng tin v∑ thèi gian là ∞c biêt ụi khi thụng tin này ˜ềc ∑ c™p khụng rừ ràng và thi∏u chi ti∏t v∑ thÌi gian (ví dˆ, "tËi qua", "r§ng sáng nay", ); do ó, tỏc giÊs˚ dˆng lu™t ng˙nghổa ∫ trớch chÂn thụng tin này Mẻt l˛ do khỏc ∫ tỏc giÊ s˚ dˆng mụ hỡnh lai ú là trong hê thậng cú ch˘c n´ng phõn lểp và nh™n dĐng thác th∫, mà cỏc yờu cảu này ˜ềc thác hiên tật bi cỏc mụ hỡnh xỏc suòt thậng kờ dáa trờn d˙ liêu Chi ti∏t ph˜ẽng phỏp ˜ềc ∑ xuòt trong lu™n v´n s≥ ˜ềc trỡnh bày trong ch˜ẽng 3.
TÍng k∏t
Trong ch˜ẽng này, tỏc giÊ ó trỡnh bày cỏc ph˜ẽng phỏp cẽ bÊn ∫ ti∏p c™n bài toỏn trớch chÂn sá kiên d‡ch bênh Tỏc giÊ cÙng ˜a ra mẻt sậ bàn lu™n v∑ cỏc ph˜ẽng phỏp và chứ ra răng ph˜ẽng phỏp k∏t hềp gi˙a lu™t và hÂc mỏy phự hềp vểi bài toỏn ˜ềc phỏt bi∫u ch˜ẽng 3 Trong ch˜ẽng ti∏p theo, tỏc giÊ s≥ trỡnh bày chi ti∏t bài toỏn trớch chÂn sákiên d‡ch bênh và mụ hỡnh ∑ xuòt ∫ giÊi quy∏t bài toán này.
Ch˜ẽng này s≥ t™p trung làm rừ bài toỏn trớch chÂn sá kiên d‡ch bênh; cỏc ∞c tớnh cẽ bÊn cıa mẻt sá kiên d‡ch bênh; ∑ xuòt mụ hỡnh giÊi quy∏t bài toỏn dáa trờn nh˙ng phõn tớch trong ch˜ẽng 2; và trỡnh bày chi ti∏t hai bài toỏn quan trÂng trong lu™n v´n, ú là: bài toỏn phỏt hiên sá kiên và bài toỏn trớch chÂn sá kiên.
Cỏc ∞c tớnh cıa sá kiên d‡ch bênh
Quỏ trỡnh khÊo sỏt trờn mi∑n d˙ liêu ch˘a sákiên d‡ch bênh chứ ra răng mẻt sá kiên d‡ch bênh cú th∫ ch˘a tờn bênh, thèi gian bựng phỏt d‡ch bênh, cỏc ‡a i∫m mà d‡ch bênh bựng phỏt, và thụng tin v∑ cỏc nĐn nhõn cıa d‡ch bênh Trong mẻt sậtr˜èng hềp, mẻt sákiên d‡ch bênh cú th∫ ch˘a thờm cỏc thụng tin liờn quan tểi ph˜ẽng th˘c lõy lan (lõy trác ti∏p ho∞c qua cỏc v™t trung gian) ho∞c mụi tr˜èng lõy nhiπm Nh˜ v™y, cú th∫ thòy răng cỏc thụng tin cẽ bÊn cıa mẻt sá kiên d‡ch bênh là tờn bênh, thèi gian, và ‡a i∫m bựng phỏt.
Trong nghiờn c˘u cıa mỡnh, Grishman R và cẻng sá [17] quan niêm răng mẻt sá kiên d‡ch bênh ch˘a tờn bênh, thèi gian và ‡a i∫m d‡ch bênh bựng phỏt, sậ l˜ềng cỏc nĐn nhõn, và ki∫u nĐn nhõn (ng˜èi hay ẻng v™t) Tuy nhiờn, trong giểi hĐn cıa lu™n v´n, tỏc giÊ chứ quan tõm tểi ba thụng tin cẽ bÊn, ú là tờn bênh, thèi gian, và ‡a i∫m mà d‡ch bênh bựng phỏt Tỏc giÊ b‰qua ph˜ẽng th˘c ho∞c mụi tr˜èng lõy bênh vỡ d˙liêu trong lu™n v´n ˜ềc thu th™p t¯cỏc trang web thay vỡ cỏc bỏo cỏo y t∏ Nh˜ v™y, trong hảu h∏t cỏc tr˜èng hềp, thụng tin v∑ ph˜ẽng th˘c ho∞c mụi tr˜èng lõy lan khụng ˜ềc ∑ c™p mẻt cỏch rừ ràng Hẽn n˙a, mẻt sákiên trong MUC gÁm mẻt tỏc nhõn (actor) [19], tuy nhiờn, trong lu™n v´n, mẻt tỏc nhõn t˜ẽng ˜ẽng vểi tờn bênh, do v™y, tỏc giÊ s˚ dˆng tờn bênh thay cho tỏc nhân.
Bờn cĐnh ú, quỏ trỡnh khÊo sỏt d˙ liêu trờn cỏc bài bỏo ch˘a sá kiên d‡ch bênh cÙng chứra răng tờn bênh ụi khi giậng vểi triêu tr˘ng cıa bênh õy là mẻt trong nh˙ng l˛ do cıa sá nhảm lđn trong quỏ trỡnh trớch chÂn sá kiên Vớ dˆ, “cỳm" là mẻt triêu tr˘ng cıa bênh cỳm gia cảm H5N1, tuy nhiờn triêu tr˘ng cỳm vđn ˜ềc nh™n diên là mẻt bênh.
Phát bi∫u bài toán
CÙng giậng vểi bài toỏn trớch chÂn thụng tin núi chung, bài toỏn trớch chÂn sá kiên d‡ch bênh t™p trung vào viêc trớch chÂn cỏc thụng tin cẽ bÊn cıa mẻt sákiên d‡ch bênh t¯ cỏc v´n bÊn khụng cú còu trỳc Mẻt cỏch hỡnh th˘c, bài toỏn cú th∫ phát bi∫u nh˜ sau:
• ảu vào: mẻt bài bỏo iên t˚.
• ảu ra: mụ hỡnh s≥ phÊi ki∫m tra xem bài bỏo ảu vào cú ch˘a sákiên d‡ch bênh hay khụng? N∏u cú thỡ trớch chÂn cỏc thụng tin cıa d‡ch bênh.
Trong phĐm vi cıa lu™n v´n, mẻt sá kiên d‡ch bênh (t¯ nay gÂi là sá kiên) ˜ềc
‡nh nghổa là mẻt bẻ E gÁm ba thành phản, ú là: tờn d‡ch bênh, thèi gian, và v‡ trớ d‡ch bênh bựng phỏt Mẻt cỏch hỡnh th˘c, sá kiên E ˜ềc ‡nh nghổa nh˜ trong công th˘c (3.1):
E = (3.1) vÓi:
• tờn bênh: là tờn cıa d‡ch bênh ˜ềc ∑ c™p trong bài bỏo.
• thèi gian: là thèi gian mà d‡ch bênh bựng phỏt.
• ‡a i∫m: là ‡a i∫m mà d‡ch bênh bựng phỏt ‡a i∫m cú th∫ là mẻt ho∞c mẻt t™p hềp cỏc ‡a i∫m.
Mẻt vớ dˆ minh hoĐ cho sá kiên d‡ch bênh E nh˜ sau: E = Thụng qua ba thụng tin cẽ bÊn này, chỳng ta cú th∫ dπ dàng suy lu™n là cúm A/H5N1 ã bùng phát Qu£ng Ngãi t¯ ngày 12 tháng
Trong phản ‡nh nghổa bài toỏn, ảu vào cıa mụ hỡnh là mẻt bài bỏo iên t˚.
Tỏc giÊ chÂn d˙liêu là cỏc trang bỏo iên t˚vỡ hai l˛ do sau Th˘nhòt, thụng tin trờn cỏc trang bỏo cú ẻ tin c™y và tớnh c™p nh™t cao N∏u mẻt bênh bựng phỏt thỡ ròt nhanh sau ú thụng tin cıa d‡nh bênh s≥ ˜ềc c™p nh™t trờn cỏc trang bỏo iên t˚ Th˘ hai, quỏ trỡnh thu th™p d˙liêu t¯ cỏc trang bỏo iên t˚ cÙng khỏ dπ dàng Hảu h∏t cỏc trang bỏo mĐng ∑u cung còp cẽ ch∏ lòy tin mẻt cỏch tá ẻng.
Do v™y, d˙liêu cho mụ hỡnh luụn Êm bÊo tớnh a dĐng và tớnh c™p nh™t.
Mụ hỡnh trong phản ‡nh nghổa bài toỏn ˜ềc chia thành hai bài toỏn nh‰, ú là: bài toỏn phỏt hiên mẻt bài bỏo cú ch˘a sá kiên hay khụng và bài toỏn th˘ hai là sau khi ó phỏt hiên ˜ềc sá kiên thỡ cản phÊi trớch chÂn ˜ềc ba thụng tin cẽ bÊn cıa sá kiên ú Trong phĐm vi lu™n v´n, bài toỏn th˘ nhòt ˜ềc gÂi là pha
CH◊ÃNG 3 MÔ HÌNH ó XUáT 20 phỏt hiên sá kiên và bài toỏn th˘ hai ˜ềc gÂi là pha trớch chÂn sá kiên Bờn cĐnh ú, lu™n v´n chứt™p trung vào viêc trớch chÂn cỏc thụng tin liờn quan tểi d‡ch bênh trờn ng˜èi trong mi∑n d˙liêu ti∏ng Viêt vểi d˙liêu ˜ềc lòy t¯cỏc trang bỏo iên t˚ cıa Viêt Nam Chi ti∏t ph˜ẽng phỏp ∑ xuòt ˜ềc trỡnh bày trong phản ti∏p theo.
Ph˜ẽng phỏp ∑ xuòt
Trong ch˜ẽng 2 lu™n v´n ó trỡnh bày cỏc ph˜ẽng phỏp cẽ bÊn ∫ trớch chÂn sá kiên Cỏc ph˜ẽng phỏp ú gÁm: s˚ dˆng lu™t (rule-based), ph˜ẽng phỏp hÂc mỏy, và ph˜ẽng phỏp k∏t hềp gi˙a lu™t và hÂc mỏy Phản này ti∏p tˆc phỏt tri∫n ˛t˜ng cıa viêc k∏t hềp gi˙a lu™t và hÂc mỏy cho bài toỏn trớch chÂn sákiên d‡ch bênh.
Trong phaphỏt hiên sá kiên, khi thu th™p d˙liêu t¯Internet, chỳng ta g∞p phÊi vòn ∑ sậ l˜ềng cỏc trang bỏo quỏ lển Sậ l˜ềng tin bài trong mẻt ngày cıa mẻt trang báo có th∫ lên tÓi con sË hàng nghìn; tuy nhiên, sË l˜Òng các bài liên quan tểi d‡ch bênh chứ chi∏m mẻt sậ l˜ềng nh‰ trong ú Mẻt ˛ t˜ng ẽn giÊn là cản phÊi giÊm sậ l˜ềng cỏc bài bỏo tr˜ểc khi ˜a vào bẻ phõn lểp Nh˜ v™y, tĐi b˜ểc này, tỏc giÊ xõy dáng mẻt bẻlu™t ∫ lÂc cỏc bài bỏo trong mi∑n d‡ch bênh Nh˙ng bài bỏo này cản ˜ềc nh™n diên xem chỳng cú ch˘a sá kiên d‡ch bênh hay khụng.
∫ làm viêc này, tỏc giÊs˚dˆng mẻt bẻ phõn lểp Nh˜ v™y, ˛ t˜ng ∫ giÊi quy∏t bài toỏn phỏt hiên sá kiên là k∏t hềp gi˙a hÂc mỏy và lu™t.
Trong pha trớch chÂn sákiên, bẻtrớch chÂn cản phÊi lòy ˜ềc ba thụng tin quan trÂng, ú là: tờn bênh, thèi gian, và ‡a i∫m Trong khi ‡a i∫m và tờn bênh cú th∫ trớch chÂn dπ dàng băng cỏch s˚ dˆng nh™n dĐng thác th∫ (NER) và ontology ho∞c t¯ i∫n thỡ thèi gian khỏ khú nh™n bi∏t Nú gÁm cỏc thụng tin dĐng tuyêt ậi (dd/mm/yyyy) ho∞c t˜ẽng ậi (hụm qua, rĐng sỏng nay, ) Do v™y, ˛ t˜ng là s˚ dˆng các lu™t ∫ trích chÂn ra y∏u tË thÌi gian.
Nh˜ v™y, trong c£hai pha, tác gi£s˚ dˆng ˛ t˜ng k∏t hÒp lu™t và hÂc máy ( õy là phõn lểp và nh™n dĐng thác th∫) ∫ giÊi quy∏t bài toỏn nh™n dĐng và trớch chÂn sá kiên Chi ti∏t cıa mụ hỡnh và hai bài toỏn s≥ ˜ềc trỡnh bày trong phản ti∏p theo.
Mụ hỡnh phỏt hiên và trớch chÂn sá kiên
Tỏc giÊ ∑ xuòt mụ hỡnh phỏt hiên và trớch chÂn sá kiên d‡ch bênh ˜ềc minh hoĐtrong hỡnh 3.1 Quỏ trỡnh phỏt hiên và trớch chÂn sákiên gÁm n´m thành phản chính:
• Thu th™p d˙ liêu: thành phản này cú nhiêm vˆ tá ẻng thu th™p cỏc bài bỏo
Bộ thu thập dữ liệu
Tiền xử lý dữ liệu
Bộ phát hiện sự kiện
Bộ trích chọn sự kiện Trực quan hoá
Hỡnh 3.1: Quỏ trỡnh phỏt hiên và trớch chÂn sá kiên t¯ cỏc trang trờn Internet và chuy∫n cho thành phản ti∑n x˚ l˛ d˙ liêu.
• Ti∑n x˚l˛ d˙liêu: sau khi nh™n d˙liêu t¯thành phản thu th™p d˙liêu, thành phản này ti∏n hành loĐi b‰cỏc thƠ HTML, lòy v∑d˙liêu thụ (text), và chuy∫n d˙ liêu này cho thành phản phỏt hiên sá kiên.
• Phỏt hiên sákiên: thành phản này nh™n d˙ liêu thụ t¯thành phản ti∑n x˚ l˛ sau ú ki∫m tra xem d˙ liêu cú thuẻc mi∑n d‡ch bênh hay khụng (dựng lu™t); n∏u d˙ liêu thuẻc mi∑n d‡ch bênh thỡ chuy∫n d˙ liêu tểi bẻ phõn lểp TĐi õy, bài bỏo s≥ ˜ềc quy∏t ‡nh xem nú cú ch˘a sákiên hay khụng? N∏u cú, chuy∫n d˙ liêu tểi pha trớch chÂn; ng˜ềc lĐi thỡ loĐi b‰.
• Trớch chÂn sákiên: thành phản này trớch chÂn ra ba thụng tin cıa mẻt sákiên d‡ch bênh gÁm: tờn bênh, thèi gian, và ‡a i∫m.
• Trác quan hoỏ: thành phản cuậi cựng trác quan hoỏ thụng tin trờn mẻt bÊn Á trác tuy∏n (Geographic Information System - GIS).
Trong phĐm vi cıa lu™n v´n, tỏc giÊ t™p trung vào hai thành phản chớnh ú là: thành phản phỏt hiên sákiên và trớch chÂn sákiên Hai thành phản này ˜ềc trỡnh bày chi ti∏t trong mˆc 3.5 và 4.4.
Bài toỏn phỏt hiên sá kiên
Phát bi∫u bài toán
Mˆc tiờu cıa pha này là xỏc ‡nh xem mẻt bài bỏo cú ch˘a sá kiên d‡ch bênh hay khụng Mẻt cỏch hỡnh th˘c, bài toỏn phỏt hi∏n sá kiên cú th∫ ˜ềc phỏt bi∫u nh˜ sau:
• ảu vào: d˙ liêu dĐng thụ cıa bài bỏo sau khi ó ˜ềc ti∑n x˚ l˛.
• ảu ra: bài bỏo cú ch˘a sá kiên d‡ch bênh hay khụng?
Pha phỏt hiên sá kiên gÁm hai ch˘c n´ng, ú là: mẻt bẻ lÂc d˙ liêu (data filter) và mẻt bẻ phõn lểp BẻlÂc d˙liêu s˚dˆng cỏc lu™t cú nhiêm vˆ xỏc ‡nh cỏc bài bỏo cú liờn quan tểi d‡ch bênh trong khi ú bẻ phõn lểp s≥ quy∏t ‡nh bài bỏo cú ch˘a sá kiên hay khụng Quỏ trỡnh phỏt hiên sá kiên ˜ềc minh hoĐ trong hỡnh
CH◊ÃNG 3 MÔ HÌNH ó XUáT 22
Hỡnh 3.2: Thành phản phỏt hiên sá kiên
3.2 Trong ch˘c n´ng lÂc d˙ liêu, tiờu ∑ cıa mẻt bài bỏo ˜ềc s˚ dˆng ∫ lÂc ra cỏc d˙ liêu cú liờn quan tểi mi∑n d˙ liêu d‡ch bênh Sau ú, n∏u bài bỏo thuẻc mi∑n d‡ch bênh, nú s≥ ˜ềc chuy∫n tểi bẻ phõn lểp – õy, bài bỏo s≥ ˜ềc quy∏t
‡nh xem nú cú ch˘a sá kiên d‡ch bênh hay khụng.
Xõy dáng t™p lu™t
Nh˜tỏc giÊ ó ∑ c™p trờn, pha phỏt hiên sákiên gÁm hai ch˘c n´ng: mẻt bẻ lÂc d˙ liêu và mẻt bẻ phõn lểp Bẻ lÂc d˙ liêu s˚ dˆng cỏc lu™t ∫ giÊm sậ l˜ềng cỏc bài bỏo cho bẻphõn lểp phớa sau Qua quỏ trỡnh khÊo sỏt d˙liêu, tỏc giÊnh™n thòy thụng th˜èng tiờu ∑ cıa mẻt bài bỏo cú th∫ núi lờn hảu h∏t nẻi dung cıa bài bỏo ú i∑u này cú nghổa, n∏u tiờu ∑ cıa bài bỏo núi v∑ d‡ch bênh, thỡ khÊ n´ng lển bài bỏo núi v∑ d‡ch bênh; và ng˜ềc lĐi Do dú, tỏc giÊ quy∏t ‡nh chứ s˚ dˆng tiờu ∑ bài bỏo thay vỡ toàn bẻ nẻi dung cıa bài bỏo cho ch˘c n´ng lÂc d˙ liêu.
HoĐt ẻng cıa bẻlÂc d˙liêu cú th∫ mụ tÊnh˜sau: (1) tỏc giÊ s≥ xõy dáng mẻt t™p lu™t dáa vào quỏ trỡnh khÊo sỏt d˙ liêu, cỏc lu™t này ch˘a cỏc t¯ khoỏ liờn quan tểi mi∑n d˙liêu d‡ch bênh; (2) bẻlÂc d˙liêu s≥ dựng cỏc lu™t này và so khểp vểi tiờu ∑ cıa cỏc bài bỏo, n∏u tiờu ∑ ch˘a cỏc lu™t thỡ i∑u ú cú nghổa bài bỏo ú thuẻc mi∑n d˙ liêu d‡ch bênh, ng˜ềc lĐi thỡ khụng thuẻc.
T™p lu™t yờu cảu mẻt t™p cỏc t¯ ho∞c cỏc cˆm t¯ liờn quan tểi mi∑n d˙ liêu d‡ch bênh ∫ lòy t™p này, tỏc giÊ ó ti∏n hành thậng kờ trờn mẻt t™p d˙ liêu lểp các bài báo cıa chuyên mˆc "S˘c kho¥" 1 cıa website Báo MÓi 2 Tác gi£ chÂnBáo Mểi vỡ trang web này tá ẻng tÍng hềp bài vi∏t t¯cỏc trang web khỏc, do v™y nú £m b£o tính a d§ng cıa t¯ khoá.
Sau quá trình thËng kê, tác gi£ thu ˜Òc 34 t¯ khoá (hay còn gÂi là t™p các t¯ th˜èng xuyờn - frequent-words set) Cỏc t¯ ˜ềc s≠p x∏p theo th˘ tá giÊm dản
1 http://www.baomoi.com/Home/SucKhoe.epi
2 http://www.baomoi.com theo sậ bài vi∏t nú xuòt hiên (hi∫n nhiờn õy khụng tớnh ∏n cỏc t¯ d¯ng - stop words) Mẻt sậ t¯ và cˆm t¯ ˜ềc minh hoĐ trong bÊng 3.1, vểi cẻt th˘ ba là sậ l˜ềng cỏc bài bỏo mà t¯ cẻt sậ hai xuòt hiên K∏t quÊcıa quỏ trỡnh khÊo sỏt và
B£ng 3.1: Danh sách các t¯/cˆm t¯ th˜Ìng xuyên
10 Kh˚ trùng 1143 thậng kờ cho thòy hảu h∏t cỏc bài bỏo ch˘a cỏc t¯trong t™p t¯ th˜èng xuyờn ∑u liờn quan tểi sá kiên d‡ch bênh Do v™y, ˛ t˜ng cıa cỏc giÊ là xõy dáng t™p cỏc lu™t băng cỏch k∏t hềp cỏc t¯/cˆm t¯ trong t™p t¯ th˜èng xuyờn ∫ thác hiên viêc tĐo ra cỏc lu™t, tỏc giÊ ∑ xuòt hai mđu cú tờn là Mđu 1 và Mđu 2 Cỏc m®u này ˜Òc minh ho§ trong công th˘c (3.2) và (3.3).
Mđu 1= danh t¯ # ẻng t¯ (3.2) vểi: cỏc danh t¯ và ẻng t¯ ˜ềc lòy trong t™p t¯ th˜èng xuyờn.
Vớ dˆ 1: minh hoĐ th∫ hiên cıa Mđu 1:
Mđu 2= tờn bênh # ẻng t¯ (3.3) vÓi:
• tờn bênh ˜ềc lòy t¯ BioCaster Ontology [9] và thụng bỏo cıa Bẻ Y t∏ Viêt Nam này 24 tháng 06 n´m 2011 3
• ẻng t¯ lòy t¯ t™p t¯ th˜èng xuyờn.
Vớ dˆ 2: minh hoĐ cỏc th∫ hiên cıaMđu 2:
• tiờu chÊy còp # phỏt hiên
• tiờu chÊy còp # lõy lan
3 http://www.moh.gov.vn/
CH◊ÃNG 3 MÔ HÌNH ó XUáT 24
• tiờu chÊy còp # bựng phỏt
• tiờu chÊy còp # ch∏t (t˚ vong)
• tiờu chÊy còp # d˜ẽng tớnh
CÊ hai mđu ∑u cú hai thành phản ˜ềc ng´n cỏch vểi nhau bi dòu # Tỏc giÊ s˚dˆng 52 danh t¯/cˆm danh t¯ và 10 ẻng t¯/cˆm ẻng t¯ ∫ xõy dáng Mđu 1.
Nh˙ng ẻng t¯ và danh t¯ này ˜ềc lòy t¯ t™p t¯ th˜èng xuyờn T˜ẽng tá nh˜ v™y, tỏc giÊ s˚ dˆng 186 tờn bênh và 6 ẻng t¯/cˆm ẻng t¯ ∫ xõy dáng Mđu 2.
Mẻt sậ ẻng t¯/cˆm ẻng t¯ trong Mđu 1 và Mđu 2 giậng nhau.
Sau khi xõy dáng t™p lu™t, tỏc giÊthu ˜ềc 229 lu™t cıa Mđu 1 vàMđu 2 T™p lu™t này ˜ềc s˚ dˆng ∫ lÂc d˙liêu cho bẻ phõn lểp phớa sau.
Xõy dáng mụ hỡnh phõn lểp
Bẻ phõn lểp cú nhiêm vˆ phỏt hiên mẻt bài bỏo cú ch˘a sá kiên d‡ch bênh hay khụng Bẻphõn lểp s≥ phõn loĐi v´n bÊn vào hai lểp: ch˘a sákiên d‡ch bênh (nhón là EVENT) và khụng ch˘a sá kiên (NOT_EVENT) Quỏ trỡnh khÊo sỏt chứ ra răng tiờu ∑ và phản túm t≠t cú ı thụng tin ∫ bi∫u diπn nẻi dung cıa bài bỏo.
Do v™y, các thông tin này ˜Òc s˚dˆng ∫ t§o vector ∞c tr˜ng bi∫u diπn v´n b£n.
Tỏc giÊ xõy dáng mẻt t™p d˙ liêu huòn luyên và dựng t™p d˙ liêu huòn luyên này
∫ xỏc ‡nh nh˙ng v´n bÊn ch˘a sá kiên Cỏc ∞c tr˜ng ˜ềc s˚ dˆng trong quỏ trỡnh huòn luyên là 2-grams, 3-grams, và 4-grams TÍng sậ ∞c tr˜ng ˜ềc s˚dˆng là 4.552.
Trong quỏ trỡnh huòn luyên, tỏc giÊ s˚ dˆng mụ hỡnh Maximum Entropy 4 Maximum Entropy (ME) [4, 33, 34, 22] là mẻt mụ hỡnh dáa trờn xỏc suòt cú i∑u kiên cho phộp tớch hềp sá a dĐng cıa cỏc ∞c tr˜ng t¯ t™p d˙ liêu huòn luyên cho bài toỏn phõn lểp fi t˜ng cıa ME là mụ hỡnh phÊi xỏc inh mẻt phõn phậi
∑u thoÊmón cỏc ràng buẻc t¯t™p d˙liêu huòn luyên mà khụng thờm bòt k˝mẻt giÊ ‡nh nào i∑u này cú nghổa sá phõn bậ cıa mụ hỡnh phÊi thoÊ món cỏc ràng buẻc cıa d˙liêu quan sỏt và càng gản vểi phõn bậ ∑u càng tật Tỏc giÊchÂn ME vỡ: (1) d˙ liêu trong quỏ trỡnh huòn luyên là v´n bÊn, do v™y, khi bi∫u diπn d˜ểi dĐng vector ∞c tr˜ng thỡ õy là d˙ liêu th˜a mà ME tật khi d˙ liêu ˜ềc bi∫u diπn d˜ểi dĐng th˜a; (2) tậc ẻhuòn luyên cıa ME khỏ tật so vểi cỏc thu™t toỏn mà tỏc giÊ ˜ềc bi∏t (SVM) và thác nghiêm ó ch˘ng minh ph˜ẽng phỏp cho k∏t quÊ tật vểi d˙ liêu v´n bÊn; (3) cú th∫ tu˝ bi∏n mó nguÁn cıa ME do õy là mó nguÁn m.
Sau quỏ trỡnh huòn luyên, toàn bẻ d˙ liêu ó qua bẻ lÂc s≥ ˜ềc ˜a vào mụ hỡnh TĐi õy, nh˙ng v´n bÊn cú nhón EVENT s≥ là ảu vào cho quỏ trỡnh trớch chÂn; ng˜Òc l§i, mô hình s≥ b‰ qua nh˙ng v´n b£n có nhãn là NOT_EVENT.
4 http://www.cs.princeton.edu/maxent
Bài toỏn trớch chÂn sá kiên
Phát bi∫u bài toán
Bẻ trớch chÂn sákiên là mẻt trong hai thành phản quan trÂng cıa mụ hỡnh, nẽi mà thụng tin cıa mẻt sá kiên d‡ch bênh ˜ềc trớch chÂn Mẻt cỏch hỡnh th˘c, cú th∫ phỏt bi∫u bài toỏn trớch chÂn sá kiên nh˜ sau:
• ảu vào: mẻt v´n bÊn ch˘a sá kiên d‡ch bênh.
• ảu ra: cỏc thụng tin cıa mẻt d‡ch bênh bao gÁm: tờn bênh, thèi gian bựng phỏt, và ‡a i∫m bựng phỏt L˜u ˛ răng ‡a i∫m bựng phỏt d‡ch bênh cú th∫ là mẻt ho∞c nhi∑u.
Bài toỏn trớch chÂn sá kiên cú th∫ ˜ềc minh hoĐ trong hỡnh 3.3 Bẻ trớch chÂn
Luật Trích chọn tên bệnh
Từ điển tên bệnh Trích chọn địa điểm
Cây phân cấp địa điểm
Hỡnh 3.3: Thành phản trớch chÂn sá kiên gÁm ba ch˘c n´ng: trớch chÂn thèi gian, trớch chÂn tờn bênh, và trớch chÂn thụng tin ‡a i∫m Ch˘c n´ng th˘ nhòt s˚ dˆng cỏc lu™t ∫ lòy v∑ thụng tin thèi gian cıa d‡ch bênh; ch˘c n´ng th˘ hai dựng mẻt t¯ i∫n ch˘a cỏc tờn bênh ∫ lòy v∑ tờn bênh; và ch˘c n´ng cuậi cựng k∏t hềp nh™n dĐng thác th∫ (NER) và mẻt t¯ i∫n ‡a i∫m ∫ lòy v∑ thụng tin ‡a i∫m bựng phỏt d‡ch bênh Cuậi cựng, cỏc thụng tin ˜ềc tÍ hềp ∫ tĐo thành mẻt sá kiên và nú ˜ềc l˜u trong mẻt cẽ s d˙ liêu sá kiên.
CH◊ÃNG 3 MÔ HÌNH ó XUáT 26
Trích chÂn thÌi gian
K∏t quÊ cıa quỏ trỡnh khÊo sỏt trờn t™p d˙ liêu chứ ra răng thụng tin thèi gian ˜ềc bi∫u diπn băng hai cỏch: tuyêt ậi và t˜ẽng ậi Khi thèi gian ˜ềc bi∫u diπn d˜ểi dĐng tuyêt ậi, nú cú ‡nh dĐng DD/MM/YYYY; trong ú DD chứ ngày, MM chứ thỏng, và YYYY chứ n´m xÊy ra d‡ch bênh Vớ dˆ, “D‡ch si ó bựng phỏt tĐi Qu£ng Ngãi vào ngày 12/06/2012" Tuy nhiên, trong nhi∑u tr˜Ìng hÒp, thông tin liờn quan ∏n d‡ch bênh ˜ềc cung còp mè và khụng trác ti∏p Vớ dˆ, “Chi∑u tậi ngày 12/06/2012, Bẻ Y t∏ ó cụng bậ d‡ch cỳm A/H5N1 bựng phỏt tĐi Yờn Bỏi".
Lỳc này, thụng tin v∑ thèi i∫m d‡ch bênh bựng phỏt khụng rừ ràng, nú chứ là
“Chi∑u tậi" Nh˜v™y, cản k∏t hềp ngày chớnh xỏc và cˆm t¯ “Chi∑u tậi" ∫ ˜a ra ˜Òc thông tin v∑ thÌi gian.
Nh˜ v™y, t¯ thác t∏ thèi gian ˜ềc bi∫u diπn theo hai cỏch, ˛ t˜ng cıa tỏc giÊ là s˚ dˆng cỏc lu™t ˜ềc xõy dáng sặn ∫ lòy ra thụng tin thèi gian Trong tr˜èng hềp th˘ nhòt, thèi gian cú th∫ dπ dàng ˜ềc trớch chÂn băng cỏch s˚ dˆng bi∫u th˘c chính quy (Regular Expression - RE) Trong tr˜Ìng hÒp thÌi gian ˜Òc bi∫u diπn d˜ểi dĐng t˜ẽng ậi, cú th∫ dπ dàng nh™n thòy nú ch˘a hai thành phản: thành phảnti∑n tậ vàthèi gian Thành phản ti∑n tậ là t™p cỏc t¯ chứ ra thèi gian t˜ẽng ậi (sỏng nay, tậi qua, ) và thành phản thèi gian th˜èng ˜ềc bi∫u diπn d˜Ói d§ng DD/MM/YYYY Do ó, tác gi£ s˚ dˆng lu™t ∫ trích chÂn thÌi gian ˜ềc ∑ xuòt trong [38] Lu™t trớch chÂn thèi gian ˜ềc minh hoĐ trong cụng th˘c (3.4).
THếI GIAN=+NGÀY THÁNG (3.4) vÓi:
• THếI GIAN T◊ÃNG ằI gÁm cỏc t¯: vào, ngày, sỏng, hụm nay, sỏng hụm nay, chi∑u, hôm qua, tËi qua, r§ng sáng, tháng.
• NGÀY THÁNG có ‡nh d§ng DD/MM/YYYY.
Trong tr˜Ìng hÒp bài báo không ∑ c™p tÓi DATE TIME, thÌi gian m∞c ‡nh s≥ ˜ềc lòy là thèi gian xuòt bÊn bài bỏo Vớ dˆ 3 và 4 minh hoĐ viêc s˚ dˆng bi∫u th˘c chớnh quy và lu™t thèi gian ∫ trớch chÂn ra thèi gian cıa sá kiên.
Vớ dˆ 3: “Ngày 12/03/2012, Bẻ Y t∏ cụng bậ d‡ch cỳm A H5N1 ó tỏi phỏt tĐi Qu£ng Ngãi."
Vớ dˆ 4:“Sỏng ngày 15/01/2012, S Y t∏ thành phậ Hà Nẻi thụng bỏo bênh nhõn ảu tiờn nhiπm cỳm A/H5N1 ó t˚ vong."
Trong Ví dˆ 3, thÌi gian ˜Òc trích chÂn b¨ng cách s˚ dˆng bi∫u th˘c chính quy, trong khi nó ˜Òc trích chÂn b¨ng lu™t thÌi gian (3.4) trong Ví dˆ 4 K∏t qu£ là thông tin thÌi gian trong Ví dˆ 3 là 12/03/2012 và trong Ví dˆ 4 làSáng ngày15/01/2012.
Trớch chÂn tờn bênh
Trớch chÂn tờn bênh là ch˘c n´ng th˘ hai trong b˜ểc trớch chÂn sá kiên Ch˘c n´ng này cú nhiêm vˆ lòy ra thụng tin cıa d‡ch bênh trong t¯ v´n bÊn ảu vào.
∫ trớch chÂn tờn bênh, ˛ t˜ng cıa tỏc giÊ là s˚ dˆng mẻt t¯ i∫n tờn bênh ∫ so khểp vểi cỏc t¯/cˆm t¯ trong v´n bÊn ảu vào, t¯ nào dài nhòt ˜ềc so khểp vểi cỏc mˆc trong t¯ i∫n thỡ ú s≥ là tờn bênh.
Nh˜tỏc giÊ ó ∑ c™p trong hỡnh 3.1, quỏ trỡnh ti∑n x˚l˛ d˙ liêu s≥ tỏch cõu và tỏch t¯ cho cỏc v´n bÊn Nh˜ v™y, mẩi v´n bÊn s≥ cú mẻt danh sỏch cỏc t¯/cˆm t¯ Và nh˜ v™y, cụng viêc trớch chÂn ra tờn bênh là tỡm cỏc t¯ dài nhòt khểp vểi mẻt mˆc bòt k˝ trong t¯ i∫n tờn bênh (gÁm 186 tờn bênh).
Quá trình trích chÂn này có th∫ ˜Òc mô t£ trong hai b˜Óc: (1) tìm cˆm t¯dài nhòt mà so khểp ˜ềc vểi mẻt mˆc trong t¯ i∫n tờn bênh (2) và so khểp˘ng viờn vểi v´n bÊn gậc ∫ ki∫m tra nú cú phÊi là tờn chớnh xỏc hay khụng B˜ểc th˘ nhòt dựng ph˜ẽng phỏp so khểp dài nhòt ∫ so khểp mẻt t¯/cˆm t¯trong v´n bÊn vểi cỏc tờn bênh trong t¯ i∫n N∏u mẻt tờn bênh ch˘a t¯/cˆm t¯ ˜ềc cho, thỡ nú cú th∫ là tờn bênh xuòt hiên trong v´n bÊn gậc Trong b˜ểc th˘ 2, t¯/cˆm t¯ v¯a tỡm ˜ềc s≥ ˜ềc ki∫m tra xem cú xuòt hiên trong v´n bÊn gậc hay khụng Tờn bênh ˜ềc tỡm thòy sau hai b˜ểc này phÊi xuòt hiên trong v´n bÊn gậc Quỏ trỡnh trớch chÂn tờn bênh ˜ềc minh hoĐ qua vớ dˆ 5.
Ví dˆ 5:“D‡ch cúm A/H5N1 bùng phát t§i B∏n Tre"
Sau khi tỏch t¯, tỏc giÊ thu ˜ềc hai cˆm t¯/cˆm t¯ liờn quan tểi tờn bênh, gÁm: cúm và A/H5N1 Quá trình tìm ki∏m (b˜Óc 1) so khÓp các t¯ này vÓi các mˆc trong t¯ i∫n ∫ tỡm ra t¯ dài nhòt Nh˜ v™y, vểi t¯ cỳm tỏc giÊ thu ˜ềc ba t¯/cˆm t¯, gÁm: cỳm, cỳm A/H5N1, và cỳm gia cảm; trong khi ú vểi cˆm t¯
A/H5N1 tỏc giÊ chứ thu ˜ềc mẻt cˆm t¯là cỳm A/H5N1 B˜ểc th˘hai ki∫m tra cỏc t¯/cˆm t¯v¯a tỡm ˜ềc xem chỳng cú xuòt hiên trong v´n bÊn gậc hay khụng.
Trong vớ dˆ này, t¯ dài nhòt làcỳm gia cảm, nh˜ng nú khụng xuòt hiên trong v´n bÊn gậc Do v™y, õy khụng phÊi là tờn bênh chớnh xỏc T¯ dài nhòt th˘ hai là cỳm A/H5N1 xuòt hiên trong v´n bÊn gậc Do ú, õy là tờn bênh chớnh xỏc.
Trích chÂn ‡a i∫m
Xõy dáng ch˘c n´ng th˘ ba khú kh´n hẽn hai ch˘c n´ng tr˜ểc bi vỡ sá nh™p nhăng gi˙a cỏc ‡a i∫m Trong thác t∏, mẻt vài ‡a i∫m cú th∫ cú cựng tờn Vớ dˆ, th‡ tròn ụng HÊi cú th∫ thuẻc tứnh Trà Vinh ho∞c QuÊng Ninh Nh˜ v™y,trong mẻt sậ tr˜èng hềp, n∏u bài bỏo khụng nờu rừ v‡ trớ (xó, huyên, tứnh) thỡ thụng tin v∑ v‡ trớ cıa th∫ b‡ nhảm lđn ∫ giÊi quy∏t vòn ∑ này, ˛ t˜ng cıa tỏc giÊ là k∏t hềp gi˙a nh™n dĐng thác th∫ (NER) và mẻt t¯ i∫n ‡a i∫m ∫ nõng cao ẻ chớnh xỏc trong quỏ trỡnh trớch chÂn thụng tin ‡a i∫m S˚ dˆng NER vỡ các thông tin liên quan tÓi ‡a i∫m có th∫ dπ dàng ˜Òc thu hÁi thông qua lo§i
CH◊ÃNG 3 MÔ HÌNH ó XUáT 28 thác th∫ (cˆ th∫ õy là LOCATION); cũn s˚ dˆng mẻt t¯ i∫n ‡a i∫m ( ˜ềc tÍ ch˘c d˜ểi dĐng cõy phõn còp) ∫ giÊi quy∏t cỏc tr˜èng hềp khi thụng tin ‡a i∫m khụng ˜ềc ∑ c™p mẻt cỏch rừ ràng (chứ cú tờn xó ho∞c huyên mà khụng cú tờn tứnh).
Quá trình trích chÂn thông tin ‡a i∫m có th∫ ˜Òc mô t£ trong ba b˜Óc: (1) NER, (2) thu hÁi thụng tin ‡a i∫m, và (3) quỏ trỡnh chuân hoỏ ảu tiờn, mẻt bẻ nh™n dĐng thác th∫ (NER 5 ) ˜ềc s˚ dˆng ∫ phỏt hiên ra cỏc thác th∫ ki∫u LOCATION Nh˜ v™y, cỏc ‡a i∫m trong bài bỏo s≥ ˜ềc gỏn nhón bi mẻt c∞p
và Sau ú, tỏc giÊthu hÁi cỏc thụng tin ‡a i∫m dáa trờn c∞p nhón này băng cỏch duyêt qua toàn bẻ cỏc nhón và chứ gi˙ lĐi nh˙ng nẻi dung ˜ềc ỏnh dòu bi c∞p nhón và Trong b˜ểc cuậi cựng, mẩi mẻt thụng tin ‡a i∫m s≥ ˜ềc chuân hoỏ băng cỏch so khểp vểi thụng tin trong cõu phõn còp ‡a i∫m Thụng tin cuậi cựng là thụng tin ó ˜ềc chuân hoỏ.
Tỏc giÊs˚dˆng t¯ i∫n ‡a i∫m nh˜là mẻt cõy phõn còp (taxonomy) T¯ i∫n này ˜Òc minh ho§ trong hình 3.4.
Huyện 1.1 Thị xã 1.2 Huyện 2.1 Thị xã 2.2 Huyện n.1 Thị xã n.2
Phường 1.1.1 Xã 1.1.2 Phường 2.1.1 Xã 2.1.2 Phường n.1.1 Xã n.1.2
Hỡnh 3.4: Bi∫u diπn cıa cõy phõn còp ‡a i∫m
Trong còu trỳc phõn còp này, m˘c cao nhòt là nỳt gậc; m˘c mẻt bi∫u diπn
63 tứnh thành cıa Viêt Nam; m˘c hai bi∫u diπn 692 huyên; và m˘c ba bi∫u diπn 11.101 xó, ph˜ẽng, th‡ tròn trong toàn quậc Khi mẻt t¯/cˆm t¯ năm trong c∞p thƠ và , nú s≥ ˜ềc so khểp vểi giỏ tr‡ cıa mẻt nỳt trong cõy phõn còp trong hỡnh 3.4, và nh˜v™y nỳt hiên tĐi s≥ ˜ềc ỏnh dòu; lỳc này, thụng tin ‡a i∫m chớnh là ˜èng di t¯ nỳt hiên tĐi tểi nỳt gậc Rừ ràng, cỏch tÍ ch˘c này hiêu quÊ cho viêc xỏc ‡nh mậi quan hê gi˙a xó, ph˜èng, th‡ tròn, huyên, và tứnh Sáhiên quÊ cıa cõy phõn còp s≥ ˜ềc minh hoĐ trong Vớ dˆ 6.
Ví dˆ 6: “Ngày 12/04/2013, S Y t∏ Qu£ng Ngãi thông báo d‡ch cúm A H5N1 ã bựng phỏt tĐi th‡ tròn Sụng Vê"
Vớ dˆ này chứ ∑ c™p tểi th‡ tròn (Sụng Vê), nẽi mà d‡ch cỳm A H5N1 bựng
5 http://jvntextpro.sourceforge.net phỏt, trong khi thụng tin v∑ huyên và tứnh b‡ b‰ qua (m∞c dự thụng tin S Y t∏
QuÊng Ngói ngảm ỏm chứ d‡ch bênh bựng phỏt tứnh QuÊng Ngói) Trong quỏ trỡnh trớch chÂn, vớ dˆtrờn ˜ềc phõn tớch băng bẻnh™n dĐng thác th∫ (NER) và
“Sụng Vê" ˜ềc gỏn nhón bi c∞p thƠ và , trong khi ú QuÊng Ngói ˜ềc gỏn nhón là ORG The cỏch thụng th˜èng, sau khi lòy v∑ thụng tin cıa
‡a i∫m (năm trong c∞p thƠ và ), Sụng Vê là thụng tin v∑ ‡a i∫m mà d‡ch bênh bựng phỏt Tuy nhiờn, thụng tin này khụng ı ∫ trác quan hoỏ trờn bÊn ÁGIS do nú khụng ảy ı ∫ giÊi quy∏t vòn ∑ này, thụng tin v¯a thu hÁi ˜ềc so khểp trờn cõy phõn còp ‡a i∫m Khi mẻt nỳt ch˘a giỏ tr‡ ˜ềc tỡm thòy, quỏ trỡnh chuân hoỏ s≥ duyêt t¯ nỳt hiên tĐi v∑ nỳt gậc ∫ lòy ra thụng tin ảy ı Trong vớ dˆ này, khi tỡm thòy nỳt ch˘a cˆm t¯ Sụng Vê, quỏ trỡnh chuân hoỏ s≥ ỏnh dòu nỳt hiên tĐi, và duyêt ng˜ềc v∑ nỳt gậc ∫ lòy thụng tin ảy ı là: th‡ tròn Sụng vê, huyên T˜ Nghổa, tứnh QuÊng Nam.
Cuậi cựng, cỏc thụng tin ˜ềc trớch chÂn gÁm thèi gian, tờn bênh, và dỏnh sỏch cỏc v‡ trớ t¯bài bỏo ảu vào ˜ềc tÍ hềp ∫ tĐo thành mẻt sá kiên d‡ch bênh Sá kiên này s≥ ˜ềc l˜u tr˙ trong mẻt cẽ s d˙ liêu sá kiên nhăm mˆc ớch cung còp d˙ liêu cho thành phản trác quan hoỏ.
TÍng k∏t
Trong ch˜ẽng này, tỏc giÊ ó trỡnh bày ph˜ẽng phỏp và mụ hỡnh ∑ xuòt ∫ giÊi quy∏t bài toỏn trớch chÂn sákiên d‡ch bênh; tỏc giÊcÙng mụ tÊchi ti∏t hai bài toỏn quan trÂng trong mụ hỡnh ú là: bài toỏn phỏt hiên sá kiên và trớch chÂn sá kiên;trong bài toỏnphỏt hiên sá kiên tỏc giÊ ó trỡnh bày chi ti∏t v∑quỏ trỡnh xõy dáng t™p lu™t và mụ hỡnh hÂc mỏy; trong bài toỏn trớch chÂn sá kiên tỏc giÊ ó trỡnh bài chi ti∏t ba thành phản cẽ bÊn cıa bài toỏn này, ú là: trớch chÂn thèi gian, tờn bênh, và ‡a i∫m bựng phỏt d‡ch bênh CÊ hai bài toỏn này ∑u s˚ dˆng ph˜ẽng phỏp k∏t hềp gi˙a lu™t và hÂc mỏy Trong ch˜ẽng ti∏p theo tỏc giÊs≥ ch˘ng minh tớnh hiêu quÊ cıa ph˜ẽng phỏp ∑ xuòt băng ph˜ẽng phỏp thác nghiêm.
Thác nghiêm và ỏnh giỏ k ∏t quÊ
Ch˜ẽng này tỏc giÊs≥ trỡnh bày v∑ mụi tr˜èng, cụng cˆ, cÙng nh˜ cỏc gúi ˜ềc tỏc giÊ xõy dáng; bờn cĐnh ú, tỏc gứa cÙng ch˘ng minh tớnh hiêu quÊcıa ph˜ẽng phỏp thụng qua hai bài toỏn quan trÂng là phỏt hiên sá kiên vàtrớch chÂn sá kiên;cuậi cựng, tỏc giÊ trỡnh bày mẻt sậ bàn lu™n liờn quan tểi k∏t quÊ thác nghiêm cıa ph˜ẽng phỏp ∑ xuòt cÙng nh˜ phản k∏t ch˜ẽng.
Môi tr˜Ìng và các công cˆ cài ∞t
Còu hỡnh phản c˘ng
BÊng 4.1: Còu hỡnh phản c˘ng ˜ềc s˚ dˆng trong thác nghiêm
STT Thành phản Chứ sậ
Cỏc gúi ch˜ẽng trỡnh
Vểi cỏc cụng cˆ phản m∑m ˜ềc trỡnh bày trong phản 4.1.2, tỏc giÊ xõy dáng ch˜ẽng trỡnh ∫ thác thi trớch xuòt thụng tin sá kiên d‡ch bênh Còu trỳc cıa ch˜ẽng trỡnh ˜ềc chia làm 5 gúi (package) chớnh nh˜ sau:
• nlp.util: gúi x˚l˛ cỏc thao tỏc liờn quan tểi têp, chuẩi.
• org.ktlab.dataprocess: gúi d˙ liêu liờn quan tểi viêc x˚ l˛ d˙ liêu nh˜ ti∑n x˚ l˛, so khÓp
BÊng 4.2: Cụng cˆ phản m∑m ˜ềc s˚ dˆng trong thác nghiêm STT Tờn phản m∑m
1 Eclipse Stan- dard/Kepler Release
Apache Software Foun- dation http://eclipse.org/eclipse
Cam-Tu Nguyen http://jvntextpro.sourceforge.net
3 maxent-2.5.2 Mã nguÁn m, phân phËi bi Apache http://opennlp.sourceforge.net/maven2/ opennlp/maxent/2.5.2/
(GNU style) http://maven.jenkins-ci.org/ content/repositories/releases/args4j/
5 commons-cli-1.2 Phân phËi bi Apache http://commons.apache.org/proper/ commons-cli/download c li.cgi
6 htmlparser Mã nguÁn m http://htmlparser.sourceforge.net
Mã nguÁn m http://sourceforge.net/projects/opennlp/ files/OpenNLP%20Tools/1.4.3/
Mã nguÁn m https://code.google.com/p/vntagger- gate-plugin/source/browse/lib/ vn.hus.nlp.utils- 1.0.0.jar?r418c90bafeec89da 9203f9a7f10338d2cff40c
Mã nguÁn m https://code.google.com/p/vntagger- gate-plugin/source/browse/lib/ vn.hus.nlp.tokenizer- 4.1.1.jar?r418c90bafeec89da 9203f9a7f10338d2cff40c
Mã nguÁn m https://code.google.com/p/vntagger- gate-plugin/source/browse/lib/ vn.hus.nlp.sd- 2.0.0.jar?rzf0fda73f97b7f9fd50a 379379b84b8404989c2
Mã nguÁn m https://code.google.com/p/vntagger- gate-plugin/source/browse/lib/ vn.hus.nlp.fsm-1.0.0.jar?r418c90bafeec89da9203f9a7f10338d2cff40c
CH◊ÃNG 4 TH‹C NGHIõM VÀ ÁNH GIÁ KòT QUÉ 32
• org.ktlab.entities: gúi d˙ liêu liờn quan tểi cỏc thác th∫.
• org.ktlab.extraction: gúi d˙ liêu liờn quan tểi quỏ trỡnh trớch chÂn thụng tin sá kiên.
• org.ktlab.util: gúi d˙ liêu liờn quan tểi cỏc x˚ l˛ cẽ bÊn vểi d˙ liêu nh˜ tỏch t¯, tách câu, Âc t¯ i∫n
Chi ti∏t các gói ˜Òc trình bày trong b£ng 4.1.3
BÊng 4.3: Danh sỏch cỏc lểp trong t¯ng gúi phản m∑m
Tên gói Tên lÓp Ch˘c n´ng nlp.util FileUtil Làm viêc vểi têp
StringUtil Làm viêc vểi d˙ liêu chuẩi org.ktlab.dataprocess
DictionaryMatching So khÓp vÓi t¯ i∫n DiseaseExtraction Trớch chÂn tờn bênh LocationExtraction Trớch chÂn ‡a i∫m mà d‡ch bênh bựng phỏt LocationMatching So khểp d˙ liêu ‡a i∫m trớch chÂn ˜ềc vểi v´n bÊn gậc ban ảu ProcessData Ti∑n x˚ l˛ d˙ liêu TimeExtraction Trích chÂn thÌi gian org.ktlab.entities Disease Lểp ch˘a d˙ liêu v∑ tờn bênh
Location Lểp ch˘a d˙ liêu v∑ ‡a i∫m org.ktlab.extraction Chunk Lểp dựng ∫ trớch chÂn thác th∫ trong v´n bÊn ảu vào MakeInputText Lểp dựng ∫ tĐo ra d˙ liêu ảu vào ngđu nhiờn org.ktlab.util
Chunk Lểp thác th∫ ch˘a d˙ liêu trong quỏ trinhg
NER DataChunker Lểp dựng ∫ lòy d˙ liêu v∑ thèi gian, ‡a i∫m, và v‡ trí trong quá trình NER DiseaseMatchingUtil Lểp dựng ∫ lòy ra danh sỏch tờn bênh phˆ vˆ cho quá trình so khÓp LocationEntityUtil Lểp dựng ∫ Âc danh sỏch cỏc thác th∫ ‡a i∫m t¯ mẻt bÊng b´m và trớch chÂn thác th∫
‡a i∫m vểi ảu vào là 1 cõu LocationMatchingUtil LÓp dùng ∫ so khÓp thông tin ‡a i∫m ˜Òc trớch chÂn vểi cõy phõn còp ‡a i∫m ReadDictionary Lểp dựng ∫ Âc d˙ liêu t¯ t¯ i∫n VnTockenizer LÓp dùng ∫ tách câu, tách t¯ trong v´n b£n ti∏ng Viêt
Xõy dáng t™p d˙ liêu
Thu th™p d˙ liêu
cỏc bài bỏo vào cỏc chuyờn mˆc mẻt cỏch tá ẻng, do v™y, d˙ liêu t¯ trang này luôn £m b£o tính c™p nh™t và a d§ng.
Ti∑n x˚ l˛ d˙ liêu
D˙ liêu khi thu th™p v∑ ˜ềc l˜u d˜ểi ‡nh dĐng JSON vểi khoÊng 60GB d˙ liêu Tỏc giÊ ti∏n hành ˜a d˙ liêu v∑ ‡nh dĐng HTML và sau ú loĐi b‰ i cỏc thƠ HTML ∫ thu ˜ềc nẻi dung v´n bÊn Sau quỏ trỡnh ti∑n x˚ l˛, tỏc giÊ thu ˜ềc 3.842.137 bài bỏo Cỏc thành phản trong mẻt bài bỏo ˜ềc minh hoĐ trong bÊng 4.2.2 T™p 3.842.137 bài bỏo s≥ là ảu vào cıa thành phản phỏt hiên sákiên.
BÊng 4.4: Cỏc thành phản cıa mẻt bài bỏo
STT Tờn thành phản Mụ tÊ
1 Tiêu ∑ Tiêu ∑ cıa bài báo
2 Túm t≠t Phản túm t≠t cıa bài bỏo
3 Ngày xuòt bÊn Ngày mà bài bỏo ú ˜ềc xuòt bÊn
4 Liờn k∏t ‡a chứ liờn k∏t cıa bài bỏo
5 Nẻi dung Nẻi dung cıa bài bỏo
ỏnh gớa quỏ trỡnh phỏt hiên sá kiên
ỏnh giỏ bẻ lÂc d˙ liêu
Mụ tÊ thác nghiêm: mˆc ớch cıa thác nghiêm này ỏnh giỏ khÊ n´ng cıa bẻ lÂc d˙ liêu ˜ềc nờu trong mˆc 3.5.
• ảu vào: mẻt t™p cỏc bài bỏo ˜ềc thu th™p t¯ trang Bỏo Mểi.
• ảu ra: cỏc bài bỏo liờn quan tểi mi∑n d˙ liêu d‡ch bênh.
D˙ liêu thác nghiêm: d˙ liêu là 3.842.137 bài bỏo.
Bẻ lÂc d˙liêu là ch˘c n´ng ảu tiờn trong pha phỏt hiên sá kiên, nú lÂc cỏc bài bỏo ˜ềc g˚i tểi t¯ thành phản thu th™p d˙ liêu Nh˜ ó ∑ c™p trong ch˜ẽng 3, ch˘c n´ng này s˚ dˆng M®u 1 (3.2) và M®u 2 (3.3) ∫ lÂc các bài báo Nh˜ v™y, hiêu n´ng cıa ch˘c n´ng này phˆ thuẻc vào ẻ bao phıcıa t™p lu™t trong Mđu 1 và Mđu 2 Thụng th˜èng, chỳng ta phÊi ỏnh giỏ ẻ chớnh xỏc cıa hai mđu trờn toàn bẻt™p d˙liêu (3.842.137 bài bỏo); tuy nhiờn, ph˜ẽng phỏp này tận nhi∑u chi phớ vỡ tỏc giÊ s˚ dˆng ph˜ẽng phỏp ỏnh giÊ thı cụng.
CH◊ÃNG 4 TH‹C NGHIõM VÀ ÁNH GIÁ KòT QUÉ 34
BÊng 4.5: T lê lẩi cıa ch˘c n´ng lÂc d˙ liêu
Sậ bài bỏo liờn quan T Íng sậ bài bỏo ẻ chớnh xỏc (%)
∫ ỏnh giỏ hiêu n´ng cıa ch˘c n´ng này, tỏc giÊ láa chÂn ngđu nhiờn 486 bài bỏo t¯t™p d˙liêu ∫ ỏnh giỏ ẻ chớnh xỏc băng tay ẻchớnh xỏc ˜ềc tớnh toỏn b¨ng công th˘c (4.1) và k∏t qu£ ˜Òc trình bày trong b£ng 4.5. ẻ chớnh xỏc= sậ bài bỏo liờn quan tÍng sË (4.1) vÓi:
• sậ bài bỏo liờn quan là sậ bài bỏo liờn quan tểi mi∑n d˙ liêu d‡ch bênh.
• tÍng sậ là tÍng sậ bài bỏo ˜ềc lòy ngđu nhiờn.
K∏t quÊ trong bÊng 4.5 cho thòy t lê lẩi cao hay núi cỏch khỏc ẻ chớnh xỏc cıa t™p lu™t khỏ thòp i∑u này là do sậ l˜ềng cỏch bài bỏo liờn quan tểi d‡ch bênh ớt trong khi tÍng sậ bài bỏo cú sậl˜ềng lển (chi ti∏t s≥ ˜ềc bàn lu™n trong phản 4.5 Tỏc giÊ chòp nh™n t lê lẩi cao ( ẻ chớnh xỏc thòp) ∫ Đt ẻ cõn băng cho ẻ o hÁi t˜ng Nh˜ v™y, hiêu n´ng chung cıa ch˘c n´ng s≥ ˜ềc cÊi thiên.
ánh giá quá trình phân lÓp
Mụ tÊ thác nghiêm: mˆc ớch cıa thác nghiêm này ỏnh giỏ khÊn´ng phõn lểp cıa ph˜ẽng phỏp ∑xuòt so vểi ph˜ẽng phỏp chứdựng hÂc mỏy ˜ềc nờu trong mˆc 3.5.
• ảu vào: mẻt t™p cỏc bài bỏo ó ˜ềc lÂc.
• ảu ra: cỏc bài bỏo ˜ềc gỏn nhón EVENT ho∞c NOT_EVENT.
D˙ liêu thác nghiêm: d˙ liêu là 686 bài bỏo sau khi ˜ềc lÂc bi bẻ lÂc d˙ liêu.
Tỏc giÊ ti∏n hành hai thác nghiêm ∫ ỏnh giỏ hiêu n´ng cıa bẻ phõn lểp.
Thác nghiêm th˘ nhòt cú tờn là Thác nghiêm a k∏t hềp gi˙a lu™t và hÂc mỏy.
Thác nghiêm th˘ hai cú tờn là Thác nghiêm b chứ s˚ dˆng hÂc mỏy Cỏc ẻ o ˜ềc s˚ dˆng ∫ ỏnh giỏ hai bẻ phõn lểp là ẻ chớnh xỏc (Precision - P), ẻ hÁi t˜ng (Recall - R), và ẻ o F1 (F1-score) dáa trờn ỏnh giỏ chộo 10-fold cross validation.
Trong thác nghiêm th˘nhòt, tỏc giÊláa chÂn 686 bài bỏo t¯t™p d˙liêu ó ˜ềc lÂc và gán nhãn chúng vÓi nhãn là EVENT ho∞c NOT_EVENT Tác gi£bi∫u diπn
BÊng 4.6: So sỏnh khÊ n´ng phõn lểp gi˙a Thớ nghiêm a and Thớ nghiêm b
Fold Precision (%) Recall (%) ẻ o F-1 Precision (%) Recall (%) ẻ o F-1
Avg 75.07 79.76 77.33 72.35 77.84 74.97 t™p d˙ liêu này là t™p d˙ liêu cıa thớ nghiêm a Trong thớ nghiêm th˘ hai, tỏc giÊ láa chÂn ngđu nhiờn 50 bài bỏo t¯t™p d˙ liêu ban ảu (t™p d˙liêu này ch˜a ˜ềc i qua bẻ lÂc d˙ liêu) và thờm chỳng vào 686 bài bỏo ban ảu Tỏc giÊ gÂi t™p d˙ liêu này là t™p d˙ liêu cıa thớ nghiêm b Nh˜ v™y, sậ bài bỏo trong thớ nghiêm b là 736.
Sau khi chuân b‡ t™p d˙ liêu huòn luyên cho hai thớ nghiêm, tỏc giÊso sỏnh khÊ n´ng phõn lểp cıa hai thớ nghiêm này K∏t quÊ so sỏnh ˜ềc minh hoĐ trong bÊng 4.6, nẽi mà k∏t quÊ cıa thớ nghiêm b năm trong ba cẻt bờn phÊi, trong khi chỳng ˜ềc bi∫u diπn ba cẻt bờn trỏi trongthớ nghiêm a K∏t quÊtrung bỡnh cıa ẻ oF-1 trong hai thớ nghiêm chứ ra răng khÊn´ng phõn lểp cıa bẻphõn lểp trong thớ nghiêm a tật hẽn trong thớ nghiêm b ⇡ 2.36% Sá chờnh lêch cıa hai bẻ phõn lểp khụng lển do tỏc giÊchứ thờm vào 50 bài bỏo K∏t quÊ thác nghiêm trong bÊng 4.6 chứ ra răng ph˜ẽng phỏp k∏t hềp gi˙a lu™t và hÂc mỏy Đt k∏t quÊ tật hẽn ph˜ẽng phỏp chứ s˚ dˆng hÂc mỏy trong bài toỏn phỏt hiên sá kiên d‡ch bênh.
ỏnh gớa quỏ trỡnh trớch chÂn sá kiên
Mụ tÊ thác nghiêm: mˆc ớch cıa thác nghiêm này ỏnh giỏ tớnh chớnh xỏc cıa thành phản trớch chÂn sá kiên ˜ềc n∏u trong mˆc 4.4.
• ảu vào: mẻt bài bỏo ch˘a sákiên d‡ch bênh.
• ảu ra: thụng tin v∑ sá kiên d‡ch bênh gÁm tờn bênh, thèi gian và ‡a i∫m bựng phỏt d‡ch bênh.
D˙ liêu thác nghiêm: d˙ liêu là 152 bài bỏo cú nhón là EVENT - là k∏t quÊ
CH◊ÃNG 4 TH‹C NGHIõM VÀ ÁNH GIÁ KòT QUÉ 36 cıa quỏ trỡnh phỏt hiên sákiên.
Do mẻt sá kiên E ˜ềc ‡nh nghổa là mẻt bẻ gÁm tờn bênh, thèi gian, và ‡a i∫m bựng phỏt d‡ch bênh nh˜ trong cụng th˘c (3.1), nh˜ v™y mẻt sá kiên ỳng nờn ch˘a ảy ıba thành phản trờn Khi y∏u tậthèi gian cıa sákiên khụng ˜ềc
∑ c™p rừ ràng, tỏc giÊ s˚ dˆng ngày xuòt bÊn bài bỏo nh˜ là thèi gian cıa sá kiên Trong cỏc tr˜èng hềp khỏc, n∏u mẻt sá kiên khụng bao gÁm tờn bênh ho∞c
‡a i∫m bựng phỏt thỡ nú ˜ềc xem là mẻt sá kiên sai.
∫ ỏnh giỏ ẻ chớnh xỏc cıa quỏ trỡnh trớch chÂn, tỏc giÊ ti∏n hành hai thớ nghiêm cú tờn là thớ nghiêm c và thớ nghiêm d Thớ nghiêm th˘ nhòt chứ s˚ dˆng lu™t trong khi ú thớ nghiêm th˘ hai k∏t hềp lu™t và hÂc mỏy (NER).
Tỏc giÊ s˚ dˆng ba ẻ o là ẻ chớnh xỏc (Precision - P), ẻ hÁi t˜ng (Recall
- R), và ẻ o F (F-score) ∫ so sỏnh khÊn´ng trớch chÂn cıa hai thớ nghiêm Cỏc ẻ o này ˜ềc bi∫u diπn trong cụng th˘c (4.2), (4.3), và (4.4). ẻ chớnh xỏc (P)= sậ sá kiên ỳng sậ sá kiên ỳng + sậ sá kiên sai (4.2) vÓi:
• sậ sá kiên ỳng là sậ sá kiên ˜ềc mụ hỡnh trớch chÂn chớnh xỏc.
• sậ sá kiên sai là sậ sá kiên ˜ềc mụ hỡnh trớch chÂn sai. ẻ hÁi t˜ng (R)= sậ sá kiên ỳng sậ sá kiên ỳng +sậ sá kiên khụng ˜ềc tỡm thòy (4.3) vÓi:
• sậ sá kiên ỳng là sậ sá kiên ˜ềc mụ hỡnh trớch chÂn chớnh xỏc.
• sậ sá kiên khụng ˜ềc tỡm thòy là sậ sá kiên mà thành phản trớch chÂn khụng tỡm thòy.
Dáa trờn cụng th˘c (4.2), (4.3), và (4.4), tỏc giÊ so sỏnh khÊ n´ng trớch chÂn cıa Thớ nghiêm c và Thớ nghiêm d K∏t quÊ so sỏnh ˜ềc minh hoĐ trong bÊng 4.7, trong ú hàng th˘ hai minh hoĐ k∏t quÊ cıa Thớ nghiêm c và hàng th˘ ba minh hoĐ k∏t quÊ trong Thớ nghiêm d.
BÊng 4.7: So sỏnh ẻ chớnh xỏc quỏ trỡnh trớch chÂn gi˙a Thớ nghiêm c and Thớ nghiêm d
Tờn thớ nghiêm Sậ sá kiên ỳng Sậ sá kiên sai P (%) R (%) F1
Trong Thớ nghiêm c, ẻ o F khoÊng ⇡ 87.58% trong khi nú là ⇡ 91.89% trongThớ nghiêm d K∏t quÊ ch˘ng minh răng ẻ chớnh xỏc trong thớ nghiêm th˘ hai ˜ềc cÊi thiên ⇡ 4.31% so vểi thớ nghiêm th˘ nhòt Nguyờn nhõn cıa sá khỏc biêt này s≥ ˜ềc trỡnh bày trong phản ti∏p theo cıa lu™n v´n.
Phân tích lÈi và bàn lu™n
Phõn tớch lẩi bẻ lÂc d˙ liêu
Trong quỏ trỡnh phỏt hiên sá kiên, k∏t quÊtrong bÊng 4.5 chứ ra răng bẻlÂc d˙ liêu hoĐt ẻng khụng tật trong mẻt sậ tr˜èng hềp ∫ tỡm ra nguyờn nhõn t lê lẩi cao (36%), tỏc giÊ ki∫m tra thı cụng cỏc bài bỏo ˜ềc láa trÂng trong mˆc 4.3.1.
K∏t quÊphõn tớch chứra răng trong cỏc tr˜èng hềp bẻlÂc d˙liêu hoĐt ẻng khụng tật, mẻt vài lu™t trong Mđu 1 (3.2) và Mđu 2 (3.3) khụng phı h∏t cỏc tr˜èng hềp cıa d˙ liêu Nguyờn nhõn là do cỏc chı ∑ cú th∫ cú cựng mẻt ẻng t¯ Vớ dˆ, ẻng t¯ t˚ vong cú th∫ thuẻc chı ∑ d‡ch bênh ho∞c ch˙a bênh N∏u ẻng t¯ này xuòt hiên trong mẻt bài bỏo, bẻ lÂc d˙liêu s≥ cho răng bài bỏo thuẻc chı ∑d‡ch bênh; tuy nhiờn, trong thác th∏ nú lĐi thuẻc chı ∑ ch˙a bênh nh˜ trong Vớ dˆ 7.
Vớ dˆ 7: “Uậng thuậc hĐ sật sau 30 phỳt bênh nhõn t˚ vong"
Vớ dˆ này ˜ềc phỏt hiên bi Mđu 1 (3.2) - “bênh nhõn # t˚ vong", tuy nhiờn, trong thác t∏, nguyờn nhõn t˚ vong liờn quan tểi viêc ch˙a tr‡ (uậng thuậc) thay vỡ b‡ nhiπm bênh Hẽn n˙a, mẻt sậ lu™t cıa Mđu 2 (3.3) (mđu k∏t hềp gi˙a mẻt tờn bênh và mẻt ẻng t¯) nhảm lđn gi˙a sákiên d‡ch bênh và chı ∑ liờn quan tểi bênh nh˜ trong Vớ dˆ 8.
Vớ dˆ 8: “Phỏt hiên chıng virus mểi gõy bênh tay chõn miêng"
Lu™t cıaMđu 2 (3.3) -“tay chõn miêng # phỏt hiên" phỏt hiên ra sákiên trong vớ dˆ trờnm; tuy nhiờn, vớ dˆ trờn ∑ c™p tểi viêc phỏt hiên ra mẻt chıng virus mểi cıa bênh tay chõn miêng ch˘ khụng phÊi là sá bựng phỏt cıa bênh tay chõn miêng.
Phõn tớch lẩi quỏ trỡnh trớch chÂn sá kiên
Trong pha trớch chÂn sá kiên, k∏t quÊ trong bÊng 4.7 chứ ra răng ẻ chớnh xỏc cıa quỏ trỡnh trớch chÂn trong Thớ nghiêm d cao hẽn Thớ nghiêm c ⇡ 5.92% Ban ảu, tỏc giÊ khỏ ngĐc nhiờn vểi k∏t quÊso sỏnh này do Thớ nghiêm c s˚dˆng lu™t
∫ trớch chÂn thụng tin Thụng th˜èng, s˚ dˆng lu™t s≥ cho ẻ chớnh xỏc cao.
∫ tỡm nguyờn nhõn lẩi xuòt hiên trong pha trớch chÂn, tỏc giÊ ki∫m tra thı cụng cỏc bài bỏo cho k∏t quÊ khụng ỳng trong cÊ hai thớ nghiêm ( ˜ềc ∑ c™p trong phản 4.4) K∏t quÊ ki∫m tra ˜ềc th∫ hiên trong bÊng 4.8 và 4.9.
K∏t quÊ thậng kờ trong bÊng 4.8 và 4.9 chứ ra răng nguyờn nhõn gõy lẩi trong quỏ trỡnh trớch chÂn trong cÊhai thớ nghiêm xuòt phỏt t¯ quỏ trỡnh trớch chÂn ‡a i∫m, và ụi khi trong quỏ tỡnh trớch chÂn tờn bênh Trong Thớ nghiêm c, tỏc giÊ nh™n ra r¨ng các lu™t ˜Òc s˚ dˆng trong quá trình trích chÂn không bao phı h∏t
CH◊ÃNG 4 TH‹C NGHIõM VÀ ÁNH GIÁ KòT QUÉ 38
BÊng 4.8: Lẩi trong Thớ nghiêm c (15 trờn 25 lẩi)
STT Doc ID Mô t£ lÈi
Thông tin úng Thông tin trích chÂn
2 7 Th‡ tròn Kon-Plong Ly, tứnh Pray
3 13 Ph˜Ìng 6, Qu™n 8, Ph˜Ìng 14,
Thành phË HÁ Chí Minh
Qu™n 5, Qu™n 8, Ph˜Ìng 7, Qu™n Bỡnh ThĐnh, Huyên Húc Mụn
4 17 xúm 1, tr‡ tròn Ngụ DÁng, huyên
Giao Thu , tứnh Nam ‡nh
5 24 tay chõn miêng bênh sật xuòt huy∏t
6 26 ph˜Ìng 8, qu™n 5, thành phË HÁ Chí
7 32 ph˜Ìng 7, qu™n 8, thành phË HCM NULL
8 64 bênh sật rột bênh sật xuòt huy∏t
9 65 xóm 3, ph˜Ìng Tran Hung Dao, thành phË Kon Tum à Nặng
11 89 cỳm A/H1N1 viờm phÍi (triêu ch˘ng)
13 96 th‡ tròn Ea T’ling và cỏc xó: Nam
Dông, Tam Th≠ng, D’Dak Rong
14 105 d‡ch tÊ tiờu chÊy còp
15 108 xã Tam Quan, thành phË Tam D£o,
Quan Nẻi, Quan NgoĐi, làng Chanh, làng Màu, và Nhân Ly xã Tam Quan
BÊng 4.9: Lẩi trong Thớ nghiêm d
STT Doc ID Mô t£ lÈi
Thông tin úng Thông tin trích chÂn
1 16 làng Thanh Long, xã Ph˜Óc Mˇ, thành phậ Quy Nhẽn
2 17 huyên Giao Thıy, Nam ‡nh, cỳm
3 21 Mπ S, V´n Giang, H˜ng Yên H˜ng Yên
5 25 xúm 4, xó Hũa An, huyên Krong
Pac, Dak Lak xó Hũa An, huyên Chiờm Húa, Tuyên Quang
6 26 ph˜Ìng 8, qu™n 5, thành phË HÁ Chí
7 32 ph˜Ìng 7, qu™n 8, thành phË HCM
Trôm, Th§nh Phú, Châu Thành, Ba Tri, ChÒ Lách
9 40 ph˜Ìng 6, qu™n 8 (P.6, Q.8) TP HCM
10 45 H˜ng Yên, Yên ‡nh, Thanh Hóa,
Vổnh Phỳc, Ba ỡnh, Hà Nẻi
11 46 Thu™n An, Dổ An, huyên B∏n Cỏt, th‡ tròn Thı Dảu Mẻt, Bỡnh D˜ẽng
12 47 ph˜èng Kim Long và H˜ẽng Long, thành phË Hu∏
13 69 làng Tõn An Hẻi, huyên Cı Chi, thành phË HCM
14 84 ph˜Ìng Thanh Bình, qu™n H£i
Chõu, thành phậ à Nặng, ak Lak ph˜Ìng Thanh Bình, thành phË Ninh Binh,thành phậ à Nặng, qu™n H£i Châu
15 106 ph˜Ìng 7, qu™n Tân Bình qu™n 1
16 109 qu™n Hoàng Mai, Hai Bà Tr˜ng,
Thanh Xuân, qu™n Hoàn Ki∏m, Thanh Trì, Ëng a, Qu£ng Ninh, B≠c Giang, Nam ‡nh, Thái Bình,
CH◊ÃNG 4 TH‹C NGHIõM VÀ ÁNH GIÁ KòT QUÉ 40 cỏc tr˜èng hềp Trong mẻt sậớt tr˜èng hềp, n∏u thụng tin ‡a i∫m ˜ềc vi∏t t≠t, nh˜v™y các lu™t không th∫ nh™n ra ˜Òc nh˙ng thông tin này nh˜ trong Ví dˆ 9.
Vớ dˆ 9: “Phỏt hiên mẻt tr˜èng hềp bênh nhõn nhiπm cỳm A H5N1 tĐi P.7, Q.8, TP HCM"
Trong ví dˆ này, ph˜Ìng 7, qu™n 8, và thành phË HÁ Chí Minh ˜Òc vi∏t t≠t; do ó, các lu™t không th∫ nh™n ra ˜Òc các thông tin này.
Trong Thớ nghiêm d, nguyờn nhõn chớnh làm giÊm ẻ chớnh xỏc cıa quỏ trỡnh trớch chÂn là ẻchớnh xỏc cıa bẻnh™n dĐng thác th∫ (NER) Trong mẻt sậtr˜èng hềp, bẻ nh™n dĐng thác th∫ khụng th∫ phỏt hiên ra cỏc ‡a i∫m ˜ềc vi∏t t≠t (nh˜trong vớ dˆ 9) Trong mẻt sậtr˜èng hềp khỏc, bẻnh™n dĐng thác th∫ b‰qua các thông tin ‡a i∫m ˜Òc ∑ c™p nh˜ các thông tin v∑ tÍ ch˘c nh˜ trong Ví dˆ 10.
Vớ dˆ 10: “Ngày 12/03/2012, d‡ch tiờu chÊy còp ó bựng phỏt tĐi Hà Nẻi, HÊi Phũng, QuÊng Ninh, B∏n Tre, và Cản Thẽ"
Trong vớ dˆ này, Hà Nẻi, HÊi Phũng, QuÊng Ninh, B∏n Tre, và Cản Thẽ ˜ềc nh™n d§ng nh˜ nh˙ng tÍ ch˘c ( ˜Òc gán nhãn và ) Nh˙ng thông tin này s≥ b‡ b‰qua trong quá trình trích chÂn.
Trong cÊhai thớ nghiêm, mẻt vài tờn bênh sau quỏ trỡnh trớch chÂn khụng chớnh xỏc do chỳng khụng năm trong t¯ i∫n tờn bênh Hẽn n˙a, t¯ i∫n tờn bênh ch˘a mẻt sậ tờn bênh giậng vểi cỏc triêu ch˘ng cıa bênh, nh˜ v™y, sá t˜ẽng ˜ẽng này tĐo ra sá nhảm lđn trong quỏ trỡnh trớch chÂn tờn bênh Vớ dˆ, trong bÊng 4.8, tờn bênh A H5N1 trong bài bỏo th˘ 89 ˜ềc phỏt hiên nh˜ bênh viờn phÍi (pneumonia) trong khi viờm phÍi là mẻt triêu tr˘ng cıa cỳm A/H5N1.
Bờn cĐnh ớ, cú mẻt sậ y∏u tậ tỏc ẻng làm giÊm hiêu quÊ cıa quỏ trỡnh trớch chÂn ảu tiờn, cỏc lẩi soĐn thÊo cıa cỏc ‡a i∫m trong bài bỏo làm giÊm ẻchớnh xác cıa quá trình trích chÂn Ví dˆ, “ ≠k L≠k" ˜Òc vi∏t là “ ≠c L≠c", tuy nhiên
“ ≠c L≠c" khụng xuòt hiên trong t¯ i∫n ‡a i∫m Nh˜ v™y, thụng tin v∑ ‡a i∫m cú th∫ b‡ b‰qua Th˘hai, n∏u thụng tin cıa ‡a i∫m khụng ˜ềc mụ tÊmẻt cỏch rừ ràng nh˜ “cỏc huyên phớa Tõy cıa tứnh B∏n Tre"; nh˜ v™y, bẻ nh™n dĐng thác th∫ khụng th∫ nh™n dĐng ˜ềc cỏc thụng tin này Cuậi cựng, mẻt nguyờn nhõn quan trÂng khỏc là sánh™p nhăng cıa ‡a i∫m Trong thác t∏, mẻt tờn ‡a i∫m có th∫ ˜Òc ∞t tên cho nhi∑u ‡a danh N∏u bài báo không ∑ c™p các thông tin này rừ ràng, thụng tin ‡a i∫m cú th∫ b‡ nhảm lđn nh˜ trong Vớ dˆ 11.
Vớ dˆ 11: “Ngày 05/10/2012, S Y t∏ QuÊng Ninh thụng bỏo ó phỏt hiên vi khuân tÊ tĐi th‡ tròn ụng HÊi"
Trong vớ dˆ này, th‡ tròn ụng HÊi là ‡a danh cú th∫ thuẻc cÊ Trà Vinh và QuÊng Ninh, tuy nhiờn bài bỏo chứ ∑cõp tểi tờn th‡ tròn, nh˜v™y ch˘c n´ng trớch chÂn khụng th∫ quy∏t ‡nh ụng HÊi thuẻc QuÊng Ninh hay Trà Vinh.
Nguyờn nhõn gõy lẩi khỏc ∏n t¯ thụng tin khụng ảy ı cıa ‡a i∫m, vớ dˆ nh˜mẻt sậ thành phản cıa v‡ trớ ˜ềc trớch chÂn nh˜ trong hàng th˘4 cıa bÊng 4.8 (chứ Nam ‡nh ˜ềc trớch chÂn) và trong bÊng 4.9 (chứ Bỡnh D˜ẽng ˜ềc trớch chÂn).
Nguyên nhân cuËi cùng là các ‡a i∫m ˜Òc ∑ c™p trong bài báo không ph£i là cỏc ‡a i∫m bựng phỏt d‡ch bênh Do ú, cỏc thụng tin ˜ềc trớch chÂn là khụng chính xác nh˜ trong hàng 9 cıa b£ng 4.8 và hàng 8 cıa b£ng 4.9.
TÍng k∏t
Trong ch˜ẽng này tỏc giÊ ó trỡnh bày cỏc k∏t quÊ thác nghiêm ch˘ng minh ph˜ẽng phỏp ∑ xuòt trong ch˜ẽng 3 K∏t quÊthác nghiêm t™p trung vào hai bài toỏn quan trÂng, ú là bài toỏn phỏt hiên sá kiên và bài toỏn trớch chÂn sá kiên.
K∏t quÊ thác nghiêm cho thòy ph˜ẽng phỏp ∑ xuòt phự hềp cho bài toỏn trớch chÂn sá kiên d‡ch bênh Bờn cĐnh ú, tỏc giÊ cÙng chứ ra nh˙ng tr˜èng hềp làm giÊm ẻchớnh xỏc trong pha phỏt hiên và trớch chÂn sá kiên.
Lu™n v´n ó trỡnh bày cỏc ki∏n th˘c cẽ bÊn v∑ trớch chÂn sá kiên và trớch chÂn sá kiên d‡ch bênh trờn mi∑n d˙ liêu ti∏ng Viêt Bờn cĐnh ú, lu™n v´n ó trỡnh bày chi ti∏t cỏc ph˜ẽng phỏp ti∏p c™n bài toỏn trớch chÂn sákiên và t™p trung vào ph˜ẽng phỏp k∏t hềp gi˙a lu™t ng˙nghổa và hÂc mỏy ∫ giÊi quy∏t bài toỏn phỏt hiên và trớch chÂn sá kiên d‡ch bênh Lu™n v´n cÙng ∑ xuòt mụ hỡnh giÊi quy∏t hai bài toỏn quan trÂng, ú là: bài toỏn phỏt hiên và bài toỏn trớch chÂn sá kiên, thụng qua ú trớch chÂn cỏc sá kiên d‡ch bênh dựng cho hê thậng giỏm sỏt trác tuy∏n Vn-Loc Trong bài toỏn phỏt hiên sá kiên, lu™n v´n s˚ dˆng ph˜ẽng phỏp k∏t hềp gi˙a lu™t và hÂc mỏy, trong khi vểi bài toỏn trớch chÂn sá kiên, lu™n v´n s˚ dˆng lu™t ∫ trớch chÂn thèi gian, t¯ i∫n tờn bênh ∫ trớch chÂn tờn bờnh và hÂc máy (NER) k∏t hÒp vÓi t¯ i∫n ‡a i∫m ∫ trích chÂn ‡a i∫m bùng phát d‡ch bênh.
K∏t quÊ thác nghiêm cho thòy ph˜ẽng phỏp k∏t hềp gi˙a lu™t và hÂc mỏy cho k∏t quÊ tật trờn mi∑n d˙ liêu ti∏ng Viêt Lu™n v´n ó s˚ dˆng ba ẻ o là: ẻ o chớnh xỏc (precision), ẻ o hÁi t˜ng (recall), và ẻ o F-1 (F-1 measured) ∫ ỏnh giỏ k∏t quÊ cıa quỏ trỡnh phỏt hiên sákiên vểi cỏc k∏t quÊlản l˜ềt là: ẻ o chớnh xỏc (75.07%), ẻ o hÁi t˜ng (79.76%), và ẻ o F-1 (77.33%) Bờn cĐnh ú, lu™n v´n s˚ dˆng ph˜ẽng phỏp ỏnh giỏ thı cụng trờn bài toỏn trớch xuòt sá kiên, k∏t quÊ ẻ chớnh xỏc Đt 89.04 K∏t quÊ thác nghiêm minh ch˘ng ph˜ẽng phỏp lu™n v´n ∑ xuòt Đt k∏t quÊ khÊquan và cú th∫ ỏp dˆng trong thác t∏.
M∞c dự Đt ˜ềc nh˙ng k∏t quÊkhÊquan ban ảu, song lu™n ph˜ẽng phỏp lu™n v´n ∑ xuòt vđn cũn mẻt sậ nh˜ềc i∫m cản kh≠c phˆc nh˜ sau:
• T™p lu™t ˜ềc xõy dáng thı cụng, o ú khú cú th∫ bao phıtoàn bẻ mi∑n d˙ liêu i∑u này dđn ∏n t™p lu™t cú th∫ b‰ sút nh˙ng d˙ liêu cú liờn quan tểi mi∑n d˙ liêu.
• K∏t quÊ cıa bẻ phõn lểp ch˜a cao do sá nh™p nhăng gi˙a mẻt v´n bÊn ch˘a sá kiên d‡ch bênh thác sávà mẻt v´n bÊn chứ là thụng bỏo.
• Trong mẻt vài tr˜èng hềp cũn xÊy ra tr˜èng hềp nh™p nhăng gi˙a cỏc ‡a i∫m n∏u trong v´n bÊn khụng ∑ c™p ıthụng tin (vớ dˆ: chứ nờu tờn xó ho∞c huyên mà khụng nờu ảy ı thụng tin).
• Ch˜a phỏt hiên ˜ềc cỏc sákiên trựng l∞p, ch˜a gom nhúm ˜ềc cỏc v´n bÊn liờn quan tểi mẻt sá kiên theo thèi gian.
• CÊi thiên ẻ bao phı cıa t™p lu™t ˜ềc s˚ dˆng trong pha phỏt hiên sá kiên
• Nõng cao ẻ chớnh xỏc cıa mụ hỡnh phõn lểp trong pha phỏt hiên sá kiên
• Nõng cao ẻ chớnh xỏc cıa quỏ trỡnh nh™n dĐng thác th∏
• GiÊi quy∏t bài toỏn nh™p nhăng v∑ ‡a i∫m xÊy ra sá kiên
• Phỏt hiên sá trựng l∞p và gom nhúm cỏc bài bỏo liờn quan tểi mẻt sá kiên
• Minh-Tien Nguyen and Tri-Thanh Nguyen, “Extraction of Disease Events for a Real-time Monitoring System”, in the Proceedings of the4 th Symposium on Information and Communication Technology - SoICT, Danang, Vietnam, (December 2013).
• Mai-Vu Tran, Minh-Hoang Nguyen, Sy-Quan Nguyen, Minh-Tien Nguyen,and Xuan-Hieu Phan (2012) “VnLoc: A Real–time News Event ExtractionFramework for Vietnamese", in the Proceedings of the 4 th International Con- ference on Knowledge and Systems Engineering - KSE, Danang, Vietnam,(August 2012)
[1] James Allen, Ron Papka, and Victor Larvenko On-line new event detection and tracking SIGIR, pages pp 37–45, 1998.
[2] Chinatsu Aone and Mila Ramos-Santacruz Rees: A large-scale relation and event extraction system InIn: 6th Applied Natural Language Processing Con- ference (ANLP 2000):pp 76–83 Association for Computational Linguistics, 2000.
[3] Douglas E Appelt Introduction to information extraction technology In Tutorial held at IJCAI-99, Stockholm, Sweden, 1999.
[4] Adam L Berger, Vincent J Della Pietra, and Stephen A Della Pietra A maximum entropy approach to natural language processing Computational Linguistics, 22.1:39–71, 1996.
[5] Jethro Borsje, Frederik Hogenboom, and Flavius Frasincar Semi-automatic financial events discovery based on lexico-semantic patterns International Journal of Web Engineering and Technology, 6(2):115–140, 2010.
[6] Philippe Capet, Thomas Delavallade, Takuya Nakamura, Agnes Sandor, Cedric Tarsitano, and Stavroula Voyatzi A risk assessment system with automatic extraction of event types Intelligent Information Processing IV, IFIP International Federation for Information Processing Springer Boston, vol 288:220–229, 2008.
[7] Lee Chang-Shing, Yea-Juan Chen, and Zhi-Wei Jian Ontology-based fuzzy event extraction agent for chinese e-news summarization In Expert Systems with Applications 25(3), 431– 447, 2003.
[8] K Bretonnel Cohen, Karin Verspoor, Helen L Johnson, Chris Roeder,Philip V Ogren, William A Baumgartner, Elizabeth White Jr., Hannah Tip- ney, and Lawrence Hunter High-precision biological event extraction with a concept recognizer In In: Workshop on BioNLP: Shared Task collocated with the NAACL-HLT 2009 Meeting pp 50–58 Association for ComputationalLinguistics, 2009.
[9] Nigel Collier, Reiko Matsuda Goodwin, John McCrae, Son Doan, Ai Kawa- zoe, Mike Conway, Asanee Kawtrakul, Koichi Takeuchi, and Dinh Dien An ontology-driven system for detecting global health events In Proceedings of the 23rd International Conference on Computational Linguistics Association for Computational Linguistics, 2010.
[10] H Cunningham, D Maynard, K Bontcheva, and V Tablan Gate: A framework and graphical development environment for robust nlp tools and applications.
In In: 40th Anniversary Meeting of the Association for Computational Lin- guistics (ACL 2002) pp 168–175 Association for Computational Linguistics, 2002.
[11] Hamish Cunningham Gate, a general architecture for text engineering In Computers and the Humanities 36(2), 223–254, 2002.
[12] Son Doan, Ai Kawazoe, and Nigel Collier Global health monitor - a web-based system for detecting and mapping infectious diseases.Proc International Joint Conference on Natural Language Processing (IJCNLP), Companion Volume, Hyderabad, India:pp 951–956, 2008.
[13] George Doddington, Alexis Mitchell, Mark Przybocki, Lance Ramshaw, Stephanie Strassel, and Ralph Weischedel The automatic content extraction (ace) program – tasks, data, and evaluation In LREC, 2004.
[14] Li Fang, Huanye Sheng, and Dongmo Zhang Event pattern discovery from the stock market bulletin In: 5th International Conference on Discovery Sci- ence (DS 2002) Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, vol 2534:35–49, 2002.
[15] Usama M Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth From data mining to knowledge discovery in databases In AI Magazine (AIM) 17(3):37-54, 1996.
[16] Jungermann Felix and Katharina Morik Enhanced services for targeted infor- mation retrieval by event extraction and data mining In: 13th International Conference on Natural Language and Information Systems: Applications of Natural Language to Information Systems (NLDB 2008) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5039:335–336, 2008.
[17] Ralph Grishman, Silja Huttunen, and Roman Yangaber Information extrac- tion for enhenced access to disease outbreak reports Journal of Biomedical Informastic, 35(4):pp 236–246, 2002.
[18] Ralph Grishman, Silja Huttunen, and Roman Yangarber Real-time event extraction for infectious disease outbreaks Proceeding HLT ’02 Proceedings of the second international conference on Human Language Technology Research, 2002.
[19] Ralph Grishman and Beth Sundheim Message understanding conference-6: a brief history Proceedings of the 16th conference on Computational linguistics, COLING, Stroudsburg, PA, USA, Volume 1:pp 466–471, 1996.
[20] Frederik Hogenboom, Flavius Frasincar, Uzay Kaymak, and Franciska de Jong.
An overview of event extraction from text Workshop on Detection, Represen- tation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011), 779:pp 48–57, 2011.
[21] Chun Hong-Woo, Young-Sook Hwang, and Hae-Chang Rim Unsupervised event extraction from biomedical literature using co-occurrence informa- tion and basic patterns In: 1st International Joint Conference on Natural Language Processing (IJCNLP 2004) Lecture Notes in Computer Science.
Springer-Verlag Berlin Heidelberg, vol 3248:777–786, 2004.
[22] John Lafferty, Kamal Nigam, and Andrew McCallum Using maximum en- tropy for text classification IJCAI-99 Workshop on Machine Learning for Information Filtering, Vol.1:61–67, 1999.
[23] Mingrong Liu, Yicen Liu, Liang Xiang, Xing Chen, and Qing Yang Extracting key entities and significant events from online daily news In: 9th International Conference on Intelligent Data Engineering and Automated Learning (IDEAL
2008) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5326:201–209, 2008.