1 Nhiπm 10005 2 D‡ch 10000 3 D˜Ïng tính 5269 4 Lây lan 4133 5 Bùng phát 4039 6 Tái phát 2514 7 bªnh 2340 8 d‡ch 1900 9 D‡ch t£ 1853 10 Kh˚trùng 1143
thËng kê cho thßy h¶u h∏t các bài báo ch˘a các t¯trong t™p t¯ th˜Ìng xuyên ∑u liên quan tÓi s¸ kiªn d‡ch bªnh. Do v™y, ˛ t˜ng cıa các gi£ là xây d¸ng t™p các lu™t b¨ng cách k∏t hÒp các t¯/cˆm t¯ trong t™p t¯ th˜Ìng xuyên. ∫ th¸c hiªn viªc t§o ra các lu™t, tác gi£ ∑ xußt hai m®u có tên là M®u 1 và M®u 2. Các m®u này ˜Òc minh ho§ trong công th˘c (3.2) và (3.3).
M®u 1= danh t¯ # Îng t¯ (3.2) vÓi: các danh t¯ và Îng t¯ ˜Òc lßy trong t™p t¯ th˜Ìng xuyên.
Ví dˆ 1: minh ho§ th∫ hiªn cıa M®u 1: • bªnh nhân t˚ vong # nhiπm
• d‡ch t£ # bùng phát
M®u 2= tên bªnh # Îng t¯ (3.3) vÓi:
• tên bªnh ˜Òc lßy t¯ BioCaster Ontology [9] và thông báo cıa BÎ Y t∏ Viªt Nam này 24 tháng 06 n´m 20113.
• Îng t¯ lßy t¯ t™p t¯ th˜Ìng xuyên.
Ví dˆ 2: minh ho§ các th∫ hiªn cıaM®u 2: • tiêu ch£y cßp # nhiπm
• tiêu ch£y cßp # phát hiªn • tiêu ch£y cßp # lây lan 3http://www.moh.gov.vn/
CH◊ÃNG 3. MÔ HÌNH óXUáT 24
• tiêu ch£y cßp # bùng phát • tiêu ch£y cßp # ch∏t (t˚ vong) • tiêu ch£y cßp # d˜Ïng tính
C£ hai m®u ∑u có hai thành ph¶n ˜Òc ng´n cách vÓi nhau bi dßu #. Tác gi£
s˚dˆng 52 danh t¯/cˆm danh t¯ và 10 Îng t¯/cˆm Îng t¯ ∫ xây d¸ng M®u 1. Nh˙ng Îng t¯ và danh t¯ này ˜Òc lßy t¯ t™p t¯ th˜Ìng xuyên. T˜Ïng t¸ nh˜
v™y, tác gi£ s˚ dˆng 186 tên bªnh và 6 Îng t¯/cˆm Îng t¯ ∫ xây d¸ng M®u 2. MÎt sË Îng t¯/cˆm Îng t¯ trong M®u 1 và M®u 2 giËng nhau.
Sau khi xây d¸ng t™p lu™t, tác gi£thu ˜Òc 229 lu™t cıa M®u 1 vàM®u 2. T™p lu™t này ˜Òc s˚ dˆng ∫ lÂc d˙liªu cho bÎ phân lÓp phía sau.
3.5.3 Xây d¸ng mô hình phân lÓp
BÎ phân lÓp có nhiªm vˆ phát hiªn mÎt bài báo có ch˘a s¸ kiªn d‡ch bªnh hay không. BÎphân lÓp s≥ phân lo§i v´n b£n vào hai lÓp: ch˘a s¸kiªn d‡ch bªnh (nhãn là EVENT) và không ch˘a s¸ kiªn (NOT_EVENT). Quá trình kh£o sát chø ra r¨ng tiêu ∑ và ph¶n tóm t≠t có ı thông tin ∫ bi∫u diπn nÎi dung cıa bài báo. Do v™y, các thông tin này ˜Òc s˚dˆng ∫ t§o vector ∞c tr˜ng bi∫u diπn v´n b£n. Tác gi£ xây d¸ng mÎt t™p d˙ liªu hußn luyªn và dùng t™p d˙ liªu hußn luyªn này
∫ xác ‡nh nh˙ng v´n b£n ch˘a s¸ kiªn. Các ∞c tr˜ng ˜Òc s˚ dˆng trong quá trình hußn luyªn là 2-grams, 3-grams, và 4-grams. TÍng sË ∞c tr˜ng ˜Òc s˚dˆng là 4.552.
Trong quá trình hußn luyªn, tác gi£ s˚ dˆng mô hình Maximum Entropy4. Maximum Entropy (ME) [4, 33, 34, 22] là mÎt mô hình d¸a trên xác sußt có i∑u kiªn cho phép tích hÒp s¸ a d§ng cıa các ∞c tr˜ng t¯ t™p d˙ liªu hußn luyªn cho bài toán phân lÓp. fi t˜ng cıa ME là mô hình ph£i xác inh mÎt phân phËi
∑u tho£mãn các ràng buÎc t¯t™p d˙liªu hußn luyªn mà không thêm bßt k˝mÎt gi£ ‡nh nào. i∑u này có nghæa s¸ phân bË cıa mô hình ph£i tho£ mãn các ràng buÎc cıa d˙liªu quan sát và càng g¶n vÓi phân bË ∑u càng tËt. Tác gi£chÂn ME vì: (1) d˙ liªu trong quá trình hußn luyªn là v´n b£n, do v™y, khi bi∫u diπn d˜Ói d§ng vector ∞c tr˜ng thì ây là d˙ liªu th˜a mà ME tËt khi d˙ liªu ˜Òc bi∫u diπn d˜Ói d§ng th˜a; (2) tËc Îhußn luyªn cıa ME khá tËt so vÓi các thu™t toán mà tác gi£ ˜Òc bi∏t (SVM) và th¸c nghiªm ã ch˘ng minh ph˜Ïng pháp cho k∏t qu£ tËt vÓi d˙ liªu v´n b£n; (3) có th∫ tu˝ bi∏n mã nguÁn cıa ME do ây là mã nguÁn m.
Sau quá trình hußn luyªn, toàn bÎ d˙ liªu ã qua bÎ lÂc s≥ ˜Òc ˜a vào mô hình. T§i ây, nh˙ng v´n b£n có nhãn EVENT s≥ là ¶u vào cho quá trình trích chÂn; ng˜Òc l§i, mô hình s≥ b‰ qua nh˙ng v´n b£n có nhãn là NOT_EVENT.
3.6 Bài toán trích chÂn s¸ kiªn
3.6.1 Phát bi∫u bài toán
BÎ trích chÂn s¸kiªn là mÎt trong hai thành ph¶n quan trÂng cıa mô hình, nÏi mà thông tin cıa mÎt s¸ kiªn d‡ch bªnh ˜Òc trích chÂn. MÎt cách hình th˘c, có th∫ phát bi∫u bài toán trích chÂn s¸ kiªn nh˜ sau:
• ¶u vào: mÎt v´n b£n ch˘a s¸ kiªn d‡ch bªnh.
• ¶u ra: các thông tin cıa mÎt d‡ch bªnh bao gÁm: tên bªnh, thÌi gian bùng phát, và ‡a i∫m bùng phát. L˜u ˛ r¨ng ‡a i∫m bùng phát d‡ch bªnh có th∫ là mÎt ho∞c nhi∑u.
Bài toán trích chÂn s¸ kiªn có th∫ ˜Òc minh ho§ trong hình 3.3. BÎ trích chÂn
Dữ liệu Trích chọn thời gian Luật Trích chọn tên bệnh Từ điển tên bệnh Trích chọn địa điểm Cây phân cấp địa điểm Sự kiện Hình 3.3: Thành ph¶n trích chÂn s¸kiªn
gÁm ba ch˘c n´ng: trích chÂn thÌi gian, trích chÂn tên bªnh, và trích chÂn thông tin ‡a i∫m. Ch˘c n´ng th˘ nhßt s˚ dˆng các lu™t ∫ lßy v∑ thông tin thÌi gian cıa d‡ch bªnh; ch˘c n´ng th˘ hai dùng mÎt t¯ i∫n ch˘a các tên bªnh ∫ lßy v∑
tên bªnh; và ch˘c n´ng cuËi cùng k∏t hÒp nh™n d§ng th¸c th∫ (NER) và mÎt t¯
i∫n ‡a i∫m ∫ lßy v∑ thông tin ‡a i∫m bùng phát d‡ch bªnh. CuËi cùng, các thông tin ˜Òc tÍ hÒp ∫ t§o thành mÎt s¸ kiªn và nó ˜Òc l˜u trong mÎt cÏ s
CH◊ÃNG 3. MÔ HÌNH óXUáT 26
3.6.2 Trích chÂn thÌi gian
K∏t qu£ cıa quá trình kh£o sát trên t™p d˙ liªu chø ra r¨ng thông tin thÌi gian
˜Òc bi∫u diπn b¨ng hai cách: tuyªt Ëi và t˜Ïng Ëi. Khi thÌi gian ˜Òc bi∫u diπn d˜Ói d§ng tuyªt Ëi, nó có ‡nh d§ng DD/MM/YYYY; trong ó DD chø ngày, MM chø tháng, và YYYY chø n´m x£y ra d‡ch bªnh. Ví dˆ, “D‡ch si ã bùng phát t§i Qu£ng Ngãi vào ngày 12/06/2012". Tuy nhiên, trong nhi∑u tr˜Ìng hÒp, thông tin liên quan ∏n d‡ch bªnh ˜Òc cung cßp mÌ và không tr¸c ti∏p. Ví dˆ, “Chi∑u tËi ngày 12/06/2012, BÎ Y t∏ ã công bË d‡ch cúm A/H5N1 bùng phát t§i Yên Bái". Lúc này, thông tin v∑ thÌi i∫m d‡ch bªnh bùng phát không rõ ràng, nó chø là
“Chi∑u tËi". Nh˜v™y, c¶n k∏t hÒp ngày chính xác và cˆm t¯ “Chi∑u tËi" ∫ ˜a ra
˜Òc thông tin v∑ thÌi gian.
Nh˜ v™y, t¯ th¸c t∏ thÌi gian ˜Òc bi∫u diπn theo hai cách, ˛ t˜ng cıa tác gi£ là s˚ dˆng các lu™t ˜Òc xây d¸ng sÆn ∫ lßy ra thông tin thÌi gian. Trong tr˜Ìng hÒp th˘ nhßt, thÌi gian có th∫ dπ dàng ˜Òc trích chÂn b¨ng cách s˚ dˆng bi∫u th˘c chính quy (Regular Expression - RE). Trong tr˜Ìng hÒp thÌi gian ˜Òc bi∫u diπn d˜Ói d§ng t˜Ïng Ëi, có th∫ dπ dàng nh™n thßy nó ch˘a hai thành ph¶n: thành ph¶nti∑n tË vàthÌi gian. Thành ph¶n ti∑n tË là t™p các t¯ chø ra thÌi gian t˜Ïng Ëi (sáng nay, tËi qua,...) và thành ph¶n thÌi gian th˜Ìng ˜Òc bi∫u diπn d˜Ói d§ng DD/MM/YYYY. Do ó, tác gi£ s˚ dˆng lu™t ∫ trích chÂn thÌi gian
˜Òc ∑ xußt trong [38]. Lu™t trích chÂn thÌi gian ˜Òc minh ho§ trong công th˘c (3.4).
THÕI GIAN=<THÕI GIAN T◊ÃNG »I>+NGÀY THÁNG (3.4) vÓi:
• THÕI GIAN T◊ÃNG »I gÁm các t¯: vào, ngày, sáng, hôm nay, sáng hôm
nay, chi∑u, hôm qua, tËi qua, r§ng sáng, tháng.
• NGÀY THÁNG có ‡nh d§ng DD/MM/YYYY.
Trong tr˜Ìng hÒp bài báo không ∑ c™p tÓi DATE TIME, thÌi gian m∞c ‡nh s≥ ˜Òc lßy là thÌi gian xußt b£n bài báo. Ví dˆ 3 và 4 minh ho§ viªc s˚ dˆng bi∫u th˘c chính quy và lu™t thÌi gian ∫ trích chÂn ra thÌi gian cıa s¸ kiªn.
Ví dˆ 3: “Ngày 12/03/2012, BÎ Y t∏ công bË d‡ch cúm A H5N1 ã tái phát t§i
Qu£ng Ngãi."
Ví dˆ 4:“Sáng ngày 15/01/2012, S Y t∏ thành phË Hà NÎi thông báo bªnh nhân
¶u tiên nhiπm cúm A/H5N1 ã t˚ vong."
Trong Ví dˆ 3, thÌi gian ˜Òc trích chÂn b¨ng cách s˚ dˆng bi∫u th˘c chính quy, trong khi nó ˜Òc trích chÂn b¨ng lu™t thÌi gian (3.4) trong Ví dˆ 4. K∏t qu£
là thông tin thÌi gian trong Ví dˆ 3 là 12/03/2012 và trong Ví dˆ 4 làSáng ngày
3.6.3 Trích chÂn tên bªnh
Trích chÂn tên bªnh là ch˘c n´ng th˘ hai trong b˜Óc trích chÂn s¸ kiªn. Ch˘c n´ng này có nhiªm vˆ lßy ra thông tin cıa d‡ch bªnh trong t¯ v´n b£n ¶u vào.
∫ trích chÂn tên bªnh, ˛ t˜ng cıa tác gi£ là s˚ dˆng mÎt t¯ i∫n tên bªnh ∫
so khÓp vÓi các t¯/cˆm t¯ trong v´n b£n ¶u vào, t¯ nào dài nhßt ˜Òc so khÓp vÓi các mˆc trong t¯ i∫n thì ó s≥ là tên bªnh.
Nh˜tác gi£ ã ∑ c™p trong hình 3.1, quá trình ti∑n x˚l˛ d˙ liªu s≥ tách câu và tách t¯ cho các v´n b£n. Nh˜ v™y, mÈi v´n b£n s≥ có mÎt danh sách các t¯/cˆm t¯. Và nh˜ v™y, công viªc trích chÂn ra tên bªnh là tìm các t¯ dài nhßt khÓp vÓi mÎt mˆc bßt k˝ trong t¯ i∫n tên bªnh (gÁm 186 tên bªnh).
Quá trình trích chÂn này có th∫ ˜Òc mô t£ trong hai b˜Óc: (1) tìm cˆm t¯dài nhßt mà so khÓp ˜Òc vÓi mÎt mˆc trong t¯ i∫n tên bªnh (2) và so khÓp˘ng viên vÓi v´n b£n gËc ∫ ki∫m tra nó có ph£i là tên chính xác hay không. B˜Óc th˘ nhßt dùng ph˜Ïng pháp so khÓp dài nhßt ∫ so khÓp mÎt t¯/cˆm t¯trong v´n b£n vÓi các tên bªnh trong t¯ i∫n. N∏u mÎt tên bªnh ch˘a t¯/cˆm t¯ ˜Òc cho, thì nó có th∫ là tên bªnh xußt hiªn trong v´n b£n gËc. Trong b˜Óc th˘ 2, t¯/cˆm t¯ v¯a tìm ˜Òc s≥ ˜Òc ki∫m tra xem có xußt hiªn trong v´n b£n gËc hay không. Tên bªnh ˜Òc tìm thßy sau hai b˜Óc này ph£i xußt hiªn trong v´n b£n gËc. Quá trình trích chÂn tên bªnh ˜Òc minh ho§ qua ví dˆ 5.
Ví dˆ 5:“D‡ch cúm A/H5N1 bùng phát t§i B∏n Tre"
Sau khi tách t¯, tác gi£ thu ˜Òc hai cˆm t¯/cˆm t¯ liên quan tÓi tên bªnh, gÁm: cúm và A/H5N1. Quá trình tìm ki∏m (b˜Óc 1) so khÓp các t¯ này vÓi các mˆc trong t¯ i∫n ∫ tìm ra t¯ dài nhßt. Nh˜ v™y, vÓi t¯ cúm tác gi£ thu ˜Òc ba t¯/cˆm t¯, gÁm: cúm, cúm A/H5N1, và cúm gia c¶m; trong khi ó vÓi cˆm t¯
A/H5N1 tác gi£ chø thu ˜Òc mÎt cˆm t¯là cúm A/H5N1. B˜Óc th˘hai ki∫m tra các t¯/cˆm t¯v¯a tìm ˜Òc xem chúng có xußt hiªn trong v´n b£n gËc hay không. Trong ví dˆ này, t¯ dài nhßt làcúm gia c¶m, nh˜ng nó không xußt hiªn trong v´n b£n gËc. Do v™y, ây không ph£i là tên bªnh chính xác. T¯ dài nhßt th˘ hai là
cúm A/H5N1 xußt hiªn trong v´n b£n gËc. Do ó, ây là tên bªnh chính xác.
3.6.4 Trích chÂn ‡a i∫m
Xây d¸ng ch˘c n´ng th˘ ba khó kh´n hÏn hai ch˘c n´ng tr˜Óc bi vì s¸ nh™p nh¨ng gi˙a các ‡a i∫m. Trong th¸c t∏, mÎt vài ‡a i∫m có th∫ có cùng tên. Ví dˆ, th‡ trßn ông H£i có th∫ thuÎc tønh Trà Vinh ho∞c Qu£ng Ninh. Nh˜ v™y, trong mÎt sË tr˜Ìng hÒp, n∏u bài báo không nêu rõ v‡ trí (xã, huyªn, tønh) thì thông tin v∑ v‡ trí cıa th∫ b‡ nh¶m l®n. ∫ gi£i quy∏t vßn ∑ này, ˛ t˜ng cıa tác gi£ là k∏t hÒp gi˙a nh™n d§ng th¸c th∫ (NER) và mÎt t¯ i∫n ‡a i∫m ∫ nâng cao Î chính xác trong quá trình trích chÂn thông tin ‡a i∫m. S˚ dˆng NER vì các thông tin liên quan tÓi ‡a i∫m có th∫ dπ dàng ˜Òc thu hÁi thông qua lo§i
CH◊ÃNG 3. MÔ HÌNH óXUáT 28
th¸c th∫ (cˆ th∫ ây là LOCATION); còn s˚ dˆng mÎt t¯ i∫n ‡a i∫m ( ˜Òc tÍ ch˘c d˜Ói d§ng cây phân cßp) ∫ gi£i quy∏t các tr˜Ìng hÒp khi thông tin ‡a i∫m không ˜Òc ∑ c™p mÎt cách rõ ràng (chø có tên xã ho∞c huyªn mà không có tên tønh).
Quá trình trích chÂn thông tin ‡a i∫m có th∫ ˜Òc mô t£ trong ba b˜Óc: (1) NER, (2) thu hÁi thông tin ‡a i∫m, và (3) quá trình chu©n hoá. ¶u tiên, mÎt bÎ nh™n d§ng th¸c th∫ (NER5) ˜Òc s˚ dˆng ∫ phát hiªn ra các th¸c th∫ ki∫u LOCATION. Nh˜ v™y, các ‡a i∫m trong bài báo s≥ ˜Òc gán nhãn bi mÎt c∞p
<LOC> và</LOC>. Sau ó, tác gi£thu hÁi các thông tin ‡a i∫m d¸a trên c∞p nhãn này b¨ng cách duyªt qua toàn bÎ các nhãn và chø gi˙ l§i nh˙ng nÎi dung
˜Òc ánh dßu bi c∞p nhãn <LOC> và </LOC>. Trong b˜Óc cuËi cùng, mÈi mÎt thông tin ‡a i∫m s≥ ˜Òc chu©n hoá b¨ng cách so khÓp vÓi thông tin trong câu phân cßp ‡a i∫m. Thông tin cuËi cùng là thông tin ã ˜Òc chu©n hoá.
Tác gi£s˚dˆng t¯ i∫n ‡a i∫m nh˜là mÎt cây phân cßp (taxonomy). T¯ i∫n này ˜Òc minh ho§ trong hình 3.4.
Gốc
Tỉnh 1 Tỉnh 2 Tỉnh n
Huyện 1.1 Thị xã 1.2 Huyện 2.1 Thị xã 2.2 Huyện n.1 Thị xã n.2
Phường 1.1.1 Xã 1.1.2 Phường 2.1.1 Xã 2.1.2 Phường n.1.1 Xã n.1.2
Hình 3.4: Bi∫u diπn cıa cây phân cßp ‡a i∫m
Trong cßu trúc phân cßp này, m˘c cao nhßt là nút gËc; m˘c mÎt bi∫u diπn 63 tønh thành cıa Viªt Nam; m˘c hai bi∫u diπn 692 huyªn; và m˘c ba bi∫u diπn 11.101 xã, ph˜Ïng, th‡ trßn trong toàn quËc. Khi mÎt t¯/cˆm t¯ n¨m trong c∞p th¥ <LOC> và </LOC>, nó s≥ ˜Òc so khÓp vÓi giá tr‡ cıa mÎt nút trong cây phân cßp trong hình 3.4, và nh˜v™y nút hiªn t§i s≥ ˜Òc ánh dßu; lúc này, thông tin ‡a i∫m chính là ˜Ìng di t¯ nút hiªn t§i tÓi nút gËc. Rõ ràng, cách tÍ ch˘c này hiªu qu£ cho viªc xác ‡nh mËi quan hª gi˙a xã, ph˜Ìng, th‡ trßn, huyªn, và tønh. S¸hiªn qu£ cıa cây phân cßp s≥ ˜Òc minh ho§ trong Ví dˆ 6.
Ví dˆ 6: “Ngày 12/04/2013, S Y t∏ Qu£ng Ngãi thông báo d‡ch cúm A H5N1 ã
bùng phát t§i th‡ trßn Sông Vª"
Ví dˆ này chø ∑ c™p tÓi th‡ trßn (Sông Vª), nÏi mà d‡ch cúm A H5N1 bùng 5http://jvntextpro.sourceforge.net
phát, trong khi thông tin v∑ huyªn và tønh b‡ b‰ qua (m∞c dù thông tin S Y t∏
Qu£ng Ngãi ng¶m ám chø d‡ch bªnh bùng phát tønh Qu£ng Ngãi). Trong quá trình trích chÂn, ví dˆtrên ˜Òc phân tích b¨ng bÎnh™n d§ng th¸c th∫ (NER) và
“Sông Vª" ˜Òc gán nhãn bi c∞p th¥ <LOC> và </LOC>, trong khi ó Qu£ng Ngãi ˜Òc gán nhãn là ORG. The cách thông th˜Ìng, sau khi lßy v∑ thông tin cıa
‡a i∫m (n¨m trong c∞p th¥ <LOC> và </LOC>), Sông Vª là thông tin v∑ ‡a i∫m mà d‡ch bªnh bùng phát. Tuy nhiên, thông tin này không ı ∫ tr¸c quan hoá trên b£n ÁGIS do nó không ¶y ı. ∫ gi£i quy∏t vßn ∑ này, thông tin v¯a thu hÁi ˜Òc so khÓp trên cây phân cßp ‡a i∫m. Khi mÎt nút ch˘a giá tr‡ ˜Òc tìm thßy, quá trình chu©n hoá s≥ duyªt t¯ nút hiªn t§i v∑ nút gËc ∫ lßy ra thông tin ¶y ı. Trong ví dˆ này, khi tìm thßy nút ch˘a cˆm t¯ Sông Vª, quá trình chu©n hoá s≥ ánh dßu nút hiªn t§i, và duyªt ng˜Òc v∑ nút gËc ∫ lßy thông tin
¶y ı là: th‡ trßn Sông vª, huyªn T˜ Nghæa, tønh Qu£ng Nam.
CuËi cùng, các thông tin ˜Òc trích chÂn gÁm thÌi gian, tên bªnh, và dánh sách các v‡ trí t¯bài báo ¶u vào ˜Òc tÍ hÒp ∫ t§o thành mÎt s¸ kiªn d‡ch bªnh. S¸
kiªn này s≥ ˜Òc l˜u tr˙ trong mÎt cÏ s d˙ liªu s¸ kiªn nh¨m mˆc ích cung cßp d˙ liªu cho thành ph¶n tr¸c quan hoá.
3.7 TÍng k∏t
Trong ch˜Ïng này, tác gi£ ã trình bày ph˜Ïng pháp và mô hình ∑ xußt ∫ gi£i quy∏t bài toán trích chÂn s¸kiªn d‡ch bªnh; tác gi£cÙng mô t£chi ti∏t hai bài toán quan trÂng trong mô hình ó là: bài toán phát hiªn s¸ kiªn và trích chÂn s¸ kiªn;