3.5.1 Phát bi∫u bài toán
Mˆc tiêu cıa pha này là xác ‡nh xem mÎt bài báo có ch˘a s¸ kiªn d‡ch bªnh hay không. MÎt cách hình th˘c, bài toán phát hi∏n s¸ kiªn có th∫ ˜Òc phát bi∫u nh˜ sau:
• ¶u vào: d˙ liªu d§ng thô cıa bài báo sau khi ã ˜Òc ti∑n x˚ l˛. • ¶u ra: bài báo có ch˘a s¸ kiªn d‡ch bªnh hay không?
Pha phát hiªn s¸ kiªn gÁm hai ch˘c n´ng, ó là: mÎt bÎ lÂc d˙ liªu (data filter) và mÎt bÎ phân lÓp. BÎlÂc d˙liªu s˚dˆng các lu™t có nhiªm vˆ xác ‡nh các bài báo có liên quan tÓi d‡ch bªnh trong khi ó bÎ phân lÓp s≥ quy∏t ‡nh bài báo có ch˘a s¸ kiªn hay không. Quá trình phát hiªn s¸ kiªn ˜Òc minh ho§ trong hình
CH◊ÃNG 3. MÔ HÌNH óXUáT 22 Dữ liệu Bộ lọc dữ liệu Luật Bộ phân lớp Hình 3.2: Thành ph¶n phát hiªn s¸ kiªn
3.2. Trong ch˘c n´ng lÂc d˙ liªu, tiêu ∑ cıa mÎt bài báo ˜Òc s˚ dˆng ∫ lÂc ra các d˙ liªu có liên quan tÓi mi∑n d˙ liªu d‡ch bªnh. Sau ó, n∏u bài báo thuÎc mi∑n d‡ch bªnh, nó s≥ ˜Òc chuy∫n tÓi bÎ phân lÓp. – ây, bài báo s≥ ˜Òc quy∏t
‡nh xem nó có ch˘a s¸ kiªn d‡ch bªnh hay không.
3.5.2 Xây d¸ng t™p lu™t
Nh˜tác gi£ ã ∑ c™p trên, pha phát hiªn s¸kiªn gÁm hai ch˘c n´ng: mÎt bÎ
lÂc d˙ liªu và mÎt bÎ phân lÓp. BÎ lÂc d˙ liªu s˚ dˆng các lu™t ∫ gi£m sË l˜Òng các bài báo cho bÎphân lÓp phía sau. Qua quá trình kh£o sát d˙liªu, tác gi£nh™n thßy thông th˜Ìng tiêu ∑ cıa mÎt bài báo có th∫ nói lên h¶u h∏t nÎi dung cıa bài báo ó. i∑u này có nghæa, n∏u tiêu ∑ cıa bài báo nói v∑ d‡ch bªnh, thì kh£
n´ng lÓn bài báo nói v∑ d‡ch bªnh; và ng˜Òc l§i. Do dó, tác gi£ quy∏t ‡nh chø s˚
dˆng tiêu ∑ bài báo thay vì toàn bÎ nÎi dung cıa bài báo cho ch˘c n´ng lÂc d˙
liªu.
Ho§t Îng cıa bÎlÂc d˙liªu có th∫ mô t£nh˜sau: (1) tác gi£ s≥ xây d¸ng mÎt t™p lu™t d¸a vào quá trình kh£o sát d˙ liªu, các lu™t này ch˘a các t¯ khoá liên quan tÓi mi∑n d˙liªu d‡ch bªnh; (2) bÎlÂc d˙liªu s≥ dùng các lu™t này và so khÓp vÓi tiêu ∑ cıa các bài báo, n∏u tiêu ∑ ch˘a các lu™t thì i∑u ó có nghæa bài báo
ó thuÎc mi∑n d˙ liªu d‡ch bªnh, ng˜Òc l§i thì không thuÎc.
T™p lu™t yêu c¶u mÎt t™p các t¯ ho∞c các cˆm t¯ liên quan tÓi mi∑n d˙ liªu d‡ch bªnh. ∫ lßy t™p này, tác gi£ ã ti∏n hành thËng kê trên mÎt t™p d˙ liªu lÓp các bài báo cıa chuyên mˆc "S˘c kho¥"1 cıa website Báo MÓi2. Tác gi£ chÂnBáo MÓi vì trang web này t¸ Îng tÍng hÒp bài vi∏t t¯các trang web khác, do v™y nó
£m b£o tính a d§ng cıa t¯ khoá.
Sau quá trình thËng kê, tác gi£ thu ˜Òc 34 t¯ khoá (hay còn gÂi là t™p các t¯
th˜Ìng xuyên - frequent-words set). Các t¯ ˜Òc s≠p x∏p theo th˘ t¸ gi£m d¶n 1http://www.baomoi.com/Home/SucKhoe.epi
theo sË bài vi∏t nó xußt hiªn (hi∫n nhiên ây không tính ∏n các t¯ d¯ng - stop words). MÎt sË t¯ và cˆm t¯ ˜Òc minh ho§ trong b£ng 3.1, vÓi cÎt th˘ ba là sË
l˜Òng các bài báo mà t¯ cÎt sË hai xußt hiªn. K∏t qu£cıa quá trình kh£o sát và
B£ng 3.1: Danh sách các t¯/cˆm t¯ th˜Ìng xuyênSTT T¯/cˆm t¯ SË bài báo STT T¯/cˆm t¯ SË bài báo 1 Nhiπm 10005 2 D‡ch 10000 3 D˜Ïng tính 5269 4 Lây lan 4133 5 Bùng phát 4039 6 Tái phát 2514 7 bªnh 2340 8 d‡ch 1900 9 D‡ch t£ 1853 10 Kh˚trùng 1143
thËng kê cho thßy h¶u h∏t các bài báo ch˘a các t¯trong t™p t¯ th˜Ìng xuyên ∑u liên quan tÓi s¸ kiªn d‡ch bªnh. Do v™y, ˛ t˜ng cıa các gi£ là xây d¸ng t™p các lu™t b¨ng cách k∏t hÒp các t¯/cˆm t¯ trong t™p t¯ th˜Ìng xuyên. ∫ th¸c hiªn viªc t§o ra các lu™t, tác gi£ ∑ xußt hai m®u có tên là M®u 1 và M®u 2. Các m®u này ˜Òc minh ho§ trong công th˘c (3.2) và (3.3).
M®u 1= danh t¯ # Îng t¯ (3.2) vÓi: các danh t¯ và Îng t¯ ˜Òc lßy trong t™p t¯ th˜Ìng xuyên.
Ví dˆ 1: minh ho§ th∫ hiªn cıa M®u 1: • bªnh nhân t˚ vong # nhiπm
• d‡ch t£ # bùng phát
M®u 2= tên bªnh # Îng t¯ (3.3) vÓi:
• tên bªnh ˜Òc lßy t¯ BioCaster Ontology [9] và thông báo cıa BÎ Y t∏ Viªt Nam này 24 tháng 06 n´m 20113.
• Îng t¯ lßy t¯ t™p t¯ th˜Ìng xuyên.
Ví dˆ 2: minh ho§ các th∫ hiªn cıaM®u 2: • tiêu ch£y cßp # nhiπm
• tiêu ch£y cßp # phát hiªn • tiêu ch£y cßp # lây lan 3http://www.moh.gov.vn/
CH◊ÃNG 3. MÔ HÌNH óXUáT 24
• tiêu ch£y cßp # bùng phát • tiêu ch£y cßp # ch∏t (t˚ vong) • tiêu ch£y cßp # d˜Ïng tính
C£ hai m®u ∑u có hai thành ph¶n ˜Òc ng´n cách vÓi nhau bi dßu #. Tác gi£
s˚dˆng 52 danh t¯/cˆm danh t¯ và 10 Îng t¯/cˆm Îng t¯ ∫ xây d¸ng M®u 1. Nh˙ng Îng t¯ và danh t¯ này ˜Òc lßy t¯ t™p t¯ th˜Ìng xuyên. T˜Ïng t¸ nh˜
v™y, tác gi£ s˚ dˆng 186 tên bªnh và 6 Îng t¯/cˆm Îng t¯ ∫ xây d¸ng M®u 2. MÎt sË Îng t¯/cˆm Îng t¯ trong M®u 1 và M®u 2 giËng nhau.
Sau khi xây d¸ng t™p lu™t, tác gi£thu ˜Òc 229 lu™t cıa M®u 1 vàM®u 2. T™p lu™t này ˜Òc s˚ dˆng ∫ lÂc d˙liªu cho bÎ phân lÓp phía sau.
3.5.3 Xây d¸ng mô hình phân lÓp
BÎ phân lÓp có nhiªm vˆ phát hiªn mÎt bài báo có ch˘a s¸ kiªn d‡ch bªnh hay không. BÎphân lÓp s≥ phân lo§i v´n b£n vào hai lÓp: ch˘a s¸kiªn d‡ch bªnh (nhãn là EVENT) và không ch˘a s¸ kiªn (NOT_EVENT). Quá trình kh£o sát chø ra r¨ng tiêu ∑ và ph¶n tóm t≠t có ı thông tin ∫ bi∫u diπn nÎi dung cıa bài báo. Do v™y, các thông tin này ˜Òc s˚dˆng ∫ t§o vector ∞c tr˜ng bi∫u diπn v´n b£n. Tác gi£ xây d¸ng mÎt t™p d˙ liªu hußn luyªn và dùng t™p d˙ liªu hußn luyªn này
∫ xác ‡nh nh˙ng v´n b£n ch˘a s¸ kiªn. Các ∞c tr˜ng ˜Òc s˚ dˆng trong quá trình hußn luyªn là 2-grams, 3-grams, và 4-grams. TÍng sË ∞c tr˜ng ˜Òc s˚dˆng là 4.552.
Trong quá trình hußn luyªn, tác gi£ s˚ dˆng mô hình Maximum Entropy4. Maximum Entropy (ME) [4, 33, 34, 22] là mÎt mô hình d¸a trên xác sußt có i∑u kiªn cho phép tích hÒp s¸ a d§ng cıa các ∞c tr˜ng t¯ t™p d˙ liªu hußn luyªn cho bài toán phân lÓp. fi t˜ng cıa ME là mô hình ph£i xác inh mÎt phân phËi
∑u tho£mãn các ràng buÎc t¯t™p d˙liªu hußn luyªn mà không thêm bßt k˝mÎt gi£ ‡nh nào. i∑u này có nghæa s¸ phân bË cıa mô hình ph£i tho£ mãn các ràng buÎc cıa d˙liªu quan sát và càng g¶n vÓi phân bË ∑u càng tËt. Tác gi£chÂn ME vì: (1) d˙ liªu trong quá trình hußn luyªn là v´n b£n, do v™y, khi bi∫u diπn d˜Ói d§ng vector ∞c tr˜ng thì ây là d˙ liªu th˜a mà ME tËt khi d˙ liªu ˜Òc bi∫u diπn d˜Ói d§ng th˜a; (2) tËc Îhußn luyªn cıa ME khá tËt so vÓi các thu™t toán mà tác gi£ ˜Òc bi∏t (SVM) và th¸c nghiªm ã ch˘ng minh ph˜Ïng pháp cho k∏t qu£ tËt vÓi d˙ liªu v´n b£n; (3) có th∫ tu˝ bi∏n mã nguÁn cıa ME do ây là mã nguÁn m.
Sau quá trình hußn luyªn, toàn bÎ d˙ liªu ã qua bÎ lÂc s≥ ˜Òc ˜a vào mô hình. T§i ây, nh˙ng v´n b£n có nhãn EVENT s≥ là ¶u vào cho quá trình trích chÂn; ng˜Òc l§i, mô hình s≥ b‰ qua nh˙ng v´n b£n có nhãn là NOT_EVENT.