Bài toán trích chÂn s¸ kiªn

Một phần của tài liệu Trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến (Trang 36)

3.6.1 Phát bi∫u bài toán

BÎ trích chÂn s¸kiªn là mÎt trong hai thành ph¶n quan trÂng cıa mô hình, nÏi mà thông tin cıa mÎt s¸ kiªn d‡ch bªnh ˜Òc trích chÂn. MÎt cách hình th˘c, có th∫ phát bi∫u bài toán trích chÂn s¸ kiªn nh˜ sau:

• ¶u vào: mÎt v´n b£n ch˘a s¸ kiªn d‡ch bªnh.

• ¶u ra: các thông tin cıa mÎt d‡ch bªnh bao gÁm: tên bªnh, thÌi gian bùng phát, và ‡a i∫m bùng phát. L˜u ˛ r¨ng ‡a i∫m bùng phát d‡ch bªnh có th∫ là mÎt ho∞c nhi∑u.

Bài toán trích chÂn s¸ kiªn có th∫ ˜Òc minh ho§ trong hình 3.3. BÎ trích chÂn

Dữ liệu Trích chọn thời gian Luật Trích chọn tên bệnh Từ điển tên bệnh Trích chọn địa điểm Cây phân cấp địa điểm Sự kiện Hình 3.3: Thành ph¶n trích chÂn s¸kiªn

gÁm ba ch˘c n´ng: trích chÂn thÌi gian, trích chÂn tên bªnh, và trích chÂn thông tin ‡a i∫m. Ch˘c n´ng th˘ nhßt s˚ dˆng các lu™t ∫ lßy v∑ thông tin thÌi gian cıa d‡ch bªnh; ch˘c n´ng th˘ hai dùng mÎt t¯ i∫n ch˘a các tên bªnh ∫ lßy v∑

tên bªnh; và ch˘c n´ng cuËi cùng k∏t hÒp nh™n d§ng th¸c th∫ (NER) và mÎt t¯

i∫n ‡a i∫m ∫ lßy v∑ thông tin ‡a i∫m bùng phát d‡ch bªnh. CuËi cùng, các thông tin ˜Òc tÍ hÒp ∫ t§o thành mÎt s¸ kiªn và nó ˜Òc l˜u trong mÎt cÏ s

CH◊ÃNG 3. MÔ HÌNH óXUáT 26

3.6.2 Trích chÂn thÌi gian

K∏t qu£ cıa quá trình kh£o sát trên t™p d˙ liªu chø ra r¨ng thông tin thÌi gian

˜Òc bi∫u diπn b¨ng hai cách: tuyªt Ëi và t˜Ïng Ëi. Khi thÌi gian ˜Òc bi∫u diπn d˜Ói d§ng tuyªt Ëi, nó có ‡nh d§ng DD/MM/YYYY; trong ó DD chø ngày, MM chø tháng, và YYYY chø n´m x£y ra d‡ch bªnh. Ví dˆ, “D‡ch si ã bùng phát t§i Qu£ng Ngãi vào ngày 12/06/2012". Tuy nhiên, trong nhi∑u tr˜Ìng hÒp, thông tin liên quan ∏n d‡ch bªnh ˜Òc cung cßp mÌ và không tr¸c ti∏p. Ví dˆ, “Chi∑u tËi ngày 12/06/2012, BÎ Y t∏ ã công bË d‡ch cúm A/H5N1 bùng phát t§i Yên Bái". Lúc này, thông tin v∑ thÌi i∫m d‡ch bªnh bùng phát không rõ ràng, nó chø là

“Chi∑u tËi". Nh˜v™y, c¶n k∏t hÒp ngày chính xác và cˆm t¯ “Chi∑u tËi" ∫ ˜a ra

˜Òc thông tin v∑ thÌi gian.

Nh˜ v™y, t¯ th¸c t∏ thÌi gian ˜Òc bi∫u diπn theo hai cách, ˛ t˜ng cıa tác gi£ là s˚ dˆng các lu™t ˜Òc xây d¸ng sÆn ∫ lßy ra thông tin thÌi gian. Trong tr˜Ìng hÒp th˘ nhßt, thÌi gian có th∫ dπ dàng ˜Òc trích chÂn b¨ng cách s˚ dˆng bi∫u th˘c chính quy (Regular Expression - RE). Trong tr˜Ìng hÒp thÌi gian ˜Òc bi∫u diπn d˜Ói d§ng t˜Ïng Ëi, có th∫ dπ dàng nh™n thßy nó ch˘a hai thành ph¶n: thành ph¶nti∑n tË vàthÌi gian. Thành ph¶n ti∑n tË là t™p các t¯ chø ra thÌi gian t˜Ïng Ëi (sáng nay, tËi qua,...) và thành ph¶n thÌi gian th˜Ìng ˜Òc bi∫u diπn d˜Ói d§ng DD/MM/YYYY. Do ó, tác gi£ s˚ dˆng lu™t ∫ trích chÂn thÌi gian

˜Òc ∑ xußt trong [38]. Lu™t trích chÂn thÌi gian ˜Òc minh ho§ trong công th˘c (3.4).

THÕI GIAN=<THÕI GIAN T◊ÃNG »I>+NGÀY THÁNG (3.4) vÓi:

• THÕI GIAN T◊ÃNG »I gÁm các t¯: vào, ngày, sáng, hôm nay, sáng hôm

nay, chi∑u, hôm qua, tËi qua, r§ng sáng, tháng.

• NGÀY THÁNG có ‡nh d§ng DD/MM/YYYY.

Trong tr˜Ìng hÒp bài báo không ∑ c™p tÓi DATE TIME, thÌi gian m∞c ‡nh s≥ ˜Òc lßy là thÌi gian xußt b£n bài báo. Ví dˆ 3 và 4 minh ho§ viªc s˚ dˆng bi∫u th˘c chính quy và lu™t thÌi gian ∫ trích chÂn ra thÌi gian cıa s¸ kiªn.

Ví dˆ 3: “Ngày 12/03/2012, BÎ Y t∏ công bË d‡ch cúm A H5N1 ã tái phát t§i

Qu£ng Ngãi."

Ví dˆ 4:“Sáng ngày 15/01/2012, S Y t∏ thành phË Hà NÎi thông báo bªnh nhân

¶u tiên nhiπm cúm A/H5N1 ã t˚ vong."

Trong Ví dˆ 3, thÌi gian ˜Òc trích chÂn b¨ng cách s˚ dˆng bi∫u th˘c chính quy, trong khi nó ˜Òc trích chÂn b¨ng lu™t thÌi gian (3.4) trong Ví dˆ 4. K∏t qu£

là thông tin thÌi gian trong Ví dˆ 3 là 12/03/2012 và trong Ví dˆ 4 làSáng ngày

3.6.3 Trích chÂn tên bªnh

Trích chÂn tên bªnh là ch˘c n´ng th˘ hai trong b˜Óc trích chÂn s¸ kiªn. Ch˘c n´ng này có nhiªm vˆ lßy ra thông tin cıa d‡ch bªnh trong t¯ v´n b£n ¶u vào.

∫ trích chÂn tên bªnh, ˛ t˜ng cıa tác gi£ là s˚ dˆng mÎt t¯ i∫n tên bªnh ∫ (adsbygoogle = window.adsbygoogle || []).push({});

so khÓp vÓi các t¯/cˆm t¯ trong v´n b£n ¶u vào, t¯ nào dài nhßt ˜Òc so khÓp vÓi các mˆc trong t¯ i∫n thì ó s≥ là tên bªnh.

Nh˜tác gi£ ã ∑ c™p trong hình 3.1, quá trình ti∑n x˚l˛ d˙ liªu s≥ tách câu và tách t¯ cho các v´n b£n. Nh˜ v™y, mÈi v´n b£n s≥ có mÎt danh sách các t¯/cˆm t¯. Và nh˜ v™y, công viªc trích chÂn ra tên bªnh là tìm các t¯ dài nhßt khÓp vÓi mÎt mˆc bßt k˝ trong t¯ i∫n tên bªnh (gÁm 186 tên bªnh).

Quá trình trích chÂn này có th∫ ˜Òc mô t£ trong hai b˜Óc: (1) tìm cˆm t¯dài nhßt mà so khÓp ˜Òc vÓi mÎt mˆc trong t¯ i∫n tên bªnh (2) và so khÓp˘ng viên vÓi v´n b£n gËc ∫ ki∫m tra nó có ph£i là tên chính xác hay không. B˜Óc th˘ nhßt dùng ph˜Ïng pháp so khÓp dài nhßt ∫ so khÓp mÎt t¯/cˆm t¯trong v´n b£n vÓi các tên bªnh trong t¯ i∫n. N∏u mÎt tên bªnh ch˘a t¯/cˆm t¯ ˜Òc cho, thì nó có th∫ là tên bªnh xußt hiªn trong v´n b£n gËc. Trong b˜Óc th˘ 2, t¯/cˆm t¯ v¯a tìm ˜Òc s≥ ˜Òc ki∫m tra xem có xußt hiªn trong v´n b£n gËc hay không. Tên bªnh ˜Òc tìm thßy sau hai b˜Óc này ph£i xußt hiªn trong v´n b£n gËc. Quá trình trích chÂn tên bªnh ˜Òc minh ho§ qua ví dˆ 5.

Ví dˆ 5:“D‡ch cúm A/H5N1 bùng phát t§i B∏n Tre"

Sau khi tách t¯, tác gi£ thu ˜Òc hai cˆm t¯/cˆm t¯ liên quan tÓi tên bªnh, gÁm: cúm và A/H5N1. Quá trình tìm ki∏m (b˜Óc 1) so khÓp các t¯ này vÓi các mˆc trong t¯ i∫n ∫ tìm ra t¯ dài nhßt. Nh˜ v™y, vÓi t¯ cúm tác gi£ thu ˜Òc ba t¯/cˆm t¯, gÁm: cúm, cúm A/H5N1, và cúm gia c¶m; trong khi ó vÓi cˆm t¯

A/H5N1 tác gi£ chø thu ˜Òc mÎt cˆm t¯là cúm A/H5N1. B˜Óc th˘hai ki∫m tra các t¯/cˆm t¯v¯a tìm ˜Òc xem chúng có xußt hiªn trong v´n b£n gËc hay không. Trong ví dˆ này, t¯ dài nhßt làcúm gia c¶m, nh˜ng nó không xußt hiªn trong v´n b£n gËc. Do v™y, ây không ph£i là tên bªnh chính xác. T¯ dài nhßt th˘ hai là

cúm A/H5N1 xußt hiªn trong v´n b£n gËc. Do ó, ây là tên bªnh chính xác.

3.6.4 Trích chÂn ‡a i∫m

Xây d¸ng ch˘c n´ng th˘ ba khó kh´n hÏn hai ch˘c n´ng tr˜Óc bi vì s¸ nh™p nh¨ng gi˙a các ‡a i∫m. Trong th¸c t∏, mÎt vài ‡a i∫m có th∫ có cùng tên. Ví dˆ, th‡ trßn ông H£i có th∫ thuÎc tønh Trà Vinh ho∞c Qu£ng Ninh. Nh˜ v™y, trong mÎt sË tr˜Ìng hÒp, n∏u bài báo không nêu rõ v‡ trí (xã, huyªn, tønh) thì thông tin v∑ v‡ trí cıa th∫ b‡ nh¶m l®n. ∫ gi£i quy∏t vßn ∑ này, ˛ t˜ng cıa tác gi£ là k∏t hÒp gi˙a nh™n d§ng th¸c th∫ (NER) và mÎt t¯ i∫n ‡a i∫m ∫ nâng cao Î chính xác trong quá trình trích chÂn thông tin ‡a i∫m. S˚ dˆng NER vì các thông tin liên quan tÓi ‡a i∫m có th∫ dπ dàng ˜Òc thu hÁi thông qua lo§i

CH◊ÃNG 3. MÔ HÌNH óXUáT 28

th¸c th∫ (cˆ th∫  ây là LOCATION); còn s˚ dˆng mÎt t¯ i∫n ‡a i∫m ( ˜Òc tÍ ch˘c d˜Ói d§ng cây phân cßp) ∫ gi£i quy∏t các tr˜Ìng hÒp khi thông tin ‡a i∫m không ˜Òc ∑ c™p mÎt cách rõ ràng (chø có tên xã ho∞c huyªn mà không có tên tønh).

Quá trình trích chÂn thông tin ‡a i∫m có th∫ ˜Òc mô t£ trong ba b˜Óc: (1) NER, (2) thu hÁi thông tin ‡a i∫m, và (3) quá trình chu©n hoá. ¶u tiên, mÎt bÎ nh™n d§ng th¸c th∫ (NER5) ˜Òc s˚ dˆng ∫ phát hiªn ra các th¸c th∫ ki∫u LOCATION. Nh˜ v™y, các ‡a i∫m trong bài báo s≥ ˜Òc gán nhãn bi mÎt c∞p

<LOC> và</LOC>. Sau ó, tác gi£thu hÁi các thông tin ‡a i∫m d¸a trên c∞p nhãn này b¨ng cách duyªt qua toàn bÎ các nhãn và chø gi˙ l§i nh˙ng nÎi dung

˜Òc ánh dßu bi c∞p nhãn <LOC> và </LOC>. Trong b˜Óc cuËi cùng, mÈi mÎt thông tin ‡a i∫m s≥ ˜Òc chu©n hoá b¨ng cách so khÓp vÓi thông tin trong câu phân cßp ‡a i∫m. Thông tin cuËi cùng là thông tin ã ˜Òc chu©n hoá.

Tác gi£s˚dˆng t¯ i∫n ‡a i∫m nh˜là mÎt cây phân cßp (taxonomy). T¯ i∫n này ˜Òc minh ho§ trong hình 3.4.

Gốc

Tỉnh 1 Tỉnh 2 Tỉnh n

Huyện 1.1 Thị xã 1.2 Huyện 2.1 Thị xã 2.2 Huyện n.1 Thị xã n.2

Phường 1.1.1 Xã 1.1.2 Phường 2.1.1 Xã 2.1.2 Phường n.1.1 Xã n.1.2

Hình 3.4: Bi∫u diπn cıa cây phân cßp ‡a i∫m

Trong cßu trúc phân cßp này, m˘c cao nhßt là nút gËc; m˘c mÎt bi∫u diπn 63 tønh thành cıa Viªt Nam; m˘c hai bi∫u diπn 692 huyªn; và m˘c ba bi∫u diπn 11.101 xã, ph˜Ïng, th‡ trßn trong toàn quËc. Khi mÎt t¯/cˆm t¯ n¨m trong c∞p th¥ <LOC> và </LOC>, nó s≥ ˜Òc so khÓp vÓi giá tr‡ cıa mÎt nút trong cây phân cßp trong hình 3.4, và nh˜v™y nút hiªn t§i s≥ ˜Òc ánh dßu; lúc này, thông tin ‡a i∫m chính là ˜Ìng di t¯ nút hiªn t§i tÓi nút gËc. Rõ ràng, cách tÍ ch˘c này hiªu qu£ cho viªc xác ‡nh mËi quan hª gi˙a xã, ph˜Ìng, th‡ trßn, huyªn, và tønh. S¸hiªn qu£ cıa cây phân cßp s≥ ˜Òc minh ho§ trong Ví dˆ 6.

Ví dˆ 6: “Ngày 12/04/2013, S Y t∏ Qu£ng Ngãi thông báo d‡ch cúm A H5N1 ã

bùng phát t§i th‡ trßn Sông Vª"

Ví dˆ này chø ∑ c™p tÓi th‡ trßn (Sông Vª), nÏi mà d‡ch cúm A H5N1 bùng 5http://jvntextpro.sourceforge.net

phát, trong khi thông tin v∑ huyªn và tønh b‡ b‰ qua (m∞c dù thông tin S Y t∏

Qu£ng Ngãi ng¶m ám chø d‡ch bªnh bùng phát  tønh Qu£ng Ngãi). Trong quá trình trích chÂn, ví dˆtrên ˜Òc phân tích b¨ng bÎnh™n d§ng th¸c th∫ (NER) và

“Sông Vª" ˜Òc gán nhãn bi c∞p th¥ <LOC> và </LOC>, trong khi ó Qu£ng Ngãi ˜Òc gán nhãn là ORG. The cách thông th˜Ìng, sau khi lßy v∑ thông tin cıa

‡a i∫m (n¨m trong c∞p th¥ <LOC> và </LOC>), Sông Vª là thông tin v∑ ‡a i∫m mà d‡ch bªnh bùng phát. Tuy nhiên, thông tin này không ı ∫ tr¸c quan hoá trên b£n ÁGIS do nó không ¶y ı. ∫ gi£i quy∏t vßn ∑ này, thông tin v¯a thu hÁi ˜Òc so khÓp trên cây phân cßp ‡a i∫m. Khi mÎt nút ch˘a giá tr‡ ˜Òc tìm thßy, quá trình chu©n hoá s≥ duyªt t¯ nút hiªn t§i v∑ nút gËc ∫ lßy ra thông tin ¶y ı. Trong ví dˆ này, khi tìm thßy nút ch˘a cˆm t¯ Sông Vª, quá trình chu©n hoá s≥ ánh dßu nút hiªn t§i, và duyªt ng˜Òc v∑ nút gËc ∫ lßy thông tin

¶y ı là: th‡ trßn Sông vª, huyªn T˜ Nghæa, tønh Qu£ng Nam.

CuËi cùng, các thông tin ˜Òc trích chÂn gÁm thÌi gian, tên bªnh, và dánh sách các v‡ trí t¯bài báo ¶u vào ˜Òc tÍ hÒp ∫ t§o thành mÎt s¸ kiªn d‡ch bªnh. S¸ (adsbygoogle = window.adsbygoogle || []).push({});

kiªn này s≥ ˜Òc l˜u tr˙ trong mÎt cÏ s d˙ liªu s¸ kiªn nh¨m mˆc ích cung cßp d˙ liªu cho thành ph¶n tr¸c quan hoá.

3.7 TÍng k∏t

Trong ch˜Ïng này, tác gi£ ã trình bày ph˜Ïng pháp và mô hình ∑ xußt ∫ gi£i quy∏t bài toán trích chÂn s¸kiªn d‡ch bªnh; tác gi£cÙng mô t£chi ti∏t hai bài toán quan trÂng trong mô hình ó là: bài toán phát hiªn s¸ kiªn và trích chÂn s¸ kiªn; trong bài toánphát hiªn s¸ kiªn tác gi£ ã trình bày chi ti∏t v∑quá trình xây d¸ng t™p lu™t và mô hình hÂc máy; trong bài toán trích chÂn s¸ kiªn tác gi£ ã trình bài chi ti∏t ba thành ph¶n cÏ b£n cıa bài toán này, ó là: trích chÂn thÌi gian, tên bªnh, và ‡a i∫m bùng phát d‡ch bªnh. C£ hai bài toán này ∑u s˚ dˆng ph˜Ïng pháp k∏t hÒp gi˙a lu™t và hÂc máy. Trong ch˜Ïng ti∏p theo tác gi£s≥ ch˘ng minh tính hiªu qu£ cıa ph˜Ïng pháp ∑ xußt b¨ng ph˜Ïng pháp th¸c nghiªm.

Ch˜Ïng 4

Th¸c nghiªm và ánh giá k∏t qu£

Ch˜Ïng này tác gi£s≥ trình bày v∑ môi tr˜Ìng, công cˆ, cÙng nh˜ các gói ˜Òc tác gi£ xây d¸ng; bên c§nh ó, tác gøa cÙng ch˘ng minh tính hiªu qu£cıa ph˜Ïng pháp thông qua hai bài toán quan trÂng là phát hiªn s¸ kiªn vàtrích chÂn s¸ kiªn; cuËi cùng, tác gi£ trình bày mÎt sË bàn lu™n liên quan tÓi k∏t qu£ th¸c nghiªm cıa ph˜Ïng pháp ∑ xußt cÙng nh˜ ph¶n k∏t ch˜Ïng.

4.1 Môi tr˜Ìng và các công cˆ cài ∞t

Một phần của tài liệu Trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến (Trang 36)