Xây d¸ng t™p lu™t

Một phần của tài liệu Trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến (Trang 33)

Nh˜tác gi£ ã ∑ c™p trên, pha phát hiªn s¸kiªn gÁm hai ch˘c n´ng: mÎt bÎ

lÂc d˙ liªu và mÎt bÎ phân lÓp. BÎ lÂc d˙ liªu s˚ dˆng các lu™t ∫ gi£m sË l˜Òng các bài báo cho bÎphân lÓp phía sau. Qua quá trình kh£o sát d˙liªu, tác gi£nh™n thßy thông th˜Ìng tiêu ∑ cıa mÎt bài báo có th∫ nói lên h¶u h∏t nÎi dung cıa bài báo ó. i∑u này có nghæa, n∏u tiêu ∑ cıa bài báo nói v∑ d‡ch bªnh, thì kh£

n´ng lÓn bài báo nói v∑ d‡ch bªnh; và ng˜Òc l§i. Do dó, tác gi£ quy∏t ‡nh chø s˚

dˆng tiêu ∑ bài báo thay vì toàn bÎ nÎi dung cıa bài báo cho ch˘c n´ng lÂc d˙

liªu.

Ho§t Îng cıa bÎlÂc d˙liªu có th∫ mô t£nh˜sau: (1) tác gi£ s≥ xây d¸ng mÎt t™p lu™t d¸a vào quá trình kh£o sát d˙ liªu, các lu™t này ch˘a các t¯ khoá liên quan tÓi mi∑n d˙liªu d‡ch bªnh; (2) bÎlÂc d˙liªu s≥ dùng các lu™t này và so khÓp vÓi tiêu ∑ cıa các bài báo, n∏u tiêu ∑ ch˘a các lu™t thì i∑u ó có nghæa bài báo

ó thuÎc mi∑n d˙ liªu d‡ch bªnh, ng˜Òc l§i thì không thuÎc.

T™p lu™t yêu c¶u mÎt t™p các t¯ ho∞c các cˆm t¯ liên quan tÓi mi∑n d˙ liªu d‡ch bªnh. ∫ lßy t™p này, tác gi£ ã ti∏n hành thËng kê trên mÎt t™p d˙ liªu lÓp các bài báo cıa chuyên mˆc "S˘c kho¥"1 cıa website Báo MÓi2. Tác gi£ chÂnBáo MÓi vì trang web này t¸ Îng tÍng hÒp bài vi∏t t¯các trang web khác, do v™y nó

£m b£o tính a d§ng cıa t¯ khoá.

Sau quá trình thËng kê, tác gi£ thu ˜Òc 34 t¯ khoá (hay còn gÂi là t™p các t¯

th˜Ìng xuyên - frequent-words set). Các t¯ ˜Òc s≠p x∏p theo th˘ t¸ gi£m d¶n 1http://www.baomoi.com/Home/SucKhoe.epi

theo sË bài vi∏t nó xußt hiªn (hi∫n nhiên  ây không tính ∏n các t¯ d¯ng - stop words). MÎt sË t¯ và cˆm t¯ ˜Òc minh ho§ trong b£ng 3.1, vÓi cÎt th˘ ba là sË

l˜Òng các bài báo mà t¯  cÎt sË hai xußt hiªn. K∏t qu£cıa quá trình kh£o sát và

B£ng 3.1: Danh sách các t¯/cˆm t¯ th˜Ìng xuyênSTT T¯/cˆm t¯ SË bài báo STT T¯/cˆm t¯ SË bài báo 1 Nhiπm 10005 2 D‡ch 10000 3 D˜Ïng tính 5269 4 Lây lan 4133 5 Bùng phát 4039 6 Tái phát 2514 7  bªnh 2340 8  d‡ch 1900 9 D‡ch t£ 1853 10 Kh˚trùng 1143

thËng kê cho thßy h¶u h∏t các bài báo ch˘a các t¯trong t™p t¯ th˜Ìng xuyên ∑u liên quan tÓi s¸ kiªn d‡ch bªnh. Do v™y, ˛ t˜ng cıa các gi£ là xây d¸ng t™p các lu™t b¨ng cách k∏t hÒp các t¯/cˆm t¯ trong t™p t¯ th˜Ìng xuyên. ∫ th¸c hiªn viªc t§o ra các lu™t, tác gi£ ∑ xußt hai m®u có tên là M®u 1 và M®u 2. Các m®u này ˜Òc minh ho§ trong công th˘c (3.2) và (3.3).

M®u 1= danh t¯ # Îng t¯ (3.2) vÓi: các danh t¯ và Îng t¯ ˜Òc lßy trong t™p t¯ th˜Ìng xuyên.

Ví dˆ 1: minh ho§ th∫ hiªn cıa M®u 1: • bªnh nhân t˚ vong # nhiπm

• d‡ch t£ # bùng phát

M®u 2= tên bªnh # Îng t¯ (3.3) vÓi:

• tên bªnh ˜Òc lßy t¯ BioCaster Ontology [9] và thông báo cıa BÎ Y t∏ Viªt Nam này 24 tháng 06 n´m 20113.

• Îng t¯ lßy t¯ t™p t¯ th˜Ìng xuyên.

Ví dˆ 2: minh ho§ các th∫ hiªn cıaM®u 2: • tiêu ch£y cßp # nhiπm

• tiêu ch£y cßp # phát hiªn • tiêu ch£y cßp # lây lan 3http://www.moh.gov.vn/

CH◊ÃNG 3. MÔ HÌNH óXUáT 24

• tiêu ch£y cßp # bùng phát • tiêu ch£y cßp # ch∏t (t˚ vong) • tiêu ch£y cßp # d˜Ïng tính

C£ hai m®u ∑u có hai thành ph¶n ˜Òc ng´n cách vÓi nhau bi dßu #. Tác gi£

s˚dˆng 52 danh t¯/cˆm danh t¯ và 10 Îng t¯/cˆm Îng t¯ ∫ xây d¸ng M®u 1. Nh˙ng Îng t¯ và danh t¯ này ˜Òc lßy t¯ t™p t¯ th˜Ìng xuyên. T˜Ïng t¸ nh˜

v™y, tác gi£ s˚ dˆng 186 tên bªnh và 6 Îng t¯/cˆm Îng t¯ ∫ xây d¸ng M®u 2. MÎt sË Îng t¯/cˆm Îng t¯ trong M®u 1 và M®u 2 giËng nhau.

Sau khi xây d¸ng t™p lu™t, tác gi£thu ˜Òc 229 lu™t cıa M®u 1 vàM®u 2. T™p lu™t này ˜Òc s˚ dˆng ∫ lÂc d˙liªu cho bÎ phân lÓp phía sau.

Một phần của tài liệu Trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến (Trang 33)

Tải bản đầy đủ (PDF)

(61 trang)