Xây d¸ng mô hình phân lÓp

Một phần của tài liệu Trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến (Trang 35)

BÎ phân lÓp có nhiªm vˆ phát hiªn mÎt bài báo có ch˘a s¸ kiªn d‡ch bªnh hay không. BÎphân lÓp s≥ phân lo§i v´n b£n vào hai lÓp: ch˘a s¸kiªn d‡ch bªnh (nhãn là EVENT) và không ch˘a s¸ kiªn (NOT_EVENT). Quá trình kh£o sát chø ra r¨ng tiêu ∑ và ph¶n tóm t≠t có ı thông tin ∫ bi∫u diπn nÎi dung cıa bài báo. Do v™y, các thông tin này ˜Òc s˚dˆng ∫ t§o vector ∞c tr˜ng bi∫u diπn v´n b£n. Tác gi£ xây d¸ng mÎt t™p d˙ liªu hußn luyªn và dùng t™p d˙ liªu hußn luyªn này

∫ xác ‡nh nh˙ng v´n b£n ch˘a s¸ kiªn. Các ∞c tr˜ng ˜Òc s˚ dˆng trong quá trình hußn luyªn là 2-grams, 3-grams, và 4-grams. TÍng sË ∞c tr˜ng ˜Òc s˚dˆng là 4.552.

Trong quá trình hußn luyªn, tác gi£ s˚ dˆng mô hình Maximum Entropy4. Maximum Entropy (ME) [4, 33, 34, 22] là mÎt mô hình d¸a trên xác sußt có i∑u kiªn cho phép tích hÒp s¸ a d§ng cıa các ∞c tr˜ng t¯ t™p d˙ liªu hußn luyªn cho bài toán phân lÓp. fi t˜ng cıa ME là mô hình ph£i xác inh mÎt phân phËi

∑u tho£mãn các ràng buÎc t¯t™p d˙liªu hußn luyªn mà không thêm bßt k˝mÎt gi£ ‡nh nào. i∑u này có nghæa s¸ phân bË cıa mô hình ph£i tho£ mãn các ràng buÎc cıa d˙liªu quan sát và càng g¶n vÓi phân bË ∑u càng tËt. Tác gi£chÂn ME vì: (1) d˙ liªu trong quá trình hußn luyªn là v´n b£n, do v™y, khi bi∫u diπn d˜Ói d§ng vector ∞c tr˜ng thì ây là d˙ liªu th˜a mà ME tËt khi d˙ liªu ˜Òc bi∫u diπn d˜Ói d§ng th˜a; (2) tËc Îhußn luyªn cıa ME khá tËt so vÓi các thu™t toán mà tác gi£ ˜Òc bi∏t (SVM) và th¸c nghiªm ã ch˘ng minh ph˜Ïng pháp cho k∏t qu£ tËt vÓi d˙ liªu v´n b£n; (3) có th∫ tu˝ bi∏n mã nguÁn cıa ME do ây là mã nguÁn m.

Sau quá trình hußn luyªn, toàn bÎ d˙ liªu ã qua bÎ lÂc s≥ ˜Òc ˜a vào mô hình. T§i ây, nh˙ng v´n b£n có nhãn EVENT s≥ là ¶u vào cho quá trình trích chÂn; ng˜Òc l§i, mô hình s≥ b‰ qua nh˙ng v´n b£n có nhãn là NOT_EVENT.

Một phần của tài liệu Trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến (Trang 35)

Tải bản đầy đủ (PDF)

(61 trang)