BÎ phân lÓp có nhiªm vˆ phát hiªn mÎt bài báo có ch˘a s¸ kiªn d‡ch bªnh hay không. BÎphân lÓp s≥ phân lo§i v´n b£n vào hai lÓp: ch˘a s¸kiªn d‡ch bªnh (nhãn là EVENT) và không ch˘a s¸ kiªn (NOT_EVENT). Quá trình kh£o sát chø ra r¨ng tiêu ∑ và ph¶n tóm t≠t có ı thông tin ∫ bi∫u diπn nÎi dung cıa bài báo. Do v™y, các thông tin này ˜Òc s˚dˆng ∫ t§o vector ∞c tr˜ng bi∫u diπn v´n b£n. Tác gi£ xây d¸ng mÎt t™p d˙ liªu hußn luyªn và dùng t™p d˙ liªu hußn luyªn này
∫ xác ‡nh nh˙ng v´n b£n ch˘a s¸ kiªn. Các ∞c tr˜ng ˜Òc s˚ dˆng trong quá trình hußn luyªn là 2-grams, 3-grams, và 4-grams. TÍng sË ∞c tr˜ng ˜Òc s˚dˆng là 4.552.
Trong quá trình hußn luyªn, tác gi£ s˚ dˆng mô hình Maximum Entropy4. Maximum Entropy (ME) [4, 33, 34, 22] là mÎt mô hình d¸a trên xác sußt có i∑u kiªn cho phép tích hÒp s¸ a d§ng cıa các ∞c tr˜ng t¯ t™p d˙ liªu hußn luyªn cho bài toán phân lÓp. fi t˜ng cıa ME là mô hình ph£i xác inh mÎt phân phËi
∑u tho£mãn các ràng buÎc t¯t™p d˙liªu hußn luyªn mà không thêm bßt k˝mÎt gi£ ‡nh nào. i∑u này có nghæa s¸ phân bË cıa mô hình ph£i tho£ mãn các ràng buÎc cıa d˙liªu quan sát và càng g¶n vÓi phân bË ∑u càng tËt. Tác gi£chÂn ME vì: (1) d˙ liªu trong quá trình hußn luyªn là v´n b£n, do v™y, khi bi∫u diπn d˜Ói d§ng vector ∞c tr˜ng thì ây là d˙ liªu th˜a mà ME tËt khi d˙ liªu ˜Òc bi∫u diπn d˜Ói d§ng th˜a; (2) tËc Îhußn luyªn cıa ME khá tËt so vÓi các thu™t toán mà tác gi£ ˜Òc bi∏t (SVM) và th¸c nghiªm ã ch˘ng minh ph˜Ïng pháp cho k∏t qu£ tËt vÓi d˙ liªu v´n b£n; (3) có th∫ tu˝ bi∏n mã nguÁn cıa ME do ây là mã nguÁn m.
Sau quá trình hußn luyªn, toàn bÎ d˙ liªu ã qua bÎ lÂc s≥ ˜Òc ˜a vào mô hình. T§i ây, nh˙ng v´n b£n có nhãn EVENT s≥ là ¶u vào cho quá trình trích chÂn; ng˜Òc l§i, mô hình s≥ b‰ qua nh˙ng v´n b£n có nhãn là NOT_EVENT.