- Ch丑n ng磯u nhiên K tâm (centroid) cho K c映m (cluster). M厩i c映o"8逢嬰e"8衣i di羽n b茨ng tâm c栄a c映m.
- Tính kho違ng cách gi英c"eƒe"8嘘k"v逢嬰pi"*qdlgevư"8院p"M"v¤o"*vj逢運ng dùng kho違ng cách Euclid)
- Pj„o"eƒe"8嘘k"v逢嬰ng vào nhóm g亥n nh医t - Zƒe"8鵜nh l衣i tâm m噂i cho các nhóm
- Th詠c hi羽n l衣k"d逢噂e"4"ejq"8院n khi không có s詠vjc{"8鰻i nhóm nào c栄a các
E„"P"8k吋m d英 li羽u trong t壱p training 8逢嬰c ghép l衣i thành 隙 噺 岷捲怠 捲態 捲朝峅 樺 "温鳥抜朝 và 計 隼 軽 là s嘘enwuvgt"8逢嬰e"zƒe"8鵜pj"vt逢噂c. Vi羽c c亥n làm là tìm các centroid
兼怠 兼態 兼懲 樺 " 温鳥抜怠 và label c栄a m厩k"8k吋m d英 li羽ụ K-ogcpu"enwuvgtkpi"dcp"8亥u không có label c映 th吋, nhi羽m v映n "8k"v·o"ncdgn"e栄c"ej¿pi"ucq"ejq"eƒe"8k吋m có cùng label n茨m g亥n nhau, t衣o thành m瓜t cluster.
V噂i m厩k"8k吋m d英 li羽u 捲沈, c亥n tìm label 検沈 噺 倦 c栄a nó, 荏8¤{"倦" 樺 岶な に 計岼. M瓜t k悦 thu壱v"vj逢運pi"8逢嬰e"f́pi"8吋 bi吋u di宇n label này có tên là one Î hot coding. M厩i label 倦8逢嬰c thay th院 b茨ng m瓜t vector hàng 検沈 樺 温怠抜懲Î8逢嬰c g丑i là label vector,
vtqpi"8„"v医t c違 các ph亥n t穎 c栄a 検沈 b茨ng 0, ngo衣i tr瑛 ph亥n t穎荏 v鵜 trí th泳 k b茨ng 1. C映
th吋, 検沈珍 噺 ど 褐倹 塙 倦 検沈珍 噺 な. Khi ch欝ng các vector 検沈 lên nhau t衣o thành m瓜t ma tr壱n label 桁 樺 温朝抜懲 và ph亥n t穎検沈珍 là ph亥n t穎 hàng th泳件, c瓜t th泳倹 c栄a ma tr壱p"[."x "8欝ng th運k"e pi"n "rj亥n t穎 th泳倹 c栄a vector 検沈 [39].
Lu壱p" x<p" ej栄 y院w" 8ƒpj" ikƒ" mj違 p<pi" rj¤p" e映m c栄a thu壱t toán K-means clustering và so sánh v噂i k院t qu違 lu壱p"x<p"8衣i h丑c nh茨m nh医n m衣nh lý do ch丑n các thu壱t toán H丑c có giám sát (Supervised Learning) thay vì H丑c không giám sát
(Unsupervised Learning). Vì th院e挨"u荏 toán h丑c c栄a thu壱t toán có th吋 tham kh違o t衣i lu壱p"x<p"8衣i h丑chay tham kh違o thêm 荏 tài li羽u [39].
3.3.7 Rj¤p"nq衣k"ikck"8q衣p"ik医e"pi栄 d茨pivjw壱v"vqán Support Vector Machine (SVM).
Support Vector Machine (SVM) là m瓜v"rj逢挨pi"rjƒr"rj¤p"nq衣i hi羽p"8衣k"8逢嬰c gi噂i thi羽w"x q"p<o"3;;4"d荏i Boser, Guyon và Vapnik d詠a trên các lý thuy院t trong
n pj"x詠c Learning Machine [33]. Trong th詠c t院."UXO"8«"8逢嬰c s穎 d映ng thành công
vt‒p"dc"n pj"x詠c chính: phân lo衣k"x<p"d違n, nh壱n d衣ng hình 違nh và tin y sinh.
Rj逢挨pi"rjƒr"rj¤p"nq衣i b茨pi"UXO"8逢嬰c s穎 d映ng r瓜ng rãi trong tin sinh h丑c b荏k"8瓜 chính xác cao, kh違p<pi"z穎 lý d英 li羽w"e„"m ej"vj逢噂c l噂n và s詠 linh ho衣t trong vi羽c mô hình hóa các ngu欝n d英 li羽w"8c"f衣ng. Khi ti院p c壱n SVM, ta c亥n xác 8鵜nh rõ
t pi"jck"d逢噂c: training và testing. Thu壱t toán này phân tách b瓜 d英 li羽u testing d詠a trên b瓜 d英 li羽u training và các thông s嘘8逢嬰c thi院t l壱r"dcp"8亥w"vt逢噂e"8„0"
SVM thu亥n túy tìm hyperplane t嘘k"逢w"ik英a hai l噂p d英 li羽u d詠a trên tiêu chí ch丑n biên l噂n nh医t. Có th吋 có nhi隠u hyperplane khác nhau nên thu壱t toán SVM ph違i tìm ra ranh gi噂i phân chia t嘘t nh医t trong s嘘 8„" 8吋 phân tách mi隠n d英 li羽ụ M厩i hyperrncpg"*Jk+"8逢嬰c k院t h嬰p v噂i m瓜t c員p hyperplane h厩 tr嬰 (hi1 và hi2) song song v噂i nó. C員p hyperplane h厩 tr嬰 p {"8k"swc"8k吋m d英 li羽u g亥n nh医t, thu瓜c hai phía c栄a Hị Kho違ng cách gi英c"Jk"x "jk"8逢嬰c g丑i là l隠 (ho員e"8逢嬰c g丑i là biên) [33].
Eƒe" 8k吋m n茨m trên ph鰯pi" jk3" jc{" jk4" 8逢嬰c g丑i là Vector h厩 tr嬰 (Support Vector). Ch雨 nh英pi"8k吋m p {"8逢嬰c s穎 d映pi"8吋 l医y các tham s嘘 ranh gi噂i quy院v"8鵜nh. Vi羽c phân lo衣i các m磯u testing d詠c"vt‒p"eƒe"8k吋o"p {"x·"p„"8„pi"xck"vt”"sw{院v"8鵜nh các tr丑ng s嘘 xây d詠pi"8逢運ng phân chiạ
Có hai lo衣i SVM, m瓜t là SVM tuy院p"v pj."p„"rj¤p"vƒej"eƒe"8k吋m d英 li羽u b茨ng ranh gi噂i quy院v"8鵜nh tuy院n tính và hai là SVM phi tuy院p"v pj."p„"rj¤p"vƒej"eƒe"8k吋m d英 li羽u b茨ng ranh gi噂i quy院v"8鵜nh phi tuy院n tính. SVM x医p x雨 các hàm phi tuy院n d詠a vào các hàm tuy院n tính trong không gian tuy院n tính.
Khi ti院p c壱p"rj逢挨pi"rjƒr"rj¤p"ejkc"phi tuy院n tính, khái ni羽m v隠 m瓜t hi羽n
v逢嬰ng không mong mu嘘p"vj逢運ng g員p là Underfitting và Overfitting. Overfitting là hi羽p"v逢嬰pi"o»"j·pj"v·o"8逢嬰c quá kh噂p v噂i d英 li羽w"vtckpkpi"x "pi逢嬰c l衣i, underfitting l衣k"mj»pi"8栄 kh噂p v噂i d英 li羽u training. Vi羽c này có th吋 d磯p"8院n vi羽c d詠 8qƒp"pj亥m nhi宇u, và ch医v"n逢嬰ng mô hình không còn t嘘t trên d英 li羽u test n英ạ Overfitting x違y ra khi mô hình quá ph泳c t衣r"8吋 mô ph臼pi"vtckpkpi"fcvc"x "mjk"n逢嬰ng d英 li羽u training quá nh臼 vtqpi"mjk"8瓜 ph泳c t衣p c栄a mô hình quá caọ D英 liê映 testing 8逢嬰c gi違 s穎 là
mj»pi"8逢嬰c bi院v"vt逢噂e"x "mj»pi"8逢嬰c s穎 d映pi"8吋 xây d詠ng trong l噂p training d英 li羽ụ Hi羽p"v逢嬰ng này c亥p"n逢w"#"mjk"n詠a ch丑n d衣pi"8逢運ng ranh gi噂k"8吋 8衣t k院t qu違 testing
pj逢"oqpi"ow嘘n.
3.3.7.1 SVM tuy院n tính [33].
Hi吋w"vjgq"eƒej"8挨p"ik違n, m瓜t t壱r"vtcpkpi"n "8欝 th鵜 mà d英 li羽w"n "eƒe"8k吋m trong không gian n chi隠u (n là s嘘n逢嬰pi"eƒe"8員e"v pj"sw{"8鵜nh) v噂i các giá tr鵜 phân l噂p khác
pjcw0"Ucw"8„."vc th詠c hi羽p"v·o"8逢運ng phân chia các l噂p, 8逢嬰c minh h丑c"pj逢"vtqpi"
hình 3.13. T壱p hu医n luy羽n S g欝o"p"8k吋m: 5" 噺 " 岶岫®怠 怠岻 岫®態 態岻 岫®戴 戴岻 岫"®樽 樽岻岼"岫: 茅 ;岻津 (3.20) 57 Hình 3.13<"A⇔ぜpi"rj¤p"ejkc"fの"nkうw"vTk"eƒe"vt⇔ぜpi"jぢr"mj»pi"oqpi"owぐp" kjk"uぬ"fつpi"UXO"rjk"vw{xp"v pj0 <"Jck"8⇔ぜ lpi"8k"swc"xgevq"jざ ぢ 8ƒpj"fX ず 検 半 罰"な <"A⇔ぜpi"rj¤p"ejkc"fの"nkうw"vTk"eƒe"vt⇔ぜpi"jぢ owぐp"mjk"uぬ"fつpi"UXO"rjk"vw{xp"v pj" <"Jck"8⇔ぜ lpi"8k"swc"xgevq"jざ ぢ 8ƒpj"fX ず 検 半 罰"な <"Okpj"jがc"ejq"zƒe"vjばe"ejfiq"M <"Jck"8⇔ぜ lpi"8k"swc"xgevq"jざ ぢ 8ƒpj"fX ず 検 半 罰"な A⇔ぜpi"rj¤p"ejkc"fの"nkうw"vTk"eƒe"vt⇔ぜpi"jぢr"mj»pi"oqpi"owぐp mjk"uぬ"fつpi" UXO"rjk"vw{xp"v pj"
Xgev挨"8亥u vào n chi隠u ®辿 樺 Rn, な 判 Æ 判 º thu瓜c l噂p I ho員c l噂p II ( 辿 噺 な"8嘘i v噂i l噂p I và 検沈 噺 伐な8嘘i v噂i l噂p II).
Vi羽c tìm tc"eƒe"8逢運pi"rj¤p"ejkc"8吋 l隠 l噂n nh医v"n "8員e"vt逢pi"e栄a b瓜 phân lo衣i SVM. Khi d英 li羽w"8逢嬰c phân chia tuy院n tính, m映e"vk‒w"n "v·o"8逢嬰c hyper-plane mà l隠
M l噂n nh医t, tuân theo ràng bu瓜c r茨ng t医t c違eƒe"8k吋m d英 li羽u n茨m 荏 phía thích h嬰p c栄c"8逢運ng ranh gi噂ị Trong phân tích SVM, các l噂r"8逢嬰c gi違 8鵜nh là 罰 1."mjk"8„" 8逢運ng ranh gi噂i là 検 噺 ど: 噺 布 拳沈捲沈髪 決 噺 朝 沈退怠 ¬捲沈 髪 ̈ 噺 ど (3.21) Vtqpi"8„: w là vecto tr丑ng s嘘 d"n "8瓜 l羽ch c栄a f(x) so v噂i g嘘c t丑c"8瓜vjgq"rj逢挨pi"y Hai l噂p d英 li羽w"8逢嬰c gi違 8鵜nh b荏i 検 噺 罰な, giá tr鵜 c栄a 検 ph違i là 罰1 t衣k"8k吋m g亥n nh医t (t泳c là các vecto h厩 tr嬰) theo hình 3.14. Vì th院 công th泳c c栄c"8逢運pi"8k"swc"
nh英pi"8k吋m vecto h厩 tr嬰 là:
¬®辿髪 ̈ 半 な"Ł̶Æ" 噺 髪な
¬®辿髪 ̈ 判 な"Ł̶Æ" 噺 伐な (3.22)
66 Hình 3.14<"Jck"8⇔ぜng thlpi"8k"swc"xgevq"jざ trぢ8ƒpj"fXu ranh giずi cho 検 半 罰"な
<"Okpj"jがc"ejq"zƒe"vjばe"ejfiq"M <"Jck"8⇔ぜ lpi"8k"swc" ざ ぢ 8ƒpj"fX ず 検 半 罰"な
Công th泳c này có th吋8逢嬰c g瓜p thành m瓜t công th泳c chung (3.23). Công th泳c
p {"8逢c"tc giá tr鵜¬"và ̈ phù h嬰r"8吋 hai l噂p n茨m v隠 phía thích h嬰p c栄c"8逢運pi"8k"swc"
vecto h厩 tr嬰.
辿岫¬®辿 髪 ̈岻 半 な (3.23)
A吋 tính toán công th泳c cho l隠Ọ"n逢w"#"t茨ng kho違ng cách t瑛 b医t kì hyperplane nào ¬®辿髪 ̈ 噺 ど 8院p" 8k吋m g嘘c là 伐̈ 押¬押 vtqpi" 8„" 押¬押 噺 紐¬怠態髪¬態態髪¬戴態髪 橋 髪 ¬津態 hay ký hi羽u ma tr壱n là ヂ¬鐸拳. N院w"j{rgtrncpg"8衣t giá tr鵜 là 罰な, thì kho違ng cách t瑛8k吋m g嘘c là 岫罰な 伐 ̈岻 "押¬押0"A嘘i v噂k"8逢運ng phân chia l噂p 1 ( 辿 半 な), kho違pi"eƒej"8院p"8k吋m g嘘c là:
¸ 噺岫な 伐 ̈岻押¬押 (3.24)
x "8逢運ng phân chia cho l噂p -1 ( 辿 判 伐な), kho違pi"eƒej"8院p"8k吋m g嘘c là:
¸ 噺岫伐な 伐 ̈岻押¬押 (3.25)
Kho違ng cách gi英a hai hyper-rncpg"*f+"vjw"8逢嬰c b茨ng:
/ 噺岫な 伐 ̈岻押¬押 伐
岫伐な 伐 ̈岻 押¬押 噺
に
押¬押 (3.26)
M映c tiêu c栄a thu壱t toán SVM là t嘘k"8c"j„c giá tr鵜 c栄a l隠 M."v逢挨pi"8逢挨pi"x噂i t嘘i thi吋u hóa giá tr鵜 c栄a 押¬押 噺 ヂ¬鐸拳 . Lo衣i bài toán t嘘i thi吋w"j„c"pj逢"x壱{"8逢嬰c g丑i là bài toán t嘘k"逢w"j„c"n壱p trình b壱c haị
3.3.7.2 SVM phi tuy院n tính [33].
Vtqpi"vt逢運ng h嬰p hai mi隠n d英 li羽u không có s詠 phân tách rõ ràng, khu v詠c ti院p xúc c栄a hai mi隠n có nhi隠w"8k吋m c栄a hai phân l噂p ch欝pi"n‒p"pjcw."rj逢挨pi"rjƒr"
ch医p nh壱n phân lo衣i sai m瓜t s嘘 m磯w"vtckpkpi"8吋 có ranh gi噂i quy院v"8鵜nh v噂i l隠 t嘘k"8c" 8逢嬰e"8隠 xu医t. M瓜v"8逢運ng phân chia không có l厩k"pj逢pi"dk‒p"pj臼j挨p"e„"vj吋 d磯p"8院n overfitting và không th吋 phân lo衣i m磯w"ej逢c"dk院t m瓜v"eƒej"ej pj"zƒe0"Pi逢嬰c l衣i, ranh gi噂i quy院v"8鵜nh v噂i ít l厩i training v噂i biên l噂p"j挨p"e„"vj吋 phân lo衣i các m磯u không
lo衣ị Ranh gi噂i quy院v"8鵜pj"vjw"8逢嬰c sau khi cân b茨pi"8逢嬰c g丑i là l隠 m隠m. Các ràng bu瓜c cho v医p"8隠 t嘘k"逢w"j„c"x磯p"8逢嬰e"8違m b違q"pj逢pi"e亥n b鰻 sung các bi院p"uncem"* +." 8員e"vt逢pi"ejq"8瓜 sai l羽ch. Các bi院p"uncem"p {"v逢挨pi"泳ng v噂i l厩i trong ranh gi噂i quy院t
8鵜nh. Hàm m映c tiêu cho v医p"8隠 t嘘k"逢w"j„c"u胤 là t嘘i thi吋u hàm sau:
な に押¬押態髪 % 蕃布 辿 樽 怠 否 谷 (3.27)
Vtqpi"8„"% là c壱n trên c栄a l厩i phân lo衣i và Ł8逢嬰c ch雨8鵜nh b荏k"pi逢運i dùng và có th吋vjc{"8鰻i tùy thu瓜c vào t壱p d英 li羽ụ Các ràng bu瓜c cho v医p"8隠 t嘘k"逢w"j„c"u胤 là
8k隠u ki羽n:
褐"な 判 件 判 券
辿 岫¬®辿 伐 ̈岻 半 な 伐 行沈 º忱"検沈 噺 な
辿 岫¬®辿 伐 ̈岻 半 伐な 髪 行沈 º忱"検沈 噺 伐な
(3.28)
V医p"8隠 bên c衣nh hi羽p"v逢嬰ng overfitting c栄a các t壱p training có mi隠n phân tách không tuy院n tính là vector tr丑ng s嘘 ¬ là m瓜t hàm phi tuy院n. D磯p"8院n vi羽c x穎 lý tín hi羽u ph泳c t衣r"x "8”k"j臼i nhi隠u b瓜 nh噂e pi"pj逢"vj運i gian th詠c thi các thu壱t toán nhi隠u
j挨p0"X·"x壱y c亥n chuy吋n b瓜 d英 li羽u phi tuy院n thành tuy院n tính thông qua không gian khác mà t衣k"8„"f英 li羽u là tuy院n tính. Thu瓜c tính ® vtqpi"rj逢挨pi"vt·pj"8亥w"8逢嬰c thay th院 b茨ng 叶岫®岻, hàm phân chia ranh gi噂i hai l噂r"8逢嬰e"zƒe"8鵜nh b茨ng:
̨岫®岻 噺 ¬ 茅 叶岫®岻 伐 ̈ (3.29) V ej"x»"j逢噂ng c栄a 叶岫®辿岻 và 叶盤®棚匪 8逢嬰c g丑i là Kgtpgn"x "8逢嬰e"zƒe"8鵜nh b荏i )盤®辿 ®棚匪: Gausian (RBF): )盤®辿 ®棚匪 噺 ̋®ı岫伐舗®辿 伐"®棚舗態岻 Linear: )盤®辿 ®棚匪 噺 ®辿嫗 ®棚 Polynomial : )盤®辿 ®棚匪 噺 岫®辿嫗 ®棚 髪 な岻丹, v噂i ı là b壱c c栄c"8c"vj泳c
3.3.8 Pj逢挨pi"rjƒr"8ƒpj"ikƒ"rj¤p"nq衣k"pjk隠w"n噂r.
Lu壱p"x<p"8員t ra bài toán phân lo衣i trên 3 l噂p d英 li羽u là W, N1+N2+R và N3. Nghiên c泳u [40] 8隠 xu医t 3 cách ti院p c壱p"vj»pi"vj逢運pi"8嘘i v噂i bài toán phân lo衣i nhi隠u l噂p (multiclass encuukhkecvkqp"rtqdngơ"8„ là:
‚ Chuy吋n v隠 phân lo衣i 2 l噂p (transformation to binary) - Rj逢挨pi"rjƒr"Ðqpg-vs-cnnÑ
- Rj逢挨pi"rjƒr"Ðqpg-vs-qpgÑ
‚ M荏 r瓜ng phân lo衣i 2 l噂p (extension from binary) - Neural network
- K-nearest Neighbors - Naive Bayes
- Decision trees
- Linear Discriminant Analysis
‚ Phân lo衣i phân t亥ng (hierarchical classification)
Tóm l衣i, lu壱p"x<p"u胤 th詠c hi羽n phân lo衣i 3 l噂r"vjgq"rj逢挨pi"rjƒr"Ðqpg-vs-cnnÑ"
b茨ng thu壱t toán SVM tjgq"5"vk‒w"ej "8ƒpj"ikƒ"pj逢"ucw<"zƒe"vj詠c chéo 10-hqnf."Ðuwdlgev" fgrgpfgpvÑ"x "Ðuwdlgev"kpfgrgpfgpvÑ0
3.3.8.1 Lý thuy院t xác th詠c chéo (cross validation).
Xác th詠c chéo là k悦 thu壱v"8ƒpj"ikƒ"eƒe"o»"j·pj"vtqpi"j丑c máy b茨ng cách hu医n luy羽n nhi隠u mô hình c栄a t壱p h嬰p con c栄a d英 li羽w"8亥w"x q"x "8ƒpj"ikƒ"ej¿pi"vt‒p"o瓜t t壱p h嬰p con khác. Xác th詠c chéo K-fold, d英 li羽w"8亥u v q"8逢嬰c chia ra thành K t壱p h嬰p con, k悦 thu壱t s胤 s穎 d映ng (K-1) t壱r"eqp"8吋 ti院n hành hu医n luy羽n (training) và 1 t壱p con còn l衣k"8吋8ƒpj"ikƒ"o»"j·pj *vguvkpi+0"Swƒ"vt·pj"p {"8逢嬰c l員p K l亥n v噂i các t壱p h嬰r"eqp"8逢嬰c thay phiên nhaụ
Hình 3.15 là m瓜t ví d映 c栄a xác th詠c chéo K-fold (K = 10). D英 li羽w"dcp"8亥u
8逢嬰c chia làm 10 t壱r"eqp."vtqpi"8„"; t壱r"eqp"8吋 hu医n luy羽n (ô xanh-training set) và 1 t壱r"eqp"8吋8ƒpj"ikƒ"*»"x pi"Î validation set). T鰻ng c瓜ng có 10 vt逢運ng h嬰p t衣o thành 10 mô hình khác nhau 泳ng v噂i vi羽c thay phiên các t壱r"eqp."8違m b違o cho t医t c違 các d英
li羽w"8隠w"8逢嬰c hu医n luy羽p"x "8ƒpj"ikƒ0永ng v噂i m厩i mô hình s胤e„"8瓜 chính xác riêng,
ucw"8„"8瓜 chính xác t鰻pi"8逢嬰e"v pj"f逢噂i d衣ng giá tr鵜 trung bình c瓜ng tr瑛 8瓜 l羽ch chu育n.
3.3.8.2 Rj逢挨pi"rjƒr"phân lo衣i nhi隠u l噂p d詠a trên chi院p"n逢嬰c Ðqpg-vs-qpgÑ.
Rj逢挨pi"rjƒr"Ðqpg-vs-qpgÑ"vk院p c壱p"dcp"8亥u gi嘘pi"pj逢"xk羽c phân lo衣i t瑛ng 2 l噂p
8»k"o瓜v"pj逢vt‒p."vw{"pjk‒p"8亥u ra là m瓜t k院t qu違 duy nh医t (cho c違 3 l噂p W, N1+N2+R và N3). T鰻ng quát, khi có 倦 l噂p d英 li羽u khác nhau, s胤 xây d詠pi"8逢嬰c 賃岫賃貸怠岻
態 b瓜 phân lo衣i hai l噂p [41]0"A嘘i v噂i bài toán 3 l噂p trong rj逢挨pi"rjƒr"p {"vj·"ÐhgcvwtgavtckpÑ" 8逢嬰c chia làm 賃岫賃貸怠岻
態 噺戴抜岫戴貸怠岻態 噺 ぬ t壱p h嬰p nh臼 ch泳c"eƒe"xgevqt"8員e"vt逢pi"e栄c"8»k"
m瓜t trong 3 ikck"8q衣n gi医c ng栄 pj«p"v逢挨pi"泳pị"ucw"8„"8逢嬰e"8go"x q"d瓜 phân lo衣i SVM 8吋 vjw"8逢嬰e"dc"o»"j·pj"C."D."E"8吋 c違 ba mô hình này s胤 d詠 8qƒp"pj«p"e栄a
ÐhgcvwtgavguvÑ cùng lúc. M ej"vj逢噂c c栄a b瓜 phân lo衣i t衣o b荏k"rj逢挨pi"rjƒr"Ðqpg-vs-
qpgÑ l噂p"j挨p"uq"x噂k"rj逢挨pi"rjƒr"Ðqpg-vs-allÑ. Tuy nhiên."m ej"vj逢噂c c栄a quy ho衣ch
vq p"rj逢挨pi"*quadratic programming) trong m厩i b瓜 phân lo衣i nh臼j挨p."fq"8„"e„"vj吋
hu医n luy羽n nhanh. J挨p"p英c."rj逢挨pi"rjƒr"Ðqpg-vs-oneÑ8嘘i x泳pi"j挨p"uq"x噂k"rj逢挨pi" rjƒr"Ðqpg-vs-allÑ.
3.3.8.3 Rj逢挨pi"rjƒr"phân lo衣i nhi隠u l噂p d詠a trên chi院p"n逢嬰c Ðqpg-vs-cnnÑ.
Rj逢挨pi"rjƒr"Ðqpg-vs-cnnÑ"e„"e医u trúc g亥n gi嘘ng v噂k"rj逢挨pi"rjƒr"Ðqpg-vs-qpgÑ"
và ch雨 có 8k吋m khác 荏 ch厩 dán nhãn d英 li羽w"mjk"8go"x q"d瓜 phân lo衣ị T鰻ng quát, khi có 倦 l噂p d英 li羽u khác nhau, s胤 xây d詠ng 倦 b瓜 phân lo衣i hai l噂p, m厩i b瓜 dành cho m瓜t l噂p c映 th吋*8逢嬰c dán nhãn ÐrqukvkxgÑ+."x "fƒp"pj«p"ÐpgicvkxgÑ"ejq"v医t c違 các l噂p còn l衣ị Pj逢嬰e"8k吋m c栄c"rj逢挨pi"rjƒr"p {"n "v壱r"vtckpkpi"mj»pi"e¤p"8嘘ị Gi違 s穎 các l噂p
e„"épi"m ej"vj逢噂c c栄a t壱p training, t益 l羽ÐrqukvkxgÑ"x "ÐpgicvkxgÑ"vtqpi"o厩i b瓜 phân lo衣i là 怠
賃貸怠. Vtqpi"vt逢運ng h嬰r"p {."v pj"8嘘i x泳ng c栄c"d k"vqƒp"dcp"8亥u b鵜 m医t [41].
3.3.8.4 Rj逢挨pi"rjƒr8ƒpj"ikƒ"o»"j·pj theo t瑛pi"8嘘k"v逢嬰ng thí nghi羽m (subject dependent).
Khi phân chia t壱p training và t壱p testing m瓜t cách ng磯u nhiên trong quá trình xác th詠c chéo, c違 hai t壱p d英 li羽w"p {"8隠u có m磯w"v逢挨pi"泳ng v噂i m瓜v"8嘘k"v逢嬰ng ho員c c栄a nhi隠w"8嘘k"v逢嬰pi0"Fq"8„."mjk"d瓜 phân lo衣i c嘘 g逸ng d詠8qƒp"eƒe"n噂p d英 li羽u không nhìn th医y thì nó có th吋 nh壱n ra các m磯w"v逢挨pi"v詠 trong t壱p training. Vì v壱y, cách phân lo衣i
p {"8逢嬰c g丑i là phân lo衣i ph映 thu瓜c ch栄 th吋 (subject dependent). Pj逢嬰e"8k吋m c栄a
rj逢挨pi"rjƒr"p {"n "n医y d英 li羽u t瑛 m厩k"eƒ"pj¤p"vj逢運pi"mj»pi"8栄 8吋 thi院t k院 m瓜t mô hình t嘘t, vì sinh lý c栄a m厩k"eqp"pi逢運i r医v"mjƒe"pjcw0"Vw{"pjk‒p."8¤{"n衣i ph違n ánh t嘘t s詠 khác bi羽t sinh lý gi英a các ch栄 th吋 khác nhau [42].
Tóm l衣k."rj逢挨pi"rjƒr"p {"8逢嬰c th詠c hi羽p"pj逢"vtqpi"x”pi"n員p theo th泳 t詠 t瑛pi"8嘘i
v逢嬰ng c栄a b瓜 d英 li羽u 1:
- T壱p training: d英 li羽u t瑛8嘘k"v逢嬰ng th泳 n - T壱p testing: d英 li羽u t瑛8嘘k"v逢嬰ng th泳 n
3.3.8.5 Rj逢挨pi"rjƒr"8ƒpj"ikƒ"o»"j·pj8瓜c l壱p v噂k"8嘘k"v逢嬰ng thí nghi羽m (subject independent).
Pi逢嬰c l衣k."rj逢挨pi"rjƒp phân lo衣k"8瓜c l壱p ch栄 th吋 *uwdlgev"kpfgrgpfgpv+"8逢嬰c th詠c hi羽n b茨ng cách s穎 d映ng t壱p training c栄a (n-3+"8嘘k"v逢嬰ng và t壱p testing t瑛 d英 li羽u c栄c"8嘘k"v逢嬰ng còn l衣ị
Trong th詠c t院, m映c tiêu c栄c"eƒe"rj逢挨pi"rjƒr"rj¤p"nq衣i là thi院t k院 m瓜t mô hình chung t瑛 d英 li羽u t鰻ng h嬰p t瑛 nhi隠w"eƒ"pj¤p."ucw"8„"8逢嬰c cá nhân hóa cho t瑛ng cá nhân c映 th吋. V噂i m映e"8 ej"8„."d瓜 phân lo衣i có th吋 h丑c không ch雨 t瑛 d英 li羽u c栄a (n Î
1) 8嘘k"v逢嬰ng, mà còn t瑛 m瓜t ph亥n nh臼 d英 li羽u t瑛8嘘k"v逢嬰ng th泳p"x "8逢嬰c ki吋m tra trong ph亥n còn l衣ị Vt逢運ng h嬰p này l衣i có ph亥n gi嘘pi" rj逢挨pi" rjƒr" Ðuwdlgev" fgrgpfgpvÑ"d荏i eƒe"8員e"vt逢pi"mj»pi"8逢嬰c bi院v"vt逢噂c hoàn toàn v噂i b瓜 phân lo衣i [42].
Tóm l衣k."rj逢挨pi"rjƒr"p {"8逢嬰c th詠c hi羽p"pj逢"vtqpi"x”pi"n員p theo th泳 t詠 t瑛pi"8嘘i
v逢嬰ng c栄a b瓜 d英 li羽u 1:
- T壱p training: d英 li羽u t瑛 (n-3+"8嘘k"v逢嬰ng và 0% c栄a d英 li羽u t瑛8嘘k"v逢嬰ng th泳 n. - T壱p testing: 100% d英 li羽u t瑛8嘘k"v逢嬰ng th泳 n.
3.3.9 Eƒe"vj»pi"u嘘"8ƒpj"ikƒ"m院v"sw違rj¤p"nq衣k"e栄c"o»"j·pj"j丑e"oƒ{0
Ü Oc"vt壱p"pj亥o"n磯p"*Eqphwukqp"Ocvtkz+: là ma tr壱p"8逢嬰e"u穎"f映pi8吋"8ƒpj"ikƒ" m院v"sw違"e栄c"eƒe"d k"vqƒp"rj¤p"nq衣k [43]0"O瓜v"oc"vt壱p"pj亥o"n磯p"e„"f衣pi"pj逢"ucw<
X噂k<
Vtwg"rqukvkxg"*VR+<"U嘘"n逢嬰pi"o磯w"vjw瓜e"n噂r"Z"8逢嬰e"rj¤p"nq衣k"ej pj"zƒe"x q"n噂r"Z Hcnug"rqukvkxg"*HR+<"U嘘"n逢嬰pi"o磯w"mj»pi"vjw瓜e"n噂r"Z"d鵜"rj¤p"nq衣k"pj亥o"x q"n噂r"Z Vtwg"pgicvkxg"*VP+<"U嘘"n逢嬰pi"o磯w"mj»pi"vjw瓜e"n噂r"Z"8逢嬰e"rj¤p"nq衣k"ej pj"zƒe Hcnug"pgicvkxg"*HP+<"U嘘"n逢嬰pi"o磯w"vjw瓜e"n噂r"Z"d鵜"rj¤p"nq衣k"pj亥o
Ü A瓜"ej pj"zƒe"*Ceewtce{+<"V益"n羽"ej pj"zƒe"x "v益"n羽"o逸e"uck"n亥o"8逢嬰e"u穎"f映pi" pjk隠w"pj医v"vtqpi"eƒe"vjw壱v"vqƒp"rj¤p"nq衣k0"V益"n羽"ej pj"zƒe"*8瓜"ej pj"zƒe+"n "v益"n羽"ik英c" eƒe"o磯w"8逢嬰e"rj¤p"nq衣k"8¿pi"uq"x噂k"v鰻pi"u嘘"n逢嬰pi"o磯w [44]0"V益"n羽"o逸e"uck"n亥o"n "v益" n羽"ik英c"eƒe"o磯w"mj»pi"8逢嬰e"rj¤p"nq衣k"8¿pi"*okuencuukhkgf"ucorngư"uq"x噂k"v鰻pi"u嘘" n逢嬰pi"o磯w0A瓜"ej pj"zƒe"8逢嬰e"v pj"vjgq"e»pi"vj泳e (3.30):
Ceewtce{"?"VR"-"HP"-"VP"-"HRVR"-"VP (3.30)
Ü A瓜"pj衣{"*Ugpukvkxkv{"jc{"Tgecnn+<"V益"n羽"rj¤p"nq衣k"ej pj"zƒe"eƒe"o磯w"vjw瓜e" n噂r"Z"vt‒p"v鰻pi u嘘"eƒe"o磯w"8逢嬰e"rj¤p"nq衣k"vt‒p"n噂r"Z [44]0"A瓜 pj衣{"e pi n "v益"u嘘"
True Positive Rate (TPR) e栄c"o»"j·pj"rj¤p"nq衣k0"A瓜"pj衣{"8逢嬰e"v pj"vjgq"e»pi"vj泳e
(3.31):
Ugpukvkxkv{"*VRT+"?"VR"-"HPVR (3.31)
Ü A瓜"8員e"jk羽w"*Urgekhkekv{+<"V益"n羽"rj¤p"nq衣k"ej pj"zƒe"eƒe"o磯w"mj»pi"vjw瓜e"n噂r" Z"vt‒p"v鰻pi"u嘘"eƒe"o磯w"8逢嬰e"rj¤p"nq衣k"mj»pi"vjw瓜e"n噂r"Z0"A瓜"8員e jk羽w"e pi"ej pj" n "v益"u嘘"Vtwg"Pegative Rate (TNR) e栄c"o»"j·pj"rj¤p"nq衣k [44]0"A瓜"8員ejk羽w"8逢嬰e"v pj" vjgq"e»pi"vj泳e (3.32):
Urgekhkekv{"*VPT+"?"VP"-"HRVP (3.32)
Ü A瓜"ejw育p"zƒe"*Rtgekukqp+<jc{"8逢嬰e"i丑k"n "ikƒ"vt鵜"f詠"8qƒp"Rqukvkxg"*Rqukvkxg"
Prediction Value - RRX+."n "v益"u嘘"f詠"8qƒp"8¿pi"e栄c"Rqukvkxg"vt‒p"v医v"e違"eƒe"m院v"sw違"f詠" 8qƒp"n "Rqukvkxg."d医v"m吋"n "8¿pi"jc{"uck0"
2ø̋˚ÆœÆæº"岫228岻 噺 "62 髪 (262 (3.33)
Ü Ikƒ"vt鵜"f詠"8qƒp"Pgicvkxg"*Pgicvkxg"Rtgfkekqp"Xcnwg"Î NPV): pi逢嬰e"n衣k"x噂k" RRX."8¤{"n "v益"u嘘"f詠"8qƒp"8¿pi"e栄c"Pgicvkxg"vt‒p"v医v"e違"eƒe"f詠"8qƒp"n "Pgicvkxg."d医v" m吋"8¿pi"jc{"uck0
028 噺 60 髪 (060 (3.34)
Ü V益"n羽"rjƒv"jk羽p"pj亥o"Rqukvkxg"(FPR - False Positive Rate): v雨"n羽"rjƒv"jk羽p" pj亥o"e栄c"m院v"sw違"f詠"8qƒp"Rqukvkxg0V益"n羽"p {"ejq"dk院v"e„"dcq"pjk‒w"rj亥p"vt<o"pj壱p"
sai Negative thành Positive
HRT"?"3"/"Ugpvkxkv{"?" HR
VP"-"HR (3.35)
Ü V益"n羽"rjƒv"jk羽p"pj亥o"Pgicvkxg"*HPR - False Negative Rate): v雨"n羽"rjƒv"jk羽p" pj亥o"e栄c"m院v"sw違"f詠"8qƒp"Negativẹ V益"n羽"p {"ejq"dk院v"e„"dcq"pjk‒w"rj亥p"vt<o"pj壱p"
sai Negative thành Positive
(04 噺 な 伐 5ı̋˚Æ̨Æ˚Æß (3.36)
Ü F1-score: là giá tr鵜 t鰻ng h嬰p tính t瑛8瓜ej pj"zƒe"x "8瓜 chu育n xác. Nó th吋 hi羽n s詠 hài hoà gi英a hai giá tr鵜 nàỵ Giá tr鵜 n "v逢荏ng c栄a F1 score là b茨ng 1 khi Accuracy và Precision 8隠u cao và ti羽m c壱n v隠 1. Công th泳c tính F1 score cho bài toán phân lo衣i hai l噂p:
(な 伐 œ˚æø̋ 噺 #˚˚ø̇˚ 抜 2ø̋˚ÆœÆæº
#˚˚ø̇˚ 髪 2ø̋˚ÆœÆæº (3.37)
A嘘i v噂i bài toán phân lo衣i t瑛 2 l噂p tr荏 lên (nhi隠u l噂p), giá tr鵜 F1-score còn có thêm các thông s嘘8ƒpj"ikƒ"mjƒe"pj逢"ucw<