—
D IH CHU TR NGD IH CKINHT KHOA H TH NG THONG TIN KINH T
Sinh viên INS O Th C mNhi Gido vienh ngdn
inH cKïnh T TS Hoàng H u Trung
MGI Solutions VỊ t Nam
Hu , tháng 12 năm 2022
“)
Trang 2Khoa lu nt tnghi p GVHD: TS Hoang H u Trung
Trang 3
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
LICM N
Vylaspktthtc ch ngd_ ong th 1 sinh vién r 1, m 1 dO ma em da hoan thanh xong ch ngtrinhhec tr ng, bay gi rixagingd ngDihcdb c chan vao méitr ng m i-th ct pngh nghi pt i doanh nghi p T 1 day, sinh vien 7) chingemd ccoc hitipxticv iméditr nglamvicth ct ,h ct pthémnhi u kinth c phth pvidnhh_ ng mab n thân ch n Em vô cung bi t ae th ycô,b n bè vành ngng_ 1 thân yêu bênc nh đã luôn là ngu nđ n thêm s cm nh cho em hoàn thành bài báo cáo t tnghi pcu 1 khóa này
“Khong th y đ mày làm nên” — Trong su tth 1 gian Pepa hoan thanh
Trung-ng itr ctiph ngd „`
Bên c nh đó, em xin nđncácanhch cong ty TNHH MTV MGI Solutions Vi t me) ukinchoemd ch ctp, có nhi utr Inghi m
c bi t la th y giao TS Hoang H u giúpđ_ em trong quá trình v aqua
b ichvaktnivimi trong su t th 1 gian qua C m_n anh Leader va cac anh ch d ng nani NET nhi ttinh giipd em.Nh vaonh ngkinth cd cdy
| MGI I maemd c tham gia vào làm các d ant tinh n, qua đó ngày
bao cao c aem khong tranh kh inh nghnch var tnhi uthi u sot Em
A Semen cs góp ý, giúp đ t th ycô vàs c ø nghoàn thntthn
cho bài báo cáo c a mình
Em xin chan thanhe m _ n!
Sinh vién, Phan Th C m Nhi
Trang 4
Khoa lu nt tnghi p GVHD: TS Hoang H u Trung
Trang 5
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
DANHM CB NGBI Uhvvecccsssssussssessssssssssisessssssssssssesssssssssisessssssssssseeseee Xà»
DANHM CS D> vivhecscesessssscestessssscsseescsssseessesssesscessssssessessssassessessessssstbectunessssees XIV
DANHM C THU TNG .Ă +.°2 PH NIM Ð ÙU., ẶẶQ HH hệ
I Lý doch nđ tài ệộ «`
2 M ctiêunghiênc u -«- UN 2.1 M ctiéut ng quat
2.2 M ctiêuc th C) 3 Dit NG Va Ph M Vi NGS C UW cccceceecessssnnneeeeeeeceeeeeeeeeeseneneeeeeeeeeeeeeees 3
3.1 ĐÐ 1t ngnghiên Ê) Ù ế ng re 3
trình nghiên cu liÊn quan - - - << + + 1 1111313383311 5 11 11111 rrre 5
IDUNG VA K T QU NGHIÊNC_ U - -.e 6
A NG UC SLY THUY Tiecsscccsssssscsssscssssnsssesessssseesessessnessnsssnesseeeen 6
I.I T ngquanv AC MAY cccccceeeeeesssssnneeeeeeeeeeeeeeeeeesennaaaeeeeeeeeeeeeeeeeenenaes 6 I.I.I.GI 1thi uv h C mấy . Ăn ke 6 I.I.2 ngd ngc ah C my .-GĂ c1 ng kg 6
Trang 6
1.1.3.4.H ctange ng (Reinforcement Learning) 1.1.4 Phânc m và phần Ì poe eee ccccssssnsccceeeeeeeeeeeeeeessntneeeeeees
1.1.4.2 Phan c m (Clustering)
1.2.5 Naive Bayes (NB) CÀ) 1.2.6 Stochastic Graấcf bà 1.2.7 Decision We)
Trang 7
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
1.4.2.4.L ach n thu c tính (Feature Selectfion) -<<s<<<<<s<+ 25
1.4.2.5.Mahdad l¡ u phân lo 1 (Encoding Categorical Data) - 25 1.4.2.6.X lý cânb ngm u(SMOTTITE) Q1 khu
1.4.3.L ach n mô hình (Model Selection) - - - << << ca
CH NGI:D ĐOÁNB NHĐ PHÂNL P -+s se sec
2.1.Môt tpd liu e 2.1.1.Gi ithi utp
2.1.2 Tr cqu d h u(Data VIsualization) - - 37
Trang 8Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
2.2.3.L ach n thu c tính (Feature selectIOn) . - «<< << se secss 53
2.2.4.Mahdad li u phan lo 1 (Encoding Categorical Data) «0 eee 53
2.2.5 Phân chad li uhu nluy nvad luki mth (Train — Test) 56 7 2.2.6 X licanb ng m u(SMOITIE) 1n ng vu 58 )
2.2.7 Chu nhóaph mvid li u (Feature Scaling)
2.4 Xây d ng mô hình hu n luy n (Model Training)
2.4.1.L ach n mô hình (Model selection)
2.4.4.2 Random Forest 2.4.4.3 eXtreme Gradi 000.46) 17 69
Trang 9Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
3.2.Th olunk tqu th cnghi m Error! Bookmark not defined PH NHI:K TLU N oe cceecesssseceeeceessseeeeeceesssaeeeeseesssaaeeeeseesssaaeees 77
3.H ng phat tri neo ad tabi ecccccsssssesneceeeeeeeeeeeeeeeessesnnteeeeees
TAI LI U THAM KH O -. + + SESESESEEESESE+ESESESESEEEEEEererereree K TQU KI MTRAD OVAN Qu ccccccctceseseesscsctsesteseseeees
„Ö Cà
` aX
Trang 10
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
Hinh 1.5 Vid v_ bai toán Decision TT€€ - 5555 se se
Hình I.6.Víd v tr cquanhóad liu seen Reg tre 19
Hinh 1.7 Vid v_ b ng GridSearchCV trong hi uch mae S 2 HH1 1k kree 30 Hình 2 [ Thu t toán khai báo cácth vi n trong nate H111 11111100 1111k khe 36
Hình 2 2 Thu ttoánnh pvàob d l¡ u “healt "1 ¬— 36
Hình 2 3 Xu tra 5 dòng đ u tiên trong t j@ đế ÏLU) 111 9 ve ree 37 Hình 2 4 Thu t toán tr c quan hóa t uy tấp vàb nh đ tqu 37
Hình 2 5 Thu ttoán tr c qua tính B nh tim vàb nh đ tqu_ 38
Hình 2 6 Thu t toán tr c a1 1tính và B nh đ tdqu 39
Hình 2 7 Thu t toán tr c qữấn hóa N 1 sinh s ng và B nh đ tdqu 40
Hinh 2 8 Th bs, 0 hóa Tình tr ng hút thu c lá và B nh đ tqu 4]
r c quan hóa Tình tr ng hôn nhân . «+ << e+++ 42 u ttoántr c quan hóa BMI, << << + S111 111 kg 43 Thu ttoántr cquanhóaÐ_ ng huy ( -ĂĂ Ăn 44 12 Thu ttoántr c quan hóa tu 1 ĂĂĂS SH ven 45 Hinh 2.13.M ts d liutr ngtrongt pd li u “healthcare dataset stroke data” 46 Hinh 2.14.T pd hucé6201d lubtrng BMI ss55S<<<<<<2 46 Hình 2 I5 Thu ttoánx lýd l¡ utr ng trong nghiên U - -<<<<<<+ 47
Trang 11
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
Hinh 2 16 Thu ttoan xu tracacd lï usau khđãđ cởi n vào 48 Hinh 2.17.Cacd lh utr ngsaukhid cởi n giá fr . «<<<<2 48 Hinh 2.18.B ngd li uc a 20T hàng giá tr sau khiđ ci n vào 49 7 Hinh2.19.T pd lhutr cvasaukhix lid l¡ utr ng ss-s- 49 ) Hinh 2.20 Giatr c athu ctinhd nghuyt tr ckhix ligiatr ngoi ys 4 Hình 2 2l Ciá tr c athu ctinhd nghuy t saukhix lí giátr ngo 1Ì sế à 51 Hình 2 22 Cá tr c athu ctínhBMItr ckhix lígiátr ngo 1] 51
Hình 2 23 Giá tr c athu ctính BMIsau khix If gid tr.n XS ĐA 52
Hình 2 24 Cá tr c athu ctínhĐÐ tu itrongt p d 1 SS đã chu n 52 Hinh 2 25 Cac thu ctinhd cl ach nnghién an HH u 53
.32.hù.tftoánx lý cânb ng m U Q7 c1 1 kg 58
nxu trat | B nh d t qu .- «<< <ssssssess 58 | lý m tcần b nữ m U C22222 1 ng ng vn 59 vn, TH UAT Nt 60 A Hình 2 36 So sánh tr c quan 3 ki u chu n hóa << S111 eeeeseeeeres 60
Hình 2 37 Thu ttoán vàt pd lí u sau chu n hóa ĂSSSSssssssseeeees 61 Hình 2.36 chính xác trung bình c a các mô hình sau khi hu n huy n 63 Hình 2 39 Thu t toán Logistic Regression (LIR) cv ve 64
Trang 12
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
Hình 2 40 Thu t toán Random Forest ClassIfier (RFC) - - << << <<<<<<<+ 65 Hình 2 4[ Thu t toán eXtreme Cradlent Boosting (XGỈB) TS eee 66
Hình 2 42 Thu t toán HI u ch nh mô hình LogIstic Regression (LR) 67 7
Hình 2 43 Thu t toán hi u ch nh mô hình Random Forest Classifier (RFC) 68 )
Hình 2 44 Thu t toán hi uch nh mô hình eXtreme Gradient Boosting (X sy 45 Hình 3 I.Mỹnh ml nvàđ ngcong ROCc a mô hình LR(tr chi
c0 00 0000 00 00009 00 000 0 1000 6 10 101 601 019 601881 5019 81 8a Error! Bookmark not defined
Hinh 3.2.MTnh mI nvad ngcong ROC c a mô hình RFC oi ch nh)
Hinh 3.3 MT nh mI nvad ng cong ROC c AS (tr chi uchnh)
dusccacccacsccneccassccnsccassccnsccassccasccassccncscassccasccaseccaecen@pers Mb scssces or! Bookmark not defined Hinh 3 4 MT nh mil nvad 6 hinh LR (sau hi uch nh) 73 Hinh 3.5 MT nh ml nvad a mô hình RFC (sau hi uch nh) 74 Hinh 3.6 MT nh mil nvad Cc amo hinh XGB (sau hi uch nh) 75
Trang 13Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
Trang 14Khoa lu nt tnghi p GVHD: TS Hoang H u Trung
DANHM CS D
ab nh huy táp vàb nh đ tqu trongtpd_ l¡ u 37 ab nh tm và B nh đ tqu trongtpd liu
a các g1 1tính vàB nh đ tqu_ acácN 1sinh s ng vàB nh đ tqu
a Tình tr ng hút thu c lá và B nh đ tqu a Tình tr ng hôn nhân và B nh đ tq
Trang 15
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
DANHM CTHU TNG
1 Al Artificial intelligence Tri tu nhant o
2 AUC Area Under The Curve Di ntichd id Reh 5
II Random Forest Classifier Phan lo ir ng ng unhién
1 ROC Receiving Operating Curve |D ngcongd ctr ng hot
A\ 13 SGD Stochastic Gradient Descent | D d cng unhién
14 SMOTE Synthetic Minority | K thut x ly can b ng
Trang 16Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
15 SVM Support Vector Machine Máy véc-t h tr
18 TPR True Positive Rate T 1 phan lo idu ` s9
19 XGB eXtreme Gradient Boost Tange ngd C
Trang 17Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
thành thành ph nc t lỗi trong cach th ng công ngh cao No da len! 1 Nà 5 các lĩnh v c trong đ 1s ng mà cóth chúng ta không nh nra Xet ha ogle va Tesla, tr ly o Siric a Apple,h th ng g 1ys nph mc a Amazon,‘h th ngt tag khu6n m ttrong nhc aFacebook;h th ng g iy phime a Netix h th ngdch đa ngôn ng Google Translate, may ch ic vay AlphaGo ya g “na day la AlphaGo Zero
c a Google DeepMind, ch lam t vai ng d ng n ng vô vàn nh ng ng d ngc atrítu nhânt o Trong đó, h c may (machine learning — ML) lam tt pcon
1, q ylàd 165t tlà cá đ 1t ng có các y ut nguyc nh : huy táp cao,
Trang 18
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
th phòng ng ađ cđtq y,gi mthiud cnguyc t vong vì đt(tq ym tcách ch đnghn Vì v y, bài báo cáo v ¡tên đ tà “D DOANB NHD TQ Y
NG ID A TRÊN CÁC MÔ HÌNH PHÂNL P”s môt mts ch s chínhdn
đnđtqy.D luc abàibáocáođ cl ymut nhi u nhóm tu ¡, gi ¡ tính, thói ế” quen và các vnđ v sckhe.I đód aranh ngd doánđ phòng ng ađ tq y- căn b nh tuy cũ nh ng không bao gi cũ vì nó v ndi nrah ng ngày, đ kv HN al, b t kỳ lúc nao
2.M c tiêu nghiên c u
Xây d ng thu t toán, tính kh thic a các mô aS, Nai lpd đoán
8 bnhdtqu ng id atrént pd li uthuth p LỘ “` althcare dataset stroke data’
- So im,nh cdi mgi acac m6 hinh thu t toan phan! p
b d Lud b cđucó cái nhnt ngquanv đ cđi mc ab vào d_ báo
nx lýb d lậutr ckhiđ a vào hu n luy n Trong đó bao g m, làm San d liubngph ngphápx lýd lí utr ngvàx lý các giấtr ngo il , sau A đó là chu nhóa ph m viphânb d li u
-Ti nhanhx lýd lễ ub ngcáchl ach n các thu c tính thíchh p cho nghiên c u, sau đó mã hóa các d l¡ u phân lo ithànhd lí ukius ,vàt1 uthành d ng d lí uki umatrnđ máy cóth h ct t
Trang 19
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
-Ù ach nramts mô hình phù h p trong s các mô hình phân Ï p d a trên ktqu d đoán chính xác trung bình ban đ uđ đ a vào hu n luy n mô hình
- Sau khi hu n luy n và có k tqu ,tI pt chi uchnh mô hình b ng cách tìm ra
các tham s t1 unh t, thay cho thams m cđdnhc a các thu ttoánđ đ ađnk (7)
qu d đoán chính xác cu 1 cùng - Đánh giá d a trên ktqu phân tích c a bài tán d đoán b nh đ `, 4 mo hinh phan! pdadtd c
3 Dit ngvaph mvinghiénc u 3.1 Dit ngnghiénec u
-B nhdtq yvanh ngy ut cónguyc dnđn TH, 1, -Nh ng mô hìnhh c máy liên quan đ nvicd d NO: tíchd li u, trong
đóc th lacac m6 hinh: KNN, RFC, SGD, SVM, Raia NB
3.2 Ph mvinghiénc u Ph mvith igian:t ngày 12/09/20 Ph m vi khong gian:
Nghiénce ud cth chi atré O eB d lucha 5110 A 112 thu c tinh thu cb d Ii u “healthcare
ay 18/12/2022
dataset stroke data” ®Các mô hình và Le c bne ahc may co gidm sat, trong d6 g m cac mô hình: KNN, read SVM, XGB, DT, LR, NB
nghiên c u tài lỉ u: tìm hi u các thong tin,c s_ ly thuy t co liên bnhđtq y và các mô hình phân Ì p trong h c máy; các thành t u lý thu wd td c có liên quan đ nở tài; cá ktqu nghiênc uvàs lh uth ngké ee ccôngb t icac bai bao,t pchitrongn cvaqu ct
A -Ph ng phap phan tich vat ng h p: phan chia cdc thong tin va tai li um t
cáchh plí,t đócóth thuthpởd c thành các nhóm, cácb phùh p.K tqu 1a thu đ cktlu nphùh p và chính xác v 1m c đích ban đ uc a bài báo cáo
-Ph ng pháp thuthpd lỉ u: thuth pcácd lut các bài báo liên quan đnbnhđ tqu vàthuthpb d lHậuởd c đăngt 1 trên kênh Kaggle.com
Trang 20
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
AX
-Ph ng pháp tr cquanhóad lỉ u:s d ngth vi n Seaborn-n 1cungc p nhì u mô hình đ v d h anh mth ng kê và tr c quan hóa các thông tin liên quan dntpd hu
-Ph ngphápti nx lyd li u:dnhd ngc ad li u theo cách phùh p, làm “ schd lub ngcachx lid h utr ng,x li giatr ngoil vati nhanh chu n hoa
- Ph ng pháp cần b ng mu - Synthetic Minority ing Technique (SMOTE -L ym u quam c thi us ft ngh p): là các pH ng pháp sinh m unh m gia tăng kíchth cc amuthius trong tr h pm tcân b ng bngmu.D gia tăng kíchth cẶĂmu,v im1m tnhó bh U S l8, chúng ta s
ch nrakm ug nnh tv Inó và sau đó th c h1 n các t inhd t oracac tac gi
mu -Ph ng phapx lid liu:t b deli > u, tt nhanhb clcva ma hoa thanhs liuphth pvimct
thams d thud cktqu nghiénc chinh xac ti unht Ti n hanhl a ch ncac thu c tính, sau đó ch Gy udngch sangkiud ludngs va
hiénc u,rittipdnhiuchnh
cu icung lachuy nd liu ang kiud li ud ng matr n -Ph ng pháp phâ ph ngphápt h c có giám sátc ah cmáy g m nhi u mô hình khác nhau, ø nghiênc uđd cpdnmtvnd môhìnhd đoán d atréent pd hu, ron dé nhan!l pd cd doanlab b nhđ tqu ho c không b b nh đ tqu acd lí uđu vào và các y ut cốónguyc dnđnbnhđ tqu
so sánh: phân tích sâu vào đ c đi mc th c acácđit ng
vành cđi m và so sánh tính hi uqu c acácb cnghiénc u © utrúc khóa lu n
N Idung khóa lu ng m3ch ng: Ch ngl:C s lý thuy t
Ch ng2:Chu ndoanb nhdiqu ng 1d a trên các mô hình phân Ì p Ch ng3:K tqu th cnghi mvàth olu n
Trang 21
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
6 Các công trình nghiên c u liên quan
Ngày nay, cácch đ v h c máy nói riêng và trítu nhânt o nói chungtr nên ngày càng ph bị n Đã xu thi nnhi u công trình nghiên c u và bài báo c a các tác gi trongn cvaqu ct v ch d nàyv Inhi ulĩnhv c khác nhau 7
D doánc ngd hénktgi ac tthépb dn mon val p bé tong xung quanh b ng ph_ ng phap XGBoost [3] Nghién c u nay s dng mt mo hi SG XGBoost d d đoán đ bn lên ktc ac tthếp b ăn mòn va | ề xung quanh.M tb d li ubaog m 2lŠ m u thí nghỉ mđãđ cthuth pt tài li u hi ncóđ xây d ng mô hình và ki m nghi mph ng pháp đ ~~ tqu tính toán cho th y mô hình XGBoostd đoán viđ chính xác a Shi do n hu n
aR
luy nvath nghi mth hin cacthdngs RMSE, M
Nghinc uc s khoah c ngd ng thu t tod dom Forest trong phan lo 1 nh v_ tinh Spot 6 v 1 khu v c th c nghĩ má I1tnh Cầ Mau [4| Trong ph m vi bài báo này, nhóm nghiên ti nhànhth nghị ttoánc aph ng pháph c máy (Machine Learning) trong phân lo 1r S m ntrên nhv tính SPOT6 v 1 khu vcth nghỉ mt1 Tnh Cà th chine anghiénc udadtd c2
`
đi mm 1đó là: ngd ngth ph ngpháph c máy (RF) trong phân lo 1 nh vi n thám; kh năng c a pháp phân loIđ c chi tỉ t theo loài th c vtc a r ngng pm ntikhuv c nghi m
qu ct,“ e of Deep Learning to Predict Stroke Patient Mortality” [5]
la bai bao dgdoan b nh d t qu b ng H c sau (Deep Learning), co gia tr di n tich d C)c aph ng pháp khá cao 83,48%, k tqu đ chính xác trung bint 7.Di mhnch c anghiénce u bao g mthi u phan tachd ludu Và ud liu theo chỉ ud c Ngoài ra, trong d li ukh o sat,d li u nay ch AX mcacloid l¡ï u theo đnh d ngnh phân
Trang 22
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
PH NII:N IDUNGVAK TQU NGHIENC U
CH NGI:C S LYTHUY T
1.1.T ng quanv h c may
H c may [1] hay mayh cc6ténti ng Anhd yd_ la Machine 1N
cD
h 1 và hoàn thanh cac nhi mv ,d ng th ilacachd cithi nhi usu gian la ML Thu t toan Machine Learning 1a cac ch ng trình máy tính có a
vo cung hi uqu
Ngoai ra, Machine Learning cond c bi t la còn là công ĂẾN p at tri nt lĩnh
v ctritu nhân t o tiên t nnh thi nnay.Ð đmb NOs! sai 1 ch và không xuthind liugi, Machine Learning v nc Bik hi uval ach nk
N anth gii.S tangtr ngv t
thu tphântíchd hl ut conng 1
H c máy ngày càng mang tính ph bị
bccad lặậuln (Big Data) và các t achine Learning đã c 1 thi n đ
chính xácc anh ng mô hình vàd đ
Có haib c (phase) Ï 1 bài toán machine learning là b c hun
luy n (training phase) va b ° (test phase) Trong đó,b chu nluy ns ch dùng d li uhu nluy n,
1.1.2 ngd ng m
H c mayyngay eang d c ngd ngr ng rai, da linh v c trong th cti ncuc
nay Machine Learning dang d cs dngvim c dich phan
mth s ch dungd li utrongt pki mth
phân tíchd liut h th ng v_ tinh, thu t toanh c mays ti nhanhx ly va cung c ptibnnh ngthéngtinv s | ng khachhangt 1 baid u xe, cacho td ngv n chuy n,snl ngsnxut.V c bn, nó làm t cách t1 pc nđ xác dnh và phat hincacdctr ngc amtdit ngtrong hình nhk thuts Hnhn a,k thu t
Trang 23
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
nay cOth d cs dngd phân tích sâuh n,ch nghnnh nh ndngmu,nhn đi n hình khuôn, nh n d ng khuôn m t, nhn d ng kýt quang h c vành uhn n a,
Phân lo ¡ tint c[7]làm t ngd ng đi m chu nkhácc aph ng pháph cấC máy Nh m tv nd th ct làbâygI kh 1l ng thông tin da tang lénr tnhi u trên web Tuy nhiên, m 1ing I1cós thích ho cl ach n cá nhân c a mình.¿Vì &® y, 4 ch nho c thuth pm tph n thông tin phùh ptr thành m t thách th Ln"E i dùngt vô s n 1 dung trên trang web Phân lo 1 các danh m cm t các ràng, d di uh_ ng giúp cho các khách hàng m c tiêu ch cch ns tăng năng truy c p các trang tnt c.Hnn a,đcgi hocng 1I1dùng có th ¿ìmzki m fe c th mt
ngày nay M ttrong nh ng vid nit Facebook News Feed Ngu nc p tnt cs dnghcmayd cá nhân hd guncpd li uthanh vién N um t thanh vién th ng xuyénd ng c thích m t bài đăng c am tng 1bn c th , News Feeds btd.u nhiuh nv hotd ngc ang ibndotr c đó trong ngu ncpd li sauh th ng y,phnmms d ng phan tich th ng kê và phân tíchd đoán đ đnh cám utrongd liung Idùng vàs d ng các m uđóởđ di 0 aN) Fo N u thành viên không còn d ngl 1đ đ c, thích ho c bình lu n trém cae bai dangc ab nbe,d liumidos d cbaog mtrongtpd
gp nangt ngt đó qua các m ng xãh 1khácnh Google, Instapram,
1v 1 vi c kinh doanh c am t cong ty [8] co hangtnd hu(tpng 1 ung,d li utaichinh,d lí usnphm,d luth ngkêđ ng dây nóng, báo cáo nhân s, )h c máy có th : phân đo n khách hàng vàch nchỉ nl ctipth ttnh t cho m 1 phân khúc; đ xu tcác s n ph m phùh p cho khách hàng d a trên s nph m muad cbinh ng khách hàngt ngt ; phát hi nnh ng giao d ch cókh năng cao làøg! m o;d báo doanh thuc a năm sau
Trang 24
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
T ngquanv ikhai phád lỉ u Khai phád lí uvàh c máy là hai khái n m hayb nh mÌ] n Hai lĩnh v c này nhìn chung ø n v ¡ nhau và đôi khi dùng chung nhi uph ng pháp, côngc nh ng ) khác bi tchính là m c tiêu:
- Khai phad lỉu:th ngm c tiêu là tìm ki mnh ng thông tin, trị hạ Ều 4 toanm iti mnangc6 ich trong ngu nd li u
- H cmáy:d đoánm ts thôngtinc ad liud atrénnh ngdc da bi t
1.1.3 Phan lo icac ph ng phaph c may X
Thu t toanh c mayd_ c chia thanh 4 lo 1 [1] b Dh oBidm sat, h c
không giám sát,h c bán giám sát vàh ctăngc ng C ` 1.1.3.1.H c có giám sát (Supervised Learning) CS
an d
- Supervised learning [9] la thu t toán d a(outcome)c amtd liu
m i (new input) d a trén cdc c p (input,
cond cg ila (data, label),t c(d li
nh t trong cac thu t toan Machine GC)
-M tcach toanh c, Su vao X = {x1,x2, XN
dabitt tr c.C pd liu nay Supervised learning la nh6m ph _ bi n
learning la khi ching rac6m tt ph pbindu ttphpnhant ng ng Y = {y1,y2, yN }, trong d6 xi, yi là các vect acc pd liubittr c(xi,yi) Ee Xx¥d cgila t p training data (d u nluy n).T t p training data nay, ching tac nt oram t
hams anh iphnt t tpXsangmtphnt (x px)t ng ngcatpY:
Trang 25Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
1.1.3.2.H c không có giám sát (Unsupervised Learning) - H ckhông giám sát [I]s d ngnh ngd luch ad cgannhans nd suy lunvatimcachd mét d l¡ ucùngc utrúcc a chúng
- nøgd ngc ah c không giám sát đólàh tr phân lo 1 thành các nhóm có đ c ⁄) đi mt ng ng
1.1.3.3.H c bán giám sát (Semi-supervised Learning) 4 -H c ban giam sat [1] lad ng k th p gi ah cco giam sat vah giam sat
- Trong đó, nó k th pcác víd có nhãn và không nhãn d XS m thamho c
m tb phanlo ithichh p %
1.1.3.4.H ctange ng (Reinforcement Learning) C `
she hay h c không giám A2 8
O01 tr chóng và t o ra nhi u thu t toán -H ctange ng [1] khong d a trén vi c
sat, ma cac thu ttoanh ccacht phn ngva@ -Ph ng pháp h c này đang phát tr h ct p,h uich trong lĩnh v c Robot, trẻ 1.1.4 Phân c m và phan! p CS
Cac p c mph bi n[I10]:
ng phap phan t ng (hierarchical methods) phap phan m nh (fragmentation methods)
h ngphap! 1 (grid-based methods) - Ph ng phapd a vao m6 hinh (model-based methods) - Phanc md avao rang bu c (constraint-based clustering)
Trang 26
Khoa lu nt tnghi p GVHD: TS Hoang H_ u Trung
1.1.4.3 Phan 1 p (Classification)
Phan | p [11], hay con g 1 la phan lo i, la vi c phan tich d li ud atrént p hu nluy n, giatr hay lanhanl pce a m tthu ctinh phan! pd t ol pcac mo hinh m6 t cdc phan! pd li u quan tr ng.Nh ng phân tích đós giúp chúng ta hi u sâu ế” ) hnv d lu mcl nvabao quath n
e Phan lo im temail lath phi n (spam) hay không e D doanxemng_ inghe thich bai hat hay th lo inh c nao e Ch nph ngth cdi utr phuh pchocacb nh nhân XK
ĐÐ ctr ngc a mô hình phân Ï plàh cd a trên t Lum A'S s n Nh ng
d li u tho d u vao (nh : van b n, hình nh, âm than chuy n d i thanh cac
©
vec(or S chi uc a các vector này tùy thu c vào hì nghpe th.Dcbit
an | trong các chi u này, có m t chỉ u ch a nh cOsnt ng ngvit ng tr ngh pe th
Trang 27
Khoa lu nt tnghi p GVHD: TS Hoang H_ u Trung
1.2.Cac ph ng phap phan! p
M t bai toand cgilaPhanl pn ucacnhandance ad luduvaod c chia thanh m ts h uhn nhóm Ví d : Gmail xác đnh xem m t email co ph 1 1a spam hay không; các hãng tín d ng xác đ nh xem m t khách hàng có kh năng thanh ” ) toánn hay không
Trong bài báo cáo này s d ng 6 các thu t toán phân Ï p [12] đ doa 4 g m: Decision Tree, K-Nearest Neighbor, Logistic Regression, Naive ndom Forest Classifier, Stochastic Gradient Descent, Support Vector MachinejeXtreme
1.2.1 Support Vector Machine (SVM) Support Vector Machine [13] la ph ng pháp;phân I m tkhaini mv th ng ké va khoah c may tinh chom tt ph p cac ph ng phap h c có giám sát liên
Trang 28Khoa lu nt tnghi p GVHD: TS Hoang H_ u Trung
Cách th c ho td ngc a SVM: Cach th chotd ngc aSVMd_ c phat bi u nh sau,chot pd liuD nh sau: (X¿, y;), (Xo, yo), , (Xp), yIp|) V 1X; lat p cacd lh uhunluy ng nlinv icacnhanl pt ng ng y; (nh nm ttrong hai gia tr la +1 hay -!l (t ng ng vi nhấn | p buys_computer = yes ut) buys_computer = no)
K-Nearest Neighbor [14] la m t trong nh ng thu ttoánt h cc átđn øi nnh t(mà huqu trong m t vài tr ngh p) trong ML Khi hu n n, thu t toan nay kh6ngh cm tdi ugit d li uhu nluy n (day citing lay do thu t toan nay d cx pvao lo i lazy learning), m 1tínhtoánđ cth indc hd doank t
qu cad lhumi.KNNcoéth apd ngd cvaoc LC abàltoánt h ccó giám sát là Phân Ï p và Phần c m KNN con d 4c t thu ttoánh cd a trên vid (Instance-based) hay h cd atrénb n ory-based learning)
s\, Category B
=
° ® «
` New data point eM ° , assigned to
Trang 29Khoa lu nt tnghi p GVHD: TS Hoang H_ u Trung
V IKNN, trong bài toán phần Ì p, nhãn dán c am tđi md lium i(hayk t qu c acâuh 1trong bài th) đ csuyratr ctipt Kdimd lh ug nnh ttrong traimmng set Nhãn dán c am td liuki mth (test data) c6 th d cquytdnh b ng b uch ntheos phi u (major voting) gi a các đ mg nnh t,ho c nócóth “ đ c suy rab ng cách đánh tr ng s khác nhau cho m 1 trong các đi m g nnh t đó T 1 suy ra label Trong bài toán h 1 quy, đ urac am tđi md lius b ngchính 4 racadimd ludabitg nnht(trongtr ngh pK =1),hocl ình có tr ngs c ađurac anh ng đi mg nnh t,ho cb ngm tm 1 quan ñ›d a trên kho ng cách t 1các đi mg nnh t đó
M tcách ng ng n, KNN là thu t toán di tìm đu Mi 2d l um 1 b ng cách ch d a trên thông tnc a / đi md ii u tr g u nluy ng nnónh t (K-lân c n), không quan tam d n vi c cém t vai aid i utrongnh ng dimg n nh tnday la nhi u
1.2.3 Random Forest Classifier
Random Forest Classifier [1 t toán h c c6 giam sat (supervised
d lud ow’ cd đoánt m I1 cây và ch n øi 1 pháp t t nh t b ng cáchb ru
cp mtch bao khat tv tm quan tr ng c a tính năng
Random forests t o ra cây quy t đnh trên các mu
MESULT-1 RESULT-2 RESULT-N
Hinh 1.4 Vid v_ bai todn Random Forest Classifier
Neu n: datamahadev.com
Trang 30Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
và Ì ach n tính năng Nó cóth đ cs dngđ phân lo Icác ng viên cho vay trung thành, xác đ nh ho t đ ng gian lnvàd đoán các b nh Nónm cs ca
“)
thu ttoán Boruta, ch _n các tính năng quan tr ngtrongt pd li u
Cácb cth chi ntrong thu t toanc a Random Forest Classifier:
e Thi tl pcay quy tdnhchot ngmuvanhnktqu d doa bquy t d nh cay
e Chnktqu d cd doannhi unh tlad ww °
1.2.4 Logistic regression (LR) ©
Mc du tén gich at “Regression” nh meas là thu t toán thu c loi “Classiicatlon” Th ct choth y nó làm nh “ng thu t toan Machine Learning d cs dngph bi nnht
H 1 quy logistic [16] la Cy: h c may d phân lo 1 Trong thu t toán
Zz
nay, cac xac su t mot các k
mô hình b ng ham logistic Wy
D urad anc a “ regressionth ngd cvitchungd id ng:
c g 1 1a logistic function, f() dc g 1 la activation function,
xX yracamtth nghimdnld clp
va Xd hiulad lum rngvix=1d cthém vaod thunti nchovic
\ Logistic Regression la m t lo i thu t toan t h c có giám sát, tính toán m 1 A quanh gi a cac thu c tinh trong d u vao va d u ra d a trén ham logistic ho c
sipmoid Thu t toán này không d_ đoán ra giá tr th cnh_ cac thu t toan Regression khac, Logistic Regression d c dùng đ d đoán ram tktqu nh phân (v 1 giá tr 0/1 hay - 1/1 hay True/False) d a vào đ u vào c a nó Cũng chính vì v y mà nó thu c nhóm các thu t toán phân L p lo 1 (Classification)
Trang 31
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
1.2.5 Naive Bayes (NB)
Thu t toan Naive Bayes [17] d atrén dnhly Bayesv igi thhtv s dclp gi amiicpdctr ng Trinh phan lo i Naive Bayes ho t d ng t t trong nhi u tình
hu ngth ct nh phanlo itaili uval cth rac 7)
Cong th c Naive Bayes [17]:
Poy) < PHY POD \)>»
» P(x)
Naive Bayes la m t thu t toán d a trên đnh lý Bayesv lý thuy t xác su t đ đ ara các phán đoán cũng nh phân lo 1d lí ud a trên các d Nước quan sát và th ng kê
Nó là m t trong nh ng thu t toán đ c ¬ ø Ft nhi u trong các lĩnh
án chính xấc nh td trênm ttpd lu
v cMachine learnng dùng đ đ acácd đo
dad c(thuth p, vì nó khá d hi u và đ ác cao, thu c vào nhómt h cco
,m imud _ cch nng unhiénthay vitoanb t pd lh ucho
nay N6d_ cdungtronge bai toan phan! p vàh 1 quy
Trang 32
Khoa lu nt tnghi p GVHD: TS Hoang H_ u Trung
Chom td li ug mcacthu ctinhcungv icacl pe ano, cay quy tdnht o ram tchu icac gquytccé6th d cs dngd phanloid lh u Cay quy tđnh là
cay mam inttbi udi nm td ctr ng (tinh ch t), m 1 nhanh (branch) bi udi nm t
quy lu t(rule) vàm ¡ lá bi ubi nm tktqu (giátr c th haym tnhánh tỉ pt c) ⁄)
c ano th ni am NED c th cho bi n đó.M 1 nút lá đ 1di n cho giátr d đoán
chotr ccac giatr c acacbind cbiudinbid ngdit
% Boost (Extreme Gradient Boosting) [18] là mt gii thut d_ c base n gradient boosting, tuy nhién kem theo d6 lanh ngcitintolnv mtti u A Ser s kth phoanhogi as cmnhphnmmvaphnc ng, gitpd t
đ cnh ngktqu v ttric v th Igianhu nluy ncũngnh b nh s d ng
Mô hình này đ c bi tđnv 1 tính ch t linh ho t và tính hi u qu Ð cbi t, XGBoost dad c ngd ng trong qua trinhs nxu tc a các công tylÌ nnh Amazon,
Trang 33
Khoa lu nt tnghi p GVHD: TS Hoang H u Trung
SVM | Hiu qu trong không gian chiu|- Nus 1 ng nang
cao.V n hiu qu trong tr nghps |I nh hiu so vis
-S dngm tt ph pconcac di m đào virc ch n các hàm t o trong ch c nang quy t đnh đ° rnel và thu tng_ chính
g ilavect h tr ), do đó, nó uy hóa làr t quantr ng
qu v b nh - Cac SVM khong tr c ti p - Linh ho t: cac ch c na cung c pcác c tính xác
nhau cóth đ su f, chúng đ c tính toán
quy t đnh Các b ngcachs d ng xacth c d c cung Cop ng cũng có th ch | chéo nắm ndttin đ nh các h TỒN, ch nh
KNN -D t p tinh toan c a qua trinh|- Tr nên rtch m khis
nluy nlab ng 0O 1 ngdi md li u tang lén d đoánktqu c ad lum 1| vì mô hìnhcnlutr tt rtd ngin (sau khi da xacdnhd cị|c cacdimd liu
Trang 34Khoa lu nt tnghi p GVHD: TS Hoang H u Trung
Logistic | D cthi tk chom cdichphanloi | Ch hotd ng regression | ˆ H uichnhtd hiu nhh ngc a| đoán là nh phân d nh
mts bindclpdivimtbin/rng ttc cac bin d
thu c tinh 1 uvatr c quan - Có th to ra các cây - Yéuc uchunb itd lu và cóth | khôngt ng quát hóa t t x lye d lius vàd l¡ uphân lo 1 |- Cóth không n đnh vì
cac bin th nh trong d lucóth dnđnvictoO ram t cây hoàn toàn khác XGBoost |7 Là m t thu t toán m nh m, có đ | Thu t toán khá ph c tp,
chính xác cao tn nhu tài nguyên khi
“)
Trang 35Khoa lu nt tnghi p GVHD: TS Hoang H_ u Trung
Tr cquanhóad lí u[19lvàm tb cc bnđutiênc ahec
môt d lí um tcách đ ngi nnhtd id ngcachinh nhtr c quan ng, bi u d ,d th hays dngcacph ng pháp, côngc khác nhau đ tr, c quan hóa và minh
had liud cttnht `,
¥ Lể ` wr
ma con giup han tichd lI u phân tích khaithácd li uti u.Ph ng phap tom t t, trì rong Statistics la m t ph nn m trong Data Visualization vi no liên victh hi n,môt d lậu (các bị n) đnh tính, đnh Ï ngd 1dng
hùh p, cũng làm td ngtr cquand li u Ñ ts th vinn 1t ngdùng đ tr cquanhóad lí ub ngngônng Python
A nh _ : Pandas, matplotlib va seaborn
1.4.2 Ti nx lyd li u (Preprocessing)
Trang 36
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
Tinx lýd hu([20)lamtb crt quantr ng trong vi c gi iquy tb tky vnd naocaHcMay.Huhtcacb d lud cs d ngtrongcacv nd lién quand nH cMayce nd cx ly,lams chvabinditr ckhim tthuttoanH c Máy cóth đ chu nluy ntrênnh ngb d liu.Cáck thuttinx lyd liuph #& bi nhi n nay bao g m:x lýd lí ub khuy t (missing data), mã hóa các bi n nhóm
(encoding categorical variables), chu nhédad_ li u (standardizing data),
D li utr ng xu thi n khi bi n khong nh n giatr nao trong m t sat D l utrngđ cth hinb icacoétr ng (ho c giatr NaN) trong bégd li u
dydd lu N
Itlàt các khosát ng 1tr l1 không mu nởi n thông tin cá n |
o Ng inh pli unh psaid ø tin khôngh p[ (coinh b tr ng)
o Trong qua trinh thu th pd li u,
- D bh utr ng hoan Jog unhién: xac sutd liub tr nglanh nhaud i Vy 1m 1 quan sat; h ông cóm iquanh nao gi ad li utr ng vacacd li u khác
gm tcách không ng unhiên:d li ub tr ngm tcachcoh m Iquanh gi ad lhl utr ngvacacd li ukhac lýd h utr ng [21]:
- thu t 1: Xóa các quan sát có b tkỳphnt d lậunàob b tr ng Tuy aX nhiên, k thu t này khá nguy hi mb 1 vì các quan sátb loI1b cóth ch a
thông tin quan tr ng - K thu t2: Thayth giátr c ad li utr ngb ng:
©°e Giá tr trung binh/trung v/gliá tr xut hin nhu nht (Mean/Median/Mode 1mputation)
Trang 37
o Todctr ngm i (Create a new feature) danh d u cdc quan sat ch ad oF )
liutr ng B ngl.2.Sosdnhcack thutx lwd li utr ng `"
1 Thay th |-K_ thu t này gi đnh|- D th Làm thay di
b ng rngd lh utr ng hoan| (it b ph ng sai ca
-Thay th d liutrng|b bind i ngu nhiên cũng
bng các giá tr ngu nhiéne ac tt ng ng
- Dung ham dropna()
Trang 38Khoa lu nt tnghi p GVHD: TS Hoang H u Trung
¬Š
- K_ thut này đ c dùng khi có nghi ng rng:d lậutrngmt cáh KHÔNG ngu nhién (vd: ng 1 già d b cht trong th m ho hn=>kh năng ko có thong tin v Tui cao h n).C nn mb t thong tin quan tr ng nay
- Thay th d llutrn b ng gia tr đuôi phanb d hu
-D thchin - Nm Ot d ctm quan
tr ng (nu có)
ca d lu
tr ng
- Cóth làm méo mo phan b d liuc abin -Nus uy ©>
quan tr => k Na ^ C gi Ring | cd
baoc abi n
XS
-Nus | ngd liu tr ng laln => k thu t này làm n đi các giá tr ngoil the
5
-Nus | ngd lu tr ng là nh => k thu t này t O ra m t giá tr ngo 1Ï ngoài d
b tkỳ d li utr ng (nqucó)c ad |bin
- Thayth d liutr ng Huữn - Nu s khuy t bngm t giá tr t chn d lu không
“)
Trang 39Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
b tkỳ quan tr ng => k
thut này làm øim năng lcd báoc abin ⁄) - Khó xác đ
giá tr C 5 dùng
5 To dc|-D c dùng khi có ngh|Nmbtđ ec Vic tăng s
trngmi |ng d liu trng mt|tm quan tr chit" ad liu
cách KHONG ng ul (n Đi, ng cách thêm
nhiên li nữ đc trng (bi n)
- Thayth d liutrn gây ra nh ng khó khăn cho mô hình
hoá d liu b ng Ïl trong các
lýd lí utr ngcó uvành cđi mriêng
Trang 40
Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung
- Thôngth ng trên Box plot: gán các giá tr n m ngoài d 1[Biên trên, Biên d ijlangoil vi:
M cdiche ax ly giatr ngoil:X lyd h ungoil nh Mgi mt i đa các tác d ngx u(tuym cd )dnhi usu tc acac thu t toa ay 9
Giiphapx lythédngth ngg m2b c: N\ e Xac d nh cac gia tr bién trén va bién d cad liu
Chu nhéad l¡ u là [224 vi⁄<€:sêa luv m tphânb trong đó giá tr trung bình ca các quan sátb “ đ Ichchu nbngÏ.Nh vi cchu n hóa, các thu t toan phan! p trong hee@ymay
Tpd huth nge gia tr M i quan s ng d_ c bi u din thanh | di m trong kho6ng gian vec-t
nhi u chi u chiubngs dctr ng H uh t cac thu t toanh c may (d mô hinh dùng kho ng cach Euclid gi a2 di md _ tinh toan Viv y, các dc m cđ đóng góp vào hàm kho ng cách này khác nhau ph thu c vào
gnitude) c a chung Di u nay không công b ng đ 1v 1đctr ng có giá tr h vìm ts bi nthiênnh c ađctr ngnàycóth có ý nghfat ng ngvimt AS bi nthén!l nc amtdctr ng khac co gia tr 1 n Do d6, c n ph 1 lam cho các