1. Trang chủ
  2. » Tất cả

Dự đoán bệnh đột quỵ ở người dựa trên các mô hình phân lớp

98 3 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 98
Dung lượng 1,65 MB

Nội dung

Trang 1

D IH CHU TR NGD IH CKINHT KHOA H TH NG THONG TIN KINH T

Sinh viên INS O Th C mNhi Gido vienh ngdn

inH cKïnh T TS Hoàng H u Trung

MGI Solutions VỊ t Nam

Hu , tháng 12 năm 2022

“)

Trang 2

Khoa lu nt tnghi p GVHD: TS Hoang H u Trung

Trang 3

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

LICM N

Vylaspktthtc ch ngd_ ong th 1 sinh vién r 1, m 1 dO ma em da hoan thanh xong ch ngtrinhhec tr ng, bay gi rixagingd ngDihcdb c chan vao méitr ng m i-th ct pngh nghi pt i doanh nghi p T 1 day, sinh vien 7) chingemd ccoc hitipxticv iméditr nglamvicth ct ,h ct pthémnhi u kinth c phth pvidnhh_ ng mab n thân ch n Em vô cung bi t ae th ycô,b n bè vành ngng_ 1 thân yêu bênc nh đã luôn là ngu nđ n thêm s cm nh cho em hoàn thành bài báo cáo t tnghi pcu 1 khóa này

“Khong th y đ mày làm nên” — Trong su tth 1 gian Pepa hoan thanh

Trung-ng itr ctiph ngd „`

Bên c nh đó, em xin nđncácanhch cong ty TNHH MTV MGI Solutions Vi t me) ukinchoemd ch ctp, có nhi utr Inghi m

c bi t la th y giao TS Hoang H u giúpđ_ em trong quá trình v aqua

b ichvaktnivimi trong su t th 1 gian qua C m_n anh Leader va cac anh ch d ng nani NET nhi ttinh giipd em.Nh vaonh ngkinth cd cdy

| MGI I maemd c tham gia vào làm các d ant tinh n, qua đó ngày

bao cao c aem khong tranh kh inh nghnch var tnhi uthi u sot Em

A Semen cs góp ý, giúp đ t th ycô vàs c ø nghoàn thntthn

cho bài báo cáo c a mình

Em xin chan thanhe m _ n!

Sinh vién, Phan Th C m Nhi

Trang 4

Khoa lu nt tnghi p GVHD: TS Hoang H u Trung

Trang 5

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

DANHM CB NGBI Uhvvecccsssssussssessssssssssisessssssssssssesssssssssisessssssssssseeseee Xà»

DANHM CS D> vivhecscesessssscestessssscsseescsssseessesssesscessssssessessssassessessessssstbectunessssees XIV

DANHM C THU TNG .Ă +.°2 PH NIM Ð ÙU., ẶẶQ HH hệ

I Lý doch nđ tài ệộ «`

2 M ctiêunghiênc u -«- UN 2.1 M ctiéut ng quat

2.2 M ctiêuc th C) 3 Dit NG Va Ph M Vi NGS C UW cccceceecessssnnneeeeeeeceeeeeeeeeeseneneeeeeeeeeeeeeees 3

3.1 ĐÐ 1t ngnghiên Ê) Ù ế ng re 3

trình nghiên cu liÊn quan - - - << + + 1 1111313383311 5 11 11111 rrre 5

IDUNG VA K T QU NGHIÊNC_ U - -.e 6

A NG UC SLY THUY Tiecsscccsssssscsssscssssnsssesessssseesessessnessnsssnesseeeen 6

I.I T ngquanv AC MAY cccccceeeeeesssssnneeeeeeeeeeeeeeeeeesennaaaeeeeeeeeeeeeeeeeenenaes 6 I.I.I.GI 1thi uv h C mấy . Ăn ke 6 I.I.2 ngd ngc ah C my .-GĂ c1 ng kg 6

Trang 6

1.1.3.4.H ctange ng (Reinforcement Learning) 1.1.4 Phânc m và phần Ì poe eee ccccssssnsccceeeeeeeeeeeeeeessntneeeeeees

1.1.4.2 Phan c m (Clustering)

1.2.5 Naive Bayes (NB) CÀ) 1.2.6 Stochastic Graấcf bà 1.2.7 Decision We)

Trang 7

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

1.4.2.4.L ach n thu c tính (Feature Selectfion) -<<s<<<<<s<+ 25

1.4.2.5.Mahdad l¡ u phân lo 1 (Encoding Categorical Data) - 25 1.4.2.6.X lý cânb ngm u(SMOTTITE) Q1 khu

1.4.3.L ach n mô hình (Model Selection) - - - << << ca

CH NGI:D ĐOÁNB NHĐ PHÂNL P -+s se sec

2.1.Môt tpd liu e 2.1.1.Gi ithi utp

2.1.2 Tr cqu d h u(Data VIsualization) - - 37

Trang 8

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

2.2.3.L ach n thu c tính (Feature selectIOn) . - «<< << se secss 53

2.2.4.Mahdad li u phan lo 1 (Encoding Categorical Data) «0 eee 53

2.2.5 Phân chad li uhu nluy nvad luki mth (Train — Test) 56 7 2.2.6 X licanb ng m u(SMOITIE) 1n ng vu 58 )

2.2.7 Chu nhóaph mvid li u (Feature Scaling)

2.4 Xây d ng mô hình hu n luy n (Model Training)

2.4.1.L ach n mô hình (Model selection)

2.4.4.2 Random Forest 2.4.4.3 eXtreme Gradi 000.46) 17 69

Trang 9

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

3.2.Th olunk tqu th cnghi m Error! Bookmark not defined PH NHI:K TLU N oe cceecesssseceeeceessseeeeeceesssaeeeeseesssaaeeeeseesssaaeees 77

3.H ng phat tri neo ad tabi ecccccsssssesneceeeeeeeeeeeeeeeessesnnteeeeees

TAI LI U THAM KH O -. + + SESESESEEESESE+ESESESESEEEEEEererereree K TQU KI MTRAD OVAN Qu ccccccctceseseesscsctsesteseseeees

„Ö Cà

` aX

Trang 10

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

Hinh 1.5 Vid v_ bai toán Decision TT€€ - 5555 se se

Hình I.6.Víd v tr cquanhóad liu seen Reg tre 19

Hinh 1.7 Vid v_ b ng GridSearchCV trong hi uch mae S 2 HH1 1k kree 30 Hình 2 [ Thu t toán khai báo cácth vi n trong nate H111 11111100 1111k khe 36

Hình 2 2 Thu ttoánnh pvàob d l¡ u “healt "1 ¬— 36

Hình 2 3 Xu tra 5 dòng đ u tiên trong t j@ đế ÏLU) 111 9 ve ree 37 Hình 2 4 Thu t toán tr c quan hóa t uy tấp vàb nh đ tqu 37

Hình 2 5 Thu ttoán tr c qua tính B nh tim vàb nh đ tqu_ 38

Hình 2 6 Thu t toán tr c a1 1tính và B nh đ tdqu 39

Hình 2 7 Thu t toán tr c qữấn hóa N 1 sinh s ng và B nh đ tdqu 40

Hinh 2 8 Th bs, 0 hóa Tình tr ng hút thu c lá và B nh đ tqu 4]

r c quan hóa Tình tr ng hôn nhân . «+ << e+++ 42 u ttoántr c quan hóa BMI, << << + S111 111 kg 43 Thu ttoántr cquanhóaÐ_ ng huy ( -ĂĂ Ăn 44 12 Thu ttoántr c quan hóa tu 1 ĂĂĂS SH ven 45 Hinh 2.13.M ts d liutr ngtrongt pd li u “healthcare dataset stroke data” 46 Hinh 2.14.T pd hucé6201d lubtrng BMI ss55S<<<<<<2 46 Hình 2 I5 Thu ttoánx lýd l¡ utr ng trong nghiên U - -<<<<<<+ 47

Trang 11

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

Hinh 2 16 Thu ttoan xu tracacd lï usau khđãđ cởi n vào 48 Hinh 2.17.Cacd lh utr ngsaukhid cởi n giá fr . «<<<<2 48 Hinh 2.18.B ngd li uc a 20T hàng giá tr sau khiđ ci n vào 49 7 Hinh2.19.T pd lhutr cvasaukhix lid l¡ utr ng ss-s- 49 ) Hinh 2.20 Giatr c athu ctinhd nghuyt tr ckhix ligiatr ngoi ys 4 Hình 2 2l Ciá tr c athu ctinhd nghuy t saukhix lí giátr ngo 1Ì sế à 51 Hình 2 22 Cá tr c athu ctínhBMItr ckhix lígiátr ngo 1] 51

Hình 2 23 Giá tr c athu ctính BMIsau khix If gid tr.n XS ĐA 52

Hình 2 24 Cá tr c athu ctínhĐÐ tu itrongt p d 1 SS đã chu n 52 Hinh 2 25 Cac thu ctinhd cl ach nnghién an HH u 53

.32.hù.tftoánx lý cânb ng m U Q7 c1 1 kg 58

nxu trat | B nh d t qu .- «<< <ssssssess 58 | lý m tcần b nữ m U C22222 1 ng ng vn 59 vn, TH UAT Nt 60 A Hình 2 36 So sánh tr c quan 3 ki u chu n hóa << S111 eeeeseeeeres 60

Hình 2 37 Thu ttoán vàt pd lí u sau chu n hóa ĂSSSSssssssseeeees 61 Hình 2.36 chính xác trung bình c a các mô hình sau khi hu n huy n 63 Hình 2 39 Thu t toán Logistic Regression (LIR) cv ve 64

Trang 12

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

Hình 2 40 Thu t toán Random Forest ClassIfier (RFC) - - << << <<<<<<<+ 65 Hình 2 4[ Thu t toán eXtreme Cradlent Boosting (XGỈB) TS eee 66

Hình 2 42 Thu t toán HI u ch nh mô hình LogIstic Regression (LR) 67 7

Hình 2 43 Thu t toán hi u ch nh mô hình Random Forest Classifier (RFC) 68 )

Hình 2 44 Thu t toán hi uch nh mô hình eXtreme Gradient Boosting (X sy 45 Hình 3 I.Mỹnh ml nvàđ ngcong ROCc a mô hình LR(tr chi

c0 00 0000 00 00009 00 000 0 1000 6 10 101 601 019 601881 5019 81 8a Error! Bookmark not defined

Hinh 3.2.MTnh mI nvad ngcong ROC c a mô hình RFC oi ch nh)

Hinh 3.3 MT nh mI nvad ng cong ROC c AS (tr chi uchnh)

dusccacccacsccneccassccnsccassccnsccassccasccassccncscassccasccaseccaecen@pers Mb scssces or! Bookmark not defined Hinh 3 4 MT nh mil nvad 6 hinh LR (sau hi uch nh) 73 Hinh 3.5 MT nh ml nvad a mô hình RFC (sau hi uch nh) 74 Hinh 3.6 MT nh mil nvad Cc amo hinh XGB (sau hi uch nh) 75

Trang 13

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

Trang 14

Khoa lu nt tnghi p GVHD: TS Hoang H u Trung

DANHM CS D

ab nh huy táp vàb nh đ tqu trongtpd_ l¡ u 37 ab nh tm và B nh đ tqu trongtpd liu

a các g1 1tính vàB nh đ tqu_ acácN 1sinh s ng vàB nh đ tqu

a Tình tr ng hút thu c lá và B nh đ tqu a Tình tr ng hôn nhân và B nh đ tq

Trang 15

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

DANHM CTHU TNG

1 Al Artificial intelligence Tri tu nhant o

2 AUC Area Under The Curve Di ntichd id Reh 5

II Random Forest Classifier Phan lo ir ng ng unhién

1 ROC Receiving Operating Curve |D ngcongd ctr ng hot

A\ 13 SGD Stochastic Gradient Descent | D d cng unhién

14 SMOTE Synthetic Minority | K thut x ly can b ng

Trang 16

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

15 SVM Support Vector Machine Máy véc-t h tr

18 TPR True Positive Rate T 1 phan lo idu ` s9

19 XGB eXtreme Gradient Boost Tange ngd C

Trang 17

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

thành thành ph nc t lỗi trong cach th ng công ngh cao No da len! 1 Nà 5 các lĩnh v c trong đ 1s ng mà cóth chúng ta không nh nra Xet ha ogle va Tesla, tr ly o Siric a Apple,h th ng g 1ys nph mc a Amazon,‘h th ngt tag khu6n m ttrong nhc aFacebook;h th ng g iy phime a Netix h th ngdch đa ngôn ng Google Translate, may ch ic vay AlphaGo ya g “na day la AlphaGo Zero

c a Google DeepMind, ch lam t vai ng d ng n ng vô vàn nh ng ng d ngc atrítu nhânt o Trong đó, h c may (machine learning — ML) lam tt pcon

1, q ylàd 165t tlà cá đ 1t ng có các y ut nguyc nh : huy táp cao,

Trang 18

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

th phòng ng ađ cđtq y,gi mthiud cnguyc t vong vì đt(tq ym tcách ch đnghn Vì v y, bài báo cáo v ¡tên đ tà “D DOANB NHD TQ Y

NG ID A TRÊN CÁC MÔ HÌNH PHÂNL P”s môt mts ch s chínhdn

đnđtqy.D luc abàibáocáođ cl ymut nhi u nhóm tu ¡, gi ¡ tính, thói ế” quen và các vnđ v sckhe.I đód aranh ngd doánđ phòng ng ađ tq y- căn b nh tuy cũ nh ng không bao gi cũ vì nó v ndi nrah ng ngày, đ kv HN al, b t kỳ lúc nao

2.M c tiêu nghiên c u

Xây d ng thu t toán, tính kh thic a các mô aS, Nai lpd đoán

8 bnhdtqu ng id atrént pd li uthuth p LỘ “` althcare dataset stroke data’

- So im,nh cdi mgi acac m6 hinh thu t toan phan! p

b d Lud b cđucó cái nhnt ngquanv đ cđi mc ab vào d_ báo

nx lýb d lậutr ckhiđ a vào hu n luy n Trong đó bao g m, làm San d liubngph ngphápx lýd lí utr ngvàx lý các giấtr ngo il , sau A đó là chu nhóa ph m viphânb d li u

-Ti nhanhx lýd lễ ub ngcáchl ach n các thu c tính thíchh p cho nghiên c u, sau đó mã hóa các d l¡ u phân lo ithànhd lí ukius ,vàt1 uthành d ng d lí uki umatrnđ máy cóth h ct t

Trang 19

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

-Ù ach nramts mô hình phù h p trong s các mô hình phân Ï p d a trên ktqu d đoán chính xác trung bình ban đ uđ đ a vào hu n luy n mô hình

- Sau khi hu n luy n và có k tqu ,tI pt chi uchnh mô hình b ng cách tìm ra

các tham s t1 unh t, thay cho thams m cđdnhc a các thu ttoánđ đ ađnk (7)

qu d đoán chính xác cu 1 cùng - Đánh giá d a trên ktqu phân tích c a bài tán d đoán b nh đ `, 4 mo hinh phan! pdadtd c

3 Dit ngvaph mvinghiénc u 3.1 Dit ngnghiénec u

-B nhdtq yvanh ngy ut cónguyc dnđn TH, 1, -Nh ng mô hìnhh c máy liên quan đ nvicd d NO: tíchd li u, trong

đóc th lacac m6 hinh: KNN, RFC, SGD, SVM, Raia NB

3.2 Ph mvinghiénc u Ph mvith igian:t ngày 12/09/20 Ph m vi khong gian:

Nghiénce ud cth chi atré O eB d lucha 5110 A 112 thu c tinh thu cb d Ii u “healthcare

ay 18/12/2022

dataset stroke data” ®Các mô hình và Le c bne ahc may co gidm sat, trong d6 g m cac mô hình: KNN, read SVM, XGB, DT, LR, NB

nghiên c u tài lỉ u: tìm hi u các thong tin,c s_ ly thuy t co liên bnhđtq y và các mô hình phân Ì p trong h c máy; các thành t u lý thu wd td c có liên quan đ nở tài; cá ktqu nghiênc uvàs lh uth ngké ee ccôngb t icac bai bao,t pchitrongn cvaqu ct

A -Ph ng phap phan tich vat ng h p: phan chia cdc thong tin va tai li um t

cáchh plí,t đócóth thuthpởd c thành các nhóm, cácb phùh p.K tqu 1a thu đ cktlu nphùh p và chính xác v 1m c đích ban đ uc a bài báo cáo

-Ph ng pháp thuthpd lỉ u: thuth pcácd lut các bài báo liên quan đnbnhđ tqu vàthuthpb d lHậuởd c đăngt 1 trên kênh Kaggle.com

Trang 20

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

AX

-Ph ng pháp tr cquanhóad lỉ u:s d ngth vi n Seaborn-n 1cungc p nhì u mô hình đ v d h anh mth ng kê và tr c quan hóa các thông tin liên quan dntpd hu

-Ph ngphápti nx lyd li u:dnhd ngc ad li u theo cách phùh p, làm “ schd lub ngcachx lid h utr ng,x li giatr ngoil vati nhanh chu n hoa

- Ph ng pháp cần b ng mu - Synthetic Minority ing Technique (SMOTE -L ym u quam c thi us ft ngh p): là các pH ng pháp sinh m unh m gia tăng kíchth cc amuthius trong tr h pm tcân b ng bngmu.D gia tăng kíchth cẶĂmu,v im1m tnhó bh U S l8, chúng ta s

ch nrakm ug nnh tv Inó và sau đó th c h1 n các t inhd t oracac tac gi

mu -Ph ng phapx lid liu:t b deli > u, tt nhanhb clcva ma hoa thanhs liuphth pvimct

thams d thud cktqu nghiénc chinh xac ti unht Ti n hanhl a ch ncac thu c tính, sau đó ch Gy udngch sangkiud ludngs va

hiénc u,rittipdnhiuchnh

cu icung lachuy nd liu ang kiud li ud ng matr n -Ph ng pháp phâ ph ngphápt h c có giám sátc ah cmáy g m nhi u mô hình khác nhau, ø nghiênc uđd cpdnmtvnd môhìnhd đoán d atréent pd hu, ron dé nhan!l pd cd doanlab b nhđ tqu ho c không b b nh đ tqu acd lí uđu vào và các y ut cốónguyc dnđnbnhđ tqu

so sánh: phân tích sâu vào đ c đi mc th c acácđit ng

vành cđi m và so sánh tính hi uqu c acácb cnghiénc u © utrúc khóa lu n

N Idung khóa lu ng m3ch ng: Ch ngl:C s lý thuy t

Ch ng2:Chu ndoanb nhdiqu ng 1d a trên các mô hình phân Ì p Ch ng3:K tqu th cnghi mvàth olu n

Trang 21

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

6 Các công trình nghiên c u liên quan

Ngày nay, cácch đ v h c máy nói riêng và trítu nhânt o nói chungtr nên ngày càng ph bị n Đã xu thi nnhi u công trình nghiên c u và bài báo c a các tác gi trongn cvaqu ct v ch d nàyv Inhi ulĩnhv c khác nhau 7

D doánc ngd hénktgi ac tthépb dn mon val p bé tong xung quanh b ng ph_ ng phap XGBoost [3] Nghién c u nay s dng mt mo hi SG XGBoost d d đoán đ bn lên ktc ac tthếp b ăn mòn va | ề xung quanh.M tb d li ubaog m 2lŠ m u thí nghỉ mđãđ cthuth pt tài li u hi ncóđ xây d ng mô hình và ki m nghi mph ng pháp đ ~~ tqu tính toán cho th y mô hình XGBoostd đoán viđ chính xác a Shi do n hu n

aR

luy nvath nghi mth hin cacthdngs RMSE, M

Nghinc uc s khoah c ngd ng thu t tod dom Forest trong phan lo 1 nh v_ tinh Spot 6 v 1 khu v c th c nghĩ má I1tnh Cầ Mau [4| Trong ph m vi bài báo này, nhóm nghiên ti nhànhth nghị ttoánc aph ng pháph c máy (Machine Learning) trong phân lo 1r S m ntrên nhv tính SPOT6 v 1 khu vcth nghỉ mt1 Tnh Cà th chine anghiénc udadtd c2

`

đi mm 1đó là: ngd ngth ph ngpháph c máy (RF) trong phân lo 1 nh vi n thám; kh năng c a pháp phân loIđ c chi tỉ t theo loài th c vtc a r ngng pm ntikhuv c nghi m

qu ct,“ e of Deep Learning to Predict Stroke Patient Mortality” [5]

la bai bao dgdoan b nh d t qu b ng H c sau (Deep Learning), co gia tr di n tich d C)c aph ng pháp khá cao 83,48%, k tqu đ chính xác trung bint 7.Di mhnch c anghiénce u bao g mthi u phan tachd ludu Và ud liu theo chỉ ud c Ngoài ra, trong d li ukh o sat,d li u nay ch AX mcacloid l¡ï u theo đnh d ngnh phân

Trang 22

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

PH NII:N IDUNGVAK TQU NGHIENC U

CH NGI:C S LYTHUY T

1.1.T ng quanv h c may

H c may [1] hay mayh cc6ténti ng Anhd yd_ la Machine 1N

cD

h 1 và hoàn thanh cac nhi mv ,d ng th ilacachd cithi nhi usu gian la ML Thu t toan Machine Learning 1a cac ch ng trình máy tính có a

vo cung hi uqu

Ngoai ra, Machine Learning cond c bi t la còn là công ĂẾN p at tri nt lĩnh

v ctritu nhân t o tiên t nnh thi nnay.Ð đmb NOs! sai 1 ch và không xuthind liugi, Machine Learning v nc Bik hi uval ach nk

N anth gii.S tangtr ngv t

thu tphântíchd hl ut conng 1

H c máy ngày càng mang tính ph bị

bccad lặậuln (Big Data) và các t achine Learning đã c 1 thi n đ

chính xácc anh ng mô hình vàd đ

Có haib c (phase) Ï 1 bài toán machine learning là b c hun

luy n (training phase) va b ° (test phase) Trong đó,b chu nluy ns ch dùng d li uhu nluy n,

1.1.2 ngd ng m

H c mayyngay eang d c ngd ngr ng rai, da linh v c trong th cti ncuc

nay Machine Learning dang d cs dngvim c dich phan

mth s ch dungd li utrongt pki mth

phân tíchd liut h th ng v_ tinh, thu t toanh c mays ti nhanhx ly va cung c ptibnnh ngthéngtinv s | ng khachhangt 1 baid u xe, cacho td ngv n chuy n,snl ngsnxut.V c bn, nó làm t cách t1 pc nđ xác dnh và phat hincacdctr ngc amtdit ngtrong hình nhk thuts Hnhn a,k thu t

Trang 23

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

nay cOth d cs dngd phân tích sâuh n,ch nghnnh nh ndngmu,nhn đi n hình khuôn, nh n d ng khuôn m t, nhn d ng kýt quang h c vành uhn n a,

Phân lo ¡ tint c[7]làm t ngd ng đi m chu nkhácc aph ng pháph cấC máy Nh m tv nd th ct làbâygI kh 1l ng thông tin da tang lénr tnhi u trên web Tuy nhiên, m 1ing I1cós thích ho cl ach n cá nhân c a mình.¿Vì &® y, 4 ch nho c thuth pm tph n thông tin phùh ptr thành m t thách th Ln"E i dùngt vô s n 1 dung trên trang web Phân lo 1 các danh m cm t các ràng, d di uh_ ng giúp cho các khách hàng m c tiêu ch cch ns tăng năng truy c p các trang tnt c.Hnn a,đcgi hocng 1I1dùng có th ¿ìmzki m fe c th mt

ngày nay M ttrong nh ng vid nit Facebook News Feed Ngu nc p tnt cs dnghcmayd cá nhân hd guncpd li uthanh vién N um t thanh vién th ng xuyénd ng c thích m t bài đăng c am tng 1bn c th , News Feeds btd.u nhiuh nv hotd ngc ang ibndotr c đó trong ngu ncpd li sauh th ng y,phnmms d ng phan tich th ng kê và phân tíchd đoán đ đnh cám utrongd liung Idùng vàs d ng các m uđóởđ di 0 aN) Fo N u thành viên không còn d ngl 1đ đ c, thích ho c bình lu n trém cae bai dangc ab nbe,d liumidos d cbaog mtrongtpd

gp nangt ngt đó qua các m ng xãh 1khácnh Google, Instapram,

1v 1 vi c kinh doanh c am t cong ty [8] co hangtnd hu(tpng 1 ung,d li utaichinh,d lí usnphm,d luth ngkêđ ng dây nóng, báo cáo nhân s, )h c máy có th : phân đo n khách hàng vàch nchỉ nl ctipth ttnh t cho m 1 phân khúc; đ xu tcác s n ph m phùh p cho khách hàng d a trên s nph m muad cbinh ng khách hàngt ngt ; phát hi nnh ng giao d ch cókh năng cao làøg! m o;d báo doanh thuc a năm sau

Trang 24

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

T ngquanv ikhai phád lỉ u Khai phád lí uvàh c máy là hai khái n m hayb nh mÌ] n Hai lĩnh v c này nhìn chung ø n v ¡ nhau và đôi khi dùng chung nhi uph ng pháp, côngc nh ng ) khác bi tchính là m c tiêu:

- Khai phad lỉu:th ngm c tiêu là tìm ki mnh ng thông tin, trị hạ Ều 4 toanm iti mnangc6 ich trong ngu nd li u

- H cmáy:d đoánm ts thôngtinc ad liud atrénnh ngdc da bi t

1.1.3 Phan lo icac ph ng phaph c may X

Thu t toanh c mayd_ c chia thanh 4 lo 1 [1] b Dh oBidm sat, h c

không giám sát,h c bán giám sát vàh ctăngc ng C ` 1.1.3.1.H c có giám sát (Supervised Learning) CS

an d

- Supervised learning [9] la thu t toán d a(outcome)c amtd liu

m i (new input) d a trén cdc c p (input,

cond cg ila (data, label),t c(d li

nh t trong cac thu t toan Machine GC)

-M tcach toanh c, Su vao X = {x1,x2, XN

dabitt tr c.C pd liu nay Supervised learning la nh6m ph _ bi n

learning la khi ching rac6m tt ph pbindu ttphpnhant ng ng Y = {y1,y2, yN }, trong d6 xi, yi là các vect acc pd liubittr c(xi,yi) Ee Xx¥d cgila t p training data (d u nluy n).T t p training data nay, ching tac nt oram t

hams anh iphnt t tpXsangmtphnt (x px)t ng ngcatpY:

Trang 25

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

1.1.3.2.H c không có giám sát (Unsupervised Learning) - H ckhông giám sát [I]s d ngnh ngd luch ad cgannhans nd suy lunvatimcachd mét d l¡ ucùngc utrúcc a chúng

- nøgd ngc ah c không giám sát đólàh tr phân lo 1 thành các nhóm có đ c ⁄) đi mt ng ng

1.1.3.3.H c bán giám sát (Semi-supervised Learning) 4 -H c ban giam sat [1] lad ng k th p gi ah cco giam sat vah giam sat

- Trong đó, nó k th pcác víd có nhãn và không nhãn d XS m thamho c

m tb phanlo ithichh p %

1.1.3.4.H ctange ng (Reinforcement Learning) C `

she hay h c không giám A2 8

O01 tr chóng và t o ra nhi u thu t toán -H ctange ng [1] khong d a trén vi c

sat, ma cac thu ttoanh ccacht phn ngva@ -Ph ng pháp h c này đang phát tr h ct p,h uich trong lĩnh v c Robot, trẻ 1.1.4 Phân c m và phan! p CS

Cac p c mph bi n[I10]:

ng phap phan t ng (hierarchical methods) phap phan m nh (fragmentation methods)

h ngphap! 1 (grid-based methods) - Ph ng phapd a vao m6 hinh (model-based methods) - Phanc md avao rang bu c (constraint-based clustering)

Trang 26

Khoa lu nt tnghi p GVHD: TS Hoang H_ u Trung

1.1.4.3 Phan 1 p (Classification)

Phan | p [11], hay con g 1 la phan lo i, la vi c phan tich d li ud atrént p hu nluy n, giatr hay lanhanl pce a m tthu ctinh phan! pd t ol pcac mo hinh m6 t cdc phan! pd li u quan tr ng.Nh ng phân tích đós giúp chúng ta hi u sâu ế” ) hnv d lu mcl nvabao quath n

e Phan lo im temail lath phi n (spam) hay không e D doanxemng_ inghe thich bai hat hay th lo inh c nao e Ch nph ngth cdi utr phuh pchocacb nh nhân XK

ĐÐ ctr ngc a mô hình phân Ï plàh cd a trên t Lum A'S s n Nh ng

d li u tho d u vao (nh : van b n, hình nh, âm than chuy n d i thanh cac

©

vec(or S chi uc a các vector này tùy thu c vào hì nghpe th.Dcbit

an | trong các chi u này, có m t chỉ u ch a nh cOsnt ng ngvit ng tr ngh pe th

Trang 27

Khoa lu nt tnghi p GVHD: TS Hoang H_ u Trung

1.2.Cac ph ng phap phan! p

M t bai toand cgilaPhanl pn ucacnhandance ad luduvaod c chia thanh m ts h uhn nhóm Ví d : Gmail xác đnh xem m t email co ph 1 1a spam hay không; các hãng tín d ng xác đ nh xem m t khách hàng có kh năng thanh ” ) toánn hay không

Trong bài báo cáo này s d ng 6 các thu t toán phân Ï p [12] đ doa 4 g m: Decision Tree, K-Nearest Neighbor, Logistic Regression, Naive ndom Forest Classifier, Stochastic Gradient Descent, Support Vector MachinejeXtreme

1.2.1 Support Vector Machine (SVM) Support Vector Machine [13] la ph ng pháp;phân I m tkhaini mv th ng ké va khoah c may tinh chom tt ph p cac ph ng phap h c có giám sát liên

Trang 28

Khoa lu nt tnghi p GVHD: TS Hoang H_ u Trung

Cách th c ho td ngc a SVM: Cach th chotd ngc aSVMd_ c phat bi u nh sau,chot pd liuD nh sau: (X¿, y;), (Xo, yo), , (Xp), yIp|) V 1X; lat p cacd lh uhunluy ng nlinv icacnhanl pt ng ng y; (nh nm ttrong hai gia tr la +1 hay -!l (t ng ng vi nhấn | p buys_computer = yes ut) buys_computer = no)

K-Nearest Neighbor [14] la m t trong nh ng thu ttoánt h cc átđn øi nnh t(mà huqu trong m t vài tr ngh p) trong ML Khi hu n n, thu t toan nay kh6ngh cm tdi ugit d li uhu nluy n (day citing lay do thu t toan nay d cx pvao lo i lazy learning), m 1tínhtoánđ cth indc hd doank t

qu cad lhumi.KNNcoéth apd ngd cvaoc LC abàltoánt h ccó giám sát là Phân Ï p và Phần c m KNN con d 4c t thu ttoánh cd a trên vid (Instance-based) hay h cd atrénb n ory-based learning)

s\, Category B

=

° ® «

` New data point eM ° , assigned to

Trang 29

Khoa lu nt tnghi p GVHD: TS Hoang H_ u Trung

V IKNN, trong bài toán phần Ì p, nhãn dán c am tđi md lium i(hayk t qu c acâuh 1trong bài th) đ csuyratr ctipt Kdimd lh ug nnh ttrong traimmng set Nhãn dán c am td liuki mth (test data) c6 th d cquytdnh b ng b uch ntheos phi u (major voting) gi a các đ mg nnh t,ho c nócóth “ đ c suy rab ng cách đánh tr ng s khác nhau cho m 1 trong các đi m g nnh t đó T 1 suy ra label Trong bài toán h 1 quy, đ urac am tđi md lius b ngchính 4 racadimd ludabitg nnht(trongtr ngh pK =1),hocl ình có tr ngs c ađurac anh ng đi mg nnh t,ho cb ngm tm 1 quan ñ›d a trên kho ng cách t 1các đi mg nnh t đó

M tcách ng ng n, KNN là thu t toán di tìm đu Mi 2d l um 1 b ng cách ch d a trên thông tnc a / đi md ii u tr g u nluy ng nnónh t (K-lân c n), không quan tam d n vi c cém t vai aid i utrongnh ng dimg n nh tnday la nhi u

1.2.3 Random Forest Classifier

Random Forest Classifier [1 t toán h c c6 giam sat (supervised

d lud ow’ cd đoánt m I1 cây và ch n øi 1 pháp t t nh t b ng cáchb ru

cp mtch bao khat tv tm quan tr ng c a tính năng

Random forests t o ra cây quy t đnh trên các mu

MESULT-1 RESULT-2 RESULT-N

Hinh 1.4 Vid v_ bai todn Random Forest Classifier

Neu n: datamahadev.com

Trang 30

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

và Ì ach n tính năng Nó cóth đ cs dngđ phân lo Icác ng viên cho vay trung thành, xác đ nh ho t đ ng gian lnvàd đoán các b nh Nónm cs ca

“)

thu ttoán Boruta, ch _n các tính năng quan tr ngtrongt pd li u

Cácb cth chi ntrong thu t toanc a Random Forest Classifier:

e Thi tl pcay quy tdnhchot ngmuvanhnktqu d doa bquy t d nh cay

e Chnktqu d cd doannhi unh tlad ww °

1.2.4 Logistic regression (LR) ©

Mc du tén gich at “Regression” nh meas là thu t toán thu c loi “Classiicatlon” Th ct choth y nó làm nh “ng thu t toan Machine Learning d cs dngph bi nnht

H 1 quy logistic [16] la Cy: h c may d phân lo 1 Trong thu t toán

Zz

nay, cac xac su t mot các k

mô hình b ng ham logistic Wy

D urad anc a “ regressionth ngd cvitchungd id ng:

c g 1 1a logistic function, f() dc g 1 la activation function,

xX yracamtth nghimdnld clp

va Xd hiulad lum rngvix=1d cthém vaod thunti nchovic

\ Logistic Regression la m t lo i thu t toan t h c có giám sát, tính toán m 1 A quanh gi a cac thu c tinh trong d u vao va d u ra d a trén ham logistic ho c

sipmoid Thu t toán này không d_ đoán ra giá tr th cnh_ cac thu t toan Regression khac, Logistic Regression d c dùng đ d đoán ram tktqu nh phân (v 1 giá tr 0/1 hay - 1/1 hay True/False) d a vào đ u vào c a nó Cũng chính vì v y mà nó thu c nhóm các thu t toán phân L p lo 1 (Classification)

Trang 31

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

1.2.5 Naive Bayes (NB)

Thu t toan Naive Bayes [17] d atrén dnhly Bayesv igi thhtv s dclp gi amiicpdctr ng Trinh phan lo i Naive Bayes ho t d ng t t trong nhi u tình

hu ngth ct nh phanlo itaili uval cth rac 7)

Cong th c Naive Bayes [17]:

Poy) < PHY POD \)>»

» P(x)

Naive Bayes la m t thu t toán d a trên đnh lý Bayesv lý thuy t xác su t đ đ ara các phán đoán cũng nh phân lo 1d lí ud a trên các d Nước quan sát và th ng kê

Nó là m t trong nh ng thu t toán đ c ¬ ø Ft nhi u trong các lĩnh

án chính xấc nh td trênm ttpd lu

v cMachine learnng dùng đ đ acácd đo

dad c(thuth p, vì nó khá d hi u và đ ác cao, thu c vào nhómt h cco

,m imud _ cch nng unhiénthay vitoanb t pd lh ucho

nay N6d_ cdungtronge bai toan phan! p vàh 1 quy

Trang 32

Khoa lu nt tnghi p GVHD: TS Hoang H_ u Trung

Chom td li ug mcacthu ctinhcungv icacl pe ano, cay quy tdnht o ram tchu icac gquytccé6th d cs dngd phanloid lh u Cay quy tđnh là

cay mam inttbi udi nm td ctr ng (tinh ch t), m 1 nhanh (branch) bi udi nm t

quy lu t(rule) vàm ¡ lá bi ubi nm tktqu (giátr c th haym tnhánh tỉ pt c) ⁄)

c ano th ni am NED c th cho bi n đó.M 1 nút lá đ 1di n cho giátr d đoán

chotr ccac giatr c acacbind cbiudinbid ngdit

% Boost (Extreme Gradient Boosting) [18] là mt gii thut d_ c base n gradient boosting, tuy nhién kem theo d6 lanh ngcitintolnv mtti u A Ser s kth phoanhogi as cmnhphnmmvaphnc ng, gitpd t

đ cnh ngktqu v ttric v th Igianhu nluy ncũngnh b nh s d ng

Mô hình này đ c bi tđnv 1 tính ch t linh ho t và tính hi u qu Ð cbi t, XGBoost dad c ngd ng trong qua trinhs nxu tc a các công tylÌ nnh Amazon,

Trang 33

Khoa lu nt tnghi p GVHD: TS Hoang H u Trung

SVM | Hiu qu trong không gian chiu|- Nus 1 ng nang

cao.V n hiu qu trong tr nghps |I nh hiu so vis

-S dngm tt ph pconcac di m đào virc ch n các hàm t o trong ch c nang quy t đnh đ° rnel và thu tng_ chính

g ilavect h tr ), do đó, nó uy hóa làr t quantr ng

qu v b nh - Cac SVM khong tr c ti p - Linh ho t: cac ch c na cung c pcác c tính xác

nhau cóth đ su f, chúng đ c tính toán

quy t đnh Các b ngcachs d ng xacth c d c cung Cop ng cũng có th ch | chéo nắm ndttin đ nh các h TỒN, ch nh

KNN -D t p tinh toan c a qua trinh|- Tr nên rtch m khis

nluy nlab ng 0O 1 ngdi md li u tang lén d đoánktqu c ad lum 1| vì mô hìnhcnlutr tt rtd ngin (sau khi da xacdnhd cị|c cacdimd liu

Trang 34

Khoa lu nt tnghi p GVHD: TS Hoang H u Trung

Logistic | D cthi tk chom cdichphanloi | Ch hotd ng regression | ˆ H uichnhtd hiu nhh ngc a| đoán là nh phân d nh

mts bindclpdivimtbin/rng ttc cac bin d

thu c tinh 1 uvatr c quan - Có th to ra các cây - Yéuc uchunb itd lu và cóth | khôngt ng quát hóa t t x lye d lius vàd l¡ uphân lo 1 |- Cóth không n đnh vì

cac bin th nh trong d lucóth dnđnvictoO ram t cây hoàn toàn khác XGBoost |7 Là m t thu t toán m nh m, có đ | Thu t toán khá ph c tp,

chính xác cao tn nhu tài nguyên khi

“)

Trang 35

Khoa lu nt tnghi p GVHD: TS Hoang H_ u Trung

Tr cquanhóad lí u[19lvàm tb cc bnđutiênc ahec

môt d lí um tcách đ ngi nnhtd id ngcachinh nhtr c quan ng, bi u d ,d th hays dngcacph ng pháp, côngc khác nhau đ tr, c quan hóa và minh

had liud cttnht `,

¥ Lể ` wr

ma con giup han tichd lI u phân tích khaithácd li uti u.Ph ng phap tom t t, trì rong Statistics la m t ph nn m trong Data Visualization vi no liên victh hi n,môt d lậu (các bị n) đnh tính, đnh Ï ngd 1dng

hùh p, cũng làm td ngtr cquand li u Ñ ts th vinn 1t ngdùng đ tr cquanhóad lí ub ngngônng Python

A nh _ : Pandas, matplotlib va seaborn

1.4.2 Ti nx lyd li u (Preprocessing)

Trang 36

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

Tinx lýd hu([20)lamtb crt quantr ng trong vi c gi iquy tb tky vnd naocaHcMay.Huhtcacb d lud cs d ngtrongcacv nd lién quand nH cMayce nd cx ly,lams chvabinditr ckhim tthuttoanH c Máy cóth đ chu nluy ntrênnh ngb d liu.Cáck thuttinx lyd liuph #& bi nhi n nay bao g m:x lýd lí ub khuy t (missing data), mã hóa các bi n nhóm

(encoding categorical variables), chu nhédad_ li u (standardizing data),

D li utr ng xu thi n khi bi n khong nh n giatr nao trong m t sat D l utrngđ cth hinb icacoétr ng (ho c giatr NaN) trong bégd li u

dydd lu N

Itlàt các khosát ng 1tr l1 không mu nởi n thông tin cá n |

o Ng inh pli unh psaid ø tin khôngh p[ (coinh b tr ng)

o Trong qua trinh thu th pd li u,

- D bh utr ng hoan Jog unhién: xac sutd liub tr nglanh nhaud i Vy 1m 1 quan sat; h ông cóm iquanh nao gi ad li utr ng vacacd li u khác

gm tcách không ng unhiên:d li ub tr ngm tcachcoh m Iquanh gi ad lhl utr ngvacacd li ukhac lýd h utr ng [21]:

- thu t 1: Xóa các quan sát có b tkỳphnt d lậunàob b tr ng Tuy aX nhiên, k thu t này khá nguy hi mb 1 vì các quan sátb loI1b cóth ch a

thông tin quan tr ng - K thu t2: Thayth giátr c ad li utr ngb ng:

©°e Giá tr trung binh/trung v/gliá tr xut hin nhu nht (Mean/Median/Mode 1mputation)

Trang 37

o Todctr ngm i (Create a new feature) danh d u cdc quan sat ch ad oF )

liutr ng B ngl.2.Sosdnhcack thutx lwd li utr ng `"

1 Thay th |-K_ thu t này gi đnh|- D th Làm thay di

b ng rngd lh utr ng hoan| (it b ph ng sai ca

-Thay th d liutrng|b bind i ngu nhiên cũng

bng các giá tr ngu nhiéne ac tt ng ng

- Dung ham dropna()

Trang 38

Khoa lu nt tnghi p GVHD: TS Hoang H u Trung

¬Š

- K_ thut này đ c dùng khi có nghi ng rng:d lậutrngmt cáh KHÔNG ngu nhién (vd: ng 1 già d b cht trong th m ho hn=>kh năng ko có thong tin v Tui cao h n).C nn mb t thong tin quan tr ng nay

- Thay th d llutrn b ng gia tr đuôi phanb d hu

-D thchin - Nm Ot d ctm quan

tr ng (nu có)

ca d lu

tr ng

- Cóth làm méo mo phan b d liuc abin -Nus uy ©>

quan tr => k Na ^ C gi Ring | cd

baoc abi n

XS

-Nus | ngd liu tr ng laln => k thu t này làm n đi các giá tr ngoil the

5

-Nus | ngd lu tr ng là nh => k thu t này t O ra m t giá tr ngo 1Ï ngoài d

b tkỳ d li utr ng (nqucó)c ad |bin

- Thayth d liutr ng Huữn - Nu s khuy t bngm t giá tr t chn d lu không

“)

Trang 39

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

b tkỳ quan tr ng => k

thut này làm øim năng lcd báoc abin ⁄) - Khó xác đ

giá tr C 5 dùng

5 To dc|-D c dùng khi có ngh|Nmbtđ ec Vic tăng s

trngmi |ng d liu trng mt|tm quan tr chit" ad liu

cách KHONG ng ul (n Đi, ng cách thêm

nhiên li nữ đc trng (bi n)

- Thayth d liutrn gây ra nh ng khó khăn cho mô hình

hoá d liu b ng Ïl trong các

lýd lí utr ngcó uvành cđi mriêng

Trang 40

Khoa lu nt tnghi p GVHD: TS Hoàng H u Trung

- Thôngth ng trên Box plot: gán các giá tr n m ngoài d 1[Biên trên, Biên d ijlangoil vi:

M cdiche ax ly giatr ngoil:X lyd h ungoil nh Mgi mt i đa các tác d ngx u(tuym cd )dnhi usu tc acac thu t toa ay 9

Giiphapx lythédngth ngg m2b c: N\ e Xac d nh cac gia tr bién trén va bién d cad liu

Chu nhéad l¡ u là [224 vi⁄<€:sêa luv m tphânb trong đó giá tr trung bình ca các quan sátb “ đ Ichchu nbngÏ.Nh vi cchu n hóa, các thu t toan phan! p trong hee@ymay

Tpd huth nge gia tr M i quan s ng d_ c bi u din thanh | di m trong kho6ng gian vec-t

nhi u chi u chiubngs dctr ng H uh t cac thu t toanh c may (d mô hinh dùng kho ng cach Euclid gi a2 di md _ tinh toan Viv y, các dc m cđ đóng góp vào hàm kho ng cách này khác nhau ph thu c vào

gnitude) c a chung Di u nay không công b ng đ 1v 1đctr ng có giá tr h vìm ts bi nthiênnh c ađctr ngnàycóth có ý nghfat ng ngvimt AS bi nthén!l nc amtdctr ng khac co gia tr 1 n Do d6, c n ph 1 lam cho các

Ngày đăng: 16/03/2023, 23:47

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN