đề tài phương pháp phân lớp và phân cụm dữ liệu về bệnh tim mạch

Với cương vị là những sinh viên của đại học kinh tế Thành Phố Hồ Chí Minh, chúng em đang không ngừng nô lực học tập, trao dồi kiến thức, liên tục đổi mới và ứng dụng khoa học công nghệ v

LI Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu LÌ Phân cụm thuộc nhóm phương pháp học không giảm sat (unsupervised learning) vì không biết trước được số nhóm (khác với bài toán phân lớp) ] Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:

LJ Độ tương đồng bên trong cụm cao O Độ tương tự giữa các cụm thấp (khác biệt cao) L] Các ứng dụng điển hình:

Ll_ Công cụ phân cụm đữ liệu độc lập LÌ Là giai đoạn tiền xử lý cho các thuật toán khác 1.5.2.4 Phép đo phần cụm Được sử dụng làm tiêu chí nhằm tính toán sự tương đồng/sai biệt giữa các đối tượng dữ liệu nhằm phục vụ cho quá trỉnh gom cụm

Một số phép đo độ phân cụm:

Euclide: Với 2 điểm: P=(p:,, , pu) và Q = (q], q›, , da) Thi khoảng cách Euclide được tính bằng: (p¡ — qi)’ + (p2— qz2)’ +

O Cosin:cosp= là li vì lựi n iL

1.5.2.5 Phân loại một số phương pháp phân cum chính A Hierarchucal Clustering (phan cum phân cấp) Phương pháp phân cụm phân cấp là phân tách một cụm, một tập hợp đữ liệu theo cách phân cấp Hình thức phân cụm này xây dựng nên một cây phân cấp cho đữ liệu dựa trên 2 yếu tố:

_ Ma trận khoảng các giữa các phần tử: similarity matrix hoac dissimilarity matrix

LÌ Độ đo khoảng các giữa các cum: link single, link complete, link average, link weighted, link ward

- Phuong phap nay khéng can xac dinh truéc s6 cum sé phan nhung can phai xac định trước điều kiện dừng

Một số phương pháp của phân cụm phan cap: Agnes, Diana,

Ste Step 1 Step2 Step3 Step 4 : fae joe eee Geet tao agglomerative

Step4 Step3 Step2 Stepl StepO (DIANA)

Hinh 2: M6 hinh phan cum B K-Means

-_ Là phương pháp phân cụm dựa trên phân hoạch (Partitionining Clustering) - K-Means là thuật toán rất quan trọng, được sử dụng trong phân tích tính chất của cụm/nhóm dữ liệu và giúp ta xác định được các cụm/nhóm của đữ liệu

- _ Tư tưởng chính của thuật toán K-means là tìm cách làm sao đề có thể phân nhóm những đối tượng đã cho vào các cụm đã được xác định trước với điều kiện số cụm > 0 và phải đảm bảo rằng tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm là bé nhất.

Orange là một phần mềm học máy tính thông minh, được viết bằng ngôn ngữ điện toán Python, giúp người đùng có thể để dàng sử dụng mà không cần kỹ năng mã hoa Orange co thé phân tích nhiều loại dữ liệu, từ đơn giản đến phức tạp, hoặc đọc những tài liệu ở các định dạng khác nhau nhờ việc kết hợp nhiều tác vụ Bên cạnh đó Orange còn mang đến cho người sử dụng một giao điện với đồ hoạ đẹp mắt nhờ tập hợp các wIdget sinh động, giúp cho việc tương tác giữa người sử dụng vả ứng dụng trở nên thú vị hơn, giảm bớt các công cụ phân tích rườm rà, gây không khí buồn tẻ

2.1.2 Đặc điểm và tiện ích

Lý do khiến cho người dùng có thê đưa ra được những quyết định chính xác trong khoảng thời gian ngắn nhưng vẫn có tính hiệu quả đó chính là orange dùng cách tiếp cận bằng thuật toán dựa trên những thành phần độc quyền giúp chúng có thê so sánh và phân tích dữ liệu một cách nhanh chóng Kỹ thuật cover vả quan điểm trong Data Mining và học máy là nguyên tắc hoạt động của Orange

Các toolbox cung cấp cho người dùng những chức năng để dàng sử dụng:

- _ Data: Chức năng chính là rút trích, biến đối và nạp dữ liệu

& Untitled - Orange File Edit View Widget Window Options ủ 9 H

Data Table Paint Data Data Info Rank ơ Fcature tT” @ /

Edit Domain Color Save Data

# _ Unsupervised Hinh 3: Giao dién toolbox Data Transform: là nơi lựa chọn các dữ liệu có chứa điêu kiện

& Untitled - Orange File Edit View Widget Window Options H

LrH| Data rT | ae | Bae

Hinh 4: Giao dién toolbox Transform - Visualize: noi chira cac biéu dé ding dé biéu dién, gitp cho viéc quan sat dir liệu một cách dé dàng, tiện lợi

& Untitled - Orange File Edit View Widget Window Options ft

Aim : mm Se °° "Tee / ae \

' S & v8 oo FreeVe E _— Radve uu @ vi Pythagorean

Hinh 5: Giao dién toolbox Visualize

- Model: gém các hàm may hoc (machine learning) phan lop dir ligu véi Tree, Logistics, Regression, SVM

@® Untitled - Orange File Edit View Widget Window Options

Hinh 6: Giao dién toolbox Model Evaluate: các phương pháp đánh giá mô hình máy hoc: Test & Score, Prediction,

@ Untitled - Orange File Edit View Widget Window Options H r3 Unsupervsed

Hinh 7: Giao dién toolbox Evaluate - Unsupervised: Ky thuat phan cum dtr ligu nhu Distance, K-Means,

@ Untitled - Orange File Edit View Widget

Distance Fie Datance vray Matrx

Distance Herarchxa Map Clustering eens ses

ESCAN Maniold Learning ° on % e+e ° “2 38 °h se ene

Hinh 8: Giao dién toolbox Unsupervised

Tiền xử lý dữ liệu:

Bước I: Nạp dữ liệu PL.esv Bước 2: Truyền đữ liệu từ widget file qua widget data table đề quan sát đữ liệu Thông tin dir ligu: 14662 instances (no missing data), 12 features, no target variable, no meta attributes)

=>Dữ liệu an toàn, phù hợp không cần tiền xử lý dữ liệu

* Giới thiệu các phương pháp khai phá đữ liệu được dùng trong đề tài 2.1.3 Phân cụm dữ liệu

2.1.3.1 Thực hiện qua các bước sau:

J1 Bước l: Chọn k điểm dữ liệu làm điểm tâm (center), (ví dụ như thuật toán MacQueen là lẫy k điểm dữ liệu đầu tiên)

Bước 2: Phân mỗi điệm dữ liệu vào cụm có tâm gân nó nhật vê mặt khoảng cách

Bước 3: Tính lại điểm tâm của các cụm Xác định trung binh cộng của tất cả các điểm trong cụm

Bước 4: Lặp lại quá trình trên bắt đầu từ bước 2 cho đến khi không có sự thay đổi về cụm của các điểm dữ liệu

2.1.3.2 Phương pháp đánh giá phần cụm dữ liệu

Trong bài này chúng ta sử dụng chỉ số Silhouette Index để đánh giá phân cụm

Phương pháp chỉ số Silhouette với mục đích cung cấp số đo lường đề xác định xem dữ liệu được gán vào một cụm thì có phù hợp hay không Phương pháp này tính toán dựa trên sự tương đồng giữa các điểm trong một cụm và phân biệt sự khác nhau g1ữa các cụm khác nhau dé do lường độ tách biệt

Công thức tính §¡= (b; _ q)Í max(dj, b;) Silhouette:

Giá trị silhouette dao déng tir trong khoang (-1;1) Khi giá tri cang gan vé | thi điểm dữ liệu đó đã được gán vào cụm phù hợp và tách biệt với các cụm khác, còn khi giá trị càng tiến vé -1 thê hiện rằng điểm đữ liệu đó không phù hợp với cụm của nó và nên được gán vào cụm khác

2.1.4 Phân lớp dữ liệu 2.1.4.1 Các bước thực hiện phân lớp

Bước 1: Xây dựng mô hình phân lớp:

3.1 Tiền xử lí dữ liệu

L1 Tiền xử lý dữ liệu giúp việc khai phá dữ liệu hiệu quả và chính xác hơn Những dữ liệu được khai thác cần được biến đôi, làm sạch và xử lý trước, vậy mới có thé bao đảm được dữ liệu một cách tốt nhất

O Tiền xử lý dữ liệu gồm có các quá trình như sau: làm sạch đữ liệu, tích hợp và biến đôi dữ liệu, rút gọn đữ liệu Ngoài ra, hiện nay các kỹ thuật tiền xử lý dữ liệu ngày càng phát triển và phố biến hơn như: xử lý đữ liệu bị khuyết (missing data), chuẩn hóa đữ liệu (standardiling data), mã hóa các biến nhóm (encoding categorical variables), co giãn đữ liệu (scaling data)

LJ Ta tiến hành xử lí dữ liệu bằng các bước trong phần mềm orangc:

8 Dữ liệu trước tiền xử lí ry Datn @® Peeprocessed Data _„ Selected Data >

Date heart disease ” Select Columns Preprocess Dữ liệu sau tiền xử lí Save Data th

Hình 10: Các bước tiền xử lí dữ liệu

LI Nạp dữ liệu: “Data heart disease (nhoơm 4).xẽsx” vào file

{1 Date heart disease - Orange aa 0 x

Source © File: | Downloads\Data heart Disease (nhom 4).xisx v ‘a G Reload © URL:

File Type Automatically detect type

14 features (0.1% missing values) Data has no target variable

O meta attributes Columns (Double click to edit)

2 Sex categorical feature female, male

3 Cp categorical feature asymptomatic, atypical ang, non-anginal

5 Chol numeric feature 6 Ƒbs categorical feature 0,1

7 Restecg categorical feature ST-T abnormal, left vent hypertrophy,

Hinh 11: Giao dién nap dữ liệu vào “file”

O Để xem đữ liệu chưa qua tiền xử lý ta kéo chuột nối từ “File” với “Data Table” sau đó double click vào “Data Table” để quan sát dữ liệu

— Dũ liệu trước xử lí - Orange a oO

Info Age Sex cp Trestbps Chol

34 fashumes (0:1 % missing ita) 1 63 male typical ang 145 233 1

No target variable 2 67 male asymptomatic 160 286 0

@ show variable labels (if present) 5 41 female atypical ang 130 204 0

C) visualize numenc values 6 56 male atypical ana 120 236 0

Color by instance classes 7 62 female asymptomatic 140 268 0

Seledion 8 57 female asymptomatic 120 354 0 fede all renee 9 63 male asymptomatic 130 2540

Rests Oioina Ove 2 64 male typical ang 110 2110 a Send Automatically nl

Hình 12: Dữ liệu chưa qua tiền xử lí

Từ bảng “'Data table'ˆ, ta có thế thấy được có 303 đối tượng (hàng), 14 thuộc tính

(cột) và 0,1% đữ liệu bị thiếu

O Đề tối ưu đề tài và xử lí đữ liệu, nhóm chúng em đã lượt bỏ một số biến có dữ liệu không phù hợp và chọn những biến quan trọng để xử lí Sử dụng “Select columns°ˆ để chọn những dữ liệu quan trọng cho việc xử lí Đồng thời thao tác cho việc chọn biến để xử dụng trong bảng “Features'' và chọn “Num”ˆ làm biến phụ thuộc (Target)

1D Setect Coumes - Orange a le cars

Hình 13: Loại bỏ biến bằng công cụ Select columns

O Sau do, ching ta sé đi tiền xử lý đữ liệu bằng cách nối “Select Columns” với

“Preprocess”, trong “Preprocess” => “Input Missing Value” chon “Replace With Random Value”

% Preprocess - Orange — Oo a impute Missing Values

~+™ Discretize Continuous Variables - ©) Average/Most frequent Continuize Discrete Variables

Impute Missing Values © Replace with random value

Select Relevant Features ©) Remove rows with missing values

>> Randomize Remove Sparse Features Principal Component Analysis CUR Matrix Decomposition tị < °† a Apply Automatically

O Sau khi da xtr ly xong dé xem dit ligu chung ta kéo tir “Preprocess” => “Data Table” va luu dữ liệu ding “Save Data”

[F Dũ liệu sau tiền xử lí - Orange kho Nom Age Sex Thalach Restecg cp hol Trerbps Fbs

303 instances TT = (no mnessing data) : 67 male 108 left vent hypert 160 0 1

@ show vanable labels (iF present) 7 53 male 155 4011 1

CO) Vsuakze mumere values o 56 male 142 130 1 1

G Color by instance casses v 48 male 168 3 110 0 0

GB seect tun roms z i 58 male 173 2 132 0 0 a Gi 60 male 132 asymptomatic 130 0 1

Là 44 male 153 1120 0 s § 60 male 144 130 0 1 s i 54 male 109 124 0 1 z Í 50 male 163 140 0 0 ss 41 male 158 110 0 0 a @ 51 female 142 130 0 1 a fj 58 male 131 16 128 0 1

6 ii 54 male 113 188 120 0 0 o ii 60 male 142 282 145 0 1 °ứ ii 60 male 15 185 140 0 0 o 7 59 male 14 16 170 0 1 nm ẹ 46 male 147 231 150 0 0 z 67 male 163 normal ti 254 125 1 0

Hình 15: Dữ liệu đã qua tiền xử lí

Bộ dữ liệu sau khi xử lí chứa 303 đối tượng (hàng), 9 thuộc tính (cột), l thuộc tính được chọn làm thuộc tính phụ thuộc đó là “Num'” và không có dữ liệu bị thiếu ( no missing data)

Kết luận: mục tiêu của phần tiền xử lí dữ liệu là qua thao tác trên phần mềm orange và bằng các công cụ chuyên biệt của phần mềm, có thế làm sạch đữ liệu, xử lý phan đữ liệu thiếu, loại bỏ những kiểu đữ liệu không phù hợp và phân tích dữ liệu đề đưa ra được các mỗi quan hệ, các nội dung quan trọng giữa các yếu tố đề từ đó góp phần đưa ra các thông tin chính xác và hữu ích cho việc phân cụm và phân tích dữ liệu

Từ bảng đữ liệu „ 9 thuộc tính có sự tác động rất lớn đối với việc phân tích và năm bắt thông tin về độ tuổi, mức độ đối với bệnh tim 10 thuộc tính bao gồm:

1 Num 1a bién phụ thuộc, nó mô tả trường mục tiêu, theo mức độ rối loạn chức nang

Oo Kiéu dé liéu “Caterogical’’

2 Age la biến mô tả độ tuổi của người mắc bệnh tim

3 Sex là biến mô tả giới tính gồm:

LO male la nam 1 female la ni

4 Thalach là biến mô tả nhịp tin tối đa đạt được của bệnh nhân r1 Kiểu dữ liệu “Caterogical’’

5 Restecpg mô tả điện tâm dé

6 Cp mô tả các kiểu đau ngực, bao gồm:

F]_ typical ang: đau thắt ngực điển hình LJ_ atypical ang: dau thắt ngực không điển hình Lẽ asymptomatic: khụng cú triệu chứng J_ non-anginal: không đau thắt ngực r1 Kiểu dữ liệu “Caterogical’’

7 Chol mô tả lượng mỡ trong máu

8 Trestbps là biến mô tả huyết áp khi nhập viện (mm/Hg)

9 Fbs mô tả lượng đường trong mâu (mg/dl) r1 Kiểu dữ liệu “Caterogical’’

10 Exang mô tả đau thắt ngực do việc tập thể dục O piátrt l là có đau

O giả trị 0 là không đau r1 Kiểu dữ liệu “Caterogical’’

Mỗi hang dai dién cho | đối tượng, mỗi cột chứa các thuộc tính của đối tượng:

- _ Dữ liệu thô gồm 303 đối tượng và L4 thuộc tính

- - Độ tuổi: Độ tuổi của các bệnh nhân bệnh tim phân bố rộng, trung bình vào

- _ Huyết áp khi nghỉ ngơi trung bình rơi vào khoảng 130 mm/Hg

3.3.1 Mục đíchvà cách tiến hành phân cụm dữ liệu

Fie Oo Soleetog Data —- Date Hi

Hinh 16: Các bước thực hiện hoạt động phân cụm dữ liệu trén Orange

2) File - Orange = D x Source © File: Downloads\Pata heart Disease (nhom 4)TL.xisx @ Reload

File Type Automatically detect type Info

303 instances 14 features (0.1% missing values) Data has no target variable

O meta attributes Columns (Double dick to edit)

11 Slope categorical feature downsloping, flat, upsloping

13 Thal categorical feature fixed defect, normal, reversable defect

Hình 17: Bỏ qua biến phụ thuộc của mô hình Mục đích của phân cụm đữ liệu la tổ chức đữ liệu thành các nhóm dựa trên sự tương đồng, giúp hiểu biêu đồ và cấu trúc dữ liệu, tìm kiếm thông tin hiệu quả, phân loại và dự đoán, cũng như giảm chiều đữ liệu, khám phá thông tin tiềm ân và xử lý nhiêu

Oj LI LI LI LI

Một số phương pháp phân cụm bao gồm Phân cụm phân cấp

Phân cụm phân hoạch Phân cụm dựa trên mật độ Phân cụm dựa trên lưới Phân cụm dựa trên mô hình Trong bài tiêu luận này, nhóm chỉ tập trung sử dụng hai phương pháp phân cụm chính đó là phân cụm phân cấp và phân cụm phân hoạch (cụ thê là K-means)

3.3.2.1 Phương pháp phan cum phan cap (Hierarchical Clustering)

Xét theo phuong phap Hierarchical Clustering sẽ phân bổ dữ liệu thành 2-3 cụm đề chọn ra số cụm tốt nhất Và kết quả như sau:

H Đối với trường hợp phân thành 2 cụm:

Hinh 18: Phuong phap Hierarchical Clustering phan thanh 2 cum

Hình 19: Ảnh minh họa chỉ số Sihoutte khi phần thành 2 cụm bằng phương pháp

Hierarchical Clustering Với phương pháp tính khoảng cách ward, nhóm nhan thay rang chi sé Silhouette của mô hình đều nhỏ hơn 0.5 là chưa sát thực tế ở trường hợp phân thành 2 cụm Số lượng phần tử có chỉ số Si < 0.5 chiếm đa số và có một vài thành phần bị âm 6 cum | va cum 2

H Đối với trường hợp phân thành 3 cụm: sant toate = 27 6B | Dxm- Bm

Hinh 20: Phuong phap Hierarchical Clustering phan thanh 3 cum a = pr a4 ai A, 2 a Bone

Hình 21: Ảnh minh họa chỉ số Sihoutte khi phần thành 3 cụm bằng phương pháp

Các giá trị của Silhouette Index dao động trong khoảng [-1;1], cang tién gan dén 1 thi kết quả phân cụm cảng chính xác Các quy tắc được áp dụng như sau:

1 Gia tri Silhouette > 0.5: Kết quả phân cụm sát với thực tế

O 0.25 < giá tri Silhouette < 0.5: Kết quả phân cụm cần đánh giá lại (kinh nghiệm chuyên g1a)

LO Giỏ trị Silhouette < 0.25: Khụng tin tưởng vào Cẽluster, tỡm phương phỏp đỏnh giá khác

Với trường hợp 3 cụm thì nhóm thấy rằng mặc dù chỉ số Si có cao hơn so với 2 cụm nhưng nhìn chung số sỉ của toàn bộ phần tử vẫn < 0.5, và có sự sụt giảm về số phần tử có chỉ số S¡ đương so với phân thành 2 cụm, đồng thời xuất hiện nhiều chỉ số SI < 0 đặc biệt ở cụm C1 và C3 nên được xem như là chưa hiệu quả so với phương pháp phân thành 2 cụm

H Kết luận phương pháp Hierarchical Clustering:

Khi phân 2 cụm hoặc 3 cụm với bộ đữ liệu Data heart disease cho kết quả không khả quan khi toàn bộ số lượng các chỉ số Si đều nhỏ hơn 0.5 Tuy nhiên ở cách lựa chọn phân thành 3 cụm thì xuất hiện nhiều giá âm hơn Bên cạnh đó, với phương pháp tinh ward, Hierarchical Clustering nhom nhan thay rang khi dữ liệu được phân thành 2 cụm thì tỉ lệ đữ liệu có chỉ số Silhouette âm ít hơn và sát thực tế hơn nên nhóm cho rằng phân thành 2 cụm là phương án tốt trong phương pháp này

Hinh 22: Bang di ligu excel đã phan cum theo phuong phap Hierarchical Clustering khi so sánh với nhãn ban đầu

LH Đánh giá phân cụm:

Dựa vào kết quả phân cụm bằng phuong phap phan cap Hierarchical Clustering thi nhóm nhận thấy rằng nhãn I phù hợp với cụm C1 và nhãn 0 phù hợp với cụm C2

3.3.2.2 Phương pháp K-means Đầu tiên, đề biết được bộ dữ liệu phân ra bao nhiêu cụm là phù hợp nhất, nhóm sẽ đánh giá giá trị của chỉ số Silhouette của từng cách phân cụm Tiến hành cho số cụm K chạy từ 2 L 8 cụm Trong phần Preprocessing, ta chọn Normalize columns Bảng Silhouette Scores bén phai sé hién thi giá trị trung bình ứng với mỗi số cụm Giá trị Silhouette trung bình càng tiến đến | thi cách phân cụm đó càng chính xác và đáng tin cậy Kết quả cho thấy phân thành 2 cụm tương ứng với giá trị Silhouette cao nhat là 0.175 Vì vậy nhóm quyết định chọn phương pháp phân cụm này

Number of Clusters Silhouette Scores © From 2/3 to 8 lệ 3 0.128

Hình 23: Chi sé Silhouette scores theo phuong phap K-means Trong Silhouette Plot, ta thấy rằng việc phân cum C1 (cum 1) tam 6n, cdc phan tur đa số có chi sé Silhouette đương và dưới 0.5, có 13 phần tử < 0

Kết quả của cụm C2 (cụm 2) tương đối bất ôn, tất cả các phần tử đều có chỉ số Silhouette dưới 0.5, chỉ số Silhouette dương dần ít đi và cảng xuất hiện nhiều chỉ số

4m (61 phan tir < 0) be mu in | =

Hình 24: Bảng kết quả phân cum (K-Mean) trén Orange cung voi chi sé Silhouette Kết quả phân cụm, chỉ số Silhouette Scores dường như nhận được là khá thấp so với kỳ vọng Độ rơi vào khoảng 0 đên 0.35 chiêm đa sô và cả 2 cụm vân còn xuât hiện chi so Si 4m, nó cho thay rang cân thêm thời gian, chuyên môn và kinh nghiệm đề có thẻ đánh giá cluster có trong thực tế nhưng nhìn chung vẫn có thê tin tưởng được kết quả phân cụm này

3.3.3 Đánh giá mô hình phân cụm

Hình 25: Bảng đánh giá kết quả đã phân cụm theo phương pháp K-Mean khi so sánh với nhãn ban đầu (dữ liệu excel) LI Đánh giá phân cụm:

Dựa vào kết quả phân cụm bằng phương pháp phân cấp K-means thì nhóm nhận thay rằng nhãn 0 phù hợp với cụm CI và nhãn 1 phù hợp với cụm C2

Trong 303 trường hợp thì có 164 trường hợp là không có vấn đề về tim mạch (xấp xỉ 54,1%) và có 139 trường hợp mắc bệnh hoặc có nguy cơ mắc bệnh tim mạch (xấp xỉ 45,9%)

- _ Theo phương pháp K-means: trong 303 đối tượng chạy chương trình, có đến 77 phần tử có chỉ sô Silhouette âm (chiếm 25,4%) va chi s6 Silhouette phan bé không đều, số phần tử có chỉ số Silhouette > 0.25 còn hạn chế, nên nhóm đánh giá là chưa hiệu quả, cần thêm thời gian hoặc có thể là đôi phương pháp

- Theo phương pháp Hierarchical Clustering: trong 303 đối tượng được mang vào chạy chương trình, có 40 phần tử có giá tri Silhouette 4m (chiém 13.2%) va chỉ sé Silhouette dao động từ khoảng 0.15 đến 0.3 (0.15 < S¡ < 0.3), nhóm đánh giá phương pháp này khá ôn hơn so với phương pháp K-means

3.4.1 Tiến hành phân lớp dữ liệu

Mục đích của phân lớp dữ liệu là dự đoán lớp mục tiêu của mỗi trường hợp dữ liệu Phân lớp dữ liệu có chức năng gán các đối tượng vào tập chủ đề hay lớp mục tiêu dựa trên mức độ tương đồng

Hình 26: Các bước thực hiện phân lớp dữ liệu trên Orange

“™ Discretize Continuous Variables a - ©) Standardize to p=0, g2=1

„+ Impute Missing Values X7/Center to s=0

TM Select Relevant Features O Scale to o?=1

[F Select Random Features O Normalize to interval [-1, 1]

Normalize Features @ Normalize to interval [0, 1] © Randomize

[FZ Remove Sparse Features Principal Component Analysis

Hình 27: Chuẩn hóa dữ liệu

Bước I: Từ dữ liệu đã tiền xử lý Chọn biến Num là biến phụ thuộc (Target)

Bước 2: Nối file với Test and Score (gồm 3 phương pháp là Cây quyết định (Tree) , Logistic Regression va SVM) trong d6, Test and Score néi vi Confusion Matrix dé thực hiện dự báo và đánh giá độ hiệu quả của các phương pháp

3.4.1.1 Cây quyết định (Decision Tree)

Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả đĩ đi kèm nhăm hỗ trợ quá trình ra quyết định

Trong lĩnh vực khai phá đữ liệu, cây quyết định là phương pháp nhăm mô tả, phân loại và tông quát hóa tập đữ liệu cho trước

Nhìn vào cây quyết định ta thấy răng có 77 models và có 39 nhánh cho thấy cây quyết định đã được phân loại và tổng hợp hóa rõ ràng

@ Cross validation Evaluation results for target | (None, show average over dasses) v |

Number of folds: 5 v AUC CA FI

U Stratified SVM ross validation by feature Zon

O Random sampling Repeat train/test: 10 v

O Test on train data Compare models by: Area under ROC curve

O Test on test data SVM

Logistic Regression 0.881 probability that the difference is

Table shows probabilities that the score for the model in the row is higher than that of the model in the column Small numbers show the negligible

Hình 29: Bảng đánh giá các chỉ số của Test & Score Theo kết quả phân lớp bằng 3 phương pháp SVM, Tree và Logistic Regression của di liéu Hearts Disease ta thay:

Về AUC: Phương pháp SVM va Logistic Regression mang lai gia tri cao, trong đó cao nhat 1a Logistic Regression voi giá trị 0.908 Còn mang giá trị thấp nhất là mô hình Tree khi nhận được giá trị là 0.757

Trong 3 phương pháp thi Logistic Regression co d6 chinh xac (Precision) cao nhất là 0.845, độ nhạy (Recall) cao nhất là 0.845, Fl-score và CA cao nhất là phương pháp Logistie Regression là 0.845

Phương pháp Logistic Regression tôi ưu về cả AUC (gần 1 nhất), độ chính xác (Precision), d6 nhay (Recall), Fl-score va CA

Vậy nên chọn phương phap Logistic Regression dé tién hanh dy báo sẽ cho hiệu quả và tính chính xác cao nhật

3.4.2 Ma trận nhằm lẫn (Confusion Matrix)

Learners Show: Number of instances *

Select Correct Select Misclassified Clear Selection

Hình 30: Ma trận nhằm lẫn theo phuong phap SVM Theo phương pháp SVM thì:

Có 164 người được dự đoán là không mắc bệnh suy tim và thực tế là không mắc bệnh suy tim có 164 người được dự đoán là không mắc bệnh suy tim nhưng thực tế có 24 người mắc bệnh suy tim

- c6 139 người được dự đoán là mắc bệnh suy tim nhưng thực tế có 3l người không mắc bệnh suy tim

- có [39 người được dự đoán la mắc bệnh suy tim và thực tế có 108 người mắc bệnh suy tim

Với Precision là 0.818 và Recall là 0.818

Learners SVM Tree Logistic Regression

Hình 31: Ma trận nhằm lẫn theo phương pháp Cây quyết định Theo phương pháp Cây quyết định thì:

- Có 164 người được dự đoán là không mắc bệnh suy tim và thực tế là 129 không mắc bệnh suy tim

- có 164 người được dự đoán là không mắc bệnh suy tim nhưng thực tế có 35 người mắc bệnh suy tim

- có 139 người được dự đoán là mắc bệnh suy tim nhưng thực tế có 40 người không mắc bệnh suy tim

- có 139 người được dự đoán la mắc bệnh suy tim và thực tế có 99 người mắc bệnh suy tim

Learners Show: Number of instances

Apply A\ - Select Correct Select Misclassified Clear Selection

2? B | 23303 B -|303 Hình 32: Ma trận nhằm lẫn theo phương pháp Logistic Regression Theo phuong phap Logistic Regression thi:

- C6 164 người được dự đoán là không mắc bệnh suy tim và thực tế là 146 không mắc bệnh suy tim

- có 164 người được dự đoán là không mắc bệnh suy tim nhưng thực tế có I8 người mắc bệnh suy tim

- có 139 người được dự đoán là mắc bệnh suy tim nhưng thực tế có 28 người không mắc bệnh suy tim

- có [39 người được dự đoán la mắc bệnh suy tim và thực tế có LII người mắc bệnh suy tim

Với Precision là 0.849 và Recall là 0.848

=>Tir day co thé thay rang nén chon phuong phap Logistic Regression vi c6 Precision (0.849) va Recall (0.848) là cao nhất, đáng tin cậy nhất Chọn phương pháp này để tiến hành dự báo

LI Dự báo (prediction) Đề tiến hành dự báo , trước hết cần skip qua biến phụ thuộc có trong đữ liệu dự báo

This widget loads only tabular data Use PR Rl load other data types | Ok, gotit | like models, distance matrices and networks

Info 303 instances 14 features (0.1% missing values) Data has no target variable

0 meta attributes Columns (Double click to edit)

10 Oldpeak @ numeric feature 1 Slope GB categorical feature downsloping, flat, upsloping

13 Thal a categorical feature fixed defect, normal, reversable defect

Hình 33: Skip biến phụ thuộc

Kế tiếp để tiến hành dự đoán nhóm sẽ trích 10% mẫu của bộ dữ liệu đề tiến hành nghiên cứu bằng Data Sampler

O Fixed sample size L_] Sample with replacement ee

Replicable (deterministic) sampling ] Stratify sample (when possible)

Hình 34: Bảng trích dẫn 10% dữ liệu đề đự báo

Tiến hành dự báo theo phương pháp Logistic Regression

Liên kết phương pháp tốt nhất (phương pháp Logistic Regression) với File và nối file này vào Predictions , đồng thời nối file “trich dan” vao Predictions dé tién hanh dy bao

Selected Dai Đ)=ơ@) —(@ Data Table Save Data

Hình 35: Các bước tiến hành dự báo

1 Data Table - Orange - oo x nfo Legete ` age sex c Tresthps chal ơ Sezteeq Thelach Evang —

13 Eeshsea (0.2 % mining data) 1 53 male non-enginel 130 248 1 left vent hypert 13 0 0ỉ upt

No target vanatle, z1 34 male 10 206 0 left vent hypert 108 1 0.0 flat

—— 21 56 male asymptomatic 125 248 1 left vent hypert 1441 1.2 flat

Variables ad 58 male asymptomatic 100 240 1 156 0 0.1 up! show vanwnbie Inbets (/F present) s1 51 female asymptomatic 130 30% 0 normal 142 1 12 flat

[Wesiemmic vdues s1 53 male asymptomatic 140 2031 left vent hypert 155 1 3⁄1 doy

A cok by = 71 65 male asymptomatic 135 254 0 left vent hypert 1270 28 flat ad 53 male asymptomatic 123 2820 normal 91 20 flat

Selection oa 40 male asymptomatic 152 2230 normal 181 0 0.0 up}

U sdect ful rons 10 1 59 male asymptomatic 135 340 normal 161 0 0.5 flat

1 @ 56 male atypical ang 120 236 0 normal 1780 0.8 up} a9 #4 male typical ang 18 182 0 left vent hypert 174.0 0.0 up! g1 58 male non-anginal T12 2300 left vent hypert 165 0 25 flat

151 63 male be 130 330 1 eft vent hypert 182 1 1.8 up!

160 51 male non-enginel 116 175.0 normel 123 0 06 upt

>xịt9 45 femele ypical eng 130 340 left vent hypert 15 0 06 flat

Bệnh về tim mạch là một trong những nguyên nhân gây tử vong hàng đầu trên thế giới Theo Tổ chức Y tế Thế giới (WHO), bệnh tim mạch đã cướp đi sinh mạng của hơn 17,9 triệu người vào năm 2020, chiếm 31% tổng số ca tử vong trên toàn cầu Đề giảm thiêu tỷ lệ người tử vong do bệnh về tim mạch, cần có những nỗ lực trong việc nâng cao hiệu quả chân đoán, dự đoán và điều trị bệnh tim mạch Các phương pháp phân lớp và phân cụm dữ liệu là những kỹ thuật học máy có tiềm năng ứng dụng rộng rãi trong lĩnh vực bệnh tim mạch, góp phần nâng cao hiệu quả của các hoạt động này

Phân loại và phân cụm dữ liệu tim mạch là một lĩnh vực khoa học hữu ích, giúp các bác sĩ nhìn thấy các nguồn đữ liệu và mối liên hệ trong dữ liệu, qua đó tìm thấy phương pháp chân đoán và điều trị hiệu quả hơn Trong lĩnh vực tim mạch, phân loại và phân cụm dữ liệu tim mạch hỗ trợ các bác sĩ phát hiện vả điều trị sớm bệnh ly tim mạch tốt hơn

Các phương pháp phân lớp và phân cụm có thế được sử dụng để phân nhóm các bệnh nhân đáp ứng tốt hoặc không đáp ứng với các phương pháp điều trị hiện có Điều này có thể giúp các bác sĩ điều chỉnh phác đồ điều trị cho phù hợp với từng bệnh nhân.Các phương pháp điều trị bệnh tim thường được dựa trên các yếu tố lâm sàng và các kết quả xét nghiệm Tuy nhiên, các yếu tô này không phải lúc nào cũng chính xác

Ví dụ, một số bệnh nhân có thê đáp ứng tốt với phương pháp điều trị A nhưng không đáp ứng tốt với phương pháp điều trị B Các phương pháp phân lớp và phân cụm có thê giúp các bác sĩ xác định các bệnh nhân có khả năng đáp ứng tốt với các phương pháp điều trị cụ thể Điều này có thể giúp các bác sĩ lựa chọn phương pháp điều trị phù hợp và hiệu quả nhất cho từng bệnh nhân Các phương pháp phân lớp và phân cụm là những kỹ thuật khoa học có tiềm năng ứng dụng rộng rãi trong lĩnh vực bệnh tim mạch Các phương pháp này có thê được sử dụng đề nâng cao hiệu quả chân đoán, dự đoán và điều trị bệnh tim mạch, góp phần cải thiện chất lượng cuộc sống của người bệnh Với sự phát triển của khoa học đữ liệu và học máy, các phương pháp phân lớp và phân cụm sẽ tiếp tục được ứng dụng ngày càng rộng rãi trong lĩnh vực bệnh tim mạch, gop phan giảm thiêu tỷ lệ tử vong do bệnh tim mạch

Phân loại va phân cụm dữ liệu tim mạch là một lĩnh vực khoa học đáng dé nghién cứu va phat trién, nd mang lai cho nganh Y hoc nhiều thành tựu to lớn Ta có thể liệt kê một vài lợi ích mà nó mang lại như:

Tăng cường hiệu quả chân đoán, dự đoán và điều trị bệnh tim mạch: Các phương pháp phân lớp và phân cụm có thể được sử dụng đề phát triển các mô hình chân đoán, dự đoán và điều trị bệnh tim mạch chính xác và hiệu quả hơn Điều này có thê giúp giảm tỷ lệ tử vong đo bệnh tim mạch

Nâng cao hiểu biết về bệnh tim mạch: Các phương pháp phân lớp và phân cụm có thê được sử dụng dé phân tích dữ liệu bệnh tim mạch, từ đó giúp các nhà khoa học hiểu rõ hơn về nguyên nhân, triệu chứng và cách điều trị bệnh tim mạch

Phát triển các phương pháp điều trị mới: Các phương pháp phân lớp và phân cụm có thê được sử dụng để xác định các nhóm bệnh nhân có phản ứng khác nhau với các phương pháp điều trị hiện có Điều này có thể giúp các nhà khoa học phát triển các phương pháp điều trị mới hiệu quả hơn đối với các nhóm bệnh nhân cụ thé

Dưới đây là một sô ví dụ cụ thê:

Trong lĩnh vực chân đoán bệnh tim mạch: Các phương pháp phân lớp và phân cụm đã được sử dụng dé phat triển các mô hình chân đoán bệnh tim mạch dựa trên đữ liệu lâm sàng, chẳng hạn như các xét nghiệm máu, điện tâm đồ, siêu âm tim, v.v Các mô hình này đã được chứng minh là có thể giúp các bác sĩ chân đoán bệnh tim sớm hơn và chính xác hơn

Trong lĩnh vực dự đoán nguy cơ mắc bệnh tim mạch: Các phương pháp phân cụm đã được sử dụng đề phân nhóm các bệnh nhân có nguy cơ mắc bệnh tim cao hoặc thâp Các mô hình này có thê giúp các bác sĩ xác định các đôi tượng cần được theo dõi và can thiệp sớm đê giảm thiêu nguy cơ mặc bệnh tim

Trong lĩnh vực điều trị bệnh tim mạch: Các phương pháp phân cụm đã được sử dụng để phân nhóm các bệnh nhân đáp ứng tốt hoặc không đáp ứng với các phương pháp điều trị hiện có Các mô hình này có thê giúp các bác sĩ điều chỉnh phác đồ điều trị cho phù hợp với từng bệnh nhân

Khi áp dụng những thành tựu của phân loại và phân cụm dữ liệu tim mạch vào điều trị và nghiên cứu, ta có thấy được hiệu quả mà nó mang lại vô cùng đáng kế:

Tăng cường hiệu quả chân đoán và điều trị bệnh tim mạch: Các phương pháp phân lớp và phân cụm có thể được sử dụng đề phát triển các mô hình chân đoán và điều trị bệnh tim mạch chính xác và hiệu quả hơn Điều này có thể giúp giảm tỷ lệ tử vong đo bệnh tim mạch

Giảm chị phí chăm sóc sức khỏe: Các mô hình chân đoán và điều trị bệnh tim mạch chính xác hơn có thê giúp giảm chỉ phí chăm sóc sức khỏe cho bệnh nhân và cho hệ thống y tế nói chung

Cải thiện chất lượng cuộc sống của bệnh nhân: Các mô hình chân đoán và điều trị bệnh tim mạch chính xác hơn có thể giúp bệnh nhân được chân đoán và điều trị sớm hơn, từ đó cải thiện chất lượng cuộc sống của họ

htps://vioLinR ‘ndex php/hufi/article/d load/72613/6 1566

3 Studocu: Tiểu luận khoa học dữ liệu I, truy cập ngày 5/12/2023 tại: https://www.studocu.com/vn/u/37863930?sid8466791701959630 4 Studocu: Baocaokhaiphadulieu - báo cáo khai phá dữ liệu, truy cập ngày 5/12/2023 tại: https://www.studocu.com/vn/u/74291850? sid8466791701960083

Tiêu đề	Phương phỏp phõn lớp và phõn cụm dữ liệu về bệnh tim mach
Tác giả	Huỳnh Quốc Đạt, Tạ Quang Dương, Nguyễn Gia Qui, Lương Trần Hải Anh, Pham Anh Khiộm, Tran Dang Khoa, Nguyễn Văn Nhật Tiến, Nguyễn Công Quốc Trung
Người hướng dẫn	Đào Thiện Quốc
Trường học	Trường Đại Học Kinh Tế Thành Phố Hồ Chí Minh
Chuyên ngành	Khoa học dữ liệu
Thể loại	Tiểu luận
Năm xuất bản	2023
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	56
Dung lượng	7,2 MB