Báo cáo chuyên Đề học phần học máy nâng cao Đề ti áp dụng pca vo bi toán dự Đoán có mắc bệnh tim hay không

Ví dụ, trong việc phân loại email vào hộp thư đến hoặc thư rác, chúng ta cung cấp các email đã được đánh nhãn là đến hoặc rác đề máy tính học từ đó và sau đó dự đoán nhãn cho các email m

Trang 1

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN

DAl HOC DIEN LUC

ELECTRIC POWER UNIVERSITY

BAO CAO CHUYEN DE HOC PHAN HQC MAY NANG CAO

DE TAL: AP DUNG PCA VAO BAI TOAN DU DOAN CO MAC BENH

TIM HAY KHONG Sinh viên thực hiện : PHAN TIÊN HUY

PHÙNG THÁI SƠN NGUYÊN HỮU TOÀN Giảng viên hướng dẫn =: PHAM BUC HONG

Chuyên ngành : CÔNG NGHỆ PHẢN MÈM

Hà Nội, thủng I2 năm 2023

Trang 2

PHIEU CHAM DIEM

STT | Ho va tén sinh vién Nội dung thực hiện Điểm | Chữ ký

Trang 3

MỤC LỤC

LỜI MỞ ĐẦU - 2S THỰ 121 1111121121 1 CHUONG 1: TONG QUAN VE HỌC MÁY G5 2n E1 H1 re re 2 1.1 Giới thiệu về học máy - + tt E111 HH HH gu HH uyu 2

1.2 Loại hình và phân loại học máy .- L0 2211211112112 2211121112111 12tr eu 4 1.3 Ứng dụng của học máy - - - L2 1122211111 22111121111221 1110111111111 101111111 xXkg 5

CHUONG 2: PHUONG PHAP GIAM CHIEU PCA VÀ THUẬT TOÁN

LOGISTIC REGRESSION - 2 5 SE E225 21122121 tre 7 2.1 Phương pháp giảm chiều PCA 52 s9 TH E1 1 HH tr grre 7

2.2 Thuật toán Logistic Regression L0 0221221121122 2211151121111 re 9

CHƯƠNG 3: ÁP DỤNG PCA VÀ LOGISTIC REGRESSION VÀO BÀI TOÁN DỰ DOAN CÓ BỊ BỆNH TIM MẠCH -2 2 St 1211211211212 2E taeerreo ll 3.1 M6 ta DAL COAI eee ccccecc ccc eecseccesssessessvessessvessesevesseseusssesscssesisevsscsevenesecaueees 11 3.2 Cài đặt và tridm Khai ccccccccccccececcceesessessvessvsssessvsesessessvsevssssreeesevseeees 12

3.2.1 Môi trường thực nghiệm Q0 0102211121122 1112111211 1211 1181111151111 key 12

3.2.2 Triển khai 5 ST n2 12tr re 13

Trang 4

2 Vị dụ học máy c1 2 2221122111121 2 111101110111 11 1111110111111 11111011111 kệ 4

1 Vi du minh hoa PCA Ì LH HH HS ng nKnSnS ng S5 E1 ng 8

2 Vi du minh hoa PCA 2 cece eeeeeescscccnctececccevecccsceneeeetteacaesceatteeeseeseseseeanea 9

1 Ng6n net lap trinh Python cc 2012211211122 1221115111151 1 115 21 ng key 12

3 Khai báo thư viện, đọc dữ liệu Q12 S2 22H SH ng kg tk nh xe 14

4 Phân chia đữ liệu và chuẩn hóa đữ liệu - ch Hrehie 14

5 Thưc hiện giảm chiều và trực quan hóa c0 2122211122 n2 xe yey 15

6 Trước khi giảm chiu 55:22 21 22272 tt HH hư ườn 15

7 Sau khi giam Chiu ccccccecccccsccscesessescessecsesseseseesesevssesessessesessesesevsuseseseesseees 16

8 Xây dựng mô hình học máy - L c1 221221111211 12 1155 111151111 xe 17

9 Kết quả thực nghiệm cece 2211112121211 1111 1121120111181 111 118111115551 ng keg 17

Trang 5

LỜI MỞ ĐẦU

Công nghệ ngày cảng phô biến và không ai có thê phủ nhận được tầm quan trọng

và những hiệu quả mà nó đem lại cho cuộc sống chủng ta Bắt kỳ trong lĩnh vực nào, sự góp mặt của trí tuệ nhân tạo sẽ giúp con người làm việcvà hoàn thành tốt công việc hơn

Và gần đây, một thuật ngữ “machine leaming” rất được nhiều người quan tâm Thay vì phải code phần mềm với cách thức thủ công theo một bộ hướng dẫn cụ thê nhằm hoàn thành một nhiệm vụ đề ra thì máy sẽ tự “học hỏi” bằng cách sử dụng một lượng lớn đữ liệu cùng những thuật toán cho phép nó thực hiện các tác vụ

Những điều trên được hiểu là nó có thê thực hiện tự động, nhanh chóng để tạo ra

những mô hình cho phép phân tích các dữ liệu có quy mô lớn hơn và phức tạp hơn đồng thời đưa ra những kết quá một cách nhanh và chính xác hơn Chính sự hiệu quá trong

công việc và các lợi ích vượt bậc ma no dem lai cho chung ta khiến machine learning

ngày càng được chú trọng và quan tâm nhiều hơn Vì vậy chúng em quyết định chọn đề

tài: “Áp dụng PCA vào bài toán dự đoán có bị bệnh tim hay không” đề làm báo cáo

Chúng em xin chân thành gửi lời cảm ơn tới các thầy cô giáo trong Trường Đại Học Điện Lực nói chung và các thầy cô giáo trong khoa công nghệ thông tin nói riêng đã tận tình giảng dạy, truyền đạt cho chúng em những kiến thức cũng như kinh nghiệm quý báu trong suốt quá trình học Đặc biệt, em gửi lời cảm ơn đến thầy Phạm Đức Hồng đã tận tình theo sát giúp đỡ, trực tiếp chỉ bảo, hướng dẫn trong suốt quá trình nghiên cứu và

học tập của chúng em

Chung em xin chan thành cảm ơn !

Trang 6

CHUONG 1: TONG QUAN VE HOC MAY

1.1 Giới thiệu về học máy

Học máy là một lĩnh vực trong trí tuệ nhân tạo (AI) mà nghiên cứu và phát triển các phương pháp và thuật toán để cho máy tính khá năng học hỏi và tự động cải thiện

hiệu suất theo kinh nghiệm từ dữ liệu Mục tiêu của Học máy là xây dựng các mô hình và

hệ thống có khả năng hiểu, dự đoán và ra quyết định từ đữ liệu mà không cần được lập

trình cụ thể cho từng tác vụ

Học máy có hai dạng chính: Học máy giảm sát và Học máy không giảm sát Trong Học máy giám sát, chúng ta cung cấp cho máy tính các cặp dữ liệu huấn luyện gồm đặc trưng (feature) và nhãn (label) tuong tng May tinh sẽ học từ các mẫu đữ liệu này để xây

dựng một mô hình dự đoán nhãn cho các đữ liệu mới Ví dụ, trong việc phân loại email

vào hộp thư đến hoặc thư rác, chúng ta cung cấp các email đã được đánh nhãn là đến

hoặc rác đề máy tính học từ đó và sau đó dự đoán nhãn cho các email mới

Trong Học máy không giám sát, chúng ta chí có sẵn các đặc trưng mà không có thông tin về nhãn Mục tiêu của chúng ta là khám phá cấu trúc và mô hình ân trong đữ liệu mà không cần có kiến thức trước về các lớp hoặc nhãn Các phương pháp Học máy không giám sát như phân cụm (clustering) và phân tích thành phần chính (PCA) giúp

chúng ta tìm hiểu về sự tương tự, sự khác biệt và mỗi quan hệ giữa các điểm đữ liệu

Các mô hình học máy phụ thuộc vào các thuật toán và phương pháp như cây quyết dinh (decision trees), máy vector hỗ trợ (support vector machines), mạng nơ-ron nhân tạo (artificial neural networks), rừng ngẫu nhiên (random forests) và nhiều thuật toán khác Quá trình huấn luyện mô hình Học máy bao gồm việc tối ưu hóa các tham số của mô hình

thông qua việc so sánh kết quả dự đoán với giá trị thực tế từ đữ liệu huấn luyện

Trang 7

Tập học (Training set

Ví dụ về bài toán học máy: Lọc thư rác (email spam filtering) T: Dự đoán (đề lọc) những thư điện tử nào là thư rác (spam email) P: số lượng thư điện tử gửi đến được phân

loại chính xác E: Một tập các thư điện tử (emails) mẫu, mỗi thư điện tử được biểu diễn

bằng một tập thuộc tính (vd: tập từ khóa) và nhãn lớp (thư thường/thư rác) tương ứng

Trang 8

1.2 Loại hình và phân loại học máy

Trong lĩnh vực Học máy, có nhiều loại hình và phân loại khác nhau dựa trên cách

thức tiếp cận và mục tiêu của bài toán Dưới đây là một số loại hình và phân loại quan trọng trong Học máy:

® Hoc may giam sát (Supervised Learning): Đây là loại hình Học máy trong

đó dữ liệu huấn luyện được cung cấp với các cặp đặc trưng và nhãn tương

ứng Mục tiêu là xây dựng một mô hình có khả năng dự đoán nhãn cho các

dữ liệu mới dựa trên các đặc trưng đầu vào Các ví dụ pho biến của Học

máy giám sát bao gồm phân loại (classification) và hồi quy (regression)

® Học máy khéng giam sat (Unsupervised Learning): Trai nguoc voi Hoc máy giám sát, Học máy không giám sát không yêu cầu đữ liệu huấn luyện

có thông tin nhãn Thay vào đó, mục tiêu là tìm hiểu cầu trúc ân và mô hình trong dữ liệu Các thuật toán trong Học máy không giám sát thường được

sử dụng để phân cụm (clustering), giảm chiều đữ liệu (dimensionality reduction), hoặc khám phá quy luật và mô hình trong dữ liệu

Trang 9

¢ Hoc may ban giam sat (Semi-supervised Learning): Loai hình này nằm giữa Học máy giám sát và Học máy không giám sát Trong Học máy bán giám sát, một phần nhỏ dữ liệu huấn luyện có nhãn được sử dụng, nhưng cũng có

một phân lớn dữ liệu không có nhãn Mục tiêu của Học máy bán giảm sát là

sử dụng thông tin có sẵn từ dữ liệu có nhãn kết hợp với cầu trúc và mô hình

an trong dữ liệu không có nhãn để đưa ra dự đoán cho đữ liệu mới

e Hoc tang cuong (Reinforcement Learming): Loai hinh nay tập trung vào việc đào tạo một hệ thống thông qua tương tác liên tục với một môi trường

Hệ thống (agent) tự động học từ kinh nghiệm thông qua việc thir va sai va nhận phần thưởng hoặc hình phạt từ môi trường Mục tiêu của Học tăng cường là tìm hiểu các hành động toi uu dé đạt được mục tiêu nhất định

trong môi trường đã cho

¢ Hoc truyén giam sat (Transfer Learning): Trong Hoc truyén giam sat, kién

thức đã học từ một tac vu (nguồn) được sử dụng để cải thiện hiệu suất của

một tác vụ khác (đích) Thay vì bắt đầu từ đầu, Học truyền giám sát tận dụng kiến thức được chuyền giao từ các tác vụ liên quan hoặc dữ liệu giàu théng tin

1.3 Ung dụng của học máy

Phân loại ảnh và nhận đạng đối tượng: Học máy được sử dụng đề xây đựng các hệ thống phân loại ảnh và nhận dạng đối tượng Ví dụ, trong công nghệ nhận dạng khuôn

mặt, Học máy có thê được sử dụng dé phat hiện va nhận dạng khuôn mặt trong ảnh hoặc

video Điều này có ứng dụng rộng rãi trong bảo mật, giao thông, và công nghiệp giải trí

Xử lý ngôn ngữ tự nhiên: Học máy đã đóng vai trò quan trọng trong xử lý ngôn ngữ tự nhiên (NLP) Các thuật toán Học máy có thê được sử dụng đề xây dựng hệ thống dịch máy, phân loại văn bản, phân tích ý kiến, và tạo ra các ứng dụng trò chuyện tự động thông qua việc hiểu và tạo ra ngôn ngữ tự nhiên

Hé thong goi y (Recommendation Systems): Hoc may được sử dụng trong hệ thống gợi ý đề phân tích dữ liệu người dùng và dự đoán sở thích cá nhân Ví dụ, các công

Trang 10

ty thương mại điện tử sử dụng Học máy đề đề xuất sản phâm tương tự đựa trên lịch sử mua hàng của khách hàng Các dich vụ streaming nhu Netflix va Spotify citing str dung Học máy đề đề xuất nội dung phù hợp với sở thích người ding

Xử lý dữ liệu y tế: Học máy đóng vai trò quan trọng trong phân tích dữ liệu y tế và

chân đoán y khoa Các mô hình Học máy có thé được huấn luyện dé nhận biết triệu

chứng bắt thường trong hình ảnh y khoa, dự đoán kết quả xét nghiệm và phân tích dữ liệu

bệnh nhân đề xác định nguy cơ bệnh tật

Tự động lái xe: Học máy đóng vai trò quan trọng trong phát triển xe tự động Các

thuật toán Học máy được sử dụng để xử lý dữ liệu từ các cảm biến và học cách lái xe dựa

trên các tình huống giao thông thực tế Công nghệ này đang được phát triển để nâng cao

an toàn và tăng cường khả năng tự động hóa trong ngành ô tô

Dự báo và dự đoán: Học máy có thể được sử dụng để dự đoán xu hướng và hiệu suất trong nhiều lĩnh vực Ví dụ, dự báo thị trường tài chính, dự đoán lưu lượng giao

thông, hoặc dự báo nhu cầu sản phẩm trong chuỗi cung ứng Học máy cung cấp phương

pháp phân tích dữ liệu mạnh mẽ dé suy luận và dự đoán các biến khác nhau

Trang 11

CHƯƠNG 2: PHƯƠNG PHÁP GIAM CHIEU PCA VÀ THUẬT TOÁN

LOGISTIC REGRESSION

2.1 Phương pháp giảm chiều PCA

Phương pháp giám chiều PCA (Principal Component Analysis) là một phương

pháp phân tích dữ liệu thong kê được sử dụng dé giam số chiều của bộ dữ liệu ban đầu

trong khi vẫn giữ lại những thông tin quan trọng nhất Việc giảm chiều đữ liệu giúp giảm

độ phức tạp tính toán, giảm nhiễu và tăng hiệu suất của các thuật toán học máy

Ý tưởng chính của PCA là chuyền đổi không gian đữ liệu ban đầu sang một không gian mới sao cho các thành phần chính (principal components) đóng góp nhiều nhất vào

sự biến thiên của dữ liệu Các thành phần chính là các vectơ riêng ứng với các giá trị riêng của ma trận hiệp phương sai của dữ liệu Các thành phần chính được sắp xếp theo thử tự giảm dần của giá trị riêng, cho phép chúng ta ưu tiên giữ lại những thành phần quan trọng nhất trong quá trình giảm chiều đữ liệu

Quá trình thực hiện PCA bao gồm các bước sau:

xử lý dữ liệu Điều này bao gồm loại bỏ các giá trị thiếu, xử lý nhiễu, chuẩn

hóa dữ liệu nếu cần thiết Đảm bảo dữ liệu đã được chuẩn bị tốt sẽ đảm bảo

kết quả PCA chính xác và đáng tin cậy

toán ma trận hiệp phương sai của dữ liệu Ma trận hiệp phương sai đo lường mức độ tương quan giữa các biến trong bộ đữ liệu Ma trận này có

kích thước nxn, với n là số chiều của dữ liệu ban đầu Các phan tử của ma

trận hiệp phương sai cho biết mức độ tương quan giữa từng cặp biến

©_ Tính các thành phân chính: Tiếp theo, chúng ta tính toán các thành phần chính bằng cách tìm các vectơ riêng và giá trị riêng của ma trận hiệp phuong sai Cac vecto riêng là các hướng trong không gian dữ liệu mới, trong khi giá trị riêng cho biết độ quan trọng của mỗi thành phần chính Các

Trang 12

thành phần chính được sắp xếp theo thứ tự giảm dần của giá trị riêng, với thành phần chính đầu tiên đóng góp nhiều nhất vào sự biến thiên của đữ

liệu

¢ Chọn số chiều mới: Sau khi tính toán các thành phần chính, chúng ta cần chọn số lượng thành phần chính cần giữ lại Quá trình này có thể dựa trên

tỷ lệ phân trăm giữ lại thông tin, tức là chọn 36 lượng thành phan chinh sao

cho tông giá trị riêng của chúng đạt được một ngưỡng xác định (ví dụ: 95%

tổng giá trị riêng) Hoặc có thể chọn số chiều mới dựa trên tiêu chí đặc tả

trước, như số lượng biến cần giữ lại hoặc mức độ giảm chiều mà chúng ta mong muốn

ban đầu vào không gian mới, được tạo bởi các thành phần chính đã chọn Quá trình này giảm số chiều của đữ liệu ban đầu, trong đó mỗi mẫu dữ liệu

mới được biểu diễn bởi một vector có số chiều thấp hơn Kết quả là bộ dữ

liệu mới với số chiều giảm, giúp giảm độ phức tạp tính toán và tăng tốc độ

xử lý của các thuật toán học máy

Ví dụ 1: Minh họa PCA: Phép chiếu lên trục tọa độ khác nhau có thê cho cái nhìn rất khác nhau về cùng | dit liéu

Hinh 2 I Ví dụ minh họa PCA 1

12

Tiêu đề	Áp Dụng PCA Vào Bài Toán Dự Đoán Có Mắc Bệnh Tim Hay Không
Tác giả	Phan Tiên Huy, Phùng Thái Sơn, Nguyễn Hữu Toàn
Người hướng dẫn	Phạm Bức Hồng
Trường học	Trường Đại Học Điện Lực
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Báo Cáo Chuyên Đề
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	23
Dung lượng	2,56 MB