Ví dụ, trong việc phân loại email vào hộp thư đến hoặc thư rác, chúng ta cung cấp các email đã được đánh nhãn là đến hoặc rác đề máy tính học từ đó và sau đó dự đoán nhãn cho các email m
Trang 1TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN
DAl HOC DIEN LUC
ELECTRIC POWER UNIVERSITY
BAO CAO CHUYEN DE HOC PHAN HQC MAY NANG CAO
DE TAL: AP DUNG PCA VAO BAI TOAN DU DOAN CO MAC BENH
TIM HAY KHONG Sinh viên thực hiện : PHAN TIÊN HUY
PHÙNG THÁI SƠN NGUYÊN HỮU TOÀN Giảng viên hướng dẫn =: PHAM BUC HONG
Chuyên ngành : CÔNG NGHỆ PHẢN MÈM
Hà Nội, thủng I2 năm 2023
Trang 2PHIEU CHAM DIEM
STT | Ho va tén sinh vién Nội dung thực hiện Điểm | Chữ ký
Trang 3MỤC LỤC
LỜI MỞ ĐẦU - 2S THỰ 121 1111121121 1 CHUONG 1: TONG QUAN VE HỌC MÁY G5 2n E1 H1 re re 2 1.1 Giới thiệu về học máy - + tt E111 HH HH gu HH uyu 2
1.2 Loại hình và phân loại học máy .- L0 2211211112112 2211121112111 12tr eu 4 1.3 Ứng dụng của học máy - - - L2 1122211111 22111121111221 1110111111111 101111111 xXkg 5
CHUONG 2: PHUONG PHAP GIAM CHIEU PCA VÀ THUẬT TOÁN
LOGISTIC REGRESSION - 2 5 SE E225 21122121 tre 7 2.1 Phương pháp giảm chiều PCA 52 s9 TH E1 1 HH tr grre 7
2.2 Thuật toán Logistic Regression L0 0221221121122 2211151121111 re 9
CHƯƠNG 3: ÁP DỤNG PCA VÀ LOGISTIC REGRESSION VÀO BÀI TOÁN DỰ DOAN CÓ BỊ BỆNH TIM MẠCH -2 2 St 1211211211212 2E taeerreo ll 3.1 M6 ta DAL COAI eee ccccecc ccc eecseccesssessessvessessvessesevesseseusssesscssesisevsscsevenesecaueees 11 3.2 Cài đặt và tridm Khai ccccccccccccececcceesessessvessvsssessvsesessessvsevssssreeesevseeees 12
3.2.1 Môi trường thực nghiệm Q0 0102211121122 1112111211 1211 1181111151111 key 12
3.2.2 Triển khai 5 ST n2 12tr re 13
Trang 42 Vị dụ học máy c1 2 2221122111121 2 111101110111 11 1111110111111 11111011111 kệ 4
1 Vi du minh hoa PCA Ì LH HH HS ng nKnSnS ng S5 E1 ng 8
2 Vi du minh hoa PCA 2 cece eeeeeescscccnctececccevecccsceneeeetteacaesceatteeeseeseseseeanea 9
1 Ng6n net lap trinh Python cc 2012211211122 1221115111151 1 115 21 ng key 12
3 Khai báo thư viện, đọc dữ liệu Q12 S2 22H SH ng kg tk nh xe 14
4 Phân chia đữ liệu và chuẩn hóa đữ liệu - ch Hrehie 14
5 Thưc hiện giảm chiều và trực quan hóa c0 2122211122 n2 xe yey 15
6 Trước khi giảm chiu 55:22 21 22272 tt HH hư ườn 15
7 Sau khi giam Chiu ccccccecccccsccscesessescessecsesseseseesesevssesessessesessesesevsuseseseesseees 16
8 Xây dựng mô hình học máy - L c1 221221111211 12 1155 111151111 xe 17
9 Kết quả thực nghiệm cece 2211112121211 1111 1121120111181 111 118111115551 ng keg 17
Trang 5LỜI MỞ ĐẦU
Công nghệ ngày cảng phô biến và không ai có thê phủ nhận được tầm quan trọng
và những hiệu quả mà nó đem lại cho cuộc sống chủng ta Bắt kỳ trong lĩnh vực nào, sự góp mặt của trí tuệ nhân tạo sẽ giúp con người làm việcvà hoàn thành tốt công việc hơn
Và gần đây, một thuật ngữ “machine leaming” rất được nhiều người quan tâm Thay vì phải code phần mềm với cách thức thủ công theo một bộ hướng dẫn cụ thê nhằm hoàn thành một nhiệm vụ đề ra thì máy sẽ tự “học hỏi” bằng cách sử dụng một lượng lớn đữ liệu cùng những thuật toán cho phép nó thực hiện các tác vụ
Những điều trên được hiểu là nó có thê thực hiện tự động, nhanh chóng để tạo ra
những mô hình cho phép phân tích các dữ liệu có quy mô lớn hơn và phức tạp hơn đồng thời đưa ra những kết quá một cách nhanh và chính xác hơn Chính sự hiệu quá trong
công việc và các lợi ích vượt bậc ma no dem lai cho chung ta khiến machine learning
ngày càng được chú trọng và quan tâm nhiều hơn Vì vậy chúng em quyết định chọn đề
tài: “Áp dụng PCA vào bài toán dự đoán có bị bệnh tim hay không” đề làm báo cáo
Chúng em xin chân thành gửi lời cảm ơn tới các thầy cô giáo trong Trường Đại Học Điện Lực nói chung và các thầy cô giáo trong khoa công nghệ thông tin nói riêng đã tận tình giảng dạy, truyền đạt cho chúng em những kiến thức cũng như kinh nghiệm quý báu trong suốt quá trình học Đặc biệt, em gửi lời cảm ơn đến thầy Phạm Đức Hồng đã tận tình theo sát giúp đỡ, trực tiếp chỉ bảo, hướng dẫn trong suốt quá trình nghiên cứu và
học tập của chúng em
Chung em xin chan thành cảm ơn !
Trang 6CHUONG 1: TONG QUAN VE HOC MAY
1.1 Giới thiệu về học máy
Học máy là một lĩnh vực trong trí tuệ nhân tạo (AI) mà nghiên cứu và phát triển các phương pháp và thuật toán để cho máy tính khá năng học hỏi và tự động cải thiện
hiệu suất theo kinh nghiệm từ dữ liệu Mục tiêu của Học máy là xây dựng các mô hình và
hệ thống có khả năng hiểu, dự đoán và ra quyết định từ đữ liệu mà không cần được lập
trình cụ thể cho từng tác vụ
Học máy có hai dạng chính: Học máy giảm sát và Học máy không giảm sát Trong Học máy giám sát, chúng ta cung cấp cho máy tính các cặp dữ liệu huấn luyện gồm đặc trưng (feature) và nhãn (label) tuong tng May tinh sẽ học từ các mẫu đữ liệu này để xây
dựng một mô hình dự đoán nhãn cho các đữ liệu mới Ví dụ, trong việc phân loại email
vào hộp thư đến hoặc thư rác, chúng ta cung cấp các email đã được đánh nhãn là đến
hoặc rác đề máy tính học từ đó và sau đó dự đoán nhãn cho các email mới
Trong Học máy không giám sát, chúng ta chí có sẵn các đặc trưng mà không có thông tin về nhãn Mục tiêu của chúng ta là khám phá cấu trúc và mô hình ân trong đữ liệu mà không cần có kiến thức trước về các lớp hoặc nhãn Các phương pháp Học máy không giám sát như phân cụm (clustering) và phân tích thành phần chính (PCA) giúp
chúng ta tìm hiểu về sự tương tự, sự khác biệt và mỗi quan hệ giữa các điểm đữ liệu
Các mô hình học máy phụ thuộc vào các thuật toán và phương pháp như cây quyết dinh (decision trees), máy vector hỗ trợ (support vector machines), mạng nơ-ron nhân tạo (artificial neural networks), rừng ngẫu nhiên (random forests) và nhiều thuật toán khác Quá trình huấn luyện mô hình Học máy bao gồm việc tối ưu hóa các tham số của mô hình
thông qua việc so sánh kết quả dự đoán với giá trị thực tế từ đữ liệu huấn luyện
Trang 7
Tập học (Training set
Ví dụ về bài toán học máy: Lọc thư rác (email spam filtering) T: Dự đoán (đề lọc) những thư điện tử nào là thư rác (spam email) P: số lượng thư điện tử gửi đến được phân
loại chính xác E: Một tập các thư điện tử (emails) mẫu, mỗi thư điện tử được biểu diễn
bằng một tập thuộc tính (vd: tập từ khóa) và nhãn lớp (thư thường/thư rác) tương ứng
Trang 8
1.2 Loại hình và phân loại học máy
Trong lĩnh vực Học máy, có nhiều loại hình và phân loại khác nhau dựa trên cách
thức tiếp cận và mục tiêu của bài toán Dưới đây là một số loại hình và phân loại quan trọng trong Học máy:
® Hoc may giam sát (Supervised Learning): Đây là loại hình Học máy trong
đó dữ liệu huấn luyện được cung cấp với các cặp đặc trưng và nhãn tương
ứng Mục tiêu là xây dựng một mô hình có khả năng dự đoán nhãn cho các
dữ liệu mới dựa trên các đặc trưng đầu vào Các ví dụ pho biến của Học
máy giám sát bao gồm phân loại (classification) và hồi quy (regression)
® Học máy khéng giam sat (Unsupervised Learning): Trai nguoc voi Hoc máy giám sát, Học máy không giám sát không yêu cầu đữ liệu huấn luyện
có thông tin nhãn Thay vào đó, mục tiêu là tìm hiểu cầu trúc ân và mô hình trong dữ liệu Các thuật toán trong Học máy không giám sát thường được
sử dụng để phân cụm (clustering), giảm chiều đữ liệu (dimensionality reduction), hoặc khám phá quy luật và mô hình trong dữ liệu
Trang 9¢ Hoc may ban giam sat (Semi-supervised Learning): Loai hình này nằm giữa Học máy giám sát và Học máy không giám sát Trong Học máy bán giám sát, một phần nhỏ dữ liệu huấn luyện có nhãn được sử dụng, nhưng cũng có
một phân lớn dữ liệu không có nhãn Mục tiêu của Học máy bán giảm sát là
sử dụng thông tin có sẵn từ dữ liệu có nhãn kết hợp với cầu trúc và mô hình
an trong dữ liệu không có nhãn để đưa ra dự đoán cho đữ liệu mới
e Hoc tang cuong (Reinforcement Learming): Loai hinh nay tập trung vào việc đào tạo một hệ thống thông qua tương tác liên tục với một môi trường
Hệ thống (agent) tự động học từ kinh nghiệm thông qua việc thir va sai va nhận phần thưởng hoặc hình phạt từ môi trường Mục tiêu của Học tăng cường là tìm hiểu các hành động toi uu dé đạt được mục tiêu nhất định
trong môi trường đã cho
¢ Hoc truyén giam sat (Transfer Learning): Trong Hoc truyén giam sat, kién
thức đã học từ một tac vu (nguồn) được sử dụng để cải thiện hiệu suất của
một tác vụ khác (đích) Thay vì bắt đầu từ đầu, Học truyền giám sát tận dụng kiến thức được chuyền giao từ các tác vụ liên quan hoặc dữ liệu giàu théng tin
1.3 Ung dụng của học máy
Phân loại ảnh và nhận đạng đối tượng: Học máy được sử dụng đề xây đựng các hệ thống phân loại ảnh và nhận dạng đối tượng Ví dụ, trong công nghệ nhận dạng khuôn
mặt, Học máy có thê được sử dụng dé phat hiện va nhận dạng khuôn mặt trong ảnh hoặc
video Điều này có ứng dụng rộng rãi trong bảo mật, giao thông, và công nghiệp giải trí
Xử lý ngôn ngữ tự nhiên: Học máy đã đóng vai trò quan trọng trong xử lý ngôn ngữ tự nhiên (NLP) Các thuật toán Học máy có thê được sử dụng đề xây dựng hệ thống dịch máy, phân loại văn bản, phân tích ý kiến, và tạo ra các ứng dụng trò chuyện tự động thông qua việc hiểu và tạo ra ngôn ngữ tự nhiên
Hé thong goi y (Recommendation Systems): Hoc may được sử dụng trong hệ thống gợi ý đề phân tích dữ liệu người dùng và dự đoán sở thích cá nhân Ví dụ, các công
Trang 10ty thương mại điện tử sử dụng Học máy đề đề xuất sản phâm tương tự đựa trên lịch sử mua hàng của khách hàng Các dich vụ streaming nhu Netflix va Spotify citing str dung Học máy đề đề xuất nội dung phù hợp với sở thích người ding
Xử lý dữ liệu y tế: Học máy đóng vai trò quan trọng trong phân tích dữ liệu y tế và
chân đoán y khoa Các mô hình Học máy có thé được huấn luyện dé nhận biết triệu
chứng bắt thường trong hình ảnh y khoa, dự đoán kết quả xét nghiệm và phân tích dữ liệu
bệnh nhân đề xác định nguy cơ bệnh tật
Tự động lái xe: Học máy đóng vai trò quan trọng trong phát triển xe tự động Các
thuật toán Học máy được sử dụng để xử lý dữ liệu từ các cảm biến và học cách lái xe dựa
trên các tình huống giao thông thực tế Công nghệ này đang được phát triển để nâng cao
an toàn và tăng cường khả năng tự động hóa trong ngành ô tô
Dự báo và dự đoán: Học máy có thể được sử dụng để dự đoán xu hướng và hiệu suất trong nhiều lĩnh vực Ví dụ, dự báo thị trường tài chính, dự đoán lưu lượng giao
thông, hoặc dự báo nhu cầu sản phẩm trong chuỗi cung ứng Học máy cung cấp phương
pháp phân tích dữ liệu mạnh mẽ dé suy luận và dự đoán các biến khác nhau
Trang 11CHƯƠNG 2: PHƯƠNG PHÁP GIAM CHIEU PCA VÀ THUẬT TOÁN
LOGISTIC REGRESSION
2.1 Phương pháp giảm chiều PCA
Phương pháp giám chiều PCA (Principal Component Analysis) là một phương
pháp phân tích dữ liệu thong kê được sử dụng dé giam số chiều của bộ dữ liệu ban đầu
trong khi vẫn giữ lại những thông tin quan trọng nhất Việc giảm chiều đữ liệu giúp giảm
độ phức tạp tính toán, giảm nhiễu và tăng hiệu suất của các thuật toán học máy
Ý tưởng chính của PCA là chuyền đổi không gian đữ liệu ban đầu sang một không gian mới sao cho các thành phần chính (principal components) đóng góp nhiều nhất vào
sự biến thiên của dữ liệu Các thành phần chính là các vectơ riêng ứng với các giá trị riêng của ma trận hiệp phương sai của dữ liệu Các thành phần chính được sắp xếp theo thử tự giảm dần của giá trị riêng, cho phép chúng ta ưu tiên giữ lại những thành phần quan trọng nhất trong quá trình giảm chiều đữ liệu
Quá trình thực hiện PCA bao gồm các bước sau:
© Chuẩn bị dữ liệu: Trước khi áp dụng PCA, cần tiến hành chuân bị và tiền
xử lý dữ liệu Điều này bao gồm loại bỏ các giá trị thiếu, xử lý nhiễu, chuẩn
hóa dữ liệu nếu cần thiết Đảm bảo dữ liệu đã được chuẩn bị tốt sẽ đảm bảo
kết quả PCA chính xác và đáng tin cậy
© _ Tính ma trận hiệp phương sai: Sau khi chuẩn bị dữ liệu, tiếp theo là tính
toán ma trận hiệp phương sai của dữ liệu Ma trận hiệp phương sai đo lường mức độ tương quan giữa các biến trong bộ đữ liệu Ma trận này có
kích thước nxn, với n là số chiều của dữ liệu ban đầu Các phan tử của ma
trận hiệp phương sai cho biết mức độ tương quan giữa từng cặp biến
©_ Tính các thành phân chính: Tiếp theo, chúng ta tính toán các thành phần chính bằng cách tìm các vectơ riêng và giá trị riêng của ma trận hiệp phuong sai Cac vecto riêng là các hướng trong không gian dữ liệu mới, trong khi giá trị riêng cho biết độ quan trọng của mỗi thành phần chính Các
Trang 12thành phần chính được sắp xếp theo thứ tự giảm dần của giá trị riêng, với thành phần chính đầu tiên đóng góp nhiều nhất vào sự biến thiên của đữ
liệu
¢ Chọn số chiều mới: Sau khi tính toán các thành phần chính, chúng ta cần chọn số lượng thành phần chính cần giữ lại Quá trình này có thể dựa trên
tỷ lệ phân trăm giữ lại thông tin, tức là chọn 36 lượng thành phan chinh sao
cho tông giá trị riêng của chúng đạt được một ngưỡng xác định (ví dụ: 95%
tổng giá trị riêng) Hoặc có thể chọn số chiều mới dựa trên tiêu chí đặc tả
trước, như số lượng biến cần giữ lại hoặc mức độ giảm chiều mà chúng ta mong muốn
e©_ Biến đổi dữ liệu: Cuối cùng, chúng ta thực hiện quá trình biến đổi dữ liệu
ban đầu vào không gian mới, được tạo bởi các thành phần chính đã chọn Quá trình này giảm số chiều của đữ liệu ban đầu, trong đó mỗi mẫu dữ liệu
mới được biểu diễn bởi một vector có số chiều thấp hơn Kết quả là bộ dữ
liệu mới với số chiều giảm, giúp giảm độ phức tạp tính toán và tăng tốc độ
xử lý của các thuật toán học máy
Ví dụ 1: Minh họa PCA: Phép chiếu lên trục tọa độ khác nhau có thê cho cái nhìn rất khác nhau về cùng | dit liéu
Hinh 2 I Ví dụ minh họa PCA 1
12