Trí tuệ nhân tạo (Artificial Intelligence - AI) là một lĩnh vực trong khoa học máy tính liên quan đến việc phát triển các hệ thống và chương trình có khả năng tự học, tự hiểu, và tự thích nghi như con người. Trí tuệ nhân tạo giúp máy tính thực hiện các tác vụ thông minh mà trước đây chỉ có con người mới có thể làm được. Học máy (Machine Learning) là một phần của trí tuệ nhân tạo, tập trung vào việc xây dựng các thuật toán và mô hình để máy tính có thể tự động học từ dữ liệu mà không cần được lập trình cụ thể. Học máy cho phép máy tính tự động tìm ra các mẫu và quy luật từ dữ liệu để làm việc, dự đoán và ra quyết định. Các thuật toán học máy sử dụng nhiều phương pháp như học có giám sát, học không giám sát và học tăng cường. Học có giám sát dựa trên việc sử dụng dữ liệu đã được gán nhãn để huấn luyện mô hình. Học không giám sát không yêu cầu dữ liệu đã được gán nhãn và tập trung vào việc phát hiện các cấu trúc hoặc mẫu ẩn trong dữ liệu. Học tăng cường là quá trình máy tính tương tác với môi trường để tìm hiểu và tối đa hóa mục tiêu hoặc phần thưởng. Trí tuệ nhân tạo và học máy đã được áp dụng rộng rãi trong nhiều lĩnh vực như công nghệ, y tế, tài chính, giao thông vận tải, marketing, và nhiều ngành công nghiệp khác. Các ứng dụng của trí tuệ nhân tạo và học máy bao gồm nhận dạng giọng nói, nhận dạng hình ảnh, tự động lái xe, dịch thuật tự động, tư vấn và hỗ trợ khách hàng tự động, và nhiều ứng dụng khác. Việc sử dụng trí tuệ nhân tạo và học máy trong y tế vẫn cần được đánh giá kỹ lưỡng và có sự can thiệp của các chuyên gia y tế. Các bài toán liên quan đến sức khỏe con người là cực kỳ phức tạp và đòi hỏi một sự chính xác tuyệt đối trong quá trình phục vụ. Do đó, các ứng dụng của trí tuệ nhân tạo và học máy trong y tế cần được kiểm định và đảm bảo tính đáng tin cậy trước khi áp dụng trong thực tế.
Trang 1 o 0 o
-TIỂU LUẬN MÔN HỌC: HỌC MÁY TRONG Y TẾ
CHỦ ĐỀ: ỨNG DỤNG MÔ HÌNH HỌC MÁY ĐỂ PHÂN TÍCH DỮ LIỆU CHẨN ĐOÁN NGUY CƠ MẮC BỆNH TIM MẠCH
Giảng viên hướng dẫn: Th.S Hoàng Quang Huy
Nhóm sinh viên thực
Nhóm sinh viên thực
hiện:
Đỗ Vi Vũ Anh – 20230096P Nguyễn Minh Tiến – 20230106P Chuyên ngành: Kỹ thuật Y sinh
Trang 2Hà Nội, tháng 10/2024
ii
Trang 3CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY TRONG Y TẾ 2
1.1 Các khái niệm AI, ML, DL trong lĩnh vực học máy 2
1.1.1 AI – Artificial Intelligence 2
1.1.2 ML – Machine Learning 2
1.1.3 DL – Deep Learning 3
1.2 Ứng dụng của AI trong y tế 4
1.2.1 AI hỗ trợ chẩn đoán bệnh 4
1.2.2 Ứng dụng AI trong Xquang 5
1.2.3 Phẫu thuật có sự hỗ trợ của robot 5
1.3 Kịch bản ứng dụng AI, ML, DL vào y tế Việt Nam 6
2.1 Định nghĩa bài toán 8
2.2 Tổng quan về bệnh lý tim mạch 8
2.2.1 Thực trạng vấn đề 8
2.2.2 Nguyên nhân: 9
2.2.3 Giải pháp 9
2.2.4 Mục tiêu 9
2.3 Làm rõ dữ liệu, các đặc trưng của dữ liệu, nguồn dữ liệu 10
2.3.1 Mô tả dữ liệu 10
2.3.2 Tiền xử lý dữ liệu 11
2.3.3 Huấn luyện mô hình AI 11
2.3.4 Kết quả 20
KẾT LUẬN 21
TÀI LIỆU THAM KHẢO 22
Trang 4MỞ ĐẦU
Trí tuệ nhân tạo (Artificial Intelligence - AI) là một lĩnh vực trong khoa học máy tính liên quan đến việc phát triển các hệ thống và chương trình có khả năng tự học, tự hiểu, và tự thích nghi như con người Trí tuệ nhân tạo giúp máy tính thực hiện các tác
vụ thông minh mà trước đây chỉ có con người mới có thể làm được Học máy (Machine Learning) là một phần của trí tuệ nhân tạo, tập trung vào việc xây dựng các thuật toán và mô hình để máy tính có thể tự động học từ dữ liệu mà không cần được lập trình cụ thể
Học máy cho phép máy tính tự động tìm ra các mẫu và quy luật từ dữ liệu để làm việc, dự đoán và ra quyết định Các thuật toán học máy sử dụng nhiều phương pháp như học có giám sát, học không giám sát và học tăng cường Học có giám sát dựa trên việc sử dụng dữ liệu đã được gán nhãn để huấn luyện mô hình Học không giám sát không yêu cầu dữ liệu đã được gán nhãn và tập trung vào việc phát hiện các cấu trúc hoặc mẫu ẩn trong dữ liệu Học tăng cường là quá trình máy tính tương tác với môi trường để tìm hiểu và tối đa hóa mục tiêu hoặc phần thưởng Trí tuệ nhân tạo và học máy đã được áp dụng rộng rãi trong nhiều lĩnh vực như công nghệ, y tế, tài chính, giao thông vận tải, marketing, và nhiều ngành công nghiệp khác Các ứng dụng của trí tuệ nhân tạo và học máy bao gồm nhận dạng giọng nói, nhận dạng hình ảnh, tự động lái
xe, dịch thuật tự động, tư vấn và hỗ trợ khách hàng tự động, và nhiều ứng dụng khác Việc sử dụng trí tuệ nhân tạo và học máy trong y tế vẫn cần được đánh giá kỹ lưỡng và có sự can thiệp của các chuyên gia y tế Các bài toán liên quan đến sức khỏe con người là cực kỳ phức tạp và đòi hỏi một sự chính xác tuyệt đối trong quá trình phục vụ Do đó, các ứng dụng của trí tuệ nhân tạo và học máy trong y tế cần được kiểm định và đảm bảo tính đáng tin cậy trước khi áp dụng trong thực tế
Trang 5CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY TRONG Y TẾ
1.1 Các khái niệm AI, ML, DL trong lĩnh vực học máy
1.1.1 AI – Artificial Intelligence
AI – Artificial Intelligence: Là một dạng công nghệ cho phép máy móc tái hiện lại hành động của con người Thay thế con người làm một số công việc có quy tắc
AI là một ngành thuộc lĩnh vực khoa học máy tính (Computer science) Là trí tuệ do con người lập trình tạo nên với mục tiêu giúp máy tính có thể tự động hóa các hành vi thông minh như con ngườiVí dụ ứng dụng dịch thuật sử dụng AI
Ví dụ:
- AI phản ứng: Deep Blue - đây là một chương trình chơi cờ vua tự động, được
tạo ra bởi IBM, với khả năng xác định các nước cờ đồng thời dự đoán những bước đi tiếp theo của đối thủ Thông qua đó, Deep Blue đưa ra những nước đi thích hợp nhất
- AI với bộ nhớ hạn chế: Ví dụ như đối với xe không người lái, nhiều cảm biến
được trang bị xung quanh xe và ở đầu xe để tính toán khoảng cách với các xe phía trước, công nghệ AI sẽ dự đoán khả năng xảy ra va chạm, từ đó điều chỉnh tốc độ xe phù hợp để giữ an toàn cho xe
1.1.2 ML – Machine Learning
Machine Learning (Học máy): là thuật ngữ chỉ các hành động con người “dạy” máy tính để cải thiện một nhiệm vụ mà nó đang thực hiện, cụ thể là sử dụng các thuật toán để phân tích những thông tin sẵn có, sau đó học hỏi và đưa ra những quyết định,
dự đoán về những thứ có liên quan Thay vì chúng ta phải lập trình ra một phần mềm với các hành động, hướng dẫn chi tiết để thực hiện một nhiệm vụ thì máy tính sẽ được học cách thực hiện các nhiệm vụ đó thông qua một lượng dữ liệu và các thuật toán Sử dụng để dạy cho máy móc cách làm việc đó theo hướng “học từ kinh nghiệm” Khi nạp vào máy móc một lượng dữ liệu đủ lớn để rút ra các đặc điểm khi nào cần đưa ra kết luận nào, máy sẽ có thể tự làm các trường hợp tiếp theo, trong quá trình đó chúng
ta hiệu chỉnh lại, máy lại học được thêm và tiếp tục hoàn thiện, ngày càng có nhiều dữ liệu và ngày càng đưa ra nhiều kết luận chính xác hơn
Ví dụ:
- Nhận dạng hình ảnh: Thuật toán tự gắn thẻ bạn bè, người dùng của Facebook
- Nhận dạng giọng nói: trên ứng dụng Google Assistant
- Nhận dạng chữ viết tay trên Samsung Galaxy S23 Ultra
1.1.3 DL – Deep Learning
Sử dụng theo hướng tính toán đưa ra các tham số cụ thể và so sánh các tham số
đó với dữ liệu đưa vào để có kết luận Cách thức hoạt động của thuật toán Deep Learning diễn ra như sau: Các dòng thông tin sẽ được trải qua nhiều lớp cho đến lớp sau cùng Lấy quy trình học của con người làm ví dụ cụ thể Qua các lớp đầu tiên sẽ tập trung vào việc học các khái niệm cụ thể hơn trong khi các lớp sâu hơn sẽ sử dụng
Trang 6thông tin đã học để nghiên cứu và phân tích sâu hơn trong các khái niệm trừu tượng Quy trình xây dựng biểu diễn dữ liệu này được gọi là trích xuất tính năng Kiến trúc phức tạp của việc học sâu được cung cấp từ mạng lưới thần kinh sâu với khả năng thực hiện trích xuất tính năng tự động Ngược lại, trong học máy thông thường còn gọi là học nông, nhiệm vụ này được thực hiện khi truy xuất các thuật toán cụ thể
Ví dụ:
- Hệ thống tự gợi ý người dùng của Google khi người dùng đang tìm kiếm các từ
khóa liên quan
- Hệ thống tự hiển thị Quảng cáo phù hợp với người dùng Facebook khi họ
Online
1.2 Ứng dụng của AI trong y tế
Một số ứng dụng của AI trong y học như: chẩn đoán bệnh qua hình ảnh; nghiên cứu, phát triển thuốc; tối ưu hóa cho điều trị từng cá nhân; chỉnh sửa gen…
Từ các bệnh mãn tính như ung thư đến công nghệ xét nghiệm, chụp chiếu như X-quang, AI đang được tận dụng để triển khai những phát minh nâng cao độ hiệu quả
và chính xác, giúp chăm sóc bệnh nhân và hy vọng tìm ra phương pháp chữa trị cho họ
AI cung cấp một số lợi thế so với phương pháp phân tích và đưa ra quyết định lâm sàng truyền thống Thuật toán AI làm cho các hệ thống trở nên chính xác hơn khi chúng hiểu được dữ liệu đào tạo, giúp con người có những hiểu biết sâu sắc chưa từng
có về sự thay đổi trong điều trị, chăm sóc, chẩn đoán và kết luận cho bệnh nhân
Theo báo cáo của Acumen Research, thị trường trí tuệ nhân tạo trong y tế
-chăm sóc sức khỏe toàn cầu dự kiến sẽ tăng lên 8 tỷ USD vào năm 2026
1.2.1 AI hỗ trợ chẩn đoán bệnh
Sai sót xảy ra trong quá trình chẩn đoán còn chiếm tỉ lệ khá cao trong tổng số sai sót trong lĩnh vực y tế, những sai sót này có thể gây ra những hậu quả nghiêm trọng tới bệnh nhân Trí tuệ nhân tạo đã và đang được ứng dụng trong chẩn đoán bệnh, đặc biệt trong chẩn đoán ung thư giúp có được kết quả nhanh chóng, hiệu quả và chính xác
Watson của IBM ứng dụng học máy vào hỗ trợ phân loại các khối u theo loại di truyền, cho phép bác sĩ đưa ra phương pháp điều trị hiệu quả nhất với căn bệnh của bệnh nhân Ứng dụng trí tuệ nhân tạo giúp giảm 78% thời gian sàng lọc thử nghiệm lâm sàng từ 1h50p xuống còn 24 phút, với kết quả chẩn đoán đạt tỷ lệ phù hợp tới 96% cho ung thư phổi, 81% với ung thư đại tràng và 93% với các trường hợp ung thư trực tràng theo nghiên cứu tại Trung tâm Ung thư toàn diện Manipal ở Bangalore, Ấn Độ
Một ví dụ khác có thể nhắc đến là Ultromics – được phát triển bởi Bệnh viện John Radcliffe ở Anh – nền tảng chẩn đoán hỗ trợ bởi AI giúp chẩn đoán các bệnh
về tim một cách chính xác hơn so với bác sĩ Hay công ty Optellum đang phát triển
Trang 7hệ thống AI cho chẩn đoán ung thư phổi bằng cách phân tích các cụm tế bào được phát hiện qua ảnh chụp Hay ông lớn Google phát triển hệ thống AI xác định chính xác các dấu hiệu ung thư tuyến tiền liệt trong sinh thiết
1.2.2 Ứng dụng AI trong Xquang
Ứng dụng AI với khả năng giải thích kết quả hình ảnh X quang có thể hỗ trợ phát hiện những thay đổi nhỏ trong hình ảnh mà bác sĩ lâm sàng có thể vô tình bỏ sót
Một ví dụ của việc ứng dụng này là hệ thống Aidoc được phát triển làm việc cùng bác sĩ X-quang trong chẩn đoán, đánh dấu tình trạng xuất huyết nội sọ cấp tính (ICH) hoặc tình trạng chảy máu não trong chụp CT Hệ thống giúp các bác sĩ
X quang và bệnh viện ưu tiên chăm sóc bệnh nhân, phát hiện các bất thường cấp tính trong cơ thể bệnh nhân một cách nhanh chóng
Tính đến 8/2020 Aidoc đã có 3.522.164 hình ảnh được quét phân tích, 880.540 thông báo được gửi, 582.007 trường hợp được ưu tiên chữa trị, 3.582.031 phút được tiết kiệm cho thời gian quay vòng Khi so sánh hệ thống Aidoc với quy trình thực hiện First in first out (FIFO), hệ thống Aidoc giúp giảm 60,3% thời gian để bệnh nhân có thể được chụp X quang và nhận báo cáo chẩn đoán
Bên cạnh đó, ứng dụng trí tuệ nhân tạo cũng đã được nghiên cứu ứng dụng giúp các bác sĩ X quang cải thiện độ chính xác trong phát hiện ung thư vú Việc chẩn đoán hình ảnh phụ thuộc nhiều vào mật độ mô tuyến vú nếu mật độ này dày sẽ có thể ảnh hưởng đến khả năng chẩn đoán của bác sĩ còn với chẩn đoán bằng AI thì không Độ nhạy khi phát hiện ung thư vú chỉ riêng AI cho thấy phát hiện được 88.8%, trong khi chỉ riêng bác sĩ X-quang phát hiện 75,3% và khi bác sĩ X-quang
có sự hỗ trợ bởi AI thì độ chính xác đạt 84.8% tăng 9,5%
1.2.3 Phẫu thuật có sự hỗ trợ của robot
Gần đây, phẫu thuật có sự hỗ trợ của rô bốt đã trở nên phổ biến Một số bệnh viện trên thế giới đang triển khai robot hỗ trợ hoàn thành các nhiệm vụ đòi hỏi độ chính xác, khả năng kiểm soát và tính linh hoạt
Rô bốt tích hợp với cánh tay cơ học, máy ảnh và dụng cụ phẫu thuật cần thiết cũng giúp nâng cao kiến thức, kỹ năng và kinh nghiệm của bác sĩ, tạo ra một hình thức phẫu thuật mới Bác sĩ phẫu thuật có thể ngồi vào máy tính và điều khiển cánh tay cơ học của rô-bốt, trong khi rô-bốt cung cấp chế độ xem 3 chiều, phóng to vị trí phẫu thuật mà họ không thể nhìn bằng mắt thường
Các ca phẫu thuật được hỗ trợ bởi robot do AI triển khai có ít biến chứng hơn, bệnh nhân ít đau đớn hơn tương đối và tốc độ hồi phục nhanh hơn
1.3 Kịch bản ứng dụng AI, ML, DL vào y tế Việt Nam
Hiện nay, AI trong y tế được dùng phổ biến nhất để phân loại - từ việc tự động đánh giá ảnh chụp CT, X quang hoặc điện não đồ EKG để chẩn đoán bệnh tật, cho đến đánh giá khả năng lây lan của các bệnh nhân có nguy cơ cao đối với sức khỏe cộng đồng Một số nghiên cứu cho thấy AI có khả năng thực hiện tương đương hoặc tốt hơn
Trang 8con người ở một số nhiệm vụ Chẳng hạn, các thuật toán nhận diện và cải thiện hình ảnh có khả năng phát hiện các khối u ác tính với xác xuất đúng lên tới 80 - 90%
Các ứng dụng AI này đang được thí điểm ở một số bệnh viện như Bệnh viện Phổi Trung ương, Bệnh viện Quân y 108, Bệnh viện K, Bệnh viện Vinmec, Bệnh viện
Đa khoa Phú Thọ, Bệnh viện Nhân dân 115… và trên các xe X-quang kỹ thuật số lưu động Điều này có ý nghĩa quan trọng đối với những bệnh nhân ở cơ sở y tế tuyến dưới không đủ bác sĩ lành nghề hoặc máy móc thiết bị tiêu chuẩn, đồng thời có thể hỗ trợ các bác sĩ tuyến trung ương sàng lọc một lượng khổng lồ bệnh nhân đổ về mỗi ngày
Trí tuệ nhân tạo cũng đang được dùng để khai thác bệnh án điện tử tại Việt Nam Nó có thể thu thập toàn bộ tiền sử bệnh tật và đưa ra một cách nhìn chi tiết, đơn
lẻ cho từng người bệnh, nhưng bắt cặp với tất cả các dữ liệu chăm sóc sức khỏe từng
đã được thu thập trên nhiều bệnh nhân khác trước đó, từ đó giúp bác sĩ đưa ra các phác
đồ điều trị thích hợp
Thông qua năng lực bao trùm mạnh mẽ, AI bắt đầu giúp các hệ thống chăm sóc sức khỏe chuyển trọng tâm và nguồn lực từ chữa bệnh sang phòng bệnh hoặc phát hiện sớm các loại bệnh mãn tính như tim mạch, tiểu đường, ung thư vốn là mối đe dọa ngày càng tăng Bên cạnh đó, AI cũng đang được phát triển dưới dạng trợ lý y tế giúp theo dõi tình trạng và liệu pháp điều trị giữa các lần khám đối với bệnh nhân điều trị trên sáu tháng
Ngoài phát triển AI dưới dạng phần mềm, một số đơn vị đang đi theo hướng tạo
ra các robot vật lý phục vụ cho việc chăm sóc sức khỏe Trong dịch Covid-19 mới đây, Học viện Kỹ thuật quân sự đã nhanh chóng thử nghiệm robot vận chuyển có khả năng đưa thức ăn, đồ dùng vào khu cách ly và nhận rác để thay thế cho các nhân viên y tế nhằm tránh tiếp xúc trực tiếp Ngoài ra, robot này cũng giúp bác sĩ giao tiếp với người được cách ly mà không phải gặp mặt trực tiếp Đặc điểm chung của các loại robot này
là sử dụng AI để xử lý các bài toán không biết trước (nhận diện vật cản và xây dựng đường đi) nhằm tương tác trong môi trường có con người, khác với các loại robot dùng trong công nghiệp làm theo bài toán định sẵn
Trang 9CHƯƠNG 2 BÀI TOÁN CỦA NHÓM 2.1 Định nghĩa bài toán
Trong thực tiễn khám chữa bệnh, chúng ta có thể lập trình để “huấn luyện” mô hình AI để đưa ra kết quả chẩn đoán cho một bệnh nhất định dựa trên các thông số đầu vào thu thập được, từ đó so sánh kết quả chẩn đoán của AI với chẩn đoán thực tế để đánh giá hiệu quả của việc “huấn luyện” AI
Nhóm chúng em đưa ra một bài toán cụ thể để thực hiện như sau:
Huấn luyện mô hình AI để đưa ra chẩn đoán một bệnh nhân có nguy cơ mắc bệnh tim mạch hay không dựa vào thông số mẫu đầu vào, số lượng mẫu 70.000 mẫu thu
thập từ nền tảng Kaggle.
2.2 Tổng quan về bệnh lý tim mạch
2.2.1 Thực trạng vấn đề
Bệnh lý tim mạch là nguyên nhân gây tử vong hàng đầu trên toàn thế giới Tại Việt Nam, cứ 100 trường hợp tử vong thì có tới 77 trường hợp là do các bệnh không lây nhiễm Trong đó, cao nhất là nguyên nhân do bệnh tim mạch với tỷ lệ 31%, tiếp đó
là ung thư chiếm 19%, bệnh phổi tắc nghẽn mãn tính (COPD) 6%, đái tháo đường 4% Các bệnh không lây nhiễm khác 18%
Theo thống kê của Bộ Y tế, số người tử vong mỗi năm vì bệnh tim mạch khoảng 200.000 người Theo thống kê năm 2015, cứ 4 người trưởng thành thì có một người tăng huyết áp Căn bệnh này làm tăng nguy cơ tử vong do đột quỵ lên gấp 4 lần và tăng nguy cơ tử vong do bệnh tim mạch lên gấp 3 lần so với người không mắc bệnh Trước đây, bệnh tim được cho là chỉ gặp ở người lớn tuổi Tuy nhiên các vấn đề tim mạch có thể xảy ra với bất kỳ ai và bất kỳ lứa tuổi nào Thực tế, tần suất mắc bệnh
ở người trẻ và trung niên cao hơn chúng ta nghĩ và ngày càng gia tăng Nguyên nhân chủ yếu là do người trẻ thường chủ quan với sức khỏe, cho rằng họ không có nguy cơ mắc bệnh nên thường không có biện pháp phòng ngừa hợp lý
2.2.2 Nguyên nhân:
Nguyên nhân gây bệnh lý tim mạch ở người cao tuổi
Nguyên nhân gây bệnh lý tim mạch ở người cao tuổi đến từ vấn đề tuổi tác, Khi
cơ thể lão hóa, chức năng của các cơ quan dần suy giảm, trong đó có hệ tim mạch Những thay đổi về cấu trúc ảnh hưởng đến khả năng thực hiện chức năng của tim Quá trình này thường bắt đầu từ khi còn trẻ, phát triển dần, ngày càng biểu hiện rõ nét hơn
và gây ảnh hưởng đến người cao tuổi, đặc biệt là khi họ mắc kèm các bệnh mạn tính khác như gan mật, tiểu đường,…
Nguyên nhân gây bệnh lý tim mạch thường gặp ở người trẻ
Khác với người già, các bệnh tim ở tuổi trưởng thành và trung niên thường do các thói quen thiếu lành mạnh như: Hút thuốc lá, béo phì, ít vận động, căng thẳng (stress), chế độ ăn quá nhiều muối, nhiều chất béo, thường xuyên uống rượu bia, tăng huyết áp,
mỡ máu, đái tháo đường, hoặc một số do bệnh tim bẩm sinh…
Trang 102.2.3 Giải pháp
Để giải quyết bài toán của nhóm đã đặt ra là: “Ứng Dụng Học Máy Để Phân Tích Dữ Liệu Dự Báo Nguy Cơ Mắc Bệnh Lý Tim Mạch”, cần thực hiện:
- Tổng hợp dữ liệu các thông số đầu vào từ các đặc điểm về tuổi, giới tính, thể
trạng (chiều cao, cân nặng), huyết áp, lượng cholesterol, glucose trong máu, tiền sử hút thuốc, uống rượu bia và mức độ tập luyện thể chất để phân loại, dự đoán bệnh về tim mạch
- Lập trình “huấn luyện” mô hình AI để đưa ra kết quả chẩn đoán từ các thông
số đầu vào thu thập được, từ đó so sánh kết quả chẩn đoán của AI với chẩn đoán thực
tế để đánh giá hiệu quả của việc “huấn luyện” AI
2.2.4 Mục tiêu
Mục tiêu của bài toán là sử dụng các phương pháp học máy (Machine Learning)
để phân loại và dự đoán nguy cơ mắc bệnh tim mạch dựa trên các thông số sức khỏe của bệnh nhân, từ đó phát hiện sớm các dấu hiệu bất thường trong dữ liệu tim mạch nhằm ngăn ngừa nguy cơ đột quỵ Cụ thể, bài toán cần đưa ra Phân loại nhị phân (Binary Classification), với đầu ra là:
“0”: Không có nguy cơ mắc bệnh tim mạch.
“1”: Có nguy cơ mắc bệnh tim mạch.
2.3 Làm rõ dữ liệu, các đặc trưng của dữ liệu, nguồn dữ liệu
2.3.1 Mô tả dữ liệu
Tập dữ liệu sử dụng trong bài toán được thu thập từ nền tảng Kaggle, với các thông số về sức khỏe của bệnh nhân, bao gồm tổng cộng 70.000 mẫu và 14 trường dữ
liệu cho mỗi mẫu Các đặc trưng cụ thể như sau:
1) Index: Chỉ số thứ tự của từng dòng (kiểu số nguyên).
2) Id: Mã định danh của mỗi bệnh nhân (kiểu số nguyên).
3) Age: Tuổi của bệnh nhân (kiểu số nguyên) (tính theo ngày kể từ khi sinh).
4) Gender: Giới tính của bệnh nhân (1 = Nam, 2 = Nữ).
5) Height: Chiều cao (cm, kiểu số nguyên).
6) Weight: Cân nặng (kg, kiểu số nguyên).
7) AP_hi: Huyết áp tâm thu (Systolic blood pressure, kiểu số nguyên).
8) AP _lo: Huyết áp tâm trương (Diastolic blood pressure, kiểu số nguyên).
9) Cholesterol: Mức cholesterol trong máu (Mã hoá: 1 = Bình thường, 2 = Tăng cao,
3 = Rất cao)
10) Gluc: Mức đường huyết (Mã hoá: 1 = Bình thường, 2 = Tăng cao, 3 = Rất cao) 11) Smoke: Thói quen hút thuốc lá (0 = Không, 1 = Có).
12) Alco: Thói quen uống rượu bia (0 = Không, 1 = Có).