Báo cáo ngôn ngữ lập trình python Đ ti áp dụng mô hình logistic regression Để chuẩn Đoán bệnh tim mạch

Chúng em sẽ tiến hành một cuộc điều tra sâu sắc vào các phương pháp,công cụ và dữ liệu được sử dụng để xây dựng mô hình dự đoán bệnh tim mạch.Đồng thời, chúng tôi cũng sẽ đánh giá sự hiệ

TỔNG QUAN V NGÔN NGỮ PYTHON

Ư U ĐIỂM V HẠN CHẾ CỦA YTHON P

 Dễ học và dễ sử dụng: Cú pháp đơn giản với người mới bắt đầu.

 Cộng đồng mạnh mẽ: Python có một cộng đồng người dùng lớn trên toàn thế giới, luôn sẵn sàng hỗ trợ và chia sẻ kiến thức.

 Tính linh hoạt cao: Python có thể được sử dụng trong nhiều lĩnh vực khác nhau từ phát triển web đến học máy.

 Tốc độ chậm: So với các ngôn ngữ như C/C++ hay Java, Python chậm hơn do là ngôn ngữ thông dịch.

Python không phải là lựa chọn tối ưu cho phát triển ứng dụng di động, khi so sánh với các ngôn ngữ chuyên biệt như Swift cho iOS và Kotlin cho Android.

 Sử dụng bộ nhớ lớn: Python thường tiêu tốn nhiều bộ nhớ hơn so với các ngôn ngữ khác.

THUẬT TOÁN LOGISTIC REGRESSION

T HUẬT TOÁN L OGISTIC R EGRESSION (H ỒI QUY L OGISTIC L GÌ ) ?

Hồi quy Logistic là một phương pháp phân tích dữ liệu toán học nhằm xác định mối quan hệ giữa hai yếu tố Kỹ thuật này sử dụng mối quan hệ đã xác định để dự đoán giá trị của một yếu tố dựa trên yếu tố còn lại Kết quả dự đoán thường là các giá trị hữu hạn, chẳng hạn như có hoặc không.

2.2 Tìm hiểu về thuật toán Logistic regression

Hồi quy Logistic là một kỹ thuật quan trọng trong trí tuệ nhân tạo và máy học (AI/ML), cho phép xây dựng các mô hình machine learning có khả năng xử lý dữ liệu phức tạp mà không cần can thiệp của con người Những mô hình này giúp tổ chức thu thập thông tin chuyên sâu từ dữ liệu kinh doanh, từ đó thực hiện phân tích dự đoán để giảm chi phí hoạt động, nâng cao hiệu quả và tăng tốc độ mở rộng quy mô.

2.3 Các cách tiếp cận phân tích hồi quy Logistic dựa trên kết quả của biến phụ thuộc

2.3.1 Hồi quy Logistic nhị phân

Hồi quy Logistic nhị phân là phương pháp phù hợp cho các bài toán phân lớp nhị phân, nơi chỉ có hai kết quả có thể xảy ra Biến phụ thuộc trong mô hình này chỉ nhận hai giá trị, ví dụ như có hoặc không, hoặc 0 và 1.

Mô hình hồi quy nhị phân sử dụng hàm Logistic để tính toán giá trị trong khoảng từ 0 đến 1, nhưng kết quả sẽ được làm tròn đến các giá trị gần nhất Cụ thể, nếu kết quả dưới 0,5, nó sẽ được làm tròn thành 0, trong khi kết quả trên 0,5 sẽ được làm tròn thành 1.

1, do đó hàm Logistic trả về một kết quả nhị phân.

2.3.2 Hồi quy Logistic đa thức

Hồi quy đa thức là một phương pháp phân tích hiệu quả cho các vấn đề có nhiều kết quả khả thi, miễn là số lượng kết quả đó có hạn Chẳng hạn, kỹ thuật này có thể dự đoán khả năng tăng giá nhà với các tỷ lệ như 25%, 50%, 75% hoặc 100% dựa trên dữ liệu dân số, nhưng không thể xác định giá trị chính xác của một ngôi nhà cụ thể.

Hồi quy Logistic đa thức ánh xạ các giá trị kết quả vào khoảng từ 0 đến 1, cho phép hàm Logistic trả về dữ liệu liên tục như 0,1, 0,11, 0,12, v.v Điều này giúp hồi quy đa thức nhóm các đầu ra về các giá trị gần nhất có thể.

2.3.3 Hồi quy Logistic thứ tự

Hồi quy Logistic thứ tự, hay mô hình logit có thứ tự, là một dạng hồi quy đa thức đặc biệt dùng để giải quyết các vấn đề mà số đại diện cho các bậc thay vì giá trị thực tế Ví dụ, phương pháp này có thể được áp dụng để dự đoán câu trả lời cho khảo sát đánh giá dịch vụ, trong đó khách hàng xếp hạng từ kém đến xuất sắc dựa trên số lượng sản phẩm họ đã mua trong năm.

2.4 Ứng dụng của hồi quy Logistic

Hồi quy Logistic có một số ứng dụng thực tế trong nhiều ngành công nghiệp khác nhau.

Các công ty sản xuất sử dụng phân tích hồi quy Logistic để ước tính xác suất xảy ra sự cố trong các bộ phận của máy móc Dựa trên những xác suất này, họ lập kế hoạch bảo trì nhằm giảm thiểu khả năng xảy ra sự cố trong tương lai.

Các nhà nghiên cứu y khoa đang phát triển các phương pháp điều trị và chăm sóc sức khỏe dựa trên khả năng mắc bệnh của bệnh nhân Họ áp dụng mô hình hồi quy Logistic để phân tích ảnh hưởng của yếu tố di truyền và tiền sử gia đình đến nguy cơ mắc bệnh.

Các công ty tài chính cần phân tích các giao dịch để phát hiện gian lận và đánh giá các đơn xin vay cũng như đơn bảo hiểm nhằm quản lý rủi ro hiệu quả Những vấn đề này có thể được giải quyết bằng mô hình hồi quy Logistic, vì chúng cho ra kết quả rõ ràng như rủi ro cao hoặc thấp và tình trạng gian lận hay không gian lận.

Bộ phận Tiếp thị sử dụng mô hình hồi quy Logistic để dự đoán khả năng người dùng nhấp vào quảng cáo trực tuyến Nhờ vào phương pháp này, các nhà tiếp thị có thể phân tích phản ứng của người dùng đối với các từ ngữ và hình ảnh khác nhau, từ đó tạo ra các quảng cáo hiệu suất cao hơn.

2.5 Cách hoạt động của mô hình hồi quy Logistic Để hiểu rõ về mô hình hồi quy Logistic , trước tiên chúng ta phải hiểu các phương trình và biến.

2.5.1 Phương trình được ứng dụng trong mô hình hồi quy Logistic

Trong toán học, phương trình thể hiện mối quan hệ giữa hai biến x và y Bạn có thể vẽ đồ thị trên hệ trục tọa độ bằng cách nhập các giá trị khác nhau cho x và y.

Ví dụ: Nếu bạn vẽ đồ thị cho hàm “y = 2 * x” là một hàm tuyến tính, chúng ta sẽ có một đường thẳng như hình dưới đây:

Hình 2.1: Đồ thị của phương trình tuyến tính

2.5.2 Biến được sử dụng trong mô hình hồi quy Logistic

Trong thống kê, biến là các yếu tố dữ liệu có giá trị khác nhau, bao gồm biến độc lập (nguyên nhân) và biến phụ thuộc (kết quả) Hồi quy Logistic được sử dụng để phân tích ảnh hưởng của các biến độc lập đến biến phụ thuộc bằng cách xem xét dữ liệu lịch sử của chúng.

Trong ví dụ trên, "x" được xem là biến độc lập, biến dự đoán hoặc biến giải thích do có giá trị đã xác định Ngược lại, "y" là biến phụ thuộc, biến kết quả hoặc biến đáp ứng vì giá trị của nó chưa được xác định.

Hồi quy Logistic là một mô hình thống kê quan trọng, sử dụng hàm Logistic (hay hàm logit) để thiết lập mối quan hệ giữa biến độc lập “x” và biến phụ thuộc “y” Hàm logit chuyển đổi “y” thành hàm sigmoid của “x”, giúp phân tích và dự đoán xác suất xảy ra của các sự kiện nhị phân.

F(x) : đầu ra từ 0 đến 1 (ước tính xác suất)

E: số e trong logarit tự nhiên

Nếu vẽ phương trình hồi quy Logistic này, bạn sẽ có một đường cong hình chữ S như hình dưới đây.

C ÁC CÁCH TIẾP CẬN PHÂN TÍCH HỒI QUY L OGISTIC DỰA TRÊN KẾT QUẢ CỦA BIẾN PHỤ THUỘC

2.3.1 Hồi quy Logistic nhị phân

Hồi quy Logistic nhị phân là phương pháp thích hợp cho các bài toán phân lớp nhị phân, trong đó chỉ có hai kết quả có thể xảy ra Biến phụ thuộc trong hồi quy này chỉ nhận hai giá trị, ví dụ như "có" và "không" hoặc "0" và "1".

Mô hình hồi quy nhị phân sử dụng hàm Logistic để tính toán giá trị trong khoảng từ 0 đến 1, nhưng sẽ làm tròn kết quả đến các giá trị gần nhất Cụ thể, nếu kết quả dưới 0,5 sẽ được làm tròn thành 0, trong khi kết quả trên 0,5 sẽ được làm tròn thành 1.

1, do đó hàm Logistic trả về một kết quả nhị phân.

2.3.2 Hồi quy Logistic đa thức

Hồi quy đa thức là một kỹ thuật phân tích hữu ích cho các vấn đề có nhiều kết quả khả thi, miễn là số lượng kết quả đó là hữu hạn Chẳng hạn, phương pháp này có thể dự đoán tỷ lệ tăng giá nhà ở như 25%, 50%, 75% hoặc 100% dựa trên dữ liệu dân số, nhưng không thể cung cấp giá trị chính xác của một ngôi nhà cụ thể.

Hồi quy Logistic đa thức ánh xạ các giá trị kết quả vào khoảng từ 0 đến 1, cho phép hàm Logistic trả về các giá trị liên tục như 0,1, 0,11, 0,12, v.v Điều này giúp nhóm đầu ra của hồi quy đa thức đến các giá trị gần nhất có thể.

2.3.3 Hồi quy Logistic thứ tự

Hồi quy Logistic thứ tự, hay mô hình logit có thứ tự, là một phương pháp hồi quy đa thức đặc biệt dùng để giải quyết các vấn đề với các số đại diện cho các bậc thay vì giá trị thực tế Ví dụ, phương pháp này có thể được áp dụng để dự đoán phản hồi từ khách hàng về chất lượng dịch vụ của bạn, với các mức đánh giá như kém, ổn, tốt hoặc xuất sắc, dựa trên số lượng mặt hàng họ đã mua trong năm.

Ứ NG DỤNG CỦA HỒI QUY L OGISTIC

Hồi quy Logistic có một số ứng dụng thực tế trong nhiều ngành công nghiệp khác nhau.

Các công ty sản xuất sử dụng phân tích hồi quy Logistic để ước lượng xác suất xảy ra sự cố trong các bộ phận máy móc Dựa trên những ước tính này, họ lập kế hoạch bảo trì nhằm giảm thiểu rủi ro xảy ra sự cố trong tương lai.

Chăm sóc sức khỏe là một lĩnh vực quan trọng, trong đó các nhà nghiên cứu y khoa phát triển kế hoạch điều trị và chăm sóc dự phòng dựa trên khả năng mắc bệnh của bệnh nhân Họ áp dụng mô hình hồi quy Logistic để phân tích và so sánh ảnh hưởng của tiền sử gia đình và gen đến nguy cơ mắc bệnh.

Các công ty tài chính cần phân tích giao dịch để phát hiện gian lận và đánh giá đơn xin vay cũng như đơn bảo hiểm nhằm quản lý rủi ro hiệu quả Những vấn đề này phù hợp với mô hình hồi quy Logistic, giúp phân loại kết quả thành các nhóm cụ thể như rủi ro cao, rủi ro thấp, gian lận hoặc không gian lận.

Bộ phận Tiếp thị sử dụng mô hình hồi quy Logistic trong các công cụ quảng cáo trực tuyến để dự đoán khả năng người dùng nhấp vào quảng cáo Nhờ đó, các nhà tiếp thị có thể phân tích phản ứng của người dùng đối với các từ ngữ và hình ảnh khác nhau, từ đó thiết kế các quảng cáo hiệu suất cao hơn.

C ÁCH HOẠT ĐỘNG CỦA MÔ HÌNH HỒI QUY L OGISTIC

Để hiểu rõ về mô hình hồi quy Logistic , trước tiên chúng ta phải hiểu các phương trình và biến.

2.5.1 Phương trình được ứng dụng trong mô hình hồi quy Logistic

Trong toán học, phương trình thể hiện mối quan hệ giữa hai biến x và y Bạn có thể sử dụng các phương trình hoặc hàm để vẽ đồ thị trên trục x và trục y bằng cách nhập các giá trị khác nhau cho x và y.

Ví dụ: Nếu bạn vẽ đồ thị cho hàm “y = 2 * x” là một hàm tuyến tính, chúng ta sẽ có một đường thẳng như hình dưới đây:

Hình 2.1: Đồ thị của phương trình tuyến tính

2.5.2 Biến được sử dụng trong mô hình hồi quy Logistic

Trong thống kê, biến là các yếu tố dữ liệu có giá trị khác nhau, bao gồm biến độc lập (hay biến giải thích) và biến phụ thuộc (hay biến đáp ứng) Biến độc lập là nguyên nhân dẫn đến kết quả, trong khi giá trị của biến phụ thuộc phụ thuộc vào các biến độc lập Hồi quy Logistic được sử dụng để khám phá mối quan hệ giữa các biến độc lập và biến phụ thuộc bằng cách phân tích dữ liệu lịch sử của chúng.

Trong ví dụ trên, “x” được xem là biến độc lập, biến dự đoán hoặc biến giải thích với giá trị đã xác định, trong khi “y” là biến phụ thuộc, biến kết quả hoặc biến đáp ứng với giá trị không xác định.

Hồi quy Logistic là một mô hình thống kê sử dụng hàm Logistic, hay còn gọi là hàm logit, để thiết lập mối quan hệ giữa biến độc lập "x" và biến phụ thuộc "y" Hàm logit chuyển đổi giá trị của "y" thành dạng hàm sigmoid của "x".

F(x) : đầu ra từ 0 đến 1 (ước tính xác suất)

E: số e trong logarit tự nhiên

Nếu vẽ phương trình hồi quy Logistic này, bạn sẽ có một đường cong hình chữ S như hình dưới đây.

Hàm e −x tạo ra các giá trị lớn không phù hợp cho việc huấn luyện mô hình, trong khi hàm logit cung cấp kết quả trong khoảng [0, 1], lý tưởng cho dự đoán trong học máy Hàm logit chỉ trả về giá trị từ 0 đến 1 cho biến phụ thuộc, bất kể giá trị của biến độc lập Đây là cách mà hồi quy Logistic ước tính giá trị của biến phụ thuộc, đồng thời lập mô hình phương trình giữa nhiều biến độc lập và một biến phụ thuộc.

2.5.4 Phân tích hồi quy Logistic với nhiều biến độc lập

Trong nhiều tình huống, các biến giải thích có thể tác động đến giá trị của biến phụ thuộc Để xây dựng mô hình cho các tập dữ liệu đầu vào này, hồi quy Logistic yêu cầu giả định mối quan hệ tuyến tính giữa các biến độc lập Hàm “Sigmoid” có thể được điều chỉnh để tính toán biến đầu ra cuối cùng theo công thức y = f(β0 + β1x1 + β2x2 + … + βnxn).

●y: là tổng trọng số tuyến tính

●β0 là hệ số chặn (intercept)

●β1, β2,…, βn là các hệ số của các biến độc lập tương ứng

Ký hiệu “β” đại diện cho hệ số hồi quy trong mô hình logit, có khả năng đảo ngược Mô hình này tính toán các giá trị hệ số khi được cung cấp một tập dữ liệu thực nghiệm đủ lớn với các giá trị đã xác định cho cả biến phụ thuộc và biến độc lập.

Qua các chỉ chúng ta có thể đánh giá được mức độ ảnh hưởng của dữ liệu trong học máy:

Dấu của hệ số trong phân tích thống kê cho thấy mối quan hệ giữa một biến và xác suất xảy ra của sự kiện Nếu hệ số dương, điều này có nghĩa là khi giá trị của biến tăng, xác suất của sự kiện cũng sẽ tăng theo Ngược lại, nếu hệ số âm, khi giá trị của biến tăng, xác suất của sự kiện sẽ giảm.

Độ lớn của hệ số phản ánh mức độ ảnh hưởng của biến đến xác suất xảy ra của sự kiện Hệ số càng lớn, tác động của biến đến xác suất càng đáng kể Một hệ số lớn dương hoặc âm cho thấy biến đó có ảnh hưởng mạnh mẽ đến xác suất.

Giá trị của biến độc lập đóng vai trò quan trọng trong việc xác định ảnh hưởng đến xác suất Khi biến độc lập cố định, hệ số tương ứng phản ánh tác động của biến đó khi không thay đổi Ngược lại, với biến độc lập có thể thay đổi, hệ số cho biết ảnh hưởng của việc thay đổi một đơn vị trong biến đó đối với xác suất.

Các tương tác giữa các biến có thể ảnh hưởng đến xác suất, và hệ số trong mô hình sẽ chỉ ra cách mà những tương tác này tác động lẫn nhau.

2.5.5 Log của tỷ số “odds”

Mô hình logit cũng có thể xác định tỷ số thành công trên thất bại hay log của tỷ số odds

Khi chơi poker với bạn bè, nếu bạn thắng bốn ván trên tổng số mười ván, tỷ lệ chiến thắng của bạn là 4/6, cho thấy mức độ thành công so với thất bại Ngược lại, xác suất thắng của bạn là 4/10.

Về toán học, tỷ số odds xác định xác suất của bạn là 1−p/p, và log của tỷ số odds được tính bằng log(log(1−p/p)) Hàm Logistic có thể được biểu diễn thông qua log của tỷ số odds như hình dưới đây.

ỨNG DỤNG THUẬT TOÁN LOGISTIC REGRESSION CHO BI TOÁN DỰ ĐOÁN BỆNH TIM MẠCH

C Ơ SỞ DỮ LIỆU HUẤN LUYỆN

Dữ liệu huấn luyện gồm 304 người trong đó gồm có các tình trạng:

- Age (Tuổi): Độ tuổi của bệnh nhân.

- Sex (Giới tính): 1 = Nam; 0 = Nữ.

+ 0: Đau ngực điển hình: có liên quan đến việc giảm cung cấp máu đến tim.

+ 1: Đau ngực không điển hình: không liên quan đến tim.

+ 2: Đau không phải do tim gây ra: thường là co thắt thực quản (không liên quan đến tim).

+ 3: Không có triệu chứng: không có dấu hiệu của bệnh.

- Trestbps (Huyết áp tĩnh): Huyết áp tĩnh khi nhập viện, tính bằng mm Hg Bất kỳ giá trị nào cao hơn 130-140 thường là đáng lo ngại.

- Chol (Cholesterol huyết thanh): Lượng cholesterol trong máu, tính bằng mg/dl. Bất kỳ giá trị nào cao hơn 200 thường là đáng lo ngại.

- Fbs (Đường huyết sau khi đói nước):

- Restecg (Kết quả điện tâm đồ khi ở trạng thái nghỉ):

+ 0: Không có điểm gì đặc biệt.

+ 1: Đột biến sóng ST-T: có thể biểu hiện từ nhẹ đến nghiêm trọng, tín hiệu về nhịp tim không bình thường.

+ 2: Có thể hoặc chắc chắn phì đại tâm thu trái: tâm thu trái (khi phải của trái tim) phì đại.

- Thalach (Nhịp tim tối đa đạt được): Tần số tim cao nhất đạt được.

- Exang (Đau thắt ngực do tập thể dục):

- Oldpeak (Suy giảm sóng ST do tập thể dục so với trạng thái nghỉ): Đánh giá mức độ căng thẳng của tim trong quá trình tập thể dục.

Góc độ của đoạn sóng ST trong quá trình tập thể dục có thể được phân loại thành ba mức độ Đầu tiên, góc độ tăng (0) cho thấy nhịp tim cải thiện, điều này hiếm khi xảy ra Thứ hai, góc độ phẳng (1) biểu thị sự thay đổi tối thiểu, điều này thường thấy ở những người có trái tim khỏe mạnh Cuối cùng, góc độ giảm (2) là dấu hiệu cảnh báo về bệnh tim không lành mạnh.

Số lượng các mạch chính được nhuộm bởi fluoroscopy (Ca) phản ánh lưu lượng máu qua các mạch lớn Lưu lượng máu cao hơn cho thấy tình trạng mạch máu tốt, không bị đặc, điều này rất quan trọng cho sức khỏe tổng thể.

- Thal (Kết quả thử nghiệm thallium stress):

+ 6: Khuyết tật cố định: trước đây có khuyết tật nhưng giờ đã ổn.

+ 7: Khuyết tật có thể đảo ngược: không có sự lưu thông máu đúng đắn khi tập thể dục.

- Target (Có mắc bệnh không):

T HỰC HIỆN THUẬT TOÁN L OGISTIC REGRESSION TRONG BI TOÁN CHUẨN ĐOÁN BỆNH TIM MẠCH

3.2.1 Cài đặt môi trường và các thư viện

Hình3.1: Cài đặt thư viện hỗ trợ

Hình3.2: Độ dữ liệu từ bộ nhớ

3.2.2 Làm sạch và trực quan hoá dữ liệu

Hình 3.3: Trực quan hoá dữ liệu

Hình 3.4: Kiểm tra dữ liệu

Hình 3.5: Hiển thị quan hệ với dữ liệu "target"

3.2.2 Đánh giá và lựa chọn mô hình huấn luyện

Hình 3.6: Đánh giá và lựa chọn mô hình phù hợp

=> Nhận xét: “Logistic Regression” đang được đánh giá cao nhất Nên

“Logistic Regression” được lựa chọn để huấn luyện mô hình.

3.2.3 Huấn luyện mô hình sử dụng thuật toán “Logistic Regression”

Hình 3.7: Sử dụng thuật toán để huấn luyện mô hình

3.2.4 Đánh giá mô hình huấn luyện qua các chỉ số a Giá trị ROC và AUC

Hình 3.8: Đánh giá của chỉ số "ROC" và "AUC"

Giá trị AUC nằm trong khoảng lớn hơn 0.5 và nhỏ hơn 1 cho thấy mô hình phán đoán đang hoạt động hiệu quả Sau khi được huấn luyện, các chỉ số βx cũng đã được cải thiện đáng kể.

Hình 3.9: Đánh giá các chỉ số βx

Hình 3.10: Mức độ ảnh hưởng của các biến đối với kết quả dự đoán

Các chỉ số âm như sex, exang, oldpeak, ca và thal có giá trị âm cao, cho thấy khả năng mắc bệnh không phụ thuộc nhiều vào các thông số này.

* Các chỉ số như: age, chol gần như không thay đổi phản ánh khả năng mắc bệnh gần như không phụ thuộc vào các biến đó.

* Các chỉ số cp, restecg, slope có giá trị dương cho thấy chúng ảnh hưởng rất lớn trong quá trình phán đoán bệnh nhân có mắc bệnh không.

Hình 3.11: Dự đoán kết quả

Nhận xét: Các chỉ số được đưa vào kiểm tra chính xác so với các dữ liệu mẫu được huấn luyện và các dữ liệu mới.

Tiêu đề	Áp Dụng Mô Hình Logistic Regression Để Chuẩn Đoán Bệnh Tim Mạch
Tác giả	Đỗ Ngọc Tiến, Trần Quang Minh Khang, Nguyễn Xuân Chính
Người hướng dẫn	Đinh Thu Khánh
Trường học	Trường Đại Học Điện Lực
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	báo cáo
Năm xuất bản	2024
Thành phố	Hà Nội

Định dạng
Số trang	31
Dung lượng	2,26 MB