6. Bố cục của luận văn:
2.1.5 Ví dụ ứng dụng thuật tốn hồi quy logistic
2.1.5.1 Bài tốn hồi quy
Chúng tơi sử dụng tập dữ liệu về bệnh tiểu đường Pima của người Ấn độ bao gồm 768 mẫu bệnh phẩm. Mỗi mẫu bệnh phẩm chứa dữ liệu 8 biến độc lập gồm cĩ: Preg, Plas, Pres, Skin, Insu, BIM, Pedi, Age và một biến phụ thuộc Diag. Trong đĩ biến phụ thuộc Diag dạng nhị phân cĩ hai giá trị là 0 hoặc 1. Mục đích ta sử dụng mơ hình hồi quy Logistic trong học máy với tập dữ liệu được lấy làm dữ liệu cho quá trình train để tìm mối quan hệ giữa các biến độc lập với biến phụ thuộc. Từ đĩ ta Test dữ liệu nhập vào các chỉ số thuộc tính xét nghiệm của một bệnh nhân mới để cĩ thể dự đốn được là bệnh nhân đĩ cĩ mắc bệnh tiểu đường hay khơng .
2.1.5.2 Triển khai thuật tốn hồi quy Logistic nhị phân trên phần mềm python để giải quyết yêu cầu bài tốn.
Trên máy tính, chúng tơi đã cài đặt chương trình python phiên bản 3.8 và cài đặt các gĩi thư viện hỗ trợ cho chương trình. Sử dụng phần mềm sublime text 3 triển khai thuật tốn
Bước 1: Chuẩn bị dữ liệu triển khai thuật tốn
Để cĩ dữ liệu triển khai thuật tốn hồi quy Logistic, chúng tơi sẽ tải dữ liệu bằng cách sử dụng thư viện pandas và phương thức pd.read_csv() cĩ cấu trúc như sau:
Pl-27
Tập dữ liệu chúng tơi vừa tải cĩ cấu trúc :
Bước 2: Lựa chọn tính năng và tách dữ liệu
Chúng tơi thực hiện chia các cột đã cho thành hai biến: một biến sẽ chứa biến phụ thuộc y, biến cịn lại chứa biến độc lập x. Quá trình chia dữ liệu được thể hiện qua đoạn lệnh sau:
Để đánh giá hiệu suất của mơ hình, chúng tơi thực hiện tách dữ liệu thành tập huấn luyện và tập thử nghiệm. Tỷ lệ chia này phụ thuộc vào sự lựa chọn của người lập trình. Trong thử nghiệm này, chúng tơi chia theo tỷ lệ 75:25. Điều này cĩ nghĩa là chúng tơi sử dụng 75% dữ liệu để đào tạo và 25% dữ liệu cịn lại để kiểm tra mơ hình thực hiện. Chúng tơi dùng hàm train_tes_split() để tách .
Pl-28
Thực hiện mơ hình hồi quy Logistic cần phải cài đặt thư viện Logistic Regression và tạo một đối tượng phân loại Logistic Regression bằng cách sử dụng hàm LogisticRegression().
Tiếp theo, chúng tơi sử dụng phương thức fit() để điều chỉnh mơ hình và dùng phương thức predit() thực hiện dự đốn trên tập thử nghiệm.
Bước 4: Đánh giá hiệu suất mơ hình bằng ma trận nhầm lẫn
Ma trận nhầm lẫn là một bảng dùng để đánh giá hiệu suất hoạt động của thuật tốn phân loại. Dữ liệu trong ma trận nhầm lẫn là số lượng các dự đốn đúng và dự đốn sai được tổng hợp theo lớp. Vì đây là thuật tốn phân loại nhị phân nên ma trận nhầm lẫn cĩ kích thước 2 x 2.
Giá trị nằm trên đường chéo của ma trận nhầm lẫn đại diện cho các dự đốn đúng (119+36), các giá trị nằm ngồi đường chéo đại diện cho dự đốn sai(11+26)
Bước 5: In ra hiệu suất thực hiện của thuật tốn
Để đánh giá được hiệu suất của mơ hình dự đốn thực hiện chúng tơi phải dựa vào các số liệu đánh giá như accuracy, precision, and recall.
Pl-29
Qua kết quả, chúng tơi thấy rằng tỷ lệ phân loại của thuật tốn dự đốn đạt 81%. Với kết quả như vậy, chúng tơi cĩ thể nĩi độ chính xác của thuật tốn phân loại là khá tốt.