6. Bố cục của luận văn:
3.3 Ứng dụng thuật tốn hồi quy LogisticRegression Classifier trên phần
phần mềm python để dự đốn bệnh tiểu đường cho bệnh nhân
Chuẩn bị tập dữ liệu
Để triển khai thuật tốn, chúng tơi cần chuẩn bị tập dữ liệu mà chúng tơi đã thu thập được như đã nêu trên. Mục tiêu phân loại là dự đốn liệu bệnh nhân thực hiện xét nghiệm cĩ bị tiểu đường hay khơng (0/1). Bộ dữ liệu này cung cấp cho chúng tơi thơng tin xét nghiệm của bệnh nhân . Nĩ bao gồm bốn thuộc tính và 300 mẫu tin.
Khi triển khai chương trình bằng ngơn ngữ python, chúng tơi tải tập dữ liệu bệnh tiểu đường bằng cách sử dụng hàm CSV của thư viện Pandas
Như vậy, chúng tơi dùng tập dữ liệu để bắt đầu trải nghiệm các bước thực hiện thuật tốn
Chúng tơi lựa chọn các tính năng trên tập dữ liệu này bằng cách chia bảng dữ liệu thành hai loại: biến phụ thuộc (biến mục tiêu) và biến độc lập (biến liên quan):
Pl-49
Để biết được hiệu suất của mơ hình, chúng tơi sẽ chia tập dữ liệu thành tập huấn luyện và tập thử nghiệm. Thực hiện việc này, chúng tơi sử dụng hàm train_test_split(). Chúng tơi sẽ chuyển ba tham số: tính năng(df_x), mục tiêu(df_y) và kích thước(test_size) và sử dụng hàm random_state để lựa chọn các mẫu tin một cách ngẫu nhiên.
Trong câu lệnh này, chúng tơi chia tập dữ liệu theo tỷ lệ 80:20. Điều này nĩi rằng 80% dữ liệu sẽ được sử dụng đào tạo mơ hình và 20% dữ liệu cịn lại là để kiểm tra mơ hình.
Bây giờ, chúng tơi sẽ sử dụng hàm LogisticRegression () để phát triển và dự đốn mơ hình. Về cơ bản thuật tốn hồi quy Logistic sử dụng độ chênh lệch để xây dựng mơ hình.
Kết quả thu được là một ma trận nhầm lẫn ở dạng mảng cĩ kích thước 2 x 2 (vì thuật tốn phân loại nhị phân cĩ hai lớp 0 và 1 như sau:
Với kết quả thu được như trên, ta cĩ thể hiểu rằng: giá trị đường chéo của ma trận đại diện cho các dự đốn chính xác và các giá trị khơng nằm trên đường chéo sẽ là các dự đốn khơng chính xác. Trong thực nghiệm cho thấy 26+29 là các dự đốn chính xác; 0+5 là dự đốn khơng chính xác. Vậy giá trị cho các dự
Pl-50
đốn chính xác cao hơn dự đốn khơng chính xác.
Để biết độ chính xác dự đốn của thuật tốn, chúng tơi sử dụng lệnh in kết quả:
Kết quả dự đốn của thuật tốn hồi quy Logistic là:
Qua kết quả cho thấy độ chính xác của bộ phân loại hồi quy Logistic trên bộ dữ liệu thử nghiệm là 0.92. Bây giờ, chúng tơi tiếp tục đánh giá độ chính xác, thu hồi và độ đo F.
Độ chính xác được xác định là tỷ số 𝑡𝑝
(𝑡𝑝 + 𝑓𝑝)
⁄ , trong đĩ tp là số lần dương tính đúng, fp là số lần dương tính giả.
Độ thu hồi là tỷ số 𝑡𝑝
(𝑡𝑝 + 𝑓𝑛)
⁄ , trong đĩ tp là số lần dương tính đúng, fn là số lần dương tính giả.
Độ đo F được hiểu là trung bình trọng số của độ chính xác và độ thu hồi. Trong đĩ điểm F đạt được kết tốt nhất khi cho giá trị 1 và kém nhất khi cho giá trị 0
Hình 3.1: Hình ảnh mơ tả trực quan biểu diễn giá trị ma trận nhầm lẫn
Với kết quả thử nghiệm thuật tốn hồi quy logistic đạt 92 % như trên và giá trị aucuracye bằng 1cho thấy mơ hình dự đốn của chúng tơi đạt khá tốt.
Pl-51
Tuy nhiên, chúng tơi muốn kiểm nghiệm độ chính xác của mơ hình trên những thuật tốn khác nhau nhằm chọn ra mơ hình dự đốn chính xác thích hợp nhất cĩ thể để áp dụng vào việc dự đốn bệnh tiểu đường cho bệnh nhân.