Ứng dụng học máy trong chuẩn đoán bệnh tiểu đường

MỤC LỤC

Nghiên cứu trong nước và quốc tế Một số nghiên cứu quốc tế

Y tế, sức khỏe là lĩnh vực đặc biệt quan trọng trong cuộc sống của con người, bên cạnh những căn bệnh thường gặp còn xuất hiện những bệnh lạ rất khó xác định, dự đoán. Với sự phát triển của trí tuệ nhân tạo rất nhiều các nghiên cứu trên thế giới cho ra ứng dụng hỗ trợ các y, bác sỹ có thể chẩn đoán nhanh và điều trị bệnh tốt hơn như Dr.

Mục tiêu nghiên cứu của luận văn Luận văn nghiên cứu 2 mục tiêu cụ thể sau

Mercaldoa[9] đã xây dựng được mô hình chẩn đoán với độ chính xác 75,7% và sau đó tăng độ chính xác của mô hình lên 76,2% với cách chọn tính năng tốt nhất. Dù vậy mới chỉ có những ứng dụng thuật toán học máy vào chẩn đoán bệnh trên động vật và thực vật [11], còn chẩn đoán bệnh trên người vẫn còn rất hạn chế.

Những đóng góp của luận văn

Ở Việt Nam cùng với sự phát triển của công nghệ, hiện tại ứng dụng công nghệ thông tin vào lĩnh vực y tế rất được quan tâm và ưu tiên. Hiện nay nhà nước đang triển khai rất nhiều dự án xây dựng kho dữ liệu bệnh án điện tử đó là một lợi thế trong lĩnh vực học máy.

Ý nghĩa của luận văn Ý nghĩa khoa học

Đưa ra đánh giá độ chính xác của mô hình với bộ dữ liệu thực tế và đánh giá kết quả.

Bố cục của luận văn

Bài toán ứng dụng kỹ thuật học máy vào chẩn đoán bệnh tiểu đường Mô tả quy trình thực hiện bài toán chẩn đoán bệnh tiểu đường, thông qua quá trình xử lý dữ liệu, lựa chon thuộc tính đặc trưng. Tổng hợp các kết quả về độ chính xác, thời gian thực thi của các mô hình và đưa ra lựa chọn mô hình tốt nhất cho bài toán.

CƠ SỞ LÝ THUYẾT 1.1. Học máy và ứng dụng

Các bài toán học máy thường được phân thành 4 loại lớn đó là: Học có giám sát, trong đó hệ thống có chức năng từ dữ liệu đào tạo được dán nhãn; học không giám sát, ở đó hệ thống học cố gắng suy ra cấu trúc của dữ liệu không được gắn nhãn; học củng cố, trong đó hệ thống tương tác với môi trường năng động và cuối cùng là học tăng cường là phương pháp học tập với tập dữ liệu thường không được cho trước mà sinh ra trong quá trình tương tác với môi trường thông qua hành động nào đó. Học có giám sát là nhóm phổ biến nhất trong các thuật toán học máy, nó bao gồm một số thuật toán phổ biến như Decision Tree, Bayesian Classification, Logistic Regression, SVM, Neural Networks, …. Thay vì trả lời phản hồi, việc học tập không giám sát xác định điểm tương đồng trong dữ liệu và phản ứng dựa trên sự hiện diện hoặc vắng mặt của những điểm tương đồng như vậy trong mỗi phần dữ liệu mới.

Thuật toán học không giám sát sẽ dựa vào cấu trúc của dữ liệu để thực hiện một công việc nào đó, ví dụ như phân nhóm (clustering) hoặc giảm số chiều của dữ liệu (dimension reduction) để thuận tiện trong việc lưu trữ và tính toán. Điều này cũng giống như việc ta đưa cho một đứa trẻ rất nhiều mảnh ghép với các hình thù và màu sắc khác nhau, ví dụ tam giác, vuông, tròn với màu xanh và đỏ, sau đó yêu cầu trẻ phân chúng thành từng nhóm. Học bán giám sát là một phương thức của ngành học máy sử dụng cả dữ liệu gán nhãn và chưa gán nhãn, nhiều nghiên cứu của ngành học máy có thể tìm ra được dữ liệu chưa gán nhãn khi sử dụng với một số lượng nhỏ dữ liệu gán nhãn [17].

Hình 1. 1: Mô hình bài toán học có giám sát [15]
Hình 1. 1: Mô hình bài toán học có giám sát [15]

MỘT SỐ THUẬT TOÁN PHÂN LOẠI DỮ LIỆU TRONG HỌC MÁY Cể GIÁM SÁT

    (hyperplane) phân hoạch tối ưu cho phép chia các điểm này thành hai phần sao cho các điểm cùng một lớp nằm về một phía với siêu phẳng này. Siêu phẳng tối ưu phân tập dữ liệu này thành hai lớp là siêu phẳng có thể tách rời dữ liệu thành hai lớp riêng biệt với lề (margin) lớn nhất. Lời giải tìm siêu phẳng tối ưu trên có thể mở rộng trong trường hợp dữ liệu không thể tách rời tuyến tính bằng cách ánh xạ dữ liệu vào một không gian có số chiều lớn hơn bằng cách sử dụng một hàm nhân K (Kernel).

    Logistic Regression là một thuật toán học máy để dự đoán xác xuất xảy ra sự kiện bằng cách khớp dữ liệu với hàm Logistic [21]. Thuật toán cây quyết định là một loại thuật toán phân loại trong học máy có giám sát, có thể được dùng cho cả hồi quy và phân loại [26]. Bằng cách lựa chọn thuộc tính tốt nhất làm gốc của cây thì mỗi thuộc tính trong bộ dữ liệu mẫu sẽ được đánh giá thông qua các chỉ số là độ lợi thông tin, tỷ lệ tăng và chỉ số Gini.

    Hình 2. 1: H 2  là siêu phẳng cho bài toán svm
    Hình 2. 1: H 2 là siêu phẳng cho bài toán svm

    BÀI TOÁN ỨNG DỤNG KỸ THUẬT HỌC MÁY VÀO CHẨN ĐOÁN BỆNH TIỂU ĐƯỜNG

    Quy trình thực hiện bài toán

    Hầu hết các bộ dữ liệu được sử dụng trong các vấn đề liên quan đến học máy cần được xử lý, làm sạch và biến đổi trước khi một thuật toán học máy có thể được huấn luyện trên những bộ dữ liệu này. Các kỹ thuật tiền xử lý dữ liệu phổ biến hiện nay bao gồm: xử lý dữ liệu bị khuyết (missing data), mã hóa các biến nhóm (encoding categorical variables), chẩn hóa dữ liệu (standardizing data), co giãn dữ liệu (scaling data), …. Trong hình 3.5 python đã cho chúng ta các giá trị có tính chất thống kê của dữ liệu như giá trị min, max; giá trị trung bình, trung vị và độ lệch chẩn … Dựa vào các con số thống kê này tôi có thể phần nào hiểu được sự phân bố của các tính năng trong bộ dữ liệu.

    Với thuộc tính F2 (nồng độ glucose huyết tương) ta thấy có một số giá trị 0 chứng tỏ dữ liệu trong khi thu thập bị thiếu để có bộ dữ liệu tốt hơn ta cần áp dụng xử lý với F2. Tương tự như các thuộc tính F2, F3, F4 thì thuộc tính F5 (Insulin huyết thanh) và F6 (chỉ số khối cơ thể) cũng có nhiều giá trị bằng 0, vì thế ta cũng cần xử lý những giá trị bị thiếu trong các thuộc tính trên. Nó được định nghĩa là quá trình chọn một tập hợp con các tính năng từ không gian tính năng, có liên quan và cung cấp nhiều thông tin hơn cho việc xây dựng một mô hình [8].

    Lựa chọn tính năng có rất nhiều ưu điểm của lựa chọn tính năng là rất nhiều và liên quan đến các khía cạnh khác nhau của phân tích dữ liệu, chẳng hạn như trực quan hóa và hiểu dữ liệu tốt hơn, giảm thời gian tính toán và thời gian phân tích và độ chính xác dự đoán tốt hơn. Khi đã tiến hành xử lý dữ liệu và lựa chọn được thuộc tính đặc trưng ta sẽ cho dữ liệu thử nghiệm trên các thuật toán như Tree_Classification, Gaussian Naive Bayes, Logistic Regression, SVM cùng các tham số để so sánh, đánh giá các mô hình với nhau và đưa ra mô hình dự đoán tốt nhất.

    Hình 3. 2: Quy trình thực hiện bài toán đề xuất
    Hình 3. 2: Quy trình thực hiện bài toán đề xuất

    KẾT QUẢ VÀ ĐÁNH GIÁ 4.1. Quá trình thử nghiệm

    Kết quả thử nghiệm

    Qua hình 4.2 ta thấy mô hình SVM cho độ chính xác cao nhất so với các mô hình học máy còn lại, với khoảng thời gian thực thi trung bình là 0.015(s). Còn thuật toán Tree Classification cho độ chính xác trung bình thấp nhất với thời gian thực thi trung bình thấp nhất là 0.0086(s). Thực hiện thử nghiệm 2: Thực hiện chạy các mô hình học máy với 4 thuộc tính được lựa chọn là Nồng độ glucose huyết tương(F2); BMI(F6); chức năng phả hệ tiểu đường(F7) và độ tuổi(F8) của bộ dữ liệu bệnh nhân tiểu đường.

    Qua hình 4.4 ta thấy mô hình SVM cho độ chính xác cao nhất so với các mô hình học máy còn lại với khoảng thời gian thực thi trung bình là 0.0203(s).

    Bảng 4. 2: Chạy thử nghiệm với đầy đủ thuộc tính lần 2
    Bảng 4. 2: Chạy thử nghiệm với đầy đủ thuộc tính lần 2

    Nhận xét đánh giá

    Luận văn đã khái quát được cơ sở lý thuyết để từ đó có hướng đi và giải quyết bài toán chẩn đoán bệnh tiểu đường. Mô tả được phương pháp thực hiện bài toán đặt ra cũng như mô tả quá trình tiền xử lý dữ liệu, phương pháp lựa chọn tính năng bằng cách trực quan hóa dữ liệu và các thuật toán của học máy. Hiểu được các bước thực hiện, triển khai một bài toán học máy, ứng dụng các thuật toán phân loại dữ liệu trong bài toán học máy có giám sát một cách tối ưu.

    Bài toán ứng dụng kỹ thuật học máy vào chẩn đoán bệnh tiểu đường được nêu lên cụ thể trong toàn chương 3. Tuy là sử dụng bộ dữ liệu cũ nhưng phương pháp, kỹ thuật thử nghiệm hoàn toàn mới đó là sử dụng học máy. Tiến tới với kho dữ liệu đủ lớn, tương lai bài toán ứng dụng kỹ thuật học máy vào chẩn đoán bệnh sẽ ngày càng phát triển và cho ra nhiều ứng dụng phục vụ con người cũng như những y, bác sĩ chuyên khoa nhằm hỗ trợ công tác khám, chữa bệnh.