1. Trang chủ
  2. » Giáo Dục - Đào Tạo

đồ án cơ sở hệ thống chẩn đoán bệnh tiểu đường đái tháo đường

33 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hệ thống Chẩn đoán bệnh Tiểu đường
Tác giả Ngô Gia Nguyễn, Trần Nguyễn Daenel
Người hướng dẫn TS. Huỳnh Quốc Bảo
Trường học Trường Đại Học Công Nghệ TP. HCM
Chuyên ngành Công Nghệ Thông Tin
Thể loại Đồ Án Cơ Sở
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 33
Dung lượng 501,43 KB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN (8)
    • 1.4.1. Ý nghĩa lý thuyết (11)
    • 1.6. Phạm vi nghiên cứu (12)
    • 1.7. Mục tiêu nghiên cứu (13)
  • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT (15)
    • 2.1.1. Thuật toán XGBoost (Extreme Gradient Boosting) (15)
    • 2.1.2. Thuật toán LightGBM (Light Gradient Boosting Machine) (17)
  • CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM (22)
  • CHƯƠNG 4: KẾT LUẬN VÀ KIẾN NGHỊ (30)
  • TÀI LIỆU THAM KHẢO (33)

Nội dung

Phương pháp dự đoán bệnh tiểu đường sử dụng ML đóng vaitrò then chốt trong nghiên cứu này, góp phần cải thiện hiệu quả điều trị nhờviệc phát hiện sớm bệnh, từ đó củng cố chất lượng cuộc

TỔNG QUAN

Ý nghĩa lý thuyết

Phát triển kiến thức y học: Cung cấp thêm hiểu biết sâu rộng về bệnh tiểu đường, bao gồm cơ chế phát triển bệnh, tác nhân tiềm ẩn gây hại, và cách bệnh chuyển biến theo thời gian Điều kiện tốt cho các tài liệu y học và nguồn tài liệu dành cho các y sĩ và sinh viên ngành y. Đóng góp vào lý thuyết chẩn đoán: Phát triển và hoàn chỉnh các mô hình lý thuyết về chẩn đoán bệnh nhằm phát triển các kỹ thuật chẩn đoán có độ chính xác cao hơn Các nguyên tắc, tiêu chí và quy trình chẩn đoán bệnh tiểu đường được hệ thống hóa và chuẩn hóa, giúp gia tăng độ tin cậy và tính khoa học trong chẩn đoán.

Tiền đề cho các công trình nghiên cứu tương lai: Mô hình này hình thành cơ sở lý thuyết vững vàng và là hướng đi cho các nghiên cứu trong thời gian tới nhằm phát triển những cách thức điều trị và quản lý bệnh tiểu đường một hiệu quả và tốt hơn.

Cải thiện độ chính xác của chẩn đoán và điều trị: Nâng cao các kỹ thuật và công cụ chẩn đoán chính xác, nhanh chóng sẽ hỗ trợ bác sĩ trong việc đưa ra chẩn đoán và điều trị cho bệnh tiểu đường một cách kịp thời, từ đó cải thiện chất lượng chăm sóc bệnh nhân.

Tiết kiệm chi phí trong y tế: Vận dụng các phương pháp chẩn đoán tiên tiến giúp nhận biết bệnh sớm, từ đó giảm thiểu chi phí trong quá trình điều trị dài hạn và giảm bớt các biến chứng liên quan đến bệnh.

Nâng cao đời sống của bệnh nhân: Chẩn đoán sớm và chính xác giúp bệnh nhân nhận được sự can thiệp y tế đúng lúc, quản lý bệnh tốt hơn, giảm thiểu tối đa biến chứng và nâng cao chất lượng cuộc sống.

Các công nghệ tiến bộ vào y tế: Vận hành các công nghệ và các kỹ thuật tiên tiến trong chẩn đoán bệnh tiểu đường, tạo ra nhiều cơ hội mới mẻ cho ngành y tế, nâng cao năng lực của các cơ sở y tế trong việc chăm sóc và quản lý bệnh nhân.

Tăng cường nhận thức xã hội: Việc nghiên cứu giúp mở rộng sự hiểu biết của cộng đồng về bệnh tiểu đường, các yếu tố tìm ẩn nguy hại và tính cần thiết của việc kiểm tra định kỳ, điều này hỗ trợ việc thúc đẩy các biện pháp điều trị và quản lý bệnh hiểu quả.

Về nghiên cứu của mô hình gồm có những người có tiềm ẩn cao hoặc đã mắc bệnh tiểu đường Dữ liệu được thu thập từ các bệnh viện, phòng khám hoặc các nghiên cứu khi đề cập đến bệnh tiểu đường, bao gồm các chỉ số sinh học như đường huyết, cân nặng, chiều cao, tuổi tác, lối sống và lịch sử bệnh.

Những người đã được xác định mắc bệnh tiểu đường: Đối tượng này được nghiên cứu để kiểm tra tính linh hoạt và đánh giá khả năng hiệu quả của các phương pháp dự đoán hoặc theo dõi tiến trình của bệnh.

Những người có rủi ro mắc phải bệnh tiểu đường: Gồm có các thành viên trong gia đình mắc bệnh, người có chỉ số BMI cao, hoặc trong giai đoạn tiền tiểu đường.

Cộng đồng: Nhằm đánh giá tỷ lệ bệnh có mối nguy hiểm hoặc mắc bệnh tiểu đường, cũng như các yếu tố gây ra căn bệnh phổ biến này.

Nhóm đặc biệt: Tập trung ở các độ tuổi, giới tính, chủng tộc hoặc những nhóm có các điều kiện sức khỏe đặc thù (như mắc bệnh tiểu đường thai kỳ ở phụ nữ có thai)

Phạm vi nghiên cứu

Trong đã sử dụng thuật toán XGBoost để đưa ra kết quả và thiết lập mô hình dự đoán, giúp giảm thời gian trị bệnh và có cái nhìn toàn diện về tình trạng của bệnh nhân Các phạm vi bao gồm:

 Phạm vi dữ liệu: Thu thập thông tin y tế từ một hoặc nhiều nguồn, như tại cơ sở ý tế, bao gòm cả bệnh viện và các cở sở khacbệnh viện và các cơ sở y tế khác.

 Phạm vi biến số: Các biến số bao gồm chỉ số sinh học như đường huyết, cân nặng, chiều cao, tuổi tác, lối sống và lịch sử bệnh, cùng với các dữ liệu được trích xuất đặc trưng.

 Phạm vi xử lý dữ liệu: Áp dụng các công nghệ và kỹ thuật để tiến hành xử lý các dữ liệu, thiếu, nhiễu và trùng lặp nhằm hoàn chỉnh một bộ dữ liệu và ổn định Dùng phương pháp K-Fold để chia nhỏ dữ liệu, tăng tốc độ học và hiệu suất mô hình được cải thiện.

 Phạm vi xây dựng mô hình và phân tích: Chú trọng vào việc sử dụng thuật toán XGBoost, cải thiện các siêu tham số hợp lý và huấn luyện nhiều lần trên các tập dữ liệu đã được phân nhỏ Quy trình bao quát việc huấn luyện mô hình, lựa chọn đặc trưng và đánh giá hiệu suất của các mô hình machine learning trong chẩn đoán bệnh tiểu đường.

 Phạm vi triển khai: Thành quả nghiên cứu cho thấy có thể được sử dụng để nhận diện nguy cơ mắc bệnh tiểu đường trong cộng đồng, hỗ trợ chẩn đoán sớm và phối hợp điều trị bệnh tiểu đường cho những chuyên gia trong lĩnh vực y tế.

Mục tiêu nghiên cứu

Việc xác định chọn đề tài "Hệ thống chẩn đoán bệnh tiểu đường" hướng đến mục tiêu các cá nhân có nguy cơ mắc bệnh, từ đó kịp thời đưa ra các phương pháp để làm ngăn chặn và điều trị quá trình tiến triển của bệnh Nghiên cứu này cũng đóng phần cung cấp thông tin hữu ích cho việc tạo ra các chính sách y tế công cộng.

Nhóm nghiên cứu xây dựng tập trung một mô hình sử dụng các công nghệ và phương pháp học máy như XGBoost để phát triển mô hình chẩn đoán bệnh tiểu đường Các công nghệ được sử dụng để tối ưu hóa mô hình và hỗ trợ xử lý dữ liệu như GridSearch CV và K-Fold CV nhằm đạt hiệu suất cao nhất.

Sau khi huấn luyện, nhóm triển khai mô hình và đưa ra kết quả dự đoán so sánh với kết quả thực tế trên bộ dữ Mô hình XGBoost đã giúp chẩn đoán các kết quả của bệnh nhân với độ chính xác lên đến 91%.

CƠ SỞ LÝ THUYẾT

Thuật toán XGBoost (Extreme Gradient Boosting)

XGBoost là thuật toán học máy hiệu quả và mạnh mẽ thuộc lớp Gradient Boosting, được phát triển bởi Tianqi Chen Điểm nổi bật của XGBoost là khả năng xử lý hiệu quả bộ dữ liệu lớn và các bài toán phức tạp. Thuật toán này vận hành bằng cách xây dựng các cây quyết định tuần tự, với mỗi cây cố gắng tối ưu hóa một phần nhỏ so với cây trước đó XGBoost sử dụng nhiều thông số quan trọng như tốc độ học (learning rate), số lượng cây, và độ sâu của cây để điều chỉnh mức độ dự đoán của mô hình.

 Boosting Trees: XGBoost là một thuật toán chú trọng vào việc tạo dựng một chuỗi các cây quyết định (decision trees), mỗi cây sẽ học dựa trên những thiếu sót của cây trước đó Quy trình này được gọi là "boosting", trong đó mỗi cây mới cố gắng sửa chữa lỗi mà cây trước đó đã làm sai.

 Gradient Boosting: XGBoost sử dụng kỹ thuật Gradient Boosting để cải thiện hiệu suất Trong mỗi vòng lặp, XGBoost nỗ lực tối ưu hàm mất mát thông qua việc sử dụng thuật toán gradient descent Điều này tương tự với việc cố gắng tinh chỉnh các cây mới sao cho chúng diễn giải được gradient (độ dốc) của hàm mất mát.

 Clever Split Finding: XGBoost sử dụng một kỹ thuật gọi là "greedy algorithm" để tìm kiếm phân chia tốt nhất tại mỗi giai đoạn trong quá trình xây dựng cây Dùng cách này, mô hình có thể tối ưu hóa cả thời gian huấn luyện và hiệu suất

 Parallelization: Điều đáng chú ý của XGBoost là khả năng xử lý song song hóa tính toán Nó có thể chạy huấn luyện trên nhiều core CPU hoặc trên GPU để tăng tốc độ huấn luyện.

Dưới đây là cách thực hiện ý tưởng trên: Đầu vào: Cho tập huấn luyện {( x i , y i )} i=1

N , hàm mất mát khả vi L( y , F ( x )), số lượng người học M và tốc độ học α

1 Khởi tạo mô hình với giá trị không đổi:

 Phù hợp với người học cơ sở (hoặc người yêu cầu, ví dụ cây) sử dung tập huấn {x i ,− ^g m ¿ ¿ ¿ ¿bằng cách giải bài toán tối ưu hóa dưới đây:

 Hiệu suất: Điều đáng chú ý của XGBoost là khả năng xử lý song song hóa tính toán Nó có thể chạy huấn luyện trên nhiều core CPU hoặc trên GPU để tăng tốc độ huấn luyện

 Khả năng mở rộng: XGBoost được thiết kế để huấn luyện các mô hình học máy hiệu quả và có thể mở rộng, giúp nó thích hợp với đa dạng dữ liệu lớn.

 Có khả năng tùy chỉnh: Để mô hình XGBoost đạt hiệu suất cao thì có thể điều chỉnh siêu tham số, giúp cho nó có năng lực tùy biến cao.

 Xử lý các dữ liệu: XGBoost hỗ trợ tích hợp để giải quyết vấn đề dữ liệu bị thiếu và dữ liệu bị trùng lặp của tập dữ liệu

 Khả năng diễn giải: Không giống như nhiều mô hình học máy có thể được trình bày một cách khó khăn, XGBoost cung cấp tầm quan trọng của tính năng, cho phép hiểu rõ hơn về biến nào là ảnh hưởng mạnh mẽ nhất trong việc đưa ra dự đoán.

Thuật toán LightGBM (Light Gradient Boosting Machine)

LightGBM là một phương pháp học máy gradient hiệu suất cao và do

Microsoft phát triển LightGBM áp dụng cây quyết định nhằm nâng cao hiệu suất mô hình và giảm thiểu mức sử dụng bộ nhớ Các khung này áp dụng một số kỹ thuật tiên tiến, bao gồm kỹ thuật lấy mẫu một bên dựa trên gradient

(GOSS), giúp giữ lại chọn lọc các mẫu có độ dốc lớn trong quá trình huấn luyện để tối ưu hóa bộ nhớ và thời gian đào tạo Ngoài ra, LightGBM sử dụng các thuật toán dựa trên biểu đồ để xây dựng cây một cách tốt nhất Các kỹ thuật này, cùng với các tối ưu hóa như phát triển cây theo lá và các định dạng lưu trữ dữ liệu hiệu quả, đã làm tăng hiệu quả của LightGBM và mang lại lợi thế cao so với các khung tăng cường độ dốc khác.

 LightGBM là một phương pháp tổng hợp tăng cường độ dốc được sử dụng dựa vào cây quyết định, áp dụng được cho toàn bộ cho mô hình, phân loại và hồi quy Nó đã được cải tiến để đạt độ hiệu quả cao trong các hệ thống phân tán.

 Phương pháp của LightGBM là hình thành mô hình cây quyết định phát triển theo từng lá, chỉ tách ra một lá duy nhất tại mỗi điểm phân chia, tùy thuộc vào mức tăng Điều này giúp tránh tình trạng quá phù hợp, đáng chú ý là áp dụng trong trường hợp là tập dữ liệu nhỏ LightGBM triển khải phương pháp tiếp cận biểu đồ để đưa dữ liệu vào các thùng thay vì từng điểm dữ liệu,tối ưu hóa cho các tập dữ liệu thưa thớt Sử dụng tính năng độc quyền giúp giảm kích thước mô hình, tăng tốc độ và hiệu quả Ngoài ra, LightGBM áp dụng kỹ thuật lấy mẫu một bên theo gradient (GOSS) để lấy mẫu tập dữ liệu, ưu tiên các điểm dữ liệu có độ dốc lớn hơn để tăng độ chính xác của mô hình. Ưu điểm:

 Hiệu suất và độ chính xác: LightGBM cung cấp thời gian đào tạo tối ưu hóa tốc độ và độ chính xác cao hơn so với các thuật toán tăng cường độ dốc khác, đáp ứng với mọi tập dữ liệu lớn và ứng dụng nhạy cảm thời gian.

 Sử dụng bộ nhớ thấp: LightGBM hợp lý hóa việc sử dụng bộ nhớ, cho phép xử lý tập dữ liệu lớn với yêu cầu bộ nhớ tối thiểu, giúp giảm thiểu chi phí và nâng cao hiệu suất.

 Độ chính xác tốt: Các thuật toán cải tiến của LightGBM, như phát triển cây theo lá và học tập dựa trên biểu đồ, đảm bảo hiệu suất cao và kết quả đáng tin cậy.

 Hỗ trợ GPU và phân tán: LightGBM hỗ trợ đào tạo trên CPU đa lõi và GPU phân tán, sử dụng tài nguyên thông minh và giảm thời gian đào tạo cho các tập dữ liệu lớn.

 Phân tích dữ liệu lớn: LightGBM có khả năng thực hiện khối dữ liệu lớn nhờ các kỹ thuật tối ưu hóa để xử lý các vấn đề liên quan đến bộ dữ liệu.

 LightGBM có thể xuất phát từ xu hướng quá phù hợp, đặc biệt là do cách tiếp cận tăng trưởng theo chiều dọc của nó Mặc dù thuật toán này giúp tăng độ chính xác và giảm tổn thất, nhưng có thể khiến mô hình trở nên quá cụ thể đối với dữ liệu tập luyện Điều này có thể được giảm bằng cách tinh chỉnh giá trị thông số về độ sâu giới hạn, nhưng cần phải lưu ý để tránh khớp quá mức.

 Gắn liền với sự hỗ trợ và sức mạnh cộng đồng xung quanhLightGBM Dù có lợi ích về hiệu suất, tài liệu và hỗ trợ cộng đồng của

LightGBM không mạnh mẽ như một số đối thủ khác như XGBoost Có khả năng sẽ làm khó khăn cho việc điều hướng vấn đề và tính năng nâng cao, vì có ít tài nguyên và cộng đồng người dùng nhỏ hơn để giúp đỡ trong việc xử lý vấn đề.

2.2 Kỹ thuật GridSearch CV (Grid Search Cross-Validation)

Kỹ thuật GridSearch CV là một phương pháp trong Machine Learning được sử dụng tìm kiếm để đạt được các cặp tham số để nâng cao hiệu suất mô hình Mục tiêu ưu tiên của GridSearch CV là tăng cường khả năng dự đoán của mô hình bằng cách tìm kiếm giá trị tốt ưu cho các siêu tham số (hyperparameters).

Cách hoạt động của GridSearch CV:

 Tạo lưới các tham số (parameters grid): Bạn định nghĩa các giá trị mà bạn muốn thử nghiệm cho từng siêu tham số.

 Lặp qua các tổ hợp tham số: Tạo một mô hình cho mỗi tổ hợp của các siêu tham số và chỉ định mô hình có kết quả tốt nhất.

 Đánh giá hiệu suất của mô hình: Áp dụng phương pháp Cross- Validation (giao cắt kiểm định), thường là K-Fold CV.

 Chọn mô hình tốt nhất: Cuối cùng, GridSearch CV sẽ chọn ra mô hình với bộ siêu tham số hiệu quả tối ưu trên tập validation. Ưu điểm:

 Dễ sử dụng: Dễ dàng sử dụng với cú pháp đơn giản của thư viện sklearn.

 Toàn diện: Duyệt qua tất cả các tổ hợp tham số để tìm ra bộ tốt nhất.

2.3 Kỹ thuật K-Fold CV (K-Fold Cross-Validation)

K-Fold CV là cách thức để đánh giá mô hình mô hình học máy với mục đích chia dữ liệu gốc thành K phần (hay còn gọi là folds) Dưới đây là cách mà nó hoạt động:

 Chia dữ liệu thành K phần: Dữ liệu đầu vào được chia đều thành K phần (folds) Mỗi phần sẽ lần lượt được sử dụng để kiểm tra mô hình, các phần còn lại được dùng để huấn luyện mô hình.

KẾT QUẢ THỰC NGHIỆM

Trong nghiên cứu này, nhóm đã đề xuất mô hình XGBoost đưa ra các phương án cụ thể để giải quyết vấn đề Đầu tiên bằng việc thực hiện một số phân tích thống kê ban đầu trên dữ liệu Sau đó, tiến hành quá trình tiền xử lý dữ liệu, trong đó bao gồm việc xử lý dữ liệu thiếu, phân loại dữ liệu, Tiếp theo, quá trình trích xuất đặc trưng được dùng để hiểu rõ hơn về tập dữ liệu và các yếu tố cốt lõi trong việc dự đoán Các yếu tố này được chọn ra để áp dụng vào mô hình XGBoost và làm nhiệm vụ quan trọng trong quá trình triển khai một mô hình chẩn đoán hiệu quả và chính xác cao.

Hình 3: Nguyên lý hoạt động của mô hình

Sau khi hoàn tất việc chuẩn hóa dữ liệu, bằng việc xử lý dữ liệu thiếu và thay thế các dữ liệu trùng lặp, tiếp theo là việc chia tập dữ liệu để chuẩn bị cho huấn luyện mô hình Để đảm bảo độ chính xác cao của mô hình, bước này đòi hỏi một sự tiếp cận cẩn thận và chi tiết Bộ dữ liệu gồm hai tập: tập huấn luyện (train) và tập kiểm tra (test) Lựa chọn tỉ lệ phân chia thường được tiến hành một cách thận trọng và trong trường hợp này, tỷ lệ được chọn là 80:20 (80% dữ liệu được sử dụng để huấn luyện và 20% còn lại dùng để kiểm tra hiệu suất của mô hình) Tiếp theo, mô hình sử dụng công nghệ GridSearchCV để tự động tìm kiếm các siêu tham số phù hợp nhất cho mô hình

Sau khi hoàn thành các bước tiền xử lý dữ liệu, quá trình đào tạo mô hình bắt đầu Bước đầu tiên là mô hình sẽ tiếp nhận dữ liệu và thực hiện quá trình trích xuất các đặc trưng quan trọng, những quá trình đó có tác đông đến kết quả dự đoán Các đặc trưng này vận dụng vào mô hình XGBoost Classifier, mô hình Machine Learning được dùng phổ biến trong xử lý dữ liệu cấu trúc.

Mô hình sẽ tiếp tục được huấn luyện với các siêu tham số tối ưu để tối đa hóa hiệu suất Quá trình tập trung vào điều chỉnh tối ưu hóa độ chính xác các siêu tham số của mô hình trên tập dữ liệu huấn luyện Kết quả cuối cùng là một mô hình XGBoost Classifier được huấn luyện có khả năng đưa ra dự đoán chính xác và có độ tin cậy cao trên các tập dữ liệu mới.

Trong bài báo cáo, nhóm đã dùng một tập dữ liệu được thu thập và công bố trên Kaggle và thông tin này được cập nhật theo (Mohammed Mustafa, 2022) Tập dữ liệu này chứa thông tin về 769 người bị mắc bệnh đã được kiểm tra để xác định các chỉ số và xem liệu họ có mắc bệnh tiểu đường hoặc không mắc bệnh Dữ liệu được thu thập từ Bệnh viện Thống kê Quốc gia Hoa Kỳ, đây là một nguồn thông tin đáng tin cậy và rộng lớn Tập dữ liệu có các cột được sắp xếp theo thứ tự như sau: ['Pregnancies', 'Glucose', 'Blood Pressure', 'Skin Thickness', 'Insulin', 'BMI', 'Diabetes Pedigree Function', 'Age', 'Outcome']. Mỗi cột đều chứa thông tin quan trọng về các chỉ số sinh lý và yếu tố chẩn đoán gây ra bệnh tiểu đường, bao gồm huyết áp, cả tuổi, mức đường huyết, độ dày da, lượng Insulin, chỉ số BMI, lịch sử mang thai, và hệ số di truyền về bệnh tiểu đường Cột cuối cùng ('Outcome') chỉ ra liệu mỗi bệnh nhân đã có tiềm ẩn bị mắc bệnh tiểu đường hay không, là thông tin quan trọng để huấn luyện và đánh giá mô hình

Dưới đây là thông tin về mỗi cột trong tập dữ liệu:

Bảng 1 Chú thích các thông tin của từng cột

Pregnancies Số lần mang thai

Glucose Nồng độ glucose trong huyết thanh 2 giờ sau thử glucose theo đường uống.

Blood Pressure Huyết áp (mmHg).

Skin Thickness Độ dày của lớp da triceps (mm).

Insulin Insulin huyết thanh 2 giờ (mu U/ml).

BMI Chỉ số khối cơ thể (weight in kg/(height in m)^2).

Function Chức năng dạng họ bệnh tiểu đường.

Outcome Biến mục tiêu, nó chỉ ra liệu bệnh nhân có mắc bệnh tiểu đường hay không (1: có, 0: không).

Thông tin dữ liệu về các cột:

Bảng 2 Kiểu dữ liệu có trong tập dữ liệu

Thông tin Kiểu dữ liệu

Bảng 3 Bảng thống số bộ dữ liệu

Bộ dữ liệu chứ 769 dòng tương ứng với 769 bệnh nhân và 9 cột tương ứng với 9 đặc trưng Sau khi kiểm tra thì tập dữ liệu không có giá trị “Null” nhưng ở cột Skin Thickness, Insulin và Glucose có các dòng mang giá trị 0. Điều này chưa hợp lý các chỉ số của các cột này không thể mang giá trị 0, Ở bộ dữ liệu có 375 dòng mang giá trị 0 Cho thấy bộ dữ liệu cần được xử lý loại bỏ các giá trị không phù hợp trước khi tiến hành huấn luyện.

Hình 4 Các dữ liệu bị lỗi

Sau khi tiền xử lý dữ liệu và tìm dữ liệu đặc trưng chúng tôi thấy rằng dữ liệu ở cột Insulin đang có sự ảnh hưởng cao nhất so với các cột khác với tỉ lệ trung bình 167.98 Qua đó cho thấy yếu tố Insulin là yếu tố cực kỳ quan trọng ảnh hưởng đến việc dự đoán nên chúng em tiến hành triển khai mô hình dựa trên đặc trưng của Insulin.

Hình 5 Đặc trưng của bộ dữ liệu

3.3 Xây dựng mô hình để tiến hành huấn luyện

Tiếp tục đến xây dựng mô hình bằng các bước sau:

Bước đầu là giai đoạn tiền xử lý chuẩn hóa dữ liệu lọc các dữ liệu bị trùng tiến hành tìm dữ liệu đặc trưng tiếp theo thực thi việc chia tập dữ liệu thành các tập huấn luyện gồm 80% và kiểm tra 20% nhằm xác định mức độ hiệu quả của mô hình vận dụng kỹ thuật K-Fold Cross-validation chia dữ liệu thành các tập con, đào tạo mô hình với tập huấn luyện nhiều lần Sau đó sử dụng GridSearch CV dùng để tìm kiếm siêu tham số tốt nhất cho mô hình bằng cách thử nghiệm một tập hợp các giá trị siêu tham số khác nhau và đánh giá chất lượng của mô hình thông qua cross-validation Đây là quá trình xác thực các giá trị tối ưu nhất Sau khi tìm được siêu tham số phù hợp với mô hình thì tiếp tục tinh chỉnh siêu tham số bằng cách áp dụng các siêu tham số đã tìm được thêm vào mô hình, như số lượng cây, tốc độ học, độ sâu của cây, thông qua các kỹ thuật như lưới tìm kiếm, để cải thiện hiệu suất của mô hình đối với tập dữ liệu huấn luyện.

Sau khi hoàn thành huấn luyện mô hình thì tiến hành tính toán các số đo hiệu suất để xét về độ tối ưu của cả hai mô hình Nhằm đạt được cái nhìn khái quát về việc nghiên cứu và sự cải tiến thì nhóm chúng em đã đem so sánh với các mô hình XGBoost gốc được tham khảo từ bài báo nghiên cứu trước đó và một thuật toán khác đạt hiệu quả cao nhất là LightGBM Sau khi so sánh chúng em thấy mô hình XGBoost cải tiến cho ra độ chính xác và hiệu quả cao hơn hoàn toàn so với các mô hình đó Do đó, chứng tỏ mô hình XGBoost của nhóm đã được tiến hành cải tiến và đạt được hiệu quả cao nhất.

Bảng 4 Bảng tham số của mô hình

` Siêu tham số Tham số tốt nhất

XGBoost cải tiến n_estimators learning_rate min_samples_leaf min_samples_split max_depth

1033 ] n_estimators learning_rate subsample colsample_bytree max_depth gamma reg_alpha reg_lambda

1033 ] learning_rate n_estimator colsample_bytree

Accuracy: 0.890625 ROC: 0.803 F1-score: 0.814 Ở Bảng 2, ba phương pháp đánh giá đã được sử dụng, bao gồmAccuracy, F1-score và ROC, để cung cấp cái nhìn toàn diện nhất về mức độ phù hợp của các mô hình: XGBoost đã cải tiến, XGBoost và LightGBM Kết quả cho thấy các số đo này đều đạt ngưỡng cao và cho thấy khả năng học tốt của các mô hình trong quá trình huấn luyện Mô hình XGBoost đã cải tiến thậm chí còn cho thấy sự vượt trội hơn, và sự chênh lệch giữa ba phương pháp được thể hiện rất rõ qua Hình 6 và Bảng 5 Kết quả này chứng tỏ rằng mô hình

XGBoost được xây dựng trong bài đã thấy những cải thiện đáng kể qua các số liệu hiệu suất, đạt mức tối ưu Do đó, có thể kỳ vọng rằng việc xây dựng mô hình XGBoost sẽ đem lại hiệu xuất cao hơn khi được vận hành trong thực tế để dự đoán bệnh tiểu đường trong tương lai Điều này mở ra triển vọng cho thực hiện mô hình này trong lĩnh vực y tế và tăng cường các biện pháp phòng ngừa và điều trị bệnh tiểu đường.

Bảng 5 Kết quả sau khi hoàn thành quá trình huấn luyện

Hình 6 Biểu đồ so sánh độ chính xác của ba thuật toán

Ngày đăng: 14/08/2024, 11:48

HÌNH ẢNH LIÊN QUAN

Hình 1. Mô hình XGBoost - đồ án cơ sở hệ thống chẩn đoán bệnh tiểu đường đái tháo đường
Hình 1. Mô hình XGBoost (Trang 15)
Hình 2. Mô hình LightGBM - đồ án cơ sở hệ thống chẩn đoán bệnh tiểu đường đái tháo đường
Hình 2. Mô hình LightGBM (Trang 18)
Hình 3: Nguyên lý hoạt động của mô hình - đồ án cơ sở hệ thống chẩn đoán bệnh tiểu đường đái tháo đường
Hình 3 Nguyên lý hoạt động của mô hình (Trang 22)
Bảng 1. Chú thích các thông tin của từng cột - đồ án cơ sở hệ thống chẩn đoán bệnh tiểu đường đái tháo đường
Bảng 1. Chú thích các thông tin của từng cột (Trang 23)
Bảng 2. Kiểu dữ liệu có trong tập dữ liệu - đồ án cơ sở hệ thống chẩn đoán bệnh tiểu đường đái tháo đường
Bảng 2. Kiểu dữ liệu có trong tập dữ liệu (Trang 24)
Bảng 3. Bảng thống số bộ dữ liệu - đồ án cơ sở hệ thống chẩn đoán bệnh tiểu đường đái tháo đường
Bảng 3. Bảng thống số bộ dữ liệu (Trang 25)
Hình 4. Các dữ liệu bị lỗi - đồ án cơ sở hệ thống chẩn đoán bệnh tiểu đường đái tháo đường
Hình 4. Các dữ liệu bị lỗi (Trang 26)
Hình 5. Đặc trưng của bộ dữ liệu - đồ án cơ sở hệ thống chẩn đoán bệnh tiểu đường đái tháo đường
Hình 5. Đặc trưng của bộ dữ liệu (Trang 27)
Bảng 4. Bảng tham số của mô hình - đồ án cơ sở hệ thống chẩn đoán bệnh tiểu đường đái tháo đường
Bảng 4. Bảng tham số của mô hình (Trang 28)
Bảng 5. Kết quả sau khi hoàn thành quá trình huấn luyện - đồ án cơ sở hệ thống chẩn đoán bệnh tiểu đường đái tháo đường
Bảng 5. Kết quả sau khi hoàn thành quá trình huấn luyện (Trang 29)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w