GI Ớ I THI Ệ U Đ Ề TÀI
T ổ ng quan v ề đề tài
1.1.1 Lý do chọn đề tài
Học máy đóng vai trò quan trọng trong cuộc cách mạng công nghiệp 4.0, đặc biệt trong ngành y tế Phân tích dữ liệu bằng học máy mang lại lợi thế lớn trong việc đồng hóa và đánh giá khối lượng lớn dữ liệu chăm sóc sức khỏe Ưu điểm của học máy bao gồm tính linh hoạt và khả năng mở rộng, cho phép áp dụng cho nhiều nhiệm vụ như phân tầng rủi ro, chẩn đoán, phân loại và dự đoán tỷ lệ sống Học máy có khả năng phân tích nhiều loại dữ liệu khác nhau như hồ sơ y tế, dữ liệu nhân khẩu học, dữ liệu xét nghiệm y tế và hình ảnh, từ đó hỗ trợ tiên lượng và chẩn đoán bệnh Tuy nhiên, việc áp dụng học máy trong y tế gặp khó khăn do quy trình thu thập dữ liệu bệnh nhân phức tạp và cần sự cho phép của bệnh nhân để tránh vi phạm pháp luật.
Tại Việt Nam, học máy đã được áp dụng thành công trong chẩn đoán bệnh, đặc biệt là qua hình ảnh, với độ chính xác cao tại các bệnh viện lớn như Việt Nam Cuba, Quân Y 103 và Vinmec Tuy nhiên, việc thu thập dữ liệu vẫn gặp khó khăn do cần sự đồng ý của bệnh nhân và sự hợp tác giữa các bệnh viện, dẫn đến việc áp dụng học máy chưa phổ biến tại nhiều cơ sở y tế khác.
Việc áp dụng học máy và trí tuệ nhân tạo trong y học đã mang lại những đóng góp quan trọng trong việc hỗ trợ bác sĩ và chuyên gia trong chẩn đoán và điều trị bệnh Luận văn này nghiên cứu các mô hình học máy ứng dụng trong y học, sử dụng các dạng dữ liệu y tế khác nhau và thử nghiệm một bài toán cụ thể là sàng lọc bệnh tiểu đường.
1.1.2 Mục tiêu và nhiệm vụ nghiên cứu
1.1.3 Đối tượng và phạm vi nghiên cứu Đối tượng nghiên c u ứ : o Kiến th c v h c máy bao gứ ề ọ ồm phương pháp và ứng dụng thự ếc t o Kiến th c chung v b nh tiứ ề ệ ểu đường
Phạm vi nghiên cứu: Áp d ng các mô hình hụ ọc máy để xây d ng ự chương trình chẩn đoán bệnh tiểu đường.
Nghiên cứu về học máy và ứng dụng của nó trong chẩn đoán bệnh tiểu đường dựa trên dữ liệu y tế từ nhiều nguồn tài liệu như giáo trình, bài giảng và báo cáo khoa học Mục tiêu là lựa chọn các mô hình học máy phù hợp để sàng lọc bệnh nhân mắc bệnh tiểu đường Việc tìm hiểu các ứng dụng của mô hình học máy sẽ giúp nâng cao hiệu quả trong quá trình chẩn đoán và điều trị bệnh.
10 hình học máy đã được phát minh có công d ng chuụ ẩn đoán bệnh d a trên ự d ữ liệu y tế
Nghiên cứu dữ liệu từ Khảo sát Kiểm tra Sức khỏe và Dinh dưỡng Quốc gia (NHANES) Hoa Kỳ nhằm phục vụ cho việc sàng lọc người bị bệnh tiểu đường.
Nghiên cứu thí nghiệm và cài đặt mô hình học máy được thực hiện thông qua ngôn ngữ lập trình Python, sử dụng nền tảng Google Colaboratory và bộ thư viện SKLearn để đánh giá hiệu suất của mô hình.
1.1.5 Ý nghĩa khoa học và thực tiễn Ứng dụng chẩn đoán bệnh bằng phương pháp học máy sẽ giúp người dân có khả năng tự theo dõi, từ đó chăm sóc sức khỏe, phòng ngừa bệnh tốt hơn trong tương lai thông qua các thiết bị y tế xách tay và các app ứng dụng giúp theo dõi chỉ số sức khỏe, chẩn đoán bệnh Ngoài ra, việc thu thập dữ liệu từ bệnh nhân sẽ phục vụ cho các nghiên cứu khám phá thêm những thông tin mới về bệnh và sức khỏe người dân nói chung Do vậy việc nghiên cứu này có ý nghĩa khoa học và thực tiễn cao.
Luận văn g m 4 chương vớồ i các nội dung cơ bản sau:
Chương 1: Giới thiệu đề tài
Bài viết này cung cấp cái nhìn tổng quan về luận văn, bao gồm lý do chọn đề tài, mục tiêu, nhiệm vụ, đối tượng, phạm vi, phương pháp nghiên cứu, và ý nghĩa khoa học cũng như thực tiễn Tiếp theo, bài viết giới thiệu những kiến thức cơ bản về học máy, bao gồm khái niệm, đặc thù và lợi ích cơ bản của học máy Cuối cùng, bài viết trình bày các ứng dụng của học máy trong ngành y tế, đồng thời nêu ra một số khó khăn trong việc áp dụng học máy trong lĩnh vực này.
Chương 2: Nghiên c u các mô hình hứ ọc máy với dữliệu y tế
Mô hình học máy đang ngày càng được ứng dụng rộng rãi trong lĩnh vực y tế Bài viết này sẽ giới thiệu chi tiết về các ứng dụng của mô hình học máy trong y học, cùng với những mô hình điển hình và nâng cao Cuối cùng, chúng tôi sẽ trình bày phương pháp đánh giá hiệu năng của các mô hình học máy này.
Chương 3: Đánh giá các mô hình học máy trong sàng l c b nh tiọ ệ ểu đường
Bài viết giới thiệu về những kiến thức cơ bản liên quan đến bệnh tiểu đường, bao gồm khái niệm, đặc thù và những ảnh hưởng của bệnh Tiếp theo, bài viết trình bày bài toán với các mục tiêu cụ thể, dữ liệu đầu vào, quy trình chọn lọc dữ liệu, trực quan hóa và tiền xử lý dữ liệu Cuối cùng, kết quả thí nghiệm được đưa ra cùng với đánh giá về kết quả đạt được.
Trình bày những k t qu ế ả đạt đư c và đ nh hượ ị ớng phát triển đề tài
1.2 Tổng quan về học máy
Học máy (Machine Learning) là một lĩnh vực con của trí tuệ nhân tạo, nơi mà máy tính sử dụng một lượng dữ liệu khổng lồ để "huấn luyện" và "tự học" Thay vì lập trình theo cách rõ ràng và khuôn mẫu, học máy cho phép hệ thống tự động đưa ra dự đoán thông qua các mô hình đã được xây dựng từ dữ liệu.
Học máy, nhờ khả năng áp dụng kiến thức từ các bộ dữ liệu lớn, có thể xử lý nhanh chóng thông tin để thực hiện nhiều mục đích khác nhau Các ứng dụng của học máy bao gồm nhận dạng hình ảnh, hội thoại, giọng nói, vật thể, phiên dịch, và dự đoán kết quả dựa trên dữ liệu đã có.
Vào giữa thế kỷ 20, học máy đã khởi đầu với những hình thức sơ khai và nhiệm vụ đơn giản Đến đầu thế kỷ 21, nhiều doanh nghiệp và chính phủ đã nhận ra tiềm năng to lớn của học máy, dẫn đến việc đầu tư mạnh mẽ vào lĩnh vực này Sự phát triển nhanh chóng của học máy đã thu hút sự chú ý và nguồn lực đáng kể từ các tổ chức.
12 phần cứng, đặc biệt là GPU (Graphics processing unit – Bộ xử lý đồ họa) nên học máy đã có những bước đi xa vào thời điểm này.
Ứ ng d ụ ng h ọ c máy trong y h ọ c
Nhờ sự phát triển vượt bậc của công nghệ thông tin, ngành y tế đã có những bước tiến mạnh mẽ nhờ việc áp dụng và hưởng lợi từ các tiến bộ công nghệ Hiện nay, học máy đang đóng vai trò quan trọng trong nhiều lĩnh vực liên quan đến sức khỏe.
14 tới các nghiên cứu, khám phá mới về con người, bệnh tật, phát tri n thuể ốc và từ đó có thểchăm sóc sức khỏe con người tốt hơn.
1.3.1 Ứng dụnghọc máytrong tiên lượng, chẩn đoán bệnh
Để nâng cao khả năng tự theo dõi và chăm sóc sức khỏe của người dân, các nhà nghiên cứu đang khám phá những kiến thức mới và tìm cách giảm tải áp lực cho hệ thống y tế trong tương lai Việc áp dụng công nghệ máy móc và phần mềm trên các thiết bị di động đã trở thành một xu hướng quan trọng trong lĩnh vực y tế.
Trong lĩnh vực chẩn đoán bệnh, nhiều ứng dụng thực tế đã được phát triển Vào tháng 10 năm 2016, IBM Watson Genomics ra đời nhờ sự hợp tác giữa IBM Watson Health và Quest Diagnostics, với mục tiêu thúc đẩy y học chính xác thông qua việc tích hợp tính toán nhận thức và giải trình tự gen Đồng thời, DeepMind Health của Google đã hợp tác với nhiều bệnh viện ở Châu Âu để phát triển công nghệ giải quyết tình trạng thoái hóa điểm vàng ở người cao tuổi Ngoài ra, năm 2017, trung tâm y tế của trường đại học Stanford đã cho ra mắt một ứng dụng sử dụng học sâu để phân loại ung thư da từ hình ảnh.
Hình 1.2 nh scan c võng m Ả ủa ạc trên mắt thông qua Google Deep
1.3.2 Ứng dụng học máy trong nghiên cứu phát triển thuốc
Here is the rewritten paragraph:Việc ứng dụng máy học trong khám phá thuốc sơ bộ đã hỗ trợ nhiều công việc khác nhau, từ sàng lọc ban đầu các hợp chất thuốc đến tỷ lệ thành công dự đoán dựa trên các yếu tố sinh học Đặc biệt, công nghệ máy học đã được áp dụng trong lĩnh vực nghiên cứu phát triển thuốc, chẳng hạn như dự án Hanover của Microsoft hợp tác với Viện Ung thư Hiệp sĩ để phát triển công nghệ trí tuệ nhân tạo điều trị bệnh ung thư Ngoài ra, Hiệp hội Hoàng gia Anh cũng đã nhận thấy sự giúp đỡ của máy học trong sản xuất sinh học của ngành dược phẩm, giúp giảm thời gian sản xuất thuốc, dẫn đến giảm chi phí và cải thiện khả năng nhân rộng.
1.3.3 Ứng dụng học máy trong điều trị bệnh
Các mô hình máy học đang cải thiện phương pháp điều trị bệnh bằng cách phát hiện sự khác biệt giữa các mô khỏe mạnh và tế bào khối u, từ đó nâng cao hiệu quả điều trị Hãng Aidoc đã phát triển phần mềm hỗ trợ bác sĩ trong việc phát hiện những bất thường cấp tính ở bệnh nhân, giúp tăng tốc độ chẩn đoán qua hình ảnh Công ty Aidence cũng giới thiệu phần mềm Veye Chest, hỗ trợ bác sĩ trong việc phát hiện, theo dõi và báo cáo các nốt mờ phổi đơn độc qua hình ảnh chụp Theo báo cáo, phần mềm này đã được huấn luyện trên 45.000 bộ dữ liệu và đã được kiểm chứng bởi các bác sĩ.
16 o Công ty Arterys đã cung cấp m t ph n m m có tên g i là ArterysAI ộ ầ ề ọ
Mô hình học máy của phần mềm đã được huấn luyện để phát hiện các bất thường ở tim, phổi và gan Phần mềm này giúp bác sĩ quan sát và hiểu rõ hơn về tình trạng tim mạch của bệnh nhân mà không cần sử dụng các phương pháp nội soi hay bức xạ, từ đó giảm đáng kể thời gian cần thiết để quét và chẩn đoán bệnh nhân.
Hình 1.3 Ảnh scan cơ thể bệnh nhân thông qua ph n mầ ềm Aidoc [9]
1.3.4 Ứng dụnghọc máytrong dự đoán dịch bệnh
Công nghệ học máy và trí tuệ nhân tạo đang được ứng dụng để giám sát và dự đoán các đợt bùng phát dịch bệnh toàn cầu, sử dụng dữ liệu từ nhiều nguồn như vệ tinh, thông tin lịch sử trên web và mạng xã hội theo thời gian thực Ví dụ, mô hình máy vectơ hỗ trợ và mạng nơ-ron nhân tạo đã được áp dụng để dự đoán các đợt bùng phát bệnh sốt rét, với các yếu tố như nhiệt độ, lượng mưa trung bình hàng tháng và số ca dương tính Ứng dụng ProMED-mail là một ví dụ điển hình, cho phép theo dõi các bệnh mới nổi và cung cấp báo cáo bùng phát trong thời gian thực.
Hình 1.4 Ứng d ng ProMEDụ -mail giúp chẩn đoán dịch b nh [10]ệ
1.3.5 Một sốkhó khăn của việc áp dụng học máy trong y học
Trong cuộc đua ứng dụng công nghệ học máy (ML) vào dược phẩm và y học, vẫn còn nhiều thách thức lớn cần giải quyết Đầu tiên, dữ liệu thông tin cá nhân liên quan đến bệnh án cần sự đồng ý của bệnh nhân mới được sử dụng cho nghiên cứu, do đó, sự hợp tác của người dân là rất quan trọng để có nguồn dữ liệu thực Thứ hai, cần tiến hành các nghiên cứu khoa học kỹ lưỡng về bệnh để xác định cách lọc dữ liệu trước khi áp dụng phương pháp học máy, nhằm tránh những kết quả phi logic và không khoa học, dẫn đến tỉ lệ dự đoán không chính xác Cuối cùng, việc chia sẻ "kho chứa dữ liệu" và khuyến khích "chế độ xem tập trung vào dữ liệu" giữa các lĩnh vực là rất quan trọng để chuyển đổi tư duy ngành, nhận thấy giá trị trong những thay đổi gia tăng dài hạn Các công ty dược phẩm hiện nay thường do dự trong việc thực hiện các thay đổi, trừ khi có giá trị tài chính tức thời và đáng kể.
NGHIÊN C Ứ U CÁC MÔ HÌNH H Ọ C MÁY
Ứ ng d ng h c máy trong y t ụ ọ ế
Chương 2: Nghiên c u các mô hình hứ ọc máy với dữliệu y tế
Mô hình học máy đang ngày càng được ứng dụng rộng rãi trong y tế, mang lại nhiều lợi ích đáng kể Bài viết này sẽ trình bày chi tiết về các ứng dụng của mô hình học máy trong lĩnh vực y tế, bao gồm cả các mô hình điển hình và nâng cao Cuối cùng, chúng tôi sẽ giới thiệu các phương pháp đánh giá hiệu suất của các mô hình học máy để đảm bảo tính chính xác và hiệu quả trong thực tiễn.
Chương 3: Đánh giá các mô hình học máy trong sàng l c b nh tiọ ệ ểu đường
Bài viết giới thiệu những kiến thức cơ bản về bệnh tiểu đường, bao gồm khái niệm, đặc thù và ảnh hưởng của bệnh Tiếp theo, bài viết trình bày bài toán với các mục tiêu cụ thể, dữ liệu đầu vào, quy trình chọn lọc và trực quan hóa dữ liệu, cũng như tiền xử lý và phương pháp xử lý bài toán Cuối cùng, kết quả thí nghiệm sẽ được trình bày và đánh giá để đưa ra những nhận định chính xác về hiệu quả của phương pháp đã áp dụng.
Trình bày những k t qu ế ả đạt đư c và đ nh hượ ị ớng phát triển đề tài
1.2 Tổng quan về học máy
Học máy (Machine Learning) là một lĩnh vực con của trí tuệ nhân tạo, nơi máy tính sử dụng một bộ dữ liệu lớn để "huấn luyện" và "tự học" Thay vì lập trình theo cách truyền thống, hệ thống này cho phép máy tính tự động đưa ra kết quả dự đoán thông qua các mô hình được phát triển từ dữ liệu đã học.
Nhờ khả năng áp dụng kiến thức từ các bộ dữ liệu lớn, học máy có thể nhanh chóng xử lý thông tin để thực hiện nhiều mục đích khác nhau như nhận dạng hình ảnh, giọng nói, và dịch thuật Ngoài ra, nó còn có khả năng dự đoán kết quả dựa trên dữ liệu đã có, mở ra nhiều ứng dụng đa dạng trong cuộc sống.
Vào giữa thế kỷ 20, học máy đã khởi đầu với những hình thức sơ khai và nhiệm vụ đơn giản Đến đầu thế kỷ 21, nhiều doanh nghiệp và chính phủ đã nhận thấy tiềm năng to lớn của học máy, dẫn đến việc đầu tư mạnh mẽ vào lĩnh vực này Sự phát triển nhanh chóng của học máy đã thu hút sự chú ý và nguồn lực từ nhiều tổ chức khác nhau.
12 phần cứng, đặc biệt là GPU (Graphics processing unit – Bộ xử lý đồ họa) nên học máy đã có những bước đi xa vào thời điểm này.
Học máy là giải pháp hiệu quả cho các bài toán phức tạp với lượng dữ liệu lớn và nhiều biến số cần xử lý, đặc biệt khi không có công thức hay phương trình cụ thể để giải quyết Nó rất hữu ích trong việc xử lý các quy tắc và kết quả kiểm tra đặc biệt và phức tạp, như trong các ví dụ liên quan đến phân tích dữ liệu hoặc dự đoán xu hướng.
Nhận diện khuôn mặt và đoạn hội thoại là những nguyên tắc quan trọng trong việc thay đổi ổn định của công việc Ví dụ, việc phát hiện gian lận trong hồ sơ giao dịch có thể giúp nâng cao tính chính xác Bản chất của dữ liệu thông tin thường xuyên thay đổi và chương trình cần thích ứng với những thay đổi đó Chẳng hạn, giao dịch tức thời, dự báo nhu cầu năng lượng và dự đoán xu hướng mua sắm đều yêu cầu sự linh hoạt và cập nhật kịp thời.
Trí tuệ nhân tạo (AI) là lĩnh vực nghiên cứu cho phép máy tính mô phỏng hành vi của con người thông qua logic và quy tắc Học máy (Machine Learning) là một nhánh con của trí tuệ nhân tạo, sử dụng các kỹ thuật thống kê để cải thiện hiệu suất của máy móc qua việc tích lũy kinh nghiệm Học sâu (Deep Learning) là một phần của học máy, sử dụng các mô hình mạng nơ-ron nhiều lớp để xử lý và nhận diện hình ảnh, giọng nói từ lượng dữ liệu lớn.
Hình 1.1 S ự khác biệt giữa học sâu, học máy và trí tuệnhân tạo [1]
Học máy đã và đang ảnh hưởng mạnh mẽ đến nhiều lĩnh vực khác nhau, đặc biệt trong tài chính, giáo dục, y tế và doanh nghiệp Nó đóng vai trò quan trọng trong nghiên cứu sản phẩm, marketing, truyền thông, chăm sóc khách hàng, kiểm toán và lập trình, mang lại những cải tiến đáng kể cho các ngành này.
Học máy mang lại tiềm năng phát triển lớn nhưng cũng tiềm ẩn nhiều rủi ro về bảo mật Các trí tuệ nhân tạo hiện nay được huấn luyện qua học máy để có khả năng bẻ khóa bảo mật và vượt qua các tường lửa, nhằm truy cập vào hệ thống và dữ liệu nhạy cảm Hơn nữa, sự phát triển của học máy có thể dẫn đến nhiều người mất việc làm trong tương lai, do máy móc và trí tuệ nhân tạo thực hiện công việc hiệu quả và nhanh chóng hơn con người gấp triệu lần.
1.3 Ứng dụng học máy trong y học
14 tới các nghiên cứu, khám phá mới về con người, bệnh tật, phát tri n thuể ốc và từ đó có thểchăm sóc sức khỏe con người tốt hơn.
1.3.1 Ứng dụnghọc máytrong tiên lượng, chẩn đoán bệnh
Nhằm nâng cao khả năng tự theo dõi và chăm sóc sức khỏe của người dân, các nhà nghiên cứu đang khám phá những kiến thức mới và tìm cách giảm tải áp lực
Trong lĩnh vực chẩn đoán bệnh, ứng dụng IBM Watson Genomics, ra mắt vào tháng 10 năm 2016 nhờ sự hợp tác giữa IBM Watson Health và Quest Diagnostics, nhằm mục tiêu phát triển y học chính xác thông qua tích hợp tính toán nhận thức và giải trình tự DNA Đồng thời, sản phẩm DeepMind Health của Google đã hợp tác phát triển công nghệ giải quyết tình trạng thoái hóa điểm vàng ở người cao tuổi tại Châu Âu Ngoài ra, vào năm 2017, trung tâm y tế của trường đại học Stanford đã giới thiệu một ứng dụng phân loại ung thư da dựa trên hình ảnh bằng cách sử dụng công nghệ học sâu.
Hình 1.2 nh scan c võng m Ả ủa ạc trên mắt thông qua Google Deep
1.3.2 Ứng dụng học máy trong nghiên cứu phát triển thuốc
Việc sử dụng máy học trong khám phá thuốc sơ bộ đã hỗ trợ nhiều công việc khác nhau, từ sàng lọc hợp chất thuốc đến dự đoán tỷ lệ thành công dựa trên các yếu tố sinh học Dự án Hanover của Microsoft đã áp dụng công nghệ máy học trong nhiều nghiên cứu, bao gồm hợp tác với Viện Ung thư Hiệp sĩ để phát triển công nghệ trí tuệ nhân tạo nhằm điều trị chính xác bệnh ung thư Hiện tại, trọng tâm của dự án là phát triển phương pháp tiếp cận cá nhân hóa trong việc kết hợp thuốc cho bệnh Bạch cầu cấp tính dòng tủy Ngoài ra, Hiệp hội Hoàng gia Anh cũng đã nhấn mạnh sự hỗ trợ của máy học trong sản xuất sinh học của ngành dược phẩm, giúp các nhà sản xuất giảm thời gian sản xuất thuốc, dẫn đến giảm chi phí và cải thiện khả năng nhân rộng.
1.3.3 Ứng dụng học máy trong điều trị bệnh
Các mô hình máy học đang cải thiện đáng kể khả năng điều trị bệnh bằng cách phát hiện sự khác biệt giữa các mô khỏe mạnh và tế bào bệnh Hãng Aidoc đã phát triển phần mềm giúp bác sĩ phát hiện những bất thường cấp tính trên cơ thể bệnh nhân, từ đó tăng tốc độ chẩn đoán bằng hình ảnh máy tính Công ty Aidence cũng giới thiệu phần mềm Veye Chest, hỗ trợ bác sĩ trong việc phát hiện, theo dõi và báo cáo các nốt mờ phổi thông qua hình ảnh chụp X-quang Theo báo cáo, phần mềm này đã được huấn luyện trên 45.000 bộ dữ liệu và đã được kiểm chứng bởi các bác sĩ.
16 o Công ty Arterys đã cung cấp m t ph n m m có tên g i là ArterysAI ộ ầ ề ọ
M ộ t s ố mô hình h ọ c máy đi ể n hình
Mỗi mô hình đều có phương thức và giả định riêng để mô tả bài toán, từ đó xác định hướng giải quyết Việc nắm rõ bản chất của các mô hình là điều kiện tiên quyết để xác định mô hình phù hợp và giải quyết bài toán một cách hiệu quả.
2.3.1 Hồi quy Logistic - Logistic regression Định nghĩa
Hồi quy Logistic là một mô hình học máy có giám sát, chủ yếu được sử dụng để phân loại dữ liệu Mặc dù tên gọi có chứa từ "hồi quy", nhưng mục đích chính của mô hình này là phân loại, không phải dự đoán giá trị liên tục.
Phương pháp hồi quy logistic sử dụng mô hình hồi quy để dự đoán giá trị đầu ra y dựa trên véc-tơ đầu vào x Mục tiêu của mô hình là phân loại các đầu vào x vào các nhóm y tương ứng.
Hình 2.1 D ữliệu được phân loại bằng mô hình i quy Logistichồ [1]
Bằng phương pháp thống kê, sta ẽ khả năng một đầu vào x nằm vào một nhóm y 0 là p(y 0 x) Khi đó, theo công thức xác suất hậu nghiệm ta có:
1 + exp () =() (2.3) Đồ thị hàm sigmoid σ(a) sẽ có hình dạng chữ S bị chặn 2 đầu
Theo hình vẽ, ta có thể viết lại phương trình thành:
Với x là thuộc tính đầu vào và w là trọng số tương ứng của dữ liệu
Sau khi có được công th c tính xác su t, ta có th s d ng mứ ấ ể ử ụ ột ngưỡng [0,1] ϵ đểquyế ịt đnh nhóm tương ứng
Để tăng độ chính xác của phương trình, chúng ta cần chọn hàm mất mát sao cho nó có chỉ số tiêu chuẩn nhỏ nhất Hàm mất mát thường được dùng phổ biến nhất có phương trình là P(θ|x) < ε (2.5), trong đó ε là một giá trị nhỏ.
Trong đó, \( o_m \) là kích thước của bộ dữ liệu \( o_y(i) \) là lớp tương ứng của dữ liệu thứ \( i \) trong bộ dữ liệu Xác suất tương ứng sau khi tính toán với mô hình cho dữ liệu thứ \( i \) được biểu diễn bằng \( o \left( \hat{y} \right) = P \left( y | x \right) \) Để tối ưu hàm \( J(w) \), có hai phương pháp phổ biến được sử dụng là Gradient Descent và Newton-Raphson.
Ta sẽ ố t i ưu hàm J(w) ta sẽ đạ o hàm của hàm log của công thức trên:
Sử dụng đạo hàm bậc 2 đem lại tốc độ tốt hơn so v i vi c sớ ệ ử dụng đạo hàm bậc nhất Khi đó, ta có phương trình: w = w H J(w) (2.8) Trong đó
24 o J(w) là ma trận Jacobi của J(w) o H là ma trận Hessian c a J(w) ủ
= 1 mX ( y) (2.9) Sau khi đạo hàm của hàm sigmoid, ta được: d da= (1 ) (2.10)
Vì thế, ta có phương trình:
Sau khi thay vào công thức cập nh p tham sậ ố, ta có tham s sau mố ỗi lần cập nhập là: w = (X X) X y (2.12)
So với phương pháp Gradient Descent, hồi quy Logistic là một phương pháp đơn giản và nhanh hơn Hồi quy Logistic hoạt động hiệu quả khi tập dữ liệu có tính phân tách rõ ràng Một ưu điểm nổi bật của hồi quy Logistic là khả năng ít bị overfit Ngoài ra, nó không chỉ cung cấp mức độ ảnh hưởng của một yếu tố dự đoán mà còn chỉ ra cả hướng liên kết của yếu tố đó, có thể là tích cực hoặc tiêu cực.
25 o Hồi quy logistic dễ thực hiện hơn, dễ hiểu hơn và rất hiệu quả để huấn luyện
Hồi quy logistic có những nhược điểm chính như giả định về độ tuyến tính giữa biến phụ thuộc và các biến độc lập, điều này thường không phản ánh thực tế vì dữ liệu thường phức tạp và không thể phân tách tuyến tính Ngoài ra, phương pháp này có nguy cơ bị overfit khi số lượng thuộc tính dữ liệu lớn Hơn nữa, hồi quy logistic chỉ áp dụng cho việc dự đoán các chức năng rời rạc, khiến cho biến phụ thuộc bị hạn chế trong tập số rời rạc, điều này cản trở khả năng xử lý dữ liệu liên tục.
2.3.2 Máy vectơ h ỗ ợ - Support Vector Machine (SVM) tr Định nghĩa
Mô hình SVM (Support Vector Machine) là một thuật toán học máy có giám sát, ngày càng trở nên phổ biến trong việc giải quyết các bài toán phân loại và hồi quy.
Mô hình thuật toán SVM:
Phương pháp SVM (Support Vector Machine) được sử dụng để phân chia hai lớp khác nhau trong không gian nhiều chiều Mục tiêu chính của SVM là xác định một siêu mặt phẳng phân chia hai lớp này, đảm bảo rằng mỗi phía của siêu mặt phẳng chứa một lớp riêng biệt.
Giả ử ẽ s v đư c đượ ờng phân tách (với không gian 2 chiều thì mặt phẳng này là một đường phân tách), đường phân tách này có phương trình:
+ = 0 (2.13) Khi đó, dấu của hàm ước lượng này sẽ có thể viết dưới dạng:
H sẽ thể hiện điểm dữ liệu x nằm ở cụm dữ liệu nào
T ừ đó, ta có được: min | + | = 1 (2.17)
Để tìm mặt kẹp giữa tốt nhất trong các cặp đôi mặt biên gốc, cần xác định cặp có khoảng cách xa nhất giữa các mặt biên đó Việc này giúp tối ưu hóa sự
Ta sẽ cần thiết lập thông s tính khoố ảng cách đó bằng phép lấy độ rộng biên từ mặt biên gố ớc t i mặt phân tách cần tìm:
|| || (2.18) Bài toán c a ta bây giủ ờ sẽlà cần xác định và sao cho w b ρđạt lớn nh t và các ấ điểm dữ liệu thỏa mãn:
( + ) 1 (2.19) ρđạt lớn nhất đồng nghĩa với việc giá trị w đạt nhỏ nhất Tức là:
Với m là sốlượng các điểm d liữ ệu (xi , yi)
Sử dụng phương pháp nhân tử Lagrange, ta sẽgiải được bài toán này
Khi đó, ta sẽ cần tìm các giá trịλnhư sau:
Bằng phương pháp quy hoạch động bậc 2, ta giải được λ Sau khi tìm được λ ta có được các tham số:
Tại đây, (xi,y i ) là một điểm dữ ệ li u bất kì nào đó n m trên đưằ ờng biên gốc Điểm d liữ ệu này còn được gọi là véc tơ hỗ trợ
Tuy nhiên, có thể tính b bằng phép lấy trung bình tổng của tất cả các bi Giả sử, ta có tập S các véc tơ hỗ trợ thì:
Lúc đó, một điểm dữ liệu mớ ẽi s được phân loại dựa theo:
Để tối ưu hóa bài toán, chỉ cần xác định các điểm vectơ hỗ trợ trên đường biên của hàm mục tiêu Việc này không chỉ giúp ước lượng các tham số một cách chính xác mà còn tạo thuận lợi cho quá trình tính toán, đồng thời tiết kiệm tài nguyên trong thực thi phương pháp.
Việc xác định mặt phân cách trong dữ liệu thực tế phức tạp với hai lớp đan xen là một thách thức lớn Để giải quyết vấn đề này, phương pháp kernel được áp dụng, sử dụng hàm cơ bản (Φ x) nhằm nâng cao chiều của dữ liệu ban đầu Nhờ vào các hàm cơ bản này, chúng ta có thể tạo ra các mặt cong phân tách thích hợp cho các điểm dữ liệu không phân tách tuyến tính.
Hình 2.3 Tập d liữ ệu được ánh xạ thông qua phương pháp kernel [1]
Khi đó tối ưu biên m m đưề ợc viết dưới dạng:
Lúc đó, tham sốtương ứng sẽ là
x for 0 < < (2.34) Điểm d liữ ệu mới được phân lớp với
Để tính tích vô hướng giữa các điểm dữ liệu trong không gian mới, chúng ta chỉ cần sử dụng hàm kernel K(x_i, x_j) Hàm này cho phép ước lượng được một điểm mới thuộc phân lớp nào.
Khi làm việc người ta thường chọn một hàm Kernel thông dụng sau: o Đa thức - Polynomial Kernels:
Đánh giá hiệu năng mô hình họ c máy
Chương 2: Nghiên c u các mô hình hứ ọc máy với dữliệu y tế
Mô hình học máy đang ngày càng được ứng dụng rộng rãi trong y tế, mang lại nhiều lợi ích cho việc chẩn đoán và điều trị bệnh Bài viết này sẽ giới thiệu chi tiết về các ứng dụng của mô hình học máy trong lĩnh vực y tế, đồng thời trình bày một số mô hình điển hình và nâng cao Cuối cùng, chúng tôi sẽ đề cập đến các phương pháp đánh giá hiệu năng của các mô hình học máy, giúp đảm bảo tính chính xác và hiệu quả trong thực tiễn.
ĐÁNH GIÁ CÁC MÔ HÌNH HỌ C MÁY
Gi ớ i thi ệ u chung v ề ệ b nh ti ểu đườ ng
Tiểu đường là một rối loạn chuyển hóa mãn tính ảnh hưởng đến việc điều hòa đường huyết Hiện tại, bệnh tiểu đường chưa có thuốc chữa trị, vì vậy giải pháp hiệu quả nhất là duy trì mức đường huyết gần với chỉ số bình thường.
Bệnh tiểu đường có thể gây tổn thương các mạch máu, làm tăng nguy cơ mắc các bệnh nghiêm trọng như bệnh tim mạch, đột quỵ và nhiễm trùng Ngoài ra, bệnh còn có thể gây tổn thương đến dây thần kinh, động mạch, mắt và thận Tất cả các dạng bệnh tiểu đường đều làm tăng nguy cơ gặp phải các biến chứng lâu dài.
Những triệu chứng này thường phát tri n sau nhiể ều năm (khoảng 10–20 năm) và gây nhiều ảnh hưởng xấu đến s c kh e, th m chí là t ứ ỏ ậ ửvong.
Các ước tính s ố người m c b nh tiắ ệ ểu đư ng trong đờ ộ ổ ừ tu i t 20 đến 79 là 415 triệu ngư i trong năm 2015 và dờ ự ki n ế s ẽ đạt 642 triệu vào năm
Bệnh tiểu đường ở người lớn từ 20 đến 79 tuổi có thể gây tổn thất kinh tế toàn cầu lên tới 1,31 nghìn tỷ USD vào năm 2015, với hơn 5 triệu ca tử vong ước tính trong độ tuổi này Đường huyết chịu ảnh hưởng bởi nhiều yếu tố y tế khác nhau, bao gồm lượng thức ăn tiêu thụ, hormone insulin, tình trạng mang thai, thuốc chữa bệnh và vitamin, cũng như thói quen hút thuốc và uống rượu Ngoài ra, các yếu tố như tập thể dục, căng thẳng, chu kỳ kinh nguyệt và nhiễm trùng cũng có tác động đến mức đường huyết.
Đối với người bệnh tiểu đường chưa có thuốc chữa, việc tuân thủ chế độ sinh hoạt hợp lý là rất quan trọng để tránh những hậu quả xấu do bệnh gây ra Để duy trì chỉ số đường huyết ổn định, người bệnh cần tự quản lý sinh hoạt cá nhân và chủ động theo dõi mức đường huyết của mình.
46 huyết và th c hiự ện chế độ ăn u ng đi u đố ề ộ, tập thể ụ d c rèn luyện sức khỏe, dùng thuốc insulin khi cần thiết.
KẾ T LU N 58 Ậ 4.1 K ế t lu ậ n chung
K ế t qu ả đạ t đư ợ c
Tìm hiểu được ki n th c t ng quan v h c máy và nh ng ng d ng th c ế ứ ổ ề ọ ữ ứ ụ ự t cế ủa học máy trong y tế
Nghiên cứu mô hình học máy và phương pháp đánh giá hiệu năng c a ủ học máy.
Xây dựng hệ thống chẩn đoán bệnh tiểu đường dựa trên dữ liệu từ NHANES bằng các mô hình học máy đã được nghiên cứu Đánh giá hiệu quả của các mô hình học máy thông qua thực nghiệm là bước quan trọng trong quá trình phát triển.
Mặc dù thực nghiệm đã thành công trong việc sàng lọc bệnh nhân tiểu đường từ dữ liệu NHANES với độ chính xác cao, nhưng hiện tại chỉ mới xác định được có hoặc không mắc bệnh, mà chưa đánh giá được mức độ nguy cơ cụ thể Các mô hình học máy đang sử dụng còn cơ bản và chưa khai thác được các mô hình phức tạp, dẫn đến độ chính xác chưa tối ưu Do đó, hướng nghiên cứu tiếp theo là tập trung vào việc áp dụng các phương pháp học máy phức tạp hơn, nhằm rút ngắn thời gian xử lý, nâng cao độ chính xác và đánh giá hiệu năng giữa các mô hình học máy một cách tốt hơn.
[1] Ethem Alpaydin, Introduction to Machine Learning, MIT Press,
[2] IBM, IBM and Quest Diagnostics Launch Watson-Powered Genomic Sequencing Service to Help Physicians Bring Precision Cancer Treatments to Patients Nationwide, 2016.
[3] Julia Powles, Hal Hodson, Google DeepMind and healthcare in an age of algorithms, 2017.
[4] Taylor Kubota, Deep learning algorithm does as well as dermatologists in identifying skin cancer, 2017
[5] Microsoft, How Microsoft computer scientists and researchers are working to ‘solve‘ cancer, 2018
[6] Royal Society, Machine learning: the power and promise of computers that learn by example, 2017
[7] Aidoc, Algorithms and AI: deep learning medical imaging, 2019
[8] European Society of Radiology, Driving AI adoption in clinical practice: a team play, 2018
[9] Tony Kontzer, Startup Brings AI Powered Image Analysis to Heart, - Liver and Lungs , 2018
[10].Victor L Yu, Lawrence C Madoff, Clinical Infectious Diseases Volume 39, 2004.
[11].G.S Birkhead, M Klompas, N.R Shah, Uses of electronic health records for public health surveillance to advance public health, 2015
[12].F.E Harrell Jr., K.L Lee, R.M Califf, D.B Pryor, R.A Rosati, Regression modelling strategies for improved prognostic prediction,
[13].A Krizhevsky, I Sutskever, G.E Hinton, ImageNet classification with deep convolutional neural networks, 2012
[14].Heng-Tze Cheng, Levent Koc, Jeremiah Harmsen, Tal Shaked , Wide
& Deep Learning for Recommender Systems, 2016
[15].The XGBoost Contributors, XGBoost Documentation, 2019
[16].World Health Organization, Definition and diagnosis of diabetes mellitus and intermediate hyperglycaemia, 2014
[17].Ogurtsova K, da Rocha Fernandes JD, Huang Y, Linnenkamp U, Guariguata L, Cho NH, et al, IDF Diabetes Atlas: Globalestimates for the prevalence of diabetes for 2015 and 2040 Diabetes Res Clin Pract,
[18].Bommer C, Heesemann E, Sagalova V, Manne-Goehler J, Atun R, Bọrnighausen T, et al , The global economic burden of diabetes in adults aged 20-79 years: a cost-of-illness study, Lancet Diabetes Endocrinol, 2017
[19].Casqueiro J, Casqueiro J, Alves C Infections in patients with diabetes mellitus: a review of pathogenesis, Indian J Endocrinol Metab, 2012
[20].Centers for Disease Control and Prevention, About the National Health and Nutrition Examination Survey, 1999
[21].Klein, R., Klein, B.E., Moss, S.E., Davis, M.D and DeMets, D.L., The Wisconsin Epidemiologic Study of Diabetic Retinopathy: III Prevalence and risk of diabetic retinopathy when age at diagnosis is
30 or more years, Archives of ophthalmology, 102(4), pp.527-532,
[22].Maria L Alva1, Thomas J Hoerger, Ping Zhang, Edward W Gregg, Identifying risk for type 2 diabetes in different age cohorts: does one size fit all?, BMJ Open Diabetes Research & Care, 2017
[23] Kautzky Willer, A., Harreiter, J and Pacini, G., - Sex and gender differences in risk, pathophysiology and complications of type 2 diabetes mellitus, Endocrine reviews, 37(3), pp.278-316, 2016
[24].Gale, E.A and Gillespie, K.M (2001), Diabetes and gender, Diabetologia, 44(1), pp.3-15
[25].Gray N, Picone G, Sloan F, Yashkin A, The relationship between BMI and onset of diabetes mellitus and its complications, Southern medical journal, 108(1):29, 2015
[26].Chan, J.M., Rimm, E.B., Colditz, G.A., Stampfer, M.J and Willett, W.C , Obesity, fat distribution, and weight gain as risk factors for clinical diabetes in men, Diabetes care, 17(9), pp.961-969, 1994
[27].Spanakis EK, Golden SH, Race/ethnic difference in diabetes and diabetic complications, Current diabetes reports, 13(6):814-23, 2013
[28].Golden SH, Yajnik C, Phatak S, Hanson RL, Knowler WC, Racial/ethnic differences in the burden of type 2 diabetes over the life course: a focus on the USA and India, Diabetologia, 2019
A population-based cohort study, the ESTHER study, investigates the relationship between educational achievement and type 2 diabetes in older adults The research, published in BMJ Open in 2017, explores the mediating factors that influence this relationship, highlighting the significance of education in understanding diabetes prevalence among the elderly population.
A study published in PLoS One examined the relationship between educational level, obesity, and the incidence of diabetes among Chinese adults aged 18 to 59 over an 11-year follow-up period The research highlights the significant impact of education and obesity on diabetes risk in this demographic.
A study by Hsu et al (2012) highlights that poverty significantly raises the incidence of type 2 diabetes and exacerbates disparities in healthcare access, even in the context of universal health coverage The research, published in Diabetes Care, underscores the critical link between socioeconomic status and health outcomes, emphasizing the need for targeted interventions to address these inequalities.
[32].Sacerdote, C., Ricceri, F., Rolandsson, O., Baldi, I., Chirlaque, M.D., Feskens, E., Bendinelli, B., Ardanaz, E., Arriola, L., Balkau, B and Bergmann, M., Lower educational level is a predictor of incident type
2 diabetes in European countries: the EPIC-InterAct study, International journal of epidemiology, 41(4), pp.1162-1173, 2012
[33].InterAct Consortium (2013), The link between family history and risk of type 2 diabetes is not explained by anthropometric, lifestyle or genetic risk factors: the EPIC InterAct study- , Diabetologia, 56(1):60-
[34].Hariri S, Yoon PW, Qureshi N, Valdez R, Scheuner MT, Khoury MJ
(2006) Family history of type 2 diabetes: a population-based screening tool for prevention?, Genetics in Medicine, 8(2):102-8,
[35].Whitford DL, McGee H, O'Sullivan B (2009), Reducing health risk in family members of patients with type 2 diabetes: views of first degree relatives, BMC Public Health, 9(1):455
[36].De Boer IH, Bangalore S, Benetos A, Davis AM, Michos ED, Muntner P, Rossing P, Zoungas S, Bakris G (2017), Diabetes and