Nghiên Cứu Một Số Kỹ Thuật Học Máy Và Ứng Dụng Trong Việc Chuẩn Đoán Bệnh Nghiên Cứu Một Số Kỹ Thuật Học Máy Và Ứng Dụng Trong Việc Chuẩn Đoán Bệnh Nghiên Cứu Một Số Kỹ Thuật Học Máy Và Ứng Dụng Trong Việc Chuẩn Đoán Bệnh Nghiên Cứu Một Số Kỹ Thuật Học Máy Và Ứng Dụng Trong Việc Chuẩn Đoán Bệnh
Trang 1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC HÒA BÌNH
NGUYỄN ĐỨC THẮNG
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI, 2019
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC HÒA BÌNH
HÀ NỘI, 2019
Trang 3i
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn nghiên cứu một số kỹ thuật học máy và ứng dụng trong việc chẩn đoán bệnh là do tôi thực hiện dưới sự hướng dẫn của Phó Giáo sư Tiến sĩ Nguyễn Việt Anh
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận văn Trong luận văn, không
có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo
Hà Nội, ngày … tháng … năm 2019
Tác giả
Nguyễn Đức Thắng
Trang 4ii
LỜI CẢM ƠN
Trong thời gian hoàn thành luận văn tôi đã nhận được rất nhiều sự động viên giúp đỡ
từ các thầy cô, đồng nghiệp, gia đình và bạn bè
Trước hết, tôi xin bày tỏ lòng kính trọng và biết ơn tới PGS.TS Nguyễn Việt Anh giảng viên Đại học Công nghệ, ĐHQGHN người thầy đã trực tiếp hướng đẫn và giúp
đỡ tôi hoàn thành luận văn này
Tiếp theo tôi cũng vô cùng cảm ơn các anh chị đồng nghiệp là những giảng viên, bác
sĩ chuyên khoa đang công tác tại Khoa Y Dược, ĐHQGHN đã giúp đỡ tôi rất nhiều trong việc tư vấn, cách thức thu thập dữ liệu và các kiến thức liên quan để hoàn thành luận văn
Tôi cũng vô cùng biết ơn đến tập thể thầy cô giáo Viện sau đại học – Trường Đại học Hòa Bình đã truyền thụ kiến thức quý báu, kinh nghiệm nghiên cứu khoa học và đã tạo rất nhiều điều kiện cho tôi trong quá trình học tập
Sau cùng, tôi xin chân thành cảm ơn người thân, bạn bè luôn bên cạnh động viên, hỗ trợ, nơi chia sẻ những thuận lợi cũng như khó khăn trong quá trình học tập và sẽ mãi
là chỗ dựa vững chắc giúp tôi không ngừng phấn đấu trong tương lai
Một lần nữa xin chân thành cảm ơn!
Trang 5iii
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH SÁCH TỪ VIẾT TẮT vi
DANH SÁCH HÌNH VẼ vii
DANH SÁCH BẢNG BIỂU ix
THÔNG TIN LUẬN VĂN THẠC SĨ x
MỞ ĐẦU 1
1 Đặt vấn đề 1
2 Tính cấp thiết của luận văn 2
3 Nghiên cứu trong nước và quốc tế 2
4 Mục tiêu nghiên cứu của luận văn 3
5 Những đóng góp của luận văn 3
6 Ý nghĩa của luận văn 4
7 Bố cục của luận văn 4
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 6
1.1 Học máy và ứng dụng 6
1.1.1 Giới thiệu về học máy 6
1.1.2 Ứng dụng của học máy 6
1.2 Các bài toán học máy cơ bản [8] 8
1.2.1 Học có giám sát (Supervised Learning) 8
Trang 6iv
1.2.2 Học không giám sát (Unsupervised Learning) 10
1.2.3 Học bán giám sát (Semi – Supervised Learning) 12
1.2.4 Học tăng cường (Reinfocement Learning) 12
1.3 Bệnh tiểu đường 13
1.3.1 Sơ lược về bệnh tiểu đường 13
1.3.2 Phân loại bệnh tiểu đường [4],[18] 13
1.3.3 Các tiêu chẩn chẩn đoán bệnh 13
CHƯƠNG 2 MỘT SỐ THUẬT TOÁN PHÂN LOẠI DỮ LIỆU TRONG HỌC MÁY CÓ GIÁM SÁT 15
2.1 Thuật toán Gaussian Naive Bayes 15
2.2 Thuật toán SVM 15
2.3 Thuật toán Logistic Regression 17
2.4 Thuật toán Tree Classification 18
CHƯƠNG 3 BÀI TOÁN ỨNG DỤNG KỸ THUẬT HỌC MÁY VÀO CHẨN ĐOÁN BỆNH TIỂU ĐƯỜNG 19
3.1 Quy trình thực hiện bài toán 19
3.1.1 Tiền xử lý dữ liệu 20
3.1.2 Lựa chọn tính năng [25] 29
3.1.3 Xây dựng mô hình [26] 30
3.2 Phương pháp đánh giá mô hình 31
3.2.1 Phương pháp k-fold cross validation 31
3.2.2 Phương pháp ma trận nhầm lẫn 31
3.3 Công cụ hỗ trợ, kỹ thuật 32
Trang 7v
CHƯƠNG 4 KẾT QUẢ VÀ ĐÁNH GIÁ 33
4.1 Quá trình thử nghiệm 33
4.3 Kết quả thử nghiệm 33
4.4 Nhận xét đánh giá 42
KẾT LUẬN 43
TÀI LIỆU THAM KHẢO 44
Trang 8vi
DANH SÁCH TỪ VIẾT TẮT
Diabetes Asociation)
Trang 9vii
DANH SÁCH HÌNH VẼ
Hình 1 1: Mô hình bài toán học có giám sát [15] 8
Hình 1 2 : Bài toán xác định email có phải spam hay không [16] 9
Hình 1 3: Đường thẳng thể hiện quan hệ y = 4x + 3 10
Hình 1 4: Mô hình học không giám sát [15] 10
Hình 1 5: Mô hình học bán giám sát 12
Hình 1 6: Mô hình học tăng cường [16] 12
Hình 2 1: H2 là siêu phẳng cho bài toán svm 16
Hình 3 1: Quy trình thực hiện bài toán chẩn đoán bệnh 19
Hình 3 2: Quy trình thực hiện bài toán đề xuất 20
Hình 3 3: Bộ dữ liệu bài toán bệnh tiểu đường 21
Hình 3 4: Mô tả quá trình xử lý dữ liệu 22
Hình 3 5: Thống kê dữ liệu thu thập được 23
Hình 3 6: Trực quan hóa dữ liệu F1, F2, F3, F4 ban đầu 24
Hình 3 7: Trực quan hóa dữ liệu F5, F6, F7, F8 ban đầu 25
Hình 3 8: Trực quan hóa dữ liệu F1, F2, F3, F4 sau xử lý 26
Hình 3 9: Trực quan hóa dữ liệu F5, F6, F7, F8 sau xử lý 26
Hình 3 10: Trực quan hóa dữ liệu trước và sau xử lý 27
Hình 3 11: Trực quan hóa dữ liệu F3 trước và sau xử lý 27
Hình 3 12: Trực quan hóa dữ liệu F4 trước và sau xử lý 28
Hình 3 13: Trực quan hóa dữ liệu F5 trước và sau xử lý 28
Trang 10viii
Hình 3 14: Trực quan hóa dữ liệu F6 trước và sau xử lý 29Hình 3 15: Ma trận tương quan giữa các đặc tính dữ liệu 30Hình 4 1: Tổng hợp kết quả thử nghiệm 1 36Hình 4 2: So sánh độ chính xác trung bình và thời gian thực thi trung bình giữa các
mô hình học máy với đầy đủ thuộc tính 37Hình 4 3: Tổng hợp kết quả thử nghiệm 2 41Hình 4 4: So sánh độ chính xác trung bình và thời gian thực thi trung bình giữa các
mô hình học máy với 4 thuộc tính đặc trưng 41
Trang 11ix
DANH SÁCH BẢNG BIỂU
Bảng 3 1: Bảng thuộc tính của bộ dữ liệu tiểu đường 22
Bảng 4 1: Chạy thử nghiệm với đầy đủ thuộc tính lần 1 33
Bảng 4 2: Chạy thử nghiệm với đầy đủ thuộc tính lần 2 34
Bảng 4 3: Chạy thử nghiệm với đầy đủ thuộc tính lần 3 34
Bảng 4 4: Chạy thử nghiệm với đầy đủ thuộc tính lần 4 35
Bảng 4 5: Chạy thử nghiệm với đầy đủ thuộc tính lần 5 35
Bảng 4 6: Chạy thử nghiệm với đầy đủ thuộc tính lần 6 36
Bảng 4 7: Chạy thử nghiệm với 4 thuộc tính đặc trưng lần 1 38
Bảng 4 8: Chạy thử nghiệm với 4 thuộc tính đặc trưng lần 2 38
Bảng 4 9: Chạy thử nghiệm với 4 thuộc tính đặc trưng lần 3 39
Bảng 4 10: Chạy thử nghiệm với 4 thuộc tính đặc trưng lần 4 39
Bảng 4 11: Chạy thử nghiệm với 4 thuộc tính đặc trưng lần 5 40
Bảng 4 12: Chạy thử nghiệm với 4 thuộc tính đặc trưng lần 6 40
Trang 12x
THƠNG TIN LUẬN VĂN THẠC SĨ
1 Họ và tên học viên: Nguyễn Đức Thắng 2 Giới tính: Nam
3 Ngày, tháng, năm sinh: 10/05/1988
4 Nơi sinh: Đơng Tân – Đơng Hưng – Thái Bình
5 Quyết định cơng nhận học viên số: 981/QĐ-ĐHHB ngày 27 tháng 12 năm 2017 của Hiệu trưởng Trường Đại học Hịa Bình
6 Các thay đổi trong quá trình đào tạo: Khơng cĩ thay đổi gì trong quá trình học tập
7 Tên đề tài luận văn: Nghiên cứu một số kỹ thuật học máy và ứng dụng trong việc chẩn đốn bệnh
8 Chuyên ngành: Cơng nghệ thơng tin 9 Mã số: 8480201
10 Người hướng dẫn khoa học: PGS.TS Nguyễn Việt Anh, giảng viên Trường Đại học Cơng nghệ, ĐHQGHN
11 Tĩm tắt các kết quả của luận văn:
Luận văn đưa ra đề xuất cách xử lý dữ liệu và lựa chọn tính năng nhằm xây dựng bộ
dữ liệu tốt nhất và sử dụng các thuật tốn trong học máy như SVM, Gausian Nạve Bayes, Logistic Regression, Decision Trees đưa ra mơ hình chẩn đốn tốt nhất Qua thử nghiệm cho thấy thuật tốn học máy SVM cĩ độ chính xác tốt nhất bằng 77,33% với tồn bộ thuộc tính Và đạt độ chính xác 78,78% với 4 thuộc tính được lựa chọn là Nồng độ glucose huyết tương(F2); BMI(F6); chức năng phả hệ tiểu đường(F7) và độ tuổi(F8)
12 Khả năng ứng dụng trong thực tiễn:
Ứng dụng trong chẩn đốn sớm bệnh tim, ung thư…
Ứng dụng các thuật tốn học máy trong việc chẩn đốn bệnh dựa trên kết quả chụp X-Quang
13 Những hướng nghiên cứu tiếp theo:
Phương hướng 1: Đề xuất cải thiện bài tốn chẩn đốn bệnh bằng cách thêm vào các thuộc tính khác tốt hơn cho việc chẩn đốn
Phương hướng 2: Ứng dụng bài tốn và áp dụng phương pháp học sâu, kết hợp Neural Networks để xây dựng nên hệ chẩn đốn các bệnh khác nữa
Trang 13xi
14 Các công trình đã công bố có liên quan đến luận văn:
Hà Nội, ngày 12 tháng 7 năm 2019 Học viên
(ký và ghi rõ họ tên)
Trang 14Sự phát triển khoa học công nghệ trong y học đã tạo ra bước ngoặt quan trọng trong việc chẩn đoán, điều trị và dự phòng bệnh tật Ngày nay, các kỹ thuật điều trị ít xâm lấn, cùng với các thiết bị hỗ trợ công nghệ cao Các phương pháp hiện đại có khả năng phát hiện sớm bệnh tật đã thay thế hiệu quả các phương pháp truyền thống Từ
đó nhiều ca bệnh hiểm nghèo đã được cứu chữa thành công rút ngắn thời gian điều trị, giảm chi phí và đau đớn cho người bệnh đồng thời phát hiện và can thiệp điều trị giai đoạn sớm [3]
Hiện nay trong lĩnh vực y học xuất hiện rất nhiều những căn bệnh rất khó chẩn đoán
vì thế mà nghiên cứu học máy ứng dụng vào chẩn đoán trong y học là rất cần thiết giúp cho người bệnh cũng như các y, bác sĩ rất nhiều trong quá trình khám, chữa
bệnh Vì vậy, tôi chọn “Nghiên cứu một số kỹ thuật học máy và ứng dụng trong chẩn đoán bệnh” làm đề tài nghiên cứu Cụ thể, luận văn sẽ tập chung khai thác các
kỹ thuật học máy để áp dụng vào bài toán chẩn đoán bệnh tiểu đường Trước tiên luận văn sẽ đưa ra cơ sở lý thuyết và một số bài toán điển hình trong học máy Sau
đó sẽ đề xuất quy trình phương pháp thực hiện của bài toán
Phần tiếp theo sẽ trình bày về tính cấp thiết, mục tiêu và khái quát về những đóng góp của luận văn trong việc giải quyết bài toán này
Trang 152
2 Tính cấp thiết của luận văn
Theo thống kê của Liên đoàn Đái tháo đường Thế giới (IDF) ước tính, năm 2017 toàn thế giới có 425 triệu người ở độ tuổi trưởng thành bị bệnh đái tháo đường (ĐTĐ), tương đương cứ 11 người có 1 người bị ĐTĐ, đến năm 2045 con số này sẽ là 629 triệu, tương đương cứ 10 người có 1 người bị ĐTĐ [4],[5]
Ước tính toàn cầu về bệnh đái tháo đường như sau: Năm 2017 tổng dân số 7,5 tỷ người thì tỷ lệ người trưởng thành hiện mắc là 8,8% và dự đoán đến năm 2045 với tổng số dân là 9,5 tỷ thì tỷ lệ mắc bệnh sẽ là 9,9%
Theo thống kê của IDF theo vùng thì Đông Nam Á với 82 triệu người trưởng thành
bị đái tháo đường cao thứ 2 trong các vùng Chính vì vậy việc nghiên cứu ứng dụng
kỹ thuật học máy trong bài toán chẩn đoán bệnh là rất cần thiết và quan trọng giúp phát hiện sớm bệnh để có hướng điều trị kịp thời, giảm nguy cơ tử vong cho người bệnh
3 Nghiên cứu trong nước và quốc tế
Một số nghiên cứu quốc tế:
Y tế, sức khỏe là lĩnh vực đặc biệt quan trọng trong cuộc sống của con người, bên cạnh những căn bệnh thường gặp còn xuất hiện những bệnh lạ rất khó xác định, dự đoán Với sự phát triển của trí tuệ nhân tạo rất nhiều các nghiên cứu trên thế giới cho
ra ứng dụng hỗ trợ các y, bác sỹ có thể chẩn đoán nhanh và điều trị bệnh tốt hơn như
Dr A.I của HealthTap, hệ thống chẩn đoán y tế Caduceus của Harry Pope [6], ứng dụng quản lý sức khỏe bệnh tiểu đường Diabetes Manager của WellDoc [7] và Compete quản lý bệnh nhân tăng huyết áp, tiểu đường, bệnh mãn tính …
Với bài toán ứng dụng kỹ thuật học máy vào chẩn đoán bệnh cũng có một số nghiên cứu được công bố [8],[9],[10] có giá trị như nghiên cứu của nhóm Francesco
Trang 163
Mercaldoa[9] đã xây dựng được mô hình chẩn đoán với độ chính xác 75,7% và sau
đó tăng độ chính xác của mô hình lên 76,2% với cách chọn tính năng tốt nhất
Một số nghiên cứu trong nước:
Ở Việt Nam cùng với sự phát triển của công nghệ, hiện tại ứng dụng công nghệ thông tin vào lĩnh vực y tế rất được quan tâm và ưu tiên Hiện nay nhà nước đang triển khai rất nhiều dự án xây dựng kho dữ liệu bệnh án điện tử đó là một lợi thế trong lĩnh vực học máy Dù vậy mới chỉ có những ứng dụng thuật toán học máy vào chẩn đoán bệnh trên động vật và thực vật [11], còn chẩn đoán bệnh trên người vẫn còn rất hạn chế
4 Mục tiêu nghiên cứu của luận văn
Luận văn nghiên cứu 2 mục tiêu cụ thể sau:
Mục tiêu 1: Mô tả dữ liệu bài toán bệnh tiểu đường và đề xuất phương pháp lựa chọn
thuộc tính đặc trưng cho dữ liệu
Mục tiêu 2: Mô tả phương pháp thực hiện bài toán và đánh giá độ chính xác của mô
hình trong bài toán chẩn đoán bệnh
Các mục tiêu trên cũng mô tả phạm vi và đối tượng nghiên cứu của luận văn Đó là
sử dụng các kỹ thuật học máy để nghiên cứu và đề xuất phương pháp lựa chọn thuộc tính đặc trưng trên bộ dữ liệu chẩn đoán bệnh tiểu đường Bên cạnh đó cũng đưa ra
mô hình tốt nhất áp dụng cho chẩn đoán bệnh tiểu đường với bộ dữ liệu sử dụng trong luận văn
5 Những đóng góp của luận văn
Thực hiện mục tiêu nghiên cứu đã nêu ở trên, ngoài việc tổng hợp và phân tích các kiến thức cơ bản về kỹ thuật học máy, luận văn còn đưa ra các đóng góp chính sau đây:
Đề xuất quy trình xử lý dữ liệu cho bài toán chẩn đoán bệnh tiểu đường
Trang 174
Đưa ra đánh giá độ chính xác của mô hình với bộ dữ liệu thực tế và đánh giá kết quả
6 Ý nghĩa của luận văn
Việc chẩn đoán và phát hiện bệnh đòi hỏi các y bác sĩ có trình độ chuyên môn cao,
đi theo một quy trình lâm sang chẩn đoán và điều trị bệnh[12] Vì vậy vai trò của bác
sĩ chuyên khoa là vô cùng quan trọng trong quá trình xây dựng máy học chẩn đoán Ứng dụng trí tuệ nhân tạo vào chẩn đoán bệnh có vai trò nhằm hỗ trợ các bác sĩ chẩn đoán nhanh hơn, chính xác hơn tình trạng của bệnh nhân để có hướng điều trị kịp thời, hiệu quả ít tốn kém cho người bệnh mà vẫn đạt được hiệu quả cao trong điều trị
7 Bố cục của luận văn
Ngoài phần mở đầu, phần kết luận, phần danh mục tài liệu tham khảo, nội dung nghiên cứu của luận văn được cấu trúc thành 4 chương:
Chương 1 Cơ sở lý thuyết
Ở chương này tìm hiểu lý thuyết về Machine Leaning cơ bản, tìm hiểu các kỹ thuật
và ứng dụng của học máy trong thời đại ngày nay và đặc biệt là ứng dụng trong y học
Chương 2 Một số thuật toán phân loại dữ liệu trong học máy có giám sát
Chương này giới thiệu một số thuật toán phân loại dữ liệu điển hình được sử dụng trong học máy có giám sát để sử dụng trong bài toán chẩn đoán bệnh của luận văn
Trang 185
Chương 3 Bài toán ứng dụng kỹ thuật học máy vào chẩn đoán bệnh tiểu đường
Mô tả quy trình thực hiện bài toán chẩn đoán bệnh tiểu đường, thông qua quá trình
xử lý dữ liệu, lựa chon thuộc tính đặc trưng Từ đó đưa dữ liệu vào huấn luyện qua các thuật toán của học máy nhằm đề xuất mô hình tốt nhất cho bài toán
Chương 4 Kết quả và đánh giá
Luận văn thực hiện các thử nghiệm với các tham số khác nhau của mô hình nhằm chỉ ra ưu nhược điểm của mỗi mô hình Tổng hợp các kết quả về độ chính xác, thời gian thực thi của các mô hình và đưa ra lựa chọn mô hình tốt nhất cho bài toán Cuối cùng là phần kết luận của luận văn
Trang 196
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT
1.1 Học máy và ứng dụng
1.1.1 Giới thiệu về học máy
Machine Learning được hiểu đơn giản là hệ thống tự động học và cải thiện hiệu năng làm việc dựa vào dữ liệu và không cần lập trình tường minh[13]
Machine Learning còn được định nghĩa : là một lĩnh vực nghiên cứu của AI (Artificial Intelligence) đang được phát triển mạnh mẽ và có nhiều ứng dụng trong các lĩnh vực khác nhau[13],[14]
Theo Mitchel[13] còn được định nghĩa : Machine Learning là một chương trình máy tính được cho là học từ kinh nghiệm E đối với một số loại nhiệm vụ T và hiệu suất
đo P, nếu hiệu suất của nó tại các nhiệm vụ trong T, như được đo bởi P, cải thiện với kinh nghiệm E
1.1.2 Ứng dụng của học máy
Là một trong những đại diện của nền công nghiệp 4.0 Machine Learning được ứng dụng rất nhiều trong đời sống, công việc của chúng ta như xe tự lái, hệ thống nhận diện khuân mặt của Facebook, hệ thống gợi ý sản phẩm của Amazon…
Nhờ vào công nghệ điện toán, ngày nay Machine Learning không còn là máy tính
“học” những chuyện trong quá khứ nữa Machine Learning được sinh ra từ khả năng nhận diện pattern và từ lý thuyết các máy tính có thể “học” mà không cần phải lập trình để thực hiện các tasks cụ thể đó Về phía các nhà nghiên cứu quan tâm đến trí tuệ nhân tạo, họ lại muốn xem thử liệu máy tính có thể học dữ liệu như thế nào Yếu
tố lặp trong Machine Learning rất quan trọng vì khi các models tiếp xúc với dữ liệu mới, Machine Learning có thể thích ứng được 1 cách độc lập Machine Learning sẽ
“học” các computations trước để trả về các kết quả, các quyết định đáng tin cậy, lặp lại được
Trang 207
Cũng vì thế, ngày nay Machine Learning được ứng dụng rất nhiều trong các lĩnh vực đặc biệt ở các lĩnh vực sau:
Trợ lý ảo (Virtual Personal Assistants)
Xử lý ngôn ngữ tự nhiên (Natural Language Processing)
Hướng dẫn di chuyển (Predictions while Commuting)
Chăm sóc sức khỏe (Health Care)
Đánh giá rủi ro bệnh (Risk assessment)
Chẩn đoán bệnh
Mạng xã hội
Giới thiệu bạn bè (People You May Know)
Nhận dạng mặt người (Face Recognition)
An ninh (Personal Security, Data Security)
Lọc thư rác, thư độc (Email Spam and Malware Filtering)
Giám sát (Videos Surveillance, Sensors Surveillance)
Tìm kiếm (Search Engine Result Refining)
Marketing
Giới thiệu sản phẩm (Product Recommendations)
Tài chính
Phát hiện hành vi xấu (Online Fraud Detection)
Giao dịch tần suất cao (High Frequency Financial Trading)
Trang 218
1.2 Các bài toán học máy cơ bản [8]
Các bài toán học máy thường được phân thành 4 loại lớn đó là: Học có giám sát, trong đó hệ thống có chức năng từ dữ liệu đào tạo được dán nhãn; học không giám sát, ở đó hệ thống học cố gắng suy ra cấu trúc của dữ liệu không được gắn nhãn; học củng cố, trong đó hệ thống tương tác với môi trường năng động và cuối cùng là học tăng cường là phương pháp học tập với tập dữ liệu thường không được cho trước mà sinh ra trong quá trình tương tác với môi trường thông qua hành động nào đó
1.2.1 Học có giám sát (Supervised Learning)
Hình 1 1: Mô hình bài toán học có giám sát [15]
Trong học có giám sát hệ thống dữ liệu (input data) được gán nhãn Học có giám sát
là một quá trình học tập, so sánh kết quả dự đoán với kết quả thực tế của dữ liệu huấn luyện và liên tục điều chỉnh model dự đoán cho đến khi đạt được kết quả mong muốn Học có giám sát là nhóm phổ biến nhất trong các thuật toán học máy, nó bao gồm một số thuật toán phổ biến như Decision Tree, Bayesian Classification, Logistic Regression, SVM, Neural Networks, …
Một cách toán học, học có giám sát là khi chúng ra có một tập hợp biến đầu vào và một tập hợp nhãn tương ứng 𝑌 = {𝑦1, 𝑦2, … , 𝑦𝑛}, trong đó xi, yi là các vector Các cặp dữ liệu biết trước (𝑥𝑖, 𝑦𝑖) ∈ 𝑋 × 𝑌 được gọi là tập training data Từ tập dữ liệu
Trang 229
huấn luyện này, chúng ta cần tạo ra một hàm số ánh xạ mỗi phần tử từ tập X sang một phần tử tương ứng của tập Y:
𝑦𝑖 ≈ 𝑓(𝑥𝑖) 𝑣ớ𝑖 𝑚ọ𝑖 𝑖 = 1, 2, , 𝑛 Mục đích là tìm hàm số f thật tốt để khi có một dữ liệu x mới, chúng ta có thể tính được nhãn tương ứng của nó theo y=f(x) Điển hình của thuật toán Supervised Learning là Classification và Regression
Classification: Một bài toán được gọi là Classification khi các nhãn của dữ liệu đầu vào được chia thành một số hữu hạn nhóm
Hình 1 2 : Bài toán xác định email có phải spam hay không [16]
Regression: Một bài toán được gọi là Regression khi các nhãn của đầu ra là một giá trị thực
Trang 2310
Hình 1 3: Đường thẳng thể hiện quan hệ y = 4x + 3
1.2.2 Học không giám sát (Unsupervised Learning)
Hình 1 4: Mô hình học không giám sát [15]
Ở phương thức học này, máy được học từ dữ liệu kiểm tra chưa được dán nhãn, phân loại Thay vì trả lời phản hồi, việc học tập không giám sát xác định điểm tương đồng trong dữ liệu và phản ứng dựa trên sự hiện diện hoặc vắng mặt của những điểm tương đồng như vậy trong mỗi phần dữ liệu mới Các lựa chọn thay thế bao gồm học có giám sát và học tăng cường
Trang 2411
Trong thuật toán này, chúng ta không biết được outcome hay lable mà chỉ có dữ liệu đầu vào Thuật toán học không giám sát sẽ dựa vào cấu trúc của dữ liệu để thực hiện một công việc nào đó, ví dụ như phân nhóm (clustering) hoặc giảm số chiều của dữ liệu (dimension reduction) để thuận tiện trong việc lưu trữ và tính toán
Một cách toán học, học không giám sát là khi chúng ta chỉ có dữ liệu vào mà không biết nhãn tương ứng
Những thuật toán loại này được gọi là Unsupervised learning vì không giống như Supervised learning, chúng ta không biết câu trả lời chính xác cho mỗi dữ liệu đầu vào Các bài toán Unsupervised Learning được tiếp tục chia nhỏ thành hai loại: Clustering: Một bài toán phân nhóm toàn bộ dữ liệu thành các nhóm nhỏ dựa trên sự liên quan giữa các dữ liệu trong mỗi nhóm
Ví dụ: Phân nhóm khách hàng dựa trên hành vi mua hàng Điều này cũng giống như việc ta đưa cho một đứa trẻ rất nhiều mảnh ghép với các hình thù và màu sắc khác nhau, ví dụ tam giác, vuông, tròn với màu xanh và đỏ, sau đó yêu cầu trẻ phân chúng thành từng nhóm Mặc dù không cho trẻ biết mảnh nào tương ứng với hình nào hoặc màu nào, nhiều khả năng chúng vẫn có thể phân loại các mảnh ghép theo màu hoặc hình dạng
Association: Là bài toán khi chúng ta muốn khám phá ra một quy luật dựa trên nhiều
dữ liệu cho trước
Ví dụ: Những khách hàng nam mua đồng hồ, điện thoại thường có xu hướng mua thêm quần áo, thắt lưng Dựa vào đó tạo ta tạo ra một hệ thống gợi ý khách hàng nhằm thúc đẩy nhu cầu mua sắm tăng thêm doanh số trong kinh doanh
Trang 251.2.4 Học tăng cường (Reinfocement Learning)
Hình 1 6: Mô hình học tăng cường [16]
Trang 2613
Học tăng cường là phương pháp học tập với tập dữ liệu thường không được cho trước
mà sinh ra trong quá trình tương tác với môi trường thông qua hành động nào đó Mục đích là tìm một chiến lược lựa chọn hành động để cực tiểu hóa chi phí dài hạn Học dựa trên mô hình (modle based): DP-Dynamic programming
Học không có mô hình (Modle free): MC-Monte Carlo, TD-Temporal Diffirence
1.3 Bệnh tiểu đường
1.3.1 Sơ lược về bệnh tiểu đường
“Bệnh đái tháo đường là bệnh rối loạn chuyển hóa không đồng nhất, có đặc điểm tăng glucose huyết do khiếm khuyết về tiết insulin, về tác động của insulin, hoặc cả hai Tăng glucose mạn tính trong thời gian dài gây nên những rối loạn chuyển hóa carbohydrate, protide, lipide, gây tổn thương ở nhiều cơ quan khác nhau, đặc biệt ở tim và mạch máu, thận, mắt, thần kinh.”[4]
1.3.2 Phân loại bệnh tiểu đường [4],[18]
Có nhiều cách phân loại bệnh tiểu đường, hiện nay WHO thống nhất phân loại bệnh tiểu đường như sau (1997): Bệnh tiểu đường typ 1, bệnh tiểu đường typ 2 và bệnh tiểu đường thai kỳ
1.3.3 Các tiêu chuẩn chẩn đoán bệnh
Các triệu chứng lâm sàng cổ điển của đái tháo đường: Uống nhiều, đái nhiều, sút cân, người yếu và mệt mỏi Tuy nhiên, đái tháo đường typ 2 thường tiến triển âm thầm không bộc lộ triệu chứng lâm sàng, thường được chẩn đoán tình cờ hoặc khi bệnh đã
có biến chứng [18],[19]
Trang 2714
Theo hiệp hội đái tháo đường Mỹ ta có bảng tiêu chuẩn, chẩn đoán phân loại đái tháo đường như sau:
Nồng độ glucose máu
Hoặc 2 giờ sau khi làm nghiệm pháp
dung nạp glucose
Rối loạn dung nạp glucose
Và 2 giờ sau khi làm nghiệm pháp dung
nạp glucose
≥ 7,8 và < 11,1 ≥ 140 và < 200
Rối loạn glucose máu đói
Glucose máu lúc đói ≥ 6,1 và < 7,0 ≥ 110 và < 126
Và 2 giờ sau khi làm nghiệm pháp dung
nạp glucose
< 7,8 < 140
Bảng 1 1 Tiêu chuẩn chẩn đoán phân loại đái tháo đường theo Hiệp hội Đái tháo đường
Mỹ (ADA) 2012
Trang 2815
CHƯƠNG 2 MỘT SỐ THUẬT TOÁN PHÂN LOẠI DỮ LIỆU TRONG HỌC
MÁY CÓ GIÁM SÁT
2.1 Thuật toán Gaussian Naive Bayes
Naive Bayes là thuật toán phân loại dựa trên định lý Bayes Định lý Bayes thường được dùng trong lý thuyết xác suất, cho phép tính xác xuất xảy ra sự kiện A khi biết
sự kiện liên qua B đã xảy ra Xác suất này được ký hiệu là P(A|B), và đọc là xác suất của A nếu có B Xác suất này có công thức như sau:
𝑃(𝐴|𝐵) =𝑃(𝐵|𝐴) × 𝑃(𝐴)
𝑃(𝐵) (2.1) Trong thực tế xác suất A có thể phụ thuộc vào xác suất của nhiều các sự kiện khác
có thể là B1, B2, B3 … Bn Vậy định luật Bayes có thể được mở rộng bằng công thức sau:
𝑃(𝐴|𝐵𝑛) =(𝑃(𝐵1|𝐴) × 𝑃(𝐵2|𝐴) × 𝑃(𝐵3|𝐴) × … × 𝑃(𝐵𝑛|𝐴)) × 𝑃(𝐴)
𝑃(𝐵1) × 𝑃(𝐵2) × 𝑃(𝐵3) × … × 𝑃(𝐵𝑛) (2.2)
P(A) là xác suất xảy ra của riêng A, không liên quan đến B
P(B) là xác suất xảy ra của riêng B P(B) còn được gọi là normalizing_constant vì nó
là hằng số không bị ảnh hưởng bởi A
P(B|A) là xác suất xảy ra B khi biết A đã xảy ra, còn được gọi là xác suất của B nếu
có A
2.2 Thuật toán SVM
Máy học véctơ hỗ trợ (SVM) là một giải thuật máy học dựa trên lý thuyết học thống
kê do Vapnik và Chervonenkis xây dựng[20] Bài toán cơ bản của SVM là bài toán phân loại hai lớp: Cho trước n điểm trong không gian d chiều (mỗi điểm thuộc vào một lớp kí hiệu là +1 hoặc –1, mục đích của giải thuật SVM là tìm một siêu phẳng
Trang 2916
(hyperplane) phân hoạch tối ưu cho phép chia các điểm này thành hai phần sao cho các điểm cùng một lớp nằm về một phía với siêu phẳng này
Hình 2 1: H 2 là siêu phẳng cho bài toán svm
Xét tập dữ liệu mẫu có thể tách rời tuyến tính {(x1,y1),(x2,y2), ,(xn,yn)}với 𝑥𝑖 ∈
𝑅𝑑 và 𝑦𝑖 ∈ {±1} Siêu phẳng tối ưu phân tập dữ liệu này thành hai lớp là siêu phẳng
có thể tách rời dữ liệu thành hai lớp riêng biệt với lề (margin) lớn nhất Tức là, cần tìm siêu phẳng H2: y = w.x + b = 0 và hai siêu phẳng H1, H3 hỗ trợ song song với H2
và có cùng khoảng cách đến H2 Với điều kiện không có phần tử nào của tập mẫu nằm giữa H1 và H3, khi đó:
w.x + b >= +1 với y = +1 (2.3) w.x + b >= -1 với y = -1 (2.4) Kết hợp hai điều kiện trên ta có y (w.x + b) >= 1 (2.5)
Khoảng cách của siêu phẳng H1 và H3 đến H2 là ||w|| Ta cần tìm siêu phẳng H2 với
lề lớn nhất, tức là giải bài toán tối ưu tìm min
𝑤,𝑏 ||𝑤|| với ràng buộc y(w.x + b) >= 1 Người ta có thể chuyển bài toán sang bài toán tương đương nhưng dễ giải hơn là