Nghiên Cứu Một Số Kỹ Thuật Học Máy Và Ứng Dụng Trong Việc Chuẩn Đoán Bệnh.pdf

Nghiên Cứu Một Số Kỹ Thuật Học Máy Và Ứng Dụng Trong Việc Chuẩn Đoán Bệnh Nghiên Cứu Một Số Kỹ Thuật Học Máy Và Ứng Dụng Trong Việc Chuẩn Đoán Bệnh Nghiên Cứu Một Số Kỹ Thuật Học Máy Và Ứng Dụng Trong Việc Chuẩn Đoán Bệnh Nghiên Cứu Một Số Kỹ Thuật Học Máy Và Ứng Dụng Trong Việc Chuẩn Đoán Bệnh

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HÒA BÌNH

NGUYỄN ĐỨC THẮNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI, 2019

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HÒA BÌNH

HÀ NỘI, 2019

Trang 3

i

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn nghiên cứu một số kỹ thuật học máy và ứng dụng trong việc chẩn đoán bệnh là do tôi thực hiện dưới sự hướng dẫn của Phó Giáo sư Tiến sĩ Nguyễn Việt Anh

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận văn Trong luận văn, không

có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Hà Nội, ngày … tháng … năm 2019

Tác giả

Nguyễn Đức Thắng

Trang 4

ii

LỜI CẢM ƠN

Trong thời gian hoàn thành luận văn tôi đã nhận được rất nhiều sự động viên giúp đỡ

từ các thầy cô, đồng nghiệp, gia đình và bạn bè

Trước hết, tôi xin bày tỏ lòng kính trọng và biết ơn tới PGS.TS Nguyễn Việt Anh giảng viên Đại học Công nghệ, ĐHQGHN người thầy đã trực tiếp hướng đẫn và giúp

đỡ tôi hoàn thành luận văn này

Tiếp theo tôi cũng vô cùng cảm ơn các anh chị đồng nghiệp là những giảng viên, bác

sĩ chuyên khoa đang công tác tại Khoa Y Dược, ĐHQGHN đã giúp đỡ tôi rất nhiều trong việc tư vấn, cách thức thu thập dữ liệu và các kiến thức liên quan để hoàn thành luận văn

Tôi cũng vô cùng biết ơn đến tập thể thầy cô giáo Viện sau đại học – Trường Đại học Hòa Bình đã truyền thụ kiến thức quý báu, kinh nghiệm nghiên cứu khoa học và đã tạo rất nhiều điều kiện cho tôi trong quá trình học tập

Sau cùng, tôi xin chân thành cảm ơn người thân, bạn bè luôn bên cạnh động viên, hỗ trợ, nơi chia sẻ những thuận lợi cũng như khó khăn trong quá trình học tập và sẽ mãi

là chỗ dựa vững chắc giúp tôi không ngừng phấn đấu trong tương lai

Một lần nữa xin chân thành cảm ơn!

Trang 5

iii

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH SÁCH TỪ VIẾT TẮT vi

DANH SÁCH HÌNH VẼ vii

DANH SÁCH BẢNG BIỂU ix

THÔNG TIN LUẬN VĂN THẠC SĨ x

MỞ ĐẦU 1

1 Đặt vấn đề 1

2 Tính cấp thiết của luận văn 2

3 Nghiên cứu trong nước và quốc tế 2

4 Mục tiêu nghiên cứu của luận văn 3

5 Những đóng góp của luận văn 3

6 Ý nghĩa của luận văn 4

7 Bố cục của luận văn 4

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 6

1.1 Học máy và ứng dụng 6

1.1.1 Giới thiệu về học máy 6

1.1.2 Ứng dụng của học máy 6

1.2 Các bài toán học máy cơ bản [8] 8

1.2.1 Học có giám sát (Supervised Learning) 8

Trang 6

iv

1.2.2 Học không giám sát (Unsupervised Learning) 10

1.2.3 Học bán giám sát (Semi – Supervised Learning) 12

1.2.4 Học tăng cường (Reinfocement Learning) 12

1.3 Bệnh tiểu đường 13

1.3.1 Sơ lược về bệnh tiểu đường 13

1.3.2 Phân loại bệnh tiểu đường [4],[18] 13

1.3.3 Các tiêu chẩn chẩn đoán bệnh 13

CHƯƠNG 2 MỘT SỐ THUẬT TOÁN PHÂN LOẠI DỮ LIỆU TRONG HỌC MÁY CÓ GIÁM SÁT 15

2.1 Thuật toán Gaussian Naive Bayes 15

2.2 Thuật toán SVM 15

2.3 Thuật toán Logistic Regression 17

2.4 Thuật toán Tree Classification 18

CHƯƠNG 3 BÀI TOÁN ỨNG DỤNG KỸ THUẬT HỌC MÁY VÀO CHẨN ĐOÁN BỆNH TIỂU ĐƯỜNG 19

3.1 Quy trình thực hiện bài toán 19

3.1.1 Tiền xử lý dữ liệu 20

3.1.2 Lựa chọn tính năng [25] 29

3.1.3 Xây dựng mô hình [26] 30

3.2 Phương pháp đánh giá mô hình 31

3.2.1 Phương pháp k-fold cross validation 31

3.2.2 Phương pháp ma trận nhầm lẫn 31

3.3 Công cụ hỗ trợ, kỹ thuật 32

Trang 7

v

CHƯƠNG 4 KẾT QUẢ VÀ ĐÁNH GIÁ 33

4.1 Quá trình thử nghiệm 33

4.3 Kết quả thử nghiệm 33

4.4 Nhận xét đánh giá 42

KẾT LUẬN 43

TÀI LIỆU THAM KHẢO 44

Trang 8

vi

DANH SÁCH TỪ VIẾT TẮT

Diabetes Asociation)

Trang 9

vii

DANH SÁCH HÌNH VẼ

Hình 1 1: Mô hình bài toán học có giám sát [15] 8

Hình 1 2 : Bài toán xác định email có phải spam hay không [16] 9

Hình 1 3: Đường thẳng thể hiện quan hệ y = 4x + 3 10

Hình 1 4: Mô hình học không giám sát [15] 10

Hình 1 5: Mô hình học bán giám sát 12

Hình 1 6: Mô hình học tăng cường [16] 12

Hình 2 1: H2 là siêu phẳng cho bài toán svm 16

Hình 3 1: Quy trình thực hiện bài toán chẩn đoán bệnh 19

Hình 3 2: Quy trình thực hiện bài toán đề xuất 20

Hình 3 3: Bộ dữ liệu bài toán bệnh tiểu đường 21

Hình 3 4: Mô tả quá trình xử lý dữ liệu 22

Hình 3 5: Thống kê dữ liệu thu thập được 23

Hình 3 6: Trực quan hóa dữ liệu F1, F2, F3, F4 ban đầu 24

Hình 3 7: Trực quan hóa dữ liệu F5, F6, F7, F8 ban đầu 25

Hình 3 8: Trực quan hóa dữ liệu F1, F2, F3, F4 sau xử lý 26

Hình 3 9: Trực quan hóa dữ liệu F5, F6, F7, F8 sau xử lý 26

Hình 3 10: Trực quan hóa dữ liệu trước và sau xử lý 27

Hình 3 11: Trực quan hóa dữ liệu F3 trước và sau xử lý 27

Trang 10

viii

Hình 3 14: Trực quan hóa dữ liệu F6 trước và sau xử lý 29Hình 3 15: Ma trận tương quan giữa các đặc tính dữ liệu 30Hình 4 1: Tổng hợp kết quả thử nghiệm 1 36Hình 4 2: So sánh độ chính xác trung bình và thời gian thực thi trung bình giữa các

mô hình học máy với đầy đủ thuộc tính 37Hình 4 3: Tổng hợp kết quả thử nghiệm 2 41Hình 4 4: So sánh độ chính xác trung bình và thời gian thực thi trung bình giữa các

mô hình học máy với 4 thuộc tính đặc trưng 41

Trang 11

ix

DANH SÁCH BẢNG BIỂU

Bảng 3 1: Bảng thuộc tính của bộ dữ liệu tiểu đường 22

Bảng 4 1: Chạy thử nghiệm với đầy đủ thuộc tính lần 1 33

Bảng 4 7: Chạy thử nghiệm với 4 thuộc tính đặc trưng lần 1 38

Trang 12

x

THƠNG TIN LUẬN VĂN THẠC SĨ

1 Họ và tên học viên: Nguyễn Đức Thắng 2 Giới tính: Nam

3 Ngày, tháng, năm sinh: 10/05/1988

4 Nơi sinh: Đơng Tân – Đơng Hưng – Thái Bình

5 Quyết định cơng nhận học viên số: 981/QĐ-ĐHHB ngày 27 tháng 12 năm 2017 của Hiệu trưởng Trường Đại học Hịa Bình

6 Các thay đổi trong quá trình đào tạo: Khơng cĩ thay đổi gì trong quá trình học tập

7 Tên đề tài luận văn: Nghiên cứu một số kỹ thuật học máy và ứng dụng trong việc chẩn đốn bệnh

8 Chuyên ngành: Cơng nghệ thơng tin 9 Mã số: 8480201

10 Người hướng dẫn khoa học: PGS.TS Nguyễn Việt Anh, giảng viên Trường Đại học Cơng nghệ, ĐHQGHN

11 Tĩm tắt các kết quả của luận văn:

Luận văn đưa ra đề xuất cách xử lý dữ liệu và lựa chọn tính năng nhằm xây dựng bộ

dữ liệu tốt nhất và sử dụng các thuật tốn trong học máy như SVM, Gausian Nạve Bayes, Logistic Regression, Decision Trees đưa ra mơ hình chẩn đốn tốt nhất Qua thử nghiệm cho thấy thuật tốn học máy SVM cĩ độ chính xác tốt nhất bằng 77,33% với tồn bộ thuộc tính Và đạt độ chính xác 78,78% với 4 thuộc tính được lựa chọn là Nồng độ glucose huyết tương(F2); BMI(F6); chức năng phả hệ tiểu đường(F7) và độ tuổi(F8)

12 Khả năng ứng dụng trong thực tiễn:

Ứng dụng trong chẩn đốn sớm bệnh tim, ung thư…

Ứng dụng các thuật tốn học máy trong việc chẩn đốn bệnh dựa trên kết quả chụp X-Quang

13 Những hướng nghiên cứu tiếp theo:

Phương hướng 1: Đề xuất cải thiện bài tốn chẩn đốn bệnh bằng cách thêm vào các thuộc tính khác tốt hơn cho việc chẩn đốn

Phương hướng 2: Ứng dụng bài tốn và áp dụng phương pháp học sâu, kết hợp Neural Networks để xây dựng nên hệ chẩn đốn các bệnh khác nữa

Trang 13

xi

14 Các công trình đã công bố có liên quan đến luận văn:

Hà Nội, ngày 12 tháng 7 năm 2019 Học viên

(ký và ghi rõ họ tên)

Trang 14

Sự phát triển khoa học công nghệ trong y học đã tạo ra bước ngoặt quan trọng trong việc chẩn đoán, điều trị và dự phòng bệnh tật Ngày nay, các kỹ thuật điều trị ít xâm lấn, cùng với các thiết bị hỗ trợ công nghệ cao Các phương pháp hiện đại có khả năng phát hiện sớm bệnh tật đã thay thế hiệu quả các phương pháp truyền thống Từ

đó nhiều ca bệnh hiểm nghèo đã được cứu chữa thành công rút ngắn thời gian điều trị, giảm chi phí và đau đớn cho người bệnh đồng thời phát hiện và can thiệp điều trị giai đoạn sớm [3]

Hiện nay trong lĩnh vực y học xuất hiện rất nhiều những căn bệnh rất khó chẩn đoán

vì thế mà nghiên cứu học máy ứng dụng vào chẩn đoán trong y học là rất cần thiết giúp cho người bệnh cũng như các y, bác sĩ rất nhiều trong quá trình khám, chữa

bệnh Vì vậy, tôi chọn “Nghiên cứu một số kỹ thuật học máy và ứng dụng trong chẩn đoán bệnh” làm đề tài nghiên cứu Cụ thể, luận văn sẽ tập chung khai thác các

kỹ thuật học máy để áp dụng vào bài toán chẩn đoán bệnh tiểu đường Trước tiên luận văn sẽ đưa ra cơ sở lý thuyết và một số bài toán điển hình trong học máy Sau

đó sẽ đề xuất quy trình phương pháp thực hiện của bài toán

Phần tiếp theo sẽ trình bày về tính cấp thiết, mục tiêu và khái quát về những đóng góp của luận văn trong việc giải quyết bài toán này

Trang 15

2

2 Tính cấp thiết của luận văn

Theo thống kê của Liên đoàn Đái tháo đường Thế giới (IDF) ước tính, năm 2017 toàn thế giới có 425 triệu người ở độ tuổi trưởng thành bị bệnh đái tháo đường (ĐTĐ), tương đương cứ 11 người có 1 người bị ĐTĐ, đến năm 2045 con số này sẽ là 629 triệu, tương đương cứ 10 người có 1 người bị ĐTĐ [4],[5]

Ước tính toàn cầu về bệnh đái tháo đường như sau: Năm 2017 tổng dân số 7,5 tỷ người thì tỷ lệ người trưởng thành hiện mắc là 8,8% và dự đoán đến năm 2045 với tổng số dân là 9,5 tỷ thì tỷ lệ mắc bệnh sẽ là 9,9%

Theo thống kê của IDF theo vùng thì Đông Nam Á với 82 triệu người trưởng thành

bị đái tháo đường cao thứ 2 trong các vùng Chính vì vậy việc nghiên cứu ứng dụng

kỹ thuật học máy trong bài toán chẩn đoán bệnh là rất cần thiết và quan trọng giúp phát hiện sớm bệnh để có hướng điều trị kịp thời, giảm nguy cơ tử vong cho người bệnh

3 Nghiên cứu trong nước và quốc tế

Một số nghiên cứu quốc tế:

Y tế, sức khỏe là lĩnh vực đặc biệt quan trọng trong cuộc sống của con người, bên cạnh những căn bệnh thường gặp còn xuất hiện những bệnh lạ rất khó xác định, dự đoán Với sự phát triển của trí tuệ nhân tạo rất nhiều các nghiên cứu trên thế giới cho

ra ứng dụng hỗ trợ các y, bác sỹ có thể chẩn đoán nhanh và điều trị bệnh tốt hơn như

Dr A.I của HealthTap, hệ thống chẩn đoán y tế Caduceus của Harry Pope [6], ứng dụng quản lý sức khỏe bệnh tiểu đường Diabetes Manager của WellDoc [7] và Compete quản lý bệnh nhân tăng huyết áp, tiểu đường, bệnh mãn tính …

Với bài toán ứng dụng kỹ thuật học máy vào chẩn đoán bệnh cũng có một số nghiên cứu được công bố [8],[9],[10] có giá trị như nghiên cứu của nhóm Francesco

Trang 16

3

Mercaldoa[9] đã xây dựng được mô hình chẩn đoán với độ chính xác 75,7% và sau

đó tăng độ chính xác của mô hình lên 76,2% với cách chọn tính năng tốt nhất

Một số nghiên cứu trong nước:

Ở Việt Nam cùng với sự phát triển của công nghệ, hiện tại ứng dụng công nghệ thông tin vào lĩnh vực y tế rất được quan tâm và ưu tiên Hiện nay nhà nước đang triển khai rất nhiều dự án xây dựng kho dữ liệu bệnh án điện tử đó là một lợi thế trong lĩnh vực học máy Dù vậy mới chỉ có những ứng dụng thuật toán học máy vào chẩn đoán bệnh trên động vật và thực vật [11], còn chẩn đoán bệnh trên người vẫn còn rất hạn chế

4 Mục tiêu nghiên cứu của luận văn

Luận văn nghiên cứu 2 mục tiêu cụ thể sau:

Mục tiêu 1: Mô tả dữ liệu bài toán bệnh tiểu đường và đề xuất phương pháp lựa chọn

thuộc tính đặc trưng cho dữ liệu

Mục tiêu 2: Mô tả phương pháp thực hiện bài toán và đánh giá độ chính xác của mô

hình trong bài toán chẩn đoán bệnh

Các mục tiêu trên cũng mô tả phạm vi và đối tượng nghiên cứu của luận văn Đó là

sử dụng các kỹ thuật học máy để nghiên cứu và đề xuất phương pháp lựa chọn thuộc tính đặc trưng trên bộ dữ liệu chẩn đoán bệnh tiểu đường Bên cạnh đó cũng đưa ra

mô hình tốt nhất áp dụng cho chẩn đoán bệnh tiểu đường với bộ dữ liệu sử dụng trong luận văn

5 Những đóng góp của luận văn

Thực hiện mục tiêu nghiên cứu đã nêu ở trên, ngoài việc tổng hợp và phân tích các kiến thức cơ bản về kỹ thuật học máy, luận văn còn đưa ra các đóng góp chính sau đây:

Đề xuất quy trình xử lý dữ liệu cho bài toán chẩn đoán bệnh tiểu đường

Trang 17

4

Đưa ra đánh giá độ chính xác của mô hình với bộ dữ liệu thực tế và đánh giá kết quả

6 Ý nghĩa của luận văn

Việc chẩn đoán và phát hiện bệnh đòi hỏi các y bác sĩ có trình độ chuyên môn cao,

đi theo một quy trình lâm sang chẩn đoán và điều trị bệnh[12] Vì vậy vai trò của bác

sĩ chuyên khoa là vô cùng quan trọng trong quá trình xây dựng máy học chẩn đoán Ứng dụng trí tuệ nhân tạo vào chẩn đoán bệnh có vai trò nhằm hỗ trợ các bác sĩ chẩn đoán nhanh hơn, chính xác hơn tình trạng của bệnh nhân để có hướng điều trị kịp thời, hiệu quả ít tốn kém cho người bệnh mà vẫn đạt được hiệu quả cao trong điều trị

7 Bố cục của luận văn

Ngoài phần mở đầu, phần kết luận, phần danh mục tài liệu tham khảo, nội dung nghiên cứu của luận văn được cấu trúc thành 4 chương:

Chương 1 Cơ sở lý thuyết

Ở chương này tìm hiểu lý thuyết về Machine Leaning cơ bản, tìm hiểu các kỹ thuật

và ứng dụng của học máy trong thời đại ngày nay và đặc biệt là ứng dụng trong y học

Chương 2 Một số thuật toán phân loại dữ liệu trong học máy có giám sát

Chương này giới thiệu một số thuật toán phân loại dữ liệu điển hình được sử dụng trong học máy có giám sát để sử dụng trong bài toán chẩn đoán bệnh của luận văn

Trang 18

5

Chương 3 Bài toán ứng dụng kỹ thuật học máy vào chẩn đoán bệnh tiểu đường

Mô tả quy trình thực hiện bài toán chẩn đoán bệnh tiểu đường, thông qua quá trình

xử lý dữ liệu, lựa chon thuộc tính đặc trưng Từ đó đưa dữ liệu vào huấn luyện qua các thuật toán của học máy nhằm đề xuất mô hình tốt nhất cho bài toán

Chương 4 Kết quả và đánh giá

Luận văn thực hiện các thử nghiệm với các tham số khác nhau của mô hình nhằm chỉ ra ưu nhược điểm của mỗi mô hình Tổng hợp các kết quả về độ chính xác, thời gian thực thi của các mô hình và đưa ra lựa chọn mô hình tốt nhất cho bài toán Cuối cùng là phần kết luận của luận văn

Trang 19

6

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT

1.1 Học máy và ứng dụng

1.1.1 Giới thiệu về học máy

Machine Learning được hiểu đơn giản là hệ thống tự động học và cải thiện hiệu năng làm việc dựa vào dữ liệu và không cần lập trình tường minh[13]

Machine Learning còn được định nghĩa : là một lĩnh vực nghiên cứu của AI (Artificial Intelligence) đang được phát triển mạnh mẽ và có nhiều ứng dụng trong các lĩnh vực khác nhau[13],[14]

Theo Mitchel[13] còn được định nghĩa : Machine Learning là một chương trình máy tính được cho là học từ kinh nghiệm E đối với một số loại nhiệm vụ T và hiệu suất

đo P, nếu hiệu suất của nó tại các nhiệm vụ trong T, như được đo bởi P, cải thiện với kinh nghiệm E

1.1.2 Ứng dụng của học máy

Là một trong những đại diện của nền công nghiệp 4.0 Machine Learning được ứng dụng rất nhiều trong đời sống, công việc của chúng ta như xe tự lái, hệ thống nhận diện khuân mặt của Facebook, hệ thống gợi ý sản phẩm của Amazon…

Nhờ vào công nghệ điện toán, ngày nay Machine Learning không còn là máy tính

“học” những chuyện trong quá khứ nữa Machine Learning được sinh ra từ khả năng nhận diện pattern và từ lý thuyết các máy tính có thể “học” mà không cần phải lập trình để thực hiện các tasks cụ thể đó Về phía các nhà nghiên cứu quan tâm đến trí tuệ nhân tạo, họ lại muốn xem thử liệu máy tính có thể học dữ liệu như thế nào Yếu

tố lặp trong Machine Learning rất quan trọng vì khi các models tiếp xúc với dữ liệu mới, Machine Learning có thể thích ứng được 1 cách độc lập Machine Learning sẽ

“học” các computations trước để trả về các kết quả, các quyết định đáng tin cậy, lặp lại được

Trang 20

7

Cũng vì thế, ngày nay Machine Learning được ứng dụng rất nhiều trong các lĩnh vực đặc biệt ở các lĩnh vực sau:

Trợ lý ảo (Virtual Personal Assistants)

Xử lý ngôn ngữ tự nhiên (Natural Language Processing)

Hướng dẫn di chuyển (Predictions while Commuting)

Chăm sóc sức khỏe (Health Care)

Đánh giá rủi ro bệnh (Risk assessment)

Chẩn đoán bệnh

Mạng xã hội

Giới thiệu bạn bè (People You May Know)

Nhận dạng mặt người (Face Recognition)

An ninh (Personal Security, Data Security)

Lọc thư rác, thư độc (Email Spam and Malware Filtering)

Giám sát (Videos Surveillance, Sensors Surveillance)

Tìm kiếm (Search Engine Result Refining)

Marketing

Giới thiệu sản phẩm (Product Recommendations)

Tài chính

Phát hiện hành vi xấu (Online Fraud Detection)

Giao dịch tần suất cao (High Frequency Financial Trading)

Trang 21

8

1.2 Các bài toán học máy cơ bản [8]

Các bài toán học máy thường được phân thành 4 loại lớn đó là: Học có giám sát, trong đó hệ thống có chức năng từ dữ liệu đào tạo được dán nhãn; học không giám sát, ở đó hệ thống học cố gắng suy ra cấu trúc của dữ liệu không được gắn nhãn; học củng cố, trong đó hệ thống tương tác với môi trường năng động và cuối cùng là học tăng cường là phương pháp học tập với tập dữ liệu thường không được cho trước mà sinh ra trong quá trình tương tác với môi trường thông qua hành động nào đó

1.2.1 Học có giám sát (Supervised Learning)

Hình 1 1: Mô hình bài toán học có giám sát [15]

Trong học có giám sát hệ thống dữ liệu (input data) được gán nhãn Học có giám sát

là một quá trình học tập, so sánh kết quả dự đoán với kết quả thực tế của dữ liệu huấn luyện và liên tục điều chỉnh model dự đoán cho đến khi đạt được kết quả mong muốn Học có giám sát là nhóm phổ biến nhất trong các thuật toán học máy, nó bao gồm một số thuật toán phổ biến như Decision Tree, Bayesian Classification, Logistic Regression, SVM, Neural Networks, …

Một cách toán học, học có giám sát là khi chúng ra có một tập hợp biến đầu vào và một tập hợp nhãn tương ứng 𝑌 = {𝑦1, 𝑦2, … , 𝑦𝑛}, trong đó xi, yi là các vector Các cặp dữ liệu biết trước (𝑥𝑖, 𝑦𝑖) ∈ 𝑋 × 𝑌 được gọi là tập training data Từ tập dữ liệu

Trang 22

9

huấn luyện này, chúng ta cần tạo ra một hàm số ánh xạ mỗi phần tử từ tập X sang một phần tử tương ứng của tập Y:

𝑦𝑖 ≈ 𝑓(𝑥𝑖) 𝑣ớ𝑖 𝑚ọ𝑖 𝑖 = 1, 2, , 𝑛 Mục đích là tìm hàm số f thật tốt để khi có một dữ liệu x mới, chúng ta có thể tính được nhãn tương ứng của nó theo y=f(x) Điển hình của thuật toán Supervised Learning là Classification và Regression

Classification: Một bài toán được gọi là Classification khi các nhãn của dữ liệu đầu vào được chia thành một số hữu hạn nhóm

Hình 1 2 : Bài toán xác định email có phải spam hay không [16]

Regression: Một bài toán được gọi là Regression khi các nhãn của đầu ra là một giá trị thực

Trang 23

10

Hình 1 3: Đường thẳng thể hiện quan hệ y = 4x + 3

1.2.2 Học không giám sát (Unsupervised Learning)

Hình 1 4: Mô hình học không giám sát [15]

Ở phương thức học này, máy được học từ dữ liệu kiểm tra chưa được dán nhãn, phân loại Thay vì trả lời phản hồi, việc học tập không giám sát xác định điểm tương đồng trong dữ liệu và phản ứng dựa trên sự hiện diện hoặc vắng mặt của những điểm tương đồng như vậy trong mỗi phần dữ liệu mới Các lựa chọn thay thế bao gồm học có giám sát và học tăng cường

Trang 24

11

Trong thuật toán này, chúng ta không biết được outcome hay lable mà chỉ có dữ liệu đầu vào Thuật toán học không giám sát sẽ dựa vào cấu trúc của dữ liệu để thực hiện một công việc nào đó, ví dụ như phân nhóm (clustering) hoặc giảm số chiều của dữ liệu (dimension reduction) để thuận tiện trong việc lưu trữ và tính toán

Một cách toán học, học không giám sát là khi chúng ta chỉ có dữ liệu vào mà không biết nhãn tương ứng

Những thuật toán loại này được gọi là Unsupervised learning vì không giống như Supervised learning, chúng ta không biết câu trả lời chính xác cho mỗi dữ liệu đầu vào Các bài toán Unsupervised Learning được tiếp tục chia nhỏ thành hai loại: Clustering: Một bài toán phân nhóm toàn bộ dữ liệu thành các nhóm nhỏ dựa trên sự liên quan giữa các dữ liệu trong mỗi nhóm

Ví dụ: Phân nhóm khách hàng dựa trên hành vi mua hàng Điều này cũng giống như việc ta đưa cho một đứa trẻ rất nhiều mảnh ghép với các hình thù và màu sắc khác nhau, ví dụ tam giác, vuông, tròn với màu xanh và đỏ, sau đó yêu cầu trẻ phân chúng thành từng nhóm Mặc dù không cho trẻ biết mảnh nào tương ứng với hình nào hoặc màu nào, nhiều khả năng chúng vẫn có thể phân loại các mảnh ghép theo màu hoặc hình dạng

Association: Là bài toán khi chúng ta muốn khám phá ra một quy luật dựa trên nhiều

dữ liệu cho trước

Ví dụ: Những khách hàng nam mua đồng hồ, điện thoại thường có xu hướng mua thêm quần áo, thắt lưng Dựa vào đó tạo ta tạo ra một hệ thống gợi ý khách hàng nhằm thúc đẩy nhu cầu mua sắm tăng thêm doanh số trong kinh doanh

Trang 25

1.2.4 Học tăng cường (Reinfocement Learning)

Hình 1 6: Mô hình học tăng cường [16]

Trang 26

13

Học tăng cường là phương pháp học tập với tập dữ liệu thường không được cho trước

mà sinh ra trong quá trình tương tác với môi trường thông qua hành động nào đó Mục đích là tìm một chiến lược lựa chọn hành động để cực tiểu hóa chi phí dài hạn Học dựa trên mô hình (modle based): DP-Dynamic programming

Học không có mô hình (Modle free): MC-Monte Carlo, TD-Temporal Diffirence

1.3 Bệnh tiểu đường

1.3.1 Sơ lược về bệnh tiểu đường

“Bệnh đái tháo đường là bệnh rối loạn chuyển hóa không đồng nhất, có đặc điểm tăng glucose huyết do khiếm khuyết về tiết insulin, về tác động của insulin, hoặc cả hai Tăng glucose mạn tính trong thời gian dài gây nên những rối loạn chuyển hóa carbohydrate, protide, lipide, gây tổn thương ở nhiều cơ quan khác nhau, đặc biệt ở tim và mạch máu, thận, mắt, thần kinh.”[4]

1.3.2 Phân loại bệnh tiểu đường [4],[18]

Có nhiều cách phân loại bệnh tiểu đường, hiện nay WHO thống nhất phân loại bệnh tiểu đường như sau (1997): Bệnh tiểu đường typ 1, bệnh tiểu đường typ 2 và bệnh tiểu đường thai kỳ

1.3.3 Các tiêu chuẩn chẩn đoán bệnh

Các triệu chứng lâm sàng cổ điển của đái tháo đường: Uống nhiều, đái nhiều, sút cân, người yếu và mệt mỏi Tuy nhiên, đái tháo đường typ 2 thường tiến triển âm thầm không bộc lộ triệu chứng lâm sàng, thường được chẩn đoán tình cờ hoặc khi bệnh đã

có biến chứng [18],[19]

Trang 27

14

Theo hiệp hội đái tháo đường Mỹ ta có bảng tiêu chuẩn, chẩn đoán phân loại đái tháo đường như sau:

Nồng độ glucose máu

Hoặc 2 giờ sau khi làm nghiệm pháp

dung nạp glucose

Rối loạn dung nạp glucose

Và 2 giờ sau khi làm nghiệm pháp dung

nạp glucose

≥ 7,8 và < 11,1 ≥ 140 và < 200

Rối loạn glucose máu đói

Glucose máu lúc đói ≥ 6,1 và < 7,0 ≥ 110 và < 126

Và 2 giờ sau khi làm nghiệm pháp dung

nạp glucose

< 7,8 < 140

Bảng 1 1 Tiêu chuẩn chẩn đoán phân loại đái tháo đường theo Hiệp hội Đái tháo đường

Mỹ (ADA) 2012

Trang 28

15

CHƯƠNG 2 MỘT SỐ THUẬT TOÁN PHÂN LOẠI DỮ LIỆU TRONG HỌC

MÁY CÓ GIÁM SÁT

2.1 Thuật toán Gaussian Naive Bayes

Naive Bayes là thuật toán phân loại dựa trên định lý Bayes Định lý Bayes thường được dùng trong lý thuyết xác suất, cho phép tính xác xuất xảy ra sự kiện A khi biết

sự kiện liên qua B đã xảy ra Xác suất này được ký hiệu là P(A|B), và đọc là xác suất của A nếu có B Xác suất này có công thức như sau:

𝑃(𝐴|𝐵) =𝑃(𝐵|𝐴) × 𝑃(𝐴)

𝑃(𝐵) (2.1) Trong thực tế xác suất A có thể phụ thuộc vào xác suất của nhiều các sự kiện khác

có thể là B1, B2, B3 … Bn Vậy định luật Bayes có thể được mở rộng bằng công thức sau:

𝑃(𝐴|𝐵𝑛) =(𝑃(𝐵1|𝐴) × 𝑃(𝐵2|𝐴) × 𝑃(𝐵3|𝐴) × … × 𝑃(𝐵𝑛|𝐴)) × 𝑃(𝐴)

𝑃(𝐵1) × 𝑃(𝐵2) × 𝑃(𝐵3) × … × 𝑃(𝐵𝑛) (2.2)

P(A) là xác suất xảy ra của riêng A, không liên quan đến B

P(B) là xác suất xảy ra của riêng B P(B) còn được gọi là normalizing_constant vì nó

là hằng số không bị ảnh hưởng bởi A

P(B|A) là xác suất xảy ra B khi biết A đã xảy ra, còn được gọi là xác suất của B nếu

có A

2.2 Thuật toán SVM

Máy học véctơ hỗ trợ (SVM) là một giải thuật máy học dựa trên lý thuyết học thống

kê do Vapnik và Chervonenkis xây dựng[20] Bài toán cơ bản của SVM là bài toán phân loại hai lớp: Cho trước n điểm trong không gian d chiều (mỗi điểm thuộc vào một lớp kí hiệu là +1 hoặc –1, mục đích của giải thuật SVM là tìm một siêu phẳng

Trang 29

16

(hyperplane) phân hoạch tối ưu cho phép chia các điểm này thành hai phần sao cho các điểm cùng một lớp nằm về một phía với siêu phẳng này

Hình 2 1: H 2 là siêu phẳng cho bài toán svm

Xét tập dữ liệu mẫu có thể tách rời tuyến tính {(x1,y1),(x2,y2), ,(xn,yn)}với 𝑥𝑖 ∈

𝑅𝑑 và 𝑦𝑖 ∈ {±1} Siêu phẳng tối ưu phân tập dữ liệu này thành hai lớp là siêu phẳng

có thể tách rời dữ liệu thành hai lớp riêng biệt với lề (margin) lớn nhất Tức là, cần tìm siêu phẳng H2: y = w.x + b = 0 và hai siêu phẳng H1, H3 hỗ trợ song song với H2

và có cùng khoảng cách đến H2 Với điều kiện không có phần tử nào của tập mẫu nằm giữa H1 và H3, khi đó:

w.x + b >= +1 với y = +1 (2.3) w.x + b >= -1 với y = -1 (2.4) Kết hợp hai điều kiện trên ta có y (w.x + b) >= 1 (2.5)

Khoảng cách của siêu phẳng H1 và H3 đến H2 là ||w|| Ta cần tìm siêu phẳng H2 với

lề lớn nhất, tức là giải bài toán tối ưu tìm min

𝑤,𝑏 ||𝑤|| với ràng buộc y(w.x + b) >= 1 Người ta có thể chuyển bài toán sang bài toán tương đương nhưng dễ giải hơn là

Tiêu đề	Nghiên Cứu Một Số Kỹ Thuật Học Máy Và Ứng Dụng Trong Việc Chẩn Đoán Bệnh
Tác giả	Nguyễn Đức Thắng
Người hướng dẫn	PGS.TS. Nguyễn Việt Anh
Trường học	Trường Đại Học Hòa Bình
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2019
Thành phố	Hà Nội

Định dạng
Số trang	59
Dung lượng	2,34 MB