Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
620,41 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - PHẠM XUÂN THU NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY VÀ ỨNG DỤNG TRONG PHÂN LOẠI BỆNH Chuyên ngành: HỆ THỐNG THƠNG TIN Mã số: 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - NĂM 2021 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS VŨ VĂN THỎA (Ghi rõ học hàm, học vị) Phản biện 1: ……………………………………………………………… Phản biện 2: ……………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Tính cấp thiết đề tài Cơng tác y tế chăm sóc sức khỏe nhân dân có vị trí to lớn quan trọng phát triển toàn xã hội Ngày nay, hệ thống chăm sóc sức khỏe phụ thuộc ngày nhiều vào xét nghiệm cận lâm sàng (bao gồm xét nghiệm, chẩn đốn hình ảnh thăm dị chức năng) Các xét nghiệm cận lâm sàng đóng vai trị thiết yếu y học đại Mục đích chung việc thực xét nghiệm cận lâm sàng nhằm giảm thiểu rủi ro lâm sàng Chúng đóng vai trị định bác sĩ lâm sàng, điều dưỡng nhân viên y tế tồn q trình điều trị, chăm sóc bệnh nhân Xuất phát từ thực tế mục tiêu vậy, học viên chọn thực đề tài luận văn tốt nghiệp chương trình đào tạo thạc sĩ có tên “Nghiên cứu số thuật toán học máy ứng dụng phân loại bệnh” Tổng quan vấn đề nghiên cứu Học máy có ứng dụng rộng khắp ngành khoa học công nghệ, đặc biệt ngành cần phân tích khối lượng liệu khổng lồ Qua nhận thấy tương đồng trình học máy trình phân lớp liệu Do đó, hầu hết kỹ thuật học máy sử dụng để xây dựng mơ hình phân lớp liệu Các phương pháp phân lớp liệu dựa kỹ thuật học máy bao gồm: - Phương pháp Cây định - Phương pháp Bayes (Suy luận Bayes, mạng bayes) - Phương pháp Máy vectơ hỗ trợ (SVM) - Phương pháp Mạng no-ron nhân tạo (Artificial Neural Network - ANN) Mục đích nghiên cứu Luận văn nhằm mục đích nghiên cứu số thuật toán học máy cho toán phân loại bệnh Trên sở tiến hành thực nghiệm ứng dụng số thuật toán học máy phân loại bệnh dựa xét nghiệm hóa nghiệm Đối tƣợng phạm vi nghiên cứu Đối tượng phạm vi nghiên cứu luận văn bao gồm: - Bài toán phân loại bệnh vấn đề liên quan; - Các thuật toán học máy để phân lớp liệu; - Một số công cụ, phần mềm để thử nghiệm đánh giá hiệu thuật toán học máy toán phân loại bệnh đưa Phƣơng pháp nghiên cứu - Phương pháp lý thuyết: Khảo sát, phân tích tài liệu khoa học liên quan đến thuật toán học máy toán phân loại bệnh - Phương pháp thực nghiệm: Sử dụng công cụ, phần mềm để thử nghiệm đánh giá hiệu phân loại bệnh thuật toán học máy liệu lựa chọn CHƯƠNG TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI BỆNH VÀ HỌC MÁY 1.1 Giới thiệu toán phân loại bệnh vấn đề liên quan 1.1.1 Khái niệm phân lớp liệu toán phân loại bệnh Phân lớp (classification) liệu [7] tiến trình xử lý nhằm xếp liệu vào lớp định nghĩa trước Các liệu xếp vào lớp dựa vào giá trị thuộc tính (attributes) chúng Sau xếp tất liệu biết trước vào lớp tương ứng, lớp đặc trưng tập thuộc tính liệu chứa lớp Sau đó, sử dụng chúng ᴠiệᴄ phân lớp cho liệu Như vậy, trình phân lớp đượᴄ tiến hành bao gồm giai đoạn: giai đoạn xâу dựng mơ hình phân lớp ᴠà giai đoạn sử dụng mơ hình phân lớp 1.1.2 Quy trình thực phân loại bệnh Đối với tốn phân lớp liệu nói chung thường thực theo giai đoạn: Giai đoạn học để xây dựng mơ hình phân lớp giai đoạn phân lớp để kiểm tra đánh giá mơ hình phân lớp [7] Đối với tốn phân loại bệnh thực theo bước sau Bƣớc 1: Thu thập liệu bệnh; Bƣớc 2: Tiền xử lý liệu; Bƣớc 3: Phân chia liệu thành tập liệu huấn luyện tập liệu kiểm chứng; Bƣớc 4: Xây dựng mơ hình phân lớp theo phương pháp lựa chọn phù hợp tập huấn luyện; Bƣớc 5: Sử dụng mơ hình phân lớp có để phân loại với tập liệu kiểm chứng đánh giá kết mơ hình Các độ đo Sensitivity, Specitivity, Accuracy, FP rate, FN rate thường sử dụng lĩnh vực y tế để giải thích lâm sàng kết xét nghiệm chẩn đốn để ước tính mức độ tốt phù hợp định xét nghiệm [8] Vì luận văn sử dụng độ đo Sensitivity (độ nhạy), Specitivity (độ đặc hiệu) Accuracy (độ xác) để đánh giá mơ hình phân lớp cho toán phân loại bệnh 1.1.3 Các ứng dụng toán phân loại bệnh Bài toán phân loại bệnh ứng dụng rộng rãi y học Gần việc ứng dụng toán phân loại bệnh y học ngày hồn thiện việc tìm mối liên hệ triệu chứng lâm sàng, cận lâm sàng, bệnh với để hỗ trợ chẩn đoán, điều trị tiên lượng bệnh Trong điều trị, toán phân loại bệnh dùng đưa dự đoán kết điều trị, phẫu thuật dựa kết điều trị trước tình trạng người bệnh Ngoài kết tốn phân loại bệnh hỗ trợ trình phát bệnh Do cớ thể ứng dụng cảnh báo dịch bệnh Điều đặc biệt có ý nghĩa giai đoạn phát sinh đại dịch 1.2 Tổng quan học máy 1.2.1 Khái niệm học máy phân loại kỹ thuật học máy a Khái niệm học máy Học máy lĩnh vực trí tuệ nhân tạo, định nghĩa rộng rãi khả cỗ máy bắt chước hành vi thông minh người Hệ thống trí tuệ nhân tạo sử dụng để thực nhiệm vụ phức tạp theo cách tương tự cách người giải vấn đề b Phân loại kỹ thuật học máy Có ba dạng học máy sau: Học có giám sát Học khơng giám sát Học tăng cường 1.2.2 Ứng dụng học máy xây dựng mô hình phân loại bệnh Các kỹ thuật học máy tiêu biểu ứng dụng cho toán phân loại bệnh bao gồm: - Phương pháp Cây định - Phương pháp Bayes (Suy luận Bayes, mạng bayes) - Phương pháp Máy vector hỗ trợ (SVM) - Phương pháp Mạng no-ron nhân tạo (Artificial Neural Network - ANN) Trong luận văn nghiên cứu thử nghiệm hai phương pháp phân loại bệnh phương pháp Máy vector hỗ trợ (SVM) phương pháp định 1.3 Tổng quan học sâu 1.3.1 Khái niệm học sâu Học sâu khơng có nghĩa học máy thêm kiến thức chuyên sâu, có nghĩa máy sử dụng lớp khác để học hỏi từ liệu Độ sâu mơ hình biểu thị số lớp mơ hình Do đó, học sâu có tiềm lớn giải hiệu toán phân loại bệnh 1.3.2 Hướng tiếp cận học sâu Hướng tiếp cận học sâu thường kể đến mạng nơ-ron sâu Dưới đây, luận văn liệt kê số dạng mạng nơ-ron sâu tham khảo mạng Internet Mạng nơ-ron tích chập Mạng nơ-ron lặp Mạng nơ-ron chuyển đổi Học tăng cường 1.4 Kết luận chƣơng Trong chương luận văn giới thiệu toán phân loại bệnh khảo sát quy trình phân phân loại bệnh độ đo đánh giá mơ hình phân phân loại bệnh ứng dụng khác phân phân loại bệnh Trong chương luận văn trình bày tổng quan học máy giới thiệu học sâu Các kỹ thuật học máy thường sử dụng hiệu cho toán phân loại bệnh Trong chương luận văn nghiên cứu hai thuật toán học máy để giải toán phân loại bệnh thuật toán định thuật toán máy vector hỗ trợ CHƢƠNG NGHIÊN CỨU THUẬT TOÁN CÂY QUYẾT ĐỊNH VÀ THUẬT TOÁN MÁY VECTOR HỖ TRỢ 1.5 Khảo sát thuật toán định vấn đề liên quan 1.5.1 Giới thiệu phương pháp Mô hình định mơ hình sử dụng phổ biến hiệu hai lớp toán phân lớp dự báo học có giám sát Khác với thuật tốn khác học có giám sát, mơ hình định khơng tồn công thức dự báo Mọi việc cần thực tìm định dự báo tốt tập huấn luyện sử dụng định dự báo tập kiểm chứng [11] 1.5.2 Khảo sát nội dung phương pháp Quá trình xây dựng định thường thực sau: Phân vùng đệ quy liệu thành nhiều tập Tại nút, xác định biến quy tắc liên kết với biến để phân tách tốt Áp dụng phép tách nút cách sử dụng biến tốt cách sử dụng quy tắc xác định cho biến Lặp lại bước bước nút Lặp lại trình đạt điều kiện dừng Gán định nút dựa nhãn lớp đa số có mặt nút thực nhiệm vụ phân loại xem xét giá trị trung bình giá trị biến mục tiêu có nút thực nhiệm vụ hồi quy 1.5.3 Đánh giá phương pháp Ưu điểm nhược điểm thuật toán định Ƣu điểm Cây định thuật toán đơn giản phổ biến Thuật toán sử dụng rộng rãi bới lợi ích nó: Mơ hình sinh quy tắc dễ hiểu cho người đọc, tạo luật với nhánh luật Dữ liệu đầu vào là liệu khơng đầy đủ (missing), khơng cần chuẩn hóa tạo biến giả Có thể làm việc với liệu số liệu phân loại Có thể xác thực mơ hình cách sử dụng kiểm tra thống kê Nhƣợc điểm Kèm với đó, định có nhược điểm cụ thể: Mơ hình định phụ thuộc lớn vào tập liệu xem xét Thạm chí, với thay đổi nhỏ liệu, cấu trúc mơ hình định thay đổi hồn tồn Cây định hay gặp vấn đề mức (overfitting) tượng mơ hình tìm q khớp với liệu huấn luyện đẫn đến nhạy cảm với nhiễu sử dụng mơ hình 1.6 Khảo sát thuật tốn máy vectơ hỗ trợ vấn đề liên quan 1.6.1 Giới thiệu phương pháp Định lý 2.1: Cho tập hợp gồm m điểm không gian Rd Ta chọn điểm chúng làm điểm gốc tạo thành m-1 vector điểm Khi m điểm cho phân tách siêu phẳng có hướng tập hợp vector điểm độc lập tuyến tính 1.6.2 Kỹ thuật SVM tuyến tính với tập liệu phân tách Giả sử tập huấn luyện T = {(x1, y1), (x2, y2), …, (xn, yn)} phân tách tuyến tính Cơng thức tính khoảng cách từ điểm xi tới siêu phẳng w.x + b = là: (2.7) 1.6.3 Kỹ thuật SVM tuyến tính với tập liệu khơng phân tách Trường hợp SVM tuyến tính với tập liệu phân tách trường hợp lí tưởng Với cách tìm lề lớn giải liệu phân tách cách tìm lề gọi lề cứng (hard margin) Trong thực tế, liệu huấn luyện bị nhiễu gán nhãn sai 1.6.4 Kỹ thuật SVM phi tuyến phân lớp nhị phân Phương pháp SVM phi tuyến phân thành hai bước sau: Bƣớc 1: Chuyển đổi không gian liệu ban đầu sang khơng gian đặc trưng khác (thường có số chiều lớn hơn), liệu huấn luyện phân tách tuyến tính Bƣớc 2: Áp dụng cơng thức với SVM tuyến tính 1.6.5 Kỹ thuật tối thiểu SMO Cả hai toán gốc toán đối ngẫu thuật toán SVM toán tối ưu bậc (Quadratic Programming) giải phương pháp điểm (interior-point methods) Tuy nhiên, số lượng mẫu học N lớn ma trận K lớn lên theo bậc N Vì phương pháp điểm có thời gian chạy lâu cỡ N3 Vì vậy, phải lợi dụng cấu trúc toán tối ưu thuật toán SVM để tăng tốc độ tối ưu hóa 1.6.6 Kỹ thuật SVM phân lớp đa lớp Các kỹ trình bày mục áp dụng cho phân lớp nhị phân Trong mục này, luận văn khảo sát phương pháp SVM phân lớp đa lớp định Để giải toán tiến hành giải số toán phân lớp nhị phân Các chiến lược phân lớp đa lớp phổ biến One-against-All (OAA) Oneagainst-One (OAO) [3], [5] 10 minh bệnh tật cho người bệnh trước, sau điều trị Nhờ đó, bác sĩ đưa phác đồ điều trị bệnh hiệu với chi phí hợp lý cho bệnh nhân 3.1.1 Đặc điểm liệu xét nghiệm hóa nghiệm Dữ liệu xét nghiệm hóa nghiệm thường có đặc điểm sau đây: - Các liệu đan xen liên tục rời rạc - Tập liệu đầu vào tập đa biến mối quan hệ thực tế đặc tính đối tượng - Giá trị số bị thiếu lỗi (vector khơng đầy đủ) Có thể nhiều nguyên nhân: hạn chế yêu cầu xét nghiệm để chẩn đoán việc loại trừ liệu có logic khơng phù hợp 3.1.2 Thu thập liệu nghiên cứu Qua sáng lọc, học viên chọn bệnh thuộc 06 nhóm mặt bệnh điển hình sau để nghiên cứu: 1) Nhóm bệnh lý tim gồm: Nhồi máu tim, suy tim, thấp tim, viêm tim 2) Nhóm bệnh lý thận gồm: Hội chứng thận hư, viêm bể thận cấp, viêm bể thận mạn, viêm cầu thận cấp, viêm cầu thận mạn, viêm khe thận, suy thận 3) Nhóm bệnh lý khớp: Bệnh Gout cấp, gout mạn, viêm khớp dạng thấp 4) Nhóm bệnh lý tuyến giáp: Cường giáp, suy giáp, viêm tuyến giáp 5) Nhóm bệnh lý tiêu hóa: Viêm gan, xơ gan, viêm tụy cấp, viêm tụy mạn, tắc mật, ung thư gan 6) Nhóm bệnh máu liên quan đến máu: Bệnh bạch cầu lympho, bệnh bạch cầu tủy, bệnh suy tủy, rối loạn sinh tủy, thiếu máu huyết tán Qua thu thập thông tin tổng hợp lựa chọn 3863 bệnh nhân phù hợp tiêu chuẩn lựa chọn với phân bố theo bảng 3.1 sau: Bảng 3.1: Số lƣợng bệnh nhân Mã nhóm Tên nhóm mặt bệnh Nhóm bệnh lý tim Số lƣợng (n) 173 11 Tên nhóm mặt bệnh Mã nhóm Số lƣợng (n) Nhóm bệnh lý thận 299 Nhóm bệnh lý khớp 384 Nhóm bệnh lý tuyến giáp 1575 Nhóm bệnh lý tiêu hóa Nhóm bệnh máu quan tạo máu TỔNG CỘNG 71 1361 3863 3.2 Bài toán phân loại bệnh dựa kết xét nghiệm hóa nghiệm 3.2.1 Đặt tốn Bài tốn phân loại bệnh trình bày mục 1.1 chương xem xét cụ thể sau: - Dữ liệu bệnh tập liệu học viên thu thập mô tả bao gồm kết xét nghiệm hóa nghiêm 3863 bệnh nhân với loại nhóm bệnh - Mơ hình phân lớp xây dựng sử dụng hai thuật toán học máy định máy vector hỗ trợ - Kết đầu bệnh nhân phân lớp mặt bệnh phù hợp 3.2.2 Tiền xử lý liệu Làm liệu: - Khử nhiễu - Xử lý giá trị thiếu Bƣớc 1: Nhóm kết xét nghiệm theo bệnh nhân Hình 3.1: Kết xét nghiệm BN lần xét nghiệm khác 12 Bƣớc 2: Lập dịng liệu dịng tập hợp giá trị số XN, dòng tập hợp giá trị max số XN Hình 3.2: Dữ liệu xét nghiệm BN tách thành dòng liệu min, max Dòng gồm giá trị min, dòng dƣới giá trị max Bƣớc 3: Chuyển liệu thành dòng kết cách tham chiếu với khoảng tham chiếu tài liệu chuyên mônError! Reference source not found hỏi ý kiến chuyên gia để xác định giá trị có ý nghĩa Hình 3.3: Dữ liệu xét nghiệm có ý nghĩa BN đƣợc xác định Lựa chọn, rút gọn thuộc tính Trong luận văn chọn phương pháp lựa chọn thuộc tính theo kinh nghiệm chuyên gia Chuẩn hóa liệu Như trình bày mục 3.1.2, kết xét nghiệm hóa nghiệm có nhiều thuộc tính với miền giá trị khác 3.2.3 Các kịch thử nghiệm Trong luận văn, số lượng mẫu lựa chọn cho nhóm sau: Nhóm gồm số lượng mẫu n = 600 lựa chọn ngẫu nhiên nhóm bệnh cho tỷ lệ nhóm tương đương tỷ lệ chúng tồn liệu Nhóm gồm số lượng mẫu n = 1200 lựa chọn ngẫu nhiên nhóm bệnh cho tỷ lệ nhóm tương đương tỷ lệ chúng tồn liệu Nhóm gồm số lượng mẫu n = 3863 toàn liệu thu thập 13 Trong nhóm bệnh phân chia ngẫu nhiên mẫu huấn luyện với tỷ lệ 70% 30% mẫu liệu kiểm chứng 3.2.4 Công cụ thực nghiệm Công cụ thực nghiêm: Sử dụng phần mềm Weka version 3.9.5 [15] 3.3 Kết thực nghiệm đánh giá 3.3.1 Chuẩn bị liệu thực thử nghiệm Chuẩn bị liệu Mẫu XN gồm 3863 mẫu thuộc 06 nhóm bệnh tiền xử lý Để thử nghiệm đánh giá hiệu phân lớp đa lớp theo chiến lược 1/k, 1/1 theo định số lượng mẫu thay đổi, mẫu XN chia làm nhóm với kích cỡ khác sau áp dụng xây dựng đánh giá mơ hình nhóm Bảng 3.2 thể số mẫu có nhóm Bảng 3.2: Phân bố số lƣợng mẫu nhóm theo kích cỡ mẫu Tên nhóm Số lƣợng mẫu Nhóm mẫu 600 Nhóm mẫu 1200 Nhóm mẫu 3863 Với nhóm mẫu được chọn lựa phân chia liệu HL, KC theo quy trình Nhóm mẫu cần thực bước lựa chọn mẫu HL KC Sau thực phân nhóm lựa chọn mẫu HL, KC cho nhóm, ta có kết phân bố chi tiết số lượng mẫu HL KC theo nhóm mặt bệnh thể bảng 3.3 Bảng 3.3: Cơ cấu nhóm bệnh với số mẫu HL KC tƣơng ứng TT I Tên nhóm mặt bệnh Nhóm mẫu Số lƣợng Số lƣợng Số lƣợng (n) HL KC 600 420 180 14 TT Số lƣợng Số lƣợng Số lƣợng Tên nhóm mặt bệnh (n) HL KC Nhóm bệnh lý tim 89 62 27 Nhóm bệnh lý thận 116 81 35 Nhóm bệnh lý khớp 125 87 38 Nhóm bệnh lý tuyến giáp 217 152 65 Nhóm bệnh lý tiêu hóa 31 22 Nhóm bệnh máu quan tạo máu 22 16 II Nhóm mẫu 1200 840 360 Nhóm bệnh lý tim 120 84 36 Nhóm bệnh lý thận 153 107 46 Nhóm bệnh lý khớp 203 142 61 Nhóm bệnh lý tuyến giáp 301 211 90 Nhóm bệnh lý tiêu hóa 60 42 18 Nhóm bệnh máu quan tạo máu 363 254 109 Nhóm mẫu 3863 2704 1159 Nhóm bệnh lý tim 173 121 52 Nhóm bệnh lý thận 299 209 90 Nhóm bệnh lý khớp 384 269 115 Nhóm bệnh lý tuyến giáp 1575 1102 473 Nhóm bệnh lý tiêu hóa 71 50 21 Nhóm bệnh máu quan tạo máu 1361 953 408 III Dữ liệu tách ra, chuyển đổi sang dạng chuẩn arff Weka với 99 thuộc tính gồm 98 thuộc tính số XN thuộc tính lớp theo bảng 3.4 sau: Bảng 3.4: Chi tiết tập tin liệu Tên tập tin Nội dung Số thuộc tính Số ghi Train1.arff Tập huấn luyện nhóm 86 420 15 Tên tập tin Nội dung Số thuộc tính Số ghi Test1.arff Tập kiểm chứng nhóm 86 180 Train2.arff Tập huấn luyện nhóm 86 840 Test2.arff Tập kiểm chứng nhóm 86 360 Train3.arff Tập huấn luyện nhóm 86 2704 Test3.arff Tập kiểm chứng nhóm 86 1159 Thực thử nghiệm Trong mục luận văn trình bày số kết trích từ log chạy Weka Do giới hạn số trang luận văn nên nêu chi tiết thao tác Weka Các thuật toán lựa chọn thử nghiêm: - Phương pháp Cây định sử dụng j48 - Phương pháp SVM xây dựng mơ hình theo chiến lược 1/k 1/1 - Máy vi tính: Thử nghiệm thực máy tính chạy Microsoft Window 10 Ultimate 64bit với cấu hình: CPU: Intel(R) Core(TM) i7-9700 CPU @ 3.00GHz 3.00 GHz RAM: 24Gb 3.3.2 Kết thực nghiệm 1) Kết thử nghiệm với nhóm mẫu (n = 600): Kết thử nghiệm đối phương pháp SVM xây dựng mơ hình theo chiến lược 1/k bảng 3.5 Bảng 3.5: Kết phân lớp phƣơng pháp SVM theo chiến lƣợc 1/k với nhóm mẫu 16 Kết thử nghiệm đối phương pháp SVM xây dựng mơ hình theo chiến lược 1/k bảng 3.6 Bảng 3.6: Kết phân lớp phƣơng pháp SVM theo chiến lƣợc 1/1 với nhóm mẫu Kết thử nghiệm đối phương pháp định bảng 3.7 Bảng 3.7: Kết phân lớp theo định 17 Kết độ đo thuật toán thử nghiệm bước huấn luyện theo kịch tổng hợp bảng 3.8 Bảng 3.8: Bảng kết huấn luyện thuật tốn theo nhóm mẫu Các độ đo đánh giá SVM J48 1/k 1/1 Độ nhạy (%) 94,4 97,2 94,4 Độ đặc hiệu (%) 99,5 99,5 97,3 Độ xác dự đốn (%) 96,4 97,3 94,6 Thời gian xây dựng mơ hình (s) 0,22 0,11 0,03 Kết kiểm chứng mơ hình tổng hợp bảng 3.9 Bảng 3.9: Bảng kết kiểm chứng thuật tốn theo nhóm mẫu Các độ đo đánh giá SVM J48 1/k 1/1 Độ nhạy (%) 95,1 96,7 88,5 Độ đặc hiệu (%) 98,9 96,8 95 Độ xác dự đốn (%) 95,3 97 88,5 Thời gian xây dựng mơ hình (s) 0,05 0,05 0,03 2) Kết thử nghiệm với nhóm mẫu (n = 1200): Kết thử nghiệm đối phương pháp SVM xây dựng mơ hình theo chiến lược 1/k bảng 3.10 Bảng 3.10: Kết phân lớp phƣơng pháp SVM theo chiến lƣợc 1/k với nhóm mẫu 18 Kết thử nghiệm đối phương pháp SVM xây dựng mô hình theo chiến lược 1/k bảng 3.11 Bảng 3.11: Kết phân lớp phƣơng pháp SVM theo chiến lƣợc 1/1 với nhóm mẫu Kết thử nghiệm đối phương pháp định bảng 3.12 Bảng 3.12: Kết phân lớp theo j48 Kết độ đo thuật toán thử nghiệm bước huấn luyện theo kịch tổng hợp bảng 3.13 Bảng 3.13: Bảng kết huấn luyện thuật tốn theo nhóm mẫu 19 Các độ đo đánh giá SVM J48 1/k 1/1 Độ nhạy (%) 96,2 96,5 90,2 Độ đặc hiệu (%) 99,5 98,8 97,6 Độ xác dự đoán (%) 96,4 96,6 90,6 Thời gian xây dựng mơ hình (s) 0,3 0,11 0,06 Kết kiểm chứng mơ hình tổng hợp bảng 3.14 Bảng 3.14: Bảng kết kiểm chứng thuật tốn theo nhóm mẫu Các độ đo đánh giá SVM J48 1/k 1/1 Độ nhạy (%) 95,9 96,7 91,8 Độ đặc hiệu (%) 99,9 98,5 98,2 Độ xác dự đoán (%) 96,5 96,9 93 Thời gian xây dựng mơ hình (s) 0,06 0,05 0,06 3) Kết thử nghiệm với nhóm mẫu (n = 3863) Kết thử nghiệm đối phương pháp SVM xây dựng mơ hình theo chiến lược 1/k bảng 3.15 Bảng 3.15: Kết phân lớp phƣơng pháp SVM theo chiến lƣợc 1/k với nhóm mẫu Kết thử nghiệm đối phương pháp SVM xây dựng mơ hình theo chiến lược 1/k bảng 3.16 20 Bảng 3.16: Kết phân lớp phƣơng pháp SVM theo chiến lƣợc 1/1 với nhóm mẫu Kết thử nghiệm đối phương pháp định bảng 3.17 Bảng 3.17: Kết phân lớp theo j48 Kết độ đo thuật toán thử nghiệm bước huấn luyện theo kịch tổng hợp bảng 3.18 Bảng 3.18: Bảng kết huấn luyện thuật tốn theo nhóm mẫu Các độ đo đánh giá SVM J48 1/k 1/1 Độ nhạy (%) 96,6 97,1 94,6 Độ đặc hiệu (%) 98,1 98,6 98,6 Độ xác dự đốn (%) 96,7 97,2 94,6 Thời gian xây dựng mơ hình (s) 0,67 0,33 0,28 Kết kiểm chứng mơ hình tổng hợp bảng 3.19 Bảng 3.19: Bảng kết kiểm chứng thuật tốn theo nhóm mẫu 21 SVM Các độ đo đánh giá J48 1/k 1/1 Độ nhạy (%) 96,4 98 95,7 Độ đặc hiệu (%) 99,3 98,7 98,5 Độ xác dự đốn (%) 96,7 98 95,7 Thời gian xây dựng mơ hình (s) 0,19 0,13 0,09 3.3.3 Phân tích đánh giá kết thực nghiệm Dựa vào kết thử nghiệm trình bày trên, mục luận văn thực phân tích đánh giá kết Kết độ xác thuật tốn thử nghiệm theo nhóm mẫu tập huấn luyện tập kiểm chứng biểu diễn dạng biểu đồ hình 3.6 Hình 3.6: Biểu đồ so sánh độ xác phân loại thử nghiệm theo thuật tốn nhóm Quan sát biểu đồ hình 3.6 nhận thấy rằng, thuật toán thử nghiệm cho kết có tỉ lệ phân loại xác cao tập huấn luyện (từ 94% trở lên) Tương tự, ta so sánh kết phân loại thử nghiệm theo nhóm theo biểu đồ hình 3.7 3.8 22 Hình 3.7: Biểu đồ so sánh độ xác phân loại thử nghiệm theo thuật tốn nhóm Hình 3.8 Biểu đồ so sánh độ xác phân loại thử nghiệm theo thuật tốn nhóm Quan sát hình 3.7 3.8 nhận thấy kết mơ hình thực kiểm chứng tệp có kích thước lớn cho xác cao (>=93%) Hình 3.9 trình bày biểu đồ thống kê thời gian thực thuật toán theo nhóm mơ hình thử nghiệm tập huấn luyện 23 Hình 3.9: Biểu đồ so sánh thời gian thuật toán thử nghiêm tập HL Hình 3.10 trình bày biểu đồ thống kê thời gian thực thuật tốn theo nhóm mơ hình thử nghiệm tập kiểm chứng Hình 3.10: Biểu đồ so sánh thời gian thuật toán thử nghiêm tập KC 3.4 Kết luận chƣơng Trong chương luận văn tiến hành thực nghiệm thuật toán học máy nghiên cứu chương cho toán phân loại bệnh với liệu trích xuất từ Bệnh viện Trung ương Quân đội 108 Kết thử nghiệm bước đầu cho thấy thuật tốn học máy triển khai thực tế phù hợp với yêu cầu đề cho toán phân loại bệnh 24 KẾT LUẬN Các kết đạt đƣợc luận văn Qua nghiên cứu lý thuyết tiến hành thực nghiệm, luận văn đạt kết sau: - Nghiên cứu tổng quan toán phân loại vấn đề liên quan - Khảo sát tổng quan kỹ thuật học máy nhằm giải toán phân bênh - Khảo sát tổng quan học sâu - Khảo sát chi tiết hai thuật toán học máy bao gồm thuật toán định thuật toán máy vector hỗ trợ SVM - Thu thập xử lý liệu kết xét nghiệm hóa nghiêm gồm 98 số xét nghiệm với 3863 mẫu 06 nhóm bệnh - Thực thử nghiệm hai thuật toán học máy j48 SMO để phân loại bệnh liệu kết xét nghiệm hóa nghiêm Luận văn tiến hành phân tích đánh giá kết thực nghiệm Hƣớng nghiên cứu Tuy đạt số kết nêu trên, luận văn số hạn chế điều kiện mặt thời gian trình độ học viên Vì vậy, hướng nghiên cứu luận văn là: - Mở rộng thêm mặt bệnh phân loại phân loại mặt bệnh chi tiết Ví dụ lớp mặt bệnh tiêu hóa phân lớp thành lớp chi tiết hơn: lớp bệnh gan, mật tụy - Phát triển thành chương trình ứng dụng để hỗ trợ định hướng chẩn đốn bệnh bệnh viện ... thuật toán học máy để giải toán phân loại bệnh thuật toán định thuật toán máy vector hỗ trợ 6 CHƢƠNG NGHIÊN CỨU THUẬT TOÁN CÂY QUYẾT ĐỊNH VÀ THUẬT TOÁN MÁY VECTOR HỖ TRỢ 1.5 Khảo sát thuật toán định... phân loại bệnh Trong chương luận văn trình bày tổng quan học máy giới thiệu học sâu Các kỹ thuật học máy thường sử dụng hiệu cho toán phân loại bệnh Trong chương luận văn nghiên cứu hai thuật toán. .. máy sau: Học có giám sát Học khơng giám sát Học tăng cường 1.2.2 Ứng dụng học máy xây dựng mô hình phân loại bệnh Các kỹ thuật học máy tiêu biểu ứng dụng cho toán phân loại bệnh bao gồm: