Nghiên cứu một số thuật toán học máy và ứng dụng

87 1.1K 1
Nghiên cứu một số thuật toán học máy và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu một số thuật toán học máy và ứng dụngNghiên cứu một số thuật toán học máy và ứng dụngNghiên cứu một số thuật toán học máy và ứng dụngNghiên cứu một số thuật toán học máy và ứng dụngNghiên cứu một số thuật toán học máy và ứng dụngNghiên cứu một số thuật toán học máy và ứng dụngNghiên cứu một số thuật toán học máy và ứng dụngNghiên cứu một số thuật toán học máy và ứng dụng

NGUYÊN THỊ HÒA HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG - NGUYÊN THỊ HÒA KHOA HỌC MÁY TÍNH 2012 – 2013 Hà Nội, 2014 NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KỸ THUẬT 2014 – 2016 (Theo định hướng ứng dụng) HÀ NỘI HÀ NỘI - 2016 HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG - NGUYÊN THỊ HÒA NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY VÀ ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƢỜI HƢỚNG DẪN KHOA HỌC : TS VŨ VĂN THỎA HÀ NỘI - 2016 i LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố công trình khác Tác giả luận văn ký ghi rõ họ tên Nguyên Thị Hòa ii LỜI CẢM ƠN Để hoàn thành đƣợc luận văn, nghiên cứu cố gắng thân, em xin gửi lời cảm ơn tới TS Vũ Văn Thỏa, giáo viên trực tiếp hƣớng dẫn, tận tình bảo định hƣớng cho em suốt trình thực luận văn Em xin gửi lời cảm ơn chân thành cảm ơn tất thầy cô giáo Học viện Công nghệ Bƣu Viễn thông giảng dạy dìu dắt em trong suốt trình học tập trƣờng từ học đại học sau đại học Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè ngƣời bên cổ vũ tinh thần, tạo điều kiện thuận lợi cho em để em học tập tốt hoàn thiện luận văn Em xin chân thành cảm ơn! vii MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN ii MỤC LỤC vii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vii DANH SÁCH BẢNG viii DANH SÁCH HÌNH VẼ viii LỜI MỞ ĐẦU Chƣơng - TỔNG QUAN VỀ HỌC MÁY 1.1 Một số khái niệm học máy 1.2 Phân loại thuật toán học máy 1.2.1 Học có giám sát 1.2.2 Học không giám sát 1.2.3 Học nửa giám sát Ứng dụng học máy 1.3 1.3.1 Ứng dụng phân tích dự báo[32] 1.3.2 Ứng dụng tìm kiếm 1.3.3 Ứng dụng phân loại 10 Kết chƣơng 10 1.4 Chƣơng 2: NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY 11 2.1 Cây định 11 Tổng quan định 11 2.1.1 2.1.1.1 Định nghĩa 11 2.1.1.2 Chiến lƣợc xây dựng định 12 2.1.1.3 Thuận lợi hạn chế mô hình định 15 2.1.2 Thuật toán ID3 16 2.1.2.1 Thuật toán 17 2.1.2.2 Độ đo tính 18 a Entropy đo tính tập huấn luyện 19 b Lƣợng thông tin thu đƣợc đo mức độ giảm entropy mong đợi 20 2.1.2.3 Tìm kiếm không gian giả thuyết ID3 20 2.1.2.4 Đánh giá hiệu suất định: 21 2.1.2.5 Chuyển luật 22 2.1.3 Thuật toán C4.5 22 Thuật toán máy véc tơ hỗ trợ SVM 23 2.2 2.2.1 Giới thiệu 23 2.2.2 Định Nghĩa 24 2.2.3 Phƣơng pháp SVM phân loại nhị phân 24 2.2.3.1 SVM tuyến tính 25 viii a SVM tuyến tính với tập liệu phân tách đƣợc 28 2.2.3.2 SVM phi tuyến tính 36 2.2.3.3 Thuật toán tối thiểu SMO 40 Thuật toán mạng nơ ron nhân tạo 40 2.3 2.3.1 Giới thiệu 40 2.3.2 Cơ sở lý thuyết 41 2.3.2.1 Cấu trúc mạng nơ ron 41 2.3.2.2 Khả ứng dụng mạng nơ-ron nhân tạo 43 2.3.2.3 Tiến trình học 44 2.3.2.4 Giải thuật Back – Propagation 45 2.3.2.5 Những hạn chế phƣơng pháp lan truyền ngƣợc: 48 2.4 So sánh thuật toán 48 2.5 Kết chƣơng 50 Chƣơng 3: 3.1 ỨNG DỤNG GIẢI QUYẾT BÀI TOÁN PHÂN LOẠI 51 Bài toán phân loại 51 3.1.1 Giới thiệu 51 3.1.2 Mô tả toán phân loại 51 3.1.3 Phƣơng pháp phân loại 51 3.1.4 Đánh giá mô hình 53 3.2 Bài toán phân loại bệnh dựa dấu hiệu khám bệnh lâm sàng số xét nghiệm hóa nghiệm 55 3.2.1 Đặt toán 55 3.2.2 Các bƣớc giải toán 56 3.2.3 Thu thập liệu nghiên cứu 57 3.2.4 Tiền xử lý liệu 59 3.2.5 Bài toán thực nghiệm 61 Thử nghiệm đánh giá kết 63 3.3 3.3.1 Công cụ thực nghiệm 63 3.3.2 Chuẩn bị liệu 64 3.3.3 Thực thực nghiệm 65 3.3.4 Kết thực nghiệm 67 3.3.5 Phân tích đánh giá kết 69 3.4 Kết chƣơng 70 KẾT LUẬN 71 IV DANH MỤC CÁC TÀI LIỆU THAM KHẢO 72 PHỤ LỤC 76 vii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết tắt Nghĩa tiếng anh Nghĩa tiếng việt SVM Support Vector Machine Máy véc tơ hỗ trợ KNN K Nearest Neighbours K láng giềng gần NB Naive Bayes Tiếp cận kiểu Naive Bayes DT Decision Tree Cây định Nnet Neural Network Mạng nơron LLSF Linear Least Square Fit Tuyến tính bình phƣơng nhỏ EM expectation-maximization Cực đại kỳ vọng XN HAC Xét nghiệm Hierarchical Agglomerative Kỹ thuật phân cụm theo thứ bậc Clustering SOM Self-Organizing Map Giải thuật đồ tự tổ chức viii DANH SÁCH BẢNG Bảng 2.1 Tập liệu thời tiết 13 Bảng 3.1 Các số liên qua đến độ đo KPDL 54 Bảng 3.2 Số lƣợng BN theo nhóm mặt bệnh nghiên cứu .58 Bảng 3.3 Cơ cấu số mẫu HL KC tƣơng ứng 64 Bảng 3.4 Cơ cấu tập tin liệu 64 Bảng 3.5 Kết phân loại theo định J48 .67 Bảng 3.6 Kết phân loại theo thuật toán SMO 67 Bảng 3.7 Kết đánh giá thuật toán định J48 .67 Bảng 3.8 Kết đánh giá thuật toán định SMO 68 Bảng 3.9 So sánh hiệu SMO J48 68 viii DANH SÁCH HÌNH VẼ Hình 1.0.1 Mô hình kim tự tháp: Từ liệu đến tri thức Hình 2.1 Cây định 12 Hình 2.2 Cây định chơi tennis 14 Hình 2.3 Cây dự đoán chơi tennis 22 Hình 2.4 Tầm quan trọng biên thuật toán SVM .25 Hình 2.5 Ví dụ biên không tốt 26 Hình 2.6 Ví dụ biên tối ƣu 26 Hình 2.7 Siêu phẳng phân tách với véc tơ pháp tuyến w 27 Hình 2.8 Độ rộng biên m 28 Hình 2.9 Trƣờng hợp liệu huấn luyện không phân tách đƣợc 33 Hình 2.10 Khoảng cách điểm lỗi đến vị trí 34 Hình 2.11 Ảnh hƣởng C đến độ rộng biên số lƣợng biến phụ ξi 34 Hình 2.12 Ánh xạ từ không gian chiều sang không gian chiều 37 Hình 2.13 Mô hình mạng nơ ron nhân tạo .41 Hình 2.14 Cấu trúc nơ ron (Neural) 41 Hình 2.15 Cấu trúc mạng nơ ron 42 Hình 2.16 Cấu trúc mạng nơ ron nhiều lớp 42 Hình 2.17 Tiến trình học 45 Hình 2.18 Mô hình tính toán nơ-ron 46 Hình 3.1 Giai đoạn xây dựng mô hình .52 Hình 3.2 Giai đoạn phân loại 52 Hình 3.3 Đánh giá độ xác mô hình phần lớp với phƣơng pháp Holdout 53 Hình 3.4 Mô hình toán phân loại mặt bệnh 56 Hình 3.5 Các bƣớc phân loại mặt bệnh dựa triệu chứng lâm sàng cận lâm sàng 57 Hình 3.6 Giao diện khởi động WEKA .63 Hình 3.7 Thực phân loại với J48 Classifier SMO Classifier .66 ix Hình 3.8 So sánh độ nhạy thời gian thực thuật toán SMO định J48 .68 63 đo để đánh giá mô hình phân loại toán phân loại với tập liệu triệu chứng lâm sàng chẩn đoán bác sỹ mục sau 3.3 Thử nghiệm đánh giá kết 3.3.1 Công cụ thực nghiệm Công cụ thực nghiêm: Sử dụng phần mềmWeka version 3.7.12 Weka phần mềm miễn phí học máy đƣợc viết Java, phát triển University of Wekato Weka coi nhƣ sƣu tập thuật toán học máy dùng phân tích khai phá liệu Các thuật toán đƣợc xây dựng sẵn việc sử dụng Do Weka thích hợp cho việc thử nghiệm mô hình mà không thời gian để xây dựng chúng Weka có giao diện sử dụng đồ họa trực quan chế độ command line Ngoài thuật toán học máy nhƣ dự đoán, phân loại, phân cụm, Weka có công cụ để trực quan hóa liệu hữu ích trình nghiên cứu, phân tích Hình 3.6 Giao diện khởi động WEKA Chƣơng trình đƣợc thực với SMO Classifier thƣ viện MultiClassClassifier WEKA 64 + Máy vi tính: Thử nghiệm thực máy tính chạy Microsoft Window 10 64 bit với cấu hình: - CPU: Intel R-core i5 2418M - RAM: 4Gb 3.3.2 Chuẩn bị liệu Mẫu XN gồm 852 mẫu thuộc 04 nhóm bệnh đƣợc tiền xử lý Dữ liệu đƣợc lựa chọn mẫu HL KC theo quy trình sau: + Trong nhóm bệnh chọn ngẫu nhiên mẫu KC với tỷ lệ 30% + Phần lại mẫu huấn luyện Sau thực lựa chọn mẫu HL, KC cho nhóm, ta có đƣợc kết phân bố chi tiết số lƣợng mẫu HL KC theo nhóm mặt bệnh đƣợc thể bảng 3.3 Bảng 3.3 Cơ cấu số mẫu HL KC tƣơng ứng TT Tên nhóm mặt bệnh Số lƣợng Số lƣợng Số lƣợng (n) HL KC Nhóm bệnh 850 563 289 Nhóm bệnh lý đƣờng hô hấp 248 177 71 Nhóm bệnh lý khớp 82 50 32 Nhóm bệnh lý tim mạch 236 142 94 Nhóm bệnh lý đái tháo đƣờng 284 185 99 Dữ liệu đƣợc tách ra, chuyển đổi sang dạng chuẩn csv Weka với 45 thuộc tính gồm 44 thuộc tính số XN triệu chứng lâm sàng với thuộc tính lớp theo bảng 3.4 nhƣ sau: Bảng 3.4 Cơ cấu tập tin liệu 65 Tên tập tin Nội dung Số thuộc tính Số ghi DL_HL.csv Tập huấn luyện 46 672 DL_KC.csv Tập kiểm chứng 46 179 3.3.3 Thực thực nghiệm Để đánh giá đƣợc xác thời gian xây dựng mô hình theo thuật toán SVM định liệu đƣợc thử nghiệm theo quy trình sau:  Trƣờng hợp 1: sửa dụng thuật toán SVM Khởi động WEKA Load liệu huấn luyện Chọn Classify Load liệu kiểm chứng Chọn Classifiers SMO Start Ghi lại thời gian xây dựng mô hình bảng phân tích độ xác, bảng ma trận confusion  Trƣờng hợp 2: sử dụng định Khởi động WEKA Load liệu huấn luyện Chọn Classify Load liệu kiểm chứng Chọn Classifiers J48 Start Ghi lại thời gian xây dựng mô hình bảng phân tích độ xác, bảng ma trận confusion Mỗi thuật toán đƣợc thực liên tiếp lần tập mẫu, lần thực theo quy trình thực từ bƣớc 66 Hình 3.7 Thực phân loại với J48 Classifier SMO Classifier 67 3.3.4 Kết thực nghiệm Kết thử nghiệm: Bảng 3.5 Kết phân loại theo định J48 Bảng 3.6 Kết phân loại theo thuật toán SMO Bảng 3.7 Kết đánh giá thuật toán định J48 68 Bảng 3.8 Kết đánh giá thuật toán định SMO Bảng 3.9 So sánh hiệu SMO J48 Chiến lƣợc phân loại Các độ đo đánh giá SMO J48 Độ đặc hiệu (%) 96.2 94.5 Độ nhạy (%) 98.6 97.8 Độ xác dự đoán (%) 96.19 94.46 Tỷ lệ dƣơng tính giả(%) 2,2 1.4 Thời gian xây dựng mô hình (s) 0.02 0.06 Trên bảng 3.9 nhận thấy độ tin cậy phân loại theo SMO lớn J48; Thời gian xây dựng mô hình theo J48 chậm SMO khoảng 0,4s 94,5% 100.00% 0.12 60.00% 0.10 0.10 80.00% 0.08 96,2% 40.00% SMO J48 SMO 0.06 0.04 20.00% 0.02 0.00% 0.00 Độ xác 0.08 J48 Thời gian xây dựng mô hình Hình 3.8 So sánh độ nhạy thời gian thực thuật toán SMO định J48 69 3.3.5 Phân tích đánh giá kết Qua kết thực nghiệm nhận thấy: - Trên bảng 3.8 cho thấy lớp bệnh đƣợc phân loại với độ tin cậy cao lớp bệnh lý tim mạch với độ nhạy = 93.6,8 %, độ đặc hiệu = 99 % độ xác = 96.3% kết phân loại sử dụng SMO Có lớp bệnh lý đái tháo đƣờng bệnh đƣờng hô hấp có độ tin cậy phân loại thấp hơn, theo độ nhạy, độ đặc hiệu độ xác theo thuật toán SMO J48 lớp bệnh lần lƣợt là: 98 % 98.4% - 98.2% / 98% - 96.3.0% - 97.15% bệnh đái tháo đƣờng 97.2 % 98.2% - 97.7%/97.2% - 97.7%-97.45% bệnh đƣờng hô hấp Điều lý giải nhƣ sau: + Số mặt bệnh số lƣợng mẫu lớp bệnh hạn chế + Cơ thể ngƣời hệ thống hoàn chỉnh với phận có quan hệ mật thiết với Sự tổn thƣơng bệnh tật không chức quan bị bệnh mà dễ gây ảnh hƣởng đến chức quan khác Vì việc phân định rõ ràng ranh giới nhóm bệnh việc khó khăn nên độ tin cậy phân loại số lớp bệnh chƣa thực cao dễ hiểu - Cũng bảng 3.8 thấy lớp bệnh có tỷ lệ bị phân loại nhầm vào cao lớp bệnh đái tháo đƣờng với tỷ lệ dƣơng tính giả cao = 3.7% Theo tham khảo chuyên môn thì: + Bệnh đái tháo đƣờng bệnh gây ảnh hƣởng xấu lên nhiều chức khác thể Vì kết xét nghiệm triệu chứng lâm sàng lớp bệnh có nhiều đặc điểm lớp bệnh khác Khi bị mắc bệnh đái tháo đƣờng, ngƣời bệnh bị mặc thêm số bệnh nội tiết ngoại tiết khác + Theo thống kê ngành y tế, có khoảng 346 triệu ngƣời bị mắc bệnh tiểu đƣờng Con số dự kiến tăng theo cấp số nhân vài thập kỷ tới Do tính phổ biến nhƣ nên bệnh nhân mắc thêm bệnh phụ khác 70 - Qua biểu đồ 3.4 so sánh độ nhạy thuật toán máy hỗ trợ véc tơ SMO định J48 cho thấy độ nhạy theo SMO cao sơ với J48 với mức chênh lệch từ 1% - 1.3% không phụ thuộc kích thƣớc mẫu - Qua biểu đồ 3.1 so sánh thời gian xây dựng mô hình thuật toán máy hỗ trợ véc tơ SMO định J48 nhận thấy thời gian xây dựng mô hình sửa dụng thuật toán SVM ngắn định J48 Nhƣ với học máy SVM cho kết phân loại tốt phƣơng pháp định Việc phân tích giá trị, tiền xử lý liệu góp phần tăng độ xác học máy SVM loại bỏ bớt nhiễu tăng cƣờng mối liên hệ thuộc tính không gian đặc trƣng Các kiểm chứng thực nghiệm dựa tập hợp mẫu độc lập với mẫu dùng để xây dựng học máy cho thấy hiệu học máy SVM toán phân loại ổn định, học vẹt 3.4 Kết chƣơng Trong chƣơng luận văn đƣa toán phân loại tổng quát nêu lên phƣơng pháp xây dựng mô hình phân loại Luận văn khảo sát khía cạnh toán phân loại bệnh dựa triệu chứng lâm sàng ban đầu bệnh nhân kết hợp với kết xét nghiệm hóa nghiệm Trên sở liệu thu thập đƣợc loại bệnh bệnh nhân số bệnh viện hạng hạng 2, luận văn tiến hành thực nghiệm với việc sử dụng SVM thuật toán định Kết thực nghiệm thu đƣợc sử dụng phần mềm WEKA đƣợc phân tích đánh giá cho thấy phù hợp với lý thuyết nghiên cứu 71 KẾT LUẬN Những đóng góp luận văn: Qua nghiên cứu thực nghiệm,luận văn đạt đƣợc kết nhƣ sau: - Nghiên cứu tổng quan học máy, kái niệm học máy ứng dụng - Nghiên cứu số thuật toán học máy tiêu biểu thuật toán SVM, thuật toán định mạng nơ-ron nhân tạo - Ứng dụng thuật toán tìm hiểu để giải toán phân loại thông qua mô hình huấn luyện thuật toán tìm hiểu - Đã thu thập chuẩn hóa đƣợc số liệu 46 số xét nghiệm triệu chứng lâm sàng với 800 mẫu 04 nhóm bệnh Đã tiến hành thực nghiệm phân tích, đánh giá kết thu đƣợc Bƣớc đầu cho thấy ứng dụng SVM việc phân loại bệnh dựa triệu chứng lâm sàng ban đầu kết xét nghiệm hóa nghiệm đạt hiệu khả quan Hƣớng phát triển luận văn: Tuy đạt đƣợc số kết nêu trên, nhƣng luận văn số hạn chế điều kiện mặt thời gian trình độ học viên Vì vậy, hƣớng nghiên cứu học viên là: - Nghiên cứu thêm thuật toán học máy khác, nghiên cứu thuật toán SVM, định kết hợp với thuật toán khác để tăng độ xác phân loại - Để ứng dụng thực tế phát triển toán cụ thể chƣơng ba cách phân loại bệnh nhân đa bệnh kết hợp (phân loại đa nhãn) - Mở rộng thêm mặt bệnh phân loại phân loại mặt bệnh chi tiết - Phát triển toán phân loại bệnh thành ứng dụng để hỗ trợ định hƣớng chẩn đoán bệnh bệnh viện 72 DANH MỤC CÁC TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Nguyễn Đạt Anh (2013) - Các xét nghiệm thường quy áp dụng thực hành lâm sàng - Nhà xuất Y học [2] Thái Khắc Minh, Trần Thành Đạo (2010) – ”Sử dụng phƣơng pháp máy vector hỗ trợ dự đoán hoạt tính kháng sốt rét số dẫn chất chalcon” -Y Học TP Hồ Chí Minh, tập 14 (Phụ Số - 2010), T 15 – 22 [3] Văn Thế Thành, Trần Minh Bảo (2012) – ”Xây dựng hệ hỗ trợ định chẩn đoán bệnh” , Tạp chí khoa học, Đại học Huế, tập 74A (số 5), T 129-139 [4] Văn phòng công nhận chất lƣợng, Bộ Khoa học Công nghệ (2011), Hƣớng dẫn phân loại xét nghiệm y tế [5] Nguyễn anh Tuấn (2015)- ” ứng dụng máy véc tơ hỗ trợ phân loại bệnh dựa xét nghiệm hóa nghiệm”, luận văn cao học, Học viện Công nghệ Bƣu Viễn thông Tiếng Anh: [6] C Cortes & V N Vapnik (1995), “Support vector networks”, Machine Learning, vol 20, No 3,273-297, 1995 [7] C.W Hsu, and C,J Lin (2002), “A Comparison of Methods for Multiclass Support Vector Machines”, IEEE Tran on Neural Network , vol 13, no 2, pp 415-425, Mar 2002 [8] Divya Tomar & Sonali Agarwal (2013), “A survey on Data Mining approaches for Healthcare”, International Journal of Bio-Science and BioTechnology Vol.5, No.5,pp 241-266 [9] David Taniar (2007), Data Mining and Knowledge Discovery Technologies, Idea Group Publishing [10] E L Allwein, R E Schapire, and Y Singer (2001), "Reducing multiclass to binary: A unifying approach for margin classifiers", The Journal of Machine Learning Research, vol 1, pp 113–141, 2001 73 [11] Fayyad U, Piatetsky-Shapiro G, S.P.(1996), “Knowledge discovery and data mining: Towards a unifying framework”, In: Proceedings of the 2nd ACM international conference on knowledge discovery and data mining (KDD), Portland, OR, USA (1996)82-88 [12] Hian Chye Koh, Gerald Tan (2005), “Data Mining Applications in Healthcare”, Journal of Healthcare Information Management, Vol 19, No 2, p 64-72 [13] Jiawei Han, Micheline Kamber (2011), Data mining: Concepts and Techniques, 3nd Edition, Morgan Kaufman Publishers [14] J Hertz, A Krogh, and R.G Palmer (1991), Introduction to the Theory of Neural Computation, New York: Addison-Wesley [15] Joseph S Ross (2014), “Ensuring Correct Interpretation of Diagnostic Test Results” JAMA Intern Med 2014; 174 (6):993 [16] Johannes F¨urnkranz (2002), “Pairwise Classification as an Ensemble Technique”, Proceedings of the 13th European Conference on Machine Learning, Springer Verlag, 97-110 [17] Krzysztof J Cios, G William Moore (2002), “Uniqueness of medical data mining”, Artificial Intelligence in Medicine 26, p 1–24 [18] Lei, H., & Govindaraju, V (2005), Half-against-half multi-class support vector machines - In Multiple classifier systems (pp 156-164) Springer Berlin Heidelberg [19] Milgram, J., Cheriet, M., & Sabourin, R (2006) - “One Against One” or “One Against All”: Which One is Better for Handwriting Recognition with SVMs? - In Tenth International Workshop on Frontiers in Handwriting Recognition Suvisoft [20] M Nunez Economic induction: A case study In Proceedings of the 3rd European Working Session on Learning, EWSL-88, pp.139-145 California: Morgan Kaufmann, 1988 74 [21] Nada Lavrac (1999), Data Mining in Medicine: Selected Techniques and Applications, Artif Intell Med 1999 May;16(1):3-23 [22] O’Sullivan, Dympna, et al (2008) - Using Secondary Knowledge to Support Decision Tree Classification of Retrospective Clinical Data - Mining Complex Data (2008): 238-251 [23] Riccardo Bellazzi, Blaz Zupan (2008), "Predictive data mining in clinical medicine: Current issues and guidelines”, International Journal of Medical Informatics 77, p 81–97 [24] Ruben D Canlas Jr (2009), “Data mining in healthcare: Current applications and issues”, MSc of Science inInformation Technology, Carnegie Mellon University, Australia [25] R Rifkin& A Klautau (2004), “In defence of one-vs-all classification”, Journal of Machine Learning Research, vol 5, pp 101-141 [26] S Abe (2005), Support Vector Machine for Pattern Recognition, Springer [27] Shaker H El-Sappagh, Samir El-Masri, A M Riad, Mohammed Elmogy (2013), “Data Mining and Knowledge Discovery: Applications, Techniques, Challenges and Process Models in Healthcare”, Journal of Engineering Research and Applications (IJERA) Vol 3, Issue 3, p 900-906 [28] Shigeo Abe & Takuya Inoue (2002), "Fuzzy Support Vector Machines for Multiclass Problems" ESANN’2002 proceedings, 113-118 [29] Steve Lawrence and C Lee Giles (2000), Overfitting and Neural Networks: Conjugate Gradient and Backpropagation, International Joint onference on Neural Networks, Como, Italy, July 24–27, 114–119, 2000 [30] Tapan Bagchi, Rahul Samant, Milan Joshi (2013), "SVM Classifiers Built Using Imperfect Training Data", International Conference on Mathematical Techniques In Engineering Applications, ICMTEA 2013-BM-003 [31] T M Mitchell Machine Learning McGraw-Hill, 1997 [32] Vũ Thanh Nguyên, giảng học máy” Nghiên cứu số thuật toán học máy ứng dụng” 75 [33] Yang, Q., Wu, X (2006), “10 Challenging problems in data mining research”, International Journal of Information Technology & Decision Making, Vol 5, No , p 597–604 Danh mục Website tham khảo: [34] https://voer.edu.vn/m/tiep-can-ky-hieu-giai-thuat-quy-nap-cay-quyet-dinhid3/cb4f35f8 [35] http://en.wikipedia.org/wiki/ [36] https://vi.wikipedia.org/wiki/H%E1%BB%8Dc_m%C3%A1y 76 PHỤ LỤC Các thuộc tính đƣợc trích chọn STT Tên Thuộc tính STT Tên thuộc tính Ho 24 Triglycerid Nôn 25 Cholesterol Sốt 26 Creatinin Đau họng 27 ALT Tức ngực 28 Định lƣợng ure Chóng mặt 29 Hồng cầu Đau tim 30 Protein Toàn phần Sổ mũi 31 Định lƣợng Albumin Đau đầu 32 Điện giải máu: 10 đau bụng 33 Cl- 11 Tiêu chảy K+ 12 Mệt mỏi 34 Na+ 13 Huyết áp 35 Công thức máu 14 Nhiễm siêu virus/KST sốt rét 36 MCV 15 Anti - HCV ( nhanh) 37 MCH 16 Bilirubin TP 38 MCHC 17 Bilirubin TT 39 WBC(Bạch cầu) Sinh hóa máu 40 RBC(Hồng cầu) 18 Định lƣợng ure 41 PLT(tiểu cầu) 19 HDL-cholestrol 42 Đau Xƣơng 20 Axit Uric 43 Mạch 21 LDL 44 Urê 22 GGT 23 AST 77 [...]... pháp học máy nhằm phân loại, khai thác thông tin một cách tự động và trích xuất các tri thức hữu ích Xuất phát từ thực tế và mục tiêu nhƣ vậy, học viên thực hiện đề tài luận văn có tên Nghiên cứu một số thuật toán học máy và ứng dụng để bƣớc đầu giải quyết vấn đề nêu trên Nội dung nghiên cứu: - Nghiên cứu một số kiến thức tổng quan về học máy - Khảo sát một số thuật toán học máy nhƣ cây quyết định, máy. .. (ANN) - Ứng dụng các thuật toán đã nghiên cứu để giải quyết bài toán phân loại cụ thể Qua đó, đánh giá độ chính xác và tính khả thi của thuật toán Cấu trúc của luận văn gồm 3 chƣơng: Chƣơng 1: Tổng quan về học máy 2 Chƣơng 2: Nghiên cứu một số thuật toán học máy Chƣơng 3: Ứng dụng vào giải quyết bài toán phân loại Trong đó luận văn tập trung vào chƣơng 2 và 3 nhằm nghiên cứu tìm hiểu để đề xuất ứng dụng. .. bài toán phân loại bệnh 3 Chƣơng 1 - TỔNG QUAN VỀ HỌC MÁY Chương này trình bày một số kiến thức tổng quan về học máy: những khái niệm cơ bản trong học máy, mô hình học máy, phân loại các phương pháp học máy, ứng dụng của học máy trong thực tế 1.1 Một số khái niệm về học máy Học máy là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" ... y học và tin sinh học Vì vậy, chƣơng tiếp theo luận văn sẽ nghiên cứu ba thuật toán cơ bản là cây quyết định, SVM và mạng nơ-ron 11 Chƣơng 2: NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY Chương này trình bày một số thuật toán học máy tiêu biểu, cụ thể là thuật toán cây quyết định, vectơ hỗ trợ SVM và mạng nơron nhân tạo 2.1 Cây quyết định Cây quyết định là một trong phƣơng pháp học máy tiêu biểu có nhiều ứng. .. nút này Có thể thấy học bán giám sát là một quá trình hoàn thiện dần các thuật toán để áp dụng vào các vấn đề của đời sống con ngƣời Một số thuật toán học bán giám sát điển hình có thể xem là đƣợc áp dụng nhiều nhất, đó là Naive Bayes, EM với các mô hình hỗn hợp sinh, self-training, cotraining, SVM truyền dẫn, và các phƣơng pháp dựa trên đồ thị 1.3 Ứng dụng của học máy Học máy có ứng dụng rộng khắp trong... của các nhà khoa học và các tổ chức cũng nhƣ doanh nghiệp Trong chƣơng này luận văn cũng trình bày tổng quan về các học máy và mộ số ứng dụng của học máy trong các lĩnh vựa Có nhiều mô hình học máy, trong đó phƣơng pháp phân loại đƣợc ứng dụng rất rộng rãi trong thực tế Trong phƣơng pháp phân loại, kỹ thuật học máy SVM, cây quyết định, mạng nơ ron là những thuật toán phân loại đƣợc ứng dụng rộng rãi,... nhiều thuật toán học không giám sát đƣợc ra đời và phát triển nhằm giải quyết bài toán phân cụm phục vụ khai thác hiệu quả nguồn dữ liệu chƣa gán nhãn nhiều và rất đa dạng Việc lựa chọn sử dụng thuật toán nào tuỳ thuộc vào dữ liệu và mục đích của từng bài toán Trong đó các thuật toán thƣờng đƣợc sử dụng nhƣ: k-means, HAC, SOM 1.2.3 Học nửa giám sát 7 Học nửa giám sát là các thuật toán học tích hợp từ học. .. trên một tập dữ liệu lớn 1.2 Phân loại các thuật toán học máy Các thuật toán học máy đƣợc chia làm 3 loại: học có giám sát, học không giám sát và học nửa giám sát[32] 1.2.1 Học có giám sát Đây là cách học từ những mẫu dữ liệu mà ở đó các kỹ thuật học máy giúp hệ thống xây dựng cách xác định những lớp dữ liệu Hệ thống phải tìm một sự mô tả cho từng lớp (đặc tính của mẫu dữ liệu) Ngƣời ta có thể sử dụng. .. liệu và những sự chuyển hoá của chúng Đây là lĩnh vực rộng lớn không chỉ bao gồm việc học từ mẫu, mà còn học tăng cƣờng, học với “thầy”, Các thuật toán học lấy bộ dữ liệu và những thông tin quen thuộc của nó khi nhập và trả về một kết quả câu nói hay một câu ví dụ, một khái niệm để diễn tả những kết quả học Học máy kiểm tra những ví dụ trƣớc đó và kiểm tra luôn cả những kết quả của chúng khi xuất và học. .. Các Mô Hình Dự Báo Của Học máy - Chƣơng Trình Ứng Dụng Hệ Thống Mạng Nơron Lan Truyền Ngƣợc (FNN) - Chƣơng Trình Ứng Dụng Hệ luật mờ (SAM) - Chƣơng Trình Ứng Dụng Mạng Nơ rôn dạng Lan Truyền Ngƣợc và thuật toán di truyền vào phân tích dự báo Các chƣơng trình ứng dụng mô hình mạng nơ rôn mờ hồi quy, sử dụng file dữ liệu huấn luyện, thử nghiệm và dự báo dạng văn bản 1.3.2 Ứng dụng trong tìm kiếm Mô hình

Ngày đăng: 02/12/2016, 04:42

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan