Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 94 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
94
Dung lượng
1,78 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Lê Mạnh Long TÊN ĐỀ TÀI LUẬN VĂN HỌC MÁY VÀ PHÂN LOẠI TRONG XỬ LÝ TÍN HIỆU Y SINH VÀ CHẨN ĐỐN BỆNH Chun ngành : Kỹ thuật y sinh LUẬN VĂN THẠC SĨ KỸ THUẬT KỸ THUẬT Y SINH NGƢỜI HƢỚNG DẪN KHOA HỌC : TS PHẠM DỖN TĨNH Hà Nội – Năm 2015 Lời cam đoan Tơi xin cam đoan cơng trình nghiên cứu thân, đƣợc xuất phát từ u cầu phát sinh cơng việc để hình thành hƣớng nghiên cứu Các số liệu có nguồn gốc rõ ràng tn thủ ngun tắc kết trình bày luận văn đƣợc thu thập đƣợc q trình nghiên cứu trung thực chƣa đƣợc cơng bố trƣớc Hà nội, tháng 03 năm 2015 Tác giả luận văn Lê Mạnh Long Lời cám ơn Luận văn đƣợc thực dƣới hƣớng dẫn TS Phạm Dỗn Tĩnh- Viện Điện Tử Viễn Thơng - Trƣờng Đại học Bách Khoa Hà nội Em xin bày tỏ lòng biết ơn sâu sắc tới Thầy hƣớng dẫn có ý kiến dẫn q báu q trình em làm luận văn Em xin chân thành cảm ơn thầy giáo mơn Kỹ thuật Y sinh thầy Viện Điện Tử Viễn Thơng - Trƣờng Đại học Bách Khoa Hà nội hƣớng dẫn, đào tạo cho nhiều ý kiến đóng góp q báu để luận văn đƣợc hồn thiện Em xin cảm ơn thầy giáo Khoa, cán thuộc Viện Đào tạo sau Đại học, Trƣờng Đại học Bách Khoa Hà nội tạo điều kiện q trình học tập nghiên cứu Trƣờng Cuối xin bày tỏ lòng cảm ơn tới ngƣời thân gia đình, bạn bè động viên giúp đỡ để tơi hồn thành luận văn Hà Nội, tháng 03/2015 Học viên thực Lê Mạnh Long MỤC LỤC Contents Lời cam đoan Danh mục ký hiệu, chữ viết tắt Danh mục bảng Mục đích nghiên cứu luận văn, đối tƣợng, phạm vi nghiên cứu 11 Các luận điểm đóng góp tác giả 11 Phƣơng pháp nghiên cứu 11 Chƣơng TỔNG QUAN 13 Tổng quan chung 13 Mục đích nghiên cứu 15 Các chủ đề nghiên cứu 18 Đóng góp nghiên cứu 20 Phƣơng pháp luận nghiên cứu 21 Chƣơng CÁC PHƢƠNG PHÁP HỌC MÁY VÀ CHUẨN HỐ DỮ LIỆU 22 2.1 Tổng quan 22 2.2 Kiến thức chung 22 2.3 Sự phân lớp 23 2.3.1 Thuật tốn K lân cận gần (K-Nearest Neighbors) 25 2.3.2 Mạng Neuron nhân tạo (Artification Neuron Network) 26 2.3.3 Cây định ( Decision Tree) 28 2.3.4 Phân lớp Naive Bayes 31 2.3.5 Phân lớp ANFIS 33 2.4 Cơng nghệ lựa chọn chức 38 2.4.1 Cơng nghệ lựa chọn chức Wrapper 39 2.4.2 Cơng nghệ lựa chọn đặc điểm đặc trƣng chọn lọc 41 2.4.3 Cơng nghệ chọn đặc điểm đặc trƣng nhúng 42 2.4.4 Cơng nghệ lựa chọn đặc điểm đặc trƣng tăng tin IG 42 2.5 Các giá trị đặc điểm đặc trƣng bị bỏ sót (Missing feature values) 44 2.5.1 Các loại giá trị bị bỏ sót 44 2.5.2 Xử lý liệu bỏ sót 45 2.6 Thuật tốn lan truyền ngƣợc Levenberg-Marquardt 49 2.7 Khai phá liệu 53 2.7.1 Thu thập liệu 54 2.7.2 Lựa chọn liệu 54 2.7.3 Tiền xử lý liệu 55 2.7.4 Áp dụng phƣơng thức khai phá liệu 55 2.7.5 Đánh giá liệu 56 2.7.6 Cơng cụ phát triển phần mềm học máy 56 2.7.7 Giám sát kết 57 2.8 Học máy chẩn đốn bệnh 57 2.8.1 Điều trị cách hiệu 57 2.8.2 Quản lý sức khoẻ 58 2.8.3 Chẩn đốn có trợ giúp máy tính CAD 58 2.8.4 Các thách thức khai phá liệu chăm sóc sức khoẻ 59 2.8.5 Các bệnh án điện tử (EHR) 60 2.9 Các cơng trình nghiên cứu liên quan tới việc chẩn đốn bệnh ung 61 Chƣơng CHẨN ĐỐN BỆNH UNG THƢ VÚ BẰNG CÁC PHƢƠNG PHÁP HỌC MÁY 62 3.1 Chẩn đốn bệnh ƣng thƣ vú phƣơng pháp tăng tin hệ thống suy diễn mờ 62 3.1.1 Hệ thống suy diễn mờ 62 3.1.2 Cấu trúc hệ thống ANFIS 65 3.1.3 Học ANFIS 65 3.1.4 Hệ thống suy diễn mờ 66 3.1.5 Phƣơng pháp IG-ANFIS 67 3.1.6 Kết 67 3.2 Chẩn đốn ung thƣ vú phƣơng pháp phân lớp 72 3.2.1 Các giá trị đặc điểm đặc trƣng bị bỏ sót 72 3.2.2 Phƣơng pháp xử lý giá trị chức bị bỏ sót 74 3.2.3 Cơng nghệ hồi quy phân lớp 77 3.2.4 Kết 80 3.3 Chẩn đốn bệnh ƣng thƣ vú phƣơng pháp Nạve Bayes 81 3.3.1 Cơng nghệ lựa chọn đặc trƣng 81 3.3.2 Các cơng nghệ lựa chọn đặc điểm đặc trƣng 82 3.3.3 Phƣơng pháp luận nghiên cứu 82 3.3.4 Các kết nghiên cứu 83 3.4 Chẩn đốn bệnh ƣng thƣ vú phƣơng pháp ANN 83 3.4.1 Tổng quan 83 3.4.2 Thuật tốn lan truyền ngƣợc (Back Propagation) 84 3.4.3 Phƣơng pháp thực 85 3.4.4 Triển khai thuật tốn 86 3.4.5 Đánh giá kết 88 3.4.6 Kết luận 88 3.5 Đánh giá chung phƣơng pháp 88 KẾT LUẬN VÀ BÀN LUẬN 89 TÀI LIỆU THAM KHẢO 91 Danh mục ký hiệu, chữ viết tắt ANFIS (Fuzzy Inference System): Hệ thống suy diễn mờ ANN (Artificial Neural Network): Mạng nơ ron nhân tạo CAD (Computer Aided Diagnosis): Chẩn đốn có trợ giúp máy tính CART (Classification and Regression Tree): Cây hồi quy phân lớp DM (Data Mining): Khai phá liệu eHealth (Electronic Health): Chăm sóc sức khoẻ điện tử EHR (Electronic Health Record): Bệnh án điện tử ERR (Error Rate): Tỉ lễ sai số FIS (Fuzzy Inference System): Hệ thống suy diễn mờ IG (Information Gain): Sự tăng tin IGANFIS (Information Gain and Adaptive Neuro-Fuzzy Inference System): Hệ thống suy diễn mờ nơ ron thích nghi tăng tin k-NN (k Nearest Neighbors): K lân cận gần LSE (Least Square Estimate): Ƣớc lƣợng bình phƣơng trung bình ML (Machine learning) : Học máy WBC (Wisconsin Breast Cancer Dataset) : Tập liệu ung thƣ vú Wisconsin Danh mục bảng Bảng 2-1 Ma trận để phân lớp 25 Bảng 2-2 Độ phức tạp tính tốn 37 Bảng 2-3: Các điểm mạnh yếu phƣơng pháp lựa chọn chức Wrapper 40 Bảng 2-4 Khái qt điểm mạnh thách thức phƣơng pháp chọn lọc 42 Bảng 2-5 Các điểm mạnh điểm yếu việc sử dụng phƣơng pháp EM 42 Bảng 2-6 Các giá trị đặc điểm đặc trƣng bị bỏ sót 47 Bảng 2-7 Tối đa hố kỳ vọng 47 Bảng 2-8 Xây dựng giá trị đặc điểm đặc trƣng bị bỏ sót 49 Bảng 3-1 Xếp hạng thuộc tính khối u vú 68 Danh mục hình vẽ, đồ thị Hình 1-1 Tỉ lệ bác sĩ 1000 bệnh nhân số nƣớc 17 Hình 1-2 Sử dụng cơng nghệ hình ảnh cộng hƣởng từ (MRI) nƣớc 18 Hình 1-3 Kiến trúc cho hệ thống sức khoẻ điện tử 20 Hình 2-1 Cách tiếp cận chung để xây dựng mơ hình phân lớp 24 Hình 2-2 Hệ thống dây thần kinh ngƣời 27 Hình 2-3 Nơ ron nhân tạo 27 Hình 2-4 Hoạt động nơ ron đƣợc đơn giản hố 28 Hình 2-5 Kiến trúc ANN 28 Hình 2-6 Cây định đơn giản 29 Hình 2-7 Các đặc tính định liên quan tới số chức học 31 Hình 2-8 Các đặc tính phân lớp Bayesian theo chức học 33 Hình 2-9 Mạng ANFIS 34 Hình 2-10 Thuật tốn lựa chọn chức Wrapper 40 Hình 2-11 Q trình khai phá liệu 54 Hình 3-1 Sơ đồ luật Sugeno [1] 64 Hình 3-2 Mơ hình ANFIS đề xuất nghiên cứu 65 Hình 3-3 Cấu trúc hệ IG-ANFIS 67 Hình 3-4 Xếp hạng chức 69 Hình 3-5 Hệ thống suy diễn mờ Sugeno cho đầu vào đầu 70 Hình 3-6 Hàm phụ thuộc đầu vào cho chức Uniform of cell shize 71 Hình 3-7 Cấu trúc cho hệ thống IG-ANFIS đề xuất 71 Hình 3-8 Cấu trúc ANFIS MATLAB 72 Hình 3-9 Lưu đồ thuật tốn để xây dựng giá trị bị bỏ sót 76 Hình 3-10 Cấu trúc CART 78 Hình 3-11 Cây phân lớp đề xuất 80 Hình 3-12 Mơ hình phân lớp Nạve Bayes 82 Hình 3-13 Mơ hình mạng nơ ron nhân tạo ANN 84 Hình 3-14 Mạng ANN đề xuất 85 Hình 3-15 Sai số mạng theo số lần lặp 87 MỞ ĐẦU Lý chọn đề tài Hiện Việt nam, hệ thống y tế phải đối mặt với số thách thức nhƣ: Hệ thống hạ tầng cho cơng việc chăm sóc điều trị bệnh nhân thiếu, số lƣợng nhân viên chun gia, bác sĩ chun khoa thiếu Vì phủ y tế nỗ lực tìm kiếm giải pháp để khắc phục khó khăn Việc nghiên cứu giải pháp học máy để trợ giúp cho bác sĩ tuyến sở hƣớng nghiên cứu nhiều tiềm Bằng việc sử dụng cơng cụ học máy tính tốn, khối lƣợng lớn liệu đƣợc chuyển thành tri thức, hiểu biết hỗ trợ việc phát triển hệ thống chun gia việc hỗ trợ định cho bác sĩ việc chẩn đốn dự đốn số bệnh nan y nhƣ bệnh ung thƣ Các hệ thống chun gia để hỗ trợ cho q trình đƣa định giảm chi phí, thời gian phần giảm bớt thời gian cho chun gia, để họ có nhiều thời gian cho việc nghiên cứu, nhƣ giản đƣợc lỗi nhầm lẫn ngƣời gây nên, căng thẳng q trình làm việc Các cơng cụ học máy hiệu trợ giúp việc phát sớm bệnh nhƣ ung thƣ vú Cơng việc luận văn tập trung trọng tâm vào tìm kiếm cách tiếp cận để chẩn đốn bệnh ung thƣ vú dựa cơng cụ học máy Lịch sử nghiên cứu Học máy q trình ánh xạ liệu có thành ngữ nghĩa chun mơn, điều làm gia tăng việc hiểu biết thơng tin liên quan tới bệnh lý, nhƣ dấu hiệu sớm bệnh lý, giám sát giai đoạn khác bệnh cách tốt hơn, để nâng cao chất lƣợng dịch vụ chăm sóc cho bệnh nhân, trợ giúp tốt cho bác sĩ (trợ giúp điện tử ), dễ dàng tham khảo chéo quy trình chẩn đốn bệnh tiêu chuẩn 10 phân tách tối đa hố suy giảm khơng tinh khiết Cho dù sử dụng phân lớp hay hồi quy phải giảm sai số việc phân lớp hay dự đốn ngun tắc dẫn dắt ý tƣởng thuật tốn CART 3.2.4 Kết Trong nghiên cứu thống kê khai phá liệu, cách tiếp cận phân tách mẫu đƣợc sử dụng chung nghiên cứu chứa đựng tập liệu lớn Trong nghiên cứu 313 mẫu liệu đƣợc chia thành 10 tập liệu cách ngẫn nhiên có kích thƣớc tƣơng đối nhau, sau sử dụng tập liệu để huấn luyện tập liệu để kiểm tra Phần mềm Matlab xây dựng lên phân lớp nhƣ sau: Hình 3-11 Cây phân lớp đề xuất Cây định có 13 nút có nút nút ( nút kết thúc), với nút gốc nút thứ Trong đó: (x1,x2, x9) tƣơng ứng với chức (clump thickness, uniformity of cell size, uniformity of cell shape, marginal adhesion, single epithelial cell size, bare nuclei, bland chromatin, normal nucleoli, and marginal adhesion) 80 Việc đánh giá nghiên cứu đƣợc dựa theo phuơng pháp chia tập liệu gốc thành 10 tập liệu cách ngẫu nhiên, lấy tập để làm huấn luyện phân lớp, tập liệu làm tập kiểm tra kết cho độ xác 91.69% 3.3 Chẩn đốn bệnh ƣng thƣ vú phƣơng pháp Nạve Bayes 3.3.1 Cơng nghệ lựa chọn đặc trƣng Cơng nghệ lựa chọn đặc điểm đặc trƣng trở thành nhu cầu hiển nhiên cho nhà nghiên cứu khoa học máy tính lĩnh vực khoa học khác Ở việc cần thiết phải phân tích số lƣợng lớn liệu nghiên cứu lĩnh vực y tế, nơng nghiệp, kinh doanh cơng nghiệp Thêm việc tìm kiếm việc tìm kiếm cơng nghệ lựa chọn đặc điểm đặc trƣng tốt xuất sắc thoả mãn tốt thuật tốn học mang lại lợi ích cho nhà nghiên cứu cơng việc nghiên cứu Vì thế, phƣơng pháp đƣợc đề xuất để chẩn đốn bệnh ung thƣ vú cách kết hợp cơng cụ thuật tốn học cơng nghệ lựa chọn đặc điểm đặc trƣng Ý tƣởng tạo cách tiếp cận lai kết hợp thuật tốn học có phẩm chất tốt cơng nghệ lựa chọn đặc điểm đặc trƣng có phẩm chất tốt Thực nghiệm việc lắp ghép phƣơng pháp lựa chọn đặc điểm đặc trƣng dựa tƣơng quan với thuật tốn học Nạve Bayes tạo kết nhiều triển vọng Tuy nhiên khơng có phƣơng pháp lựa chọn đặc điểm đặc trƣng thoả mãn tất các tập liệu thuật tốn học Vì nhà nghiên cứu học máy nên hiểu tính tự nhiên tập liệu đặc tính thuật tốn học để có đƣợc kết đầu tốt Nói chung, việc đánh giá tập dựa độ chắn thực tốt phƣơng pháp lựa chọn đặc điểm đặc trƣng dựa thuật tốn tƣơng quan, Relief, IG PCA 81 3.3.2 Các cơng nghệ lựa chọn đặc điểm đặc trƣng Đã có nhiều báo khoa học nhiều phƣơng pháp lựa chọn tập đặc điểm đặc trƣng Trong chƣơng tập trung vào phƣơng pháp phân tích thành phần (Principle Components Analysis (PCA)) Đã có nhiều cơng trình nghiên cứu thuật tốn để sử dụng phƣơng pháp PCA cho lớp tốn tuyến tính phi tuyến tính 3.3.3 Phƣơng pháp luận nghiên cứu Các tập liệu khác dùng để nghiên cứu từ kho chứa liệu dùng cho học máy UCI sở liệu ung thƣ vú Wisconsin (WBC) Thuật tốn phân lớp Nạve Bayes (NB) NB phân lớp theo sắc xuất đơn giản đƣợc dựa lý thuyết Nạve Bayes NB thuật tốn học hiệu đƣợc sử dụng cho học máy khai phá liệu tính độc lập thuộc tính Sau áp dụng cơng nghệ lựa chọn đặc điểm đặc trƣng thuật tốn học dựa tập liệu có đƣợc kết xác việc phân lớp Một phƣơng pháp lai đƣợc xây dựng cách kết hợp tiến cơng nghệ lựa chọn đặc điểm đặc trƣng có phẩm chất cao tiến phƣơng pháp học máy chất lƣợng cao nhƣ đƣợc hình sau: X Phƣơng pháp lựa chọn chức Y Thuật tốn học Nạve Bayes Hình 3-12 Mơ hình phân lớp Nạve Bayes Hình 27 Mơ hình phân lớp Nạve Bayes đề xuất 82 Z 3.3.4 Các kết nghiên cứu Việc đánh giá nghiên cứu đƣợc dựa theo phuơng pháp chia tập liệu gốc thành 10 tập liệu cách ngẫu nhiên, lấy tập để làm huấn luyện phân lớp, tập liệu làm tập kiểm tra kết cho độ xác 96.86%, việc cải thiện độ xác việc sử dụng phƣơng pháp phân tích thành phần PCA 3.4 Chẩn đốn bệnh ƣng thƣ vú phƣơng pháp ANN 3.4.1 Tổng quan Chƣơng trình bày chi tiết việc ứng dụng mạng nơ ron lan truyền ngƣợc vào việc chuẩn đốn bệnh ung thƣ vú Mơ hình tốn học mạng nơ ron nhân tạo Nơ ron đơn vị hàm chức tảng mạng nơ ron nhân tạo Nó bao gồm hàm tổng hàm hoạt hố cho tƣơng tác khớp nối, triggering cho mục đích kích thích mối quan hệ nơ ron Mạng trí tuệ nhân tạo kiến trúc kiểu graph đƣợc kết nối cách dầy đặc bao gồm đơn vụ xử lý khơng tuyến tính nhƣ nút mạng, tham số mạng hay gọi trọng số Mạng nơ ron nhân tạo có khẳ phân lớp dựa vào số lớp mạng 83 Hình 3-13 Mơ hình mạng nơ ron nhân tạo ANN đơn giản 3.4.2 Thuật tốn lan truyền ngƣợc (Back Propagation) Trong mạng truyền thẳng, tham số đầu vào đƣợc truyền thẳng vào mạng, mạng xử lý tham số với trọng số đầu có liên quan với tham số đƣợc tạo khơng có đƣờng phản hồi Trong việc triển khai thuật tốn lan truyền ngƣợc đầu đƣợc tạo đáp ứng thực tế mạng đƣợc so sánh với đáp ứng đƣợc xác định tƣơng ứng với miền lớp tham số đầu vào biết (target) Hiệu đáp ứng thực tế đáp ứng biết (target) sai số Sai số đƣợc lan truyền ngƣợc tới mạng trọng số mạng đƣợc điều chỉnh theo luật điều chỉnh sai số đƣợc [22 ] Có nhiều phƣơng pháp khác để hiệu chỉnh trọng số Véc tơ trọng số kiến thức mạng q trình học Vector trọng số khơng gian nhiều chiều Véc tơ trọng số thƣờng đƣợc thay đổi dải mà đảm bảo đƣợc giá trị Giới hạn dải đƣợc gọi đƣờng biên kiến thức Một thể đƣợc sử dụng để huấn luyện mạng nơ ron bao gồm mẫu đầu vào nhãn lớp Sai số đƣợc tính tốn trực tiếp liên quan tới việc điều chỉnh trọng số lớp cuối cùng, lớp đứng trƣớc lớp ẩn điều chỉnh tham số trọng số 84 dƣới dạng ảnh hƣởng tổng trọng số điều chỉnh nút lớp để giảm ảnh hƣởng tiêu cực việc điều chỉnh trọng số từ lớp tới lớp ẩn Q trình đƣợc gọi q trình học, mục đích q trình học đƣa vec tơ kiến thức tới đƣờng biên phù hợp Một đƣờng biên để giới hạn việc hiệu chỉnh trọng số đƣợc áp đặt Vì kiến thức mạng trƣớc đƣợc khoanh vùng dự trữ lại vùng lại đƣợc sử dụng cho việc định nghĩa lại kiến thức Một tham số độc lập quan trọng khác mạng nơ ron tốc độ học, điều khiển tốc độ q trình học Mỗi mạng nơ ron kết thúc q trình học, xử lý mẫu đầu vào để phân lớp đầu 3.4.3 Phƣơng pháp thực Cấu hình mạng ANN đề xuất có dạng Hình 3-14 Mạng ANN đề xuất Mạng ANN đƣợc huấn luyện cách: Tập liệu đƣợc sử dụng nghiên cứu lấy từ WBC, có 318 thể (bản ghi), thể có thuộc tính Cơ sở liệu đƣợc chia thành tập cách ngẫu nhiên, tập dùng cho huấn luyện mạng 80%, tập để kiểm tra mạng 20% Một tập thuộc tính thể đƣợc trích chọn từ sở liệu có từ trƣớc đƣợc sử dụng làm liệu đầu vào để thiết lập nên mơ hình dự đốn mạng, tn thủ tiêu chuẩn sau: 85 Từng thử nên sử dụng tập thể đƣợc lựa chọn cách ngẫu nhiên khác mục đích kiểm tra Mạng nơ ron sử dụng tập liệu từ WBC Số lần lặp dùng để mơ đƣợc định nghĩa ngƣời dùng q trình chạy ứng dụng Việc xây dựng kiến trúc tối ƣu mơ hình mạng nơ ron tn thủ tiêu chuẩn sau: Dự trữ số thể để kiểm tra Mỗi lần thử nên sử dụng tập thể đƣợc lựa chọn cách ngẫu nhiên khác cho mục đích kiểm tra Mạng nên đƣợc tối ƣu để có đƣợc kết đầu tốt Phân tích kết để đánh giá thành cơng thất bại q trình triển khai Kết thúc mạng thành cơng việc dự đốn lành tính ác tính Nhận vùng để cải thiện 3.4.4 Triển khai thuật tốn Một mơ hình tiên đốn mạng nơ ron đƣợc tạo bao gồm thành phần thuật tốn sau: Lớp đầu vào logic: Nó nhận đầu vào kích thích việc kích hoạt nơ ron Hàm tansig: hàm truyền lớp ẩn Hàm purelin: hàm truyền cho lớp Hàm huấn luyện: hàm trainlm đƣợc áp dụng để tăng tốc độ chuẩn đốn đảm bảo hội tụ giúp cho để tối ƣu hố q trình huấn luyện mạng Hàm hardlim đầu thực mạng Tuỳ theo việc mong muốn để thành cơng việc tiên đốn ác tính, độ xác đƣợc nâng lên để nhận trƣờng hợp danh giới nhƣ bệnh ác tính Phân tích phẩm chất mạng nơ ron 86 Mạng nơ ron bị giới hạn theo buộc khác nhƣ số lớp ẩn, số nút mạng lớp ẩn, tốc độ học, buộc phải giải đồng thời để thu nhận đƣợc để có đƣợc mơ hình cấu trúc mạng hiệu với sai số bình phƣơng trung bình (RMS) nhỏ Việc huấn luyện đƣợc thực để thu nhận đƣợc sai số RMS nhỏ với số lần lặp bị giới hạn chặn để tránh rơi vào vòng lặp vơ tận Một lƣu ý vấn đề (over fitting) u cầu độ trùng khớp q chặt Việc tăng số lƣợng lớp làm tăng over fitting Thực nghiệm nhiều mạng phức tạp u cầu nhiều việc huấn luyện để có phẩm chất tốt hơn, nhƣng huấn luyện nhiều mạng bắt đầu nhớ mạng có phẩm chất tốt nhƣng làm hạ mức liệu thẩm định nút mạng lớp ẩn Sau q trình thử nghiệm mơ hình mạng bao gồm lớp ẩn có 25 nút mạng đƣợc lựa chọn với tốc độ học 0.05 Tốc độ học tham số quan trọng, ảnh hƣởng cao so với cấu hình mạng Tốc độ học thấp tránh đƣợc hiệu ứng over fitting nhƣng tốc độ học cao tốc độ hội tụ nhanh Việc huấn luyện mạng đạt đƣợc kết tốt sau lần lặp với sai số 3.13% Hình 3-15 Sai số mạng theo số lần lặp 87 3.4.5 Đánh giá kết Kết việc huấn luyện mạng Nơ ron nhân tạo tạo tham số mạng, từ cầu trúc mạng tham số mạng ta thực việc đƣa tập liệu kiểm tra vào để đánh giá độ xác phƣơng pháp sai số bình phƣơng trung bình (root mean square-mse) kết mse = 0.0313, độ xác chẩn đốn mạng 96,87% 3.4.6 Kết luận Kiến thức mạng nơ ron đƣợc xác định việc nơ ro đƣợc kết nối nhƣ trọng số Luật lan truyền ngƣợc làm để điều chỉnh trọng số mạng khơng làm thay đổi cấu trúc mạng Giả sử có hai tập A B, việc huấn luyện tập thể A sau huấn luyện lại tập thể B, kiến thức tập A bị Để học thể giữ kiến thức có, mạng lan truyền ngƣợc phải đƣợc huấn luyện tập thể đồng thời giữ kiến thức có với tập thể cũ 3.5 Đánh giá chung phƣơng pháp Phƣơng pháp IG-ANFIS cho độ xác 94.44%, phƣơng pháp phân lớp cho độ xác 91.69%, phƣơng pháp mạng nơ ron nhân tạo ANN cho độ xác 96.87%, phƣơng pháp Nạve Bayes cho kết xác 96.86%, nhiên phƣơng pháp hiệu số đầu vào 88 KẾT LUẬN VÀ BÀN LUẬN Học máy nói chung phân lớp nói riêng lĩnh vực nghiên cứu tiềm cho ứng dụng chẩn đốn bệnh nối chung, nhiên khơng có phƣơng pháp phân lớp tốt phù hợp với tất tập liệu hay bệnh, mà phải tuỳ theo ứng dụng cụ thể nên chọn phƣơng pháp phù hợp Mạng ANN Nạve Bayes cho kết tốt hơn, nhƣng mạng Nạve Bayes phù hợp số đầu vào ít, nên việc lựa chọn mạng Nạve Bayes nên kết hợp với việc giảm số đầu vào ( giảm số chức ) thuật tốn ví dụ nhƣ PCA ANN đƣợc sử dụng nghiên cứu y sinh nhƣ bệnh tim (cardiology), thần kinh (neurology), ung thƣ (oncology), rối loạn dầy, ruột (gastroenterology) Ƣu điểm ANN chúng thực từ mẫu huấn luyện mà khơng cần đến luật chun gia tìm nhƣ ANFIS, ANN đƣợc tự động hóa hồn tồn q trình đƣa định mà khơng bị ảnh hƣởng yếu tố ngƣời gây nhƣ cảm súc, thiếu tập trung hay thiếu kinh nghiệm ANN độ tin cậy tốt việc huấn luyện đƣợc hồn thành Phƣơng pháp ANFIS cho kết hứa hẹn nhiên số đầu vào lớn việc tính tốn tăng lên làm cho việc chẩn đốn nhiều thời gian chờ đợi, để giải vấn đề sử dụng siêu máy tính chi phí tăng thêm, yếu tố cơng nghệ nên tốc độ xử lý máy tính mức độ giới hạn Theo kinh nghiệm nên kết hợp số phƣơng pháp phân lớp lại với để nâng cao độ xác Cuối mục đích nghiên cứu tham gia vào nỗ lực nâng cao chất lƣợng dịch vụ y tế Cơng nghệ đƣợc nghiên cứu giải pháp để giải cho vấn đề thiếu hụt trầm trọng nguồn lực chăm sóc sức khỏe ( bác sĩ, nhà nghiên cứu y tế ) Bản luận văn trình bày thách thức mà nhiều nƣớc giới phải đối mặt với lĩnh vực chăm sóc sức khoẻ Một số nƣớc tiên tiến giới 89 sử dụng cơng nghệ để giải nhu cầu ngày lớn lên dịch vụ chăm sóc sức khoẻ Tuy nhiên q trình sử dụng cơng nghệ dịch vụ chăm sóc sức khoẻ q trình tổng hợp gồm nhiều giai đoạn nhiều bƣớc Chúng ta cần phải có nghiên cứu tới tất khía cạnh liên quan để triển khai đƣợc cơng nghệ Cần có thêm nghiên cứu phối hợp phƣơng pháp học máy trí tuệ nhân tạo việc xử lý liệu để tìm đƣợc giải pháp tốt Cơng việc luận văn tập trung vào việc xây dựng mạng phân lớp, nhiên cơng việc tƣơng lai tập trung vào việc nâng cao độ xác tăng tốc độ xử lý giảm chi phí tính tốn, nghiên cứu với số bệnh khác nhƣ bệnh thận, ung thƣ tuỵ 90 TÀI LIỆU THAM KHẢO ANFIS Matlab 2Arzucan, O., Supervised and Unsupervised Machine Learning Technique for Text Document Categorization, in Graduate Program in Computer Engineering 2004, Bogazici University 3.Ashraf, M., et al., A New Approach for Constructing Missing Features Values International Journal of Intelligent Information Processing, 2012 3(1): p 110 Hian, K and T Gerald, Data Mining Applications in Healthcare Journal of Healthcare Information Management, 2005 19(2): p 64-72 5.Howell, D Treatment of Missing Data 2009 6.General Information About Male Breast Cancer 2012 [sighted 2012 30/12/2012]; 7.Gershenson, C., Artificial neural networks for beginners arXiv preprint cs, 2003 8.Giarratano, J and G Riley, Expert Systems Principles and Programming ed Vol 1994, Boston: PWS Publishing Company Giarratano, J and G Riley, Expert Systems Principles and Programming ed Vol 1994, Boston: PWS Publishing Company 10 Grossberg, S., Adaptive Resonance Theory, in Encyclopedia of Cognitive Science 2006, John Wiley & Sons, Ltd 11.Grzymala-Busse, J.W and W.J Grzymala-Busse, Handling Missing Attribute Values Data Mining and Knowledge Discovery Handbook, O Maimon and 12 Gunter, D.T and P.N Terry, The Emergence of National Electronic Health Record Architectures in the United States and Australia: Models, Costs, and Questions J Med Internet Res, 2005 7(1) 13.Jang, R and J Shing, ANFIS: Adaptive-Network-based Fuzzy Inference 14.Jang, R and J Shing, ANFIS: Adaptive-Network-based Fuzzy Inference system IEEE transactions on systems, 1993 23(3): p 665 – 685 91 15.Javed, K., et al., Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks Nature Medicine, 2001 7: p 673 16 Kotsiantis, S., Supervised Machine Learning: a Review of Classification 17 Kohavi, R., D Sommerfield, and J Dougherty, Data Mining using MLC++ -18 Kohavi, R and G.H John, Wrappers for feature subset selection Artif Intell., 1997 97(1-2): p 273-324 19.Kononenko, I., Estimating attributes: Analysis and extensions of RELIEF, in Machine Learning ECML-94 1994 20 Kononenko, I., I Bratko, and E Roskar Experiments in automatic learning of medical diagnostic rules in International School for the Synthesis of Expert’s Knowledge Workshop, Bled, Slovenia 1984 21.NEHTA Blueprint 2010 [sighted 2010 01/10/2010]; Available from: http://www.nehta.gov.au 22 Neural_Network_Design_M.Hagan 23.Mammography Screening Can Reduce Deaths from Breast Cancer 2002 [sighted 2011 20/05/ 2011]; Available from: http://www.iarc.fr/en/media centre/pr/2002/pr139.html 24 Marlin, B., Missing Data Problems in Machine Learning, in Department of Computer Science 2008, University of Toronto: Canada 25.Mitchell, T.M., Machine Learning 2005: McGraw Hill 26 Lal, T., et al., Embedded Methods, in Feature Extraction, I Guyon, et al., (Editors) 2006, Springer Berlin Heidelberg p 137-165 27 Larose, D., Discovering Knowledge in Data: An Introduction to Data Mining 2005, New Jersey: John Wiley & Sons, Inc 28 Langley, P and S Sage, Induction of Selective Bayesian Classifiers ;In UAI(1994) Proceedings of the Tenth Annual Conference on Uncertainty in Artificial Intelligence, 1994: p 399-406 29 Quinlan, J.R., Induction of decision trees Machine Learning, 1986 1(1): p 81-106 92 30.Rokach, L., Data mining with decision trees: theory and applications Vol 69 2007: World scientific 31.Rokach, L and O Maimon, eds Data Mining and Knowledge Discovery Handbook Second ed 2010, Springer Science and Business 32.Rokach, L and O Maimon, eds Data Mining With Decision Trees 2008, World Scientific Publishing 33 Rubin, D.B., Inference and missing data Biometrika, 1976 63(3): p 581-592 34.Saeys, Y., I Inza, and P Larraga, A review of feature selection techniques in bioinformatics Bioinformatics, 2007 23(19): p 2507-2517 35 Santhakumaran, F.P., An Algorithm to Reconstruct the Missing Values for Diagnosing the Breast Cancer Global Journal of Computer Science and Technology, 2010 10(2): p 25-28 36.Setiono, R., Generating Concise and Accurate Classification Rules for Breast Cancer Diagnosis Artificial Intelligence in Medicine, 2000 18(3): p 205-219 37.Tan, P.-N., M Steinbach, and V Kumar, Introduction to Data Mining 2006: Addison-Wesley 38.Tarca, A.L., et al., Machine Learning and Its Applications to Biology PLoS Comput Biol, 2007 3(6) 39.Thrun, S.B., et al., The Monk's Problems-A Performance Comparison of Different Learning Algorithms 1991, Carnegie Mellon University: Pittsburgh, PA 40.Thirumuruganathan, S A Detailed Introduction to k-Nearest Neighbor (k-NN) Algorithm 2010 41.UCI Machine Learning Repository [sighted 2010; Available http://archive.ics.uci.edu/ml/about.html 42.Vijayasankari, S and K Ramar, Enhancing Classifier Performance Via Hybrid FeatureSelection and Numeric Class Handling- A ComparativeStudy International Journal of Computer Applications, 2012 41(17): p 30-36 93 from: 43 Widrow, B and M Hoff, Adaptive Switching Circuits, in WESCON Conference Record 1989 p 709-717 44 Wu, X., et al., Top 10 algorithms in data mining Knowl Inf Syst., 2007 14(1): p 1-37 94 ... lỏ, cỏc nỳt ny nm gi cỏc nhón lp, khụng cú ch hng v ch cú mt hng vo 2.3.3.1 X y dng c y quyt nh X y dng c y quyt nh l mt nhim v khú khn bi vỡ cú rt nhiu c y quyt nh nú cú th c x y dng t mt cỏc... Bayes, C y quyt nh cung cp cỏc cụng c chn oỏn t ng cú s h tr ca m y tớnh v h thng h tr quyt nh chn oỏn bnh ung th vỳ V h tr phỏt trin mt h thng tớch hp vi mt quy trỡnh x lý thụng tin ( x lý. .. Naùve Bayes x lý tt c cỏc chc nng mt cỏch c lp v h cú th tiờn oỏn vt ny l mốo, thut toỏn ny rt d x y dng, khụng y u cu c lng tham s, d gii thớch Vỡ th, Naùve Bayes cú th c thc hin bi chuyờn gia