Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
836,31 KB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM ` TRẦN VĂN ĐỒNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN CHO TRẺ EM Chuyên ngành: Hệ thống thơng tin Mã số: 61.49.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN ĐÀ NẴNG - NĂM 2017 Cơng trình hồn thành TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN Người hướng dẫn khoa học: TS NGUYỄN HOÀNG HẢI Phản biện 1: PGS.TSKH Trần Quốc Chiến Phản biện 2: PGS.TS Huỳnh Công Pháp Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Hệ thống thông tin họp Trường Đại học Sư phạm – ĐHĐN vào ngày 30 tháng năm 2017 Có thể tìm hiểu luận văn tại: - Thư viện Trường Đại học Sư phạm, Đại học Đà Nẵng - Trung tâm thông tin học liệu, Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Nhiễm khuẩn hô hấp cấp bệnh lý phổ biến trẻ em gây tỉ lệ tử vong cao so với bệnh khác Các thông báo hội nghị quốc tế chống nhiễm khuẩn hô hấp cấp cho biết hàng năm giới có khoảng 4,3 triệu trẻ em tuổi chết nhiễm khuẩn hơ hấp Mỗi năm đứa trẻ bị đến lần nhiễm khuẩn hô hấp cấp làm ảnh hưởng đến ngày công lao động bố mẹ, gánh nặng xã hội Do nhiễm khuẩn hơ hấp cấp có tầm quan trọng nên tổ chức y tế giới Unicef đưa chương trình phòng chống bệnh nhiễm khuẩn hơ hấp cấp với mục tiêu cụ thể làm giảm tỉ lệ tử vong nhiễm khuẩn hô hấp cấp trẻ tuổi, với mục tiêu lâu dài làm giảm tỉ lệ mắc bệnh giảm tỉ lệ kháng kháng sinh Nhìn chung, nước phát triển, nhiễm khuẩn hô hấp cấp nguyên nhân mắc bệnh hàng đầu trẻ em tuổi, nguyên nhân đến khám bệnh vào điều trị hàng đầu tuyến y tế nguyên nhân tử vong làm trẻ chết nhiều Thật vậy, nguyên nhân ước tính 12,8 triệu tử vong trẻ tuổi, 1990: nhiễm khuẩn hô hấp cấp 33,4 % (4,3 triệu), tiêu chảy 24,8% (3,2 triệu), nguyên nhân khác 41,8% (5,4 triệu) Hen phế quản bệnh mạn tính thường gặp trẻ em nguyên nhân buộc trẻ phải nghỉ học nhiều ngày (trung bình trẻ nghỉ học 5-7 ngày/năm bị hen phế quản), tỷ lệ mắc bệnh tử vong hen phế quản ngày tăng Tỉ lệ mắc bệnh từ 0,5-6% trước đây, tỉ lệ mắc trung bình tử 5-10% Tỉ lệ tử vong trước 1-2% cao 2-3% Nước ta đà phát triển hội nhập Hệ thống Y tế Giáo dục nhiều bất cập hạn chế, đặc biệt sở vùng sâu vùng xa, chưa có điều kiện tiếp cận với cơng nghệ đại Đội ngũ Y Bác sĩ chưa đủ để đáp ứng với tình trạng bệnh nhân ngày tăng số lượng loại bệnh Nhận thức người dân bệnh tật cách sơ cứu mơ hồ Nếu muốn đưa bệnh nhân đến bệnh viện trung tâm nhiều thời gian…Để khắc phục khó khăn này, cần có công cụ gần gũi với thực tiễn, người dùng dễ sử dụng linh hoạt để giúp bệnh nhân Y Bác sĩ phát bệnh điều trị kịp thời Việc ứng dụng Công nghệ thông tin (CNTT) vào lĩnh vực y tế hạn chế, việc hỗ trợ tìm kiếm, khai thác thơng tin nhằm chẩn đốn biểu lâm sàng Trong đó, khai phá liệu kỹ thuật thường áp dụng để hỗ trợ đưa định xác Chính tơi chọn luận văn “Ứng dụng khai phá liệu để chẩn đoán bệnh hen phế quản viêm phế quản cho trẻ em” làm đề tài nghiên cứu luận văn Mục tiêu nhiệm vụ nghiên cứu đề tài Mục tiêu Mục tiêu đề tài xây dựng áp dụng có hiệu việc trợ giúp định việc chẩn đoán bệnh hen phế quản viêm phế quản cho trẻ em từ tháng tuổi đến tuổi Nhiệm vụ Nghiên cứu lý thuyết thuật toán phân lớp kỹ thuật định Tìm hiểu bệnh hen phế quản viêm phế quản, tiến hành điều tra thu thập liệu bệnh hen phế quản viêm phế quản trẻ em từ tháng tuổi đến tuổi Đánh giá kết dự đốn mơ hình lựa chọn mơ hình tốt để chẩn đốn bệnh hen phế quản viêm phế quản Xây dựng ứng dụng khai phá liệu để chẩn đoán bệnh hen phế quản viêm phế quản dựa vào kỹ thuật định Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu Dữ liệu nghiên cứu bao gồm yếu tố liên quan đến biểu yếu tố lâm sàng bệnh hen phế quản viêm phế quản Các kỹ thuật khai phá liệu, công cụ khai phá liệu mô-đun lập trình khai phá liệu Phạm vi nghiên cứu Dữ liệu thu thập gồm hồ sơ bệnh án thuộc đối tượng trẻ em từ tháng tuổi đến tuổi, chẩn đoán bệnh hen phế quản viêm phế quản Khoa nhi - bệnh viện đa khoa tỉnh Khánh Hòa, phòng khám đa khoa trường Cao Đẳng Y tế Khánh Hòa số phòng khám tư nhân địa bàn tỉnh Khánh Hòa Nghiên cứu ứng dụng thuật tốn phân lớp kỹ thuật định Xây dựng ứng dụng khai phá liệu để chẩn đoán bệnh hen phế quản viêm phế quản cho trẻ em Phƣơng pháp nghiên cứu Phƣơng pháp nghiên cứu lý luận Tìm tòi, đọc hiểu, phân tích thơng tin, liệu từ tài liệu, giáo trình, sách liên quan đến khai phá liệu Nghiên cứu kỹ thuật phân lớp thuật toán định, ứng dụng kỹ thuật để chuẩn đoán bệnh hen phế quản viêm phế quản dựa vào thông tin đầu vào Phƣơng pháp nghiên cứu thực tiễn Sử dụng kiến thức khai phá liệu cộng với tri thức chuyên gia bác sĩ, y học chứng cớ y học thực chứng trình khai phá liệu y khoa Tiến hành so sánh kết kỹ thuật khai phá liệu để lựa chọn kỹ thuật cho kết xác Xây dựng hệ thống nhằm hỗ trợ bác sĩ việc chẩn đoán điều trị bệnh Kết dự kiến Kết lý thuyết Nắm kỹ thuật khai phá liệu thuật toán phân lớp kỹ thuật định Ứng dụng kỹ thuật khai phá liệu kết lâm sàng bệnh hen phế quản viêm phế quản để đưa chẩn đoán khả mắc hay không mắc hai chứng bệnh Kết thực tiễn Xây dựng mơ hình chẩn đốn tư vấn bệnh hen phế quản viêm phế quản dựa kỹ thuật khai phá liệu Xây dựng hệ thống hỗ trợ để chẩn đoán bệnh hen phế quản viêm phế quản cho trẻ em Ý nghĩa khoa học thực tiễn luận văn Ý nghĩa khoa học Thông qua đề tài hiểu sâu thuật toán phân lớp kỹ thuật định Góp phần chẩn đốn bệnh hen phế quản viêm phế quản trẻ em dựa khai phá liệu Ý nghĩa thực tiễn Việc xây dựng ứng dụng chẩn đoán bệnh hen phế quản viêm phế quản hỗ trợ cho bác sĩ, cha mẹ bé phát bệnh để có giải pháp can thiệp kịp thời việc chăm sóc sức khoẻ cho trẻ Bố cục luận văn Dự kiến luận văn trình bày bao gồm chương sau: Chương 1: Trong chương trình bày tổng quan khai phá liệu, quy trình khai phá liệu, kỹ thuật khai phá định, Trình bày chi tiết hai thuật toán ID3 C4.5 Chương 2: Nghiên cứu xử lý liệu bệnh hen phế quản viêm phế quản trẻ em Chương trình bày nội dung sau: Đặc điểm hệ hô hấp trẻ em, khái niệm bệnh hen phế quản viêm phế quản, bệnh nguyên, chế sinh bệnh, đặc điểm lâm sàng chẩn đoán bệnh hen phế quản, viêm phế quản cho trẻ em, trình bày canh tác liệu khai phá liệu ứng dụng vào khai phá liệu y khoa Chương 3: Xây dựng hệ thống chẩn đoán bệnh hen phế quản viêm phế quản cho trẻ em CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Sơ lƣợc khai phá liệu Khai phá liệu (KPDL) khái niệm đời vào năm cuối thập kỷ 80 kỷ 20 KPDL dùng để mơ tả q trình phát tri thức sở liệu (CSDL) Quá trình kết xuất tri thức tiềm ẩn từ liệu giúp cho việc dự báo kinh doanh, hoạt động sản xuất, KPDL làm giảm chi phí thời gian so với phương pháp truyền thống trước (ví dụ phương pháp thống kê) 1.1.2 Quy trình khai phá liệu 1.1.3 Các kỹ thuật khai phá liệu 1.1.4 Ứng dụng khai phá liệu 1.1.5 Tổng quan ứng dụng khai phá liệu vào hỗ trợ chẩn đoán bệnh y tế 1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 1.2.1 Phân lớp liệu Phân lớp liệu gán mẫu vào lớp với độ xác cao để dự báo cho liệu (mẫu) Đầu vào tập mẫu liệu huấn luyện, với nhãn phân lớp cho mẫu liệu Đầu mơ hình dự đốn (bộ phân lớp) dựa tập huấn luyện nhãn phân lớp 1.2.2 Quá trình phân lớp liệu 1.2.3 Đánh giá độ xác mơ hình phân lớp 1.3 KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 1.3.1 Giới thiệu chung 1.3.2 Biểu diễn định 1.3.3 Các bƣớc xây dựng định 1.3.4 Ƣu điểm nhƣợc điểm định 1.4 THUẬT TOÁN ID3 1.4.1 Giới Thiệu 1.4.2 Xây dựng giải thuật Entropy đo tính tập liệu: Dùng để đo tính tập liệu Entropy tập S tính theo cơng thức Entropy(S) = - P+ log2 (P+) - P- log2 (P-) (1.1) Trong trường hợp mẫu liệu có hai thuộc tính phân lớp "yes" (+), "no" (-) Ký hiệu p+ để tỷ lệ mẫu có giá trị thuộc tính định "yes", P - tỷ lệ mẫu có giá trị thuộc tính định "no" tập S Trường hợp tổng quát, tập S có n phân lớp ta có cơng thức sau: n Entropy ( s) ( Pi log ( Pi )) (1.2) i 1 Trong Pi tỷ lệ mẫu thuộc lớp i tập hợp S mẫu kiểm tra Information Gain (viết tắt Gain): Gain đại lượng dùng để đo tính hiệu thuộc tính lựa chọn cho việc phân lớp Đại lượng tính thơng qua hai giá trị Information Entropy Cho tập liệu S gồm có n thuộc tính Ai(i=1,2…n) giá trị Gain thuộc tính A tập S ký hiệu Gain(S, A) tính theo cơng thức sau: Gain(S,A)=Entropy ( S ) Sv vvalue ( A ) s Entropy ( Sv ) (1.3) Trong đó: S tập hợp ban đầu với thuộc tính A Các giá trị V tương ứng giá trị thuộc tính A Sv tập hợp tập S mà có thuộc tính A mang giá trị v |Sv| số phần tử tập Sv |S| số phần tử tập S Trong trình xây dựng định (DT) theo thuật toán ID3 bước triển khai cây, thuộc tính chọn để triển khai thuộc tính có giá trị Gain lớn Hàm xây dựng định thuật tốn ID3 Function induce_tree (tập_ví_dụ, tập_thuộc_tính) begin if ví dụ tập_ví_dụ nằm lớp then return nút gán nhãn lớp else if tập_thuộc_tính rỗng then return nút gán nhãn tuyển tất lớp tập_ví_dụ else begin chọn thuộc tính P, lấy làm gốc cho tại; xóa P khỏi tập_thuộc_tính; với giá trị V P begin tạo nhánh gán nhãn V; Đặt vào phân_vùng V ví dụ tập_ví_dụ có giá trị V thuộc tính P; 10 n SplitInfomation S , A i 1 Si S log Si S (1.5) Để ý SplitInfomation thực Entropy S với liên quan giá trị thuộc tính A Trong thuật tốn C4.5 tất thuộc tính tính tốn độ đo GainRatio, thuộc tính có độ đo GainRatio lớn chọn làm thuộc tính phân chia 1.5.2 Xây dựng giải thuật Thuật Toán C4.5 Dữ liệu vào: Tập liệu E, tập thuộc tính F, tập nhãn lớp Dữ liệu ra: Mơ hình DT Thuật toán: Tạo (tập liệu E, tập thuộc tính F, tập nhãn lớp) Nếu điều kiện dừng (E,F)=Đúng Nutla=CreaNode(); Nutla.nhanlop=phanlop(E) Return nutla Ngược lại Nutgoc=CreateNode() Nutgoc.điều kiện kiểm tra=Tìm điểm chia tốt (E,F) Đặt F=F\{nút chọn phân chia} Đặt V={v|v thõa mãn điều kiện phần phân chia xuất phát từ Nutgoc} Lặp qua tập phân chia v V Đặt Ev ={e| Nutgoc.điều kiện kiểm tra (e)=v e E} Nutcon=Tạocây(Ev, F, Tập nhãn lớp) Dừng lặp End if 11 Trả Nút gốc 1.5.3 Ví dụ thuật tốn C4.5 Dữ liệu vào: + Tập liệu thời tiết Bảng 1.1 Tập liệu ví dụ thuật tốn C4.5 Ngày Quang cảnh Nhiệt độ Độ ẩm Gió Chơi tennis D1 Nắng Nóng 85 Nhẹ Khơng D2 Nắng Nóng 90 Mạnh Khơng D3 Âm u Nóng 78 Nhẹ Có D4 Mưa Ấm áp 96 Nhẹ Có D5 Mưa Mát 80 Nhẹ Có D6 Mưa Mát 70 Mạnh Không D7 Âm u Mát 65 Mạnh Có D8 Nắng Ấm áp 95 Nhẹ Khơng D9 Nắng Mát 70 Nhẹ Có D10 Mưa Ấm áp 80 Nhẹ Có D11 Nắng Ấm áp 70 Mạnh Có D12 Âm u Ấm áp 90 Mạnh Có D13 Âm u Nóng 75 Nhẹ Có D14 Mưa Ấm áp 80 Mạnh Không Tạo Cây lần 1: Entropy(S) = -( 9 5 )log2( ) – ( )log2( ) = 0.940 14 14 14 14 Thuộc tính Ngày: Gain(S, Ngày) = Entropy(S) - Entropy(S, Ngày), Trong đó: 12 1 )×Entropy(SD1) + ( )×Entropy(SD2)… 14 14 1 + ( ) × Entropy(SD14) = 14×( )×(0) = 14 14 Entropy(S, Ngày)= ( Gain(S, Ngày) = Entropy(S) - Entropy(S, Ngày) = 0.940 – =0.940 SplitInfomation(S, Ngày) = 14×(- ( 1 )log2( )) = 3.807 14 14 GainRatio(S, Ngày) = 0.940/3.807 = 0.246 Thuộc tính quang cảnh: Gain(S, Quang cảnh) = Entropy(S) – Entropy(S, Quang Cảnh) Trong đó: Entropy(S, QuangCảnh)=( )×Entropy(SNắng)+( ) 14 14 ) ×Entropy(SMưa) 14 5 Gain(S, Quang cảnh) = 0.940 – ( )* 0.971 – ( )* – ( )* 14 14 14 ×Entropy(SÂmu)+ ( 0.97= 0.246 SplitInfomation(S, Quang cảnh) = - ( 5 )log2( ) - ( )log2( 14 14 14 5 ) - ( )log2( ) = 1.577 14 14 14 GainRatio(S, Quang cảnh) = 0.246/1.577 = 0.156 Thuộc tính nhiệt độ: Gain(S, Nhiệt độ) = Entropy(S) - Entropy(S, Nhiệt độ), Trong đó: 13 Entropy(S, Nhiệt độ) = ( )×Entropy(SNóng)+( ) 14 14 ) × Entropy(SMát) 14 Gain(S, Nhiệt độ) = 0.940 – ( )*1 – ( )*0.9178 – ( ) 14 14 14 ×Entropy(SẤmáp)+( *0.81128 = 0.029 SplitInfomation(S, Nhiệt độ) = - ( –( 4 6 )log2( ) – ( )log2( ) 14 14 14 14 4 )log2( ) = 1.557 14 14 GainRatio(S, Nhiệt độ) = 0.028/1.557 = 0.019 Thuộc Tính Độ ẩm: Gain(S, Độ ẩm) = Entropy(S) - Entropy(S, Độ ẩm), Trong đó: Entropy(S, Độ ẩm) = ( )×Entropy(Sđộ 14 ẩm82.5) 7 2 2 )(- ( )log2( ) – ( )log2( )) + ( )(-( )log2( ) – 14 9 9 14 5 3 ( )log2( ))= 0.838 5 =( Gain(S, Độ ẩm) = Entropy(S) - Entropy(S, Độ ẩm) = 0.940 – 0.838 = 0.102 SplitInfomation(S, Độ ẩm) = -( 9 5 )log2( ) – ( )log2( ) 14 14 14 14 = 0.940 GainRatio(S, Độ ẩm) = 0.102/0.940 = 0.108 Thuộc Tính Gió: Gain(S, Gió) = Entropy(S) – Entropy(S, Gió), Trong đó: 14 )×Entroy(SMạnh) + ( )×Entropy(SNhẹ) 14 14 Gain(S, Gió) = 0.940 – ( )*0.811 – ( )*1= 0.048 14 14 6 8 SplitInfomation(S, Gió)=-( )log2( )–( )log2( 14 14 14 14 Entropy(S, Gió) = ( )=0.985 GainRatio(S, Gió) = 0.048/0.985 = 0.049 Lựa chọn thuộc tính tốt để phân chia Entropy trung bình thuộc tính = (0.694 + 0.892 + 0.838 + 0.911 + 0)/5 = 0.667 Ta có: GainRatio(S, Quang cảnh) = 0.156 Entopy(S, Quang Cảnh) = 0.694 > 0.667 Vậy thuộc tính đƣợc chọn làm thuộc tính phân chia Quang Cảnh Tạo Cây lần 2: Sau lập cấp DT ta lại xét nhánh Nắng GainRatio(SNắng, Nhiệt độ) = 0.571/1.522 = 0.375 GainRatio(SNắng, Độ ẩm) = 0.971/0.971 = GainRatio(SNắng, Gió) = 0.020/0.971 = 0.021 GainRatio(SNắng, Ngày) = 0.971/2.322 = 0.418 Như thuộc tính “Độ ẩm” có hiệu suất phân loại cao huộc tính “Độ ẩm” làm nút Tương tự nhánh lại DT ta định hoàn chỉnh sau: 15 Quang cảnh Nắng Độ ẩm 82.5 Có Âm u Mưa Gió Có Chơi >82.5 Khơng Chơi Mạnh Nhẹ Khơng Chơi Có Chơi Hình 1.1 Cây Quyết định Chơi tennis thuật tốn C4.5 Tập luật từ định: Luật 1: if (Quang cảnh = Nắng) Và (Độ ẩm ≤ 82.5) then Chơi tennis = Có Luật 2: if (Quang cảnh = Nắng) Và (Độ ẩm >82.5) then Chơi tennis = Không Luật 3: if (Quang cảnh = Âm u) Và Chơi tennis = Có Luật 4: if (Quang cảnh = Mưa) Và (Gió = Mạnh) then Chơi tennis = Khơng Luật 5: if (Quang cảnh = Mưa) Và (Gió = Nhẹ) then Chơi tennis = Có 1.5.4 Nhận xét thuật toán 16 CHƢƠNG TỔNG QUAN VỀ BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN 2.1 ĐẶC ĐIỂM HỆ HÔ HẤP Ở TRẺ EM 2.1.1 Đặc điểm giải phẫu 2.1.2 Đặc điểm sinh lí 2.2 KHÁI NIỆM BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN 2.2.1 Khái niệm bệnh hen phế quản Mặc dù chưa có định nghĩa hồn chình hen vấn đề tranh luận, quan điểm hen nhiều người cơng nhận tóm tắt sau: Quan điểm nhà sinh lý học cho hen kết hợp hai tượng tăng tính mẫn cảm phế quản tắc nghẽn đường hô hấp Quan điểm nhà sinh lý bệnh cho hen bao gồm tượng co thắt trơn phế quản, phù niêm mạc tăng tiết dịch nhầy phế quản Hiện người ta cho viêm yếu tố trung tâm gây nên thay đổi kể Phản ứng viêm huy động hoạt hóa tê bào Mast, bạch cầu đa nhân trung tính, đại thực bào, tiểu cầu bạch cầu ưa axít giải phóng chất trung gian hóa học Histamin, Leucotrien, Prostaglandin, Thromboxan yếu tố hoạt hóa tiểu cầu 2.2.2 Khái niệm bệnh viêm phế quản Viêm phế quản (VPQ) bệnh thường gặp trẻ em, lứa tuổi thời tiết Đặc biệt trẻ thành thị 17 nơi tập trung dân cư đơng đúc tỉ lệ bệnh cao Hiểu biết số nguyên nhân cách đề phòng làm giảm thiểu bệnh, đề phòng biến chứng nâng cao chất lượng sống VPQ viêm nhiễm đường thở dưới, dân gian gọi sưng cuống phổi, bệnh chưa cơng vào nhu mô phổi, nhiên viêm cuống phổi gây triệu chứng kích thích ho nhiều khơng điều trị tích cực lan xuống nhu mô phổi dẫn đến viêm phổi 2.3 BỆNH NGUYÊN – CƠ CHẾ SINH BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN 2.3.1 Nguyên nhân bệnh hen phế quản 2.3.2 Nguyên nhân bệnh viêm phế quản 2.3.3 Chẩn đốn bệnh 2.4 KHAI PHÁ DỮ LIỆU CĨ CANH TÁC DỮ LIỆU 2.4.1 Khái niệm KPDL khám phá tri thức trình tìm tri thức, mơ hình hữu dụng từ CSDL ban đầu Q trình cần phải có phương pháp luận công cụ cho việc xác định loại liệu thích hợp cho mục đích yêu cầu tốn Qui trình phương pháp sử dụng để định đặc tính thích đáng cần thu thập liệu, nhằm rút tri thức hữu dụng từ CSDL, gọi canh tác liệu Canh tác liệu (CTDL), xét mặt ứng dụng giá trị thơng tin gần chưa có Còn phương pháp, CTDL tập trung xác định chất tác động qua lại thuộc tính để khai phá 2.4.2 Mục đích phƣơng pháp luận canh tác liệu 18 2.4.3 Vai trò canh tác liệu khám phá tri thức khai phá liệu 2.4.4 Lựa chọn áp dụng phƣơng pháp CTDL 2.4.5 Phƣơng pháp canh tác liệu đánh giá đặc tính Định nghĩa Chọn lựa thuộc tính có đặc tính tốt quy trình chọn lựa tập thuộc tính từ tập đặc tính gốc đầy đủ, cho tập đánh giá tốt khả dự đốn xác Các phƣơng pháp chọn lựa đặc tính Có phương pháp chọn lựa đặc tính sau: Phương pháp vét cạn, phương pháp chọn ngẫu nhiên, phương pháp chọn theo kinh nghiệm chuyên gia Trong phương pháp phương pháp vét cạn cho dư thừa tập nhiều khơng liên quan đến giá trị chẩn đốn Phương pháp chọn ngẫu nhiên dẫn đến khả thiếu tập mà tập liệu có khả có giá trị chẩn đốn Còn phương pháp chọn theo kinh nghiệm chuyên gia khắc phục khuyết điểm phương pháp trên, thuộc tính kinh nghiệm chuyên gia đưa đa phần kết quản kiểm chứng thực tế liên quan đến chẩn đốn, chuyên gia khác nhiều lúc đem đặc tính khác Nên luận văn em chọn phương pháp theo kinh nghiệm chuyên gia 2.5 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU Y KHOA 2.5.1 Vai trò điều dƣỡng, bác sĩ canh tác liệu y khoa 19 2.5.2 Ứng dụng canh tác liệu khai phá liệu bệnh HPQ VPQ Có nhiều triệu chứng ảnh hưởng đến việc chẩn đoán bệnh HPQ VPQ nêu Tuy nhiên đây, trọng đến triệu chứng quan trọng sau: Thuộc tính ho: Là kiểu thuộc tính loại Nominal có giá trị {có, khơng} Thuộc tính sốt: Là kiểu thuộc tính loại Nominal có giá trị {sốt, khơng sốt} Thuộc tính nặng ngực (tức ngực): Là kiểu thuộc tính loại Nominal có giá trị {có, khơng} Thuộc tính nhịp thở: Là kiểu thuộc tính loại Nominal có giá trị {bình thường, khó thở, thở nhanh} Thuộc tính đàm (đờm): Là kiểu thuộc tính loại Nominal có giá trị {khơng có, màu xanh,Màu trắng} Thuộc tính sổ mũi: Là kiểu thuộc tính loại Nominal có giá trị {có, khơng} Thuộc tính khò khè: Là kiểu thuộc tính loại Nominal có giá trị {có, khơng} Thuộc tính rút lõm lồng ngực: Là kiểu thuộc tính loại Nominal có giá trị {có, khơng} Thuộc tính ran ngáy, ran rít: Là kiểu thuộc tính loại Nominal có giá trị {có, khơng} Thuộc tính ran ẩm: Là kiểu thuộc tính loại Nominal có giá trị {có, khơng} Thuộc tính li bì, quấy khóc: Là kiểu thuộc tính loại Nominal có giá trị {có, khơng} Trên tập thuộc tính, dựa vào tập thuộc tính ta dự đốn giá trị cho thuộc tính đích chẩn đốn, thuộc tính phân loại 20 CHƢƠNG XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN 3.1 DỮ LIỆU 3.1.1 Thu thập liệu 3.1.2 Xử lý liệu-Chuyển đổi liệu 3.1.3 Chọn lựa thuật toán ngơn ngữ lập trình để tiến hành khai phá 3.2 XÂY DỰNG CHƢƠNG TRÌNH 3.2.1 Dữ liệu đầu vào Tập liệu y khoa bệnh nhân có độ tuổi từ tháng tuổi đến tuổi chẩn đoán bệnh HPQ VPQ Và triệu chứng lâm sàng người dùng nhập vào để chẩn đoán bệnh 3.2.2 Dữ liệu đầu Đầu ra: Cây định dạng treeview tập luật để chẩn đoán bệnh HPQ VPQ 3.2.3 Các chức chƣơng trình 3.2.4 Phân tích u cầu tốn 3.3 DEMO CHƢƠNG TRÌNH Màn hình đăng nhập: Người dùng nhập tên đăng nhập mật để vào hệ thống Hình 3.1 Màn hình đăng nhập vào hệ thống 21 Màn hình chọn lựa chức năng: Người dùng có hai lựa chọn chức “Huấn luyện luyện” “chẩn đốn bệnh” Hình 3.2 Màn hình lựa chọn chức Màn hình huấn luyện liệu: Ở hình người dùng chọn vào nút “Tải liệu” liệu định dạng file excel có phần mở rộng *arff file CSV Hình 3.3 Màn hình huấn luyện liệu với giải thuật C4.5 22 Màn hình chẩn đốn bệnh: Hình 3.4 Màn hình chẩn đốn bệnh 3.4 KẾT QUẢ ĐẠT ĐƢỢC Với liệu 1812 hồ sơ bệnh án hệ thống chẩn đoán với giải thuật C4.5 với tỉ lệ xác của Cây Quyết Đinh = 95.6401766004415% Hình 3.5 Kết huấn luyện liệu hệ thống 23 Kết chẩn đoán bệnh hệ thống Hình 3.6 Kết chẩn đốn bệnh 3.5 SO SÁNH VỚI CÁC ĐỀ TÀI TƢƠNG TỰ Thời gian qua có nhiều đề tài ứng dụng KPDL để xây dựng hệ thống nhằm chẩn đoán bệnh như: Hoàng Thị Thanh Hiền, ứng dụng khai phá liệu để xây dựng hệ thống chẩn đoán bệnh trầm cảm cho học sinh phổ thông, Đại học Đà Nẵng Trương Minh Văn, ứng dụng khai phá liệu chẩn đoán bệnh sốt xuất huyết, Đại học Lạc Hồng Trong luận văn tác giả có sử dụng phương pháp CTDL KPDL y khoa, lựa chọn đặc tính theo kinh nghiệm chuyên gia (y bác sỹ) Luận văn đạt độ xác huấn luyện liệu 95.64% so với đề tài Hoàng Thanh Hiền 97,23%, đề tài Trương Minh Văn 88,88% Luận văn tác giả xây dựng thêm chức huấn luyện liệu tích hợp vào hệ thống mà hai luận văn khơng có 24 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Kết đạt đƣợc Luận văn trình bày sở lý thuyết liên quan đến KPDL, phân lớp liệu, thuật toán định ID3, C4.5, nghiên cứu hai bệnh HPQ VPQ Nghiên cứu quy trình triển khai ứng dụng KPDL, ứng dụng thuật toán C4.5 để tạo hệ thống chẩn đoán bệnh Đối với toán chẩn đoán bệnh HPQ VPQ cho trẻ em luận văn xây dựng mơ hình chẩn đốn bệnh dựa kỹ thuật định Hệ thống đáp ứng đầy đủ u cầu chun mơn việc chẩn đốn bệnh cho người dùng Nó giúp cho người dùng đặc biệt cán y tế thơn chẩn đốn bệnh cách xác từ có hướng điều trị phù hợp Hạn chế luận văn Nhìn chung luận văn hồn thành mục tiêu đề Tuy nhiên hạn chế sau Số lượng mẫu liệu hồ sơ bệnh án chưa nhiều, cần tiếp tục thu thập liệu hồ sơ bệnh án nhiều Chưa áp dụng kỹ thuật khai phá liệu khác để so sánh lựa chọn kỹ thuật tối ưu Hƣớng phát triển đề tài Hệ thống chẩn đoán bệnh HPQ VPQ cho đối tượng trẻ em Trong thời gian tới tiếp tục thu thập thêm liệu cho đối tượng khác từ mở rộng cho hệ thống chẩn đốn bệnh HPQ VPQ cho đối tượng khác Tiếp tục nghiên cứu thuật toán KPDL định thuật toán CHAID, thuật toán MARS, thuật toán ADTNDA (dựa vào độ phụ thuộc thuộc tính) để nâng cao hiệu mơ hình định từ chẩn đốn bệnh cách xác ... phá liệu ứng dụng vào khai phá liệu y khoa Chương 3: Xây dựng hệ thống chẩn đoán bệnh hen phế quản viêm phế quản cho trẻ em 6 CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ... phần chẩn đoán bệnh hen phế quản viêm phế quản trẻ em dựa khai phá liệu Ý nghĩa thực tiễn Việc xây dựng ứng dụng chẩn đoán bệnh hen phế quản viêm phế quản hỗ trợ cho bác sĩ, cha mẹ bé phát bệnh. .. bệnh hen phế quản viêm phế quản Xây dựng ứng dụng khai phá liệu để chẩn đoán bệnh hen phế quản viêm phế quản dựa vào kỹ thuật định Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu Dữ liệu