Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 73 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
73
Dung lượng
1,08 MB
Nội dung
i LỜI CAM ĐOAN Tôi xin cam đoan luận văn kết nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực Được tác giả cho phép tham khảo sử dụng tài liệu đăng tải tác phẩm, tạp chí trang web theo danh mục tài liệu tham khảo luận văn ii LỜI CẢM ƠN Tôi xin gửi lời cảm ơn trân trọng sâu sắc đến thầy giáo PGS.TS Đoàn Văn Ban – thầy tận tình giúp đỡ, hướng dẫn cho suốt trình học tập nghiên cứu, thực đề tài Tôi xin gửi lời biết ơn chân thành đến quý Thầy giáo, cô giáo Viện Công nghệ thông tin quý Thầy cô trường Đại học Công nghệ thông tin & truyền thông Đại học Thái Nguyên tận tình giảng dạy, trang bị cho kiến thức quý báu suốt trình học tập trường Tôi xin gửi lời biết ơn chân thành đến Ban giám hiệu, phòng ban trường Cao đẳng Y tế Thanh Hóa tạo điều kiện cho tham gia lớp học Tôi xin gửi lời biết ơn chân thành đến quan Bắc Trung Bộ giúp đỡ hỗ trợ cho tham gia khóa học Tôi xin cảm ơn, chia sẻ niềm vui với gia đình, bạn bè đồng nghiệp y bác sĩ anh chị em lớp Cao học K12G trường Đại học Công nghệ thông tin & truyền thông Đại học Thái Nguyên, người bên tôi, giúp đỡ tạo điều kiện thuận lợi học tập, nghiên cứu, hoàn thành luận văn iii MỤC LỤC LỜI CAM ĐOAN i No table of figures entries found DANH MỤC CÁC CHỮ VIẾT TẮT v DANH MỤC BẢNG BIỂU v DANH MỤC CÁC HÌNH vi ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU PHƯƠNG PHÁP NGHIÊN CỨU HƯỚNG NGHIÊN CỨU CỦA ĐỀ TÀI BỐ CỤC LUẬN VĂN Ý NGHĨA KHOA HỌC CỦA ĐỀ TÀI Chương Giới thiệu hệ thống hỏi đáp 1.1 Hệ thống hỏi – đáp tự động 1.2 Phân loại hệ thống hỏi đáp tự động 1.2.1 Phân loại theo miền ứng dụng 1.2.2 Phân loại theo khả trả lời câu hỏi 1.2.3 Phân loại theo hướng tiếp cận 1.3 Cơ sở tri thức máy suy diễn 1.3.1 Cơ sở tri thức 1.3.1.1 Khái niệm hệ sở tri thức 1.3.1.2 Hệ phân loại tri thức 1.3.1.3 Các phương pháp biểu diễn tri thức 10 1.3.2 Máy suy diễn 15 1.4 Kiến trúc hệ thống hỏi – đáp 18 1.4.1 Giao diện người dùng 19 1.4.2 Phân tích câu hỏi 19 1.4.3 Tìm kiếm liệu 19 1.4.4 Rút trích câu trả lời 20 1.4.5 Xác minh câu trả lời 20 1.5 Kết chương 20 Chương Kỹ thuật phân lớp liệu khai phá liệu 21 2.1 Khai phá liệu phát tri thức 21 2.2 Khai phá luật kết hợp 24 2.3 Phân lớp, phân cụm liệu 25 2.4 Cây định 29 iv 2.5 Các thuật toán phân lớp liệu phổ biến 30 2.5.1 Thuật toán định ID3 30 2.5.2 Thuật toán C4.5 33 2.5.3 Thuật toán SVM 36 2.5.4 Thuật toán phân lớp K người láng giềng gần 36 2.6 Các vấn đề liên quan đến phân lớp liệu 37 2.6.1 Chuẩn bị liệu cho việc phân lớp 37 2.6.2 So sánh mô hình phân lớp 38 2.6.3 Các phương pháp đánh giá độ xác mô hình phân lớp 39 2.7 Kết chương 40 Chương Xây dựng hệ thống hỏi đáp tự động số bệnh thương gặp 41 3.1 Các loại bệnh thường gặp 41 3.1.1 Bệnh lao 41 3.1.2 Viêm phổi 46 3.2 3.3 3.4 3.5 Xây dựng sở luật (KB) 52 Xây dựng chế suy diễn để khai thác, tìm câu trả lời 56 Thiết kế hệ thống hỏi đáp 59 Cài đặt thử nghiệm hệ thống hỏi đáp 60 3.5.1 Môi trường phát triển hệ thống 60 3.5.2 Cấu trúc thành phần để triển khai hệ thống 60 3.5.3 Cài đặt chương trình 61 3.5.4 Thử nghiệm hệ thống 61 3.5.4.1 Chức khai phá liệu 61 3.5.4.2 Giao diện chẩn đoán bệnh 62 3.5.4.3 Danh mục triệu chứng bệnh thông thường 64 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 65 DANH MỤC TÀI LIỆU THAM KHẢO 66 v DANH MỤC CÁC CHỮ VIẾT TẮT Chữ viết tắt Tiếng anh Tiếng việt Q&A Question Answering Hỏi - đáp CSDL Cơ sở liệu DANH MỤC BẢNG BIỂU Tên bảng Trang Bảng 3.2a Bảng liệu da rám nắng 52 Bảng 3.2b Phân hoạch 54 vi DANH MỤC CÁC HÌNH Hình 1.1 Xu hướng nghiên cứu Q&A Hình 1.2 Mô hình đồ thị biểu diễn tri thức nhờ mạng ngữ nghĩa 11 Hình 1.3 Mô hình đồ thị thêm vào nút cung biểu diễn tri thức nhờ mạng NN 12 Hình 1.4 Mô hình biểu diễn tri thức nhờ ba liên hợp O.A.V 14 Hình 1.5 Hệ thống tìm kiếm thông tin 18 Hình 1.6 Kiến trúc hệ thống hỏi đáp 19 Hình 2.1 Quá trình phát tri thức 21 Hình 2.2 Phân lớp liệu 26 Hình 2.3 Phân cụm liệu 28 Hình 2.4 Siêu phẳng h phân chia liệu huấn luyện thành lớp + – với khoảng cách biên lớn Các biên gần h vector hỗ trợ (Support Vector – khoanh tròn) 36 Hình 2.5 Ước lượng độ xác mô hình phân lớp với phương pháp holdout 39 Hình 3.1 Phân hoạch thuộc tính 54 Hình 3.2 Phân hoạch thuộc tính 55 Hình 3.3 Mô hình kiến trúc hệ thống 59 Hình 3.4 Giao diện khai phá liệu 61 Hình 3.5 Chẩn đoán bệnh hệ thống 62 Hình 3.6 Chẩn đoán 62 Hình 3.7 Giao diện câu hỏi hệ thống 63 Hình 3.8 Giao diện kết chẩn đoán 63 Hình 3.9 Giao diện hỗ trợ hệ thống 64 vii ĐẶT VẤN ĐỀ Ngày với phát triển mạnh mẽ khoa học kỹ thuật từ lý thuyết đến ứng dụng, người ta cố gắng đưa công nghệ thông tin vào ngành nghề như: khoa học kỹ thuật, giáo dục, y tế, v.v, lĩnh vực y tế ngày nhiều người quan tâm Các nhà nghiên cứu hệ thống hỏi đáp bắt đầu khai thác web nguồn liệu cho việc tìm kiếm câu trả lời Phân tích câu hỏi phần kiến trúc chung hệ thống hỏi đáp, có nhiệm vụ tìm thông tin cần thiết làm đầu vào cho trình xử lý phần sau (trích chọn tài liệu, trích xuất câu trả lời, v.v) Vì vậy,việc phân tích câu hỏi có vai trò quan trọng, ảnh hưởng trực tiếp đến hoạt động toàn hệ thống Nếu phân tích câu hỏi không tốt tìm câu trả lời Hệ thống hỏi - đáp tự động công cụ hữu hiệu phục vụ cho nhu cầu tìm kiếm trao đổi thông tin ngày cao người, hệ thống hỏi đáp có nhiều dạng câu hỏi như: Câu hỏi dạng định nghĩa (What), câu hỏi nơi chốn (Where), câu hỏi (How), câu hỏi đúng/sai (Yes/No) Nhưng hệ thống hỏi - đáp (Yes/No) lại quan tâm vài năm gần Như vậy,việc xây dựng hệ thống hỏi - đáp (Yes/No) nhu cầu cần thiết Hướng tới mục tiêu này, muốn xây dựng mô hình hệ thống hỏi - đáp tự động (Yes/No) nhằm phục vụ cho lĩnh vực cụ thể hỗ trợ việc chẩn đoán khuyến nghị điều trị bệnh lý thông thường sống Trong sống ngày, có nhiều loại bệnh thường xuyên đe dọa đến sức khỏe người Thường loại bệnh xuất phát từ triệu chứng, biết Cho nên yêu cầu người cần có hệ thống hỏi - đáp giúp họ chẩn đoán bệnh giúp họ hướng giải để đảm bảo sức khỏe cho Như vậy, mục tiêu đề tài tìm hiểu tri thức y khoa loại bệnh thông thường, thu thập tri thức để xây dựng hệ thống hỏi đáp nhằm hổ trợ chẩn đoán phân loại bệnh thường gặp, cho người sử dụng lời khuyên hữu ích việc phòng điều trị bệnh Nhận thấy tính thiết thực vấn đề gợi ý giảng viên hướng dẫn, chọn đề tài “Các thuật toán phân lớp liệu ứng dụng xây dựng hệ thống hỏi đáp tự động số bệnh thường gặp" ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU - Nghiên cứu kỹ thuật phân lớp liệu khai phá liệu - Tìm hiểu bệnh thường gặp xây dựng sở tri thức biểu bệnh dựa sở liệu thu thập Bệnh viện Đa khoa tỉnh Thanh Hóa để phân lớp loại bệnh PHƯƠNG PHÁP NGHIÊN CỨU Phương pháp nghiên cứu lý thuyết: Nghiên cứu qua tài liệu, sách, sách điện tử, báo, thông tin tài liệu website tài liệu liên quan công nghệ liên quan, tổng hợp tài liệu, phân tích thiết kế hệ thống thông tin theo quy trình xây dựng ứng dụng phần mềm Phương pháp nghiên cứu thực nghiệm: Phân tích trạng yêu cầu thực tế toán xây dựng bước phân tích hệ thống để hỗ trợ việc lập trình, xây dựng ứng dụng,vận dụng vấn đề nghiên cứu mã hóa thông tin tiến trình xây dựng hệ thống, đánh giá kết đạt HƯỚNG NGHIÊN CỨU CỦA ĐỀ TÀI - Nghiên cứu phương pháp phân lớp liệu KPDL, thuật toán liên quan đến quy nạp định, tìm hiểu ngôn ngữ mã lệnh siêu tìm kiếm - Tìm hiểu hệ thống hỏi đáp tự động, ứng dụng công nghệ tri thức hỗ trợ phục vụ chẩn đoán đưa khuyến nghị điều trị số bệnh thường gặp BỐ CỤC LUẬN VĂN Sau phần mở đầu, nội dung luận văn chia thành chương: Chương trình bày lý thuyết hỏi đáp tự động, sở tri thức, máy suy diễn ứng dụng máy suy diễn hỏi đáp tự động Chương trình bày thuật toán phân lớp liệu trình bày khai phá liệu Trên sở lý thuyết trình bày chương 1, xây dựng ứng dụng cho việc chẩn đoán đưa lời khuyến nghị điều trị loại bệnh thông thường Chương trình bày số vấn đề liên quan đến việc chẩn đoán loại bệnh thông thường, mô tả cài đặt thử nghiệm ứng dụng Ý NGHĨA KHOA HỌC CỦA ĐỀ TÀI Đề tài đưa phương thức ứng dụng định, ID3 chẩn đoán loại bệnh,và đưa khuyến nghị điều trị loại bệnh thông thường 52 Nói chung, dù bị viêm phổi, cảm, cúm hay bệnh khác, giữ thể điều cần thiết để làm cho ta cảm thấy thoải mái hơn, giúp mau hết bệnh Như nói, lạnh nguyên nhân viêm phổi, ta không cần phải tránh nước Nếu sợ lạnh, tắm rữa nước ấm chút điều tốt 6) Cần phải uống thuốc nào? Thứ nhất, nên bác sĩ để chẩn đoán xác hầu kê thuốc Không nên mượn thuốc người khác Cần nhớ người chẩn đoán cho thuốc nên bác sĩ y tá hay dược sĩ Khi cho thuốc, cần nhớ theo lời dặn Nhất thuốc trụ sinh, dù thấy bệnh bớt sau vài ngày, phải dùng đủ liều đủ ngày để tránh lờn thuốc cho lẫn cộng đồng 3.2 Xây dựng sở luật (KB) Yêu cầu toán : Cho bảng liệu huấn luyện Bảng 3.2a Bảng liệu da rám nắng Stt Màu tóc Chiều cao Cân nặng Dùng thuốc? Kết Đen Tầm thước Nhẹ Không Bị rám Đen Cao Vứa phải Có Không Râm Thấp Vứa phải Có Không Đen Thấp Vừa phải Không Bị rám Bạc Tầm thước Vừa phải Không Bị rám Râm Cao Nặng Không Không Râm Tầm thước Nặng Không Không Đen Thấp Nhẹ Có Không + Áp dụng thuật toán ID3 để phát luật suy diễn từ bảng liệu số bệnh thường gặp Tính Entropy cho huấn luyện theo công thức Entropy(S) = -p+log2p+ - p-log2pMàu tóc 53 Vmàu tóc = (T(đen,rám), T(đen Không rám)) = (2/8,2/8), nghĩa có tập huấn luyện S gồm: màu tóc “Đen” có {1,4} có giá trị “Bị rám” {2,8} có giá trị “Không” Vmàu tóc = (T(râm,rám), T(râm, không rám)) = (0/8, 3/8) Vmàu tóc = (T(bạc, rám), T(bạc, không rám)) = (1/8,0/8) Chiều cao Vchiều cao = (T(tầm thước, rám), T(tầm thước, không rám)) = (2/8,1/8) Vchiều cao = (T(cao, rám), T(cao, không rám)) = (0/8,2/8) Vchiều cao = (T(thấp, rám), T(thấp, không rám)) = (1/8,2/8) Cân nặng Vcân nặng = (T(nhẹ, rám), T(nhẹ, không rám)) = (1/8, 1/8) Vcân nặng = (T(vừa phải, rám), T(vừa phải, không rám)) = (1/8, 2/8) Vcân nặng = (T(nặng, rám), T(nặng, không rám)) = (1/8, 2/8) Dùng thuốc Vdùng thuốc = (T(không, rám), T(không, không rám)) = (3/8, 2/8) Vdùng thuốc = (T(có, rám), T(có, không rám)) = (0/8, 3/8) Tính Gain cho thuộc tính: Thay vào công thức tính Gain(S, màu tóc) =entrpy(s) - [ (= 0.454 Tính Gain (S, màu tóc) = 0.454 Theo cách tính tương tự trên, ta tính được: 54 Gain (S, Chiều cao) = 0.265712127384098 Gain (S, Cân nặng) = 0.204434002924965 Gain (S, Dùng thuốc) = 0.347589891390797 Như vậy, thuộc tính “Màu tóc” thuộc tính có số Gain lớn nên chọn thuộc tính phân hoạch Vì thuộc tính “Màu tóc” chọn làm nhãn cho nút gốc, ba nhánh tạo với tên là: “Đen”, “Bạc” “Râm” Màu tóc Bạc(5) (rám) Đen (1,2,4,8) Râm (3,6,7) (Không rám) Hình 3.1 Phân hoạch thuộc tính Bước cần phân hoạch tập P1 = (1,2,4,8) Phân hoạch tập P1 Bảng 3.2b Phân hoạch TT Chiều cao Cân nặng Dùng thuốc? Kết Tầm thước Nhẹ Không Bị rám Cao Vừa phải Có Không Thấp Vừa phải Không Bị rám Thấp Nhẹ Có Không Tính vector đặc trưng: Chiều cao: Vchiều cao = (T (tầm thước, rám), T (tầm thước, không rám)) = (1/4, 0/4) Vchiều cao = (T (thấp, rám), T (thấp, không rám)) = (1/4, 1/4) Vchiều cao = (T (cao, rám), T (cao, không rám)) = (0/4, 1/4) Cân nặng: Vcân nặng = (T (nhẹ, rám), T (nhẹ, không rám)) = (1/4, 1/4) 55 Vcân nặng = (T (vừa phải, rám), T (vừa phải, không rám)) = (1/4, 1/4) Dùng thuốc: Vdùng thuốc = (T (có, rám), T (không, rám) = (0/4, 2/4) Vdùng thuốc = (T (không, rám), T (không, không rám)) = (2/4,0/4) Chọn thuộc tính Dùng thuốc làm thuộc tính phân hoạch Dùng thuốc Có (2.8) Không rám Không (1,4) (rám) Kết dạng sau: Màu tóc Bạc (5) Đen (1,2,4,8) (Dùng thuốc) Có (2,8) Không rám) (rám) không (1,4) (rám) Hình 3.2 Phân hoạch thuộc tính Từ định danh ta suy luật sau: Tóc bạc Rám Tóc râm Không bị rám (Tóc đen, có dùng thuốc) Không rám (Tóc đen, không dùng thuốc) Rám Râm(3,6,7) (Không rám) 56 3.3 Xây dựng chế suy diễn để khai thác, tìm câu trả lời Trong đề tài ta chọn phương pháp suy diễn lùi, để đưa kết luận B ta thử tìm tất luật có dạng Horn: A1^ ^ An → B Để có B, ta cần chứng minh A1, , An (các kết luận thêm vào tập kết luận) Quá trình xác định Ai diễn tương tự B Nếu đến lúc tìm thấy Aio dẫn xuất từ giả thiết ta quay lui sang luật khác sinh B lại tiếp tục trình Nếu không tìm Aio (nghĩa Ai dẫn xuất từ giả thiết) trình dẫn xuất B thành công Để thực trình quay lui, ta sử dụng hai tập có cấu trúc ngăn xếp GOAL VET: GOAL tập lưu mệnh đề cần phải chứng minh đến thời điểm xét VET tập lưu luật sử dụng để chứng minh đích (kể đích trung gian) Đầu vào: Tập mệnh đề giả thiết cho GT = {g1, g2, g3, …, gn} Tập luật RULE = {r1, r2, r3, …, rm} Tập mệnh đề kết luật KL = {q1, q2, q3, …, qk} Đầu ra: Kết luận thành công hay không thành công Giải thuật: Sử dụng cấu trúc Goal Vet dạng Stack GOAL: Là tập lưu mệnh đề cần phải chứng minh đến thời điểm xét VET: Là tập chứa luật sử dụng để chứng minh đích (kể đích trung gian) If (KL GT) Then { Exit (“Thành công”); 57 } Else { (1) GOAL = ; VET = ; CMđược = True; For q KL Do GOAL= GOAL (q,0); Repeat { (2) (f, i) Get (GOAL); //Lấy cặp (f, i) từ GOAL If (f GT) Then { (3) Tìm_luật (f, i, RULE, j); // Tìm luật rj: leftj f If (j m) Then { VET = VET (f, j); For t leftj \ GT Do GOAL = GOAL (t, 0); } Else { (4) back = True; // Biến dùng để quay lui While (f KL and back) { (5) Repeat { (g, k) Get (VET); 58 // Lấy luật rk: leftk g từ VET để quay lui đến luật khác mà g GOAL = GOAL \ leftk; } Until (f leftk); Tìm_luật (g, k, RULE, s); // Tìm luật rs: lefts g If (s m) Then { For each tlefts\GT Do GOAL = GOAL (t, 0); VET = VET (g, s); back = False; } Else f = g; } (5) If (f KL and back) then CMđược = False; } } } (4) (3) (2) Until (GOAL = or not (CMđược); If (CMđược) Then Exit (“thành công”) Else Exit (“Không thành công”); } (1) Trong giải thuật ta sử dụng thủ tục: Tim_luat (f,I,RULE,k) để tìm xem có luật rk kể từ luật thứ i+1 trở mà suy f (rk: leftk f) Nếu luật thi qui ước lấy k = m+1 59 3.4 Thiết kế hệ thống hỏi đáp Các tri thức thu thập từ chuyên gia - bác sỹ, tri thức thu thập từ bệnh án, giảng viên chuyên ngành, tài liệu y khoa từ internet Đầu vào hệ thống tập loại bệnh, triệu chứng, lời khuyến nghị điều trị tương ứng cho loại bệnh, lời khuyên bác sỹ Thông qua chế suy diễn, áp dụng tất luật suy diễn kết quả, sau kết hợp kết đầu hiển thị kết cuối lên giao diện người sử dụng cho người dùng cuối Internet Tài liệu, sách, báo Hệ chuyên gia CSDL bệnh án Thu thập tri thức Cơ sở liệu bệnh (Database) Cshap SQL Sever 2012 Tạo tập luật Cơ sở tri thức (Knowledge base) Máy suy diễn (inference engine) Giao diện người sử dùng Người Sử dụng Chuyên gia QT hệ thống Hình 3.3 Mô hình kiến trúc hệ thống 60 3.5 Cài đặt thử nghiệm hệ thống hỏi đáp 3.5.1 Môi trường phát triển hệ thống Hệ thống hỏi đáp trợ giúp phục vụ cho việc hỗ trợ chẩn đoán loại bệnh lý thường gặp cộng đồng, phát triển môi trường máy đơn sử dụng ngôn ngữ lập trình CShap, thực thông qua: Hệ điều hành: Windows XP/ Win7 Công cụ phát triển: CShap (.NET Framework 4.0) Công cụ soạn thảo: Microsoft Office 2007 Cơ sở liệu quan hệ: SQL Server 2012 3.5.2 Cấu trúc thành phần để triển khai hệ thống Hệ thống triển khai thành phần sau: Thu thập thông tin lĩnh vực bệnh lý thông thường (tri thức) Từ sở liệu bệnh án Từ chuyên gia bác sĩ Từ Internet Từ tài liệu, sách báo y khoa Cở sở liệu bệnh (dữ liệu thô) Tổ chức sở liệu theo mô hình quan hệ (dạng bảng) Tạo tập luật (Cây định) Dùng thuật toán ID3 xây dựng định từ liệu thô Từ định cho ta tập luật Cơ sở tri thức Hệ suy diễn tìm câu trả lời từ sở tri thức Giao tiếp người sử dụng hệ thống Thao tác tìm kiếm câu trả lời chẩn đoán bệnh: 61 Người sử dụng khởi động hệ thống trả lời câu hỏi dạng Yes/ No Hệ thống suy diễn dựa sở luật từ sở tri thức Trả kết cho người dùng thông tin bệnh Thao tác bổ sung cập nhật tri thức Chuyên gia bổ sung liệu từ nguồn cập nhật Xây dựng luật thay đổi luật tương ứng Người quản trị hệ thống cập nhật luật vào sở tri thức 3.5.3 Cài đặt chương trình Từ mô hình kiến trúc hệ thống (Hình 3.3), hệ trợ giúp gồm phần lớn: Phần 1: Thu thập liệu từ nguồn khác (bệnh án, tri thức từ chuyên gia, bác sĩ, v.v) Dữ liệu từ loại bệnh, triệu chứng bệnh nhân, khuyến nghị điều trị Phần minh họa thông qua chức hỏi đáp dạng Yes/No Phần 2: Cơ sở tri thức thành phần hệ trợ giúp gồm: Các triệu chứng, loại bệnh, khuyến nghị điều trị thu thập từ phần mã hóa thành tập liệu làm tảng cho việc xây dựng sở luật cho suy diễn Cơ sở luật thành phần thiếu định nói chung hệ trợ giúp nói riêng Nó thành phần quan trọng để chuẩn bị cho phần suy diễn hệ Cơ sở luật minh họa qua chức “Nhập liệu” Phần 3: Cơ chế suy diễn, từ sở tri thức thu nhận phần qua suy diễn hệ trợ giúp định cho kết chuẩn đoán Kết chẩn đoán hiển thị qua giao diện người sử dụng, bệnh nhân biết thông tin bệnh đồng thời biết lời khuyến nghị điều trị tương ứng với bệnh tật Phần biễu diễn qua chức “Chẩn đoán bệnh” 3.5.4 Thử nghiệm hệ thống 3.5.4.1 Chức khai phá liệu Nhận liệu đầu vào bảng liệu, giải thuật ID3 (xem Hình 3.4) 62 Hình 3.4 Giao diện khai phá liệu 3.5.4.2 Giao diện chẩn đoán bệnh Từ triệu chứng đầu vào, thông qua mô hình hệ thống trợ giúp gồm nhiều sở luật, chế suy diễn để đưa kết qủa chẩn đoán với lời khuyến nghị điều trị kèm theo việc chẩn đoán Giao diện chẩn đoán bệnh hệ thống thể qua hình (xem Hình 3.5): Hình 3.5 Chẩn đoán bệnh hệ thống Khi người dung vào hệ thống để chẩn đoán bệnh qua giao diện hệ thống Hệ trợ giúp yêu cầu người dùng chọn loại bệnh phần ComboBox mà muốn chẩn đoán, hệ trợ giúp đưa loại bệnh có hệ thống Ngoài người dùng nhập thêm loại bệnh thông thường khác (xem Hình 3.6) 63 Hình 3.6 Chẩn đoán Khi người dùng chọn chẩn đoán, hệ thống đưa câu hỏi cho người dùng chọn dạng YES/NO (“Có” / “không”) (xem Hình 3.7): Hình 3.7 Giao diện câu hỏi hệ thống Người dùng tiếp tục trả lời chuỗi câu hỏi hệ thống đưa ra, hệ thống nhận câu trả lời mà thỏa với luật hệ thống dừng trả lời kết (xem Hình 3.8) Ngược lại hệ thống báo không chẩn đoán (nghĩa hệ thống đưa hết tất câu hỏi hệ thống mà người dùng trả lời không thỏa với luật hệ thống) 64 Hình 3.8 Giao diện kết chẩn đoán Hình 3.9 Giao diện hỗ trợ hệ thống Trong giao diện người dùng xem lời khuyến nghị điều trị chăm sóc bệnh, tổng quan bệnh, lời khuyên bác sỹ tương ứng với kết hệ thống chẩn đoán Thông qua Button tương ứng (xem Hình 3.9): Nút button “Khuyến nghị điều trị chăm sóc” Nút button “Tổng quan” Nút button “Lời khuyên bác sĩ” 3.5.4.3 Danh mục triệu chứng bệnh thông thường Hệ trợ giúp cho phép người dùng nhập, thêm, sữa, xóa Các câu hỏi (triệu chứng) liên quan đến bệnh thông thường Cơ sở luật thành phẩn quan trọng hệ định nói chung hệ suy diễn nói riêng Cơ sở luật thực chất tập luật suy diễn IF- THEN, tập phát biểu triệu chứng, nguyên nhân gây bệnh 65 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Quá trình phân tích toán cụ thể, chi tiết Vận dụng vấn đề suy diễn hệ thống, cụ thể ứng dụng suy diễn tiến suy diễn lùi xây dựng hệ trợ giúp chẩn đoán loại bệnh lý thông thường Luận văn trình bày số phương pháp khai phá liệu dựa vào phân lớp ứng dụng vào hệ thống chẩn đoán bệnh Trình bày chi tiết thuật toán định, ID3, C4.5 áp dụng phân loại bệnh thường gặp để hỗ trợ chẩn đoán bệnh Xây dựng hệ thống hỏi đáp hỗ trợ chẩn đoán bệnh thường gặp Hạn chế: Trong luận văn thiết kế liệu mang tính demo, chưa xây chương trình phức tạp với sở liệu lớn, chưa áp dụng nhiều kỹ thuật khai phá khác làm tăng độ xác cao Hướng phát triển: Nghiên cứu kỹ thuật phân lớp phát triển phần mềm đa chức tập hợp đầy đủ kiến thức y khoa giúp cho trình học tập, nghiên cứu thay phần nhỏ bác sỹ giúp cho người dùng hiểu biết nhận định xác tình trạng sức khỏe Mở rộng phạm vi chẩn đoán cho tất loại bệnh phức tạp Nâng cấp hệ trợ giúp thêm phần loại bệnh trẻ em, loại bệnh người già, loại bệnh đàn ông, v.v Nâng cao tốc độ thực hệ trợ giúp cách xây dựng thuật toán tối ưu hơn, để hệ thống chạy Internet 66 DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Hữu Hồng (1996), Hướng dẫn sử dụng thuốc thiết yếu để điều trị số bệnh thường gặp cộng đồng, Hà Nội [2] Nguyễn Thanh Thủy (2007), Trí tuệ nhân tạo – Các phương pháp giải vấn đề kỹ thuật xử lý tri thức Nhà xuất giáo dục, Hà Nội [3] Chu Văn Tường, Nguyễn Công Khanh, Trần Quy, Lê Nam Trà, Cao Quốc Việt (1996), Cấp cứu nhi khoa Nhà xuất y học, Hà Nội Tiếng Anh [4] Mark A Greenwood, Robert Gaizauskas, et al (2003), The University of Sheffield’s TREC 2003 Q&A Experiments, In Proceedings of the 12th Text REtrieval Conference [5] Mark A Greenwood and Horacio Saggion (2004),”A Pattern Based Approach to Answering Factoid, List and Definition Questions”, In Proceedings of the 7th RIAO Conference (RIAO 2004) [6] Morgan Kaufman (2002), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers [7] Ian Roberts and Robert Gaizauskas (2004),”Evaluating Passage Retrieval Approaches for Question Answering”, In Proceedings of 26th European Conference on Information Retrieval (ECIR’04) [8] Jiawei Han and Micheline Kamber (2002), Data Mining Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers [9] The Morgan Kaufmann Series in Data Management Systems, Jim Gray Datamining-Concepts and Techniques, Chapter 7-Classification and Prediction Series Editor Morgan Kaufmann Publishers, August 2000 [10] Jaiwei Han and Micheline Kamber, Data Mining: Comcepts and Techniques (2001), ISBN 1-55860-489-8 Trang web [11] http://www.suckhoedoisong.vn [12] http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/index.html [13] http://suckhoe.24h.com.vn/ [...]... thiệu về hệ thống hỏi đáp 1.1 Hệ thống hỏi – đáp tự động Hệ thống hỏi đáp tự động là một hệ thống tự động trả lời câu hỏi của người dùng dựa trên quá trình tự động nhận diện, phân tích câu hỏi, trên cơ sở kết quả phân tích dữ liệu, hệ thống sẽ tìm kiếm các nội dung có liên quan đến câu hỏi và cuối cùng, hệ thống xử lý các nội dung này để trích chọn câu trả lời Nghiên cứu về hệ thống hỏi đáp tự động. .. Các câu hỏi và câu trả lời sau đó được so sánh với nhau để xác minh tính hợp lý của các câu trả lời 1.5 Kết chương 1 Chương 1, giới thiệu hệ thống hỏi đáp tự động, cơ sở tri thức, máy suy diễn và hiện trạng hệ thống hỏi đáp tự động cùng với một số vấn đề cần quan tâm khi xây dựng hệ thống hỏi đáp tự động 21 Chương 2 Kỹ thuật phân lớp dữ liệu trong khai phá dữ liệu 2.1 Khai phá dữ liệu và phát hiện... hơn so 7 với xây dựng hệ thống hỏi đáp miền mở vì có thể sử dụng các tri thức miền (thường là ontology của miền cụ thể) Hệ thống hỏi đáp Miền đóng Miền mở Dữ liệu có cấu trúc Web Dữ liệu phi cấu trúc (Text) Tập dữ liệu lớn Một văn bản đơn Hình 1.1 Xu hướng trong nghiên cứu về Q&A Các nghiên cứu hiện nay về Q&A đang tập trung vào xây dựng hệ thống hỏi đáp trên miền mở, sử dụng nguồn dữ liệu phi cấu... nghĩa khai phá dữ liệu: khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp Khai phá tri thức từ cơ sở dữ liệu là quy trình bao gồm nhiều công đoạn: như xác định vấn đề, tập hợp và chọn lọc dữ liệu, khai thác dữ liệu, đánh giá kết quả, giải thích dữ liệu, áp dụng tri thức vào thực tế... ra được các tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu Thu thập và tiền xử lý dữ liệu: Dữ liệu được thu thập và xử lý ở dạng thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu (làm sạch dữ liệu) , xử lý việc thiếu dữ liệu (làm giàu dữ 22 liệu) , biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm... không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm 28 Hình 2.3 là một ví dụ về phân cụm... năng bộ phân lớp dự đoán đúng dữ liệu chưa thấy - Tính bền vững: khả năng của bộ phân lớp thực hiện dự đoán đúng vớ dữ liệu có nhiễu hay thiếu giá trị - Tính kích cỡ: khả năng tạo bộ phân lớp hiệu quả với số lượng dữ liệu lớn - Khả năng diễn giải: bộ phân lớp cung cấp tri thức có thể hiểu được Phân cụm dữ liệu Phân cụm dữ liệu là một kỹ thuật quan trọng trong phân tích dữ liệu và được áp dụng trong... và sự kết hợp các kỹ thuật tùy thuộc vào hướng tiếp cận và phương thức xử lý của từng hệ thống hỏi đáp cụ thể Hướng tiếp cận sử dụng các mẫu để lựa chọn câu trả lời được rất nhiều bài báo đề xuất [6] Theo đó, quá trình lựa chọn câu trả lời thường không đi sâu vào xử lý tài liệu mà chỉ so khớp mẫu 1.2 Phân loại các hệ thống hỏi đáp tự động Có nhiều cách phân loại hệ thống hỏi đáp dựa trên các tiêu chí... v.v Phân cụm là chia dữ liệu thành các nhóm mà các đối tượng trong cùng một nhóm thì giống nhau theo một nghĩa nào đó và khác với các đối tượng trong các nhóm khác Mỗi nhóm được gọi là một cluster Mỗi đối tượng được mô tả bởi một tập các độ đo hoặc bằng mối quan hệ với các đối tượng khác Phân cụm dữ liệu là một ví dụ của phương pháp học không có thầy Không giống như phân lớp dữ liệu, phân cụm dữ liệu. .. ra các phân đoạn tài liệu tương tự với câu hỏi người dùng đưa vào [4] 1.4.5 Xác minh câu trả lời Một số hệ thống Q&A cải thiện thêm tính chính xác bằng cách phân tích các câu trả lời thu được, qua việc sử dụng phương pháp xử lý ngôn ngữ tự nhiên bằng cách phân tích sâu hơn để xác minh lại câu hỏi Các câu hỏi và câu trả lời được phân tích cú pháp và chuyển đổi sang cùng một hình thức logic Các câu hỏi ... Các thuật toán phân lớp liệu ứng dụng xây dựng hệ thống hỏi đáp tự động số bệnh thường gặp" ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU - Nghiên cứu kỹ thuật phân lớp liệu khai phá liệu - Tìm hiểu bệnh thường. .. đoán loại bệnh ,và đưa khuyến nghị điều trị loại bệnh thông thường 4 Chương Giới thiệu hệ thống hỏi đáp 1.1 Hệ thống hỏi – đáp tự động Hệ thống hỏi đáp tự động hệ thống tự động trả lời câu hỏi người... Chương Giới thiệu hệ thống hỏi đáp 1.1 Hệ thống hỏi – đáp tự động 1.2 Phân loại hệ thống hỏi đáp tự động 1.2.1 Phân loại theo miền ứng dụng 1.2.2 Phân loại theo khả