Xây dựng hệ thống hỏi đáp tự động về một số bệnh lý thường gặp trong cộng đồng

25 267 0
Xây dựng hệ thống hỏi đáp tự động về một số bệnh lý thường gặp trong cộng đồng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 126 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRẦN VĂN NAM XÂY DỰNG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG VỀ MỘT SỐ BỆNH LÝ THƯỜNG GẶP TRONG CỘNG ĐỒNG Chuyên ngành : Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Footer Page of 126 Header Page of 126 Công trình hoàn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS Phan Huy Khánh Phản biện 1: PGS.TSKH Trần Quốc Chiến Phản biện 2: PGS.TS Trần Cao Đệ Luận văn bảo vệ Hội đồng chấm luận văn tốt nghiệp Thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày tháng năm 2013 * Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng Footer Page of 126 Header Page of 126 MỞ ĐẦU Tính cấp thiết đề tài Nghiên cứu hệ thống hỏi đáp tự động (Q&A) quan tâm từ lâu giới Ngay từ năm 1960, hệ thống hỏi đáp sử dụng sở liệu đời Đến năm 1970-1980, nhiều dự án lớn hướng đến việc “hiểu văn bản” xây dựng hệ thống hỏi đáp dựa mô hình ngôn ngữ thống kê Cuối năm 1990, World Wide Web đời phát triển nhanh chóng trở thành kho ngữ liệu khổng lồ Các nhà nghiên cứu hệ thống hỏi đáp bắt đầu khai thác web nguồn liệu cho việc tìm kiếm câu trả lời Các kĩ thuật đòi hỏi tốc độ cao, khả xử lý lượng liệu web lớn quan tâm Tuy nhiên nghiên cứu xây dựng hệ thống hỏi đáp hỗ trợ cho ngành khoa học nhiều hạn chế Phân tích câu hỏi phần kiến trúc chung hệ thống hỏi đáp, có nhiệm vụ tìm thông tin cần thiết làm đầu vào cho trình xử lý phần sau (trích chọn tài liệu, trích xuất câu trả lời, …) Vì phân tích câu hỏi có vai trò quan trọng, ảnh hưởng trực tiếp đến hoạt động toàn hệ thống Nếu phân tích câu hỏi không tốt tìm câu trả lời Hệ thống hỏi - đáp tự động công cụ hữu hiệu phục vụ cho nhu cầu tìm kiếm thông tin ngày cao người, hệ thống hỏi đáp có nhiều dạng câu hỏi như: Câu hỏi dạng định nghĩa (WHAT), câu hỏi nơi chốn (WHERE), câu hỏi (HOW), câu hỏi đúng/sai (YES/NO) Nhưng hệ thống hỏi- đáp (YES/NO) lại quan tâm vài năm gần Như vậy, việc xây dựng hệ thống hỏi-đáp (YES/NO) nhu cầu cần thiết Hướng tới mục tiêu này, muốn xây dựng mô hình Footer Page of 126 Header Page of 126 hệ thống hỏi - đáp tự động (YES/NO) nhằm phục vụ cho lĩnh vực cụ thể hỗ trợ việc chẩn đoán khuyến nghị điều trị bệnh lý thông thường Với phát triển khoa học máy tính ngày nay, việc lưu trữ thông tin, người ta muốn có hệ xử lý thông tin có khả suy luận để rút kết luận từ liệu, kiện có sẵn Từ trí tuệ nhân tạo đời : Được phát triển không ngừng, ngày ứng dụng rộng rãi Đã có nhiều sản phẩm thương mại, có lĩnh vực hệ chuyên gia (Expert System) Có nhiều phương pháp biểu diễn tri thức : Dùng ngôn ngữ hình thức, biểu diến tri thức nhờ luật sản xuất, dùng lôgic mệnh đề, lôgic vị từ, hay lôgic mờ, kiện không chắn, dùng mạng ngữ nghĩa, ngôn ngữ nhân tạo, v.v… Trong sống ngày, có nhiều loại bệnh thường xuyên đe dọa đến sức khỏe người Thường loại bệnh xuất phát từ triệu chứng, biết Cho nên yêu cầu người cần có hệ thống hỏi - đáp giúp họ chẩn đoán bệnh giúp họ hướng giải để đảm bảo sức khỏe cho Một số số liệu gánh nặng bệnh tật tử vong hút thuốc [21]: Thuốc nguy lớn sức khỏe người nguyên nhân hàng đầu dẫn đến tử vong sớm toàn giới Sử dụng thuốc gây 25 loại bệnh khác như: ung thư phổi, ung thư quản, ung thư khoang miệng, ung thư da, bệnh tim mạch, gây bệnh bất lực tăng nguy vô sinh cho giới Các Footer Page of 126 Header Page of 126 nghiên cứu cho thấy 90% ca ung thư phổi, 75% ca bệnh phổi tắc nghẽn mạn tính sử dụng thuốc gây Thuốc nguy lớn sức khỏe người nguyên nhân hàng đầu dẫn đến tử vong sớm toàn giới Sử dụng thuốc gây 25 loại bệnh khác như: ung thư phổi, ung thư quản, ung thư khoang miệng, ung thư da, bệnh tim mạch, gây bệnh bất lực tăng nguy vô sinh cho giới Các nghiên cứu cho thấy 90% ca ung thư phổi, 75% ca bệnh phổi tắc nghẽn mạn tính sử dụng thuốc gây Trên giới, theo Tổ chức Y tế giới hàng năm số tử vong bệnh liên quan đến thuốc triệu người Dự báo số tăng lên thành triệu người vào năm 2020, 70% số ca tử vong xảy nước phát triển Tại Việt Nam: Theo điều tra toàn cầu năm 2010 sử dụng thuốc người trưởng thành, tỷ lệ nam giới trưởng thành hút thuốc 47,7%, (cứ nam giới có người hút thuốc).Việt Nam có khoảng 15 triệu nam giới trường thành hút thuốc thuộc nhóm 15 nước có số người hút thuốc cao giới Mỗi năm Việt Nam có khoảng 40.000 người tử vong bệnh liên quan đến thuốc Nếu Việt Nam không thực biện pháp phòng chống tác hại thuốc hiệu quả, số tăng lên thành 70.000 ca/năm Tại bệnh viện, xu hướng mắc bệnh lây nhiễm giảm bệnh không lây nhiễm, có bệnh liên quan đến thuốc gia tăng nhanh chóng Nghiên cứu Viện chiến lược sách Y tế năm 2011 cho thấy, thuốc nguyên nhân hàng đầu gây tử vong nam giới Việt Nam, với gần 11% tổng số ca tử vong nam bệnh liên quan đến thuốc Các bệnh có nguyên nhân trực tiếp nguyên nhân hàng đầu gây tử vong Footer Page of 126 Header Page of 126 nam nữ thuốc lá: ung thư phổi, đột quỵ, bệnh mạch vành, bệnh phổi tắc nghẽn mạn tính (COPD) Việc tiếp xúc với khói thuốc người khác (còn gọi hút thuốc thụ động) khoa học chứng minh gây bệnh nguy hiểm Tại Việt Nam, 2/3 số phụ nữ 70% số trẻ em bị phơi nhiễm với khói thuốc, 33 triệu người trưởng thành thường xuyên hít phải khói thuốc nhà triệu người trưởng thành thường xuyên hít phải khói thuốc nơi làm việc Mặc dù ngành công nghiệp thuốc đóng góp cho ngân sách quốc gia (12.000 tỷ đồng/năm) phần đóng góp không đủ để bù đắp tổn thất kinh tế khổng lồ sử dụng thuốc gây cá nhân, gia đình xã hội Các chi phí trực tiếp gián tiếp từ việc sử dụng thuốc đặc biệt thiệt hại tính mạng người ngàn tỷ đồng bù đắp được: Năm 2007, người dân Việt Nam chi 14.000 tỷ đồng cho mua thuốc Ở hộ nghèo, khoản tiền mua thuốc chí cao khoản tiền chi cho y tế hay cho giáo dục Số tiền chi cho việc khám chữa số 25 bệnh thuốc gây 2.304 tỷ đồng/năm Cũng theo thống kê Bộ Y tế lấy từ trang web Bộ Y tế (đơn vị tính: 100.000 dân) [21] Các bệnh viêm phổi, mắc 426.6, tỷ lệ 42.66% Viêm họng viêm Amidan cấp, mắc 291.44, tỷ lệ 29.14% Viêm phế quản, mắc 250.29, tỷ lệ 25.03% Ỉa chảy, viêm dày,ruột non có nguồn gốc nhiểm khuẩn, mắc 237.32, tỷ lệ 23.73% Cúm, mắc 119.38, tỷ lệ 11.94% Sốt rét, mắc 116.22, tỷ lệ 11.62% Tăng huyết áp, mắc 103.24, tỷ lệ 10.32% Footer Page of 126 Header Page of 126 Tai nạn giao thông, mắc 90.68, tỷ lệ 9.07% Lao máy hô hấp, mắc 87.92, tỷ lệ 8.79% Theo thống kê tỉ lệ mắc bệnh phổ thông cao Như vậy, thiết kế hệ thống hỏi đáp tự động, đáp ứng nhu cầu chẩn đoán phân loại bệnh ban đầu bác sỹ nhu cầu tự khám bệnh cho thân gia đình để có hướng điều trị hiệu vấn đề cần thiết Như vậy, mục tiêu nhiệm vụ đề tài tìm hiểu tri thức y khoa loại bệnh thông thường, thu thập tri thức để xây dựng hệ thống hỏi đáp nhằm hổ trợ chẩn đoán phân loại bệnh thường gặp, cho người sử dụng lời khuyên hữu ích việc phòng điều trị bệnh Cũng xuất phát từ yêu cầu đó, chọn đề tài “Xây dựng hệ thống hỏi đáp tự động số bệnh lý thường gặp cộng đồng” Mục tiêu nghiên cứu Trên sở phân tích trạng nhu cầu xử lý bệnh lý thường gặp cộng đồng, đề tài tìm hiểu hệ thống hỏi đáp tự động, ứng dụng công nghệ tri thức hỗ trợ phục vụ chẩn đoán đưa khuyến nghị điều trị số bệnh lý thường gặp cộng đồng Kết đề tài cho phép tìm giải pháp tin học hóa vấn đề chẩn đoán bệnh, tạo điều kiện thuận lợi cho việc khám chữa bệnh, giúp, bảo vệ sức khỏe nâng cao chất lượng sống đồng bào vùng song nước cửu long Đối tượng phạm vi nghiên cứu Tìm hiểu lý thuyết bệnh phổ thông xây dựng sở tri thức biểu bệnh dựa sở lý thuyết thu thập Footer Page of 126 Header Page of 126 Phương pháp nghiên cứu Đề tài kết hợp hai phương pháp nghiên cứu: Phương pháp nghiên cứu lý thuyết: Nghiên cứu tài liệu, ngôn ngữ công nghệ liên quan, tổng hợp tài liệu, phân tích thiết kế hệ thống thông tin theo quy trình xây dựng ứng dụng phần mềm Phương pháp nghiên cứu thực nghiệm: Phân tích trạng yêu cầu thực tế toán xây dựng bước phân tích hệ thống để hỗ trợ việc lập trình, xây dựng ứng dụng, vận dụng vấn đề nghiên cứu mã hóa thông tin tiến trình xây dựng hệ thống, đánh giá kết đạt Bố cục luận văn Sau phần mở đầu, nội dung luận văn chia thành chương sau: Chương trình bày lý thuyết hỏi đáp tự động, sở tri thức, máy suy diễn ứng dụng máy suy diễn hỏi đáp tự động Chương trình bày số vấn đề liên quan đến việc chẩn đoán loại bệnh thông thường, trình bày khai phá liệu Trên sở lý thuyết trình bày chương 1, xây dựng ứng dụng cho việc chẩn đoán đưa lời khuyến nghị điều trị loại bệnh thông thường Chương mô tả cài đặt thử nghiệm ứng dụng Cuối kết luận Tổng quan tài liệu nghiên cứu Công tác nghiên cứu phần mềm chẩn đoán bệnh xã hội quan tâm như: Nước có phần mềm MYCIN hệ thống có chức chẩn đoán bệnh lý thông thường đề xuất từ năm đầu thập kỷ 1970 Đại học Standford Trong nước, có nhiều hệ thống cho phép chẩn đoán bệnh thông thường kể đến như: “Hệ chuyên gia chẩn đoán số bệnh thể người”, Footer Page of 126 Header Page of 126 phần mềm AMD – Hệ chuyên gia chẩn đoán bệnh lâm sàng, “Hệ chuyên gia chẩn đoán bệnh thần kinh tâm thần”, Các nghiên cứu xây dựng nhóm biện pháp cụ thể chăm sóc sức khỏe xã hội nhằm nâng cao chất lượng sức khỏe nói riêng chất lượng giáo dục, đào tạo nói chung Trong hướng nghiên cứu trên, lĩnh vực nghiên cứu phần mềm chẩn đoán bệnh tỉnh Trà Vinh nói chung Trường Đại học Trà Vinh nói riêng chưa có đơn vị nghiên cứu Vì thế, nghiên cứu “Xây dựng hệ thống hỏi đáp tự động số bệnh lý thường gặp cộng đồng”, Trường Đại học Trà Vinh giai đoạn Footer Page of 126 Header Page 10 of 126 CHƯƠNG TÌM HIỂU HỆ THỐNG HỎI ĐÁP VÀ ỨNG DỤNG 1.1 HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG 1.1.1 Định nghĩa Hệ thống hỏi đáp tự động hệ thống tự động trả lời câu hỏi người dùng dựa trình tự động nhận diện, phân tích câu hỏi; sở kết phân tích liệu, hệ thống tìm kiếm tài liệu có liên quan đến câu hỏi cuối cùng, hệ thống xử lý tài liệu để trích chọn câu trả lời Mô hình QA bao gồm 03 phận đảm nhận 03 chức [13] : Phân tích câu hỏi (Question Analysis) Rút trích tài liệu (Document Retrieval) Lựa chọn câu trả lời (Answer Extraction) 1.1.2 Phân tích câu hỏi Đây phần xử lý hệ thống Người sử dụng đặt loại câu hỏi khác ngôn ngữ tự nhiên yêu cầu hệ thống trả lời Quá trình phân tích câu hỏi giúp cho hệ thống “hiểu” câu hỏi có câu trả lời phù hợp Quá trình đóng vai trò quan trọng toàn tiến trình hoạt động hệ thống Nếu công đoạn hoàn thành không tốt ảnh hưởng lớn đến chất lượng, thỏa mãn người dùng câu trả lời hệ thống 1.1.3 Tìm kiếm nguồn tài liệu liên quan Tài liệu đầu vào lựa chọn câu trả lời tồn nhiều cấu trúc khác Đối với hệ thống hoạt động tốt với số lượng văn nhỏ, sử dụng tất nội dung kết tìm kiếm rõ ràng không phù hợp cho kết không tốt mà lại Footer Page 10 of 126 Header Page 11 of 126 nhiều thời gian xử lý trả đoạn ngắn tài liệu có liên quan [13] 1.1.4 Lựa chọn câu trả lời Đầu vào trình bao gồm hai thành phần: Tập tài liệu có liên quan chứa câu trả lời ứng viên Loại câu trả lời mong đợi trả trình phân tích câu hỏi Dựa tài liệu đầu vào, trình lựa chọn câu trả lời thực xử lý như: tách câu, gán nhãn, nhận diện tên riêng… Việc lựa chọn kỹ thuật kết hợp kỹ thuật tùy thuộc vào hướng tiếp cận phương thức xử lý hệ thống hỏi đáp cụ thể 1.2 CƠ SỞ TRI THỨC 1.2.1 Phân biệt tri thức liệu Chúng ta dựa vào số đặc trưng sau để phân biệt qui ước tri thức liệu: Khả tự giải thích nội dung: Dữ liệu đưa vào máy tính không tự giải thích nổi, mã hóa cho ngắn gọn để dễ cài đặt máy Chỉ có người lập trình hiểu nội dung, ý nghĩa liệu, tri thức tự giải thích nội dung với người sử dụng Tính cấu trúc: Một đặc tính hoạt động nhận thức người giới xung quanh khả phân tích cấu trúc đối tượng Tri thức đưa vào máy cần có khả tạo phân cấp khái niệm mối quan hệ chúng Tính liên hệ: Ngoài quan hệ cấu trúc tri thức (khái niệm, trình, tượng, kiện) đơn vị tri thức Footer Page 11 of 126 Header Page 12 of 126 10 có nhiều mối quan hệ khác (không gian, thời gian, nhân quả…) Một số nghiên cứu số liên hệ kiện xấp xỉ 200 lần Một sở tri thức kết hợp với số liên hệ mô tả biểu diễn hầu hết vấn đề mà quan tâm Tính chủ động: Như thấy, liệu có vai trò bị động phụ thuộc vào khai thác chương trình cụ thể 1.2.2 Phân loại tri thức Tri thức tồn dạng bản: Tri thức định lượng Tri thức định tính Tri thức định lượng thường gắn với loại kinh nghiệm khác Ở xét tri thức định tính Tri thức định tính chia làm loại: Tri thức mô tả Tri thức thủ tục Tri thức điều khiển 1.2.3 Các cấp độ tri thức Tri thức động phụ thuộc vào tình không gian thời gian Tri thức bất định, tri thức không đầy đủ 1.2.4 Các phương pháp biểu diễn tri thức Biểu diễn tri thức nhờ logic Biểu diễn tri thức nhờ mạng ngữ nghĩa Biểu diễn tri thức nhờ luật sản xuất Biểu diễn tri thức FRAME Biểu diễn nhờ ba liên hợp O.A.V Footer Page 12 of 126 Header Page 13 of 126 11 1.3 MÁY SUY DIỄN 1.3.1 Cơ chế suy diễn Suy diễn tiến: Suy diễn tiến lập luận kiện, việc để rút kết luận Ví dụ: Nếu thấy trời mưa trước khỏi nhà (sự kiện) phải lấy áo mưa (kết luận) Suy diễn lùi: Phương pháp suy diễn lùi tiến hành lập luận theo chiều ngược lại (đối với phương pháp suy diễn tiến) 1.3.2 Cơ chế điều khiển Chọn hướng suy diễn, giải vấn đề cạnh tranh 1.4 ỨNG DỤNG HỎI ĐÁP TỰ ĐỘNG CỦA MÁY TÌM KIẾM CÂU TRẢ LỜI 1.4.1 Lĩnh vực Máy tìm kiếm câu trả lời có cấu trúc bao gồm hai thành phần chính: (1) Phần giao diện người dùng có hai chức chính: Giao diện truy vấn: cho phép người dùng chọn nội dung chẩn đoán chọn câu trả lời (hệ thống hỏi) Hiển thị câu trả lời hệ thống, kết (2) Phần kiến trúc bên phần hạt nhân máy tìm kiếm bao gồm ba thành phần là: Phân tích câu trả lời người dùng Tìm kiếm kết cho truy vấn hay trả lời người dùng Tập tài liệu, liệu tìm kiếm Footer Page 13 of 126 Header Page 14 of 126 12 1.4.2 Kiến trúc bên Các thành phần kiến trúc bên bao gồm ba module : phân lớp câu hỏi (câu trả lời người dùng), tìm kiếm truy vấn kết trả 1.4.3 Ví dụ 1.4.4 Đánh giá, nhận xét Hệ thống hỏi đáp tự động công cụ hữu hiệu phục vụ cho nhu cầu tìm kiếm thông tin ngày cao người, hệ thống hỏi đáp dạng Yes/No lại quan tâm vài năm gần Như vậy, việc xây dựng hệ thống hỏi đáp dạng Yes/No nhu cầu cần thiết Hướng tới mục tiêu này, xây dựng hệ thống hỏi đáp tự động dạng Yes/No nhằm phục vụ cho lĩnh vực cụ thể hỗ trợ cho việc chẩn đoán bệnh phổ thông Footer Page 14 of 126 Header Page 15 of 126 13 CHƯƠNG TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG 2.1 CÁC LOẠI BỆNH PHỔ THÔNG 2.1.1 Bệnh lao 2.1.2 Viêm phổi 2.2 XÂY DỰNG KHO DỮ LIỆU (KHAI PHÁ DỮ LIỆU) 2.2.1 Định nghĩa Định nghĩa khai phá liệu : khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp 2.2.2 Tiền xử lý liệu Làm liệu, Tích hợp liệu, Biến đổi liệu, Rút gọn liệu 2.3 PHÂN LỚP VÀ DỰ ĐOÁN 2.3.1 Tóm lược lý thuyết phân lớp Trong lĩnh vực máy học nhận dạng (pattern recognition), toán phân lớp (classification) đề cập đến thuật toán (algorithms) nhằm xác định lớp (class) đối tượng cho thuộc lớp lớp cho trước (Given Categories) Khác với toán phân cụm (clustering), liệu dùng để xây dựng mô hình (Training Data) toán phân lớp phải xác định lớp trước (pre-Labeled) 2.3.2 Phân lớp liệu : Phân lớp liệu tiến trình có bước Huấn luyện: Dữ liệu huấn luyện phân tích thuật toán phân lớp ( có thuộc tính nhãn lớp) Phân lớp: Dữ liệu kiểm tra dùng để ước lượng độ Footer Page 15 of 126 Header Page 16 of 126 14 xác phân lớp Nếu độ xác chấp nhận dùng phân lớp để phân lớp mẫu liệu 2.3.3 Dự đoán Dự đoán liệu trình gồm hai bước, gần giống với trình phân lớp Tuy nhiên để dự đoán, bỏ qua khái niệm nhãn phân lớp giá trị dự đoán liên tục (được xếp) giá trị phân loại 2.3.4 Cây định Cây định (decision tree) phương pháp mạnh phổ biến cho hai nhiệm vụ khai phá liệu phân loại dự báo Mặt khác, định chuyển sang dạng biểu diễn tương đương dạng tri thức luật If-Then 2.3.5 Thuật toán ID3 Đầu vào: Một tập hợp ví dụ Mỗi ví dụ bao gồm thuộc tính mô tả tình huống, hay đối tượng đó, giá trị phân loại Đầu ra: Cây định có khả phân loại đắn ví dụ tập liệu rèn luyện, hy vọng phân loại cho ví dụ chưa gặp tương lai 2.3.6 Chuyển luật Cây định chuyển dạng luật để thuận tiện cho việc cài đặt sử dụng Footer Page 16 of 126 Header Page 17 of 126 15 CHƯƠNG CÀI ĐẶT VÀ THỬ NGHIỆM HỆ THỐNG 3.1 XÂY DỰNG CƠ SỞ LUẬT (KB) Yêu cầu toán: Cho bảng liệu da rám nắng Bảng 3.1: Bảng 3.1: Bảng liệu da rám nắng TT Màu tóc Chiều cao Cân nặng Dùng thuốc? Kết Đen Tầm thước Nhẹ Không Bị rám Đen Cao Vừa phải Có Không Râm Thấp Vừa phải Có Không Đen Thấp Vừa phải Không Bị rám Bạc Tầm thước Nặng Không Bị rám Râm Cao Nặng Không Không Râm Tầm thước Nặng Không Không Đen Thấp Nhẹ Có Không Yêu cầu đặt phải tìm tập luật từ bảng liệu Dùng thuật toán ID3 giải Chọn thuộc tính phân hoạch dựa vào vector đặc trưng: Màu tóc Vmàu tóc (T(đen,rám),T(đen,không rám)) (2/8,2/8) Vmàu tóc (T(râm,rám), T(râm,không rám)) (0/8,3/8) Vmàu tóc (T(bạc,rám),T(bạc,không rám)) (1/8,0/8) Chiều cao: Vchiều cao (T(tầm thước,rám), T(tầm thước,không rám)) (2/8, 1/8) Vchiều cao (T(cao, rám), T(cao,không rám)) (0/8, 2/8) Vchiều cao (T(thấp,rám), T(thấp,không rám)) (1/8, 2/8) Footer Page 17 of 126 Header Page 18 of 126 16 Cân n ng: Vcân nặng (T(nhẹ,rám), T(nhẹ,không rám)) (1/8, 1/8) Vcân nặng (T(vừa phải,rám), T(vừa phải, không rám)) (1/8, 2/8) Vcân nặng (T (nặng, rám), T(nặng, không rám)) = (1/8, 2/8) D ng thuốc: Vdùng thuốc (T(không, rám), T(không, không rám)) (3/8, 2/8) Vdùng thuốc (T(có,rám), T(có, không rám)) = (0/8, 3/8) Thuộc tính Màu tóc có nhiều vector đơn vị nên ta chọn thuốc tính màu tóc để phân hoạch Màu tóc Đen(1,2,4,8) ạc(5) (Rám) Râm(3,6,7) ( hông rám) Tiếp theo cần phân hoạch tập P1 (1,2,4,8) Phân hoạch tập P1 nêu Bảng 2.2 Bảng 3.2: Phân hoạch TT Chiều cao Cân nặng Dùng thuốc? Kết Tầm thước Nhẹ Không Bị rám Cao Vừa phải Có Không Thấp Vừa phải Không Bị rám Thấp Nhẹ Có Không Chiều cao: Footer Page 18 of 126 Header Page 19 of 126 17 Vchiềucao (T(tầm thước,rám), T(tầm thước, không rám)) (1/4, 0/4) Vchiềucao (T(thấp, rám), T(thấp, không rám)) (1/4 , 1/4) Vchiềucao (T(cao, rám), T(cao, không rám)) (0/4, 1/4) Cân n ng: Vcân nặng (T(nhẹ, rám), T(nhẹ, không rám)) (1/4,1/4) Vcân nặng (T(vừa phải, rám), T(vừa phải, không rám)) =(1/4,1/4) D ng thuốc: Vdùngthuốc (T(có, rám), T(không, rám)) (0/4, 2/4) Vdùng thuốc (T(không, rám), T(không, không rám)) (2/4, 0/4) Chọn thuộc tính Dùng thuốc làm thuộc tính phân hoạch Dùng thuốc Có (2,8) (không rám) Không(1,4) (rám) ết quả, ta có định danh sau: Màu tóc Đen(1,2,4,8) Dùng thuốc có( 2, 8) không(1,4) (không rám) (rám) Từ định danh trên, ta suy luật: Tóc bạc rám Footer Page 19 of 126 ạc(5) (rám) Râm(3,6,7) (không rám) Header Page 20 of 126 18 Tóc râm kh ng bị rám (Tóc đ n, có d ng thuốc) kh ng rám (Tóc đ n, kh ng d ng thuốc) rám 3.2 XÂY DỰNG CƠ CHẾ SUY DIỄN ĐỂ KHAI THÁC (KB), TÌM CÂU TRẢ LỜI Đầu vào: Tập mệnh đề giả thiết cho GT {g1, g2, g3, …, gn} Tập luật RULE = {r1, r2, r3, …, rm} Tập mệnh đề kết luật KL = {q1, q2, q3, …, qk} Đầu ra: Kết luận thành công hay không thành công 3.3 XÂY DỰNG ỨNG DỤNG HỎI ĐÁP 3.3.1 Kiến trúc hệ thống hỏi-đáp Hệ thống hỏi-đáp phát triển từ lĩnh vực tìm kiếm thông tin (IR) IR truyền thống thực tìm kiếm thông tin dựa từ khóa câu truy vấn Trong trình tìm kiếm, từ khóa so khớp (matching) với mục tài liệu tham khảo cho tài liệu khác 3.3.2 Giao diện người d ng (Us r Int rfac ) Giao diện người dùng phần quan trọng hệ thống hỏiđáp nhiều nghiên cứu dành cho Nhiều giao diện mô giao diện máy tìm kiếm Hệ thống đưa câu trả lời mà đưa câu trả lời khác gần với nội dung câu hỏi người dùng nhập vào 3.3.3 Phân tích câu hỏi (Qu stion Analyz r) Phân tích câu hỏi đóng vai trò quan trọng loại hình hệ thống hỏi-đáp Trong giai đoạn này, câu hỏi phân tích xử lý để trích lọc nhiều thông tin tốt mà sử Footer Page 20 of 126 Header Page 21 of 126 19 dụng sau giai đoạn tìm kiếm liệu ết bước khác tùy theo việc phân tích câu hỏi nông hay sâu 3.3.4 Tìm kiếm liệu (Data R trieval) Trong giai đoạn tìm kiếm liệu hệ thống hỏi-đáp, điều quan trọng lấy nhiều thông tin có liên quan đến câu hỏi tốt Chất lượng việc tìm kiếm tài liệu quan trọng kết không cần thiết phải hiển thị giao diện cho người dùng Điều quan trọng thông tin người dùng yêu cầu tìm thấy 3.3.5 Rút trích câu trả lời (Answ r Extraction) Rút trích câu trả lời thuộc lĩnh vực rút trích thông tin Thông tin trả giai đoạn tài liệu văn từ việc truy vấn sở liệu 3.3.6 Chiến lược xếp hạng (Ranking) Nếu kết giai đoạn rút trích câu trả lời có nhiều câu trả lời câu trả lời xếp hạng dựa mức độ liên quan mặt ngôn ngữ với câu hỏi người dùng 3.3.7 Xác minh câu trả lời (Answ r V rification) Một số hệ thống QA cải thiện thêm tính xác cách phân tích câu trả lời thu được, qua việc sử dụng phương pháp xử lý ngôn ngữ tự nhiên cách phân tích sâu để xác minh lại câu hỏi Các câu hỏi câu trả lời phân tích cú pháp chuyển đổi sang hình thức logic Các câu hỏi câu trả lời sau so sánh với để xác minh tính hợp lý câu trả lời 3.4 THIẾT KẾ HỆ THỐNG Các tri thức thu thập từ chuyên gia-bác sỹ, tri thức thu thập từ bệnh án, giảng viên chuyên khoa y, tài liệu y khoa từ internet Footer Page 21 of 126 Header Page 22 of 126 20 Đầu vào hệ thống tập loại bệnh, triệu chứng, lời khuyến nghị điều trị tương ứng cho loại bệnh, lời khuyên bác sỹ Thông qua chế suy diễn, áp dụng tất luật suy diễn kết quả, sau kết hợp kết đầu cà hiển thị kết cuối lên giao diện người sử dụng cho người dùng cuối 3.3 THỰC HIỆN HỆ THỐNG 3.5.1 M i trường phát triển hệ thống Hệ thống hỏi đáp trợ giúp phục vụ cho việc hỗ trợ chẩn đoán loại bệnh lý thường gặp cộng đồng, phát triển môi trường máy đơn (desktop) sử dụng ngôn ngữ lập trình CShap, thực thông qua: Hệ điều hành: Windows XP Công cụ phát triển: CShap (.NET Framework 4.0) Công cụ soạn thảo: Microsoft Office 2007 Cơ sở liệu quan hệ : SQL Server 2008 3.5.2 Cấu trúc thành phần để triển khai hệ thống Footer Page 22 of 126 Header Page 23 of 126 21 Hệ thống triển khai thành phần sau: a) Thu thập thông tin lĩ (Tri thức) Từ sở liệu bệnh án Từ chuyên gia bác sĩ Từ Internet Từ tài liệu, sách báo y khoa ực bệ lý ô b) Cở sở liệu bệnh (Dữ liệu thô) Tổ chức sở liệu theo mô hình quan hệ (dạng bảng) c) Tạo tập luật (Cây quyế Footer Page 23 of 126 ịnh) ờng Header Page 24 of 126 22 Dùng thuật toán ID3 xây dựng định từ liệu thô Từ định cho ta tập luật d) Cơ sở tri thức Thu thập thông từ tập luật thành sở tri thức e) Máy suy diễn Hệ suy diễn tìm câu trả lời từ sở tri thức f) Giao tiếp ời sử dụng hệ thống Thao tác tìm kiếm câu trả lời chẩn đoán bệnh Thao tác bổ sung cập nhật tri thức 3.6 CÀI ĐẶT CHƯƠNG TRÌNH 3.7 THỬ NGHIỆM HỆ THỐNG 3.7.1 Chức khai phá liệu 3.7.2 Giao diện chẩn đoán bệnh Từ triệu chứng đầu vào, thông qua mô hình hệ thống trợ giúp gồm nhiều sở luật, chế suy diễn để đưa kết qủa chẩn đoán với lời khuyến nghị điều trị kèm theo việc chẩn đoán 3.7.3 Danh mục triệu chứng bệnh th ng thường Hệ trợ giúp cho phép người dùng nhập, thêm, sữa, xóa Các câu hỏi (triệu chứng) liên quan đến bệnh thông thường Cơ sở luật thành phẩn quan trọng hệ định nói chung hệ suy diễn nói riêng Cơ sở luật thực chất tập luật suy diễn IF- THEN, tập phát biểu triệu chứng, nguyên nhân gây bệnh Footer Page 24 of 126 Header Page 25 of 126 23 KẾT LUẬN Đã tìm hiểu phân tích hệ thống Quá trình phân tích toán cụ thể, chi tiết Vận dụng vấn đề suy diễn hệ thống, cụ thể ứng dụng ứng dụng suy diễn tiến suy diễn lùi xây dựng hệ trợ giúp chẩn đoán loại bệnh lý thông thường Luận văn tìm hiểu cách tổng quát lý thuyết khai phá liệu số phương pháp khai phá liệu dự vào phân lớp dự đoán ứng dụng vào hệ thống chẩn đoán bệnh Trình bày chi tiết thuật toán định, ID3 Khai phá thành công bảng liệu y học từ thuật toán ID3 áp dụng vào chức chẩn đoán bệnh Xây dựng hai chức tra cứu tên thuốc, tra cứu tên bệnh giúp người dùng am hiểu thêm kiến thức y học Hạn chế: Trong luận văn thiết kế liệu mang tính demo, Chưa xây chương trình phức tập với sở liệu lớn, chưa áp dụng nhiều kỹ thuật khai phá khác làm tăng độ xác cao Hướng phát triển: Nghiên cứu kỹ thuật phân lớp phát triển phần mềm đa chức tập hợp đầy đủ kiến thức y khoa giúp cho trình học tập, nghiên cứu thay phần nhỏ bác sỹ giúp cho người dùng hiểu biết nhận định xác tình trạng sức khỏe Mở rộng phạm vi chẩn đoán cho tất loại bệnh phức tạp Nâng cao tốc độ thực hệ trợ giúp cách xây dựng thuật toán tối ưu Xây dựng hệ trợ giúp chạy môi trường mạng internet Footer Page 25 of 126 ... Xây dựng hệ thống hỏi đáp tự động số bệnh lý thường gặp cộng đồng Mục tiêu nghiên cứu Trên sở phân tích trạng nhu cầu xử lý bệnh lý thường gặp cộng đồng, đề tài tìm hiểu hệ thống hỏi đáp tự. .. HIỂU HỆ THỐNG HỎI ĐÁP VÀ ỨNG DỤNG 1.1 HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG 1.1.1 Định nghĩa Hệ thống hỏi đáp tự động hệ thống tự động trả lời câu hỏi người dùng dựa trình tự động nhận diện, phân tích câu hỏi; ... người, hệ thống hỏi đáp dạng Yes/No lại quan tâm vài năm gần Như vậy, việc xây dựng hệ thống hỏi đáp dạng Yes/No nhu cầu cần thiết Hướng tới mục tiêu này, xây dựng hệ thống hỏi đáp tự động dạng

Ngày đăng: 07/05/2017, 14:30

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan