Tiểu luận môn hệ hỗ trợ quyết định TÌM HIỂU HỆ HỖ TRỢ RA QUYẾT ĐỊNH CHẨN ĐOÁN CÁC BỆNH VỀ TIM SỬ DỤNG CÁC KĨ THUẬT KHAI PHÁ DỮ LIỆU

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN o0o BÀI THU HOẠCH MÔN HỌC HỆ HỖ TRỢ RA QUYẾT ĐỊNH ĐỀ TÀI: TÌM HIỂU HỆ HỖ TRỢ RA QUYẾT ĐỊNH CHẨN ĐOÁN CÁC BỆNH VỀ TIM SỬ DỤNG CÁC KĨ THUẬT KHAI PHÁ DỮ LIỆU GIÁO VIÊN HƯỚNG DẪN: PGS.TS ĐỖ PHÚC HỌC VIÊN: VƯƠNG ĐỨC HIỀN MSHV: CH1301087 TP HỒ CHÍ MINH - THÁNG 6, NĂM 2014 Mục lục Giới thiệu Bài thu hoạch này trình bày các vấn đề việc xây dựng một hệ thống hỗ trợ ra quyết định cho các bác sĩ trong việc chẩn đoán một bệnh nhân có phải bị bệnh về tim hay không. Nội dung của bài thu hoạch này chủ yếu được dịch từ bài báo “Web-Based Heart Disease Decision Support System using Data Mining Classification Modeling Techniques” của các tác giả Sellappan Palaniappan và Rafiah Awang [1]. Ngành y tế thu thập một lượng lớn dữ liệu mà trong đó không phải dữ liệu nào cũng có thể “khai thác được” để khám phá các thông tin ẩn cho việc ra quyết định hiệu quả của người làm công tác chăm sóc sức khỏe. Phát hiện các mẫu ẩn và mối quan hệ thường xuyên chưa được khai thác. Các mô hình kĩ thuật khai thác dữ liệu tiên tiến có thể giúp khắc phục tình trạng này. Nghiên cứu này đã phát triển một hệ thống hỗ trợ ra quyết định về bênh tim (HDDSS) dựa trên web sử dụng các kĩ thuật phân loại trong khai thác dữ liệu, cụ thể là, các mô hình cây quyết định, Naïve Bayes và mạng nơron. Các kết quả cho thấy mỗi kỹ thuật có các sức mạnh riêng của nó trong việc nhận ra các mục tiêu của các mục tiêu khai phá đã được xác định. HDDSS có thể trả lời các câu truy vấn “what if” phức tạp, điều mà các hệ thống hỗ trợ ra quyết định truyền thống có thể không làm được. Sử dụng hồ sơ y tế như tuổi tác, giới tính, huyết áp và lượng đường trong máu có thể dự đoán khả năng bệnh nhân bị bệnh tim. Nó cho phép hiểu biết quan trọng, ví dụ mô hình, mối quan hệ giữa các yếu tố y tế liên quan đến bệnh tim, được thành lập. HDDSS có giao diện thân thiện, ổn định, đáng tin cậy và có thể mở rộng. 1. Đặt vấn đề Một thách thức lớn phải đối mặt với các tổ chức chăm sóc sức khỏe (bệnh viện, trung tâm y tế) là cung cấp các dịch vụ chất lượng với giá cả phải chăng. Chất lượng dịch vụ chỉ việc chẩn đoán bệnh một cách chính xác và thực hiện các phương pháp điều trị hiệu quả. Việc tạo ra các quyết định lâm sàng tệ hại có thể là một thảm họa và do đó không thể chấp nhận được. Bệnh viện cũng phải giảm thiểu chi phí của các thử nghiệm lâm sàng. Để làm điều này, họ phải sử dụng thông tin trên máy tính một cách thích hợp và / hoặc các hệ thống hỗ trợ ra quyết định. Hầu hết các bệnh viện hiện nay sử dụng một số loại hệ thống thông tin bệnh viện để quản lý các dữ liệu về chăm sóc sức khỏe hoặc bệnh nhân của họ. Các hệ thống này tạo ra một lượng lớn các dữ liệu dạng các con số, văn bản, biểu đồ và hình ảnh. Thật không may, những dữ liệu này rất hiếm khi được sử dụng để hỗ trợ ra quyết định lâm sàng. Có rất nhiều thông tin ẩn trong các dữ liệu này mà phần lớn là chưa được khai thác. Điều này đặt ra một câu hỏi quan trọng: "Làm thế nào để chúng ta chuyển dữ liệu thành các thông tin hữu ích để hỗ trợ việc ra quyết định cho các người làm chuyên môn chăm sóc sức khỏe?". Đây là động lực chính cho nghiên cứu này. 2. Phát biểu bài toán Nhiều hệ thống thông tin bệnh viện được thiết kế để hỗ trợ thanh toán viện phí cho bệnh nhân, quản lý hàng tồn kho và thực hiện các thống kê đơn giản. Nơi có những hệ thống hỗ trợ quyết định, chúng thường rất hạn chế. Chúng có thể trả lời các truy vấn đơn giản như “Tuổi trung bình của bệnh nhân bệnh tim là bao nhiêu?”, “Có bao nhiêu ca phẫu thuật phải nằm ở bệnh viện nhiều hơn 10 ngày?” , “Xác định số lượng bệnh nhân nữ độc thân, trên 30 tuổi và đang điều trị ung thư”. Tuy nhiên, chúng không thể trả lời các truy vấn phức tạp như “Xác định các yếu tố dự báo quan trọng tiền phẫu thuật mà có thể làm tăng thời gian nằm viện”, “Với các hồ sơ của bệnh nhân ung thư, nên việc điều trị bao gồm chỉ hóa trị liệu, chỉ thực hiện phóng xạ, hoặc cả hai hóa trị và xạ trị?”, “Với các hồ sơ bệnh nhân đã biết, dự đoán xác suất của các bệnh nhân có thể có bệnh tim.” Thông thường, các quyết định lâm sàng được thực hiện dựa trên trực giác của bác sĩ chứ không phải là những kiến thức dữ liệu phong phú trong cơ sở dữ liệu. Việc thực hiện điều này dẫn đến những ảnh hưởng xấu không mong muốn, các lỗi và chi phí y tế quá mức có ảnh hưởng đến chất lượng dịch vụ cung cấp cho bệnh nhân. Wu và cộng sự đã đề nghị việc tích hợp các hỗ trợ quyết định lâm sàng với hồ sơ bệnh nhân dựa trên máy tính có thể làm giảm các sai sót y tế, nâng cao sự an toàn cho bệnh nhân, giảm sự biến đổi thực tế không mong muốn, và cải thiện kết quả chuẩn đoán bệnh nhân. Đây là sự hứa hẹn các công cụ mô hình hóa và phân tích dữ liệu có khả năng tạo ra môi trường kiến thức phong phú môi trường mà có thể cải thiện đáng kể chất lượng của các quyết định lâm sàng. 3. Mục tiêu nghiên cứu Nghiên cứu này sẽ phát triển một nguyên mẫu của hệ thống hỗ trợ ra quyết định chẩn đoán bệnh về tim dựa trên nền Web (Heart Disease Decision Support System - HDDSS), sử dụng ba kĩ thuật phân lớp trong khai thác dữ liệu, cụ thể là, cây quyết định, Naïve Bayes và mạng Nơron. Nó có thể trích xuất các thông tin ẩn (các mẫu và các mối quan hệ) liên quan đến bệnh tim từ một cơ sở dữ liệu lịch sử bệnh tim. Nó có thể trả lời các truy vấn phức tạp liên quan đến chẩn đoán bệnh tim và do đó giúp các chuyên viên chăm sóc sức khỏe đưa ra các quyết định lâm sàng thông minh mà các hệ thống hỗ trợ quyết định truyền thống đã có không thể làm được. Nó sẽ giúp họ cung cấp các phương pháp điều trị hiệu quả với chi phí thấp hơn. Để nâng cao sự trực quan và dễ giải thích, HDDSS sẽ hiển thị kết quả cả bằng các bảng và các dạng đồ họa. 4. Tổng quan về khai phá dữ liệu Mặc dù khai phá dữ liệu đã được khoảng hơn hai thập kỷ, tiềm năng của nó chỉ đang được nhận ra ngay bây giờ. Khai phá dữ liệu kết hợp phân tích thống kê, máy học và các kĩ thuật cơ sở dữ liệu để trích xuất các mẫu ẩn và mối quan hệ từ cơ sở dữ liệu lớn. Fayyad định nghĩa khai phá dữ liệu như là: “một quá trình rút trích không tầm thường của các thông tin hữu ích tiềm ẩn, chưa được biết trước từ các dữ liệu được lưu trữ trong cơ sở dữ liệu”. Giudici định nghĩa nó như là “một quá trình lựa chọn, thăm dò và mô hình của một lượng lớn dữ liệu để khám phá các quy tắc hoặc các mối quan hệ mà lúc đầu chưa được biết với mục đích thu được các kết quả rõ ràng và hữu ích cho chủ sở hữu của cơ sở dữ liệu”. Khai phá dữ liệu sử dụng hai chiến lược: học có giám sát và học không giám sát. Học có giám sát sử dụng các giá trị của các biến đầu vào để dự đoán một biến mục tiêu với giá trị đã biết trong khi học không có giám sát hoạt động theo cách tương tự, nhưng thường xuyên hơn nó dự đoán một biến mục tiêu là một giá trị chưa biết. Mỗi kỹ thuật khai thác dữ liệu phục vụ một mục đích khác nhau tùy thuộc vào mục tiêu mô hình. Hai mục tiêu mô hình phổ biến nhất là phân lớp và dự báo. Mô hình phân lớp dự đoán các nhãn phân loại (rời rạc, không có thứ tự) trong khi các mô hình dự đoán dự đoán các hàm có giá trị liên tục. Cây quyết định và mạng Nơron sử dụng các thuật toán phân loại trong khi hồi quy, luật kết hợp và gom cụm sử dụng các thuật toán dự đoán. Giải thuật cây quyết định bao gồm CART (Classification and Regression Tree), ID3 (Iterative Dichotomized 3) và C4.5. Các thuật toán khác nhau trong việc lựa chọn các phần chia nhỏ, khi để dừng một nút khỏi chia nhỏ, và phân công của lớp để một nút không chia. CART sử dụng chỉ số Gini để đo tạp chất của một phân vùng hoặc tập dữ liệu huấn luyện. Nó xử lý các dữ liệu đa chiều, có tính phân loại và liên tục. Naive Bayes hoặc luật Bayes là cơ sở cho nhiều phương pháp máy học và khai phá dữ liệu. Các quy tắc (thuật toán) được sử dụng để tạo ra các mô hình với khả năng dự đoán. Nó cung cấp cách thức mới để khám phá và hiểu dữ liệu. Nó học được từ các "bằng chứng" bằng cách tính toán sự tương quan giữa các mục tiêu và các biến khác. Mạng nơron bao gồm ba lớp: các đơn vị đầu vào, ẩn và đầu ra (các biến). Sự kết nối giữa các đơn vị đầu vào và các đơn vị ẩn và đầu ra được dựa trên sự liên quan của các giá trị được gán(trọng số) của đơn vị đầu vào cụ thể. Các trọng số càng cao thì càng quan trọng. Các thuật toán mạng nơron sử dụng các hàm chuyển tuyến tính và sigmoid. Mạng thần kinh phù hợp để huấn luyện một số lượng lớn dữ liệu với ít đầu vào. Nó được sử dụng khi các kỹ thuật khác không đạt yêu cầu. 5. Phương pháp HDDSS sử dụng 6 giai đoạn của phương pháp CRISP-DM để xây dựng các mô hình khai thác dữ liệu. DMX (Data Mining Extension), một ngôn ngữ truy vấn kiểu SQL cho khai phá dữ liệu, được sử dụng để xây dựng và truy cập vào các nội dung của mô hình. Các bảng và đồ họa trực quan được tích hợp để mở rộng khả năng phân tích và giải thích kết quả. 5.1. Nguồn dữ liệu Tổng cộng có 909 bản ghi với 15 thuộc tính y tế (yếu tố) được lấy từ cơ sở dữ liệu các bệnh về tim Cleveland. Các bản ghi này đã được chia đều thành hai bộ dữ liệu: bộ dữ liệu huấn luyện (455 bản ghi) và bộ dữ liệu thử nghiệm (454 bản ghi). Để tránh thiên vị, các bản ghi cho mỗi bộ được chọn một cách ngẫu nhiên. Mô hình phân loại được chọn là thuật toán Naïve Bayes chỉ hỗ trợ các thuộc tính phân loại . Cả các thuật toán cây quyết định mạng Nơron hỗ trợ các thuộc tính phân loại và liên tục. Để thống nhất, chỉ các thuộc tính phân loại được sử dụng cho tất cả ba mô hình. Tất cả các thuộc tính y tế trong hình 1 được chuyển đổi từ số thành dữ liệu phân loại. Thuộc tính “chẩn đoán” được xác định là thuộc tính có thể dự đoán có giá trị “1” cho bệnh nhân bị bệnh tim và giá trị “0” cho các bệnh nhân không bị bệnh tim. Thuộc tính “PatientID" được sử dụng như khóa; phần còn lại là các thuộc tính đầu vào. Giả sử rằng các dữ liệu trùng lặp, thiếu hay không phù hợp đã được xử lí. Hình1. Mô tả các thuộc tính 5.2. Các mô hình khai phá Ngôn ngữ truy vấn dữ liệu DMX (Data Mining Extension) đã được sử dụng để tạo mô hình, huấn luyện mô hình, dự báo mô hình và truy cập các nội dung của mô hình. Tất cả các thông số được thiết lập giá trị mặc định trừ các thông số “Minimum Support = 1” cho cây quyết định và “Minimum Dependency Probability = 0.005” cho Naïve Bayes. Các mô hình huấn luyện được đánh giá theo các bộ dữ liệu thử nghiệm về độ chính xác và hiệu quả trước khi chúng được triển khai trong HDDSS. Các mô hình được làm cho có hiệu lực sử dụng các biểu đồ Lift Chart và ma trận phân loại (Classification Matrix). 5.3. Đánh giá hiệu quả của mô hình Hiệu quả của mô hình đã được thử nghiệm bằng cách sử dụng hai phương pháp: Lift Chart và Classification Matrix. Mục đích là để xác định mô hình nào đưa ra tỷ lệ dự đoán chính xác cao nhất cho việc chẩn đoán các bệnh nhân bị bệnh tim. Lift Chart. Để xác định nếu có đủ thông tin để học các mẫu để đáp ứng thuộc tính dự đoán, các cột trong mô hình huấn luyện đã được ánh xạ tới các cột trong bộ dữ liệu thử nghiệm. Các mô hình, cột dự đoán và trạng thái của cột để dự đoán bệnh nhân bị bệnh tim (giá trị dự đoán = 1) cũng đã được lựa chọn. Hình 2 cho thấy đầu ra của Lift Chart. Trục X cho thấy tỷ lệ các bộ dữ liệu thử nghiệm được sử dụng để so sánh các dự đoán trong khi trục Y cho thấy tỷ lệ phần trăm của các giá trị được dự đoán cho một trạng thái cụ thể. Các đường màu xanh lam và xanh lá cây hiển thị các kết quả cho các mô hình dự đoán ngẫu nhiên và lý tưởng tương ứng. Các đường màu tím, vàng và đỏ tương ứng hiển thị các kết quả của các mô hình mạng Nơron, Naïve Bayes và cây quyết định. Hình 2. Kết quả của Lift Chart với giá trị dự đoán Dòng màu xanh lá cây đầu cho thấy mô hình lý tưởng; nó chiếm 100% tập hợp mục tiêu cho các bệnh nhân bị bệnh tim bằng cách sử dụng 46% của bộ dữ liệu thử nghiệm. Đường màu xanh lam phía dưới cho thấy dòng ngẫu nhiên mà luôn luôn là một dòng 45 độ trên bảng xếp hạng. Nó cho thấy rằng nếu chúng ta đoán ngẫu nhiên kết quả cho từng trường hợp, 50% trong tập hợp mục tiêu sẽ được ghi lại bằng 50% của bộ dữ liệu thử nghiệm. Tất cả ba dòng mô hình (màu tím, màu vàng và màu đỏ) nằm giữa đường ngẫu nhiên đoán và lý tưởng, cho thấy rằng cả ba có đủ thông tin để tìm hiểu mô hình để đáp ứng với tình trạng dự đoán được. Lift Chart với giá trị không dự đoán được. Các bước để tạo ra Lift Chart là tương tự như trên ngoại trừ trạng thái của cột có thể dự đoán được để trống. Nó không bao gồm một đường cho mô hình đoán ngẫu nhiên. Nó cho biết mỗi mô hình ở tình trạng trong việc dự đoán số lượng chính xác của thuộc tính dự đoán được như thế nào. Hình 3 cho thấy đầu ra của Lift Chart. Trục X cho thấy tỷ lệ dữ liệu thử nghiệm được sử dụng để so sánh các dự đoán trong khi trục Y cho thấy tỷ lệ dự đoán rằng là chính xác. Các đường màu xanh, tím, xanh lá cây và màu đỏ hiển thị lý tưởng, Neural Network, Naïve Bayes và Quyết định cây mô hình tương ứng. Biểu đồ cho thấy việc thực hiện các mô hình trên tất cả các trạng thái có thể. Dòng lý tưởng (màu xanh) ở góc 45 độ, cho thấy rằng nếu 50% của bộ dữ liệu thử nghiệm được xử lý, 50% kiểm tra dữ liệu được dự đoán một cách chính xác. Hình 3. Kết quả Lift Chart với giá trị không dự đoán Biểu đồ cho thấy rằng nếu 50% tập hợp được xử lý, tỷ lệ phần trăm của các dự đoán chính xác của mạng Nơron có mức cao nhất (49,34%), tiếp theo là Naïve Bayes (47,58%) và cây quyết định (41,85%). Nếu toàn bộ tập hợp được xử lý, mô hình Naïve Bayes dường như là tốt hơn so với hai mô hình còn lại vì nó có số lượng cao [...]... cũng là các trạng thái dự đoán ưa thích cho bệnh nhân không bị bệnh tim Hình 12 Hình 13 6 Kết luận Một nguyên mẫu của hệ thống hỗ trợ ra quyết định chẩn đoán bệnh tim dựa trên web đã được phát triển bằng cách sử dụng ba kỹ thuật mô hình phân loại khai thác dữ liệu Nó trích xuất kiến thức ẩn từ một cơ sở dữ liệu lịch sử bệnh tim Ngôn ngữ truy vấn DMX và các hàm được sử dụng để xây dựng và truy cập các. .. sung như xác định bệnh nhân và hồ sơ y tế của họ dựa trên các nút lựa chọn cũng có thể được truy cập bằng cách sử dụng khoan thông qua chức năng Các bác sĩ có thể sử dụng cây quyết định viewer để thực hiện thêm các phân tích khác Hình 9 Viewer của cây quyết định Mục tiêu 4: Xác định các đặc điểm của bệnh nhân bị bệnh tim Chỉ mô hình Naïve Bayes xác định các đặc điểm của bệnh nhân bị bệnh tim Nó cho thấy... đoán có bệnh về tim Tất cả ba mô hình có thể trả lời câu hỏi này bằng cách sử dụng truy vấn đơn và hàng loạt hoặc dự đoán tham gia truy vấn Cả hai truy vấn có thể dự đoán về các trường hợp một đầu vào và trường hợp nhiều đầu vào tương ứng HDDSS hỗ trợ dự đoán sử dụng các kịch bản “what-if” Người dùng nhập vào các giá trị của các thuộc tính y tế để chẩn đoán bệnh nhân bị bệnh tim Ví dụ, nhập các giá trị... xác (86,53%) cho bệnh nhân bị bệnh tim, tiếp theo là mạng Nơron (với một sự khác biệt nhỏ hơn 1%) và cây quyết định Tuy nhiên cây quyết định dường như là hiệu quả nhất để dự đoán bệnh nhân không có bệnh tim (89%) so với hai mô hình khác Hình 5 Các kết quả 5.4 Đánh giá các mục tiêu khai phá Năm mục tiêu khai phá dữ liệu được xác định dựa trên thăm dò của bộ dữ liệu bệnh tim và mục tiêu của nghiên cứu... với các mô hình huấn luyện Kết quả cho thấy cả ba mô hình đã đạt được các mục tiêu đã nêu, cho thấy rằng chúng có thể được sử dụng để cung cấp hỗ trợ quyết định cho các bác sĩ để chẩn đoán bệnh nhân và phát hiện các yếu tố y tế liên quan đến bệnh tim Năm mục tiêu được liệt kê và thảo luận dưới đây: Mục tiêu 1: Với các hồ sơ y tế của bệnh nhân đã có, dự đoán những người có khả năng được chẩn đoán có bệnh. .. số của các dự đoán chính xác và không chính xác Nó so sánh các giá trị thực tế trong bộ dữ liệu thử nghiệm với các giá trị dự đoán trong mô hình huấn luyện Trong ví dụ này, các dữ liệu thử nghiệm có 208 bệnh nhân bị bệnh tim và 246 bệnh nhân không có bệnh tim Hình 4 cho thấy kết quả của ma trận phân loại cho 3 mô hình Các hàng biểu diễn cho các giá trị dự đoán trong khi các cột biểu diễn cho các giá... điểm mạnh và điểm yếu của các thuộc tính y tế liên quan đến bệnh tim Hình 7 Lưới phụ thuộc của cây quyết định Hình 8 Lưới phụ thuộc của Naïve Bayes Mục tiêu 3: Xác định các tác động và mối quan hệ giữa các thuộc tính y tế liên quan đến trạng thái dự đoán bệnh tim Xác định các tác động và mối quan hệ giữa các thuộc tính y tế liên quan đến bệnh tim chỉ được tìm thấy tại cây quyết định viewer (hình 9) Nó... nhất (99,61%) mà bệnh nhân có bệnh tim được tìm thấy trong mối quan hệ giữa các thuộc tính (nút): “Chest Pain Type = 4 và CA = 0 và Exang = 0 và Trest Blood Pressure > = 146,362 và . HỌC CÔNG NGHỆ THÔNG TIN o0o BÀI THU HOẠCH MÔN HỌC HỆ HỖ TRỢ RA QUYẾT ĐỊNH ĐỀ TÀI: TÌM HIỂU HỆ HỖ TRỢ RA QUYẾT ĐỊNH CHẨN ĐOÁN CÁC BỆNH VỀ TIM SỬ DỤNG CÁC KĨ THUẬT KHAI PHÁ DỮ LIỆU GIÁO VIÊN. Nghiên cứu này đã phát triển một hệ thống hỗ trợ ra quyết định về bênh tim (HDDSS) dựa trên web sử dụng các kĩ thuật phân loại trong khai thác dữ liệu, cụ thể là, các mô hình cây quyết định, Naïve. phương pháp máy học và khai phá dữ liệu. Các quy tắc (thuật toán) được sử dụng để tạo ra các mô hình với khả năng dự đoán. Nó cung cấp cách thức mới để khám phá và hiểu dữ liệu. Nó học được từ các "bằng

Định dạng
Số trang	20
Dung lượng	1,4 MB