Khai phá dữ liệu chuẩn đoán bệnh tiểu đường bằng naive bayes

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU CHUẨN ĐOÁN BỆNH TIỂU ĐƯỜNG BẰNG NAIVE BAYES Sinh viên thực : ĐẶNG THỊ NGỌC LINH ĐẶNG KHÁNH LINH NGUYỄN THỊ HUYỀN Giảng viên hướng dẫn : VŨ VĂN ĐỊNH Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ Lớp : D13HTTMDT1 Hà Nội, tháng 03 năm 2021 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: Họ tên Chữ ký Đặng Thị Ngọc Linh Đặng Khánh Linh Nguyễn Thị Huyền Giảng viên chấm: Ghi Họ tên Chữ ký Ghi Giảng viên chấm 1: Giảng viên chấm 2: MỤC LỤC LỜI CẢM ƠN TÓM TẮT DANH SÁCH CÁC BẢNG DANH SÁCH CÁC HÌNH CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1.1 Đặt vấn đề 1.2 Cơ sở hình thành đề tài 1.3 Một số kết thực nghiệm nước 1.3.1 Kết thực nghiệm giới 1.3.2 Kết thực nghiệm nước 1.4 Mục tiêu đề tài 1.5 Đối tượng phương pháp nghiên cứu 1.6 Ý nghĩa đề tài 1.6.1 Ý nghĩa khoa học 1.6.2 Ý nghĩa thực tiễn 1.7 Bố cục đề tài .9 CHƯƠNG 2: KHAI PHÁ DỮ LIỆU 10 2.1 Tổng quan kỹ thuật Khai phá dữu liệu(Data mining) .10 2.1.1 Khái niệm khai phá liệu 10 2.1.2 Quy trình khai phá liệu 11 2.1.3 Ứng dụng khai phá liệu 14 2.2 Tổng quan hệ hỗ trợ định 14 2.3 Bài toán phân lớp khai phá liệu .15 2.3.1 Khái niệm phân lớp 15 2.3.2 Quá trình phân lớp liệu 16 2.4 Cơ sở liệu Y khoa 20 2.4.1 Sơ lược bệnh Tiểu đường 20 2.4.2 Diễn biến lâm sàng bệnh Tiểu đường 20 2.4.3 Chuẩn đoán 22 CHƯƠNG 3: XÂY DỰNG MƠ HÌNH DỮ LIỆU SỬ DỤNG NAIVE BAYES 26 3.1 Cơ sở liệu xây dựng mơ hình 26 3.2 Phương pháp Bayes sử dụng khai phá liệu .26 3.2.1 Giới thiệu phương pháp Bayes khai phá liệu 26 3.2.2 Thuật toán Bayes 30 3.2.2.1 Phân loại phần tử .30 3.2.2.2 Sai số Bayes .30 3.3 Thuật toán Naive Bayes giải toán chuẩn đoán bệnh tiểu đường .31 3.3.1 Thuật toán Bayes 31 3.3.2 Tập liệu tiểu đường 32 3.3.3 Phân phối Gaussian .35 LỜI CẢM ƠN Qua tập lớn này, chúng em xin gửi lời cảm ơn tới thầy cô khoa công nghệ thông tin, đặc biệt thầy Vũ Văn Định cảm ơn cô cho chúng em có hội tìm hiểu góc kiến thức mới, hay bổ ích với tận tâm dạy dỗ chúng em, giúp chúng em hồn thiện đề tài Trong q trình tìm hiểu hồn thiện, đề tài khơng thể tránh khỏi sai sót, khuyết điểm Vì vậy, nhóm thực chúng em hy vọng nhận đánh giá đóng góp nhiệt tình từ phía thầy bạn để nhóm chúng em hoàn thiện Qua tập lớn này, chúng em xin cảm ơn bạn bè lớp D13HTTMDT1 giúp đỡ chúng em trình học tập làm tập lớn, chia sẻ kinh nghiệm kiến thức bạn tạo nên tảng kiến thức cho chúng em Cuối cùng, chúng em xin gửi lời cảm ơn gia đình đặc biệt cha mẹ tạo điều kiện tốt cho có đủ khả thực tập lớn này, trang trải học phí, động viên tinh thần cho em để học tập môi trường đại học tuyệt vời Chúng em xin chân thành cảm ơn! Nhóm sinh viên thực Đặng Thị Ngọc Linh Đặng Khánh Linh Nguyễn Thị Huyền TĨM TẮT Ngành y tế giáo dục ln vấn đề sống quốc gia giới Trong năm gần đây, phủ Việt nam đặc biệt đầu tư cho hai ngành mũi nhọn thơng qua sách , nguồn vốn dành cho trang thiết bị hạ tầng nghiên cứu khoa học Trong lĩnh vực kho học, ngày có nhiều cơng trình khoa học y tế Tuy nhiên nghiên cứu khoa học ứng dụng cơng nghệ thơng tin để giải tốn y tế khơng nhiều Do tình hình sức khỏe cách sinh hoạt người dân Việt Nam bất ổn nên tạo nhiều bệnh, đặc biệt bệnh tiểu đường, đề tài nghiên cứu chuẩn đoán bệnh tiểu đường Việt Nam kỹ thuật kai phá dữu liệu Dựa triệu chứng lâm sàng cận lâm sàng phân lớp bệnh bệnh nhân nhằm giúp bác sĩ chuẩn đoán điều trị tốt cho bệnh nhân Ngiên cứu tiến hành theo bước chính: (1) Tìm hiểu nghiệp vụ y tế liên quan đến bệnh tiểu đường (2) Thu nhập tiền xử lý liệu (3) Tìm hiểu tốn phân lớp khai phá liệu, lựa chọn thuật toán phù hợp với yêu cầu toán đặt liệu thu nhập (4) Hiện thực chương trình máy tính đánh giá ý nghĩa thực tiễn DANH SÁCH CÁC BẢNG Bảng 1: Bảng xác thực chéo thuộc tính insulin huyết Bảng 2: Bảng xác thực chéo thuộc tính nồng độ glucoso Bảng 3: Bảng xác thực chéo thuộc tính huyết áp tâm trường Bảng 4: Bảng xác thực chéo thuộc tính triceeps độ dày nếp gấp da Bảng 5: Bảng xác thực chéo thuộc tính số khối thể Bảng 6: Bảng xác thực chéo thuộc tính chức phả hệ bệnh tiểu đường Bảng 7: Bảng xác thực chéo thuộc tính tuổi DANH SÁCH CÁC HÌNH Hình 2.1: Knowledge Discovery in Databases Hình 2.2: Sơ đồ hệ hỗ trợ định Hình 2.3: Kết trình phân lớp Hình 2.4 : Xây dựng mơ hình phân lớp Hình 2.5: Bước phân lớp Hình 3.1: Mơ hình xây dựng giải pháp hỗ trợ chuẩn đốn bệnh Hình 3.2: Bảng liệu dataset bệnh tiểu đường Hình 4.1: Nhập liệu vào weka Hình 4.2: Dữ liệu đưa vào phân đoạn – tiền xử lý Hình 4.3: Các thuộc tính liệu bệnh tiểu đường Hình 4.4: Đầu phân lớp Hình 4.5: Đầu phân lớp định thuộc tính insulin huyết Hình 4.6: Đầu phân lớp nạve bayes thuộc tính insulin huyết Hình 4.7: Đầu phân lớp định thuộc tính nồng độ glucoso Hình 4.8: Đầu phân lớp nạve bayes thuộc tính nồng độ glucoso Hình 4.9: Đầu phân lớp định thuộc tính huyết áp tâm trường Hình 4.10: Đầu phân lớp nạve bayes thuộc tính huyết áp tâm trường Hình 4.11: Đầu phân lớp định thuộc tính triceeps độ dày nếp gấp da Hình 4.12: Đầu phân lớp nạve bayes thuộc tính triceeps độ dày nếp gấp da Hình 4.13: Đầu phân lớp định thuộc tính số khối thể Hình 4.14: Đầu phân lớp nạve bayes thuộc tính số khối thể Hình 4.15: Đầu phân lớp định thuộc tính chức phả hệ tiểu đường CHƯƠNG 3: XÂY DỰNG MÔ HÌNH DỮ LIỆU SỬ DỤNG NAIVE BAYES 3.1 Cơ sở liệu xây dựng mơ hình Sau thu thập liệu ta cần xây dựng sở liệu, lưu trữ thông tin cần thiết cho điều khiển theo mơ hình sau: Hình 3.1: Mơ hình xây dựng giải pháp hỗ trợ chuẩn đoán bệnh 3.2 Phương pháp Bayes sử dụng khai phá liệu 3.2.1 Giới thiệu phương pháp Bayes khai phá liệu Phân loại việc gán phần tử thích hợp vào tổng thể biết trước dựa vào biến quan sát Đây hướng phát triển quan trọng nhận dạng không giám sát thống kê Bài toán phân loại ứng dụng rộng rãi nhiều lĩnh vực khác nhau, đặc biệt xã hội, sinh học y học Hiện có ba phương pháp đưa để giải toán phân loại: phương pháp Fisher, phương pháp hồi quy logistic phương pháp Bayes [2], [3], [10] Phương pháp hồi quy logistic sử dụng phổ biến nay, áp dụng cho liệu rời rạc phân loại cho hai tổng 26 thể Phương pháp Fisher áp dụng cho liệu rời rạc, phân loại cho hai hay nhiều hai tổng thể phải giả thiết ma trận hiệp phương sai tổng thể Phương pháp Bayes phân loại cho hai nhiều hai tổng thể, xem có nhiều ưu điểm đạt mục tiêu mặt lý thuyết cho toán phân loại Các kết nghiên cứu năm gần toán phân loại chủ yếu tập trung xung quanh phương pháp Bayes Một ưu điểm bật phương pháp tính xác suất sai lầm phân loại mà gọi sai số Bayes Sai số Bayes chứng minh xác suất sai lầm nhỏ toán phân loại Một số kết có ý nghĩa phương pháp Bayes trình bày năm gần báo [6], [7], [8] Một cản trở lớn việc áp dụng thực tế toán phân loại phương pháp Bayes lĩnh vực cụ thể vấn đề tính tốn Phương pháp Bayes dựa sở hàm mật độ xác suất biết, nhiên số liệu thực tế số liệu rời rạc, để phân loại phương pháp Bayes có ý nghĩa thực tế việc phải ước lượng hàm mật độ xác suất Vấn đề tính sai số Bayes, phân loại phần tử cịn nhiều khó khăn gặp số liệu lớn thực tế Trong viết này, chúng tơi quan tâm đến lý thuyết tính toán vấn đề liên quan đến phân loại phương pháp Bayes từ số liệu rời rạc Đặc biệt đưa công thức tương đương sai số Bayes mà thuận lợi cho việc tính tốn Các lý thuyết liên quan đến việc tính tốn cụ thể hóa chương trình viết phần mềm Matlab Các chương trình sử dụng để áp dụng cho toán phân loại từ số liệu rời rạc thực tế lĩnh vực sinh học y học 27 Phương pháp Bayes  Cho X liệu đo n thuộc tính khác  Cho H liệu đo n thuộc tính khác  Đối với tốn phân lớp, muốn xác định P(H|X) – xác suất xảy H X xảy Đây gọi xác suất hậu nghiệm Ví dụ: X dùng để mô tả bệnh nhân thuộc tính tuổi tác nồng độ insulin Và H giả thuyết bệnh nhân bị tiểu đưuòng Khi P(H| X) biểu đạt xác suất bệnh nhân X bị bệnh tiểu đường biết tuổi tác nồng độ insulin bệnh nhân Ngược lại P(H) gọi xác suất tiêu nghiệm Theo lý thuyết Bayes: Nguyên tắc hoạt động phân lớp Naïve Bayes Cho D tập liệu huấn luyện với nhãn lớp tương ứng Như thường lệ, liệu mô tả n thuộc tính diễn đạt dạng vector n chiều X = (x1, x2,x3,…,xn) Giả sử có m nhãn lớp khác gồm C1, C2,…, Cm Cho liệu X, phân lớp dự đoán X thuộc phân lớp có xác suất hậu nghiệm cao Do P(X) không đổi, nên ta cần cực đại hóa giá trị P(X|Ci)P(Ci) Ví dụ: Dữ liệu minh họa hình: 28 Có lớp: xanh đỏ; N: tổng số đối tượng P(xanh) = |xanh|/N = 40/60 P(đỏ) = |đỏ|/N = 20/60 Với xác suất tiên nghiệm xác định trên: P(xanh) P(đỏ) xác định nhãn lớp cho đối tượng x hình Lấy x làm tâm, vẽ vòng tròn giới hạn đối tượng lân cận với x, tính: P(x|xanh) = |xanh lân cận|/|xanh| = 1/40 P(x|đỏ) = |đỏ lân cận|/|đỏ| = 3/20 P(xanh|x) = P(x|xanh).P(xanh) = (1/40 *40/40) = 1/60 P(đỏ|x) = P(x|đỏ).P(đỏ) = (3/20 * 20/60) = 1/20 x gán nhãn đỏ 29 3.2.2 Thuật toán Bayes 3.2.2.1 Phân loại phần tử Cho k tổng thể w1, w2, , wk có biến quan sát với hàm mật độ xác suất xác định f1(x), f2(x), …, fk(x) xác suất tiên nghệm cho tổng thể , , , , q1 q2 qk q1  q2   qk 1 Ta có nguyên tắc phân loại phần tử với biến quan sát x phương pháp Bayes sau: Nếu ( ) ( ) max g x q f x  j j xếp phần tử vào , wj (1) Trong đó: qi xác suất tiên nghiệm tổng thể thứ i, g (x) q f (x) i  i i gmax (x)  maxg1 (x), g2 (x), ,gk (x) 3.2.2.2 Sai số Bayes  Trường hợp hai tổng thể Trong trường hợp không quan tâm đến xác suất tiên nghiệm q w1 , ta có:  = P(w2|w1) = qf  dx n R x  : xác suất phân loại phần tử vào w2 thuộc w1  = P(w1|w2) = q f  dx n R x   ( : xác su ) ất phân loại phần tử vào w1 thuộc w2 Trong đó:   | ( ) (1 ) ( ) , 1 R x qf x q f x n    R2 x | qf1 (x) (1 q) f (x) n    Xác suất sai lầm phân loại Bayes gọi sai số Bayes xác định công thức: Pe  1 2 Khi quan tâm đến xác suất tiên nghiệm q w1  trở thành    trở thành   với Trong 30 Đặt (q)  (q, 1 q), sai số Bayes xác định   ;     gọi chung hai thành phần sai số Bayes  Trường hợp nhiều hai tổng thể Sai số Bayes phân loại k tổng thể định nghĩa biểu thức Để thuận lợi tính sai số Bayes, người ta thường tính xác suất phân loại sai số Bayes tính bởi: 3.3 Thuật tốn Naive Bayes giải toán chuẩn đoán bệnh tiểu đường 3.3.1 Thuật tốn Bayes Lý thuyết Bayes có lẽ khơng cịn q xa lạ Nó liên hệ xác suất có điều kiện Điều gợi ý cho tính tốn xác suất chưa biết dựa vào xác suất có điều kiện khác Thuật tốn Naive Bayes dựa việc tính tốn xác suất có điều kiện Nghe tên thuật tốn thấy ngây ngơ Tại lại Naive Không phải ngẫu nhiên mà người ta đặt tên thuật toán Tên gọi dựa giả thuyết chiều liệu X=(x_1, x_2, …., x_n)X=(x1,x2, ,xn) độc lập mặt xác suất với 31 Chúng ta thấy giả thuyết ngây thơ thực tế điều nói khơng thể xảy tức tìm tập liệu mà thành phần khơng liên quan đến Tuy nhiên, giả thiết ngây ngô lại mang lại kết tốt bất ngờ Giả thiết độc lập chiều liệu gọi Naive Bayes (xin phép không dịch) Cách xác định class liệu dựa giả thiết có tên Naive Bayes Classifier (NBC) Tuy nhiên dựa vào giả thuyết mà bước training testing trở nên vô nhanh chóng đơn giản Chúng ta sử dụng cho tốn largescale Trên thực tế, NBC hoạt động hiệu nhiều toán thực tế, đặc biệt toán phân loại văn bản, ví dụ lọc tin nhắn rác hay lọc email spam Trong viết với bạn áp dụng lý thuyết NBC để giải tốn toán chuẩn đoán bệnh tiểu đường 3.3.2 Tập liệu tiểu đường Tập liệu bao gồm liệu 768 tình nguyện viên bao gồm người bị tiểu đường người không bị tiểu đường Tập liệu bao gồm thuộc tính sau: Số lần mang thai Nồng độ glucose huyết tương xét nghiệm dung nạp Huyết áp tâm tương (mmHg) Triceps độ dày nếp gấp da (mm) Insulin huyết giờ(mu U/ml) Chỉ số khối thể ( cân nặng tính kg / chiều cao (tính m )^2) Chức phả hệ tiểu đường 32 Tuổi Với tình nguyện viện, liệu bao gồm tập hợp số kể tình trạng bị bênh tức class hay không bị bệnh tức class Về chất toán phân loại lớp sử dụng phương pháp phân loại khác SVM, Random Forest, KNN… để phân loại cho kết tốt Nếu có dịp trình bày phương pháp dịp khác Chúng ta hình dung tập liệu thông qua biểu diễn dạng file CSV sau, cột cuối tình trạng bị bệnh tình nguyện viên, cột từ đến tương ứng với số Hình 3.2: Bảng liệu dataset bệnh tiểu đường 33 Có điều nhận thấy giá trị số biến liên tục khơng phải giá trị rời rạc nên áp dụng thuật toán Naive Bayes cần phải áp dụng phân phối xác suất cho Một phân phối xác suất phổ biến sử dụng phần phân phối Gaussian Chúng ta tìm hiểu qua chút Phải hiểu chất thực hành 3.3.3 Phân phối Gaussian Với một liệu x_ixi thuộc class c_ici thấy x_ixi tuân theo phân phối chuẩn với kì vọng \muμ độ lệch chuẩn \sigmaσ Khi hàm xác suất x_ixi xác định sau: Đây cách tính thư viện sklearn nhiên viết hướng dẫn bạn cài đặt thủ cơng Chính việc cài đặt thủ công giúp cho hiểu toán 34 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Xây dựng mơ hình Nạve Bayes Weka Hình 4.1: Nhập liệu vào weka 35 Hình 4.3: Các thuộc tính liệu bệnh tiểu đường Hình 4.4: Đầu 36 Hình 4.5: Đầu NaveBayes 37 Hình 4.6: Đầu EM 38 KẾT LUẬN Sau thời gian thực hiện, chúng em thực số kết sau:  Tìm hiểu khai phá liệu  Vai trò khai pha liệu  Tìm hiểu thuật tốn bayes  Tìm hiểu bayes giải toán chuẩn đoán bệnh tiểu đường, ứng dụng bayes chuẩn đoán bệnh tiểu đường Chúng em tìm hiểu lý thuyết xác xuất đến thuật tốn Nạve Bayes ứng dụng toán phân loại bệnh nhân mắc tiểu đường Tuy độ xác cịn chưa cao chất phương pháp tập liệu chưa đủ lớn mong thầy giúp đỡ để tốn chúng em hoàn thiện 39 TÀI LIỆU THAM KHẢO [1] https://tecktalk.vn [2] https://machinelearningcoban.com 40 ... kết sau:  Tìm hiểu khai phá liệu  Vai trị khai pha liệu  Tìm hiểu thuật tốn bayes  Tìm hiểu bayes giải toán chuẩn đoán bệnh tiểu đường, ứng dụng bayes chuẩn đoán bệnh tiểu đường Chúng em tìm... KHAI PHÁ DỮ LIỆU 2.1 Tổng quan kỹ thuật Khai phá dữu liệu( Data mining) 2.1.1 Khái niệm khai phá liệu Khai phá liệu (data mining) Là q trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp... NBC để giải tốn tốn chuẩn đoán bệnh tiểu đường 3.3.2 Tập liệu tiểu đường Tập liệu bao gồm liệu 768 tình nguyện viên bao gồm người bị tiểu đường người không bị tiểu đường Tập liệu bao gồm thuộc

Khai phá dữ liệu chuẩn đoán bệnh tiểu đường bằng naive bayes

Thông tin tài liệu

Hình ảnh liên quan

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan