Dự báo nguy cơ tiểu đường giai đoạn đầu (UCI) bằng thuật toán phân lớp và luật kết hợp

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	33
Dung lượng	1,61 MB

Nội dung

BÁO CÁO HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN ĐẦU BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP GIẢNG VIÊN HƯỚNG DẪN: TS. TRẦN MẠNH TUẤN Hà Nội, tháng 7 năm 2021 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: Họ và tên Công việc thực hiện Tìm hiểu phương pháp khai phá tập mục phổ biến (Apriori) và Đánh giá mô hình bằng phương pháp Hold-out Phân lớp bằng thuật toán NaïveBayes Khai phá luật kết hợp bằng thuật toán Apriori Phân lớp bằng thuật toán J48 Giảng viên chấm: Họ và tên Chữ ký Ghi chú MỤC LỤC Lời nói đầu 1 CHƯƠNG 1 Tổng quan về Khai phá dữ liệu 2 1.1 Khái niệm cơ bản: 2 1.2 Một số kỹ thuật Khai phá dữ liệu 4 1.2.1 Kỹ thuật khai phá luật kết hợp 4 1.2.2 Kỹ thuật phân lớp 4 1.2.3 Kỹ thuật phân cụm 4 CHƯƠNG 2 Dữ liệu đầu vào của tập dữ liệu dự báo nguy cơ bệnh tiểu đường giai đoạn đầu (nguồn UCI) 5 CHƯƠNG 3 Khai phá luật kết hợp cho tập dữ liệu dự báo nguy cơ bệnh tiểu đường giai đoạn đầu 6 3.1.1 Khái niệm 6 3.1.2 Phương pháp khai phá tập mục phổ biến(Apriori) 6 3.1.3 Tiền xử lý dữ liệu 7 3.1.4 Khai phá dữ liệu 10 3.1.5 Biểu diễn tri thức 13 3.1.6 Nhận xét và đánh giá 15 CHƯƠNG 4 Phân lớp cho tập dữ liệu dự báo nguy cơ bệnh tiểu đường giai đoạn đầu 16 4.1 Khái niệm 16 4.2 Phân lớp bằng cây quyết định 16 4.2.1 Thuật toán xây dựng cây quyết định 17 4.3 Thuật toán NaïveBayes 18 4.3.1 Định lý Bayes 18 4.3.2 Phân lớp Naive Bayes 19 4.4 Tiền xử lý dữ liệu cho thuật toán phân lớp 20 4.5 Khai phá dữ liệu 21 4.5.1 Naive Bayes Classifier 21 4.5.2 Thuật toán J48 - cây quyết định 24 4.6 Biểu diễn tri thức 26 4.6.1 Phát hiện tri thức sau khi dùng thuật toán Naïve Bayes 26 4.6.2 Phát hiện tri thức sau khi dùng thuật toán cây quyết định J48 26 4.7 Đánh giá mô hình bằng phương pháp Hold-out: 26 Kết luận 28 TÀI LIỆU THAM KHẢO 29 Lời nói đầu Trong thời buổi hiện đại ngày nay, công nghệ thông tin cũng như những ứng dụng của nó không ngừng phát triển, lượng thông tin và cơ sở dữ liệu được thu thập và lưu trữ cũng tích lũy ngày một nhiều lên. Con người cũng vì thế mà cần có thông tin với tốc độ nhanh nhất để đưa ra quyết định dựa trên lượng dữ liệu khổng lồ đã có. Các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế, vì thế, một khuynh hướng kỹ thuật mới là Kỹ thuật phát hiện tri thức và khai phá dữ liệu nhanh chóng được phát triển. Khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới. Ở Việt Nam, kỹ thuật này đang được nghiên cứu và dần đưa vào ứng dụng. Khai phá dữ liệu là một bước trong quy trình phất hiện tri thức. Hiện nay, mọi người không ngừng tìm tòi các kỹ thuật để thực hiện khai phá dữ liệu một cách nhanh nhất và có được kết quả tốt nhất. Trong bài tập lớn này, chúng em tìm hiểu và trình bày về một kỹ thuật trong khai phá dữ liệu để phân lớp dữ liệu cũng như tổng quan về khai phá dữ liệu, với đề tài “ dự báo nguy cơ tiểu đường giai đoạn đầu (UCI) bằng thuật toán phân lớp và luật kết hợp”. Trong quá trình làm bài tập lớn này, chúng em xin gửi lời cảm ơn đến thầy giáo Nguyễn Huy Đức. Thầy đã rất tận tình hướng dẫn chi tiết cho chúng em, những kiến thức thầy cung cấp rất hữu ích. Chúng em rất mong nhận được những góp ý từ thầy. Chúng em xin chân thành cảm ơn!

TRƯỜNG ĐẠI HỌC THỦY LỢI KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN ĐẦU BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP GIẢNG VIÊN HƯỚNG DẪN: TS TRẦN MẠNH TUẤN Hà Nội, tháng năm 2021 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: Họ tên Công việc thực Tìm hiểu phương pháp khai phá tập mục phổ biến (Apriori) Đánh giá mơ hình phương pháp Hold-out Phân lớp thuật tốn NạveBayes Khai phá luật kết hợp thuật toán Apriori Phân lớp thuật toán J48 Giảng viên chấm: Họ tên Chữ ký Ghi MỤC LỤC Lời nói đầu CHƯƠNG Tổng quan Khai phá liệu 1.1 Khái niệm bản: 1.2 Một số kỹ thuật Khai phá liệu 1.2.1 Kỹ thuật khai phá luật kết hợp 1.2.2 Kỹ thuật phân lớp 1.2.3 Kỹ thuật phân cụm CHƯƠNG Dữ liệu đầu vào tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu (nguồn UCI) CHƯƠNG Khai phá luật kết hợp cho tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu 3.1.1 Khái niệm 3.1.2 Phương pháp khai phá tập mục phổ biến(Apriori) 3.1.3 Tiền xử lý liệu 3.1.4 Khai phá liệu 10 3.1.5 Biểu diễn tri thức 13 3.1.6 Nhận xét đánh giá 15 CHƯƠNG Phân lớp cho tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu 16 4.1 Khái niệm 16 4.2 Phân lớp định 16 4.2.1 Thuật toán xây dựng định 4.3 Thuật tốn NạveBayes 17 18 4.3.1 Định lý Bayes 18 4.3.2 Phân lớp Naive Bayes 19 4.4 Tiền xử lý liệu cho thuật toán phân lớp 20 4.5 Khai phá liệu 21 4.5.1 Naive Bayes Classifier 21 4.5.2 Thuật toán J48 - định 24 4.6 Biểu diễn tri thức 26 4.6.1 Phát tri thức sau dùng thuật tốn Nạve Bayes 26 4.6.2 Phát tri thức sau dùng thuật toán định J48 26 4.7 Đánh giá mơ hình phương pháp Hold-out: 26 Kết luận 28 TÀI LIỆU THAM KHẢO 29 Lời nói đầu Trong thời buổi đại ngày nay, công nghệ thông tin ứng dụng khơng ngừng phát triển, lượng thơng tin sở liệu thu thập lưu trữ tích lũy ngày nhiều lên Con người mà cần có thơng tin với tốc độ nhanh để đưa định dựa lượng liệu khổng lồ có Các phương pháp quản trị khai thác sở liệu truyền thống ngày khơng đáp ứng thực tế, thế, khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu nhanh chóng phát triển Khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới Ở Việt Nam, kỹ thuật nghiên cứu dần đưa vào ứng dụng Khai phá liệu bước quy trình phất tri thức Hiện nay, người khơng ngừng tìm tịi kỹ thuật để thực khai phá liệu cách nhanh có kết tốt Trong tập lớn này, chúng em tìm hiểu trình bày kỹ thuật khai phá liệu để phân lớp liệu tổng quan khai phá liệu, với đề tài “ dự báo nguy tiểu đường giai đoạn đầu (UCI) thuật toán phân lớp luật kết hợp” Trong trình làm tập lớn này, chúng em xin gửi lời cảm ơn đến thầy giáo Nguyễn Huy Đức Thầy tận tình hướng dẫn chi tiết cho chúng em, kiến thức thầy cung cấp hữu ích Chúng em mong nhận góp ý từ thầy Chúng em xin chân thành cảm ơn! CHƯƠNG Tổng quan Khai phá liệu 1.1 Khái niệm bản: Khai phá liệu trình xác định mẫu tiềm ẩn có tính hợp lệ, lạ, có ích hiểu khối liệu lớn Khai phá tri thức từ CSDL ( Knowledge Discovery in Database) Khai phá tri thức từ CSDL gồm bước: ● B1: Lựa chọn CSDL ● B2: Tiền xử lý ● B3: Chuyển đổi ● B4: Khai phá liệu ● B5: Diễn giải đánh giá Khai phá liệu bước trình khai phá tri thức từ CSDL Các ứng dụng khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật tốn, tính tốn song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phương pháp thống kê để mơ hình liệu phát mẫu, luật Ngân hàng liệu (Data Warehousing) công cụ phân tích trực tuyến (OLAP- On Line Analytical Processing) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế, ví dụ như: Bảo hiểm, tài thị trường chứng khốn: phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận, Thống kê, phân tích liệu hỗ trợ định Điều trị y học chăm sóc y tế: số thơng tin chuẩn đoán bệnh lưu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc, ) Sản xuất chế biến: Quy trình, phương pháp chế biến xử lý cố Text mining Web mining: Phân lớp văn trang Web, tóm tắt văn bản, Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene số bệnh di truyền, Mạng viễn thơng: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lượng dịch vụ, Các bước trình khai phá liệu Quy trình phát tri thức thường tuân theo bước sau: ● Bước thứ nhất: Hình thành, xác định định nghĩa tốn Là tìm hiểu lĩnh vực ứng dụng từ hình thành tốn, xác định nhiệm vụ cần phải hoàn thành Bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu ● Bước thứ hai: Thu thập tiền xử lý liệu Là thu thập xử lý thơ, cịn gọi tiền xử lý liệu nhằm loại bỏ nhiễu (làm liệu), xử lý việc thiếu liệu (làm giàu liệu), biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian tồn qui trình phát tri thức Do liệu lấy từ nhiều nguồn khác nhau, khơng đồng nhất, … gây nhầm lẫn Sau bước này, liệu quán, đầy đủ, rút gọn rời rạc hoá ● Bước thứ ba: Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu hoặc/và mơ hình ẩn liệu Giai đoạn quan trọng, bao gồm công đoạn như: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phương pháp khai phá nào? Thông thường, toán khai phá liệu bao gồm: tốn mang tính mơ tả - đưa tính chất chung liệu, toán dự báo - bao gồm việc phát suy diễn dựa liệu có Tuỳ theo tốn xác định mà ta lựa chọn phương pháp khai phá liệu cho phù hợp ● Bước thứ tư: Sử dụng tri thức phát Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mơ tả dự đốn Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Các kết q trình phát tri thức đưa vào ứng dụng lĩnh vực khác kết dự đốn 1.2 Một số kỹ thuật Khai phá liệu 1.2.1 Kỹ thuật khai phá luật kết hợp Trong khai phá liệu, mục đích luật kết hợp tìm mối quan hệ đối tượng khối lượng lớn liệu Để khai phá luật kết hợp có nhiều thuật tốn, dùng phổ biến thuật toán Apriori Đây thuật toán khai phá tập phổ biến liệu giao dịch để phát luật kết hợp dạng khẳng định nhị phân sử dụng để xác định, tìm luật kết hợp liệu giao dịch Ngoài ra, cịn có thuật tốn FP-growth, thuật tốn Partition,… 1.2.2 Kỹ thuật phân lớp Trong kỹ thuật phân lớp gồm có thuật tốn: ● Phân lớp định (giải thuật ID3, J48): phân lớp liệu dựa việc lập nên định, nhìn vào định định liệu thuộc phân lớp Phân lớp dựa xác suất (Nạve Bayesian): dựa việc giả định thuộc tính độc lập mạnh với qua việc sử dụng định lý Bayes ● Phân lớp dựa khoảng cách (giải thuật K – láng giềng): làm láng giềng làm, liệu phân vào lớp k đối tượng gần với liệu Phân lớp SVM: phân lớp liệu dựa việc tìm siêu phẳng “tốt nhất” để tách lớp liệu không gian nhiều chiều 1.2.3 Kỹ thuật phân cụm Phân cụm liệu cách phân bố đối tượng liệu vào nhóm/ cụm cho đối tượng cụm giống phần tử khác cụm, gồm có số phương pháp phân cụm như: ● Phân cụm phương pháp K-mean: tìm tâm cụm mà khoảng cách tâm đến đối tượng, liệu khác ngắn ● Phân cụm đồ thị, ngồi khai phá liệu có nhiều kỹ thuật, kỹ thuật đơn giản khai phá liệu mà chúng em tìm hiểu CHƯƠNG Dữ liệu đầu vào tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu (nguồn UCI) Bộ liệu sử dụng để khai phá liệu liệu dự báo nguy tiểu đường diabetes_data_upload.csv cung cấp https://archive.ics.uci.edu/ml/machinelearning-databases/00529/ diabetes_data_upload.csv Số lượng thuộc tinh: 17 Số lượng mẫu: 520 Bảng 2.1 Liệt kê thuộc tính giá trị thuộc tính tập liệu Thuộc tinh Giá trị Kiểu Age (tuổi) 16 tuổi đến 90 tuổi Numeric Sex (giới tinh) Male (nam giới) Female (nữ giới) Nominal Polyuria (đa niệu/đi tiểu nhiều) Yes (có) No (khơng) Nominal No (khơng) Nominal No (khơng) Nominal Polydipsia (Thường xun khát Yes (có) nước) Sudden weight loss (giảm cân đột Yes (có) ngột) Weakness (Thể trạng yếu) Yes (có) No (khơng) Nominal Polyphagia (Ăn q nhiều) Yes (có) No (khơng) Nominal Genital thrush (Tưa miệng) Yes (có) No (khơng) Nominal Visual blurring (Mờ thị giác) Yes (có) No (khơng) Nominal Itching (Ngứa) Yes (có) No (khơng) Nominal Irritability (Dễ cáu gắt) Yes (có) No (khơng) Nominal Delayed healing (Lâu lành vết thương) Yes (có) No (khơng) Nominal Partial paresis (Liệt phần) Yes (có) No (khơng) Nominal Muscle stiness (Cứng cơ) Yes (có) No (khơng) Nominal Alopecia (Rụng lơng tóc) Yes (có) No (khơng) Nominal Obesity (Béo phì) Yes (có) No (khơng) Nominal Class (Phân loại) Positive (dương tinh) Negative (âm tinh) Nominal CHƯƠNG Khai phá luật kết hợp cho tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu 3.1.1 Khái niệm Khai phá luật kết hợp tim mẫu có tần suất cao, mẫu kết hợp, liên quan cấu trúc tồn tập hợp đối tượng sở liệu giao dịch, sở liệu quan hệ kho chứa thơng tin khác Nói cách khác tim tất tập phổ biến từ liệu 3.1.2 Phương pháp khai phá tập mục phổ biến(Apriori) Apriori giải thuật R Agrawal, R Srikant đề xuất lần đầu vào năm 1994 nhằm khai phá tập mục phổ biến nhị phân Thuật toán thực lặp lại việc tim kiếm theo mức, sử dụng thông tin mức k để duyệt mức k+1 Đầu tiên, tập mục thường xuyên có độ dài xây dựng việc duyệt qua toàn liệu để đếm xuất phần tử giá trị phải lớn độ hỗ trợ nhỏ nhất(minsup) Kết việc đếm ký hiệu L1 Tiếp theo L1 sử dụng dụng để tim L2 tập mục thường xuyên có độ dài Tác vụ thực lặp lại đến không tim tập mục thường xuyên có độ dài k thỏa mãn điều kiện minsup Lưu ý lần thực việc tim tập mục thường xuyên Lk yêu cầu duyệt toàn liệu Từ tập mục thường xuyên ta sinh luật kết hợp mạnh cách tim luật tập mục thường xuyên thỏa mãn ngưỡng minconf Độ hỗ trợ luât X→ Y tỉ % giao dịch T chứa X Y X Y Support(X→Y) = ( X ∪ Y ) count = P(X∪Y) n Độ tin cậy luật X→ Y tỉ lệ % giao dịch T chứa X Y tổng số giao dịch T chứa X Confidence(X→Y) = ( X ∪Y ) count X count Thuật tốn Apriori = P(X∪Y | X) Duyệt tồn CSDL giao dịch để tinh giá trị hỗ trợ phẩn tử tập phổ biến tiềm C 1-itemset, so sánh với minsup, để có 1-itemset(L1) L1 nối(phép join) L1 để sinh 2-itemset tập phổ biến tiềm Loại bỏ tập mục tập phổ biến thu 2-itemset C Duyệt toàn CSDL giao dịch để tinh giá trị hỗ trợ ứng viên 2-itemset, so sánh phần tử với minsup để thư tập mục thường xuyên 2-itemset( L2) Lặp lại từ bước tập ứng cử tiềm C = ∅ Với mục phổ biến I, sinh tất tập s không rỗng I Với tập s không rỗng I, sinh luật s => (I-s) độ tin cậy (Confidence) ≥ minconf 3.1.3 Tiền xử lý liệu Trong liệu dự báo nguy tiểu đường thuộc tinh Age có kiểu liệu số mà thuật tốn Apriori khơng làm việc với liệu số Chính để áp dụng thuật toán Apriori với liệu ta cần áp dụng phương pháp rời rạc hóa liệu cho thuộc tinh Age chuyển kiểu liệu cho thuộc tinh từ Numeric trở thành Nominal Ta thấy thuộc tinh Age có giá trị nhỏ 16 giá trị lớn 90 Hình 3.1 Tập liệu bệnh tiểu đường trước tiền xử lý CHƯƠNG Phân lớp cho tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu 4.1 Khái niệm Phân lớp (Classification/Categorization) thực việc xây dựng (mơ tả) mơ hình (hàm) dự báo nhằm mơ tả phát lớp khái niệm cho dự báo Một số phương pháp điển hình định, luật phân lớp, mạng neuron Nội dụng phân lớp học hàm ánh xạ liệu vào số lớp biết Bản chất toán phân lớp dự đoán nhãn (hay lớp) phần tử liệu đầu vào nhãn (hay lớp) giá trị rời rạc Thông thường, giải thuật phân lớp thường hoạt động thông qua bước Bước phân tích tập liệu gán nhãn để tìm mơ hình phù hợp mơ tả tập liệu Bước gọi bước học (learning step) hay pha học (learning phase) tập liệu gán nhãn phục vụ trình học gọi liệ huấn luyện (training data) Dữ liệu huấn luyện tập phần tử liệu (data point) có gán nhãn, hay cịn gọi ghi (tuple) mơ tả liệu nhãn (hay lớp) tương ứng ghi Bước thứ hai bước kiểm tra hiệu chúng Để tránh tượng phù hợp (overfit), tập liệu khác gọi tập liệu kiểm thử (testing set) sử dụng để đo độ xác thuật tốn 4.2 Phân lớp định Giải thuật học dựa định hoạt động tập liệu biểu diễn thuộc tính có giá trị liên tục cần thực bước rời rạc hóa Các giải thuật phân lớp định (ID3, CART, C4.5) áp dụng cách tiếp cận ăn tham (greedy) (một thuật tốn khơng quay lui) (non-backtracking) để xây dựng theo hướng từ xuống Tập liệu huấn luyện chia thành tập nhỏ trình xây dựng theo chế chia để trị (devide-and-conquer) ● Mô tả sơ lược định: Để nạp liệu mushroom Weka, ta cần thêm thơng tin thuộc tính nằm file mơ tả vào tập liệu, sau chuyển mở rộng thành *.csv Dữ liệu đầu vào để dự báo nguy mắc bệnh tiểu đường giai đoạn đầu lấy link sau: https://archive.ics.uci.edu/ml/machine-learningdatabases/00529/diabetes_data_upload.csv ● Tập liệu mô tả dấu hiệu bệnh nhân mắc bệnh tiểu đường bệnh nhân tiểu đường: o Số lượng mẫu: 520 o Số lượng thuộc tính: 17 o Kiểu thuộc tính: numeric o Sự phân bố liệu vào phân lớp cân Số lượng phân lớp không áp đảo (imbalanced) o Ta dùng filter > unsupervised > attribute > ReplaceMissingValues để điền giá trị thiếu 4.2.1 Thuật toán xây dựng định Đầu vào: Tập D chứa liệu huấn luyện Attribute_list chứa danh sách thuộc tính ứng cử Đầu ra: Cây định Generate_decision_tree (D, attribute_list) Tạo nút gốc N cho định If toàn liệu D thuộc lớp C, return nút N nút có nhãn C If attribute_list rỗng, return nút N với nhãn lớp xuất nhiều D Splitting_attribute = attribute_selection_method ( D, attribute_list ) tìm thuộc tính phân chia tốt Gán cho nút N nhãn splitting_attribute Attribute_list  attribute_list \ {splitting_attribute} (loại bỏ thuộc tính splitting_attribute khỏi attribute_list) For each giá trị j thuộc tính splitting_attribute Gọi Dj tập chứa phần tử liệu mà thuộc tính splitting_attribute có giá trị j If Dj rỗng thêm nút Nj cho nút N có nhãn nhãn phổ biến xuất D Else gắn trả Generate_decision_tree (Dj, attribute_list) vào nút N Return N 4.3 Thuật tốn NạveBayes 4.3.1 Định lý Bayes ● Gọi A, B hai biến cố P(B)  Vớ i P( A | B)  P( AB) P(B) Suy ra: P( AB)  P( A | B)P(B)  P(B | A)P( A) Công thức Bayes: P(B | A)  P( AB)  P( A | B)P(B) P( A) P( A | B)P(B)  P( AB)  P( AB)  P( A ) P( A | B)P(B) P( AB)  P( AB) P( A | B)P(B) P( A | B)P(B)  P( A | B)P(B) ● Công thức Bayes tổng quát {B , B , , Bn } Vớ P( A)  hệ đầy đủ biến cố: i Tổng xác suất hệ 1: n  P(B k 1 k )1 Từng đôi xung khắc: P(Bi  B j )  Khi ta có: P(Bk | A) P( A | Bk )P(Bk )  P( A)  P( A | Bk )P(Bk ) n  P( A | B )P(B ) i i1 i Trong ta gọi A chứng (evidence) (trong toán phân lớp A phần tử liệu), B giả thiết A thuộc lớp C Trong tốn phân lớp muốn xác định giá trị P(B/A) xác suất để giả thiết B với chứng A thuộc vào lớp C với điều kiện biết thông tin mô tả A P(B|A) xác suất hậu nghiệm (posterior probability hay posteriori probability) B với điều kiện A Posterior = Likelihood * Prior / Evidence 4.3.2 Phân lớp Naive Bayes Bộ phân lớp Naive bayes hay phân lớp Bayes (simple byes classifier) hoạt động sau: Gọi D tập liệu huấn luyện, phần tử liệu X biểu diễn vector chứa n giá trị thuộc tính A1, A2, ,An = {x1,x2, ,xn} Giả sử có m lớp C1, C2, , Cm Cho phần tử liệu X, phân lớp gán nhãn cho X lớp có xác suất hậu nghiệm lớn Cụ thể, phân lớp Bayes dự đoán X thuộc vào lớp Ci nếu: P(Ci | X )  P(C j | X )  P(C j | X )(1  i, j  m, i!  j) Giá trị tính dựa định lý Bayes Để tìm xác suất lớn nhất, ta nhận thấy giá trị P(X) giống với lớp nên khơng cần tính Do ta cần tìm giá trị lớn P(X|C i) * P(Ci) Chú ý P(Ci) ước lượng |Di|/|D|, Di tập phần tử liệu thuộc lớp Ci Nếu xác suất tiền nghiệm P(Ci) khơng xác định ta coi chúng P(C 1) = P(C2) = = P(Cm), ta cần tìm giá trị P(X|Ci) lớn Khi số lượng thuộc tính mơ tả liệu lớn chi phí tính tồn P(X|C i) lớn, dó giảm độ phức tạp thuật toán Naive Bayes giả thiết thuộc tính độc lập Khi ta tính: P(X|Ci) = P(x1|Ci) P(xn|Ci) 4.4 Tiền xử lý liệu cho thuật toán phân lớp Tập liệu gồm 17 thuộc tính có 16 thuộc tính rời rạc (có khơng, dương tính âm tính) Riêng thuộc tính Age (tuổi) liệu liên tục (từ 16 đến 90 tuổi) Ta cần rời rạc hóa liệu thuộc tính tuổi phương pháp bins (đóng thùng), tức ta phân độ tuổi từ 16 đến 90 thành loại trẻ (dưới 40 tuổi), trung niên (40 đến 65 tuổi) già (trên 65 tuổi) Hình 4.1 Thuộc tính Age trước rời rạc hóa liệu (độ tuổi = 16 max = 90) Hình 4.2 Thuộc tính Age (tuổi) sau rời rạc hóa liệu thành bins 4.5 Khai phá liệu Sau làm xong bước tiền xử lý liệu, ta chạy giải thuật J48 NaiveBayes phần mềm Weka để khai phá liệu 4.5.1 Naive Bayes Classifier Bảng 4.1 Kết phân lớp sau chạy thuật toán NaiveBayes Attribute (thuộc tinh) Class (lớp) Positive (dương Negative (âm tinh) tinh) 0.61 0.39 ● Age (tuổi) Dưới 40 tuổi 100 Từ 40 đến 65 tuổi 187 Trên 65 tuổi 36 Tổng 323 ● Gender (giới tính) Male (nam giới) 148 Female (nữ giới) 174 Tổng 322 ● Polyuria (đa niệu) Yes (có) 244 No (khơng) 78 Tổng 322 ● Polydipsia Yes (có) 226 No (khơng) 96 Tổng 322 ● Sudden weight loss (sút cân đột ngột) 70 116 17 203 182 20 202 16 186 202 193 202 Yes (có) 189 No (khơng) 133 Tổng 322 ● Weakness Yes (có) 219 No (khơng) 103 Tổng 322 ● Polyphagia Yes (có) 190 No (khơng) 132 Tổng 322 ● Genital thrush (mọc mụn miệng) Yes (có) 84 No (khơng) 238 Tổng 322 ● Visual bluring (mắt mờ) Yes (có) 176 No (khơng) 146 Tổng 322 ● Itching (ngứa) Yes (có) 155 No (không) 167 Tổng 322 ● Irritability (cáu gắt) Yes (có) 111 No (khơng) 211 Tổng 322 ● Delayed healing (vết thương lâu lành) Yes (có) 154 No (khơng) 168 Tổng 322 ● Partial paresis (chứng liệt phần) Yes (có) 193 No (khơng) 129 Tổng 322 ● Muscle stiffness (co cứng bắp) Yes (có) 136 No (khơng) 186 Tổng 322 ● Alopecia (rụng tóc) Yes (có) 79 No (khơng) 243 Tổng 322 ● Obesity (Béo phì) Yes (có) 62 No (khơng) 260 30 172 202 88 114 202 49 153 202 34 168 202 59 143 202 100 102 202 17 185 202 87 115 202 33 169 202 61 141 202 102 100 202 28 174 Tổng 322 202 Hình 4.3 Độ xác sử dụng thuật toán NaiveBaye 4.5.2 Thuật toán J48 - định Kết phân lớp sau sử dụng thuật toán J48 định Polyuria = No | Polydipsia = Yes | | Irritability = No | | | Itching = Yes | | | | Gender = Male | | | | | Alopecia = Yes: Positive (5.0/1.0) | | | | | Alopecia = No: Negative (7.0) | | | | Gender = Female: Positive (4.0) | | | Itching = No: Positive (6.0) | | Irritability = Yes: Positive (18.0) | Polydipsia = No | | Gender = Male | | | Irritability = No | | | | delayed healing = Yes | | | | | Age 40: Negative (53.0/1.0) | | | | delayed healing = No: Negative (97.0/2.0) | | | Irritability = Yes | | | | Genital thrush = No | | | | | Age 42: Negative (10.0) | | | | Genital thrush = Yes: Positive (5.0) | | Gender = Female | | | Alopecia = Yes: Negative (14.0/1.0) | | | Alopecia = No | | | | visual blurring = No | | | | | Age 34: Positive (16.0/1.0) | | | | visual blurring = Yes: Positive (16.0) Polyuria = Yes | Polydipsia = Yes: Positive (193.0) | Polydipsia = No | | Itching = Yes | | | delayed healing = Yes | | | | Alopecia = Yes | | | | | Gender = Male | | | | | | Age 42: Negative (15.0) | | | | | Gender = Female: Positive (2.0) | | | | Alopecia = No: Positive (5.0) | | | delayed healing = No: Positive (11.0) | | Itching = No: Positive (30.0) Số lượng nút lá: 22 Kích thước cây: 43 Hình 4.4 Cây định sau chạy thuật tốn J48 Hình 4.5 Độ xác sử dụng thuật tốn định J48 4.6 Biểu diễn tri thức 4.6.1 Phát tri thức sau dùng thuật tốn Nạve Bayes Nhìn vào bảng 4.2 kết phân lớp sau chạy thuật tốn NaiveBayes phát tri thức sau: ● Nếu xét độ tuổi độ tuổi 65 tuổi có tỷ lệ mắc tiểu đường cao 68% ● Nếu xét giới tính nữ giới có tỷ lệ mắc tiểu đường cao nam giới ● Nếu người có Polyuria tỷ lệ cao mắc tiểu đường 4.6.2 Phát tri thức sau dùng thuật toán định J48 Sau nhìn vào định sinh từ thuật tốn J48 ta phát tri thức sau: ● Nếu người mà có đa niệu có Polydipsia mắc tiểu đường ● Nếu người khơng có đa niệu có Polydipsia kèm theo cáu gắt chuẩn đoán mắc tiểu đường ● Nếu người mà khơng có đa niệu khơng có Polydipsia giới tính nữ khơng hói đầu mà có mắt mờ chuẩn đốn mắc tiểu đường 4.7 Đánh giá mơ hình phương pháp Hold-out: Chúng ta chia liệu thành phần: 50% để xây dựng mơ hình phân lớp (train), 50% để kiểm tra (test) Bảng 4.2 Đánh giá thuật tốn Nạve Bayes Bảng định (J48) Classifier Precision Recall F-measure Confusion matrix Naive Bayes 0,883 0,877 0,878 a b  classified as 276 44 | a = Positive 20 180 | b = Negative J48 decision tree 0,969 0,969 0,969 a b  classified as 311 | a = Positive 193 | b = Negative Qua kết phân lớp trên, ta thấy mơ hình Naive Bayes J48 không cho kết phân lớp xác hồn tồn Dựa vào định, ta biết người bệnh nhân tiểu đường bệnh nhân tiểu đường thông qua việc đánh giá triệu chứng mẹo hữu ích để kiểm sốt yếu tố nguy đề xuất Về đặc điểm đa phần người Polyuria ( Đa niệu) Yes thường mắc bệnh theo chiều hướng tích cực Kết luận Sự bùng nổ thông tin với phát triển ứng dụng ngày rộng rãi công nghệ thông tin lĩnh vực khiến nhu cầu xử lý khỗi liệu khổng lồ để kết xuất thơng tin, tri thức hữu ích cho người sử dụng cách tự động, nhanh chóng xác, trở thành nhân tố quan trọng hàng đầu cho lĩnh vực Để kết xuất thông tin, tri thức q giá việc sử dụng khai phá liệu việc xử lý liệu cần thiết Khai phá liệu kỹ thuật quan trọng, mang tính thời khơng với lĩnh vực cơng nghệ thơng tin mà cịn quan trọng nhiều lĩnh vực khác có lĩnh vực y tế Trong lĩnh vực y tế, khai phá liệu cho ta tri thức bệnh tật Tuy việc áp dụng kỹ thuật vào y tế số hạn chế việc lựa chọn thuật toán phù hợp để khai phá liệu, cần lượng lớn liệu bệnh nhân, tốc độ xử lý máy tính Nhưng phần hỗ trợ cho việc chẩn đoán bệnh trở lên nhanh chóng tăng thêm độ xác cho bác sĩ việc chẩn đoán bệnh nhân TÀI LIỆU THAM KHẢO [1] - Giáo trình Khai Phá Dữ Liệu – Nguyễn Hà Nam – Nguyễn Trí Thành – Hà Quang Thụy [2] - https://archive.ics.uci.edu/ml/datasets.php ... lớp cho tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu 16 4 .1 Khái niệm 16 4.2 Phân lớp định 16 4.2 .1 Thuật toán xây dựng định 4.3 Thuật tốn NạveBayes 17 18 4.3 .1 Định lý Bayes 18 4.3.2 Phân. .. Kỹ thuật phân lớp 1. 2.3 Kỹ thuật phân cụm CHƯƠNG Dữ liệu đầu vào tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu (nguồn UCI) CHƯƠNG Khai phá luật kết hợp cho tập liệu dự báo nguy bệnh tiểu đường. .. 17 2 202 88 11 4 202 49 15 3 202 34 16 8 202 59 14 3 202 10 0 10 2 202 17 18 5 202 87 11 5 202 33 16 9 202 61 1 41 202 10 2 10 0 202 28 17 4 Tổng 322 202 Hình 4.3 Độ xác sử dụng thuật tốn NaiveBaye 4.5.2 Thuật

Ngày đăng: 22/10/2021, 13:28