Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 32 trang
THÔNG TIN TÀI LIỆU
Cấu trúc
Lời nói đầu
CHƯƠNG 1 Tổng quan về Khai phá dữ liệu
1.1 Khái niệm cơ bản:
1.2 Một số kỹ thuật Khai phá dữ liệu
1.2.1 Kỹ thuật khai phá luật kết hợp
1.2.2 Kỹ thuật phân lớp
1.2.3 Kỹ thuật phân cụm
CHƯƠNG 2 Dữ liệu đầu vào của tập dữ liệu dự báo nguy cơ bệnh tiểu đường giai đoạn đầu (nguồn UCI)
CHƯƠNG 3 Khai phá luật kết hợp cho tập dữ liệu dự báo nguy cơ bệnh tiểu đường giai đoạn đầu
3.1.1 Khái niệm
3.1.2 Phương pháp khai phá tập mục phổ biến(Apriori)
3.1.3 Tiền xử lý dữ liệu
3.1.4 Khai phá dữ liệu
3.1.5 Biểu diễn tri thức
3.1.6 Nhận xét và đánh giá
CHƯƠNG 4 Phân lớp cho tập dữ liệu dự báo nguy cơ bệnh tiểu đường giai đoạn đầu
4.1 Khái niệm
4.2 Phân lớp bằng cây quyết định
4.2.1 Thuật toán xây dựng cây quyết định
4.3 Thuật toán NaïveBayes
4.3.1 Định lý Bayes
4.3.2 Phân lớp Naive Bayes
4.4 Tiền xử lý dữ liệu cho thuật toán phân lớp
4.5 Khai phá dữ liệu
4.5.1 Naive Bayes Classifier
4.5.2 Thuật toán J48 - cây quyết định
4.6 Biểu diễn tri thức
4.6.1 Phát hiện tri thức sau khi dùng thuật toán Naïve Bayes
4.6.2 Phát hiện tri thức sau khi dùng thuật toán cây quyết định J48
4.7 Đánh giá mô hình bằng phương pháp Hold-out:
Kết luận
TÀI LIỆU THAM KHẢO
Nội dung
TRƯỜNG ĐẠI HỌC THỦY LỢI KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN ĐẦU BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP GIẢNG VIÊN HƯỚNG DẪN: TS TRẦN MẠNH TUẤN Nhóm sinh viên thực hiện: Họ tên Mã sinh viên Lớp Nguyễn Đoàn Xuân Hiếu 175A071206 59TH3 Nguyễn Thị Hạnh 175A071205 59PM2 Đặng Linh Trang 175A071255 59PM2 Nguyễn Tiến Đạt 175A071231 59PM2 Hà Nội, tháng năm 2021 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: Họ tên Nguyễn Đồn Xn Hiếu Cơng việc thực Tìm hiểu phương pháp khai phá tập mục phổ biến (Apriori) Đánh giá mơ hình phương pháp Hold-out Nguyễn Thị Hạnh Đặng Linh Trang Phân lớp thuật tốn NạveBayes Khai phá luật kết hợp thuật toán Apriori Phân lớp thuật toán J48 Nguyễn Tiến Đạt Giảng viên chấm: Họ tên Chữ ký Ghi MỤC LỤC Lời nói đầu CHƯƠNG Tổng quan Khai phá liệu 1.1 Khái niệm bản: 1.2 Một số kỹ thuật Khai phá liệu 1.2.1 Kỹ thuật khai phá luật kết hợp 1.2.2 Kỹ thuật phân lớp 1.2.3 Kỹ thuật phân cụm CHƯƠNG Dữ liệu đầu vào tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu (nguồn UCI) CHƯƠNG Khai phá luật kết hợp cho tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu 3.1.1 Khái niệm 3.1.2 Phương pháp khai phá tập mục phổ biến(Apriori) 3.1.3 Tiền xử lý liệu 3.1.4 Khai phá liệu 10 3.1.5 Biểu diễn tri thức 13 3.1.6 Nhận xét đánh giá 15 CHƯƠNG Phân lớp cho tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu 16 4.1 Khái niệm 16 4.2 Phân lớp định 16 4.2.1 Thuật tốn xây dựng định 4.3 Thuật tốn NạveBayes 17 18 4.3.1 Định lý Bayes 18 4.3.2 Phân lớp Naive Bayes 19 4.4 Tiền xử lý liệu cho thuật toán phân lớp 20 4.5 Khai phá liệu 21 4.5.1 Naive Bayes Classifier 21 4.5.2 Thuật toán J48 - định 24 4.6 Biểu diễn tri thức 26 4.6.1 Phát tri thức sau dùng thuật tốn Nạve Bayes 26 4.6.2 Phát tri thức sau dùng thuật toán định J48 26 4.7 Đánh giá mơ hình phương pháp Hold-out: 26 Kết luận 28 TÀI LIỆU THAM KHẢO 29 Lời nói đầu Trong thời buổi đại ngày nay, công nghệ thơng tin ứng dụng khơng ngừng phát triển, lượng thông tin sở liệu thu thập lưu trữ tích lũy ngày nhiều lên Con người mà cần có thơng tin với tốc độ nhanh để đưa định dựa lượng liệu khổng lồ có Các phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế, thế, khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu nhanh chóng phát triển Khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới Ở Việt Nam, kỹ thuật nghiên cứu dần đưa vào ứng dụng Khai phá liệu bước quy trình phất tri thức Hiện nay, người không ngừng tìm tịi kỹ thuật để thực khai phá liệu cách nhanh có kết tốt Trong tập lớn này, chúng em tìm hiểu trình bày kỹ thuật khai phá liệu để phân lớp liệu tổng quan khai phá liệu, với đề tài “ dự báo nguy tiểu đường giai đoạn đầu (UCI) thuật toán phân lớp luật kết hợp” Trong trình làm tập lớn này, chúng em xin gửi lời cảm ơn đến thầy giáo Nguyễn Huy Đức Thầy tận tình hướng dẫn chi tiết cho chúng em, kiến thức thầy cung cấp hữu ích Chúng em mong nhận góp ý từ thầy Chúng em xin chân thành cảm ơn! CHƯƠNG Tổng quan Khai phá liệu 1.1 Khái niệm bản: Khai phá liệu trình xác định mẫu tiềm ẩn có tính hợp lệ, lạ, có ích hiểu khối liệu lớn Khai phá tri thức từ CSDL ( Knowledge Discovery in Database) Khai phá tri thức từ CSDL gồm bước: ● B1: Lựa chọn CSDL ● B2: Tiền xử lý ● B3: Chuyển đổi ● B4: Khai phá liệu ● B5: Diễn giải đánh giá Khai phá liệu bước trình khai phá tri thức từ CSDL Các ứng dụng khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật tốn, tính tốn song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phương pháp thống kê để mô hình liệu phát mẫu, luật Ngân hàng liệu (Data Warehousing) công cụ phân tích trực tuyến (OLAP- On Line Analytical Processing) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế, ví dụ như: Bảo hiểm, tài thị trường chứng khốn: phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận, Thống kê, phân tích liệu hỗ trợ định Điều trị y học chăm sóc y tế: số thơng tin chuẩn đoán bệnh lưu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc, ) Sản xuất chế biến: Quy trình, phương pháp chế biến xử lý cố Text mining Web mining: Phân lớp văn trang Web, tóm tắt văn bản, Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene số bệnh di truyền, Mạng viễn thơng: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lượng dịch vụ, Các bước trình khai phá liệu Quy trình phát tri thức thường tuân theo bước sau: ● Bước thứ nhất: Hình thành, xác định định nghĩa tốn Là tìm hiểu lĩnh vực ứng dụng từ hình thành tốn, xác định nhiệm vụ cần phải hoàn thành Bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu ● Bước thứ hai: Thu thập tiền xử lý liệu Là thu thập xử lý thơ, cịn gọi tiền xử lý liệu nhằm loại bỏ nhiễu (làm liệu), xử lý việc thiếu liệu (làm giàu liệu), biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian tồn qui trình phát tri thức Do liệu lấy từ nhiều nguồn khác nhau, khơng đồng nhất, … gây nhầm lẫn Sau bước này, liệu quán, đầy đủ, rút gọn rời rạc hoá ● Bước thứ ba: Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu hoặc/và mơ hình ẩn liệu Giai đoạn quan trọng, bao gồm công đoạn như: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phương pháp khai phá nào? Thông thường, toán khai phá liệu bao gồm: tốn mang tính mơ tả - đưa tính chất chung liệu, toán dự báo - bao gồm việc phát suy diễn dựa liệu có Tuỳ theo tốn xác định mà ta lựa chọn phương pháp khai phá liệu cho phù hợp ● Bước thứ tư: Sử dụng tri thức phát Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mơ tả dự đốn Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Các kết q trình phát tri thức đưa vào ứng dụng lĩnh vực khác kết dự đoán 1.2 Một số kỹ thuật Khai phá liệu 1.2.1 Kỹ thuật khai phá luật kết hợp Trong khai phá liệu, mục đích luật kết hợp tìm mối quan hệ đối tượng khối lượng lớn liệu Để khai phá luật kết hợp có nhiều thuật tốn, dùng phổ biến thuật toán Apriori Đây thuật toán khai phá tập phổ biến liệu giao dịch để phát luật kết hợp dạng khẳng định nhị phân sử dụng để xác định, tìm luật kết hợp liệu giao dịch Ngồi ra, cịn có thuật tốn FP-growth, thuật tốn Partition,… 1.2.2 Kỹ thuật phân lớp Trong kỹ thuật phân lớp gồm có thuật tốn: ● Phân lớp định (giải thuật ID3, J48): phân lớp liệu dựa việc lập nên định, nhìn vào định định liệu thuộc phân lớp Phân lớp dựa xác suất (Naïve Bayesian): dựa việc giả định thuộc tính độc lập mạnh với qua việc sử dụng định lý Bayes ● Phân lớp dựa khoảng cách (giải thuật K – láng giềng): làm láng giềng làm, liệu phân vào lớp k đối tượng gần với liệu Phân lớp SVM: phân lớp liệu dựa việc tìm siêu phẳng “tốt nhất” để tách lớp liệu không gian nhiều chiều 1.2.3 Kỹ thuật phân cụm Phân cụm liệu cách phân bố đối tượng liệu vào nhóm/ cụm cho đối tượng cụm giống phần tử khác cụm, gồm có số phương pháp phân cụm như: ● Phân cụm phương pháp K-mean: tìm tâm cụm mà khoảng cách tâm đến đối tượng, liệu khác ngắn ● Phân cụm đồ thị, ngồi khai phá liệu có nhiều kỹ thuật, kỹ thuật đơn giản khai phá liệu mà chúng em tìm hiểu CHƯƠNG Dữ liệu đầu vào tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu (nguồn UCI) Bộ liệu sử dụng để khai phá liệu liệu dự báo nguy tiểu đường diabetes_data_upload.csv cung cấp https://archive.ics.uci.edu/ml/machinelearning-databases/00529/ diabetes_data_upload.csv Số lượng thuộc tính: 17 Số lượng mẫu: 520 Bảng 2.1 Liệt kê thuộc tính giá trị thuộc tính tập liệu Thuộc tính Giá trị Kiểu Age (tuổi) 16 tuổi đến 90 tuổi Numeric Sex (giới tính) Male (nam giới) Female (nữ giới) Nominal Polyuria (đa niệu/đi tiểu nhiều) Yes (có) No (khơng) Nominal No (khơng) Nominal No (khơng) Nominal Polydipsia (Thường xun khát Yes (có) nước) Sudden weight loss (giảm cân đột Yes (có) ngột) Weakness (Thể trạng yếu) Yes (có) No (khơng) Nominal Polyphagia (Ăn q nhiều) Yes (có) No (khơng) Nominal Genital thrush (Tưa miệng) Yes (có) No (khơng) Nominal Visual blurring (Mờ thị giác) Yes (có) No (khơng) Nominal Itching (Ngứa) Yes (có) No (khơng) Nominal Irritability (Dễ cáu gắt) Yes (có) No (khơng) Nominal Delayed healing (Lâu lành vết thương) Yes (có) No (khơng) Nominal Partial paresis (Liệt phần) Yes (có) No (khơng) Nominal Muscle stiness (Cứng cơ) Yes (có) No (khơng) Nominal Alopecia (Rụng lơng tóc) Yes (có) No (khơng) Nominal Obesity (Béo phì) Yes (có) No (khơng) Nominal Class (Phân loại) Positive (dương tính) Negative (âm tính) Nominal CHƯƠNG Khai phá luật kết hợp cho tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu 3.1.1 Khái niệm Khai phá luật kết hợp tìm mẫu có tần suất cao, mẫu kết hợp, liên quan cấu trúc tồn tập hợp đối tượng sở liệu giao dịch, sở liệu quan hệ kho chứa thơng tin khác Nói cách khác tìm tất tập phổ biến từ liệu 3.1.2 Phương pháp khai phá tập mục phổ biến(Apriori) Apriori giải thuật R Agrawal, R Srikant đề xuất lần đầu vào năm 1994 nhằm khai phá tập mục phổ biến nhị phân Thuật tốn thực lặp lại việc tìm kiếm theo mức, sử dụng thông tin mức k để duyệt mức k+1 Đầu tiên, tập mục thường xuyên có độ dài xây dựng việc duyệt qua toàn liệu để đếm xuất phần tử giá trị phải lớn độ hỗ trợ nhỏ nhất(minsup) Kết việc đếm ký hiệu L1 Tiếp theo L1 sử dụng dụng để tìm L2 tập mục thường xuyên có độ dài Tác vụ thực lặp lại đến khơng tìm tập mục thường xun có độ dài k thỏa mãn điều kiện minsup Lưu ý lần thực việc tìm tập mục thường xuyên Lk yêu cầu duyệt toàn liệu Từ tập mục thường xuyên ta sinh luật kết hợp mạnh cách tìm luật tập mục thường xuyên thỏa mãn ngưỡng minconf Độ hỗ trợ luât X→ Y tỉ % giao dịch T chứa X Y X Y Support(X→Y) = ( X ∪ Y ) count = P(X∪Y) n Độ tin cậy luật X→ Y tỉ lệ % giao dịch T chứa X Y tổng số giao dịch T chứa X Confidence(X→Y) = Thuật toán Apriori ( X ∪ Y ) count = P(X∪Y | X) X count Duyệt toàn CSDL giao dịch để tính giá trị hỗ trợ phẩn tử tập phổ biến tiềm C 1-itemset, so sánh với minsup, để có 1-itemset( L1) L1 nối(phép join) L1 để sinh 2-itemset tập phổ biến tiềm Loại bỏ tập mục tập phổ biến thu 2-itemset C Duyệt tồn CSDL giao dịch để tính giá trị hỗ trợ ứng viên 2-itemset, so sánh phần tử với minsup để thư tập mục thường xuyên 2-itemset( L2) Lặp lại từ bước tập ứng cử tiềm C = ∅ Với mục phổ biến I, sinh tất tập s không rỗng I Với tập s không rỗng I, sinh luật s => (I-s) độ tin cậy (Confidence) ≥ minconf 3.1.3 Tiền xử lý liệu Trong liệu dự báo nguy tiểu đường thuộc tính Age có kiểu liệu số mà thuật tốn Apriori khơng làm việc với liệu số Chính để áp dụng thuật tốn Apriori với liệu ta cần áp dụng phương pháp rời rạc hóa liệu cho thuộc tính Age chuyển kiểu liệu cho thuộc tính từ Numeric trở thành Nominal Ta thấy thuộc tính Age có giá trị nhỏ 16 giá trị lớn 90 Hình 3.1 Tập liệu bệnh tiểu đường trước tiền xử lý 10 → Người khơng có triệu chứng ngứa ngáy thường xun khơng có triệu chứng lâu lành vết thương khơng mắc bệnh tưa miệng 18 Polydipsia=No Irritability=No 240 ==> Obesity=No 217 lift:(1.09) lev: (0.03) [17] conv:(1.69) → Người triệu chứng thường xun thấy khát nước khơng có tình trạng dễ cáu gắt khơng mắc bệnh béo phì 19 Polyuria=No Irritability=No 225 ==> Polydipsia=No 203 lift:(1.63) lev: (0.15) [78] conv:(4.38) → Người khơng có triệu chứng tiểu nhiều khơng có tình trạng dễ cáu gắt khơng có triệu chứng thường xun thấy khát nước 20 Polyuria=No Irritability=No 225 ==> Obesity=No 203 lift:(1.09) lev: (0.03) [16] conv:(1.66) → Người khơng có triệu chứng tiểu nhiều khơng có tình trạng dễ cáu gắt khơng có nguy mắc bệnh béo phì 3.1.6 Nhận xét đánh giá Sau bước biểu diễn tri thức từ kết nhận sau sử dụng thuật toán Apriori để khai phá luật kết hợp cho thấy triệu chứng tiểu nhiều, thường xuyên thấy khát nước, dễ cáu gắt hay bệnh béo phì với bệnh tiểu đường giai đoạn đầu chúng có mối liên hệ mật thiết với Nhưng từ tri thức mà nhận được, cho thấy việc sử dụng thuật toán Apriori khai phá liệu bệnh nhân đơi cịn nhiều hạn chế Đối với ngành y học việc chẩn đốn bệnh cần phải có độ xác cao nên việc khai phá liệu ngành cần tập liệu lớn với số lượng mẫu lớn đa dạng lại mặt hạn chế thuật toán Apriori phải làm việc với lượng liệu lớn Không việc lựa chọn độ hỗ trợ tối thiểu độ đo lường tối thiểu (ở nhóm sử dụng độ tin cậy) phù hợp đóng góp lớn việc khám phá tri thức xác khơng bỏ qua tri thức quan trọng Đây việc không dễ dàng mà chí cịn cịn khó khăn để lựa chọn độ hỗ trợ tối thiểu độ đo lường tối thiểu tốt 18 CHƯƠNG Phân lớp cho tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu 4.1 Khái niệm Phân lớp (Classification/Categorization) thực việc xây dựng (mô tả) mơ hình (hàm) dự báo nhằm mơ tả phát lớp khái niệm cho dự báo Một số phương pháp điển hình định, luật phân lớp, mạng neuron Nội dụng phân lớp học hàm ánh xạ liệu vào số lớp biết Bản chất toán phân lớp dự đoán nhãn (hay lớp) phần tử liệu đầu vào nhãn (hay lớp) giá trị rời rạc Thông thường, giải thuật phân lớp thường hoạt động thông qua bước Bước phân tích tập liệu gán nhãn để tìm mơ hình phù hợp mơ tả tập liệu Bước gọi bước học (learning step) hay pha học (learning phase) tập liệu gán nhãn phục vụ trình học gọi liệ huấn luyện (training data) Dữ liệu huấn luyện tập phần tử liệu (data point) có gán nhãn, hay cịn gọi ghi (tuple) mô tả liệu nhãn (hay lớp) tương ứng ghi Bước thứ hai bước kiểm tra hiệu chúng Để tránh tượng phù hợp (overfit), tập liệu khác gọi tập liệu kiểm thử (testing set) sử dụng để đo độ xác thuật toán 4.2 Phân lớp định Giải thuật học dựa định hoạt động tập liệu biểu diễn thuộc tính có giá trị liên tục cần thực bước rời rạc hóa Các giải thuật phân lớp định (ID3, CART, C4.5) áp dụng cách tiếp cận ăn tham (greedy) (một thuật tốn khơng quay lui) (non-backtracking) để xây dựng theo hướng từ xuống Tập liệu huấn luyện chia thành tập nhỏ trình xây dựng theo chế chia để trị (devide-and-conquer) ● Mô tả sơ lược định: Để nạp liệu mushroom Weka, ta cần thêm thông tin thuộc tính nằm file mơ tả vào tập liệu, sau chuyển mở rộng thành *.csv 19 Dữ liệu đầu vào để dự báo nguy mắc bệnh tiểu đường giai đoạn đầu lấy link sau: https://archive.ics.uci.edu/ml/machine-learningdatabases/00529/diabetes_data_upload.csv ● Tập liệu mô tả dấu hiệu bệnh nhân mắc bệnh tiểu đường bệnh nhân tiểu đường: o Số lượng mẫu: 520 o Số lượng thuộc tính: 17 o Kiểu thuộc tính: numeric o Sự phân bố liệu vào phân lớp cân Số lượng phân lớp không áp đảo (imbalanced) o Ta dùng filter > unsupervised > attribute > ReplaceMissingValues để điền giá trị thiếu 4.2.1 Thuật toán xây dựng định Đầu vào: Tập D chứa liệu huấn luyện Attribute_list chứa danh sách thuộc tính ứng cử Đầu ra: Cây định Generate_decision_tree (D, attribute_list) Tạo nút gốc N cho định If toàn liệu D thuộc lớp C, return nút N nút có nhãn C If attribute_list rỗng, return nút N với nhãn lớp xuất nhiều D Splitting_attribute = attribute_selection_method ( D, attribute_list ) tìm thuộc tính phân chia tốt Gán cho nút N nhãn splitting_attribute Attribute_list 🡸 attribute_list \ {splitting_attribute} (loại bỏ thuộc tính splitting_attribute khỏi attribute_list) For each giá trị j thuộc tính splitting_attribute 20 Gọi Dj tập chứa phần tử liệu mà thuộc tính splitting_attribute có giá trị j If Dj rỗng thêm nút Nj cho nút N có nhãn nhãn phổ biến xuất D Else gắn trả Generate_decision_tree (Dj, attribute_list) vào nút N Return N 4.3 Thuật tốn NạveBayes 4.3.1 Định lý Bayes ● Gọi A, B hai biến cố Với P( B) P( A | B) P( AB) P( B) Suy ra: P( AB ) P ( A | B) P( B ) P( B | A) P( A) Công thức Bayes: P ( AB) P( A | B) P( B) P( A | B) P( B) P ( A) P( A) P( AB ) P ( AB ) P( A | B) P( B) P ( A | B ) P ( B) P ( AB ) P ( AB ) P ( A | B ) P ( B ) P ( A | B ) P ( B ) P( B | A) ● Công thức Bayes tổng quát {B , B , , Bn } hệ đầy đủ biến cố: Với P( A) Tổng xác suất hệ 1: n P( B ) k 1 k Từng đôi xung khắc: P ( Bi B j ) 21 Khi ta có: P ( A | Bk ) P( Bk ) P ( A) P( A | Bk ) P( Bk ) P ( Bk | A) n P( A | B ) P( B ) i i 1 i Trong ta gọi A chứng (evidence) (trong toán phân lớp A phần tử liệu), B giả thiết A thuộc lớp C Trong tốn phân lớp muốn xác định giá trị P(B/A) xác suất để giả thiết B với chứng A thuộc vào lớp C với điều kiện biết thông tin mô tả A P(B|A) xác suất hậu nghiệm (posterior probability hay posteriori probability) B với điều kiện A Posterior = Likelihood * Prior / Evidence 4.3.2 Phân lớp Naive Bayes Bộ phân lớp Naive bayes hay phân lớp Bayes (simple byes classifier) hoạt động sau: Gọi D tập liệu huấn luyện, phần tử liệu X biểu diễn vector chứa n giá trị thuộc tính A1, A2, ,An = {x1,x2, ,xn} Giả sử có m lớp C1, C2, , Cm Cho phần tử liệu X, phân lớp gán nhãn cho X lớp có xác suất hậu nghiệm lớn Cụ thể, phân lớp Bayes dự đoán X thuộc vào lớp Ci nếu: P(Ci | X ) P(C j | X ) P(C j | X )(1 i, j m, i ! j ) Giá trị tính dựa định lý Bayes Để tìm xác suất lớn nhất, ta nhận thấy giá trị P(X) giống với lớp nên khơng cần tính Do ta cần tìm giá trị lớn P(X|C i) * P(Ci) Chú ý P(Ci) ước lượng |Di|/|D|, Di là tập phần tử liệu thuộc lớp Ci Nếu xác suất tiền nghiệm P(C i) khơng xác 22 định ta coi chúng P(C 1) = P(C2) = = P(Cm), ta cần tìm giá trị P(X|Ci) lớn Khi số lượng thuộc tính mơ tả liệu lớn chi phí tính tồn P(X|Ci) lớn, dó giảm độ phức tạp thuật tốn Naive Bayes giả thiết thuộc tính độc lập Khi ta tính: P(X|Ci) = P(x1|Ci) P(xn|Ci) 4.4 Tiền xử lý liệu cho thuật toán phân lớp Tập liệu gồm 17 thuộc tính có 16 thuộc tính rời rạc (có khơng, dương tính âm tính) Riêng thuộc tính Age (tuổi) liệu liên tục (từ 16 đến 90 tuổi) Ta cần rời rạc hóa liệu thuộc tính tuổi phương pháp bins (đóng thùng), tức ta phân độ tuổi từ 16 đến 90 thành loại trẻ (dưới 40 tuổi), trung niên (40 đến 65 tuổi) già (trên 65 tuổi) Hình 4.1 Thuộc tính Age trước rời rạc hóa liệu (độ tuổi = 16 max = 90) 23 Hình 4.2 Thuộc tính Age (tuổi) sau rời rạc hóa liệu thành bins 4.5 Khai phá liệu Sau làm xong bước tiền xử lý liệu, ta chạy giải thuật J48 NaiveBayes phần mềm Weka để khai phá liệu 4.5.1 Naive Bayes Classifier Bảng 4.1 Kết phân lớp sau chạy thuật tốn NaiveBayes Attribute (thuộc tính) Class (lớp) Positive (dương Negative (âm tính) tính) 0.61 0.39 ● Age (tuổi) Dưới 40 tuổi 100 Từ 40 đến 65 tuổi 187 Trên 65 tuổi 36 Tổng 323 ● Gender (giới tính) Male (nam giới) 148 Female (nữ giới) 174 Tổng 322 ● Polyuria (đa niệu) Yes (có) 244 No (khơng) 78 Tổng 322 ● Polydipsia Yes (có) 226 No (không) 96 70 116 17 203 182 20 202 16 186 202 193 24 Tổng 322 ● Sudden weight loss (sút cân đột ngột) Yes (có) 189 No (khơng) 133 Tổng 322 ● Weakness Yes (có) 219 No (khơng) 103 Tổng 322 ● Polyphagia Yes (có) 190 No (không) 132 Tổng 322 ● Genital thrush (mọc mụn miệng) Yes (có) 84 No (khơng) 238 Tổng 322 ● Visual bluring (mắt mờ) Yes (có) 176 No (khơng) 146 Tổng 322 ● Itching (ngứa) Yes (có) 155 No (khơng) 167 Tổng 322 ● Irritability (cáu gắt) Yes (có) 111 No (không) 211 Tổng 322 ● Delayed healing (vết thương lâu lành) Yes (có) 154 No (khơng) 168 Tổng 322 ● Partial paresis (chứng liệt phần) Yes (có) 193 No (không) 129 Tổng 322 ● Muscle stiffness (co cứng bắp) Yes (có) 136 No (khơng) 186 Tổng 322 ● Alopecia (rụng tóc) Yes (có) 79 25 202 30 172 202 88 114 202 49 153 202 34 168 202 59 143 202 100 102 202 17 185 202 87 115 202 33 169 202 61 141 202 102 No (khơng) 243 Tổng 322 ● Obesity (Béo phì) Yes (có) 62 No (khơng) 260 Tổng 322 100 202 28 174 202 Hình 4.3 Độ xác sử dụng thuật toán NaiveBaye 4.5.2 Thuật toán J48 - định Kết phân lớp sau sử dụng thuật toán J48 định Polyuria = No | Polydipsia = Yes | | Irritability = No | | | Itching = Yes | | | | Gender = Male | | | | | Alopecia = Yes: Positive (5.0/1.0) | | | | | Alopecia = No: Negative (7.0) | | | | Gender = Female: Positive (4.0) 26 | | | Itching = No: Positive (6.0) | | Irritability = Yes: Positive (18.0) | Polydipsia = No | | Gender = Male | | | Irritability = No | | | | delayed healing = Yes | | | | | Age 40: Negative (53.0/1.0) | | | | delayed healing = No: Negative (97.0/2.0) | | | Irritability = Yes | | | | Genital thrush = No | | | | | Age 42: Negative (10.0) | | | | Genital thrush = Yes: Positive (5.0) | | Gender = Female | | | Alopecia = Yes: Negative (14.0/1.0) | | | Alopecia = No | | | | visual blurring = No | | | | | Age 34: Positive (16.0/1.0) | | | | visual blurring = Yes: Positive (16.0) Polyuria = Yes | Polydipsia = Yes: Positive (193.0) | Polydipsia = No | | Itching = Yes | | | delayed healing = Yes | | | | Alopecia = Yes | | | | | Gender = Male | | | | | | Age 42: Negative (15.0) | | | | | Gender = Female: Positive (2.0) | | | | Alopecia = No: Positive (5.0) | | | delayed healing = No: Positive (11.0) | | Itching = No: Positive (30.0) Số lượng nút lá: 22 Kích thước cây: 43 27 Hình 4.4 Cây định sau chạy thuật tốn J48 Hình 4.5 Độ xác sử dụng thuật tốn định J48 4.6 Biểu diễn tri thức 4.6.1 Phát tri thức sau dùng thuật tốn Nạve Bayes Nhìn vào bảng 4.2 kết phân lớp sau chạy thuật tốn NaiveBayes phát tri thức sau: ● Nếu xét độ tuổi độ tuổi 65 tuổi có tỷ lệ mắc tiểu đường cao 68% ● Nếu xét giới tính nữ giới có tỷ lệ mắc tiểu đường cao nam giới ● Nếu người có Polyuria tỷ lệ cao mắc tiểu đường 28 4.6.2 Phát tri thức sau dùng thuật toán định J48 Sau nhìn vào định sinh từ thuật tốn J48 ta phát tri thức sau: ● Nếu người mà có đa niệu có Polydipsia mắc tiểu đường ● Nếu người khơng có đa niệu có Polydipsia kèm theo cáu gắt chuẩn đốn mắc tiểu đường ● Nếu người mà khơng có đa niệu khơng có Polydipsia giới tính nữ khơng hói đầu mà có mắt mờ chuẩn đốn mắc tiểu đường 4.7 Đánh giá mơ hình phương pháp Hold-out: Chúng ta chia liệu thành phần: 50% để xây dựng mơ hình phân lớp (train), 50% để kiểm tra (test) Bảng 4.2 Đánh giá thuật tốn Nạve Bayes Bảng định (J48) Classifier Precision Recall F-measure Confusion matrix Naive Bayes 0,883 0,877 0,878 a b 🡸 classified as 276 44 | a = Positive 20 180 | b = Negative J48 decision tree 0,969 0,969 0,969 a b 🡸 classified as 311 | a = Positive 193 | b = Negative 29 Qua kết phân lớp trên, ta thấy mơ hình Naive Bayes J48 khơng cho kết phân lớp xác hồn tồn Dựa vào định, ta biết người bệnh nhân tiểu đường bệnh nhân tiểu đường thông qua việc đánh giá triệu chứng mẹo hữu ích để kiểm sốt yếu tố nguy đề xuất Về đặc điểm đa phần người Polyuria ( Đa niệu) Yes thường mắc bệnh theo chiều hướng tích cực 30 Kết luận Sự bùng nổ thông tin với phát triển ứng dụng ngày rộng rãi công nghệ thông tin lĩnh vực khiến nhu cầu xử lý khỗi liệu khổng lồ để kết xuất thơng tin, tri thức hữu ích cho người sử dụng cách tự động, nhanh chóng xác, trở thành nhân tố quan trọng hàng đầu cho lĩnh vực Để kết xuất thông tin, tri thức q giá việc sử dụng khai phá liệu việc xử lý liệu cần thiết Khai phá liệu kỹ thuật quan trọng, mang tính thời khơng với lĩnh vực cơng nghệ thơng tin mà cịn quan trọng nhiều lĩnh vực khác có lĩnh vực y tế Trong lĩnh vực y tế, khai phá liệu cho ta tri thức bệnh tật Tuy việc áp dụng kỹ thuật vào y tế số hạn chế việc lựa chọn thuật toán phù hợp để khai phá liệu, cần lượng lớn liệu bệnh nhân, tốc độ xử lý máy tính Nhưng phần hỗ trợ cho việc chẩn đoán bệnh trở lên nhanh chóng tăng thêm độ xác cho bác sĩ việc chẩn đoán bệnh nhân 31 TÀI LIỆU THAM KHẢO [1] - Giáo trình Khai Phá Dữ Liệu – Nguyễn Hà Nam – Nguyễn Trí Thành – Hà Quang Thụy [2] - https://archive.ics.uci.edu/ml/datasets.php 32 ... tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu (nguồn UCI) CHƯƠNG Khai phá luật kết hợp cho tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu 3.1.1 Khái niệm 3.1.2 Phương pháp khai phá tập... Tiền xử lý ● B3: Chuyển đổi ● B4: Khai phá liệu ● B5: Diễn giải đánh giá Khai phá liệu bước trình khai phá tri thức từ CSDL Các ứng dụng khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều... Nguy? ??n Đồn Xn Hiếu Cơng việc thực Tìm hiểu phương pháp khai phá tập mục phổ biến (Apriori) Đánh giá mơ hình phương pháp Hold-out Nguy? ??n Thị Hạnh Đặng Linh Trang Phân lớp thuật tốn NạveBayes Khai