KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN ĐẦU BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP

Thông tin tài liệu

Trong thời buổi hiện đại ngày nay, công nghệ thông tin cũng như những ứng dụng của nó không ngừng phát triển, lượng thông tin và cơ sở dữ liệu được thu thập và lưu trữ cũng tích lũy ngày một nhiều lên. Con người cũng vì thế mà cần có thông tin với tốc độ nhanh nhất để đưa ra quyết định dựa trên lượng dữ liệu khổng lồ đã có. Các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế, vì thế, một khuynh hướng kỹ thuật mới là Kỹ thuật phát hiện tri thức và khai phá dữ liệu nhanh chóng được phát triển. Khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới. Ở Việt Nam, kỹ thuật này đang được nghiên cứu và dần đưa vào ứng dụng. Khai phá dữ liệu là một bước trong quy trình phất hiện tri thức. Hiện nay, mọi người không ngừng tìm tòi các kỹ thuật để thực hiện khai phá dữ liệu một cách nhanh nhất và có được kết quả tốt nhất. Trong bài tập lớn này, chúng em tìm hiểu và trình bày về một kỹ thuật trong khai phá dữ liệu để phân lớp dữ liệu cũng như tổng quan về khai phá dữ liệu, với đề tài “ dự báo nguy cơ tiểu đường giai đoạn đầu (UCI) bằng thuật toán phân lớp và luật kết hợp”. Trong quá trình làm bài tập lớn này, chúng em xin gửi lời cảm ơn đến thầy giáo Nguyễn Huy Đức. Thầy đã rất tận tình hướng dẫn chi tiết cho chúng em, những kiến thức thầy cung cấp rất hữu ích. Chúng em rất mong nhận được những góp ý từ thầy. Chúng em xin chân thành cảm ơn!

TRƯỜNG ĐẠI HỌC THỦY LỢI KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN ĐẦU BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP GIẢNG VIÊN HƯỚNG DẪN: TS TRẦN MẠNH TUẤN Nhóm sinh viên thực hiện: Hà Nội, tháng năm 2021 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: Họ tên Cơng việc thực Tìm hiểu phương pháp khai phá tập mục phổ biến (Apriori) Đánh giá mơ hình phương pháp Hold-out Phân lớp thuật tốn NạveBayes Khai phá luật kết hợp thuật tốn Apriori Phân lớp thuật toán J48 Giảng viên chấm: Họ tên Chữ ký Ghi MỤC LỤC Lời nói đầu CHƯƠNG Tổng quan Khai phá liệu 1.1 Khái niệm bản: 1.2 Một số kỹ thuật Khai phá liệu 1.2.1 Kỹ thuật khai phá luật kết hợp 1.2.2 Kỹ thuật phân lớp 1.2.3 Kỹ thuật phân cụm CHƯƠNG Dữ liệu đầu vào tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu (nguồn UCI) CHƯƠNG Khai phá luật kết hợp cho tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu 3.1.1 Khái niệm 3.1.2 Phương pháp khai phá tập mục phổ biến(Apriori) 3.1.3 Tiền xử lý liệu 3.1.4 Khai phá liệu 10 3.1.5 Biểu diễn tri thức 13 3.1.6 Nhận xét đánh giá 15 CHƯƠNG Phân lớp cho tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu 16 4.1 Khái niệm 16 4.2 Phân lớp định 16 4.2.1 Thuật toán xây dựng định 4.3 Thuật tốn NạveBayes 17 18 4.3.1 Định lý Bayes 18 4.3.2 Phân lớp Naive Bayes 19 4.4 Tiền xử lý liệu cho thuật toán phân lớp 20 4.5 Khai phá liệu 21 4.5.1 Naive Bayes Classifier 21 4.5.2 Thuật toán J48 - định 24 4.6 Biểu diễn tri thức 26 4.6.1 Phát tri thức sau dùng thuật tốn Nạve Bayes 26 4.6.2 Phát tri thức sau dùng thuật toán định J48 26 4.7 Đánh giá mơ hình phương pháp Hold-out: 26 Kết luận 28 TÀI LIỆU THAM KHẢO 29 Lời nói đầu Trong thời buổi đại ngày nay, công nghệ thông tin ứng dụng khơng ngừng phát triển, lượng thông tin sở liệu thu thập lưu trữ tích lũy ngày nhiều lên Con người mà cần có thơng tin với tốc độ nhanh để đưa định dựa lượng liệu khổng lồ có Các phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế, thế, khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu nhanh chóng phát triển Khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới Ở Việt Nam, kỹ thuật nghiên cứu dần đưa vào ứng dụng Khai phá liệu bước quy trình phất tri thức Hiện nay, người khơng ngừng tìm tịi kỹ thuật để thực khai phá liệu cách nhanh có kết tốt Trong tập lớn này, chúng em tìm hiểu trình bày kỹ thuật khai phá liệu để phân lớp liệu tổng quan khai phá liệu, với đề tài “ dự báo nguy tiểu đường giai đoạn đầu (UCI) thuật toán phân lớp luật kết hợp” Trong trình làm tập lớn này, chúng em xin gửi lời cảm ơn đến thầy giáo Nguyễn Huy Đức Thầy tận tình hướng dẫn chi tiết cho chúng em, kiến thức thầy cung cấp hữu ích Chúng em mong nhận góp ý từ thầy Chúng em xin chân thành cảm ơn! CHƯƠNG Tổng quan Khai phá liệu 1.1 Khái niệm bản: Khai phá liệu trình xác định mẫu tiềm ẩn có tính hợp lệ, lạ, có ích hiểu khối liệu lớn Khai phá tri thức từ CSDL ( Knowledge Discovery in Database) Khai phá tri thức từ CSDL gồm bước: ● B1: Lựa chọn CSDL ● B2: Tiền xử lý ● B3: Chuyển đổi ● B4: Khai phá liệu ● B5: Diễn giải đánh giá Khai phá liệu bước trình khai phá tri thức từ CSDL Các ứng dụng khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật tốn, tính tốn song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phương pháp thống kê để mơ hình liệu phát mẫu, luật Ngân hàng liệu (Data Warehousing) cơng cụ phân tích trực tuyến (OLAP- On Line Analytical Processing) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế, ví dụ như: Bảo hiểm, tài thị trường chứng khốn: phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận, Thống kê, phân tích liệu hỗ trợ định Điều trị y học chăm sóc y tế: số thơng tin chuẩn đốn bệnh lưu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc, ) Sản xuất chế biến: Quy trình, phương pháp chế biến xử lý cố Text mining Web mining: Phân lớp văn trang Web, tóm tắt văn bản, Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene số bệnh di truyền, Mạng viễn thơng: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lượng dịch vụ, Các bước trình khai phá liệu Quy trình phát tri thức thường tuân theo bước sau: ● Bước thứ nhất: Hình thành, xác định định nghĩa tốn Là tìm hiểu lĩnh vực ứng dụng từ hình thành tốn, xác định nhiệm vụ cần phải hoàn thành Bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu ● Bước thứ hai: Thu thập tiền xử lý liệu Là thu thập xử lý thơ, cịn gọi tiền xử lý liệu nhằm loại bỏ nhiễu (làm liệu), xử lý việc thiếu liệu (làm giàu liệu), biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian tồn qui trình phát tri thức Do liệu lấy từ nhiều nguồn khác nhau, không đồng nhất, … gây nhầm lẫn Sau bước này, liệu quán, đầy đủ, rút gọn rời rạc hoá ● Bước thứ ba: Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu hoặc/và mơ hình ẩn liệu Giai đoạn quan trọng, bao gồm công đoạn như: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phương pháp khai phá nào? Thơng thường, tốn khai phá liệu bao gồm: tốn mang tính mơ tả - đưa tính chất chung liệu, toán dự báo - bao gồm việc phát suy diễn dựa liệu có Tuỳ theo tốn xác định mà ta lựa chọn phương pháp khai phá liệu cho phù hợp ● Bước thứ tư: Sử dụng tri thức phát Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mô tả dự đốn Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Các kết trình phát tri thức đưa vào ứng dụng lĩnh vực khác kết dự đoán 1.2 Một số kỹ thuật Khai phá liệu 1.2.1 Kỹ thuật khai phá luật kết hợp Trong khai phá liệu, mục đích luật kết hợp tìm mối quan hệ đối tượng khối lượng lớn liệu Để khai phá luật kết hợp có nhiều thuật toán, dùng phổ biến thuật toán Apriori Đây thuật toán khai phá tập phổ biến liệu giao dịch để phát luật kết hợp dạng khẳng định nhị phân sử dụng để xác định, tìm luật kết hợp liệu giao dịch Ngồi ra, cịn có thuật toán FP-growth, thuật toán Partition,… 1.2.2 Kỹ thuật phân lớp Trong kỹ thuật phân lớp gồm có thuật tốn: ● Phân lớp định (giải thuật ID3, J48): phân lớp liệu dựa việc lập nên định, nhìn vào định định liệu thuộc phân lớp Phân lớp dựa xác suất (Naïve Bayesian): dựa việc giả định thuộc tính độc lập mạnh với qua việc sử dụng định lý Bayes ● Phân lớp dựa khoảng cách (giải thuật K – láng giềng): làm láng giềng làm, liệu phân vào lớp k đối tượng gần với liệu Phân lớp SVM: phân lớp liệu dựa việc tìm siêu phẳng “tốt nhất” để tách lớp liệu không gian nhiều chiều 1.2.3 Kỹ thuật phân cụm Phân cụm liệu cách phân bố đối tượng liệu vào nhóm/ cụm cho đối tượng cụm giống phần tử khác cụm, gồm có số phương pháp phân cụm như: ● Phân cụm phương pháp K-mean: tìm tâm cụm mà khoảng cách tâm đến đối tượng, liệu khác ngắn ● Phân cụm đồ thị, khai phá liệu có nhiều kỹ thuật, kỹ thuật đơn giản khai phá liệu mà chúng em tìm hiểu CHƯƠNG Dữ liệu đầu vào tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu (nguồn UCI) Bộ liệu sử dụng để khai phá liệu liệu dự báo nguy tiểu đường diabetes_data_upload.csv cung cấp https://archive.ics.uci.edu/ml/machinelearning-databases/00529/ diabetes_data_upload.csv Số lượng thuộc tinh: 17 Số lượng mẫu: 520 Bảng 2.1 Liệt kê thuộc tính giá trị thuộc tính tập liệu Thuộc tinh Giá trị Kiểu Age (tuổi) 16 tuổi đến 90 tuổi Numeric Sex (giới tinh) Male (nam giới) Female (nữ giới) Nominal Polyuria (đa niệu/đi tiểu nhiều) Yes (có) No (khơng) Nominal No (không) Nominal No (không) Nominal Polydipsia (Thường xuyên khát Yes (có) nước) Sudden weight loss (giảm cân đột Yes (có) ngột) Weakness (Thể trạng yếu) Yes (có) No (khơng) Nominal Polyphagia (Ăn q nhiều) Yes (có) No (khơng) Nominal Genital thrush (Tưa miệng) Yes (có) No (khơng) Nominal Visual blurring (Mờ thị giác) Yes (có) No (khơng) Nominal Itching (Ngứa) Yes (có) No (khơng) Nominal Irritability (Dễ cáu gắt) Yes (có) No (khơng) Nominal Delayed healing (Lâu lành vết thương) Yes (có) No (khơng) Nominal Partial paresis (Liệt phần) Yes (có) No (khơng) Nominal Muscle stiness (Cứng cơ) Yes (có) No (khơng) Nominal Alopecia (Rụng lơng tóc) Yes (có) No (khơng) Nominal Obesity (Béo phì) Yes (có) No (không) Nominal Class (Phân loại) Positive (dương tinh) Negative (âm tinh) Nominal CHƯƠNG Khai phá luật kết hợp cho tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu 3.1.1 Khái niệm Khai phá luật kết hợp tim mẫu có tần suất cao, mẫu kết hợp, liên quan cấu trúc tồn tập hợp đối tượng sở liệu giao dịch, sở liệu quan hệ kho chứa thông tin khác Nói cách khác tim tất tập phổ biến từ liệu 3.1.2 Phương pháp khai phá tập mục phổ biến(Apriori) Apriori giải thuật R Agrawal, R Srikant đề xuất lần đầu vào năm 1994 nhằm khai phá tập mục phổ biến nhị phân Thuật toán thực lặp lại việc tim kiếm theo mức, sử dụng thông tin mức k để duyệt mức k+1 Đầu tiên, tập mục thường xuyên có độ dài xây dựng việc duyệt qua toàn liệu để đếm xuất phần tử giá trị phải lớn độ hỗ trợ nhỏ nhất(minsup) Kết việc đếm ký hiệu L1 Tiếp theo L1 sử dụng dụng để tim L2 tập mục thường xuyên có độ dài Tác vụ thực lặp lại đến không tim tập mục thường xuyên có độ dài k thỏa mãn điều kiện minsup Lưu ý lần thực việc tim tập mục thường xuyên Lk yêu cầu duyệt toàn liệu Từ tập mục thường xuyên ta sinh luật kết hợp mạnh cách tim luật tập mục thường xuyên thỏa mãn ngưỡng minconf Độ hỗ trợ luât X→ Y tỉ % giao dịch T chứa X Y X Y Support(X→Y) = ( X ∪ Y ) count = P(X∪Y) n Độ tin cậy luật X→ Y tỉ lệ % giao dịch T chứa X Y tổng số giao dịch T chứa X Confidence(X→Y) = ( X ∪Y ) count X count Thuật toán Apriori = P(X∪Y | X) Duyệt toàn CSDL giao dịch để tinh giá trị hỗ trợ phẩn tử tập phổ biến tiềm C 1-itemset, so sánh với minsup, để có 1-itemset(L1) L1 nối(phép join) L1 để sinh 2-itemset tập phổ biến tiềm Loại bỏ tập mục tập phổ biến thu 2-itemset C Duyệt toàn CSDL giao dịch để tinh giá trị hỗ trợ ứng viên 2-itemset, so sánh phần tử với minsup để thư tập mục thường xuyên 2-itemset( L2) Lặp lại từ bước tập ứng cử tiềm C = ∅ Với mục phổ biến I, sinh tất tập s không rỗng I Với tập s không rỗng I, sinh luật s => (I-s) độ tin cậy (Confidence) ≥ minconf 3.1.3 Tiền xử lý liệu Trong liệu dự báo nguy tiểu đường thuộc tinh Age có kiểu liệu số mà thuật tốn Apriori khơng làm việc với liệu số Chính để áp dụng thuật tốn Apriori với liệu ta cần áp dụng phương pháp rời rạc hóa liệu cho thuộc tinh Age chuyển kiểu liệu cho thuộc tinh từ Numeric trở thành Nominal Ta thấy thuộc tinh Age có giá trị nhỏ 16 giá trị lớn 90 Hình 3.1 Tập liệu bệnh tiểu đường trước tiền xử lý CHƯƠNG Phân lớp cho tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu 4.1 Khái niệm Phân lớp (Classification/Categorization) thực việc xây dựng (mơ tả) mơ hình (hàm) dự báo nhằm mô tả phát lớp khái niệm cho dự báo Một số phương pháp điển hình định, luật phân lớp, mạng neuron Nội dụng phân lớp học hàm ánh xạ liệu vào số lớp biết Bản chất toán phân lớp dự đoán nhãn (hay lớp) phần tử liệu đầu vào nhãn (hay lớp) giá trị rời rạc Thông thường, giải thuật phân lớp thường hoạt động thơng qua bước Bước phân tích tập liệu gán nhãn để tìm mơ hình phù hợp mơ tả tập liệu Bước gọi bước học (learning step) hay pha học (learning phase) tập liệu gán nhãn phục vụ trình học gọi liệ huấn luyện (training data) Dữ liệu huấn luyện tập phần tử liệu (data point) có gán nhãn, hay cịn gọi ghi (tuple) mô tả liệu nhãn (hay lớp) tương ứng ghi Bước thứ hai bước kiểm tra hiệu chúng Để tránh tượng phù hợp (overfit), tập liệu khác gọi tập liệu kiểm thử (testing set) sử dụng để đo độ xác thuật toán 4.2 Phân lớp định Giải thuật học dựa định hoạt động tập liệu biểu diễn thuộc tính có giá trị liên tục cần thực bước rời rạc hóa Các giải thuật phân lớp định (ID3, CART, C4.5) áp dụng cách tiếp cận ăn tham (greedy) (một thuật tốn khơng quay lui) (non-backtracking) để xây dựng theo hướng từ xuống Tập liệu huấn luyện chia thành tập nhỏ trình xây dựng theo chế chia để trị (devide-and-conquer) ● Mô tả sơ lược định: Để nạp liệu mushroom Weka, ta cần thêm thơng tin thuộc tính nằm file mô tả vào tập liệu, sau chuyển mở rộng thành *.csv Dữ liệu đầu vào để dự báo nguy mắc bệnh tiểu đường giai đoạn đầu lấy link sau: https://archive.ics.uci.edu/ml/machine-learningdatabases/00529/diabetes_data_upload.csv ● Tập liệu mô tả dấu hiệu bệnh nhân mắc bệnh tiểu đường bệnh nhân tiểu đường: o Số lượng mẫu: 520 o Số lượng thuộc tính: 17 o Kiểu thuộc tính: numeric o Sự phân bố liệu vào phân lớp cân Số lượng phân lớp không áp đảo (imbalanced) o Ta dùng filter > unsupervised > attribute > ReplaceMissingValues để điền giá trị thiếu 4.2.1 Thuật toán xây dựng định Đầu vào: Tập D chứa liệu huấn luyện Attribute_list chứa danh sách thuộc tính ứng cử Đầu ra: Cây định Generate_decision_tree (D, attribute_list) Tạo nút gốc N cho định If toàn liệu D thuộc lớp C, return nút N nút có nhãn C If attribute_list rỗng, return nút N với nhãn lớp xuất nhiều D Splitting_attribute = attribute_selection_method ( D, attribute_list ) tìm thuộc tính phân chia tốt Gán cho nút N nhãn splitting_attribute Attribute_list  attribute_list \ {splitting_attribute} (loại bỏ thuộc tính splitting_attribute khỏi attribute_list) For each giá trị j thuộc tính splitting_attribute ... Kỹ thuật phân lớp 1.2.3 Kỹ thuật phân cụm CHƯƠNG Dữ liệu đầu vào tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu (nguồn UCI) CHƯƠNG Khai phá luật kết hợp cho tập liệu dự báo nguy bệnh tiểu đường. .. tìm hiểu trình bày kỹ thuật khai phá liệu để phân lớp liệu tổng quan khai phá liệu, với đề tài “ dự báo nguy tiểu đường giai đoạn đầu (UCI) thuật toán phân lớp luật kết hợp? ?? Trong trình làm tập... giản khai phá liệu mà chúng em tìm hiểu CHƯƠNG Dữ liệu đầu vào tập liệu dự báo nguy bệnh tiểu đường giai đoạn đầu (nguồn UCI) Bộ liệu sử dụng để khai phá liệu liệu dự báo nguy tiểu đường diabetes_data_upload.csv

Ngày đăng: 13/11/2021, 23:36

Xem thêm: KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN ĐẦU BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP