Báo cáo học phần khai phá dữ liệu đề tài tìm hiểu thuật toán cây quyết định và ứng dụng vào bài toán dự đoán thu nhập

49 0 0
Báo cáo học phần khai phá dữ liệu đề tài tìm hiểu thuật toán cây quyết định và ứng dụng vào bài toán dự đoán thu nhập

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1 TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ======***====== BÁO CÁO HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI Trang 2 LỜI NÓI ĐẦU Trong thời buổi hiện đại ngày nay, công

lOMoARcPSD|39269578 TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ======***====== BÁO CÁO HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI TÌM HIỂU THUẬT TOÁN CÂY QUYẾT ĐỊNH VÀ ỨNG DỤNG VÀO BÀI TOÁN DỰ ĐOÁN THU NHẬP GVHD : Ths Lê Thị Thủy 20221IT6051002 Lớp : Nguyễn Thị Dung - 2019602552 Sinh viên : Hà Nội, Năm 2022 Downloaded by SAU SAU (saudinh1@gmail.com) lOMoARcPSD|39269578 LỜI NÓI ĐẦU Trong thời buổi hiện đại ngày nay, công nghệ thông tin cũng như những ứng dụng của nó không ngừng phát triển, lượng thông tin và cơ sở dữ liệu được thu thập và lưu trữ cũng tích lũy ngày một nhiều lên Con người cũng vì thế mà cần có thông tin với tốc độ nhanh nhất để đưa ra quyết định dựa trên lượng dữ liệu khổng lồ đã có Các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế, vì thế, một khuynh hướng kỹ thuật mới là Kỹ thuật phát hiện tri thức và khai phá dữ liệu nhanh chóng được phát triển Khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới Ở Việt Nam, kỹ thuật này đang được nghiên cứu và dần đưa vào ứng dụng Khai phá dữ liệu là một bước trong quy trình phát hiện tri thức Hiện nay, mọi người không ngừng tìm tòi các kỹ thuật để thực hiện khai phá dữ liệu một cách nhanh nhất và có được kết quả tốt nhất Trong bài tập lớn này, chúng em tìm hiểu và trình bày về một kỹ thuật trong khai phá dữ liệu để phân lớp dữ liệu cũng như tổng quan về khai phá dữ liệu, với đề tài “Tìm hiểu cây quyết định và ứng dụng vào bài toán dự đoán thu nhập” Trong quá trình làm bài tập lớn này, chúng em xin gửi lời cảm ơn đến cô giáo Lê Thị Thủy, cô đã rất tận tình hướng dẫn chi tiết cho chúng em những kiến thức cô cung cấp rất hữu ích Chúng em rất mong nhận được những góp ý từ cô Chúng em xin chân thành cảm ơn! 2 Downloaded by SAU SAU (saudinh1@gmail.com) lOMoARcPSD|39269578 MỤC LỤC LỜI NÓI ĐẦU 2 DANH MỤC HÌNH ẢNH 6 CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 7 1.1 Khai phá dữ liệu 7 1.1.1 Khái niệm 7 1.1.2 Các bước trong quá trình khai phá 7 1.1.3 Ứng dụng của khai phá dữ liệu 9 1.2 Tiền xử lý dữ liệu 9 1.2.1 Dữ liệu 9 1.2.2 Làm sạch dữ liệu (data cleaning) 11 1.2.3 Biến đổi dữ liệu (data transformation) 13 1.2.4 Thu giảm dữ liệu (data reduction) 14 1.3 Phương pháp Dự báo 14 1.3.1 Giới thiệu Dự báo 14 1.3.2 Tổng quan Hồi quy 15 1.3.3 Hồi quy tuyến tính 16 1.3.4 Hồi quy phi tuyến 16 1.4 Phương pháp Phân loại 17 1.4.1 Giới thiệu Phân loại 17 1.4.2 Phân loại dữ liệu với cây quyết định 17 1.4.3 Phân loại dữ liệu với mạng Bayesian 19 1.4.4 Phân loại dữ liệu với mạng Neural 19 1.5 Phương pháp Gom cụm 20 1.5.1 Giới thiệu Gom cụm 20 1.5.2 Phương pháp phân cấp 21 3 Downloaded by SAU SAU (saudinh1@gmail.com) lOMoARcPSD|39269578 1.5.3 Phương pháp phân hoạch 22 1.6 Phương pháp khai phá luật kết hợp 23 1.6.1 Giới thiệu luật kết hợp 23 1.6.2 Phát hiện luật kết hợp 24 1.6.3 Phát hiện luật kết hợp 25 1.6.4 Các chiến lược sinh tập thường xuyên 27 1.6.5 Giải thuật FP-Growth 28 CHƯƠNG 2 ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU 30 2.1 Hỗ trợ ra quyết định nhập kho trong siêu thị 30 2.1.1 Giới thiệu về bài toán 30 2.1.2 Đánh giá của cô sau khi giới thiệu về bài toán 31 2.2 Tiếp thị chéo 31 CHƯƠNG 3: CÂY QUYẾT ĐỊNH 33 3.1 Cây quyết định 33 3.2 Thuật toán cây quyết định 33 3.3 Ví dụ minh họa 35 CHƯƠNG 4 ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG DỰ BÁO THU NHẬP 38 4.1 Bài toán 38 4.2 Cơ sở dữ liệu 38 4.3 Một số kết quả 38 CHƯƠNG 5 HƯỚNG DẪN SỬ DỤNG GOOGLE COLAB 43 5.1 Google Colab là gì? 43 5.2 Tại sao nên sử dụng Google Colab 43 5.2.1 Các thư viện được cài đặt sẵn 43 5.2.2 Được lưu trên đám mây 43 4 Downloaded by SAU SAU (saudinh1@gmail.com) lOMoARcPSD|39269578 5.2.3 Sự hợp tác 44 5.2.4 Sử dụng GPU và TPU miễn phí 44 5.3 Hướng dẫn sử dụng Google Colab 44 5.4 Cách chạy chương trình trên Google Colab 48 TÀI LIỆU THAM KHẢO 49 5 Downloaded by SAU SAU (saudinh1@gmail.com) lOMoARcPSD|39269578 DANH MỤC HÌNH ẢNH Hình 1 Quá trình khai phá tri thức 8 Hình 2 Ví dụ datas 9 Hình 3 Ví dụ hồi quy tuyến tính đơn biến 16 Hình 4 Một ví dụ về cây quyết định 18 Hình 5: Minh họa cho dạng tổng quát của mạng Neural 20 Hình 6: Tạo cây phân cấp từ trên xuống 21 Hình 7: Giải thuật toán k-mean: với n = 10, k = 2 22 Hình 8: Giải thuật toán k-medoid: với n = 10, k = 2 23 Hình 9: Sinh tập mục thường xuyên bằng phương pháp vét cạn 27 Hình 10 Tạo thư mục mới 45 Hình 11 Tạo Colab Notebook mới 45 Hình 12 Lưu trữ Colab Notebook 46 Hình 13 Chia sẻ sổ tay 47 6 Downloaded by SAU SAU (saudinh1@gmail.com) lOMoARcPSD|39269578 CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá dữ liệu 1.1.1 Khái niệm Khai phá dữ liệu (data mining) hay Khám phá tri thức từ dữ liệu (knowledge discovery from data) là việc trích rút ra được các mẫu hoặc tri thức quan trọng (không tầm thường, ẩn, chưa được biết đến và có thể hữu ích) thừ một lượng dữ liệu (rất) lớn - Các tên gọi khác: - Khám phá tri thức trong các cơ sở dữ liệu (Knowledge discovery in databases KDD) - Trích rút tri thức (knowledge extraction) - Phân tích mẫu/dữ liệu (data/pattern analysis) 1.1.2 Các bước trong quá trình khai phá - Quá trình được thực hiện qua 9 bước: 1- Tìm hiểu lĩnh vực của bài toán (ứng dụng): Các mục đích của bài toán, các tri thức cụ thể của lĩnh vực 2- Tạo nên (thu thập) một tập dữ liệu phù hợp 3- Làm sạch và tiền xử lý dữliệu 4- Giảm kích thước của dữ liệu, chuyển đổi dữ liệu: Xác định thuộc tính quan trọng, giảm số chiều (số thuộc tính), biểu diễn bất biến 5- Lựa chọn chức năng khai phá dữ liệu: Phân loại, gom cụm, dự báo, sinh ra các luật kết hợp 6- Lựa chọn/ Phát triển (các) giải thuật khai phá dữ liệu phù hợp 7- Tiến hành khai phá dữ liệu 8- Đánh giá mẫu thu được và biểu diễn tri thức: Hiển thị hóa, chuyển đổi, bỏ đi các mẫu dư thừa,… 7 Downloaded by SAU SAU (saudinh1@gmail.com) lOMoARcPSD|39269578 9- Sử dụng tri thức được khai phá HìnhHì1n.h11 QQuuáátrtìrnìhnhkhkahi apiháphtrái tthrứicthức Quá trình khám phá tri thức theo cách nhìn của giới nghiên cứu về các hệ thống dữ liệu và kho dữ liệu về quá trình khám phá tri thức - Chuẩn bị dữ liệu (data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation) - Khai thác dữ liệu (data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu Kết quả cho ta một nguồn tri thức thô - Đánh giá (evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được - Triển khai (deployment) Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua 8 Downloaded by SAU SAU (saudinh1@gmail.com) lOMoARcPSD|39269578 1.1.3 Ứng dụng của khai phá dữ liệu Kinh tế - ứng dụng trong kinh doanh, tài chính, tiếp thị bán hàng, bảo hiểm, thương mại, ngân hàng, … Đưa ra các bản báo cáo giàu thông tin; phân tích rủi ro trước khi đưa ra các chiến lược kinh doanh, sản xuất; phân loại khách hàng từ đó phân định thị trường, thị phần; … Khoa học: Thiên văn học – dự đoán đường đi các thiên thể, hành tinh, Công nghệ sinh học – tìm ra các gen mới, cây con giống mới, …; Web: các công cụ tìm kiếm 1.2 Tiền xử lý dữ liệu Quá trình tiền xử lý dữ liệu, đầu tiên phải nắm được dạng dữ liệu, thuộc tính, mô tả của dữ liệu thao tác Sau đó tiếp hành 4 giai đoạn chính: làm sạch, tích hợp, biến đổi, thu giảm dữ liệu 1.2.1 Dữ liệu a Tập dữ liệu Một tập dữ liệu (dataset) là một tập hợp các đối tượng (object) và các thuộc tính của chúng Mỗi thuộc tính (attribute) mô tả một đặc điểm của một đối tượng ‰ Ví dụ: Các thuộc tính Refund, Marital Status, Taxable Income, Cheat Hình 2 Ví dụ datas 9 Downloaded by SAU SAU (saudinh1@gmail.com) lOMoARcPSD|39269578 b Các kiểu tập dữ liệu Bản ghi (record): Các bản ghi trong cơ sở dữ liệu quan hệ Ma trận dữ liệu Biểu diễn văn bản Hay dữ liệu giao dịch Đồ thị (graph): World wide web Mạng thông tin, hoặc mạng xã hội Dữ liệu có trật tự: Dữ liệu không gian (ví dụ: bản đồ) Dữ liệu thời gian (ví dụ: time-series data) Dữ liệu chuỗi (ví dụ: chuỗi giao dịch) c Các kiểu giá trị thuộc tính: Kiểu định danh/chuỗi (nominal): không có thứ tự Ví dụ: Các thuộc tính như : Name, Profession, … Kiểu nhị phân (binary): là một trường hợp đặc biệt của kiểu định danh Tập các giá trị chỉ gồm có 2 giá trị (Y/N, 0/1, T/F) Kiểu có thứ tự (ordinal): Integer, Real, … -lấy giá trị từ một tập có thứ tự giá trị Ví dụ: Các thuộc tính lấy giá trị số như : Age, Height ,… Hãy lấy một tập xác định, thuộc tính Income lấy giá trị từ tập {low, medium, high} Kiểu thuộc tính rời rạc (discrete-valued attributes): có thể là tập các giá trị của một tập hữu hạn Bao gồm thuộc tính có kiểu giá trị là các số nguyên, nhị phân Kiểu thuộc tính liên tục (continuous-valued attributes): Các giá trị là số thực d Các đặc tính mô tả của dữ liệu: Giúp hiểu rõ về dữ liệu có được: chiều hướng chính/trung tâm, sự biến thiên, sự phân bố Sự phân bố của dữ liệu (data dispersion): + Giá trị cực tiểu/cực đại (min/max) + Giá trị xuất hiện nhiều nhất (mode) + Giá trị trung bình (mean) + Giá trị trung vị (median) + Sự biến thiên (variance) và độ lệch chuẩn (standard deviation) 10 Downloaded by SAU SAU (saudinh1@gmail.com)

Ngày đăng: 22/03/2024, 22:37

Tài liệu cùng người dùng

Tài liệu liên quan