1. Trang chủ
  2. » Công Nghệ Thông Tin

Dùng TT C4.5 và luật kết hợp Khai phá dữ liệu bộ dữ liệu Adult tìm các yếu tố ảnh hưởng thu nhập có code python

39 73 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • Phần 1 : Giới Thiệu

    • 1.1 Vấn Đề

    • 1.2 Bài Toán Đặt Ra

  • Phần 2 : Giải Pháp

    • 2.1 Giải Quyết Bài Toán

    • 2.2 Áp Dụng Thuật Toán Để Giải Quyết Bài Toán

  • Phần 3 : Áp Dụng Bài Toán Thực Tế

    • 3.1 Dữ Liệu Sử Dụng

    • 3.2 Tiền Xử Lý Dữ Liệu

      • 3.2.1 Làm sạch dữ liệu

      • 3.2.2 Áp dụng mô hình phân lớp C4.5 (J48 trong Weka)

      • 3.2.3 Áp dụng luật kết hợp

  • CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

    • 4.1 Kết luận.

    • 4.2 Hướng phát triển.

    • TÀI LIỆU THAM KHẢO

Nội dung

khai phá dữ liệu (data mining ) trên bộ dữ liệu Adult(UCI) để phân tích các yếu tố ảnh hưởng đến thu nhập có sử dụng phần mềm weka để phân tích , sử dụng các thuật toán c4.5, luật kết hợp , code bằng python.Bài toán giải quyết Làm thế nào để biết được người trưởng thành có thể có được thu nhập trên trên mức nghèo do nhà nước đặt ra là 50k năm mà không cần phải đi đến từng hộ hỏi từng người 1 trong cả đất nướcBản báo cáo hướng dẫn bởi Tiến Sĩ Nguyễn Huy Đức chúng tôi được đánh giá 9,5 điểm

Trường Đại học Thủy Lợi Khoa Công nghệ thông tin BÁO CÁO KẾT THÚC MÔN HỌC KHAI PHÁ DỮ LIỆU Đề Tài: KHAI PHÁ DỮ LIỆU TRÊN BỘ DỮ LIỆU ADULT(UCI) ĐỂ TÌM HIỂU CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN THU NHẬP Nhóm sinh viên thực hiện: Nguyễn Quỳnh Anh Trần Thị Thanh Trịnh Thị Ngọc Giảng viên phụ trách: Ts Nguyễn Huy Đức Hà Nội, tháng 11 năm 2020 16510611 16510611 175A0714 Contents Phần : Giới Thiệu 1.1 Vấn Đề Nhà nước muốn tính thu nhập bình qn đầu người để đánh giá mức sống,phân hóa giàu nghèo, tính tỷ lệ nghèo làm sở cho việc hoạch định sách nhằm nâng cao mức sống nhân dân, xóa đói, giảm nghèo để tính tiêu trước hết cần điều tra thu nhập người trưởng thành hộ đân cư đất nước 1.2 Bài Toán Đặt Ra Làm để biết người trưởng thành có thu nhập trên mức nghèo nhà nước đặt 50k $/năm mà không cần phải đến hộ hỏi người đất nước Phần : Giải Pháp 2.1 Giải Quyết Bài Toán Để giải toán ta thu thập xây dựng liệu lớn tốt gồm có thuộc tính để phân biệt người trưởng thành mức thu nhập người năm Khi có liệu ta sử dụng liệu để đánh giá người trưởng thành mà không cần đến tận hộ gia đình gặp 2.2 Áp Dụng Thuật Tốn Để Giải Quyết Bài Toán Thuật toán C4.5: Xây dựng định để dự đoán xem người trưởng thành có thu nhập 50k $ năm hay khơng Xây dựng luật kết hợp: Tìm đặc điểm chung thuộc tính định thu nhập Phần : Áp Dụng Bài Toán Thực Tế 3.1 Dữ Liệu Sử Dụng Dữ liệu sử dụng lấy từ liệu điều tra dân số năm 1994 trang https://archive.ics.uci.edu/ml/datasets/adult Dữ liệu có 14 thuộc tính : • tuổi - Tuổi cá nhân Đây thuộc tính liên tục • workclass- Loại nhà tuyển dụng mà cá nhân có Đây thuộc tính danh nghĩa.Các cấp độ thuộc tính: Federal-gov, Local-gov, Never-work, Private, Self-emp-inc, Self-emp-not-inc, State-gov, without-pay • fnlwgt - Số người mà người tham gia điều tra dân số tin quan sát đại diện Đây thuộc tính liên tục • education - Trình độ học vấn cao đạt cho cá nhân Đây thuộc tính danh nghĩa Các cấp độ thuộc tính: Mầm non 50K (0.0) | | | native.country = Guatemala: >50K (0.0) | | | native.country = Jamaica: >50K (0.0) | | | native.country = Ecuador: 50K (1.0) | | | native.country = Yugoslavia: >50K (0.0) | | | native.country = Scotland: >50K (0.0) | | | native.country = Portugal: >50K (0.0) | | | native.country = Laos: >50K (0.0) | | | native.country = Thailand: >50K (0.0) | | | native.country = Outlying-US(Guam-USVI-etc): >50K (0.0) | | occupation = Farming-fishing: 50K (19.0/4.0) | | occupation = Protective-serv: >50K (6.0/1.0) | | occupation = Armed-Forces: >50K (1.0) | | occupation = Priv-house-serv: >50K (0.0) | education = 11th: 50K (35.0/16.0) | | | occupation = Transport-moving:

Ngày đăng: 30/09/2021, 11:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w