CHƯƠNG I: MỞ ĐẦU 1 1.1. Chọn bộ dữ liệu: 1 1.2. Mô tả bộ dữ liệu: 1 1.2.1. Biến đầu vào (Input Variables): 1 1.2.2. Biến đầu ra (Output Variable): 6 1.3. Mục tiêu phân tích: 6 CHƯƠNG II: NỘI DUNG 6 2.1. Tiền xử lý bộ dữ liệu: 6 2.1.1. “Role” của các thuộc tính: 6 2.1.2. “Missing Value” trong bộ dữ liệu: 8 2.2. Khai thác bộ dữ liệu: 10 2.2.1. Phân cụm dữ liệu: 10 2.2.2. Trích xuất dữ liệu: 15 2.2.3. Phân lớp dữ liệu: 17 2.2.4. Dự báo: 21 TÀI LIỆU THAM KHẢO 22 CHƯƠNG I: MỞ ĐẦU 1.1. Chọn bộ dữ liệu: Dữ liệu “ Banking Marketing “ này liên quan đến các chiến dịch tiếp thị trực tiếp của một tổ chức ngân hàng tại Bồ Đào Nha. Các chiến dịch tiếp thị này sẽ được tính toán dựa trên các cuộc gọi điện thoại đã thực hiện. Thông thường, với một khách hàng thì sẽ có rất nhiều liên hệ, để truy cập và tìm hiểu xem họ có đăng ký (‘yes’) hay không đăng ký (‘no’) sản phẩm của ngân hàng hay không – sản phẩm ở đây chính là việc đăng ký chính sách tiền gửi có kỳ hạn. 1.2. Mô tả bộ dữ liệu: 1.2.1. Biến đầu vào (Input Variables): 1.2.1.1. Thuộc tính dữ liệu khách hàng (Bank Client Data): a) Độ tuổi (Age): - Được định dạng “Numeric”. - Thuộc tính này nhằm xác định độ tuổi của các đối tượng được thực hiện khảo sát. b) Nghề nghiệp (Job): - Được định dạng “Categorical”. - Thuộc tính này nhằm xác định nghề nghiệp của các đối tượng được thực hiện khảo sát. Trong đó, các loại nghề nghiệp bao gồm: • Quản trị viên (Admin) • Công nhân phổ thông (Blue-collar) • Chủ doanh nghiệp (Entrepreneur) • Người giúp việc nhà (Housemaid) • Nhà quản lý (Management) • Tự do (Self-employed) • Dịch vụ (Services) • Học sinh (Student) • Kỹ thuật viên (Technician) • Đã nghỉ hưu (Retired) • Thất nghiệp (Unemployed) • Chưa xác định (Unknown)