Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 38 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
38
Dung lượng
2,16 MB
Nội dung
lOMoARcPSD|18034504 ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH �㵠�㵠�㵠 - MÔN KHOA HỌC DỮ LIỆU ĐỀ TÀI: PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING BẰNG CÔNG CỤ ORANGE Giáo viên hướng dẫn: Th.S Trương Việt Phương Lớp học phần: 22D1INF50905905 Khóa: K46 Nhóm sinh viên thực hiện: Trương Đăng Hải 31201023217 Lâm Hồng Phúc 31201022589 Lê Trần Ái Sa 31201021443 Nguyễn Phúc Cường Vinh 31201021172 Lê Võ Kim Yến 31201022934 TP.HCM, ngày 24 tháng 03 năm Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 BẢNG PHÂN CÔNG CÁC THÀNH VIÊN STT Họ Và Tên Trương Đăng Hải Nhiệm vụ Tìm liệu, thảo luận đề tài, nhận xét, làm powerpoint Đánh Giá 100% Tìm liệu, thảo luận đề tài, Lâm Hồng Phúc nhận xét, thực phân cụm 100% dự báo liệu Lê Trần Ái Sa Nguyễn Phúc Cường Vinh Tìm liệu, thảo luận đề tài, nhận xét, thực Time-series Tìm liệu, thảo luận đề tài, nhận xét, thuyết trình 100% 100% Tìm liệu, thảo luận đề tài, Lê Võ Kim Yến nhận xét, thực phân lớp 100% liệu dự báo liệu KHOA HỌC DỮ LIỆU | PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING BẰNG CÔNG CỤ ORANGE ORANGE CÔNG CÔNG CỤ BẰNG CÔNG CỤ MARKETING Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Lời mở đầu Khoa học liệu thuật ngữ bước xâm nhập vào Việt Nam dần trở thành xu hướng doanh nghiệp hướng tới nhằm đẩy mạnh hoạt động kinh doanh việc sử dụng thơng tin phân tích công nghệ mang lại Khi cách mạng công nghiệp 4.0 bùng nổ, quốc gia doanh nghiệp phải dựa nhiều vào khoa học công nghệ liệu Trong chạy đua công nghệ số, người thắng người làm chủ nguồn liệu lớn Bằng cách phân tích liệu hay liệu lớn, người có lượng kiến thức hiểu rõ hoạt động khứ ghi nhận lại đưa lời khuyên, kết luận cuối cho tương lai Khoa học liệu khoa học việc quản trị phân tích liệu để tìm hiểu biết, tri thức hành động, định dẫn dắt hành động Khoa học liệu gồm ba phần chính: Tạo quản trị liệu, phân tích liệu, chuyển kết phân tích thành giá trị hành động Để phù hợp với chuyên ngành, chúng em tìm liệu tổ chức ngân hàng xử lí thơng tin thơng qua cơng cụ Orange để nhìn nhận tìm hướng phát triển tổ chức Với mục tiêu phát triển chiến dịch tiếp thị qua gọi dự đoán liệu khách hàng có đăng ký tiền gửi có kì hạn hay không thông qua phương pháp khai thác liệu phân lớp liệu, phân cụm, dự đốn…Khơng thế, mà cịn tìm hiểu thêm liệu ghi nhận giá cổ phiếu cơng ty từ dự đốn giá trị tương lai giá cổ phiếu Timeseries Trong tiểu luận này, chúng em vận dụng kiến thức khoa học liệu để làm rõ vấn đề KHOA HỌC DỮ LIỆU | PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING BẰNG CÔNG CỤ ORANGE ORANGE CÔNG CÔNG CỤ BẰNG CÔNG CỤ MARKETING Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Mục lục I Mô tả liệu: .6 Mục tiêu phân tích: Mô tả liệu: II Phân lớp liệu dự báo Khái niệm: Các ứng dụng phân lớp liệu kinh tế: .8 Ứng dụng phương pháp phân lớp vào liệu “Bank Marketing”: a) Cây quyĀt định (Decision Tree): b) Test and Score: c) Ma trận nhầm lẫn (Confusion Matrix): 10 d) Dự báo (Predictions): 11 III Phân cụm liệu: 12 Khái niệm mục tiêu phân cụm liệu: .12 a) Khái niệm: 12 b) Mục tiêu: 12 Các ứng dụng phân cụm liệu: 12 Một số phương pháp phân cụm liệu: 13 a) Phân cụm phân cấp (Hierachical Clustering): 13 b) Phân cụm phân hoạch (Partitioning Clustering): 13 Các phương pháp đánh giá phân cụm liệu: 13 Ứng dụng phương pháp phân cụm vào liệu “Bank Marketing”: 14 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 a) Phân cụm phân cấp (Hierachical Clustering) 14 b) Phân cụm phân hoạch theo thuật toán K-Means: 15 c) Đánh giá mơ hình phân cụm: .16 IV Hướng phát triển: 17 Xác định khách hàng cần hướng đến 17 2.Cung cĀp thông tin sản phẩm 17 Đa dạng sản phẩm tiền gửi có kỳ hạn 18 Tăng cường chiến dịch quảng cáo, tiếp thị 18 Luôn giữ tương tác với khách hàng 18 V Tìm hiểu thêm: TIME-SERIES: 19 Định nghĩa: 19 Mục đích: 19 Cách cài đặt: 19 Ứng dụng phương pháp phân cụm vào liệu “Tesla Stock Price”: 20 Thực đánh giá mơ hình ARIMA: 24 Vẽ sơ đồ mô hình ARIMA line chart: 25 Sử dụng mơ hình VAR: 26 Vẽ sơ đồ mơ hình VAR line chart: .29 Thực đánh giá mơ hình VAR so sánh với mơ hình ARIMA: 33 10 Kết luận bàn thêm Time-series: 34 VI Kết luận 34 Tài liệu tham khảo: 36 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Danh mục hình ảnh Hình Chuỗi thao tác thực phân lớp liệu, đánh giá mơ hình dự báo Orange Hình Bảng kết định Hình Bảng đánh giá Test and Score với cách lấy mẫu là: Cross validation Hình Bảng kết ma trận nhầm lẫn phương pháp hồi quy Logistic .9 Hình Bảng kết dự báo phương pháp hồi quy logistic 10 Hình Bảng kết dự báo phương pháp hồi quy logistic xuất excel 11 Hình Quy trình thực phân cụm phân cấp Orange 13 Hình Phân cụm theo phương pháp Hierachical Clustering 13 Hình Silhouette Plot (Hierachical Clustering) .14 Hình 10 Bảng Silhouette Score .14 Hình 11 Silhouette Plot (k-Means) 15 Hình 12 Kết đánh giá mơ hình phân cụm (Hierachical Clustering) 16 Hình 13 Kết đánh giá mơ hình phân cụm (k-Means) .16 Hình 14 Bảng hiển thị sau chọn Options chọn Add-ons 19 Hình 15 Bảng hiển thị sau chọn Add-ons khung Filter 19 Hình 16 Bảng hiển thị cơng cụ Timeseries cần add vào công cụ 20 Hình 17 Bảng liệu Tesla Stock Price mở Orange Data table 20 Hình 18 Bảng mơ tả liệu 21 Hình 19 Chuỗi thao tác thực mơ hình ARIMA Orange 21 Hình 20 Các lựa chọn mơ hình ARIMA 22 Hình 21 Bảng kết sau chạy mơ hình ARIMA 23 Hình 22 Chuỗi thao tác thực đánh giá mơ hình ARIMA Orange .24 Hình 23 Kết đánh giá mơ hình ARIMA 24 Hình 24 Chuỗi thao tác thực vẽ biểu đồ line chart 25 Hình 25 Sơ đồ dự báo adj close 25 Hình 26 Sơ đồ dự báo adj close (hình ảnh rõ ràng để thấy đường dự báo) 26 Hình 27 Chuỗi thao tác thực mơ hình VAR 27 Hình 28 Bảng hiển thị mơ hình VAR 28 Hình 29 Bảng kết mơ hình VAR 28 Hình 30 Bảng kết mơ hình VAR (2) 29 Hình 31 Chuỗi thao tác thực vẽ sơ đồ mơ hình VAR 30 Hình 32 Biểu đồ dự báo giá mở cửa .31 Hình 33 Biểu đồ dự báo giá cao 31 Hình 34 Biểu đồ dự báo giá thấp 32 Hình 35 Biểu đồ dự báo giá đóng cửa 32 Hình 36 Biểu đồ dự báo đơn vị chứng khoán 33 Hình 37 Biểu đồ dự báo giá đóng cửa 33 Hình 38 Chuỗi thao tác thực đánh giá mơ hình VAR so sánh với ARIMA 34 Hình 39 Kết đánh giá mơ hình ARIMA 34 KHOA HỌC DỮ LIỆU | PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING BẰNG CÔNG CỤ ORANGE ORANGE I Mơ tả liệu CƠNG CƠNG CỤ BẰNG CƠNG CỤ MARKETING Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Mục tiêu phân tích Bộ liệu “Bank Marketing” liệu tổ chức ngân hàng Bồ Đào Nha cung cấp chiến dịch tiếp thị trực tiếp mà cụ thể Telemarketing (tiếp thị qua điện thoại) Mục tiêu việc phân tích liệu để dự đốn khách hàng có sử dụng dịch vụ gửi tiền ngân hàng (yes) hay không (no) Mô tả liệu Bộ liệu bao gồm 4119 khảo sát với 21 thuộc tính gồm: 1) age tuổi khách hàng; biến định tính 2) job nghề nghiệp khách hàng; biến định tính gồm nghề quản trị viên (admin), người lao động phổ thông (blue-collar), doanh nhân (entrepreneur), người giúp việc (housemaid), nhà quản lý (management), người hưu (retired), lao động tự (self-employed), người làm dịch vụ (services, học sinh (student), kỹ thuật viên (technician), thất nghiệp (unemployed), chưa biết (unknown) 3) marital tình trạng nhân; biến định tính gồm ly hôn (divorced), kết hôn (married), độc thân (single), chưa biết (unknown) 4) education trình độ học vấn; biến định tính gồm năm tiểu học (basic.4y), năm tiểu học (basic.6y), trung học sở (basic.9y), trung học phổ thông (high school), không học (illiterate), bậc đại học (professional.course), tốt nghiệp (university.degree), chưa biết (unknown) 5) default có tín dụng tình trạng vỡ nợ khơng?; biến định tính gồm giá trị có (yes), khơng (no), chưa biết (unknown) 6) housing có khoản vay mua nhà khơng?; biến định tính gồm giá trị có (yes), khơng (no), chưa biết (unknown) 7) loan có khoản vay cá nhân khơng?; biến định tính gồm giá trịtrị có (yes), khơng (no), chưa biết (unknown) 8) contact hình thức liên lạc; biến định tính gồm điện thoại di động (cellular) điện thoại có dây (telephone) 9) month tháng liên lạc cuối năm; biến định tính gồm từ tháng đến tháng 12, jan, feb, mar, apr, may, jun, jul, aug, sep, oct, nov, dec Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 10) day_of_week ngày liên lạc cuối tuần; biến định tính gồm thứ hai (mon), thứ ba (tue), thứ tư (wed), thứ năm (thu), thứ sáu (fri) 11) duration thời lượng liên lạc cuối cùng; biến định lượng tính giây Lưu ý quan trọng: thuộc tính ảnh hưởng nhiều đến mục tiêu đầu thời lượng kéo theo biến mục tiêu 12) campaign số lần liên lạc thực khách hàng chiến dịch cho khách hàng này; biến định lượng gồm liên hệ cuối 13) pdays số ngày trôi qua sau khách hàng liên hệ lần cuối từ chiến dịch trước đó; biến định lượng giá trị 999 có nghĩa khách hàng chưa liên hệ trước 14) previous số lần liên lạc thực trước chiến dịch khách hàng này; biến định lượng 15) poutcome kết chiến dịch trước đó; biến định tính gồm thất bại (failure), khơng tồn (nonexistent), thành công (success) 16) emp.var.rate tỷ lệ thay đổi việc làm - báo hàng quý; biến định lượng 17) cons.price.idx số giá tiêu dùng - báo hàng tháng; biến định lượng 18) cons.conf.idx số niềm tin người tiêu dùng - số hàng tháng; biến định lượng 19) euribor3m lãi suất tháng euribor - báo hàng ngày; biến định lượng 20) nr.employed số lượng nhân viên - số hàng quý; biến định lượng 21) y khách hàng đăng ký tiền gửi có kỳ hạn chưa?; biến mục tiêu gồm có đăng ký (yes) khơng đăng ký (no) II Phân lớp liệu dự báo Khái niệm Trong khoa học liệu, toán phân lớp liệu toán có ý nghĩa quan trọng có nhiều ứng dụng thực tiễn Phân lớp liệu ứng dụng cho loạt toán dự báo kinh doanh, dự báo tài chính, chẩn đốn y khoa, nhận dạng đối tượng, dịch thuật,… Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 a) Định nghĩa: - Là trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp - Mơ hình xây dựng dựa tập liệu gán nhãn trước (thuộc lớp nào) - Quá trình gán nhãn (thuộc lớp nào) cho đối tượng liệu q trình phân lớp liệu b) Quá trình phân lớp liệu: Quá trình phân lớp liệu gồm bước chính: Bước 1: Xây dựng mơ hình (hay cịn gọi giai đoạn “học” “huấn luyện”) Bước 2: Sử dụng mơ hình chia thành bước nhỏ • Bước 2.1: Đánh giá mơ hình (kiểm tra tính đắn mơ hình) • Bước 2.2: Phân lớp liệu Các ứng dụng phân lớp liệu kinh tế: - Tài ngân hàng Dự báo giá chứng khốn Xếp hạng tín dụng cá nhân tổ chức Đánh giá rủi ro tài - Sales & Marketing Dự báo doanh thu Dự báo khách hàng trung thành - Kinh tế học Dự báo khủng hoảng kinh tế Dự báo cung cầu Ứng dụng phương pháp phân lớp vào liệu “Bank Marketing”: Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình Chuỗi thao tác thực phân lớp liệu, đánh giá mơ hình dự báo Orange a) Cây quyĀt định (Decision Tree): Trong lý thuyết quản trị, định đồ thị định kết kèm nhằm hỗ trợ trình định Trong lĩnh vực khai phá liệu, định phương pháp nhằm mơ tả, phân loại tổng qt hóa tập liệu cho trước Hình Bảng kết định ⇒ Nhìn vào tree viewer ta thấy, liệu sau phân lớp có 345 models 173 nhánh cho thấy định phân loại tổng quát hóa tập liệu rõ ràng b) Test and Score: Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 20 Các lựa chọn mơ hình ARIMA ⇒ Mơ hình ARIMA bao gồm: - Auto regression_AR(p): Đây thành phần tự hồi qui bao gồm tập hợp độ trễ biến Để xác định độ trễ phù hợp (p), cách thông dụng xác định lag-k có PACF nằm ngồi vùng tin cậy sau khơng có lag-k nằm bên vùng tin cậy PACF hay PCF tập trung tìm hiểu mối quan hệ trực tiếp quan sát với quan sát khứ, mà bỏ qua mối quan hệ trung gian Lag-k độ trễ bậc k xác định công thức AFC kiếm định công thức kiểm định Chi-Square Chú ý: độ trễ bậc k khác với tham số trễ p - Moving average_MA(q): Quá trình trung bình trượt hiểu trình dịch chuyển thay đổi giá trị trung bình chuỗi theo thời gian nhằm loại bỏ yếu tố ngẫu nhiên, yếu tố nhiễu, bất thường khơng kiểm sốt, tác động lên dự báo giúp quy trình dự báo trở nên dễ dàng hiệu MA đóng vai trị cơng cụ truy xuất thông tin sai số dự báo mốc thời điểm khứ ảnh hưởng đến sai số dự báo mốc thời gian tương lai Mơ hình MA xây dựng dựa mơ hình tuyến tính đa biến đơn giản Với q bậc trễ mà sai số mốc thời gian tq có mối liên hệ với sai số biến mục tiêu MA sử dụng ACF để tìm q - Chỉ với AR MA chưa thành mơ hình ARIMA hồn chỉnh mà phải có thêm thành phần I_Integrated_ q trình đồng tích hợp lấy sai phân Nhiều người hiểu Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 AR MA tích hợp với tạo thành ARIMA nhiên phải biến liệu từ khơng có tính dừng sang liệu có tính dừng Chúng ta sử dụng cơng thức phổ biến Differencing hay cịn gọi phương pháp tính Sai phân Differencing tính tốn chênh lệch giá trị quan sát nằm mốc thời gian liên tiếp Tương tự AR MA xác định mức hay bậc được gọi d cho Differncing d = nghĩa khơng có tính sai phân, liệu có tính dừng d nên nằm khoảng 0