Tiểu Luận Môn Khoa Học Dữ Liệu Đề Tài Phân Tích Bộ Dữ Liệu Bank Marketing Qua Các Thuật Toán Trên Orange.docx

38 15 2
Tiểu Luận Môn Khoa Học Dữ Liệu Đề Tài Phân Tích Bộ Dữ Liệu Bank Marketing Qua Các Thuật Toán Trên Orange.docx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN MÔN KHOA HỌC DỮ LIỆU ĐỀ TÀI PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING QUA CÁC THUẬT TOÁN TRÊN ORANGE Giảng viên hướng dẫn Trương V[.]

ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN MÔN KHOA HỌC DỮ LIỆU ĐỀ TÀI: PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING QUA CÁC THUẬT TOÁN TRÊN ORANGE Giảng viên hướng dẫn: Trương Việt Phương Mã học phần: 21C1INF50905911 Nhóm sinh viên thực hiện: Dương Trọng Anh 31201022014 Lê Thị Kiều Diễm 31201022108 Thái Quang Hào 31201022773 Võ Thị Mỹ Ngọc 31201022281 Liễu Ngọc Khánh Tuyền 31201022715 TP Hồ Chí Minh, Tháng 12/2021 BẢNG PHÂN CÔNG CÁC THÀNH VIÊN STT Họ Và Tên Nhiệm Vụ Đánh giá Tìm liệu, thảo luận đề tài , giới Dương Trọng Anh thiệu tổng quan KHDL, nhận xét, 100% làm powerpoint Tìm liệu, thảo luận đề tài, sở Lê Thị Kiều Diễm lý thuyết, mô tả biến, nhận xét, kết 100% luận Tìm liệu, thảo luận đề tài, sở Thái Quang Hào lý thuyết, xử lý liệu Orange, 100% tổng hợp Word Võ Thị Mỹ Ngọc Liễu Ngọc Khánh Tuyền Tìm liệu, thảo luận đề tài, sở lý thuyết, nhận xét, làm powerpoint Tìm liệu, thảo luận đề tài, giới thiệu đề tài, nhận xét, kết luận 100% 100% LỜI MỞ ĐẦU Những năm gần đây, vai trị hệ thống thơng tin doanh nghiệp ngày lớn mạnh Từ chỗ sử dụng để hỗ trợ số hoạt động văn phịng, hệ thống thơng tin trở nên có vai trị chiến lược doanh nghiệp Đặc biệt thành tựu công nghệ thông tin khiến doanh nghiệp ngày ý tới việc áp dụng để gia tăng cạnh tranh tạo hội cho Khoa học liệu thuật ngữ dần trở nên quen thuộc Việt Nam giai đoạn ngày nay, dần trở thành xu hướng doanh nghiệp hướng tới để đẩy mạnh hoạt động kinh doanh nhờ việc sử dụng thơng tin phân tích cơng nghệ mang lại Khi cách mạng công nghiệp 4.0 bùng nổ, quốc gia doanh nghiệp phải dựa nhiều vào khoa học công nghệ liệu Để phù hợp với chuyên ngành, tìm liệu tổ chức ngân hàng xử lý thông tin thông qua công cụ Orange để nhìn nhận tìm hướng phát triển tổ chức Với mục tiêu phát triển chiến dịch tiếp thị qua gọi dự đoán liệu khách hàng có đăng ký tiền gửi có kỳ hạn hay khơng ? Trong tiểu luận nhóm chúng tơi làm rõ vấn đề MỤC LỤC LỜI MỞ ĐẦU LỜI CẢM ƠN DANH MỤC BẢNG, HÌNH ẢNH CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu Khoa học liệu: 1.2 Giới thiệu đề tài 1.2.1 Lý chọn đề tài 1.2.2 Mục tiêu nghiên cứu 1.2.3 Phương pháp thực .3 CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG - ORANGE VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 2.1 Tổng quan phần mềm Orange: 2.2 Tổng quan phương pháp sử dụng 2.2.1 Tiền xử lý liệu .4 2.2.1.1 Làm liệu 2.2.1.2 Tích hợp chuyển đổi liệu 2.2.1.3 Rút gọn liệu 2.2.2 Phân cụm 2.2.2.1 Định nghĩa 2.2.2.2 Đặc điểm 2.2.2.3 Các ứng dụng phân cụm liệu 2.2.2.4 Các phương pháp phân cụm 2.2.3 Phân lớp 12 2.2.3.1 Định nghĩa .12 2.2.3.2 Quá trình phân lớp liệu: 12 2.2.3.3 Các vấn đề liên quan đến phân lớp liệu 12 2.2.3.4 Môt số phương pháp phân lớp 13 2.2.3.5 Các phương pháp đánh giá mơ hình phân lớp 13 2.2.3.6 Các ứng dụng phân lớp liệu kinh tế 14 CHƯƠNG 3: MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT CHƯƠNG 4: KẾT QUẢ THỰC HIỆN 4.1 Tiền xử lý liệu 16 4.1.1 Chọn số lượng khảo sát 16 4.1.2 Loại bỏ biến không phù hợp 17 4.2 Phân cụm liệu 19 4.2.1 Phương pháp Hierarchical Clustering 20 4.2.2 Phương pháp K-Mean 21 4.3 Phân lớp liệu 25 CHƯƠNG 5: KẾT LUẬN 5.1 Kết luận 29 5.2 Hướng phát triển 29 TÀI LIỆU THAM KHẢO LỜI CẢM ƠN Hoàn thành báo cáo đề tài “Phân tích liệu Bank Marketing qua thuật tốn Orange” khơng có riêng cố gắng thành viên nhóm mà nhờ vào hỗ trợ nhiều thầy cô Chúng xin gửi lời cảm ơn chân thành đến:  Thầy Trương Việt Phương - Giảng viên mơn Khoa học liệu tận tình hướng dẫn chúng em cách thức tiến hành đề tài nghiên cứu, để hồn thành tốt báo cáo DANH MỤC BẢNG, HÌNH ẢNH Bảng 1: Phân loại phương pháp phân cụm Hình 1: Bảng Data Sampler thể thao tác chọn ngẫu nhiên liệu Hình 2: Kết xử lý “Role” thuộc tính Hình 3: Bảng Select Columns loại bỏ biến kinh tế khơng liên quan Hình 4: Chuỗi thao tác thực tiền xử lý liệu Orange Hình 5: Chuỗi thao tác thực phân cụm liệu Orange Hình 6: Silhouette Plot thể phân cụm theo phương pháp Hierarchical Clustering Hình 7: Bảng liệu excel phân cụm theo phương pháp Hierarchical Clustering so sánh với nhãn ban đầu Hình 8: Bảng kết phân cụm phương pháp K-Mean Orange Hình 9: Silhouette Plot thể phân cụm theo phương pháp K-Mean Hình 10: Bảng liệu excel phân cụm theo phương pháp K-Mean so sánh với nhãn ban đầu Hình 11: Chuỗi thao tác thực phân lớp liệu Orange Hình 12: Bảng kết định Hình 13: Bảng đánh giá Test & Score Hình 14: Bảng kết ma trận nhầm lẫn phương pháp hồi quy logistic Hình 15: Bảng kết dự báo phương pháp hồi quy logistic Hình 16: Bảng kết dự báo bằng phương pháp hồi quy logistic xuất excel CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu Khoa học liệu: Khoa học liệu (DS) khoa học việc quản trị phân tích liệu, trích xuất giá trị từ liệu để tìm hiểu biết, tri thức hành động, định dẫn dắt hành động Khoa học liệu gồm ba phần chính: Tạo quản trị liệu, phân tích liệu, chuyển kết phân tích thành giá trị hành động Việc phân tích dùng liệu lại dựa vào ba nguồn tri thức: toán học (thống kê tốn học), cơng nghệ thơng tin (máy học) tri thức lĩnh vực ứng dụng cụ thể Cũng hình thức thí nghiệm khác, khoa học liệu yêu cầu thực quan sát, đặt câu hỏi, hình thành giả thuyết, tạo kiểm tra, phân tích kết đưa khuyến nghị thực tế Chính mà mục đích Khoa học Dữ liệu biến đổi lượng lớn liệu chưa qua xử lý, làm để định vị thành mơ hình kinh doanh, từ giúp đỡ tổ chức tiết giảm chi phí, gia tăng hiệu làm việc, nhìn nhận hội, rủi ro thị trường làm gia tăng lợi cạnh tranh doanh nghiệp Các lĩnh vực khoa học liệu: khai thác liệu (Data mining), thống kê (Statistic), học máy (Machine learning), phân tích (Analyze) lập trình (Programming) Khoa học liệu kết hợp nhiều lĩnh vực để chiết xuất giá trị từ liệu Những người thực hành khoa học liệu gọi data scientists họ kết hợp loạt kỹ để phân tích liệu thu thập từ web, điện thoại thông minh, khách hàng, cảm biến nguồn khác để thu thơng tin chi tiết hữu ích Nó chủ yếu thực data scientists lành nghề , nhà phân tích liệu cấp thấp tham gia Ngồi ra, nhiều tổ chức dựa phần vào citizen data scientists , nhóm bao gồm chun gia kinh doanh thơng minh (BI), nhà phân tích kinh doanh, người dùng doanh nghiệp am hiểu liệu, kỹ sư liệu người lao động khác khơng có tảng khoa học liệu thức Một nhà khoa học liệu cần phát triển nhóm kỹ quan trọng phân tích (Analytics), lập trình (Programming), kiến thức chuyên ngành (Domain Knowledge) số kỹ quan trọng khác 1.2 Giới thiệu đề tài 1.2.1 Lý chọn đề tài Hiện việc khai thác, phân tích liệu trở nên khơng thể thiếu ngành nghề, đặc biệt đề cập đến kinh doanh, thương mại, Một loạt liệu khổng lồ từ khách hàng, hoạt động kinh doanh, đối tác, xử lý sức người, việc số hóa liệu điều cần thiết, phải làm cơng ty, tập đồn lớn nhỏ Việc phân tích vấn đề kinh doanh: lấy liệu làm trung tâm, việc tạo đánh giá giải pháp khoa học liệu đánh giá chiến lược đề xuất khoa học liệu chung Để phân tích liệu cách tự động, cần đến phần mềm công cụ để hỗ trợ như: Excel, R Python, Power BI, Với liệu mà nhóm thu thập được, chúng tơi sử dụng Orange để xây dựng quy trình khai thác liệu trực quan - phần mềm khai thác liệu phổ biến thực mà khơng cần lập trình Nhóm tìm liệu tổ chức ngân hàng Bồ Đào Nha, liệu có liên quan đến chiến dịch tiếp thị gọi, kêu gọi khách hàng đăng ký tiền gửi có kỳ hạn ngân hàng Dữ liệu sau phân tích Orange, chúng tơi đưa số nhận xét kết luận cửa sổ phân tích; đánh giá độ hiệu đề xuất số hướng phát triển dành cho chiến dịch tiếp thị qua gọi Và lý nhóm tác giả chọn đề tài: “Phân tích liệu Bank Marketing qua thuật tốn Orange” 1.2.2 Mục tiêu nghiên cứu  Khám phá liệu  Làm liệu  Phân cụm, phân lớp liệu

Ngày đăng: 17/04/2023, 18:21

Tài liệu cùng người dùng

Tài liệu liên quan