1. Trang chủ
  2. » Giáo Dục - Đào Tạo

PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING QUA CÁC THUẬT TOÁN TRÊN ORANGE

39 1,4K 27

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 39
Dung lượng 2,47 MB

Nội dung

ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN MÔN KHOA HỌC DỮ LIỆU ĐỀ TÀI: PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING QUA CÁC THUẬT TOÁN TRÊN ORANGE Giảng viên hướng dẫn: Trương Việt Phương Mã học phần: 21C1INF50905911 Nhóm sinh viên thực hiện: Dương Trọng Anh 31201022014 Lê Thị Kiều Diễm 31201022108 Thái Quang Hào 31201022773 Võ Thị Mỹ Ngọc 31201022281 Liễu Ngọc Khánh Tuyền 31201022715 TP Hồ Chí Minh, Tháng 12/2021 BẢNG PHÂN CÔNG CÁC THÀNH VIÊN STT Họ Và Tên Nhiệm Vụ Đánh giá Tìm liệu, thảo luận đề tài , giới Dương Trọng Anh thiệu tổng quan KHDL, nhận xét, 100% làm powerpoint Tìm liệu, thảo luận đề tài, sở Lê Thị Kiều Diễm lý thuyết, mô tả biến, nhận xét, kết 100% luận Tìm liệu, thảo luận đề tài, sở Thái Quang Hào lý thuyết, xử lý liệu Orange, 100% tổng hợp Word Võ Thị Mỹ Ngọc Liễu Ngọc Khánh Tuyền Tìm liệu, thảo luận đề tài, sở lý thuyết, nhận xét, làm powerpoint Tìm liệu, thảo luận đề tài, giới thiệu đề tài, nhận xét, kết luận 100% 100% LỜI MỞ ĐẦU Những năm gần đây, vai trị hệ thống thơng tin doanh nghiệp ngày lớn mạnh Từ chỗ sử dụng để hỗ trợ số hoạt động văn phịng, hệ thống thơng tin trở nên có vai trị chiến lược doanh nghiệp Đặc biệt thành tựu công nghệ thông tin khiến doanh nghiệp ngày ý tới việc áp dụng để gia tăng cạnh tranh tạo hội cho Khoa học liệu thuật ngữ dần trở nên quen thuộc Việt Nam giai đoạn ngày nay, dần trở thành xu hướng doanh nghiệp hướng tới để đẩy mạnh hoạt động kinh doanh nhờ việc sử dụng thơng tin phân tích cơng nghệ mang lại Khi cách mạng công nghiệp 4.0 bùng nổ, quốc gia doanh nghiệp phải dựa nhiều vào khoa học công nghệ liệu Để phù hợp với chuyên ngành, tìm liệu tổ chức ngân hàng xử lý thông tin thông qua công cụ Orange để nhìn nhận tìm hướng phát triển tổ chức Với mục tiêu phát triển chiến dịch tiếp thị qua gọi dự đoán liệu khách hàng có đăng ký tiền gửi có kỳ hạn hay khơng ? Trong tiểu luận nhóm chúng tơi làm rõ vấn đề MỤC LỤ LỜI MỞ ĐẦU LỜI CẢM ƠN DANH MỤC BẢNG, HÌNH ẢNH CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu Khoa học liệu: .1 1.2 Giới thiệu đề tài 1.2.1 Lý chọn đề tài .2 1.2.2 Mục tiêu nghiên cứu .2 1.2.3 Phương pháp thực CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG - ORANGE VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 2.1 Tổng quan phần mềm Orange: 2.2 Tổng quan phương pháp sử dụng 2.2.1 Tiền xử lý liệu 2.2.1.1 Làm liệu 2.2.1.2 Tích hợp chuyển đổi liệu 2.2.1.3 Rút gọn liệu 2.2.2 Phân cụm 2.2.2.1 Định nghĩa 2.2.2.2 Đặc điểm 2.2.2.3 Các ứng dụng phân cụm liệu 2.2.2.4 Các phương pháp phân cụm .9 2.2.3 Phân lớp 12 2.2.3.1 Định nghĩa 12 2.2.3.2 Quá trình phân lớp liệu: .12 2.2.3.3 Các vấn đề liên quan đến phân lớp liệu .12 2.2.3.4 Môt số phương pháp phân lớp 13 2.2.3.5 Các phương pháp đánh giá mô hình phân lớp 13 2.2.3.6 Các ứng dụng phân lớp liệu kinh tế 14 CHƯƠNG 3: MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT CHƯƠNG 4: KẾT QUẢ THỰC HIỆN 4.1 Tiền xử lý liệu 16 4.1.1 Chọn số lượng khảo sát 16 4.1.2 Loại bỏ biến không phù hợp 17 4.2 Phân cụm liệu 19 4.2.1 Phương pháp Hierarchical Clustering 20 4.2.2 Phương pháp K-Mean 21 4.3 Phân lớp liệu 25 CHƯƠNG 5: KẾT LUẬN 5.1 Kết luận 29 5.2 Hướng phát triển 29 TÀI LIỆU THAM KHẢO LỜI CẢM ƠN Hoàn thành báo cáo đề tài “Phân tích liệu Bank Marketing qua thuật tốn Orange” khơng có riêng cố gắng thành viên nhóm mà cịn nhờ vào hỗ trợ nhiều thầy cô Chúng xin gửi lời cảm ơn chân thành đến:  Thầy Trương Việt Phương - Giảng viên môn Khoa học liệu tận tình hướng dẫn chúng em cách thức tiến hành đề tài nghiên cứu, để hồn thành tốt báo cáo DANH MỤC BẢNG, HÌNH ẢNH Bảng 1: Phân loại phương pháp phân cụm Hình 1: Bảng Data Sampler thể thao tác chọn ngẫu nhiên liệu Hình 2: Kết xử lý “Role” thuộc tính Hình 3: Bảng Select Columns loại bỏ biến kinh tế khơng liên quan Hình 4: Chuỗi thao tác thực tiền xử lý liệu Orange Hình 5: Chuỗi thao tác thực phân cụm liệu Orange Hình 6: Silhouette Plot thể phân cụm theo phương pháp Hierarchical Clustering Hình 7: Bảng liệu excel phân cụm theo phương pháp Hierarchical Clustering so sánh với nhãn ban đầu Hình 8: Bảng kết phân cụm phương pháp K-Mean Orange Hình 9: Silhouette Plot thể phân cụm theo phương pháp K-Mean Hình 10: Bảng liệu excel phân cụm theo phương pháp K-Mean so sánh với nhãn ban đầu Hình 11: Chuỗi thao tác thực phân lớp liệu Orange Hình 12: Bảng kết định Hình 13: Bảng đánh giá Test & Score Hình 14: Bảng kết ma trận nhầm lẫn phương pháp hồi quy logistic Hình 15: Bảng kết dự báo phương pháp hồi quy logistic Hình 16: Bảng kết dự báo bằng phương pháp hồi quy logistic xuất excel CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu Khoa học liệu: Khoa học liệu (DS) khoa học việc quản trị phân tích liệu, trích xuất giá trị từ liệu để tìm hiểu biết, tri thức hành động, định dẫn dắt hành động Khoa học liệu gồm ba phần chính: Tạo quản trị liệu, phân tích liệu, chuyển kết phân tích thành giá trị hành động Việc phân tích dùng liệu lại dựa vào ba nguồn tri thức: toán học (thống kê toán học), công nghệ thông tin (máy học) tri thức lĩnh vực ứng dụng cụ thể Cũng hình thức thí nghiệm khác, khoa học liệu yêu cầu thực quan sát, đặt câu hỏi, hình thành giả thuyết, tạo kiểm tra, phân tích kết đưa khuyến nghị thực tế Chính mà mục đích Khoa học Dữ liệu biến đổi lượng lớn liệu chưa qua xử lý, làm để định vị thành mơ hình kinh doanh, từ giúp đỡ tổ chức tiết giảm chi phí, gia tăng hiệu làm việc, nhìn nhận hội, rủi ro thị trường làm gia tăng lợi cạnh tranh doanh nghiệp Các lĩnh vực khoa học liệu: khai thác liệu (Data mining), thống kê (Statistic), học máy (Machine learning), phân tích (Analyze) lập trình (Programming) Khoa học liệu kết hợp nhiều lĩnh vực để chiết xuất giá trị từ liệu Những người thực hành khoa học liệu gọi data scientists họ kết hợp loạt kỹ để phân tích liệu thu thập từ web, điện thoại thông minh, khách hàng, cảm biến nguồn khác để thu thông tin chi tiết hữu ích Nó chủ yếu thực data scientists lành nghề , nhà phân tích liệu cấp thấp tham gia Ngoài ra, nhiều tổ chức dựa phần vào citizen data scientists , nhóm bao gồm chuyên gia kinh doanh thông minh (BI), nhà phân tích kinh doanh, người dùng doanh nghiệp am hiểu liệu, kỹ sư liệu người lao động khác khơng có tảng khoa học liệu thức Một nhà khoa học liệu cần phát triển nhóm kỹ quan trọng phân tích (Analytics), lập trình (Programming), kiến thức chuyên ngành (Domain Knowledge) số kỹ quan trọng khác 1.2 Giới thiệu đề tài 1.2.1 Lý chọn đề tài Hiện việc khai thác, phân tích liệu trở nên thiếu ngành nghề, đặc biệt đề cập đến kinh doanh, thương mại, Một loạt liệu khổng lồ từ khách hàng, hoạt động kinh doanh, đối tác, xử lý sức người, việc số hóa liệu điều cần thiết, phải làm công ty, tập đồn lớn nhỏ Việc phân tích vấn đề kinh doanh: lấy liệu làm trung tâm, việc tạo đánh giá giải pháp khoa học liệu đánh giá chiến lược đề xuất khoa học liệu chung Để phân tích liệu cách tự động, cần đến phần mềm công cụ để hỗ trợ như: Excel, R Python, Power BI, Với liệu mà nhóm thu thập được, sử dụng Orange để xây dựng quy trình khai thác liệu trực quan - phần mềm khai thác liệu phổ biến thực mà khơng cần lập trình Nhóm tìm liệu tổ chức ngân hàng Bồ Đào Nha, liệu có liên quan đến chiến dịch tiếp thị gọi, kêu gọi khách hàng đăng ký tiền gửi có kỳ hạn ngân hàng Dữ liệu sau phân tích Orange, chúng tơi đưa số nhận xét kết luận cửa sổ phân tích; đánh giá độ hiệu đề xuất số hướng phát triển dành cho chiến dịch tiếp thị qua gọi Và lý nhóm tác giả chọn đề tài: “Phân tích liệu Bank Marketing qua thuật toán Orange” 1.2.2 Mục tiêu nghiên cứu  Khám phá liệu  Làm liệu  Phân cụm, phân lớp liệu Dữ liệu gốc ban đầu có 40000 kết khảo sát (khơng có liệu bị thiếu) Số lượng lớn để tiến hành khai thác, làm nhiều thời gian, đặc biệt tiến hành phân cụm với phương pháp K- means chạy tối đa 5000 instances Vì nhóm tác giả sử dụng công cụ Data Sampler để lấy ngẫu nhiên 4999 khảo sát để thỏa điều kiện nói tiến hành dễ dàng hơn.  Hình 1: Bảng Data Sampler thể thao tác chọn ngẫu nhiên liệu 17 4.1.2 Loại bỏ biến không phù hợp Dữ liệu nhằm mục đích tìm hiểu lựa chọn khách hàng gửi tiền có kỳ hạn nên ta lựa chọn biến Subscribed (đã đăng ký) biến mục tiêu  Target Hình 2: Kết xử lý “Role” thuộc tính Hình 3: Bảng Select Columns loại bỏ biến kinh tế không liên quan 18 Từ hình cho thấy: Đối với biến emp.var.rate, cons.price.idx, cons.conf.idx, euribor3m, nr.employed, biến liên quan đến tình hình chung bối cảnh kinh tế xã hội, khơng ảnh hưởng đến định gửi tiền khách hàng, nên nhóm định loại bỏ cơng cụ Select Columns Hình 4: Chuỗi thao tác thực tiền xử lý liệu Orange 4.2 Phân cụm liệu 19 Hình 5: Chuỗi thao tác thực phân cụm liệu Orange 4.2.1 Phương pháp Hierarchical clustering Hình 6: Silhouette Plot thể phân cụm theo phương pháp Hierarchical Clustering Với số cụm 2, nhóm thực phân cụm phương pháp pháp Hierarchical clustering sử dụng phương pháp tính liên kết đơn (Single) cho kết phân cụm hợp lý Cụm (màu xanh) có giá trị Silhouette nằm khoảng từ 0.5 đến 0.83 cụm (màu đỏ) có giá trị Silhouette nằm khoảng từ 0.4 đến 0.83 Vì 20 khoảng nằm khoảng dương tiến nên phương pháp phân cụm sát với thực tế Sau phân tích Orange, nhóm tiến hành xuất kết phân cụm dạng excel so sánh với nhãn ban đầu Hình 7: Bảng liệu excel phân cụm theo phương pháp Hierarchical Clustering so sánh với nhãn ban đầu Nhóm thực so sánh với nhãn ban đầu tính tỷ lệ xác phân cụm theo phương pháp Hierarchical Clustering cách tính liên kết đơn xấp xỉ 0.9 Đây kết cao thể độ xác phân cụm biến Subscribed theo phương pháp 4.2.2 Phương pháp K-Mean Nhóm tác giả tiến hành phân cụm liệu theo phương pháp K-Mean Sau chạy thiệu cho bảng kết sau: 21 Hình 8: Bảng kết phân cụm phương pháp K-Mean Orange Để đánh giá số cụm tốt để lựa chọn phân cụm phương pháp K-Mean phải dựa vào giá trị Silhouette cụm Vì vậy, nhóm cho chạy random từ đến nhận kết 0.658, 0.723, 0.656 0.586 Qua đó, ta thấy giá trị Silhouette cao phân thành ba cụm biến cần phân cụm Subscribed có hai giá trị “yes, no” nên buộc phải chia thành hai cụm giá trị Silhouette phân thành hai cụm cao (0.658>0.5) Qua hình 9, ta quan sát cụm (màu xanh) giá trị Silhouette nằm khoảng đa số từ 0.4 đến 0.8 cụm (màu đỏ) có giá trị Silhouette nằm khoảng đa số từ 0.3 đến 0.5 Vì khoảng nằm khoảng dương (trừ cụm có khoảng 22 25 mẫu âm) tiến nên phân cụm theo phương pháp K-Mean sát với thực tế, đáng tin cậy 23 Hình 9: Silhouette Plot thể phân cụm theo phương pháp K-Mean Tiếp theo, nhóm tiến hành xuất kết phân cụm phương pháp K-Mean Excel đem so sánh với nhãn ban đầu Kết so sánh thể chi tiết bảng sau đây: Hình 10: Bảng liệu excel phân cụm theo phương pháp K-Mean so sánh với nhãn ban đầu Nhóm thực so sánh với nhãn ban đầu tính tỷ lệ xác phân cụm theo phương pháp K-Mean cách tính liên kết đơn xấp xỉ 0.85 Và thuộc tỷ lệ xác cao Kết luận: Cả hai phương pháp Hierachical Clustering K-means, thực phân cụm liệu với số cụm thu kết hợp lý, sát thực tế Vì vậy, nhóm tiến hành so sánh kết phân cụm với nhãn ban đầu, tính tỷ lệ xác để tìm phương pháp tốt Kết cho thấy phương pháp Hierarchical Clustering có tỳ lệ xác cao so với phương pháp K-means (0.89>0.85) Vì liệu nhóm phân cụm theo phương pháp Hierarchical Clustering tốt 24 4.3 Phân lớp liệu Trong khoa học liệu, toán phân lớp liệu  tốn có ý nghĩa quan trọng có nhiều ứng dụng thực tiễn Phân lớp liệu ứng dụng cho loạt toán dự báo kinh doanh, dự báo tài chính, chẩn đốn y khoa, nhận dạng đối tượng, dịch thuật, … Hình 11: Chuỗi thao tác thực phân lớp liệu Orange Cây định (Decision Tree)  Trong lý thuyết quản trị, định đồ thị định kết kèm nhằm hỗ trợ trình định  Trong lĩnh vực khai phá liệu, định phương pháp nhằm mô tả, phân loại tổng quát hóa tập liệu cho trước Hình 12: Bảng kết định Nhìn vào tree viewer ta thấy, liệu sau phân lớp có 363 models 182 nhánh cho thấy định phân loại tổng quát hóa tập liệu rõ ràng 25 Hình 13: Bảng đánh giá Test & Score Bảng Test and Score ta thấy số AUC Tree 0.607 , SVM 0.717 Hồi quy Logistic 0.909 lớn phương pháp lại gần với Điểu cho thấy phương pháp Hồi quy Logistic phương pháp xem đánh giá tốt cho liệu Ma trận nhầm lẫn (Confusion Matrix) Hình 14: Bảng kết ma trận nhầm lẫn phương pháp hồi quy logistic Xét ma trận nhầm lẫn phương pháp hồi quy logistic, ma trận thể rõ:  4331 no-no: 4331 khách hàng ta đốn khơng đăng ký tiền gửi có kỳ hạn thực tế không đăng ký  106 yes-no: 106 khách hàng ta đốn có đăng ký tiền gửi có kỳ hạn thực tế khơng đăng ký  352 no- yes: 352 khách hàng ta đoán khơng đăng ký tiền gửi có kỳ hạn thực tế có đăng ký 26  210 yes-yes: 210 khách hàng ta đốn có đăng ký tiền gửi có kỳ hạn thực tế có đăng ký  Điều cho thấy, đa số khách hàng nhu cầu đăng ký tiền gửi có kỳ hạn Cơng cụ Predictions Hình 15: Bảng kết dự báo phương pháp hồi quy logistic Chọn ngẫu nhiên 500 khách hàng (10% data) để dự đoán, ta thấy “no” chiếm số lượng lớn so với “yes”.Với kết cho thấy rằng, khách hàng không đăng ký tiền gửi có kỳ hạn chiếm tỷ lệ cao so với khách hàng đăng ký tiền gửi có kỳ hạn 27 Hình 16: Bảng kết dự báo bằng phương pháp hồi quy logistic xuất excel CHƯƠNG 5: KẾT LUẬN 5.1 Kết luận Với liệu có liên quan đến chiến dịch tiếp thị trực tiếp tổ chức ngân hàng Bồ Đào Nha với mục tiêu xác định khách hàng đăng ký tiền gửi có kỳ hạn hay khơng. Nhóm tác giả tiến hành tiền xử lý liệu với Data Sampler bỏ qua số thuộc tính khơng quan trọng, phân lớp với phương pháp Hồi quy Logistic tiến hành phân cụm liệu với phương pháp Hierarchical.  Sau thời gian tiến hành nghiên cứu, với biến thuộc tính Previous thể số lần liên lạc với khách hàng chiến lược trước đa số lần, số lần lần Pountcome kết chiến dịch trước đa số không tồn Cho thấy ngân hàng không quan tâm tới khách hàng cũ không giữ liên lạc với khách hàng chiến dịch trước ảnh hưởng tới kết chiến dịch biến thuộc tính Duration, biến thuộc tính quan trọng ảnh hưởng nhiều đến mục tiêu đầu ra, với thời lượng liên lạc cuối với khách hàng, thời lượng nhiều thông tin thu thập nhiều độ xác cao, cho kết xác thực tế cho thấy khách hàng có quan tâm đến chiến dịch khơng.  Với biến thuộc tính nhóm tác giả tiến hành nghiên cứu dự báo khách hàng đăng ký tiền gửi có kỳ hạn khách hàng chưa đăng ký tiền gửi có kỳ hạn Khách hàng chưa đăng ký tiền gửi có kỳ hạn chiếm phần lớn so với khách hàng đăng ký tiền gửi có kỳ hạn Với kết đạt không lệch nhiều so với nhãn mục tiêu sẵn có liệu Các chiến dịch tiếp thị qua điện thoại cách hiệu để tiếp cận với người cung cấp thông tin xác định dự báo khách hàng đăng ký tiền gửi có kỳ hạn 5.2 Hướng phát triển Sau phân tích, nhóm tác giả đưa số đề xuất hướng phát triển chiến lược thu hút khách hàng đăng ký tiền gửi có kỳ hạn sau: 28 a) Xác định khách hàng cần hướng đến Bởi khả tất toán tiền gửi bị hạn chế nhiều khoản thời gian khách hàng gửi tiết kiệm, phân khúc khách hàng mà hướng đến người có mối quan tâm đến gửi tiết kiệm, thu nhập ổn định, có khoản tiền nhàn rỗi sẵn sàng để gửi tiết kiệm b) Cung cấp thông tin sản phẩm Sau có khách hàng tiềm năng, ngân hàng phải tư vấn cho khách hàng gói tiền gửi có lợi ích đăng ký gói tiền gửi có hạn, so với việc đăng ký ngân hàng có khác so với ngân hàng khác, cho khách hàng thấy khác biệt  Mức lãi suất: Lãi suất thường cao nhiều so với tiền gửi không kỳ hạn  Kỳ hạn gửi: Kỳ hạn linh hoạt: theo tuần, theo tháng theo năm  Phương thức trả lãi: Trả lãi trước, trả lãi định kỳ trả lãi sau  Các ưu đãi: Khách hàng thường xuyên nhận chương trình ưu đãi từ ngân hàng mở thẻ tín dụng khơng cần chứng minh thu nhập, ưu đãi lãi suất vay c) Đa dạng sản phẩm tiền gửi có kỳ hạn Cũng khoản Tiền gửi có kỳ hạn để thu hút khách hàng ngân hàng cần tạo đa dạng hình thức, dịch vụ để khách hàng cảm thấy dễ dàng, khơng khó chịu sử dụng dịch vụ Ví dụ kênh giao dịch, khách hàng lựa chọn gửi tiền quầy gửi online (trực tuyến), gói sản phẩm có kỳ hạn mức lãi suất hấp dẫn, Điều làm cho khách hàng chủ động lựa chọn, phù hợp với số tiền nhàn rỗi khách hàng d) Tăng cường chiến dịch quảng cáo, tiếp thị Có lẽ nhắc đến chiến lược thu hút khách hàng chắn khơng thể “vắng mặt” chiến dịch quảng cáo, tiếp thị Đây “vũ khí” để sản phẩm, dịch vụ thương hiệu bạn “phủ sóng” rộng rãi thu hút khách hàng ngày nhiều Với phát triển mạnh mẽ công nghệ - thông tin, việc triển khai chiến dịch quảng cáo, tiếp thị tối ưu nhiều Thậm chí, ngân sách có phần eo hẹp bạn ưu tiên trước cho hoạt động digital 29 marketing trước Sau đó, có “khởi sắc” hoạt động marketing truyền thống báo chí, quảng cáo ngồi trời,… xen kẽ triển khai để tối ưu hiệu e) Luôn giữ tương tác với khách hàng Rất nhiều khách hàng cũ không trở thành khách hàng trung thành khơng có liên hệ tương tác qua lại hai bên Triển khai vài phương pháp giữ liên lạc đơn giản với khách hàng email, gọi điện định kỳ hàng tháng, đảm bảo khách hàng không cảm thấy bị bỏ rơi sau mua hàng Nếu lỡ đánh khách hàng theo cách này, cách sửa sai gửi email (thư điện tử)  cho khách hàng, thể doanh nghiệp tiếc họ ngừng mua hàng đề nghị tặng cho họ ưu đãi khoảng thời gian định Một số doanh nghiệp sử dụng cách thông thường giới hạn số thư từ 5-7 thư họ không nhận phản hồi tích cực 30 TÀI LIỆU THAM KHẢO Nguyễn Thị Thùy Linh (2005), luận tốt nghiệp “Nghiên cứu thuật toán phân lớp dựa định”, Trường Đại học Công nghệ, ĐHQGHN Vi Văn Sơn (2016), luận văn thạc sĩ “Phân cụm thô liệu tuần tự”, Trường Đại học Cơng nghệ, ĐHQGHN García, S., Luengo, J., & Herrera, F (2015), “Data Preprocessing in Data Mining”, New York: Springer Foster Provos, Tom Fawcett (2013), Data Science for Business, “What you need to know about Data Mining and Data-Analytic Thinking” Một số link tài liệu: https://abiz.edu.vn/khoa-hoc-du-lieu-data-science-la-gi/ https://www.oracle.com/in/data-science/what-is-data-science/ https://searchenterpriseai.techtarget.com/definition/data-science https://hocvien.haravan.com/blogs/guides/5-chien-luoc-giu-chan-khach-hang-giupdoanh-nghiep-cua-ban-phat-trien https://bizfly.vn/techblog/6-meo-thu-hut-khach-hang-ban-le-trong-kinh-doanh-khongngo-toi.html https://ongxuanhong.wordpress.com/2018/02/03/voc-thu-orange-phan-mem-data-mining/ https://123docz.net/document/2841059-cac-phuong-phap-phan-cum-du-lieu.htm https://123docz.net/document/3570720-ung-dung-ky-thuat-khai-pha-du-lieu-trongids.htm ... and Score, quan sát số AUC phương pháp cuối quan sát ma trận nhầm lẫn CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG - ORANGE VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 2.1 Tổng quan phần mềm Orange: Orange? ?là hệ... pháp phân hoạch Trong các phương pháp phân hoạch, với số lượng cụm đã định, người ta lần lượt phân các đối tượng dữ liệu vào các cụm, sau đó thực hiện lặp qua? ?... kết qua? ? chia cụm mới Thủ tục đệ quy kết thúc ta có tập nhất là toàn bộ dữ liệu Các thuật toán phân biệt với ở tiêu chuẩn đánh giá hai cụm nào là gần nhất dựa trên

Ngày đăng: 12/12/2021, 07:56

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN