1. Trang chủ
  2. » Giáo Dục - Đào Tạo

PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

28 22 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH TRƯỜNG CƠNG NGHỆ VÀ THIẾT KẾ ĐỒ ÁN MƠN HỌC ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU HÀNH VI KHÁCH HÀNG DỰA TRÊN BỘ DỮ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN MỀM ORANGE Học phần: Khoa Học Dữ Liệu Nhóm Sinh Viên: NGUYỄN THỊ HỒNG NGÂN NGUYỄN QUỐC HUY Chun Ngành: QUẢN LÝ CƠNG Khóa: K46 Giảng Viên: TS Đặng Ngọc Hồng Thành TP Hồ Chí Minh, Ngày 27 tháng 05 năm 2022 MỤC LỤC MỤC LỤC CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu 1.2 Giới Thiệu Về Python Phần Mềm Orange 1.3 Lý Do Chọn Lựa Đề Tài CHƯƠNG CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu 2.1.1 Mơ Hình Logistic Regression 2.1.2 Mơ Hình Decision Tree 2.1.3 Mơ Hình Support Vector Machine 2.1.4 Mơ Hình Neural Network 10 2.2 Quy Trình Phân Lớp Dữ Liệu 11 2.2.1 Phân Chia Dữ Liệu 11 2.2.2 Phân Lớp Dữ Liệu 13 2.2.3 Đánh Giá Tính Hiệu Quả 14 CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 18 3.1 Bộ Dữ Liệu 18 3.2 Các Kết Quả Thực Nghiệm 20 3.3 Phân Tích Đánh Giá 22 CHƯƠNG KẾT LUẬN 24 4.1 Các Kết Quả Đạt Được 24 4.2 Những Hạn Chế Hướng Phát Triển 26 TÀI LIỆU THAM KHẢO 27 CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu Khoa học liệu khoa học nghiên cứu liệu Ngoài ra, khoa học liệu công cụ lao động quan trọng kỷ nguyên chuyển đổi số.Vì vậy, từ quan điểm chuyên môn, khoa học liệu lĩnh vực nghiên cứu liên ngành tích hợp nhiều loại liệu từ lĩnh vực chuyên môn khác nhau, từ khoa học máy tính thống kê đến kiến thức tốn học Về quy trình hệ thống trích xuất kiến thức hiểu biết từ dạng liệu khác (có cấu trúc khơng có cấu trúc), tiếp nối số lĩnh vực phân tích liệu, chẳng hạn thống kê khoa học, khai thác liệu, tương tự khai thác kiến thức từ sở liệu Trong khai phá liệu tốn phân lớp (classification) thông dụng Phân lớp liệu trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mô hình phân lớp Mơ hình xây dựng dựa tập liệu gán nhãn trước ( thuộc lớp ) Q trình gán nhãn( thuộc lớp nào) cho đối tượng liệu trình phân lớp liệu 1.2 Giới Thiệu Về Python Phần Mềm Orange Python ngơn ngữ lập trình hướng đối tượng cấp cao Ngôn ngữ sử dụng để phát triển ứng dụng trang web khác Ngôn ngữ tạo Guido van Rossum vào đầu năm 1991, người phát triển dự án mở trải qua ba phiên lớn Python 1, Python Python 3, với nhiều cập nhật nhỏ dần hoàn thiện chức cú phá Do cấu trúc đơn giản lịch nó, Python lựa chọn hồn hảo từ chuyên gia hàng đầu người bắt đầu Ngơn ngữ đánh giá cao tính chặt chẽ, sức mạnh tốc độ, tồn tất hệ điều hành trở thành ngôn ngữ phù hợp với dự án học máy hay trí tuệ nhân tạo (AI) Khi sử dụng Python có nhiều thời gian nghiên cứu, giải tốn, khơng phải rắc rối với kỹ thuật phức tạp ngôn ngữ, dễ dàng làm việc nhóm dòng lệnh gần với đọc hiểu Phần mềm Orange biết đến với việc tích hợp cơng cụ khai thác liệu máy học đơn giản, thông minh, mã nguồn mở lập trình Python với giao diện trực quan tương tác đơn giản Phần mềm có nhiều chức năng, từ phân tích liệu đơn giản đến phức tạp, tạo biểu đồ đẹp thú vị, đồng thời giúp người dùng thực khai thác liệu học máy dễ dàng 1.3 Lý Do Chọn Lựa Đề Tài Cùng với phát triển kinh tế nhu cầu người ngày tăng cao sản phẩm tiêu dùng ngày Các công ty đặt khách hàng trung tâm để dựa vào đưa doanh nghiệp phát triển phù hợp với thị hiếu người tiêu dùng Các phân khúc thị trường nhắm đến đối tượng khách hàng cần lên kế hoạch chiến lược cụ thể để đạt mục tiêu đề ban đầu Chính lý đó, nhóm chúng em chọn đề tài với mục đích sử dụng thành tựu, ứng dụng khoa học liệu để phân tích, đánh giá cách khách quan toán nan giải cho doanh nghiệp hành vi, lựa chọn khách hàng hướng đến để có chiến lược phát triển phù hợp CHƯƠNG CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu 2.1.1 Mơ Hình Logistic Regression Định nghĩa: Là mơ hình xác suất dự đốn giá trị đầu rời rạc từ tập giá trị đầu vào (biểu diễn dạng vector) Một ví dụ điển hình phân loại Email, gồm có email cơng việc, email gia đình, email spam, Giao dịch trực tuyến có an tồn hay khơng an tồn, khối u lành tính hay ác tình Thuật tốn dùng hàm sigmoid logistic để đưa đánh giá theo xác suất Ví dụ: Khối u 80% lành tính, giao dịch 90% gian lận, … Mô tả: Đối với tập phân lớp: Tập””nhãn y = {y1,, y2, , yn} với n số lớp Một đối tượng liệu x = {x 1, x2, , xd} với d số thuộc tính dòng liệu biểu diễn dạng vector Hàm logistic: P(y=1) = 1+e−(w0+w1x1+w2x2+…+wdxd) dự đoán đối tượng xem đối tượng x sở hữu thuộc tính cụ thể thuộc vào lớp y ” Trong đó: d số lượng đặc trưng (thuộc tính) liệu w trọng số, ban đầu khởi tạo ngẫu nhiên, sau điều chỉnh lại cho phù hợp =0 = = =1+ − Ví dụ: Xét tốn phân lớp (nhị phân) phân lớp nguy vỡ nợ tập khách hàng cá nhân để giải việc cho vay tiêu dùng: Biến phân lớp (biến phụ thuộc): y=1: vỡ nợ; y=0: không vỡ nợ Biến độc lập x1,, x2, , xd bao gồm: tuổi, học vấn, thu nhập, tài sản, Hàm logistic (sigmoid): P(y=1) = 1+e−(w0+w1x1+w2x2+…+wdxd) Một ngưỡng t để phân lớp (nếu P(y) t phân vào lớp vỡ nợ ngược lại) Vấn đề: cần tìm hệ số (trọng số): w0, w1,, w2, , wd phù hợp để ước lượng Bộ hệ số tính tốn điều chỉnh giai đoạn huấn luyện Sau đó, sử dụng q trình đánh giá mơ hình phân lớp liệu 2.1.2 Mơ Hình Decision Tree Định nghĩa: - Trong lý thuyết quản trị, định đồ thị định kết kèm nhằm hỗ trợ trình định - Trong lĩnh vực khai thác liệu, định phương pháp nhằm mô tả, phân loại tổng hợp hóa tập liệu cho trước.” Decision Tree phân cấp cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật (Series of Rules) Các thuộc tính đối tượng (ngoại trừ thuộc tính phân lớp - Category attribute) thuộc kiểu liệu khác (Binary, Nominal, ordinal, quantitative values) thuộc tính phân lớp phải có kiểu liệu Binary Ordinal Tóm lại, cho liệu đối tượng gồm thuộc tính với lớp (classes) nó, Decision Tree sinh luật để dự đoán lớp liệu chưa biết (unseen data) Decision Tree một phương pháp phân lớp hiệu dễ hiểu nhiên có số ý q trình sử dụng để xây dựng mơ hình phân lớp sau: Hiệu phân lớp phụ thuộc lớn vào training data Chẳng hạn Decision Tree tạo giới hạn samples training data hiệu ứng dụng dự đốn trường hợp khơng cao (thường training data phải đủ lớn tin cậy) ta khơng thể nói tập luật (Series of Rules) sinh Decision Tree tập luật tốt Ưu khuyết điểm Ưu điểm: Dễ hiểu Khơng địi hỏi việc chuẩn hóa liệu Có thể xử lý nhiều kiểu liệu khác Xử lý tốt lượng liệu lớn thời gian nhắn Khuyết điểm: Khó giải tình liệu phụ thuộc thời gian Chi phí xây dựng mơ hình cao 2.1.3 Mơ Hình Support Vector Machine SVM thuật toán phân loại nhị phân, nhận liệu vào phân loại chúng vào hai lớp khác SVM xây dựng (learn) siêu phẳng (hyperplane) để phân lớp (classify) tập liệu thành hai lớp riêng biệt Để làm điều SVM xây dựng siêu phẳng tập hợp siêu phẳng khơng gian nhiều chiều vơ hạn chiều, sử dụng cho phân loại, hồi quy Để phân loại tốt cần phải xác định siêu phẳng (Optimal hyperplane) nằm xa điểm liệu tất lớp (hàm lề) tốt lề lớn sai số tổng qt hóa thuật toán phân loại bé Một siêu phẳng hàm tương tự phương trình đường thẳng y = ax + b Nếu ta cần phân lớp liệu gồm feature siêu phẳng lúc đường thẳng SVM sử dụng thủ thuật để ánh xạ tập liệu ban đầu vào không gian nhiều chiều Khi ánh xạ sang không gian nhiều chiều, SVM xem xét chọn siêu phẳng phù hợp để phân lớp tập liệu Muốn điểm liệu chia tách cách tuyến tính cần phải chọn hai siêu phẳng lề cho khơng có điểm chúng khoảng cách chúng tối đa Trong nhiều trường hợp, phân chia liệu cách tuyến tính khơng gian ban đầu dùng để mơ tả vấn đề Vì nhiều cần phải ánh xạ điểm liệu không gian ban đầu vào không gian nhiều chiều hơn, để việc phân tách chúng trở nên dễ dàng không gian Một số khái niệm: Margin: khoảng cách siêu phẳng (trong trường hợp không gian chiều đường thẳng) - đến điểm liệu gần tương ứng với phân lớp SVM cố gắng tối ưu cách tối đa hóa giá trị margin này, từ tìm siêu phẳng đẹp để phân lớp liệu Nhờ vây, SVM giảm thiểu việc phân lớp sai (misclassification) điểm liệu đưa vào Support Vectors: Bài toán trở thành tìm đường biên lớp liệu cho khoảng cách đường lớn Siêu phẳng cách biên siêu phẳng cần tìm - Các điểm màu hồng nằm đường biên (màu xanh nhạt) gọi support vector, chúng có nhiệm vụ hỗ trợ để tìm siêu phẳng (màu xanh đậm) Ví dụ: Bài tốn khơng gian hai chiều y: lớp chứa điểm liệu xi Ở ví dụ y mang giá trị -1 (có lớp) xi: vector thực nhiều chiều đại diện cho đối tượng liệu cụ thể Giả sử đường thẳng song song qua support vector lớp liệu là: w1x1 + w2x2 + b = w1x1 + w2x2 + b = -1 Viết gọn lại là: wx – b = wx – b = -1 Trong đó: w: vector pháp tuyến Khoảng cách hai đường thẳng margin = 2/ + Khi đường thẳng phân cách cần tìm: w1x1 + w2x2 + b = hay wx – b = Tổng qt hóa khơng gian nhiều chiều - Số””chiều khơng gian tốn (cịn gọi không gian đặc trưng) tương ứng với số lượng thuộc tính (đặc trưng) đối tượng liệu - Phương trình biểu diễn siêu phẳng cần tìm (hyperlane) không gian đa chiều là: giá trị margin = + =0 2| + | ‖‖ = ‖‖ - Mục tiêu SVM cần tìm giá trị margin cực đại đồng nghĩa với việc ‖w‖ đạt cực tiểu với điều kiện: + ≥ 1,, ∀ = 1,22,, …,, Hàm mục tiêu cần tối ưu norm nên hàm lồi => toán quy hoạch toàn phương (Quadratic Programing).” - Các biến thể SVM Looạại SVVM Hard Margin SVM Soft Margin SVM Multi-class SVM Keerrnneel SVVM 2.2.2 Phân Lớp Dữ Liệu Quá trình phân lớp liệu gồm hai bước chính: Bước 1:“Xây dựng mơ hình (hay cịn gọi giai đoạn “học” “huấn luyện”) - Dữ liệu đầu vào: liệu mẫu gán nhãn tiền xử lý - Các thuật toán phân lớp: định, hàm số toán học, tập luật, - Kết bước mơ hình phân lớp huấn luyện (trình phân lớp).” Bước 2:“Sử dụng mơ hình chia thành bước nhỏ: + Bước 2.1: Đánh giá mơ hình (kiểm tra tính đắn mơ hình) - Dữ liệu đầu vào: tập liệu mẫu khác gán nhãn tiền xử lý Tuy nhiên lúc đưa vào mơ hình phân lớp, ta “lờ” thuộc tính gán nhãn - Tính đắn mơ hình xác định cách so sánh thuộc tính gán nhãn liệu đầu vào kết phân lớp mơ hình + Bước 2.2: Phân lớp liệu 13 - Dữ liệu đầu vào: liệu “khuyết” thuộc tính cần dự đốn lớp (nhãn) - Mơ hình tự động phân lớp (gán nhãn) cho đối tượng liệu dựa vào huấn luyện bước 2.2.3 Đánh Giá Tính Hiệu Quả Các phương pháp đánh giá mơ hình phân lớp nhằm kiểm tra tính hiệu mơ hình phân lớp liệu có đặc thù cụ thể, từ định có sử dụng mơ hình hay khơng Một mơ hình lý tưởng mơ hình khơng q đơn giản, không phức tạp không nhạy cảm với nhiễu (tránh underfitted overfitting) Underfitting (chưa khớp): Mô hình coi chưa khớp chưa phù hợp với tập liệu huấn luyện mẫu dự đoán - - Nguyên nhân mơ hình chưa đủ độ phức tạp cần thiết để bao quát tập liệu - Tồn nhiều điểm liệu mà mơ hình khơng phân loại dẫn đến độ xác mơ hình thấp Overfitting (quá khớp): - Overfitting tượng mơ hình tìm q khớp với liệu huấn luyện Điều dẫn đến việc dự đoán nhiễu nên mơ hình khơng cịn tốt phân lớp liệu 14 - Quá khớp xảy lượng liệu huấn luyện nhỏ độ phức tạp mơ hình q cao nên độ xác cao khơng thể mơ tả xu hướng tổng quát liệu (còn gọi High Variance) Good Fitting: Là trường hợp mô hình cho kết hợp lý với tập liệu huấn luyện giá trị mới, tức mang tính tổng qt - Ngồi thực tế mơ hình tốt mơ hình cho kết hợp lý cách chấp nhận liệu mẫu lẫn liệu - Trong tất giả thiết giải thích tượng, ta nên chọn giả thiết đơn giản (Occam’s razor) - - Do đó, tất model “Đúng”, chọn model Đơn Giản a) Ma trận nhầm lẫn Ma trận nhầm lẫn ma trận có điểm liệu thực thuộc vào lớp cụ thể, dự đoán rơi vào lớp - - Confusion Matrix có kích thước k × k với k số lượng lớp liệu - Giá trị ô (i;j) cho biết số lượng mẫu i bị phân vào lớp j Ví dụ: Bài tốn chẩn đốn ung thư ta có lớp: lớp bị ung thư chẩn đốn Positive lớp khơng bị ung thư chẩn đoán Negative 15 TP (True Positive) số lượng dự đốn xác Là mơ hình dự đoán người bị ung thư TN (True Negative) số lượng dự đốn xác cách gián tiếp Là mơ hình dự đốn người không bị ung thư, tức việc chọn trường hợp ung thư xác FP (False Positive - Type Error) Số lượng dự đoán sai lệch mơ hình dự đốn người bị ung thư người hồn tồn khỏe mạnh FN (False Negative - Type Error) Số lượng dự đoán sai lệch cách gián tiếp Là mơ hình dự đốn người khơng bị ung thư người bị ung thư, tức việc không chọn trường hợp bị ung thư sai b) Accuracy Là tỷ lệ số mẫu phân lớp toàn tập liệu acc = ( TP+TN ) / n => Error rate = - acc độ lỗi mơ hình Accuracy cho biết tỷ lệ liệu phân loại mà không cụ thể loại phân loại nào, lớp phân loại nhiều nhất, liệu thuộc lớp thường bị phân loại nhầm vào lớp khác c) Preciision, Recall, F1 – score Precision (độ xác) cho biết số m mẫu phân vào lớp i có tỷ lệ mẫu có (tránh nhầm lẫn với tính xác accuracy): precision = TP/(TP+FP) Recall (độ phủ) gọi độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate): 16 recall=TP/(TP+FN) F1-score: giá trị trung bình điều hịa (harmonic mean) hai độ đo Precision Recall: F1 = 2*[(precision x recall)/(precision+recall)] F1 có giá trị gần với giá trị nhỏ hai giá trị Precision Recall F1 có giá trị lớn hai giá trị Precision Recall lớn d) ROC AUC ROC (Receiver Operating Characteristic) Là đồ thị sử dụng phổ biến đánh giá mơ hình phân loại nhị phân Đường cong tạo cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa tỷ lệ dự báo false positive rate (FPR) ngưỡng khác Một mơ hình hiệu có FPR thấp TPR cao, hay ROC tiệm cận với điểm (0;1) đồ thị mơ hình hiệu UC (Area Under the Curve) - Là diện tích nằm đường cong ROC Giá trị số dương nhỏ - - Giá trị lớn mơ hình tốt 17 CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ Dữ Liệu Dựa vào bảng liệu Dataset thể thông tin chi tiết 400 khách hàng công ty bao gồm ID, giới tính, độ tuổi khách hàng mức lương Bên cạnh đó, cơng ty thu thập thông tin liên quan đến định mua - liệu khách hàng có định mua sản phẩm cụ thể hay không Để tiến hành phân lớp liệu đánh giá khách hàng có mua sản phẩm cụ thể ta sử dụng phương pháp: Hồi quy Logistic (Logistic Regression), Cây định (Decision Tree), SVM (Support Vector Machine) Sau dựa vào kết chạy mơ hình Test & Score Confusion Matrix Cuối cùng, dựa vào số liệu để chọn mơ hình tốt để dự báo Để đánh giá định mua sản phẩm cụ thể công ty này, ta dựa vào thành phần đây: Tổng cộng ta có biến để thực hành mơ hình liệu Ta đánh giá kết mơ hình dựa biến Ở đây, công ty thu thập 400 mẫu đưa vào Data sample nhằm tách liệu thành phần ngẫu nhiên theo tỷ lệ train/test (70/30) 18 Sau đó, ta áp dụng phương pháp Hồi quy Logistic, SVM, Cây định để tìm mơ hình tốt để dự báo dựa vào Test & Score Confusion Matrix 19 Sau có kết từ mơ hình lựa chọn mơ hình tối ưu cho việc dự đoán Tiếp tục nối mơ hình chọn Test (30% data cịn lại) vào phương pháp dự đốn để hồn thiện q trình 3.2 Các Kết Quả Thực Nghiệm Sau kết thu từ phương pháp để chọn phương pháp tốt để dự báo khả mua sản phẩm từ 400 khách hàng 20 Test & Score Confusion Matrix 21 3.3 Phân Tích Đánh Giá 22 Theo kết Test & Score, số AUC (Area Under the Curve) mơ hình Hồi quy Logistic gần với (0.880) Dựa vào lý thuyết, mơ hình có giá trị dương lớn nhỏ gần có độ xác cao Chỉ số khác mơ hình Hồi quy Logistic CA, F1, Precision, Recall lớn so với mơ hình khác (SVM, Tree) Vì mơ hình Hồi quy Logistic đưa kết luận xác cách hợp lý Ngồi ra, để mơ hình Hồi quy Logistic mơ hình dự báo hiệu ta dựa vào kết Confusion Matrix để tính số Precision (Độ xác) Accuracy (Tính xác) từ mơ hình Tree, SVM Logistic Regression: Trreee SVVM Looggiissttiic Reeggrreessssiioon Dựa kết Precision Accuracy cho thấy độ xác tính xác Logistic Regression cao so với Tree SVM Kết luận mơ hình Logistic Regression đem lại tính xác cao 23 CHƯƠNG KẾT LUẬN 4.1 Các Kết Quả Đạt Được 24 25 4.2 Những Hạn Chế Hướng Phát Triển -Hạn chế: phạm vi mẫu liệu hẹp từ công ty (lượng khách hàng, biến không phụ thuộc chưa đa dạng) nên đồ án phản ánh hết tiềm lực, bật công ty để thuyết phục khách hàng định mua sản phẩm Bên cạnh hiểu biết phần mềm cịn hạn chế định nên cịn nhiều thiếu sót -Hướng phát triển: để mơ hình liệu hoạt động hiệu cần phải cập nhật yếu tố khác ảnh hưởng đến việc mua hàng (khuyến mãi, quảng cáo), phản hồi khách hàng mua hàng, từ tính ứng dụng đề tài phát huy tối đa Bên cạnh đó, ta mở rộng mơ hình với phạm vi lớn với nhiều công ty khác để có nhìn tổng qt tiềm lực mà công ty sở hữu định đến việc mua sản phẩm khách hàng 26 TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt 1) Luận văn: Nghiên cứu phân lớp liệu cân ứng dụng 2) Luận văn: Dự báo tăng giảm cảu mã chứng khốn mơ tả 3) Luận văn: Dự đốn tương tác Protein - Protein sử dụng kỹ thuật khai phá liệu 4) Giáo trình, Slide giảng Khoa học liệu Website 5) https://text.123docz.net/document/6938197-nghien-cuu-phanlop-tren-du-lieu-mat-can-bang-va-ung-dung.htm 6) https://123docz.net/document/9351307-de-ta-i-du-ba-o-su-ta-ng-gia-mcu-a-mo-t-ma-chu-ng-khoa-n-mo-ta.htm 7) http://data.uet.vnu.edu.vn:8080/xmlui/bitstream/handle/123456789/1098/1.Lu%e1%b a%adn%20v%c4%83n.pdf?sequence=1 8) https://www.stdio.vn/computer-vision/gioi-thieu-ve-mo-hinh-svm-D15jcg 27 ... Toán Phân Lớp Dữ Liệu 1.2 Giới Thiệu Về Python Phần Mềm Orange 1.3 Lý Do Chọn Lựa Đề Tài CHƯƠNG CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu. .. điều khiển tự động, khai phá liệu, nhận dạng, 2.2 Quy Trình Phân Lớp Dữ Liệu 2.2.1 Phân Chia Dữ Liệu *Phương pháp Hold-out: Phương pháp phân chia tập liệu ban đầu thành tập độc lập theo tỷ lệ... tuổi khách hàng mức lương Bên cạnh đó, công ty thu thập thông tin liên quan đến định mua - liệu khách hàng có định mua sản phẩm cụ thể hay không Để tiến hành phân lớp liệu đánh giá khách hàng

Ngày đăng: 05/12/2022, 06:21

HÌNH ẢNH LIÊN QUAN

2.1.1. Mơ Hình Logistic Regression - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE
2.1.1. Mơ Hình Logistic Regression (Trang 5)
CHƯƠNG 2. CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1. Các Mơ Hình Phân Lớp Dữ Liệu - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE
2. CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1. Các Mơ Hình Phân Lớp Dữ Liệu (Trang 5)
2.1.2. Mơ Hình Decision Tree Định nghĩa: - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE
2.1.2. Mơ Hình Decision Tree Định nghĩa: (Trang 7)
2.1.4. Mơ Hình Neural Network - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE
2.1.4. Mơ Hình Neural Network (Trang 11)
- Kết quả của bước này là mơ hình phân lớp đã được huấn luyện (trình phân lớp).” Bước 2:“Sử dụng mơ hình chia thành 2 bước nhỏ: + Bước 2.1: Đánh giá mơ hình (kiểm tra tính đúng đắn của mơ hình). - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE
t quả của bước này là mơ hình phân lớp đã được huấn luyện (trình phân lớp).” Bước 2:“Sử dụng mơ hình chia thành 2 bước nhỏ: + Bước 2.1: Đánh giá mơ hình (kiểm tra tính đúng đắn của mơ hình) (Trang 14)
- Ngồi thực tế mơ hình tốt là mơ hình cho kết quả hợp lý một cách chấp nhận được trên dữ liệu mẫu lẫn dữ liệu mới. - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE
g ồi thực tế mơ hình tốt là mơ hình cho kết quả hợp lý một cách chấp nhận được trên dữ liệu mẫu lẫn dữ liệu mới (Trang 16)
- Là trường hợp mơ hình cho ra kết quả hợp lý với cả tập dữ liệu huấn luyện và các giá trị mới, tức mang tính tổng quát. - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE
tr ường hợp mơ hình cho ra kết quả hợp lý với cả tập dữ liệu huấn luyện và các giá trị mới, tức mang tính tổng quát (Trang 16)
acc =( TP+TN )/ n => Error rate = 1- acc là độ lỗi của mơ hình - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE
acc =( TP+TN )/ n => Error rate = 1- acc là độ lỗi của mơ hình (Trang 17)
recall=TP/(TP+FN) - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE
recall =TP/(TP+FN) (Trang 18)
Một mơ hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mơ hình càng hiệu quả.tiệm cận với điểm (0;1) trong đồ thị thì mơ hình càng hiệu quả. - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE
t mơ hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mơ hình càng hiệu quả.tiệm cận với điểm (0;1) trong đồ thị thì mơ hình càng hiệu quả (Trang 18)
Dựa vào bảng dữ liệu trong Dataset thể hiện thông tin chi tiết về 400 khách hàng của một cơng ty bao gồm ID, giới tính, độ tuổi của khách hàng và mức lương - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE
a vào bảng dữ liệu trong Dataset thể hiện thông tin chi tiết về 400 khách hàng của một cơng ty bao gồm ID, giới tính, độ tuổi của khách hàng và mức lương (Trang 19)
Sau khi có được kết quả từ các mơ hình và lựa chọn mơ hình tối ưu nhất cho việc dự đốn - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE
au khi có được kết quả từ các mơ hình và lựa chọn mơ hình tối ưu nhất cho việc dự đốn (Trang 21)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w