PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

28 35 0
PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

  BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH TRƯỜNG CƠNG NGHỆ VÀ THIẾT KẾ  ĐỒ ÁN MƠN HỌC ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU HÀNH VI KHÁCH HÀNG DỰA TRÊN BỘ DỮ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN MỀM ORANGE Học phần: phần: Khoa Học Dữ Liệu Nhóm Sinh Viên: Viên: NGUY NGUYỄN ỄN THỊ HỒNG NGÂN NGUY NGUYỄN ỄN QUỐC HUY Chun Ngành: Ngành: QUẢN LÝ CƠNG Khóa:: K46 Khóa Giảng Viên: Viên: TS Đặng Ngọc Hoàng Thành TP Hồ Chí Minh, Ngày 27 tháng 05 năm 2022   MỤC LỤC MỤC LỤC CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu 1.2 Giới Thiệu Về Python Phần Mềm Orange 1.3 Lý Do Chọn Lựa Đề T Tài ài CHƯƠNG CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu .4 2.1.1 Mô Hình Logistic Regression .4 2.1.2 Mơ Hình Hì nh Decision De cision Tree 2.1.3 Mơ Hình Support Vector Machine 2.1.4 Mơ Hình Neural Network 10 10 2.2 Quy Trình Phân Lớp Dữ Liệu 11 2.2.1 Phân Chia Dữ Liệu 11 11 2.2.2 Phân Lớp Dữ Liệu 13 13 2.2.3 Đánh Giá Tính Hiệu Quả 14 CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 18 3.1 Bộ Dữ Liệu 18 18 3.2 Các Kết Quả Thực Nghiệm 20 3.3 Phân Tích Đánh Giá Gi 22 CHƯƠNG KẾT LUẬN 24 4.1 Các Kết Quả Đạt Đạ t Được .24 .24 4.2 Những Hạn Chế Hướng Phát Triển 26 TÀI LIỆU THAM KHẢO 27 27   CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu Khoa học liệu khoa học nghiên cứu liệu Ngồi ra, khoa học liệu cơng cụ lao động quan trọng kỷ nguyên chuyển đổi số.Vì vậy, từ quan điểm chun mơn, khoa học liệu lĩnh vực nghiên cứu liên ngành tích hợp nhiều loại liệu từ lĩnh vực chun mơn khác nhau, từ khoa học máy tính thống kê đến kiến thức toán học Về quy trình hệ thống trích xuất kiến thức hiểu biết từ dạng liệu khác (có cấu trúc khơng có cấu trúc), tiếp nối số lĩnh vực  phân tích liệu, chẳng c hẳng hạn thống kê khoa học, khai thác liệu, tương tự khai thác kiến thức từ sở liệu Trong khai phá liệu tốn phân lớp (classification) thơng dụng Phân lớp liệu trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp Mơ hình xây dựng dựa tập liệu gán nhãn trước ( thuộc lớp ) Quá trình gán nhãn( thuộc lớp nào) cho đối tượng liệu q trình phân lớp liệu 1.2 Giới Thiệu Về Python Phần Mềm Orange Python ngơn ngữ lập trình hướng đối tượng cấp cao Ngôn ngữ sử dụng để phát triển ứng dụng trang web khác Ngôn ngữ tạo Guido van Rossum vào đầu năm 1991, người phát triển dự án mở trải qua ba phiên lớn Python 1, Python Python 3, với nhiều  bản cập nhật nhỏ dần hoàn thiện chức c hức cú phá Do cấu trúc đơn giản lịch nó, Python lựa chọn hoàn hảo từ chuyên gia hàng đầu người bắt đầu Ngôn ngữ đánh giá cao tính chặt chẽ, sức mạnh tốc độ, tồn tất hệ điều hành trở  thành ngôn ngữ phù hợp với dự án học máy hay trí tuệ nhân tạo (AI) Khi sử dụng   Python có nhiều thời gian nghiên cứu, giải tốn, khơng phải rắc rối với kỹ thuật phức tạp ngôn ngữ, dễ dàng làm việc nhóm dịng lệnh gần với đọc hiểu Phần mềm Orange biết đến với việc tích hợp cơng cụ khai thác liệu máy học đơn giản, thông minh, mã nguồn mở lập trình Python với giao diện trực quan tương tác đơn giản Phần mềm có nhiều chức năng, từ phân tích liệu đơn giản đến phức tạp, tạo biểu đồ đẹp thú vị, đồng thời giúp người dùng thực khai thác liệu học máy dễ dàng 1.3 Lý Do Chọn Lựa Đề Tài Cùng với phát triển kinh tế nhu cầu người ngày tăng cao sản phẩm tiêu dùng ngày Các công ty đặt khách hàng trung tâm để dựa vào đưa doanh nghiệp phát triển phù hợp với thị hiếu người tiêu dùng Các phân khúc thị trường nhắm đến đối tượng khách hàng cần lên kế hoạch chiến lược cụ thể để đạt mục tiêu đề ban đầu Chính lý đó, nhóm chúng em chọn đề tài với mục đích sử dụng thành thành tựu, ứng dụng khoa học liệu để phân tích, đánh giá cách khách quan toán nan giải cho doanh nghiệp hành vi, lựa chọn khách hàng hướng đến để có chiến lược phát triển phù hợp   CHƯƠNG CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu 2.1.1 Mơ Hình Logistic Regression Định nghĩa: Là nghĩa: Là mơ hình xác suất dự đốn giá trị đầu rời rạc từ tập giá trị đầu vào (biểu diễn dạng vector) Một ví dụ điển hình phân loại Email, gồm có email cơng việc, email gia đình, email spam, Giao dịch trực tuyến có an tồn hay khơng an tồn, khối u lành tính hay ác tình Thuật tốn dùng hàm sigmoid logistic để đưa đánh giá theo xác suất Ví dụ: Khối u 80% lành tính, giao dịch 90% gian lận, … Mô tả: Đối tả: Đối với tập phân lớp: Tập””nhãn y = {y1, y2, , yn} với n số lớp Tập Một đối tượng liệu x = {x 1, x2, , xd} với d số thuộc tính dòng liệu  biểu diễn dạng vector vec tor Hàm logistic:   P(y=1) =   −(ww0+w1x1+w2x2+…+wdxd) 1+e−( dự đoán đối tượng xem đối tượng x sở hữu thuộc tính cụ thể thuộc vào lớp y ” Trong đó: d số lượng đặc trưng (thuộc tính) liệu w trọng số, ban đầu khởi tạo ngẫu nhiên, sau điều chỉnh lại cho phù hợp =0  =      =    = 1  +1− Ví dụ: Xét dụ: Xét tốn phân lớp (nhị phân) phân lớp nguy vỡ nợ tập khách hàng cá nhân để giải việc cho vay tiêu dùng:    Biến phân lớ lớpp (biến phụ thuộc): y=1: vỡ nợ; y=0: y=0: không vỡ nợ    Biến độc lập x1, x2, , xd bao gồm: tuổi, học vấn, thu nhập, tài sản,   Hàm logistic (sigmoid): P(y=1) = 1+e−(w0+w1x1+w2x2+…+wdxd)    Một ngưỡng t đđểể phân lớp (nếu P(y) t phân vào lớp vỡ nợ ngược lại) ìm hệ số (trọng số): w0, w 1, w2, , wd phù hợp để ước lượng    Vấn đề: cần ttìm chỉnh ỉnh tron trongg giai đoạn huấn luyện luyện Sau đó,    Bộ hệ số tính tốn điều ch sử dụng q trình đánh giá mơ hình phân lớp liệu   2.1.2 Mơ Hình Decision Tree Định nghĩa: - Trong lý thuyết quản trị, định đồ thị định kết kèm nhằm hỗ trợ trình định - Trong lĩnh vực khai thác liệu, định phương pháp nhằm mơ tả,  phân loại tổng hợp hóa tập liệu cho trước.” Decision Tree phân cấp cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật (Series of Rules) Các thuộc tính đối tượng (ngoại trừ thuộc tính phân lớp - Category attribute) thuộc kiểu liệu khác (Binary, Nominal, ordinal, quantitative values) thuộc tính phân lớp phải có kiểu liệu Binary Ordinal Tóm lại, cho liệu đối tượng gồm thuộc tính với lớp (classes) nó, Decision nó, Decision Tree sẽ Tree sẽ sinh luật để dự đốn lớp liệu chưa biết (unseen data) Decision Tree một phương pháp phân lớp hiệu dễ hiểu nhiên có số ý trình sử dụng để xây dựng mơ hình phân lớp sau: Hiệu phân lớp phụ thuộc lớn vào training data Chẳng hạn Decision Tree tạo giới hạn samples training data hiệu ứng dụng dự đốn trường hợp khơng cao (thường training data phải đủ lớn tin cậy) ta khơng thể nói tập luật (Series of Rules) sinh Decision Tree tập luật tốt   Ưu khuyết điểm Ưu điểm:    Dễ hiểu      Khơng đđịi ịi hỏi việc chuẩn hóa liệu    Có thể xử lý nhiều kiểu liệu khác    Xử lý ttốt ốt lượng liệu lớn thời gian nhắn  Khuyết điểm:    Khó giải quy ết tình tình liệu phụ thuộc thuộc thời gian    Chi pphí hí xây dựng mơ hình cao 2.1.3 Mơ Hình Support Vector Machine SVM thuật toán phân loại nhị phân, nhận liệu vào phân loại chúng vào hai lớp khác SVM xây dựng dựng (learn) (learn) siê siêuu phẳng (hy (hyperp perplan lane) e) để phân lớp (classi (classify) fy) tập liệu thành hai lớp riêng biệt Để làm điều SVM xây dựng siêu phẳng tập hợp siêu phẳng khơng gian nhiều chiều vơ hạn chiều, sử dụng cho phân loại, hồi quy Để phân loại tốt cần phải xác định siêu phẳng (Optimal hyperplane) nằm xa điểm liệu tất lớp (hàm lề) tốt lề lớn sai số tổng qt hóa thuật toán phân loại bé Một siêu phẳng hàm tương tự phương trình đường thẳng y = ax + b  Nếu ta cần phân lớp liệu gồm feature siêu phẳng lúc đường thẳng SVM sử dụng thủ thuật để ánh xạ tập liệu ban đầu vào không gian nhiều chiều Khi ánh xạ sang không gian nhiều chiều, SVM xem xét chọn siêu phẳng phù hợp để phân lớp tập liệu Muốn điểm liệu chia tách cách tuyến tính cần phải chọn hai siêu phẳng lề cho khơng có điểm chúng khoảng cách chúng tối đa Trong nhiều trường hợp, phân chia liệu cách tuyến tính khơng gian ban đầu dùng để mô tả vấn đề Vì nhiều cần phải ánh xạ   điểm liệu không gian ban đầu vào không gian nhiều chiều hơn, để việc  phân tách chúng trở nên dễ dàng không gian Một số khái niệm: - Margin: Margin: khoảng cách siêu phẳng (trong trường hợp không gian chiều đường thẳng) đến điểm liệu gần tương ứng với phân lớp SVM cố gắng tối ưu cách tối cách  tối đa hóa giá hóa  giá trị margin này, margin  này, từ tìm siêu phẳng đẹp để  phân lớp liệu Nhờ vây, SVM giảm thiểu việc phân lớp sai (misclassification) điểm liệu đưa vào - Support Vectors: Vectors: Bài tốn trở thành tìm đường biên lớp liệu cho khoảng cách đường lớn Siêu phẳng cách biên siêu phẳng cần tìm Các điểm màu hồng nằm đường biên (màu xanh nhạt) gọi support vector, chúng có nhiệm vụ hỗ trợ để tìm siêu phẳng (màu xanh đậm) Ví dụ: Bài dụ: Bài tốn không gian hai chiều y: lớp chứa điểm liệu x i Ở ví dụ y mang giá trị -1 (có lớp) xi: vector thực nhiều chiều đại diện cho đối tượng liệu cụ thể Giả sử đường thẳng song song qua support vector lớp liệu là: w1x1 + w 2x2 + b = w1x1 + w 2x2 + b = -1   Viết gọn lại là: wx – b = wx – b = -1 Trong đó: w: vector pháp tuyến Khoảng cách hai đường thẳng margin = 2/ 2   1 + 2 Khi đường thẳng phân cách cần tìm: w 1x1 + w2x2 + b = hay wx – b = Tổng qt hóa khơng gian nhiều chiều - Số” Số ”chiều khơng gian tốn (cịn gọi không gian đặc trưng) tương ứng với số lượng thuộc tính (đặc trưng) đối tượng liệu - Phương trình biểu diễn siêu phẳng cần tìm (hyperlane) không gian đa chiều là:  2|+|     và giá trị margin =  +=0 ‖‖   = ‖‖ - Mục tiêu SVM cần tìm giá trị margin cực đại đồng nghĩa với việc ‖w‖ đạt cực     +  ≥ 1, ∀ = 1,2, …,  tiểu với điều kiện:  - Hàm mục tiêu cần tối ưu norm nên hàm lồi => tốn quy hoạch tồn  phương (Quadratic Programing) Programing).”” Các biến thể SVM  Loại SVM Hard Margin SVM Soft Margin SVM Tính chất   Hai lớp cần phân lớ lớpp phân chia tuyến tính (linearly seperable)   Hai lớp lớp cần phân lớ lớpp là “gần” phân chia tuyến tính tính (almost linear seperable) MultiMul ti-cla class ss SVM Phân Phân lớp đa lớp (biên (biên giữa lớp tuyến tuyến tính) tính) Kernel SVM Dữ liệu phi tuyến   2.2.2 Phân Lớp Dữ Liệu Quá trình phân lớp liệu gồm hai bước chính:  Bước 1:“ 1: “Xây dựng mơ hình (hay cịn gọi giai đoạn “học” “huấn luyện”) - Dữ liệu đầu vào: liệu mẫu gán nhãn tiền xử lý - Các thuật toán phân lớp: định, hàm số toán học, tập luật, - Kết bước là mơ là mơ hình phân lớp đã lớp  đã huấn luyện (trình luyện  (trình phân lớp).” lớp).”  Bước 2:“ 2: “Sử dụng mơ hình chia thành bước nhỏ: + Bước 2.1: Đánh giá mơ hình (kiểm tra tính đắn mơ hình) - Dữ liệu đầu vào: tập liệu mẫu khác gán nhãn tiền xử lý Tuy nhiên lúc đưa vào mơ hình phân lớp, ta “lờ” thuộc tính gán nhãn - Tính đắn mơ hình xác định cách so sánh thuộc tính gán nhãn liệu đầu vào kết phân lớp mơ hình + Bước 2.2: Phân lớp liệu 13   - Dữ liệu đầu vào: liệu “khuyết” thuộc tính cần dự đốn lớp (nhãn) - Mơ hình tự động phân lớp (gán nhãn) cho đối tượng liệu dựa vào huấn luyện bước 2.2.3 Đánh Giá Tính Hiệu Quả Các phương pháp đánh giá mơ hình phân lớp nhằm kiểm tra tính hiệu mơ hình  phân lớp liệu có đặc thù cụ thể, từ định có sử dụng mơ hình hay khơng Một mơ hình lý tưởng mơ hình khơng q đơn giản, khơng q phức tạp không nhạy cảm với nhiễu (tránh underfitted overfitting) Underfitting (chưa khớp): - Mơ hình coi chưa khớp chưa  phù hợp với tập liệu huấn luyện mẫu dự đốn - Ngun nhân mơ hình chưa đủ độ phức tạp cần thiết để bao quát tập liệu - Tồn nhiều điểm liệu mà mơ hình khơng phân loại dẫn đến độ xác mơ hình thấp Overfitting (q khớp): - Overfitting tượng mơ hình tìm khớp với liệu huấn luyện Điều dẫn đến việc dự đốn nhiễu nên mơ hình khơng cịn tốt phân lớp liệu 14   - Quá khớp xảy lượng liệu huấn luyện nhỏ độ phức tạp mơ hình q cao nên độ xác cao mô tả xu hướng tổng quát liệu (còn gọi High Variance) Good Fitting: - Là trường hợp mơ hình cho kết hợp lý với tập liệu huấn luyện giá trị mới, tức mang tính tổng qt - Ngồi thực tế mơ hình tốt mơ hình cho kết hợp lý cách chấp nhận liệu mẫu lẫn liệu - Trong tất giả thiết giải thích tượng, ta nên chọn giả thiết đơn giản (Occam’s razor) - Do đó, tất model “Đúng”, chọn model Đơn Giản a) Ma trận trận nhầ nhầm m lẫn - Ma trận nhầm lẫn ma trận có điểm liệu thực thuộc vào lớp cụ thể, dự đoán rơi vào lớp - Confusion Matrix có kích thước k × k với k số lượng lớp liệu - Giá trị ô (i;j) cho biết số lượng mẫu i bị phân vào lớp j Ví dụ: Bài dụ:  Bài tốn chẩn đốn ung thư ta có lớp: lớp bị ung thư chẩn đoán Positive lớp khơng bị ung thư chẩn đốn Negative 15   TP (True Positive) số lượng dự đốn xác Là mơ hình dự đốn người bị ung thư TN (True Negative) số lượng dự đốn xác cách gián tiếp Là mơ hình dự đốn người không bị ung thư, tức việc chọn trường hợp ung thư xác FP (False Positive - Type Error) Số lượng dự đoán sai lệch mơ hình dự đốn người bị ung thư người hồn tồn khỏe mạnh FN (False Negative - Type Error) Số lượng dự đoán sai lệch cách gián tiếp Là mơ hình dự đốn người khơng bị ung thư người bị ung thư, tức việc khơng chọn trường hợp bị ung thư sai b) Accur Accuracy acy Là tỷ lệ số mẫu phân lớp toàn tập liệu acc = ( TP+TN ) / n => Error rate rate = - acc độ lỗi mơ hình Accuracy cho biết tỷ lệ liệu phân loại mà không cụ thể loại phân loại nào, lớp phân loại nhiều nhất, liệu thuộc lớp thường bị phân loại nhầm vào lớp khác c) Precisi Precision, on, Recall, Recall, F1 – sscore core    Precisi Precision on (độ xác) xác) cho biết tron trongg số m mẫu phân vào lớp i có tỷ lệ mẫu có (tránh nhầm lẫn với tính xác accuracy):  precision = TP/(TP+FP)    Recall (độ phủ) gọi độ phủ hay độ nhạy (sensitivity (sensitivity)) hay TPR (True Positive Positive Rate): 16   recall=TP/(TP+FN)    F1F1-sco score: re: giá trị trung trung bình điều hịa (ha (harmo rmonic nic mean) hai độ đo Precisio Precisionn Recall:  F1 = 2*[(precision x recall)/(precision+recall)] F1 có giá trị gần với giá trị nhỏ hai giá trị Precision Recall F1 có giá trị lớn hai giá trị Precision Recall lớn d) ROC ROC AU AUC C  ROC (Receiver Operating Characteristic) Là đồ thị sử dụng phổ  biến đánh giá mơ hình phân loại nhị  phân Đường cong tạo cách  biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa tỷ lệ dự báo false positive rate (FPR) ngưỡng khác Một mơ hình hiệu có FPR thấp TPR cao, hay ROC tiệm cận với điểm (0;1) đồ thị mơ hình hiệu UC (Area Under the Curve) - Là diện tích nằm đường cong ROC - Giá trị số dương nhỏ  bằng - Giá trị lớn thì mơ hình tốt tốt 17   CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ Dữ Liệu Dựa vào bảng liệu Dataset thể thông tin chi tiết 400 khách hàng cơng ty bao gồm ID, giới tính, độ tuổi khách hàng mức lương Bên cạnh đó, cơng ty thu thập thơng tin liên quan đến định mua - liệu khách hàng có định mua sản phẩm cụ thể hay không Để tiến hành phân lớp liệu đánh giá khách hàng có mua sản phẩm cụ thể ta sử dụng phương pháp: Hồi quy Logistic (Logistic Regression), Cây định (Decision Tree), SVM (Support Vector Machine) Sau dựa vào kết chạy mơ hình Test & Score Confusion Matrix Cuối cùng, dựa vào số liệu để chọn mơ hình tốt để dự báo Để đánh giá định mua sản phẩm cụ thể công ty này, ta dựa vào thành  phần đây: Tổng cộng ta có biến để thực hành mơ hình liệu Ta đánh giá kết mơ hình dựa biến Ở đây, cơng ty thu thập 400 mẫu đưa vào Data sample nhằm tách liệu thành phần ngẫu nhiên theo tỷ lệ train/test (70/30) 18   Sau đó, ta áp dụng phương pháp Hồi quy Logistic, SVM, Cây định để tìm mơ hình tốt để dự báo dựa vào Test & Score Confusion Matrix 19   Sau có kết từ mơ hình lựa chọn mơ hình tối ưu cho việc dự đốn Tiếp tục nối mơ hình chọn Test (30% data lại) vào phương pháp dự đốn để hồn thiện q trình 3.2 Các Kết Quả Thực Nghiệm Sau kết thu từ phương pháp để chọn phương pháp tốt để dự báo khả mua sản phẩm từ 400 khách hàng 20   Test & Score Confusion Matrix 21   3.3 Phân Tích Đánh Giá 22   Theo kết Test & Score, số AUC (Area Under the Curve) mô hình Hồi quy Logistic gần với (0.880) Dựa vào lý thuyết, mơ hình có giá trị dương lớn nhỏ gần có độ xác cao Chỉ số khác mơ hình Hồi quy Logistic CA, F1, Precision, Recall lớn so với mơ hình khác (SVM, Tree) Vì mơ hình Hồi quy Logistic đưa kết luận xác cách hợp lý  Ngồi ra, để mơ hình Hồi quy Logistic mơ hình dự báo hiệu ta dựa vào kết Confusion Confusion Matrix để tính số Precision (Độ xác) Accuracy (Tính xác) từ mơ hình Tree, SVM Logistic Regression: Precision Accuracy Tree 0.655 SVM 0.692 0.745 Logistic Regression 0.731 7 Dựa kết Precision Precision Accuracy cho thấy độ xác tính xác Logistic Regression cao so với Tree SVM Kết luận mơ hình Logistic Regression đem lại tính xác cao 23   CHƯƠNG KẾT LUẬN 4.1 Các Kết Quả Đạt Được 24   25   4.2 Những Hạn Chế Hướng Phát Triển -Hạn chế: chế: phạm vi mẫu liệu hẹp từ công ty (lượng khách hàng, biến không phụ thuộc chưa đa dạng) nên đồ án phản ánh hết tiềm lực, bật công ty để thuyết phục khách hàng định mua sản phẩm Bên cạnh hiểu  biết phần mềm cịn hạn chế định nên cịn nhiều thiếu sót -Hướng phát triển: để triển: để mơ hình liệu hoạt động hiệu cần phải cập nhật yếu tố khác ảnh hưởng đến việc mua hàng (khuyến mãi, quảng cáo),  phản hồi khách hàng mua hàng, từ tính ứng dụng đề tài phát huy tối đa Bên cạnh đó, ta mở rộng mơ hình với phạm vi lớn với nhiều cơng ty khác để có nhìn tổng quát tiềm lực mà công ty sở hữu định đến việc mua sản phẩm khách hàng 26   TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt 1) Luận văn: văn: Nghiên Nghiên cứu ph phân ân lớp ddữữ liệu mấ mấtt cân bằn bằngg ứng dụng 2) Luận văn: văn: Dự báo tăng giảm giảm cảu một mã chứn chứngg khốn mơ tả 3) Luận văn: văn: Dự đoán tươ tương ng tác Pro Protein tein - Protein Protein sử dụn dụngg kỹ thuật thuật khai phá liệu liệu 4) Giáo trình, trình, Slide Slide ggiảng iảng K Khoa hoa học học liệu liệu Website 5)   https://text.123docz.net/document/6938197-nghien-cuu-phan-lop-tren-du-lieu-matcan-bang-va-ung-dung.htm 6)   https://123docz.net/document/9351307-de-ta-i-du-ba-o-su-ta-ng-gia-m-cu-a-mo-t-mahttps://123docz.net/document/9351307-de-ta-i-du-ba-o-su-ta-ng-gia-m-cu-a-mo-t-machu-ng-khoa-n-mo-ta.htm 7)   http://data.uet.vnu.edu.vn:8080/xmlui/bitstream/handle/123456789/1098/1.Lu%e1%b a%adn%20v%c4%83n.pdf?sequence=1 8)   https://www.stdio.vn/computer-vision/gioi-thieu-ve-mo-hinh-svm-D15jcg 27 ... Toán Phân Lớp Dữ Liệu 1.2 Giới Thiệu Về Python Phần Mềm Orange 1.3 Lý Do Chọn Lựa Đề T Tài ài CHƯƠNG CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân. .. đề tài với mục đích sử dụng thành thành tựu, ứng dụng khoa học liệu để phân tích, đánh giá cách khách quan toán nan giải cho doanh nghiệp hành vi, lựa chọn khách hàng hướng đến để có chiến lược... điều khiển tự động, khai phá liệu, nhận dạng, 2.2 Quy Trình Phân Lớp Dữ Liệu 2.2.1 Phân Chia Dữ Liệu *Phương pháp Hold-out: Phương pháp phân chia tập liệu ban đầu thành tập độc lập theo tỷ lệ

Ngày đăng: 01/12/2022, 10:39

Hình ảnh liên quan

sẽ được sử dụng trong q trình đánh giá mơ hình và phân lớp dữ liệu mới. - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

s.

ẽ được sử dụng trong q trình đánh giá mơ hình và phân lớp dữ liệu mới Xem tại trang 6 của tài liệu.
2.1.2. Mơ Hình Decision Tree2.1.2. Mơ Hình Decision Tree - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

2.1.2..

Mơ Hình Decision Tree2.1.2. Mơ Hình Decision Tree Xem tại trang 7 của tài liệu.
2.1.4. Mơ Hình Neural Network 2.1.4. Mơ Hình Neural Network  - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

2.1.4..

Mơ Hình Neural Network 2.1.4. Mơ Hình Neural Network  Xem tại trang 11 của tài liệu.
độ đánh giá của mơ hình. - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

nh.

giá của mơ hình Xem tại trang 13 của tài liệu.
- Kết quả của bước này là mô hình phân lớp  mơ hình phân lớp đã được huấn luyện  đã được huấn luyện  (trình phân lớp) - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

t.

quả của bước này là mô hình phân lớp  mơ hình phân lớp đã được huấn luyện  đã được huấn luyện  (trình phân lớp) Xem tại trang 14 của tài liệu.
- Ngồi thực tế mơ hình tốt là mơ hình cho kết quả- Ngồi thực tế mơ hình tốt là mơ hình cho kết quả hợp lý một cách chấp nhận được trên dữ liệu mẫu lẫnhợp lý một cách chấp nhận được trên dữ liệu mẫu lẫn dữ liệu mới. - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

g.

ồi thực tế mơ hình tốt là mơ hình cho kết quả- Ngồi thực tế mơ hình tốt là mơ hình cho kết quả hợp lý một cách chấp nhận được trên dữ liệu mẫu lẫnhợp lý một cách chấp nhận được trên dữ liệu mẫu lẫn dữ liệu mới Xem tại trang 16 của tài liệu.
- Là trường hợp mơ hình cho ra kết quả hợp lý với cả- Là trường hợp mơ hình cho ra kết quả hợp lý với cả tập dữ liệu huấn luyện và các giá trị mới, tức mangtập dữ liệu huấn luyện và các giá trị mới, tức mang tính tổng quát. - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

tr.

ường hợp mơ hình cho ra kết quả hợp lý với cả- Là trường hợp mơ hình cho ra kết quả hợp lý với cả tập dữ liệu huấn luyện và các giá trị mới, tức mangtập dữ liệu huấn luyện và các giá trị mới, tức mang tính tổng quát Xem tại trang 16 của tài liệu.
mơ hình dự đốn đúng một người bị ung thư. - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

m.

ơ hình dự đốn đúng một người bị ung thư Xem tại trang 17 của tài liệu.
 biến trong trong đánh đánh giá giá các các mô mơ hình hình phân phân loại loại nhị nhị  phân - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

bi.

ến trong trong đánh đánh giá giá các các mô mơ hình hình phân phân loại loại nhị nhị  phân Xem tại trang 18 của tài liệu.
Một mô hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểmMột mơ hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mơ hình càng hiệu quả. - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

t.

mô hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểmMột mơ hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mơ hình càng hiệu quả Xem tại trang 18 của tài liệu.
Dựa vào bảng dữ liệu trong Dataset thể hiện thông tin chi tiết về 400 khách hàng của mộtDựa vào bảng dữ liệu trong Dataset thể hiện thông tin chi tiết về 400 khách hàng của một cơng ty bao gồm ID, giới tính, độ tuổi của khách hàng và mức lương - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

a.

vào bảng dữ liệu trong Dataset thể hiện thông tin chi tiết về 400 khách hàng của mộtDựa vào bảng dữ liệu trong Dataset thể hiện thông tin chi tiết về 400 khách hàng của một cơng ty bao gồm ID, giới tính, độ tuổi của khách hàng và mức lương Xem tại trang 19 của tài liệu.
hình tốt nhất để dự báo dựa vào Test & Score và Confusion Matrix - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

hình t.

ốt nhất để dự báo dựa vào Test & Score và Confusion Matrix Xem tại trang 20 của tài liệu.
Sau khi có được kết quả từ các mơ hình và từ các mơ hình và lựa chọn mơ hình tối ưu nhất cho việc dự lựa chọn mơ hình tối ưu nhất cho việc dự đoán - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

au.

khi có được kết quả từ các mơ hình và từ các mơ hình và lựa chọn mơ hình tối ưu nhất cho việc dự lựa chọn mơ hình tối ưu nhất cho việc dự đoán Xem tại trang 21 của tài liệu.
Theo kết quả của Test & Score, chỉ số AUC (Area Under the Curve) của mô hình Hồi quyTheo kết quả của Test & Score, chỉ số AUC (Area Under the Curve) của mơ hình Hồi quy Logistic gần nhất với 1 (0.880) - PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

heo.

kết quả của Test & Score, chỉ số AUC (Area Under the Curve) của mô hình Hồi quyTheo kết quả của Test & Score, chỉ số AUC (Area Under the Curve) của mơ hình Hồi quy Logistic gần nhất với 1 (0.880) Xem tại trang 24 của tài liệu.