PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

28 3 0
PHÂN TÍCH dữ LIỆU HÀNH VI KHÁCH HÀNG dựa TRÊN bộ dữ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN mềm ORANGE

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

  BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH TRƯỜNG CƠNG NGHỆ VÀ THIẾT KẾ  ĐỒ ÁN MƠN HỌC ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU HÀNH VI KHÁCH HÀNG DỰA TRÊN BỘ DỮ LIỆU CUSTOMER BEHAVIOR BẰNG PHẦN MỀM ORANGE Học phần: phần: Khoa Học Dữ Liệu Nhóm Sinh Viên: Viên: NGUY NGUYỄN ỄN THỊ HỒNG NGÂN NGUY NGUYỄN ỄN QUỐC HUY Chun Ngành: Ngành: QUẢN LÝ CƠNG Khóa:: K46 Khóa Giảng Viên: Viên: TS Đặng Ngọc Hoàng Thành TP Hồ Chí Minh, Ngày 27 tháng 05 năm 2022   MỤC LỤC MỤC LỤC CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu 1.2 Giới Thiệu Về Python Phần Mềm Orange 1.3 Lý Do Chọn Lựa Đề T Tài ài CHƯƠNG CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu .4 2.1.1 Mô Hình Logistic Regression .4 2.1.2 Mơ Hình Hì nh Decision De cision Tree 2.1.3 Mơ Hình Support Vector Machine 2.1.4 Mơ Hình Neural Network 10 10 2.2 Quy Trình Phân Lớp Dữ Liệu 11 2.2.1 Phân Chia Dữ Liệu 11 11 2.2.2 Phân Lớp Dữ Liệu 13 13 2.2.3 Đánh Giá Tính Hiệu Quả 14 CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 18 3.1 Bộ Dữ Liệu 18 18 3.2 Các Kết Quả Thực Nghiệm 20 3.3 Phân Tích Đánh Giá Gi 22 CHƯƠNG KẾT LUẬN 24 4.1 Các Kết Quả Đạt Đạ t Được .24 .24 4.2 Những Hạn Chế Hướng Phát Triển 26 TÀI LIỆU THAM KHẢO 27 27 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu Khoa học liệu khoa học nghiên cứu liệu Ngoài ra, khoa học liệu công cụ lao động quan trọng kỷ nguyên chuyển đổi số.Vì vậy, từ quan điểm chun mơn, khoa học liệu lĩnh vực nghiên cứu liên ngành tích hợp nhiều loại liệu từ lĩnh vực chuyên môn khác nhau, từ khoa học máy tính thống kê đến kiến thức tốn học Về quy trình hệ thống trích xuất kiến thức hiểu biết từ dạng liệu khác (có cấu trúc khơng có cấu trúc), tiếp nối số lĩnh vực  phân tích liệu, chẳng c hẳng hạn thống kê khoa học, khai thác liệu, tương tự khai thác kiến thức từ sở liệu Trong khai phá liệu tốn phân lớp (classification) thơng dụng Phân lớp liệu trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp Mơ hình xây dựng dựa tập liệu gán nhãn trước ( thuộc lớp ) Quá trình gán nhãn( thuộc lớp nào) cho đối tượng liệu q trình phân lớp liệu 1.2 Giới Thiệu Về Python Phần Mềm Orange Python ngôn ngữ lập trình hướng đối tượng cấp cao Ngơn ngữ sử dụng để phát triển ứng dụng trang web khác Ngôn ngữ tạo Guido van Rossum vào đầu năm 1991, người phát triển dự án mở trải qua ba phiên lớn Python 1, Python Python 3, với nhiều  bản cập nhật nhỏ dần hoàn thiện chức c hức cú phá Do cấu trúc đơn giản lịch nó, Python lựa chọn hoàn hảo từ chuyên gia hàng đầu người bắt đầu Ngôn ngữ đánh giá cao tính chặt chẽ, sức mạnh tốc độ, tồn tất hệ điều hành trở  thành ngôn ngữ phù hợp với dự án học máy hay trí tuệ nhân tạo (AI) Khi sử dụng PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   Python có nhiều thời gian nghiên cứu, giải tốn, khơng phải rắc rối với kỹ thuật phức tạp ngôn ngữ, dễ dàng làm việc nhóm dòng lệnh gần với đọc hiểu Phần mềm Orange biết đến với việc tích hợp cơng cụ khai thác liệu máy học đơn giản, thơng minh, mã nguồn mở lập trình Python với giao diện trực quan tương tác đơn giản Phần mềm có nhiều chức năng, từ phân tích liệu đơn giản đến phức tạp, tạo biểu đồ đẹp thú vị, đồng thời giúp người dùng thực khai thác liệu học máy dễ dàng 1.3 Lý Do Chọn Lựa Đề Tài Cùng với phát triển kinh tế nhu cầu người ngày tăng cao sản phẩm tiêu dùng ngày Các công ty đặt khách hàng trung tâm để dựa vào đưa doanh nghiệp phát triển phù hợp với thị hiếu người tiêu dùng Các phân khúc thị trường nhắm đến đối tượng khách hàng cần lên kế hoạch chiến lược cụ thể để đạt mục tiêu đề ban đầu Chính lý đó, nhóm chúng em chọn đề tài với mục đích sử dụng thành thành tựu, ứng dụng khoa học liệu để phân tích, đánh giá cách khách quan tốn nan giải cho doanh nghiệp hành vi, lựa chọn khách hàng hướng đến để có chiến lược phát triển phù hợp PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   CHƯƠNG CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu 2.1.1 Mơ Hình Logistic Regression Định nghĩa: Là nghĩa: Là mơ hình xác suất dự đoán giá trị đầu rời rạc từ tập giá trị đầu vào (biểu diễn dạng vector) Một ví dụ điển hình phân loại Email, gồm có email cơng việc, email gia đình, email spam, Giao dịch trực tuyến có an tồn hay khơng an tồn, khối u lành tính hay ác tình Thuật tốn dùng hàm sigmoid logistic để đưa đánh giá theo xác suất Ví dụ: Khối u 80% lành tính, giao dịch 90% gian lận, … Mô tả: Đối tả: Đối với tập phân lớp: Tập””nhãn y = {y1, y2, , yn} với n số lớp Tập Một đối tượng liệu x = {x 1, x2, , xd} với d số thuộc tính dịng liệu  biểu diễn dạng vector vec tor Hàm logistic: PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   P(y=1) =   −(ww0+w1x1+w2x2+…+wdxd) 1+e−( dự đoán đối tượng xem đối tượng x sở hữu thuộc tính cụ thể thuộc vào lớp y ” Trong đó: d số lượng đặc trưng (thuộc tính) liệu w trọng số, ban đầu khởi tạo ngẫu nhiên, sau điều chỉnh lại cho phù hợp =0  =      =    = 1  +1− Ví dụ: Xét dụ: Xét tốn phân lớp (nhị phân) phân lớp nguy vỡ nợ tập khách hàng cá nhân để giải việc cho vay tiêu dùng:    Biến phân lớ lớpp (biến phụ thuộc): y=1: vỡ nợ; y=0: y=0: không vỡ nợ    Biến độc lập x1, x2, , xd bao gồm: tuổi, học vấn, thu nhập, tài sản,   Hàm logistic (sigmoid): P(y=1) = 1+e−(w0+w1x1+w2x2+…+wdxd)    Một ngưỡng t đđểể phân lớp (nếu P(y) t phân vào lớp vỡ nợ ngược lại) ìm hệ số (trọng số): w0, w 1, w2, , wd phù hợp để ước lượng    Vấn đề: cần ttìm chỉnh ỉnh tron trongg giai đoạn huấn luyện luyện Sau đó,    Bộ hệ số tính tốn điều ch sử dụng q trình đánh giá mơ hình phân lớp liệu PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   2.1.2 Mơ Hình Decision Tree Định nghĩa: - Trong lý thuyết quản trị, định đồ thị định kết kèm nhằm hỗ trợ trình định - Trong lĩnh vực khai thác liệu, định phương pháp nhằm mô tả,  phân loại tổng hợp hóa tập liệu cho trước.” Decision Tree phân cấp cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật (Series of Rules) Các thuộc tính đối tượng (ngoại trừ thuộc tính phân lớp - Category attribute) thuộc kiểu liệu khác (Binary, Nominal, ordinal, quantitative values) thuộc tính phân lớp phải có kiểu liệu Binary Ordinal Tóm lại, cho liệu đối tượng gồm thuộc tính với lớp (classes) nó, Decision nó, Decision Tree sẽ Tree sẽ sinh luật để dự đoán lớp liệu chưa biết (unseen data) Decision Tree một phương pháp phân lớp hiệu dễ hiểu nhiên có số ý trình sử dụng để xây dựng mơ hình phân lớp sau: Hiệu phân lớp phụ thuộc lớn vào training data Chẳng hạn Decision Tree tạo giới hạn samples training data hiệu ứng dụng dự đốn trường hợp khơng cao (thường training data phải đủ lớn tin cậy) ta khơng thể nói tập luật (Series of Rules) sinh Decision Tree tập luật tốt   Ưu khuyết điểm Ưu điểm:    Dễ hiểu PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE      Khơng đđịi òi hỏi việc chuẩn hóa liệu    Có thể xử lý nhiều kiểu liệu khác    Xử lý ttốt ốt lượng liệu lớn thời gian nhắn  Khuyết điểm:    Khó giải quy ết tình tình liệu phụ thuộc thuộc thời gian    Chi pphí hí xây dựng mơ hình cao 2.1.3 Mơ Hình Support Vector Machine SVM thuật toán phân loại nhị phân, nhận liệu vào phân loại chúng vào hai lớp khác SVM xây dựng dựng (learn) (learn) siê siêuu phẳng (hy (hyperp perplan lane) e) để phân lớp (classi (classify) fy) tập liệu thành hai lớp riêng biệt Để làm điều SVM xây dựng siêu phẳng tập hợp siêu phẳng không gian nhiều chiều vô hạn chiều, sử dụng cho phân loại, hồi quy Để phân loại tốt cần phải xác định siêu phẳng (Optimal hyperplane) nằm xa điểm liệu tất lớp (hàm lề) tốt lề lớn sai số tổng quát hóa thuật tốn phân loại bé Một siêu phẳng hàm tương tự phương trình đường thẳng y = ax + b  Nếu ta cần phân lớp liệu gồm feature siêu phẳng lúc đường thẳng SVM sử dụng thủ thuật để ánh xạ tập liệu ban đầu vào không gian nhiều chiều Khi ánh xạ sang không gian nhiều chiều, SVM xem xét chọn siêu phẳng phù hợp để phân lớp tập liệu Muốn điểm liệu chia tách cách tuyến tính cần phải chọn hai siêu phẳng lề cho điểm chúng khoảng cách chúng tối đa Trong nhiều trường hợp, phân chia liệu cách tuyến tính khơng gian ban đầu dùng để mô tả vấn đề Vì nhiều cần phải ánh xạ PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   điểm liệu không gian ban đầu vào không gian nhiều chiều hơn, để việc  phân tách chúng trở nên dễ dàng không gian Một số khái niệm: - Margin: Margin: khoảng cách siêu phẳng (trong trường hợp không gian chiều đường thẳng) đến điểm liệu gần tương ứng với phân lớp SVM cố gắng tối ưu cách tối cách  tối đa hóa giá hóa  giá trị margin này, margin  này, từ tìm siêu phẳng đẹp để  phân lớp liệu Nhờ vây, SVM giảm thiểu việc phân lớp sai (misclassification) điểm liệu đưa vào - Support Vectors: Vectors: Bài toán trở thành tìm đường biên lớp liệu cho khoảng cách đường lớn Siêu phẳng cách biên siêu phẳng cần tìm Các điểm màu hồng nằm đường biên (màu xanh nhạt) gọi support vector, chúng có nhiệm vụ hỗ trợ để tìm siêu phẳng (màu xanh đậm) Ví dụ: Bài dụ: Bài tốn khơng gian hai chiều y: lớp chứa điểm liệu x i Ở ví dụ y mang giá trị -1 (có lớp) xi: vector thực nhiều chiều đại diện cho đối tượng liệu cụ thể Giả sử đường thẳng song song qua support vector lớp liệu là: w1x1 + w 2x2 + b = w1x1 + w 2x2 + b = -1 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   Viết gọn lại là: wx – b = wx – b = -1 Trong đó: w: vector pháp tuyến Khoảng cách hai đường thẳng margin = 2/ 2   1 + 2 Khi đường thẳng phân cách cần tìm: w 1x1 + w2x2 + b = hay wx – b = Tổng quát hóa không gian nhiều chiều - Số” Số ”chiều khơng gian tốn (cịn gọi khơng gian đặc trưng) tương ứng với số lượng thuộc tính (đặc trưng) đối tượng liệu - Phương trình biểu diễn siêu phẳng cần tìm (hyperlane) khơng gian đa chiều là:  2|+|     và giá trị margin =  +=0 ‖‖   = ‖‖ - Mục tiêu SVM cần tìm giá trị margin cực đại đồng nghĩa với việc ‖w‖ đạt cực     +  ≥ 1, ∀ = 1,2, …,  tiểu với điều kiện:  - Hàm mục tiêu cần tối ưu norm nên hàm lồi => tốn quy hoạch tồn  phương (Quadratic Programing) Programing).”” Các biến thể SVM  Loại SVM Hard Margin SVM Soft Margin SVM Tính chất   Hai lớp cần phân lớ lớpp phân chia tuyến tính (linearly seperable)   Hai lớp lớp cần phân lớ lớpp là “gần” phân chia tuyến tính tính (almost linear seperable) MultiMul ti-cla class ss SVM Phân Phân lớp đa lớp (biên (biên giữa lớp tuyến tuyến tính) tính) Kernel SVM Dữ liệu phi tuyến PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   2.2.2 Phân Lớp Dữ Liệu Quá trình phân lớp liệu gồm hai bước chính:  Bước 1:“ 1: “Xây dựng mơ hình (hay cịn gọi giai đoạn “học” “huấn luyện”) - Dữ liệu đầu vào: liệu mẫu gán nhãn tiền xử lý - Các thuật toán phân lớp: định, hàm số toán học, tập luật, - Kết bước là mơ là mơ hình phân lớp đã lớp  đã huấn luyện (trình luyện  (trình phân lớp).” lớp).”  Bước 2:“ 2: “Sử dụng mơ hình chia thành bước nhỏ: + Bước 2.1: Đánh giá mơ hình (kiểm tra tính đắn mơ hình) - Dữ liệu đầu vào: tập liệu mẫu khác gán nhãn tiền xử lý Tuy nhiên lúc đưa vào mơ hình phân lớp, ta “lờ” thuộc tính gán nhãn - Tính đắn mơ hình xác định cách so sánh thuộc tính gán nhãn liệu đầu vào kết phân lớp mơ hình + Bước 2.2: Phân lớp liệu 13 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   - Dữ liệu đầu vào: liệu “khuyết” thuộc tính cần dự đốn lớp (nhãn) - Mơ hình tự động phân lớp (gán nhãn) cho đối tượng liệu dựa vào huấn luyện bước 2.2.3 Đánh Giá Tính Hiệu Quả Các phương pháp đánh giá mơ hình phân lớp nhằm kiểm tra tính hiệu mơ hình  phân lớp liệu có đặc thù cụ thể, từ định có sử dụng mơ hình hay khơng Một mơ hình lý tưởng mơ hình khơng q đơn giản, khơng q phức tạp không nhạy cảm với nhiễu (tránh underfitted overfitting) Underfitting (chưa khớp): - Mơ hình coi chưa khớp chưa  phù hợp với tập liệu huấn luyện mẫu dự đốn - Ngun nhân mơ hình chưa đủ độ phức tạp cần thiết để bao quát tập liệu - Tồn nhiều điểm liệu mà mơ hình khơng phân loại dẫn đến độ xác mơ hình thấp Overfitting (q khớp): - Overfitting tượng mơ hình tìm khớp với liệu huấn luyện Điều dẫn đến việc dự đốn nhiễu nên mơ hình khơng tốt phân lớp liệu 14 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   - Quá khớp xảy lượng liệu huấn luyện nhỏ độ phức tạp mơ hình q cao nên độ xác cao khơng thể mơ tả xu hướng tổng quát liệu (còn gọi High Variance) Good Fitting: - Là trường hợp mô hình cho kết hợp lý với tập liệu huấn luyện giá trị mới, tức mang tính tổng qt - Ngồi thực tế mơ hình tốt mơ hình cho kết hợp lý cách chấp nhận liệu mẫu lẫn liệu - Trong tất giả thiết giải thích tượng, ta nên chọn giả thiết đơn giản (Occam’s razor) - Do đó, tất model “Đúng”, chọn model Đơn Giản a) Ma trận trận nhầ nhầm m lẫn - Ma trận nhầm lẫn ma trận có điểm liệu thực thuộc vào lớp cụ thể, dự đoán rơi vào lớp - Confusion Matrix có kích thước k × k với k số lượng lớp liệu - Giá trị ô (i;j) cho biết số lượng mẫu i bị phân vào lớp j Ví dụ: Bài dụ:  Bài tốn chẩn đốn ung thư ta có lớp: lớp bị ung thư chẩn đoán Positive lớp khơng bị ung thư chẩn đốn Negative 15 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   TP (True Positive) số lượng dự đốn xác Là mơ hình dự đốn người bị ung thư TN (True Negative) số lượng dự đốn xác cách gián tiếp Là mơ hình dự đốn người khơng bị ung thư, tức việc chọn trường hợp ung thư xác FP (False Positive - Type Error) Số lượng dự đốn sai lệch mơ hình dự đốn người bị ung thư người hồn toàn khỏe mạnh FN (False Negative - Type Error) Số lượng dự đoán sai lệch cách gián tiếp Là mơ hình dự đốn người khơng bị ung thư người bị ung thư, tức việc không chọn trường hợp bị ung thư sai b) Accur Accuracy acy Là tỷ lệ số mẫu phân lớp toàn tập liệu acc = ( TP+TN ) / n => Error rate rate = - acc độ lỗi mô hình Accuracy cho biết tỷ lệ liệu phân loại mà không cụ thể loại phân loại nào, lớp phân loại nhiều nhất, liệu thuộc lớp thường bị phân loại nhầm vào lớp khác c) Precisi Precision, on, Recall, Recall, F1 – sscore core    Precisi Precision on (độ xác) xác) cho biết tron trongg số m mẫu phân vào lớp i có tỷ lệ mẫu có (tránh nhầm lẫn với tính xác accuracy):  precision = TP/(TP+FP)    Recall (độ phủ) gọi độ phủ hay độ nhạy (sensitivity (sensitivity)) hay TPR (True Positive Positive Rate): 16 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   recall=TP/(TP+FN)    F1F1-sco score: re: giá trị trung trung bình điều hòa (ha (harmo rmonic nic mean) hai độ đo Precisio Precisionn Recall:  F1 = 2*[(precision x recall)/(precision+recall)] F1 có giá trị gần với giá trị nhỏ hai giá trị Precision Recall F1 có giá trị lớn hai giá trị Precision Recall lớn d) ROC ROC AU AUC C  ROC (Receiver Operating Characteristic) Là đồ thị sử dụng phổ  biến đánh giá mơ hình phân loại nhị  phân Đường cong tạo cách  biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa tỷ lệ dự báo false positive rate (FPR) ngưỡng khác Một mơ hình hiệu có FPR thấp TPR cao, hay ROC tiệm cận với điểm (0;1) đồ thị mơ hình hiệu UC (Area Under the Curve) - Là diện tích nằm đường cong ROC - Giá trị số dương nhỏ  bằng - Giá trị lớn thì mơ hình tốt tốt 17 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ Dữ Liệu Dựa vào bảng liệu Dataset thể thông tin chi tiết 400 khách hàng cơng ty bao gồm ID, giới tính, độ tuổi khách hàng mức lương Bên cạnh đó, cơng ty thu thập thông tin liên quan đến định mua - liệu khách hàng có định mua sản phẩm cụ thể hay không Để tiến hành phân lớp liệu đánh giá khách hàng có mua sản phẩm cụ thể ta sử dụng phương pháp: Hồi quy Logistic (Logistic Regression), Cây định (Decision Tree), SVM (Support Vector Machine) Sau dựa vào kết chạy mơ hình Test & Score Confusion Matrix Cuối cùng, dựa vào số liệu để chọn mô hình tốt để dự báo Để đánh giá định mua sản phẩm cụ thể công ty này, ta dựa vào thành  phần đây: Tổng cộng ta có biến để thực hành mơ hình liệu Ta đánh giá kết mơ hình dựa biến Ở đây, công ty thu thập 400 mẫu đưa vào Data sample nhằm tách liệu thành phần ngẫu nhiên theo tỷ lệ train/test (70/30) 18 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   Sau đó, ta áp dụng phương pháp Hồi quy Logistic, SVM, Cây định để tìm mơ hình tốt để dự báo dựa vào Test & Score Confusion Matrix 19 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   Sau có kết từ mơ hình lựa chọn mơ hình tối ưu cho việc dự đốn Tiếp tục nối mơ hình chọn Test (30% data cịn lại) vào phương pháp dự đốn để hồn thiện q trình 3.2 Các Kết Quả Thực Nghiệm Sau kết thu từ phương pháp để chọn phương pháp tốt để dự báo khả mua sản phẩm từ 400 khách hàng 20 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   Test & Score Confusion Matrix 21 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   3.3 Phân Tích Đánh Giá 22 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   Theo kết Test & Score, số AUC (Area Under the Curve) mơ hình Hồi quy Logistic gần với (0.880) Dựa vào lý thuyết, mơ hình có giá trị dương lớn nhỏ gần có độ xác cao Chỉ số khác mơ hình Hồi quy Logistic CA, F1, Precision, Recall lớn so với mơ hình khác (SVM, Tree) Vì mơ hình Hồi quy Logistic đưa kết luận xác cách hợp lý  Ngồi ra, để mơ hình Hồi quy Logistic mơ hình dự báo hiệu ta dựa vào kết Confusion Confusion Matrix để tính số Precision (Độ xác) Accuracy (Tính xác) từ mơ hình Tree, SVM Logistic Regression: Precision Accuracy Tree 0.655 SVM 0.692 0.745 Logistic Regression 0.731 7 Dựa kết Precision Precision Accuracy cho thấy độ xác tính xác Logistic Regression cao so với Tree SVM Kết luận mơ hình Logistic Regression đem lại tính xác cao 23 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   CHƯƠNG KẾT LUẬN 4.1 Các Kết Quả Đạt Được 24 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   25 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE   4.2 Những Hạn Chế Hướng Phát Triển -Hạn chế: chế: phạm vi mẫu liệu hẹp từ công ty (lượng khách hàng, biến không phụ thuộc chưa đa dạng) nên đồ án phản ánh hết tiềm lực, bật công ty để thuyết phục khách hàng định mua sản phẩm Bên cạnh hiểu  biết phần mềm hạn chế định nên nhiều thiếu sót -Hướng phát triển: để triển: để mơ hình liệu hoạt động hiệu cần phải cập nhật yếu tố khác ảnh hưởng đến việc mua hàng (khuyến mãi, quảng cáo),  phản hồi khách hàng mua hàng, từ tính ứng dụng đề tài phát huy tối đa Bên cạnh đó, ta mở rộng mơ hình với phạm vi lớn với nhiều công ty khác để có nhìn tổng qt tiềm lực mà công ty sở hữu định đến việc mua sản phẩm khách hàng 26 PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE PHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGEPHAN.TICH.du.LIEU.HANH.VI.KHACH.HANG.dua.TREN.bo.du.LIEU.CUSTOMER.BEHAVIOR.BANG.PHAN.mem.ORANGE

Ngày đăng: 24/12/2023, 10:44

Tài liệu cùng người dùng

  • Đang cập nhật ...