Untitled CHƯƠNG 1 TỔNG QUAN 2 1 1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu 2 1 2 Giới Thiệu Về Python và Phần Mềm Orange 2 bỏ mô hình 1 3 Lý Do Chọn Lựa Đề Tài 2 sửa lại CHƯƠNG 2 CÁC MÔ HÌNH PHÂN LỚP DỮ[.]
lOMoARcPSD|18034504 CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu 1.2 Giới Thiệu Về Python Phần Mềm Orange bỏ mơ hình 1.3 Lý Do Chọn Lựa Đề Tài sửa lại CHƯƠNG CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu 2.1.1 Mơ Hình Logistic Regression 2.1.2 Mơ Hình Decision Tree 2.1.3 Mơ Hình Support Vector Machine 2.1.4 Mơ Hình Neural Network 2.2 Quy Trình Phân Lớp Dữ Liệu 2.2.1 Phân Chia Dữ Liệu 2.2.2 Phân Lớp Dữ Liệu 2.2.3 Đánh Giá Tính Hiệu Quả CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ Dữ Liệu lOMoARcPSD|18034504 3.2 Các Kết Quả Thực Nghiệm chấm tròn 3.3 Phân Tích Đánh Giá test score, matrix CHƯƠNG KẾT LUẬN 4.1 Các Kết Quả Đạt Được dựa chấm trịn viết (khơng ảnh hưởng đến độ tuổi, thu nhập -> điều chinhr để đạt kết tốt hơn) 4.2 Những Hạn Chế Hướng Phát Triển TÀI LIỆU THAM KHẢO lOMoARcPSD|18034504 CHƯƠNG 1: TỔNG QUAN Tổng quan toán phân lớp liệu: 1.1.1 Định nghĩa Phân lớp liệu trình phân đối tượng liệu vào hay nhiều lớp cho trước nhờ mơ hình phân lớp Mơ hình xây dựng tệp liệu gán nhãn Khoa học liệu thuật ngữ bước xâm nhập vào Việt Nam dần trở thành xu hướng doanh nghiệp hướng tới nhằm đẩy mạnh hoạt động kinh doanh việc sử dụng thơng tin phân tích cơng nghệ mang lại Khi cách mạng công nghiệp 4.0 bùng nổ, quốc gia doanh nghiệp phải dựa nhiều vào khoa học công nghệ liệu Trong chạy đua cơng nghệ số, người thắng người làm chủ nguồn liệu lớn Bằng cách phân tích liệu hay liệu lớn, người có lượng kiến thức hiểu rõ hoạt động khứ ghi nhận lại đưa lời khuyên, kết luận cuối cho tương lai Khoa học liệu khoa học việc quản trị phân tích liệu để tìm hiểu biết, tri thức hành động, định dẫn dắt hành động Khoa học liệu gồm ba phần chính: Tạo quản trị liệu, phân tích liệu, chuyển kết phân tích thành giá trị hành động Phân lớp nhiệm vụ yêu cầu sử dụng thuật toán học máy để học cách gán nhãn lớp cho mẫu Một ví dụ dễ hiểu phân lớp email “spam” “khơng phải spam” Có nhiều loại nhiệm vụ phân lớp khác mà gặp phải phương pháp tiếp cận chun biệt để lập mơ hình sử dụng cho loại Thực tế đặt nhu cầu từ sở liệu với nhiều thơng tin ẩn người rút định nghiệp vụ thông minh Phân lớp dạng phân tích liệu nhằm trích rút mơ hình mơ tả lớp liệu quan trọng hay dự đoán xu hướng liệu tương lai Phân lớp dự đoán giá trị nhãn xác định hay giá trị rời rạc, có nghĩa thao tác với đối tượng liệu mà có giá trị biết trước Ví dụ, có mơ hình phân lớp dự báo thời tiết cho biết ngày mai mưa hay nắng dựa vào thông số độ ẩm, sức gió, nhiệt độ,…của ngày hơm ngày trước Hay từ số liệu mua hàng khách hàng tháng trước mà nhân viên chủ cửa hàng đưa định đắn lượng mặt hàng nhập vào bán tháng Bài toán phân lớp liệu thu hút quan tâm nhà nghiên cứu nhiều lĩnh vực khác như: học máy ( machine learning), hệ chuyên gia (expert system), thống kê (statistics), thương mại, marketing, nghiên cứu thị trường,… 1.1.2 Quy trình phân lớp lOMoARcPSD|18034504 Bước 1: Xây dựng mơ hình Bước 2: Sử dụng mơ hình chia thành bước nhỏ + Đánh giá mơ hình + Phân lớp liệu Sau chạy thuật toán liệu tạo mơ hình phân lớp Tiếp đánh giá mơ hình cuối phân lớp liệu 1.1.3 Một số phương pháp phân lớp bản: - Hồi quy Logistic (Logistic Regresion): mơ hình xác suất dự đốn gái trị đầu rời rạc từ tập giá trị đầu vào, biểu diễn dạng vector - Cây định (Decision Tree): đồ thị định kết kèm nhằm hỗ trợ trình định, mơ tả, phân loại tổng qt hóa liệu cho trước Mơ hình decision tree cho phép có nhiều kết + Ưu điểm: - Dễ hiểu - Khơng cần chuẩn hóa liệu - Xử lý nhiều liệu khác - Xử lý tốt liệu thời gian ngắn + Nhược điểm: - Chi phí xây dựng mơ hình cao - Khó giải tình trạng liệu phụ thuộc thời gian Support Vector Machine ( SVM): thuật tốn có giám sát, SVM nhận liệu vào, xem chúng vector không gian phân loại chúng vào lớp khác cách xây dựng siêu phẳng không gian nhiều chiều Để tối ưu hóa kết quả, ta xác định mặt phẳng siêu phẳng (hyperplane) có khoảng cách đến điểm liệu (margin) tất lớp xa + Ưu điểm: - Tiết kiệm nhớ, chạy nhanh - Sử dụng không gian nhiều chiều - Linh hoạt: phân lớp tuyến tính phi tuyến + Nhược điểm: - Trong trường hợp liệu lớn kết chưa tốt - Chưa thể tính xác suất phân loại 1.2 Giới Thiệu Về Python Phần Mềm Orange Khai phá liệu (Data Mining) lĩnh vực khó để khám phá nghiên cứu Do đó, nhiều phần mềm đời với mục tiêu giúp cho người dùng dễ dàng nghiên cứu toán lĩnh vực khó nhằn Một phần mềm kể đến Orange Phần mềm Orange biết đến việc tích hợp cơng cụ khai phá liệu mã nguồn mở học máy thông minh, đơn giản, lập trình Python với giao diện trực quan tương tác dễ dàng Với nhiều chức năng, phần mềm phân tích liệu từ đơn giản đến phức tạp, tạo đồ họa đẹp mắt thú vị lOMoARcPSD|18034504 giúp việc khai thác liệu học máy trở nên dễ dàng cho người dùng chuyên gia Hệ thống Orange gọi Widget, bao gồm từ việc trực quan hóa liệu đơn giản, lựa chọn tập xử lý trước, đến việc đánh giá thực nghiệm thuật tốn mơ hình dự đốn - Nhóm Data: Dùng để rút trích, biến đổi, nạp liệu (ETL process) - Nhóm Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát liệu tốt - Nhóm Model: gồm hàm máy học (machine learning) phân lớp liệu với Tree, Logictis Regression, SVM - Nhóm Evaluate: Là phương pháp đánh giá mơ : Test& Score, Prediction, Confusion - Nhóm Unsupervised: Gồm hàm máy học (machine learing) gom nhóm liệu như: Distance, K-means, 1.3 Lý chọn lựa đề tài Ngày nay, phần lớn giao dịch mua thực trực tuyến, số tăng lên đáng kể Khi số lượng người dùng internet tăng lên công ty công nghệ phát triển nhiều cách để tích hợp giới trực tuyến vào mua sắm, bán lẻ trực tuyến dự kiến phát triển theo cấp số nhân Về mặt logic, nhiều định mua hàng người tiêu dùng thực trực tuyến người dành phần lớn thời gian trực tuyến mạng xã hội Social Network hay truyền thông mạng xã hội xem mảng vô quan trọng tiếp thị trực tuyến Các doanh nghiệp giới chi hàng tỷ đô để thực chiến dịch marketing đưa sản phẩm dịch vụ đến gần với khách hàng Trong năm gần đây, truyền thông mạng xã hội – Social Network trở thành mối quan tâm hàng đầu cho doanh nghiệp Bạn có biết ngày người dành 50% thời gian ngày để lên mạng xã hội như: Facebook, Instagram, Twitter…để giải trí, mua sắm làm việc Chính thế, mạng xã từ lâu trở thành kênh quảng bá quan trọng cho nhiều doanh nghiệp Với tò mị muốn hiểu mơ hình quảng cáo này, nhóm chúng em định tìm hiểu nghiên cứu tính hiệu định người tiêu dùng tảng quảng cáo Đề tài mà nhóm chúng em chọn để thực cho dự án cuối kì mơn Khoa học liệu “Phân tích khả khách hàng định mua sản phẩm quảng cáo mạng xã hội” CHƯƠNG 2: CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các mơ hình phân lớp liệu 2.1.1 Hồi quy logistic lOMoARcPSD|18034504 Định nghĩa: Là mơ hình xác suất dự đoán giá trị đầu rời rạc từ tập giá trị đầu vào (biểu diễn dạng vector) Mơ tả: Đối với tốn phân lớp: Tập nhãn y = {y1, y2, , yn} với n số lớp Một đối tượng liệu x = {x1, x2, xn} với d số thuộc tính dòng liệu biểu diễn dạng vector Hàm logistic P (cơng thức) dự đốn đối tượng, xem đối tượng x sở hữu thuộc tính cụ thể thuộc vào lớp y Trong đó: d: số lượng đặc trưng (thuộc tính) liệu w: trọng số, ban đầu khởi tạo ngẫu nhiên, sau điều chỉnh lại cho phù hợp z = wixi P(y) = sigmoid = công thức 2.1.2 Cây định Định nghĩa : - Trong lý thuyết quản trị, định đồ thị định kết kèm nhằm hỗ trợ trình định - Trong lĩnh vực khai phá liệu, định phương pháp nhằm mô tả, phân loại tổng quát hóa tập liệu cho trước lOMoARcPSD|18034504 Ưu điểm: - Dễ hiểu Khơng địi hỏi việc chuẩn hóa liệu Có thể xử lý nhiều kiểu liệu khác Xử lý tốt lượng liệu lớn thời gian ngắn Nhược điểm: - Khó giải tình liệu phụ thời gian Chi phí xây dựng mơ hình cao 2.1.3 Support vector machine (SVM) Là thuật tốn có giám sát, SVM nhận liệu vào, xem chúng vector không gian phân loại chúng vào lớp khác cách xây dựng siêu phẳng không gian nhiều chiều làm mặt phân cách lớp liệu Để tối ưu kết hợp phân lớp phải xác định siêu phẳng (hyperplane) có khoảng cách đến điểm liệu tất lớp xa Một số khái niệm: Margin: khoảng cách rửa siêu phẳng (trong trường hợp không gian hai chiều đường thẳng) đến hai điểm liệu gần tương ứng với hai phân lớp SVM cố gắng tối ưu cách tối đa hóa giá trị margin này, từ tìm siêu phẳng đẹp để phân hai lớp liệu Do vậy, SVM giảm thiểu việc phân lớp sai điểm liệu đưa vào Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Support Vectors: - Bài tốn trở thành tìm hai đường biên hai lớp liệu cho khoảng cách hai đường lớn Siêu phẳng cách hai biên siêu phẳng cần tìm - Các điểm xanh, đỏ nằm hai đường biên gọi support vector chúng có nhiệm vụ hỗ trợ để tìm siêu phẳng Tổng qt hố khơng gian nhiều chiều: - Số chiều không gian tốn (cịn gọi khơng gian đặc trưng) tương ứng với số lượng thuộc tính (đặc trưng) đối tượng liệu Phương trình biểu diễn siêu phẳng cần tìm (hyperlane) khơng gian đa chiều là: wTx - b = giá trị margin = công thức Mục tiêu SVM cần tìm giá trị cực đại đồng nghĩa với việc ||w|| đạt cực tiểu với điều kiện: yn(wTxn+b) 1, = 1,2, , N Hai mục tiêu cần tối ưu nên hàm lồi tốn quy hoạch tồn phương (quadratic Programing) Các biến thể SVM: Loại SVM Hard Margin SVM Hai lớp cần phân lớp phân chia tuyến tính ( linearly separable) Soft Margin SVM Hai lớp cần phân lớp “gần” phân chia Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 tuyến tính (almost linear separable) Multi-class SVM Phân lớp đa lớp ( biên lớp tuyến tính Kernel SVM Dữ liệu phi tuyến Ưu điểm: - Tiết kiệm nhớ (do trình test cần so điểm liệu với mặt siêu phẳng tìm mà khơng cần tính tốn lại) Linh hoạt: vừa phân lớp tuyến tính phi tuyến tính (sử dụng kernel khác nhau) Xử lý không gian nhiều chiều Nhược điểm: - Trong trường hợp số chiều liệu lớn số dòng liệu SVM cho biết kết khơng tốt Chưa thể tính xác suất phân lớp 2.1.4 Mơ hình Neural Network Định nghĩa: chuỗi thuật tốn đưa để tìm kiếm mối quan hệ tập hợp liệu Chúng dựa mơ hình hoạt động tế bào thần kinh khớp thần kinh não người Neural Network có khả thích ứng với thay đổi từ đầu vào Do vậy, đưa kết cách tốt mà bạn khơng cần phải thiết kế lại tiêu chí đầu Thành phần: - Dữ liệu đầu vào – input layer - Lớp ẩn – hidden layers - Dữ liệu đầu – output layer Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 2.2 Quy trình phân lớp liệu 2.2.1 Phân chia liệu Phương pháp phân chia liệu Hold-out - Phân chia tập liệu ban đầu thành phần độc lập theo tỷ lệ định Thích hợp cho tập liệu nhỏ Tuy nhiên, mẫu khơng đại diện cho tồn liệu Có thể cải tiến cách dùng phương pháp lấy mẫu cho lớp phân bố hai tập liệu huấn luyện đánh giá Cho hiệu tốt tập liệu lớn Tuy nhiên, tập liệu nhỏ vừa phải, hiệu mơ hình sử dụng phương pháp phụ thuộc nhiều vào cách trị tỷ lệ chi liệu Phương pháp K-Fold Cross Validation - Phân chia liệu thành k tập có kích thước Một fold Được sử dụng làm tập liệu đánh giá phần lại sử dụng làm tập huấn luyện Quá trình lập lại tất fold dùng làm tập liệu đánh giá Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Được sử dụng nhiều mơ hình huấn luyện đánh giá nhiều phần liệu khác Từ tăng độ tin cậy cho đánh giá mơ hình 2.2.2 Phân lớp liệu Bước 1: Xây dựng mơ hình (hay cịn gọi giai đoạn “học” “huấn luyện”) - Dữ liệu đầu vào liệu mẫu dán nhãn gián tiền xử lý Các thuật toán phân lớp: định, hàm số toán học, tập luật… Kết bước mơ hình phân lớp huấn luyện (trình phân lớp) Bước 2: Sử dụng mơ hình chia thành hai bước nhỏ - - Đánh giá mơ hình (kiểm tra tính đắn mơ hình) - Dữ liệu đầu vào tập liệu mẫu khác dán nhãn tiền xử lý nhiên lúc đưa vào mơ hình phân lớp, ta lờ thuộc tính dán nhãn - Tính đắn mơ hình xác định cách so sánh thuộc tính dán nhãn liệu đầu vào kết phân lớp mơ hình Phân lớp liệu - Dữ liệu đầu vào liệu khuyết thuộc tính cịn dự đốn lớp (nhãn) - Mơ hình tự động phân lớp (gán nhãn) cho đối tượng liệu dựa vào huấn luyện bước 2.2.3 Đánh giá tính hiệu Các phương pháp đánh giá mơ hình phân lớp phương pháp nhằm kiểm tra tính hiệu mơ hình phân lớp liệu có đặc thù cụ thể, từ định có sử dụng mơ hình khơng Một mơ hình lý tưởng mơ hình khơng q đơn giản, không phức tạp không nhạy cảm với nhiễu (tránh underfitting overfitting) Underfitting (chưa khớp): - Mô hình coi chưa khớp chưa phù hợp với tập liệu huấn luyện mẫu dự đốn Ngun nhân mơ hình chưa đủ độ phức tạp cần thiết để bao quát tạp liệu Tồn nhiều điểm liệu mà mơ hình khơng phân loại dẫn đến độ xác mơ hình Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Overfitting (quá khớp) - tượng mơ hình tìm q khớp với liệu huấn luyện Điều dẫn đến việc dự đoán nhiễu nên mơ hình khơng cịn tốt phân lớp liệu Quá khớp xảy lượng liệu huấn luyện nhỏ độ phức tạp mơ hình q cao nên độ xác cao mô tả xu hướng tổng quát liệu Good fitting: - Là trường hợp mơ hình cho kết hợp lý với tập liệu huấn luyện giá trị mới, tức mang tính tổng quát Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Ngồi thực tế mơ hình tốt mơ hình cho kết hợp lý cách chấp nhận liệu mẫu lẫn liệu CHƯƠNG 3: CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ liệu 3.1.1 Mơ tả tốn Dự đốn định mua hàng khách hàng có bị tác động quảng cáo tảng mạng xã hay khơng, hình thức chưa tác động đến nhóm người nào, để từ đưa định hợp lý 3.1.2 Mô tả bao quát liệu - Dữ liệu thô bao gồm 400 mẫu liệu, biến Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Bảng liệu hoàn chỉnh Các thuộc tính đưa vào tốn: Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Gender (giới tính) Age (tuổi) EstimatedSalary (tiền lương ước tính) Purchased (quyết định mua hàng) Biểu đồ Histogram biến mơ hình 3.2 Các kết thực nghiệm 3.3 Phân tích đánh giá 3.3.1 Kết đánh giá Test and Cost Với k = Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Bảng kết chia liệu thành phần * Nhận xét: Tại mục Evaluation results, ta cần ý kết định lượng mơ hình Logistic Re gression, Tree, SVM, Neural Network, mơ hình có giá trị cao Qua đó, ta thấy mơ hình SVM mang lại số liệu tốt nhất, cụ thể: Tính xác (CA) 90,4% Giá trị trung bình điều hồ (F1) 90,3% Độ xác (Precision) 90,3% Độ phủ (Recall) 90,4% Diện tích đường cong (AUC) 0,967 (số liệu tốt so với trường hợp khác) 3.3.2 Ma trận nhầm lẫn (Confusion Matrix) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Nhận xét: - Tỷ lệ nhầm lẫn so với thực tế không mua mua Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 CHƯƠNG 4.1 Các kết đạt Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Qua phân tích, biết khách hàng có đánh quảng cáo truyền thông mạng xã hội, đối tượng có khả có khả mua sản phẩm qua quảng cáo mạng xã hội, chiến dịch marketing doanh nghiệp có hiệu hay khơng Từ doanh nghiệp, nhà kinh doanh xác định đối tượng khách hàng mục tiêu có chiến dịch marketing quảng cáo thành cơng tương lai Nhìn chung, thấy số người không bị ảnh hưởng (không mua) quảng cáo mạng xã hội trải dài từ độ tuổi 18 đến 42 tuổi, tập trung nhiều độ tuổi khoảng từ 35 đến 42 tuổi với mức lương dao động khoảng 40000 đến 80000 Chính nhờ kết phân tích mà doanh nghiệp định hướng chiến lược quảng cáo tối ưu để đáp ứng nhu cầu nhắm vào tâm lí đối tượng khách hàng có tiềm mà từ làm mục tiêu phát triển lâu dài Suy cho cùng, việc phân lớp liệu việc cần thiết Vì lẽ, kết phân tích giúp doanh nghiệp đưa sách marketing quảng cáo hợp lý hiệu 4.2 Những hạn chế hướng phát triển 4.2.1 Những hạn chế Từ liệu ta nhận thấy rằng, liệu chưa đủ biến để có đủ thông tin xác định khả bị ảnh hưởng khách hàng với quảng cáo truyền thông mạng xã hội Mặc dù có thơng tin để đánh giá khả ảnh hưởng khách hàng nhóm muốn đề xuất số yếu tố khác vào mơ hình để phần đánh giá thêm độ xác hơn: - Nghề nghiệp - Nơi sinh sống Kết nghiên cứu chưa thực cô đọng với kiến thức chưa chuyên sâu sinh viên độ tuổi 19,20 Bộ liệu lấy từ nước ngồi nên thơng tin không tiếp cận trực tiếp 4.2.2 Hướng phát triển Mơ hình này dùng để dự đoán khả mua khách hàng sản phẩm quảng cáo truyền thông mạng xã hội dựa yếu tố như: giới tính, độ tuổi, tiền lương,… Từ đó, đưa nhiều chiến lược quảng cáo hữu ích để tiếp cận nhóm khách hàng Chẳng hạn như: - Nên lựa chọn đối tượng khách hàng để hướng đến quảng cáo sản phẩm - Hiểu nhu cầu khách hàng giúp doanh nghiệp xác định sản phẩm có chiến lược marketing đắn với sản phẩm - Ngồi ra, thực chiến lược quảng cáo sản phẩm truyền thông mạng xã hội giúp doanh nghiệp tiết kiệm chi phí đáng kể mà hiệu mang lại cịn cao mơ hình quảng cáo khác Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Downloaded by vu ga (vuchinhhp2@gmail.com) ... hơm ngày trước Hay từ số liệu mua hàng khách hàng tháng trước mà nhân viên chủ cửa hàng đưa định đắn lượng mặt hàng nhập vào bán tháng Bài toán phân lớp liệu thu hút quan tâm nhà nghiên cứu nhiều... nhãn gián tiền xử lý Các thuật toán phân lớp: định, hàm số toán học, tập luật… Kết bước mơ hình phân lớp huấn luyện (trình phân lớp) Bước 2: Sử dụng mơ hình chia thành hai bước nhỏ - - Đánh giá... liệu đầu vào tập liệu mẫu khác dán nhãn tiền xử lý nhiên lúc đưa vào mơ hình phân lớp, ta lờ thuộc tính dán nhãn - Tính đắn mơ hình xác định cách so sánh thuộc tính dán nhãn liệu đầu vào kết phân