Khai phá và phân tích dữ liệu clickstream để mua sắm trực tuyến sử dụng công cụ weka để chuẩn hóa, loại bỏ nhiễu, đánh giá phân tích dữ liệu với các bộ phân lớp j48, bộ phân lớp cây quyết định, rừng ngẫu nhiên, k láng giềng gần nhất, svm.. và các bộ phân cụm knn.
HỌC VIỆN NÔNG NGHIỆP VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO TIẾN ĐỘ KHAI PHÁ DỮ LIỆU ĐỀ TÀI: " Khai phá phân tích liệu clickstream để mua sắm trực tuyến " Giảng viên hướng dẫn : Cô Nguyễn Thị Thủy Bộ môn quản lý : Khoa học máy tính Họ Tên sinh viên : Lê Văn Quân – K63TH – 637856 : Lê Cao Tân – K63TH – 63776 HÀ NỘI – 2021 Phụ lục ………… 4.3 Mơ tả thuật tốn sử dụng……………………………………………………… 4.4 Dữ liệu tiên sử lí liệu……………………………………………………… 4.5 Phân lớp …………………………………………………………………………… 4.6 Phân cụm …………………………………………………………………………… 4.7 Kết quả, đánh giá sau phân tích ……………………………………………… I MỞ ĐẦU I.1 Đặt vấn đề - Hiện nay, Thương mại điện tử phát triển nhanh theo xu toàn cầu hố Việc giao dịch thơng qua Website Thương mại điện tử tạo lượng liệu vô lớn Dữ liệu thơng tin khách hàng sản phẩm giao dịch Nếu khai thác nguồn liệu có hệ thống thơng tin giá trị phục vụ cho phát triển Thương mại - điện tử Tuy nhiên cơng việc cịn thách thức Trong nỗ lực thúc đẩy giao dịch thông qua mạng máy tính, xây dựng hệ thống khuyến cáo sản phẩm cho khách hàng công việc thiếu - Vì Vậy nhóm em chọn đề tài Khai phá phân tích liệu clickstream để mua sắm trực tuyến I.2 Mục đích yêu cầu I.2.1 Mục đích - Hiện nay, với phát triển vượt bật công nghệ thông tin, hệ thống thông tin lưu trữ khối lượng liệu lớn Trong kho liệu lớn khơng phải thơng tin có ích Vì để khai thác tri thức có ích phương pháp Khai phá liệu đời Chúng cho phép trích xuất thơng tin hữu ích mà chưa biết Các tri thức vừa tìm thấy vận dụng để cải thiện hiệu hoạt động hệ - thống thông tin ban đầu Khai phá liệu Thương mại điện tử nhằm phát tri thức mới, tri thức có ích giao dịch Thương mại điện tử Tri thức thông tin bên giao dịch, thông tin sản phẩm giao dịch hay xu mua hàng phiên giao dịch hai bên, Thương mại điện tử phát triển mạnh mẽ theo xu tồn cầu hố, phát tri thức có nhiều ý nghĩa ứng dụng chủ yếu khía cạnh giao dịch thơng qua mạng máy tính Khai phá liệu Thương mại điện tử thực sở liệu giao dịch khách hàng nhà cung cấp sản phẩm I.2.2 u cầu - Đọc, mơ tả , phân tích , import liệu vào weka - Đánh giá liệu tiền xử lí liệu Mơ tả toán Hiểu thực hành kĩ thuật ,thuật toán phân lớp + Phân lớp với định (decision tree) + Phân lớp với Naïve Bayesian + Phân lớp với k phần tử gần (k-nearest neighbor) + Phân lớp với máy vector hỗ trợ (SVM) + Phân lớp với mạng neural (neural network) + Phân lớp dựa tiến hoá gen (genetic algorithms) + Phân lớp với lý thuyết tập thô, tập mờ (rough sets) + Phân lớp với lý thuyết tập mờ (fuzzy sets)… - Hiểu khai phá luật kết hợp Hiểu thực hành kĩ thuật, thuật toán phân cụm phương pháp học có giám sát + SVM + KNN + CART + LASSO + K láng giếng gần - phương pháp học không giám sát + Kmean + ICA + PCA II khai phá liệu đề tài II.1 khai phá liệu tầm quan trọng - Trong thời đại kỹ thuật số, lợi chiến lược lớn đến từ việc phân loại, xếp phân tích khai thác liệu từ góc độ Tuy nhiên, khơng giống tất hoạt động liên quan đến liệu, giá trị hoạt động khai thác liệu gắn trực tiếp với chất lượng phạm vi liệu có sẵn để khai thác Và để làm việc từ liệu gần nhất, định dạng đúng, doanh nghiệp cần có cách để tổng hợp liệu hiệu an toàn từ nguồn cấu trúc khác vào vị trí để - khai thác tối ưu liệu tốt Việc xử lý khai thác liệu khổng lồ phát huy tác dụng - ngành: Tài chính: Phân tích liệu sâu để tạo mơ hình rủi ro xác cho việc cho vay, sáp nhập / mua lại khám phá hoạt động gian lận - Hoạt động CNTT: Khai thác liệu hỗ trợ thu thập, xử lý phân tích khối lượng liệu ứng dụng, mạng sở hạ tầng để khám phá hiểu biết bảo mật hệ thống CNTT hiệu suất mạng - Tiếp thị: Bề mặt trước ẩn xu hướng hành vi người mua dự đoán hành vi khách hàng tương lai để xác định người mua xác Từ tạo nhiều chiến dịch nhắm mục tiêu để tăng tham gia quảng bá sản phẩm dịch vụ - Nhân sự: Khai phá liệu từ hồ sơ ứng viên, từ cung cấp nhìn tồn diện ứng viên Xác định kết phù hợp cho vai trị cách sử dụng phân tích liệu để đánh giá trình độ, kinh nghiệm, kỹ năng, chứng vị trí cơng việc đảm nhiệm trước - Khai thác liệu điều bắt buộc để trì tính cạnh tranh đạt lợi chiến lược kỷ nguyên số kinh doanh II.2 Khai phá liệu - Khai thác mơ hình hay kiến thức thú vị (không tầm thường, tiềm ẩn, chưa biết có khả hữu ích) từ số lượngrất lớn liệu Khai - thác liệu: tên nhầm lẫn? Tên thay thế⁄khai phá tri thức sở liệu (KDD), khai thác kiến thức, phân tích liệu / mẫu, khai thác thông tin, kinh doanh thông minh, vv II.3 Đề tài nghiên cứu - Khai phá phân tích liệu clickstream để mua sắm trực tuyến - Nhóm em sử dụng liệu từ UCI để phân tích liệu có sẵn - Với 6004 mẫu liệu - Link địa lấy liệu - https://archive.ics.uci.edu/ml/datasets/clickstream+data+for+online+shoppin g# III NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU III.1 Nguồn liệu nghiên cứu - https://archive.ics.uci.edu/ml/datasets/clickstream+data+for+online+shoppin - g# Source: Mariusz ÅapczyÅ„ski, Cracow University of Economics, Poland, - lapczynm '@' uek.krakow.pl Sylwester BiaÅ‚owÄ…s, Poznan University of Economics and Business, Poland, sylwester.bialowas '@' ue.poznan.pl III.2 Nội dung nghiên cứu - Sử dụng liệu thu thập từ tháng đến thắng năm 2008 - 47 quốc gia trang web với 6004 mẫu liệu Sử dụng giải thuật phân lớp như: Naive Bayes classifier SMO Láng giềng gần Cây định Cây m48 Rừng ngẫu nhiên SVM Các phương pháp phân cụm : Kmean So sánh phương pháp phân lớp phân cụm thay đổi thông số chọn giải thuật tốt cho liệu III.3 Phương pháp nghiên cứu - Sử dụng phần mềm weka để phân tích liệu - Điều chỉnh thay đổi lọc dư liệu thừa liệu - Tiền xử lí làm liệu Khai thác liệu Sử dụng thuật tốn có sẵn weka để phân lớp , phân cụm liệu Sau chỉnh suear thơng số chọn giải thuật có phân lớp phân cụm tốt 4) KẾT QUẢ VÀ THẢO LUẬN 4.1 MƠ TẢ BÀI TỐN - Bài tốn khai phá liệu mua quần áo thơng qua bán hàng trực tuyến từ 42 quốc gia địa web dựa yếu tố sản phẩm , màu sắc, giá sản phẩm, theo đo la theo địa phương, vị trí đặt sản phẩm để đánh giá xem yếu tố ảnh hưởng đến định mua hàng sản phẩm online khách hàng 4.2 MÔ TẢ DỮ LIỆU - Tên liệu: e-shop clothing 2008 - giá trị thống kê variable 14 giá trị Năm Tháng Ngày Đặt hàng (order) chuỗi nhấp chuột phiên Quốc gia 42 quốc gia iền địa 1-Australia 2-Austria 3-Belgium 4-British Virgin Islands 5-Cayman Islands 6-Christmas Island 7-Croatia 8-Cyprus 9-Czech Republic 10-Denmark 11-Estonia 12-unidentified 13-Faroe Islands 14-Finland 15-France 16-Germany 17-Greece 18-Hungary 19-Iceland 20-India 21-Ireland 22-Italy 23-Latvia 24-Lithuania 25-Luxembourg 26-Mexico 27-Netherlands 28-Norway 29-Poland 30-Portugal 31-Romania 32-Russia 33-San Marino 34-Slovakia 35-Slovenia 36-Spain 37-Sweden 38-Switzerland 39-Ukraine 40-United Arab Emirates 41-United Kingdom 42-USA 43-biz (*.biz) 44-com (*.com) 45-int (*.int) 46-net (*.net) 47-org (*.org) session id -> biến biểu thị id phiên ( ghi ngắn) Các danh mục sản phẩm - 1.Quần tây 2.Váy dây 3.Áo lỗ 4.sale Trang mẫu quần áo chứa thông tin mã sản phẩm - 217 sản phẩm Màu sắc ,màu sản phẩm - 1-beige 2-black 3-blue 4-brown 5-burgundy 6-gray - 7-green 8-navy blue 9-of many colors 10-olive 11-pink 12-red 13-violet 14-white 10 vị trí ảnh trang - Trang đc chia thành phần 1-top left 2-top in the middle 3-top right 4-bottom left 5-bottom in the middle 6-bottom right 11 chụp ảnh mẫu sản phẩm - Có hai thể loại Mặt Hồ sơ 12 giá - Giá dạng đồng mĩ 13 PRICE -> biến cho biết liệu giá sản phẩm cụ thể có cao giá trung bình cho tồn danh mục sản phẩm 1-yes 2-no 13 số trang trang web cửa hàng Từ đến 4.3 MƠ TẢ THUẬT TỐN SẼ SỬ DỤNG - 4.3.1 CLASSIFI - Phân lớp với định (decision tree) + Tốc độ học tương đối nhanh so với phương pháp khác +Có thể chuyển thành luật cách dễ dàng⁄Sự xác tốt +Đòi hỏi tiền xử lý đơn giản +Node cha: phép kiểm thử (test) thuộc tính Node lá: nhãn mô tả lớp (class label) Nhánh từ node cha: kết phép thử thuộc tính tương ứng - Phân lớp với Nạve Bayesian + X: tuple +đối tượng (evidence) +H: giả thuyết (hypothesP(X|H): posterior probability Xác suất biến cố X với điều kiện biến cố H xảy ra.is) + P(H|X): posterior probability⁄Xác suất biến cố H với điều kiện biến cố X xảy - Phân lớp với k phần tử gần (k-nearest neighbor) + Thuật toán định gán nhãn lớp cho phần tử ứng với lớp phần đông số kphần tử lân cận với +Chọn k phần tử tập mẫu huấn luyện gần phần tử X +Xác định nhãn số đông k phần tử này: C +Gán nhãn C nhãn lớp phần tử 4.3.2 - Phân lớp với máy vector hỗ trợ (SVM) CLUSTER KMEAN: + Phân cụm/nhóm (Clustering) phương pháp học khơng có giám sát sử dụng phổ biến + Tồn phương pháp học khơng có giám sát khác, ví dụ: Lọc cộng tác (Collaborative filtering), Khai phá luậtkếthợp(Association rule mining) (Associationrulemining), +Học phân cụm +Đầu vào : tập liệu khơng có nhãn ( ví dụ khơng có nhãn lớp/giá trịđầu mong muốn) +Đầu ra: cụm (nhóm) ví dụ +Một cụm (cluster) tập ví dụ +Tương tự với (theo ý nghĩa, đánh giá ) +Khác biệt với ví dụ thuộc cụm khác DỮ LIỆU VÀ TIỀN XỬ LÍ DỮ LIỆU 4.4 - SỐ THUỘC TÍNH :14 THUỘC TÍNH - SỐ MẪU 6004 - MẤT DỮ LIỆU : KHÔNG - KIỂU NUMERIC - YEAR: 2008 - MONTH: - DAY : MIN:1 MAX:2 4.5 ORDER MIN:1 MAX60 MEAN:8,322 … PHÂN LỚP 4.5.1 LaZY-IBK Cho page1 - 66% train lại để test - thời gian xây dựng mơ hình (model) 0.04s - thời gian cần đề kiểm tra mơ hình tập test chia: 0.67s - Hệ số tương quan 0,9921 - Sai số tuyệt đối trung bình 0,0069 - Lỗi bình phương gốc trung bình 0,1171 - Sai số tuyệt đối tương đối 0,8981% -Lỗi bình phương tương đối gốc 12,5861% -Tổng số mẫu 2041 Chạy số cho số thuộc tính định đến vc mua hàng người sử dụng Cho order - Hệ số tương quan 0,1919 Sai số tuyệt đối trung bình 7.4343 Lỗi bình phương trung bình gốc 11.1952 - Sai số tuyệt đối tương đối 117,478% Lỗi bình phương tương đối gốc 130,1873% Tổng số phiên 2041 Cho màu sắc - Hệ số tương quan 0,9924 Sai số tuyệt đối trung bình 0,0333 Lỗi bình phương trung bình gốc 0,5172 Sai số tuyệt đối tương đối 0,9095% Lỗi bình phương tương đối gốc 12,3084% Tổng số phiên 2041 Cho location - Hệ số tương quan 0,9977 Sai số tuyệt đối trung bình 0,0073 Lỗi bình phương gốc trung bình 0,115 Sai số tuyệt đối tương đối 0,4863% Lỗi bình phương tương đối gốc 6,7424% Tổng số phiên 2041 cho session id - Hệ số tương quan 0,767 Sai số tuyệt đối trung bình 131.477 Lỗi bình phương trung bình gốc 168.3357 Sai số tuyệt đối tương đối 61,0228% Lỗi bình phương tương đối gốc 67,588% Tổng số phiên 2041 Cho numpage - Hệ số tương quan 0,9921 Sai số tuyệt đối trung bình 0,0069 Lỗi bình phương gốc trung bình 0,1171 Sai số tuyệt đối tương đối 0,8981% Lỗi bình phương tương đối gốc 12,5861% Tổng số phiên 2041 4.5.2 Random forrest chạy page - 66% train lại để test - thời gian xây dựng mơ hình (model) 1.28s - thời gian cần đề kiểm tra mơ hình tập test chia: 0.17s - Hệ số tương quan 0,9975 - Sai số tuyệt đối trung bình 0,0202 Lỗi bình phương trung bình gốc 0,0734 Sai số tuyệt đối tương đối 2,6488% Lỗi bình phương tương đối gốc 7,8827% Tổng số phiên 2041 Chạy location 66% train lại để test - thời gian xây dựng mơ hình (model) 0.7s - thời gian cần đề kiểm tra mơ hình tập test chia: 0.05s - Hệ số tương quan 0,9985 Sai số tuyệt đối trung bình 0,0213 Lỗi bình phương trung bình gốc 0,0937 Sai số tuyệt đối tương đối 1.4102% Lỗi bình phương tương đối gốc 5,4951% Tổng số phiên 2041 Chạy order - Mất 4.63 dây để xây dựng mơ hình 0,12s để test Hệ số tương quan 0,2597 Sai số tuyệt đối trung bình 6.4465 Lỗi bình phương gốc trung bình 9.3406 Sai số tuyệt đối tương đối 101,8679% Lỗi bình phương tương đối gốc 108,6204% Tổng số phiên 2041 Naive Bayes Naive Bayes Cross – validation Folds: 10% Thời gian xây dựng mơ hình: 0,02 giây Các trường hợp phân loại xác 5800 Các trường hợp phân loại khơng xác 200 Thống kê Kappa 0,9419 Sai số tuyệt đối trung bình 0,0348 Lỗi bình phương trung bình gốc 0,107 Sai số tuyệt đối tương đối 15,2405% 96,6667% 3,3333% Lỗi bình phương tương đối gốc 31,6797% Tổng số phiên : 6000 === Confusion Matrix === a b c d e < classified as 3559 10 38 | a=1 17 1294 46 25 13 | b=2 10 20 609 | c=3 262 | d=4 0 76 | e=5 Đánh giá mơ hình: - Thời gian xây dựng mơ hình nhanh - Tỉ lệ phân loại xác cao : ~97% - Sai số lỗi nhỏ - Mơ hình phân lớp đầy đủ 6000 liệu Mơ hình hiệu TH2: Naive Bayes Percentage splip: 66% Thời gian thực để kiểm tra mơ hình phần tách thử nghiệm: 0,02 giây Các trường hợp phân loại xác 1941 Các trường hợp phân loại khơng xác 99 Thống kê Kappa 0.9148 Sai số tuyệt đối trung bình 0,0437 Lỗi bình phương gốc trung bình 0,1256 Sai số tuyệt đối tương đối 19,1899% Lỗi bình phương tương đối gốc 37,3508% Tổng số phiên 2040 a b c d e < classified as 1212 14 1| a=1 434 30 18 1| b=2 95,1471% 4,8529% 194 0| c=3 79 0| d=4 0 2 22 | e=5 Đánh giá mơ hình: - Thời gian xây dựng mơ hình nhanh - Tỉ lệ phân loại xác cao : ~95% - Mơ hình phân lớp 1/3 tổng liệu Mơ hình khơng hiệu SMO TH1: Cross – validation Folds: 10% Thời gian xây dựng mơ hình: 97,29 giây 4.5.7 ĐÁNH GIÁ - Việc sử dụng phân lớp để đánh giá theo thuộc tính ta chọn phân lớp nạve bayes vì: - Kết luận: Mơ hình phân lớp Naive Bayes với Cross – validation Folds: 10% mơ hình hiệu 4.6 - Thời gian xây dựng mơ hình nhanh - Tỉ lệ phân loại xác cao : ~97% - Sai số lỗi nhỏ mơ hình khác - Mơ hình phân lớp đầy đủ 6000 liệu Phân cụm cluster Số cột : 6000 Thuộc tính : 16 year month day order country session ID page (main category) page (clothing model) colour location model photography price price page Chế độ kiểm tra: đánh giá liệu đào tạo Simple KMeans VD1: Simple KMeans Use training set Numclusters: Mơ hình phân cụm: Simple KMeans Số lần lặp lại: Trong cụm tổng lỗi bình phương: 12216.390405591053 Điểm xuất phát ban đầu (ngẫu nhiên): Cluster 0: 2008,4,1,1,29,180,1,A15,14,5,2,33,2,1 Cluster 1: 2008,4,1,15,29,273,1,A18,4,6,1,38,2,1 Các trung tâm cụm cuối cùng: Attribute Cluster# Full Data (6000.0) (1584.0) (26%) (4416.0) (74%) order session ID 8.3238 438.76 9.5713 7.8764 460.9426 430.8032 page (main category): 2.4267 2.7891 2.2966 page (clothing model): B4 A15 B4 price 43.7238 38.9034 45.4529 price 1.4753 1.5549 1.4468 1.9949 1.5068 page 1.6357 Thời gian thực để xây dựng mơ hình (dữ liệu đào tạo đầy đủ): 0,1 giây Phiên nhóm: 1584 ( 26%) 4416 ( 74%) Đánh giá: - Mơ hình phân cụm chia đầy đủ 100% liệu - Thời gian thực mơ hình nhanh - Số lần lặp ít: - Dữ liệu phân chia vào cụm xác cao Mơ hình đánh giá hiệu VD2: Simple KMeans Use training set numClusters: Số lần lặp lại: 27 Mơ hình phân cụm: Simple KMeans Trong cụm tổng lỗi bình phương: 9765.569359451045 Phiên nhóm: 486 ( 8%) 1334 ( 22%) 1926 ( 32%) 1096 ( 18%) 1158 ( 19%) Thời gian thực để xây dựng mô hình (dữ liệu đào tạo đầy đủ): 0,2giây Đánh giá: - Mơ hình phân cụm chia 99% liệu - Thời gian thực mơ hình nhanh - Mơ hình cụm khơng hiệu mơ hình cụm - Số lần lặp lớn VD3 : Simple KMeans Percentage split : 66% Số lần lặp lại: Mơ hình phân cụm: Simple KMeans Thời gian cần thiết để xây dựng mơ hình (chia tỷ lệ phần trăm): 0,01 s Phiên nhóm: 2842 ( 53%) 2558 ( 47%) Đánh giá: - Mơ hình khơng phân lớp tất liệu - Thời gian thực mô hình nhanh Mơ hình khơng hiệu VD4: Simple EM (expectation maximisation) Số cụm chọn cách xác nhận chéo: Số lần lặp thực hiện: - Thời gian thực để xây dựng mơ hình (dữ liệu đào tạo đầy đủ): 14.61 s - Phiên nhóm: - 1535 ( 26%) 1646 ( 27%) 2819 ( 47%) Khả ghi nhật ký: -2.14794 Đánh giá mơ hình: - Mơ hình phân cụm chia đủ 100% liệu - Thời gian thực mơ hình chậm - Chỉ lặp lại lần Mơ hình hiệu khơng hiệu mơ hình VD1 Kết luận : Từ trường hợp phân cụm thấy mô hình phân cụm Simple Kmeans mơ hình phân cụm hiệu - Thời gian thực để xây dựng mơ hình nhanh - Số lần lặp lại - Dữ liệu phân vào cụm ... thức sở liệu (KDD), khai thác kiến thức, phân tích liệu / mẫu, khai thác thơng tin, kinh doanh thông minh, vv II.3 Đề tài nghiên cứu - Khai phá phân tích liệu clickstream để mua sắm trực tuyến. .. dư liệu thừa liệu - Tiền xử lí làm liệu Khai thác liệu Sử dụng thuật tốn có sẵn weka để phân lớp , phân cụm liệu Sau chỉnh suear thơng số chọn giải thuật có phân lớp phân cụm tốt 4) KẾT QUẢ VÀ... Các phương pháp phân cụm : Kmean So sánh phương pháp phân lớp phân cụm thay đổi thông số chọn giải thuật tốt cho liệu III.3 Phương pháp nghiên cứu - Sử dụng phần mềm weka để phân tích liệu - Điều