1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân tích dữ liệu doanh số bán hàng của big mart bằng phần mềm orange

40 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

lOMoARcPSD|22243379 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH KHOA TÀI CHÍNH TIỂU LUẬN MƠN HỌC PHÂN TÍCH DỮ LIỆU DOANH SỐ BÁN HÀNG CỦA BIG MART BẰNG PHẦN MỀM ORANGE Giảng Viên: TS Th愃Āi Kim Ph甃⌀ng M愃̀ lơꄁp h漃⌀c phn: 22C1INF50905940_ST6 Chuyên Ngành: Đu tư tài – Khóa: 47 Nhóm Sinh Viên: Nhan Tơ Hồng Vinh 31211021325 Lê Th椃⌀ Di̀m Hằng 31211023367 Ngô Th椃⌀ Ngân 31211026580 Th愃Āi Bảo Trâm 31211023542 Lâm Th椃⌀ M礃̀ Th甃y 31211023861 TP Hồ Chí Minh, ngày 29 th愃Āng 10 năm 2022 lOMoARcPSD|22243379 BẢNG PHÂN CÔNG NHIỆM VỤ STT H漃⌀ tên MSSV Nhiệm v甃⌀ Đ愃Ānh gi愃Ā Nhan Tô Ho愃ng Vinh 31211021325 - Chọn liệu 100% -Tiến h愃nh phân lớp v愃 dự báo Lê Thị Diễm Hằng 31211023367 - Tổng hợp kết - Chọn liệu 100% - Tổng quan lý thuyết Ngô Thị Ngân 31211026580 - Kết luận - Tiền xử lý liệu 100% - Mô tả liệu Thái Bảo Trâm 31211023542 - Mô tả liệu 100% - Tiến h愃nh phân cụm liệu Lâm Thị Mỹ Thùy 31211023861 - Tổng quan lý thuyết - Tổng hợp kết & kết luận 100% lOMoARcPSD|22243379 MỤC LỤC MỤC LỤC CHƯƠNG TỔNG QUAN 1.1 Tổng quan phân cụm liệu 1.2 Tổng quan b愃i toán phân lớp liệu 1.3 Giới thiệu Python v愃 phần mềm Orange 1.4 Lý chọn lựa đề t愃i CHƯƠNG MÔ TẢ VÀ TIỀN XỬ LÝ BỘ DỮ LIỆU 2.1 Mô tả liệu 2.2 Tiền xử lý liệu CHƯƠNG KHAI THÁC DỮ LIỆU 11 3.1 Các phương pháp phân cụm liệu 11 3.2 Thực phân cụm liệu 11 3.3 Các mơ hình phân lớp liệu 16 3.4 Thực phân lớp liệu v愃 tiến h愃nh dự báo doanh số bán h愃ng 20 CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 29 CHƯƠNG KẾT LUẬN 33 5.1 Các kết đạt 33 5.2 Những hạn chế v愃 hướng phát triển 33 TÀI LIỆU THAM KHẢO 35 lOMoARcPSD|22243379 CHƯƠNG TỔNG QUAN 1.1 Tổng quan phân c甃⌀m liệu 1.1 Khái niệm - Phân cụm liệu l愃 q trình gom cụm/nhóm đối tượng/dữ liệu có đặc điểm tương đồng v愃o cụm/nhóm tương ứng Trong đó: • Các đối tượng cụm có tính chất tương tự • Các đối tượng thuộc cụm/nhóm khác có tính chất khác 1.2 Đặc điểm Nhiệm vụ l愃 tìm v愃 đo đạc khác biệt đối tượng liệu Phân cụm thuộc nhóm phương pháp học khơng giám sát (unsupervised learning) khơng biết trước số nhóm (khác với b愃i tốn phân lớp) Một phương pháp phân cụm tốt l愃 phương pháp tạo cụm có chất lượng cao: ● Độ tương đồng bên cụm cao ● Độ tương tự cụm thấp (khác biệt cao) Các ứng dụng điển hình: ● Cơng cụ phân cụm liệu độc lập ● L愃 giai đoạn tiền xử lý cho thuật toán khác 1.3 Ứng dụng B愃i toán phân cụm ứng dụng phổ biến thực tế l愃: ● Dự báo khách h愃ng tiềm ● Phân tích xu hướng h愃nh vi khách h愃ng ● Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ nh愃 cung cấp ● Phân tích đặc tính sản phẩm dịch vụ ● Đánh giá kết hoạt động kinh doanh ● Phân tích h愃nh vi người dùng mạng xã hội lOMoARcPSD|22243379 1.2 Tổng quan to愃Ān phân lơꄁp liệu 1.2.1 Khái niệm Một hướng nghiên cứu khai phá liệu l愃 phân lớp liệu (Classification) Việc phân tích liệu bao gồm: phân lớp v愃 dự đốn với mục đích tạo mơ hình mơ tả lớp liệu có vai trị quan trọng hay dự đốn xu tương lai liệu Q trình phân lớp dự đốn giá trị nhãn xác định (categorical label) hay giá trị rời rạc (discrete value) Đối với khái niệm thuật ngữ “Phân lớp liệu” hiểu l愃 q trình phân bổ đối tượng liệu v愃o hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp Mơ hình n愃y xây dựng dựa tập liệu gán nhãn trước (thuộc lớp n愃o) Quá trình gán nhãn (thuộc lớp n愃o) cho đối tượng liệu l愃 q trình phân lớp liệu 1.2.2 Ứng dụng Trong năm gần đây, phân lớp liệu thực thu hút lượng lớn nh愃 nghiên cứu nhiều lĩnh vực đa dạng khác nhau: học máy (Machine Learning), hệ chuyên gia (Expert System), thống kê (Statistics), Ngo愃i ra, việc phân lớp liệu cịn có vai trị quan trọng số ng愃nh Đối với ng愃nh T愃i Ngân h愃ng phân lớp liệu ứng dụng để dự báo giá chứng khốn, xếp hạng tín dụng cá nhân, đánh giá rủi ro t愃i Với ng愃nh Sale & Marketing ứng dụng v愃o việc dự báo doanh thu, dự báo khách h愃ng trung th愃nh Còn ng愃nh Kinh tế ứng dụng để xem xét dự báo khủng hoảng kinh tế, dự báo cung cầu 1.3 Giơꄁi thiệu Python phn mềm Orange Python l愃 ngơn ngữ lập trình hướng đến đối tượng đa năng, phát minh Guido v愃 Rossum (trong cuối năm 1980) Python sở hữu cấu trúc liệu cấp cao mạnh mẽ v愃 hệ thống thư viện rộng lớn Nó vận h愃nh theo chế cấp phát nhớ tự động với cú pháp đơn giản v愃 rõ r愃ng, gần gũi v愃 dễ sử dụng người học Kể từ năm 2003, Python xếp v愃o số mười ngôn ngữ lập trình phổ biến Chỉ số Cộng đồng Lập trình TIOBE Chính nên ngơn ngữ lập trình n愃y sử dụng việc lập trình từ ứng dụng đơn giản lOMoARcPSD|22243379 thuật toán nâng cao phức tạp Một số ứng dụng ngơn ngữ Python: q trình phát triển website (Các tảng web phổ biến như: Flask, Plone, Django, CMS, Pyramid, ); áp dụng v愃o khoa học v愃 phân tích liệu số lĩnh vực Data Analytics, Machine Learning, Computing Science; Python cịn l愃 ngơn ngữ để tạo ngun mẫu phần mềm; ngo愃i tính chất dễ sử dụng Python cịn dùng để giảng dạy lập trình Phần mềm Orange l愃 cơng cụ trực quan để nghiên cứu thuật toán machine learning v愃 thực h愃nh data mining Những người khơng có kỹ mã hóa sử dụng Orange cách dễ d愃ng Người ta thực nhiệm vụ từ chuẩn bị liệu đến đánh giá mơ hình m愃 khơng cần viết dịng lệnh n愃o Orange có cửa sổ l愃m việc chính: Data, visualize, model, evaluate, unsupervised ● Data: dùng để rút trích, biến đổi, v愃 nạp liệu (ETL process) ● Visualize: dùng để biểu diễn biểu đồ (chart) nhằm cải thiện q trình phân tích liệu tốt ● Model: gồm h愃m machine learning phân lớp liệu, có Neural Network gồm hyperparameter để bạn xây dựng nhanh Deep learning ● Evaluate: phương pháp đánh giá mơ hình máy học ● Unsupervised: gồm h愃m machine learning gom nhóm liệu 1.4 Lý ch漃⌀n lựa đề tài Với trình dần chuyển số hóa xã hội ng愃y tất ng愃nh từ t愃i chính, ngân h愃ng, kinh tế, giáo dục, hình th愃nh nên khối lượng liệu khổng lồ Bởi thế, liệu thực tế mang vai trò đặc biệt việc vận h愃nh, ứng dụng v愃 lưu trữ thông tin quan trọng người tiêu dùng Như ng愃nh khác, việc lưu trữ thông tin khách h愃ng, sản phẩm ng愃nh sản xuất kinh doanh ng愃y c愃ng trở nên thiết yếu Điển liệu đề cập đến b愃i luận đến từ Big Mart v愃o năm 2013 gồm 1559 sản phẩm có phân phối 10 cửa h愃ng th愃nh phố khác Ngo愃i ra, cịn có số thuộc tính định sản phẩm v愃 cửa h愃ng xác định cụ thể Với lượng lớn liệu thu thập, để hình th愃nh sở để phân tích đặc tính sản phẩm v愃 lOMoARcPSD|22243379 cửa h愃ng đóng vai trị quan trọng q trình xây dựng mơ hình để dự đốn v愃 dự đốn doanh thu sản phẩm doanh thu tương lai cửa h愃ng Để thực trình trên, ta cần phần mềm kỹ thuật hỗ trợ Nhận tính cấp thiết đó, nhóm chúng tơi tiến h愃nh thực trình xử lý liệu phần mềm Orange Từ kỹ thuật khai thác tối đa liệu b愃i thu hoạch trình b愃y số kỹ thuật phân lớp liệu lOMoARcPSD|22243379 CHƯƠNG MÔ TẢ VÀ TIỀN XỬ LÝ BỘ DỮ LIỆU Tên liệu Ý nghĩa Vai trò Weight Cân nặng sản phẩm Feature Fat Content H愃m lượng chất béo sản Feature phẩm Product Visibility Phần trăm khả nhìn thấy sản Feature phẩm nhìn từ bên ngo愃i v愃o cửa h愃ng Product Type Loại sản phẩm Feature Phân phối lOMoARcPSD|22243379 MRP Giá bán lẻ cao sản phẩm Feature OutletID ID cửa h愃ng Feature Establishment year Năm cửa h愃ng mở Feature Outlet Size Độ lớn cửa h愃ng Feature LocationType Loại th愃nh phố m愃 cửa h愃ng hoạt Feature động lOMoARcPSD|22243379 Outlet Type Loại cửa h愃ng Feature Outlet Sales Doanh thu cửa h愃ng Target Product ID Mã số sản phẩm skip 2.1 Mô tả liệu Vì liệu nhằm dự đốn doanh thu cửa h愃ng nên Outlet Sales l愃 biến mục tiêu nhóm nghiên cứu Cịn biến cịn lại đóng vai trị l愃 biến đặc tính dùng để giải thích cho biến mục tiêu, ngoại trừ Product ID bỏ qua (skip) khơng giải thích biến mục tiêu Từ đồ thị phân phối cho thấy giá bán hợp lý doanh thu chủ yếu mức từ đến $6000 sản phẩm (Baking goods, Bread, Breakfast, Canned, Dairy, ) Tuy nhiên, liệu cung cấp ban đầu chưa xử lý có đến 4,3% liệu cịn thiếu v愃 liệu chưa xử lý nên liệu sau phân phối hiện, truyền tải cách dễ hiểu v愃 cách 2.2 Tiền xử lý liệu Đây l愃 bước quan trọng trước tiến h愃nh phân tính liệu Orange Hầu hết liệu ban đầu chứa giá trị bị thiếu (missing values) Chúng cần xử lý v愃 l愃m trước đem phân tích cơng cụ chuyên dụng có sẵn Orange Downloaded by tr?n hi?n (vuchinhhp21@gmail.com) lOMoARcPSD|22243379 ● Phân lớp định (Decision Tree) Hình 3.4.3 Phương pháp Decision Tree Tùy chọn thơng số mơ hình Tree: Induce binary tree: Tạo mơ hình nhị phân Min number of instances in leaves: Khi chọn, giá trị nhỏ m愃 thuật tốn khơng tạo phân chia m愃 có quan sát số lượng định v愃o nhánh n愃o (theo hình l愃 quan sát) Do not split subsets smaller than: Khơng cho phép thuật tốn phân chia tập hợp có quan sát số lượng định (theo hình l愃 5) Limit the maximal tree depth: Giới hạn độ sâu đến số lượng nhánh định (theo hình l愃 100) Stop when majority reaches [%]: Dừng phân lớp đạt với tỷ lệ phần trăm cụ thể (theo hình l愃 95) ● Phân lớp phương pháp SVM (Support Vector Machine) 22 Downloaded by tr?n hi?n (vuchinhhp21@gmail.com) lOMoARcPSD|22243379 Hình 3.4.4 Phương pháp SVM Tùy chọn thông số SVM: (Tất thông số Orange c愃i đặt mặc định để thuận tiện cho việc chạy mơ hình) Cost (C): Tham số cho h愃m cost function soft margin, h愃m n愃y có chức kiểm soát ảnh hưởng véc-tơ hỗ trợ riêng lẻ Regression loss epsilon (ε): Tham số cho mơ hình ε-SVR, áp dụng cho tác vụ hồi quy ● Phân lớp phương pháp mạng nơ-ron nhân tạo (Neural Network) 23 Downloaded by tr?n hi?n (vuchinhhp21@gmail.com) lOMoARcPSD|22243379 Hình 3.4.5 Phương pháp Neural Network Tùy chọn thơng số Neural Network: Neurons per hidden layer: Yếu tố đại diện cho số lượng tế b愃o nơ-ron thần kinh lớp ẩn Ở mục Activation, chọn ReLu: H愃m đơn vị tuyến tính sửa chữa Ở mục Solver, chọn Adam: Một trình tối ưu hóa dựa q trình liên kết với xác suất ngẫu nhiên Maximal number of iterations: Số lần lặp lại tối đa ● Phân lớp phương pháp hồi quy logistic (Logistic Regression) Hình 3.4.6 Phương pháp Logistic Regression Tuỳ chọn Regularization type l愃 Ridge (L2), độ mạnh (Strength) l愃 C= Logistic Regression tiến h愃nh quy trình xử lý mặc định khơng có quy trình tiền xử lý n愃o khác c愃i đặt ● Đ愃Ānh gi愃Ā c愃Āc mơ hình phân lơꄁp: 24 Downloaded by tr?n hi?n (vuchinhhp21@gmail.com) lOMoARcPSD|22243379 Sau phân lớp phương pháp kể trên, tiến h愃nh đánh giá Test and Score – cơng cụ chun dụng có sẵn Orange Ở bảng điều chỉnh, chọn mục Random sampling (Lấy mẫu ngẫu nhiên) Với lặp lại l愃 50 (Repeat train/test) v愃 kích thước 66% (Training set size) Hình 3.4.7 Thực Test and Score để đánh giá mơ hình Theo kết từ hình trên, ta thấy phương pháp Logistic Regression có số AUC cao (AUC = 0.788) v愃 lớn AUC phương pháp sử dụng Các số lại Logistic Regression cho kết cao nên l愃 phương pháp tốt để phân lớp v愃 đưa dự báo Quy trình thực dự b愃Āo bằng phương ph愃Āp Logistic Regression: 25 Downloaded by tr?n hi?n (vuchinhhp21@gmail.com) lOMoARcPSD|22243379 Hình 3.4.8 Các bước dự báo Logistic Regression Orange Đầu tiên, nhóm tiến h愃nh trích 10% liệu từ liệu phân lớp cần dự báo v愃 nhập lên Orange Hình 3.4.9 Các bước trích 10% liệu phân lớp dùng để dự báo 26 Downloaded by tr?n hi?n (vuchinhhp21@gmail.com) lOMoARcPSD|22243379 Hình 3.4.10 Thiết lập mẫu 10% liệu từ liệu phân lớp Hình 3.4.11 Bảng liệu sau trích 10% liệu phân lớp Sau lưu bảng liệu mẫu 10% tiến h愃nh nhập v愃o Orange để dự báo 27 Downloaded by tr?n hi?n (vuchinhhp21@gmail.com) lOMoARcPSD|22243379 Hình 3.4.12 Nhập liệu đầu vào Hình 3.4.13 Bảng liệu cần dự báo 28 Downloaded by tr?n hi?n (vuchinhhp21@gmail.com) lOMoARcPSD|22243379 Theo kết từ Test and Score, phương pháp Logistic Regression l愃 phù hợp nên nhóm tiến h愃nh nối đường từ Logistic Regression widget đến Predictions widget để hệ thống thực dự báo Hình 3.4.14 Kết dự báo phương pháp Logistic Regression Hình 3.4.15 Bảng kết dự báo 29 Downloaded by tr?n hi?n (vuchinhhp21@gmail.com) lOMoARcPSD|22243379 CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM Sau sử dụng nghiên cứu, phân tích sử dụng mơ hình phân lớp gồm: Decision Tree, Neural Network, Support Vector Machine, Logistic Regression việc dự báo doanh thu Kết đánh giá mơ hình cho thấy Logistic Regression cho kết v愃 độ xác cao (AUC, CA, F1, Precision, Recall) mơ hình phân lớp, v愃 SVM có điểm số thấp mơ hình phân lớp dựa liệu m愃 tác giả cung cấp Hình 4.1 Kết Test and Score Để xác minh bốn mơ hình phân lớp, Logistic mang lại kết mơ hình tốt v愃 hiệu nhất, nhóm nghiên cứu sử dụng ROC Analysis, Ma trận nhầm lẫn để đánh giá 30 Downloaded by tr?n hi?n (vuchinhhp21@gmail.com) lOMoARcPSD|22243379 Hình 4.2 Logistic Confusion Matrix Hình 4.3 Decision Tree Confusion Matrix Hình 4.4 SVM Confusion Matrix 31 Downloaded by tr?n hi?n (vuchinhhp21@gmail.com) lOMoARcPSD|22243379 Hình 4.5 Neural Network Confusion Matrix Hình 4.6 ROC Analysis Từ kết Confusion matrix v愃 ROC Analysis, ta thấy mức độ xác lẫn hiệu Logistic Regression cho kết tốt mơ hình phân lớp cịn lại Ở Confusion Matrix, dù mơ hình đánh giá l愃 bị lỗi loại v愃 loại 2, nhiên Logistic Regression lại cho kết với độ xác cao l愃 75,4% số lượng dự đốn xác, sát l愃 Decision Tree với phần trăm xác l愃 70,9% 32 Downloaded by tr?n hi?n (vuchinhhp21@gmail.com) lOMoARcPSD|22243379 Ở ROC Analysis, đường ROC Logistic gần với điểm (0,1) so với mơ hình cịn lại, từ hình vẽ ta thấy kết thấp so với ROC Logistic Regression Nên để đảm bảo tính xác dự báo, nhóm nghiên cứu sử dụng Logistic Regression để dự báo doanh thu v愃 hình ảnh sau l愃 kết dự báo doanh thu cửa h愃ng Hình 4.7 Prediction Lấy ví dụ từ quan sát với mã sản phẩm (Product ID) l愃 FDQ20, cửa h愃ng kinh doanh sản phẩm n愃y thuộc doanh thu [0;1883.9] với 95,85%, 3,49% với nhóm thứ 2, 0.18% với nhóm thứ v愃 0,05% với nhóm thứ Tương tự với 50 quan sát lại 33 Downloaded by tr?n hi?n (vuchinhhp21@gmail.com) lOMoARcPSD|22243379 CHƯƠNG KẾT LUẬN 5.1 C愃Āc kết đạt Sau nghiên cứu v愃 thực h愃nh phân lớp liệu, đánh giá mô hình dựa liệu cung cấp: Logistic Regression, SVM, Tree, Neural Network việc dự báo doanh thu cửa h愃ng Ta thấy Logistic Regression mang lại kết tốt v愃 có hiệu xác mơ hình Bên cạnh đó, SVM mang lại kết thấp v愃 hiệu mơ hình cịn lại Chúng ta dễ d愃ng nhận điều n愃y sau đánh giá kết chạy mơ hình dựa điểm số AUC, CA, F1, Precision v愃 Overall, v愃 ROC Analysis lẫn Confusion Matrix Do đó, nhóm sử dụng Logistic Regression để dự báo doanh thu cửa h愃ng v愃 nhận kết theo bảng Hình 5.1.1 Prediction Tổng kết lại, dựa liệu m愃 nhóm nghiên cứu sử dụng dùng để nghiên cứu v愃 thực h愃nh, phạm vi nghiên cứu b愃i Logistic regression có ý nghĩa thực tiễn tốt mơ hình cịn lại 5.2 Những hạn chế hươꄁng ph愃Āt triển Nếu dựa liệu nhỏ v愃 dễ d愃ng xử lý, mơ hình phân lớp trở nên nhanh chóng v愃 linh hoạt Tuy nhiên, liệu lớn khiến trình thực b愃i 34 Downloaded by tr?n hi?n (vuchinhhp21@gmail.com) lOMoARcPSD|22243379 luận gặp nhiều khó khăn, lộ rõ điểm yếu mơ ứng dụng Orange nói chung Thứ nhất, nói trên, liệu lớn khiến cho việc mơ hình khơng đạt hiệu cao v愃 tốn nhiều thời gian để mơ hình hoạt động, q trình l愃m nhanh đơn giản m愃 khơng tốn q nhiều thời gian Điều n愃y dẫn đến trì trệ việc nghiên cứu v愃 thử nghiệm mơ hình Thứ hai, liệu không phù hợp với khai thác liệu nói chung v愃 Orange nói riêng, liệu nhóm sử dụng phù hợp với thuật toán thống kê Python v愃 đưa mơ hình tốt v愃 dự báo rõ r愃ng V愃 để cải thiện v愃 phù hợp với việc nghiên cứu, nhóm xử lý biến Outlet Sales từ biến tuyến tính th愃nh phi tuyến tính, giúp b愃i nghiên cứu nhóm đạt hiệu tốt mơ hình hoạt động tốt 35 Downloaded by tr?n hi?n (vuchinhhp21@gmail.com) lOMoARcPSD|22243379 TÀI LIỆU THAM KHẢO Nguồn Internet: Understanding Longistc Regression: https://www.geeksforgeeks.org/understanding-logistic-regression/ Logistic Regression – B愃i toán Machine Learning: https://viblo.asia/p/logistic-regression-bai-toan-co-ban-trong-machine-learning924lJ4rzKPM Advantages and Disadvantages of Logistic Regression Learning: https://www.geeksforgeeks.org/advantages-and-disadvantages-of-logisticregression/? fbclid=IwAR0winRlUMAnNSh4ZKxyiPWTDjSP90hHhu9owaFMUCfzZjQgGnd R9qLjXyM Giới thiệu Support Vector Machine: https://viblo.asia/p/gioi-thieu-ve-support- vector-machine-svm-6J3ZgPVElmB Xây dựng mô hình Neural Network: https://trituenhantao.io/kien-thuc/xay-dung- mo-hinh-neural-network/ Advantages and disadvantages of neural network: http://way2benefits.com/advantages-disadvantages-neural-networks Mơ hình định (decision tree) — Deep AI KhanhBlog (phamdinhkhanh.github.io) 36 Downloaded by tr?n hi?n (vuchinhhp21@gmail.com)

Ngày đăng: 09/05/2023, 21:22

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w