Phân tích và trực quan hóa dữ liệu mua sắm là một công cụ quan trọng giúp các doanh nghiệp bán lẻ hiểu rõ hơn về hanhg vi mua sắm của khách hàng.. CHƯƠNG 1: GIỚI THIỆU Đề tài “Phân tíc
CHƯƠNG 1: GIỚI THIỆU1.1 Giới thiệu đề tài: Đề tài “Phân tích và Trực quan hóa Dữ Liệu mua sam” la mot dé tai nghiên cứu về việc sử dụng các phương pháp khai phá dữ liệu và trực quan hóa dữ liệu đề tìm hiểu hành vi mua sắm của khách hang Đề tài này có thể được áp dụng trong nhiều lĩnh vực khác nhau, chăng hạn như kinh doanh, marketing, bán lẻ và dịch vụ bán hàng
1.2 Lý do chọn đề tài Đê tài “Phân tích và Trực quan hóa Dữ Liệu mua săm” được lựa chọn VÌ muôn hiểu duoc hanh vi mua sam của khách hàng Việc phân tích dữ liệu mua sắm có thê giúp các doanh nghiệp xác định các xu hướng và mẫu ân, từ đó cải thiện các chiên lược tiếp thị, phát triên sản phâm và dịch vụ khách hàng
1.3 Mục tiêu của đề tài
Mục tiêu của đề tài là cung cấp cái nhìn sâu sắc về hành vi mua sắm của khách hàng, từ đó giúp các doanh nghiệp hiểu rõ hơn về nhu cầu và sở thích của khách hàng Các thông tim thu thập được từ đề tài này có thé duoc sir dung dé cai thiện các chiến lược tiếp thị, phát triên sản phâm và dịch vụ khách hàng
1.4 Phương pháp nghiên cứu Đề tài này sử dụng các phương pháp nghiên cứu sau:
- Thu thập dữ liệu: Dữ liệu mua sắm sẽ được thu thập từ một số nguồn khác nhau, bao gòm cơ sở dữ liệu bán hàng, khảo sát khách hàng và phương tiện truyền thông xã hội
Làm sạch dữ liệu: Dữ liệu cần được làm sạch trước khi phân tích dé loại bỏ các giá trị bị thiếu, ngoại tệ và không nhất quán
Phân tích khám phá dữ liệu (EDA): EDA là quá trình sử dụng các kỹ thuật thống kê để khám phá các mẫu và xu hướng được ân trong dữ liệu
Trực quan hóa dữ liệu: Trực quan hóa dữ liệu là quá trình sử dụng các biểu đồ va d6 thi dé hién thị dữ liệu một cách trực quan nhất.
CHUONG 2: CO SO LY THUYET2.1 Khái niệm về mua sắm
Mua sắm là một hoạt động kinh tế và xã hội phô biến, liên quan đến việc trao đổi tiền hoặc một loại giá trị khác để đổi lay hàng hóa hoặc dịch vụ Mua sam có thể được thực hiện trực tiếp hoặc trực tuyến, và có thể được thực hiện bởi cá nhân hoặc các doanh nghiệp
Các yêu tô ảnh hưởng đến hành vi mua sắm: ô _ Yếu tố văn húa - _ Yếu tô xã hội - _ Yếu tố cá nhân - _ Yếu tố tâm lý 2.2 Nền tảng KHDL
2.2.1 Định nghĩa về KHDL KHDL, (KHDL) là một lĩnh vực sử dụng các phương pháp khoa học, toán học, thống kê, trí tuệ nhân tạo (AI) và kỹ thuật máy tính đề rút ra thông tin từ dữ liệu Dữ liệu có thể được thu thập từ nhiều nguồn khác nhau, chang hạn như các hệ thống theo đối, ứng dụng, v.v
Mục tiêu của KHDL là sử dụng dữ liệu đề hiểu hiện tượng và đưa ra quyết định KHDL được ứng dụng trong nhiều lĩnh vực, bao gồm:
- _ Tài chính: KHDL được sử dụng để phân tích dữ liệu khách hàng, dự đoán xu hướng thị trường và tối ưu hóa các quy trình kinh doanh
-ồ =Y tế: KHDL được Sử dụng để chân đoán bệnh tật, phát triển các phương pháp điều trị mới và cái thiện mới và cái thiện chất lượng chăm sóc sức khỏe
- Khoa hoc: KHDL duoc str dung dé nghiên cứu các hiện tượng tự nhiên, khám phá vũ trụ và giải quyết các vấn đề trong cuộc sóng.
KHDL là một ngành đang phát triển nhanh chóng, với nhiều cơ hội việc làm và nghiên cứu Đề trở thành một nhà KHDL, bạn cần có kiến thức về các lĩnh vực sau:
* Toán học: Toán học là nèn táng của KHDL, bao gòm các kiến thức về thuật toán, đại số và giải tích
- - Lập trình: Lập trình là cần thiết đẻ phát triên các mô hình học máy và hệ thông phân tích dữ liệu
KHDL là một lĩnh vực rộng lớn và phức tạp, nhưng nó cũng là một lĩnh vực đầy tiềm năng đang được ứng dụng trong nhiêu lĩnh vực khác nhau và có thể mang lại nhiều lợi Ích cho xã hội õ ỨNG DỤNG HỮU ÍCH CỦA DATA SCIENCE
(Ví Chọn khách hàng mục tiêu ý Giới thiệu sản phẩm
(Phân tích từ đánh giá
(VJ Phân tích hình ảnh y khoa (Điều chế thuốc Voi truyén hoc
Trợ lý sức khỏe E-commerce?
W Các đơn vị tự động hóa
Lái xe an toàn ẹ ỡ ớ Trải nghiệm lỏi xe nõng cấp
‘ ậ 3 í tệ thống vận hành xe
Nợ z W Quy trình được định sẵn Wf An foanslaothone x = ° í Báo lỗi
Fraud dete ` Phân khúc khách hàng
& ` wee ach ds aren h ẹẹớ Quyết định chiến lược
‡ Ngâ : hẩm định cho vay ; Tài chính ? ) ats eta ` 55 'Ví vòng đời Khách hàng 5 >> cee Š k 4 : (Vf Thuong mai thuat téan Phân tích rủi ro
Hình 2.1 Ứng dựng hữu ích ca KHDL
Do đó, KHDL đã trở thành công cụ không thể thiếu và quan trọng trong nhiều lĩnh vực, giúp khai khác giá trị từ dữ liệu và hỗ trợ ra quyết định thông minh.
2.2.2 Mục tiêu của KHDL KHDL là quá trình thu thập, xử lý, và phân tích dữ liệu đề tạo ra thông tin có giá trị
Quá trình này bao gồm các bước sau:
- Khám phá dữ liệu: Bước này nhằm mục đích hiệu rõ dữ liệu, bao gồm nguồn góc, cau trúc, và các đặc điểm của dữ liệu
- - Phân tích dữ liệu: Bước này nhằm mục đích tìm hiệu các mối quan hệ và hướng trong dữ liệu
- - Dự đoán và dự báo: Bước này nhằm mục đích dự đoán các giá trị trong tương lai dựa trên dữ liệu lịch sử
* _ Trích xuất thông tin quan trọng: Bước này nhằm mục đích xác định và thu thập các thông tin quan trọng từ dữ liệu
- - Học máy: Nhằm mục đích xây dựng các mô hình có thẻ học từ dữ liệu và đưa ra dự đoán
* Tao gia trị từ dữ liệu: Mục đích sử dụng thông tin từ dữ liệu để giái quyết các vấn đề thực té
KHDL có ứng dụng rộng rai trong nhiều lĩnh vực như tài chính, y té, marketing, khoa học xã hội, và giao thông Nó giúp tạo ra giá trị từ dữ liệu và cung cấp cơ sở cho việc ra quyết định dựa trên dữ liệu thay vì dựa vào cảm giác hoặc dự đoán không đáng tin cậy ^
2.3 Giới thiệu về Google Colaboratory 2.3.1 Định nghĩa Google Colab
Google Colab là một dịch vụ miễn phí của Google cho phép lập trình và phân tích dữ liệu trực tiếp trên trình duyệt web Colab được tích hợp sẵn với Python và nhiều thư viện KHDL phổ biến , giúp bạn tạo và chia sẻ các tệp ghi chú tương tác
Dưới đây là một số điểm nôi bật của Google Colab:
- - Miễn phí và dễ sử dụng: Colab không yêu cầu cài đặt phức tạp và chỉ cần kết nói internet và trình duyệt web
Hã trợ GPU và TPU: Colab cung cấp truy cập miễn phí vào các đơn vị xử ly đỏ họa (GPU và TPU), giúp tăng tốc quá trình huấn luyện các mô hình máy học
Kết hợp mã và ghi chú: Có thê kết hợp mã Python và ghi chú sử dụng định dang Markdown trong cùng một tài liệu
Lưu trữ và chia sẻ dé dàng: Dự án Colab có thê được lưu trữ trên Google Drive và dễ dàng chia sẻ với người khác
Tích hợp Github: Cho phép kết nồi với kho lưu trữ Github để quán lý mã nguôn dự án
Các thư viện Python phong phú: Colab đã tích hợp săn nhiều thư viện và frameworks Python pho bién, bao gồm TensorFlow, PyTorch, và SciKit-Learn
Tổng cộng, Google Colab là một công cụ mạnh mẽ và tiện lợi cho các dự án liên quan đến KHDL, máy học và lập trình Python Nó cung cấp khả năng truy cập dễ dàng, khả năng tính toán cao và các tính năng hữu ích khác
2.3.2 Google Colab với KHDL Google Colab là một nèn táng trực tuyến cho phép lập trình và phân tích dữ liệu bằng Python Nó cung cấp nhiều tính năng hữu ích cho các dự án và nghiên cứu KHDL, bao gồm:
Phân tích dữ liệu: Colab tích hợp sãn nhiều thư viện phân tích dữ liệu phố biến, chăng hạn như NumPy, pandas và Matplotlib Điều này giúp bạn nhập, xu lý và khám phá dữ liệu dễ dàng
Mô hình hóa và máy học: Colab hỗ trợ các framework máy học phô biến, chăng hạn như TensorFlow và PyTorch Điều này cho phép bạn xây dựng, huần luyện và đánh giá các mô hình máy học.
- Trwc quan héa dir ligu: Colab tich hop san thu vién Matplotlib, cho phép bạn tao biéu dé va biéu dé dé hién thi dir ligu mdt cach tryc quan
- _ Sử dụng GPU và TPU: Colab cung cấp truy cập miễn phí vào GPU và TPU, giúp tăng tốc quá trình huần luyện mô hình máy học và tính toán phức tạp
CHUONG 3: PHAN TICH DU LIEU3.1 Thư viện hỗ trợ trong chương trình
- numpy: Thư viện sử dụng cho tính toán số học và hình ảnh
- _ Pandas: Thư viện sử dụng đề làm việc với dữ liệu dưới dạng DataFrame
- - Matplotlib.pyplot: Thư viện trực quan hóa dữ liệu đề tạo biểu đồ và đồ thị
* Warnings: Thu vién quan lý các cảnh báo trong quá trình chạy code
- _ Seaborn: Thư viện chuyên dùng đề tạo ra các hình ánh trực quan hóa dữ liệu đẹp mat va dé hiéu
+ Warnings filterwarnings(‘ignore’): Bo qua tat ca cc canh báo không cần thiết có thê xuất hiện trong quá trình chạy code, giúp cho các kết quá chạy code trông được gọn gàng hơn
3.2 Chạy chương trình - - lmport các thư viện cần thiết và chạy dữ liệu: numpy np matplotlib.pyplot plt warnings wuarnings.filterwarnings
Hinh 3.2.1 : Code import thi vién,
Hinh 3.2.2 : Code Doc dZ liệu trong tép tin
- - Xử lý các giá trị bị thiếu và làm sạch dữ liệu © data7a7.dropna data7.drop F = F „axis=1,inplace= data7a7.drop_duplicates
Hình 3.2.3 : Code Xứ lý giá tr/ b¿ thiểu và làm sạch các dz liệu
+ Kham pha dir ligu © data7.mMonth info data7.duplicated().value counts data7.CustomerID.nunique
Hinh 3.2.4 : Code Kham phá bó dZ liệu ¢ Tao cot mdi [ ] data7 a7.Avg_Price+data7.Delivery_Charges
Hình 3.2.5 : Code Tạo mớt cột mới tính tổng giá cá
- - Phân tích và kết quả - _ 40 khách hàng có chỉ tiêu cao nhất x=val1.CustomerT1D.unique y=val1 - unique fig, axis=plt.subplots(figsize= val1=val1.sort_values(by= „ascending= sb.barplot(x=x, y=y„palette= „ax=ax1s plt.xticks(rotation plt.title
Hình 3.2.6 : Code Khách hàng chỉ tiêu cao nhát
Xác định 40 khách hàng có chỉ tiêu cao nhát được thể hiện dưới biêu đồ cột
ID KHACH HANG CO CHI TIEU CAO
O'TTOST 0'ÐZ6/T 0'0Z6/T 0'806/T 0'5S8/T 0'0S8/L 0££//L 0'8tS/L O'TTSZT 0'/10/T 0'81Z9T 0'Z98ST 0'ZS/ST 0'b69ST 0'8696T 0'1096T 0'ETSST 0'00TST 0'99/tT 0'Tt/tT 0'889tT 0'909tL 0'/0EPT 0'SETtr 0'It6£T 0'/9/£T 0'/t/ET 0'5T1/£T 0'50/€T 0'9/6€T 0'8bt€T 0'8Tt€T 0'80t£T 0'060ET 0'590ET O'LPOET 0'5S8ZL 0 16/éT 0'E8SZT 0'I£Eter u dé Khách hàng có chỉ tiêu cao Hình 3.2.7 : Bi é biến 0 Khach hang ph
-sort_values(ascendin g= ư ~ E 3 © v vu 5 eS oO Po =) _ " Vv = = rw) “ = = lo 0 oad 0 a=] val2
=val2.index, y=val2, palette= sb.barplot(x plt.xticks(rotation plt.y1abel plt.title
Hình 3.2.8 : Code 30 khách hàng phổ biến nhát
Xác định 30 khách hàng phỏ biến nhát được thẻ hiện dưới dạng biếu đồ cột
30 ID KHÁCH HÀNG PHỔ BIẾN NHẤT
0 eeocccccccccccoccoccccccccocococo ri Œ d4 O ⁄d Ơi x 3 GO 3 Bà (O (O Fà d1 Ơi 4 d CÔ x† Ơi GO hà H HH HH HOD ©®m œ *+ Œ@œ(Œœ hŒœ CC ŸÄ1C *r ©O am (DO 1Ơn Bà dd êm s† ⁄d d T 3 c ư3 ư3 (ỉ ơ di CâI1Ư) 0 (â (â é œ CO m *† ư) h @O m m ưn âé @ @ CO
NNNN MMM TTT TT TTT ONO n0 hn h ĐO xé xà xé à hà h @©Œ@
ABA dt 4 1 1A 1m1 nt At nt A 1A nA At ni nt nn nt nt nA At AA AA AA eG
Hình 3.2.9.: Biéu 4 30 khách hàng có số lượng mua hàng phổ biển - _ So sánh mua hàng dựa trên giới tinh val3a7.Gender.value_counts plt.pie(va13, 1abels= : Plies) see plt.axis plt.title sb style=
Hình 3.2.10 : Code So sánh tổng mua hàng cza nam và nữ
Xác định tông số mua hàng của nam và nữ được thể hiện dưới dang biéu đồ tròn
SO SÁNH LƯỢNG MUA HÀNG GIỮA NAM VA NU’
Hình 3.2.11.: Biểu đô so sánh lượng mua hàng giữa nam và nữ - _ Phân tích thời gian mua sắm của khách hàng plt.title
Hình 3.2.12 : Code Phân tích đồ thường xuyên và tẩn suất hoạt đông ca khách hàng
Xác định tần suất và độ thường xuyên mua sắm của khách hàng trong một tháng được thẻ hiện bằng biểu đỏ tàn suất
TAN SUAT HOAT DONG CUA KHACH HANG TRONG THANG
Hinh 3.2.13.: Biéu dé tan suất hoạt đồng ca khách hàng
- Phan tich gia trung bình valS5a7.Avg Price sb.boxplot(val5, palette= plt.title plt.xlabel plt.xticks plt.ylabel
Hinh 3.2.14 : Code Phan tich gia trung binh
Kiém tra va xac dinh gia trung binh duoc thé hién bang hép 46 thi
PHAN TICH GIA TRUNG BINH
Hình 3.2.15.: Biểu đỏ phân tích giá trung bình Phân tích chỉ tiêu hàng tháng data7 +data7 newa7 groupby calendar mon= calendar.month_name sb 1ineplot(y=new Total_Spend ,x=new index,color= plt.xticks plit.title new 1ndex, mon „rotation SN Š2oo | Le ® Ỗ ‘is gaee °© °
Hình 3.2.25.: Biểu đỏ so sánh phí giao hàng và giá trung bình hàng tháng
- _ Phân tích tần suất danh mục sản phẩm new1~data7 groupby ES bas p1t.pie(new1 ,1abe]s=new1 1ndex,autopCt= ằStartangle, explode=[ 6.8 plt.title
Hình 3.2.26 : Code Phân tích tẩn suất danh mực sđn phẩm bảng biểu đồ tròn
20 © matplot11b.pyplot plt new1 = data7.groupby fig, ax = plt.subplots new1.sort_values().plot(kind= , edgecolor= index, value enumerate(new1.sort_values ax.text(value, index, value/sum( new1 ) * ax.set_xlabel ax.set_ylabel plt.title p1t show
Hình 3.2.27 : Code Phân tích tẩn suất danh mực s¿n phẩm bằng biểu đồ ngang
Phân tích tần suất danh mục sản phẩm được thẻ hiện băng biểu đỗ tròn và biểu đồ ngang
Hinh 3.2.28.: Biéu dé Phân tích tần suất danh mạc sản phẩm bảng biểu đổ tròn
PHAN TICH TAN SUAT DANH MUC SAN PHAM
Nest-USA Office Drinkware Lifestyle Nest Bags Headgear Notebooks & Journals
Waze Nest-Canada Bottles Accessories Gift Cards Housewares Android 2 DANH MUC SAN PHAM
DO THUONG XUYEN Hình 3.2.29.: Biểu đỏ Phân tích tẩn suất danh mạc sản phẩm bảng biểu đồ ngang
Phân tích tổng số lượng và GST mỗi tháng Tổng số lượng mỗi tháng
106] sb.violinplot(data=new, x= plt.title
Hinh 3.2.30 : Code Phân tích Tổng só lượng mổi tháng
Phân tích tông só lượng mỗi tháng duoc thé hién bang biéu dé Violin
PHAN TICH TONG SO LUGNG HANG THANG
Quantity Hinh 3.2.31.: Biéu dé Phân tích tổng số lượng mỗi tháng
Hình 3.2.32 : Code Phân tích tổng GST mổi tháng
Phân tích tông GST mỗi tháng được thể hiện bằng biêu đồ hộp
PHAN TINH TONG THUE GST HANG THANG
Hinh 3.2.33.: Biéu dé Phan tich tong GST mdi thang
Tính số lượng sản phẩm mà khách hàng đã mua quana7 - -groupby val8=quan.sort_values(by= „ascending= head sb.barplot(data=va18, x=va18 index, y= „palette= plt.xticks(rotation= plt.title
Hình 3.2.34 : Code Tính sá lượng s¿n phẩm khách hàng đã mua
Tính số lượng sản phẩm mà khách hàng đã mua được thể hiện bằng biêu đồ cột
AN PHẨM ID KHÁCH HÀNG ĐÃ MUA TOI DA ? ~
081181 0S/6/1 0896/T 00S8/T 0 1t8/I 0/EE£/I 0'£Z69T 068891 0Z8/91 0'088ST 0 109ST O'ISEST 0 1I£ST 0 t61ST Đ 06£0ST £ 01161 Ð 0/99pT 9 0 1Z91 O 0'909ĐT 0'1tSt1 0 081PT 089y£T 0 80£T 0/9Z£T 0£TTET 0 T180£T 08/ZT 0TE/ZT 0//SZT 0£€£tzZ1
Hình 3.2.35 : Biểu đồ Tính số lượng sản phẩm khách hàng đã mua
Trong đồ án này, em đã xây dựng các mô hình thực toán thống kê dữ liệu mua hàng và so sánh các kết quả của từng khoảng thời gian khác nhau để đưa ra tính hiệu quả và tối ưu của dữ liệu đó mang lại Ưu điểm:
- _ Hiểu rõ hành vi mua sắm của khách hàng
- Xác định các cơ hội tăng doanh SỐ
- _ Cải thiện trải nghiệm khách hàng
-_ Tối ưu hóa chiến lược marketing
- Đòi hỏi doanh nghiệp phải có đội ngũ nhân viên có chuyên môn
- _ Các phản mèm phân tích dữ liệu mua sắm thường có giá thành khá cao
- _ Nếu dữ liệu mua sắm không chính xác, thì kết quả phân tích và trực quan hóa dữ liệu cũng sẽ không chính xác Do đó, doanh nghiệp cần đảm bảo rằng dữ liệu mua sắm được thu thập và xử lý một cách chính xác
Kết luận lại, phân tích và trực quan hóa dữ liệu mua sắm là một công cụ mạnh mẽ giúp các doanh nghiệp nâng cao hiệu quả kinh doanh Tuy nhiên, doanh nghiệp cần cân nhắc kỹ lưỡng các ưu điểm và nhược điểm của phương pháp này trước khi quyết định áp dụng