Sau khi nhận được bộ dữ liệu “Marketing Campaign” từ doanh nghiệp, nhóm đã tiến hành nghiên cứu và thảo luận để chọn ra hướng đi tìm hiểu về các yếu tố nhân khẩu học ảnh hưởng như thế n
Trang 1TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG
VIỆN KINH TẾ & KINH DOANH QUỐC TẾ
BÁO CÁO MÔN PHÂN TÍCH DỮ LIỆU KINH DOANH
TS Phạm Thị Cẩm Anh
Hà Nội, Tháng 10 năm 2023
Trang 2DANH SÁCH THÀNH VIÊN NHÓM
Trang 3MỤC LỤC
LỜI MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU VÀ CƠ SỞ LÝ THUYẾT 2
1.1 Cơ sở lý thuyết 2
1.2 Mục tiêu nghiên cứu 2
1.2.1 M c tiêu l n ụ ớ 2
1.2.2 M c tiêu nh ụ ỏ 3
CHƯƠNG 2: PHÂN TÍCH VÀ XỬ LÝ DỮ LIỆU 4
2.1 Làm sạch dữ liệu, thu gọn dữ liệu 4
2.1.1 Tìm d li u b thi u và x lý ữ ệ ị ế ử 4
2.1.2 X lý các bi n có giá tr d ng ch ử ế ị ạ ữ 4
2.1.3 S d ng Z- score đ tìm outliers ử ụ ể 5
2.1.4 Chuy n đ i các d li u ể ổ ữ ệ 7
2.2 Tìm hệ số tương quan giữa các yếu tố nhân khẩu học với lượng mua các loại mặt hàng 7
2.3 Dự báo biến ảnh hưởng lớn đến lượng mua của từng mặt hàng 9
2.4 Trực quan hóa dữ liệu 10
2.5 Xác định chân dung khách hàng 10
CHƯƠNG 3: MỘT SỐ ĐỀ XUẤT CHO CHIẾN DỊCH MARKETING TRONG TƯƠNG LAI 11
KẾT LUẬN 12
TÀI LIỆU THAM KHẢO 13
Trang 4DANH MỤC BẢNG VÀ HÌNH VẼ
Hình 2.1: Số lượng giá trị trống trong bộ dữ liệu 4
Hình 2.2: Giá trị Median của Income 4
Hình 2.3: Số dữ liệu còn trống sau khi xử lý 4
Hình 2.4: Số lượng các giá trị của biến Marital_Status 5
Hình 2.5: Các giá trị cần được gộp biến 5
Hình 2.6: Giá trị trung bình và độ lệch chuẩn của biến Year_Birth 6
Hình 2.7: Cách tính hệ số tương quan giữa các biến 9
Hình 2.8: Hệ số tương quan giữa các biến 9
Hình 2.9: Kết quả sử dụng mô hình hồi quy 10
Hình 2.10: Trực quan mô hình hồi quy tuyến tính 10
Hình 2.11: Biểu đồ phần trăm số khách hàng ở các nhóm Education 11
Hình 2.12: Biểu đồ số lượng khách hàng thuộc các nhóm Marital_Status 11
Hình 2.13: Biểu đồ phần trăm số lượng khách hàng ở các nhóm độ tuổi 11
DANH MỤC BẢNG BIỂU Bảng 2.1: Giá trị trung bình và độ lệch chuẩn của các biến còn lại 7
Bảng 2.2: Bảng chuyển đổi dữ liệu từ số sang chữ 8
Trang 5LỜI MỞ ĐẦU
Trong thời đại ngày nay, phân tích dữ liệu trong kinh doanh đóng một vai trò quan trọng trong sự thành công hay thất bại của doanh nghiệp Thay vì chỉ đưa ra quyết định dựa trên cảm tính hay kinh nghiệm, doanh nghiệp sẽ có cơ sở trực quan và khoa học để đưa ra những quyết định đúng đắn hơn Bài báo cáo dưới đây trình bày hoạt động xử lý dữ liệu để đưa ra những đề xuất về chiến dịch marketing
Sau khi nhận được bộ dữ liệu “Marketing Campaign” từ doanh nghiệp, nhóm
đã tiến hành nghiên cứu và thảo luận để chọn ra hướng đi tìm hiểu về các yếu tố nhân khẩu học ảnh hưởng như thế nào đến lượng mua của các mặt hàng mà doanh nghiệp cung cấp Từ định hướng này, nhóm đã lựa chọn ra các biến phù hợp, tiến hành nghiên cứu và đưa ra đề xuất cho doanh nghiệp
Bài báo cáo của nhóm được theo trình bày theo các phần dưới đây:
Phần 1: Tổng quan nghiên cứu và cơ sở lý thuyết
Phần 2: Phân tích và xử lý dữ liệu
Phần 3: Một số đề xuất cho chiến dịch Marketing trong tương lai
Chúng em xin được gửi lời cảm ơn chân thành nhất tới TS Nguyễn Thị Thùy Vinh và TS Phạm Thị Cẩm Anh đã hỗ trợ nhiệt tình chúng em trong quá trình thực hiện bài báo cáo Do kiến thức còn hạn chế, bài báo cáo của nhóm sẽ không tránh khỏi những sai sót trong quá trình nghiên cứu Chúng em rất mong nhận được những lời nhận xét và góp ý từ các cô để bài của nhóm hoàn thiện hơn
1.1
Trang 6CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU VÀ CƠ SỞ LÝ THUYẾT
1.1 Cơ sở lý thuyết
Nhóm đã thực hiện thu thập thông tin từ một số bài báo nghiên cứu khoa học chính thức và đưa ra một vài cơ sở lý thuyết để giải thích các giả định cho bài báo cáo phân tích kết quả kinh doanh:
Khung lý thuyết được sử dụng để xác định câu hỏi nghiên cứu đã định hình mô hình nghiên cứu cho nghiên cứu này Cụ thể, nghiên cứu này dựa trên lý thuyết hành
vi người tiêu dùng Theo như Kotler P, Wong V, Saunders J, Armstrong G thì “Quá trình mua hàng của người tiêu dùng chịu ảnh hưởng mạnh mẽ bởi văn hóa, xã hội, cá nhân và đặc điểm tâm lý” (2005) Điều này cho thấy được yếu tố nhân khẩu học đóng vai trò quan trọng khi khách hàng ra quyết định mua hàng
Ngoài ra, trong bài nghiên cứu của Rafael A Lugioyo đến từ Trường Đại học Quốc tế Florida về “Các biến số nhân khẩu học ảnh hưởng đến quyết định mua hàng” được thực hiện vào năm 2022 Các biến số chính ảnh hưởng đến quyết định mua hàng của khách hàng bao gồm các đặc điểm dân số như tuổi, thu nhập, trình độ học vấn, giới tính và liên kết chính trị Từ bài nghiên cứu trên và dựa trên bộ dữ liệu cho sẵn, chúng em đặt ra những giả định cho bài báo cáo của mình như sau:
H1: Có sự khác biệt về lượng mua các loại mặt hàng theo độ tuổi
H2: Có sự khác biệt về lượng mua các loại mặt hàng theo mức thu nhập
H3: Có sự khác biệt về lượng mua các loại mặt hàng theo trình độ học vấn
H4: Có sự khác biệt về lượng mua các loại mặt hàng theo tình trạng hôn nhân
Từ cơ sở lý thuyết trên, nhóm đưa ra câu hỏi nghiên cứu: Sự biến thiên trong việc mua sắm bất thường có thể được giải thích bởi các yếu tố nhân khẩu học như thế nào?
1.2 Mục tiêu nghiên cứu
1.2.1 Mục tiêu lớn
Mục tiêu lớn của nghiên cứu này là tìm ra nhóm khách hàng nào sẽ có sự phản hồi tích cực và mạnh mẽ với hàng hóa và dịch vụ, từ đó đề xuất các hoạt động triển khai cho chiến dịch Marketing trong tương lai
Trang 71.2.2 Mục tiêu nhỏ
- Kiểm tra mối quan hệ giữa các yếu tố nhân khẩu học với lượng mua hàng của các loại mặt hàng
- Dự báo các biến ảnh hưởng đến lượng mua hàng của các mặt hàng
- Xác định được chân dùng khách hàng của doanh nghiệp
Trang 8CHƯƠNG 2: PHÂN TÍCH VÀ XỬ LÝ DỮ LIỆU
2.1 Làm sạch dữ liệu, thu gọn dữ liệu
2.1.1 Tìm dữ liệu bị thiếu và xử lý
Chúng em sử dụng hàm COUNTBLANK để tìm dữ liệu bị thiếu và thu được giá
trị như sau:
Hình 2.1: Số lượng giá trị trống trong bộ dữ liệu
Theo kết quả trên, có 24 ô dữ liệu ở Income bị trống 24 ô trống được chúng em
sẽ cập nhật dữ liệu theo giá trị median của Education như sau:
(1) Dùng Filter để lọc dữ liệu trống ở biến Income, với các dữ liệu Income trống giá trị của Education bao gồm: Married, Single, Together và Widow
(2) Tính Median của biến Income theo 4 giá trị này Cụ thể kết quả cho được:
Hình 2.2: Giá trị Median của Income
(3) Điền các giá trị Median tương ứng với mỗi giá trị của biến Education ở các ô trống trong biến Income
Sau khi loại bỏ dữ liệu trống, kiểm tra lại dữ liệu
Hình 2.3: Số dữ liệu còn trống sau khi xử lý
Với kết quả trên, có thể thấy không còn dữ liệu nào bị trống
2.1.2 Xử lý các biến có giá trị dạng chữ
Các biến có giá trị dạng chữ nhóm xử lý bao gồm: Marital_Status; Education
Biến Martial_ Status
Để giúp dữ liệu gọn hơn và thuận tiện cho quá trình phân tích dữ liệu, nhóm chúng em sẽ gộp những biến có số lượng ít vào các biến liên quan, cụ thể:
Trang 9(1) Dùng hàm COUNTIF để xác định số lượng của mỗi giá trị trong biến
Martital_ Status thu được kết quả:
Hình 2.4: Số lượng các giá trị của biến Marital_Status
Theo như kết quả, có thể gộp giá trị Alone, YOLO, Absurb với giá trị Married và Single dựa vào biến Kidhome và biến Teenhome
(2) Nếu với số lượng Kidhome và Teenhome =0 thì giá trị được quy về giá trị Single Ngược lại, số lượng Kidhome hoặc Teenhome hoặc cả Kidhome và Teenhome >0 thì giá trị được quy về giá trị Married
Hình 2.5: Các giá trị cần được gộp biến
Theo như kết quả sau khi lọc, thì các giá trị Alone, YOLO đều quy về giá trị Married và các giá trị Absurb được quy về giá trị Single
Biến Education
Làm tương tự với biến Marital_Status nhưng do không có biến nào có số lượng biến quá ít nên giữ nguyên dữ liệu biến
2.1.3 Sử dụng Z- score để tìm outliers
Ngoài các biến Year_Birth, Education, Martial_Status, Income, MntWines, MntFruits, MntMeatProducts, MntFishProducts, MntSweetProducts và MntGoldProds
mà chúng em sử dụng đến thì chúng em ẩn các biến còn lại để giúp dữ liệu gọn hơn Tính Z-score để tìm các biến ngoại lai cụ thể:
(1) Tính giá trị trung bình của các giá trị của biến bằng cách dùng hàm
AVERAGE
Trang 10(2) Ước tính độ lệch chuẩn sử dụng hàm STDEV.P để xác định độ lệch chuẩn của
các giá trị của biến
(3) Đánh giá điểm Z của giá trị, xác định điểm Z của các giá trị bằng cách lấy giá trừ đi giá trị trung bình và chia cho độ lệch chuẩn
(4) Xác định các biến ngoại lai, giá trị điểm Z nằm trong khoảng từ -3 đến 3.Vì vậy, nếu giá trị nào nhỏ hơn -3 hoặc lớn hơn 3 sẽ là biến ngoại lai Sử dụng
hàm OR để chạy dữ liệu này Nếu giá trị cho kết quả là TRUE thì là biến ngoại
lại
● Với biến Year_Birth:
Hình 2.6: Giá trị trung bình và độ lệch chuẩn của biến Year_Birth
Sau khi sử dụng Z-score biến Year_Birth có 3 biến ngoại lai cần phải loại bỏ Làm tương tự với các biến còn lại, thu được kết quả:
cần loại bỏ
Trang 11Bảng 2.1: Giá trị trung bình và độ lệch chuẩn của các biến còn lại
Trang 122.1.4 Chuyển đổi các dữ liệu
Chuyển đổi dữ liệu từ dạng chữ sang dạng số
Tên biến Giá trị trước khi chuyển đổi Giá trị sau khi chuyển đổi
Bảng 2.2: Bảng chuyển đổi dữ liệu từ số sang chữ
Chuyển đổi biến Year_Birth
Để thuận tiện hơi cho việc phân tích dữ liệu, thay vì dùng năm sinh của khách hàng để phân tích thì nhóm chúng em chuyển dữ liệu từ năm sinh sang tuổi lấy mốc
thời gian là hiện tại và sử dụng hàm YEAR để tính
2.2 Tìm hệ số tương quan giữa các yếu tố nhân khẩu học với lượng mua các loại mặt hàng
Để tìm ra mối liên hệ giữa các yếu tố nhân khẩu học và lượng mua hàng đối
với các sản phẩm khác nhau, nhóm đã sử dụng hàm “=Correl(array1, array2)”.
Hình dưới đây mô tả thao tác thực hiện tìm hệ số tương quan giữa độ tuổi và lượng mua hàng đối với sản phẩm rượu của khách hàng:
Trang 13Hình 2.7: Cách tính hệ số tương quan giữa các biến
Áp dụng tương tự với các biến nhân khẩu học còn lại, ta tìm được các chỉ số tương quan giữa các yếu tố nhân khẩu học và lượng mua hàng Có được bằng việc sử
dụng công cụ “Conditional Formating”, nhằm mục đích trực quan hóa dữ liệu,
Heatmap dưới đây thể hiện chỉ số tương quan giữa các yếu tố nhân khẩu học với lượng mua hàng của các loại sản phẩm được phân tích
Hình 2.8: Hệ số tương quan giữa các biến
Nhận xét:
- H1: Có sự khác biệt về lượng mua hàng theo độ tuổi Lượng mua hàng có tương
quan đồng biến đối với mức thu nhập (Income) và độ tuổi (Age)
- H2: Có sự khác biệt về lượng mua hàng theo mức thu nhập Yếu tố mức thu
nhập (Income) được khảo sát và lượng mua sản phẩm rượu (MntWine) có tương quan chặt chẽ nhất (0.738), tiếp sau đó là lượng mua thịt (MntMeatProducts) (0.715), nghĩa là: khi mức thu nhập tăng lên, khách hàng
có xu hướng tiêu dùng rượu và thịt nhiều hơn
- H3: Hầu như không có sự khác biệt về lượng mua hàng theo trình độ học vấn
(Education)
- H4: Hầu như không có sự khác biệt về lượng mua hàng theo tình trạng hôn nhân
Trang 142.3 Dự báo biến ảnh hưởng lớn đến lượng mua của từng mặt hàng
Từ phần tính toán hệ số tương quan ở trên ta có thể nhận thấy mối quan hệ đồng biến giữa thu nhập với tất cả lượng mua hàng của các loại mặt hàng Nhóm cho rằng thu nhập quyết định rất lớn đến lượng mua hàng của tất cả các loại hàng
Nhận thấy giá trị Correlation giữa MntWines và Income gần giá trị 1 nhất nên nhóm sử dụng mô hình hồi quy dự báo sự phụ thuộc với nhau giữa hai biến (dùng Regression trong Data Analysis)
Hình 2.9: Kết quả sử dụng mô hình hồi quy
Hình 2.10: Trực quan mô hình hồi quy tuyến tính
Có thể nhận thấy giá trị Adjusted R Square là 57,48% nên model này là đúng Tiếp tục áp dụng với các loại mặt hàng khác ta có kết quả ở bảng dưới đây:
Products
MntFishP roducts
MntSweet Products
MntGold Products Adjust
R
Square
Trang 15Như vậy chỉ duy nhất giá trị Adjust R Square của hai biến MntWines và Income
là có giá trị lớn hơn 50%
Từ đây nhóm nhận thấy, yếu tố thu nhập của khách hàng nên được chú ý nếu muốn đẩy mạnh doanh thu của mặt hàng rượu
2.4 Trực quan hóa dữ liệu
Hình 2.11: Biểu đồ phần trăm số khách hàng ở các nhóm Education
Hình 2.12: Biểu đồ số lượng khách hàng thuộc các nhóm Marital_Status
Hình 2.13: Biểu đồ phần trăm số lượng khách hàng ở các nhóm độ tuổi
2.5 Xác định chân dung khách hàng
Từ các biểu đồ trên có thể thấy, khách hàng chủ yếu của doanh nghiệp là nhóm người tuổi trung niên (từ 36-55 tuổi), trình học vấn cử nhân
Trang 16CHƯƠNG 3: MỘT SỐ ĐỀ XUẤT CHO CHIẾN DỊCH
MARKETING TRONG TƯƠNG LAI
Đối tượng khách hàng: Chủ yếu hướng tới những người trong độ tuổi từ 36 - 55 tuổi, trình độ học vấn cử nhân, những người đã kết hôn
Đề xuất chiến lược Marketing Mix:
Về giá cả (Price): Nhận thấy lượng mua rượu tương đối lớn, chứng tỏ mức giá của campaign trước đưa ra đã phù hợp và được khách hàng chấp nhận chính vì thế campaign tới nhóm đề xuất giữ nguyên mức giá của các mặt hàng
Về phân phối (Place): Do đối tượng khách hàng chủ yếu là trung niên nên chiến dịch tới cần đẩy mạnh số lượng hàng hóa ở các kênh bán hàng mà khách hàng mục tiêu hay đến mua hàng như như siêu thị, đại lý, đặc biệt đẩy mạnh vào thời điểm cuối tuần và dịp lễ
Về sản phẩm (Product): Nhóm đề xuất doanh nghiệp triển khai hoạt động nghiên cứu và phát triển để sản xuất và bán ra đa dạng các loại mặt hàng rượu Đa dạng về cả dung tích, về hương vị, về nồng độ, thời gian ủ để đáp ứng được tối ưu nhất nhu cầu đang ngày càng thay đổi của khách hàng
Về xúc tiến bán (Promotion): Đề xuất doanh nghiệp triển khai các combo vào các dịp lễ hoặc cuối tuần để tăng lượng mua Đồng thời nhóm gợi ý triển khai phát hành thẻ thành viên cho khách hàng đối với mặt hàng rượu Theo nhóm tính toán, lượng mua trung bình của mặt hàng rượu là 265 đơn vị sản phẩm, từ đó nhóm đề xuất khi khách hàng tham gia thẻ thành viên sẽ được tích điểm và đổi lấy voucher, đồng thời khi khách hàng có hóa đơn với lượng rượu đạt 280 đơn vị sẽ được giảm giá 15% cho lần mua sau
Trang 17KẾT LUẬN
Trong bài báo cáo nghiên cứu này, chúng em đã tập trung vào việc phân tích hành vi mua hàng của khách hàng nhằm phục vụ cho chiến dịch marketing và tìm ra những khách hàng có khả năng phản hồi tích cực đối với đề xuất hàng hóa hoặc dịch
vụ cụ thể Tổng kết lại, với 4 giả thuyết mà nhóm đã đưa ra, nhóm nhận thấy lượng mua hàng có tương quan đồng biến đối với mức thu nhập và độ tuổi; có sự khác biệt
về lượng mua hàng theo mức thu nhập, mức thu nhập và lượng mua sản phẩm rượu có tương quan chặt chẽ nhất Từ kết quả phân tích dữ liệu trên data cho sẵn, chúng em đã
đề xuất cho chiến dịch marketing mới Chúng em rất mong nhận được góp ý từ cô để bài nghiên cứu được hoàn thiện hơn!
Chúng em xin chân thành cảm ơn
Trang 18TÀI LIỆU THAM KHẢO
1 Rafael Antonio Lugioyo (3-9-2022) Demographic Variables that Influence the Purchase Decision, from https://digitalcommons.fiu.edu/cgi/viewcontent.cgi? article=64 03&context=etd