23 3.1 LÝ THUYET PHAN TÍCH VÀ KIEM ĐỊNH 3.2 THỰC HIỆN PHAN TÍCH VÀ KIÊM ĐỊNH DOI VỚI CÁC YEU TO CHU QUAN 3.2.1 Phân tích sự ảnh hưởng của tuôi nhân viên bán hàng đên doanh sô và tỉ lệ ho
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHÓ HÒ CHÍ MINH
TRUONG DH CÔNG NGHỆ THONG TIN
Bk OS
NGUYEN HO KHANH
PHAN TÍCH DU LIEU BAN HANG CUA CONG TY CO
PHAN BOT GIAT LIX VÀ XÂY DUNG MÔ HÌNH DỰ
BAO DOANH SO
LUẬN VAN THAC SĨ
NGANH CONG NGHE THONG TIN
MA SO: 8.48.02.01
NGƯỜI HƯỚNG DAN KHOA HOC
TS DO TRỌNG HOP
TP HO CHÍ MINH - NĂM 2023
Trang 2LỜI CÁM ON
Lời đầu tiên, tác giả xin trân trọng cảm ơn Ban Giám hiệu, Khoa Khoa học và
Kỹ thuật Thông tin, phòng Đảo tạo Sau Đại học và Khoa học Công nghệ Trường Đại
học Công Nghệ Thông Tin - Đại Học Quốc Gia TP HCM đã tạo mọi điều kiện để tác giả thực hiện luận văn đúng tiến độ cũng như hỗ trợ tác giả trong quá trình học
tập và nghiên cứu tại Trường.
Tác giả trân trọng và cảm ơn thầy Đỗ Trọng Hợp, người đã định hướng, động viên, tận tình hướng dẫn và tư vấn cho em trong suốt quá trình thực hiện và hoàn
thành luận văn.
Tác giả xin gởi lời cảm ơn đến các Thầy Cô giảng viên ở UIT, những người đã mang đến kiến thức và kỹ năng trong thời gian học vừa qua đề tác giả tích lũy được những tri thức quí báo góp phần hoàn thành tốt luận văn.
Tác giả cũng xin gởi lời cam ơn đến Ban Lãnh đạo Công ty Cô phan Bột giặt Lix
đã hỗ trợ và tạo điều kiện để tác giả thu thập, khảo sát thông tin đữ liệu thực hiện đề tài Đặc biệt là các anh chị nhân viên bán hàng ngoài thị trường đã hoàn thành phiếu khảo sát về thông tin của bản thân mình trong thời gian qua.
Cuối cùng, tác giả xin gởi lời yêu thương và trân trọng cảm ơn đến gia đình và đồng nghiệp — nguồn cô vũ mạnh mẽ và động viên to lớn để tác gia tim hiéu, nghién
cứu và hoàn thiện Luận van
TP Hồ Chí Minh, ngày 10 tháng 11 năm 2023
Tác giả
Nguyễn Hồ Khánh
Trang 3LỜI CAM KÉT
Với uy tín và danh dự của mình, tôi cam kết chắc chắn rằng Luận văn: “PHÂN TÍCH DU LIEU BAN HANG CUA CÔNG TY CO PHAN BỘT GIẶT LIX VÀ XÂY DỰNG MÔ HÌNH DỰ BAO DOANH SO” là dé tài nghiên cứu của tôi, được
thực hiện và hoàn thiện dưới sự hướng dẫn khoa học của TS Đỗ Trọng Hợp.
Các trích đẫn cũng như tham khảo trong đề tài nghiên cứu này đều được trích dẫn day đủ, ghi rõ nguồn góc.
Tôi xin chịu trách nhiệm về những kết luận trong đề tài nghiên cứu này.
TP HCM, ngày 10 tháng 11 năm 2023
Học viên thực hiện
Nguyễn Hồ Khánh
Trang 4MỤC LỤC
CHƯƠNG |: TONG QUAN VE DE TAI
1.1 Van đề nghiên cứu
1.2 Tính khoa học và tính mới của dé tai
1.3 Mục tiêu của dé tài
1.4 Các nghiên cứu liên quan.
CHUONG 2: HIEU VE BỘ DỮ LIỆU, XÂY DUNG CÁC GIA THUYET, KHẢO SÁT
THU THẬP VÀ TIEN XỬ LÝ DỮ LIỆU 14
2.1 Hiểu về Bộ Dữ liệu 14
2.2 Tính cỡ mẫu 17
a Trường hợp không biệt quy mô tông thé -¿- ¿5+5 5+c++c++s+zs++c++xe+ 17
b Trường hợp biết quy mô tổng thỂ -222:+2222E2222+t2222EEEEErrrtrrrrrrrrrrrrrrr 18 2.3 Xây dựng các giả thuyết 19
2.4 Tổng hợp, xử lý, biến đổi và làm sạch dữ liệu: seeeerrsrrervee 2
CHƯƠNG 3: THỰC HIEN PHAN TÍCH VÀ THONG KE KIÊM ĐỊNH 23
3.1 LÝ THUYET PHAN TÍCH VÀ KIEM ĐỊNH
3.2 THỰC HIỆN PHAN TÍCH VÀ KIÊM ĐỊNH DOI VỚI CÁC YEU TO CHU QUAN
3.2.1 Phân tích sự ảnh hưởng của tuôi nhân viên bán hàng đên doanh sô và tỉ lệ hoàn
thành chỉ tiêu hàng tháng của nhân viên bán hang
3.2.2 Phân tích sự ảnh hưởng của giới tính nhân viên bán hàng đên doanh số và tỉ lệ
hoàn thành chỉ tiêu hàng tháng của nhân viên bán hàng
3.2.3 Trình độ học vấn của nhân viên bán hàng có ảnh hưởng đên doanh số va tỉ lệ
thành chỉ tiêu hàng tháng của nhân viên bán hàng
3.2.4 Kinh nghiệm bán hang của nhân viên bán hàng có ảnh hưởng dén doanh
lệ hoàn thành chỉ tiêu hang tháng của nhân viên bán hang
3.2.5 Thời gian làm việc tại công ty có ảnh hưởng đến doanh số và tỉ lệ hoàn thành chỉ
tiêu hàng tháng của nhân viên bán hàng " 238
3.2.6 Mức độ yêu thích nghề nghiệp có ảnh hưởng đến doanh số và ti lệ hoàn thành chi
tiêu hàng tháng của nhân viên bán hang 40
3.2.7 Mức độ hài lòng về các chính sách chế độ của công ty có ảnh hưởng đến doanh
sô và tỉ lệ hoàn thành chỉ tiêu hàng tháng của nhân viên bán hàng .
3.3 THỰC HIỆN PHAN TÍCH VÀ KIÊM ĐỊNH DOI VỚI CÁC YEU TO KHÁCH
QUAN
3.3.1 Phân tích sự ảnh hưởng của khu vực bán hàng
viên bán hàng
-3
Trang 53.3.4 Phân tích sự ảnh hưởng của Số nhóm sản phẩm mà nhân viên bán hàng được bán doanh số và tỉ lệ hoàn thành chỉ tiêu của nhân viên bán hàng - + 62
3.4 ĐÁNH GIÁ MỖI TƯƠNG QUAN CUA CÁC BIEN ĐỘC LAP QUA MA TRAN
PEARSON
3.5 PHAN TÍCH VÀ KIÊM ĐỊNH CÁC GIẢI THUYET TO HỢP CÁC BIEN ĐỘC LẬP ANH HUONG DEN SAN LƯỢNG BÌNH QUAN 2225222 ccccccvveerrrrvcee 68 3.6 KET QUA PHAN TÍCH VÀ KIEM ĐỊNH 222:-222222212222222221122cccrrer 71 CHƯƠNG 4: KET QUA XÂY DUNG MÔ HINH DỰ BAO SAN LƯỢNG
4.1 Lựa chon mô hình dự báo sản lượng: - +55 5+s++s+ccs+
4.2 Dự báo sản lượng ban hang theo mô hình ARIMA - 5-5255 c+c++xscvre+73
4.2.1 Tông quan về bộ đữ liệu nghiên cứu -::22222222+z+t2222vvvccrrrrrrx 73
4.2.2 Mô hình dự báo sản lượng ban hàng
4.3 Dự báo sản lượng bán hàng theo mô hình RNN.
4.3.1 Dự báo sản lượng với tổ hợp 1 KHUVUC:PLDANSO:DONGLUC "
4.3.2 Dự báo sản lượng với tổ hợp 2 KHUVUC:DONGLUC:TUOI 84 4.3.2 So sánh 2 mô hình theo tổ hợp 1 và tổ hợp 2 -cc:z£522sscccz+cc+x 88 CHƯƠNG 5: KET LUẬN VÀ KHUYEN NGHỊ
Trang 6BANG VIET TAT
Analysis of Variance AutoRegressive Integrate Moving Average Autoregressive Moving Average
Business-to-business
Distribution management system — Hệ thống quan lý kênh phân phối
Key Performance Indicator
Long Short Term Memory Recurrent Neural Network
Kiém dinh T-Test
Tukey-HSD | Tukey's Honestly Significant Difference
Trang 7BANG HÌNH ANH, DO THỊ
Hình 1.1 Sơ đồ mô tả hệ thống DMS của Công ty CP Bột giặt Lix
Hình 2.1 Một số giao diện tiêu biểu của App DMS
Hình 2.2 Khảo sát online nhân viên bán hàng thông qua DMS
Hình 2.3 Trang web của tổng cục thống kê Việt Nam
Hình 2.4 Các file dữ liệu thô được trích xuất ra từ nhiều ngu
Hình 2.5 Dữ liệu thu thập được nhưng bị thiếu.
Hình 2.6 Dữ liệu thu thập được nhưng không đồng nhất
Hình 3.1 Tương quan giữa tuéi nhân viên bán hàng va sản lượng bình quân thang.
Hình 3.2 Kết quả mô hình OLS giữa tuổi nhân viên và sản lượng bình quân tháng 27 Hình 3.3 Tương quan giữa tuổi nhân viên bán hang và tỉ lệ hoàn thành chỉ tiêu tháng 29
Hình 3.4 Ti lệ nam va nữ trong đội ngũ nhân viên bán hàng và Ti lệ tông sản lượng của
nam và nữ 30
Hình 3.5 Sản lượng bình quân trung bình của nhân 30 Hình 3.6 Kiểm định t-test với sản lượng và giới tín 31
Hình 3.7 Kết qua phân tích OLS về mức độ ảnh hưởng của giới tinh với san lượng.
Hình 3.7 Tỉ lệ hoàn thành chỉ tiêu tháng trung bình của nhân viên nam và nữ
Hình 3.8 Kiêm định t-test với tỉ lệ hoàn thành chỉ tiêu tháng và giới tính.
Hình 3.9 Sản lượng bình quân trung bình theo trình độ nhân viên
Hình 3.10 Tỉ lệ hoàn thành chỉ tiêu tháng trung bình theo trình độ nhân viên
Hình 3.11 Kiểm định ANOVA với Sản lượng và trình độ nhân viên
Hình 3.12 Kiểm định ANOVA với Tỉ lệ hoàn thành chỉ tiêu tháng và trình
Hình 3.13 Sản lượng bình quân trung bình theo nhóm kinh nghiệm
Hình 3.14 Tỉ lệ hoàn thành chỉ tiêu tháng trung bình theo nhóm kinh nghiệm
Hình 3.15 định ANOVA với Sản lượng và nhóm kinh nghiệm.
Hình 3.16 Kiêm định ANOVA với Sản lượng và nhóm kinh nghiệm.
Hình 3.17 Sản lượng bình quân trung bình theo nhóm năm làm việc
Hình 3.18 Tỉ lệ hoàn thành chỉ tiêu tháng trung bình theo nhóm năm làm việ
Hình 3.19 Kiểm định ANOVA nhóm năm làm việc với tỉ lệ hoàn thành chỉ tiêu tháng
Hình 3.20 Kiểm định ANOVA nhóm năm làm việc với sản lượng bình quân
Hình 3.21 Sản lượng bình quân trung bình theo mức độ yêu nghề
Hình 3.22 Ti lệ hoàn thành chỉ tiêu tháng trung bình theo nhóm mức độ yêu nghệ
Hình 3.23 định ANOVA mức độ yêu nghề với sản lượng bình quân
Hình 3.24 định ANOVA mức độ yêu nghề với tỉ lệ hoàn thành chỉ tiêu tháng
Hình 3.25 Sản lượng bình quân trung bình theo mức độ hài lòng chính sách
Hình 3.26 Tỉ lệ hoàn thành chỉ tiêu tháng trung bình theo mức độ hài lòng chính sách
Hình 3.27 Kiểm định ANOVA mức độ hai lòng với sản lượng bình quân
Hình 3.28 Kết quả OLS về mức độ ảnh hưởng của mức độ hai lòng với sản lượng bình quân
45
10 14 15 15 20 21 21 26
Hinh 3 28 Kiém dinh "ANOVAn mức c độ hài lòng với tỉ lệ hoàn thành chỉ tiêu tháng.
Hình 3.29 Kết quả phân tích Tukey-HSD sự khác nhau về sản lượng giữa các nhóm phân loại mức độ hài lòng 46
Hình 3.30 Kết quả phân tích Tukey-HSD sự khác nhau về tỉ lệ hoàn thành chỉ tiêu tháng
giữa các nhóm phân loại mức độ hai long 47
Hình 3.31 Tổng sản lượng bình quân tháng theo khu 48
Hình 3.32 Tông sản lượng bình quân tháng theo tỉnh/thành ph 49
Hình 3.33 Sản lượng bình quân trung bình theo khu vực địa lý 50 Hình 3.34 Tỉ lệ hoàn thành chỉ tiêu tháng trung bình theo khu vực địa lý 50
Hình 3.35 Kết qua phân tích mô hình OLS của khu vực địa lý với sản lượng bình quân 51
6
Trang 8Hình 3.36 Kiểm định ANOVA khu vực địa lý với tỉ lệ hoàn thành chỉ tiêu tháng 52
Hình 3.37 Kết quả phân tích Tukey-HSD sản lượng bình quân giữa các vùng miễn ¬ 53
Hinh 3.38 Két qua phân tích Tukey-HSD san lượng bình quan giữa các vùng miễn 33
Hình 3.39 Biéu đồ dân sỐ của các khu vực dia Ïý cành net 54
Hình 3.40 Biểu đồ dân số của các khu vực địa II 55
Hình 3.41 Biéu đồ dân số của các khu vực địa lý - 2-2 2+ ++E++E2EzEzErkerrerrees 55 Hình 3.42 Kiểm định OLS phân nhóm dân số với sản lượng bình quân 56 Hình 3.43 Kiểm định ANOVA phân nhóm dân số với tỉ lệ hoàn thành chỉ tiêu tháng 57 Hình 3.44 Kết quả phân tích Tukey-HSD sản lượng bình quân giữa các nhóm dân số 57 Hình 3.45 Kết quả phân tích Tukey-HSD sản lượng bình quân giữa các nhóm dân số 58 Hình 3.46 Sự tương quan giữa sản lượng bình quân và số lượng cửa hang 58 Hình 3.47 Sự tương quan giữa ti lệ hoàn thành chi tiêu thang và số lượng cửa hang 59 Hình 3.48 Kết quả phân tích theo mô hình OLS giữa số lượng cửa hàng và sản lượng bình
pc cề.ạnmậmmngaTNNNNNNNNNNgg 60
Hình 3.49 Két qua thu được theo mô hình OLS giữa sô lượng cửa hang và tỉ lệ hoàn thành
chỉ tiêu thắng - - «+ k 9S g gre "` 61 Hình 3.50 Sản lượng bình quân trung bình theo sô nhóm sản phâm được bán 62
Hình 3.51 Ti lệ hoàn thành chỉ tiêu tháng trung bình theo số nhóm sản phẩm được bán 63 Hình 3.52 Kiểm định ANOVA phân nhóm sản pham bán với san lượng bình quân 63 Hình 3.53 Tính hệ số Pearson dé xét mức độ tương quan - -:+©s +z2s++ssze: 64 Hình 3.54 Kiểm định ANOVA nhóm sản phẩm bán với tỉ lệ hoàn thành chỉ tiêu tháng 64 Hình 3.55 Kết quả phân tích Tukey-HSD sản lượng bình quân giữa các nhóm bán số sản
J0 2)08 410 65
Hình 3.56 Kết quả phân tích Tukey-HSD tỉ lệ hoàn thành chỉ tiêu tháng giữa các nhóm bán
số sản phẩm khác nhau - 2-5 ©5¿2SE2S£2SE£EE2E29EE£EEEEE19EE21157121127171121171711211 71.21 rxeC 66 Hình 3.57 Kết quả ma trận tương quan Pearson giữa các yếu tô độc lập -. 68
Hình 4.1 Sản lượng bán hàng từng vùng và tổng cộng theo thời gian - - 74
Hình 4.2 Đồ thị kiêm tra tính đừng (tinh ồn định) của chuỗi dữ liệu 74 Hình 4.3 Code kiểm tra tính dừng (tính ồn định) của dữ liệu . ¿ ¿ 5+-‹ 75
Hình 4.4 Biểu đồ Sai phân bậc l -:- ¿25221912212 12E12E1211211211211211211 21121 21.cxee, 75 Hình 4.5 Kết quả kiểm định ADF sau khi Sai phân bậc L -: -¿ 5z-5z 76 Hình 4.6 Kết quả kiểm định ADF sau khi loại bỏ giá trị ngoại lai -2- 2-2: 76
Hình 4.7 Đồ thị tương quan ACF cua chuỗi dữ liệu sản lượng - «-«c~+
Hình 4.8 Do thị tương quan PACF của chuoi dữ liệu sản lượng
Hình 4.9 Đồ thị tương quan giữa độ dài có định chuỗi dữ liệu với MSE (tổ hợp 1) 82
Hình 4.10 Tương quan giữa so tuần dự báo và MSE (tổ hợp Ï) cceeree 83
Hình 4.11 Sản lượng thực tế và dự báo theo thời gian (tô hợp Ï) <-c+<-x++ 84 Hình 4.12 Đồ thị tương quan giữa độ dài có định chuỗi dữ liệu với MSE (tổ hợp 2) 86
Hình 4.13 Tương quan giữa so tuần dự báo và MSE (tô hợp 2) ceeeeerererre 87
Hình 4.14 Sản lượng thực tế va dự báo theo thời gian (tổ hợp 2) - -: s: - 88
Trang 9Bang 3.5 Bang két qua phan tich ANOVA két hợp các biến độc lập 69
Bang 4.1 Hệ số tự tương quan ACF và hệ số tự tương quan riêng phần PACF của chuỗi dit
lidu :10ix¡ 1-0380 77
Bảng 4.2 Dự báo sản lượng bán hang của 12 tháng tiếp theo -¿ 5: 5z-: 79 Bảng 4.3 Sản lượng bán hàng theo tuần năm của từng nhân viên (DVT: KG) 80 Bảng 4.4 Tương quan giữa chiều dài cố định các chuỗi thời gian và MSE 81
Bang 4.5 Tuong quan gitta số tuần dự báo và MSE (tổ hợp ]) -¿-c-+ccccccersrred 82
Bảng 4.6 Kết quả dự báo I1 tuần tiếp theo so với dữ liệu thực £6 ooeccescccsecseessessesssessecseeeses 83
Bảng 4.7 Tương quan giữa chiều dài có định các chuỗi thời gian va MSE (tô hợp 2) 85
Bảng 4.8 Tương quan giữa số tuần dự báo và MSE (tổ hợp 2) -¿©ccccccccccrerree 86
Bang 4.9 Kết quả dự báo 11 tuần tiếp theo so với dữ liệu thực tế (tổ hợp 2) - 87 Bang 4.10 Tông hợp dự báo của 2 mô hình theo tô hợp 1 và tổ hợp 2 - 88
Trang 10MỞ ĐẦU
Việc phân tích số liệu kinh doanh là một hoạt động không thê thiếu đối với bất kỳ
doanh nghiệp nào hoạt động trong lĩnh vực sản xuất kinh doanh, nó giúp Ban Lãnhđạo có cái nhìn tổng thé về hoạt động kinh doanh của doanh nghiệp, đưa các chiếnlược kinh doanh phù hợp về giá, khuyến mãi, chất lượng sản phẩm Nhằm giúp
phòng Kinh doanh của LIXCO phân tích và trực quan hóa dữ liệu bán hàng của nhân
viên bán hàng ngoài thị trường, tác gia đã thu thập dữ liệu về doanh số sản pham, chitiêu bán hàng của nhân viên từ tháng 6 năm 2021 đến tháng 7 năm 2023 từ hệ thốngDMS (Hệ thống quản lý kênh phân phối), đồng thời tiễn hành cuộc khảo sát thông tinnhân viên bán hàng để có đầy đủ di liệu, các thuộc tinh cần thiết dé phân tích và dựbáo doanh số bán hàng Tác giả sử dụng các phương pháp phân tích dữ liệu truyềnthống kết hợp với trực quan hóa dữ liệu thông qua các loại biéu đồ như boxplot,histogram, linechart, barchart Đồng thời sử dụng các kỹ thuật kiểm định giả thuyếtnhư t-test, ANOVA, Tukey-HSD dé cho thay su khac biét dang kể của các thuộc tinh
có thực sự ảnh hưởng đến doanh số sản phẩm hay không Bên cạnh đó, tác giả cũng
đã xây dựng mô hình dự báo doanh số sản pham (sản lượng bán) dua vào mô hình dựbáo ARIMA và phương pháp học sâu LSTM đề đưa ra sản lượng dự báo trong tương
lai Với việc phân tích, trực quan hóa dữ liệu kinh doanh cùng với việc đưa ra mô
hình dự báo, phần nào giúp Công ty có cơ sở đề xây dựng các chiến lược kinh doanhngắn hạn, dai hạn đối với từng vùng, từng nhóm hàng cụ thé thông qua những phương
pháp phân tích khoa học.
Trang 11CHƯƠNG 1: TONG QUAN VE DE TÀI 1.1 Vấn đề nghiên cứu
LIXCO là một doanh nghiệp chuyên sản xuất và kinh doanh các sản phẩm chat tay
rửa chăm sóc gia đình như: bột giặt, nước giặt, nước rửa chén, nước lau san Công
ty có hệ thống quản lý kênh phân phối (DMS) dùng dé theo dõi doanh số của gần 500nhân viên bán hàng và 100.000 điểm bán hàng
Hình 1.1 Sơ đồ mô tả hệ thống DMS của Công ty CP Bột giặt Lix
Với bộ đữ liệu về doanh số bán hàng thuộc miền Trung và miền Nam (Thị trường
chủ yếu của Công ty) trong khoảng 3 năm qua, ta có thê phân tích các yếu tố ảnh
hưởng đến doanh số của nhân viên bán hang Trực quan hóa dit liệu dé thấy rõ hơnmối liên hệ của các yếu tô và xu hướng dữ liệu doanh số, từ đó giúp Công ty đánh giá
được ảnh hưởng của các yếu tố đến doanh số chung, giúp công ty đưa ra chiến lược
Trang 12Input: Bộ dữ liệu về doanh số (sản lượng bán hàng) và tỉ lệ hoàn thành chỉ tiêuhàng tháng của các nhân viên bán hàng thuộc phạm vi miền Trung và miền Nam trong
3 năm gần nhất Thông tin và đặc tính về nhân viên bán hàng gồm các thuộc tính (cácyếu tố có thé ảnh hưởng đến doanh số) như:
Giới tính, tuôi, thâm niên, trình độ, chuyên môn, vi trí địa lý, dân sô, nhóm san
phẩm bán, số cửa hàng quản lý
Output: Biéu đồ thống kê, biéu đồ tương quan của các yếu t6 dé trực quan hóa và
mô tả dữ liệu, mô hình dự báo sản lượng của nhân viên bán hàng.
1.2 Tính khoa học và tính mới của đề tài
Doanh số bán hàng của nhân viên ngoài thị trường bao gồm sản lượng bán, tỉ lệphan trăm chỉ tiêu đạt được hang tháng thường bị anh hưởng bởi nhiều yếu tố khácnhau: bản thân nhân viên (tuổi, giới tính, trình độ, kinh nghiệm bán hang, mức độ yêuthích nghề nghiệp ), các chính sách về giá, chất lượng, khuyến mãi Các nghiêncứu hiện tại đều không đi sâu vào phân tích các ảnh hưởng của yếu tô kê trên đến sản
lượng bán cũng như tỉ lệ đạt được chỉ tiêu tháng.
Từ yêu cầu thực tiễn trên, tác giả sử dụng phương pháp trực quan hóa đữ liệu bằng
các biểu đồ hộp (Boxplot), biểu đồ cột, biểu đồ tần suất (Histogram), biéu đồ scatter
dé thay rõ mối quan hệ giữa các yếu tố với sản lượng và tỉ lệ hoàn thành chỉ tiêu Sau
đó dùng các kiểm định T-test, ANOVA, Tukey-HSD, phân tích OLS, ma trận Pearson
dé xác định mức độ ảnh hưởng và sự tương tác lẫn nhau của các yếu t6
Đề dự báo sản lượng theo tháng hoặc tuần, tác giả sử dụng các mô hình dự báochuỗi thời gian như ARIMA, mô hình học sâu RNN Từ đó so sánh các mô hình déthay rõ hiệu suất của từng mô hình với bài toán dự báo sản lượng
1.3 Mục tiêu của dé tai
Mục tiêu 1: Trực quan hóa dữ liệu, đưa ra được các biểu đồ tương quan của cácyếu tô ảnh hưởng đến sản lượng bán và tỉ lệ hoàn thành chỉ tiêu của các nhân viên
bán hàng.
II
Trang 13Mục tiêu 2: Xây dựng mô hình dự báo doanh số hàng tháng, hàng tuần của cácnhân viên bán hàng cũng như doanh số chung của công ty.
1.4 Các nghiên cứu liên quan
Bài toán về phân tích các yếu tố (biến độc lập) ảnh hưởng đến dữ liệu hay giá trị
nào đó (biến phụ thuộc) đã được tác giả Nguyễn Thị Hoài [4] thực hiện phân tíchthông qua quá trình trực quan hóa dữ liệu bằng các biểu đồ cột (barplot), biểu đồ tầnsuất (histogram) và biéu đồ hộp (boxplot) Sau đó tác giả ding phương pháp thống
kê t-test và ANOVA đề kiểm định giả thuyết đã đặt ra Cuối cùng tác giả dùng phươngpháp phân tích hậu định Tukey-HSD giúp hiểu sâu hơn về mối quan hệ hoặc sự khác
biệt được tìm thấy trong dữ liệu
Đề xây dựng mô hình dự báo sản lượng cà phê xuất khẩu của Việt Nam đến năm
2030, tác giả Trần Quốc Hùng và Bùi Thị Thu Vĩ [5] đã sử dụng mô hình ARIMA dé
dự báo sản lượng cà phê dựa vào số liệu thống kê sản lượng cà phê xuất khẩu của
Việt Nam từ năm 2000 đến năm 2019
Với việc áp dụng kết hợp tối ưu giữa các mô hình học sâu và mô hình học máytruyền thống khi dự báo chỉ số lạm phát của Việt Nam dựa theo số liệu CPI Việt Namgiai đoạn tháng 1 năm 2000 đến tháng 7 năm 2021, tác giả Nguyễn Hương Ly vàHoàng Thị Thu Hà [6] đã sử dụng kết hợp 3 mô hình SARIMA, RNN, LSTM đề dự
báo chỉ số lạm phát Tác giả đã đưa ra kết luận việc kết hợp 3 mô hình trên để dự báo
chỉ lạm phát tại Việt Nam là tốt nhất trong cả ngắn hạn và dài hạn
Việc sử dụng mô hình mạng thần kinh (nơ-ron) dé thực hiện dự đoán trong những
năm gan đây ngày càng được quan tâm Trong nghiên cứu của mình, Yasaman Ensafi
và cộng sự [22] sử dụng một tập dữ liệu công khai bao gồm lịch sử bán hàng của mộtcửa hàng bán lẻ được điều tra dé dự báo doanh số bán đồ nội thất Dé đạt được mụcđích này, một số mô hình dự báo được áp dụng Đầu tiên, một số kỹ thuật dự báochuỗi thời gian cô điển như Đường trung bình động tích hợp tự hồi quy theo mùa(SARIMA) và Làm mịn theo cấp số nhân ba lần được sử dụng Sau đó, các phươngpháp nâng cao hơn như Prophet, Bộ nhớ ngắn hạn định hướng dai hạn (LSTM) vàMạng thần kinh chuyên đôi (CNN) được áp dụng Hiệu suất của các mô hình được
so sánh bằng cách sử dụng các phương pháp đo độ chính xác khác nhau (ví dụ: Lỗi
12
Trang 14bình phương trung bình gốc (RMSE) và Lỗi phần trăm tuyệt đối trung bình (MAPE)).Kết quả cho thấy tính ưu việt của phương pháp LSTM xếp chồng so với các phươngpháp khác Ngoài ra, kết quả còn cho thay hiệu suất tốt của các mô hình Prophet và
CNN.
Tuy nhiên, dựa trên nhận định của nhóm tác giả Bohdan M Pavlyshenko [12],
trong bai toán dự đoán doanh số bán hàng, ta dùng thuật toán hồi quy tốt hơn là thuậttoán chuỗi thời gian Việc sử dụng các phương pháp hồi quy dé dự báo doanh số bánhàng thường có thể cho chúng ta kết quả tốt hơn so với các phương pháp chuỗi thờigian Bên cạnh đó, tác giả cũng xem xét đến kỹ thuật xếp chồng (Ensemble learning),với kỹ thuật này, nhiều mô hình đơn lẻ sẽ được kết hợp để tạo thành một mô hìnhmạnh mẽ hơn có khả năng dự báo tốt hơn Mục tiêu của việc xếp chồng là kết hợpsức mạnh của các mô hình khác nhau dé cải thiện hiệu suất dự báo và giảm thiểu các
yếu điểm riêng của mỗi mô hình
Ưu nhược điểm các mô hình, thuật toán trong bài toán dự báo doanh số bán hàng:
Thuat Uu diém Nhược điểm
toán Ụ
Dự báo | Có khả năng dự đoán các biến đồi Cần lượng đữ liệu đủ lớn dé tạo ra
chuỗi theo mùa vu, xu hướng và các mẫu _ | dự đoán chính xác Dữ liệu thiếu
thời phức tạp Được thiết kế đặt biệt để | hoặc nhiễu có thé ảnh hưởng đến
gian xử lý thông tin thời gian hiệu suất của các thuật toán
Thuật | Kha đơn giản và dé hiểu, dé áp dụng | Yêu cau di liệu đủ lớn dé tạo ra môtoán và diễn giải kết quả Phù hợp với dữ | hình dự báo chính xác Dữ liệu có
Hài liệu có tính liên tục như doanh số tính mùa vụ, biến động ngẫu nhiênquy bán hàng cao sẽ không có hiệu suất tốt
Đề đánh giá hiệu suất của nhân viên bán hàng, Nelito Calixto và cộng sự [18] đã
áp dụng mô hình Naive Bayes trong phân tích dự đoán đối với doanh nghiệp B2B(business-to-business) có bộ dữ liệu bao gồm doanh số bán hàng của 594 nhân viênbán hàng trong 3 năm từ một công ty giao nhận vận tải toàn cầu, để phân loại nhânviên bán hàng thành 3 cấp độ: không hoàn thành, tốt và xuất sắc Việc phân loại đạt
được dựa trên các thông tin về KPI của nhân viên bán hàng như tỷ lệ tăng trưởng, sự
thay đôi doanh số bán hàng, cơ hội được tạo ra, thành tích các mục tiêu khac tac gia
đã sử dụng một sé ky thuat dé làm sạch dữ liệu, đánh giá mức độ liên quan của cácthuộc tinh dé rút gọn và đưa ra những thuộc tính quan trọng nhất đưa vào mô hình
13
Trang 15CHUONG 2: HIẾU VE BO DU LIEU, XÂY DỰNG CÁC GIA
THUYET, KHAO SAT THU THAP VA TIEN XU LY DU LIEU
2.1 Hiểu về bộ dữ liệu
Bộ đữ liệu được trích xuất từ nhiều nguồn như:
- Hệ thông DMS (Quản lý kênh phân phối) được LIXCO đưa vào vận hành từnăm 2021 chứa các thông tin về doanh số bán hàng hàng ngày của nhân viên bán
194 Le van Thịnh, Phường Cát Lái, TP Thủ Đức, TP Hồ Chỉ Minh
CHI TIẾT DON HÀNG:
'DH00000005 12/10/2025 09:57
TH HOANG, lạ)
“58D Nguyen thi Dinh, Phường Thạnh Mỹ Lợi, TP Thủ Buc TP Hỗ Chi
NG SIÊU SẠCH HƯƠNG HOA ANH BAO Minh.
2AKGIT06 (TU SThung 336000 1680000.
Phiên bản: 8.0 NHÀNG &
Nady cập nhật: 0 5
Hình 2.1 Một số giao diện tiêu biểu của App DMS
- Thuc hiện cuộc khảo sát đê lây thông tin cá nhân của nhân viên bán hàng.
14
Trang 16Kính gởi các Anh/Chị, với mục đích tìm hiểu
và phân tích các yếu tố ảnh hưởng đến doanh
số của nhân viên bán hàng, nâng cao hiệu quả
bán hàng góp phân tăng doanh số Hệ thống
LIXCO-DMS thực hiện cuộc khảo sát về thông tin của nhân viên bán hàng Các Anh/Chị vui lòng dành ra 5 phút để trả lời các câu hỏi sau.
Hình 2.2 Khảo sát online nhân viên bán hàng thông qua DMS
- Dữ liệu từ trang web của Tổng cục thống kê (https://www.gso.gov.vn)
GIỚI THIỆU
TONG CỤC THONG KE se B
DÂN SỐ VÀ LAO ĐỘNG Ti Su KINH TẾ Em TH TONG ĐIỀU TRA
Diện tích, dân số và mật độ dân sé phân theo địa phương
Thông tin Chú thích Đánh dấu lựa chọn của ban và chọn giữa bảng trên màn hình và đính dạng tập tin Thủ thuật đánh dấu.
Với những biến đánh dấu * ban cần phải chọn ít nhật một giá trị
[Địa phương * Nam + [chi tiêu *
a8 =aau aac
[Tống số 70 Đã chọn 1 [Tống số 12 Đã chon 1 [Tống số 3 Đã chọn 0
CẢ NƯỚC A ||| 2017 ^ || biên tich(Km2) ^
Đồng bằng sông Hồng 2018 Dân số trung bình (Nghĩn người)
Hà Hội 2019 (*) Mật độ dân số (Ngườ/km2)
Vinh Phúc 2020 (*)
Bắc Ninh 2021 (*)
Quảng Ninh xÌEommwmm x
[Tim kiếm | [Tim kiếm Tim kiếm >)
(D Từ đầu của hàng E] từ đầu của hàng © Từ đầu của hang
Số 6 dữ liệu đã chọn 1 (maximum number allowed is 100.000)
Hiến thị trên màn hình bị giới hạn bởi 1.000 đồng và 30 cột
Rina - Gan didn † VÌ [Tiến tie
Hình 2.3 Trang web của tổng cục thống kê Việt Nam
Bộ dữ liệu thứ nhất gồm khoảng 480 mẫu được trích xuất và tổng hợp từ hệ thống
DMS, thông tin dân số khu vực từ đữ liệu của Tổng cục thống kê Việt Nam, chính
sách bán hàng của Công ty có các thuộc tính sau:
Bảng 2.1 Các thuộc tính của bộ đữ liệu
Trang 172_ |MAKH Mã số nhà phân phối
3 |TENNPP Tên nhà phân phối
4 TENNV Tén nhân viên bán hang
s TINH Tỉnh, thành phố mà nhân viên bán
hàng hoạt động
Khu vực bán hàng được chia làm
6 khu vực như TP Hồ Chí Minh,
6 KHUVUC Nam Sông Hậu, Bắc Sông Hậu,
Đông Nam bộ (Trừ TPHCM),
Tây Nguyên, Miền Trung h
Số lượng cửa hang, điểm bán Dữ liệu tríc
7 SOCUAHANG hàng mà nhân viên quản lý xuât và tông hợp
Sản lượng (doanh số) bình quân bị pe được
hàng tháng mà nhân viên bán ay tu thang
8 SANLUONGBQ hàng bán được (Biến phụ 06/2021 đên
thuộc) tháng 07/2023
9 |CTBH Tông chỉ tiêu của nhân viên bán
hàng trong tháng
10 THBH Tông sản lượng bán được trong
tháng của nhân viên
Tỉ lệ hoàn thành chỉ tiêu tháng
của nhân viên bán hàng Được
tính băng cách lầy tông sản
H TILE lượng chia cho chỉ tiêu hàng
tháng rồi lấy bình quân của cáctháng (Biến phụ thuộc)
- Dưới 50 ngàn người thuộc nhóm | Số liệu thống kê
dân số "Thấp" về dân số trong
- Từ 50 ngàn đến dưới 100 ngàn | khu vực
13 PLDANSO người thuộc nhóm dân số "Trung | tinh/thanh phố
bình” của Tổng cục
- Từ 100 ngàn đến dưới 150 ngàn Thống kê Việt
người thuộc nhóm dân số "Cao" | Nam
- Từ 150 ngàn người trở lên thuộc nhóm dan số "Rat cao"
16
Trang 18Bộ dữ liệu thứ hai gồm khoảng 230 mẫu được thu thập thông qua cuộc khảo sát
nhân viên bán hàng có các thuộc tính sau:
Bảng 2.2 Các thuộc tinh của bộ đữ liệu thứ hai
TÊN THUỘC w ^Ae mí NGUÒN DỮ
STT TÍNH MÔ TẢ THUỘC TÍNH LIỆU
1 | MANV Mã số của nhân viên ban hang
2 | TUOI Tuổi của nhân viên ban hang Dữ liệu được
3 GIOITINH Giới tính cua nhân viên ban hang | thu thập và
4_ | TRINHDO Trình độ của nhân viên bán hang _ | tông hợp từ
5_ | KNBANHANG _| Số năm kinh nghiệm bán hàng phu Knee sat
Thoi gian lam viéc tai Cong t nhan vien ban
6 | TGLAMLIX CPBộtgiátLix | hing cia Cong
7 | YEUTHICHNGHE | Mức độ yêu thích nghề nghiệp | Cô phan Bột
Mức độ cảm thấy hài lòng về các | Sit Lix
8 | DONGLUC Lan CA
chê độ của Công ty
Trong bang đữ liệu trên ta thấy có 2 thuộc tính SANLUONGBQ (san lượng bình
quân tháng) và TILE (ti lệ hoàn thành chỉ tiêu tháng) là hai biến phụ thuộc mà đề tài
này cân nghiên cứu và phân tích những yêu tô ảnh hưởng đên nó.
Có nhiêu yêu tô ảnh hưởng đên doanh sô bán hàng của nhân viên sales, tác giả chia
các yêu tô thành hai nhóm, đó là yếu tố chủ quan và yếu tố khách quan:
- Các yếu tố chủ quan: hầu hết là những yếu tố liên quan đến ban thân của nhân
viên bán hàng như giới tính, năm sinh, kinh nghiệm làm việc
- Các yếu tô khách quan: là những thuộc tính liên quan đến địa lý, số lượng
người dân khu vực bán, số cửa hàng quản lý
2.2 Tính cỡ mẫu
Theo Yamane Taro (1967), việc xác định kích thước mẫu sẽ được chia làm hai
trường hợp: không biết tổng thé và biết được tông thé
a Trường hợp không biết quy mô tổng thể
Chúng ta sẽ sử dụng công thức sau:
2„ PXÑ—Pp)
n=Zz?x————oe (2.1)
17
Trang 19Trong đó:
en: kích thước mau cần xác định
e Z: giá trị tra bảng phân phối Z dựa vào độ tin cậy lựa chon Thông
thường, độ tin cậy được sử dụng là 95% tương ứng với Z = 1.96.
e p: tỷ lệ ước lượng cỡ mẫu n thành công Thường chúng ta chọn p = 0.5
dé tích số p(1-p) là lớn nhất, điều này dam bảo an toàn cho mẫu n ước lượng
e c: sai số cho phép Thường ba tỷ lệ sai số hay sử dụng là: +0.01 (1%),
+0.05 (5%), +0.1 (10%), trong đó mức phổ biến nhất là +0.05
Nếu trường hợp đề tài nghiên cứu này không thể xác định được số lượng nhân viên
bán hàng tong thé thì ta có thé tinh cỡ mẫu tối thiểu cần thiết cần có của nghiên cứu
e 7: kích thước mau can xác định.
e N: quy mô tong thé
18
Trang 20e c: sai số cho phép Thường ba tỷ lệ sai số hay sử dụng là: +0.01 (1%),
Như vậy, với sỐ lượng 230 mẫu ở bộ dit liệu thứ 2, đề tài vẫn đảm bảo số lượng
mẫu cần thiết cho nghiên cứu
2.3 Xây dựng các giả thuyết
Căn cứ vào chính sách bán hàng của LIXCO, các quy trình bán hàng, quy chế bánhàng, đặc trưng vùng miền khu vực bán hàng tác giả đã tìm hiểu, khảo sát và tiếnhành xây dựng những giả thuyết ảnh hưởng đến doanh số sản phẩm và tỉ lệ hoàn
thành chỉ tiêu của nhân viên bán hàng.
Giả thuyết 1: Tuôi của nhân viên bán hàng có ảnh hưởng đến doanh số và tỉ lệ hoàn
thành chỉ tiêu hàng tháng của nhân viên bán hàng.
Giả thuyết 2: Giới tính của nhân viên bán hàng có ảnh hưởng đến doanh số và tỉ lệ
hoàn thành chỉ tiêu hàng tháng của nhân viên bán hàng.
Giả thuyết 3: Trình độ học vấn của nhân viên bán hàng có ảnh hưởng đến doanh
số và tỉ lệ hoàn thành chỉ tiêu hàng tháng của nhân viên bán hàng
Giả thuyết 4: Kinh nghiệm bán hàng của nhân viên bán hàng có ảnh hưởng đến
doanh số và tỉ lệ hoàn thành chỉ tiêu hàng tháng của nhân viên bán hàng
Giả thuyết 5: Thời gian làm việc tại công ty có ảnh hưởng đến doanh số và tỉ lệ
hoan thành chỉ tiêu hang thang của nhân viên bán hàng.
Giả thuyết 6: Mức độ yêu thích nghề nghiệp có ảnh hưởng đến doanh số và tỉ lệ
hoàn thành chỉ tiêu hàng tháng của nhân viên bán hàng.
Giả thuyết 7: Mức độ hài lòng về các chính sách chế độ của công ty có ảnh hưởng
đến doanh số và tỉ lệ hoàn thành chỉ tiêu hàng tháng của nhân viên bán hàng
19
Trang 21Gia thuyết 8: Khu vực địa lý vùng miền ảnh hưởng đến doanh số và tỉ lệ hoàn
thành chỉ tiêu hàng tháng của nhân viên bán hàng.
Giả thuyết 9: Số dân cư trong khu vực bán có ảnh hưởng đến doanh số và tỉ lệ hoàn
thành chỉ tiêu hàng tháng của nhân viên bán hàng.
Giả thuyết 10: Số cửa hàng, điểm bán hàng mà nhân viên bán hàng quản lý có ảnh
hưởng đên doanh sô va tỉ lệ hoan thành chỉ tiêu của nhân viên bán hàng.
Giả thuyết 11: Số nhóm sản phẩm mà nhân viên bán hàng được bán có ảnh hưởngđến doanh số và tỉ lệ hoàn thành chỉ tiêu của nhân viên bán hàng
2.4 Tong hop, xử lý, biến đối và làm sạch dữ liệu:
Sau khi thu thập được và phân tích sơ bộ, bộ dữ liệu thường có những đặc điểm
83 Số lượng cửa hang đã xuất bản trong năm 2021 xlsx
B1 Số lượng cửa hàng đã xuất ban trong năm 2022.xIsx
BẺ Số lượng cửa hang đã xuất ban trong năm 2023.x|sx
Hình 2.4 Các file dữ liệu thô được trích xuất ra từ nhiều nguồn
- Thông tin bị thiếu: trong quá trình khảo sát, việc thiếu thông tin khi thực hiện
khảo sát thường xảy ra do có một số nhân viên bán hàng không thực hiện khảo sát,hoặc dt liệu lịch sử của những nhân viên đã nghỉ việc, không thể thực hiện khảo sát
đôi với những người đó.
20
Trang 22PLDANS + |NAMSINH ÌGIOITINH | TRINHDO Y KNBANHANG Y|T6LAMLIX + |YEUTHICHNGHE ¥|DAOTAO xf
.RAT CAO 1990 Nam Phổ thông 5 2021 Yêu thích Thinh thoảng 1
RATCAO 1967 Nam Phổ thông 16 2016 Rất yêu thích Thỉnh thoảng 1
RAT CAO ” #N/A Nam lá #N/A lá #N/A lá #N/A lá #N/A lá #N/A i
'RATCAO 7 #N/A Nam lá #N/A lá #N/A lá #N/A lá #N/A lá #N/A !
'RAT CAO 1972 Nam Phổ thong 10 2018 Yêu thích Thỉnh thoảng '
RAT CAO 1987 Nam D 7 2019 °ø 0:
'RAT CAO 1978 Nam Phổ thông 4 2019 Yéu thich Ítkhi 1
.RATCAO 7 #N/A Nam id #N/A r #N/A id #N/A if #N/A lí #N/A 1
RAT CAO 1981 Nam Phổ thông 5 2017 Trung lập Ít khi
RAT CAO 1981 Nam Phổ thông 6 2021 Yêu thích Ít khi 1 RAT CAO 1987 Nam 0 7 2019 0 01
RAT CAO 1983 Nữ Đại học 8 2018 Yêu thích Thường xuyên i
RAT CAO 1997 Nữ Phổ thông 6 2019 Yêu thích Ítkhi '
.RAT CAO 1976 Nữ Trung cấp 10 2012 Trung lập Thinh thoảng !
RAT CAO 1989 Nam Trung cấp 1 2022 Rất yêu thích Ítkhi i
RAT CAO 1989 Nam Trung cap 3 2020 Yêu thích Thỉnh thoảng †
.RATCAO 7 #N/A Nữ lắ #N/A lá #N/A lá #N/A lá #N/A lá #N/A 1
| RATCAO 1987 Nam D 7 2019 ° DỊ
RAT CAO 1986 Nữ Cao đẳng 3 2020 Yêu thích Thỉnh thoảng †
'RATCAO 7 #N/A Nữ lí #N/A lá #N/A lá #N/A lá #N/A L #N/A
RAT CAO ” #N/A Nữ lá #N/A lá #N/A lá #N/A lá #N/A lá #N/A i
RAT CAO 1977 Nam Cao đẳng 8 2018 Yêu thích Thường xuyên 1
.RAT CAO 1975 Nam Phổ thông 2 2021 Yêu thích Ít khi H
“RAT CAO 1986 Nữ Phổ thông 6 2018 Yéu thich Thường xuyên '
RAT CAO 1980 Nam Trung cap 2 2021 Trung lap Thỉnh thoảng †
.RAT CAO 1977 Nam Phổ thong 6 2017 Rat yéu thich Thinh thoang RAT CAO 1985 Nam Trung cấp 5 2018 Yêu thích Thỉnh thoảng Ũ
'RATCAO 7 #N/A Nam lá #N/A lá #N/A lá #N/A lá #N/A lá #N/A '
- TRUNG BI” #N/A Nam lề #N/A lá #N/A lá #N/A lá #N/A lá #N/A 1
RAT CAO 1972 Nữ Cao đẳng 12 2021 Yêu thích Thỉnh thoảng Ũ
RAT CAO 1985 Nam ,Cao đẳng L 10 2013 Rất yêu thích ,Thỉnh thoảng i
Hình 2.5 Dữ liệu thu thập được nhưng bi thiếu
- Định dang dữ liệu không đồng nhất: quá trình khảo sát do không ràng buộcviệc nhập liệu nên có nhiều định dang dữ liệu không đồng nhất
Mã NVBH Tên NVBH Năm sinh Giới tính Trình độ học vấn Kinh nghiệm làm NVBH Bán hàng cho Lix từ năm nào,
NV00391 HUỲNH VĂN PHĂNG "1988 Nam Phổthông 7nam 2019
NV00393 Lé Van Quy 11/02/1985 Nam Trung cấp 12 năm năm 2011
NV00394 Nguyễn Văn Long "1986 Nam Dai hoc 5 72018
NV00395 Nguyễn Hùng Hiệp Nguyễn Hùng Hiệp Nam Trung cấp 5 72019
NV00397 Lế Văn Chin 25/06/1975 Nam _Phé théng 5 72017
NV00398 Nguyễn Tân Kiên 02/12/1989 Nam Trung cap sáu năm "2017
NV00399 V6 Thành Phuong 11/02/1985 Nam Trung cap 12 năm 72011
NV00407 Phạm Hoàng Hải "1989 Nam _ Phổthông 14 72019 NV00413 ĐẶNG VĂN BẢO 1/1/1987 Nam Phổthông 5 "2018 NV00415 Phạm Hoài Thanh "1983 Nam Phổthông 710 72013 NV00427 Nguyễn Hữu Nghị "1995 Nam Phổthông ^ "2019
NV00431 Phan Thị Thúy Phượng "1987 Nữ Phổ thông 5 72017
NV00432 Trần Thanh Phong "1990 Nam Phốthông 8 "2017 NV00433 Võ Thanh Kiệt "1978 Nam Phổthông 1s ”2018
NV00436 Trần Văn Sĩ 7/4/1997 Nam Phổ thông 5 năm 2019
NV00443 Pham HỮU Nghị 7984 Nam Trungcấp 15 72018
NV00444 Phan Hồng Phúc "1979 Nam Trung cấp 12 năm 72011 NV00446 ĐINH CHÚC GIANG "1979 Nam Phổthông 5 2018 NV00452 V6 Văn Giang "1989 Nam Trung cấp 3 năm 72020
NV00455 Hồ Quốc Tài 7994 Nam Dai hoc a 72019
NV00456 Trương Bửu Hiền 1983 Nam Phổthông Anăm 2019
NV00457 Đỗ Huy Cường 1989 Nam Đại học 5 2020
NV00463 VÕ GIA BẢO "1997 Nam Phổthông iG "2019
NV00501 NGUYEN THỊ NGOAN 21/6/1986 Nữ Phổ thông 5 nam 1/9/2018
NV00503 TRẦN THỊ PHƯƠNG LOAN "1991 Nữ Cao đẳng 5 01/05/2023 NV00504 NGUYỄN THỊ THƠM 21981 Nữ Trung cấp 7 "2019
Hình 2.6 Dữ liệu thu thập được nhưng không đồng nhất
- Đề tiến hành đồng bộ, xử lý, biến đổi dit liệu, tác giả dùng nhiều phương pháp
làm sạch dữ liệu:
21
Trang 23+ Đối với những đữ liệu không đồng nhất trong quá trình khảo sát, tác giả sẽ dựa vào thông tin người dùng nhập vào, phân tích ngữ cảnh đề điều chỉnh tay lại cho phù hợp và đồng nhất.
+ Đối với những dữ liệu bị thiếu: Tác giả tự điều chỉnh đối với những thông tin có thể ước lượng được như giới tính Hoặc loại bỏ những mẫu dữ liệu bị thiếu thông tin.
+ Đối với những dữ liệu bị phân tách nhiều tháng nhiều năm: Tổng hợp các file dữ liệu thô, tính trung bình đối với những dữ liệu cần gôm nhóm đề phân
tích ví dụ như sản lượng trung bình tháng của nhân viên bán hàng, tỉ lệ hoàn thành chỉ tiêu trung bình tháng.
+ Loại bỏ nhiều giá trị ngoại lai: Đối với những giá trị bị đột biến, sẽ được
loại bỏ để đảm bảo tính ồn định và không bị nhiễu của đữ liệu.
2
Trang 24CHUONG 3: THỰC HIEN PHAN TÍCH VA THONG KE KIEM
DINH
3.1 LY THUYET PHAN TÍCH VÀ KIEM ĐỊNH
- Trực quan hóa dữ liệu:
Y Biểu đồ cột (barplot)
Y Biểu đồ scatter
VY Biểu đồ Pie v_ Biểu dé boxplot v_ Biểu dé Histogram
- Kiểm định giả thuyết: sử dụng phương pháp thống kê và dữ liệu thu thập được
để đưa ra kết luận.
Y Kiểm định T-Test: là một kỹ thuật thống kê được phát minh bởi nhà thống
kê người Anh William Sealy Gosset, nhưng ông đã sử dụng bút ký hiệu "Student" để công bồ kết quả kiểm định Tài liệu gốc của ông, có tựa đề "The Probable Error of a Mean" (Lỗi xác suất của một trung bình), đã được xuất bản vào năm 1908 trong tạp chi Biometrika Phương pháp t-Test được phát triển dé đánh giá sự khác biệt giữa hai trung bình mẫu khi số lượng quan sát có hạn chế và mẫu tuân theo phân phối chuẩn (normal distribution) Nó đã trở thành một công cụ hữu ích trong phân tích thống kê
và được sử dụng phổ biến trong nhiều lĩnh vực như khoa học, kinh tế học, y học, và nghiên cứu xã hội để kiểm tra giả thuyết và tìm hiểu sự khác biệt giữa các nhóm dữ liệu Các yếu tố chỉ có hai nhóm thi tác gia dùng kiểm định này dé phân tích và kết
o X,va X, là trung bình của hai nhóm dữ liệu.
o_ S? và S? là phương sai của hai nhóm dữ liệu tương ứng.
23
Trang 25oO 7, và n; là kích thước mẫu của hai nhóm dữ liệu tương ứng.
*_ Kiểm định ANOVA (Analysis of Variance), còn gọi là phân tích phương sai, là một phương pháp thống kê được phát minh bởi Ronald A Fisher Ông Fisher công bố phương pháp ANOVA đầu tiên trong bài báo có tựa đề "The Correlation
between Relatives on the Supposition of Mendelian Inheritance" vào năm 1918.
ANOVA là một công cụ hữu ích trong quá trình phân tích thống kê, dùng đề kiểm tra
sự khác biệt giữa ba hoặc nhiều nhóm dữ liệu dựa trên các giả thuyết về sự khác biệt
giữa các trung bình của các nhóm Nó cho phép bạn xác định xem sự khác biệt giữa
các nhóm có ý nghĩa thông kê hay không Các yếu tố chỉ có nhiều hơn hai nhóm phân loại thì tác giả dùng kiểm định này để phân tích và kết luận Các yếu tố chỉ có hai nhóm thì tác giả dùng kiểm định này đề phân tích và kết luận
Công thức cơ bản cho ANOVA như sau:
F= MSbetween (3.2)
MSwithin Trong đó:
© MSpetween là trung bình của sự biến đôi giữa các nhóm.
© MSvwitnin là trung bình của sự biên đôi trong các nhóm.
¥ Phương pháp hậu kiểm Tukey-HSD: Phương pháp kiểm định Tukey-HSD (Tukey's Honestly Significant Difference) được phát triển bởi nhà thống kê John Tukey và công bồ lần đầu vào năm 1949 trong bài bao "Comparing Individual Means
in the Analysis of Variance" (So sánh giá trị trung bình cá nhân trong phân tích
phương sai) Do đó, phương pháp này đã tồn tại trong nhiều thập kỷ và vẫn được sử dụng rộng rãi trong thống kê và phân tích dữ liệu kinh doanh Phân tích hậu kiểm giúp hiểu sâu hơn về mối quan hệ hoặc sự khác biệt được tìm thấy trong đữ liệu và
dễ dàng thấy được tác động của các biến số hoặc nhóm đữ liệu Công thức tính chỉ số
Tukey HSD như sau:
Gia sử bạn có k nhóm và N là tổng số mẫu trong tat cả các nhóm Công thức tính khoảng cách tối thiêu (Minimum Significant Difference, MSD) trong phân
tích Tukey là:
24
Trang 26MSD =j n X Qwk,N~đƒuwirhim (3.3)
Trong đó:
© MSwitnin là trung bình bình phương chuẩn trong nhóm (mean square
within groups), được tính từ phân tích ANOVA.
o_n là kích thước của từng nhóm (giả sử các nhóm có kích thước giống
nhau).
© Qak,N-dfwitnin là giá trị từ bảng phân phối của Tukey với mức ý nghĩa
aa, số nhóm kk và tổng số mau NN trừ đi số độ tự do trong phân tích ANOVA cho phan biến thức trong nhóm (được tính từ dfyitnin)-
Công thức này sẽ cho phép bạn xác định khoảng cách tối thiểu mà hai giá trị trung bình của các nhóm cần phải chênh lệch nhau dé có thé coi chúng là khác biệt
ý nghĩa về mặt thống kê.
Các kiểm định t-test, ANOVA và Tukey-HSD đều là các phương pháp thống kê thường được sử dụng để so sánh các giá trị trung bình của các nhóm khác nhau trong một nghiên cứu Trong đề tài này, kiểm định t-test được áp dụng đề kiểm định giả thuyết về giới tính của nhân viên bán hàng có ảnh hưởng đến sản lượng và
tỉ lệ hoàn thành chỉ tiêu tháng do yếu tổ về giới tính chỉ có 2 nhóm phân loại (nam hoặc nữ) Còn kiểm định ANOVA được sử dụng để kiểm định ảnh hưởng của các yếu tố mà có từ 3 nhóm trở lên như: trình độ nhân viên, mức độ yêu nghề, mức độ hài lòng với chính sách công ty, khu vực địa lý, phân nhóm dân số Còn phân tích Tukey-HSD là hậu kiểm nên sẽ được thực hiện sau khi kiểm định ANOVA có kết luận về sự khác biết giữa các nhóm, mục đích chính của Tukey-HSD là giúp xác định
cặp nhóm nào có sự khác biệt trong việc so sánh giữa các cặp giá trị trung bình.
3.2 THUC HIỆN PHAN TÍCH VÀ KIEM ĐỊNH DOI VỚI CÁC YEU TO CHỦ QUAN
3.2.1 Phân tích sự ảnh hưởng của tuéi nhân viên bán hàng đến doanh số
và tỉ lệ hoàn thành chỉ tiêu hàng tháng của nhân viên bán hàng
Theo thông tin được thu thập từ cuộc khảo sát nhân viên bán hàng, chúng ta có
thông tin tuổi của 230 nhân viên Các nhân viên không có thông tin sẽ được loại bỏ
để tiến hành phân tích dữ liệu.
25
Trang 27Biểu đồ Scatter giữa Tuổi và Sản lượng tháng
Tuổi nhân viên
Hình 3.1 Tương quan giữa tuổi nhân viên bán hàng và sản lượng bình quân tháng.
Theo Hình 3.1, sản lượng bình quân của các nhân viên bán hàng độ tuổi từ 30 đến
50 cao hơn những nhân viên bán hàng ở độ tuôi khác.
Thực hiện kiểm định mối tương quan giữa tuổi nhân viên bán hàng và sản lượng
bình quân tháng Tác giả sử dụng mô hình OLS:
# Phân tích hồi quy cho sản lượng bình quân
model = sm.OLS(Y, X).fit()
print (model.summary () )
26
Trang 28Regression Results
Dep Variab]: SANLUONGBQ R-squared 9.030 Model: OLS Adj R-squared: @.025 Method: Least Squares F-statistic: 6.915 Date: Wed, Ø1 Nov 2023 Prob (F-statistic): 9.00914 Time: 13:17:36 Log-Likelihood: -865.04
Kurtosi 15.832 Cond No.
Hình 3.2 Kết quả mô hình OLS giữa tuổi nhân viên và sản lượng bình quân thang
Dựa vào hình 3.2, kết quả mối tương quan như sau:
R-squared va Adj R-squared: Giá trị R-squared và Adj R-squared là các chỉ số đánh giá mức độ phù hợp của mô hình với dữ liệu R-squared cho biết phần trăm biến thiên trong biến phụ thuộc (SANLUONGBQ) có thé được giải thích bởi biến độc lập (TUOI) Trong trường hợp này, R-squared là 0.030, ngụ ý rằng mô hình giải thích khoảng 3% biến thiên của SANLUONGBQ Adj R-squared cũng tương tự, nhưng
đã được điều chỉnh cho số lượng biến độc lập trong mô hình và có giá trị 0.025 Cả hai giá trị này khá thấp, ngụ ý rằng mô hình không giải thích phan lớn sự biến đổi của
Trang 29Hệ số (coef) cho TUOI: Hệ số cho biến độc lập "TUOI" là 0.2529 Hệ số này cho biết mức độ thay đổi trung bình trong SANLUONGBQ cho mỗi đơn vị thay đổi trong TUOI Giá trị dương (0.2529) cho biết sự tương quan dương giữa TUOI va SANLUONGBQ, tức là khi tuổi tăng, sản lượng bình quân cũng tăng.
Giá trị p (P>|t)) cho TUOI: Giá trị p cho biến độc lập "TUOI" là 0.009 Giá trị p cho biết xác suất của việc biến độc lập "TUOI" có ảnh hưởng đến biến phụ thuộc
"SANLUONGBQ." Trong trường hợp này, giá trị p nhỏ hơn ngưỡng thống kê thường được chấp nhận (0.05), ngụ ý rằng có mối tương quan thống kê giữa tuổi và sản lượng
bình quân.
Kết luận: Dựa trên kết quả của mô hình OLS, có mối tương quan thống kê giữa tuổi nhân viên bán hàng và sản lượng bình quân tháng Tuy nhiên, giá trị R-squared thấp ngụ ý rằng phần lớn mô hình không giải thích biến đổi của sản lượng bình quân tháng, và biến độc lập "TUOI" chỉ giải thích một phần nhỏ biến đổi trong biến phụ
Trang 30Dep Variable: TILE R-squared:
Model: OLS Adj R
Method: Least Squares F-statistic
Wed, @1 Nov 2023 Prob (F-statistic):
Hình 3.3 Tương quan giữa tuôi nhân viên bán hàng và tỉ lệ hoàn thành chỉ tiêu tháng.
Dựa vào kết quả của mô hình OLS ở hình 3.3:
R-squared và Adj R-squared: R-squared bằng 0.003, ngụ ý rằng mô hình giải thích một phần rất nhỏ biến thiên của tỉ lệ hoàn thành chỉ tiêu tháng Tương tự, Adj R-squared có giá trị -0.002 Cả hai giá trị này khá thấp, ngụ ý rằng phần lớn mô hình không giải thích sự biến đôi của tỉ lệ hoàn thành chỉ tiêu tháng (biến TILE).
F-statistic và Prob statistic): giá trị F-statistic là 0.5879 và giá tri Prob
(F-statistic) là 0.444 Giá tri Prob (F-(F-statistic) lớn hon 0.05, ngụ ý rang mô hình không
có ý nghĩa thông kê đối với ti lệ hoàn thành chỉ tiêu tháng.
Giá trị p (P>|t|) cho TUOI: Giá trị p cho biến độc lập "TUOI" là 0.444, giá trị p lớn hơn ngưỡng thống kê thường được chấp nhận (0.05), do đó không có mối tương quan thống kê giữa tuổi và tỉ lệ hoàn thành chỉ tiêu tháng.
Kết luận: Không có mối tương quan thông kê giữa tudi và tỉ lệ hoàn thành chỉ tiêu
tháng.
29
Trang 313.2.2 Phân tích sự ảnh hướng của giới tính nhân viên bán hàng đến doanh
số và tỉ lệ hoàn thành chỉ tiêu hàng tháng của nhân viên bán hàng
Để thay được một cách tổng quan về tỉ lệ nam nữ trong hệ thống nhân viên bán hàng tại công ty Tác giả vẽ biểu đồ Pie sau:
Biểu đồ tỉ lệ giới tính của nhân viên sales Biểu đồ tilệ doanh số theo giới tính của nhân viên sales
Trang 32Theo hình 3.5, sản lượng bình quân tháng của nhân viên nam (13,1 tan sản phẩm) cao hơn sản lượng bán bình quân của nhân viên nữ (11,2 tan)
Dựa vào kết quả kiểm định t-test ở hình 3.6 giả thuyết HO: “Không có sự khác nhau giữa nhóm nhân viên nam và nhóm nhân viên nữ về sản lượng bán hàng” và giả thuyết đảo HI: “Có sự khác nhau giữa nhóm nhân viên nam và nhóm nhân viên nữ
về sản lượng bán hàng” Kết quả p-value = 0.0373 với ngưỡng thống kê œ = 0.05 vì thế p-value<œ, từ đó ta kết luận rằng: Có sự khác biệt về doanh số bàn hàng của nhân
viên nam và nữ.
Do kiểm định t-test không xác định được mức độ ảnh hưởng của giới tính đến sản lượng bình quân nên tác giả đã dùng mô hình OLS dé xác định mức độ Dé phân tích hồi quy tuyến tính thì bắc buộc biến độc lập phải là biến liên tục Do đó ta phải tiến hành chuyên đổi biến giới tính thành những biến giả rồi dùm hàm OLS của thư viện statsmodels dé lay kết quả sau:
31
Trang 33Hình 3.7 Kết quả phân tích OLS về mức độ ảnh hưởng của giới tính với sản lượng
Theo kết quả hình 3.7, R-squared =0.009 (0.9%) và Adj R-squared = 0.007 (0.7%) Cả hai giá trị này khá thấp, ngụ ý rằng phần lớn mô hình không giải thích sự biến đổi của sản lượng bình quân.
Biểu đố Boxplot của Tỉ lệ hoàn thành chỉ tiêu theo giới tinh
Trang 34Hình 3.7 Tỉ lệ hoàn thành chỉ tiêu tháng trung bình của nhân viên nam và nữ
Theo hình 3.7 thì tỉ lệ hoàn thành chỉ tiêu tháng trung bình của nam bằng 72,2%
cao hơn so với tỉ lệ hoàn thành chỉ tiêu sản lượng tháng trung bình của nữ là 66,3%.
Tuy nhiên đề xác định xem giới tính có thật sự ảnh hưởng đến tỉ lệ hoàn thành chỉ tiêu không, ta cần thực hiện kiểm định t-test sau:
Hình 3.8 Kiếm định t-test với tỉ lệ hoàn thành chỉ tiêu tháng và giới tính
Dựa vào kết quả kiểm định t-test ở hình 3.8 giả thuyết H0: “Không có sự khác nhau giữa nhóm nhân viên nam và nhóm nhân viên nữ về tỉ lệ hoàn thành chỉ tiêu tháng” và giả thuyết đảo HI: “Có sự khác nhau giữa nhóm nhân viên nam và nhóm nhân viên nữ về tỉ lệ hoàn thành chỉ tiêu tháng” Kết quả p-value = 0.07694 với ngưỡng thống kê œ = 0.05 thì p-value>ơ, từ đó ta kết luận rằng: Không có sự khác biệt về ti lệ hoàn thành chỉ tiêu tháng của nhân viên nam và nhân viên nữ.
Kết luận: Có sự khác biệt về sản lượng bản hàng của nhân viên nam và nhân viên
nữ Nhưng không có sự khác biệt về tỉ lệ hoàn thành chỉ tiêu.
3.2.3 Trình độ học vấn của nhân viên bán hàng có ảnh hướng đến doanh
số và tỉ lệ hoàn thành chỉ tiêu hàng tháng của nhân viên bán hàng
Theo kết quả thông kê của cuộc khảo sát, trình độ nhân viên bán hàng được phân
ra làm 4 nhóm: nhóm Phé thông, nhóm Trung Cấp, nhóm Cao dang và nhóm Đại học.
33
Trang 35Biểu đồ Boxplot của Sản lượng theo Trình độ
Hình 3.9 Sản lượng bình quân trung bình theo trình độ nhân viên
Biểu đồ Boxplot của Tỉ lệ hoàn thành chỉ tiêu theo Trình độ
Hình 3.10 Tỉ lệ hoàn thành chỉ tiêu tháng trung bình theo trình độ nhân viên
Theo hình 3.9 và hình 3.10, đối với Sản lượng bình quân thì những nhân viên Trung cấp và phổ thông lại có sản lượng cao hơn; đối với tỉ lệ hoàn thành chỉ tiêu
34
Trang 36tháng thì những nhân viên trung cấp và Đại học lại đạt tỉ lệ tốt hơn với lần lượt là
84.1% và 77.7%.
import statsmodels.api as sm from statsmodels.formula.api import ols
# Thực hiện kiếm định ANOVA anova_table = sm.stats.anova_Im(model, typ=2) print(anova_table)
sum sq df F PR(>F)
TRINHDO 172.124619 34.0 @.476143 0.699203
Residual 26991.826095 224.0 NaN NaN
Hình 3.11 Kiém định ANOVA với Sản lượng va trình độ nhân viên
import statsmodels.api as sm from statsmodels.formula.api import ols
# Xây dựng mỗ hình ANOVE
model = ols( 'TTIIỊE ~ TRINHDO', data=df).fit()
Hình 3.12 Kiêm định ANOVA với Tỉ lệ hoàn thành chỉ tiêu tháng và trình độ nhân viên
Do trình độ được phân làm 4 nhóm nên tác giả sẽ dùng kết kiểm định ANOVA déphân tích Theo hình 3.11 và hình 3.12 thì kết quả thu được với giả thuyết sự khácnhau của sản lượng và tỉ lệ hoàn thành chỉ tiêu giữa các nhóm trình độ lần lượt có p-
value bằng 0.6992 và 0.1947, cả hai p-value đều lớn hơn mức ý nghĩa thống kế
œ=0.05
Kết luận: Không có sự khác biệt về sản lượng bán giữa các nhóm trình độ Tương
tự, không có sự khác biệt về tỉ lệ hoàn thành chỉ tiêu giữa các nhóm trình độ
35
Trang 373.2.4 Kinh nghiệm bán hàng của nhân viên bán hàng có ảnh hướng đến
doanh số và tỉ lệ hoàn thành chỉ tiêu hàng tháng của nhân viên bán hàng
Thông tin về số năm kinh nghiệm của từng nhân viên được thu thập thông quacuộc khảo sát thông tin nhân viên bán hàng, dữ liệu về số năm kinh nghiệm được
phân nhóm theo bảng sau:
Bảng 3.3 Phân nhóm số năm kinh nghiệm bán hàng của nhân viên
STT Tên nhóm Diễn giải
1 Từ dưới | năm Số năm kinh nghiệm từ 1 năm trở xuống
2 Từ 1-3 năm Số năm kinh nghiệm từ 1 năm đến 3 năm
3 Từ 3-5 năm Số năm kinh nghiệm từ 3 năm đến 5 năm
4 Trên 5 năm Số năm kinh nghiệm trên 5 năm
Biểu đỗ Boxplot của Sản lượng theo Kinh nghiệm
Trang 38Biểu đỗ Boxplot của Ti lệ hoàn thành chỉ tiêu theo Kinh nghiệm ban hàng
250
Tỉ lệ hoàn thành chỉ tiếu {%6]
Hình 3.14 Tỉ lệ hoàn thành chỉ tiêu tháng trung bình theo nhóm kinh nghiệm
Theo hình 3.13 và hình 3.14, sản lượng bình quân tháng và tỉ lệ hoàn thành chỉ tiêu
của nhân viên ít năm kinh nghiệm lại có vẻ cao hơn các nhóm cỏn lại.
print( "Có bang ching để bác bỏ giả thuyết H8”)
print( "Không có bằng chứng để bác bỏ giả thuyết H@")
F-statistic: 1.1401175322698058
P-value: 9.3336891386418468
Không có bằng chứng dé bác bỏ gia thuyết H@
Hình 3.15 Kiêm định ANOVA với Sản lượng và nhóm kinh nghiệm
37
Trang 39Hinh 3.16 Kiém dinh ANOVA voi San lượng và nhóm kinh nghiệm
Theo kiểm định ANOVA cho nhóm kinh nghiệm khác nhau từ hình 3.15 và 3.16đối với sản lượng và tỉ lệ hoàn thành chỉ tiêu tháng cho kết quả p-value = 0.333689
và p-value = 0.399383, quá lớn so với mức ý nghĩa œ
Kết luận: Không có sự khác biệt về sản lượng bán giữa các nhóm kinh nghiệm
Tương tự, không có sự khác biệt về ti lệ hoàn thành chỉ tiêu giữa các nhóm kinh
nghiệm.
3.2.5 Thời gian làm việc tại công ty có ảnh hưởng đến doanh số và tỉ lệ
hoàn thành chỉ tiêu hàng tháng của nhân viên bán hàng
Tương tự như số năm kinh nghiệm, tác giả cũng thu thập thông tin về số năm làm
việc tại Công ty Lix của nhân viên bán hàng va phân nhóm theo sô năm giông như
38
Trang 408 8 8
=
Từ dưới 1 nam Từ 1-3 nam Từ 3-5 nam Trên 5 nãm
Thoi gian làm tại Lix (mam)
Hình 3.17 San lượng bình quân trung bình theo nhóm năm làm việc
Theo hình 3.17, sản lượng bình quân của những nhân viên làm việc lâu tại lix có
vẻ cao hơn những người mới vào làm.
Biểu đỗ Boxplot của Tỉ lệ hoàn thanh chỉ tiêu theo Thời gian làm tại Lix
250
fh¬=
150
100
Tỉ lệ hoan thành chi tiêu (%)
Hình 3.18 Tỉ lệ hoàn thành chỉ tiêu tháng trung bình theo nhóm năm làm việc
39