- Khảo sát hương vị sữa tươi Vinamilk mà sinh viên IUH thường sử dụng để biết được hương vị nào được sinh viên IUH sử dụng nhiều nhất?. Nếu dữ liệu không phân phối chuẩn sử dụng Friedm
Trang 1BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP.HỒ CHÍ MINH VIỆN CÔNG NGHỆ SINH HỌC & THỰC PHẨM
BÁO CÁO THỰC HÀNH XỬ LÝ SỐ
LIỆU THỰC NGHIỆM
GVHD : Ths Nguyễn Ngọc Tuấn
Lớp : DHTP18B
Sinh viên thực hiện:
Đặng Thị Hồng Ân 22700881 Nguyễn Trần Lan Anh 22698041 Phan Ngọc Mỹ Anh 22683521 Nguyễn Thị Kim Chi 22698071
TP HCM, ngày 19 tháng 11 năm 2024
Trang 2ĐỀ TÀI: KHẢO SÁT NHU CẦU SỬ DỤNG SỮA TƯƠI VINAMILK Ở SINH
VIÊN TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỒ CHÍ MINH
CHƯƠNG 1: TỔNG QUAN
1 Mục đích, mục tiêu:
- Khảo sát tần suất sử dụng sữa tươi Vinamilk của sinh viên IUH trong 1 tuần để biết được tần
suất sử dụng của sinh viên IUH là bao nhiêu?
- Khảo sát hương vị sữa tươi Vinamilk mà sinh viên IUH thường sử dụng để biết được hương vị nào được sinh viên IUH sử dụng nhiều nhất?
- Khảo sát dung tích sữa tươi Vinamilk mà sinh viên IUH thường sử dụng để biết được dung tích nào được sinh viên IUH sử dụng nhiều nhất?
- Khảo sát sữa tươi Vinamilk được sinh viên IUH sử dụng thời gian nào trong ngày để biết thời gian nào sinh viên sử dụng sữa tươi Vinamilk nhiều nhất?
- Khảo sát khoảng giá mà sinh viên IUH thường sử dụng mua sữa Vinamilk để biết được khoảng giá nào sinh viên IUH sử dụng nhiều nhất?
2 Thu nhập dữ liệu
1 Tần suất Tỉ lệ Liên tục Anh/chị sử dụng bao nhiêu hộp sữa
tươi Vinamilk trong một tuần?
2 Hương vị Định danh Không liên
tục
Anh/chị yêu thích hương vị sữa tươi Vinamilk nào nhất?
a Dâu
b Socola
c Dừa
d Nguyên chất
3 Dung tích Định danh Không liên
tục
Anh/chị thường sử dụng sữa tươi Vinamilk với dung tích bao nhiêu? a.110ml
b.180ml c.220ml d.1000ml (1Lit)
Trang 34 Thời gian Định danh Không liên
tục
Anh/chị sử dụng sữa tươi Vinamilk vào thời gian nào trong ngày?
a Buổi sáng
b Buổi trưa
c Buổi chiều
d Buổi tối
5 Giá thành Khoảng đoạn Liên tục Anh/chị thường sử dụng sữa tươi
Vinamilk với mức giá khoảng bao nhiêu?
a Từ 5000 - dưới 10000VNĐ b.Từ10000 - dưới 15000VNĐ
c Từ 15000 - dưới 20000VNĐ
d Trên 20000VNĐ
Trang 43 Kích thước mẫu
Khảo sát nhu cầu sử dụng sữa tươi Vinamilk ở sinh viên viện Công nghệ sinh học & Thực phẩm tại trường Đại học Công Nghiệp TP Hồ Chí Minh Có thể nói đây là tổng thể xác định được quy mô vì chúng ta biết được từ hệ thống có 4000 sinh viên của viện Công nghệ sinh học
& Thực phẩm có, ta có công thức tính cỡ mẫu:
n = N 1+N∗e2 = 4000
1+4000∗0.052 = 363.63 Trong đó:
+ n: kích thước mẫu xác định
+ N: quy mô tổng thể, N = 4000
+ e: sai số cho phép chọn là 5%
Kết luận, cỡ mẫu nghiên cứu tối thiểu là 364 người
Trang 5CHƯƠNG 2: XỬ LÝ SỐ LIỆU
I Biên tập dữ liệu
- Kiểm tra dữ liệu (đối với dữ liệu chương 1 & dữ liệu khai báo)
- Kiểm tra đối chiếu bảng thu dữ liệu và dữ liệu thô
- Mã hóa
hóa
Ghi chú
2 Hương vị
D So Dư NC
Hương vị
a Dâu
b Socola
c Dừa
d Nguyên chất
3 Dung tích
DT1 DT2 DT3 DT4
Dung tích
a 110ml
b 180ml
c 220ml
d 1000ml
4 Thời gian
S T C B
Thời gian
a Buổi sáng
b Buổi trưa
c Buổi chiều
d Buổi tối
5
Giá thành
GT1 GT2 GT3 GT4
Giá thành
a Từ 5000 đến dưới 10000VNĐ
b Từ 10000 - dưới 15000VNĐ
c Từ 15000 – dưới 20000VNĐ
d Trên 20000VNĐ
- Rút trích: dữ liệu
Trang 6II Xử lý số liệu
Bảng công việc xử lý số liệu
STT Tên biến Xử lý số liệu
1 TS - Thống kê mô tả
+ Trung bình, trung vị,mode, phương sai, độ lệch chuẩn
+ Vẽ đồ thị Boxplot của 1 biến
Kết luận:Để biết nhu cầu sử dụng sữa tươi Vinamilk trong một tuần nhiều hay ít
So
Dư
NC
- Thống kê mô tả + Trung bình, trung vị, mode, phương sai, độ lệch chuẩn của 4 biến + Vẽ đồ thị Boxplot của 4 biến
+ So sánh từng cặp D≠ So
So≠ Dư Dư≠ NC NC≠ D
- Thống kê diễn giải + Sử dụng phân phối chuẩn
Nếu dữ liệu phân phối chuẩn sử dụng kiểm định Anova
Nếu dữ liệu không phân phối chuẩn sử dụng Friedman hoặc Wilconxon test
→Kết luận: Để biết nhu cầu sử dụng loại hương vị nào là nhiều nhất
3 DT1
DT2
DT3
DT4
- Mô tả dữ liệu + Trung bình, trung vị, mode, phương sai, độ lệch chuẩn của 4 biến + Vẽ đồ thị Boxplot của 4 biến
DT1≠ DT2 DT2≠ DT3 DT3≠ DT4 DT4≠ DT1
- Thống kê diễn giải
Trang 7+ Sử dụng phân phối chuẩn
Nếu dữ liệu phân phối chuẩn sử dụng kiểm định Anova
Nếu dữ liệu không phân phối chuẩn sử dụng Friedman hoặc Wilconxon test
→Kết luận: Với mỗi dung tích khác nhau để biết nhu cầu sử dụng dung tích nào dùng nhiều nhất
T
C
B
- Mô tả dữ liệu + Trung bình, trung vị, mode, phương sai, độ lệch chuẩn
+ Vẽ đồ thị Boxplot + Friedman test S≠T
T≠C C≠B B≠S
- Thống kê diễn giải + Sử dụng phân phối chuẩn
Nếu dữ liệu phân phối chuẩn sử dụng kiểm định Anova
Nếu dữ liệu không phân phối chuẩn sử dụng Friedman hoặc Wilconxon test
Kết luận: Để biết nhu cầu sử dụng sữa tươi Vinamilk thời gian nào trong ngày là nhiều nhất
GT2
GT3
GT4
- Mô tả dữ liệu + Trung bình, trung vị, mode, phương sai, độ lệch chuẩn
+ Vẽ đồ thị boxplot + Friedman test GT1≠GT2 GT2≠GT3 GT3≠GT4 GT4≠GT1
- Thống kê diễn giải
Trang 8+ Sử dụng phân phối chuẩn
Nếu dữ liệu phân phối chuẩn sử dụng kiểm định Anova
Nếu dữ liệu không phân phối chuẩn sử dụng Friedman hoặc Wilconxon test
Kết luận: Để biết nhu cầu sử dụng sữa tươi Vinamilk ở khoảng gía nào nhiều nhất ?
III Lựa chọn phần mềm để xử lý số liệu
- Dùng phần mềm excel để rút trích dữ liệu và biên tập dữ liệu
- Dùng phần mềm R để tính toán và thống kê dữ liệu
Trang 9IV Kết quả
4.1 Tần suất
*Thống kê mô tả
- Trung bình = 3.286
- Trung vị = 2.5
- Q1 = 1.25
- Q3 = 5
- Min = 1
- Max = 8
- Độ lệch chuẩn = 2.0058
- Phương sai = 4.0232
Hình 1: Biểu đồ Histogram thể hiện tần suất sử dụng sữa tươi Vinamilk
Nhận xét: Biểu đồ Histgram thể hiện tần suất sử dụng sữa tươi Vinamilk trong 1 tuần bị chênh lệch về phía bên trái, điều đó cho thấy số lần sử dụng sữa tươi Vinamilk nhiều nhất trong tuần là 1
Trang 104.2 Hương vị
Hương vị
Thống kê mô tả
Hình 2: Biểu đồ boxplot thể hiện hương vị sử dụng sữa tươi Vinamilk
Chú thích: 1 – hương vị dâu của sữa tươi Vinamilk
2 – hương vị socola của sữa tươi Vinamillk
3 – hương vị nguyên chất của sữa tưa Vinamilk
4 – hương vị dừa của sữa tươi Vinamilk
TS – tần suất sử dụng hương vị của sữa tươi Vinamilk
TS
Trang 11Đồ thị Boxplot cho thấy dữ liệu D, So, NC chạy trong khoảng từ 1-9, còn Dư chạy trong khoảng từ 2-8 và dữ liệu tập trung chủ yếu từ 3-5
Kiểm định Shapiro
Giả thuyết:
H0: dữ liệu phân phối chuẩn
H1: dữ liệu không phân phối chuẩn
Kết quả kiểm tra phân phối chuẩn Shapiro test.
p-value 0.002792 0.4919 0.000001062 0.000000003795
Kết luận:
+ Biến “D”: Với p-value = 0.002792 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
+Biến “Dư”: Với p-value = 0.4919 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
+ Biến “So”: Với p-value = 0.000001062 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
+ Biến “NC” : Với p-value =0.000000003795 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
Kết quả Friedman test
N
Chi-Square
Df
Asymp.Sig
2.4286 3 0.4883
Kết luận Friedman test
Vì Sig = 0.4883 > 0.05 chấp nhận H0, bác bỏ H1 nên giữa các hương vị này không tồn tại sự khác biệt
Trang 124.3 Dung tích
Dung tích
Thống kê mô tả
Hình 3: Biểu đồ boxplot thể hiện dung tích sử dụng sữa tươi Vinamilk
Chú thích: 1 – Dung tích 1 (DT1) của sữa tươi Vinamilk
2 – Dung tích 2 (DT2) của sữa tươi Vinamilk
3 – Dung tích 3 (DT3) của sữa tươi Vinamilk
TS
Trang 134 – Dung tích 4 (DT4) của sữa tươi Vinamilk
TS – Tần suất sử dụng sữa tươi Vinamilk
Đồ thị Boxplot cho thấy dữ liệu DT1, DT2, DT3, DT4 chạy trong khoảng từ 1-9, dữ liệu tập trung chủ yếu từ 2-4
Kiểm định Shapiro
Giả thuyết:
H0: dữ liệu phân phối chuẩn
H1: dữ liệu không phân phối chuẩn
Kết quả kiểm tra phân phối chuẩn Shapiro test.
p-value 0.00006626 0.00000002631 0.00007661 0.002654
Kết luận:
+ Biến “DT1”: Với p-value = 0.00006626 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
+Biến “DT2”: Với p-value = 0.00000002631 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
+ Biến “DT3”: Với p-value = 0.00007661 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
+ Biến “DT4” : Với p-value = 0.002654 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
Kiểm định Friedman test
Đặt giả thuyết
H0: Dung tích của 4 loại không có sự khác biệt
H1: Dung tích của 4 loại là có sự khác biệt
Kết quả Friedman test
Trang 14Chi-Square
Df
Asymp.Sig
0.984 3 0.8051
Kết luận Friedman test.
Vì p-value = 0.8051 > 0.05 chấp nhận H0, bác bỏ H1 nên giữa các dung tích này không tồn tại sự khác biệt
4.4 Thời gian
Thời gian
Thống kê mô tả
Trang 15Hình 4: Biểu đồ boxplot thể hiện thời gian sử dụng sữa tươi Vinamilk
Chú thích: 1 – buổi sáng (S) thời gian sử dụng của sữa tươi Vinamilk
2 – buổi trưa (T) thời gian sử dụng của sữa tươi Vinamilk
3 – buổi chiều (C) thời gian sử dụng của sữa tươi Vinamilk
4 – buổi tối (B) thời gian sử dụng của sữa tươi Vinamilk
TS – tần suất sử dụng của sữa tươi vinamilk
Đồ thị Boxplot cho thấy dữ liệu S, T, C, B chạy trong khoảng từ 1-9, dữ liệu tập trung chủ yếu
từ 3-4
Kiểm định Shapiro
Giả thuyết:
H0: dữ liệu phân phối chuẩn
H1: dữ liệu không phân phối chuẩn
Kết quả kiểm tra phân phối chuẩn Shapiro test.
p-value 0.000000002048 0.001394 0.002594 0.0004284
Kết luận:
TS
Trang 16+ Biến “S”: Với p-value = 0.000000002048 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
+Biến “T”: Với p-value = 0.001394 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
+ Biến “C”: Với p-value = 0.002594 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
+ Biến “B” : Với p-value = 0.0004284 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
Kiểm định Friedman test
Đặt giả thuyết
H0: Thời gian của 4 loại không có sự khác biệt
H1: Thời gian của 4 loại là có sự khác biệt
Kết quả Friedman test
N
Chi-Square
Df
Asymp.Sig
0.5732 3 0.9025
Kết luận Friedman test.
Vì sig = 0.9025 > 0.05 chấp nhận H0, bác bỏ H1 nên giữa các dung tích này không tồn tại sự khác biệt
4.5 Giá thành
Giá thành
Thống kê mô tả
Trang 17Max 9 8 8 8
Hình 4: Biểu đồ thể hiện giá thành sử dụng sữa tươi Vinamilk
Chú thích: 1 – Giá thành 1 (GT1) của sữa tươi Vinamilk
2 – Giá thành 2 (GT2) của sữa tươi Vinamilk
3 – Giá thành 3 (GT3) của sữa tươi Vinamilk
4 – Giá thành 4 (GT4) của sữa tươi Vinamilk
TS – Tần suất sử dụng của sữa tươi Vinamilk
Đồ thị Boxplot cho thấy dữ liệu GT1, GT2, GT3, GT4 chạy trong khoảng từ 1-9, GT1 có giá trị max cao nhất, GT2,GT3,GT4 có giá trị max bằng nhau, dữ liệu tập trung chủ yếu từ 2-4
Kiểm định Shapiro
Giả thuyết:
H0: dữ liệu phân phối chuẩn
H1: dữ liệu không phân phối chuẩn
Kết quả kiểm tra phân phối chuẩn Shapiro test.
TS
Trang 18p-value 0.0000003152 0.000000643 0.003162 0.0002051
Kết luận:
+ Biến “GT1”: Với p-value = 0.0000003152 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
+Biến “GT2”: Với p-value = 0.000000643 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
+ Biến “GT3”: Với p-value = 0.003162 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
+ Biến “GT4” : Với p-value = 0.0002051 < 0.05, bác bỏ H0 chấp nhận H1 vậy dữ liệu không phân phối chuẩn
Kiểm định Friedman test
Đặt giả thuyết
H0: Giá thành của 4 loại không có sự khác biệt
H1: Giá thành của 4 loại là có sự khác biệt
Kết quả Friedman test
N
Chi-Square
Df
Asymp.Sig
4.544 3 0.2084
Kết luận Friedman test.
Vì sig = 2084 > 0.05 chấp nhận H0, bác bỏ H1 nên giữa các dung tích này không tồn tại sự khác biệt
Trang 19CHƯƠNG 3: KẾT LUẬN
1 Biến tần suất (TS)
2 Biến hương vị (D, Dư, So, NC)
Qua bước xử lý số liệu ở chương 2, ta có thể thấy giữa các biến hương vị không tồn tại
sự khác biệt Do đó ta rút ra dược kết luận sau:
Qua cuộc khảo sát với cỡ mẫu là 364 sinh viên IUH ở viện Công nghệ Sinh học & Thực phẩm thì ta thấy được nhu cầu sử dụng sữa tươi Vinamilk của sinh viên IUH không phụ thuộc vào hương vị Điều đó cho thấy, sinh viên IUH sử dụng hương vị nào cũng được không quan trọng
3 Biến dung tích (DT1, DT2, DT3 DT4)
Qua bước xử lý số liệu ở chương 2, ta có thể thấy giữa các biến dung tích không tồn tại
sự khác biệt Do đó ta rút ra dược kết luận sau:
Qua cuộc khảo sát với cỡ mẫu là 364 sinh viên IUH ở viện Công nghệ Sinh học & Thực phẩm thì ta thấy được nhu cầu sử dụng sữa tươi Vinamilk của sinh viên IUH không phụ thuộc vào dung tích Điều đó cho thấy, sinh viên IUH sử dụng dung tích nào cũng được không quan trọng
4 Biến thời gian (GT1, GT2, GT3, GT4)
Qua bước xử lý số liệu ở chương 2, ta có thể thấy giữa các biến thời gian không tồn tại
sự khác biệt Do đó ta rút ra dược kết luận sau:
Qua cuộc khảo sát với cỡ mẫu là 364 sinh viên IUH ở viện Công nghệ Sinh học & Thực phẩm thì ta thấy được nhu cầu sử dụng sữa tươi Vinamilk của sinh viên IUH không phụ thuộc vào thời gian Điều đó cho thấy, sinh viên IUH sử dụng vào thời gian nào cũng được không quan trọng
5 Biến giá thành (GT1, GT2, GT3, GT4)
Qua bước xử lý số liệu ở chương 2, ta có thể thấy giữa các biến giá thành không tồn tại
sự khác biệt Do đó ta rút ra dược kết luận sau:
Qua cuộc khảo sát với cỡ mẫu là 364 sinh viên IUH ở viện Công nghệ Sinh học & Thực phẩm thì ta thấy được nhu cầu sử dụng sữa tươi Vinamilk của sinh viên IUH không phụ thuộc vào giá thành Điều đó cho thấy, sinh viên IUH sử dụng mức giá thành nào cũng được không quan trọng