Kiểm tra dữ liệu Đối với mối tương quan giữa giới tính và tần suất sử dụng: kiểm tra dữ liệu để kết luận biến số giới tính nam, nữ có ảnh hưởng đến biến số tần suất sử dụng thức ăn nhanh
Trang 1VIEN CONG NGHE SINH HQC THUC PHAM
SINH VIÊN ĐẠI HỌC CÔNG NGHIỆP THÀNH PHÓ HÒ CHÍ MINH
Trang 2BANG PHAN CONG NHIEM VU
ST | Họ và tên MSSV Ghi chú | Nhiệm vụ
T
1 Nguyễn Lê 21102361 | Nhóm - Phân công công việc
Thái Sơn trưởng - Khao sát thu dữ liệu
- Hỗ trợ sửa, kiểm tra bài nhóm
- Soan cac muc:
+ Loi cam on
+ Ly do chon dé tai
+ Muc tiéu
2 Pham Thanh | 2109365 | Thuky | - Khảo sát thu đữ liệu
- Sửa, kiểm tra bài nhóm
- Tổng hợp Word
- Soan cac muc:
+ 3 Bảng dữ liệu
+ 5, Tính số mẫu
3 Nguyên Thị | 21101201 - Khao sat thu dit ligu
Quynh Như - Soạn mục 3.3 Đối với môi tương quan
giữa sở thích nâu ăn và tần suất sử dụng
4 Phan Thị 2109129 -Khảo sát thu đữ liệu
Tiêu Như 1 - Soan muc 3.1 Doi với mối tương quan
giữa giới tính và tần suất sử dụng
5 Phan Thị 21113221 -Khảo sát thu đữ liệu
Quỳnh Như - Soạn mục 3.2 Đối với mối tương quan
giữa phân loại sinh viên và tần suất sử
dụng
6 Vũ Huỳnh 2109955 -Khảo sát thu dữ liệu
Minh Quân 1 - Soạn mục 3.6 Đối với mỗi tương quan
giữa thời gian học tập và tần suất sử dụng
- Soạn Canva thuyết trình
7 Tạ Văn Sang | 2109184 -Khảo sát thu dữ liệu
giữa nơi ở và tần suất sử dụng
Trang 3
LỜI CẢM ƠN
Chúng em xi gửi lời cảm ơn chân thành đến toàn thê Quý thầy cô Viện Công nghệ Sinh
học và Thực phẩm - Trường Đại học Công nghiệp Thành Phó Hồ Chí Minh và Thư viện
trường đã tạo điều kiện, giúp đỡ chúng em trong quá trình học tập và nghiên cứu Đặc biệt, chúng em xin chân thành cảm ơn thầy giáo T.S Nguyễn Ngọc Tuấn— giảng viên
môn Xử lý số liệu thực nghiệm, người đã nhiệt tình giảng dạy, giải đáp những thắc mắc,
cung cấp những kiến thức rất bô ích, thú vị cho chúng em trong suốt quá trình học tập và nghiên cứu cũng như hoàn thành bài tiêu luận này
Với điều kiện thời gian và kinh nghiệm còn nhiều hạn chế nên trong bài tiểu luận chắc
chăn không thê tránh được những sai sót, nhóm chúng em rất mong được sự chỉ bảo, đóng góp ý kiến từ các thầy để làm hành trang vững chắc cho bài báo cáo khóa luận tốt nghiệp nói riêng cũng như cho công việc trong tương lai sau này nói chung
Một lần nữa nhóm chúng em xin chân thành cám ơn thây, kính chúc thầy thật nhiều sức khỏe, thành trong trong công việc
Tp.HCM, ngày L7 thang 11 nam 2023
Tap thé nhom 2
Trang 4CHUONG II: XU LY SO LIEU 8
1 Kid tra dit QU ccscsscssssesscsssssesssssssesssssssscssssscsscssesssssessssscssssssscsssscsasecsasecessssens 8
2 Mã hóa và rÚt frÍCh c0 0< S0 10 999050505 939.950.958 058 5.585 5005 9900.55.0805 50508845 98900 8
2.2 Rit trichi ccccccccccsssssccsssssssccccssnncssccssssnncccsssssssecccsnsncassssssnnnsccesssssseccssnnnaaaacessassceeses 9
3 XỬ ý HH“ HÀ HH HO HH HH HH HH TH HT HT TT TH 0 12
CHƯƠNG II: KÉT QUÁ VÀ BÀN LUẬNN 5- sec sccscseceeecrsrsersreersrs 14
3.1 Đối với mỗi tương quan giữa giới tính và tần suất sử dụng: « 14 3.2 Đối với mối tương quan giữa phân loại sinh viên và tần suất sử dụng 16 3.3 Đối với mối tương quan giữa sở thích nấu ăn và tần suất sử dụng 19 3.4 Đối với mỗi tương quan giữa nơi ở và tần suất sử dụng «« «<< 22 3.5 Đối với mối tương quan giữa thu nhập và tần suất sử CL 25 3.6 Đối với mỗi tương quan giữa thời gian học tập và tần suất sử dụng 28
Trang 5CHƯƠNG I
1 Lý do chọn đề tài
Giới trẻ ngày nay có mật độ và tần suất làm việc lớn trong xã hội Ngày càng nhiều người dành phần lớn thời gian trong công việc, từ đó dẫn đến nhiều ngành công nghiệp mới đã phát triển đề đáp ứng nhu cầu tiêu dùng cho họ Những người không có quá nhiều thời gian để chăm sóc bản thân, đặc biệt trong số đó là ngành công nghiệp thực phẩm, điển hình là ngành sản xuất thức ăn nhanh ảnh hưởng ít
nhiều đến sinh hoạt của mọi người cho việc ăn uống vì sự tiện lợi của nó Mỗi
ngày, các hãng thức ăn đều cho ra vô vàn các sản phẩm thức ăn siêu chế biến với
sự bắt mắt, tiện lợi và đễ sử dụng của nó đã làm cho nhu cầu sử dụng thức ăn
nhanh của mọi người ngày càng tăng, đặc biệt là đối với các bạn sinh viên, đây là
bộ phận chiếm thị phan rat lớn ở Việt Nam về việc tiêu thụ thức ăn nhanh, là một
bộ phận có nhu cầu sử dụng nhiều nhất trong thế hệ gen Z này Vì thể, nhóm chúng em lựa chọn đề tài “Kháo sát nhu cầu sử đụng Thức ăn nhanh của Sinh viên Đại học Công nghiệp thành phố Hỗ Chí Minh” sẽ làm một bài khảo sát nhanh về
nhu cầu sử dụng thức ăn nhanh của sinh viên để cho ra được mức độ nhu cầu sử dụng thức ăn nhanh đối với bộ phận giới trẻ này
nhu cầu sử dụng thức nhiều nhất
3 Báng dữ liệu
Biến số | Thang | Loại | Y nghĩa Cau hoi Số liệu
đo
Giới Định Địmh | Giới tính có | Giới tính của bạn là gì? Tân số
đến tần suất | b Nữ nhiêu
loại sinh tinh |năm l1, 2, 3, |a Năm l bao
hưởng đến |c Năm 3 sinh
hưởng đến | d Năm 4 viên
Trang 6
e Rất thích
Nơi ở Định Định | Điều kiện | Nơi ở hiện tại của bạn? Tân sô
ảnh hưởng | c Sống chung với ngườithân |bạn ở
suất sử dụng | a Dưới 3 triệu hàng
nhanh c Từ 7 -10 triệu
đ Trên 10 triệu Tân suât | Tỉ lệ Dinh | Mức độ tân | Bạn sử dụng thức ăn nhanh |Sô lân
sử dụng lượng suất sử dụng | bao nhiêu lần một tuần? sử dụng
thức ăn nhanh
Trang 7=0,95
= 5 (sinh viên)
= N==2l7 (người)
Kết luận: vậy số người khảo sát tối thiêu là 217 người
CHƯƠNG II: XỬ LÝ SÓ LIỆU
1 Kiểm tra dữ liệu
Đối với mối tương quan giữa giới tính và tần suất sử dụng: kiểm tra dữ liệu để kết luận biến số giới tính (nam, nữ) có ảnh hưởng đến biến số tần suất sử dụng thức ăn nhanh hay không
Đối với mối tương quan giữa thời gian học tập và tần suất sử dụng: kiểm tra
dữ liệu đề kết luận biến số thời gian học tập có ánh hưởng đến biến số tần suất sử
dụng thức ăn nhanh hay không
Đối với mối tương quan giữa phân loại sinh viên và tần suất sử dụng: kiểm tra
dữ liệu để kết luận biến số phân loại sinh viên có ảnh hưởng đến biến số tần suất
sử dụng thức ăn nhanh hay không
Đối với mối tương quan giữa sở thích nấu ăn và tần suất sử dụng: kiểm tra dữ liệu đề kết luận biến số sở thích nấu ăn có ảnh hưởng đến biến số tần suất sử dụng thức ăn nhanh hay không
Đối với mỗi tương quan giữa nơi ở và tần suất sử dụng: kiểm tra dữ liệu dé kết luận biến số nơi ở có ảnh hưởng đến tần suất sử dụng thức ăn nhanh hay không
Trang 8- Đôi với môi tương quan giữa thu nhập và tần suat sử dụng: kiêm tra dữ liệu đê kết luận biến số thu nhập có ảnh hưởng đến biến số tần suất sử dụng thức ăn nhanh hay không
2 Mã hóa và rút trích
2.1 Mã hóa
Đối với các biến số, chúng ta không thê giữ nguyên tên biến như vậy mà đưa vào phân mêm R, do đó biên này cần được mã hóa đê phù hợp với phân mềm, từ đó phần mềm có thề xử lý được
Giới tính
Có 2 loại giới tính mà nhóm khảo sát là “Nam” và “Nữ”, đối với biến giới tính
“Nam” sẽ được mã hóa thành “GT01”, còn đôi với biên giới tính “Nữ” sẽ được mã hóa thành “GT02”
Phân loại sinh viên
Có 4 nhóm sinh viên mà nhóm khảo sát là “Sinh viên năm 1”, “Sinh viên năm 2”,
“Sinh viên năm 3”, “Sinh viên năm 4” Đôi với biến giới tính “Sinh viên năm L” sẽ được mã hóa thành “SVI”, “Sinh viên năm 2” sẽ được mã hóa thành “SV2”, “Sinh viên năm 3” sẽ được mã hóa thành “ŠV3”, “Sinh viên năm 4” sẽ được mã hóa thành “SV4”
Sở thích nâu ăn
Trang 9Có 5 mức độ ưa thích mà nhóm khảo sát là “Rất không thích”, “Không thích”,
“Bình thường”, “Thích” và “Rất thích” Đối với biến “Rất không thích” sẽ được
mã hóa thành “01”, “Không thích” sẽ được mã hóa thành “02”, “Bình thường” sẽ
được mã hóa thành “03”, “Thích” sẽ được mã hóa thành “04”, “Rất thích” sẽ được
mã hóa thành “05”
Nơi ở
^xm>
Có 3 loại nơi ở là “Ký túc xá”, “Nhà trọ” và “Sống chung với người thân” Đối với
biến “Nhà trọ” sẽ được mã hóa thành “NI”, “Ký túc xá” sẽ được mã hóa thành
“N2”, * Sông với người thân” sẽ được mã hóa thành “N3”
Thời gian sinh hoạt
Ta quy đổi đữ liệu từ thang tỉ lệ về thang khoảng đoạn như sau:
Có 4 nhóm thu nhập mà nhóm đã khảo sát là “Dưới 3 triệu”, ”Từ 3 — 7 triệu”, "Từ
7 — 10 triệu”, "Trên 10 triệu” Đối với biến thu nhập “Dưới 3 triệu” sẽ được mã
hóa thành “TN1”, “Từ 3 — 7 triệu” sẽ được mã hóa thành “ “N2”, “Từ 7 — 10 triệu”
sẽ được mã hóa thành ““TN3”, “Trên 10 triệu” sẽ được mã hóa thành ““TN4”
Bước 1: Mở bảng đữ liệu mà ta khảo sát được trong Excell
Bước 2: Chọn Sort and Filter a chon Filter
Bước 3: chọn ~' trong tiêu đề của cột, chọn GT0I
Bước 4: Copy đữ liệu của biến số tần suất sử dụng ứng với biến số GT01
Trang 10Bước 5: Tạo sheeet “Giới tính và tân suât”, dán đữ liệu vừa copy
Đôi với môi tương g quan quan giữa g phân loại sinh viên và tần suât sử dụng: ta tiên bại $Ỉ ung: ta
hành rút trích so sánh dữ liệu của 2 biên so “phan loai sinh vién” va “tan suat str dụng”
Cách tiên hành: tương tự với cách rút trích biên sô “giới tính” và “tân suat str dụng”
Đôi với môi tương sq quan giữa sở thích nâu ăn và tần suât sử dụng: ta tiên hành g u rút trích so sánh đữ liệu của 2 biên số “sở thích nau an” va “tan suât sử dụng”
Cách tiên hành: tương tự với cách rút trích biên sô “giới tính” và “tân suat str dụng”
Đôi với môi tương quan giữa nơi ở và tần suat sử dụng: ta tiên hành rút trích so
sánh đữ liệu của 2 biên sô “nơi ở” và “tân suât sử dụng”
Cách tiên hành: tương tự với cách rút trích biên sô “giới tính” và “tân suat str dụng”
Đôi với môi tương g quan quan giữa giữa thu nhập t : và tân suât sử dụng: suât sử dụ ta tiên hành rút
trích so sánh dữ liệu của 2 biên sô “thu nhập” và “tân suât sử dụng”
Cách tiên hành: tương tự với cách rút trích biên sô “giới tính” và “tân suat str dụng”
10
Trang 11Biên số
nam, nữ? Nữ: GT02 GT02 (TSI1, TS2 ) Phân loại sinh | Tân số bao nhiêu | Sinh viên năm I:SVI |SVI(TSI, TS2, )
viên sinh viên năm l, 2, | Sinh viên năm 2: SV2
3,4 Sinh viên năm 3: SV3
Sinh viên nam 4: SV4
SV2 (TSI, TS2 ) SV3 (TSI, TS2 ) SV4 (TSI, TS2 )
01 (TSI, TS2 )
02 (TSI, TS2 )
Binh thường: 03 03 (TS1, TS2 ) Thích: 04 04 (TS1, TS2, )
bạn ở nhà trọ, ktx, | Ký túc xá: N2 N2 (TSI, TS2, )
Sống chung với người | N3 (TSI, TS2 ) thân: N3
Thời gian | Sô giờ học tập, làm | 0-5 giờ: TGI TGI (TS1, TS2, )
11-15 giờ: TG3 TG3 (TSI, TS2, ) 16-20 gio: TG4 TG4 (TS1, TS2 )
Thu nhập Thu nhập hàng | Dưới 3 triệu: TNI TNI (TSI, TS2 )
Trang 12về giới tính GT0I và
GT02
Vẽ đồ thị boxplot à giải
thích + Thông kê diễn giải:
® Kiểm tra đữ liệu
Phân loại sinh
viên
Tân số bao nhiêu
sinh viên năm
1,2,3,4
Sinh vién nam 1: SV1 Sinh vién nam 2: SV2 Sinh vién nam 3: SV3 Sinh vién nam 4: SV4
+ Thông kê mô tả: giá trị
trung bình, trung vị, mode, mã, mm, range,
varlance, sd à nhận xét
về sinh viên SVI, SV2,
SV3, SV4, SV3,SV4 + Thông kê diễn giải:
® Kiểm tra đữ liệu
Sở thích nâu
an Tần sô bao nhiêu
Bạn thích nâu ăn Rat không thích: 01
Không thích: 02 Bình thường: 03 Thích: 04 + Thông kê mô tả: giá trị
trung bình, trung vị, mode, mã, mm, range,
varlance, sd à nhận xét
12
Trang 13Rat thích: 05 về 01; 02; 03; 04; 05 +
Thông kê diễn giải:
e Kiểm tra đữ liệu
+Thông kê mô tả: gia trị trung bình, trung vị, mode, mã, mm, range,
varlance, sd à nhận xét
về NI,N2, N3
+ Thông kê diễn giải:
® Kiểm tra đữ liệu
varlance, sd à nhận xét
về TNI, TN2, TN3,TN4
+ Thông kê diễn giải:
® Kiểm tra đữ liệu
Thời gian hoc Số giờ học tập TG +Thông kế mô tả: giá tri
13
Trang 14tập
trung bình, trung vị, mode, mã, mm, range,
varlance, sd à nhận xét
về TNI, TN2, TN3,TN4
+ Thông kê diễn giải:
® Kiểm tra đữ liệu
CHUONG III: KET QUA VA BAN LUAN
3.1 Đôi với môi tương quan giữa giới tính và tần suat sử dụng:
Shapiro-Wilk normality test
Vì p-value nhỏ hơn 0.05 nên số liệu không phân phối chuẩn
Thống kê mô tả giữa GT01 VÀ GT02
Giá trị hướng tâm
14
Trang 15GT01: Mode = 2; Mean = 3.726; Med = 3
GT02: Mode = 2; Mean = 3.141; Med =3
GTO1: Min = 1; Max= 8; Range =7
T T
giới tính
15
Trang 16Kiêm tra dữ liệu định lượng, phân phôi chuẩn:
Kiểm tra sự khác biệt giữa 2 biến: giới tính và tần suất sử dụng
Vì 2 dữ liệu của 2 biến số không phân phối chuẩn, ta tiền hành kiểm định phi tham
số (sử dụng kiểm định Kruskal)
Kruskal-Wallis rank sum test
data: Tan.suat by giéi.tinh
Nhận xét: vì p-value lớn hơn 0.05 nên không có sự khác biệt giữa các nhóm
3.2 Đối với mối tương quan giữa phân loại sinh viên và tần suất sử dụng
Trang 17Vì p-value nhỏ hơn 0.05 nên số liệu không phân phối chuẩn
Vì p-value nhỏ hơn 0.05 nên số liệu không phân phối chuẩn
Thống kê mô tả giữa SV1, SV2, SV3, SV4
mean sd IQR O% 25% 50% 75% 100% tần.suất:n
SV1 3.428571 2.138090 3 1 22.5 5 7 14
SV2 3.600000 1.943314 3 1 23.0 5 7 35
SV3 3.308271 2.078681 3 1 23.0 5 8 133
SV4 3.675676 2.381107 4 1 23.0 6 - 37
Giá trị hướng tâm
SV1: Mode = 2; Mean = 3.42; Med = 2.5
SV2: Mode = 3; Mean = 3.6; Med =3
SV3: Mode = 2; Mean = 3.3; Med =3
SV4: Mode = 1; Mean = 3.67; Med = 3
Giá trị biến thiên
SVI1: Mm = l; Max = 7; Range = 6
SD=2.13: var= 4.57
SV2: Mm = l; Max = 7; Range = 6
SD = 1.94; var = 2.77
17
Trang 18SV3: Min = |; Max = 8; Range = 7
Đồ thị Boxplot của SVI cho thấy đữ liệu dao động trong khoảng từ I đến 7, không
có giá trị ngoại lai Vay tap đữ liệu sẽ đúng giá trị tuyến tính trong khoảng từ I đến
7 Max của tập dữ liệu là 8, Mm của tập đữ liệu là l và Range của là 6 Gia tri
trung vị năm lệch về Q¡ do đó đữ liệu có xu hướng giảm
Đồ thị Boxplot của SV2 cho thấy đữ liệu dao động trong khoảng từ I đến 7, không
có giá trị ngoại lai Vay tap đữ liệu sẽ đúng giá trị tuyến tính trong khoảng từ I đến
18
Trang 19trung vị năm lệch về Q¡ do đó đữ liệu có xu hướng giảm
Đồ thị Boxplot của SV3 cho thấy đữ liệu dao động trong khoảng từ I đến 8, không
có giá trị ngoại lai Vay tap đữ liệu sẽ đúng giá trị tuyến tính trong khoảng từ I đến
8 Max của tập dữ liệu là 8, Min cua tập đữ liệu là l và Range của là 7 Gia tri
trung vị nằm lệch về Q¡ do đó dữ liệu có xu hướng giảm
Đồ thị Boxplot của SV4 cho thấy đữ liệu dao động trong khoảng từ I đến 8, không
có giá trị ngoại lai Vay tap đữ liệu sẽ đúng giá trị tuyến tính trong khoảng từ I đến
8 Max của tập dữ liệu là 8, Min cua tập đữ liệu là l và Range của là 6 Gia trị
trung vị nằm lệch về Q¡ do đó dữ liệu có xu hướng giảm
3.2.2 Kiểm định thống kê
- _ Kiêm tra dữ liệu định lượng, phân phôi chuân:
Kiểm tra sự khác biệt giữa 2 biến: phân loại sinh viên và tần suất sử dụng
Vì 4 dữ liệu của 2 biến số không phân phối chuẩn, ta tiền hành kiểm định phi tham
số (sử dụng kiểm định Kruskal)
data: tan.suat by N&m.sinh.vién
- _ Nhận xét: vì p-value lớn hơn 0.05 nên không có sự khác biệt giữa các nhóm
3.3 Đối với mối tương quan giữa sở thích nấu ăn và tần suất sử dụng
3.3.1 Thống kê mô tả
- Xét01
Shapiro-Wilk normality test
Vì p-value nhỏ hơn 0.05 nên số liệu không phân phối chuẩn
Trang 20Shapiro-Wilk normality test
Vì p-value nhỏ hơn 0.05 nên số liệu không phân phối chuẩn
Xét 05
Shapiro-Wilk normality test data: X05
W = 0.88171, p-value = 0.0005857
Vì p-value nhỏ hơn 0.05 nên số liệu không phân phối chuẩn
Thống kê mô tả giữa 01, 02, 03, 04, 05
Giá trị hướng tâm
01: Mode = 2; Mean = 2.667; Med = 2
02: Mode = 5; Mean = 4.5; Med = 4.5
03: Mode = 1; Mean = 3.208; Med = 3
04: Mode = 2; Mean = 3.253; Med = 3
05: Mode = 7; Mean = 3.95; Med = 3.5
Giá trị biến thiên
01: Min = 1; Max= 7; Range =6
SD =2.16; var = 4.66
02: Min = 1; Max= 8; Range = 7
20
Trang 21Nhận xét: Đồ thị Boxplot của 01 cho thấy đa số đữ liệu tập trung vào số 2, có 2
biên dữ liệu ngoại lai là | và 7
Đồ thị Boxplot của 02 cho thấy dữ liệu đao động trong khoảng từ 1 đến 8, không
có giá trị ngoại lai Vậy tập đữ liệu sẽ đúng giá trị tuyến tính trong khoảng từ 1 đến
21
Trang 22năm lệch về Q¡ do đó tập dữ liệu có xu hướng giảm
Đồ thị Boxplot của 03 cho thấy dữ liệu dao động trong khoảng từ I đến 8, không
có giá trị ngoại lai Vậy tập đữ liệu sẽ đúng giá trị tuyến tính trong khoảng từ 1 đến
8 Max của tập dữ liệu là 8, Mm của tap dir ligu la | va Range cua la 8 Gia trị
trung vị nằm lệch về Q¡ đo đó tập đữ liệu có xu hướng giảm
Đồ thị Boxplot của 04 cho thấy dữ liệu đao động trong khoảng từ 1 đến 7, không
có giá trị ngoại lai Vậy tập đữ liệu sẽ đúng giá trị tuyến tính trong khoảng từ 1 đến
7 Max của tập dữ liệu là 7, Mm của tap dir ligu la | va Range cua la 6 Gia tri
trung vị nằm lệch về Q¡ đo đó tập đữ liệu có xu hướng giảm
Đồ thị Boxplot của 05 cho thấy dữ liệu dao động trong khoảng từ I đến 8, không
có giá trị ngoại lai Vậy tập đữ liệu sẽ đúng giá trị tuyến tính trong khoảng từ 1 đến
8 Max của tập dữ liệu là 8, Min cua tập đữ liệu là l và Range của là 7 Gia tri
trung vị nằm lệch về Q¡ đo đó tập đữ liệu có xu hướng giảm
3.3.2 Kiêm định thông kê
Kruskal-Wallis rank sum test
Nhận xét: vì p-value > 0.05 nên không có sự khác biệt giữa 3 nhóm
3.4 Đối với mỗi tương quan giữa nơi ở và tần suất sử dụng
Trang 23XétN3:
Shapiro-Wilk normality test
W = 0.84997, p-value = 0.0000002823
Vì p-value nhỏ hơn 0.05 nên số liệu không phân phối chuẩn
Thống kê mô tả giữa N1, N2, N3:
mean sd se (mean) var IQR 0$ 25$ 50% 75% 100% Tan.suat:n N1 3.736434 2.213310 0.1948711 0 4.00 1 2 3.0 6.00 8 129 N2 3.928571 2.164905 0.5785952 2.00 1 3 3.5 5.00 7 14 N3 2.802632 1.766501 0.2026: 62.25 1 1 2.0 3.25 8 76
Giá trị hướng tâm
NI: Mode = 2; Mean = 3.736; Med = 3
N2: Mode = 3; Mean = 3.929; Med = 3.5
N3: Mode = 1; Mean = 2.803; Med = 2
Giá trị biến thiên
NI: Mm = 1; Max= 8; Range = 7
Trang 24Đồ thị Boxplot của NI cho thấy đữ liệu đao động trong khoáng từ l đến 8, không
có giá trị ngoại lai Vậy tập dữ liệu sẽ đúng giá trị tuyên tính trong khoảng từ l đến
8 Max của tập dữ liệu là 8, Min cua tập đữ liệu là l và Range của là 7 Gia tri trung vị năm lệch về Q¡ do đó tập dữ liệu có xu hướng giảm
Đồ thị Boxplot của N2 cho thấy đữ liệu đao động trong khoáng từ l đến 7, không
có giá trị ngoại lai Vậy tập dữ liệu sẽ đúng giá trị tuyên tính trong khoảng từ l đến
7 Max của tập dữ liệu là 7, Mm của tap dir ligu la | va Range cua la 6 Gia tri trung vi nam Iéch vé Q; do do tap dt liéu co xu hướng giảm
Đồ thị Boxplot của N3 cho thấy đữ liệu dao động trong khoảng từ I đến 8, có giá trị ngoại lai là 8 Vậy tập đữ liệu sẽ đúng giá trị tuyến tính trong khoáng từ l đên
7 Max của tập dữ liệu là 7, Mm của tap dir ligu la | va Range cua la 6 Gia tri trung vi nam Iéch vé Q; do do tap dt liéu co xu hướng giảm
3.4.2 Kiém dinh thong ké
Kiêm tra sự khác biệt giữa 2 biên: nơi ở và tần suat sử dụng
24
Trang 25data: Tần.suật by Nơi.ở
Kruskal-Wallis chi-squared = 8.5382, df = 2, p-value = 0.01399
Vi p-value nho hon 0.05 nén co tồn tại ít nhất một sự khác biệt giữa 3 nhóm
> kruskalmc (Tần suắt ~ Nơi.ở, data=Dataset)
Multiple comparison test after Kruskal-Wallis
Kết luận: Không có sự khác biệt giữa NI và N2, N2 và N3 vì giá trị quan sát
được nhỏ hơn giá trị tham sô
Có sự khác biệt giữa NI và N3 vì giá trị quan sát được lớn hơn giá trị tham sô
3.5 Đối với mỗi tương quan giữa thu nhập và tần suất sử dụng
Trang 26Vi p-value lớn hơn 0.05 nên số liệu phân phối chuẩn
Thông kê mô tả giữa TN1, TN2, TN3 VÀ TN4
mean sd se(mean) var IQR 0% 25% 50$ 75% 100% Tân.suât:n
Giá trị hướng tâm
TNI: Mode = 2; Mean = 3.068; Med = 3
TN2: Mode = 2; Mean = 4.145; Med = 4
TN3: Mode = 1; Mean = 3.167; Med = 3.5
TN4: Mode = 7; Mean = 4.583; Med = 4.5
Giá trị biến thiên
TNI1: Min = 1; Max= 7; Range = 6
Trang 27Đồ thị Boxplot của TNI1 cho thấy đữ liệu đao động trong khoảng từ 1 đến 7, không
có giá trị ngoại lai Vậy tập đữ liệu sẽ đúng giá trị tuyến tính trong khoảng từ 1 đến
7 Max của tập dữ liệu là 7, Mm của tap dir ligu la | va Range cua la 6 Gia tri
trung vị nằm lệch về Q¡ đo đó tập đữ liệu có xu hướng giảm
Đồ thị Boxplot của TN2 cho thấy đữ liệu đao động trong khoảng từ 1 đến 8, không
có giá trị ngoại lai Vậy tập đữ liệu sẽ đúng giá trị tuyến tính trong khoảng từ 1 đến
7 Max của tập dữ liệu là 7, Mm của tap dir ligu la | va Range cua la 6 Gia tri
trung vị nằm lệch về Q¡ đo đó tập đữ liệu có xu hướng giảm
27
Trang 28Đồ thị Boxplot của TN3 cho thấy đữ liệu đao động trong khoảng từ 1 dén 6, không
có giá trị ngoại lai Vậy tập đữ liệu sẽ đúng giá trị tuyến tính trong khoảng từ 1 đến
6 Max của tập dữ liệu là 6, Mm của tập đữ liệu là l và Range của là 5 Gia tri trung vị nằm lệch về Q3 do đó tập dữ liệu có xu hướng tăng
Đồ thị Boxplot của TN4 cho thấy đữ liệu đao động trong khoảng từ 1 đến 8, không
có giá trị ngoại lai Vậy tập đữ liệu sẽ đúng giá trị tuyến tính trong khoảng từ 1 đến
8 Max của tập dữ liệu là 8, Min cua tap đữ liệu là I và Range của là 7 Giá trị trung vị nằm lệch về Q1 đo đó tập dữ liệu có xu hướng giảm
3.5.2 Kiểm định thống kê
Kruskal-Wallis rank sum test
data: Tân.suât by Thu.nhập
Kruskal-Wallis chi-squared = 11.242, df = 3, p-value = 0.01049
Vi p-value nho hon 0.05 nén co tồn tại ít nhất một sự khác biệt giữa 4 nhóm