MÔ TẢ DỮ LIỆU 1.1.Tổng quanTập dữ liệu này chứa thông tin được thu thập từ sinh viên đại học thông qua biểu mẫuGoogle, bao gồm các chi tiết như các khóa học cấp chứng chỉ, giới tính, kho
MÔ TẢ DỮ LIỆU
Tổng quan
Tập dữ liệu này chứa thông tin được thu thập từ sinh viên đại học thông qua biểu mẫu Google, bao gồm các chi tiết như các khóa học cấp chứng chỉ, giới tính, khoa, chiều cao (tính bằng cm), cân nặng (tính bằng kg), điểm lớp 10 và 12, điểm đại học, sở thích, thời gian học hàng ngày, môi trường học tập ưa thích, kỳ vọng về lương, sự hài lòng với công việc của họ bằng cấp, sự sẵn sàng theo đuổi nghề nghiệp liên quan đến bằng cấp của họ, việc sử dụng mạng xã hội và video, thời gian đi lại, mức độ căng thẳng và tình trạng tài chính
Tập dữ liệu này chứa thông tin về nhân khẩu học, kết quả học tập, sở thích, thói quen học tập, nguyện vọng nghề nghiệp của sinh viên đại học và các yếu tố khác để phân tích thái độ và hành vi 📊📊✏️
Dữ liệu tìm kiếm
Bài phân tích sử dụng tập dữ liệu: https://www.kaggle.com/datasets/susanta21/student-attitude-and-behavior? fbclid=IwZXh0bgNhZW0CMTAAAR26QQWUOg
1W3WibX4OirTupAZSwd2TwGHNpEdwN0DRGGQcUk0joNL-
Pw_aem_ASvhhqn1HUGjtRi2Jsh_bQP1jPw9RlF0ZvXLJkvXRLoq6fvz_Djmhkfmkr1Fi srC2CnFjuIomnytUdi65ewAWjiJ
Tập dữ liệu được lấy từ trang web kaggle.com mô tả về thái độ và hành vi của sinh viên.
Phân tích biến
Certification Course: Cho biết học viên đã hoàn thành khóa học cấp chứng chỉ nào hay chưa ✅
Gender: Giới tính của học sinh 📊
Department: Khoa hoặc lĩnh vực học tập mà sinh viên đang theo học 📊
Hobbies: Sở thích hoặc đam mê của học sinh 📊
Prefer to Study in: Môi trường học tập hoặc địa điểm ưa thích của sinh viên 📊📊
Do you like your degree?: Ý kiến của sinh viên về việc họ có thích bằng cấp của mình hay không 📊📊
Willingness to pursue a career based on their degree: Sự sẵn lòng của sinh viên theo đuổi nghề nghiệp liên quan đến bằng cấp của họ 📊
Social Media & Video: Sự tham gia của học sinh với các nền tảng truyền thông xã hội và video 📊📊
Stress Level: Mức độ căng thẳng cảm nhận được của học sinh 😓
Financial Status: Tình trạng tài chính hoặc nền tảng kinh tế của sinh viên 📊
Part-time Job: Liệu sinh viên có tham gia vào công việc bán thời gian hay không.
Height (CM): Chiều cao của học sinh tính bằng centimet 📊
Weight (KG): Cân nặng của học sinh tính bằng kilogam ⚖️
10th Mark: Điểm của học sinh đạt được vào lớp 10 📊
12th Mark: Điểm của học sinh đạt được vào năm lớp 12 📊
College Mark: Điểm của sinh viên đạt được ở trường cao đẳng hoặc đại học 📊
Daily Studying Time: Lượng thời gian học sinh dành cho việc học hàng ngày 📊
Salary Expectation: Kỳ vọng của sinh viên về mức lương tương lai của họ 📊
Traveling Time: Thời gian để học sinh đi lại hoặc di chuyển đến cơ sở giáo dục của mình 📊
PHÂN TÍCH CÁC ĐẠI LƯỢNG THỐNG KÊ MÔ TẢ
Các đại lượng thống kê mô tả (chọn biến college mark)
Trung bình cộng: x=Student_Attitude_and_Behavior$`college mark`
Nhận xét: Điểm trung bình sinh viên của trường đạt được là 70.66055
Nhận xét: Có không quá 50% số sinh viên trong trường đạt dưới 70 điểm và không quá 50% số sinh viên trong trược đạt trên 70 điểm
Nhận xét: Số sinh viên đạt được 70 điểm chiếm nhiều nhất trong tổng số sinh viên
2.1.2 Số đo độ phân bổ:
Min 1st Qu Median Mean 3rd Qu Max
Nhận xét: Điểm trung bình của sinh viên toàn trường là 70.66 điểm Điểm thấp nhất sinh viên đạt được là 1 điểm, điểm cao nhất là 100 điểm Có không quá 25% số sinh viên đạt dưới 60 điểm, không quá 50% số sinh viên đạt dưới 70 điểm và không quá 75% số sinh viên đạt dưới 80 điểm
Nhận xét: Có không quá 90% số sinh viên đạt dưới 86 điểm và không qúa 10% số sinh viên đạt trên 86 điểm.
2.1.3 Số đo độ phân tán:
Biến định tính: Gender, Stress level
> table(Student_Attitude_and_Behavior$Gender)
Gender Tần số Tỷ lệ
Nhận xét: Tỷ lệ nam giới chiếm nhiều hơn tỷ lệ nữ giới.
> table(Student_Attitude_and_Behavior$`Stress Level`)
Nhận xét: Mức độ căng thẳng của sinh viên nhìn chung khá tích cực, có đến 58% sinh viên cảm thấy tốt không bị căng thẳng và chỉ
29% sinh viên cảm thấy căng thẳng, 13% còn lại sinh viên cảm thấy mức độ căng thảng nghiệm trọng hơn.
>table(Student_Attitude_and_Behavior$Gender,Student_Attitude_and_Behavior$`Stress Level`)
Stress level Tần số Tỷ lệ
Nhận xét: Qua bảng tần số ta thấy được tỉ lệ nam giới luôn nhỉnh hơn, chiếm tỷ lệ hơn cả so với tỷ lệ nữ giới ở cả hai biến: stress level và gender.
Biểu đồ tròn: pie(table(Student_Attitude_and_Behavior$Gender))
> b=table(Student_Attitude_and_Behavior$Gender)
> tyle=round(prop.table(b),2) pie(b,paste(names(b),":",tyle*100,"%"))
Nhận xét: Tỷ lệ SV nam nhiều hơn tỷ lệ SV nữ
> barplot(table(Student_Attitude_and_Behavior$Gender))
Nhận xét: Số lượng SV nam nhiều hơn số lượng SV nữ
> pie(table(Student_Attitude_and_Behavior$`Stress Level`))
> b=table(Student_Attitude_and_Behavior$`Stress Level`)
Nhận xét: Tỷ lệ sinh viên stress level: good chiếm nhiều nhất khoảng 58% Tỷ lệ sinh viên stress level: fabulous chiếm ít nhất khoảng 5%
> table(Student_Attitude_and_Behavior$`Stress Level`)
> barplot(table(Student_Attitude_and_Behavior$`Stress Level`)
Nhận xét: Số lượng sinh viên stress level: good là nhiều nhất
Số lượng sinh viên stress level: fabulous là ít nhất
>table(Student_Attitude_and_Behavior$Gender,Student_Attitude_and_Behavior$`Stress Level`)
>barplot(table(Student_Attitude_and_Behavior$Gender,Student_Attitude_and_Behavior
Nhận xét: Trong 4 mức độ stress level thì good chiếm tỉ trọng lớn nhất, tiếp đến là bad, awful và chiếm tỉ lệ nhỏ nhất là fabulous, qua biểu đồ ta còn thấy tỉ lệ nam giới trong mỗi level đều chiếm lớn hơn tỉ lệ nữ giới, phần màu xám trắng luôn chiếm tỉ lệ lớn hơn so với màu đen.
> table(Student_Attitude_and_Behavior$Gender,Student_Attitude_and_Behavior$`StressLevel`)
Pearson's Chi-squared test data: A
In chisq.test(A) : Chi-squared approximation may be incorrect
So sánh p với mức độ ý nghĩa thống kê thường được đặt là 0.05
Ta thấy p-value = 0.8549 > 0.05 nên ta chấp nhận H0 kết luận không có mối liên hệ thống kê giữa hai biến.
Biến định lượng
>x=Student_Attitude_and_Behavior$`college mark`
> PhanDiem=cut(x,breaks = seq(0,100,10),right=T)
Tính tần số các khoảng điểm
Tính tần suất các khoảng điểm
> round(prop.table(table(PhanDiem)),digits = 4)
> DSNam=subset(Student_Attitude_and_Behavior,Gender=="Male")
> PhanDiemNam=cut(y,breaks = seq(0,100,10),right=T)
tính tần số các khoảng điểm của sinh viên nam
> DSNu=subset(Student_Attitude_and_Behavior,Gender=="Female")
> PhanDiemNu=cut(z,breaks = seq(0,100,10),right=T)
tính tần số các khoảng điểm của sinh viên nữ
> hist(x,main = " Histogram of College Mark",xlab = "College Mark")
> hist(y,main = " Histogram of College Mark (Male)",xlab = "College Mark")
> hist(z,main = " Histogram of College Mark (Female)",xlab = "College Mark")
> boxplot(x,main = " Boxplot of College Mark",ylab = "College Mark")
>cumsum(round(prop.table(table(PhanDiem)),digits = 4))
>cumsum(round(prop.table(table(PhanDiemNu)),digits = 4))
>cumsum(round(prop.table(table(PhanDiemNam)),digits = 4))
Khoảng điểm Tần số Tần suất Tần số tích luỹ
Bảng tần số của dữ liệu cho ta thấy về college mark điểm của sinh viên đạt được ở trường cao đẳng hoặc đại học.
Khoảng điểm (70,80] được điều tra nhiều nhất là 66 người , chiếm khoảng28,09% trong tổng số
Khoảng điểm (10,20] được điều tra ít nhất là 1 người , chiếm khoảng 0,43% trong tổng số
Khoảng điểm (0,10] và (10,20] có tổng số người được điều tra là 5 người , chiếm khoảng 2,13%
Khoảng điểm Tần số Tần suất Tần số tích luỹ
Khoảng điểm Tần số Tần suất Tần số tích luỹ
Dữ liệu phân bố không đều, không đối xứng, tập trung bên phải.
Điểm số nhỏ nhất: 1, điểm số lớn nhất: 100
Điểm số đại học có giá trị ngoại biên nhỏ
Hình dáng: không đều, tập trung bên phải
Phân phối của tập dữ liệu: không đều
>boxplot(y,z,ylab="Điểm số",names =c("Female","Male"))
Sinh viên có điểm số cao nhất (100 điểm) là sinh viên nữ, sinh biên có điểm số thấp nhất (1 điểm) là sinh viên nam
Điểm số của sinh viên nam và nữ đều có giá trị ngoại biên nhỏ Giá trị ngoại biên của nhỏ của sinh viên nữ ít hơn so với giá trị ngoại biên nhỏ của sinh viên nam và về điểm số: tốt hơn
Sinh viên nữ có điểm số tốt hơn sinh viên nam vì xu hướng tập trung điểm số của sinh viên nữ (trung vị) ở mức cao hơn so với sinh viên nam
Khoảng lương kỳ vọng Tần số Tần suất Tần số tích luỹ Tần suất tích luỹ
Các sinh viên kỳ vọng về mức lương khi đi làm nhiều nhất ở hai khoảng: [0,20000] và (20000,40000] chiếm khoảng 89,8% số quan sát
Các khoảng lương còn lại trừ khoảng (40000,60000] có rất ít sinh viên kỳ vọng, chiếm khoảng 3,4% số quan sát
> View(Student_Attitude_and_Behavior)
> x=Student_Attitude_and_Behavior$`salary expectation`
>MucLuongKyVong=cut(x,breaks=c(0,20000,40000,60000,80000,110000,200000,8500 00,1500000),right = F,include.lowest = T)
tính tần số của mức lương kỳ vọng
tính tần suất của mức lương kỳ vọng > round(prop.table(table(MucLuongKyVong)),digits = 3) MucLuongKyVong [0,2e+04) [2e+04,4e+04) [4e+04,6e+04) [6e+04,8e+04) [8e+04,1.1e+05) 0.464 0.434 0.068 0.004 0.013 [1.1e+05,2e+05) [2e+05,8.5e+05) [8.5e+05,1.5e+06] 0.004 0.009 0.004 tính tần số tích lũy của mức lương kỳ vọng > cumsum(table(MucLuongKyVong)) [0,2e+04) [2e+04,4e+04) [4e+04,6e+04) [6e+04,8e+04) [8e+04,1.1e+05) 109 211 227 228 231
tính tần suất tích lũy của mức lương kỳ vọng
> cumsum(round(prop.table(table(MucLuongKyVong)),digits = 3))
> a=Student_Attitude_and_Behavior$`10th Mark`
> b=Student_Attitude_and_Behavior$`12th Mark`
> c=Student_Attitude_and_Behavior$`college mark`
>hist(x,main="Histogram of Salary Expectation")
Dữ liệu phân bố không đều, không đối xứng, tập trung bên trái
> boxplot(x,main =" Boxplot of Salary Expectation")
Min 1st Qu Median Mean 3rd Qu Max
mức lương kỳ vọng thấp nhất: 0, cao nhất 1.500.000
Mức lương kỳ vọng có giá trị ngoại biên lớn
Phân phối của tập dữ liệu: không đều
>boxplot(a,b,c,names=c("10th Mark","12th Mark","College Mark"),main="Boxplot",ylab="Điểm số")
Điểm số cao nhất trong 3 năm học: 100, thấp nhất: 1 đều thuộc biến college mark
điểm số năm lớp 10 và đại học có giá trị ngoại biên nhỏ, điểm số năm lớp 12 không có giá trị ngoại biên
Nhìn chung Điểm số năm lớp 10 tốt hơn lớp 12 và đại học vì xu hướng tập trung điểm số năm lớp 10 là cao nhất, thứ hai là điểm năm lớp 11 và cuối cùng là điểm tại đại học
THỐNG KÊ SUY DIỄN
Ước lượng điểm
Dùng dữ liệu Student_Attitude_and_Behavior.csv
Bài toán: Tìm ước lượng điểm cho chỉ số salary expectation trung bình của các sinh viên
Vậy ước lượng điểm cho mức lương kỳ vọng trung bình của các sinh viên là $32481.68
Ước lượng khoảng
Ước lượng khoảng 95% cho mức lương kỳ vọng trung bình của các sinh viên.
Kiểm định tham số một tổng thể
3.3.1 Kiểm định trung bình tổng thể-cỡ mẫu lớn
Bài toán: Dùng dữ liệu tập Student_Attitude_and_Behavior.csv, hãy kiểm định giả thuyết mức lương kỳ vọng trung bình của các sinh viên không ít hơn 40.000$, sử dụng mức ý nghĩa 5%
Gọi m là mức lương kỳ vọng trung bình của sinh viên trong tương lai.
3.3.2 Kiểm định tỷ lệ 1 tổng thể-cỡ mẫu nhỏ
Bài toán: Trường đại học công bố rằng 80% số sinh viên có điểm thi đại học không dưới 40 điểm Một mẫu ngẫu nhiên gồm 235 sv của trường đại học này cho thấy có 8 sinh viên nói rằng họ có điểm đại học dưới 40 điểm Dùng mức ý nghĩa 5% có thể bác bỏ khẳng định trên của trường đại học không?
Gọi p là tỷ lệ sinh viên có điểm thi đại học không dưới 40 điểm
Kết luận: Công bố của trường đại học là không đúng
Kiểm định giả thuyết tham số hai tổng thể
3.4.1 Kiểm định giả thuyết trung bình hai tổng thể, cỡ mẫu lớn, hai mẫu độc lập
Bài toán: Nhiều người cho rằng, khi lên cấp 3 con trai sẽ thường học tốt hơn con gái, vì vậy điểm thi đại học của những sinh viên nam sẽ thường cao hơn những sinh viên nữ Để kiểm định giả thuyết trên, người ta tiến hành chọn ngẫu nhiên 30 sinh viên nam, 30 sinh viên nữ với số điểm thi đại học họ đạt được Sử dụng mức ý nghĩa 5%, xác định tính đúng sai của giả thuyết.
Gọi m1, m2 lần lượt là điểm thi đại học trung bình của sinh viên nam và nữ.
3.4.2 Kiểm định giả thuyết trung bình hai tổng thể, cỡ mẫu nhỏ, phương sai hai tổng thể bằng nhau
Bài toán: Chọn một mẫu ngẫu nhiên gồm 10 sinh viên có sở thích chơi game và một mẫu ngẫu nhiên khác gồm 10 sinh viên có sở thích đọc sách để xét xem điểm lớp
12 của họ là bao nhiêu Dựa vào số liệu trên có thể kết luận rằng những sinh viên có sở thích đọc sách có điểm lớp 12 cao hơn những sinh viên có sở thích chơi game hay không? Dùng mức ý nghĩa 5%, cho biết điểm lớp 12 của hai nhóm sinh viên tuân theo phân phối chuẩn cùng phương sai.
Gọi m1, m2 lần lượt là điểm trung bình lớp 12 của sinh viên có sở thích đọc sách và chơi game.
3.4.3 Kiểm định trung bình hai tổng thể, mẫu theo cặp
Bài toán: Nhà trường chú trọng vào việc thi đại học của các học sinh trong trường nên trong hai năm qua đã thay đổi những phương pháp dạy kiểu mới Để khẳng định rằng phương pháp đó thật sự tốt cho các e thì trường chọn ra 10 học sinh với điểm thi lớp 10 (trước khi áp dụng phương pháp) và điểm lớp 12 (sau khi áp dụng phương pháp) Tại mức ý nghĩa 5%, hãy kiểm định xem việc áp dụng phương pháp dạy kiểu mới có làm điểm các e học sinh tăng lên không, biết rằng điểm thi lớp 10,12 tuân theo phân phối chuẩn.
Gọi m1,m2 lần lượt là trung bình điểm thi lớp 10, 12 của các học sinh
3.4.4 Kiểm định giả thuyết hai tỷ lệ tổng thể
Bài toán: Trường đại học muốn kiểm tra xem liệu rằng các sinh viên khi học tại đây có cảm thấy stress hay không Nếu tỷ lệ sinh viên cảm thấy stress nhiều hơn thì trường sẽ mở tọa đàm tham vấn tâm lý Sau khi khảo sát các sinh viên trong trường thì họ chia thành hai nhóm Nhóm 1 gồm những sinh viên có trạng thái tinh thần tốt (good, fabulous), nhóm 2 gồm những sinh viên có trạng thái tinh thần không tốt (bad,awful).
Vậy trường có cần phải mở buổi tọa đàm ấy không nếu mức ý nghĩa là 5%.
Gọi p1, p2 lần lượt là tỷ lệ sinh viên cảm thấy stress và không thấy stress.
Kết luận: Nhà trường không cần mở tọa đàm tham vấn tâm lý
Kiểm định phương sai
Bài toán: Nhà trường đã thực hiện một khảo sát trên 3 nhóm sinh viên xem liệu rằng sở thích có ảnh hưởng nhiều đến điểm thi đại học của các sinh viên không. Nhóm 1 gồm các sinh viên có sở thích đi xem phim, Nhóm 2 gồm các sinh viên có sở thích chơi thể thao, Nhóm 3 gồm các sinh viên có sở thích đọc sách Trong đó mỗi nhóm chọn ra 10 bạn sinh viên tương ứng