xác suất thống kê ứng dụng dữ liệu phân tích thái độ và hành vi của sinh viên student attitude and behavior

MÔ TẢ DỮ LIỆU 1.1.Tổng quanTập dữ liệu này chứa thông tin được thu thập từ sinh viên đại học thông qua biểu mẫuGoogle, bao gồm các chi tiết như các khóa học cấp chứng chỉ, giới tính, kho

MÔ TẢ DỮ LIỆU

Tổng quan

Tập dữ liệu này chứa thông tin được thu thập từ sinh viên đại học thông qua biểu mẫu Google, bao gồm các chi tiết như các khóa học cấp chứng chỉ, giới tính, khoa, chiều cao (tính bằng cm), cân nặng (tính bằng kg), điểm lớp 10 và 12, điểm đại học, sở thích, thời gian học hàng ngày, môi trường học tập ưa thích, kỳ vọng về lương, sự hài lòng với công việc của họ bằng cấp, sự sẵn sàng theo đuổi nghề nghiệp liên quan đến bằng cấp của họ, việc sử dụng mạng xã hội và video, thời gian đi lại, mức độ căng thẳng và tình trạng tài chính

Tập dữ liệu này chứa thông tin về nhân khẩu học, kết quả học tập, sở thích, thói quen học tập, nguyện vọng nghề nghiệp của sinh viên đại học và các yếu tố khác để phân tích thái độ và hành vi 📊📊✏️

Dữ liệu tìm kiếm

 Bài phân tích sử dụng tập dữ liệu: https://www.kaggle.com/datasets/susanta21/student-attitude-and-behavior? fbclid=IwZXh0bgNhZW0CMTAAAR26QQWUOg

1W3WibX4OirTupAZSwd2TwGHNpEdwN0DRGGQcUk0joNL-

Pw_aem_ASvhhqn1HUGjtRi2Jsh_bQP1jPw9RlF0ZvXLJkvXRLoq6fvz_Djmhkfmkr1Fi srC2CnFjuIomnytUdi65ewAWjiJ

 Tập dữ liệu được lấy từ trang web kaggle.com mô tả về thái độ và hành vi của sinh viên.

Phân tích biến

 Certification Course: Cho biết học viên đã hoàn thành khóa học cấp chứng chỉ nào hay chưa ✅

 Gender: Giới tính của học sinh 📊

 Department: Khoa hoặc lĩnh vực học tập mà sinh viên đang theo học 📊

 Hobbies: Sở thích hoặc đam mê của học sinh 📊

 Prefer to Study in: Môi trường học tập hoặc địa điểm ưa thích của sinh viên 📊📊

 Do you like your degree?: Ý kiến của sinh viên về việc họ có thích bằng cấp của mình hay không 📊📊

 Willingness to pursue a career based on their degree: Sự sẵn lòng của sinh viên theo đuổi nghề nghiệp liên quan đến bằng cấp của họ 📊

 Social Media & Video: Sự tham gia của học sinh với các nền tảng truyền thông xã hội và video 📊📊

 Stress Level: Mức độ căng thẳng cảm nhận được của học sinh 😓

 Financial Status: Tình trạng tài chính hoặc nền tảng kinh tế của sinh viên 📊

 Part-time Job: Liệu sinh viên có tham gia vào công việc bán thời gian hay không.

 Height (CM): Chiều cao của học sinh tính bằng centimet 📊

 Weight (KG): Cân nặng của học sinh tính bằng kilogam ⚖️

 10th Mark: Điểm của học sinh đạt được vào lớp 10 📊

 12th Mark: Điểm của học sinh đạt được vào năm lớp 12 📊

 College Mark: Điểm của sinh viên đạt được ở trường cao đẳng hoặc đại học 📊

 Daily Studying Time: Lượng thời gian học sinh dành cho việc học hàng ngày 📊

 Salary Expectation: Kỳ vọng của sinh viên về mức lương tương lai của họ 📊

 Traveling Time: Thời gian để học sinh đi lại hoặc di chuyển đến cơ sở giáo dục của mình 📊

PHÂN TÍCH CÁC ĐẠI LƯỢNG THỐNG KÊ MÔ TẢ

Các đại lượng thống kê mô tả (chọn biến college mark)

 Trung bình cộng: x=Student_Attitude_and_Behavior$`college mark`

Nhận xét: Điểm trung bình sinh viên của trường đạt được là 70.66055

Nhận xét: Có không quá 50% số sinh viên trong trường đạt dưới 70 điểm và không quá 50% số sinh viên trong trược đạt trên 70 điểm

Nhận xét: Số sinh viên đạt được 70 điểm chiếm nhiều nhất trong tổng số sinh viên

2.1.2 Số đo độ phân bổ:

Min 1st Qu Median Mean 3rd Qu Max

Nhận xét: Điểm trung bình của sinh viên toàn trường là 70.66 điểm Điểm thấp nhất sinh viên đạt được là 1 điểm, điểm cao nhất là 100 điểm Có không quá 25% số sinh viên đạt dưới 60 điểm, không quá 50% số sinh viên đạt dưới 70 điểm và không quá 75% số sinh viên đạt dưới 80 điểm

Nhận xét: Có không quá 90% số sinh viên đạt dưới 86 điểm và không qúa 10% số sinh viên đạt trên 86 điểm.

2.1.3 Số đo độ phân tán:

Biến định tính: Gender, Stress level

> table(Student_Attitude_and_Behavior$Gender)

Gender Tần số Tỷ lệ

Nhận xét: Tỷ lệ nam giới chiếm nhiều hơn tỷ lệ nữ giới.

> table(Student_Attitude_and_Behavior$`Stress Level`)

Nhận xét: Mức độ căng thẳng của sinh viên nhìn chung khá tích cực, có đến 58% sinh viên cảm thấy tốt không bị căng thẳng và chỉ

29% sinh viên cảm thấy căng thẳng, 13% còn lại sinh viên cảm thấy mức độ căng thảng nghiệm trọng hơn.

>table(Student_Attitude_and_Behavior$Gender,Student_Attitude_and_Behavior$`Stress Level`)

Stress level Tần số Tỷ lệ

Nhận xét: Qua bảng tần số ta thấy được tỉ lệ nam giới luôn nhỉnh hơn, chiếm tỷ lệ hơn cả so với tỷ lệ nữ giới ở cả hai biến: stress level và gender.

 Biểu đồ tròn: pie(table(Student_Attitude_and_Behavior$Gender))

> b=table(Student_Attitude_and_Behavior$Gender)

> tyle=round(prop.table(b),2) pie(b,paste(names(b),":",tyle*100,"%"))

Nhận xét: Tỷ lệ SV nam nhiều hơn tỷ lệ SV nữ

> barplot(table(Student_Attitude_and_Behavior$Gender))

Nhận xét: Số lượng SV nam nhiều hơn số lượng SV nữ

> pie(table(Student_Attitude_and_Behavior$`Stress Level`))

> b=table(Student_Attitude_and_Behavior$`Stress Level`)

Nhận xét: Tỷ lệ sinh viên stress level: good chiếm nhiều nhất khoảng 58% Tỷ lệ sinh viên stress level: fabulous chiếm ít nhất khoảng 5%

> table(Student_Attitude_and_Behavior$`Stress Level`)

> barplot(table(Student_Attitude_and_Behavior$`Stress Level`)

Nhận xét: Số lượng sinh viên stress level: good là nhiều nhất

Số lượng sinh viên stress level: fabulous là ít nhất

>table(Student_Attitude_and_Behavior$Gender,Student_Attitude_and_Behavior$`Stress Level`)

>barplot(table(Student_Attitude_and_Behavior$Gender,Student_Attitude_and_Behavior

Nhận xét: Trong 4 mức độ stress level thì good chiếm tỉ trọng lớn nhất, tiếp đến là bad, awful và chiếm tỉ lệ nhỏ nhất là fabulous, qua biểu đồ ta còn thấy tỉ lệ nam giới trong mỗi level đều chiếm lớn hơn tỉ lệ nữ giới, phần màu xám trắng luôn chiếm tỉ lệ lớn hơn so với màu đen.

> table(Student_Attitude_and_Behavior$Gender,Student_Attitude_and_Behavior$`StressLevel`)

Pearson's Chi-squared test data: A

In chisq.test(A) : Chi-squared approximation may be incorrect

So sánh p với mức độ ý nghĩa thống kê thường được đặt là 0.05

Ta thấy p-value = 0.8549 > 0.05 nên ta chấp nhận H0 kết luận không có mối liên hệ thống kê giữa hai biến.

Biến định lượng

>x=Student_Attitude_and_Behavior$`college mark`

> PhanDiem=cut(x,breaks = seq(0,100,10),right=T)

 Tính tần số các khoảng điểm

 Tính tần suất các khoảng điểm

> round(prop.table(table(PhanDiem)),digits = 4)

> DSNam=subset(Student_Attitude_and_Behavior,Gender=="Male")

> PhanDiemNam=cut(y,breaks = seq(0,100,10),right=T)

 tính tần số các khoảng điểm của sinh viên nam

> DSNu=subset(Student_Attitude_and_Behavior,Gender=="Female")

> PhanDiemNu=cut(z,breaks = seq(0,100,10),right=T)

 tính tần số các khoảng điểm của sinh viên nữ

> hist(x,main = " Histogram of College Mark",xlab = "College Mark")

> hist(y,main = " Histogram of College Mark (Male)",xlab = "College Mark")

> hist(z,main = " Histogram of College Mark (Female)",xlab = "College Mark")

> boxplot(x,main = " Boxplot of College Mark",ylab = "College Mark")

>cumsum(round(prop.table(table(PhanDiem)),digits = 4))

>cumsum(round(prop.table(table(PhanDiemNu)),digits = 4))

>cumsum(round(prop.table(table(PhanDiemNam)),digits = 4))

Khoảng điểm Tần số Tần suất Tần số tích luỹ

 Bảng tần số của dữ liệu cho ta thấy về college mark điểm của sinh viên đạt được ở trường cao đẳng hoặc đại học.

 Khoảng điểm (70,80] được điều tra nhiều nhất là 66 người , chiếm khoảng28,09% trong tổng số

 Khoảng điểm (10,20] được điều tra ít nhất là 1 người , chiếm khoảng 0,43% trong tổng số

 Khoảng điểm (0,10] và (10,20] có tổng số người được điều tra là 5 người , chiếm khoảng 2,13%

Khoảng điểm Tần số Tần suất Tần số tích luỹ

 Dữ liệu phân bố không đều, không đối xứng, tập trung bên phải.

 Điểm số nhỏ nhất: 1, điểm số lớn nhất: 100

 Điểm số đại học có giá trị ngoại biên nhỏ

 Hình dáng: không đều, tập trung bên phải

 Phân phối của tập dữ liệu: không đều

>boxplot(y,z,ylab="Điểm số",names =c("Female","Male"))

 Sinh viên có điểm số cao nhất (100 điểm) là sinh viên nữ, sinh biên có điểm số thấp nhất (1 điểm) là sinh viên nam

 Điểm số của sinh viên nam và nữ đều có giá trị ngoại biên nhỏ Giá trị ngoại biên của nhỏ của sinh viên nữ ít hơn so với giá trị ngoại biên nhỏ của sinh viên nam và về điểm số: tốt hơn

 Sinh viên nữ có điểm số tốt hơn sinh viên nam vì xu hướng tập trung điểm số của sinh viên nữ (trung vị) ở mức cao hơn so với sinh viên nam

Khoảng lương kỳ vọng Tần số Tần suất Tần số tích luỹ Tần suất tích luỹ

Các sinh viên kỳ vọng về mức lương khi đi làm nhiều nhất ở hai khoảng: [0,20000] và (20000,40000] chiếm khoảng 89,8% số quan sát

Các khoảng lương còn lại trừ khoảng (40000,60000] có rất ít sinh viên kỳ vọng, chiếm khoảng 3,4% số quan sát

> View(Student_Attitude_and_Behavior)

> x=Student_Attitude_and_Behavior$`salary expectation`

>MucLuongKyVong=cut(x,breaks=c(0,20000,40000,60000,80000,110000,200000,8500 00,1500000),right = F,include.lowest = T)

 tính tần số của mức lương kỳ vọng

 tính tần suất của mức lương kỳ vọng > round(prop.table(table(MucLuongKyVong)),digits = 3) MucLuongKyVong [0,2e+04) [2e+04,4e+04) [4e+04,6e+04) [6e+04,8e+04) [8e+04,1.1e+05) 0.464 0.434 0.068 0.004 0.013 [1.1e+05,2e+05) [2e+05,8.5e+05) [8.5e+05,1.5e+06] 0.004 0.009 0.004  tính tần số tích lũy của mức lương kỳ vọng > cumsum(table(MucLuongKyVong)) [0,2e+04) [2e+04,4e+04) [4e+04,6e+04) [6e+04,8e+04) [8e+04,1.1e+05) 109 211 227 228 231

 tính tần suất tích lũy của mức lương kỳ vọng

> cumsum(round(prop.table(table(MucLuongKyVong)),digits = 3))

> a=Student_Attitude_and_Behavior$`10th Mark`

> b=Student_Attitude_and_Behavior$`12th Mark`

> c=Student_Attitude_and_Behavior$`college mark`

>hist(x,main="Histogram of Salary Expectation")

 Dữ liệu phân bố không đều, không đối xứng, tập trung bên trái

> boxplot(x,main =" Boxplot of Salary Expectation")

Min 1st Qu Median Mean 3rd Qu Max

 mức lương kỳ vọng thấp nhất: 0, cao nhất 1.500.000

 Mức lương kỳ vọng có giá trị ngoại biên lớn

 Phân phối của tập dữ liệu: không đều

>boxplot(a,b,c,names=c("10th Mark","12th Mark","College Mark"),main="Boxplot",ylab="Điểm số")

 Điểm số cao nhất trong 3 năm học: 100, thấp nhất: 1 đều thuộc biến college mark

 điểm số năm lớp 10 và đại học có giá trị ngoại biên nhỏ, điểm số năm lớp 12 không có giá trị ngoại biên

 Nhìn chung Điểm số năm lớp 10 tốt hơn lớp 12 và đại học vì xu hướng tập trung điểm số năm lớp 10 là cao nhất, thứ hai là điểm năm lớp 11 và cuối cùng là điểm tại đại học

THỐNG KÊ SUY DIỄN

Ước lượng điểm

Dùng dữ liệu Student_Attitude_and_Behavior.csv

Bài toán: Tìm ước lượng điểm cho chỉ số salary expectation trung bình của các sinh viên

Vậy ước lượng điểm cho mức lương kỳ vọng trung bình của các sinh viên là $32481.68

Ước lượng khoảng

Ước lượng khoảng 95% cho mức lương kỳ vọng trung bình của các sinh viên.

Kiểm định tham số một tổng thể

3.3.1 Kiểm định trung bình tổng thể-cỡ mẫu lớn

Bài toán: Dùng dữ liệu tập Student_Attitude_and_Behavior.csv, hãy kiểm định giả thuyết mức lương kỳ vọng trung bình của các sinh viên không ít hơn 40.000$, sử dụng mức ý nghĩa 5%

Gọi m là mức lương kỳ vọng trung bình của sinh viên trong tương lai.

3.3.2 Kiểm định tỷ lệ 1 tổng thể-cỡ mẫu nhỏ

Bài toán: Trường đại học công bố rằng 80% số sinh viên có điểm thi đại học không dưới 40 điểm Một mẫu ngẫu nhiên gồm 235 sv của trường đại học này cho thấy có 8 sinh viên nói rằng họ có điểm đại học dưới 40 điểm Dùng mức ý nghĩa 5% có thể bác bỏ khẳng định trên của trường đại học không?

Gọi p là tỷ lệ sinh viên có điểm thi đại học không dưới 40 điểm

Kết luận: Công bố của trường đại học là không đúng

Kiểm định giả thuyết tham số hai tổng thể

3.4.1 Kiểm định giả thuyết trung bình hai tổng thể, cỡ mẫu lớn, hai mẫu độc lập

Bài toán: Nhiều người cho rằng, khi lên cấp 3 con trai sẽ thường học tốt hơn con gái, vì vậy điểm thi đại học của những sinh viên nam sẽ thường cao hơn những sinh viên nữ Để kiểm định giả thuyết trên, người ta tiến hành chọn ngẫu nhiên 30 sinh viên nam, 30 sinh viên nữ với số điểm thi đại học họ đạt được Sử dụng mức ý nghĩa 5%, xác định tính đúng sai của giả thuyết.

Gọi m1, m2 lần lượt là điểm thi đại học trung bình của sinh viên nam và nữ.

3.4.2 Kiểm định giả thuyết trung bình hai tổng thể, cỡ mẫu nhỏ, phương sai hai tổng thể bằng nhau

Bài toán: Chọn một mẫu ngẫu nhiên gồm 10 sinh viên có sở thích chơi game và một mẫu ngẫu nhiên khác gồm 10 sinh viên có sở thích đọc sách để xét xem điểm lớp

12 của họ là bao nhiêu Dựa vào số liệu trên có thể kết luận rằng những sinh viên có sở thích đọc sách có điểm lớp 12 cao hơn những sinh viên có sở thích chơi game hay không? Dùng mức ý nghĩa 5%, cho biết điểm lớp 12 của hai nhóm sinh viên tuân theo phân phối chuẩn cùng phương sai.

Gọi m1, m2 lần lượt là điểm trung bình lớp 12 của sinh viên có sở thích đọc sách và chơi game.

3.4.3 Kiểm định trung bình hai tổng thể, mẫu theo cặp

Bài toán: Nhà trường chú trọng vào việc thi đại học của các học sinh trong trường nên trong hai năm qua đã thay đổi những phương pháp dạy kiểu mới Để khẳng định rằng phương pháp đó thật sự tốt cho các e thì trường chọn ra 10 học sinh với điểm thi lớp 10 (trước khi áp dụng phương pháp) và điểm lớp 12 (sau khi áp dụng phương pháp) Tại mức ý nghĩa 5%, hãy kiểm định xem việc áp dụng phương pháp dạy kiểu mới có làm điểm các e học sinh tăng lên không, biết rằng điểm thi lớp 10,12 tuân theo phân phối chuẩn.

Gọi m1,m2 lần lượt là trung bình điểm thi lớp 10, 12 của các học sinh

3.4.4 Kiểm định giả thuyết hai tỷ lệ tổng thể

Bài toán: Trường đại học muốn kiểm tra xem liệu rằng các sinh viên khi học tại đây có cảm thấy stress hay không Nếu tỷ lệ sinh viên cảm thấy stress nhiều hơn thì trường sẽ mở tọa đàm tham vấn tâm lý Sau khi khảo sát các sinh viên trong trường thì họ chia thành hai nhóm Nhóm 1 gồm những sinh viên có trạng thái tinh thần tốt (good, fabulous), nhóm 2 gồm những sinh viên có trạng thái tinh thần không tốt (bad,awful).

Vậy trường có cần phải mở buổi tọa đàm ấy không nếu mức ý nghĩa là 5%.

Gọi p1, p2 lần lượt là tỷ lệ sinh viên cảm thấy stress và không thấy stress.

Kết luận: Nhà trường không cần mở tọa đàm tham vấn tâm lý

Kiểm định phương sai

Bài toán: Nhà trường đã thực hiện một khảo sát trên 3 nhóm sinh viên xem liệu rằng sở thích có ảnh hưởng nhiều đến điểm thi đại học của các sinh viên không. Nhóm 1 gồm các sinh viên có sở thích đi xem phim, Nhóm 2 gồm các sinh viên có sở thích chơi thể thao, Nhóm 3 gồm các sinh viên có sở thích đọc sách Trong đó mỗi nhóm chọn ra 10 bạn sinh viên tương ứng

Tiêu đề	Xác Suất Thống Kê Ứng Dụng Dữ Liệu: Phân Tích Thái Độ Và Hành Vi Của Sinh Viên (Student Attitude and Behavior)
Tác giả	Ngô Đức Hải, Vũ Quang Long, Trần Huệ Chi, Nguyễn Phương Thảo, Nguyễn Hoàng Yến, Ngô Thị Lan Hương, Trương Minh Hoàng, Nguyễn Thị Lan Anh, Phạm Thúy Nhi
Người hướng dẫn	Ngô Thị Thanh Nga
Trường học	Trường Đại Học Thăng Long
Chuyên ngành	Xác Suất Thống Kê
Thể loại	Bài Tập Lớn
Năm xuất bản	2023-2024
Thành phố	Hà Nội

Định dạng
Số trang	33
Dung lượng	660,92 KB