Chuong I; BUSINESS UNDERSTANDING - TIM HIEU VAN DE/ CAC YEU TO GAY RA STRESS CUA SINH VIEN HIEN NAY 1.1 Lÿ do chọn đề tài và thực trụng Một sự thật đáng buồn ở thế hệ các bạn trẻ hiện n
Trang 2BẢNG ĐÁNH GIÁ CÔNG TÁC THÀNH VIÊN
TÊN THÀNH VIÊN
Lai Tâm Như
Nguyễn Ngọc Bảo Phương
Lê Tiên Hieu
Trang 3MỤC LỤC
YÊU TÓ GẦY RA STRESS CỦA SINH VIÊN HIỆN NAY . - 3 1.1 Lý do chọn đề tài và thực trạng 3 1.2 Mục tiêu nghiên cứu 3 1.3 Đối tượng nghiên cứu và phương pháp nghiên cứu -. «- 3 Chương II: DATA UNDERSTANDNNG - TÌM HIẾU DỮ LIỆU 4
2.2 Mô tả đữ liệu: - 2 2-©e< se Se Set EEEEExEEAEEEEreErkrkerkerkerrrerrsrre 5 Chương III: DATA PREPARATION- TIỀN XỬ LÝ DỮ LIỆU 8 3.1 Làm sạch dữ lIỆu o- 5 5= 55s s9 S093 Y0 090 1 185 51 4 9 ng 8 Chương IV: MODELING- MÔ HÌNH HÓA DỮ LIỆU - - 11 4.1 Lựa chọn mô hình, phương pháp, kỹ thuậtt - - «5= ss «« ss 11 Chương V: EVALUATION- ĐÁNH GIÁ KẾT QUÁ 5 25
6.2 Ứng dụng/ cách khắc phục: 26 TAT LIEU THAM KHẢO << 5° ©5< sec Esseeeerssecreersecee 27
Trang 4LOI MO DAU Đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành đến Trường Đại học Kinh tế Thành phố Hồ Chí Minh đã đưa môn học Khoa học dữ liệu vào chương trình giảng dạy Đặc biệt, nhóm chúng em xin gửi lời cảm ơn sâu sắc đến giảng viên bộ môn - Cô Phạm Thị Thanh Tâm đã dạy dỗ và truyền đạt những kiến thức quý báu cho chúng em trong suốt thời gian học tập vừa qua Trong thời gian tham gia lớp học Khoa học dữ liệu của Cô, chúng em đã có thêm cho mình nhiều kiến thức bỗ ích, tỉnh thần học tập hiệu quả và nghiêm túc Đây chắc chắn sẽ là những kiến thức quý báu, là hành trang để em có thể vững bước sau này
Bộ môn Khoa học dữ liệu là môn học thú vị, võ cùng bé ich va có tính thực tế cao Đảm bảo cung cấp du kiến thức, gắn liền với nhu cầu thực tiễn của sinh viên trong thời đại công nghệ số hiện nay Tuy nhiên, do vốn kiến thức còn nhiều hạn chế và khả năng tiếp thu thực tế còn nhiều bỡ ngỡ Mặc dù chúng em đã có ging hết Sức nhưng chắc chắn bài tiểu luận khó có thể tránh khỏi những thiếu sót và nhiều chỗ còn chưa chính xác, kính mong Cô xem xét và góp ý để bài tiểu luận của chúng em được hoàn thiện hơn Chúng em xin chân thành cảm ơn!
Trang 5DANH MỤC BẢNG BIẾU
Hình 1 Dữ liệu đầu vào
Hình 2 Sử dụng công cụ Preprocess
Hình 3 Impute missing value
Hinh 4 Normalize Features
Hinh 5 Discretize Continuous Variables
Hinh 6 Data table
Hình 7 Dữ liệu sau khi làm sạch
Hình 8 Tệp dữ liệu
Hình 9 Lấy 75% mẫu dữ liệu sau đó lưu về dạng file exel
Hinh 10 Train data
Hinh 11 Lay 25% mẫu còn lại làm tập thử nghiệm
Hình 12 test data
Hình 13 Mô hình lấy mẫu dữ liệu
Hình 14 Chọn biến stress level là biến phụ thuộc để dự đoán
Hình 15 Kết quả khi số Folds la 5
Hình 16 Kết quả khi số Folds là 10
Hình 17 Confusion Matrix( ma trận nhằm lẫn)
Hình 18 Đường cong ROC khi target la 0
Hình 19 Đường cong ROC khi target la 1
Hình 20 Nhập bộ dữ liệu thử nghiệm vào phần mềm Orange
Hình 21 Kết quả sau khi sử dụng chức năng Prediction đề dự báo dữ liệu theo SVM -
Hình 22 Tông quan mô hình
Trang 6Chuong I; BUSINESS UNDERSTANDING - TIM HIEU VAN DE/ CAC YEU
TO GAY RA STRESS CUA SINH VIEN HIEN NAY
1.1 Lÿ do chọn đề tài và thực trụng
Một sự thật đáng buồn ở thế hệ các bạn trẻ hiện nay cụ thể là genZ dang
dé mac phải các bệnh về tâm lý học đường Tâm lý trầm cảm ở học sinh và sinh viên có thể là vấn đề nghiêm trọng, ảnh hưởng đến sức khỏe tỉnh thần và hiệu suất học tập của họ Các nguyên nhân có thế đa dạng, từ áp lực học tập quá lớn,
lo lắng về tương lai, cảm giác cô đơn, cho đến vấn đề gia đình hoặc sự thay doi lon trong cuộc sông
Nhiều yeu to như á áp lực từ trường học, lo lắng về kỳ thĩ, cảm giác không
tự tin, hoặc cảm giác bắt an có thể làm gia tăng tinh trang tram cam Hơn nữa, các vấn đề về tự giá, xã hội hóa, và sự phân vân về lựa chọn nghề nghiệp cũng có thê gây ra trầm cảm ở sinh viên
Từ những dữ kiện đã nêu ở trên thì nhóm chúng em quyết định chọn đề tài này: bởi việc nhận biết và hỗ trợ người học bị trầm cảm rất quan trọng Giáo viên, có vấn học tập, hoặc các chuyền gia tam ly có thé cung cấp sự hỗ trợ cần thiết Ngoài ra, việc tạo điều kiện cho học sinh và sinh viên cảm thấy thoải mái khi chia sẻ và tìm kiếm sự giúp đỡ từ người thân, bạn bè cũng rẤt quan trọng dé
họ có thé vượt qua tình trạng trầm cảm
1.2 Mục tiêu nghiên cứu
Trước hết là xác định các yếu tố cụ thể có tác động đáng kế đến mức độ căng thang của học sinh Thông tin này rất quan trọng để hiểu rõ các yếu tố gây căng thắng chính ở học sinh Trong bộ dữ liệu này, chúng em khám phá các khía cạnh khác nhau trong cuộc sống của học sinh dé hiểu điều gì gây ra căng thắng Bằng cách sử dụng phân tích dự doan, chung em muốn tìm ra các mô hình và dưa ra dự doán về mức độ căng thắng Mục tiêu của chúng em là giúp tạo ra một môi trường tốt hơn và hỗ trợ hơn cho học sinh Xác dinh va wu tién cac yếu to chinh anh huong đến mức độ căng thắng của học sinh dé phat triển các biện pháp can thiệp và hệ thống hỗ trợ có mục tiêu trong các tô chức giáo dục
1.3 Đối trợng nghiên cứu và phương pháp nghiên cứu
«Đối tượng nghiên cứu
Bo di ligu Student Stress Factors: A Comprehensive Analysis dugc thu thap
từ trwong dai hoc Tribhuvan University cua Nepal duoc dang tai trén trang eb Kaggle Tập dữ liệu bao gồm 10.000 hàng dữ liệu ( sinh viên ) và 21 cột (đặc tính)
«Phương pháp nghiên cứu
- Phần mềm Orange:
Khai phá dữ liệu (Data Mining) là lĩnh vực tương đối khó để có thể khám phá và nghiên cứu Do đó, nhiều phần mềm đã ra đời với mục tiêu là giúp cho người dùng dễ dàng hơn trong việc nghiên cứu các bài toán trong những lĩnh vực này Một trong những phần mềm do chinh la Orange
Phan mém Orange là phan mém được tích hợp các công cụ khai phá dữ liệu
mã nguồn mở và được lập trình bằng Python với giao diện trực quan, đễ đàng
Trang 7tương tac Với việc có nhiều chức năng như vậy, phần mềm Orange có thê phân tích được các dữ liệu khác nhau như từ đơn giản đến phức tạp và cho ra
đồ họa vô cùng thu hút, đẹp mắt
- Phần mềm Excel:
Excel là một phần mềm phổ biến nằm trong bộ Microsoft Office Phần mềm này giúp người dùng shi lại dữ liệu, trình bày thông tin dưới dạng bảng, tính toán, xử lý thông tin nhanh chóng và chính xác với một lượng dữ liệu lớn
Excel có nhiều công dụng khác nhau và một số công dụng nỗi bật như: Lưu
dữ liệu, tham gia vào việc tính toán, quản lý dữ liệu, tham gia và hỗ trợ các công
cụ phân tích, tìm kiếm
Chuong II: DATA UNDERSTANDING - TIM HIEU DU LIEU
2.1 Giới thiệu bộ dự liệu
Bộ dữ liệu này chứa khoảng 20 đặc tính tạo ra nhiều tác động nhất đến Căng thắng của Học sinh Các đặc điểm được lựa chọn một cách khoa học dựa trên 5 yếu tố chính, đó là các yếu tố Tâm lý, Sinh lý, Xã hội, Môi trường và Học thuật Trong mỗi yếu tố bao gồm
« - Các yếu tô tâm lý => 'anxiety_level'(mức độ lo lắng), 'self_esteem'(lòng tự trong), 'mental_health_history'(lich sir strc khoé tinh than),
'depression'(tram cam),
e Cac yếu tố sinh lý => "headache'(dau dau), "blood_pressure'(huyết áp), 'sleep_ quality'( chất lượng giac ngu), 'breathing_problem’(van dé hoi thở),
« - Các yếu tố môi trường => 'noise_level'(mức độ tiếng ồn),
'living_conditions'(điều kiện sống), ‘safety'(an toàn), 'basic_needs'(nhu cầu
cơ bản),
«Các yếu tố học thuật=> 'academic_performance'(hiệu suất học thuật),
‘study_load'(tai học tập), 'teacher_student_relationship'(mối quan hệ giữa giảng viên và sinh viên), 'future_career_concerns'(mối quan tâm đến sự nghiệp trong tương lai),
«Yếu tổ xã hội => 'social support(hỗ trợ từ xã hội), 'peer_pressure'(áp lực
từ đồng nghiệp), 'extracurricular_ acfivities'(hoạt động ngoại khoá),
'bullying'(bắt nạt)
Tập dữ liệu của đi sâu vào các yếu tố căng thang mà học sinh phải đối mặt
Từ các khía cạnh tâm lý như lo lắng và lòng tự trọng đến áp lực học tập và động lực xã hội, bộ sưu tập này cung cập một cái nhìn toàn diện về những thách thức mà sinh viên ngày nay gặp phải
Bộ dữ liệu được thu thập và tạo ra, đăng tải trên trang eb kaggle boi Chhabi Acharya Tập dữ liệu bao gồm thông tin dữ liệu của 1100 sinh viên
và 20 cột (đặc tính):
Các yếu tố tâm lý (Mô tả cột)
¢ _ anxiety level: Đo lường mức độ lo lắng mà học sinh gặp phải, từ 0 (lo lắng thấp) đến 21 (lo lắng cao) (Điểm HADS-A)
« - self esteem: Chỉ ra mức độ tự trọng của học sinh, từ 0 (tự trọng thấp) đến
30 (tự trọng cao)
Trang 8mental_health_history: Chi số nhị phân (0 hoặc 1) cho biết liệu học sinh có tiền sử mắc các vấn đề về sức khỏe tâm thần hay không
depression: Do hrong mirc do tram cam ma hoc sinh dang phai đối mặt dựa trên thang PHQ-09, học sinh có số điểm từ 5 (trầm cảm mức độ tối thiểu) đến 27 (trầm cảm nặng)
sleep - quality: Đánh giá chất lượng giác ngủ của học sinh trên thang điểm
từ ( (chất lượng kém) đến 5 (chat lượng tuyệt vòi)
breathing_problem: Cho biết liệu học sinh có gặp vấn đề về hô hấp hay không, với các giá trị Ú (không) hoặc Í (có)
Các yếu tố môi trường
Noise Level: Cảm nhận của học sinh về mức độ tiếng ồn trong môi trường xung quanh, từ 0 (tiếng ồn thấp) đến 5 (tiếng ồn cao)
living conditions: Đánh giá điều kiện sông của học sinh, với các giá trị từ 0 (điều kiện kém) đến 5 (điều kiện tuyệt vời)
safety: Mức độ an toàn của môi trường xung quanh học sinh, từ 0 (không
future_career_concerns: Lo ngai ve trién vong nghé nghiép trong trong lai, tir 0 (it lo ngai) dén 5 (rat lo ngai)
Các yếu tổ xã hội (Mô tả cột) social | support: Mức độ hỗ trợ xã hội mà học sinh trải nghiệm, từ 0 (hỗ trợ thấp) đến 3 (hỗ trợ cao)
peer_pressure: Anh hướng của áp lực đồng trang lứa đối với học sinh, với các giá trị từ 0 (áp lực thấp) đến 5 (áp lực cao)
extracurricular_acfivifies: Sự tham gia của học sinh vào các hoạt động ngoại khóa, từ 0 (không tham gia) đến 5 (tham gia tích cực)
bully¡ing: Trải nghiệm bị bắt nạt của học sinh, với các giá trị từ 0 (không bị bắt nạt) đến 5 (bị bắt nạt thường xuyên)
síress level; Mức độ căng thắng tông thé cua hoc sinh bao cao, voi cac gia tri tr 0 (căng thang thap) dén 2 (căng thắng cao)
2.2 Mô tả dữ liệu:
Trang 9
Tên Biên Mo ta Cac Gia tri cua
bien Loai bien
anxiety_level mức độ lo lắng mà học | 0-21 Định tính
sinh gặp phải self_esteem mức độ tự trọng của 0-30 Định tính
học sinh mental_health_history tiền sử mắc các vẫn đề | 0: không Định tính
về sức khỏe tâm thần | 1: có depression mức độ trầm cảm 0-27 Định tính
của học sinh blood_pressure huyết áp của học sinh | 1-3 Định tính sleep_ quality chat lượng giác ngủ 0-5 Định tính breathing_problem vấn đề về hô hấp 0: không Định tính
1: có noise_ level mức độ tiếng ôn trong | 0-5 Định tính
môi trường xung quanh
living_conditions điều kiện sống của học | 0-5 Định tính
sinh safety Mức độ an toàn của 0-5 Định tính
môi trường xung quanh
basic needs Mức độ hài lòng với 0-5 Dinh tinh
cac nhu cau co ban academic_performance Thành tích học tập của | 0-5 Định tính
học sinh study_load Khối lượng học tập 0-5 Định tính teacher_student_relationship Chat lượng mỗi quan | 0-5 Dinh tinh
hệ với giáo viên future_career_concerns Lo ngai về triển vọng | 0-5 Dinh tinh
nghé nghiép trong tương lai social_ support Mức độ hỗ trợxãhội | 0-5 Định tính peer_pressure Anh hưởng của áp lực | 0-5 Định tính
đồng trang hia extracurricular_activities Sự tham gia của học 0-5 Định tính
sinh vào các hoạt động ngoại khóa
cua hoc sinh stress_level Mức độ căng thắng tong the 1-2 Định tính
Trang 10
Yếu tổ tâm lí
Mức độ lo lắng trung bình của tat cả học sinh tham gia khao sat la 11,1
Có 542 học sinh chiếm 29,27% trên tổng 1100 học sinh tham gia khảo sát
đã báo cáo mình có tiền sử các vấn đề về sức khỏe tâm thần
507 hoc sinh có lòng tự trọng dưới mức trung bình(<18)
859 học sinh dấu hiệu trầm cảm từ mức độ tối thiểu đến trầm cảm nặng, chiếm 78% số học sinh tham gia khảo sát
Yếu tổ sinh lí
129 học sinh thường xuyên bị đau đầu(có số điểm là 5)
2,18 là chỉ số huyết áp trung bình của học sinh
550 học sinh đánh gía mình có giấc ngủ kém( dưới 3)
Nhân tố môi trường
137 học sinh cho biết mình sống tại nơi có độ ồn cao(mức 5 trong bảng đánh giá)
29 học sinh chiếm 2,63% cảm thấy khu vực sống của mình không an toàn(mức 0)
40 hoc sinh cam thay các nhu cầu cơ bản của họ không được đáp ứng các nhu cầu cơ bản
Yếu tố học thuật
561 hoc sinh tự đánh giá thành tích học tập của họ dưới mức trung
bình(<2,77)
Khối lượng học tập trung bình của học sinh tham gia khảo sát là 2,62
880 học sinh có mối lo ngại nhất dinh về sự nghiệp trong tương lai, chỉ có
số ít 30 học sinh còn lại cảm thấy không lo lắng về tương lai của họ
Trang 11Chuong III: DATA PREPARATION- TIEN XU LY DU LIEU
3.1 Lam sach dữ liệu
1 anxiety_level numeric feature |
2 self_esteem numeric feature |
3 mental health categorical feature 0,1 |
4 depression numeric feature
5 headache numeric feature
6 hlaaa neaecra — ẨÑỀ nuinnoric fonturco v Reset Apply |
Browse documentation datasets
=? 8 | B110
Hình 1 Dữ liệu đầu vào
Dữ liệu đầu vào có 1100 mẫu, trong đó có 21 biến và không có giá trị bị thiếu hụt hay lỗi (0.0 %)
Trang 12Để đi qua quy trình tiền xử lý dữ liệu, nhóm sẽ sử dụng công cụ Preprocess, dựa vào phương pháp Average/Most frequent
¢ Impute Missing Values
Preprocessors
“% Discretize Continuous Variables
#%= Continuize Discrete Variables
[4 Impute Missing Values
[G Select Relevant Features
[Ml Select Random Features
~\ Normalize Features
* Randomize
[7 Remove Sparse Features
Principal Component Analysis
[Z CUR Matrix Decomposition
kì Apply Automatically
2 B | A100 3 m|110
Impute Missing Values x
@) Average/Most frequent () Replace with random value
© Remove rows with missing values
Discretize Continuous Variables
Continuize Discrete Variables
impute Missing Values
Select Relevant Features
Select Random Features
Normalize Features
Randomize
Remove Sparse Features
Principal Component Analysis
Trang 13© Discretize Continuos Varaiables
~™ Discretize Continuous Variables ^
= Continuize Discrete Variables —
{@ _Impute Missing Values (© Equal frequency discretization
TH Select Relevant Features CO Equal width discretization
[2] Select Random Features
4\ Normalize Features 5 5 Randomize ‘ ‘ : ‘ ,
1) Remove Sparse Features
\ Principal Component Analysis
fH CUR Matrix Decomposition v
Number of intervals (for equal width,
© Remove numeric features
4@)— Data Table
Preprocess
Hinh 6 Data table Kéo thả chuột tw Preprocess => Data Table, quan sat thong tin dữ liệu bên trong sau tiên xử lý
10
Trang 14— zs 99/4 1 31 22 7] Select full rows > a 13 221 12
1 De 17 121 25 :z J7 1 15 1 22
2 B | 31100 B 1100) 1100
Hình 7 Dữ liệu sau khi lam sach Nhận xét: Dữ liệu sau khi làm sạch bằng cách lấy trung bình toàn cục có 1100 mầu, 20 biên và không có giá trị lỗi
Chương IV: MODELING- MÔ HÌNH HÓA DỮ LIỆU
4.1 Lựa chọn mô hình, phương pháp, kỹ thuật
Nhóm sử dụng 4 phương pháp như sau:
Trang 15
ag stress level anxiety_level self_esteem xentalheallhisloi depression
1100 instances (no missing data)
Sat mee : #444 14 20 0 1
Variables — UU 16 124 15 SEUGE ECE) 16 28 0 7
Color by instance classes ; lí 4 26 0 6
„2 oe?
8)-@ All data Preprocess Data Table
Hình 9 Lấp 75% mẫu dữ liệu sau đó lưu về dạng file exel Lấy 75% mẫu dữ liệu từ bảng dữ liệu tiền xứ lí, sau đó lưu dữ liệu về dạng file
Exel tên DATA _75.xI
12