BẢNG ĐÁNH GIÁ CÔNG TÁC THÀNH VIÊN
TÊN THÀNH VIÊN
Lai Tâm Như
Nguyễn Ngọc Bảo Phương
Lê Tiên Hieu
Trang 3MỤC LỤC
YÊU TÓ GẦY RA STRESS CỦA SINH VIÊN HIỆN NAY . - 3 1.1 Lý do chọn đề tài và thực trạng 3 1.2 Mục tiêu nghiên cứu 3 1.3 Đối tượng nghiên cứu và phương pháp nghiên cứu -. «- 3 Chương II: DATA UNDERSTANDNNG - TÌM HIẾU DỮ LIỆU 4
2.2 Mô tả đữ liệu: - 2 2-©e< se Se Set EEEEExEEAEEEEreErkrkerkerkerrrerrsrre 5 Chương III: DATA PREPARATION- TIỀN XỬ LÝ DỮ LIỆU 8 3.1 Làm sạch dữ lIỆu o- 5 5= 55s s9 S093 Y0 090 1 185 51 4 9 ng 8 Chương IV: MODELING- MÔ HÌNH HÓA DỮ LIỆU - - 11 4.1 Lựa chọn mô hình, phương pháp, kỹ thuậtt - - «5= ss «« ss 11 Chương V: EVALUATION- ĐÁNH GIÁ KẾT QUÁ 5 25
6.2 Ứng dụng/ cách khắc phục: 26 TAT LIEU THAM KHẢO << 5° ©5< sec Esseeeerssecreersecee 27
Trang 4LOI MO DAU
Đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành đến Trường Đại học Kinh tế Thành phố Hồ Chí Minh đã đưa môn học Khoa học dữ liệu vào chương trình giảng dạy Đặc biệt, nhóm chúng em xin gửi lời cảm ơn sâu sắc đến giảng viên bộ môn - Cô Phạm Thị Thanh Tâm đã dạy dỗ và truyền đạt những kiến thức quý báu cho chúng em trong suốt thời gian học tập vừa qua Trong thời gian tham gia lớp học Khoa học dữ liệu của Cô, chúng em đã có thêm cho mình nhiều kiến thức bỗ ích, tỉnh thần học tập hiệu quả và nghiêm túc Đây chắc chắn sẽ là những kiến thức quý báu, là hành trang để em có thể vững bước sau này Bộ môn Khoa học dữ liệu là môn học thú vị, võ cùng bé ich va có tính thực tế cao Đảm bảo cung cấp du kiến thức, gắn liền với nhu cầu thực tiễn của sinh viên trong thời đại công nghệ số hiện nay Tuy nhiên, do vốn kiến thức còn nhiều hạn chế và khả năng tiếp thu thực tế còn nhiều bỡ ngỡ Mặc dù chúng em đã có ging hết Sức nhưng chắc chắn bài tiểu luận khó có thể tránh khỏi những thiếu sót và
nhiều chỗ còn chưa chính xác, kính mong Cô xem xét và góp ý để bài tiểu luận của chúng em được hoàn thiện hơn Chúng em xin chân thành cảm ơn!
Trang 5DANH MỤC BẢNG BIẾU
Hình 1 Dữ liệu đầu vào
Hình 2 Sử dụng công cụ Preprocess Hình 3 Impute missing value Hinh 4 Normalize Features
Hinh 5 Discretize Continuous Variables Hinh 6 Data table
Hình 7 Dữ liệu sau khi làm sạch Hình 8 Tệp dữ liệu
Hình 9 Lấy 75% mẫu dữ liệu sau đó lưu về dạng file exel Hinh 10 Train data
Hinh 11 Lay 25% mẫu còn lại làm tập thử nghiệm Hình 12 test data
Hình 13 Mô hình lấy mẫu dữ liệu
Hình 14 Chọn biến stress level là biến phụ thuộc để dự đoán Hình 15 Kết quả khi số Folds la 5
Hình 16 Kết quả khi số Folds là 10
Hình 17 Confusion Matrix( ma trận nhằm lẫn) Hình 18 Đường cong ROC khi target la 0 Hình 19 Đường cong ROC khi target la 1
Hình 20 Nhập bộ dữ liệu thử nghiệm vào phần mềm Orange
Hình 21 Kết quả sau khi sử dụng chức năng Prediction đề dự báo dữ liệu theo SVM -
Hình 22 Tông quan mô hình
Trang 6Chuong I; BUSINESS UNDERSTANDING - TIM HIEU VAN DE/ CAC YEU TO GAY RA STRESS CUA SINH VIEN HIEN NAY
1.1 Lÿ do chọn đề tài và thực trụng
Một sự thật đáng buồn ở thế hệ các bạn trẻ hiện nay cụ thể là genZ dang dé mac phải các bệnh về tâm lý học đường Tâm lý trầm cảm ở học sinh và sinh viên có thể là vấn đề nghiêm trọng, ảnh hưởng đến sức khỏe tỉnh thần và hiệu suất học tập của họ Các nguyên nhân có thế đa dạng, từ áp lực học tập quá lớn, lo lắng về tương lai, cảm giác cô đơn, cho đến vấn đề gia đình hoặc sự thay doi lon trong cuộc sông
Nhiều yeu to như á áp lực từ trường học, lo lắng về kỳ thĩ, cảm giác không tự tin, hoặc cảm giác bắt an có thể làm gia tăng tinh trang tram cam Hơn nữa,
các vấn đề về tự giá, xã hội hóa, và sự phân vân về lựa chọn nghề nghiệp cũng có thê gây ra trầm cảm ở sinh viên
Từ những dữ kiện đã nêu ở trên thì nhóm chúng em quyết định chọn đề tài này: bởi việc nhận biết và hỗ trợ người học bị trầm cảm rất quan trọng Giáo viên, có vấn học tập, hoặc các chuyền gia tam ly có thé cung cấp sự hỗ trợ cần
thiết Ngoài ra, việc tạo điều kiện cho học sinh và sinh viên cảm thấy thoải mái khi chia sẻ và tìm kiếm sự giúp đỡ từ người thân, bạn bè cũng rẤt quan trọng dé họ có thé vượt qua tình trạng trầm cảm
1.2 Mục tiêu nghiên cứu
Trước hết là xác định các yếu tố cụ thể có tác động đáng kế đến mức độ căng thang của học sinh Thông tin này rất quan trọng để hiểu rõ các yếu tố gây căng thắng chính ở học sinh Trong bộ dữ liệu này, chúng em khám phá các khía cạnh khác nhau trong cuộc sống của học sinh dé hiểu điều gì gây ra căng thắng Bằng cách sử dụng phân tích dự doan, chung em muốn tìm ra các mô hình và dưa ra dự doán về mức độ căng thắng Mục tiêu của chúng em là giúp tạo ra một môi trường tốt hơn và hỗ trợ hơn cho học sinh Xác dinh va wu tién cac yếu to chinh anh huong đến mức độ căng thắng của học sinh dé phat triển các biện pháp can thiệp và hệ thống hỗ trợ có mục tiêu trong các tô chức giáo dục
1.3 Đối trợng nghiên cứu và phương pháp nghiên cứu «Đối tượng nghiên cứu
Bo di ligu Student Stress Factors: A Comprehensive Analysis dugc thu thap từ trwong dai hoc Tribhuvan University cua Nepal duoc dang tai trén trang eb Kaggle Tập dữ liệu bao gồm 10.000 hàng dữ liệu ( sinh viên ) và 21 cột (đặc tính)
«Phương pháp nghiên cứu - Phần mềm Orange:
Khai phá dữ liệu (Data Mining) là lĩnh vực tương đối khó để có thể khám phá và nghiên cứu Do đó, nhiều phần mềm đã ra đời với mục tiêu là giúp cho người dùng dễ dàng hơn trong việc nghiên cứu các bài toán trong những lĩnh vực này Một trong những phần mềm do chinh la Orange
Phan mém Orange là phan mém được tích hợp các công cụ khai phá dữ liệu mã nguồn mở và được lập trình bằng Python với giao diện trực quan, đễ đàng
Trang 7tương tac Với việc có nhiều chức năng như vậy, phần mềm Orange có thê phân tích được các dữ liệu khác nhau như từ đơn giản đến phức tạp và cho ra đồ họa vô cùng thu hút, đẹp mắt
- Phần mềm Excel:
Excel là một phần mềm phổ biến nằm trong bộ Microsoft Office Phần mềm này giúp người dùng shi lại dữ liệu, trình bày thông tin dưới dạng bảng, tính toán, xử lý thông tin nhanh chóng và chính xác với một lượng dữ liệu lớn
Excel có nhiều công dụng khác nhau và một số công dụng nỗi bật như: Lưu dữ liệu, tham gia vào việc tính toán, quản lý dữ liệu, tham gia và hỗ trợ các công cụ phân tích, tìm kiếm
Chuong II: DATA UNDERSTANDING - TIM HIEU DU LIEU 2.1 Giới thiệu bộ dự liệu
Bộ dữ liệu này chứa khoảng 20 đặc tính tạo ra nhiều tác động nhất đến Căng thắng của Học sinh Các đặc điểm được lựa chọn một cách khoa học dựa trên 5 yếu tố chính, đó là các yếu tố Tâm lý, Sinh lý, Xã hội, Môi trường và Học thuật Trong mỗi yếu tố bao gồm
« - Các yếu tô tâm lý => 'anxiety_level'(mức độ lo lắng), 'self_esteem'(lòng tự trong), 'mental_health_history'(lich sir strc khoé tinh than),
'depression'(tram cam),
e Cac yếu tố sinh lý => "headache'(dau dau), "blood_pressure'(huyết áp), 'sleep_ quality'( chất lượng giac ngu), 'breathing_problem’(van dé hoi thở),
« - Các yếu tố môi trường => 'noise_level'(mức độ tiếng ồn),
'living_conditions'(điều kiện sống), ‘safety'(an toàn), 'basic_needs'(nhu cầu cơ bản),
«Các yếu tố học thuật=> 'academic_performance'(hiệu suất học thuật), ‘study_load'(tai học tập), 'teacher_student_relationship'(mối quan hệ giữa giảng viên và sinh viên), 'future_career_concerns'(mối quan tâm đến sự nghiệp trong tương lai),
«Yếu tổ xã hội => 'social support(hỗ trợ từ xã hội), 'peer_pressure'(áp lực từ đồng nghiệp), 'extracurricular_ acfivities'(hoạt động ngoại khoá),
'bullying'(bắt nạt)
Tập dữ liệu của đi sâu vào các yếu tố căng thang mà học sinh phải đối mặt Từ các khía cạnh tâm lý như lo lắng và lòng tự trọng đến áp lực học tập và động lực xã hội, bộ sưu tập này cung cập một cái nhìn toàn diện về những thách thức mà sinh viên ngày nay gặp phải
Bộ dữ liệu được thu thập và tạo ra, đăng tải trên trang eb kaggle boi Chhabi Acharya Tập dữ liệu bao gồm thông tin dữ liệu của 1100 sinh viên và 20 cột (đặc tính):
Các yếu tố tâm lý (Mô tả cột)
¢ _ anxiety level: Đo lường mức độ lo lắng mà học sinh gặp phải, từ 0 (lo lắng thấp) đến 21 (lo lắng cao) (Điểm HADS-A)
« - self esteem: Chỉ ra mức độ tự trọng của học sinh, từ 0 (tự trọng thấp) đến 30 (tự trọng cao)
Trang 8mental_health_history: Chi số nhị phân (0 hoặc 1) cho biết liệu học sinh có tiền sử mắc các vấn đề về sức khỏe tâm thần hay không
depression: Do hrong mirc do tram cam ma hoc sinh dang phai đối mặt dựa trên thang PHQ-09, học sinh có số điểm từ 5 (trầm cảm mức độ tối thiểu) đến 27 (trầm cảm nặng)
Các yếu tố môi trường
Noise Level: Cảm nhận của học sinh về mức độ tiếng ồn trong môi trường xung quanh, từ 0 (tiếng ồn thấp) đến 5 (tiếng ồn cao)
living conditions: Đánh giá điều kiện sông của học sinh, với các giá trị từ 0 (điều kiện kém) đến 5 (điều kiện tuyệt vời)
safety: Mức độ an toàn của môi trường xung quanh học sinh, từ 0 (không an toàn) đến 5 (rất an toàn)
basic_needs: Mức độ hài lòng với các nhu cầu cơ bản của học sinh, từ 0 (không hài lòng) đến 5 (hoàn toàn hài lòng)
future_career_concerns: Lo ngai ve trién vong nghé nghiép trong trong lai, tir 0 (it lo ngai) dén 5 (rat lo ngai)
Các yếu tổ xã hội (Mô tả cột)
social | support: Mức độ hỗ trợ xã hội mà học sinh trải nghiệm, từ 0 (hỗ trợ thấp) đến 3 (hỗ trợ cao)
peer_pressure: Anh hướng của áp lực đồng trang lứa đối với học sinh, với các giá trị từ 0 (áp lực thấp) đến 5 (áp lực cao)
extracurricular_acfivifies: Sự tham gia của học sinh vào các hoạt động ngoại khóa, từ 0 (không tham gia) đến 5 (tham gia tích cực)
bully¡ing: Trải nghiệm bị bắt nạt của học sinh, với các giá trị từ 0 (không bị bắt nạt) đến 5 (bị bắt nạt thường xuyên)
síress level; Mức độ căng thắng tông thé cua hoc sinh bao cao, voi cac gia tri tr 0 (căng thang thap) dén 2 (căng thắng cao)
2.2 Mô tả dữ liệu:
Trang 9
Tên Biên Mo ta Cac Gia tri cua
bien Loai bien
anxiety_level mức độ lo lắng mà học | 0-21 Định tính sinh gặp phải
self_esteem mức độ tự trọng của 0-30 Định tính học sinh
mental_health_history tiền sử mắc các vẫn đề | 0: không Định tính về sức khỏe tâm thần | 1: có
study_load Khối lượng học tập 0-5 Định tính teacher_student_relationship Chat lượng mỗi quan | 0-5 Dinh tinh
hệ với giáo viên
future_career_concerns Lo ngai về triển vọng | 0-5 Dinh tinh nghé nghiép trong
cua hoc sinh
stress_level Mức độ căng thắng tong the 1-2 Định tính
Trang 10
Yếu tổ tâm lí
Mức độ lo lắng trung bình của tat cả học sinh tham gia khao sat la 11,1 Có 542 học sinh chiếm 29,27% trên tổng 1100 học sinh tham gia khảo sát đã báo cáo mình có tiền sử các vấn đề về sức khỏe tâm thần
507 hoc sinh có lòng tự trọng dưới mức trung bình(<18)
859 học sinh dấu hiệu trầm cảm từ mức độ tối thiểu đến trầm cảm nặng, chiếm 78% số học sinh tham gia khảo sát
Yếu tổ sinh lí
129 học sinh thường xuyên bị đau đầu(có số điểm là 5) 2,18 là chỉ số huyết áp trung bình của học sinh 550 học sinh đánh gía mình có giấc ngủ kém( dưới 3) Nhân tố môi trường
137 học sinh cho biết mình sống tại nơi có độ ồn cao(mức 5 trong bảng đánh giá)
29 học sinh chiếm 2,63% cảm thấy khu vực sống của mình không an toàn(mức 0)
40 hoc sinh cam thay các nhu cầu cơ bản của họ không được đáp ứng các nhu cầu cơ bản
173 học sinh thường xuyên bị bắt nạt, chỉ có số ít 39 học sinh cho biết mình chưa từng bị bắt nạt
174 học sinh thường xuyên tham gia hoạt động ngoại khóa
Trang 11Chuong III: DATA PREPARATION- TIEN XU LY DU LIEU 3.1 Lam sach dữ liệu
21 features (no missing values) Data has no target variable 0 meta attributes
Columns (Double click to edit)
1 anxiety_level numeric feature | 2 self_esteem numeric feature | 3 mental health categorical feature 0,1 | 4 depression numeric feature
5 headache numeric feature
6 hlaaa neaecra — ẨÑỀ nuinnoric fonturco v Reset Apply |
Browse documentation datasets
=? 8 | B110
Hình 1 Dữ liệu đầu vào
Dữ liệu đầu vào có 1100 mẫu, trong đó có 21 biến và không có giá trị bị thiếu hụt hay lỗi (0.0 %)
& SF
[1 Preprocess
DL ban đầu
Hình 2 Sứ dụng công cụ Preprocess
Trang 12Để đi qua quy trình tiền xử lý dữ liệu, nhóm sẽ sử dụng công cụ Preprocess, dựa vào phương pháp Average/Most frequent
¢ Impute Missing Values
Preprocessors
“% Discretize Continuous Variables #%= Continuize Discrete Variables [4 Impute Missing Values [G Select Relevant Features [Ml Select Random Features ~\ Normalize Features * Randomize
[7 Remove Sparse Features
Principal Component Analysis [Z CUR Matrix Decomposition
a<Sk> Same
CUR Matrix Decomposition
Normalize Features x @) Standardize to p=0, 02=1
©) Center to u=0
©) Scale to o2=1
©) Normalize to interval [-1, 1] ©) Normalize to interval [0, 1]
Hinh 4 Normalize Features
Trang 13© Discretize Continuos Varaiables
~™ Discretize Continuous Variables ^
= Continuize Discrete Variables —
{@ _Impute Missing Values (© Equal frequency discretization TH Select Relevant Features CO Equal width discretization
[2] Select Random Features
4\ Normalize Features 5 5 Randomize ‘ ‘ : ‘ , 1) Remove Sparse Features
\ Principal Component Analysis
fH CUR Matrix Decomposition v
Number of intervals (for equal width,
© Remove numeric features
4@)— Data Table
Preprocess
Hinh 6 Data table
Kéo thả chuột tw Preprocess => Data Table, quan sat thong tin dữ liệu bên trong sau tiên xử lý
10
Trang 14— zs 99/4 1 31 22 7] Select full rows > a 13 221 12
1 De 17 121 25 :z J7 1 15 1 22
Send Automatically < ———
2 B | 31100 B 1100) 1100
Hình 7 Dữ liệu sau khi lam sach
Nhận xét: Dữ liệu sau khi làm sạch bằng cách lấy trung bình toàn cục có 1100 mầu, 20 biên và không có giá trị lỗi
Chương IV: MODELING- MÔ HÌNH HÓA DỮ LIỆU 4.1 Lựa chọn mô hình, phương pháp, kỹ thuật
Nhóm sử dụng 4 phương pháp như sau: « Logistic Regression
« Support Vector Machine (SVM) « Decision Tree
« Neural Netork « Xay dung mo hinh
11
Trang 15ag stress level anxiety_level self_esteem xentalheallhisloi depression 1100 instances (no missing data)
Sat mee : #444 14 20 0 1
Variables — UU 16 124 15 SEUGE ECE) 16 28 0 7
Color by instance classes ; lí 4 26 0 6 a s #997 17 31 22 >ị:o J0 6 80 27
z 9ã 17 15 1 22 2 ỨC a(í 5 28 0 8 4 [9997 9 231 24
5s a 11 210 14 ; J9 6 28 0 1 — 3 đa 7 25 0 3
? B | 4] 1100 B 1100} 1100
Hinh 8 Tép dit liéu
Tệp dữ liệu bao gồm 1100 mẫu dữ liệu, 20 biến và 0 dữ liệu lỗi
„2 oe?
8)-@ All data Preprocess Data Table
Hình 9 Lấp 75% mẫu dữ liệu sau đó lưu về dạng file exel Lấy 75% mẫu dữ liệu từ bảng dữ liệu tiền xứ lí, sau đó lưu dữ liệu về dạng file Exel tên DATA _75.xI
12