1. Trang chủ
  2. » Luận Văn - Báo Cáo

Business Understanding - Tìm Hiểu Vấn Đề Các Yếu Tố Gây Ra Stress Của Sinh Viên Hiện Nay.pdf

30 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 2

BẢNG ĐÁNH GIÁ CÔNG TÁC THÀNH VIÊN

TÊN THÀNH VIÊN

Lai Tâm Như

Nguyễn Ngọc Bảo Phương

Lê Tiên Hieu

Trang 3

MỤC LỤC

YÊU TÓ GẦY RA STRESS CỦA SINH VIÊN HIỆN NAY . - 3 1.1 Lý do chọn đề tài và thực trạng 3 1.2 Mục tiêu nghiên cứu 3 1.3 Đối tượng nghiên cứu và phương pháp nghiên cứu -. «- 3 Chương II: DATA UNDERSTANDNNG - TÌM HIẾU DỮ LIỆU 4

2.2 Mô tả đữ liệu: - 2 2-©e< se Se Set EEEEExEEAEEEEreErkrkerkerkerrrerrsrre 5 Chương III: DATA PREPARATION- TIỀN XỬ LÝ DỮ LIỆU 8 3.1 Làm sạch dữ lIỆu o- 5 5= 55s s9 S093 Y0 090 1 185 51 4 9 ng 8 Chương IV: MODELING- MÔ HÌNH HÓA DỮ LIỆU - - 11 4.1 Lựa chọn mô hình, phương pháp, kỹ thuậtt - - «5= ss «« ss 11 Chương V: EVALUATION- ĐÁNH GIÁ KẾT QUÁ 5 25

6.2 Ứng dụng/ cách khắc phục: 26 TAT LIEU THAM KHẢO << 5° ©5< sec Esseeeerssecreersecee 27

Trang 4

LOI MO DAU

Đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành đến Trường Đại học Kinh tế Thành phố Hồ Chí Minh đã đưa môn học Khoa học dữ liệu vào chương trình giảng dạy Đặc biệt, nhóm chúng em xin gửi lời cảm ơn sâu sắc đến giảng viên bộ môn - Cô Phạm Thị Thanh Tâm đã dạy dỗ và truyền đạt những kiến thức quý báu cho chúng em trong suốt thời gian học tập vừa qua Trong thời gian tham gia lớp học Khoa học dữ liệu của Cô, chúng em đã có thêm cho mình nhiều kiến thức bỗ ích, tỉnh thần học tập hiệu quả và nghiêm túc Đây chắc chắn sẽ là những kiến thức quý báu, là hành trang để em có thể vững bước sau này Bộ môn Khoa học dữ liệu là môn học thú vị, võ cùng bé ich va có tính thực tế cao Đảm bảo cung cấp du kiến thức, gắn liền với nhu cầu thực tiễn của sinh viên trong thời đại công nghệ số hiện nay Tuy nhiên, do vốn kiến thức còn nhiều hạn chế và khả năng tiếp thu thực tế còn nhiều bỡ ngỡ Mặc dù chúng em đã có ging hết Sức nhưng chắc chắn bài tiểu luận khó có thể tránh khỏi những thiếu sót và

nhiều chỗ còn chưa chính xác, kính mong Cô xem xét và góp ý để bài tiểu luận của chúng em được hoàn thiện hơn Chúng em xin chân thành cảm ơn!

Trang 5

DANH MỤC BẢNG BIẾU

Hình 1 Dữ liệu đầu vào

Hình 2 Sử dụng công cụ Preprocess Hình 3 Impute missing value Hinh 4 Normalize Features

Hinh 5 Discretize Continuous Variables Hinh 6 Data table

Hình 7 Dữ liệu sau khi làm sạch Hình 8 Tệp dữ liệu

Hình 9 Lấy 75% mẫu dữ liệu sau đó lưu về dạng file exel Hinh 10 Train data

Hinh 11 Lay 25% mẫu còn lại làm tập thử nghiệm Hình 12 test data

Hình 13 Mô hình lấy mẫu dữ liệu

Hình 14 Chọn biến stress level là biến phụ thuộc để dự đoán Hình 15 Kết quả khi số Folds la 5

Hình 16 Kết quả khi số Folds là 10

Hình 17 Confusion Matrix( ma trận nhằm lẫn) Hình 18 Đường cong ROC khi target la 0 Hình 19 Đường cong ROC khi target la 1

Hình 20 Nhập bộ dữ liệu thử nghiệm vào phần mềm Orange

Hình 21 Kết quả sau khi sử dụng chức năng Prediction đề dự báo dữ liệu theo SVM -

Hình 22 Tông quan mô hình

Trang 6

Chuong I; BUSINESS UNDERSTANDING - TIM HIEU VAN DE/ CAC YEU TO GAY RA STRESS CUA SINH VIEN HIEN NAY

1.1 Lÿ do chọn đề tài và thực trụng

Một sự thật đáng buồn ở thế hệ các bạn trẻ hiện nay cụ thể là genZ dang dé mac phải các bệnh về tâm lý học đường Tâm lý trầm cảm ở học sinh và sinh viên có thể là vấn đề nghiêm trọng, ảnh hưởng đến sức khỏe tỉnh thần và hiệu suất học tập của họ Các nguyên nhân có thế đa dạng, từ áp lực học tập quá lớn, lo lắng về tương lai, cảm giác cô đơn, cho đến vấn đề gia đình hoặc sự thay doi lon trong cuộc sông

Nhiều yeu to như á áp lực từ trường học, lo lắng về kỳ thĩ, cảm giác không tự tin, hoặc cảm giác bắt an có thể làm gia tăng tinh trang tram cam Hơn nữa,

các vấn đề về tự giá, xã hội hóa, và sự phân vân về lựa chọn nghề nghiệp cũng có thê gây ra trầm cảm ở sinh viên

Từ những dữ kiện đã nêu ở trên thì nhóm chúng em quyết định chọn đề tài này: bởi việc nhận biết và hỗ trợ người học bị trầm cảm rất quan trọng Giáo viên, có vấn học tập, hoặc các chuyền gia tam ly có thé cung cấp sự hỗ trợ cần

thiết Ngoài ra, việc tạo điều kiện cho học sinh và sinh viên cảm thấy thoải mái khi chia sẻ và tìm kiếm sự giúp đỡ từ người thân, bạn bè cũng rẤt quan trọng dé họ có thé vượt qua tình trạng trầm cảm

1.2 Mục tiêu nghiên cứu

Trước hết là xác định các yếu tố cụ thể có tác động đáng kế đến mức độ căng thang của học sinh Thông tin này rất quan trọng để hiểu rõ các yếu tố gây căng thắng chính ở học sinh Trong bộ dữ liệu này, chúng em khám phá các khía cạnh khác nhau trong cuộc sống của học sinh dé hiểu điều gì gây ra căng thắng Bằng cách sử dụng phân tích dự doan, chung em muốn tìm ra các mô hình và dưa ra dự doán về mức độ căng thắng Mục tiêu của chúng em là giúp tạo ra một môi trường tốt hơn và hỗ trợ hơn cho học sinh Xác dinh va wu tién cac yếu to chinh anh huong đến mức độ căng thắng của học sinh dé phat triển các biện pháp can thiệp và hệ thống hỗ trợ có mục tiêu trong các tô chức giáo dục

1.3 Đối trợng nghiên cứu và phương pháp nghiên cứu «Đối tượng nghiên cứu

Bo di ligu Student Stress Factors: A Comprehensive Analysis dugc thu thap từ trwong dai hoc Tribhuvan University cua Nepal duoc dang tai trén trang eb Kaggle Tập dữ liệu bao gồm 10.000 hàng dữ liệu ( sinh viên ) và 21 cột (đặc tính)

«Phương pháp nghiên cứu - Phần mềm Orange:

Khai phá dữ liệu (Data Mining) là lĩnh vực tương đối khó để có thể khám phá và nghiên cứu Do đó, nhiều phần mềm đã ra đời với mục tiêu là giúp cho người dùng dễ dàng hơn trong việc nghiên cứu các bài toán trong những lĩnh vực này Một trong những phần mềm do chinh la Orange

Phan mém Orange là phan mém được tích hợp các công cụ khai phá dữ liệu mã nguồn mở và được lập trình bằng Python với giao diện trực quan, đễ đàng

Trang 7

tương tac Với việc có nhiều chức năng như vậy, phần mềm Orange có thê phân tích được các dữ liệu khác nhau như từ đơn giản đến phức tạp và cho ra đồ họa vô cùng thu hút, đẹp mắt

- Phần mềm Excel:

Excel là một phần mềm phổ biến nằm trong bộ Microsoft Office Phần mềm này giúp người dùng shi lại dữ liệu, trình bày thông tin dưới dạng bảng, tính toán, xử lý thông tin nhanh chóng và chính xác với một lượng dữ liệu lớn

Excel có nhiều công dụng khác nhau và một số công dụng nỗi bật như: Lưu dữ liệu, tham gia vào việc tính toán, quản lý dữ liệu, tham gia và hỗ trợ các công cụ phân tích, tìm kiếm

Chuong II: DATA UNDERSTANDING - TIM HIEU DU LIEU 2.1 Giới thiệu bộ dự liệu

Bộ dữ liệu này chứa khoảng 20 đặc tính tạo ra nhiều tác động nhất đến Căng thắng của Học sinh Các đặc điểm được lựa chọn một cách khoa học dựa trên 5 yếu tố chính, đó là các yếu tố Tâm lý, Sinh lý, Xã hội, Môi trường và Học thuật Trong mỗi yếu tố bao gồm

« - Các yếu tô tâm lý => 'anxiety_level'(mức độ lo lắng), 'self_esteem'(lòng tự trong), 'mental_health_history'(lich sir strc khoé tinh than),

'depression'(tram cam),

e Cac yếu tố sinh lý => "headache'(dau dau), "blood_pressure'(huyết áp), 'sleep_ quality'( chất lượng giac ngu), 'breathing_problem’(van dé hoi thở),

« - Các yếu tố môi trường => 'noise_level'(mức độ tiếng ồn),

'living_conditions'(điều kiện sống), ‘safety'(an toàn), 'basic_needs'(nhu cầu cơ bản),

«Các yếu tố học thuật=> 'academic_performance'(hiệu suất học thuật), ‘study_load'(tai học tập), 'teacher_student_relationship'(mối quan hệ giữa giảng viên và sinh viên), 'future_career_concerns'(mối quan tâm đến sự nghiệp trong tương lai),

«Yếu tổ xã hội => 'social support(hỗ trợ từ xã hội), 'peer_pressure'(áp lực từ đồng nghiệp), 'extracurricular_ acfivities'(hoạt động ngoại khoá),

'bullying'(bắt nạt)

Tập dữ liệu của đi sâu vào các yếu tố căng thang mà học sinh phải đối mặt Từ các khía cạnh tâm lý như lo lắng và lòng tự trọng đến áp lực học tập và động lực xã hội, bộ sưu tập này cung cập một cái nhìn toàn diện về những thách thức mà sinh viên ngày nay gặp phải

Bộ dữ liệu được thu thập và tạo ra, đăng tải trên trang eb kaggle boi Chhabi Acharya Tập dữ liệu bao gồm thông tin dữ liệu của 1100 sinh viên và 20 cột (đặc tính):

Các yếu tố tâm lý (Mô tả cột)

¢ _ anxiety level: Đo lường mức độ lo lắng mà học sinh gặp phải, từ 0 (lo lắng thấp) đến 21 (lo lắng cao) (Điểm HADS-A)

« - self esteem: Chỉ ra mức độ tự trọng của học sinh, từ 0 (tự trọng thấp) đến 30 (tự trọng cao)

Trang 8

mental_health_history: Chi số nhị phân (0 hoặc 1) cho biết liệu học sinh có tiền sử mắc các vấn đề về sức khỏe tâm thần hay không

depression: Do hrong mirc do tram cam ma hoc sinh dang phai đối mặt dựa trên thang PHQ-09, học sinh có số điểm từ 5 (trầm cảm mức độ tối thiểu) đến 27 (trầm cảm nặng)

Các yếu tố môi trường

Noise Level: Cảm nhận của học sinh về mức độ tiếng ồn trong môi trường xung quanh, từ 0 (tiếng ồn thấp) đến 5 (tiếng ồn cao)

living conditions: Đánh giá điều kiện sông của học sinh, với các giá trị từ 0 (điều kiện kém) đến 5 (điều kiện tuyệt vời)

safety: Mức độ an toàn của môi trường xung quanh học sinh, từ 0 (không an toàn) đến 5 (rất an toàn)

basic_needs: Mức độ hài lòng với các nhu cầu cơ bản của học sinh, từ 0 (không hài lòng) đến 5 (hoàn toàn hài lòng)

future_career_concerns: Lo ngai ve trién vong nghé nghiép trong trong lai, tir 0 (it lo ngai) dén 5 (rat lo ngai)

Các yếu tổ xã hội (Mô tả cột)

social | support: Mức độ hỗ trợ xã hội mà học sinh trải nghiệm, từ 0 (hỗ trợ thấp) đến 3 (hỗ trợ cao)

peer_pressure: Anh hướng của áp lực đồng trang lứa đối với học sinh, với các giá trị từ 0 (áp lực thấp) đến 5 (áp lực cao)

extracurricular_acfivifies: Sự tham gia của học sinh vào các hoạt động ngoại khóa, từ 0 (không tham gia) đến 5 (tham gia tích cực)

bully¡ing: Trải nghiệm bị bắt nạt của học sinh, với các giá trị từ 0 (không bị bắt nạt) đến 5 (bị bắt nạt thường xuyên)

síress level; Mức độ căng thắng tông thé cua hoc sinh bao cao, voi cac gia tri tr 0 (căng thang thap) dén 2 (căng thắng cao)

2.2 Mô tả dữ liệu:

Trang 9

Tên Biên Mo ta Cac Gia tri cua

bien Loai bien

anxiety_level mức độ lo lắng mà học | 0-21 Định tính sinh gặp phải

self_esteem mức độ tự trọng của 0-30 Định tính học sinh

mental_health_history tiền sử mắc các vẫn đề | 0: không Định tính về sức khỏe tâm thần | 1: có

study_load Khối lượng học tập 0-5 Định tính teacher_student_relationship Chat lượng mỗi quan | 0-5 Dinh tinh

hệ với giáo viên

future_career_concerns Lo ngai về triển vọng | 0-5 Dinh tinh nghé nghiép trong

cua hoc sinh

stress_level Mức độ căng thắng tong the 1-2 Định tính

Trang 10

Yếu tổ tâm lí

Mức độ lo lắng trung bình của tat cả học sinh tham gia khao sat la 11,1 Có 542 học sinh chiếm 29,27% trên tổng 1100 học sinh tham gia khảo sát đã báo cáo mình có tiền sử các vấn đề về sức khỏe tâm thần

507 hoc sinh có lòng tự trọng dưới mức trung bình(<18)

859 học sinh dấu hiệu trầm cảm từ mức độ tối thiểu đến trầm cảm nặng, chiếm 78% số học sinh tham gia khảo sát

Yếu tổ sinh lí

129 học sinh thường xuyên bị đau đầu(có số điểm là 5) 2,18 là chỉ số huyết áp trung bình của học sinh 550 học sinh đánh gía mình có giấc ngủ kém( dưới 3) Nhân tố môi trường

137 học sinh cho biết mình sống tại nơi có độ ồn cao(mức 5 trong bảng đánh giá)

29 học sinh chiếm 2,63% cảm thấy khu vực sống của mình không an toàn(mức 0)

40 hoc sinh cam thay các nhu cầu cơ bản của họ không được đáp ứng các nhu cầu cơ bản

173 học sinh thường xuyên bị bắt nạt, chỉ có số ít 39 học sinh cho biết mình chưa từng bị bắt nạt

174 học sinh thường xuyên tham gia hoạt động ngoại khóa

Trang 11

Chuong III: DATA PREPARATION- TIEN XU LY DU LIEU 3.1 Lam sach dữ liệu

21 features (no missing values) Data has no target variable 0 meta attributes

Columns (Double click to edit)

1 anxiety_level numeric feature | 2 self_esteem numeric feature | 3 mental health categorical feature 0,1 | 4 depression numeric feature

5 headache numeric feature

6 hlaaa neaecra — ẨÑỀ nuinnoric fonturco v Reset Apply |

Browse documentation datasets

=? 8 | B110

Hình 1 Dữ liệu đầu vào

Dữ liệu đầu vào có 1100 mẫu, trong đó có 21 biến và không có giá trị bị thiếu hụt hay lỗi (0.0 %)

& SF

[1 Preprocess

DL ban đầu

Hình 2 Sứ dụng công cụ Preprocess

Trang 12

Để đi qua quy trình tiền xử lý dữ liệu, nhóm sẽ sử dụng công cụ Preprocess, dựa vào phương pháp Average/Most frequent

¢ Impute Missing Values

Preprocessors

“% Discretize Continuous Variables #%= Continuize Discrete Variables [4 Impute Missing Values [G Select Relevant Features [Ml Select Random Features ~\ Normalize Features * Randomize

[7 Remove Sparse Features

Principal Component Analysis [Z CUR Matrix Decomposition

a<Sk> Same

CUR Matrix Decomposition

Normalize Features x @) Standardize to p=0, 02=1

©) Center to u=0

©) Scale to o2=1

©) Normalize to interval [-1, 1] ©) Normalize to interval [0, 1]

Hinh 4 Normalize Features

Trang 13

© Discretize Continuos Varaiables

~™ Discretize Continuous Variables ^

= Continuize Discrete Variables —

{@ _Impute Missing Values (© Equal frequency discretization TH Select Relevant Features CO Equal width discretization

[2] Select Random Features

4\ Normalize Features 5 5 Randomize ‘ ‘ : ‘ , 1) Remove Sparse Features

\ Principal Component Analysis

fH CUR Matrix Decomposition v

Number of intervals (for equal width,

© Remove numeric features

4@)— Data Table

Preprocess

Hinh 6 Data table

Kéo thả chuột tw Preprocess => Data Table, quan sat thong tin dữ liệu bên trong sau tiên xử lý

10

Trang 14

— zs 99/4 1 31 22 7] Select full rows > a 13 221 12

1 De 17 121 25 :z J7 1 15 1 22

Send Automatically < ———

2 B | 31100 B 1100) 1100

Hình 7 Dữ liệu sau khi lam sach

Nhận xét: Dữ liệu sau khi làm sạch bằng cách lấy trung bình toàn cục có 1100 mầu, 20 biên và không có giá trị lỗi

Chương IV: MODELING- MÔ HÌNH HÓA DỮ LIỆU 4.1 Lựa chọn mô hình, phương pháp, kỹ thuật

Nhóm sử dụng 4 phương pháp như sau: « Logistic Regression

« Support Vector Machine (SVM) « Decision Tree

« Neural Netork « Xay dung mo hinh

11

Trang 15

ag stress level anxiety_level self_esteem xentalheallhisloi depression 1100 instances (no missing data)

Sat mee : #444 14 20 0 1

Variables — UU 16 124 15 SEUGE ECE) 16 28 0 7

Color by instance classes ; lí 4 26 0 6 a s #997 17 31 22 >ị:o J0 6 80 27

z 9ã 17 15 1 22 2 ỨC a(í 5 28 0 8 4 [9997 9 231 24

5s a 11 210 14 ; J9 6 28 0 1 — 3 đa 7 25 0 3

? B | 4] 1100 B 1100} 1100

Hinh 8 Tép dit liéu

Tệp dữ liệu bao gồm 1100 mẫu dữ liệu, 20 biến và 0 dữ liệu lỗi

„2 oe?

8)-@ All data Preprocess Data Table

Hình 9 Lấp 75% mẫu dữ liệu sau đó lưu về dạng file exel Lấy 75% mẫu dữ liệu từ bảng dữ liệu tiền xứ lí, sau đó lưu dữ liệu về dạng file Exel tên DATA _75.xI

12

Ngày đăng: 10/08/2024, 16:04

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w