1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề Tài Phân Tích Ảnh Hưởng Của Một Số Yếu Tố Đến Kết Quả Học Tập Của Sinh Viên Hệ Clc, Khóa 2021, Ngành Công Nghệ Thông Tin, Trường Đh Sài Gòn.pdf

44 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Ảnh Hưởng Của Một Số Yếu Tố Đến Kết Quả Học Tập Của Sinh Viên Hệ CLC, Khóa 2021
Tác giả Lê Tấn Phát, Lê Anh Duy, Võ Hữu Nhân, Yên Bùi Thái Tuấn
Người hướng dẫn PGS. TS. Nguyễn Tuấn Đăng
Trường học Trường Đại Học Sài Gòn
Chuyên ngành Công Nghệ Thông Tin
Thể loại tiểu luận
Năm xuất bản 2023-2024
Thành phố Sài Gòn
Định dạng
Số trang 44
Dung lượng 5,34 MB

Cấu trúc

  • 1. Giới thiệu đề tài (4)
  • 2. Thu nhập dữ liệu (4)
  • 3. Các phương pháp thống kê (5)
  • 4. Kiểm tra và đánh giá dữ liệu (7)
    • 4.1. Kiểm tra điểm trung bình có đạt theo quy chế nhà trường hay không (7)
    • 4.2. Phân loại điểm theo điểm trung bình hệ 10 (8)
  • 5. Xây dựng dataset (9)
  • 6. Data Visualization (11)
    • 6.1. Khoảng cách từ nhà đến trường (11)
      • 6.1.1. Countplot (11)
      • 6.1.2. Histogram (13)
      • 6.1.3. Violin plot (15)
      • 6.1.4. Barplot (16)
    • 6.2. Cột anh em trong gia đình (17)
      • 6.2.1. Barplot (17)
    • 6.3. Cột Thu nhập của sinh viên (21)
      • 6.3.1. Pie plot (21)
  • 7. Phân tích các yếu tố tác động đến điểm của sinh viên (23)
    • 7.1. Hồi quy tuyến tính_Mô hình OLS (23)
    • 7.2. Mô hình ANOVA (27)

Nội dung

Kết quả dựa trên phân tích mô hình hồi qui tuyến tính đa biến ,đã chỉ ra các nhân tố thuộc về đặc điểm của sinh viên bao gồm: khoảng cách di chuyển từ nhà đến trường ,thu nhập hàng tháng

Giới thiệu đề tài

Trường Đại học Sài Gòn là cơ sở giáo dục đại học công lập, chuyên đào tạo nguồn nhân lực chất lượng cao cho Thành phố Hồ Chí Minh và cả nước Ngành Công nghệ thông tin hiện đang rất phát triển, thu hút đông đảo sinh viên đăng ký Nghiên cứu này tập trung khảo sát sinh viên Khoa Công nghệ thông tin hệ Chất Lượng Cao, lớp C4, khóa 21 Kết quả phân tích mô hình hồi quy tuyến tính đa biến cho thấy các yếu tố như khoảng cách di chuyển từ nhà đến trường và thu nhập từ công việc làm thêm có ảnh hưởng đáng kể đến kết quả học tập của sinh viên Nghiên cứu này có thể làm cơ sở để đề xuất giải pháp nâng cao kết quả học tập cho sinh viên và Trường Đại học Sài Gòn.

Thu nhập dữ liệu

Với dataset được tổng hợp với các trường như sau:

Mã đối tượng : kiểu dữ liệu String Điểm trung bình năm 1 và 2 của mỗi sinh viên: kiểu dữ liệu Double

Khoảng cách từ nhà đến trường: kiểu dữ liệu Double

Thu nhập hàng tháng: kiểu dữ liệu double String

Số anh em trong gia đình : kiểu dữ liệu Interger

Số bạn thân trong lớp : kiểu dữ liệu Interger

Các phương pháp thống kê

Ta sẽ sử dụng hàm describe() để tính các giá trị như min,max,min

Các giá trị thể hiện ở từng cột như sau:

Mean : Thể hiện giá trị trung bình của tổng dữ liệu trong 1 cột

Min : Thể hiện giá trị nhỏ nhất của dữ liệu trong 1 cột

Max: Thể hiện giá trị lớn nhất của dữ liệu trong 1 cột

Giá trị phân vị 25%, 50% và 75% cho phép chúng ta hiểu rõ hơn về sự phân bố của dữ liệu Cụ thể, 25% đại diện cho 1/4 đầu của tổng dữ liệu, giúp so sánh sự chênh lệch giữa các khoảng dữ liệu khác nhau Việc phân tích các giá trị này không chỉ cung cấp cái nhìn sâu sắc về sự phân tán mà còn hỗ trợ trong việc ra quyết định dựa trên dữ liệu.

Ta cũng có thể phân tích dựa trên 1 cột, ở đây là cột Partime_job(việc làm sv)

Kết quả dữ liệu cho thấy:

Count: 47 => có 47 sinh viên trong lớp

Unique: 2 => Có 2 giá trị đặc biệt ( True và False)

Bảng dữ liệu cho thấy có 26 giá trị True và 19 giá trị False, cho thấy 19 sinh viên không có việc làm ngoài giờ Để kiểm tra thêm, chúng ta sử dụng hàm isnull() để xác định xem có dữ liệu Null trong thuộc tính 'Income_Partime_Job' (thu nhập làm thêm của sinh viên) hay không, và sử dụng hàm sum() để tổng hợp tất cả các giá trị lại.

Bài viết cung cấp cái nhìn tổng quát về khoảng cách giữa nhà và trường của sinh viên thông qua các số liệu cơ bản như giá trị tối thiểu (Min), tối đa (Max) và khoảng cách trung bình Ngoài ra, nó cũng phân tích độ chênh lệch khoảng cách giữa các sinh viên, giúp hiểu rõ hơn về tình hình di chuyển của họ.

Kiểm tra và đánh giá dữ liệu

Kiểm tra điểm trung bình có đạt theo quy chế nhà trường hay không

Đặt biến Pass_status có giá trị bằng 4 để biểu thị điểm qua môn tại Đại học Sài Gòn Sử dụng hàm value_counts() để kiểm tra số lượng sinh viên đạt và không đạt dựa trên điểm trung bình trong dữ liệu.

Cả 47 sinh viên đều đạt yêu cầu và không có sinh viên nào có điểm trung bình dưới

Phân loại điểm theo điểm trung bình hệ 10

Sinh viên tại trường Đại học Sài Gòn sẽ được phân loại theo điểm trung bình: đạt loại A nếu điểm trung bình từ 8 trở lên, loại B nếu từ 7 trở lên, và các loại khác tương ứng với các mức điểm quy định.

Chúng ta có thể phân loại điểm số của sinh viên thành các loại A, B, C, D, E Để thực hiện điều này, cần xây dựng một hàm để kiểm tra và so sánh điểm của từng sinh viên, từ đó gán điểm vào các giá trị phân loại tương ứng.

Lớp C4 chủ yếu có sinh viên đạt từ trung bình khá trở lên, với tất cả đều có điểm số từ loại C trở lên Đặc biệt, không có sinh viên nào bị điểm liệt hay bị xét loại F.

Xây dựng dataset

Thực hiện xử lý tiền dữ liệu:

 Các dữ liệu có số liệu chấm phẩy sẽ chuyển thành dữ liệu Double

 Ở bảng parttime job, các câu trả lời của sinh viên sẽ được đưa về kiểu dữ liệu Boolean

 Các dữ liệu Null ở bảng do chưa điền thông tin vào sẽ được đưa về 0

 Sử dụng hàm withColumn() để chọn ra cột cần chọn trong dữ liệu và hàm cast() để chuyển đổi dữ liệu

 Đưa các điểm trung bình về kiểu dữ liệu double

Dữ liệu sau khi được xử lý như sau

Ta cũng có thể kiểm tra lại kiểu dữ liệu sau khi chuyển bằng cách sử dụng phương thức printSchema()

Data Visualization

Khoảng cách từ nhà đến trường

Chúng ta có thể sử dụng mô hình countplot() từ thư viện Seaborn hoặc Matplotlib để trực quan hóa dữ liệu dưới dạng biểu đồ, dựa trên phân loại điểm đã được phân tích trước đó.

Thông qua mô hình hóa giữa 2 học kỳ, ta thấy được một số sự thay đổi như sau

Số lượng sinh viên đạt điểm loại B đã từ 21(sinh viên) giảm xuống 15(sinh viên)

Số lượng sinh viên đạt điểm loại A đã tăng lên 1 sinh viên

Số lượng sinh viên đạt điểm loại C từ 6 sinh viên đến 13 sinh viên

Thông qua biểu đồ histogram, ta có thể biết sinh viên đi học từ nhà đến trường bao xa

Kết quả hình ảnh trên ta có nhận xét như sau:

Trong 47 sinh viên, tầm khoảng 23%(11 sinh viên) có khoảng cách tầm 5km từ nhà đến trường, và từ 5-10km chiếm khoảng 17%,…

Ngoài ra, vẫn có trường hợp có sinh viên cách trường hơn 20km, và điều đó có thể gây ảnh hưởng đến kết quả học tập của sinh viên

Chúng ta có thể sử dụng hàm variance để tính giá trị phương sai của dữ liệu trong một cột Ví dụ, khoảng cách từ nhà đến trường có phương sai là 19.295, cho thấy sự biến động lớn trong khoảng cách mà sinh viên di chuyển Điều này chỉ ra rằng có sự đa dạng đáng kể trong lựa chọn nơi ở của sinh viên so với trường học, với một số sinh viên sống gần và một số khác sống xa hơn.

6.1.3 Violin plot Để biết khái quát hơn về khoảng điểm trung bình của các sinh viên ở 2 học kỳ, ta có thể sử dụng biểu đồ violin để xem khoảng điểm đa số các sinh viên đạt được

Ngoài ra ta có thể biết được phương sai của khoảng cách bằng gsố liệu lẫn hình ảnh

Dựa theo mô hình, ta có thể thấy: Ở Hk1, khoảng điểm có vẻ nổi trội hơn ở HK2 khi mức điểm trung bình của tổng sinh viên giao động khoảng 8đ

Trong khi đó, ở HK2 đã có sự giảm nhẹ khi điểm ở HK2 chỉ giao động tầm 7đ

Khoảng cách đi học, ảnh hưởng từ bạn bè và áp lực từ việc làm thêm đều có thể là những nguyên nhân tác động đến sự phát triển của học sinh.

Cột anh em trong gia đình

Biểu đồ thể hiện tổng số sinh viên theo số anh em trong gia đình

Số lượng sinh viên có 1 anh em trong gia đình nhiều nhất là : 17 sinh viên

Số lượng sinh viên có 4 anh em trong gia đình là 1 sinh viên

Bài viết cung cấp cái nhìn tổng quan về số lượng anh chị em trong gia đình của sinh viên thông qua các số liệu cơ bản như giá trị tối thiểu (Min) và tối đa (Max) Những thông tin này giúp hiểu rõ hơn về bối cảnh gia đình của sinh viên, từ đó có thể phân tích và so sánh các yếu tố ảnh hưởng đến cuộc sống và học tập của họ.

Ngoài ra ta có thể biết được phương sai của khoảng cách bằng số liệu lẫn hình ảnh

Cột Thu nhập của sinh viên

Thông qua biểu đồ dạng bánh, ta có thể thấy được số liệu tổng quan của những sinh viên đi làm nói riêng, và lớp C4 nói chung

Ta có kết quả như sau như đã phân tích các loại điểm học kì 2 của 1 lớp ngành Công nghệ thông tin như sau

Ta có nhận xét như sau: Đa phần sinh viên đi làm thêm thường có mức lương từ 1-3 triệu đồng với số liệu chiếm 50% trên tổng dữ liệu

Cũng có 1 vài sinh viên kiếm được mức tiền khá cao trong lúc đi học như 7-9 triệu đồng

Phân tích các yếu tố tác động đến điểm của sinh viên

Hồi quy tuyến tính_Mô hình OLS

Hồi quy tuyến tính (Linear Regression) là một công cụ quan trọng trong Kinh tế lượng, được phát triển thành mô hình hồi quy tuyến tính (LRM) Phương pháp này sử dụng thống kê để hồi quy và dự báo dữ liệu, liên kết một giá trị liên tục với một hoặc nhiều giá trị liên tục, định danh hoặc phân loại có liên quan Nói một cách đơn giản, Hồi quy tuyến tính là phương pháp tiếp cận tuyến tính nhằm dự đoán biến phụ thuộc Y (biến kết cục) trên trục tung Y dựa vào các biến độc lập X (biến giải thích) trên trục hoành X trong mô hình.

Yếu tố tác động: Khoảng cách từ nhà đến trường

Hồi quy tuyến tính trong thống kê là phương pháp mô hình hóa mối quan hệ giữa biến phản ứng vô hướng và một hoặc nhiều biến giải thích, được phân loại thành biến phụ thuộc và biến độc lập.

R-squared là một chỉ số đo lường khả năng giải thích sự biến thiên của dữ liệu bởi mô hình Với giá trị R-squared chỉ đạt 0.002, mô hình này chỉ giải thích được 0.2% sự biến thiên của dữ liệu, cho thấy rằng nó không phản ánh mối quan hệ giữa biến độc lập và biến phụ thuộc.

F-statistic và Prob (F-statistic) được sử dụng để kiểm định ảnh hưởng của các biến độc lập đến biến phụ thuộc Trong trường hợp này, giá trị F-statistic là 0.1080 và Prob (F-statistic) là 0.744, cho thấy không có bằng chứng thống kê nào chứng minh mối quan hệ giữa các biến.

 coef (Hệ số hồi quy): Hệ số hồi quy cho biến "const" là 7.6315 và cho biến

"Home_to_school_km" là -0.0108 Điều này có nghĩa là khi khoảng cách từ nhà đến trường tăng lên 1 đơn vị, điểm số trung bình của môn học

Trong học kỳ 1, điểm trung bình của sinh viên năm thứ hai sẽ giảm 0.0108, tuy nhiên, mức giảm này không đáng kể do p-value tương ứng là 0.744 Sự biến động này chủ yếu xuất phát từ một outlier, cụ thể là một sinh viên có khoảng cách di chuyển lên đến 20km.

Here is the rewritten paragraph:P-value là một phép đo quan trọng để xác định ý nghĩa thống kê của một biến độc lập trong mô hình Đối với biến "Home_to_school_km", P-value là 0.744, vượt quá mức ý nghĩa thống kê thường được chấp nhận là dưới 0.05 Do đó, kết quả này cho thấy không có bằng chứng thống kê đủ mạnh để chứng minh mối quan hệ giữa khoảng cách từ nhà đến trường và điểm số trung bình của môn học.

Mô hình không thể dự đoán điểm số của môn học Semester_1_secondyears dựa trên khoảng cách từ nhà đến trường, do không có mối quan hệ thống kê có ý nghĩa giữa hai biến này.

Yếu tố tác động: Số anh em trong gia đình

1 R-squared (R^2): R-squared là một phép đo cho biết mức độ biến thiên của dữ liệu mà mô hình có thể giải thích Trong trường hợp này, R-squared là 0.138, tức là mô hình có thể giải thích được khoảng 13.8% sự biến thiên của biến phụ thuộc Semester_2_secondyears Mặc dù giá trị này không cao, nhưng nó cho thấy mô hình có khả năng giải thích một phần của sự biến thiên của dữ liệu

2 F-statistic và Prob (F-statistic): F-statistic là một chỉ số kiểm định xem ít nhất một biến độc lập có ảnh hưởng đến biến phụ thuộc hay không Giá trị F-statistic là 7.205 với Prob (F-statistic) là 0.0101 (< 0.05), cho thấy mô hình là ý nghĩa thống kê Điều này ngụ ý rằng ít nhất một trong số các biến độc lập (trong trường hợp này là Cousin) có ảnh hưởng đến biến phụ thuộc Semester_2_secondyears

3 Hệ số hồi quy (Coefficients): const là hệ số hồi quy cho hằng số (intercept) của mô hình, có giá trị là 6.7974 Cousin là hệ số hồi quy cho biến độc lập Cousin, có giá trị là 0.3838 Giá trị này cho biết rằng mỗi đơn vị tăng/giảm trong biến Cousin sẽ dẫn đến tăng/giảm trung bình 0.3838 điểm của biến phụ thuộc Semester_2_secondyears

4 P-value (P>|t|): P-value là một phép đo để xác định xem một biến độc lập có ý nghĩa thống kê đối với mô hình hay không Trong trường hợp này, P-value cho biến Cousin là 0.010 (< 0.05), tức là biến Cousin có ảnh hưởng đáng kể đến biến phụ thuộc Semester_2_secondyears.

Mô hình hồi quy tuyến tính cho thấy mối quan hệ tích cực giữa số anh em trong gia đình và điểm số trung bình của môn học Semester 2 ở sinh viên năm thứ hai Cụ thể, mỗi đơn vị tăng hoặc giảm trong số anh em sẽ làm thay đổi trung bình 0.3838 điểm trong môn học này.

Mô hình ANOVA

Kiểm định ANOVA, hay phân tích phương sai, là một kỹ thuật thống kê tham số được sử dụng để phân tích sự khác biệt giữa giá trị trung bình của các biến phụ thuộc Phương pháp này được phát triển bởi Ronald Fisher vào năm 1918.

Phân tích ANOVA là công cụ quan trọng trong nghiên cứu hồi quy, giúp xác định ảnh hưởng của các biến độc lập đến biến phụ thuộc Khác với việc chỉ so sánh các đối tượng trong một nhóm nghiên cứu, ANOVA cho phép so sánh giữa hai hoặc nhiều nhóm đối tượng, mở rộng phạm vi phân tích.

Công cụ phân tích ANOVA sẽ chia một biến tổng hợp quan sát được tìm thấy bên trong tập dữ liệu thành 2 phần để phân tích:

Yếu tố hệ thống: Là yếu tố có ảnh hưởng thống kê đến tập dữ liệu đã cho

Yếu tố ngẫu nhiên: Ngược lại với yếu tố hệ thống, chúng không tác động đến tập dữ liệu có sẵn

Yếu tố tác động: Khoảng cách từ nhà đến trường

Tỷ lệ F (F ratio) là một thống kê quan trọng trong phân tích phương sai (ANOVA), được sử dụng để kiểm tra sự khác biệt giữa các giá trị trung bình của hai hoặc nhiều nhóm dữ liệu Nó được tính bằng cách chia độ phân tán giữa các nhóm cho độ phân tán trong nhóm, giúp xác định xem có sự khác biệt đáng kể nào giữa các nhóm hay không.

Nếu giá trị F cao và p-value nhỏ hơn mức ý nghĩa đã xác định (chẳng hạn như p-value < 0.05), chúng ta có thể bác bỏ giả thuyết không có sự khác biệt giữa các giá trị trung bình của các nhóm dữ liệu Điều này cho phép chúng ta chấp nhận giả thuyết thay thế rằng các giá trị trung bình của các nhóm khác nhau một cách đáng kể.

Khi số F tăng và p-value giảm (thường là dưới 0.05), mô hình mới cho thấy sự ảnh hưởng đến kết quả Tuy nhiên, nếu p-value quá lớn, chúng ta không thể dự đoán sự biến thiên giữa biến độc lập và biến phụ thuộc Hơn nữa, giá trị F-statistic không đủ lớn và p-value không đủ nhỏ để khẳng định sự khác biệt đáng kể giữa các nhóm Điều này cho thấy mô hình hồi quy không giải thích hiệu quả sự biến thiên của dữ liệu hoặc có thể có các yếu tố khác ngoài mô hình ảnh hưởng đến kết quả.

Ngoài việc sử dụng các hệ số của mô hình hồi quy tuyến tính, chúng ta cũng có thể áp dụng các chỉ số đánh giá khác như Mean Squared Error (MSE), Root Mean Squared Error (RMSE) và R-squared (R2) để phân tích độ chính xác và hiệu suất của mô hình.

Mean Squared Error (MSE) là chỉ số đo lường sai số bình quân giữa giá trị dự đoán và giá trị thực tế Giá trị MSE hiện tại là 1.2920922111262954, cho thấy mức độ chính xác của mô hình dự đoán; MSE càng thấp, độ chính xác càng cao.

Root Mean Squared Error (RMSE) là căn bậc hai của MSE và thường được ưa chuộng vì có cùng đơn vị với dữ liệu gốc Giá trị RMSE hiện tại là 1.1367023406003418 RMSE càng thấp thì mô hình dự đoán càng chính xác và gần gũi với dữ liệu thực tế.

R-squared (R2): R-squared là một phép đo cho biết mức độ phù hợp của mô hình với dữ liệu Nó biểu thị tỉ lệ phần trăm của sự biến thiên của biến phụ thuộc mà mô hình giải thích được Trong trường hợp này, giá trị của R2 là -

Một giá trị R2 dương cho thấy mô hình dự đoán hiệu quả hơn so với mô hình chỉ sử dụng giá trị trung bình của biến phụ thuộc Ngược lại, R2 âm cho thấy mô hình kém hiệu quả hơn so với việc chỉ dựa vào giá trị trung bình của biến phụ thuộc.

Tác động: khoảng cách từ nhà đến trường

Giá trị Intercept là 7.407435654031198, tương ứng với điểm trung bình học kỳ 1 và 2 khi khoảng cách từ nhà đến trường bằng 0 Điều này có nghĩa là điểm trung bình học kỳ 1 và 2 sẽ rơi vào khoảng 7.41, cho thấy rằng khoảng cách từ nhà đến trường không ảnh hưởng nhiều đến quá trình học tập của học sinh.

Hệ số dương (0.000391) chỉ ra mối quan hệ tích cực giữa khoảng cách từ nhà đến trường và điểm trung bình học kỳ 1 và 2 Điều này có nghĩa là mỗi khi khoảng cách tăng lên, điểm trung bình cũng có xu hướng tăng nhẹ Tuy nhiên, việc ở xa trường có thể khiến sinh viên nghỉ học, dẫn đến mất kiến thức và ảnh hưởng tiêu cực đến điểm số.

Biểu đồ thể hiện số sinh viên dựa theo thu nhập hàng tháng của sinh viên

Số lượng sinh viên không có thu nhập là nhiều nhất là 20 sinh viên

Số lượng sinh viên có thu nhập 5 - 7 triệu đồng là thấp nhất chỉ có 2 sinh viên

Hồi quy tuyến tính_Mô hình OLS Income_partime_job theo

Kết quả của mô hình hồi quy tuyến tính (OLS Regression Results) cung cấp thông số quan trọng về hiệu suất của mô hình trong việc dự đoán biến phụ thuộc "Semester_1_secondyears", dựa trên các biến độc lập.

R-squared (R²): Đây là một chỉ số đo lường mức độ phù hợp của mô hình với dữ liệu Trong trường hợp này, R-squared là 0.001, tức là mô hình chỉ giải thích 0.1% sự biến động của biến phụ thuộc Điều này ngụ ý rằng mô hình không phù hợp tốt với dữ liệu.

Adj R-squared (R² điều chỉnh) là một phiên bản cải tiến của R-squared, phù hợp hơn để so sánh hiệu suất giữa các mô hình có số lượng biến độc lập khác nhau Giá trị của Adj R-squared trong trường hợp này là -0.022, cho thấy rằng mô hình không phù hợp và cần được xem xét lại.

Ngày đăng: 25/11/2024, 16:24

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w