Mỗi cấp độ có 14 — 15 bài học, trong đó có một bài giữa khóa và một bài cuối khóa để các sinh viên ôn tập lại các kiến thức đã học.. Đồng thời, các trường đại học thông qua quá trình tha
Trang 1
DAI HOC QUOC GIA THANH PHO HO CHI MINH
TRUONG DAI HOC KINH TE - LUAT
NHOM 4 PREDICTING E-LEARNING STUDENT
PERFORMANCE
LOP HOC PHAN: 221TK0526
GIANG VIEN HUONG DAN: TS NGUYEN PHUC SON
TP Hé Chi Minh, Thang 11 Nam 2022
Trang 2
MUC LUC
1 TONG QUAN VE DE TAL ecceccecccccscssessessessesecssvsesstssevsussnsscssessnsessevsnssnssevsveevens 3
PB co ốc 3
2 Muc tiêu I — Ðo lường mức độ quan trọng của các bài tập 5
3 Mục tiêu 2 — Phương pháp đánh giá kiến thức học sinh tiếp thu được 8
Trang 3CHAPTER 10:
DU DOAN HIEU SUAT HQC TRỰC TUYẾN CỦA SINH VIÊN
(PREDICTING E-LEARNING STUDENT PERFOMANCE)
I TONG QUAN VE DE TAI
Opera Multimedia là một đơn vị chuyên cung cấp nội đung học tập trên nền tảng E-learning cho sinh viên Họ thiét ké những khóa học để khắc phục những hạn chế cả
về không gian lẫn thời gian của hình thức giáo dục truyền thống Trong bài báo cáo nay, chúng tôi sẽ phân tích đữ liệu thu được từ 463 sinh viên đã trải nphiệm khóa học thử nghiệm đầu tiên tại Đại học Pavia Opera Multimedia da két hop tính hiệu quả của phương pháp giảng dạy tại các Học viện Anh quốc và tính tức thời của nền tảng E- learning Khóa học được chia thành ba cấp độ, phù hợp với khung tham chiếu ngôn ngữ chung Châu Âu: Cấp độ 1 tương ứng với trình độ A1 — dành cho người mới bắt đầu; Cấp độ 2 tương ứng với trình độ A2 - áp đụng cho học sinh tiền trung cấp; Cấp
độ 3 bao gồm trình độ BI - được thiết kế cho học sinh trung cấp
Mỗi cấp độ có 14 — 15 bài học, trong đó có một bài giữa khóa và một bài cuối khóa để các sinh viên ôn tập lại các kiến thức đã học Khóa học tập trung vào 4 kỹ năng: nghe, nói, đọc, viết; trong đó kỹ năng nghe được đặc biệt chú trọng Chương trình bao gồm nhiều nội dung được đi kèm với hình ảnh minh họa và nhiều bài tập tương tác
Bài nghiên cứu giúp sinh viên có thê hiệu rõ bản thân họ thực sự phù hợp với phương pháp học tập nào (trực tuyến, trực tiếp hay qua CD-ROM ) và liệu những sinh viên khác sẽ có trải nghiệm học tập giống họ hay không (hiệu quả hay không hiệu quả ) khi cùng sử đụng phương pháp học tập do Opera Multimedia cung cap, tir do dé dàng so sánh và đối chiếu lại với chính kết quả học tập của bản thân Đồng thời, các trường đại học thông qua quá trình tham gia của sinh viên trên nền tảng đó đề có thể
dự đoán được chất lượng học tập của họ, và đặt ra câu hỏi liệu sinh viên có thật sự tập trung và đạt hiệu quả trong học tập với phương pháp học tập mới này không? Bên cạnh đó, dựa trên kết quả cho ra, nếu thấy được mặt tích cực và khả quan, có thế thấy phương pháp này giúp sinh viên học tập hiệu quả hơn, và đây cũng là cơ hội để nâng
3
Trang 4cao danh tiếng và chất lượng của trường cũng như Opera Multimedia Neuoc lai, néu kết quả có vấn đề, thông qua phân tích, trường có thê nhận ra những khúc mắc và khuyết điểm của sinh viên để đưa ra giải đáp và những giải pháp kịp thời Ngoài ra, việc tông hợp ý kiến của các bạn sinh viên về phương pháp học tập này sẽ giúp tìm ra được hướng phát triển đúng đắn và định hướng dạy kèm phù hợp
Và mục tiêu chính của bài báo cáo này là đánh giá tầm quan trọng của những bài tập và ước tính những kiến thức mà mỗi sinh viên đã tiếp thu được và cá nhân hóa nền tảng học tập trực tuyến
IL NỘIDUNG CHÍNH
1 M6 ta dữ liệu
Dữ liệu được lây từ nên tảng học tập điện tử Opera Multimedia của Đại học Pavia Trong đó, khóa học tiếng Anh có 15 cấp độ, mỗi cấp độ bao gồm II chương (mỗi chương gồm 10 bài học và I bài kiểm tra cuối khóa): đánh giá, đối thoại, thuật ngữ, giới thiệu, nghe 1, nghe 2, phát âm, đọc, sử dụng tiếng Anh, video và từ vựng Khóa học được chia thành nhiều dạng bài tập: có đánh giá (phát âm, nghe và kiểm tra trình độ) và không có đánh giá (ngữ pháp) Đối với những bài có đánh giá, thang điểm sẽ từ 0 đến 100; mức điểm để đạt yêu cầu là 50 Số điểm này giúp biết được các lỗ hồng của sinh viên, nhằm đưa ra giải pháp bù đắp kịp thời đề có thể cung cấp cho mỗi sinh viên kiến thức toàn diện nhất
Tiếp theo đề đánh giá kiến thức mà các học sinh tiếp thu được, chúng ta sẽ phân tích đữ liệu dựa trên kết quả đạt được thông qua những bài tập Kết quả được chia thành 4 cấp độ là C (hoàn thành), I (không hoàn thành), F (không đạt yêu cầu), P (đạt yêu câu)
Trong lúc thu thập đữ liệu, chúng tôi đã loại bỏ 37,203 kết quả bất thường và kết quả thuộc cấp độ I trong số 147,432 kết quả ban đầu
Dữ liệu sau cùng được sắp xếp thành 5 bảng:
®_ Dữ liệu nhân khâu học liên quan đến những sinh viên đăng ký khóa học
© Ngày tháng, thời gian bắt đầu và kết thúc cho mỗi khóa học mà sinh viên tham gia
®© Cấu trúc của trang web học trực tuyến và bộ chuyền dịch cơ sở dữ liệu của những bài giảng
® Kết quả từ những bài kiểm tra cuối khóa theo từng cấp độ
4
Trang 52 Muc tiéu 1 — Do lwong mirc do quan trong cua cac bai tap
Mục tiêu đầu tiên của chúng tôi là cung cấp một phương pháp đánh giá tầm quan trọng của mỗi bài tập và dự đoán khả năng tiếp thu của mỗi sinh viên Trong phương pháp này, chúng tôi dựa trên các kết quả học tập đề cá nhân hoá trải nghiệm học tập của người học và bên cạnh đó cải thiện nền tảng giáo dục trực tuyến cho mỗi khóa học Tiếng Anh Đề đạt được điều này, trước tiên chúng ta nên xem xét sử dụng phương pháp thống kê nào đề có thể thê hiện bao quát từng kết quả của mỗi sinh viên Ở đây chúng tôi nhận thấy phương pháp Kernel (KDE) phủ hợp dé trình bày đữ liệu khi thực hiện phân tích mục tiêu đầu tiên
Điểm quan trọng khi áp dụng phương pháp phi tham số đề ước tính hàm mật độ xác suất là việc chọn ra một băng thông (tốc độ truyền dữ liệu tối đa trên một đường dẫn nhất định) phù hợp Đây là việc cân bằng trong việc thê hiện thông tin đữ liệu vừa tông quan vừa chỉ tiết Căn cứ vào đữ liệu thực tế, chúng ta cần phải so sánh giữa các phương pháp Sheather & Jones (1991) và phương pháp kiểm chứng chéo để tìm ra phương pháp nào có tham số đặc trưng đạt hiệu quả tối ưu hơn trong việc ước lượng mật độ xác suất Hình I và Hình 2 biểu diễn biếu đồ tần suất và ước lượng mật độ tương đối cho bài tập X10702 theo phương pháp kiêm chứng chéo và phương pháp Sheather & Jones
0.010 l
X 10702 Hình 1 Uóc tính mật độ cho việc đánh giá bài tập X10702 bằng phương pháp kiêm
chưng chéo
Trang 6
0.20
0.005 0,000 i
JL
10702
100
Hình 2 Uóc lượng cho các bài đánh giá X10702 bằng phương pháp Sheather &
Jones Bảng 1 So sánh theo cặp không tham số
Từ việc ứng dụng biểu đồ sau đã cho ra kết quả phù hợp và gần nhất với đữ liệu
đã cho Giả sử rằng tầm quan trọng của mỗi bài tập được đánh giá bằng hình thức so sánh mật độ của từng cặp giá trị với nhau Ở mỗi cặp bài tập đó, chúng ta cần phải đo lường sự khác nhau giữa các mật độ điểm tương ứng Giả sử với giả thuyết gốc Hạ: Hàm mật độ của bài tập f và g là giỗng nhau, chúng ta sẽ lấy được giá trị p (p-value)
6
Trang 7thông qua quy trình bootstrap đề giữ cho h không thay đôi Kết quả được hiến thị trong Bảng I, trong đó, ta thấy được nhiều bài tập có giá trị p rất nhỏ so với phần còn lại
như: XI0304 và XI10307, XI0304 và X10402, XI0304 và XI0406, XI0305 và X10504, X10309 va X10403, X10402 va X10403, X10402 va X10602
0.02
0.01
Hình 3 So sánh đô họa giữa các bài tập X10308 và X10504
Hình 3 thể hiện sự so sánh giữa bài tập X10308 và X10504 dựa trên khoảng tin cậy có được nhờ quy trình thống kê Khoảng tin cậy đó rất giống với ước tính mật độ nên chúng ta cần xem xét sự tương đồng giữa hai bài tập Do vậy, để giảm chiều của
mô hình dự đoán (được mô tả trong phần sau) thì ca X10308 hay X10504 đều có thê bị loại bỏ
Trang 8Density
Hình 4 So sánh đô họa giữa các bài tập X10309 và X10403
Mặt khác, trong Hình 4 cũng thể hiện sự khác biệt lớn về mặt thống kê giữa hai bài tập X10309 và X10403 Điều này có nghĩa là cả hai bài tập đó đều quan trọng như nhau và nên được giữ lại trong mô hình
Đôi với mục tiêu thứ hai là dự đoán kiên thức mỗi sinh viên tiêp thu được sau khóa học của Opera Multimedia, chúng tôi sẽ so sánh giữa mô hình hồi quy logistic với mô hình phi tham số Kết quả bài kiếm tra cuối kỳ của sinh viên được xếp thành biến nhị phân với Y = 0 là đạt yêu cầu và Y = I1 là không đạt yêu cầu Chúng tôi xem xét 10 đánh giá bài tập là các biến giải thích, được chọn lọc theo phép so sánh ghép cặp phi tham số (so sánh từng cặp dữ liệu với nhau) Bảng 2 cho thấy các ước lượng tham số từ hỗồi quy logistic, đặc biệt ở đây chỉ có ba bài tập có ý nghĩa đối với chất lượng đánh giá và bài kiếm tra cuối khóa gồm: X10308 (phát âm), X10309 (nghe) và X10702 (hiéu).
Trang 9Bảng 2 Ước lượng cho mô hình hồi quy logistic
Bây giờ, chúng tôi so sánh kết quả trong Bảng 2 với kỹ thuật phi tham số đựa trên mô hình phi tham số Một trong những lý đo chính của việc sử dụng phương pháp này là vì nó không liên quan đến mối quan hệ tiềm ân trong hồi quy tham số chuẩn Những lợi ích trong việc áp đụng một phép tính cộng thêm xấp xỉ của chúng tôi ít nhất
là gấp đôi
Đầu tiên, vì mỗi thuật ngữ phụ gia riêng lẻ được ước tính bằng cách sử đụng một đơn biến mịn hơn, nên tránh được lời nguyễn của chiều (số lượng biến càng lớn, khả năng suy luận từ dữ liệu càng trở nên thách thức)
Thứ hai, ước tính của các điều khoản riêng lẻ giải thích các biến phụ thuộc thay đổi không tuyến tính với các biến giải thích tương ứng Trên thực tế, các mô hình cộng tông quát mở rộng phạm vi ứng dụng của các mô hình tuyến tính tổng quát thông qua các phương pháp làm mịn dữ liệu (phương thức xử lí đữ liệu, được thực hiện bằng cách sử dụng thuật toán để loại bỏ nhiễu khỏi bộ đữ liệu Điều nảy cho phép các mẫu
và xu hướng quan trọng trở nên nồi bật)
Trong ứng dụng của chúng tôi, Bảng 3 cho thây kết quả của mô hình phi tham số Đối với quá trình ước tính, một cách tiếp cận lặp lại được sử dụng với thuật toán backfitting Cac bai tap quan trong la X10308 (phát âm), X10309 (nghe), X10601 và X10602 (hiéu) So sanh Bang 2 va Bang 3 luu y rang chung c6 diém chung 1a X10308
va X10309
Bảng 3 Ước lượng cho mô hình phi tham số
Trang 10
Ill MO RONG - SO SANH MO HiNH
Chúng tôi thực hiện báo cáo ma trận nham lan đề từ Bảng 2 và Bảng 3 có thê đưa
ra lựa chọn mô hình dự đoán tốt nhất giữa những mô hình sản xuất Ma trận nhằm lẫn này được xem như là sự biểu diễn các tính chất của quy tắc phân lớp hay quy tắc phân biệt Ta có thể thấy những phan tử đã được phân loại đúng hoặc sai cho từng lớp Đường chéo chính cho thấy số lượng quan sát đã được phân loại chính xác cho từng lớp, trong khi các phần tử nằm ngoài đường chéo được phân loại không chính xác Nếu giả định là (rõ ràng hoặc ngầm định) rằng mỗi phân loại không chính xác có cùng chi phí về kiến thức thu được, chúng ta có thể tính toán tổng số phân loại sai như một thước đo hiệu suất
Và ở đây, như trường hợp của chúng tôi, Bảng 4 cho thấy ma trận nhằm lẫn lý
thuyết cho một bộ phân loại hai lớp
Bảng 4 Ma trận nhằm lẫn lý thuyết
Với bối cảnh nghiên cứu của chúng tôi, các mục trong ma trận nhằm lẫn có ý nghĩa sau: ø là số lần dự đoán đúng răng một sinh viên sẽ không đạt; 5 là số lần dự đoán sai rằng một sinh viên sẽ không đạt; e là số lần dự đoán sai mà một sinh viên sẽ đạt; đ là số lần đự đoán đúng mà một sinh viên sẽ đạt
Tiếp theo, Bảng 5 và Bảng 6 cho thấy các ma trận nhằm lẫn cho hai mô hình:
mô hình hỗồi quy logistic và mô hình phi tham số
Bảng 5 Ma trận nhằm lẫn cho mô hình hồi quy logistic
Bảng 6 Ma trận nhằm lẫn cho mô hình phí tham số
10
Trang 11O(Y=1) 6 285
Để có được các số liệu trong bảng, chúng tôi đã sử dụng phương pháp kiêm chứng chéo Chúng tôi xây dựng mỗi một mô hình trên một mẫu đào tạo và so sánh các mô hình trên mẫu xác định Mẫu đào tạo (70%) và mẫu xác định (30%) được chọn ngẫu nhiên Từ kết quả, so sánh hai ma trận nhầm lẫn, chúng tôi nhận thấy răng mô hình phi tham số tốt hơn so với hồi quy logistic, vì nó dan dén ít lỗi phân loại sai hơn (Mô hình phi tham số có 20 lần dự đoán sai trong khi mô hình hồi quy logistic có đến
33 lần) Dựa trên các lỗi phân loại sai, chúng tôi cho rằng mô hình phi tham số lựa chọn các bài tập cụ thể có độ chính xác cao hơn liên quan nhiều đến thành tích trong bài kiếm tra cuối khóa Băng chứng thực nghiệm này dẫn đến việc dành sự chú ý đặc biệt cho các bài tập cụ thé Thông tin này có thể giúp nhà cung cấp dữ liệu của chúng tôi cá nhân hóa nền tảng học tập và lập kế hoạch cho các hành động dạy kèm cụ thé
H
Trang 12KET LUAN
Trong bai bao cáo này, chúng tôi đã phân tích một bộ dữ liệu E-learning (học tập trực tuyến) từ trường Đại học Pavia với mục tiêu là đo lường, đánh giá về tầm quan trọng của những bài tập trên hệ thống đó và ước tính được những kiến thức mà mỗi học sinh đã tiếp thu được Những dữ liệu được chúng tôi trích xuất từ nhiều tệp nhật
ky trén nén tang E-learning Trong phan thu thập và kiêm tra dữ liệu, chúng tôi đã sử dụng một tập hợp các thước đo mô tả đựa trên các kỹ thuật phi tham số Tầm quan trọng của mỗi bài tập được đánh giá bằng cách so sánh từng cặp giá trị dựa trên kỹ thuật đánh giá phi tham số Còn đề dự đoán kiến thức thu được cho mỗi sinh viên, chúng tôi so sánh các mô hình hồi quy logistic cô điến với các mô hình phi tham số
Đề chọn ra mô hình tốt nhất giữa các mô hình đự đoán ở trên, chúng tôi sử dụng ma
trận nhằm lẫn đề phân tích
12