Luận văn thạc sĩ Khoa học máy tính: Xác định hành vi học tập thông qua phân tích dữ liệu trên hệ thống học tập trực tuyến

NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu các kiến thức và các nghiên cứu liên quan đến việc khai phá và phân tích dữ liệu và thông tin được thu thập trong quá trình dạy và học ; - Khảo sát ng

Trang 2

Cán bộ hướng dẫn khoa học 1: TS Lê Thanh Vân

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1 TS Nguyễn Đức Dũng (Chủ tịch)

2 TS Nguyễn Tiến Thịnh (Thư ký)

3 TS Trang Hồng Sơn (Phản biện 1)

4 TS Lê Thị Thủy (Phản biện 2)

5 PGS.TS Huỳnh Tường Nguyên (Ủy viên)

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).

VÀ KỸ THUẬT MÁY TÍNH

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: TRẦN HUY MSHV: 2170537

Ngày, tháng, năm sinh: 01/04/1999 Nơi sinh: Quảng Ngãi Chuyên ngành: Khoa học Máy tính Mã số : 8480101

I TÊN ĐỀ TÀI: XÁC ĐỊNH HÀNH VI HỌC TẬP THÔNG QUA PHÂN TÍCH DỮ LIỆU TRÊN HỆ THÔNG HỌC TẬP TRỰC TUYẾN

DETERMINING LEARNING BEHAVIOR THROUGH DATA ANALYSIS ON

AN ONLINE LEARNING SYSTEM

II NHIỆM VỤ VÀ NỘI DUNG:

- Tìm hiểu các kiến thức và các nghiên cứu liên quan đến việc khai phá và phân tích

dữ liệu và thông tin được thu thập trong quá trình dạy và học ;

- Khảo sát ngân hàng đề về lập trình có sẵn và đã triển khai trong nhiều năm ;

- Thực hiện thử nghiệm các mô hình giảng dạy mới và thu thập dữ liệu dạy và học

thực tế từ các khóa học được triển khai trên nền tảng học tập trực tuyến;

- Phân tích dữ liệu thu thập nhằm xác định các nhóm người học có năng lực khác

nhau, phân loại hành vi học tập trong thực hành lập trình và xác định mối liên hệ giữa chúng

III NGÀY GIAO NHIỆM VỤ: 06/02/2023

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 11/06/2023

V CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): TS Lê Thanh Vân,

PGS.TS Huỳnh Tường Nguyên

Trang 4

Để hoàn thành được bài Luận văn Thạc sĩ này, tôi xin bày tỏ sự cảm kích đặc biệt tới các cốvấn của tôi, Tiến sĩ Lê Thanh Vân và Phó giáo sư Tiến sĩ Huỳnh Tường Nguyên - Những người

đã định hướng, trực tiếp dẫn dắt và cố vấn cho tôi trong suốt thời gian thực hiện đề tài nghiêncứu khoa học Tôi xin gửi lời cảm ơn đến các thầy cô bằng tất cả tấm lòng và sự biết ơn củamình

Xin chân thành cảm ơn tất cả mọi người!

Tp HCM, ngày 10 tháng 08 năm 2023

Học viênTrần Huy

Trang 5

Luận văn này tập trung vào việc triển khai và đánh giá một mô hình giảng dạy mới trongmột môi trường học trực tuyến, nhằm thu thập thông tin từ người học để phân tích và phân nhómcác hành vi học tập của họ Bằng cách thu thập dữ liệu từ hệ thống học trực tuyến, giáo viên cóthể có cái nhìn sâu sắc hơn về hành vi của người học và tạo ra một môi trường học tập linh hoạt

và đa dạng hơn Luận văn bao gồm việc xem xét các nghiên cứu hiện có và kiểm tra một ngânhàng câu hỏi lập trình Nó cũng liên quan đến việc triển khai và đánh giá mô hình lớp học đảongược, cùng việc thu thập và phân tích dữ liệu về hành vi học tập của người học Bằng cách hiểu

rõ hành vi học tập của từng cá nhân học viên, giáo viên có thể tùy chỉnh phương pháp giảng dạycho các nhóm học viên khác nhau và tạo ra một môi trường học tập linh hoạt

Các từ khóa: Hành vi học tập, Hệ thống quản lý học tập, Lớp học đảo ngược, Khai phá dữ

liệu giáo dục, Phương pháp đánh giá, k-means, OPTICS, Phân loại Naive Bayes

Trang 6

This thesis delves into the implementation and evaluation of a novel teaching model in anonline learning environment, aimed at collecting learner information to analyze and group theirlearning behaviors By gathering data from online learning systems, teachers can gain deeperinsights into learners’ behaviors and create a more flexible and diverse learning environment.The thesis encompasses a review of existing research and an examination of a programmingquestion bank It also involves the implementation, and evaluation of the flipped classroommodel, along with the collection and analysis of data on learners’ behaviors By understandingindividual learner behaviors, teachers can tailor their instruction to different learner groups andcreate a dynamic and inclusive learning environment.

Keywords: Learning behavior, Learning Management System, Flipped classroom,

Educa-tional data mining, Assessments, k-means, OPTICS, Naive Bayes Classification

Trang 7

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của TS.

Lê Thanh Vân và PGS TS Huỳnh Tường Nguyên Nội dung nghiên cứu và các kết quả đều làtrung thực và chưa từng được công bố trước đây Các nội dung nghiên cứu trình bày trong đây

đa phần là tôi tự tìm hiểu, phân tích và tổng hợp Tôi cũng có sử dụng một số nhận xét, đánh giá

và số liệu của các tác giả khác, cơ quan tổ chức khác Tất cả đều có trích dẫn và chú thích nguồngốc Nếu phát hiện có bất kỳ sự gian lận nào, tôi xin hoàn toàn chịu trách nhiệm, trường Đại họcBách Khoa - ĐHQG Tp.HCM không liên quan đến những vi phạm tác quyền, bản quyền do tôigây ra trong quá trình thực hiện

Tp HCM, ngày 10 tháng 08 năm 2023

Học viênTrần Huy

Trang 8

1 Giới thiệu 1

1.1 Động cơ nghiên cứu 1

1.2 Mục tiêu nghiên cứu 2

1.3 Đối tượng nghiên cứu 2

1.4 Giới hạn nghiên cứu 3

1.5 Phương pháp nghiên cứu 3

1.6 Ý nghĩa của đề tài 4

1.7 Cấu trúc của luận văn 4

2 Kiến thức nền tảng 6 2.1 Các phương pháp giảng dạy và đánh giá 6

2.1.1 Phương pháp giảng dạy thực hành lập trình 6

2.1.2 Phương pháp lớp học đảo ngược 7

2.1.3 Các phương pháp đánh giá 7

2.2 Đánh giá độ khó của câu hỏi trong ngân hàng câu hỏi 8

2.3 Thu thập, phân tích và khai phá dữ liệu trong giáo dục 9

2.3.1 Giải thuật k-means 11

2.3.2 Gom cụm và phân loại nhiễu sử dụng DBSCAN và OPTICS 11

2.3.3 Thuật toán phân loại Naive Bayes 12

2.4 Kết chương 14

3 Khảo sát ngân hàng câu hỏi lập trình và năng lực người học 15 3.1 Phân loại độ khó cho câu hỏi lập trình dựa trên năng lực của người học 15

3.1.1 Công thức liên quan đến độ khó 15

3.1.2 Nhận xét về các công thức liên quan đến độ khó 17

3.1.3 Phương pháp tiếp cận 18

3.1.4 Các mô hình để xác định độ khó của câu hỏi 18

3.1.5 Phương pháp gán độ khó cho các cụm 19

3.1.6 Kết quả phân cụm 19

Trang 9

3.2.2 Quy trình liên tục cải tiến đề xuất 25

3.2.3 Thiết lập thực nghiệm 28

3.2.4 Kết quả và thảo luận 30

4 Thiết kế mô hình giảng dạy và xác định hành vi người học 37 4.1 Thiết kế mô hình giảng dạy 37

4.1.1 Áp dụng lớp học đảo ngược trong việc giảng dạy lập trình thực hành 37

4.1.2 Thu thập dữ liệu 37

4.1.3 So sánh lớp học truyền thống, lớp học đảo ngược, và lớp học đảo ngược trong khóa học lập trình thực hành 38

4.1.4 Hiệu quả của việc áp dụng lớp học đảo ngược trong khóa học lập trình thực hành 41

4.1.5 Phân tích dữ liệu Prelab và Inlab 45

4.2 Xác định hành vi học tập trong mô hình giảng dạy 48

4.2.1 Phân tích hành vi học tập của các nhóm người học 48 4.2.2 Tiềm năng dự đoán kết quả học tập của người học từ hành vi thu thập 53

Trang 10

2.1 Các yếu tố liên quan đến việc mô tả mức độ khó của câu hỏi 9

3.1 Bảng tổng kết các công thức liên quan đến độ khó 17

3.2 Bảng thể hiện mức độ ảnh hưởng của các yếu tố trong mỗi công thức xác định độ khó câu hỏi lập trình 18

3.3 Điểm Silhouette của các mô hình 19

3.4 Kết quả phân loại của môn học KTLT 20

3.5 Kết quả phân loại của môn học CTDL&GT 21

3.6 Độ giống nhau và độ tương tự của các kết quả phân loại 22

3.7 Nội dung các chủ đề 29

3.8 Thông tin của tập dữ liệu Lab với 671 người học 29

3.9 Thông tin của tập dữ liệu Exam với 634 người học 29

3.10 Kết quả phân cụm với (min_samples = 3) 31

3.11 Lấy mẫu một số sinh viên từ các ngoại lệ (xuất hiện trong nhiều hơn 1 ma trận gom cụm) 36

4.1 Bảng kết quả điểm lab 38

4.2 Bảng so sánh lớp học truyền thống, lớp học đảo ngược, và lớp học đảo ngược trong khóa học lập trình thực hành 40

4.3 Thời gian của sinh viên dành cho mỗi bài học lab 42

4.4 Tỷ lệ của các nhóm sinh viên đạt kết quả trong Inlabs 45

4.5 Phân tích mối tương quan giữa các yếu tố của Prelab và Inlab 47

4.6 Kết quả phân loại sử dụng Naive Bayes Classification 48

4.7 Kết quả làm bài Prelab của các sinh viên chỉ làm trong 1 ngày 50

4.8 Bảng giao thoa hành vi của sinh viên trong nhiều bài Prelab theo từng nhóm Early, On và Late 51 4.9 Bảng thống kê kết quả của các sinh viên đặc trưng của nhóm Early, On và Late 52

Trang 11

2.1 Sự khác biệt giữa giải thuật DBSCAN and OPTICS 12

3.1 Sơ đồ quy trình cải tiến học liệu được đề xuất 26

3.2 Kế hoạch giảng dạy môn DSA dưới góc nhìn đánh giá quá trinh đánh giá tổng kết 28 3.3 Histogram số lượng học sinh trong mỗi cụm 32

3.4 Histogram về độ vênh của các chủ đề liên quan đến kỳ thi giữa kỳ 33

3.5 Histogram về độ vênh của các chủ đề liên quan đến kỳ thi cuối kỳ 34

3.6 Phân phối các lần xuất hiện nhiễu 36

4.1 Phân bố điểm lab 39

4.2 Mô tả quá trình phát triển của người học 42

4.3 Phổ điểm kết quả làm bài Inlab của nhóm sinh viên không hoàn thành Prelab và hoàn thành Prelab 44

4.4 Histogram về số lượng sinh viên hoàn thành các câu hỏi trong 1 ngày 49

4.5 Histogram về số lượng sinh viên hoàn thành các bài Prelab trong 1 ngày 49

Trang 12

Chương 1

Giới thiệu

1.1 Động cơ nghiên cứu

Hiện nay, giáo dục không còn đơn thuần là quá trình giảng dạy và học tập ở trường lớp Nhờvào sự phát triển mạnh mẽ của Internet, việc dạy và học có thể được thực hiện ở khắp mọi nơi[1] Người học khi tham gia khóa học trực tuyến có thể truy cập tất cả các tài liệu cần thiết choviệc học (bao gồm slide, video, v.v ) và thậm chí làm các bài tập, bài kiểm tra Về phần giảngdạy, ngoài việc có thể cung cấp học liệu gần như không giới hạn, người dạy còn có thể quan sát

và đánh giá quá trình học tập của người học thông qua các bài kiểm tra

Những nền tảng dạy và học trực tuyến như trên, thường được gọi là hệ thống giáo dục learning, ngày càng trở nên phổ biến hơn trong các trường học, đặc biệt là trong các trường Đạihọc [2] Trường Đại học là nơi luôn yêu cầu người học về tính tự giác trong học tập để ngườihọc tự khai phá được giới hạn của bản thân, không bị bó buộc vào thời gian học tập trên lớp.Nhờ môi trường học tập trực tuyến, người học có thể xem trước tài liệu học tập ở nhà, hay làmnhững bài tập bất cứ lúc nào mà không phụ thuộc vào thời gian lên lớp Nhìn chung, quá trìnhdạy và học sẽ trở nên hiệu quả hơn khi áp dụng E-learning vào môi trường giáo dục

e-Nhận thấy tính hiệu quả của nền tảng học tập trên, vào năm 2007, trường Đại học Bách Khoa

- ĐHQG TP.HCM đã triển khai hệ thống một e-learning để phục vụ cho sự tương tác giữa ngườidạy và người học Bên cạnh đó, Khoa Khoa học và Kỹ thuật Máy tính (CSE) của Trường Đạihọc Bách Khoa Thành phố Hồ Chí Minh (ĐHBK) đã phát triển và triển khai Hệ thống chấmđiểm tự động (AGS) bắt đầu từ Học kỳ 1 năm 2019 Kế đến, từ những năm học 2020 trở về sau,Khoa Khoa học và Kỹ thuật Máy tính đã áp dụng tiện ích CodeRunner nhằm giảng dạy các câuhỏi lập trình trên hệ thống Bách Khoa e-learning (dưới nền tảng Moodle)

Thông qua việc triển khai giảng dạy trên các hệ thống e-learning, dữ liệu thu thập từ các nềntảng này là càng ngày càng lớn, càng khổng lồ Với một lượng dữ liệu lớn như vậy, không dễdàng để hiểu được thành tích học tập của người học chỉ bằng cách đọc lướt qua hoặc thực hiệnphân tích thủ công Do đó, cần có một công cụ Khai phá dữ liệu giáo dục (Educational Data

Trang 13

Mining - EDM) để khám phá dữ liệu giáo dục và hiểu cách người học học tập [3], từ đó đề xuấtcác phương pháp cá nhân hóa để giúp người học đạt được kế hoạch học tập tốt hơn EDM là mộtlĩnh vực tương đối mới, nổi lên từ việc áp dụng các kỹ thuật khai phá dữ liệu vào dữ liệu giáodục [4] Theo [5], nghiên cứu EDM bao gồm bốn hướng chính: dự đoán thành tích học tập củangười học, cung cấp hỗ trợ quyết định cho giảng viên và người học dựa trên kết quả phân tích,phát hiện tiến độ học tập của người học và tối ưu hóa thuật toán khai phá dữ liệu cho dữ liệugiáo dục Trong Luận văn này, học viên tập trung đặc biệt vào hướng hỗ trợ quyết định, cungcấp cho giảng viên những hiểu biết về hành vi của người học thông qua dữ liệu thu thập từ khóahọc thực hành lập trình.

Nhận thấy được tiềm năng trên, học viên đề xuất đề tài Xác định hành vi học tập thông qua phân tích dữ liệu trên hệ thống học tập trực tuyến Cụ thể, học viên sẽ khai phá và phân tích

dữ liệu thu thập từ hệ thống e-learning của trường Đại học Bách Khoa - ĐHQG TP.HCM và hệthống hỗ trợ thực hành lập trình AGS nhằm đánh giá ngân hàng câu hỏi, mô hình giảng dạy Từ

đó, Luận văn sẽ đưa ra các gợi ý về hành vi học tập của người học dựa trên mô hình giảng dạy

đề xuất

1.2 Mục tiêu nghiên cứu

Trong đề tài luận văn này, học viên cần:

• Tìm hiểu các nghiên cứu liên quan đến việc khai phá và phân tích dữ liệu và thông tinđược thu thập trong quá trình dạy và học;

• Khảo sát ngân hàng đề về lập trình có sẵn và đã triển khai trong nhiều năm, từ đó, xácđịnh mức độ khó của các câu hỏi lập trình và các chủ đề lập trình liên quan;

• Thực hiện thử nghiệm các mô hình giảng dạy mới và đề xuất các cách thu thập dữ liệudạy và học thực tế từ các khóa học được triển khai trên nền tảng hỗ trợ quản lý học liệu

và cho phép tương tác giữa người dạy và người học (LMS);

• Phân tích dữ liệu thu thập nhằm xác định các nhóm người học có năng lực khác nhau,phân loại hành vi học tập trong thực hành lập trình và xác định mối liên hệ giữa chúng(nhóm sinh viên và loại hành vi học tập)

1.3 Đối tượng nghiên cứu

Đối tượng nghiên cứu chính trong đề tài bao gồm các đối tượng liên quan đến:

• Môn học Kỹ thuật lập trình, Cấu trúc dữ liệu và giải thuật bao gồm các câu hỏi lập trìnhtrong ngân hàng đề cũng như bài tập lớn được triển khai

Trang 14

• Người học: nhóm đối tượng tham gia quá trình học lập trình có sử dụng hệ thống LMS.

• Kết quả làm bài của người học: dữ liệu làm bài của người học thu thập được từ hệ thốngLMS

1.4 Giới hạn nghiên cứu

Về giới hạn của Luận văn Thạc sĩ này, phạm vi nghiên cứu được tập trung cụ thể, bao gồmnhư sau:

• Dữ liệu mà đề tài này sử dụng là tập hợp kết quả bài nộp của sinh viên từ các câu hỏi lậptrình ngắn, được thu thập từ các khóa học lập trình cơ bản bao gồm các lớp học lý thuyết

và thực hành cho các môn: Kỹ thuật lập trình, Cấu trúc dữ liệu & giải thuật, v.v do KhoaKhoa học và Kỹ thuật Máy tính, trường Đại học Bách Khoa - ĐHQG TP.HCM giảng dạy

• Kết quả làm bài của người học là điểm của các lần làm bài của người học, không bao gồm

mã nguồn của người học

• Mô hình dạy và học được định hướng là "mới" trong khuôn khổ luận văn này chỉ là liênquan đến mô hình lớp học đảo ngược (flipped classroom) mà gần đây đang được côngđồng giảng dạy trong nước kêu gọi nghiên cứu và ứng dụng triển khai

1.5 Phương pháp nghiên cứu

Một số phương pháp được đề xuất sử dụng nhằm thực hiện công việc nghiên cứu trong luậnvăn này bao gồm:

• Phương pháp nghiên cứu lý thuyết: dựa trên tổng hợp các tài liệu nghiên cứu có liên quanđến dạy và học trên môi trường số, bao gồm các công bố trên các tạp chí, hội nghị đã công

đề xuất mô hình giảng dạy mới theo dạng lớp học đảo ngược (chi tiết được mô tả trongChương 2 và Chương 4)

Trang 15

• Phương pháp phân tích và tổng kết kinh nghiệm: mô hình đề xuất được thử nghiệm vàlàm cơ sở để đánh giá thông qua sử dụng các phương pháp đánh giá về tính khả thi, vềtính đúng đắn, về mức độ hiệu quả khi áp dụng thực tiễn.

• Phương pháp điều tra: thiết kế thu thập dữ liệu trên môi trường số để tìm hiểu đặc điểmcủa nhóm người học (phát hiện ra hoặc phân nhóm người học theo năng lực, các định vàphân loại hành vi học tập của người học trong quá trình học thực hành lập trình); từ đó,xác định mối quan hệ giữa nhóm sinh viên và loại hành vi học tập

1.6 Ý nghĩa của đề tài

Theo xu hướng Chuyển đối số gần đây ở trong nước và trên thế giới, việc thu thập và phântích dữ liệu là cần thiết để có hiểu biết về các đối tượng liên quan đang tương tác trong hệ thống.Đối với lĩnh vực giáo dục, điều này cực kỳ quan trong khi người dạy và các cơ quan, đơn vị quản

lý chương trình đào tạo có hiểu biết ngày càng rõ về người học (theo khái niệm "lấy người họclàm trung tâm") Trong khuôn khổ của đề tài luận văn thạc sĩ, học viên cần đề xuất thử nghiệmtriển khai mô hình giảng dạy mới trên môi trường số đang được sử dụng mà có khả năng thuthập thông tin từ người học nhằm phân nhóm người học và phân loại các hành vi học tập.Xét về mặt khoa học, luận văn có đóng góp để làm rõ giá trị của mô hình giảng dạy lớp họcđảo ngược, đặc biệt là trong quá trình giảng dạy thực hành lập trình Việc thu thập số liệu từ hệthống quản lý học liệu trực tuyến và từ đó phần nhóm người học và hành vi người học cũng làmột đóng góp quan trọng về khoa học, đặc biệt là một minh họa cho việc số hóa

Xét về mặt thực tiễn, kết quả của luận văn cho thấy được tiềm năng của việc chuyển đổi số,đặc biệt là trong lĩnh vực giáo dục Điều này không những hỗ trợ các giảng viên hiểu biết ngườihọc hơn mà còn giúp người học có môi trường học tập mở và có nhiều điều kiện học tập cũngnhư nhiều chọn lựa học tập phù hợp trong tương lai

1.7 Cấu trúc của luận văn

Nhằm làm rõ công sức thực hiện trong luận văn này, báo cáo sẽ bao gồm các chương có nộidung chính như sau:

• Chương 1 - Giới thiệu đề tài: chương này trình bày về tổng quan vấn đề cần phải nghiêncứu, trong đó bao gồm động cơ thực hiện đề tài, nhiệm vụ/mục tiêu nghiên cứu, đối tượng

và phạm vi nghiên cứu, và các tác động từ kết quả thu được thông qua đề tài

• Chương 2 - Các nghiên cứu liên quan: chương này sẽ tổng hợp các nghiên cứu liên quan,phân tích và tổng hợp các công trình, các kết quả liên quan; được chia thành ba: cácphương pháp giảng dạy và đánh giá trong môi trường giáo dục đại học, các nghiên cứu về

Trang 16

đánh giá độ khó câu hỏi lập trình trong ngân hàng đề, và các nghiên cứu về khai phá dữliệu giáo dục.

• Chương 3 - Khảo sát ngân hàng câu hỏi lập trình và năng lực người học: dựa trên cácnghiên cứu về đánh giá độ khó của câu hỏi, chương này sẽ đánh giá ngân hàng bài tập đãtriển khai nhiều học kỳ Từ đó, phát hiện một số nội dung còn thiếu và đánh giá mức độkhó giữa các chủ đề được giảng dạy trong cùng môn học

• Chương 4 - Thiết kế mô hình giảng dạy và xác định hành vi người học: thông qua việctriển khai mô hình giảng dạy thử nghiệm, chương này thu thập các dữ liệu và tiến hànhphân tích dữ liệu nhằm xác định các hành vi học tập của người học cũng như độ hiệu quảcủa mô hình giảng dạy triển khai Từ đó, thực hiện đánh giá ý nghĩa của việc phân loạihành vi học tập lập trình

• Chương 5 - Tổng kết: đánh giá lại toàn bộ các kết quả mà đề tài đã thực hiện và đạt được,chỉ ra những khó khăn trong quá trình thực hiện cũng như các giới hạn của kết quả, và từ

đó đề xuất những hướng phát triển tiếp theo

Trang 17

Chương 2

Kiến thức nền tảng

Trong chương này, một số nghiên cứu liên quan được trình bày bao gồm các nội dung liênquan đến việc giảng dạy, đánh giá nội dung học liệu và các kỹ thuật khai phá trên bộ dữ liệuthu thập Liên quan đến việc giảng dạy, chương này sẽ giới thiệu về một số phương pháp giảngdạy thực hành lập trình , đặc biệt là phương pháp giảng dạy đảo ngược (flipped classroom); vàcác phương pháp đánh giá trong quá trình giảng dạy như là đánh giá quá trình học (formativeassessment) và đánh giá tổng kết (summative assessment) Đối với việc đánh giá nội dung họcliệu, chương này trình bày về một số công thức xác định độ khó của câu hỏi trong ngân hàng

đề có sẵn dựa trên dữ liệu thu thập kết quả làm bài của người học trong những học kỳ trước đó.Một số kỹ thuật khai phá trên bộ dữ liệu thu thập được dùng trong khuôn khổ luận văn cũng sẽđược giới thiệu trong chương này

2.1 Các phương pháp giảng dạy và đánh giá

2.1.1 Phương pháp giảng dạy thực hành lập trình

Dạy lập trình ngày càng quan trọng trong thời đại công nghiệp 4.0, nơi kỹ năng lập trìnhđược đánh giá cao trong nhiều ngành công nghiệp khác nhau Tuy nhiên, việc học lập trìnhkhông phải là một nhiệm vụ dễ dàng [6] Các nghiên cứu [7,8] nhấn mạnh sự cần thiết của việcgiảng dạy lập trình để phát triển các kỹ năng tư duy, bao gồm lập luận logic, giải quyết vấn đềtheo thuật toán và tư duy tính toán

Sau khi nghe giảng lý thuyết trên lớp học, sinh viên được yêu cầu tham gia vào các buổithực hành lập trình để làm quen với việc lập trình Trong suốt các buổi thực hành này, sinh viênđược luyện tập với các bài tập cơ bản khác nhau để củng cố hiểu biết về các khái niệm lập trình

và nâng cao khả năng giải quyết vấn đề của mình Bên cạnh đó, các giảng viên cũng giao chohọc sinh các bài tập lớn để họ áp dụng kiến thức và kỹ năng vào việc xây dựng ứng dụng hoặc

hệ thống lớn Từ đó, tạo điều kiện cho sinh viên làm việc nhóm và trải nghiệm quy trình phát

Trang 18

triển phần mềm.

Trong đề tài này, học viên và nhóm nghiên cứu đã triển khai các bài tập lập trình thực hành

sử dụng hệ thống quản lý học tập Moodle [9] Moodle là một nền tảng mã nguồn mở cho phépcác cơ sở giáo dục cung cấp khóa học và quản lý hoạt động học trực tuyến Bằng cách sử dụngMoodle, giảng viên có thể tạo ra các khóa học trực tuyến bổ sung cho việc giảng dạy ngoạituyến bằng cách đăng tải tài liệu học tập, video đã được ghi trước, bài kiểm tra và nhiều hơnnữa Các bài kiểm tra triển khai trên hệ thống Moodle chủ yếu bao gồm câu hỏi trắc nghiệm,câu trả lời ngắn và ánh xạ Để cung cấp một môi trường học lập trình tập trung vào việc thựchành lập trình, nghiên cứu này sử dụng plugin CodeRunner [10] để triển khai các bài tập lậptrình trong hệ thống Moodle

2.1.2 Phương pháp lớp học đảo ngược

Theo định nghĩa, Flipped Classroom là một mô hình giáo dục trong đó học viên tự học nộidung mới độc lập bên ngoài lớp và sử dụng thời gian lớp học để tham gia vào các hoạt độngtương tác, như thảo luận, giải quyết vấn đề và các bài tập thực hành [11] Flipped classroom

là một mô hình phân phối đảo ngược, trong đó các yếu tố bài giảng truyền thống và bài tập vềnhà được đảo ngược Trước buổi học, học viên được yêu cầu xem trước hướng dẫn, xem các bàigiảng video ngắn, hoàn thành các bài kiểm tra và tham gia vào các cuộc thảo luận trên diễn đàn[12] Trong khi đó, thời gian lớp học được dành cho các bài tập, dự án, điều tra sâu về những bàigiảng đã xem trước và tham gia vào các hoạt động thực tế, trong khi giảng viên đánh giá việc

áp dụng kiến thức của học viên Hình

Phương pháp này mang lại sự linh hoạt và tự điều chỉnh cao hơn cho sinh viên Người học

có thể học theo tốc độ của mình và tự quản lý quá trình học tập Ngoài ra, mô hình lớp học đảongược đảm bảo việc tiếp cận tốt hơn đến tài liệu học tập, cung cấp cho sinh viên một loạt tàiliệu hỗ trợ học tập Một lợi thế khác là tăng cường sự tương tác và tham gia trong các buổi họctrực tiếp Bằng cách giảng dạy kiến thức cơ bản qua các hoạt động trước lớp, thời gian lớp học

có thể được dành cho những hoạt động học tập sôi nổi và sâu sắc hơn Điều này thúc đẩy cáccuộc thảo luận có ý nghĩa, giải quyết vấn đề kết nối sinh viên và tạo ra một môi trường học tậpsôi động

2.1.3 Các phương pháp đánh giá

Đánh giá kết quả học tập của người học là một phần không thể thiếu trong quá trình giảngdạy nói chung và giảng dạy đại học nói riêng Các phương pháp đánh giá cần được tiến hànhtrong quá trình học tập để đánh giá kết quả của kiến thức đã được nắm bắt sau một thời gianhọc Các đánh giá về kiến thức đã nắm bắt, còn được gọi là đánh giá tổng kết, thường được tổchức vào vào giữa và cuối học kỳ Nếu các đánh giá này được thiết kế và phát triển tốt thì sẽ hỗ

Trang 19

trợ quá trình học tập của sinh viên thông qua việc trở nên dễ tiếp cận hơn và cũng đầy thách thứchơn [13] Các nghiên cứu trước đây chia đánh giá thành hai loại: đánh giá quá trình (formativeassessment) và đánh giá tổng kết (summative assessment).

2.1.3.1 Đánh giá quá trình

Đánh giá quá trình là một phương pháp trong đó giảng viên thu thập các minh chứng về quátrình học tập của sinh viên [14], thường được gọi là đánh giá trên lớp hoặc đánh giá của giảngviên [15], sau đó điều chỉnh phần hướng dẫn hoặc phản hồi tiếp theo dựa trên minh chứng đã có

để đáp ứng nhu cầu học tập của sinh viên Đánh giá quá trình thường được xem là đánh giá choquá trình học tập [16] vì mục đích của nó là cải thiện việc giảng dạy và học tập cũng như pháthiện các khó khăn mà sinh viên có thể gặp phải trong quá trình học tập [17]

2.1.3.2 Đánh giá tổng kết

Đánh giá tổng kết, ngược lại với đánh giá quá trình, được định nghĩa là các đánh giá tíchlũy nhằm ghi lại những gì sinh viên đã học được, hoặc chất lượng của việc học tập, và đánh giáthành tích học tập của sinh viên với một số tiêu chuẩn nhất định [13] Do đó, các đánh giá tổngkết thường được định nghĩa là đánh giá dựa trên chuẩn đầu ra, được sử dụng để đưa ra quyếtđịnh về việc xếp lớp hoặc thăng hạng [15,17]

Hệ quả là, trong một khóa học thông thường, giảng viên sẽ giao các bài kiểm tra ngắn đểthu thập kiến thức và phản hồi từ sinh viên Dựa trên các kết quả này, các bài kiểm tra định kỳnhư giữa kỳ hoặc cuối kỳ được thiết kế bằng việc quan sát quá trình học tập đang diễn ra vàchuẩn đầu ra môn học Nói cách khác, sự tương ứng giữa kết quả đánh giá quá trình và đánhgiá tổng kết của sinh viên được mong đợi Các nghiên cứu cho thấy rằng việc đánh giá có thểkhông phản ánh mức độ tiếp thu của người học đối với môn học được giảng dạy [18] Hơn nữa,việc cân bằng giữa các đánh giá quá trình và đánh giá tổng kết được xem là một vấn đề khó, ảnhhưởng đến chất lượng đánh giá và quá trình học tập của sinh viên [15]

2.2 Đánh giá độ khó của câu hỏi trong ngân hàng câu hỏi

Điểm trung bình là một yếu tố thông thường được sử dụng để đánh giá độ khó của câu hỏi

Ví dụ, tác giả Simon và cộng sự chỉ sử dụng điểm trung bình của học sinh để đo độ khó của cáccâu hỏi trong kỳ thi lập trình [19] Ngoài ra, tỷ lệ giữa điểm số của học sinh và số lượng họcsinh được đề xuất bởi nhóm nghiên cứu của Mahatme để phân loại câu hỏi trong nghiên cứumôi trường học trực tuyến [20]

Các yếu tố khác cũng được xem xét để mô tả độ khó của câu hỏi Khi dự đoán thành tíchhọc sinh bằng cách sử dụng dữ liệu từ hệ thống Auto-grading, các tác giả trong [21] chọn bốnđặc trưng: tỷ lệ qua môn của bài nộp tốt nhất, kết quả thử nghiệm từng trường hợp của bài nộp

Trang 20

tốt nhất, khoảng thời gian giữa thời điểm nộp bài và hạn chót nhiệm vụ, và số lần nộp bài chocác nhiệm vụ phân loại và hồi quy Trong [22], độ khó cũng được coi là tỉ lệ thuận với tổng sốlần thử làm bài cho một bài toán đặt ra Vào năm 2018, Awat và các cộng sự đã thực hiện phântích mục tiêu bằng cách sử dụng kết quả kỳ thi của học sinh [23] Một trong các quy trình trongviệc thực hiện phân tích mục tiêu là xác định mức độ khó của một mục tiêu Mức độ khó củamục tiêu (câu hỏi) được xác định là số học sinh đúng chia cho tổng số học sinh.

Với mục tiêu ước tính độ khó của các bài tập lập trình, trong số thông tin được trích xuất từ

bộ dữ liệu, Chowdhury và các cộng sự đã nghiên cứu việc phân cụm bằng cách chọn số lượnghọc sinh đạt qua, số lượng bài nộp đạt qua và nhiều yếu tố khác như đặc trưng cho phân cụm[24]

Bảng 2.1 liệt kê năm yếu tố liên quan đến độ khó cùng các tài liệu tham khảo mô tả thôngtin chi tiết liên quan Năm yếu tố này sẽ được dùng trong khuôn khổ nghiên cứu luận văn Thạc

sĩ này

Bảng 2.1: Các yếu tố liên quan đến việc mô tả mức độ khó của câu hỏi

Yếu tố Tài liệu tham khảo

Điểm trung bình [20],[19]

Số lượng học sinh đạt qua [23], [24]

Số lượng bài nộp đạt qua [24], [20]

Số lần nộp bài [21], [22]

2.3 Thu thập, phân tích và khai phá dữ liệu trong giáo dục

Khai phá dữ liệu giáo dục là công việc sử dụng các kỹ thuật khai phá dữ liệu trong môitrường giáo dục [25] Theo [3]:

"Khai phá dữ liệu giáo dục (Educational Data Mining - EDM) liên quan đến việc phát triển các phương pháp khám phá các loại dữ liệu đặc biệt từ môi trường giáo dục [ 25 ] Nó cũng có thể được định nghĩa là việc áp dụng các kỹ thuật khai phá dữ liệu (Data Mining - DM) cho loại dữ liệu cụ thể này từ môi trường giáo dục để giải quyết các câu hỏi giáo dục quan trọng [ 26 ]."

Về các đối tượng nghiên cứu, một trong những nhiệm vụ quan trọng của EDM là tập trungvào học viên trong một môi trường học tập hoặc trong quá trình hoạt động bằng cách nghiêncứu phản hồi, đánh giá và kết quả [27] Do đó, EDM cung cấp phân tích dữ liệu giúp học viên

và giảng viên cải thiện quá trình học tập và giảng dạy

Trang 21

Một literature review được tiến hành vào năm 2018 bởi [25] phân loại các ứng dụng EDMthành 11 nhiệm vụ: Phân tích và trực quan hóa dữ liệu; Cung cấp phản hồi hỗ trợ giảng viên;

Đề xuất cho học viên; Dự đoán thành tích của học viên; Xây dựng mô hình học viên; Phát hiệnhành vi không mong muốn của học viên; Nhóm học viên; Phân tích mạng xã hội; Xây dựng sơ

đồ khái niệm; Xây dựng tài liệu khóa học; Lập kế hoạch và lên lịch Một cách thống kê, các tácgiả trong [5] đã sắp xếp các chủ đề nghiên cứu chính của 777 tài liệu và đưa ra một bảng xếphạng, trong đó có 5 chủ đề hàng đầu: Dự đoán thành tích; Hỗ trợ quyết định cho giảng viên vàhọc viên; Phát hiện mô hình hành vi; So sánh hoặc tối ưu hóa thuật toán; Phân tích mô tả và dựđoán về việc nghỉ học

Từ một góc nhìn khác, dựa trên việc áp dụng các kỹ thuật khai phá dữ liệu, [28] chia tất cảcác nghiên cứu về khai phá dữ liệu giáo dục thành bốn danh mục chính: phân tích học tập được

hỗ trợ bởi máy tính (computer-supported learning analytics - CSLA), phân tích hành vi được hỗtrợ bởi máy tính (computer-supported behavioral analytics - CSBA) và phân tích trực quan hóađược hỗ trợ bởi máy tính (computer-supported visualization analytics - CSVA), dự đoán học tậpđược hỗ trợ bởi máy tính (computer-supported predictive analytics - CSPA)

Nghiên cứu về CSLA đề cập đến việc áp dụng các kỹ thuật khai phá dữ liệu cho tương táccủa học viên và hành vi học tập hợp tác của họ trong ngữ cảnh khóa học Bằng việc theo dõiliên tục các hoạt động học tập này, giảng viên có thể tùy chỉnh trải nghiệm học tập của học viên

để đáp ứng yêu cầu học tập của môn học Janssen và đồng nghiệp đã nghiên cứu tác động củaEDM đối với sự tham gia của học viên trong các buổi học Hỗ trợ Học tập Hợp tác trên Máy tính(Computer-Supported Collaborative Learning - CSCL) [29] Họ đã trực quan hóa những yếu tốnào giúp học viên tham gia nhiều hơn và giúp họ hợp tác tốt hơn trong CSCL

Một chiều khác được đề cập trong literature review là CSBA, liên quan đến tìm ra thông tinhay mô hình trong hành vi học tập của học viên Hung và Zhang sử dụng khai phá dữ liệu đểxác định các mô hình hành vi và sở thích học tập của học viên khi tham gia vào các hoạt độnghọc trực tuyến [30] Họ phát hiện rằng việc sử dụng EDM cải thiện trải nghiệm học tập của họcviên khi họ hợp tác từ xa

CSVA tập trung vào cách trực quan hóa dữ liệu giáo dục để làm nổi bật thông tin liên quan

và đưa ra quyết định thích hợp dựa trên dữ liệu Công cụ trực quan hóa dữ liệu có thể được sửdụng trong giáo dục đại học để đơn giản hóa dữ liệu phức tạp và theo dõi dữ liệu đa chiều vềhọc viên từ sự tương tác của họ với hệ thống giáo dục trực tuyến [31]

Cuối cùng, CSPA nhằm dự đoán thành tích và duy trì của học viên trong một khóa học cụthể dựa trên kết quả của các bài đánh giá Một ứng dụng cổ điển của danh mục này là xác địnhhọc viên có nguy cơ thất bại và cần sự chú ý đặc biệt Ví dụ, Bunkar và đồng nghiệp đã áp dụngkhai phá dữ liệu để dự đoán tỷ lệ học viên trượt và qua môn dựa trên điểm cuối kỳ của họ [32].Ngoài việc đánh giá quá trình học tập của học viên, dữ liệu được thu thập từ khai phá dữliệu cũng là một nguồn thông tin để xem xét và củng cố nội dung học tập Những công việc nàythuộc một phân nhóm trong chiều CSPA được gọi là đánh giá tài liệu học tập hoặc xây dựng tài

Trang 22

liệu khóa học Peji´c và Molcer cho biết EDM có thể giúp học viên xác định nhu cầu học tập củamình bằng cách điều chỉnh độ phức tạp của nhiệm vụ học tập [33].

2.3.1 Giải thuật k-means

Phân cụm (clustering algorithm) là một kỹ thuật gom nhóm các dữ liệu giống nhau ity) mà không bị ảnh hưởng bởi một mục đích cụ thể nào khác ngoài các điểm dữ liệu k-means

(similar-là một giải thuật phân cụm được xuất bản dưới dạng một bài báo trên tạp chí năm 1982

Giải thuật k-means thực hiện các bước chính như sau:

1 Chọn ngẫu nhiên K cluster centers

2 Với từng điểm dữ liệu, tính khoảng cách đến mỗi tâm và gán điểm dữ liệu vào cụm có tâmgần nhất

3 Tính toán lại tâm mới cho từng cụm bằng cách tính điểm trung bình của tất cả các điểmtrong cụm

4 Nếu điều kiện dừng chưa được thoả mãn thì quay lại bước (2)

Giải thuật sẽ dừng khi một điều kiện nào đó được thoả mãn Điều kiện dừng có thể là đãđạt số lần lặp tối đa, hoặc độ dịch chuyển của các tâm giữa 2 lần lặp liền kề thấp nhỏ hơn mộtngưỡng được định nghĩa

2.3.2 Gom cụm và phân loại nhiễu sử dụng DBSCAN và OPTICS

Các phương pháp phát hiện điểm nhiễu gồm có: clustering-based, classification-based, vàhybrid [34] Trong đó, clustering-based có 2 ưu điểm: 1) phân chia tập dữ liệu thành các nhómgồm các đối tượng tương tự nhau, và khác với các đối tượng trong các cluster khác; 2) có thểphát hiện ngoại lệ (outlier) mà không cần nhãn của từng nhóm - phù hợp với dữ liệu điểm hiệntại chưa có cách đánh nhãn phù hợp

Phương pháp density-based là một nhánh con của phương pháp clustering-based based liên quan đến việc tìm các vùng có mật độ cao trong dữ liệu và coi chúng như các cụm.Phương pháp dựa trên mật độ có một số ưu điểm: 1) tự động phát hiện số lượng cụm (các phươngpháp khác như k-means không làm được); 2) có thể làm việc với các điểm outlier; 3) phát hiệnnhiều cụm và điểm nhiễu [35]

Density-Hai phương pháp density-based phổ biến được sử dụng là DBSCAN và OPTICS

Cụm được xác định là các vùng dày đặc (dense regions) được phân tách bởi các vùng thưa(low dense regions) Thuật toán bắt đầu với một đối tượng tùy ý trong tập dữ liệu và kiểm tra

các đối tượng láng giềng trong một bán kính (eps) cho trước Nếu số lượng láng giềng trong

Trang 23

khoảng eps đó vượt quá số lượng đối tượng tối thiểu (minPts) yêu cầu cho một cụm, nó được

đánh dấu là một đối tượng trung tâm (core object) Ngược lại, nếu số lượng đối tượng trong

vùng xung quanh nằm trong khoảng eps cho trước ít hơn số lượng minPts yêu cầu, đối tượng

này được đánh dấu là nhiễu (noise) Nhược điểm của thuật toán này là nó phụ thuộc vào một

epscố định cho các cụm khác nhau [36] Do đó, nó có thể tạo ra dự đoán kém khi gặp phải cáccụm có khoảng cách khác nhau OPTICS là một mô hình cải thiện điểm yếu này Thay vì xác

định dựa trên khoảng cách cố định của eps, OPTICS xác định xem khoảng cách giữa hai điểm

có phù hợp hay không bằng cách so sánh khoảng cách đó với khoảng cách của từng cặp điểmtrong môi trường cục bộ

Hình 2.1 cho thấy OPTICS phát hiện ngoại lệ tốt hơn DBSCAN - một thuật toán phân cụmdựa trên mật độ

Hình 2.1: Sự khác biệt giữa giải thuật DBSCAN and OPTICS

2.3.3 Thuật toán phân loại Naive Bayes

Naive Bayes là một thuật toán phân loại phổ biến dựa trên Định lý Bayes, một khái niệm

cơ bản trong lý thuyết xác suất Thuật toán này được sử dụng rộng rãi trong các ứng dụng khácnhau như lọc thư rác, phân tích cảm xúc và phân loại văn bản Thuật toán Naive Bayes đặc biệthữu ích khi làm việc với dữ liệu có số chiều cao, vì nó có thể xử lý một lượng lớn các đặc trưngvới số lượng dữ liệu huấn luyện tương đối nhỏ

Thuật toán hoạt động bằng cách huấn luyện trên một tập dữ liệu được gán nhãn, trong đócác đặc trưng và lớp được biết đến Sau đó, nó sử dụng Định lý Bayes để tính toán xác suất củamỗi lớp dựa trên các đặc trưng đầu vào Lớp có xác suất cao nhất được chọn là lớp dự đoán

Trang 24

Định lý Bayes có thể được biểu diễn như sau:

P(c|x) = P(x|c) ∗ P(c)

P(x)Trong đó:

• P(c|x) là xác suất của lớp c dựa trên các đặc trưng đầu vào x

• P(x|c) là xác suất quan sát các đặc trưng đầu vào x dựa trên lớp c

• P(c) là xác suất tiên nghiệm của lớp c

• P(x) là xác suất tiên nghiệm của việc quan sát các đặc trưng đầu vào x

Thuật toán Naive Bayes đưa ra giả định "ngây thơ" rằng các đặc trưng độc lập có điều kiệntheo lớp Điều này có nghĩa là xác suất quan sát các đặc trưng đầu vào x dựa trên lớp c có thểđược tính như tích của các xác suất của từng đặc trưng riêng lẻ dựa trên lớp c:

P(x|c) = P(x1|c) ∗ P(x2|c) ∗ ∗ P(xn|c)Trong đó, xilà đặc trưng thứ i của x

Sử dụng giả định này, công thức để tính xác suất của lớp c dựa trên các đặc trưng đầu vào xtrở thành:

P(c|x) = P(x1|c) ∗ P(x2|c) ∗ ∗ P(xn|c) ∗ P(c)

P(x)Trong đó:

• xilà đặc trưng thứ i của x

• n là số lượng đặc trưng trong x

Đây là công thức được sử dụng bởi thuật toán Naive Bayes để thực hiện dự đoán

Một trong những ưu điểm quan trọng của Naive Bayes là tính đơn giản và hiệu quả Đây làmột thuật toán tương đối dễ triển khai và có thể cho ra kết quả nhanh chóng, ngay cả với tập dữliệu lớn Ngoài ra, nó cũng có thể hoạt động tốt ngay cả với các tập dữ liệu huấn luyện nhỏ.Tuy nhiên, giả định ngây thơ có thể dẫn đến kết quả không chính xác khi các đặc trưngkhông độc lập Ngoài ra, nó cũng có thể gặp khó khăn với các đặc trưng hiếm hoặc không đượcquan sát trước, vì nó gán xác suất bằng không cho bất kỳ đặc trưng nào không xuất hiện trongtập dữ liệu huấn luyện

Nhìn chung, Naive Bayes là một thuật toán đơn giản và hiệu quả có thể hiệu quả trong một

số ứng dụng, nhưng các hạn chế của nó nên được xem xét khi chọn thuật toán phân loại Quantrọng là đánh giá hiệu suất của Naive Bayes so với các thuật toán phân loại khác, như hồi quylogistic hoặc decision tree, để xác định phương pháp tốt nhất cho một vấn đề cụ thể

Trang 25

2.4 Kết chương

Chương này đã trình bày các nghiên cứu liên quan cần thiết, là kiến thức nền tảng phục vụcho các đề xuất trong các chương sau Trong đó, một số công thức xác định độ khó của câu hỏitrong ngân hàng đề có sẵn dựa trên dữ liệu thu thập kết quả làm bài của người học trong nhữnghọc kỳ trước đó, cũng như các phương pháp đánh giá trong quá trình giảng dạy góp phần hỗ trợcho các nghiên cứu và đóng góp trong Chương 3 liên quan đến việc khảo sát ngân hàng câu hỏilập trình và khảo sát năng lực người học

Việc giới thiệu về một số phương pháp giảng dạy thực hành lập trình, (đặc biệt là phươngpháp flipped classroom mà hiện nay đang được các giảng viên trong và ngoài nước quan tâm)

và các kỹ thuật phân tích dữ liệu được giới thiệu là cơ sở để đề xuất thiết kế mô hình giảng dạymới và xác định hành vi người học được nêu trong Chương 4

Trang 26

3.1.1 Công thức liên quan đến độ khó

Để dễ đọc, tất cả các từ sau bao gồm Điểm trung bình, Số sinh viên đạt, Số bài nộp đạt, Bài nộp tốt nhất, Số lần nộp bài sẽ được xem như là một yếu tố hoặc một tên công thức thay thế lẫn

nhau như đã được đề cập ở mục 2.2

Học viên đề xuất sử dụng 4 công thức sau để mô tả độ khó của câu hỏi lập trình và chúngđược xây dựng dựa trên kết quả nộp bài nhiều lần của sinh viên Bằng cách quan sát tất cả 4công thức, học viên hướng tới mục đích mô tả độ khó của các câu hỏi lập trình dựa trên kết quảcủa sinh viên Để tăng độ tin cậy cho luận văn của mình, học viên đồng thời so sánh các côngthức đó với công thức tính điểm trung bình, đây là công thức thường được sử dụng để xác địnhmức độ khó của các câu hỏi

a) Điểm trung bình

Điểm trung bình là một yếu tố được sử dụng rộng rãi để mô tả độ khó dưới dạng giá trịtrung bình của điểm số của sinh viên Vì các câu hỏi lập trình thường có nhiều lần nộp(để thử và sửa), điểm của một sinh viên cho một câu hỏi là giá trị trung bình của tất cảcác điểm bài nộp của sinh viên ấy, sau đó được chuẩn hóa thành phạm vi [0-1] dựa trênđiểm tối đa, cuối cùng tính giá trị trung bình cho toàn bộ sinh viên Công thức được phátbiểu là

F0= 1N

Trang 27

trong đó N là số sinh viên trả lời câu hỏi, Cilà số lần nộp bài của sinh viên thứ i, ci j là sốđiểm của lần nộp bài thứ j của sinh viên thứ i và Cmax là điểm tối đa của câu hỏi.

b) Số sinh viên đạt

Số sinh viên đạt là thông tin về số lượng sinh viên đã vượt qua câu hỏi Vì một câu hỏikhó sẽ có ít sinh viên tìm ra lời giải trong thời gian ngắn nên những sinh viên không cóbài nộp sẽ không được đưa vào công thức Sau đó, công thức được chuẩn hóa thành phạm

vi [0 − 1] Công thức được đề xuất là

đó, tỷ lệ giữa số bài nộp đạt trên tổng số bài nộp sẽ thấp Ngược lại, đối với câu hỏi dễ thì

số lượng bài nộp không đạt ít và kéo theo tỷ lệ cao Công thức được đề xuất là:

Trang 28

trực tiếp nên những sinh viên không vượt qua câu hỏi thường sẽ thay đổi code một chútngay trên hệ thống và nộp lại mà không kiểm tra kỹ trên IDE Cách làm này làm tăng sốlượng bài nộp nhưng không giúp cải thiện kỹ năng của sinh viên Hệ thống AGS có thểcung cấp và đáp ứng các điều kiện sau:

• Số lần nộp bài có hạn để người học thử và cẩn thận sửa mỗi lần nộp Việc cẩn thậngiúp dữ liệu phản ánh nỗ lực làm bài của sinh viên

• Số lượng câu hỏi đủ lớn để người học chuyển sang câu hỏi khác khi kết thúc mộtcâu hỏi

• Thời gian mở câu hỏi không quá dài để người học dành thời gian làm các câu hỏikhác nhau, không có quá nhiều thời gian để cứ làm cho một câu hỏi

Công thức được đề xuất là

F4= 1N

3.1.2 Nhận xét về các công thức liên quan đến độ khó

Bảng 3.1 tổng kết năm công thức được giới thiệu ở trên với các thông tin về khoảng giá trị

và tính chất của chúng

Bảng 3.1: Bảng tổng kết các công thức liên quan đến độ khó

Ký hiệu Tên công thức Khoảng giá trị Tính chất

Trang 29

• Nếu một yếu tố không được hiển thị trong công thức, mức độ đóng góp của nó là 0.

• Nếu công thức có liên quan đến yếu tố, thì phần đóng góp của yếu tố ở mức 1

• Nếu một yếu tố là một phần không thể tách rời của công thức, thì mức độ đóng góp của

Phần này mô tả các thí nghiệm và đánh giá để phân loại độ khó của câu hỏi Pandas tool

[37] giúp xử lý dữ liệu dạng bảng, được sử dụng để xử lý trước và tính toán các giá trị của công

thức cho mỗi câu hỏi Gói Scikit-learn [38] là một mô-đun Python tích hợp một loạt các thuậttoán học máy hiện đại cho các bài toán có giám sát và không được giám sát ở quy mô trung

bình Luận văn của học viên đã sử dụng thuật toán k -means từ Scikit-learn để phân cụm độ khó

của câu hỏi

Luận văn này đề xuất hai mô hình phân cụm để phân loại mức độ khó của các câu hỏi lậptrình thành ba mức độ dễ, trung bình và khó Kết quả phân cụm của hai mô hình sau đó sẽ đượcthống kê để đánh giá trong từng chủ đề lập trình

3.1.4 Các mô hình để xác định độ khó của câu hỏi

Luận văn này đề xuất hai mô hình phân cụm:

1 Mô hình 1: sử dụng k -means của scikit-learn với số lượng cụm là 3, các tham số khácđược để như mặc định Thông tin cho điểm đào tạo là một giá trị từ công thức F0

Trang 30

2 Mô hình 2: sử dụng k -means của scikit-learn với số lượng cụm là 3, các tham số khácđược để như mặc định Thông tin cho một điểm đào tạo là một vectơ gồm 4 giá trị <

F1, F2, F3, F4>

3.1.5 Phương pháp gán độ khó cho các cụm

Trong mô hình 1, sau khi phân cụm, chúng ta tìm thấy tâm của mỗi cụm được biểu diễnbằng một đại lượng vô hướng Theo thuộc tính của điểm trung bình trong Bảng 3.1: tâm có giátrị lớn nhất tương ứng với cụm dễ, tâm có giá trị nhỏ nhất tương ứng với cụm khó và tâm cuốicùng tương ứng với cụm trung bình

Trong mô hình 2, chúng ta cũng tìm thấy ba tâm này, nhưng được biểu diễn bởi một vectơbốn giá trị, không thể xác định mối quan hệ nhỏ hơn và lớn hơn giữa hai vectơ này Học viênđịnh nghĩa biến score là điểm số của một hoán vị của ba vectơ này và tiến hành các bước sau:

1 Tạo sáu hoán vị của ba vectơ 4 chiều

2 Với mọi vectơ liền kề, hãy xem xét tất cả các cặp giá trị thuộc cùng một công thức; nếu haigiá trị này thỏa mãn các thuộc tính trong Bảng 3.1 của công thức đó, thì hãy tăng scorelên 1, giả sử bạn cần sắp xếp các vectơ này với độ khó tăng dần

3 Chọn hoán vị có score cao nhất, gán các cụm tâm của hoán vị này với các mức độ dễ,trung bình và khó tương ứng

Cách gán cho mô hình 2 có thể không thành công nếu có nhiều hơn một hoán vị có cùngđiểm cao nhất, khi đó chúng ta không biết hoán vị nào để gán cụm Với dữ liệu thực nghiệm,chỉ có một hoán vị có điểm cao nhất và phân cụm đạt được

3.1.6 Kết quả phân cụm

Điểm Silhouette của mỗi mô hình là tương đối tốt (Bảng 3.3)

Bảng 3.3: Điểm Silhouette của các mô hình

Cấu trúc dữ liệu & Giải thuật 0.78 0.61

Kết quả phân nhóm của hai mô hình của hai khóa học được trình bày trong Bảng 3.4 vàBảng 3.5 Mỗi mức độ dễ, trung bình và khó được đánh dấu lần lượt trong các bảng như E, M,D

Trang 31

Bảng 3.4: Kết quả phân loại của môn học KTLT

Tên câu hỏi F1 F2 F3 F4 Mô hình 2 Mô hình 1 F0

Trang 32

Bảng 3.5: Kết quả phân loại của môn học CTDL&GT

Tên câu hỏi F1 F2 F3 F4 Mô hình 2 Mô hình 1 F0

Trang 33

3.1.7 Đánh giá kết quả phân cụm

Học viên đề xuất hai biện pháp để đánh giá kết quả phân cụm:

• Độ giống nhau: phần trăm số câu hỏi mà hai mô hình có cùng mức độ.

• Độ tương tự: tỷ lệ phần trăm của số mức độ giữa hai kiểu máy là tương tự nhau Hai độ

khó được coi là tương tự nhau nếu chúng giống nhau hoặc gần giống nhau nhưng khôngmâu thuẫn

Bảng 3.6 ghi lại hai thước đo trên của các khóa học FP và DSA Chúng ta có thể thấy rằngkết quả của mô hình 2 có độ trùng khớp cao với kết quả của mô hình 1

Bảng 3.6: Độ giống nhau và độ tương tự của các kết quả phân loại

Độ giống nhau Độ tương tự

Trang 34

3.2 Phát hiện chủ đề khó trong ngân hàng câu hỏi

3.2.1 Các quan sát

Việc xác định chủ đề khó học là một vấn đề gây tranh cãi Nhìn chung, có một số quan điểm

để xác định các chủ đề khó trong một môn học Để tìm hiểu những chủ đề khó, giảng viên cóthể xem xét điểm số mà tất cả học viên đạt được cho mỗi chủ đề, thường là trung bình, sau đó

so sánh với một ngưỡng đề xuất bởi giảng viên Tuy nhiên, phương pháp này có tính chủ quan

từ quan điểm của giảng viên Một cách khác là thu thập khảo sát và phản hồi từ học viên saukhóa học Phương pháp này bị ảnh hưởng nặng nề bởi quan điểm chủ quan của học viên Hơnnữa, không phải tất cả học viên đều sẵn lòng chia sẻ ý kiến về khóa học

Do đó, trong luận văn này, khác biệt với hai quan điểm trên, học viên đề xuất một phươngpháp mới thông qua việc tích lũy dữ liệu để xác định chủ đề khó Phương pháp này dựa trên sựkhác biệt giữa nỗ lực của học viên và kết quả kiểm tra của họ theo từng chủ đề Trong đó, nỗlực của học viên và kết quả kiểm tra tương ứng với kết quả đánh giá hình thành và đánh giá tổnghợp thu thập từ khóa học Chủ đề cần chú ý là chủ đề có sự khác biệt lớn nhất được tìm thấy.Phương pháp của tôi có hai rủi ro sau đây: (a) Câu hỏi kiểm tra không tuân theo nội dungdạy trong lớp học; (b) Kết quả kiểm tra không phù hợp với hiệu suất của học viên, có thể mô

tả như "người đề xuất, trời sắp đặt" Trong các phần tiếp theo, chúng ta cần xem xét một số giảđịnh về rủi ro (a) và tác động của nó; rủi ro (b) sẽ được xem xét trong phần thảo luận - Mục3.2.4

Để làm rõ hướng giải quyết đề xuất, chúng ta cần xem xét một số giả định và tiếp cận một

số quan sát như sau

Giả định 1 Khi ra các đề đánh giá tổng kết, người thầy ra đề có quan sát kết quả thống kê của

Giả định 2 Với mọi chủ đề trong môn học, các giảng viên có sử dụng cùng chung một bộ học

liệu cho tất cả các lớp giảng dạy

Mặc dù có nhiều phương pháp dạy học khác nhau và có thể triển khai trong cùng một lớphọc, việc này là không bắt buộc cho tất cả các thầy Thay vào đó, bộ tài liệu chia sẻ trên hệ thốnge-learning, bao gồm các bài giảng, bài tập tương tác trên lớp, bài tập về nhà, v.v có thể triểnkhai cho tất cả các lớp, được thừa kế và cải thiện qua từng năm học Trong khuôn khổ của luậnvăn này, nhưng tài liệu được đề cập trên được gọi là bộ học liệu cho môn học

Trang 35

Giả định 3 Đa phần mỗi người học có hành vi học tập ổn định, điều độ cho tất cả các chủ đề

trong cùng một môn học

Mỗi môn học bao gồm nhiều chủ đề được triển khai lần lượt qua các tuần với bộ học liệu

là như nhau cho người học Các dạng bài tập (như trắc nghiệm, điền khuyết, lập trình, ) là gầngiống nhau và bao gồm nhiều cấp độ từ dễ đến khó Hành vi học tập bao gồm thái độ học tập,

sự chuyên cần, mức độ cố gắng và ý thức tự giác tìm tòi làm việc ở nhà Nếu bộ học liệu là đủhấp dẫn và đủ tiếp cận phù hợp từ chủ đề đầu tiên thì người học chăm học và không gặp trườnghợp đột xuất sẽ duy trì hành vi học tập ổn định qua các tuần học

Trong luận văn này, học viên quan tâm đến việc đánh giá mức độ tiếp thu bài giảng của đại

đa số người học (với cùng tập giảng viên giảng dạy và cùng tập người học) Nếu tồn tại độ đo

mô tả mức độ tiếp thu thì cần phải tuân thủ theo các Quan sát và định nghĩa như sau:

Định nghĩa 1 Mức độ tiếp thu bài giảng là độ đo biểu diễn người học đáp ứng được chuẩn đầu

ra thông qua bộ học liệu và quá trình học tập

Quan sát 1 Nếu tồn tại 2 chủ đề có cùng mức độ tiếp thu bài giảng của đại đa số người học

(với cùng tập giảng viên giảng dạy và cùng tập người học) và nếu tồn tại công cụ đo cho điềunày thì kết quả trả về từ công cụ đo cho 2 chủ đề đó cần xấp xỉ nhau

Từ Giả định 2 và 3, cùng một bộ học liệu dành cho người học và người học có hành vi họctập ổn định, bộ học liệu và lộ trình dạy được thiết kế phù hợp thì người học cùng đáp ứng đượcmức độ yêu cầu của chuẩn đầu ra Như vậy, kết quả từ công cụ đo mức độ tiếp thu bài giảngtheo thống kê phải xấp xỉ nhau

Quan sát 2 Công cụ đo mức độ tiếp thu bài giảng nếu tồn tại thì cần phụ thuộc vào kết quả thu

thập từ đánh giá tổng kết

Đánh giá quá trình là kết quả đánh giá cuối cùng để xem xét mức độ đạt được của người họcmột cách chính thức Cho nên, bất kì phương thức đo nào đều cần thu thập dựa trên đánh giánày

Mệnh đề 1 Công cụ đo mức độ tiếp thu bài giảng ,nếu tồn tại và để đảm bảo tính chính xác,

thì nên quan sát thêm thông tin thu thập từ đánh giá quá trình.

Xét về mặt thời gian, đánh giá quá trình cần phải được triển khai và xảy ra trước đánh giátổng kết Đánh giá quá trình được xem như một phương pháp hậu kiểm Thông tin trích xuất

từ đánh giá tổng kết thông thường là khá đủ để nhận biết mức độ tiếp thu của người học thôngqua các phương pháp thống kê như phân bố Gaussian Tuy nhiên, thiết kế một bài kiểm tra màkhông quan sát nhưng dữ liệu thu thập từ các đánh giá quá trình sẽ không thể hiện được nănglực cũng như nỗ lực của người học

Trang 36

Hơn nữa, kể cả theo Giả định 1, việc quan sát thống kê kết quả đánh giá quá trình để tạo rađánh giá tổng kết thường mang tính chủ quan của cá nhân hoặc nhóm phụ trách ra đề thi.Hơn nữa, ngay cả theo Giả định 1, việc quan sát kết quả thống kê của đánh giá quá trình đểtạo ra một đánh giá tổng kết thường mang tính chủ quan từ cá nhân hoặc một nhóm đảm nhậnviệc tạo đề kiểm tra.

Do đó, không điều gì đảm bảo được sự nhất quán từ kết quả đánh giá quá trình và đánh giátổng kết Hay nói cách khác, kết quả thu thập từ đánh giá tổng kết không đảm bảo có thể mô tảchính xác cho công cụ đo đang quan tâm

Dựa trên Quan sát 1 và Mệnh đề 1, chúng ta có thể thu được đề xuất như sau

Mệnh đề 2 Nếu tồn tại một công cụ đo đạc mức độ tiếp thu bài giảng, thì nó nên quan sát

thông tin thu thập được từ cả đánh giá quá trình and đánh giá tổng kết.

Độ lệch giữa đánh giá quá trình và đánh giá tổng kết trong một chủ đề là có ý nghĩa và cầnquan sát Để làm việc đó, học viên cần xem xét định nghĩa về độ vênh như sau

Định nghĩa 2 Độ vênh giữa đánh giá quá trình và đánh giá tổng kết trong mỗi chủ đề của một

môn học là độ lệch trung bình theo người học trong hai bài đánh giá quá trình và đánh giá tổngkết trong cùng một chủ đề

Mệnh đề 3 Khi so sánh giữa các chủ đề, chủ đề có độ vênh lớn nhất là chủ đề cần được xem

xét trong quá trình liên tục cải tiến (Continuous Improvement Process).

Sự quan sát khi ra đề thi liên quan đến chủ đề có độ vênh lớn nhất có thể có vấn đề Dovậy, đánh giá tổng kết liên quan cần được rà soát lại cho những học kì sau Hoặc, nếu ngườihoặc tập thể phụ trách ra đề vẫn muốn giữ nguyên mức độ đánh giá trong đánh giá tổng kết thìcần tìm cách bổ sung thêm nội dung bài tập trong bộ học liệu, và kể cả thay đổi nội dung củađánh giá quá trình Dù cho quyết định như thế nào thì cũng nằm trong giai đoạn ContinuousImprovement Process

3.2.2 Quy trình liên tục cải tiến đề xuất

Đây là cốt lõi của giải pháp đề xuất trong luận văn này và chi tiết được minh họa trong Hình3.1, mà trong đó, công thức đề xuất tính độ lệch cụ thể được mô tả trong Mục 3.2.2.2

Trong hình 3.1, khối Learning Management System (LMS) gồm Courseware (Bộ học liệu)

và Data Accummulation (Thu thập dữ liệu) Courseware gồm các học liệu cho người học nhưvideo, slide, các bài tập, bài thực hành trên môi trường online, v.v Data Accumulation là dữliệu ghi lại các tương tác của người học với bộ học liệu như thời gian xem video, thời điểmmở/tải slide, thời gian làm bài tập, điểm chấm tự động cho các bài tập, v.v Các dữ liệu điểmđánh giá được sử dụng cho các bước tiếp theo:

Định dạng
Số trang	73
Dung lượng	1,11 MB

Tiêu đề	Xác định hành vi học tập thông qua phân tích dữ liệu trên hệ thống học tập trực tuyến
Tác giả	Trần Huy
Người hướng dẫn	TS. Lê Thanh Vân, PGS.TS. Huỳnh Tường Nguyên
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận văn Thạc sĩ
Năm xuất bản	2023
Thành phố	Thành phố Hồ Chí Minh