Ma trận nhầm lẫn phân loại học sinh

Một phần của tài liệu Xây dựng mô hình phản hồi của người học trong các hệ thống dạy học thông minh (Trang 69)

5 XÂY DỰNG MƠ HÌNH PHẢN HỒI CỦA NGƯỜI HỌC

3.9 Ma trận nhầm lẫn phân loại học sinh

Giỏi Xuất sắc Khá Trung bình

Giỏi 61 20 6 0

Xuất sắc 12 48 0 0

Khá 2 0 136 10

Trung bình 0 0 12 9

Căn cứ vào Bảng 3.8, độ chính xác trong việc dự đoán kết quả học

tập của người học theo phương pháp này là 80.63% tương ứng với 254 sinh viên được phân loại đúng. Ngược lại, các trường hợp khơng dự đốn đúng là 62, chiếm 19.37%. So với nghiên cứu tương tự của Oladokun [92] có độ chính xác là 74% cho thấy sự khả quan thu được của phương pháp này.

Bảng 3.9 cho thấy độ chính xác của mơ hình phân lớp. Theo bảng này, tỉ lệ phân loại chính xác tốt nhất là mức độ "Khá" với tỉ lệ là 136/148 trường hợp , tiếp sau là phân loại cho lớp "Xuất sắc" với tỉ lệ 48/60. Cuối cùng là các lớp "Khá" và "Trung bình" với tỉ lệ tương ứng là 61/87, 9/21.

3.6 Kết chương

Chương này đã mô tả chi tiết cách sử dụng mạng perceptron đa lớp để dự đoán kết quả học tập dựa vào dữ liệu về phong cách học. Nghiên cứu sinh đã tập trung phân tích các xu hướng học của sinh viên đồng thời đề xuất việc tích hợp dữ liệu phong cách học và dữ liệu học tập nhằm tìm ra mối liên hệ giữa phong cách học và kết quả học tập. Kết quả của nghiên cứu này có ý nghĩa rất quan trọng trong việc hỗ trợ cho người học cũng như các hệ thống dạy học nhằm điều chỉnh phương pháp học nhằm đạt được kết quả cao nhất. Các thực nghiệm chứng minh tính khả thi khi để có thể ứng dụng trong các hệ thống học trực tuyến và trong các mơ hình thích nghi cho các hệ hỗ trợ học tập. Nghiên cứu này là một thành phần quan trọng nhằm cung cấp mơ hình đánh giá năng lực người học phục vụ cho việc xây dựng mơ hình người học ở Chương

5. Kết quả của chương này đáp ứng được mục tiêu của luận án là nghiên

cứu phong cách học trong mối tương quan với kết quả học tập của người học, từ đó áp dụng các mơ hình học máy để dự đốn kết quả của người học.

Kết quả nghiên cứu nêu trên được cơng bố tại kỷ yếu có phản biện của Hội nghị quốc tế "The 9th International Conference on Knowledge and Systems Engineering" KSE 2017 (cơng trình khoa học số 2).

Chương 4

ĐÁNH GIÁ ĐỘ TẬP TRUNG CỦA NGƯỜI HỌC SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Phát hiện và theo dõi sự tập trung của sinh viên trong một lớp học đơng đúc có thể trợ giúp cho các hệ thống dạy học thông minh dễ dàng kiểm sốt hoặc bao qt tình hình. Cùng với các kỹ thuật tiên tiến trong học máy đang ngày càng phát triển nhanh chóng, đặc biệt là các kỹ thuật học sâu (deep learning), ngày nay, nhiều trường học có thể xây dựng các cơng cụ hiệu quả để hỗ trợ giáo viên hoặc tích hợp trong các hệ thống hỗ trợ học tập. Chương này đề xuất một phương pháp học máy hiệu quả áp dụng trên tập dữ liệu thu thập được để đánh giá độ tập trung của học sinh trong lớp học. Bên cạnh đó nghiên cứu cũng xây dựng một bộ dữ liệu phục vụ cho việc phân lớp các hành vi của sinh viên trong lớp. Việc áp dụng mơ hình đề xuất cho thấy kết quả thu được khá khả quan trong việc phân loại các hành vi của người học, đồng thời có thể ứng dụng trong các hệ thống thích nghi nhằm thu thập và phân tích thơng tin trạng thái người học.

4.1 Giới thiệu

Trong những năm gần đây, việc phát hiện các hành động và cảm xúc của sinh viên trong lớp học là một trong những chủ đề trong tâm mà các hệ thống dạy học thông minh hướng tới. Cùng với sự phát triển của các kỹ thuật tiên tiến, các hệ thống với khả năng tính tốn mạnh mẽ ra đời, các thuật tốn được cải tiến tối ưu, nhiều giải pháp cho vấn đề này được công bố với những kết quả hết sức khả quan. Biết được chính xác hành vi của sinh viên, đặc biệt là sự tập trung trong lớp học là hết sức quan trọng cho việc xây dựng và thiết kế các thành phần phản hồi trong các hệ thống dạy học thơng minh. Bên cạnh đó, việc phát hiện chính xác trạng thái của sinh viên trong lớp còn giúp cho các hệ thống hỗ trợ

dạy học thông minh (và cả giáo viên trong các lớp học truyền thống) có thể theo dõi được tiến trình học, độ tập trung của sinh viên để từ đó có các can thiệp, điều chỉnh kịp thời. Một lớp học có thành cơng hay khơng phụ thuộc rất nhiều vào kết quả đầu ra của sinh viên, và kết quả này phụ thuộc mật thiết vào sự tập trung, chú ý của sinh viên trong suốt quá trình học. Một số nghiên cứu chỉ ra rằng, phát hiện độ tập trung của người học trong thời gian sẽ tạo ra các cơ hội để cải thiện quá trình học và cả quá trìnhh dạy học [29, 112] (ví dụ như có thể điều chỉnh cách

thức giảng dạy, điều chỉnh nội dung học tập hoặc thậm chí điều chỉnh mục tiêu đầu ra của khóa học, điều chỉnh mục tiêu giáo dục [134]).

Trong lĩnh vực phát hiện độ tập trung của sinh viên trong lớp học, Dewan [27] chia q trình này thành các nhóm khác nhau như Tự động, Bán tự động hoặc thủ công. Theo quan điểm thị giác máy tính, nghiên cứu của Dewan phân loại độ tập trung dựa theo đối tượng của quá trình nhận dạng: biểu đạt khuôn mặt, điệu bộ, cử chỉ.

Biểu đạt khn mặt: Có rất nhiều nghiên cứu về khía cạnh này. Nhiều nhà khoa học tập trung vào khuôn mặt của học sinh sinh để dự đoán cảm xúc của người học. Nezami và các cộng sự [84] sử dụng một mạng nơ-ron tích chập để phân lớp các cảm xúc của người học dựa trên bộ dữ liệu được huấn luyện trước là FER-2013 [39]. Whitehill [134] chia độ tập trung của người học theo 4 mức từ 1 đến 4 và sử dụng thuật toán máy vector hỗ trợ để phát hiện độ tập trung. Tác giả Bosch [6] tập trung vào trạng thái "tâm trí lang thang" (mind wandering) - một dạng nhận thức khơng tập trung, nghĩ vẩn vơ đến việc khác. Ông tập trung vào việc trích xuất các đặc trưng ở cả hai mức thấp và mức cao trong q trình nhận dạng khn mặt người từ các đoạn video ngắn.

Cử động mắt được chú ý trong những năm gần đây, Raina [97] đề xuất một mơ hình dựa trên cử động của mặt với các thiết bị theo dõi mắt chuyên dụng để so sánh độ tập trung giữa hai nhóm học sinh nhằm giảm thiểu việc bỏ quả các nội dung học trong môi trường học trực tuyến. Krithika và Lakshmi [63] xây dựng Hệ thống nhận diện cảm xúc

học sinh SERS (Student Emotion Recognition System) có thể xác định và giám sát cảm xúc của người học trong mơi trường học trực tuyến, từ đó đề xuất cơ chế phản hồi thời gian thực nhằm hỗ trợ cho học viên tiếp thu kiến thức tốt hơn. Hệ thống này có thể phát hiện mắt, cử chỉ đầu để ước lượng mức độ tập trung trong quá trình học.

Cử chỉ và điệu bộ: Đây chính là nhánh nghiên cứu mà nghiên cứu sinh tập trung bởi loại giao tiếp này có thể diễn tả khá rõ trạng thái tâm lý, cảm xúc của học sinh trong lớp học. Cử chỉ và điệu bộ là hai thành tố quan trọng trong việc vấn đề giao-tiếp-không-dùng-ngôn-ngữ [27].

Nhiều nghiên cứu gần đây tiếp cận theo hướng phát hiện sự tập trung của người học dựa trên thơng tin hình ảnh các tư thế của người học. Tác giả Fang và các cộng sự [32] đã nhận dạng 6 hành động phổ biến trong lớp học như "giơ tay trái", "giơ tay phải", "đứng dậy", "nằm gục xuống bàn" và "tư thế bình thường" để trợ giúp cho giáo viên trong việc lưu ý đến các hành vi của sinh viên trong giờ học.

Năm 2013, Grafsgaard [43] đã đo số lượng các các thay đổi cử chỉ tay và đầu để tìm ra mối liên hệ giữa các hành vi phi ngôn ngữ và hội thoại cùng với các tác động qua lại giữa chúng. Tác giả thực hiện khảo sát trên 42 sinh viên tham gia một khóa học khoa học máy tính cơ bản, các sinh viên này thực hiện việc tương tác với giáo viên thông qua một giao diện web. Các thông số về nhật ký cơ sở dữ liệu, webcam video, cảm biến da và video độ sâu từ thiết bị Kinect đều được ghi lại.

Potnis và Jahagirdar [95] thực hiện ghi lại các video và phát hiện các sinh viên giơ tay (xung phong) trong lớp để thơng báo cho giáo viên. Nhóm tác giả xây dựng một hệ thống thời gian thực chuyển đổi video thu nhận được thành chuỗi các ảnh RGB, ảnh sau đó được xử lý qua q trình loại bỏ khn mặt và sử dụng phương pháp dị tìm nhóm điểm (blob detection) để phát hiện hành động giơ tay trong lớp học.

Sathyanarayana [105] xây dựng một cơ sở dữ liệu có tên là SD- MATH, sử dụng các thuật toán HOG và SVM để địa chỉ hóa các cử chỉ bàn tay trong một phiên dạy học toán 1-1 giữa thầy và trị. Mục đích

nhằm phân loại các cử chỉ tay liên quan đến một quá trình dạy học, ý nghĩa của từng cử chỉ trong một giờ học tốn (ví dụ như cử chỉ giải thích, cử chỉ giới thiệu vấn đề, cử chỉ đưa ra gợi ý vấn đề...).

Zaletelj và Koˇsir [137] đo lường mức độ chú ý của học sinh bằng việc sử dụng các thiết bị Kinect 1. Họ kết hợp giữa phần thân trên, các đặc trưng của khuôn mặt và sử dụng bảy bộ phân lớp khác nhau để phân loại các hành động, sau đó so sánh kết quả giữa các phương pháp này.

Rich [100] kết hợp cử chỉ và lời nói thành một kênh thơng tin để theo dõi sự tham gia của người dùng trong quá trình tương tác giữa người và người máy.

Klein và Celik [56] xây dựng một hệ thống có tên là WITS (Wits Intelligent Teaching System) nhằm hỗ trợ người dạy theo dõi được độ tập trung của sinh viên bằng cách giám sát các phản hồi dưới thời gian thực. Các tác giả tạo ra một bản đồ hứng thú (Interesting Map) để chỉ ra sinh viên nào tập trung hay không tập trung vào bài giảng.

Bảng 4.1 cho thấy một số nghiên cứu gần đây có liên quan sử dụng bộ dữ liệu các cử chỉ, tư thế (dáng ngồi, cử chỉ tay, chuyển động ngón tay). Các phương pháp khai phá dữ liệu như mạng nơ-ron tích chập, SVM, KNN được sử dụng phổ biến. Trong các nghiên cứu này, định dạng video cũng được sử dụng phổ biến hơn do thể hiện được sự thay đổi trạng thái của người học theo thời gian.

Từ những khảo sát trên, nghiên cứu sinh tập trung giải quyết bài toán phân loại độ tập trung trong của người học trong lớp học thông qua công nghệ nhận dạng. Các camera được thiết lập ở các góc cố định trong lớp học nhằm tránh sự tập trung của học sinh, đảm bảo tính tự nhiên của dữ liệu. Các chuỗi ảnh trích xuất từ các video thu thập bởi các camera này được tập hợp và xây dựng thành một bộ dữ liệu và được gán nhãn với các trạng thái được định nghĩa trước. Dữ liệu này dùng để đưa vào huấn luyện nhằm giúp máy học được các đặc trưng từ dữ liệu,

1Kinect là thiết bị cảm biến ngoại vi thu chuyển động phát triển bởi Microsoft dành cho máy cầm tay Xbox 360 và Windows

Bảng 4.1. Một số nghiên cứu liên quan đến phát hiện sự tập trung trong lớp học dựa trên các đặc trưng về cử chỉ và tư thế người học.

Tác giả Kiểu dữ liệu Đặc trưng Phương

pháp

Fang et al. [32] Videos Cử chỉ Phân đoạn đối tượng

Klein và Celik

[56] Images Tư thế và cửchỉ Mạng nơ-rontích chập Grafsgaard

[43] Kinect depth video Tư thế và cửchỉ Hồi quy Potnis và Ja-

hagirdar [95] Images Cử chỉ tay Bag-of-Features, SVM Sathyanarayana

[105] Video, audio Tiếng nói, cửchỉ, ánh mắt, biểu đạt khuôn mặt

HOG, SVM

Zaletelj và

Koˇsir [137] Kinect video Tư thế cơ thể,khn mặt Cây bao đóng,KNNs sau đó chạy kiểm kiểm thử trên bộ dữ liệu kiểm thử đánh giá độ chính xác phân lớp các hành vi trong lớp học, từ đó đưa ra nhận định một học sinh có tập trung hay khơng tập trung đến bài học. Nghiên cứu này sử dụng một mạng nơ-ron tích chập (là một mạng nơ-ron sâu) để huấn luyện trên bộ dữ liệu vừa xây dựng. Tuy nhiên, trước đó mạng nơ-ron này đã được tiền huấn luyện bằng các kỹ thuật học chuyển giao và tái sử dụng ma trận trọng số ứng với các hành động thông thường (các hành động phổ quát).

Học chuyển giao (Transfer learning) là một phương pháp học máy mà trong đó, một mơ hình đã được phát triển cho một nhiệm vụ được tái sử dụng ở một nhiệm vụ khác. Cách tiếp cận này mang lại hiệu quả cao trong các phương pháp học sâu khi áp dụng trên bộ dữ liệu vừa và nhỏ. Mạng tiền huấn luyện là một mạng đã lưu trước đó, được huấn luyện trên một tập dữ liệu lớn (thơng thường là bài tốn phân loại ảnh

quy mơ lớn). Một số mạng tiền huấn luyện thường được sử dụng như: VGG, ResNet, Inception, Inception-ResNet, Xception...

Học sâu là một thành phần của học máy, đặc điểm của học sâu là cấu trúc mạng được xây dựng nhiều lớp hơn, phức tạp hơn và độ trừu tượng dữ liệu cao hơn so với các phương pháp học máy thông thường [107].

Thực chất mạng học sâu hay mạng nơ-ron sâu (Deep Neural Net- work) là một mạng nơ-ron truyền tới có nhiều lớp ẩn, trong đó mỗi lớp ẩn có một số nơ-ron nhất định, dữ liệu đầu vào của mỗi lớp là tất cả các kết quả đầu ra của lớp trước được nhân với một vectơ trọng số, tính kết quả và chuyển nó qua một hàm kích hoạt phi tuyến tính.

Trong các phương pháp học sâu phổ biến, mạng nơ-ron tích chập (Convolutional Neural Network) là một cấu trúc học sâu đạt được rất nhiều kết quả tốt trong các phương pháp học máy liên quan đến dữ liệu video hay dữ liệu ảnh.

Thành phần chính của mạng này gồm các lớp tích chập, lớp max- pooling, fully-connected và một lớp soft-max để xác định số lớp đầu ra cần phân lớp.

Hình 4.1. Kiến trúc của một mạng nơ-ron tích chập (Toward Data Science)[20].

4.2 Thu thập dữ liệu

Để xây dựng bộ dữ liệu thực nghiệm, nghiên cứu này thực hiện việc thu dữ liệu từ một số lớp học. Dữ liệu ảnh được trích xuất từ các camera có độ nét cao (High density video). Các camera này được bố trí phía trước các lớp học, bao gồm các camera trái và phải và camera chính giữa. Thực tế rằng trong lớp học có rất nhiều tư thế của người học. Tuy

(a) Camera trái. (b) Camera phải.

Hình 4.2. Thiết lập camera trái và phải.

Hình 4.3. Camera được gắn cố định phía trên bục giảng để ghi lại một cách tự nhiên các cử chỉ, tư thế của sinh viên trong lớp học.

nhiên các tư thế được lựa chọn là các tư thế phổ biến nhất và thể hiện được các hành vi thông thường trong thời gian học, thể hiện được các điểm đặc trưng của người học trong lớp cũng như biểu đạt được trạng thái hay phản ứng của người học với người giảng và bài giảng. Các tư thế này cũng được Klein và Celik lựa chọn trong nghiên cứu của mình [56].

Dựa vào việc trích xuất các tư thế chủ yếu của sinh viên trong giờ học, các tư thế này được quy vào hai loại chính và thực hiện gán nhãn chúng bằng tay, bao gồm:

Tập trung, chú ý - interest (engagement): Bao gồm các hành động: "viết", "đọc", "giơ tay", "nhìn thẳng"

Khơng tập trung, khơng chú ý - non-interest (disengagement): Bao gồm các hành động "sử dụng điện thoại", "nhìn lên", "nhìn xung quanh", "cúi đầu xuống"

Bộ dữ liệu này được chia thành 8 lớp thuộc hai nhóm gồm nhóm tập trung và nhóm khơng tập trung. Trước đó, chúng được tiền xử lý như cắt cúp ảnh, giảm bớt độ phân giải sau khi lấy mẫu từ các camera đã thiết lập ở trên. Mỗi đoạn video ngắn được trích xuất 16 khung hình theo phương pháp lựa chọn khung hình có sự biến đổi lớn nhất bằng cách

Một phần của tài liệu Xây dựng mô hình phản hồi của người học trong các hệ thống dạy học thông minh (Trang 69)

Tải bản đầy đủ (PDF)

(144 trang)