Một số kỹ thuật nhận dạng biểu hiện khuôn mặt phục vụ đánh giá sự tập trung của người học

TỔNG QUAN VỀ ĐÁNH GIÁ SỰ TẬP TRUNG CỦA NGƯỜI HỌC VÀ BÀI TOÁN NHẬN DẠNG BIỂU CẢM KHUÔN MẶT

Tổng quan về đánh giá sự tập trung của người học

Sự tập trung đóng vai trò quan trọng trong việc đạt được thành công cho cả nhiệm vụ ngắn hạn và dài hạn Đây là một khái niệm phức tạp, được đo lường không chỉ qua quan sát mà còn thông qua hành vi của cá nhân Sự tập trung cũng được coi là thước đo năng lực và có ứng dụng rộng rãi trong nhiều lĩnh vực như tâm lý học, giao diện người-máy tính (HCI) và giáo dục.

Trong giáo dục, sự tập trung là yếu tố quan trọng thể hiện sự sẵn sàng của người học tham gia vào các hoạt động học tập, như tham gia nghiêm túc vào lớp học và hoàn thành bài tập Ba yếu tố chính ảnh hưởng đến sự tập trung của người học bao gồm hành vi, nhận thức và cảm xúc Việc hiểu rõ hành vi của người học trong lớp học sẽ cung cấp thông tin hữu ích cho môi trường giáo dục.

Cơ sở quản lý giáo dục cần cải thiện chính sách học vụ, nâng cao môi trường học tập và cơ sở vật chất, đồng thời điều chỉnh chương trình đào tạo để tạo điều kiện tốt nhất cho người học Những biện pháp này sẽ giúp ngăn ngừa tình trạng chán nản, sao lãng và bỏ học.

(ii) Đối với giáo viên: cải tiến phương pháp giảng dạy, giáo trình, bài giảng để nâng cao hiệu suất cho người học

2.1.2 Các yếu tố đánh giá sự tập trung

Các nhà nghiên cứu đã đề xuất các giải pháp để theo dõi và đánh giá sự tập trung của người học trong quá trình học tập Các yếu tố nhận biết sự tham gia, theo nghiên cứu, chủ yếu dựa trên hai khía cạnh: (1) Hành vi và (2) Cảm xúc, thông qua công nghệ thị giác máy tính.

Hành vi học tập được đánh giá qua các hành động ứng xử trong lớp học và các hoạt động xã hội, bao gồm tham gia lớp học, thời gian làm bài tập về nhà, nỗ lực hoàn thành nhiệm vụ và tuân thủ quy tắc Những hành vi này có thể quan sát dễ dàng và thể hiện sự tham gia học tập, như việc đóng/mở mắt, ngáp, giơ tay phát biểu, cũng như tư thế đầu và tư thế hình thể.

Một nhóm nghiên cứu đã xác định bảy loại cảm xúc phổ biến của con người, bao gồm vui, buồn, sợ hãi, tức giận, ghê tởm, ngạc nhiên và trung lập Những cảm xúc này liên quan đến các chuyển động cơ mặt được mã hóa trong Hệ thống mã hóa hành động trên khuôn mặt, có thể nhận diện qua thị giác máy tính Nghiên cứu cho thấy độ chính xác trong việc phân tích cảm xúc có thể vượt qua 90% cho các phương pháp phụ thuộc vào đối tượng và hơn 70% cho các phương pháp không phụ thuộc vào đối tượng Tuy nhiên, độ chính xác này còn phụ thuộc vào phương pháp và quy mô của tập huấn luyện Những cảm xúc hỗn hợp thường khó xác định do ít liên kết với cơ mặt và dữ liệu đào tạo hạn chế.

2.1.3 Phương pháp đánh giá sự tập trung

Hình 2.1 Phân loại các phương pháp phát hiện sự tham gia [6] Đánh giá sự tập trung

Phân tích dữ liệu cảm biến Thị giác máy tính

Biểu hiện trên khuôn mặt

Cử chỉ và tư thế Trạng thái của mắt

Nghiên cứu về phát hiện sự tham gia đã được phân loại thành ba loại chính: tự động, bán tự động và thủ công.

Với sự phát triển mạnh mẽ của các giải pháp học máy và học sâu trong lĩnh vực thị giác máy tính, các phương pháp tự động đã thu hút sự chú ý đáng kể trong những năm gần đây, mang lại hiệu quả cao trong việc phân tích và dự đoán.

2.1.3.1 Phương pháp thủ công (Manual) Đánh giá sự tập trung dựa trên việc thu thập kết quả tự báo cáo (Self Reporting) của người học thông qua biểu mẫu khảo sát được thiết lập sẵn mà trong đó người học tự báo cáo riêng mức độ của họ về sự thích thú hay nhàm chán Tất cả các bảng câu hỏi khảo sát không nhất thiết chỉ ra mức độ tham gia của người học một cách trực tiếp, thay vào đó chúng ngụ ý mức độ tham gia như một biến tiềm ẩn mô tả bằng cách sử dụng phân tích nhân tố [41] Tự báo cáo được nhiều nhà nghiên cứu quan tâm vì nó dễ thực hiện Ví dụ, sẽ rất hữu ích khi biết được số lượng người học buồn chán hoặc chán nản trong cuộc khảo sát Tuy nhiên, hướng tiếp cận này tiêu tốn rất nhiều thời gian và công sức Bên cạnh đó, kết quả của việc phân tích phụ thuộc vào yếu tố nằm ngoài tầm kiểm soát của nhà nghiên cứu, chẳng hạn như tính trung thực của người học khi tham gia trả lời các câu hỏi trong cuộc khảo sát Do đó có thể dẫn đến kết quả kém chính xác trong việc phân tích

2.1.3.2 Phương pháp bán tự động (Semi-Automatic)

Phương pháp bán tự động bao gồm khảo sát kiến thức và dựa trên sinh lý học Giáo viên ước lượng mức độ tham gia của học sinh qua phản ứng đối với câu hỏi trong quá trình giảng dạy Ví dụ, thời gian trả lời ngắn cho thấy học sinh không tham gia và chỉ đưa ra câu trả lời ngẫu nhiên mà không nỗ lực.

Phương pháp này, mặc dù đã được áp dụng rộng rãi trong các hệ thống dạy kèm thông minh (ITS), vẫn chưa được khai thác nhiều trong các môi trường giáo dục khác, đặc biệt là trong học tập trực tuyến.

2.1.3.3 Phương pháp tự động (Automatic)

Trích xuất đặc trưng từ các cảm biến hình ảnh như chuyển động mắt, nét mặt, cử chỉ và tư thế, cùng với các cảm biến sinh lý và thần kinh như nhịp tim, điện não đồ và huyết áp, diễn ra một cách tự động mà không làm gián đoạn người học Các phương pháp tự động này được phân thành hai nhóm chính: phân tích dữ liệu cảm biến và phương pháp dựa trên thị giác máy tính.

Trong phân tích dữ liệu cảm biến, các chỉ số sinh lý và thần kinh được sử dụng để đo mức độ tương tác, thường được đánh giá qua mức độ kích thích hoặc tỉnh táo Mức độ tham gia của người học được ước tính thông qua các tín hiệu như điện não đồ (EEG) và điện tâm đồ (ECG) bằng cách sử dụng thiết bị như dây đeo và cảm biến hoạt động điện da Tuy nhiên, những biện pháp này yêu cầu cảm biến chuyên dụng, gây khó khăn trong việc sử dụng, tốn kém và không thuận tiện trong môi trường giáo dục thực tế.

Các phương pháp dựa trên thị giác máy tính cung cấp cách đo lường mức độ tương tác của người học thông qua việc phân tích cử chỉ, tư thế, trạng thái mắt và biểu cảm khuôn mặt Ưu điểm của phương pháp này là dễ sử dụng, không làm gián đoạn hoạt động của người học và có thể phân tích các tín hiệu không lời mà không cần sự can thiệp của con người Công nghệ này sử dụng các thiết bị như webcam hoặc camera chi phí thấp, có tính khả dụng cao trên điện thoại di động, máy tính bảng, máy tính và ô tô Nhiều nghiên cứu gần đây đã đề xuất phát triển Hệ thống giám sát tham gia tự động (AEMS) trong giáo dục, tập trung vào việc sử dụng các dấu hiệu hành vi và cảm xúc của người học, đặc biệt trong môi trường học tập điện tử với một học sinh duy nhất trong khung video.

Mặc dù cộng đồng ITS đã chú ý đến việc sử dụng các phương pháp dựa trên thị giác máy tính để phát hiện mức độ tương tác trong môi trường lớp học truyền thống, nhưng vẫn còn nhiều thách thức cần giải quyết trước khi các hệ thống tự động này có thể áp dụng rộng rãi Các nghiên cứu hiện tại chủ yếu tập trung vào những cảm xúc cơ bản như hạnh phúc, tức giận, sợ hãi, buồn bã và ngạc nhiên để đánh giá mức độ tương tác của học sinh, tuy nhiên, điều này không hoàn toàn phù hợp với bối cảnh học thuật Nghiên cứu ban đầu đã chỉ ra rằng có sự khác biệt rõ rệt giữa cảm xúc học thuật và cảm xúc cơ bản, cần phải xem xét để cải thiện tính chính xác của các hệ thống tương tác tự động.

2.1.4 Hệ thống đánh giá sự tập trung của người học

Bài toán nhận dạng biểu cảm khuôn mặt

Biểu hiện trên khuôn mặt là phương tiện phi ngôn ngữ quan trọng trong giao tiếp, với 55% thông điệp cảm xúc và thái độ được thể hiện qua nét mặt Chỉ 7% thông điệp được truyền tải bằng từ ngữ, phần còn lại phụ thuộc vào cách diễn đạt Cảm xúc dễ dàng nhận biết qua biểu hiện khuôn mặt, và công nghệ hiện đại cho phép máy tính tương tác tương tự như con người Điều này giải thích sự gia tăng quan tâm đến nhận dạng cảm xúc khuôn mặt trong nhiều lĩnh vực Nghiên cứu cho thấy cảm xúc trên khuôn mặt có thể nhận biết ở mọi người, bất kể chủng tộc, giới tính hay độ tuổi.

Biểu cảm của người nói đóng vai trò quan trọng trong giao tiếp xã hội, ảnh hưởng lớn đến người tiếp nhận thông điệp Việc hiểu đúng biểu cảm giúp chúng ta nhận biết trạng thái cảm xúc và hành động của người nói Mặc dù không thể đọc được suy nghĩ của họ, nhưng việc nắm bắt biểu cảm có thể làm rõ thêm ý nghĩa của lời nói trong khoảnh khắc đó.

Biểu cảm không chỉ thể hiện qua khuôn mặt mà còn qua ngôn ngữ hình thể và giọng điệu, giúp truyền đạt cảm xúc một cách chính xác Giọng điệu không chỉ là lớp vỏ bên ngoài của lời nói mà còn phản ánh tâm trạng và cảm xúc của thông điệp Việc kết hợp lời thoại đã nâng cao tính tương tác và thực tế trong việc mô phỏng biểu cảm, đồng thời mang đến cái nhìn độc đáo về cảm xúc và tâm trạng của người học Xác định sự tương quan giữa cử động và lời thoại giúp hiểu rõ hơn mối quan hệ giữa tâm trạng và hành vi học tập.

Biểu cảm của con người là yếu tố giao tiếp quan trọng, cung cấp nhiều thông tin hữu ích trong quá trình tương tác.

Các chuyên gia tâm lý nghiên cứu những biểu hiện dựa trên tình trạng tâm lý của con người, tin rằng chúng tồn tại trong một khoảng thời gian nhất định và có mức độ cụ thể Trạng thái tâm lý tại một thời điểm có thể ảnh hưởng lớn đến quyết định, hành vi và hoạt động của cá nhân Biểu cảm là cách con người truyền tải cảm xúc, và cử động khuôn mặt đóng vai trò quan trọng trong việc thể hiện điều này Nghiên cứu trước đây, bao gồm công trình của Darwin năm 1972, đã chỉ ra sự tương quan giữa cử động khuôn mặt và trạng thái biểu cảm.

Nghiên cứu của Ekman cho thấy có bảy biểu cảm khuôn mặt nhất quán, tương ứng với sáu cảm xúc cơ bản: vui, buồn, giận dữ, ngạc nhiên, ghê tởm, sợ hãi, cùng với một cảm xúc trung lập.

(1) Cảm xúc vui vẻ, hạnh phúc (2) Cảm xúc buồn bả, chán nản

(3) Cảm xúc ghê tởm (4) Cảm xúc sợ hãi

(5) Cảm xúc ngạc nhiên (6) Cảm xúc giận dữ

(Nguồn tham khảo tại: https://blog.trginternational.com/)

Hình 2.2 Trạng thái biểu cảm khuôn mặt cơ bản

2.2.1.2 Đơn vị hành động trên khuôn mặt

Hệ thống mã hóa hành động trên khuôn mặt (FACS) là một phương pháp toàn diện để phân tích các bộ phận trên khuôn mặt FACS dựa vào các chuyển động của cơ mặt, được gọi là đơn vị hành động (Action Unit - AU), để xây dựng thước đo lý thuyết về cảm xúc Các AU có thể xuất hiện độc lập hoặc kết hợp với nhau.

Theo nghiên cứu, có tổng cộng sáu mươi bốn đơn vị hành động được mã hóa để phản ánh các chuyển động trên khuôn mặt khi biểu cảm thể hiện một cảm xúc cụ thể Chi tiết về các đơn vị cử động này được trình bày trong phụ lục 1 của Luận án Hình 2.3 cũng minh họa một số đơn vị biểu hiện trên khuôn mặt.

Nhướn lông mày phần trong

Nhướn lông mày phần ngoài

Nhướn mi mắt phía trên

Tách môi trên và môi dưới

Điểm cường độ trong FACS được xác định bằng cách thêm các chữ cái A – E vào số đơn vị hành động, với A đại diện cho cường độ tối thiểu và E cho cường độ tối đa Ví dụ, AU1A biểu thị hành động yếu nhất của AU1, trong khi AU1E thể hiện hành động tối đa mà cá nhân có thể đạt được.

Bảng 2.2 Ký hiệu diễn giải cường độ hành động

D Hành động mạnh (cực kỳ)

Trong mã FACS, các từ bổ nghĩa như "R" và "L" được sử dụng để chỉ định vị trí của hành động biểu cảm, với "R" đại diện cho các hành động xảy ra ở bên phải khuôn mặt và "L" cho các hành động ở bên trái.

Hình 2.4 Hình minh họa cường độ hành động

2.2.1.3 Hệ thống mã hóa đơn vị hành động trên khuôn mặt – FACS Để nắm bắt được một cách chính xác sự đa dạng và phức tạp của biểu cảm khuôn mặt, các nhà nghiên cứu nhận thấy rằng cần thiết phát triển những tiêu chuẩn mã hóa khách quan FACS là một trong những hệ thống mã hóa biểu đạt khuôn mặt được sử dụng phổ biến nhất trong các nghiên cứu khoa học về hành vi

FACS, được phát triển bởi Friesen và Ekman, nhằm xác định tất cả các cử động trên khuôn mặt có thể quan sát được bằng mắt, cung cấp một chú thích rõ ràng cho việc hoạt hóa các cơ mặt Hệ thống này xác định các cơ mặt riêng biệt hoặc kết hợp, tạo ra những thay đổi về hành vi khuôn mặt Những biến đổi này, kết hợp với một hoặc nhiều cơ bên dưới, được gọi là các đơn vị cử động (AU), mỗi AU là một cử động cơ bản, mô tả tập hợp của một hoặc nhiều cơ trên khuôn mặt FACS bao gồm 64 đơn vị cử động như vậy.

Cử chỉ trên khuôn mặt đóng vai trò quan trọng trong việc truyền tải cảm xúc và phản ánh các tín hiệu giọng nói có thể quan sát được Vì vậy, các hệ thống phân tích tự động về những thay đổi tinh tế trên khuôn mặt rất phù hợp trong các ứng dụng thị giác, bao gồm nghiên cứu tâm lý, phân tích giọng nói, phân tích cảm xúc và giao diện người dùng tri giác.

1C Nhướn lông mày phần trong 2C Nhướn lông mày phần ngoài 4B Cơ nhăn trán

5D Nhướn mi mắt phía trên 7B Bặm chặt môi nhẹ

20B Kéo căng môi 26B Hạ hàm

Bảng 2.3 Cảm xúc và danh mục AU tương ứng [39]

Cảm xúc Action Unit Đặc trưng khuôn mặt

Kéo khóe môi (Lip Corner Puller) Tách môi trên và dưới (Lips Part)

Nhướn mày trong (Inner Brow Raiser)

Hạ lông mày (Brow Lowerer) Nén khóe môi (Lip Corner Depressor)

AU2 AU4 AU5 AU20 AU25 AU26

Nhướn mày trong (Inner Brow Raiser) Nhướn mày ngoài (Outer Brow Raiser)

Hạ lông mày (Brow Lowerer) Nhướn mi trên (Upper Lid Raiser) Kéo căng môi (Lip Stretcher) Tách môi trên và dưới (Lips Part)

Ghê tởm AU15 Nén khóe môi (Lip Corner Depressor)

Nhướn mày trong (Inner Brow Raiser) Nhướn mày ngoài (Outer Brow Raiser) Nhướn mi trên (Upper Lid Raiser) Tách môi trên và dưới (Lips Part)

Hạ lông mày (Brow Lowerer) Nhướn mi trên (Upper Lid Raiser) Căng mí mắt (Lid Tightener)

Mối quan hệ giữa cảm xúc và cử động khuôn mặt được thể hiện qua các đơn vị cử động, mã hóa các cử động cơ bản của nhóm cơ khi tạo ra biểu cảm khuôn mặt Những đơn vị này thường xuất hiện trong các biểu cảm của cảm xúc như buồn, sợ và giận Chẳng hạn, AU4 biểu thị sự co của hai cơ Corrugator supercilii và Depressor supercilii, làm hạ thấp lông mày FACS cung cấp một ngôn ngữ khách quan và toàn diện để mô tả biểu cảm khuôn mặt, liên kết chúng với các ý nghĩa đã được nghiên cứu trong khoa học hành vi FACS được ứng dụng rộng rãi trong việc tạo chuyển động cho khuôn mặt, giúp xác định các biểu cảm thể hiện cảm xúc dựa trên các đơn vị cử động này.

2.2.2 Nhận dạng biểu cảm khuôn mặt

Khi một người thể hiện cảm xúc, luôn có một số đặc trưng nhất định xuất hiện trên khuôn mặt, bất kể độ tuổi, vị trí địa lý hay điều kiện sống Những đặc trưng này cho phép chúng ta xác định và rút ra các đặc điểm quan trọng của cảm xúc, từ đó có thể mô hình hóa và "dạy" cho máy tính hiểu và nhận diện cảm xúc một cách chính xác.

Một số vấn đề cơ sở lý thuyết

Tất cả các đối tượng có những tính chất đặc trưng chung được phân nhóm thành các "lớp" Những tính chất này có thể được thể hiện qua một phần tử đại diện, gọi là "mẫu", để phản ánh các phần tử khác trong lớp Nhận dạng là quá trình phân biệt giữa các lớp khác nhau, tức là phân loại các đối tượng theo một mô hình nhất định và gán cho chúng một tên gọi dựa trên các quy luật và mẫu chuẩn.

2.3.2 Các bước cơ bản trong xây dựng hệ nhận dạng

Việc xây dựng hệ nhận dạng trong khoa học máy tính bao gồm ba bước cơ bản: (1) Mã hóa các đại lượng vật lý từ đối tượng cần nhận dạng thành bộ dấu hiệu đặc trưng, trong đó mỗi dạng x được xác định bởi các dấu hiệu x1, x2, , xn và được xem như một vector trong không gian Euclide n chiều Rn; (2) Lựa chọn các dấu hiệu đặc trưng điển hình và loại bỏ các dấu hiệu phụ để giảm kích thước và độ phức tạp tính toán; (3) Đánh giá các thông số đặc trưng nhằm xác định dạng của đối tượng trước khi tiến hành so khớp để đạt được nhận dạng chính xác.

Hệ nhận dạng bao gồm hai bộ phận chính: (1) Khối cảm biến, thiết bị chuyển đổi các đặc trưng vật lý thành dấu hiệu đặc trưng cho dạng, thực hiện việc mã hóa dạng; và (2) Khối phân lớp, thiết bị tiếp nhận các dạng đã mã hóa từ khối cảm biến, phân hoạch thành các lớp xác định và lưu trữ các dạng mẫu tương ứng vào bộ nhớ nhận dạng mới.

2.3.2.1 Các khái niệm cơ sở a) Không gian biểu diễn dạng

Không gian biểu diễn dạng X là tập hợp các dạng có thể có của đối tượng, có thể là hữu hạn hoặc vô hạn Giả sử có m dạng, trong đó dạng thứ i (i = 1, , m) được ký hiệu là A i, được biểu diễn bằng bộ n dấu hiệu đặc trưng A i = (x 1 , x 2 , , x n ) Mỗi x j (j = 1, , n) thể hiện một đặc trưng j của A i, từ đó xác định không gian X.

Không gian diễn dịch (Space of Interpretation) được ký hiệu là Ω, là tập hợp các tên gọi của các dạng được xác định trong không gian biểu diễn X Giả sử có m dạng được xác định trong X, với T i (i=1, , m) là tên gọi của dạng thứ i, không gian diễn dịch n sẽ được biểu diễn dưới dạng: Ω = {T 1 ,T 2 , ,T m }.

Từ hai khái niệm “Không gian biểu diễn dạng” và “Không gian diễn dịch”, ta có thể biểu diễn toán học của bài toán nhận dạng như sau: f: X → 

Ánh xạ f là tập hợp các quy tắc và tiêu chuẩn dùng để xác định mối liên hệ giữa một phần tử thuộc tập X và một phần tử trong tập  Ngoài ra, xác suất tiên nghiệm và mật độ phân phối xác suất cũng là những khái niệm quan trọng trong lĩnh vực xác suất.

Giả sử tập tất cả các lớp 𝛣 ⊂ ℜ 𝑛 đã được phân hoạch thành k lớp xác định

Trong bài toán phân lớp với các lớp B1, B2, , Bk, xác suất xuất hiện của một dạng x trong tập B được ký hiệu là p(B) Xác suất xuất hiện của x trong lớp Bi, ký hiệu là p(Bi), được gọi là "xác suất tiên nghiệm" của Bi, với i = 1, ,k, tức là xác suất đã biết trước Trong trường hợp các lớp có khả năng xuất hiện đồng đều, xác suất tiên nghiệm được xác định bằng p(Bi) = 1/k cho mọi i thuộc [1, k].

Mật độ phân phối xác suất dạng x vào lớp B i là một xác suất có điều kiện để phân lớp dạng x đúng vào lớp B i và được kí hiệu là p(B i / x)

2.3.2.2 Các phương pháp học trong nhận dạng

Trong quá trình lựa chọn biểu diễn dạng, có hai phương pháp chính: định lượng (mô hình tham số) và định tính (mô hình cấu trúc) Khi dạng được xác định, giai đoạn tiếp theo là học, nơi hệ thống được cung cấp tri thức nhằm cải thiện việc phân loại các dạng thành các lớp Nhận dạng liên quan đến việc tìm ra quy luật và thuật toán để gán đối tượng vào một lớp cụ thể Có hai loại học chính: học có giám sát và học không có giám sát Học có giám sát sử dụng kiến thức trước đó thông qua thư viện mẫu chuẩn để phân loại đối tượng, với các phương pháp như Hệ thống vector hỗ trợ (SVM), K láng giềng gần nhất (KNN), và Mạng nơron Trong khi đó, học không có giám sát không dựa vào mẫu chuẩn mà tìm kiếm cấu trúc trong dữ liệu.

Kỹ thuật học không giám sát yêu cầu tự xác định các lớp và tham số đặc trưng cho từng lớp, gây khó khăn hơn so với học có giám sát vì không biết trước số lượng và đặc điểm của các lớp Quá trình này bao gồm việc gộp nhóm và lựa chọn phương pháp tốt nhất từ tập dữ liệu, với nhiều thủ tục xử lý nhằm phân lớp và cải thiện để đạt được phân loại tối ưu Một số phương pháp trong nhóm học này bao gồm K-means, HAC (Hierarchical Agglomerative Clustering), DBSCAN và SOM (Self-Organizing Map).

Kỹ thuật này kết hợp ưu điểm của học có giám sát và không có giám sát để nâng cao độ chính xác trong nhận dạng Nó sử dụng thuật toán để học từ dữ liệu mẫu chuẩn và định nhãn cho các mẫu mới, đảm bảo chất lượng và độ chính xác Sau đó, những mẫu mới đáng tin cậy sẽ được gắn nhãn và thêm vào thư viện mẫu chuẩn, phục vụ cho quá trình đối sánh và nhận dạng sau này.

2.3.3 Phương pháp đánh giá Để đánh giá hiệu suất mô hình thực nghiệm thì cần dùng công thức như là độ chính xác (Precision), độ phản hồi (Recall) và điểm số F1 (F1-Score) Giá trị tính toán cho các thước đo này dựa vào ma trận nhầm lẫn mà mô hình nhận dạng được

Bảng 2.4 Ma trận nhầm lẫn tổng quát

Mô hình dự đoán Tích cực (Positive) Tiêu cực (Negative)

Mô hình dự đoán đúng

Mô hình dự đoán nhầm giá trị đúng thành sai

Mô hình dự đoán nhầm giá trị sai thành đúng

Mô hình dự đoán đúng Độ chính xác (Precision) – là mức độ gần của các phép đo, có giá trị gần với

Precision đạt giá trị tối đa khi số lượng true positives (TP) bằng số lượng true positives cộng false positives (TP + FP), tức là false positives (FP) bằng 0 Khi số lượng false positives tăng, mẫu số sẽ lớn hơn tử số, dẫn đến việc độ chính xác giảm Công thức tính Precision được định nghĩa rõ ràng trong (2.14).

Độ phản hồi (Recall) được tính bằng công thức TP / (TP + FN), trong đó TP là số lượng dự đoán đúng và FN là số lượng dự đoán sai Giá trị của Recall càng gần 1 thì phân loại càng tốt Recall đạt giá trị 1 khi số lượng dự đoán đúng bằng tổng số dự đoán đúng và sai, tức là TP = TP + FN, đồng nghĩa với FN bằng 0.

0 Khi giá trị FN tăng dẫn đến giá trị của Recall giảm Chỉ số này nhằm đánh giá mức độ tổng quát hóa mô hình tìm được và được xác định theo công thức (2.15)

Để đạt được kết quả phân loại tốt, cả hai thước đo Precision và Recall cần phải cao Tuy nhiên, việc điều chỉnh mô hình để tăng Recall quá mức có thể dẫn đến sự giảm của Precision và ngược lại Để cân bằng giữa Precision và Recall, F1-Score được sử dụng, được xác định theo công thức (2.16).

2.3.4 Kỹ thuật phát hiện khuôn mặt

Bộ cơ sở dữ liệu dùng trong nghiên cứu

2.4.1 Dữ liệu về biểu cảm khuôn mặt a FERC- 2013 (Facial Expression Recognition Challenge 2013)

Tập dữ liệu FERC-2013 [21] được giới thiệu tại hội nghị quốc tế vào năm

Tập dữ liệu chuẩn cho cuộc thi nhận dạng biểu cảm trên khuôn mặt được giới thiệu tại ICML 2013, bao gồm hơn 35.000 hình ảnh thang độ xám kích thước 4848 pixel Trong đó, 28.709 ảnh được sử dụng để huấn luyện và 7.178 ảnh để kiểm tra, phản ánh 7 loại biểu cảm khác nhau trên khuôn mặt người.

Bảng 2.5 Bảng phân bổ cảm xúc trong tập dữ liệu mẫu FERC-2013

Cảm xúc Số lượng ảnh Huấn luyện Kiểm tra Tỉ lệ (%)

Hình 2.18 Phân bổ số lượng cảm xúc trong tập dữ liệu FERC-2013

Tức giận Ghê tởm Sợ hãi Vui Buồn Ngạc nhiên Trung lập Tổng

Bảng 2.6 Một số ảnh mẫu trong tập dữ liệu FERC-2013 Vui

Trung lập b JAFFE (Japanese Female Facial Expression)

Bộ dữ liệu JAFFE đã đóng góp đáng kể cho lĩnh vực nhận diện biểu cảm khuôn mặt, được ứng dụng rộng rãi trong nhiều nghiên cứu và thử nghiệm nhằm đánh giá hiệu suất của các thuật toán nhận dạng và phân loại cảm xúc.

Bảng 2.7 Một số ảnh mẫu trong tập dữ liệu JAFFE Tức giận Ghê tởm Sợ hãi Vui Buồn Ngạc nhiên Trung lập

JAFFE, được phát triển bởi Michael Lyons, Miyuki Kamachi, Jiro Gyoba và trợ lý Reiko Kubota, là một bộ dữ liệu bao gồm 213 bức ảnh chụp tại Khoa Tâm lý của Đại học Kyushu Bộ dữ liệu này phản ánh sáu cảm xúc cơ bản: vui, buồn, ngạc nhiên, tức giận, ghê tởm, sợ hãi, cùng một cảm xúc trung lập Các hình ảnh có kích thước 256 x 256 pixel và được chụp trong điều kiện ánh sáng khác nhau, nhằm tái hiện chân thực các biểu hiện khuôn mặt.

2.4.2 Dữ liệu phát hiện trạng thái đóng/mở mắt a Talking face

Tập dữ liệu Talking Face chứa 5000 khung hình từ video của một người tham gia trò chuyện, được ghi lại với tốc độ 25 khung hình/giây và độ phân giải 720 × 576.

Bộ dữ liệu Eyeblink8 bao gồm 8 video với 4 đối tượng, trong đó có 1 người đeo kính, được ghi hình trong môi trường gia đình Các video ghi lại những hành động tự phát của mọi người trước máy quay, tương tự như tập dữ liệu Talking Face Tổng cộng có 408 lần nhấp nháy mắt được ghi nhận trên 70.992 khung hình với độ phân giải 640 × 480 Các tác giả đã thực hiện việc gán nhãn và chú thích hành vi mở và đóng mắt cho từng khung hình trong cả hai bộ dữ liệu.

HUST_LEBW là một cơ sở dữ liệu đa phương thức tự nhiên, bao gồm 673 mẫu video nháy mắt từ 172 đối tượng Mỗi clip chứa 13 khung hình, với các mẫu nhấp nháy và không nhấp nháy Tổng cộng có 381 lần nháy mắt trên 8.749 khung hình, với hai độ phân giải là 1280 × 720 và 1456 × 600 Bộ dữ liệu này đa dạng về tư thế, ánh sáng và các yếu tố tự nhiên khác, được công bố vào năm

2019 bởi [104] cho mục đích nghiên cứu về nháy mắt trong tự nhiên d ZJU

Tập dữ liệu ZJU bao gồm 80 video ngắn với 20 đối tượng, trong đó có cả người đeo kính và không đeo kính Các video được ghi lại trong nhà với tốc độ 30 khung hình/giây, tổng cộng có 264 lần chớp mắt trên 10,876 khung hình, với độ phân giải 320 × 240.

Bảng 2.8 Một số ảnh mẫu trong tập dữ liệu Talking Face, Eyeblink8, HUST-

Bảng 2.9 Thông tin về tập dữ liệu Talking Face, Eyeblink8, HUST-LEBW, ZJU

Tập dữ liệu Độ dài Độ phân giải Đối tượng

Kết chương

Chương này cung cấp cái nhìn tổng quan về việc phát hiện sự tham gia của người học, nhấn mạnh tầm quan trọng của sự tập trung trong giáo dục Nó đề cập đến các yếu tố và phương pháp đánh giá sự tập trung, cùng với các nghiên cứu liên quan và vấn đề lý thuyết cơ bản như lý thuyết nhận dạng và kỹ thuật xử lý ảnh số Những nội dung này tạo nền tảng cho việc phát triển kỹ thuật đánh giá mức độ tập trung, như kỹ thuật dựa trên thành phần khuôn mặt ở Chương 3 và kỹ thuật dựa trên hành vi khuôn mặt ở Chương 4.

NHẬN DẠNG BIỂU CẢM THÀNH PHẦN KHUÔN MẶT

Đánh giá sự tập trung dựa trên biểu hiện trên khuôn mặt

Nhận dạng biểu cảm khuôn mặt (FER) là nhiệm vụ phân loại hình ảnh nhằm xác định trạng thái cảm xúc của con người qua đặc điểm khuôn mặt FER đã thu hút sự chú ý lớn trong cộng đồng nghiên cứu thị giác máy tính Gần đây, nhiều nghiên cứu đã được thực hiện để phát hiện cảm xúc từ video và hình ảnh Một nghiên cứu đáng chú ý đã xây dựng mô hình dựa trên VGGNet bằng cách giảm số lớp, với kiến trúc mô hình được mô tả trong Hình 3.1.

Hình 3.1 Kiến trúc mô hình nhận dạng biểu hiện trên khuôn mặt

Mô hình kiến trúc đề xuất, như thể hiện trong Hình 3.1, bao gồm nhiều lớp tích chập, hàm gộp tối đa, một lớp làm phẳng, hai lớp ẩn kết nối dày đặc và một lớp softmax Phần khai thác tính năng được chia thành ba khối riêng biệt.

Mỗi khối trong mạng nơ-ron bao gồm hai lớp tích chập liên tiếp và một lớp gộp tối đa Khối đầu tiên bắt đầu với hình ảnh kích thước 48483 làm đầu vào cho lớp tích chập đầu tiên, bao gồm 32 hạt nhân kích thước 33 Các hạt nhân này hoạt động độc lập trên hình ảnh đầu vào, tạo ra 32 bản đồ đặc trưng phi tuyến tính Bản đồ đối tượng địa lý phi tuyến tính được hình thành nhờ hàm kích hoạt phi tuyến tính, trong đó ReLU được sử dụng làm chức năng kích hoạt chính.

Bảng 3.1 Chi tiết mô hình nhận dạng cảm xúc trên khuôn mặt [17]

CNN block CNN Layer Number of kernels Input size Output size

Trong quá trình xử lý, 32 bản đồ đối tượng địa lý phi tuyến tính được sử dụng làm đầu vào cho lớp tích chập thứ hai, nơi chúng được xử lý tương tự như lớp đầu tiên để tạo ra 32 bản đồ phi tuyến tính mới Phép toán tích chập kép này nhằm cải thiện tính phi tuyến tính, giúp mô hình phát hiện các bản đồ tính năng phân biệt giữa các lớp một cách mạnh mẽ Tiếp theo, lớp gộp tối đa hoạt động độc lập trên từng bản đồ để tạo ra 32 bản đồ đối tượng được lấy mẫu xuống Tốc độ lấy mẫu giảm phụ thuộc vào kích thước hạt nhân và bước trượt; với kích thước hạt nhân và khoảng cách là 22, các bản đồ sẽ được giảm xuống còn một nửa kích thước ban đầu Sau khi hoàn thành Block 1, mô hình thu được 32 bản đồ đặc trưng có kích thước 2424 mỗi bản đồ.

Các bản đồ tính năng tổng hợp được sử dụng làm đầu vào cho khối thứ hai, nơi tạo ra 64 bản đồ đặc trưng kích thước 12×12 Khối thứ ba tiếp nhận 64 bản đồ này và sản xuất 128 bản đồ kích thước 6×6 Lớp làm phẳng đóng vai trò là đầu vào cho khối phân loại, trong đó chứa một mạng nơ-ron kết nối đầy đủ với hai lớp ẩn mỗi lớp có kích thước 1024 và một lớp đầu ra với bảy tế bào thần kinh cho bảy lớp cảm xúc, sử dụng hàm softmax để tính toán xác suất Mô hình còn được trang bị các lớp chuẩn hóa hàng loạt và Drop-out nhằm cải thiện tốc độ tính toán và ngăn chặn hiện tượng quá mức.

3.1.2.1 Cơ sở dữ liệu thực nghiệm Để đánh giá nhận dạng cảm xúc trên khuôn mặt với độ chính xác cao, chúng ta cần có bộ dữ liệu chuẩn và được nhiều công trình nghiên cứu sử dụng Chất lượng bộ dữ liệu rất quan trọng sẽ làm ảnh hưởng đến kết quả cho quá trình thực nghiệm và đánh giá các phương pháp nhận dạng cảm xúc trên khuôn mặt Trong phần thực nghiệm này, Luận án sử dụng bộ cơ sở dữ liệu chuẩn FERC-2013 và được trình bày chi tiết trong Chương 2

3.1.2.2 Phương pháp đánh giá và kết quả thực nghiệm

Luận án thực nghiệm sử dụng bộ dữ liệu chuẩn FERC-2013 để đánh giá hiệu suất mô hình Các thước đo quan trọng như độ chính xác (Precision), độ phản hồi (Recall) và điểm số F1 (F1-Score) được áp dụng để đánh giá Giá trị của các thước đo này được tính toán dựa trên ma trận nhầm lẫn mà mô hình nhận dạng Chi tiết về các công thức tính toán được trình bày trong Chương 2.

Hình 3.2 Một số cảm xúc được phát hiện từ chương trình

(a) Đồ thị biểu diễn mất mát dữ liệu của tập huấn luyện và tập đánh giá;

(b) Đồ thị biểu diễn độ chính xác của tập huấn luyện và tập đánh giá

Hình 3.3 Kết quả huấn luyện từ chương trình

Bảng 3.2 Ma trận nhầm lẫn trên tập dữ liệu kiểm tra của FERC-2013

Sợ hãi Vui Buồn Ngạc nhiên

Trong bảng trên, tiêu đề cột chỉ ra nhãn dự đoán, trong khi tiêu đề dòng thể hiện nhãn thực tế Các giá trị trên đường chéo chính phản ánh kết quả nhận diện đúng của mô hình cho từng lớp, trong khi các giá trị khác cho thấy sự nhầm lẫn giữa các biểu cảm khác nhau.

Trong tập dữ liệu kiểm tra có 958 hình ảnh với biểu cảm Tức giận, mô hình nhận dạng chính xác 555 hình ảnh này Tuy nhiên, có 14 hình ảnh bị nhận dạng sai thành biểu cảm Ghê tởm và một số hình ảnh khác bị nhầm lẫn với biểu cảm Sợ hãi.

Trong một nghiên cứu về cảm xúc, số liệu cho thấy cảm xúc buồn chiếm ưu thế với 154 trường hợp, theo sau là cảm xúc trung lập với 84 trường hợp Cảm xúc vui chỉ có 44 trường hợp, trong khi cảm xúc ngạc nhiên là 17 Đặc biệt, khi nhận dạng sai từ các biểu cảm khác sang biểu cảm tức giận, cảm xúc ghê tởm có 26 trường hợp, sợ hãi 153, vui 33, buồn 134, ngạc nhiên 20 và trung lập 68.

Vậy các giá trị độ đo Precision, Recall và F1-Score của biểu cảm Angry được tính như sau:

Kết quả từ Bảng 3.3 cho thấy các giá trị độ đo mà mô hình nhận dạng đạt được trên tập dữ liệu kiểm tra, tương tự như các cảm xúc khác.

Bảng 3.3 Kết quả chạy thử nghiệm trên tập dữ liệu kiểm tra của FERC-2013

3.1.3 Phân loại tập trung a) Chỉ số tập trung – Concentration Index (CI)

Sự tham gia của người học có thể được đánh giá thông qua việc phân tích trạng thái tình cảm, bao gồm tâm trạng và cảm xúc, dựa vào biểu hiện trên khuôn mặt Phương pháp này giúp ước lượng mức độ tham gia tổng thể của người học Chỉ số đo lường mức độ tập trung được thể hiện qua một công thức cụ thể.

- DEP (Dominant Emotions Probability): là giá trị thể hiện cảm xúc trên khuôn mặt được dự đoán từ mô hình nhận dạng (CNN)

Trọng số cảm xúc (EW) là giá trị thể hiện mức độ trạng thái cảm xúc cụ thể, phản ánh mức độ tập trung của người học tại một thời điểm nhất định Giá trị EW dao động trong khoảng từ 0 đến 1, như đã được trình bày trong các nghiên cứu [19] [20].

Tác giả đã tiến hành khảo sát 30 sinh viên thông qua video với các câu hỏi đã chuẩn bị sẵn, ghi lại dữ liệu về cảm xúc trên khuôn mặt của họ Sinh viên được phân loại thành bảy nhóm cảm xúc dựa trên biểu cảm chính mà họ thể hiện trong video; ví dụ, nếu một sinh viên có biểu cảm trung lập hơn 50% thời gian, họ sẽ được xếp vào nhóm cảm xúc trung lập Điểm trung bình trong khảo sát cho mỗi cảm xúc được tính toán và trình bày trong Bảng 3.4, cho thấy mối quan hệ giữa mức độ tập trung của sinh viên và trạng thái cảm xúc của họ.

Bảng 3.4 Cảm xúc và trọng số tương ứng [19] [20]

STT Cảm xúc Trọng số (EW) CI

2 Hạnh phúc, vui mừng 0.6 (DEP  0.6)  100

7 Sợ hãi 0.3 (DEP  0.3)  100 b) Phân loại

Theo nghiên cứu, sự tham gia của người học được phân loại thành ba mức độ: không tập trung, tập trung thấp và tập trung cao Những mức độ này phản ánh mức độ gắn kết cảm xúc của người học trong quá trình nghe giảng, tương ứng với các cảm xúc cơ bản khác nhau.

Kỹ thuật phân rã biểu cảm thành phần cơ bản

Một trong những yếu tố quan trọng ảnh hưởng đến chất lượng mô hình nhận dạng cảm xúc trên khuôn mặt là bộ dữ liệu huấn luyện Bộ dữ liệu chuẩn FERC-2013 chỉ bao gồm các cảm xúc cơ bản, trong khi cảm xúc trong học tập thường là hỗn hợp Do đó, việc phân rã biểu cảm thành các thành phần cơ bản là cần thiết để nâng cao độ chính xác trong nhận dạng và hiểu rõ hơn về cảm xúc của người học Phân rã biểu cảm là một bài toán quan trọng trong nghiên cứu và phát triển ứng dụng đánh giá mức độ tham gia của người học dựa trên cảm xúc Trong quá trình học, người học tiếp nhận thông tin từ giáo viên và bạn bè, dẫn đến cảm xúc của họ có thể thay đổi theo từng thời điểm, thể hiện dưới dạng hỗn hợp hoặc đơn lẻ với những biến dạng tương ứng.

Hình 3.4 Một số hình ảnh minh họa cảm xúc hỗn hợp [105]

Biến dạng mà chúng ta quan sát hàng ngày, như độ dãn của sợi mì khi nhúng vào nước nóng, chứa đựng các mô hình toán học riêng Biểu cảm trên khuôn mặt người cũng có thể được xem như biến dạng của một khối vật thể 3D, bao gồm tập hợp các điểm trong không gian ba chiều cùng với các mối quan hệ về cạnh và bề mặt giữa chúng Tùy thuộc vào từng nghiên cứu và ứng dụng cụ thể, mô hình 3D có thể được bổ sung thêm các tính năng khác nhau.

Biến dạng mô hình 3D là quy tắc thay đổi thông tin trên một mô hình, thường được xem xét dưới dạng độ biến thiên tương đối giữa các điểm trong mô hình Chẳng hạn, khi chuyển đổi mô hình khuôn mặt 3D từ biểu cảm trung lập sang biểu cảm cười, số điểm và quan hệ cạnh, bề mặt giữa các điểm vẫn cố định, chỉ có sự thay đổi tọa độ của các điểm Cụ thể, khi cười, các điểm khóe miệng sẽ giãn ra và di chuyển lên trên.

Hình 3.5 Biến dạng mô hình khuôn mặt của nhân vật trong dự án Sintel [106]

Nhóm nghiên cứu của V Blanz đã phát triển một mô hình thống kê khuôn mặt từ dữ liệu quét laser 3D trên máy Cyberware 3030ps, cho phép thực hiện các phép biến đổi mô hình phù hợp với khuôn mặt trong hình ảnh đầu vào Qua đó, các tham số mô hình sẽ đại diện cho khuôn mặt cụ thể, hỗ trợ phân tích sâu về dữ liệu khuôn mặt trong mô hình 3D, bao gồm cả phân tích cảm xúc và nhận dạng khuôn mặt.

Hình 3.6 Dữ liệu khuôn mặt trong nghiên cứu của nhóm V Blanz [107]

Weiyue Wang và cộng sự đã phát triển một kỹ thuật tạo biến thể của mô hình 3D, trong đó mô hình đích được biểu diễn dưới dạng hình ảnh 2D hoặc 3D Tác giả thực hiện biến dạng lưới nguồn để làm cho nó giống với mô hình đích nhất có thể, đồng thời giữ cố định cấu trúc liên kết tam giác của lưới nguồn và chỉ cập nhật các vị trí đỉnh.

Groueix và cộng sự đã đề xuất Mạng biến dạng hình dạng, một giải pháp toàn diện để so khớp hình dạng dựa trên mẫu, cho phép căn chỉnh hình mẫu với hình dạng đầu vào Dương và cộng sự giới thiệu Foldingnet, biến dạng lưới 2D thành đám mây điểm 3D mà vẫn giữ thông tin địa phương Huỳnh Cao Tuấn và cộng sự phát triển thuật toán tự động xác định điểm chính và phân cụm biến dạng tương tự bằng kỹ thuật hàm cơ bản hướng tâm (RBF) nhằm cải thiện biến dạng khuôn mặt 3D Nghiên cứu cũng đề cập đến việc tổng hợp mô hình khuôn mặt từ tập hợp các mô hình bề mặt cơ bản, sử dụng bộ mô hình mẫu bao gồm mô hình khuôn mặt trung tính và các mô hình thể hiện trạng thái biểu cảm cụ thể, với kết quả là mô hình được tạo ra thông qua tổng hợp tuyến tính.

Nghiên cứu biến dạng mô hình 3D được thực hiện dựa trên phương pháp ngược lại của nghiên cứu trước đó [112] Luận án đề xuất một kỹ thuật phân tách có điều kiện các biến thể mô hình 3D, sử dụng một tập hợp quan sát 3D cụ thể và trọng số biến dạng đầu vào Kỹ thuật này cho phép tạo ra một biến thể mô hình 3D mới một cách đơn giản và trực quan.

Kỹ thuật được đề xuất sẽ phân tích nhãn trọng số của dữ liệu mô hình 3D cho từng loại biến dạng cụ thể Kết quả của kỹ thuật này là một bộ các mô hình cơ bản tương ứng với các loại biến dạng khác nhau.

Các biến thể của mô hình 3D được thể hiện dưới dạng sau:

- s là biến thể của mô hình được tổng hợp;

- m là model pattern, có thể hiểu là model cân bằng giữa các biến dạng;

- 𝑒 𝑖 là mô hình offset tương ứng với biến dạng i;

- 𝛼 𝑖 là trọng lượng ứng với biến dạng i;

- n là số loại biến dạng của mô hình

Phương trình này đại diện cho các biến thể của mô hình, do đó, để tổng hợp mô hình, cần có dữ liệu từ vế phải của công thức (3.4) Tập hợp các mô hình cơ bản bao gồm m và 𝑒 𝑖 là dữ liệu đã được xác định trước, trong khi 𝛼 𝑖 là trọng số biến dạng.

3.2.2.2 Bài toán bình phương tối thiểu

Trong bài toán này, mục tiêu là ước lượng một tập hợp các mô hình cơ bản bằng cách tính toán các tham số m và 𝑒 𝑖 Để thực hiện điều này, chúng ta cần dữ liệu đầu vào của các biến thể s cùng với các giá trị trọng số 𝛼 𝑖 tương ứng Tập dữ liệu đầu vào được mô hình hóa dưới dạng ma trận theo công thức đã nêu.

- S là tập các mẫu đầu vào, mỗi mẫu được coi là một vectơ 1×L, tập S gồm N mẫu, S là ma trận N×L

- M là một ma trận N×L, trong mô hình này m được sao chép N lần và được xếp trên mỗi dòng

- A là trọng số biến dạng N×n của ma trận

- E là một ma trận n×L là các mô hình bù

Nếu M là giả định, công thức (3.6) sẽ trả về:

Do, các giá trị trọng lượng biến dạng α i là các giá trị không âm nên để tìm E, nghiệm của phương trình (3.6) được chuyển thành bình phương tối thiểu [113]

3.2.3 Thuật toán phân rã Đầu vào S, A Đầu ra m, E

Hình 3.8 Lưu đồ giải thuật phân rã

Việc ước lượng tập của mô hình cơ sở được thực hiện thông qua quy trình lặp tối ưu, bắt đầu bằng việc khởi tạo mô hình mẫu m từ trung bình các mô hình biến thể trong tập dữ liệu đầu vào S, trong khi các mô hình bổ sung được khởi tạo bằng 0 Trong mỗi lần lặp, các mô hình m được nhân đôi để tạo ra ma trận M, và luận án được giải quyết bằng phương pháp bình phương nhỏ nhất không âm nhằm tạo ra tập hợp các mô hình bổ sung mới E_new Tập hợp E_new sau đó được sử dụng để tính toán lại mô hình mới m_new thông qua việc tính toán ma trận.

M_new và lấy trung bình cộng để thu được m_new

Sau khi tính toán giá trị E_new và m_new ở mỗi bước lặp, luận án tiến hành xác định sai lệch của từng bước cập nhật cho hai giá trị: sai lệch E1 của mô hình bù và sai số lệch E2 của mô hình mẫu Nếu tổng các độ lệch này đủ nhỏ, điều đó có nghĩa là quá trình lặp đã không còn cập nhật mô hình bổ sung và mô hình mẫu, dẫn đến việc thuật toán sẽ kết thúc.

Trong chương trình thực nghiệm, phương pháp bình phương tối thiểu được sử dụng từ thư viện Eigen, nổi bật trong lĩnh vực tính toán đại số tuyến tính Kỹ thuật này đã được áp dụng trên tập dữ liệu JAFFE, trong đó đối tượng 3D là một mô hình khuôn mặt với 6736 bề mặt và 3448 đỉnh, được tạo ra tương ứng với từng mẫu trong cơ sở dữ liệu.

Hình 3.9 Mô hình khuôn mặt 3D trong tập dữ liệu JAFFE

Thuật toán được sử dụng để phân tách mô hình khuôn mặt 3D dựa trên các tham số cảm xúc, với mỗi độ lệch mẫu tương ứng với một biểu thức cụ thể trong tập dữ liệu đầu vào Để giảm thiểu ảnh hưởng của yếu tố khác, thử nghiệm được thực hiện trên dữ liệu của một cá nhân Kết quả đầu vào là tập hợp các mô hình 3D của khuôn mặt, kèm theo trọng số thể hiện mức độ của từng loại biểu cảm, trong khi đầu ra là mô hình khuôn mặt và mẫu bù cho từng biểu cảm cụ thể.

Hình 3.10 Tổng hợp một số khuôn mặt ngẫu nhiên

Hình 3.11 Tiến trình xử lý

Trong quá trình thử nghiệm, cả mô hình mẫu và mô hình bổ sung đều hội tụ với sai số lệch gần bằng 0 sau hơn 200 vòng lặp Kết quả này được sử dụng để tổng hợp ngẫu nhiên mô hình khuôn mặt, trong đó mỗi giá trị trong tập trọng số biểu thức được lấy ngẫu nhiên trong khoảng [0, 1].

Kết chương

Để đạt độ chính xác cao trong kỹ thuật đánh giá dựa trên biểu hiện khuôn mặt, cần có một tập dữ liệu huấn luyện chuẩn xác về các cảm xúc của người học Tuy nhiên, hiện tại vẫn thiếu hụt các tập dữ liệu mẫu về cảm xúc trên khuôn mặt.

Cảm xúc của người học được hình thành từ các cảm xúc cơ bản, và sự khan hiếm dữ liệu ảnh hưởng đến chất lượng mô hình nhận dạng Để khắc phục hạn chế này, luận án đề xuất kỹ thuật phân tách có điều kiện cho các biến thể mô hình 3D dựa trên tập hợp quan sát 3D nhất định của đối tượng Thuật toán đã chứng minh tính hiệu quả trong việc phân rã biểu cảm của người học, từ đó nâng cao độ chính xác cho mô hình nhận dạng biểu cảm khuôn mặt, phục vụ cho việc đánh giá mức độ tham gia của người học thông qua nét mặt.

NHẬN DẠNG BIỂU CẢM HÀNH VI KHUÔN MẶT

Phát hiện mắt người trong ảnh

Sau khi nhận diện khuôn mặt, 68 tọa độ tương ứng với các đặc điểm trên khuôn mặt được trích xuất bằng mô hình phát hiện điểm mốc từ thư viện Dlib Để nhận diện mức độ tập trung, chỉ cần sử dụng các điểm mốc liên quan đến trạng thái đóng/mở của mắt Cụ thể, mắt trái được trích xuất từ tọa độ 36 đến 41, trong khi mắt phải từ tọa độ 42 đến 47 Việc theo dõi trạng thái của mắt được thực hiện dựa trên 12 điểm mốc này và sẽ được trình bày chi tiết trong phần tiếp theo.

Hình 4.1 Dấu mốc trên khuôn mặt [24]

Đánh giá sự tập trung dựa trên trạng thái mắt

Để đánh giá sự tập trung của người học, ba nhiệm vụ chính được thực hiện: (i) xác định hành vi chớp mắt trong video; (ii) ước lượng mức độ buồn ngủ dựa trên hành vi chớp mắt và Bảng 4.1; (iii) đánh giá sự tập trung dựa vào mức độ buồn ngủ và Bảng 4.2 để đưa ra quyết định.

Hình 4.2 Sơ đồ luồng đánh giá sự tập trung

Trong công việc được trình bày ở Hình 4.2, có hai bài toán chính là phát hiện khuôn mặt và phát hiện mắt của người học trong ảnh.

4.2.1 Cơ sở lý thuyết của kỹ thuật đánh giá

Mức độ buồn ngủ được xác định qua nhiều yếu tố, bao gồm tỷ lệ khung hình và thời gian mắt đóng Mỗi mức độ buồn ngủ tương ứng với các biểu hiện và hành vi cụ thể, cùng với thời gian mắt đóng khác nhau Đặc biệt, tốc độ đóng mở mắt cũng là yếu tố quan trọng; người tỉnh táo thường có mắt đóng mở nhanh, trong khi người mệt mỏi hay buồn ngủ có xu hướng đóng mắt chậm.

Hình 4.3 Thời gian mắt mở đến khi mắt đóng hoàn toàn

Dựa trên dữ liệu Talking Face 1 với máy ảnh ghi hình 24fps, trạng thái mắt đóng hoàn toàn xuất hiện tại khung hình thứ tư, dẫn đến thời gian đóng mắt hoàn toàn là một yếu tố quan trọng trong phân tích chuyển động.

1 https://personalpages.manchester.ac.uk/staff/timothy.f.cootes/data/talking_face/talking_face.html

- 𝑁 𝑘ℎ𝑢𝑛𝑔_ℎì𝑛ℎ là số lượng khung hình tính từ khung có trạng thái mắt mở đến khung có trạng thái mắt đóng hoàn toàn (trường hợp này là 4)

- 𝑓𝑝𝑠 (frames per second) là số lượng khung hình trên mỗi giây, giá trị này thay đổi tùy vào máy ghi hình (trong trường hợp này là 24)

Nên theo (4.1) giá trị 𝑇 𝑚ắ𝑡_đó𝑛𝑔 = (4  1000) / 24  170 ms

Hình 4.4 Minh họa thời gian mắt mở đến khi mắt đóng hoàn toàn

Trước khi ước lượng mức độ buồn ngủ, cần loại bỏ các đoạn video có mắt đóng nhanh (T mắt_đóng ≤ 170ms) và thời lượng mắt đóng ngắn (Thời gian < 1s), vì chúng không ảnh hưởng đến quá trình tham gia và được xem là tập trung Kỹ thuật chỉ tập trung vào các đoạn video có mắt đóng chậm (T mắt_đóng > 170ms) và thời gian mắt đóng dài (Thời gian ≥ 1s).

Bảng 4.1 Sự tương quan giữa mức độ buồn ngủ và hành vi [114]

Thức giấc/Tỉnh táo (Không buồn ngủ): Thời lượng mắt đóng 0.2

Hơi buồn ngủ EAR < 0.2 AND Thời lượng  [1s, 2s)

Ngủ gật EAR < 0.2 AND Thời lượng  [2s, 4s)

Bắt đầu giấc ngủ EAR < 0.2 AND Thời lượng ≥ 4s

Trong đó, EAR [16] là mức độ đóng/mở của mắt được tính theo tỷ lệ giữa chiều cao và chiều rộng của mắt như sau:

Trong đó:𝑝 1 , 𝑝 2 , 𝑝 3 , 𝑝 4 , 𝑝 5 , 𝑝 6 là các tọa độ của mắt

(a) Tỷ lệ khung hình của mắt khi mở; (b) Tỷ lệ khung hình của mắt khi đóng

Hình 4.5 Tọa độ và tỷ lệ khung hình của mắt

Sau khi tính toán được giá trị EAR, theo [16], để xác định mắt đóng hay mở, tác giả so sánh với một ngưỡng (threshold = 0.2) như sau:

Theo Bảng 4.2, luận án phân loại 4 lớp thể hiện mức độ buồn ngủ từ cấp độ 1 đến 4, với hai yếu tố quan trọng là EAR và Thời lượng (s) Mô hình này được xây dựng để xác định mức độ buồn ngủ một cách chính xác.

Hình 4.6 Mô hình ước lượng mức độ buồn ngủ

4.2.2 Đánh giá sự tập trung dựa vào mức độ buồn ngủ

Dựa vào bảng Bảng 4.3 luận án xây dựng thang độ đánh giá sự tập trung cho hệ thống gồm 3 mức độ

Bảng 4.3 Mức độ tập trung

STT Mức độ buồn ngủ Mức độ tập trung

1 Thức giấc/Tỉnh táo Tập trung cao

2 Hơi buồn ngủ Tập trung thấp

Mất tập trung Bắt đầu giấc ngủ

Hệ thống phân tích đánh giá sự tập trung của người học yêu cầu một quá trình liên tục, từ khi bắt đầu đến khi kết thúc video Khác với các hệ thống như phát hiện ngủ gật khi lái xe, chỉ cảnh báo tại thời điểm tài xế mất tập trung, hệ thống này cần đánh giá liên tục để đưa ra kết luận chính xác Điều này được đặt ra nhằm đảm bảo tính chính xác và hiệu quả trong việc theo dõi sự tập trung của người học.

Đánh giá sự tập trung của người học chỉ dựa vào khung hình hiện tại là không chính xác, vì có thể tại khung hình thứ i, người học đã mất tập trung, nhưng đến khung hình thứ k, họ lại lấy lại sự chú ý.

Trong quá trình học tập, người học thường trải qua nhiều mức độ tập trung khác nhau tại các thời điểm khác nhau Do đó, việc đánh giá toàn bộ quá trình học tập chỉ dựa vào kết quả phân tích hiện tại là không hợp lý.

Người học thường duy trì sự tập trung trong suốt quá trình học, nhưng có thể có hành vi như nhắm mắt ở khung hình cuối cùng, hoặc ngược lại Vì vậy, việc đánh giá dựa vào khung hình cuối cùng không chính xác.

Kỹ thuật phát hiện trạng thái đóng/mở mắt

4.3.1 Giới thiệu Để phát hiện trạng thái đóng/mở của mắt, kỹ thuật cần thực hiện các công việc liên quan như sau: phát hiện khuôn mặt người trong ảnh, phát hiện vùng mắt Để phát hiện khuôn mặt người, Luận án sử dụng kỹ thuật được đề xuất bởi [22]; để phát hiện mắt người trong ảnh, Luận án sử dụng các dấu mốc trên khuôn mặt (Facial Landmarks) được trích xuất từ 68 điểm tương ứng với các đặc điểm trên khuôn mặt được ước tính bằng cách sử dụng mô hình phát hiện dấu mốc được đào tạo trước từ thư viện Dlib [24]

Kỹ thuật này hoạt động hiệu quả cho các ứng dụng yêu cầu thời gian thực, tuy nhiên vẫn còn một số hạn chế cần được cải thiện.

4.3.2 Cơ sở lý thuyết của phương pháp cần cải tiến

Kỹ thuật đánh giá mức độ tham gia của người học dựa trên trạng thái đóng/mở của mắt đã được trình bày trong phần 4.2 Việc xác định trạng thái của mắt được thực hiện thông qua tỷ lệ giữa chiều cao và chiều rộng của mắt Để tính toán tỷ lệ khung hình của mắt, mắt của người được biểu thị bằng 6 điểm, bắt đầu từ góc trái và được đánh dấu theo chiều kim đồng hồ, mỗi điểm đại diện cho một tọa độ trong không gian 2D.

𝑝 1 (𝑥 1 , 𝑦 1 ) và tương ứng cho các điểm còn lại từ 𝑝 2 đến 𝑝 6

(a) Tỷ lệ khung hình của mắt khi mở; (b) Tỷ lệ khung hình của mắt khi đóng

Hình 4.13 Tọa độ và tỷ lệ khung hình của mắt

Chiều rộng của mắt là khoảng cách giữa điểm 𝑝 1 và 𝑝 4 được xác định như công thức (4.6) theo Euclid

Chiều cao của mắt được xác định bằng khoảng cách giữa các cặp điểm (𝑝2, 𝑝6) và (𝑝3, 𝑝5) theo phương pháp Euclid Khoảng cách từ 𝑝1 đến 𝑝4 luôn là hằng số, trong khi chiều cao của mắt thay đổi tùy thuộc vào mức độ mở hoặc nhắm của mắt Để phát hiện sự nhấp nháy, ta tính tỷ lệ giữa chiều cao trung bình và chiều dài của mắt, tỷ lệ này gần như không đổi khi mắt mở và nhanh chóng giảm xuống 0 khi mắt đóng Công thức tỷ lệ khung hình của mắt, được ký hiệu là EAR (Eye Aspect Ratio), được xác định như sau:

Trong đó: 𝑝 1 , 𝑝 2 , 𝑝 3 , 𝑝 4 , 𝑝 5 , 𝑝 6 đại diện cho các tọa độ tương ứng trên mắt

- Với mắt trái bao gồm các tọa độ từ 𝑝 36 đến 𝑝 41 , mắt phải bao gồm các tọa độ từ 𝑝 42 đến 𝑝 47 tính theo chiều kim đồng hồ (xem Hình 4.14)

Phương pháp sử dụng 68 điểm đặc trưng trên khuôn mặt có ưu điểm là dễ cài đặt và không yêu cầu đào tạo trước về dữ liệu mắt đóng hay mở, phù hợp cho các ứng dụng thời gian thực Tuy nhiên, phương pháp này gặp hạn chế khi phải so sánh với một ngưỡng cố định, không phản ánh đầy đủ đặc trưng mắt của từng người, dẫn đến thiếu chính xác trong một số trường hợp phát hiện Để khắc phục vấn đề này, luận án đề xuất cải tiến bằng cách xác định ngưỡng tự động dựa trên đặc trưng mắt của mỗi đối tượng.

4.3.3 Cải tiến kỹ thuật phát hiện trạng thái đóng/mở mắt dựa vào biến thiên tỷ lệ khung hình

Do kích thước mắt khác nhau giữa các cá nhân, việc so sánh hành vi đóng/mở mắt bằng cách sử dụng giá trị EAR với ngưỡng cố định sẽ dẫn đến thiếu chính xác Một người có đôi mắt lớn và một người có đôi mắt nhỏ có thể không có cùng chiều cao và tọa độ, gây khó khăn trong việc xác định trạng thái mắt Để khắc phục vấn đề này, luận án đề xuất giải pháp xác định hành vi đóng/mở mắt một cách linh động, dựa trên độ biến thiên của khung hình chứa mắt của từng cá nhân.

Khung hình chứa mắt ở trạng thái bình thường

Khung hình chứa mắt hiện hành

Giả sử hành vi đóng/mở mắt ở người diễn ra đồng thời ở cả hai mắt, tỷ lệ khung hình cho mắt trong trạng thái bình thường và trạng thái hiện hành được xác định như sau:

Trong đó: 𝐸𝐴𝑅 𝑀𝐴𝑋_𝐿 là tỷ lệ khung hình bình thường của mắt trái

Tỷ lệ khung hình bình thường của mắt phải được gọi là 𝐸𝐴𝑅 𝑀𝐴𝑆𝑆_𝑅, trong khi tỷ lệ khung hình hiện hành của mắt trái được xác định là 𝐸𝐴𝑅 𝐶𝑈𝑅𝑅𝐸𝑁𝑇_𝐿 Đối với mắt phải, tỷ lệ khung hình hiện hành được ký hiệu là 𝐸𝐴𝑅 𝐶𝑈𝑅𝑅𝐸𝑁𝑇_𝑅.

Cuối cùng, để ra quyết định mắt đóng hay mở, kỹ thuật so sánh giá trị 𝐸𝐴𝑅̅̅̅̅̅̅

Hình 4.15 Biến thiên tỷ lệ của khung hình trong hành vi đóng/mở mắt

4.3.3.1 Lưu đồ giải thuật của Blink detection+

Hình 4.16 Lưu đồ giải thuật phát hiện trạng thái đóng/mở mắt

4.3.3.2 Độ phức tạp của thuật toán

Thời gian thực hiện thuật toán bao gồm các bước quan trọng như trích xuất khung hình từ video, xác định hành vi mở và nhắm mắt của các đối tượng trong khung hình, cùng với công thức tính tỷ lệ của mắt.

Gọi: l v là thời lượng của video n o là số đối tượng trong mỗi khung hình

Bảng 4.5 Độ phức tạp của thuật toán

STT Bước xử lý Thời gian

1 Trích xuất các khung hình O(𝑙 𝑣 )

2 Phát hiện khuôn mặt của mỗi mỗi đối tượng O(𝑛 𝑜 )

3 Trích xuất điểm đặc trưng trên khuôn mặt O(1)

Xác định tọa độ các điểm thuộc về mắt O(1)

Tính toán khung hình hiện tại chứa mắt O(1)

So sánh khung hình hiện tại với khung hình cực đại chứa mắt O(1)

Phương pháp phát hiện nháy mắt Blink detection+ được so sánh với các phương pháp [16], [115] và [116] dựa trên bốn tập dữ liệu: Talking Face, Eyeblink8, HUST-LEBW và ZJU, chi tiết về các tập dữ liệu này được trình bày trong Chương 2 Kết quả thực nghiệm của kỹ thuật này được thể hiện trong Bảng 4.6.

Hiệu suất của kỹ thuật được đánh giá bằng các công thức sau:

Bảng 4.6 Kết quả thực nghiệm

Tập dữ liệu SA EC TP FP FN Pre Recall F1-Score

− EC: Số lượng mắt đóng

Hình 4.17 Kết quả thực nghiệm của kỹ thuật cải tiến trên các tập dữ liệu Talking face, Eyeblink8, HUST_LEBW, ZJU

Biểu đồ cho thấy rằng Blink detection+ hoạt động hiệu quả trên các tập dữ liệu Talking face, Eyeblink8 và ZJU, nhưng lại gặp khó khăn với tập dữ liệu HUST_LEBW Điều này là do HUST_LEBW chứa nhiều thách thức từ môi trường tự nhiên, như việc đeo kính râm và hình ảnh bị nghiêng.

Bảng 4.7 Kết quả so sánh với các giải pháp

Giải pháp Tập dữ liệu Precision Recall F1-Score

Talking face Eyeblink8 HUST_LEBW ZJU

Hình 4.18 Biểu đồ so sánh kỹ thuật cải tiến so với công trình [16]

Phương pháp đề xuất trong bài viết này cho thấy độ chính xác cao hơn so với các phương pháp trước đó, nhờ vào việc sử dụng các dấu mốc để ước tính chính xác mức độ đóng/mở của mắt Tuy nhiên, phương pháp này vẫn gặp phải một số khuyết điểm, đặc biệt là khi đối tượng nghiêng đầu qua trái hoặc phải, dẫn đến việc không nhận dạng được hoàn toàn khuôn mặt và bỏ sót một số trường hợp trong quá trình phát hiện.

Kết chương

Phương pháp đánh giá mức độ tham gia của người học thông qua trạng thái đóng/mở của mắt có thể áp dụng hiệu quả trong cả môi trường học truyền thống và trực tuyến Tuy nhiên, phương pháp này gặp phải một số hạn chế, bao gồm việc cần hiệu chỉnh mắt để đạt độ chính xác cao, cũng như hạn chế chuyển động của người tham gia trong phạm vi theo dõi mắt, điều này khó thực hiện trong môi trường giáo dục thực tế Thêm vào đó, việc xác định hành vi đóng/mở của mắt phải dựa vào một ngưỡng cố định, điều này không phù hợp do đặc trưng mắt của mỗi người là khác nhau.

Trong phần này của Luận án, chúng tôi đề xuất một kỹ thuật phát hiện trạng thái đóng/mở của mắt dựa trên tỷ lệ khung hình chữ nhật chứa mắt Kỹ thuật này linh hoạt trong việc xác định ngưỡng khi xảy ra đóng mắt, phù hợp với mọi đối tượng Kết quả thử nghiệm cho thấy điểm số F1-Score vượt trội hơn so với các phương pháp khác, cho thấy khả năng áp dụng hiệu quả trong việc giải quyết một phần công việc của luận án.

Tiêu đề	Một Số Kỹ Thuật Nhận Dạng Biểu Hiện Khuôn Mặt Phục Vụ Đánh Giá Sự Tập Trung Của Người Học
Tác giả	Trần Thanh Phương
Người hướng dẫn	PGS.TS. Đỗ Năng Toàn, TS. Lâm Thành Hiển
Trường học	Trường Đại học Lạc Hồng
Chuyên ngành	Khoa học máy tính
Thể loại	luận án tiến sĩ
Năm xuất bản	2023
Thành phố	Đồng Nai

Định dạng
Số trang	124
Dung lượng	2,14 MB