Bài viết Mô hình mạng nơron tích chập đa nhiệm nhận dạng khuôn mặt và biểu cảm cho ứng dụng hỗ trợ giám sát học trực tuyến tập trung thiết kế một mô hình CNN đa nhiệm (Multi-Task CNN) cho hai bài toán FR/FER đồng thời với độ phức tạp vừa phải nhưng vẫn đảm bảo chất lượng và hiệu quả cho bài toán.
MƠ HÌNH MẠNG NƠRON TÍCH CHẬP ĐA NHIỆM NHẬN DẠNG KHUÔN MẶT VÀ BIỂU CẢM CHO ỨNG DỤNG HỖ TRỢ GIÁM SÁT HỌC TRỰC TUYẾN MULTI-TASK CNN MODEL FOR FACE AND FACIAL EXPRESSION RECOGNITION AND APPLICATION FOR MONITORING ONLINE LEARNING Dương Thăng Long, Chu Minh*, Phí Quốc Chính† Ngày tịa soạn nhận báo: 02/11/2021 Ngày nhận kết phản biện đánh giá: 04/05/2022 Ngày báo duyệt đăng: 26/05/2022 Tóm tắt: Hệ thống quản lý học tập trực tuyến (LMS) phát triển mạnh, góp phần nâng cao chất lượng đào tạo Tuy nhiên, việc tăng cường giám sát hỗ trợ người học, theo dõi quản lý học tập dựa công nghệ đại chưa nghiên cứu sâu rộng Đặc biệt ứng dụng công nghệ nhận dạng khuôn mặt biểu cảm khuôn mặt giúp cho việc theo dõi, giám sát người học tự động hoá cao độ hỗ trợ kịp thời Bằng việc ứng dụng công nghệ mạng nơron tích chập đa nhiệm (MTCNN), nghiên cứu đề xuất mơ hình MTCNN nhằm thực hai nhiệm vụ nhận dạng khuôn mặt nhận dạng biểu cảm khn mặt Mơ hình thử nghiệm tập liệu công bố gồm CK+, OuluCASIA liệu người học thu thập cho kết khả quan so sánh với số kiến trúc đại kích thước mơ hình đơn giản Chúng tơi thiết kế tích hợp mơ hình đề xuất với hệ thống quản lý học tập trực tuyến (LMS) theo hướng kết nối mở để gia tăng thêm tính giám sát theo dõi trình học tập, chủ động cảnh báo cho giáo viên, người học biết để điều chỉnh hoạt động dạy học nhằm nâng cao chất lượng đào tạo Từ khố: Mạng nơron tích chập đa nhiệm, nhận dạng khn mặt, nhận dạng biểu cảm khuôn mặt, hệ thống quản lý học tập trực tuyến Abstract: The online learning management system (LMS) is being more and more widely developed and contributes to improving the quality of training at educational institutions However, at present, there are few systems with enhanced monitoring and support for learners based on modern technologies Especially, the application of this facial recognition and facial expression technology makes the tracking and monitoring of learners highly automated and timely supported By using multi-tasking convolutional neural networks, this study proposes such a network model to perform two tasks of face recognition and facial expression recognition The model is tested on published data sets including CK+, * Trường Đại học Mở Hà Nội † VNPT Hà Nội Nghiên cứu trao đổi ● Research-Exchange of opinion 11 OuluCASIA and our collected data The experimental results are significant in comparison with some modern architectures while the model size is simpler Based on the proposed model, we design an integrated proposed model with the online LMS in the direction of open connection to increase the monitoring and tracking learning activities, therefore, it can give warnings as well as notify teachers and learners to adjust teaching and learning activities to improve training quality Keywords: Multi-task convolutional neural network, face recognition, facial expressions recognition, online learning management systems I Giới thiệu Trong năm gần đây, phát triển mạnh mẽ e-learning thu hút ngày nhiều người lựa chọn cách học tiếp thu kiến thức trực tuyến thông qua hệ thống học tập trực tuyến (LMS) Trong E-learning, người học nhiều thứ họ cần lúc nơi đâu E-Learning linh hoạt mở rộng dễ dàng, sử dụng phương pháp học cá nhân hố cao độ, tốn chứng minh hiệu so với giáo dục truyền thống Vì vậy, e-learning ngày trở nên phổ biến Tuy nhiên, giám sát đánh giá chất lượng hoạt động học tập trực tuyến chắn điều cần quan tâm đặc biệt Chúng ta phải hạn chế đến mức tối thiểu tình trạng gian lận học tập, thi kiểm tra hệ thống trực tuyến tốt không để xẩy tình trạng đó, ảnh hưởng lớn đến kết học tập người học chất lượng hệ thống giáo dục Do đó, hệ thống quản lý học tập trực tuyến cần phải cung cấp khả xác định giám sát hoạt động người học [1] Một số nghiên cứu tìm kiếm cách tốt để sử dụng phương pháp sinh trắc học giúp xác định giám sát trình học tập thi trực tuyến [2], [3] Tuy nhiên, hệ thống nhận dạng khuôn mặt (FR) nhận dạng biểu cảm khuôn mặt (FER) thân thiện với người chúng khơng cần tiếp xúc không cần phần cứng bổ sung hầu hết máy tính thiết bị người dùng có camera tích hợp Quan trọng hơn, hệ thống FR/FER sử dụng để xác thực liên tục người học tồn q trình học tập kiểm tra theo thời gian thực giám sát, đo đếm thể trình học tập người học biểu cảm khuôn mặt để dựa vào đó, nhà sư phạm quản lý điều chỉnh hoạt động nhằm đáp ứng tốt cho trình đào tạo người học Bài toán FR/FER toán thú vị thu hút nhiều nghiên cứu với kết tích cực lĩnh vực thị giác máy tính, ứng dụng rộng rãi tốn giám sát trạng thái người lái xe [4], giám sát người dùng điện thoại, phát biểu cảm không thật, nhận dạng trầm cảm [5], hệ thống giám sát sở y tế giáo dục [3], [2] Tuy nhiên, tốn FR/FER cịn nhiều thách thức đa dạng người có nét mặt giống thể hiệu biểu cảm khn mặt người thay đổi theo thời gian Hiện nay, tác giả chủ yếu tiếp cận vấn đề dựa mạng nơron tích chập (CNN) với mơ hình đại VGGNet, GoogleNet, ResNet, SENet chúng cho kết khả quan Mặc dù kết 12 Nghiên cứu trao đổi ● Research-Exchange of opinion nhận dạng mơ hình CNN ngày tốt phiên kiến trúc mạng điều chỉnh cải tiến, số vấn đề cần cải thiện, đặc biệt ứng dụng thực tế Hơn nữa, mơ hình CNN thường thiết kế độc lập cho tốn có độ phức tạp lớn số ứng dụng thực tế có giới hạn tài ngun tính tốn máy tính, có mơ hình lên đến hàng trăm triệu tham số [6] Nghiên cứu tập trung thiết kế mơ hình CNN đa nhiệm (Multi-Task CNN) cho hai toán FR/FER đồng thời với độ phức tạp vừa phải đảm bảo chất lượng hiệu cho tốn Mơ hình chạy thử nghiệm để đánh giá số liệu phổ biến OuluCASIA [7] thiết kế để tích hợp với hệ thống LMS để hỗ trợ giám sát đánh giá trình học tập trực tuyến người học II Một số nghiên cứu liên quan 2.1 Nhận dạng khuôn mặt biểu cảm Trong tốn nhận dạng biểu cảm khn mặt, Paul Ekman cộng [5] xác định sáu cảm xúc biểu cảm khuôn mặt người dựa nghiên cứu giao thoa văn hóa Theo đó, người thể cảm nhận cảm xúc biểu cảm khuôn mặt theo cách họ thuộc dân tộc hay văn hóa Nói cách khác, nét biểu cảm khuôn mặt độc lập với văn hoá mà người trải nghiệm, sinh sống Những biểu cảm khn mặt (Hình 2.1) bao gồm tức giận (An-anger), ghê tởm (Didisgust), sợ hãi (Fe-fear), hạnh phúc (Hahappiness), buồn bã (Sa-sadness) ngạc nhiên (Su-surprise) Một biểu cảm khác sử dụng khinh bỉ (Co-contempt) Một số nghiên cứu sử dụng thêm biểu cảm trung tính (Ne-neutral) số biểu cảm Hình 2.1 Các biểu cảm khn mặt Hệ thống FR/FER nói chung chia thành hai giai đoạn chính, giai đoạn thực trích xuất đặc trưng hình ảnh khn mặt đại diện cho định danh khuôn mặt biểu cảm tương ứng giai đoạn phân loại đặc trưng vào định danh biểu cảm Việc trích xuất đặc trưng khn mặt cho tốn FR/FER quan trọng ảnh hưởng đến độ xác việc nhận dạng Một số phương pháp truyền thống đề cập [8] kỹ thuật HOG (biểu đồ gradient có định hướng), kỹ thuật LBP (mẫu nhị phân cục bộ), kỹ thuật Gabor đặc trưng kiểu Haar Các phương pháp hoạt động tốt tập liệu đơn giản nhất, thực tế, tập liệu phức tạp đa dạng, có nhiều biến thể đặc biệt thể đa dạng biểu cảm khuôn mặt hình ảnh, chẳng hạn dạng điệu, tư góc nhìn, độ sáng tối, Đây Nghiên cứu trao đổi ● Research-Exchange of opinion thách thức lớn phương pháp truyền thống, phương pháp đại dựa mơ hình CNN thiết kế cơng trình nghiên cứu với độ xác cao khả nhận dạng có nhiều tiềm ứng dụng Gần đây, mơ hình CNN thiết kế nhận dạng hình ảnh với kiểu kiến trúc phức tạp VGG, ResNet, SENet hay MobileNet [6], [9] có xu hướng ngày sâu 2.2 Mạng nơron tích chập đa nhiệm Mạng nơron tích chập đa nhiệm (Multi-Task CNN - MTCNN) kiểu mơ hình CNN học sâu hiệu việc cải thiện chất lượng cho mục tiêu nhiệm vụ với trợ giúp số nhiệm vụ có liên quan Mơ hình MTCNN thực 13 chia sẻ tham số để tìm kiếm biểu diễn đặc điểm chung tốn cần giải lớp tích chập mức sâu Có hai kiểu chia sẻ tham số mơ hình MTCNN gồm chia sẻ cứng (hardsharing) chia sẻ mềm (soft-sharing) Chia sẻ cứng MTCNN việc sử dụng kiến trúc mạng xương sống chung để trích chọn đặc trưng cho tốn phân lớp độc lập theo nhiệm vụ (Hình 2.2a) Chia sẻ mềm sử dụng khối kiến trúc trích chọn đặc trưng cho riêng tốn có liên kết chéo lớp nơron khối (Hình 2.2b) Các mơ hình MTCNN nghiên cứu xây dựng thực nghiệm cho thấy có hiệu nhiệm vụ thị giác máy tính khác [9] (a) (b) Hình 2.2 Hai kiểu chia sẻ tham số MTCNN 14 Nghiên cứu trao đổi ● Research-Exchange of opinion Ban cộng [10] thiết kế MTCNN kiểu phân tầng với tầng cho hai toán phân loại học (taxonomic assigment) tầng thứ hai có sử dụng kết tầng cho tốn phân vùng gen (genomic region assigment) Mơ hình dựa kiến trúc VGG với độ sâu 11 lớp CONV Kiểu mơ hình MTCNN dạng phân tầng có liên kết chéo lớp nơron (softsharing) phát triển cho toán phát loại phương tiện hàng hải [11] Mơ hình sử dụng lớp tích chập lõi chung để trích xuất đặc trưng dựa kiến trúc mạng VGG với độ sâu 16 lớp CONV Cuong cộng [12] thiết kế mơ hình MTCNN có lớp tích chập (CONV) lớp phân loại (FC) theo kiểu chia sẻ tham số đặc trưng dạng “hard-sharing” để thực phát giới tính, trạng thái cười biểu cảm khn mặt Wang cơng [9] thiết kế mơ hình CNN đa nhiệm đa nhãn theo kiểu “hardsharing” dựa kiến trúc ResNet50 cho toán nhận dạng thuộc tính ảnh khn mặt trạng thái đeo kính, đội mũ, hay để tóc mái mỉn cười, mũi nhọn mơi to III Mơ hình MTCNN nhận dạng khuôn mặt biểu cảm 3.1 Kiến trúc mơ hình CNN đa nhiệm Trong phần này, chúng tơi thiết kế mơ hình MTCNN (gọi tắt mơ hình MFER) để thực nhiệm vụ lúc gồm nhận dạng định danh khuôn mặt (FR) nhận dạng biểu cảm khn mặt (FER) Mơ hình MFER chia thành hai giai đoạn (Hình 3.1) bao gồm: (1) đặc trưng hình ảnh trích xuất biểu thị cho định danh khuôn mặt biểu cảm khuôn mặt; (2) phân loại đặc trưng thành nhãn phân lớp tương ứng với toán thực Số lớp độ lớn (số lượng nơron) lớp ảnh hưởng đến chất lượng mơ hình độ phức tạp tính tốn Các nghiên cứu thường điều chỉnh hai yếu tố theo toán ứng dụng để đạt chất lượng mong đợi độ phức tạp tính tốn chấp nhận lúc Vì vậy, chúng tơi thiết kế mơ hình với số lượng lớp vừa phải để phù hợp với hệ thống tính tốn chúng tơi Kiến trúc mơ hình MFER sử dụng phương pháp chia sẻ tham số dạng “hard-sharing” nhằm giảm kích thước độ phức tạp mơ hình cho việc tích hợp vào ứng dụng có điều kiện tính tốn hạn chế Khối lõi mơ hình MFER dựa kiến trúc VGG để thực trích chọn đặc trưng cho tốn cần thực hiện, nhiên, để giảm kích thước mơ hình chúng tơi thiết kế số lớp tích chập (CONV) 4, sau hai lớp tích chập đầu sử dụng lớp kết gộp tín hiệu đặc trưng phép trung bình (Average POOL) sau hai lớp tích chập cuối sử dụng phép gộp tín hiệu dạng lớn (Max POOL) Chia lớp nơron thành khối gồm (B2), (B3), (B4) (B5) có cấu trúc nhau, khối có lớp tích chập (CONV) theo sau lớp gộp tín hiệu (POOL) Khối (B1) ảnh đầu vào, để giảm kích thước tham số mơ hình phù hợp với ảnh thu thập từ camera thiết bị đầu cuối thông dụng có độ phân giải mức vừa phải chúng tơi đặt kích thước ảnh đầu vào H(cao) W(rộng) D(sâu) 80 60 Nghiên cứu trao đổi ● Research-Exchange of opinion 15 Hình 3.1 Mơ hình MFER Các lọc nơron lớp CONV Khối có lớp nơron kết nối đầy đủ (FC) cho toán cần thực hiện, lớp có kích thước 33, lớp POOL có kích FC ẩn sử dụng hàm kích hoạt phi tuyến thước 22 Các nơron tích chập sử dụng dạng “sigmoid” lớp FC có kích hoạt hàm kích hoạt dạng “ReLu” thông dụng hàm “softmax” (công thức (3.2)) nhằm cho phép kích hoạt thưa mức để tính xác suất thuộc lớp cho khoảng 50% kích hoạt đầu hình ảnh đầu vào Khối (B5) có thêm tổng tín hiệu đầu dương, giảm thiểu khả chế trải tín hiệu đặc trưng dạng phẳng suy biến gradient trình học, tính tốn đơn giản tăng tốc độ để truyền tín hiệu đặc trưng theo kết nối huấn luyện cho mơ hình Để giảm thiểu đầy đủ đến khối phân loại (B6) Chúng tượng khớp (overfitting) tơi áp dụng mơ hình MFER cho hai học máy chúng tơi sử dụng kỹ thuật loại tốn nhận dạng định danh khuôn mặt bỏ ngẫu nhiên kết nối nơron (tức (FR) nhận dạng biểu cảm khuôn mặt đầu nơron loại bỏ 0) (FER) Để tăng khả phân loại theo tỷ lệ 20% (Dropout = 0.2) Số lượng nhận dạng, số nơron lớp FC ẩn lọc (filter) lớp nơron tăng thêm 10 lần so với số nơron lớp CONV tăng dần theo chiều sâu từ 8, FC ra, tức 10 lần số lớp cần nhận 16, 32 64 nhằm tăng thêm hội trích dạng toán Như vậy, số nơron lớp chọn nhiều đặc trưng ẩn sâu FC lớp FC ẩn khối (B6) cho bên hình ảnh lớp nơron tích tốn FR tương ứng số người cần định chập mức sâu danh (C1) C1×10, cho tốn FER Khối (B6) dùng để phân loại ảnh tương ứng số loại biểu cảm khuôn đầu vào đến lớp theo tốn mặt (C2) C1×10 Cơng thức tính đầu Nghiên cứu trao đổi ● Research-Exchange of opinion 16 nơron phân lớp theo hàm kích hoạt „softmax‟ có dạng: (3.2) đó, đầu nơron thứ j lớp tương ứng với nhiệm vụ , tổng tín hiệu đầu vào nơron thứ jth lớp phân loại tương ứng nhiệm vụ số nơron lớp nhiệm vụ t Ở đây, rõ ràng tổng giá trị đầu nơron lớp thuộc khối phân lớp (B6) cho toán 1, th Trên sở xác suất tính nơron lớp nhiệm vụ t, chọn lớp có xác suất cao tương ứng để phân loại cho nhiệm vụ t tương ứng theo công thức (3.3) (3.3) 3.2 Tăng cường liệu huấn luyện mơ hình MTCNN Phần áp dụng số phương pháp tiền xử lý hình ảnh đầu vào gồm dị tìm cắt ảnh để lấy vùng ảnh chứa khn mặt, sau thực số kỹ thuật nâng cao chất lượng ảnh Trong ứng dụng thực tế, hình ảnh đầu vào thường chụp từ máy ảnh, chúng bao gồm với vật thể bên ảnh Vì vậy, phải thực phương pháp phát khuôn mặt (Face detection - FD) để xác định vùng ảnh có chứa khn mặt sau cắt bỏ phần ảnh giữ lại vùng ảnh chứa khuôn mặt Để thực điều này, sử dụng mơ hình dựa CNN tiếng gọi MTCNN [1] Để tránh tượng khớp huấn luyện mơ hình giúp cho mơ hình có khả nhận dạng cao hơn, chúng tơi tăng cường hình ảnh huấn luyện cách sử dụng số kỹ thuật xử lý hình ảnh 2D thêm nhiễu, xoay, cắt dịch chuyển, tăng cường độ sáng làm tối hình ảnh Với hình ảnh đầu vào , nhận danh sách hình ảnh sau tiền xử lý sau: (3.4) đó, fD dị tìm phát khn mặt ảnh, chẳng hạn MTCNN, pα tham số cho hoạt động tăng cường hình ảnh với phép xử lý α = {nhiễu, xoay, co giãn, dịch chuyển, độ tương phản, }, biểu thị biến đổi hình ảnh phép xử lý tăng cường α Chẳng hạn, cách áp dụng phép xử lý gồm tăng giảm độ tương phản (Constrast), xoay ảnh (Rotation) theo góc sang trái (dương) sang phải (âm), co giãn (Scale) dịch chuyển (Translate) theo tỷ lệ so với kích thước ảnh ta có kết Hình 3.2 Constrast Rotation Scale Translate Hình 3.2 Một số hình ảnh tăng cường Trong Hình 3.2, ảnh trái dịng thứ ảnh dịng sau ảnh gốc ban đầu Các hình ảnh lại kết xử lý biến đổi tương ứng với dòng giá trị tham số biến đổi Nghiên cứu trao đổi ● Research-Exchange of opinion ghi tiêu đề hình ảnh Các tham số biến đổi lựa chọn mức độ vừa phải để đảm bảo thơng tin ảnh trì cho việc trích chọn đặc trưng cho tốn Chẳng hạn ảnh phải dịng đầu có nhiễu lớn nên khó để trích chọn đặc trưng nhận dạng, kể mắt thường Một hình ảnh tăng cường áp dụng lúc đồng thời phép xử lý nghiên cứu áp dụng ngẫu nhiên giá trị tham số điều chỉnh phép xử lý Trong mơ hình MFER này, chúng tơi áp dụng hàm đánh giá sai số dạng cross-entropy Sai số theo nhiệm vụ MFER đánh giá riêng biệt, sau kết hợp chúng lại thơng qua hệ số để đưa sai số cuối mơ hình Hàm sai số nhiệm vụ biểu diễn cơng thức sau: (3.5) đó, N số mẫu liệu huấn luyện, cho biết mẫu liệu thứ th i xác định cho công việc t ngược lại 0, Mt số lớp (class) nhiệm vụ t, cho biết th mẫu liệu thứ i có thuộc nhãn phân lớp thứ jth ngược lại 0, xác suất nhận dạng vào th lớp thứ j mơ hình mẫu liệu thứ ith nhiệm vụ T Trong nghiên cứu này, áp dụng tập liệu với mẫu liệu xác định đủ cho đồng thời hai nhiệm vụ FR FER, tức Như vậy, hàm sai số chung mơ hình nhiệm vụ xác định sau: (3.6) đó, T số lượng nhiệm vụ cần thực thi mơ hình, wt hệ số 17 đánh giá vào hàm sai số chung nhiệm vụ t Nghiên cứu áp dụng với T=2 gồm toán FR tốn FER Mơ hình MFER huấn luyện theo phương pháp tối ưu hoá Adam [13], kỹ thuật tối ưu hóa sử dụng rộng rãi sở kết hợp điểm mạnh phương pháp Momentum RMSprop cách sử dụng giá trị bình phương gradient để chia tỷ lệ học mạng theo kỹ thuật RMSprop sử dụng trung bình động bước thay đổi gradient Chi phí nhớ hiệu giảm thiểu tính tốn hai lợi phương pháp Adam Cơ chế điều chỉnh trọng số mạng để tìm điểm tối ưu Adam thể công thức (3.7) sau: (3.7) đó, tương ứng giá trị trung bình suy giảm theo cấp số nhân gradient gradient bình phương thời điểm học thứ t, η hệ số học (tốc độ huấn luyện, thường sử dụng 10-3), hệ số 10-8 Chúng sử dụng kỹ thuật học Adam cho MFER tham số mơ hình khởi tạo ngẫu nhiên theo phân phối khoảng giới hạn (công thức (3.8)) [14] nhằm đem lại ưu điểm trình huấn luyện mạng đạt kết cao (3.8) đó, nj n j+1 số tham số vào số tham số lớp nơron 3.3 Thiết kế hệ thống tích hợp hỗ trợ giám sát đánh giá học trực tuyến Hệ thống tích hợp cần phải thực hai chức gồm: (1) chụp ảnh khuôn mặt người dùng, tiền xử lý hình ảnh gồm phát khu vực chứa khuôn mặt ảnh nâng cao chất lượng hình ảnh 18 Nghiên cứu trao đổi ● Research-Exchange of opinion cần; (2) nhận dạng hình ảnh khn mặt để định danh xác định biểu cảm biểu thị khn mặt Tính chụp ảnh áp dụng cho việc thu thập hình ảnh khn mặt giai đoạn huấn luyện xây dựng mơ hình áp dụng mơ hình ứng dụng tích hợp Sơ đồ kết nối tổng thể mặt logic việc tích hợp mơ hình nhận dạng khn mặt biểu cảm (FR/FER) với hệ thống LMS thể Hình 3.4 Hình 3.4 Kết nối mơ hình FR/FER hệ thống LMS Mơ hình FR/FER tích hợp với LMS đạt số đặc điểm sau hệ thực điều kiện kết nối mở thống tích hợp: hoạt động độc lập tương đối hai hệ - Kết nối hệ thống FR/FER với hệ thống Khi đó, hai hệ thống có thực thi thống LMS thông qua web services chức độc lập, chẳng hạn LMS nhúng vào giao diện LMS đảm thực nghiệp vụ tính quản bảo khơng làm thay đổi nhiều lý học tập người học thân có LMS có; nó, hệ thống FR/FER thực thu - Hệ thống LMS vận hành mà thập hình ảnh chí nhận dạng khơng cần kết nối với hệ thống nhận dạng độc lập với LMS Do đó, việc tích trường hợp người học khơng có thiết hợp chế lỏng đơn giản nhúng bị thu nhận hình ảnh chủ động khơng vào LMS tính có liên quan bật chế độ nhận dạng; hệ thống nhận dạng để kích hoạt cần thiết trả lại kết thực tương ứng Các giao tiếp hai hệ thống thực qua mơi trường Internet với kênh truyền bảo mật có xác thực Điều nhằm tận dụng tối đa hệ thống sau cần kết nối với hệ thống khác bố trí tài nguyên máy chủ chuyên dụng phục vụ cho chương trình học máy để xây dựng mơ hình nhận dạng (như sử dụng máy chủ có GPU) Cơ chế kết nối cho phép - Đảm bảo tính an ninh, bảo mật hai hệ thống liệu hình ảnh người dùng; - Tối thiểu hố q trình trao đổi tương tác hai hệ thống, đặc biệt liệu hình ảnh máy trạm người học máy chủ hệ thống LMS hệ thống nhận dạng Cơ chế bảo mật sử dụng tích hợp nhằm đảm bảo an tồn Nghiên cứu trao đổi ● Research-Exchange of opinion danh cho kết nối hai hệ thống, theo đó, hệ thống FR/FER thực nhiệm vụ nhận thông điệp kèm theo mã bảo mật thiết lập Trong trường hợp này, sử dụng mã bảo mật dựa sơ đồ mã hoá khoá cơng khai, tức sử dụng cặp khố bất đối xứng RSA cho hệ thống, phần khố cơng khai sử dụng hệ thống FR/ FER dĩ nhiên biết (do tính cơng khai), phần khố bí mật sử dụng LMS Do đó, hệ thống FR/FER thực kiểm chứng dựa nguyên tắc chữ ký số, thông tin định danh người học ký số phần khố bí mật LMS xác thực số phần khố cơng khai FR/FER cho việc thực chức nhận dạng trả kết cho LMS IV Thử nghiệm 4.1 Dữ liệu kịch thử nghiệm Chúng sử dụng ba liệu để thử nghiệm đánh giá mơ hình gồm CK+ (Extended Cohn-Kanade) [15], OuluCASIA [7] hình ảnh thu thập từ người học chúng tôi, ký hiệu FERS21 [16] Tập liệu CK+ gồm 327 video gắn nhãn thu thập từ 118 người khác Chúng sử dụng video với bảy biểu cảm đại diện cho tức giận (Anger), ghê tởm (Disgust), sợ hãi (Fear), hạnh phúc (Happy), buồn bã (Sadness), ngạc nhiên (Surprise) khinh thường (Contempt) Các khung hình video biểu thị biến đổi trạng thái biểu cảm, nhiên, chúng tơi chọn ba khung hình cuối video để làm liệu thử nghiệm, kết có tổng cộng 981 hình ảnh Tập liệu hình 19 ảnh có màu đa cấp xám (Hình 4.1, dịng đầu), tiêu đề hình ảnh hiển thị nhãn tương ứng người ảnh (fr) biểu cảm khuôn mặt (fer) hình ảnh tập liệu Hình 4.1 Một số ảnh tập liệu Tập liệu Oulu-CASIA bao gồm video thu thập điều kiện ánh sáng khác Trong thử nghiệm này, sử dụng 480 video, chụp từ 80 đối tượng điều kiện ánh sáng trung bình cao Có sáu nhãn biểu cảm liệu Oulu-CASIA tập liệu CK+ trừ biểu cảm khinh thường (Contempt) Đối với video, chọn ba khung hình cuối có khn mặt thể biểu cảm cao loại tương ứng, Hình 4.1 (dịng giữa) cho thấy số hình ảnh tập liệu Oulu-CASIA Tập liệu thử nghiệm có tổng cộng 1440 hình ảnh Bộ liệu FERS21 thu thập từ 20 người học chúng tôi, nam nữ Để đơn giản việc thu thập ứng dụng đánh giá trình học tập mức độ hài lịng khơng hài lịng, chúng tơi sử dụng hai biểu cảm khn mặt hài lịng/vui vẻ (Happy) khơng hài lịng/buồn (NoHappy) minh họa Hình 4.1 (dịng cuối) Nghiên cứu trao đổi ● Research-Exchange of opinion 20 Để chạy thử nghiệm, chia ngẫu nhiên tập liệu thành phần (fold) có kích thước tương đương lớp toán FR FER Kịch thử nghiệm theo chế kiểm tra chéo (cross-validation), lượt chạy sử dụng phần liệu để kiểm tra kết mơ hình (), bốn phần cịn lại để xây dựng mơ hình, phần để thẩm định lựa chọn mơ hình () phần cịn lại sử dụng để huấn luyện mơ hình () Kịch chạy lặp lại lần theo thứ tự phần chọn để kiểm tra mơ hình, kết đánh giá cuối trung bình độ lệch lần chạy Trong lần chạy thử nghiệm, phần liệu huấn luyện mơ hình () tăng cường cách áp dụng phép biến đổi hình ảnh bao gồm Các tham số cho phép biến đổi hình ảnh chọn ngẫu nhiên khoảng giới hạn Số lần tăng cường 20 cho hình ảnh tạo nên tập liệu huấn luyện lớn nhằm đảm bảo độ đa dạng liệu, tránh bị tượng khớp kỳ vọng đạt độ xác cao mơ hình Chúng tơi sử dụng phương pháp tối ưu Adam [13] để huấn luyện mơ hình với tham số chi tiết Bảng 4.1 Bảng 4.1 Các tham số chạy thử nghiệm Stt Tham số Giá trị Tốc độ huấn luyện ban đầu () Kích thước gói liệu (batch) 128 Số lần lặp huấn luyện 150 4.2 Kết thử nghiệm Q trình huấn luyện tính trung bình lần chạy thử nghiệm theo nhiệm vụ FR FER thể Hình 4.2 Các biểu đồ cho thấy trình huấn luyện cho kết tốt (sai số nhỏ độ xác cao hơn) nhiệm vụ FR so với FER tập liệu Mặc dù số lớp nhiệm vụ FR (118, 80 20) lớn nhiều so với FER (chỉ 7) kết huấn luyện cao hơn, cho thấy mơ hình MFER trích chọn đặc trưng cho phân biệt định danh khn mặt tốt so với biểu cảm khuôn mặt Hơn nữa, hình ảnh khn mặt tập liệu có phân biệt cao người thu thập biểu cảm khn mặt khó phân biệt hơn, chí số biểu cảm gần giống khn mặt Hình 4.2 Q trình huấn luyện MTCNN Kết nhận dạng tập liệu kiểm tra mơ hình MFER sau huấn luyện tính tốn trung bình độ lệch chuẩn lần chạy thử nghiệm thể Bảng 4.2 Tương ứng với trình huấn luyện, kết nhận dạng liệu kiểm tra theo toán FER thấp toán FR tập liệu, đó, tập liệu CK+ không đáng kể tập liệu OuluCASIA FERS21 có chênh lệch tương ứng 4.51% 8.45% Tương ứng độ lệch chuẩn kết nhận dạng theo toán FER cao toán FR Chứng tỏ tốn FER khó so với tốn FR, thực tế cho thấy hình ảnh biểu cảm khn mặt có trường hợp khó phân biệt, đặc biệt loại biểu cảm “Sadness”, “Anger” đề cập Nghiên cứu trao đổi ● Research-Exchange of opinion Bảng 4.2 Kết nhận dạng tập kiểm tra Datasets Trung bình (độ lệch) FR FER CK+ 97.97 0.01 97.86 0.015 Oulu CASIA 99.16 0.0096 94.65 0.026 FERS21 99.66 0.004 0.02 Để so sánh, chúng tơi sử dụng kiến trúc lõi trích chọn đặc trưng mơ hình MobileNetV2 [17] mơ hình ResNet50V2 [18], bổ sung thêm lớp để phân loại cho hai tốn FR FER mơ hình MFER, sau chạy thử nghiệm kịch tham số Kết thể Bảng 4.3 Bảng 4.3 So sánh kết qủa mơ hình Datasets CK+ Models (on FR/FER) MobileNetV2 /FR FER ResNet50V2 / FR FER MFER / FR FER 69.57 81.69 96.45 96.58 97.97 97.86 Oulu FERS21 CASIA 87.26 85.17 98.32 96.32 99.16 94.65 91.38 88.07 99.19 89.54 99.66 91.21 Mặc dù số lượng tham số hai mơ hình lõi MobileNetV2 (khoảng 2,5 triệu) ResNet50V2 (khoảng 24 triệu) lớn nhiều so với MFER (khoảng 0,24 triệu) kết nhận dạng MFER cao so sánh Cụ thể, tốn FR, mơ hình MFER đạt kết nhận dạng tốt nhất, mơ hình lõi MobileNetV2 có kết thấp ba tập liệu thử nghiệm So với ResNet50V2, trường hợp cao nhiều 1.52% liệu CK+ cao 0.47% liệu FERS21 Ở toán FER, mơ hình kiến trúc lõi ResNet50V2 có độ sâu lớn số lượng tham số lớn kết nhận dạng mơ hình đạt cao tập liệu OuluCASIA, mơ hình MFER đạt cao liệu CK+ FERS21 21 V Kết luận Nghiên cứu đề xuất mô hình mạng nơron tích chập đa nhiệm (MFER) cho tốn nhận dạng khn mặt để định danh nhận dạng biểu cảm khn mặt Kiến trúc mơ hình theo kiến trúc mạng CNN kiểu VGG có độ sâu khơng lớn mức lớp tích chập, kèm theo kích thước tham số mơ hình mức thấp Kết nhận dạng khả quan tập liệu thử nghiệm, đạt mức thấp 91.21% toán FER cao 99.66% toán FR, hai trường hợp liệu FERS21 Điều cho thấy mơ hình MFER áp dụng dễ dàng hệ thống có lực tính tốn khơng địi hỏi q cao phù hợp đa dạng thực tế cho kết tốt tốn ứng dụng Chúng tơi thiết kế hệ thống tích hợp mơ hình MFER vào hệ thống quản lý học tập trực tuyến (LMS) để hỗ trợ giám sát người học hệ thống LMS Qua đó, người học giám sát chi tiết trình học tập, đo đếm biểu cảm thể suốt trình học tập, có bất thường hệ thống tổng hợp báo cáo người dạy, người quản lý hỗ trợ để nhắc nhở, giúp đỡ người học đạt kết học tập cao Việc tích hợp hệ thống theo có chế mở, khơng gắn chặt với nhau, đó, hệ thống hoạt động độc lập có thiết kế đảm bảo tính an tồn, an ninh liệu hệ thống kết nối tích hợp Trong nghiên cứu tiếp theo, cải tiến kiến trúc lõi lớp tích chập để trích chọn đặc trưng mơ hình MFER theo kiến trúc đại nhằm tăng cường chất lượng cho 22 Nghiên cứu trao đổi ● Research-Exchange of opinion toán nhận dạng khác với số lượng nhiệm vụ thực nhiều Tài liệu tham khảo: [1] Duong Thang Long, A Lightweight Face Recognition Model Using Convolutional Neural Network for Monitoring Students in E-Learning, I.J Modern Education and Computer Science, vol.6, pp.16-28, 2020 [2] Francisco D Guillén-Gámez, Facial authentication software for the identification and verification of students who use virtual learning platform (LMS), Advances in Educational Technology and Psychology, 1: 1-8 Clausius Scientific Press, Canada, 2017 [3] Ayham Fayyoumi1 and Anis Zarrad, Novel Solution Based on Face Recognition to Address Identity Theft and Cheating in Online Examination Systems, Advances in Internet of Things, 2014, 4, 5-12 [4] Ekberjan Derman1 and Albert Ali Salah, Continuous Real-Time Vehicle Driver Authentication Using Convolutional Neural Network Based Face Recognition, 3th IEEE International Conference on Automatic Face & Gesture Recognition (FG), 2018 [5] Shan Li and Weihong Deng, Deep Facial Expression Recognition - A Survey, IEEE Transactions on Affective Computing, 2020 [6] Vijayan K Asari and et al., A State-ofthe-Art Survey on Deep Learning Theory and Architectures, Electronics, 8, 292, 2019 [7] G Zhao, X Huang, and et al., Facial expression recognition from near-infrared videos, Image and Vision Computing, 29(9):607–619, 2011 [8] I.Michael Revina and W.R Sam Emmanuel, A Survey on Human Face Expression Recognition Techniques, https:// doi.org/10.1016/ j.jksuci.2018.09.002, 2018 [9] Hanzi Wang et al., Deep Multi-task Multi-label CNN for Effective Facial Attribute Classification, https://arxiv.org/ abs/2002.03683, 2020 [10] Haoran Ma et al., A multi‐ task CNN learning model for taxonomic assignment of human viruses, BMC Bioinformatics 22:194, 2021 [11] Zhaoying Liu et al., A Multi-Task CNN for Maritime Target Detection, IEEE Signal Processing Letters, Vol 28, 2021 [12] Dinh Viet Sang and Le Tran Bao Cuong, Effective Deep Multi-source Multi-task Learning Frameworks for Smile Detection, Emotion Recognition and Gender Classification, Informatica, vol.42, pp.345–356, 2018 [13] Diederik P Kingma and Jimmy Lei Ba, Adam-A Method for Stochastic Optimization, Published as a conference paper at ICLR 2015 [14] Xavier Glorot and Yoshua Bengio, Understanding the difficulty of training deep feedforward neural networks, Proceedings of the 13th International Conference on Artificial Intelligence and Statistics (AISTATS), 2010 [15] Patrick Lucey et al., The Extended CohnKanade Dataset (CK+ dataset), IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Workshops, 2010 [16] Duong Thang Long, A Facial Expressions Recognition Method Using Residual Network Architecture for Online Learning Evaluation, Journal of Advanced Computational Intelligence Informatics, Vol.25 No.6, 2021 [17] Chunrui Han and et al., Face Recognition with Contrastive Convolution, ECCV, DOI:10.1007/978-3-030-01240-3_8, 2018 [18] Kaiming He et al., Identity Mappings in Deep Residual Networks, arXiv:1603.05027v3 [cs.CV] 25 Jul 2016 Địa tác giả: Trường Đại học Mở Hà Nội Email: duongthanglong@hou.edu.vn Nghiên trao ● Research-Exchange opinion Tạp chí cứu Khoa họcđổi - Trường Đại học Mở HàofNội 92 (6/2022) 23-32 23 ... khuôn mặt (FR) nhận dạng biểu cảm khuôn mặt (FER) Mô hình MFER chia thành hai giai đoạn (Hình 3.1) bao gồm: (1) đặc trưng hình ảnh trích xuất biểu thị cho định danh khuôn mặt biểu cảm khuôn mặt; ... sâu 2.2 Mạng nơron tích chập đa nhiệm Mạng nơron tích chập đa nhiệm (Multi-Task CNN - MTCNN) kiểu mơ hình CNN học sâu hiệu việc cải thiện chất lượng cho mục tiêu nhiệm vụ với trợ giúp số nhiệm. .. 2.1 Nhận dạng khuôn mặt biểu cảm Trong tốn nhận dạng biểu cảm khn mặt, Paul Ekman cộng [5] xác định sáu cảm xúc biểu cảm khuôn mặt người dựa nghiên cứu giao thoa văn hóa Theo đó, người thể cảm nhận