Mô hình mạng nơron tích chập đa nhiệm nhận dạng khuôn mặt và biểu cảm cho ứng dụng hỗ trợ giám sát học trực tuyến

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	7
Dung lượng	477,25 KB

Nội dung

MÔ HÌNH MẠNG NƠRON TÍCH CHẬP ĐA NHIỆM NHẬN DẠNG KHUÔN MẶT VÀ BIỂU CẢM CHO ỨNG DỤNG HỖ TRỢ GIÁM SÁT HỌC TRỰC TUYẾN MULTI TASK CNN MODEL FOR FACE AND FACIAL EXPRESSION RECOGNITION AND APPLICATION FOR MO[.]

MƠ HÌNH MẠNG NƠRON TÍCH CHẬP ĐA NHIỆM NHẬN DẠNG KHUÔN MẶT VÀ BIỂU CẢM CHO ỨNG DỤNG HỖ TRỢ GIÁM SÁT HỌC TRỰC TUYẾN MULTI-TASK CNN MODEL FOR FACE AND FACIAL EXPRESSION RECOGNITION AND APPLICATION FOR MONITORING ONLINE LEARNING Dương Thăng Long, Chu Minh*, Phí Quốc Chính† Ngày tịa soạn nhận báo: 02/11/2021 Ngày nhận kết phản biện đánh giá: 04/05/2022 Ngày báo duyệt đăng: 26/05/2022 Tóm tắt: Hệ thống quản lý học tập trực tuyến (LMS) phát triển mạnh, góp phần nâng cao chất lượng đào tạo Tuy nhiên, việc tăng cường giám sát hỗ trợ người học, theo dõi quản lý học tập dựa công nghệ đại chưa nghiên cứu sâu rộng Đặc biệt ứng dụng công nghệ nhận dạng khuôn mặt biểu cảm khuôn mặt giúp cho việc theo dõi, giám sát người học tự động hoá cao độ hỗ trợ kịp thời Bằng việc ứng dụng công nghệ mạng nơron tích chập đa nhiệm (MTCNN), nghiên cứu đề xuất mơ hình MTCNN nhằm thực hai nhiệm vụ nhận dạng khuôn mặt nhận dạng biểu cảm khn mặt Mơ hình thử nghiệm tập liệu công bố gồm CK+, OuluCASIA liệu người học thu thập cho kết khả quan so sánh với số kiến trúc đại kích thước mơ hình đơn giản Chúng tơi thiết kế tích hợp mơ hình đề xuất với hệ thống quản lý học tập trực tuyến (LMS) theo hướng kết nối mở để gia tăng thêm tính giám sát theo dõi trình học tập, chủ động cảnh báo cho giáo viên, người học biết để điều chỉnh hoạt động dạy học nhằm nâng cao chất lượng đào tạo Từ khố: Mạng nơron tích chập đa nhiệm, nhận dạng khn mặt, nhận dạng biểu cảm khuôn mặt, hệ thống quản lý học tập trực tuyến Abstract: The online learning management system (LMS) is being more and more widely developed and contributes to improving the quality of training at educational institutions However, at present, there are few systems with enhanced monitoring and support for learners based on modern technologies Especially, the application of this facial recognition and facial expression technology makes the tracking and monitoring of learners highly automated and timely supported By using multi-tasking convolutional neural networks, this study proposes such a network model to perform two tasks of face recognition and facial expression recognition The model is tested on published data sets including CK+, * Trường Đại học Mở Hà Nội † VNPT Hà Nội Nghiên cứu trao đổi ● Research-Exchange of opinion 11 OuluCASIA and our collected data The experimental results are significant in comparison with some modern architectures while the model size is simpler Based on the proposed model, we design an integrated proposed model with the online LMS in the direction of open connection to increase the monitoring and tracking learning activities, therefore, it can give warnings as well as notify teachers and learners to adjust teaching and learning activities to improve training quality Keywords: Multi-task convolutional neural network, face recognition, facial expressions recognition, online learning management systems I Giới thiệu Trong năm gần đây, phát triển mạnh mẽ e-learning thu hút ngày nhiều người lựa chọn cách học tiếp thu kiến thức trực tuyến thông qua hệ thống học tập trực tuyến (LMS) Trong E-learning, người học nhiều thứ họ cần lúc nơi đâu E-Learning linh hoạt mở rộng dễ dàng, sử dụng phương pháp học cá nhân hố cao độ, tốn chứng minh hiệu so với giáo dục truyền thống Vì vậy, e-learning ngày trở nên phổ biến Tuy nhiên, giám sát đánh giá chất lượng hoạt động học tập trực tuyến chắn điều cần quan tâm đặc biệt Chúng ta phải hạn chế đến mức tối thiểu tình trạng gian lận học tập, thi kiểm tra hệ thống trực tuyến tốt không để xẩy tình trạng đó, ảnh hưởng lớn đến kết học tập người học chất lượng hệ thống giáo dục Do đó, hệ thống quản lý học tập trực tuyến cần phải cung cấp khả xác định giám sát hoạt động người học [1] Một số nghiên cứu tìm kiếm cách tốt để sử dụng phương pháp sinh trắc học giúp xác định giám sát trình học tập thi trực tuyến [2], [3] Tuy nhiên, hệ thống nhận dạng khuôn mặt (FR) nhận dạng biểu cảm khuôn mặt (FER) thân thiện với người chúng khơng cần tiếp xúc không cần phần cứng bổ sung hầu hết máy tính thiết bị người dùng có camera tích hợp Quan trọng hơn, hệ thống FR/FER sử dụng để xác thực liên tục người học tồn q trình học tập kiểm tra theo thời gian thực giám sát, đo đếm thể trình học tập người học biểu cảm khuôn mặt để dựa vào đó, nhà sư phạm quản lý điều chỉnh hoạt động nhằm đáp ứng tốt cho trình đào tạo người học Bài toán FR/FER toán thú vị thu hút nhiều nghiên cứu với kết tích cực lĩnh vực thị giác máy tính, ứng dụng rộng rãi tốn giám sát trạng thái người lái xe [4], giám sát người dùng điện thoại, phát biểu cảm không thật, nhận dạng trầm cảm [5], hệ thống giám sát sở y tế giáo dục [3], [2] Tuy nhiên, tốn FR/FER cịn nhiều thách thức đa dạng người có nét mặt giống thể hiệu biểu cảm khn mặt người thay đổi theo thời gian Hiện nay, tác giả chủ yếu tiếp cận vấn đề dựa mạng nơron tích chập (CNN) với mơ hình đại VGGNet, GoogleNet, ResNet, SENet chúng cho kết khả quan Mặc dù kết 12 Nghiên cứu trao đổi ● Research-Exchange of opinion nhận dạng mơ hình CNN ngày tốt phiên kiến trúc mạng điều chỉnh cải tiến, số vấn đề cần cải thiện, đặc biệt ứng dụng thực tế Hơn nữa, mơ hình CNN thường thiết kế độc lập cho tốn có độ phức tạp lớn số ứng dụng thực tế có giới hạn tài ngun tính tốn máy tính, có mơ hình lên đến hàng trăm triệu tham số [6] Nghiên cứu tập trung thiết kế mơ hình CNN đa nhiệm (Multi-Task CNN) cho hai toán FR/FER đồng thời với độ phức tạp vừa phải đảm bảo chất lượng hiệu cho tốn Mơ hình chạy thử nghiệm để đánh giá số liệu phổ biến OuluCASIA [7] thiết kế để tích hợp với hệ thống LMS để hỗ trợ giám sát đánh giá trình học tập trực tuyến người học II Một số nghiên cứu liên quan 2.1 Nhận dạng khuôn mặt biểu cảm Trong tốn nhận dạng biểu cảm khn mặt, Paul Ekman cộng [5] xác định sáu cảm xúc biểu cảm khuôn mặt người dựa nghiên cứu giao thoa văn hóa Theo đó, người thể cảm nhận cảm xúc biểu cảm khuôn mặt theo cách họ thuộc dân tộc hay văn hóa Nói cách khác, nét biểu cảm khuôn mặt độc lập với văn hoá mà người trải nghiệm, sinh sống Những biểu cảm khn mặt (Hình 2.1) bao gồm tức giận (An-anger), ghê tởm (Didisgust), sợ hãi (Fe-fear), hạnh phúc (Hahappiness), buồn bã (Sa-sadness) ngạc nhiên (Su-surprise) Một biểu cảm khác sử dụng khinh bỉ (Co-contempt) Một số nghiên cứu sử dụng thêm biểu cảm trung tính (Ne-neutral) số biểu cảm Hình 2.1 Các biểu cảm khn mặt Hệ thống FR/FER nói chung chia thành hai giai đoạn chính, giai đoạn thực trích xuất đặc trưng hình ảnh khn mặt đại diện cho định danh khuôn mặt biểu cảm tương ứng giai đoạn phân loại đặc trưng vào định danh biểu cảm Việc trích xuất đặc trưng khn mặt cho tốn FR/FER quan trọng ảnh hưởng đến độ xác việc nhận dạng Một số phương pháp truyền thống đề cập [8] kỹ thuật HOG (biểu đồ gradient có định hướng), kỹ thuật LBP (mẫu nhị phân cục bộ), kỹ thuật Gabor đặc trưng kiểu Haar Các phương pháp hoạt động tốt tập liệu đơn giản nhất, thực tế, tập liệu phức tạp đa dạng, có nhiều biến thể đặc biệt thể đa dạng biểu cảm khuôn mặt hình ảnh, chẳng hạn dạng điệu, tư góc nhìn, độ sáng tối, Đây Nghiên cứu trao đổi ● Research-Exchange of opinion thách thức lớn phương pháp truyền thống, phương pháp đại dựa mơ hình CNN thiết kế cơng trình nghiên cứu với độ xác cao khả nhận dạng có nhiều tiềm ứng dụng Gần đây, mơ hình CNN thiết kế nhận dạng hình ảnh với kiểu kiến trúc phức tạp VGG, ResNet, SENet hay MobileNet [6], [9] có xu hướng ngày sâu 2.2 Mạng nơron tích chập đa nhiệm Mạng nơron tích chập đa nhiệm (Multi-Task CNN - MTCNN) kiểu mơ hình CNN học sâu hiệu việc cải thiện chất lượng cho mục tiêu nhiệm vụ với trợ giúp số nhiệm vụ có liên quan Mơ hình MTCNN thực 13 chia sẻ tham số để tìm kiếm biểu diễn đặc điểm chung tốn cần giải lớp tích chập mức sâu Có hai kiểu chia sẻ tham số mơ hình MTCNN gồm chia sẻ cứng (hardsharing) chia sẻ mềm (soft-sharing) Chia sẻ cứng MTCNN việc sử dụng kiến trúc mạng xương sống chung để trích chọn đặc trưng cho tốn phân lớp độc lập theo nhiệm vụ (Hình 2.2a) Chia sẻ mềm sử dụng khối kiến trúc trích chọn đặc trưng cho riêng tốn có liên kết chéo lớp nơron khối (Hình 2.2b) Các mơ hình MTCNN nghiên cứu xây dựng thực nghiệm cho thấy có hiệu nhiệm vụ thị giác máy tính khác [9] (a) (b) Hình 2.2 Hai kiểu chia sẻ tham số MTCNN 14 Nghiên cứu trao đổi ● Research-Exchange of opinion Ban cộng [10] thiết kế MTCNN kiểu phân tầng với tầng cho hai toán phân loại học (taxonomic assigment) tầng thứ hai có sử dụng kết tầng cho tốn phân vùng gen (genomic region assigment) Mơ hình dựa kiến trúc VGG với độ sâu 11 lớp CONV Kiểu mơ hình MTCNN dạng phân tầng có liên kết chéo lớp nơron (softsharing) phát triển cho toán phát loại phương tiện hàng hải [11] Mơ hình sử dụng lớp tích chập lõi chung để trích xuất đặc trưng dựa kiến trúc mạng VGG với độ sâu 16 lớp CONV Cuong cộng [12] thiết kế mơ hình MTCNN có lớp tích chập (CONV) lớp phân loại (FC) theo kiểu chia sẻ tham số đặc trưng dạng “hard-sharing” để thực phát giới tính, trạng thái cười biểu cảm khn mặt Wang cơng [9] thiết kế mơ hình CNN đa nhiệm đa nhãn theo kiểu “hardsharing” dựa kiến trúc ResNet50 cho toán nhận dạng thuộc tính ảnh khn mặt trạng thái đeo kính, đội mũ, hay để tóc mái mỉn cười, mũi nhọn mơi to III Mơ hình MTCNN nhận dạng khuôn mặt biểu cảm 3.1 Kiến trúc mơ hình CNN đa nhiệm Trong phần này, chúng tơi thiết kế mơ hình MTCNN (gọi tắt mơ hình MFER) để thực nhiệm vụ lúc gồm nhận dạng định danh khuôn mặt (FR) nhận dạng biểu cảm khn mặt (FER) Mơ hình MFER chia thành hai giai đoạn (Hình 3.1) bao gồm: (1) đặc trưng hình ảnh trích xuất biểu thị cho định danh khuôn mặt biểu cảm khuôn mặt; (2) phân loại đặc trưng thành nhãn phân lớp tương ứng với toán thực Số lớp độ lớn (số lượng nơron) lớp ảnh hưởng đến chất lượng mơ hình độ phức tạp tính tốn Các nghiên cứu thường điều chỉnh hai yếu tố theo toán ứng dụng để đạt chất lượng mong đợi độ phức tạp tính tốn chấp nhận lúc Vì vậy, chúng tơi thiết kế mơ hình với số lượng lớp vừa phải để phù hợp với hệ thống tính tốn chúng tơi Kiến trúc mơ hình MFER sử dụng phương pháp chia sẻ tham số dạng “hard-sharing” nhằm giảm kích thước độ phức tạp mơ hình cho việc tích hợp vào ứng dụng có điều kiện tính tốn hạn chế Khối lõi mơ hình MFER dựa kiến trúc VGG để thực trích chọn đặc trưng cho tốn cần thực hiện, nhiên, để giảm kích thước mơ hình chúng tơi thiết kế số lớp tích chập (CONV) 4, sau hai lớp tích chập đầu sử dụng lớp kết gộp tín hiệu đặc trưng phép trung bình (Average POOL) sau hai lớp tích chập cuối sử dụng phép gộp tín hiệu dạng lớn (Max POOL) Chia lớp nơron thành khối gồm (B2), (B3), (B4) (B5) có cấu trúc nhau, khối có lớp tích chập (CONV) theo sau lớp gộp tín hiệu (POOL) Khối (B1) ảnh đầu vào, để giảm kích thước tham số mơ hình phù hợp với ảnh thu thập từ camera thiết bị đầu cuối thông dụng có độ phân giải mức vừa phải chúng tơi đặt kích thước ảnh đầu vào H(cao)  W(rộng)  D(sâu)  80  60  Nghiên cứu trao đổi ● Research-Exchange of opinion 15 Hình 3.1 Mơ hình MFER Các lọc nơron lớp CONV Khối có lớp nơron kết nối đầy đủ (FC) cho toán cần thực hiện, lớp có kích thước 33, lớp POOL có kích FC ẩn sử dụng hàm kích hoạt phi tuyến thước 22 Các nơron tích chập sử dụng dạng “sigmoid” lớp FC có kích hoạt hàm kích hoạt dạng “ReLu” thông dụng hàm “softmax” (công thức (3.2)) nhằm cho phép kích hoạt thưa mức để tính xác suất thuộc lớp cho khoảng 50% kích hoạt đầu hình ảnh đầu vào Khối (B5) có thêm tổng tín hiệu đầu dương, giảm thiểu khả chế trải tín hiệu đặc trưng dạng phẳng suy biến gradient trình học, tính tốn đơn giản tăng tốc độ để truyền tín hiệu đặc trưng theo kết nối huấn luyện cho mơ hình Để giảm thiểu đầy đủ đến khối phân loại (B6) Chúng tượng khớp (overfitting) tơi áp dụng mơ hình MFER cho hai học máy chúng tơi sử dụng kỹ thuật loại tốn nhận dạng định danh khuôn mặt bỏ ngẫu nhiên kết nối nơron (tức (FR) nhận dạng biểu cảm khuôn mặt đầu nơron loại bỏ 0) (FER) Để tăng khả phân loại theo tỷ lệ 20% (Dropout = 0.2) Số lượng nhận dạng, số nơron lớp FC ẩn lọc (filter) lớp nơron tăng thêm 10 lần so với số nơron lớp CONV tăng dần theo chiều sâu từ 8, FC ra, tức 10 lần số lớp cần nhận 16, 32 64 nhằm tăng thêm hội trích dạng toán Như vậy, số nơron lớp chọn nhiều đặc trưng ẩn sâu FC lớp FC ẩn khối (B6) cho bên hình ảnh lớp nơron tích tốn FR tương ứng số người cần định chập mức sâu danh (C1) C1×10, cho tốn FER Khối (B6) dùng để phân loại ảnh tương ứng số loại biểu cảm khuôn đầu vào đến lớp theo tốn mặt (C2) C1×10 Cơng thức tính đầu ... khuôn mặt (FR) nhận dạng biểu cảm khuôn mặt (FER) Mô hình MFER chia thành hai giai đoạn (Hình 3.1) bao gồm: (1) đặc trưng hình ảnh trích xuất biểu thị cho định danh khuôn mặt biểu cảm khuôn mặt; ... sâu 2.2 Mạng nơron tích chập đa nhiệm Mạng nơron tích chập đa nhiệm (Multi-Task CNN - MTCNN) kiểu mơ hình CNN học sâu hiệu việc cải thiện chất lượng cho mục tiêu nhiệm vụ với trợ giúp số nhiệm. .. 2.1 Nhận dạng khuôn mặt biểu cảm Trong tốn nhận dạng biểu cảm khn mặt, Paul Ekman cộng [5] xác định sáu cảm xúc biểu cảm khuôn mặt người dựa nghiên cứu giao thoa văn hóa Theo đó, người thể cảm nhận

Ngày đăng: 02/03/2023, 08:37