(Tóm tắt đề án) xác định trạng thái biểu cảm khuôn mặt sử dụng học sâu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐỖ HỒNG QUÂN XÁC ĐỊNH TRẠNG THÁI BIỂU CẢM KHUÔN MẶT SỬ DỤNG HỌC SÂU Chuyên ngành: Khoa học máy tính Mã số: 8.48.01.01 TÓM TẮT ĐỀ ÁN TỐT NGHIỆP THẠC SĨ Hà Nội - NĂM 2023 Đề án tốt nghiệp hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: GS TS Từ Minh Phương (Ghi rõ học hàm, học vị) Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Đề án tốt nghiệp bảo vệ trước Hội đồng chấm đề án tốt nghiệp thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu đề án tốt nghiệp tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng 1 MỞ ĐẦU Lý chọn đề tài Bài toán xác định trạng thái biểu cảm khuôn mặt (tên tiếng Anh Facial Expression Reconigtion, viết tắt FER) thuộc lớp toán khai phá liệu từ ảnh video Nhận đầu vào liệu ảnh video, tốn phát khn mặt có hình/video, sau phân loại trạng thái khn mặt thành bảy loại cảm xúc là: giận dữ, ghê rợn, sợ hãi, hạnh phúc, bình thường, buồn bã ngạc nhiên Đây tốn áp dụng rộng rãi số lĩnh vực tư vấn chăm sóc khách hàng, giáo dục thơng minh, dịch vụ cơng hệ thống camera phân tích hành vi, mức độ hài lịng đối tượng Trong nhiều năm gần đây, kỹ thuật học sâu trở thành phương pháp sử dụng toán xác định trạng thái biểu cảm khn mặt Tuy nhiên đa số mơ hình học sâu phụ thuộc lớn vào phép tích chập để trích xuất đặc trưng hình ảnh quan trọng từ đầu vào Một số cơng trình đề xuất cách mở rộng xếp chồng lớp nơ-ron tích chập để cải thiện hiệu suất nhận dạng, AlexNet (Krizhevsky, et al., 2012), VGGNet (Simonyan & Zisserman, 2014), ResNet (He, et al., 2016), EfficientNet (Tan & Le, 2019) Mặc dù điều mang lại hiệu suất cải thiện, dẫn đến kích thước mơ hình lớn thời gian suy luận lâu Để vượt qua thách thức này, học viên lựa chọn nghiên cứu đề tài: “Xác định trạng thái biểu cảm khuôn mặt sử dụng học sâu” So với nghiên cứu liên quan khác, học viên tập trung tìm hiểu xây dựng mơ hình học sâu nhẹ hay nhỏ gọn (Lightweight model), tức mơ hình có số lượng tham số ít, đạt hiệu suất tương đối tốt liệu FER Học viên nhận thấy việc xây dựng mơ hình nhỏ gọn mang lại lợi ích lớn, bao gồm tốc độ dự đoán nhanh, khả triển khai thiết bị có tài nguyên hạn chế giảm thiểu tốn thời gian huấn luyện không gian lưu trữ Để đánh giá hiệu mơ hình đề xuất, học viên tiến hành thực nghiệm số liệu công khai phổ biến xác định trạng thái biểu cảm, từ đưa so sánh với mơ hình học sâu nhỏ gọn tham số khác gần Mục đích nghiên cứu Trong cơng việc này, học viên nghiên cứu số mơ hình học sâu tiên tiến gần áp dụng cho toán xác định trạng thái biểu cảm khn mặt từ đưa đề xuất mạng học sâu nhỏ gọn với số lượng tham số Mơ hình đề xuất tích hợp ba yếu tố quan trọng là: Tích chập phân tách theo chiều sâu, Khối phần dư dư Mô-đun ý theo kênh không gian Mục tiêu việc tích hợp yếu tố đạt cân kích thước mơ hình, tốc độ suy luận độ xác nhiệm vụ xác định trạng thái biểu cảm khuôn mặt (FER) Điều mở hội triển khai hiệu ứng dụng FER thời gian thực thiết bị có nhớ hạn chế Để đánh giá hiệu phương pháp đề xuất, học viên tiến hành thực nghiệm liệu FER công khai phổ biến, bao gồm FER2013 (Goodfellow, et al., 2013), CK+ (Lucey, et al., 2010), FER-Plus (Barsoum, et al., 2016), RAF-DB (Li, et al., 2017); so sánh kết với cơng trình liên quan Đối tượng phạm vi nghiên cứu - Đối tượng: o Bài toán xác định trạng thái biểu cảm khuôn mặt o Một số kiến trúc học sâu đại MobileNet (Howard, et al., 2017), Resnet (He, et al., 2016) o Phép tốn tích chập Tích chập phân tách theo chiều sâu o Một số chế ý thị giác máy tính, bao gồm ý kênh ý không gian o Khối phần dư - Phạm vi nghiên cứu: o Nghiên cứu tổng quan toán xác định trạng thái biểu cảm khuôn mặt o Nghiên cứu chi tiết hướng tiếp cận học sâu để giải xác định trạng thái biểu cảm khuôn mặt o Nghiên cứu đề xuất mơ hình học sâu nhỏ gọn tham số o Cài đặt thực nghiệm số liệu cơng khai phổ biến Phân tích đánh giá kết Phương pháp nghiên cứu - Thu thập tài liệu, phân tích lý thuyết tổng quan tốn xác định trạng thái biểu cảm khn mặt - Tìm kiếm thu thập liệu FER cơng khai - Tìm hiểu mơ hình học sâu áp dụng toán xác định trạng thái biểu cảm khn mặt Kế thừa cơng trình nghiên cứu liên quan thực công bố tạp chí kỷ yếu nước quốc tế - Đề xuất mơ hình, triển khai thực nghiệm liệu công khai, so sánh đánh giá kết Kết cấu đề án Ngoài phần mở đầu, kết luân, tài liệu tham khảo, phụ lục, nội dung đề án tốt nghiệp trình bày chương sau - Chương trình bày tổng quan trạng thái biểu cảm khn mặt tốn xác định trạng thái biểu cảm khuôn mặt Giới thiệu chung nguyên tắc chung xử lý toán xác định trạng thái biểu cảm khuôn mặt, lược khảo tài liệu nghiên cứu liên quan - Chương trình bày chi tiết mơ hình đề xuất Mơ hình mà học viên đề xuất sử dụng ba yếu tố: Tích chập phân tách theo chiều sâu, khối dư thừa, mô-đun ý không gian kênh - Chương phân tích số liệu cơng khai sử dụng toán xác định trạng thái biểu cảm khuôn mặt; cung cấp tổng quan thiết lập thử nghiệm học viên; thực nghiệm đánh giá kết thực nghiệm đạt được, so sánh với cơng trình liên quan 4 CHƯƠNG TỔNG QUAN VỀ BÀI TỐN XÁC ĐỊNH TRẠNG THÁI BIỂU CẢM KHN MẶT Trạng thái biểu cảm khn mặt khía cạnh quan trọng giao tiếp Khi người giao tiếp với nhau, thường sử dụng biểu cảm khuôn mặt để truyền đạt cảm xúc, ý kiến thông điệp Bài tốn xác định trạng thái biểu cảm khn mặt u cầu phân loại nhận dạng trạng thái biểu cảm từ hình ảnh khn mặt Đây nhiệm vụ quan trọng có nhiều ứng dụng rộng rãi tư vấn chăm sóc khách hàng, giáo dục thơng minh, hay đánh giá mức độ hài lịng người dân dịch vụ công Trong chương này, học viên giới thiệu chung toán xác định trạng thái biểu cảm khuôn mặt, nguyên tắc chung xử lý toán, lược khảo nghiên cứu liên quan 1.1 Bài toán xác định trạng thái biểu cảm khn mặt Biểu cảm đóng vai trị quan trọng khía cạnh sống, từ cách người tương tác, làm việc, chí đưa định Xác định hay nhận dạng trạng thái biểu cảm khuôn mặt (Facial Expression Reconigtion FER) thuộc lớp toán khai phá liệu từ ảnh video Nhận đầu vào liệu ảnh video, tốn phát khn mặt có hình/video, sau phân loại trạng thái khuôn mặt thành loại cảm xúc (Ekman, et al., 1992), bao gồm: giận (Angry), kinh tởm (Disgust), sợ hãi (Fear), hạnh phúc (Happiness), trạng thái bình thường (Neutral), buồn bã (Sadness) ngạc nhiên (Surprise) Đây tốn có tiềm ứng dụng cao nhiều lĩnh vực khác Các ứng dụng FER bao gồm tư vấn chăm sóc khách hàng, giáo dục thông minh đánh giá mức độ hài lịng đối tượng dịch vụ cơng 1.2 Ngun tắc chung xử lý tốn FER Q trình giải tốn FER bao gồm hai bước Bước phát khuôn mặt ảnh video, thông qua phương pháp nhận dạng khuôn mặt Viola-Jones (Viola & Jones, 2001), mơ hình dựa học sâu YOLO (Redmon, et al., 2016) Sau xác định vị trí định dạng khuôn mặt, bước phân loại trạng thái biểu cảm khuôn mặt Ở bước nhìn chung xử lý phương pháp học máy truyền thống học sâu Không giống phương pháp tiếp cận máy học thị giác máy tính truyền thống, phương pháp học sâu làm giảm đáng kể phụ thuộc vào tiền xử lý hình ảnh trích xuất đặc trưng Cách tiếp cận dựa học tập sâu tóm tắt qua ba bước minh họa Hình 1, là: (1) phát khuôn mặt ảnh video, (2) chuẩn hóa cường độ, kích thước hình dạng đồng nhất, (3) Đào tạo mạng học sâu Hình Sơ đồ khối hệ thống FER dựa học sâu (Dang, et al., 2021) Các thành tựu ấn tượng mạng nơ-ron tích chập (CNN) mạng nơ-ron tích chập sâu (DCNN) (Lecun, et al., 1998) nhiệm vụ phân loại hình ảnh (He, et al., 2016) mở rộng để áp dụng vào việc nhận diện biểu khn mặt Tuy nhiên, mơ hình học sâu hầu hết phụ thuộc lớn vào phép tích chập để trích xuất đặc trưng hình ảnh quan trọng từ đầu vào Bằng cách mở rộng xếp chồng lớp nơ-ron tích chập hiệu suất nhận dạng cải thiện lại dẫn đến kích thước mơ hình lớn thời gian suy luận lâu Do đó, chúng thường u cầu tính tốn cao tốn nhiều tài nguyên, gây khó khăn triển khai thiết bị có khả tính tốn hạn chế điện thoại di động hệ thống nhúng 1.3 Các nghiên cứu liên quan 1.3.1 Cơ chế ý mơ hình giải FER Cơ chế ý trở thành xu hướng quan trọng xử lý ngôn ngữ tự nhiên thị giác máy tính Có hai loại chế ý: loại tập trung vào cải thiện khía cạnh quan trọng liệu loại tạo biểu diễn ý nghĩa dựa mối quan hệ khía cạnh Các phương pháp Squeeze-and-Excitation (SE-Net) (Hu, et al., 2018) CBAM (Woo, et al., n.d.) đề xuất để tăng cường khả nhận dạng biểu khuôn mặt, đạt kết tốt liệu CK+ FER2013 1.3.2 Các mơ hình nhỏ gọn tham số cho FER Các mơ hình nhỏ gọn tham số cho nhận diện biểu khuôn mặt (FER) thường giảm số lớp tham số kiến trúc mô hình, giữ độ xác tương đối tốt Các phương pháp phát triển mơ hình nhỏ gọn bao gồm cắt tỉa lượng tử hóa (Liang, et al., 2021), chuyển giao kiến thức (A., et al., 2021), thiết kế trực tiếp kiến trúc mơ hình nhỏ Một tiến quan trọng theo cách thiết kế trực tiếp mơ hình nhỏ gọn việc sử dụng tích chập phân tách theo chiều sâu, mơ hình MobileNets (AG, et al., 2017) Xception (Chollet, 2017) Phương pháp bảo tồn khơng gian nội hình ảnh giảm số lượng tham số học được, cho phép xử lý thời gian thực thiết bị di động Một mơ hình DCNN nhẹ gọi LA-Net (Ma, et al., 2021) giới thiệu để nhận dạng trạng thái biểu cảm khuôn mặt LA-Net kết hợp mô-đun Squeeze-and-Excitation (SE) (Hu, et al., 2018) kỹ thuật làm mỏng mạng để giảm kích thước mơ hình u cầu tính tốn Mơ-đun SE gán trọng số cho kênh đặc trưng, tập trung vào học đặc trưng quan trọng loại bỏ thông tin dư thừa Các mơ hình mạng nhỏ gọn khác đề xuất, bao gồm kết hợp tích chập phân tách theo chiều sâu, khối phần dư khối Squeeze-and-Excitation (SE) Một số đó, (Xu, et al., 2022) đạt độ xác 66,29% liệu FER2013 với 54.900 tham số Một mơ hình khác (Zhi, et al., 2022) kết hợp mơ hình ResNet18 với CBAM chế attention cấp khung hình, đạt độ xác 89,52% CK+ 88,33% eNTERFACE'05 Cuối cùng, mô hình khác (Nan, et al., 2022) kết hợp tích chập phân tách theo chiều sâu CBAM, đạt độ xác 88,11% FER-Plus 84,49% RAF-DB 1.4 Kết luận chương Trong chương 1, học viên giới thiệu tổng quan toán xác định trạng thái biểu cảm khn mặt (Facial Expression Recognition - FER) Bài tốn có tiềm ứng dụng cao nhiều lĩnh vực khác Nguyên tắc chung để xử lý toán FER bao gồm hai bước Bước phát khuôn mặt ảnh video, bước thứ hai phân loại trạng thái biểu cảm khuôn mặt phát Trong năm gần đây, học sâu trở nên phổ biến thành công việc giải toán FER Bằng cách mở rộng xếp chồng lớp nơron tích chập mạng học sâu, hiệu suất nhận dạng cải thiện Tuy nhiên, điều dẫn đến kích thước mơ hình lớn thời gian suy luận lâu hơn, tạo thách thức triển khai thiết bị có khả tính tốn hạn chế điện thoại di động hệ thống nhúng Do đó, nhu cầu đặt cần phát triển mô hình học sâu nhỏ gọn, tức có tham số đạt độ xác nhận dạng tương đối tốt Trong hướng tiếp cận này, nhiều nghiên cứu liên quan học viên đề cập đến Các nghiên cứu tận dụng ưu điểm tích chập phân tách theo chiều sâu với chế ý khác thị giác máy tính để giải tốn FER 8 CHƯƠNG MƠ HÌNH ĐỀ XUẤT Chương nghiên cứu trình bày kiến trúc tổng thể mơ hình, bao gồm lớp kết nối chúng, sau chi tiết vào thành phần mơ hình Trong nghiên cứu này, học viên lấy cảm hứng từ mơ hình học sâu nhỏ gọn, tức mơ hình có số lượng tham số ít, đạt hiệu suất tương đối tốt liệu FER Học viên nhận thấy việc xây dựng mơ hình nhỏ gọn mang lại lợi ích lớn, bao gồm khả triển khai thiết bị có tài nguyên hạn chế giảm thiểu tốn thời gian không gian lưu trữ 2.1 Kiến trúc tổng thể mơ hình đề xuất Q trình giải tốn FER gồm hai bước chính: phát khn mặt phân loại trạng thái biểu cảm Mơ hình đề xuất giải bước thứ hai cách nhận đầu vào hình ảnh khn mặt bóc tách phân loại chúng thành bảy trạng thái biểu cảm Kiến trúc mơ hình đề xuất sử dụng ba yếu tố quan trọng: Tích chập phân tách theo chiều sâu (Depthwise Separable Convolution) (Chollet, 2017), khối phần dư (Residual Block) (He, et al., 2016), mô-đun ý (Attention Modules) (Woo, et al., n.d.) Sự kết hợp ba yếu tố làm bật mơ hình so với cơng trình trước thường sử dụng hai số chúng (ví dụ: (Zhi, et al., 2022) khơng sử dụng tích chập phân tách theo chiều sâu, hay (Nan, et al., 2022) bỏ qua khối phần dư, (Zhou, et al., 2021) không sử dụng mô-đun ý) Ngồi ra, mơ hình đề xuất khơng hồn tồn thay tất lớp tích chập truyền thống tích chập phân tách theo chiều sâu, mà kết hợp hai loại để tận dụng lợi ích riêng chúng Thiết kế đảm bảo cân tốc độ, kích thước mơ hình độ xác, để đạt hiệu suất phù hợp cho nhiệm vụ FER Mơ hình đề xuất có kiến trúc gồm ba phần sau: phần Mở rộng – Expansion Part, phần Tích chập chiều sâu - Depthwise Part, phần Phân loại – Classifier Part (Hình 2) Ngồi ra, mơ hình đề xuất sử dụng kỹ thuật quy hóa Batch Normalization Dropout để tăng hiệu học mơ hình Dưới mơ tả chi tiết phần - Phần phần Mở rộng (Expansion Part), bao gồm hai lớp tích chập truyền thống với tám lọc 3x3 bước nhảy Phần trích xuất đặc trưng từ hình ảnh đầu vào thông qua mô-đun ý theo kênh ý không gian để thu biểu diễn tốt đồ đặc trưng - Phần thứ hai phần Tích chập chiều sâu (Depthwise Part), bao gồm bốn khối Mỗi khối bao gồm hai nhánh khác nhau: kết nối trượt chiếu nhánh lớp tích chập phân tách theo chiều sâu thực nhánh thứ hai Nhánh chứa lọc tích chập truyền thống [16, 32, 64, 128] với kích thước 3x3, bước nhảy lớp maxpooling Nhánh thứ hai chứa lọc tích chập phân tách theo chiều sâu [16, 32, 64, 128] với bước nhảy 2, sau qua mơ-đun ý theo kênh ý không gian để thu tập hợp đồ đặc trưng Sau xử lý hai nhánh, thực phép toán cộng đầu chúng Phép cộng kết hợp thông tin từ hai nhánh, kết hợp đồ đặc trưng chúng Tiếp sau đó, đầu khối trước sử dụng làm đầu vào cho khối Luồng cho phép truyền tải đặc trưng thơng tin qua mạng, đóng góp vào trình học chung - Phần thứ ba phần phân loại (Classifier Part), bao gồm lớp: lớp tích chập truyền thống, Tổng hợp trung bình tồn cục hai chiều (Global Average Pooling 2D) phân lớp Softmax để tổng hợp thông tin học từ phần trước đưa dự đoán dựa xác suất nhãn Thay sử dụng lớp kết nối đầy đủ (Fully Connection), phần sử dụng Global Average Pooling 2D để giảm số lượng tham số số phép tính mà mơ hình phải thực Cuối cùng, mơ hình đề xuất, học viên sử dụng hàm mát CrossEntropy điều chỉnh trọng số mơ hình q trình huấn luyện Nó khuyến khích mơ hình gán xác suất cao cho lớp xác suất thấp cho lớp khác 10 Bằng cách giảm thiểu hàm mát Cross-Entropy, mơ hình học cách dự đốn lớp với xác suất cao Hàm mát định nghĩa sau: 𝐿𝐶𝐸 = − ∑𝑛𝑖=1 𝑡𝑖 ∗ 𝑙𝑜𝑔2 (𝑝𝑖 ) , 𝑡𝑖 nhãn 𝑝𝑖 xác suất Softmax cho lớp thứ i Các mục chương trình bày chi tiết thành phần mơ hình đề xuất Hình Kiến trúc mơ hình đề xuất (1) 11 2.2 Thành phần tích chập phân tách theo chiều sâu Tích chập phân tách theo chiều sâu - Depthwise Separable Convolution (Chollet, 2017) loại lớp mạng nơ-ron tích chập phân rã phép tích chập tiêu chuẩn thành hai lớp riêng biệt: phép tích chập theo chiều sâu phép tích chập theo điểm (Hình 3) Phép tích chập theo chiều sâu thực phép tích chập khơng gian riêng biệt kênh đầu vào kích thước nhân tương đối nhỏ, thường 3x3 Điều tạo tập hợp đồ đặc trưng đầu có số lượng kênh đầu vào Trong đó, phép tích chập theo điểm, cịn gọi phép tích chập 1x1, sau áp dụng tổ hợp tuyến tính đồ đặc trưng đầu tất kênh để tạo đầu cuối Tổ hợp tăng hiệu chiều đồ đặc trưng đầu bổ sung tính phi tuyến vào mạng Hình Tích chập phân tách theo chiều sâu phân rã phép tích chập tiêu chuẩn thành hai lớp riêng biệt: phép tích chập theo chiều sâu (Depthwise) phép tích chập theo điểm (Pointwise) 12 2.3 Thành phần khối phần dư Các khối dư - Residual block thành phần ResNet, kiến trúc mạng nơ-ron sâu đạt chiến thắng Cuộc thi Nhận diện Hình ảnh Quy mơ Lớn ImageNet năm 2015 (He, et al., 2016) Một khối dư bao gồm hai nhánh: nhánh áp dụng loạt lớp tích chập hàm kích hoạt phi tuyến lên đầu vào, nhánh lại nhánh nối tắt (skip connection) Đầu nhánh nhánh nối tắt cộng lại, tạo đầu cuối khối Để xử lý trường hợp kích thước đầu vào x ánh xạ đầu vào – F(x) nhánh khác nhau, thay sử dụng nối tắt trực tiếp thực nối tắt với phép chiếu Phần nối tắt với phép chiếu – H(x) bao gồm lớp nơ-ron tích chập (Convolution Layer) để biến đổi đầu vào chỉnh kích thước khớp với kích thước đầu nhánh chính, đảm bảo khả tương thích ánh xạ đầu vào F(x) nối tắt với phép chiếu H(x) - Hình Hình Khối phần dư với nối tắt trực tiếp (a) nối tắt phép chiếu (b) 2.4 Thành phần chế ý Trong mơ hình đề xuất, học viên tận dụng sức mạnh chế ý (Attention Mechanism) Cụ thể, học viên sử dụng hai loại mô-đun ý: mô-đun ý theo kênh (Channel Attention Module - CAM) mô-đun ý không gian (Spatial Attention Module - SAM) Các mô-đun này, truyền cảm hứng từ cơng trình tiên phong (Woo, et al., 2018), cho thấy kết đáng kỳ vọng nhiệm vụ thị giác máy tính khác Trong Hình 5, học viên cung cấp 13 hình ảnh cách mơ-đun CAM SAM áp dụng kiến trúc mạng đề xuất Hình ảnh nhấn mạnh tính chế ý ảnh hưởng chúng đến đồ đặc trưng Hình Cấu trúc chi tiết mô-đun ý kênh mô-đun ý không gian 2.5 Kết luận chương So sánh với nghiên cứu trước đó, phương pháp học viên thiết kế trực tiếp kiến trúc mơ hình nhỏ gọn tham số cho nhiệm vụ FER Lấy cảm hứng từ mơ hình nhỏ gọn tham số đại, mơ hình đề xuất kết hợp ba yếu tố chính: mơ-đun tích chập phân tách theo chiều sâu, khối phần dư mô-đun ý theo kênh ý không gian Điều làm bật mơ hình đề xuất so với cơng trình trước thường sử dụng kết hợp hai số yếu tố (ví dụ: (Zhi, et al., 2022) khơng sử dụng tích chập phân tách theo chiều sâu, hay (Nan, et al., 2022) bỏ qua khối phần dư, (Zhou, et al., 2021) không sử dụng mơđun ý) Hơn nữa, mơ hình đề xuất khơng thay tất lớp tích chập truyền thống tích chập phân tách theo chiều sâu Thay vào đó, học viên sử dụng xen kẽ hai loại tích chập mơ hình đề xuất Sự lựa chọn thiết kế 14 nhằm đạt cân tốc độ, kích thước mơ hình độ xác, đảm bảo mơ hình học viên đạt hiệu suất phù hợp cho nhiệm vụ FER CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Chương trình bày chi tiết thiết lập thực nghiệm đánh giá kết Đầu tiên, học viên giới thiệu liệu sử dụng nghiên cứu này, nhấn mạnh đặc điểm quan trọng thông tin liên quan chúng Tiếp theo, học viên trình bày tường minh độ đo đánh giá sử dụng để đánh giá hiệu suất mô hình Cuối cùng, học viên trình bày chi tiết thực nghiệm, phân tích đánh giá kết thực nghiệm đạt được, so sánh với phương pháp khác 3.1 Tập liệu thực nghiệm Học viên lựa chọn tập liệu công khai phổ biến trạng thái biểu cảm khuôn mặt Nhằm thuận tiện việc so sánh với cơng trình liên quan, liệu sau sử dụng bao gồm tập liệu Cohn-Kanade mở rộng (CK+) (Lucey, et al., 2010), FER2013 (Goodfellow, et al., 2013), FER-Plus (Barsoum, et al., 2016), RAF-DB (Li, et al., 2017) 3.2 Thông số đánh giá Để đánh giá kết thực nghiệm đạt được, thông số sau xem xét sử dụng: • Tham số mơ hình Kích thước mơ hình: Tham số mơ hình đề cập đến tổng số tham số học trực tiếp ảnh hưởng đến độ phức tạp mơ hình, việc sử dụng nhớ, thời gian huấn luyện thời gian suy luận Trong đó, kích thước mơ hình đề cập đến khơng gian lưu trữ u cầu để lưu trữ mơ hình đĩa • Độ xác nhận dạng (Classification Accuracy): độ đo đơn giản tốn phân loại, tính tốn cách lấy số dự đốn chia cho tồn dự đốn; 15 • Ma trận nhầm lẫn (Confusion Matrix): ma trận thể số lượng điểm liệu thuộc vào lớp dự đoán thuộc vào lớp, qua cung cấp thêm thơng tin tỉ lệ phân lớp lớp, hay giúp phát lớp có tỉ lệ phân lớp nhầm cao 3.3 Thực nghiệm kết Nghiên cứu sử dụng GPU NVIDIA GTX 3060 với 12GB VRAM CPU Intel Core i5 12600K với 16GB RAM, với hệ điều hành Ubuntu 20.04.5 Framework học sâu PyTorch 1.10.2 Torchvision 0.11.3 sử dụng, phiên Python 3.6.13 Bộ liệu FER2013 chia thành tập đào tạo, tập kiểm định tập kiểm tra theo tỷ lệ 8-1-1 FER-Plus, liệu hiệu chỉnh từ FER2013, chia theo tỷ lệ tương tự Bộ liệu CK+ RAF-DB chia thành tập đào tạo, tập kiểm định tập kiểm tra theo tỷ lệ 7-1-2 trình thực nghiệm Tập kiểm định sử dụng để tinh chỉnh tham số q trình huấn luyện, tập kiểm tra khơng sử dụng trình huấn luyện sử dụng để đánh giá kết cuối Mơ hình huấn luyện 300 epochs với lần lặp xử lý batch gồm 64 mẫu Trọng số mơ hình khởi tạo phương pháp khác nhau, bao gồm Gaussian Kaiming Thuật toán tối ưu hóa AdamW sử dụng với tỷ lệ học 0.001 có lịch trình tỷ lệ học thơng qua ReduceLROnPlateau Bảng trình bày tổng quan toàn diện kết thực nghiệm thu từ mơ hình đề xuất, cung cấp độ xác phân loại liệu CK+, FER2013, FER-Plus RAF-DB Bộ liệu FER2013 đặc biệt khó khăn liệu FER khác cân lớp, gây khó khăn q trình huấn luyện Mơ hình đề xuất đạt độ xác 98,98% liệu CK+, 69,38% tập kiểm tra FER2013, 79,36% FER-Plus 80,75% RAF-DB Những kết cho thấy tính hiệu mơ hình đề xuất nhiều liệu khác Một lợi đáng ý mơ hình đề xuất giảm đáng kể số lượng tham số, dẫn đến phần nhớ cần thiết để lưu trữ mơ hình 0,32 MB Ngồi ra, mơ hình đề xuất có thời gian suy luận nhanh, đạt tốc độ ấn tượng lên đến 0,004 giây 16 hình ảnh Những yếu tố đóng góp vào tính hiệu tính thực tế mơ hình cho nhiệm vụ nhận diện biểu cảm khuôn mặt thời gian thực Bảng Tổng quan kết thực nghiệm Thay tồn lớp DSC* thành Conv** mơ hình đề xuất Mơ hình đề xuất Độ xác nhận dạng FER- FER- RAFCK+ 2013 Plus DB Số tham số Kích thước (Mb) Thời gian dự đốn (giây/ảnh) 321,816 1.4 0.005 97.6 68.73 79.24 79.55 64,176 0.32 0.004 98.98 69.38 79.36 80.75 * DSC: Tích chập phân tách theo chiều sâu; ** Conv: Tích chập truyền thống Bên cạnh đó, Việc thay tồn lớp tích chập phân tách theo chiều sâu lớp tích chập truyền thống mơ hình đề xuất dẫn đến kết số đánh giá Quan sát Bảng cho thấy số lượng tham số tăng gấp 5, độ xác giảm từ 0.5% đến 1% Điều chứng minh nhận định học viên khơng nên hồn tồn thay lớp tích chập truyền thống lớp tích chập phân tách theo chiều sâu Thay vào đó, mơ hình kết hợp hai loại lớp để tận dụng lợi ích loại Việc sử dụng lớp tích chập phân tách theo chiều sâu giảm số lượng tham số giúp mơ hình giảm mát thơng tin Tiếp theo, Hình hiển thị ma trận nhầm lẫn cho tập kiểm tra bốn liệu, cung cấp thơng tin hiệu suất nhận diện mơ hình đề xuất Mơ hình cho kết xuất sắc việc nhận diện biểu "vui mừng" với độ xác 87% tất bốn liệu Trong liệu CK+, mơ hình đạt độ xác 100% cho tất biểu hiện, trừ lớp "vui mừng" Trong liệu FER2013, lớp "ghê rợn" "sợ hãi" cho thấy độ xác cao Tuy nhiên, liệu FER-Plus RAF-DB, việc có mẫu cho lớp "ghê rợn" "sợ hãi" làm tăng khả phân loại sai 3.4 Thảo luận 3.4.1 So sánh với nghiên cứu liên quan Học viên tiến hành so sánh hiệu suất phương pháp đề xuất với mơ hình nhẹ khác từ nghiên cứu liên quan Việc lựa chọn mơ hình để so sánh 17 dựa tiêu chí kích thước mơ hình cơng bố tương đối nhỏ, với triệu tham số Cần lưu ý để trì tính qn, số cơng trình thực thiết lập thí nghiệm khác khơng bao gồm so sánh Kết từ Bảng đến Bảng cho thấy phương pháp đề xuất có hiệu suất vượt trội so với nhiều mơ hình nhỏ gọn thông thường MobileNet V1 (AG, et al., 2017), MobileNet V2 (Sandler, et al., 2018), MobileNet V3 (al., 2019), SqueeezeNet (Iandola, et al., 2016) Mơ hình đề xuất có hiệu suất cạnh tranh với mơ hình nhỏ gọn khác Hình Ma trận nhẫm lẫn mơ hình đề xuất tập liệu CK+, FER2013, FER-Plus, RAF-DB Cụ thể, mô hình đề xuất đạt độ xác cao liệu CK+ xếp thứ ba liệu FER2013, FER-Plus RAF-DB Mặc dù có số lượng tham số nhỏ nhiều so với nghiên cứu gần đây, mơ hình đề xuất đạt hiệu suất ấn tượng Nó bị vượt qua số lượng tham số hai cơng trình khác (Xu, et al., 2022) với 54,000 tham số (Zhou, et al., 2021) với 58,423 tham số, mô hình đề xuất có độ xác cao đáng kể Mơ hình đề xuất 18 nhỏ gọn nhiều so với cơng trình khác đạt độ xác tương tự liệu FER2013, FER-Plus RAF-DB Bảng So sánh hiệu suất liệu CK+ # Cơng trình (Ale, et al., 2019) * ** Mơ hình sử dụng Sửa đổi dựa vào MobileNetV2 Inception MobileNet v1 MobileNet v3 Năm XB Số lượng tham số Độ xác CK+ 2019 2,639,239 92.4 (AG, et al., 2017) 2017 3,213,575 95.0 (al., 2019) 2019 4,210,711 96.0 (Sandler, et al., MobileNet v2 2018 2,232,263 98.0 2018) (Minaee, et al., 2021) Deep-Emotion* 2021 66,877 98.0 (Shi, et al., 2021) MBCC-CNN** 2021 4,384,175 98.48 Mơ hình đề xuất 64,176 98.98 Deep-Emotion: Cơ chế ý thêm vào thông qua mạng biến đổi không gian MBCC-CNN: Mạng nơ-ron tích chập kết nối chéo với nhiều nhánh Bảng So sánh hiệu suất liệu FER2013 # Cơng trình (Xu, et al., 2022) (al., 2019) (Sandler, et al., 2018) (AG, et al., 2017) Mơ hình sử dụng Năm XB 2022 2019 2018 2017 Số lượng tham số 54,900 4,210,711 2,232,263 3,213,575 Độ xác FER2013 66.29 66.15 66.47 67.08 DSC + RE + SE* MobileNet v3 MobileNet v2 MobileNet v1 MTCNN + RE + (Zhou, et al., 2021) 2021 58,423 67.00 DSC** (Minaee, et al., 2021) Deep-Emotion 2021 66,877 70.02 (Shi, et al., 2021) MBCC-CNN 2021 4,384,751 71.52 Mơ hình đề xuất 64,176 69.38 * DSC: Tích chập phân tách theo chiều sâu; SE: Khối nén kích hoạt lại; RE: Khối phần dư ** MTCNN: mạng tích chập xếp tầng đa tác vụ Bảng So sánh hiệu suất liệu FER-Plus # Mơ hình sử dụng (al., 2019) MobileNet v3 (Sandler, et al., 2018) MobileNet v2 (Iandola, et al., 2016) SqueeezeNet (AG, et al., 2017) MobileNet v1 (Iandola, et al., 2016) ShuffleNet v2 (Shi, et al., 2021) MBCC-CNN Mơ hình đề xuất Cơng trình Năm XB 2019 2018 2016 2017 2018 2021 Số lượng tham số 4,210,711 2,232,263 740,000 3,213,575 1,260,000 4,384,751 64,176 Độ xác FER-Plus 71.42 79.26 80.13 80.04 80.44 88.10 80.36 19 Bảng So sánh hiệu suất liệu RAF-DB 2017 Số lượng tham số 3,213,575 Độ xác RAF-DB 79.92 MobileNet V2 2018 2,232,263 70.13 MobileNet V3 LA-Net (cắt tỉa (Ma, et al., 2021) 70%) (Shi, et al., 2021) MBCC-CNN Mơ hình đề xuất 2019 4,210,711 78.6 2021 1,010,000 85.89 2021 4,384,751 64,176 87.34 80.75 # Cơng trình (AG, et al., 2017) (Sandler, et al., 2018) (al., 2019) 3.4 Mô hình sử dụng MobileNet V1 Năm XB Trực quan hóa đồ ý Bảng Bảng mô tả đồ ý cho biểu khác FER2013 Trong Bảng 6, đồ ý cho biểu "Tức giận" tập trung vào vùng miệng mũi khn mặt phía trước Các hình ảnh khn mặt đặt ngang Bảng thể đồ ý tập trung vào vùng miệng mắt Biểu "Ghê rợn" nhận biết chủ yếu thông qua khu vực mũi hình ảnh khn mặt Đối với biểu "Sợ hãi", đồ ý tập trung vào nhiều vùng khuôn mặt, bao gồm mắt, mũi miệng Trong hình ảnh gán nhãn "Hạnh phúc", khu vực mũi xem quan trọng vùng miệng việc phân biệt cảm xúc Biểu "Ngạc nhiên" thường kèm với miệng mở rộng, số trường hợp gán nhãn "Hạnh phúc" lại có miệng kéo dài mà không mở rộng Các đồ ý cho biểu "Buồn bã" "Bình thường" tập trung vào vùng miệng mũi Trong Bảng 7, đồ ý tương ứng với hình ảnh gán nhãn sai thường khơng nhấn mạnh xác vùng quan trọng hình ảnh Các trường hợp hình ảnh gán nhãn sai đặt câu hỏi độ xác nhãn gán khả gây hiểu lầm phân tích dựa người dựa máy móc 20 Bảng Trực quan hóa ý biểu khác với dự đốn xác tập liệu FER2013 # Anger Happiness Neutral Surprise Sadnes s Các mẫu dự đoán Disgust 2 Fear 1 3.5 Kết luận chương Chương trình bày cách chi tiết liệu cho tốn, mơ tả trình thực nghiệm, phương pháp đánh giá kết quả, với kết thực nghiệm sâu vào phân tích, đánh giá kết Phân tích so sánh với mơ hình nhẹ khác chứng minh ưu điểm mơ hình đề xuất học viên Mặc dù mơ hình đề xuất có số lượng tham số nhỏ tốc độ suy luận nhanh hơn, đạt mức độ xác tương đương ngang với mơ hình nhỏ gọn tiên tiến khác Cụ thể, mơ hình đề xuất đạt độ xác cao tập liệu CK+ so với nghiên cứu khác, xếp thứ ba tập liệu FER2013, 21 FER-Plus tập liệu RAF-DB Ngồi ra, trực quan hóa đồ ý cho biểu khác FER2013, điểm đáng lưu ý hầu hết mẫu gán nhãn "Hạnh phúc" đồ ý thực tế xuất vùng mũi Bản đồ ý tiết lộ khả gây hiểu lầm phân tích dựa người dựa máy móc Đây thách thức đối việc đánh giá biểu cảm khuôn mặt hình ảnh Bảng Trực quan hóa ý biểu khác với dự đoán sai tập Anger Sadnes s Surpris e Neutral Disgust Fear Happiness # Nhãn gốc liệu FER2013 Anger Disgust Các mẫu dự đoán sai Fear Happiness Sadness Surprise Neutral 22 KẾT LUẬN VÀ KIẾN NGHỊ Đề án nghiên cứu số mơ hình học sâu tiên tiến gần áp dụng cho tốn xác định trạng thái biểu cảm khn mặt từ đưa đề xuất mạng học sâu nhỏ gọn với số lượng tham số Mơ hình đề xuất tích hợp ba yếu tố quan trọng là: Tích chập phân tách theo chiều sâu, Khối phần dư dư Mô-đun ý theo kênh khơng gian Mục tiêu việc tích hợp yếu tố đạt cân kích thước mơ hình, tốc độ suy luận độ xác nhiệm vụ FER Điều mở hội triển khai hiệu ứng dụng FER thời gian thực thiết bị có nhớ hạn chế Phân tích so sánh với mơ hình nhỏ gọn khác chứng minh ưu điểm mô hình đề xuất Mặc dù mơ hình đề xuất có số lượng tham số nhỏ tốc độ suy luận nhanh hơn, đạt mức độ xác tương đương ngang với mơ hình nhẹ tiên tiến khác Trong tương lai, học viên có kế hoạch đánh giá phương pháp tập liệu bổ sung, áp dụng cho video tích hợp vào ứng dụng web di động Hơn nữa, học viên dự định tìm giải pháp để phát triển chế ý hiệu mơ hình FER nhỏ gọn

Định dạng
Số trang	24
Dung lượng	1,2 MB