Cơ sở dữ liệu ảnh nhiệt Kotani Thermal Facial Emotion (KTFE)

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng mô hình kết hợp ảnh thường và ảnh nhiệt để ước lượng cảm xúc con người (Trang 38 - 43)

7. Cấu trúc luận văn

3.1. Cơ sở dữ liệu ảnh nhiệt Kotani Thermal Facial Emotion (KTFE)

Hiện nay, có rất ít cơ sở dữ liệu mà trong đó chứa cả ảnh thường và ảnh nhiệt. Ngoài ra, có một số cơ sở dữ liệu ảnh nhiệt gặp vấn đề khi thiết kế trong thu thập dữ liệu, đó là hiện tượng trễ thời gian. Chính vì vậy, trong nghiên cứu này chúng tôi đề xuất sử dụng cơ sở dữ liệu cảm xúc và khuôn

mặt nhiệt Kotani Thermal Facial Emotion (KTFE) [8] để nghiên cứu phân tích biểu hiện khuôn mặt trở nên thực tế hơn.

KTFE chứa bảy cảm xúc tự phát bao gồm 130 GB của 30 đối tượng là người Việt, người Nhật, người Thái từ 11 đến 32 tuổi với bảy cảm xúc, các video cảm xúc trên khuôn mặt có thể nhìn thấy và khuôn mặt nhiệt.

Hình 3.1. Mẫu ảnh nhiệt và ảnh nhìn thấy của bảy cảm xúc [8]

Cơ sở dữ liệu KTFE có một số ưu điểm:

- Thứ nhất, đây là một trong những video có thể nhìn thấy và nhiệt tự nhiên đầu tiên. Những cơ sở dữ liệu này sẽ cho phép các nhà nghiên cứu biểu hiện trên khuôn mặt và cảm xúc để có nhiều cách tiếp cận thực tế hơn.

- Thứ hai, cơ sở dữ liệu này đã khắc phục lỗi trễ thời gian mà cơ sở dữ liệu cũ gặp khi thực hiện các thiết lập thử nghiệm.

- Thứ ba, đã có một số nghiên cứu trong dữ liệu KTFE và thu được một số kết quả để hỗ trợ các nhà nghiên cứu sử dụng cơ sở dữ liệu này.

Các kết quả về dữ liệu nhiệt cho chúng ta một tương lai đầy hứa hẹn về nghiên cứu trên khuôn mặt tốt hơn.

Bên cạnh ưu điểm thì cơ sở dữ liệu này hạn chế như số lượng của mỗi cảm xúc không giống nhau và dữ liệu ảnh thường với cảm xúc chưa thể hiện rõ qua biểu cảm trên khuôn mặt.

Từ cơ sở dữ liệu thô KTFE gồm các đoạn video chứa các frame ảnh được đặt tên và lưu trong 07 thư mục tương ứng với 07 loại cảm xúc (file lưu có đuôi *.avi chứa các frame ảnh thường và đuôi *.SVX chứa các frame ảnh nhiệt). Tên file được đặt theo tên của đối tượng được quay trong lúc thực nghiệm, mỗi đối tượng gồm 2 file ghi lại quá trình thể hiện cảm xúc bằng camera NEC R300 được sử dụng để thu nhận hình ảnh video màu thông thường và ảnh nhiệt.

Hình 3.2. Thư mục lưu trữ dữ liệu thô KTFE chứa video ảnh thường

Từ những file dữ liệu trên chúng tôi tiến hành xây dựng bộ dữ liệu ảnh thường và ảnh nhiệt để hỗ trợ việc ước lượng cảm xúc. Cụ thể, với mỗi cảm xúc chúng tôi tiến hành tách các frame ảnh trong dữ liệu gốc thành các file dạng hình ảnh thường và ảnh nhiệt lưu vào thư mục “Fusion-Photo”. Trong

thư mục này phân chia thành các thư mục con đại diện cho các cảm xúc, bao gồm: bình thường (Neutral), sợ hãi (Fear), giận dữ (Anger), ghê tởm (Disgust), ngạc nhiên (Surprise), buồn rầu (Sadness), hạnh phúc (Happiness).

Hình 3.3. Tập tin dữ liệu thô hiển thị trên giao diện phần mềm NS9500- PRO (Video chứa các frame ảnh nhiệt)

Gán nhãn dữ liệu dựa trên tên thư mục đã được lưu trong cơ sở dữ liệu thô và được kiểm duyệt bằng cách quan sát của nhóm độc lập (nhóm sinh viên lớp Sư phạm Tin năm cuối của Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Thành phố Hồ Chí Minh) trong quá trình trích xuất ảnh bằng công cụ phần mềm hỗ trợ có tên là NS9500-PRO. Phần mềm này giúp theo dõi quá trình thu nhận, điều chỉnh, phân tích, trích xuất dữ liệu cần thiết.

Ảnh chưa xóa vùng dư thừa (vùng nền, ảnh hưởng của nhiệt độ môi trường)

Ảnh đã tùy chỉnh chỉ giữ lại các vùng quan tâm

Ảnh đã được cắt đôi và lưu vào các thư mục cảm xúc tương ứng chuẩn bị cho quá trình huấn luyện mạng

File ảnh thường được đặt tên theo cấu trúc:

<VI_IR_><Tên cảm xúc><tên file video gốc_><số thư tự frame> Ví dụ VI _IR_sadness_vysa2_678.

File ảnh nhiệt đặt tên chỉ cần thay < VI_IR_thành <IR_IR> IR_IR _sadness_vysa2_678.

Hình 3.4. Frame ảnh thường và ảnh nhiệt của một đối tượng sau khi xóa vùng dư thừa trên ảnh nhiệt (bên trái)

Cặp ảnh này được xuất ra và lưu vào đúng thư mục cảm xúc đã được cấu trúc sẵn. Sau khi hoàn tất việc trích xuất các frame ảnh tương tự như trên, chúng tôi cho cắt tự động (dựa vào chiều dài) thành 02 loại ảnh riêng biệt và lưu vào 2 thư mục khác nhau tương ứng từng loại cảm xúc của ảnh thường và ảnh nhiệt.

Đối với ảnh nhiệt chúng tôi đã xóa bỏ nền và các vùng dư thừa nhằm giữ lại các vùng quan tâm (vùng mà nhiệt độ thay đổi khi cảm xúc thay đổi) bằng cách dựa vào thanh công cụ quản lý nhiệt độ trong phần mềm NS9500-PRO

để chọn ra các vùng có nhiệt độ lớn hơn hoặc bằng 300 C, ảnh nhiệt được lưu với kích thước 554x413. Đối với ảnh thường chúng tôi cắt vùng chứa khuôn mặt bằng cách sử dụng thuật toán Viola-Jones để nhận dạng khuôn mặt sau đó cắt vùng mặt và lưu lại với kích thước 224x224 (đúng với kích thước đầu vào của mạng Resnet).

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng mô hình kết hợp ảnh thường và ảnh nhiệt để ước lượng cảm xúc con người (Trang 38 - 43)

Tải bản đầy đủ (PDF)

(65 trang)