Kết quả hệ thống nhận dạng cảm xúc

4.4.1 Kết quả huấn luyện và nhận dạng

Độ chính xác sau khi huấn luyện mô hình từ tập dữ liệu FERC-2013[2] dùng để đánh giá mức độ tự học của mô hình từ tập dữ liệu đã được chuẩn bị sẵn. Sau lần huấn luyện đầu tiên, độ chính xác của quá trình huấn luyện mô hình đạt được là 43.59%, tiếp tục tiến hành huấn luyện 125 lần nhận được kết quả là 64,6%. Lấy kết quả so sánhvới đề tài

đã nghiên cứu [1] được thể hiện trong bảng 4.1 thấy được độ chính xác qua quá trình huấn luyện của cá nhân thực hiện là tốt hơn do mô hình được huấn luyện với sốlượng ảnh là 28709 hình và 125 lần huấn luyện là khoảng 2.6%. Cá nhân thực hiện đề tài nhận thấy độ chính xác qua quá trình huấn luyện đạt được có thể chấp nhận được so với đề tài mà các nhà khoa học đã nghiên cứu [1]. Nguyên nhân độ chính xác qua quá trình huấn luyện mô hình chỉ đạt được 64.6% là do gặp sự thách thức về tập dữ liệu huấn luyện cho mô hình nhận dạng cảm xúc. Tập dữ liệu được gọi là thách thức vì đây là tập dữ liệu được sử dụng cho cuộc thi “Thách thức nhận dạng cảm xúc” được tổ chức vào năm 2013. Bên trong tập dữ liệu có mức độ lộn xộn giữa của các biểu cảm cảm xúc của các khuôn mặt, trong đó có những cảm xúc của khuôn mặt không được căn chỉnh, có những biểu cảm được gắn nhãn không chính xác, hơn thế nữa còn có những ảnh còn không chứa khuôn mặt hoặc mất một phần của khuôn mặt làm mất đặc trưng của khuôn mặt để nhận dạng. Đây thực sự là tập dữ liệu gây nên sự thách thức để huấn luyện mô hình mạng cho cuộc thi cũng như cho các tác giả đã thực hiện đề tài trước đây và cá nhân bản thân đang làm đề tài này. Hình 4.10 mô tả sự thách thức từ tập dữ liệu huấn luyện cho mô hình nhận dạng cảm xúc bao gồm cả những hình ảnh gây nên sự khó khăn khi huấn luyện.

Hình 4.10: Một số hình ảnh trong tập dữ liệu gây nên thách thức về độ chính xác khi huấn luyện mô hình

Bảng 4.1: So sánh độ chính xác sau khi qua quá trình huấn luyện giữa hai mô hình Mô hình Mô hình cá nhân thực hiện Mô hình trong [1] Độ chính xác ( % ) 64.6% 62%

Từ bảng 4.1 cá nhân thực hiện đề tài đã so sánh kết quả độ chính xác sau khi huấn luyện để đánh giá mức độ tự học từ tập dữ liệu mẫu FERC-2013[2] của hai mô hình, giữa mô hình do cá nhân thực hiện đề tài làm và mô hình trong [1]. Bản thân cá nhân thực hiện đề tài nhận thấy kết quả đánh giá mức độ tự học từ tập dữ liệu mẫu của mô hình do cá nhân thực hiện so với mô hình trong [1] có thể chấp nhận được, thậm chí tốt hơn khoảng 2.6% so với mô hình mà tác giả nghiên cứu đã thực hiện khi cùng huấn luyện từ tập dữ liệu FERC-2013[2].

Độ chính xác qua kiểm tra dùng để đánh giá mô hình sau khi huấn luyện. Kết quảthể hiện trong hình 4.12. Đường chéo thuận trên ma trận đậm hơn so với các điểmcòn lại thể hiện sự tương quan giữa cảm xúc đầu vào và dự đoán có sự tương quan lớn. Các cảm xúc “vui”, “bình thường” và “ngạc nhiên” có độ chính xác cao dotập mẫu có số lượng dùng huấn luyện lớn, đồng thời đây cũng là các cảm xúc dễlàm, ít sự tương đồng với các cảm xúc khác. Cảm xúc “khó chịu” tuy có độ chínhxác cao nhưng do cảm xúc này có số lượng tập mẫu huấn luyện thấp, các tập riêng dùng để kiểm tra không nhiều, nên độ chính xác đạt được khá cao lên đến 0.6. Bacảm xúc còn lại bao gồm “giận dữ”, “sợ hãi” và “buồn” có tỉ lệ thấp do có nhiềusự tương đồng tại các điểm trên khuôn mặt dẫn đến việc kiểm tra gây nhầm lẫn,khiến cho sự đánh giá của máy tính sai lệch khá nhiều. Trong nghiên cứu [1], tácgiả cho rằng để tăng độ chính xác lên đến 90% cần tập mẫu, tập kiểm tra phải nằm trong điều kiện lý tưởng của phòng thí nghiệm (ánh sáng hoàn hảo, máy ảnh ngang tầm mắt và máy ảnh đối diện với các điểm nhận dạng trên khuôn mặt). Tuy tập dữliệu của cá nhân thực hiện chưa đạt được các điều kiện như trên nhưng

sau quá trình huấn luyện, cá nhân nhận thấy đường chéo trên ma trận tương quan đậm hơn so với nhưngđiểm còn lại như vậy tập dữ liệu có thể được đánh giá là tương đối tốt.

Hình 4.12: Ma trận tương quan của mô hình với ngõ vào là dữ liệu tập mẫu

Kết quả kiểm tra tập riêng được thể hiện ở bảng 4.2 bên dưới. Đem kết quả sau khi kiểm tra so sánh với đề tài đã nghiên cứu [1], độ chính xác qua kiểm tracủa mô hình của cá nhân thực hiện (trong tệp tin “_emotion_training.log”) và đề tài nghiên cứu [1] thể hiện ở bảng 4.3.

Bảng 4.2: Đánh giá tỉ lệ nhận dạng cảm xúc khi kiểm tra tập riêng.

Bảng 4.3: So sánh độ chính xác giữa hai mô hình

Mô hình Mô hình do cá nhân thực hiện Mô hình trong [1] Độ chính xác (%) 64% 57%

4.4.2 Kết quả kiểm tra nhận dạng với một số ảnh

 Nhận dạng cảm xúc của 7 loại cảm xúc được nghiên cứu trong để tài này với những hình ảnh từ hình 4.7 đến hình 4.14.

Hình 4.14: Nhận dạng cảm xúc “ bình thường ”

Hình 4.14 miêu tả nhận dạng cảm xúc “ bình thường ” với độ chính xác khá cao đạt 77.95% và 88.45% do các chi tiết biểu cảm cảm xúc “bình thường” trên khuôn mặt khá rõ ràng và điều kiện môi trường cũng như cường độ ánh sáng thích hợp nên việc nhận dạng cho ra kết quả tương đối tốt.

Hình 4.15: Nhận dạng cảm xúc “ vui vẻ ”

Hình 4.15 miêu tả nhận dạng cảm xúc “ vui vẻ ” với độ chính xác lên đến 93.98% và 99.36%. Các chi tiết biểu cảm cảm xúc vui vẻ trên khuôn mặt khá chi tiết như vùng miệng được mở và giãn rộng và các cơ vùng mắt được thay đổi tương đối, gò má nâng lên. Hai mí mắt được kéo lại gần nhau hơn. Bên cạnh đó cường độ ánh sáng, cảm xúc dễ thực hiện đối với nhiều người và vị trí đặt camera phù hợp nên hệ thống nhận dạng tương đối tốt.

Hình 4.16: Nhận dạng cảm xúc “ ngạc nhiên ”

a) b)

Hình 4.16 miêu tả nhận dạng cảm xúc “ngạc nhiên” với độ chính xác đạt 67.6% và 97.76% do các chi tiết biểu cảm cảm xúc “ngạc nhiên” trên khuôn mặt đạt mức độ tương đối rõ ràng để hệ thống có thể nhận dạng được như lông mày nâng lên cao, mắt mở to, hai mí mắt giãn ra xa nhau đồng thời há miệng nên hệ thống nhận dạng có độ chính xác tương đối tốt so với tập mẫu đã huấn luyện.Bên cạnh đó cảm xúc dễ dàng thực hiện với nhiều người. Tuy nhiên vẫn còn một vài chi tiết giống với cảm xúc“ sợ hãi ” như vị trí lông mày được kéo lên, mí mắt trên kéo lên và mí mắt dưới căng nên dẫn đến có sự sai số khi dự đoán cảm xúc “ngạc nhiên” chỉ đạt được chính xác 67.6%.

Hình 4.17: Nhận dạng cảm xúc “ buồn ”

Hình 4.17 miêu tả nhận dạng cảm xúc “ buồn ” với độ chính xác đạt 63.47% và 37.61%. Đây là cảm xúc biểu cảm khó biểu cảm với từng người với các chi tiết biểu cảm cảm xúc của khuôn mặt như hai mí mắt trên và dưới khép lại gần nhau , cơ vùng má có sự thay đổi tương đối và các chi tiết vùng miệng được khép lại đồng thời giãn ra. Bên cạnh đó các chi tiết biểu cảm còn dễ nhầm lần với cảm xúc “sợ hãi” như vùng mí mắt và miệng được kéo sang hai bên. Tuy nhiên việc nhận dạng cảm xúc buồn chỉ mang tính chất tương đối với từng người. Tùy theo mỗi người mà sẽ có biểu lộ cảm xúc buồn khác nhau.

Hình 4.18: Nhận dạng cảm xúc “ giận dữ ”

Hình 4.18 miêu tả nhận dạng cảm xúc “ giận dữ ” với độ chính xác đạt 83.27% và 77.18% với các chi tiết biểu cảm cảm xúc của khuôn mặt như lông mày nâng lên và cong hơn, nếp nhăn ở vùng mũi xuất hiện, trừng mắt, há miệng, hai mí mắt khép lại gần nhau đồng thời các chi tiết trên khuôn mặt có nhiều nếp nhăn hơn. Bên cạnh đó cường độ ánh sáng cũng như vị trí đặt camera giúp cho hệ thống nhận dạng có chính xác tốt hơn.

Hình 4.19: Nhận dạng cảm xúc “ khó chịu ”

Hình 4.19 miêu tả nhận dạng cảm xúc “khó chịu” với độ chính xác lên đạt 85.79%. và 56.46%. Đây là cảm xúc mà biểu cảm khuôn mặt hay gặp nhiều khó khăn khi nhận

a) b)

dạng. Các chi tiết biểu cảm mà tác giả thực hiện như nhíu mắt, nhăn mũi, môi trên và môi dưới của miệng được co và khép lại, đồng thời các nếp nhăn của khuôn mặt như vùng dọc theo mũi cũng xuất hiện nhiều hơn. Bên cạnh việc hệ thống nhận dạng có độ chính xác tương đối tốt thì ngoài ra các chi tiết biểu cảm cảm xúc có một vài chi tiết dễ nhầm lần với cảm xúc sợ hãi nên dẫn đến việc xảy ra sai số khi nhận dạng.

Hình 4.20: Nhận dạng cảm xúc “ sợ hãi ”

Hình 4.20 miêu tả nhận dạng cảm xúc “ sợ hãi ” với độ chính xác đạt khoảng 45.82%. và 58.68%. Đây là biểu cảm của khuôn mặt để hệ thống nhận dạng gặp nhiều khó khăn vì dễ nhầm lẫn với các loại cảm xúc khác như “buồn” và “bình thường”. Các chi tiết biểu cảm của cảm xúc này bao gồm lông mày kéo lên, mí mắt trên kéo lên, mí mắt dưới căng. Miệng được thu hẹp, các chi tiết trên vùng má có sự căng thẳng.

 Nhận dạng cảm xúc sai đối với một số hình ảnh từ hình 4.21 đến hình 4.25.

Hình 4.21: Nhận dạng cảm xúc “ bình thường ” thành cảm xúc “ buồn ” do biểu cảm không rõ ràng

Hình 4.21 Cảm xúc nhận dạng bị sai từ “bình thường ” thành “buồn” do các chi tiết biểu cảm không rõ ràng trên khuôn mặt như hai mí mắt bị kéo xuống đồng thời xuất hiện vài nếp nhăn trên tráng gây ra hệ thống dự đoán thêm cảm xúc “sợ hãi”.

Hình 4.22: Nhận dạng cảm xúc “ bình thường ” thành cảm xúc “ sợ hãi ” do cường độ sáng quá cao và ảnh được nhận dạng bị ngược sáng.

Hình 4.22 mô tả hệ thống nhận dạng cảm xúc bị sai do cường độ ánh sáng quá cao và ảnh bị ngược sáng khiến cho chất lượng ảnh cần nhận dạng bị giảm.

Hình 4.23: Không nhận dạng được khuôn mặt do góc nghiêng và các đặc trưng trên khuôn mặt bị mất

Hình 4.23 mô tả hệ thống không nhận dạng được cảm xúc do các chi tiết đặc trưng trên khuôn mặt bị mất do khuôn mặt bị nghiêng khá lớn dẫn đến không phát hiện được khuôn mặt để hệ thống nhận dạng cảm xúc.

Hình 4.24: Nhận dạng cảm xúc “ bình thường ” thành cảm xúc “ sợ hãi ” do cường độ ánh sáng trên khuôn mặt yếu.

Hình 4.24 mô tả cảm xúc nhận dạng bị sai do cường độ ánh sáng yếu dẫn đến thay đổi chất lượng ảnh đầu vào để hệ thống nhận dạng ngoài ra cường độ ánh sáng yếu làm các đặc trưng của khuôn mặt không rõ ràng để hệ thống dự đoán cảm xúc được chính xác.

Hình 4.25: Nhận dạng cảm xúc “ bình thường ” thành cảm xúc “ buồn ” do khuôn mặt bị thay đổi góc nghiêng đồng thời khuôn mặt không ngang tầm và chính diện với

camera

Hình 4.25 mô tả cảm xúc nhận dạng bị sai do khuôn mặt bị thay đổi góc nghiêng, mặc dù các chi tiết biểu cảm của khuôn mặt không bị mất. Ngoài ra khuôn mặt không được đặt nằm ngang ở vị trí chính diện với camera ở khoảng cách 1m. Tất cả đều đó dẫn đến cường độ ánh sáng của khuôn mặt bị giảm làm cho chất lượng các chi tiết biểu lộ cảm xúc của khuôn mặt không rõ ràng nên dẫn đến hệ thống nhận dạng cảm xúc bị sai.

Nhận xét: Trong quá trình nhận dạng cảm xúc , các cảm xúc có thể bị nhận dạng sai do các ảnh hưởng sau:

- Điều kiện cường độ sáng quá thấp hoặc quá cao

- Sự nhầm lẫn giữa các cảm xúc có đặc điểm tương đối giống nhau. - Biểu cảm không rõ ràng.

CHƯƠNG 5 : KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết quả đạt được

Đối với hệ thống nhận dạng khuôn mặt, đề tài đã xây dựng được hệ thống nhận dạng khuôn mặt dùng mạng nơ-ron tích chập chạy thành công trên cứng của máy tính cũng như trên kit Raspberry Pi 4 với dữ liệu đầu vào là ảnh, video có sẵn trong máy tính hoặc trong kit Raspberry Pi hoặc luồng video trực tuyến từ camera. Hệ thống đã phát hiện được khuôn mặt và xác minh được danh tính của các đối tượng có trong tập dữ liệu mẫu. Với các thông số về hiệu suất nhận dạng dựa trên hai tập dữ liệu nêu trong đề tài thì kết quả nhận dạng còn khá tốt so với yêu cầu được đặt ra. Để thu được kết quả nhận dạng tốt hơn thì bộ dữ liệu cần phải được tạo một cách chính xác hơn về độ sáng, góc nhìn, hướng nghiêng và cần phải tối ưu hóa hơn nữa cấu trúc và thông số mạng nơ-ron tích chập, điều này đòi hỏi thời gian thử nghiệm và huấn luyện mạng lâu hơn.

Đối với hệ thống nhận dạng cảm xúc, đề tài đã xây dựng và huấn luyện thành công mô hình mạng nơ-ron tích chập với tập mẫu FERC-2013[2], dùng để nhận dạng cảm xúc thông qua khuôn mặt từ nguồn dữ liệu đầu vào khác nhau như ảnh và video có sẵn trong kit Raspberry hoặc luồng video trực tiếp từ camera . Hệ thống có thể nhận dạng đầy đủ bảy loại cảm xúc, tốc độ xử lý nhanh. Tuy nhiên hệ thống vẫn còn vài hạn chế trong việc nhận dạng cảm xúc như xảy ra sự nhầm lẫn cảm xúc do biểu cảm của khuôn mặt không rõ ràng. Nguồn đầu vào bị nhiễu do các yếu tố bên ngoài như thiếu ánh sáng hoặc cường độ sáng quá cao dẫn đến việc nhận dạng sai cảm xúc. Thêm vào đó, sự thay đổi góc cạnh quá lớn của khuôn mặt cũng là một trong những yếu tố khiến hệ thống không thể nhận dạng được khuôn mặt.

5.2 Hướng phát triển

 Kết hợp hai hệ thống nhận diện khuôn mặt và cảm xúc thành một vừa nhận diện khuôn mặt , vừa nhận diện cảm xúc của đối tượng từ luồng video trực tuyến thông qua camera.

 Tăng độ chính xác của hai hệ thống bằng thuật toán Deep Learning cũng như triển khai đến những mô hình mạng học sâu tiên tiến hơn để hai hệ thống nhận diện có chính xác tốt hơn.

 Xây dựng và phát triển mô hình phần cứng tốt hơn với tốc độ xử lý nhanh hơn và ổn định hơn khi mà hệ thống phải tính toán phức tạp với mô hình mạng nơ-ron tích chập.

 Đối với hệ thống nhận diện khuôn mặt, thêm nhiều người vào tập dữ liệu tự tạo nhằm đa dạng hóa dữ liệu và tăng số lượng lượng người mà hệ thống cần nhận dạng . Số lượng tập mẫu mỗi người càng lớn thì hệ thống nhận diện có độ chính xác tốt hơn. Bên cạnh đó, phát triển hệ thống nhận diện khuôn mặt được ứng dụng trong thực tế như điểm danh nhân viên và các lĩnh vực an ninh .Ngoài ra việc triển khai áp dụng trong thực tế gặp nhiều thách thức về thông số môi trường như cường độ ánh sáng đầu vào, cảm xúc biểu cảm trên khuôn mặt, chất lượng ảnh đầu vào, chất lượng phần cứng như camera, bộ vi xử lý, thuật toán xử lý, đồng bộ với máy

TỔNG QUAN VỀ QUÁ TRÌNH XỬ LÝ ẢNH

KHUÔN MẶT VÀ CẢM XÚC