1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu mạng nơ ron deepface và ứng dụng trong bài toán đánh giá chất lượng phục vụ khách hàng dựa trên nhận dạng cảm xúc

74 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 74
Dung lượng 2,63 MB

Cấu trúc

  • CHƯƠNG 1. CƠ SỞ LÝ THUYẾT (13)
    • 1.1. Lý thuyết về nhận dạng ảnh (13)
      • 1.1.1. Tổng quan về xử lý ảnh (13)
      • 1.1.2. Các quá trình xử lý ảnh (13)
      • 1.1.3. Ảnh và biểu diễn ảnh (15)
      • 1.1.4. Phạm vi ứng dụng của xử lý ảnh (17)
    • 1.2. Mạng Neural (17)
      • 1.2.1. Khái niệm chung (17)
      • 1.2.2. Mô hình mạng nơ-ron nhân tạo (19)
      • 1.2.3. Các luật học cơ bản (22)
      • 1.2.4. Mạng Perceptron một lớp (30)
      • 1.2.5. Mạng Perceptron nhiều lớp (31)
    • 1.3. Mạng Neural tích chập (CNN - Convolutional Neural Network) (34)
      • 1.3.1. Tổng quát (34)
      • 1.3.2. Phép nhân tích chập (Convolution) (38)
      • 1.3.3. Cấu trúc của mạng Neural tích chập (CNN) (39)
    • 1.4. Kết luận chương (42)
  • CHƯƠNG 2. PHƯƠNG PHÁP NHẬN DẠNG CẢM XÚC (43)
    • 2.1. Nhận dạng cảm xúc (43)
      • 2.1.1. Tổng quan về nhận dạng cảm xúc với FER (43)
      • 2.1.2. Các lĩnh vực ứng dụng nhận dạng cảm xúc (44)
    • 2.2. Phương pháp nhận dạng cảm xúc (47)
      • 2.2.1. Đọc nhãn đơn - MULTICLASS (47)
      • 2.2.2. Nhận biết biểu diễn mặt và mức độ ước (49)
      • 2.2.3. Học tập nhiều nhãn (51)
    • 2.3. Nhận dạng cảm xúc sử dụng mô hình mạng nơ-ron (52)
    • 2.4. Nền tảng DeepFace về nhận dạng cảm xúc (57)
    • 2.5. Kết luận chương (59)
  • CHƯƠNG 3. KẾT QUẢ THỬ NGHIỆM TRONG BÀI TOÁN ĐÁNH GIÁ CHẤT LƯỢNG PHỤC VỤ KHÁCH HÀNG DỰA TRÊN NHẬN DẠNG CẢM XÚC (60)
    • 3.1. Bài toán đánh giá chất lượng phục vụ khách hàng dựa trên nhận dạng cảm xúc (60)
    • 3.2. Cơ sở dữ liệu (62)
    • 3.3. Huấn luyện mô hình (63)
      • 3.3.1. Mô hình VGG-Face (64)
      • 3.3.2. Cài đặt môi trường (65)
    • 3.4. Kết quả thử nghiệm (66)
      • 3.4.1. Đánh giá kết quả nhận dạng cảm xúc (66)
      • 3.4.2. Phân tích kết quả nhận dạng cảm xúc khuôn mặt (70)
    • 3.5. Kết luận chương (71)
  • KẾT LUẬN (72)
  • TÀI LIỆU THAM KHẢO (73)

Nội dung

Nhận biết và đánh giá các nội dung của ảnh là sự phân tích một hình ảnh thành những phần có ý nghĩa để phân biệt đối tượng này với đối tượng khác, dựa vào đó ta có thể mô tả cấu trúc của

CƠ SỞ LÝ THUYẾT

Lý thuyết về nhận dạng ảnh

1.1.1 Tổng quan về xử lý ảnh

Xử lý ảnh (XLA) là đối tượng nghiên cứu của lĩnh vực thị giác máy, là quá trình biến đổi từ một ảnh ban đầu sang một ảnh mới với các đặc tính và tuân theo ý muốn của người sử dụng Xử lý ảnh có thể gồm quá trình phân tích, phân lớp các đối tượng, làm tăng chất lượng, phân đoạn và tách cạnh, gán nhãn cho vùng hay quá trình biên dịch các thông tin hình ảnh của ảnh Cũng như xử lý dữ liệu bằng đồ hoạ, xử lý ảnh số là một lĩnh vực của tin học ứng dụng Xử lý dữ liệu bằng đồ họa đề cập đến những ảnh nhân tạo, các ảnh này được xem xét như là một cấu trúc dữ liệu và được tạo bởi các chương trình Xử lý ảnh số bao gồm các phương pháp và kỹ thuật biến đổi, để truyền tải hoặc mã hoá các ảnh tự nhiên Mục đích của xử lý ảnh gồm: Biến đổi ảnh làm tăng chất lượng ảnh Tự động nhận dạng ảnh, đoán nhận ảnh, đánh giá các nội dung của ảnh Nhận biết và đánh giá các nội dung của ảnh là sự phân tích một hình ảnh thành những phần có ý nghĩa để phân biệt đối tượng này với đối tượng khác, dựa vào đó ta có thể mô tả cấu trúc của hình ảnh ban đầu Có thể liệt kê một số phương pháp nhận dạng cơ bản như nhận dạng ảnh của các đối tượng trên ảnh, tách cạnh, phân đoạn hình ảnh,… Kỹ thuật này được dùng nhiều trong y học (xử lý tế bào, nhiễm sắc thể), nhận dạng chữ trong văn bản [2]

1.1.2 Các quá trình xử lý ảnh

Hình 1.1 Các quá trình xử lý ảnh

Thu nhận ảnh: Đây là công đoạn đầu tiên mang tính quyết định đối với quá trình XLA Ảnh đầu vào sẽ được thu nhận qua các thiết bị như camera, sensor, máy scanner,v.v… và sau đó các tín hiệu này sẽ được số hóa Việc lựa chọn các thiết bị thu nhận ảnh sẽ phụ thuộc vào đặc tính của các đối tượng cần xử lý Các thông số quan trọng ở bước này là độ phân giải, chất lượng màu, dung lượng bộ nhớ và tốc độ thu nhận ảnh của các thiết bị

Tiền xử lý: Ở bước này, ảnh sẽ được cải thiện về độ tương phản, khử nhiễu, khử bóng, khử độ lệch, v.v… với mục đích làm cho chất lượng ảnh trở lên tốt hơn nữa, chuẩn bị cho các bước xử lý phức tạp hơn về sau trong quá trình XLA Quá trình này thường được thực hiện bởi các bộ lọc

Phân đoạn ảnh: phân đoạn ảnh là bước then chốt trong XLA Giai đoạn này phân tích ảnh thành những thành phần có cùng tính chất nào đó dựa theo biên hay các vùng liên thông Tiêu chuẩn để xác định các vùng liên thông có thể là cùng màu, cùng mức xám v.v… Mục đích của phân đoạn ảnh là để có một miêu tả tổng hợp về nhiều phần tử khác nhau cấu tạo lên ảnh thô Vì lượng thông tin chứa trong ảnh rất lớn, trong khi đa số các ứng dụng chúng ta chỉ cần trích một vài đặc trưng nào đó, do vậy cần có một quá trình để giảm lượng thông tin khổng lồ đó Quá trình này bao gồm phân vùng ảnh và trích chọn đặc tính chủ yếu

Tách các đặc tính: Kết quả của bước phân đoạn ảnh thường được cho dưới dạng dữ liệu điểm ảnh thô, trong đó hàm chứa biên của một vùng ảnh, hoặc tập hợp tất cả các điểm ảnh thuộc về chính vùng ảnh đó Trong cả hai trường hợp, sự chuyển đổi dữ liệu thô này thành một dạng thích hợp hơn cho việc xử lý trong máy tính là rất cần thiết Để chuyển đổi chúng, câu hỏi đầu tiên cần phải trả lời là nên biểu diễn một vùng ảnh dưới dạng biên hay dưới dạng một vùng hoàn chỉnh gồm tất cả những điểm ảnh thuộc về nó Biểu diễn dạng biên cho một vùng phù hợp với những ứng dụng chỉ quan tâm chủ yếu đến các đặc trƣng hình dạng bên ngoài của đối tượng, ví dụ như các góc cạnh và điểm uốn trên biên chẳng hạn Biểu diễn dạng vùng lại thích hợp cho những ứng dụng khai thác các tính chất bên trong của đối tượng, ví dụ như vân ảnh hoặc cấu trúc xương của nó

Nhận dạng và giải thích: Đây là bước cuối cùng trong quá trình XLA Nhận dạng ảnh có thể được nhìn nhận một cách đơn giản là việc gán nhãn cho các đối tượng trong ảnh Một cách tổng quát thì những chức năng xử lý bao gồm cả nhận dạng và giải thích thường chỉ có mặt trong hệ thống phân tích ảnh tự động hoặc bán tự động, được dùng để rút trích ra những thông tin quan trọng từ ảnh, ví dụ như các ứng dụng nhận dạng ký tự quang học, nhận dạng chữ viết tay v.v…

1.1.3 Ảnh và biểu diễn ảnh Ảnh trong thực tế là một ảnh liên tục cả về không gian và giá trị độ sáng Để có thể xử lý ảnh bằng máy tính thì cần thiết phải tiến hành số hóa ảnh Quá trình số hóa biến đổi các tín hiệu liên tục sang tín hiệu rời rạc thông qua quá trình lấy mẫu (rời rạc hóa về không gian) và lượng tử hóa các thành phần giá trị mà về nguyên tắc bằng mắt thường không thể phân biệt được hai điểm liền kề nhau Các điểm như vậy được gọi là các pixel (Picture Element) hay các phần tử ảnh hoặc điểm ảnh Ở đây cần phân biệt khái niệm pixel hay đề cập đến trong các hệ thống đồ họa máy tính Để tránh nhầm lẫn ta gọi khái niệm pixel này là pixel thiết bị

Khi ta quan sát màn hình (trong chế độ đồ họa), màn hình không liên tục mà gồm các điểm nhỏ, gọi là pixel Mỗi pixel gồm một tập tọa độ (x, y) và màu Như vậy mỗi ảnh là tập hợp các điểm ảnh Khi được số hóa nó thường được biểu diễn bởi mảng 2 chiều I(n,p): n là dòng và p là cột Về mặt toán học có thể xem ảnh là một hàm hai biến f(x,y) với x, y là các biến tọa độ Giá trị số ở điểm (x,y) tương ứng với giá trị xám hoặc độ sáng của ảnh (x là các cột còn y là các hàng) Giá trị của hàm ảnh f(x,y) được hạn chế trong phạm vi của các số nguyên dương 0 ≤ f(x,y) ≤ fmax

Với ảnh đen trắng mức xám của ảnh có thể được biểu diễn bởi một số như sau:

Trong đó SBW(λ ) là đặc tính phổ của cảm biến được sử dụng và k là hệ số tỷ lệ xích Vì sự cảm nhận độ sáng có tầm quan trọng hàng đầu đối với ảnh đen trắng nên SBW(λ ) được chọn giống như là hiệu suất sáng tương đối Vì f biểu diễn công suất trên đơn vị diện tích, nên nó bao giờ cũng không âm và hữu hạn 0≤ f ≤ fmax Trong đó fmax là giá trị lớn nhất mà f đạt được Trong xử lý ảnh, f được chia thang sao cho nó nằm trong một phạm vi thuận lợi nào đó Thông thường đối với ảnh xám, giá trị fmax là 255 ( 28 %6) bởi vì mỗi phần tử ảnh được mã hóa bởi một byte Khi quan tâm đến ảnh màu ta có thể mô tả màu qua ba hàm số: thành phần màu đỏ qua R(x,y), thành phần màu lục qua G(x,y) và thành phần màu lam qua B(x,y) Bộ ba giá trị R,

𝐵 = 𝑘 ∫ 𝜆=0 ∞ 𝑐(𝜆)𝑆 𝐵 (𝜆)𝑑𝜆 (3) Ở đó SR( λ),SG(λ ) và SB(λ ) theo thứ tự là những đặc tính phổ của các cảm biến (bộ lọc) đỏ, lục và lam R, G, B cũng không âm và hữu hạn Ảnh có thể được biểu diễn theo một trong hai mô hình: mô hình Vector hoặc mô hình Raster Mô hình Vector: Ngoài mục đích tiết kiệm không gian lưu trữ, dễ dàng hiển thị và in ấn, các ảnh biểu diễn theo mô hình vector còn có ưu điểm cho phép dễ dàng lựa chọn, sao chép, di chuyển, tìm kiếm…Theo những yêu cầu này thì kỹ thuật biểu diễn vector tỏ ra ưu việt hơn Trong mô hình này, người ta sử dụng hướng vector của các điểm ảnh lân cận để mã hóa và tái tạo lại hình ảnh ban đầu Các ảnh vector được thu nhận trực tiếp từ các thiết bị số hóa như Digitalize hoặc được chuyển đổi từ các ảnh Raster thông qua các chương trình vector hóa Mô hình Raster: là mô hình biểu diễn ảnh thông dụng nhất hiện nay Ảnh được biểu diễn dưới dạng ma trận các điểm ảnh Tùy theo nhu cầu thực tế mà mỗi điểm ảnh có thể được biểu diễn bởi một hay nhiều bit

Mô hình Raster thuận lợi cho việc thu nhận, hiển thị và in ấn Các ảnh được sử dụng trong phạm vi của đề tài này cũng là các ảnh được biểu diễn theo mô hình Raster Khi xử lý các ảnh Raster chúng ta có thể quan tâm đến mối quan hệ trong vùng lân cận của các điểm ảnh Các điểm ảnh có thể xếp hàng trên một lưới (raster) hình vuông, lưới hình lục giác hoặc theo một cách hoàn toàn ngẫu nhiên với nhau a) 8 láng giềng b) 4 láng giềng

Hình 1.2 Quan hệ trong vùng lân cận giữa các điểm ảnh

Cách sắp xếp theo hình vuông là được quan tâm đến nhiều nhất và có hai loại: điểm 4 láng giềng (4 liền kề) hoặc 8 láng giềng (8 liền kề) Với điểm 4 láng giềng, một điểm ảnh I(i, j) sẽ có điểm kế cận theo 2 hướng i và j; trong khi đó với điểm 8 láng giềng, điểm ảnh I(i, j) sẽ có 4 điểm kế cận theo 2 hướng i, j và 4 điểm kế cận theo hướng chéo 45 0 (Xem hình 1.2)

1.1.4 Phạm vi ứng dụng của xử lý ảnh

Xử lý ảnh đã đem lại nhiều ứng dụng trong nhiều lĩnh vực khác nhau: y học, khoa học hình hình sự, khí tượng thuỷ văn, quản lý, Quản lý là một trong những ứng dụng quan trọng của xử lý ảnh Cùng với sự bùng nổ của kinh tế thị trường Khối lượng quản lý càng lớn, như quản lý bán hàng, quản lý hồ sơ, quản lý phiếu điều tra trong công tác thống kê, các câu hỏi trắc nghiệm Để thực hiện các công việc trên một cách chính xác, nhanh chóng và hiệu quả Xử lý ảnh và nhận dạng đã nghiên cứu và phát triển mạnh mẽ bài toán nhập liệu tự động

Mạng Neural

Neural Network [3] đọc tiếng việt là mạng nơ-ron nhân tạo, đây là một chuỗi những thuật toán được đưa ra để tìm kiếm các mối quan hệ cơ bản trong tập hợp các dữ liệu Thông qua việc bắt chước cách thức hoạt động từ não bộ con người Nói cách khác, mạng nơ-ron nhân tạo được xem là hệ thống của các tế bào thần kinh nhân tạo Đây thường có thể là hữu cơ hoặc nhân tạo về bản chất

Neural Netwwork có khả năng thích ứng được với mọi thay đổi từ đầu vào

Do vậy, nó có thể đưa ra được mọi kết quả một cách tốt nhất có thể mà bạn không cần phải thiêt kế lại những tiêu chí đầu ra Khái niệm này có nguồn gốc từ trí tuệ nhân tạo, đang nhanh chóng trở lên phổ biến hơn trong sự phát triển của những hệ thống giao dịch điện tử

Mạng nơ-ron nhân tạo được xây dựng dựa trên cấu trúc của bộ não con người, giúp ta đưa ra một phương pháp mới trong lĩnh vực tiếp cận hệ thống thông tin Mạng nơ-ron nhân tạo có thể thực hiện các bài toán mẫu (Recognition), tối ưu, nhận dạng (Identiffication) va điều khiển (Control) cho các đối tượng tuyến tính và phi tuyến đạt hiệu quả hơn so với các phương pháp tính toán truyền thống

Mô phỏng sinh học, đặc biệt là mô phỏng nơ-ron thần kinh là một ước muốn từ lâu của nhân loại Với khoảng 10 25 nơ-ron ở não người, mỗi nơ-ron có thể nhận hàng vạn tín hiệu từ các khớp thần kinh và được coi là một cơ chế sinh học phức tạp nhất Não người có khả năng giải quyết những vấn đề như: nghe, nhìn, nói, hồi ức thông tin, phân biệt các mẫu mặc dù dữ liệu bị méo mó, thiếu hụt Não thực hiện những nhiệm vụ như vậy bởi có những phần tử xử lý tính toán gọi là nơ-ron Não phân bổ việc xử lý thông tin cho hàng tỉ nơ-ron có liên quan, điều khiển liên lạc giữa các nơ-ron Nơ-ron không ngừng nhận và truyền thông tin lẫn nhau

Bảng 1.1 Một số kết quả so sánh giữa máy tính và não bộ

Máy tính Bộ não Đơn vị tính

Một bộ nhớ CPU với 10 5 mạch logic làm việc theo chế độ tuần tự

Mạng trên 100 tỷ nơ-ron làm việc song song

Thời gian xử lý 10 -8 giây 10 -3 giây

Từ bảng trên ta thấy:

Một nơ-ron là được nhưng chức năng đơn giản hơn CPU, với tôc độ chậm hơn rất nhiều Nhưng cả bộ não thì làm được một số việc hơn hẳn máy tính nhât là các bài toán nhận dạng (ảnh, vật thể, tiếng nói…), xử lý thông tin có nhiễu, không đầy đủ, không chắc chắn, mờ (là những tính chất ta đòi hỏi ở máy tính thế hệ mới)

Vậy tính ưu việt của bộ não ở chỗ:

- Có số lượng lớn các nơ-ron được nối thành mạng liên kết chặt chẽ với nhau

Tức là, ở đây thông tin cần thiết cho làm quyết định không những được lấy ra từ bản thân các tín hiệu vào (lớn hay nhỏ) mà còn khai thác triệt để mối liên hệ giữa chúng

- Xử lý tín hiệu song song sẽ giúp mạng nơ-ron nhân tạo giải quyết vấn đề tính toán theo thời gian thực dễ dàng, một trở ngại mà máy tính cũ cộng phương pháp tính song song khó có thể vượt qua

1.2.2 Mô hình mạng nơ-ron nhân tạo

1.2.2.1 Mạng nơ-ron nhân tạo

Giống như các nơ-ron sinh vật, các nơ-ron nhân tạo có thể liên kết với nhau tạo thành mạng Có nhiều cách kết hợp các nơ-ron nhân tạo thành mạng Mỗi cách kết hợp tạo thành một loại lớp mạng nơ-ron nhân tạo khác nhau

Trong mỗi lớp mạng như vậy có nhiều dạng mạng đã được các tác giả đề xuất và xây dựng với nhiều đặc trưng về kiến trúc, thuật học và ứng dụng khác nhau

- Dựa vào số lượng lớp có trong mạng nơ-ron ta có thể phân loại thành: Mạng nơ-ron một lớp; mạng nơ-ron nhiều lớp

- Dựa vào đường truyền tín hiệu trong mạng nơ-ron ta phân thành: Mạng nơ- ron truyền thẳng; mạng nơ-ron phản hồi; mạng nơ-ron tự tổ chức

Thông thường, các phần tử tổ chức thành nhóm hoặc lớp (Layer), ta có:

- Mạng nơ-ron một lớp: Mạng nơ-ron một lớp là tập hợp các phần tử nơ-ron có đầu vào và đầu ra trên mỗi phần tử Nếu mạng nơ-ron nối các đầu ra của phần này với đầu vào của phần tử kia gọi là mạng tự liên kết (Autoassociative)

- Mạng nơ-ron hai lớp: Mạng nơ-ron hai lớp gồm một lớp đầu vào và một lớp đầu ra riêng biệt

- Mạng nơ-ron nhiều lớp: Mạng nơ-ron nhiều lớp gồm một lớp đầu vào và một lớp đầu ra riêng biệt Các lớp nằm giữa lớp đầu vào và lớp đầu ra gọi là các lớp ẩn (Hidden layers)

- Mạng nơ-ron truyền thẳng: Mạng nơ-ron truyền thẳng là mạng hai hay nhiều lớp mà quá trình truyền tín hiệu theo một hướng

- Mạng nơ-ron phản hồi: Mạng nơ-ron phản hồi là mạng mà trong đó một hoặc nhiều đầu ra của các phần tử lớp sau truyền ngược tới đầu vào của lớp trước

- Mạng nơ-ron tự tổ chức: Mạng nơ-ron tự tổ chức là mạng có khả năng sử dụng những kinh nghiệm quá khứ để thích ứng với những biến đổi của môi trường (không dự báo trước) Loại mạng nơ-ron này thuộc nhóm hệ học, thích nghi không cần có tín hiệu chỉ đạo từ ngoài

Hình 1.3 Cấu trúc một số loại mạng nơ-ron thường gặp

(a) Mạng nơ-ron truyền thẳng; (b) Mạng nơ-ron truyền thẳng nhiều lớp; (c) Mạng nơ-ron chỉ có một nơ-ron tự hồi quy; (d) Mạng nơ-ron hồi quy một lớp; (e) Mạng có cấu trúc ngang hạn chế; (f) Mạng nơ-ron hồi quy nhiều lớp

1.2.1.2 Các tính chất của mạng nơ-ron nhân tạo

Mạng nơ-ron nhân tạo có các tính chất sau đây:

- Là hệ xử lý song song: Mạng nơ-ron có cấu trúc song song, do đó có tốc độ tính toán rất cao, rất phù hợp với lĩnh vực nhận dạng và điều khiển,

Mạng Neural tích chập (CNN - Convolutional Neural Network)

Trong mạng Neural, mô hình mạng Neural tích chập (CNNs) [4], [1] là một trong những mô hình để nhận dạng và phân loại hình ảnh Trong đó, xác định đối tượng và nhận dạng khuôn mặt là một trong số những lĩnh vực mà CNN được sử dụng rộng rãi

CNN phân loại hình ảnh bằng cách lấy một hình ảnh đầu vào, xử lý và phân loại nó theo các hạng mục nhất định (Ví dụ: Chó, Mèo, Hổ,…) Máy tính coi hình ảnh đầu vào là một mảng picel và nó phụ thuộc vào độ phân giải của hình ảnh Dựa trên độ phân giải hình ảnh, máy tính sẽ thấy H x W X D (H: chiều cao, W: Chiều rộng, D: Độ dày) Ví dụ: Hình ảnh là mảng ma trận RGB 6x6x3 (3 ở đây là giá trị RGB)

Hình 1.17 Mảng ma trận RGB 6x6x3

Về kỹ thuật, mô hình CNN để training và kiểm tra, mỗi hình ảnh đầu vào sẽ chuyển nó qua một loạt các lớp tích chập với các bộ lọc (Kernals), tổng hợp lại các lớp được kết nối đầy đủ (Full Connected) và áp dụng hàm Softmax để phân loại đối tượng có giá trị xác suất giữa 0 và 1 Hình dưới đây là toàn bộ luồng CNN để xử lý hình ảnh đầu vào và phân loại các đối tượng dựa trên giá trị

Hình 1.18 Luồng CNN xử lý ảnh đầu vào

Một số loại mạng Neural tích chập đem lại kết quả cao như: VGG16, GoogleNet, ResNet-50, DenseNet, EffcientNet, …

Lớp tích chập – Convolution Layer

Tích chập là lớp đầu tiên để trích xuất các tính năng từ hình ảnh đầu vào Tích chập duy trì mối quan hệ giữa các pixel bằng cách tìm hiểu các tính năng hình ảnh bằng cách sử dụng các ô vuông nhỏ của dữ liệu đầu vào Nó là một phép toán có hai đầu vào như ma trận hình ảnh và một bộ lọc hoặc hạt nhân

Ma trận hình ảnh (khối lượng) có kích thước (h x w x d)

Xuất ra thứ nguyên âm lượng (h-f h +1)x(w-f w +1)x1

Xem xét 1 ma trận 5 x 5 có giá trị pixel là 0 và 1 Ma trận bộ lọc 3 x 3 như hình bên dưới

Hình 1.20 Ma trận bộ lọc 3x3 và ma trận 5x5

Sau đó, lớp tích chập của ma trận hình ảnh 5 x 5 với ma trận bộ lọc 3 x 3 gọi là ‘Feature Map’ như hình bên dưới

Sự kết hợp của 1 hình ảnh với các bộ lọc khác nhau có thể thực hiện các hoạt động như phát hiện cạnh, làm mờ và làm sắc nét bằng cách áp dụng các bộ lọc Ví dụ dưới đây cho thấy các hình ảnh tích chập khác nhau sau khi áp dụng các Kernel khác nhau

Bảng 1.2 Hình ảnh tích chập khác nhau sau khi áp dụng các Kernel khác nhau

Stride là số pixel thay đổi tên ma trận đầu vào Khi stride là 1 thì ta di chuyển các kernel 1 pixel Khi stride là 2 thì ta di chuyển các kernel đi 2 pixel và tiếp tục như vậy Hình dưới la lớp tích chập hoạt động với các stride là 2

Hình 1.22 Lớp tích chập hoạt động với stride là 2

- ReLU viết tắt của Rectified Linear Unit, là 1 hàm phi tuyến.Với đầu ra là: f(x)=max(0,x) (40)

- Tại sao ReLU lại quan trọng: ReLU giới thiệu tính phi tuyến trong ConvNet

Vì dữ liệu trong thế giới mà chúng ta tìm hiểu là các giá trị tuyến tính không âm

- Có 1 số hàm phi tuyến khác như tanh, sigmoid cũng có thể được sử dụng thay cho ReLU Hầu hết người ta thường dùng ReLU vì nó có hiệu suất tốt

1.3.2 Phép nhân tích chập (Convolution)

Ký hiệu phép tính Convoltion (⊗), kí hiệu Y = X ⊗ W

Với mỗi phần tử xij trong ma trận X lấy ra một ma trận có kích thước bằng kích thước của kernel W có phần tử xij làm trung tâm (đây là vì sao kích thước của kernel thường lẻ) gọi là ma trận A Sau đó tính tổng các phần tử của phép tính element-wise của ma trận A và mà trận W, rồi viết vào ma trận kết quả Y

Hình 1.24 Phép nhân tích chập

1.3.3 Cấu trúc của mạng Neural tích chập (CNN)

Chứa phép tính nhân tích chập (Convolution) với stride: S, padding: P trên tensor

- Với padding = p có nghĩa là thêm p vector 0 vào mỗi phía (Trên, dưới, trái, phải) của ma trận

- Stride = S có nghĩa là chỉ thực hiện phép tính Convolution trên các phần tử: x1+i*j,1+j*s

Giả sử input của 1 Convolutional Layer tổng quát là tenso kích thước: H*W*D Kernel có kích thước F*F*D (kernel luôn có depth của input và F là số lẻ), stride: S, padding: P Convolutional layer áo dụng K kernel

 Output của Convolutional layer là tensor 3 chiều có kích thước:

Output của convolutional layer sẽ qua hàm non-linear activation function trước khi trở thành input của convolutional layer tiếp theo

Tổng số parameter của layer:

- Mỗi lernel có kích thước F*F*D và có 1 hệ số bias, nên tổng số parameter của 1 kernel là

- Mà convolutional layer áp dụng K kernel  Tổng số parameter trong layer này là:

Pooling layer thường được dùng giữa các convolutional layer, để giảm kích thước dữ liệu nhưng vẫn giữ được các thuộc tính quan trọng Việc giảm kích thước dữ liệu giúp giảm các phép tính toán trong model

Bên cạnh đó, với phép Pooling kích thước ảnh giảm, do đó convolution học được các vùng có kích thước lớn hơn

Gọi Pooling size kích thước K*K Input của Pooling layer có kích thước H*W*D, ta tách ra làm D ma ctraanj kích thước H*W Với mỗi ma trận, trên vùng kích thước K*K trên ma trận ta tìm maximum hoặc average của dữ liệu rồi viết vào ma trận kết quả Quy tắc về Stride và padding áp dụng như phép tính convolution trên ảnh

Nhưng hầu hết khi dùng pooling layer thì sẽ dùng size = (2,2), stride = 2, padding=0 Khi đó ouput width và height của dữ liệu giảm đi một nửa, depth thì được giữ nguyên

Có 2 loại pooling layer phổ biến là: max pooling và average pooing

Hình 1.27 Max pooling và average pooling

Sau khi ảnh đươc truyền qua nhiều convolutional layer và pooling layer thì model đã học được tương đối các đặc điểm của ảnh (Ví dụ mắt, mũi, khuôn mặt,…) thì tensor của output của layer cuối cùng, kích thước H*W*D, sẽ được chuyển về 1 vector kích thước (H*W*D, 1)

Sau đó ta dùng các fully connected layer để kết hợp các đặc điểm của ảnh để ra được output của model.

Kết luận chương

Mạng nơ-ron nó là một mô hình toán học được lấy cảm hứng từ cấu trúc và hoạt động của hệ thống thần kinh sinh học Mạng nơ-ron bao gồm một tập hợp các nút (neuron) và các kết nối giữa chúng, mô phỏng quá trình truyền tải và xử lý thông tin trong hệ thần kinh

Mạng nơ-ron được sử dụng rộng rãi trong nhiều lĩnh vực, bao gồm nhận dạng ảnh, nhận dạng giọng nói….Cơ sở lý thuyết của mạng nơ-ron cung cấp một nền tảng quan trọng cho sự phát triển và ứng dụng của các thuật toán học sâu và trí tuệ nhân tạo hiện đại.

PHƯƠNG PHÁP NHẬN DẠNG CẢM XÚC

Nhận dạng cảm xúc

2.1.1 Tổng quan về nhận dạng cảm xúc với FER

Nhận dạng Biểu cảm trên Khuôn mặt (FER) hiện là khía cạnh của nhận thức và tình cảm tính toán được chú ý và phổ biến nhất, được hỗ trợ bởi các lĩnh vực ứng dụng rộng lớn của nó Học nhiều lần đã được thực hiện trên FER, và nhiều công việc đánh giá cũng có sẵn Đánh giá FER hiện có hoạt động chỉ cung cấp cho một tài khoản của các mô hình FER có khả năng dự đoán các biểu thức cơ bản Có ba định nghĩa vấn đề học máy khác nhau: Học nhãn (SLL) - trình bày FER như một vấn đề đa lớp, Học đa nhãn (MLL) – giải quyết bản chất không rõ ràng của FER và Học phân phối nhãn- giúp khôi phục phân phối cảm xúc trong chú thích dữ liệu FER Các mô hình FER được sử dụng phổ biến được thảo luận kỹ lưỡng và cẩn thận trong quá trình làm thủ công, máy học thông thường và mô hình học sâu

FACIAL Expression Recognition (FER) [5] đã đạt được thành tựu đáng kể trong máy tính, không giới hạn ở Máy tính Tầm nhìn (CV) và tương tác giữa con người với máy tính (HCI) Sự cạnh tranh của quảng cáo trong công nghệ và mục tiêu đạt được giao tiếp người máy khuyến khích nhiều nhà nghiên cứu khám phá lĩnh vực này trong hơn hai thập kỷ FER là về việc phát hiện tình cảm của con người trạng thái do các phản ứng quan sát được trên khuôn mặt thông qua các cơ mặt chuyển động do hành động không tự nguyện được kích hoạt bởi những thay đổi các trạng thái cảm xúc trong con người Theo quan điểm tâm lý học, bộ phận cấu thành các trạng thái cảm xúc của con người thành sáu loại cảm xúc cơ bản: buồn, vui mừng, sợ hãi, ngạc nhiên, tức giận và ghê tởm Biểu hiện trên khuôn mặt mang một tỷ lệ phần trăm lớn hơn thông tin con người giao tiếp hơn bất kỳ thông tin không lời nào khác như cử chỉ tay, cử chỉ cơ thể và văn bản FER là sự kết hợp của hai lĩnh vực quan trọng (Tâm lý học và công nghệ) Trong Tâm lý học, phản ứng của khuôn mặt với những thay đổi cảm xúc được nghiên cứu kỹ lưỡng và thành lập Tương tự như vậy, việc áp dụng công nghệ sử dụng các khái niệm xử lý hình ảnh chuyên nghiệp (Computer Vision) và kỹ thuật học máy để đạt được tự động hóa Kiến trúc chung của FER đề cập đến ba giai đoạn chính: tiền xử lý, trích chọn đặc trưng và phân loại

Tự động hóa của FER có hai quy trình chính: tính năng của phương pháp kéo và phương pháp phân loại tính năng Tuy nhiên, nó được khuyến khích thực hiện một số kỹ thuật kỹ thuật dữ liệu trước khi áp dụng bất kỳ phương pháp nào trong số này cho phù hợp Nhận dạng cảm xúc của FER có nhiều ứng dụng: y học, tâm lý học, an ninh, điều tra lâm sàng rối loạn tâm thần kinh (rối loạn trầm cảm hoặc tâm thần phân liệt)

2.1.2 Các lĩnh vực ứng dụng nhận dạng cảm xúc

Vẫn không có giới hạn đối với ứng dụng của FER và nó trải dài qua mọi khía cạnh mà sự tương tác tự nhiên giữa con người và máy móc là có thể đạt được Phần này xem xét một số lĩnh vực của FER các ứng dụng a Phát triển phần mềm

Mục tiêu của mọi phần mềm là đáp ứng hoặc thỏa mãn yêu cầu gợi ý của người dùng cuối Khả năng sử dụng phần mềm là một trong những phương tiện xác định mức độ hài lòng thông qua phản hồi từ người dùng cuối FER như một phần của đầu vào đa phương thức để kiểm tra khả năng sử dụng phần mềm và nghiên cứu về việc tìm kiếm mối quan hệ giữa các nhà phát triển phần mềm và phân phối chất lượng của công việc trong một khung thời gian cụ thể b Giáo dục

Giáo dục là một trong những xương sống của nền kinh tế của một quốc gia

Vì vậy, việc phổ biến kiến thức thực tế và học hỏi một cách hợp lý là điều tất yếu Quá trình học tập của mọi tổ chức yêu cầu giám sát kỹ lưỡng và phản hồi thích hợp từ cả người học và người hướng dẫn Một số yếu tố ngăn cản việc truyền tải kiến thức trong hệ thống học tập, theo trạng thái cảm xúc của một cá nhân liên quan Các yếu tố này cần được điều tra liên quan đến việc đánh giá trạng thái cảm xúc của người học Phương tiện thích hợp nhất đạt được kết quả xuất sắc từ các thử nghiệm được liệt kê sẽ qua FER c Thuốc

FER có thể áp dụng cho một số lĩnh vực y tế như; thần kinh tâm thần rối loạn, phản hồi điều trị của bệnh nhân, theo dõi cảm xúc của bệnh nhân, phục hồi chức năng, trị liệu tự kỷ và âm nhạc Mặt người biểu hiện đã được sử dụng trong điều tra tâm thần kinh rối loạn vì nó ảnh hưởng đến nhận thức cảm xúc, biểu hiện và nhận biết cảm xúc ở những bệnh nhân bị ảnh hưởng Phương pháp có sẵn được sử dụng bởi các bác sĩ lâm sàng trong lĩnh vực này là một phương pháp thủ công định tính chủ quan hơn và chuyên sâu về con người Thử thách này yêu cầu một quá trình khách quan có thể làm giảm các nỗ lực sử dụng nhiều nhân lực và cung cấp một kết quả định tính

Sự ra đời của y học từ xa trong lĩnh vực y tế đưa ra nhiều lý do hơn cho ứng dụng của FER Với sự năng động sự phát triển và tiến bộ có kinh nghiệm trong công nghệ phát triển đề cập đến các thiết bị truyền thông và ứng dụng di động như máy tính, thiết bị di động, ứng dụng trò chuyện video, đề cập đến một số ít, có thể được khám phá bằng cách sử dụng công nghệ FER sử dụng gợi ý để xác định cảm xúc của người dùng theo thời gian thực d Bảo mật Ứng dụng FER vào hệ thống nhận dạng danh tính sẽ củng cố và cải thiện các chức năng của hệ thống Thiết kế hệ thống sinh trắc học (nhận dạng khuôn mặt) để xác thực danh tính và ứng dụng của nó vào bảo mật, kiểm soát truy cập, pháp y, v.v đã đạt được thành công Tương tự như vậy, giám sát an ninh hệ thống chịu trách nhiệm giám sát môi trường có khả năng cung cấp thông tin chi tiết về sự kiện trong một khung thời gian cụ thể Hệ thống giám sát an ninh và hệ thống nghiêng An ninh sinh trắc học có hạn chế là không ngăn chặn môi trường bị tấn công sắp xảy ra khỏi kẻ thù Thêm FER vào các hệ thống này sẽ kết hợp lớp thông tin tình báo an ninh để phát hiện ý định của kẻ thù thông qua các màn hình cảm xúc và cảnh báo cho nhân viên an ninh, đề xuất cải thiện hệ thống giám sát bằng cách kết hợp FER để tạo ra một hệ thống có thể phát hiện một người có ý định xấu từ nét mặt của họ và báo cáo Cần có loại này giám sát thông minh ở những nơi công cộng như trung tâm mua sắm, các nhà thi đấu thể thao, sân bay và các địa điểm khác nơi mọi người tụ tập được khuyến khích e Tiếp thị

Nhịp tim của bất kỳ công ty hoặc tổ chức kinh doanh nào là tham gia thị trường, và nó bao gồm nghiên cứu thị trường và quảng cáo Bộ phận nghiên cứu thị trường có thể sử dụng một cuộc phỏng vấn hoặc bảng câu hỏi, là một phương tiện truyền thống để thu thập thông tin về người dùng ý kiến Phương tiện thông thường này hướng hiệu quả ra ngoài Một phương pháp khác là nắm bắt hành vi của người dùng bằng cách sử dụng một mẫu sản phẩm Cách tiếp cận sau này cần thực hiện phân tích video bởi các chuyên gia Phương pháp là vốn và thâm dụng con người Chi phí của một phương pháp tiếp cận hành vi có thể được mô phỏng tối thiểu bằng cách sử dụng hệ thống FER cho các nhiệm vụ phân tích video Yolcu và cộng sự đã phát triển một hệ thống dựa trên học sâu không xâm lấn để theo dõi sự quan tâm của khách hàng và chấp nhận xếp hạng quảng cáo Phương pháp này khách quan hơn và đáng tin cậy hơn ra quyết định so với cách truyền thống mà người dùng có thể hình thành sở thích thường gây hiểu lầm cho nhóm nghiên cứu Bộ phận quảng cáo cũng có thể kết hợp FER vào việc phân tích quan điểm đối với các cách tiếp cận quảng cáo khác nhau Với FER, họ có thể tập trung vào quảng cáo thu hút nhiều hơn sự chú ý với những phản hồi tích cực f Người máy và trò chơi

Trò chơi hoặc trò chơi máy tính nên khám phá kỹ FER tự động và phát triển các ứng dụng trò chơi với các nhân vật hiển thị tình cảm các trạng thái có thể áp dụng và phù hợp Nó cũng sẽ được quan tâm nhiều hơn nếu một ứng dụng trò chơi có thể tận dụng FER vì tính năng động của nó Nó phải từ biểu hiện trên khuôn mặt của người dùng để phát hiện cảm xúc người dùng và kích hoạt hành động để đáp ứng sự hài lòng của người dùng g Khách hàng

Nhận dạng cảm xúc được ứng dụng trong lĩnh vực khách hàng để cải thiện trải nghiệm của khách hàng và tăng độ hài lòng của họ Cụ thể nhận dạng cảm xúc có thể được sử dụng trong các trường hợp sau:

- Phân tích cảm xúc của khách hàng: Các doanh nghiệp có thể sử dụng các công cụ nhận dạng cảm xúc để phân tích đánh giá cảm xúc của khách hàng Các công cụ này có thể giúp xác định các cảm xúc của khách hàng đối với sản phẩm hoặc dịch vụ của doanh nghiệp và đưa ra các khuyến nghị để cải thiện trải nghiệm của khách hàng

- Giao tiếp khách hàng: Các công cụ nhận dạng cảm xúc có thể được sử dụng để giúp đội ngũ nhân viên tương tác với khách hàng một cách hiệu quả hơn Các công cụ này có thể giúp đội ngũ nhân viên nhận biết và phản hồi đúng cách đến các cảm xúc của khách hàng, từ đó tạo ra một trải nghiệm giao tiếp tích cực

- Cải thiện trải nghiệm khách hàng: Các doanh nghiệp có thể sử dụng các công cụ nhận dạng cảm xúc để tối ưu hoá trải nghiệm của khách hàng Ví dụ các công ty bán lẻ có thể sử dụng các công cụ này để đề xuất các sản phẩm phù hợp với cảm xúc của khách hàng hoặc cải thiện trải nghiệm mua sắm của họ bằng cách tối ưu hoá bố trí cửa hàng và trang Web.

Phương pháp nhận dạng cảm xúc

FER có thể dự đoán một cách thích hợp trạng thái cảm xúc của cá nhân từ sự biến dạng hiển thị trên khuôn mặt như một trong những nhận thức và lĩnh vực nghiên cứu tình cảm Nghiên cứu FER đã sản xuất một số mô hình và cơ sở dữ liệu FER khác nhau cùng với chú thích

Các nghiên cứu ban đầu về khía cạnh nhận thức và tình cảm của con người tầm nhìn máy tính đã giới thiệu sáu lớp cơ bản của cảm xúc Phân loại một thể hiện của hình ảnh biểu cảm khuôn mặt vào bất kỳ trạng thái cảm xúc cơ bản nào trong số sáu trạng thái cảm xúc cơ bản được xác định là một nhiệm vụ đa lớp và được gọi là đọc nhãn đơn

Hình 2.1 minh họa cách SLL chỉ báo cáo một cảm xúc trong tất cả các kết quả có thể xảy ra Các phương pháp thực hiện các nhiệm vụ đa lớp biểu hiện trên khuôn mặt được trình bày đáng kể trong tài liệu FER này phương pháp xoay quanh máy thủ công Phạm vi của FER như một nhiệm vụ nhiều lớp trải rộng nhận biết cảm xúc trong các môi trường khác nhau như:

(2) Môi trường năng động và thời gian

Một số hứa hẹn các buổi biểu diễn đã được báo cáo trong tài liệu Mặc dù phương pháp SLL tiếp cận để đạt được thành tích của FER, đơn giản hóa việc chỉ định một

Hình 2.1 Các xu hướng nghiên cứu chính trong FER

- AU là viết tắt của Action Unit

- S / C cho AU đơn hoặc com pound,

- S / C EMO cho cảm xúc đơn hoặc phức hợp,

- EMO REG cho Nhận dạng cảm xúc,

- MCL cho Học nhiều lớp, MLL choHọc đa nhãn,

- LDL để học phân phối nhãn,

- INT EST để ước tính cường độ,

- AU INT để ước tính cường độ AU,

- EMO INT để ước tính cường độ cảm xúc cảm xúc đơn lẻ đối với một thể hiện biểu thức giới hạn ứng dụng của nó trong thế giới thực

- SLL không giải thích được sự mâu thuẫn và không rõ ràng trong chú thích dữ liệu FER và không cung cấp thông tin về cường độ của những cảm xúc có thể có trong một biểu hiện ví dụ

2.2.2 Nhận biết biểu diễn mặt và mức độ ước Ước tính cường độ biểu hiện trên khuôn mặt có thể được gọi là sự khác biệt có thể quan sát được giữa các hình ảnh biểu hiện trên khuôn mặt của cùng một biểu hiện hoặc mức độ khác nhau của biểu hiện trên khuôn mặt hình ảnh từ cơ sở tham chiếu của nó Một trong những phân tích nét mặt nhiệm vụ là ước tính cường độ biểu hiện trên khuôn mặt; cường độ biểu hiện được ước tính theo định lượng cảm xúc và AUs Hình 2.2 là mẫu cường độ biểu hiện từ dữ liệu trình tự (Hình 2.2A) và dữ liệu tĩnh (Hình 2.2B) Một số phương pháp ước tính cường độ FER đã được khám phá trong lĩnh vực này Khairunmi đã nhóm những các phương thức thành; dựa trên khoảng cách, dựa trên cụm, dựa trên hồi quy và dựa trên đồ họa xác suất

Mẫu A là chiết xuất BU-3DFE (Giận dữ, Hạnh phúc) cho biết cường độ hiển thị với các chỉ số thứ tự (thấp, bình thường, cao và Very_high)

Mẫu nhãn B là phần chiết xuất từ CK + (Chúc mừng, Ngạc nhiên) cường độ hiển thị tăng từ BẬT lên ĐỈNH

Verma và cộng sự cách tiếp cận là cường độ cảm xúc dựa trên khoảng cách mô hình ước tính sử dụng phép biến đổi hình dạng để nắm bắt sự hình thành giữa khuôn mặt tiêu bản và khuôn mặt phản ánh cảm xúc Các biến dạng do sự mở rộng và co rút ở mặt các vùng và ranh giới được định lượng thông qua phép nội suy đàn hồi giữa mặt tiêu bản và mặt biểu cảm Giá trị vectơ được tạo ra trong phép biến đổi hình dạng được sử dụng để xác định hàm Chênh lệch umetric Vùng (RVD) cung cấp một giá trị số cho mỗi pixel khuôn mặt đại diện cho số lượng cảm xúc hiển thị Le và

Xu [6] ước tính cường độ biểu hiện trên khuôn mặt sử dụng ánh xạ tính năng đẳng áp Kết quả đa tạp 1D và quỹ đạo đặc điểm khuôn mặt được sử dụng bởi SVM và Cascade Neural Mạng (CNN) để lập mô hình cường độ biểu hiện Nó yêu cầu rằng điều này phương pháp nên tiến hành đào tạo cho một đối tượng khác nhau Quan sát cho thấy rằng phương pháp tiếp cận dựa trên khoảng cách đã định lượng cường độ biểu hiện trên khuôn mặt trước khi nhận ra cảm xúc

Mô hình này không đồng ý với cách con người thể hiện cảm xúc Quan và cộng sự đề xuất một phương pháp dựa trên cụm để biểu đạt ước tính cường độ Phương pháp không giám sát sử dụng thuật toán phân cụm K Means cho các tính năng giống Haar được trích xuất từ tập dữ liệu CK + để nhận bậc K của cường độ biểu thức và áp dụng trình phân loại SVM để phân loại biểu thức Chỉ cần giống như phương pháp dựa trên khoảng cách, phương pháp này cũng dự đoán cường độ trước lớp biểu thức Chang và cộng sự biểu thức tiếp cận ước tính cường độ bằng cách xem xét thông tin đặt hàng tương đối có sẵn trong các hình ảnh biểu hiện trên khuôn mặt

Họ lập luận rằng nó nhiều hơn thích hợp và thuận tiện để sử dụng thứ tự tương đối để phân biệt giữa hai biểu thức hơn là xem xét sự khác biệt tuyệt đối của chúng Phương pháp của họ sử dụng một phép biến đổi tán xạ để trích xuất các tính năng bất biến phân biệt, dịch và sử dụng hạt nhân RED SVM với Hàm cơ sở hướng tâm (RBF) để biểu đạt xếp hạng Phương pháp này chỉ dựa trên hình ảnh đơn lẻ và không xem xét thông tin thời gian có sẵn

Wu và cộng sự đã xem xét ước tính cường độ biểu thức bằng cách định lượng biến thiên năng lượng của trình tự biểu hiện trên khuôn mặt Họ được thúc đẩy bởi khả năng định lượng giá trị năng lượng cho từng trạng thái biểu hiện bằng cách sử dụng các điểm trên khuôn mặt Mô hình sử dụng HMM để phân biệt các biểu thức và sử dụng thuật toán hồi quy tuyến tính để thu được các đường cong intensity cho mỗi biểu thức Mô hình sử dụng thông tin thứ tự được phân phối trong trình tự hình ảnh để chú thích cường độ biểu hiện Mô hình hồi quy vectơ hỗ trợ hoặc ngày (OSVR) được đề xuất có thể tổng quát hóa tốt trong cả môi trường được giám sát và không được giám sát vì OSVR là sự kết hợp của hồi quy vectơ hỗ trợ, là chịu trách nhiệm về các nhãn cường độ trong khung chú thích và thứ tự Hồi quy, đường cơ sở cho thứ tự thời gian cho chuỗi khung và không phải các giá trị cường độ nhãn HMM được hỗ trợ với việc phát hiện đầu vào cảm xúc của khung hình trong phương pháp và giới hạn phát hiện điểm thay đổi đã cố gắng phân đoạn thời gian Kết quả cho thấy đề xuất phương pháp hoạt động tốt hơn bất kỳ đồ họa xác suất nào hiện có các phương pháp về độ chính xác và thời gian tính toán

Coi FER và ước tính cường độ một nhiệm vụ đa nhãn với động cơ một ví dụ của hình ảnh biểu cảm khuôn mặt chứa thông tin về hiển thị cảm xúc và cường độ tương ứng ML-CNN (Mạng nơ-ron đa nhãn chuyển đổi) sử dụng CNN như một bộ phân loại nhị phân cho mô hình liên quan nhị phân nâng cao Chúng tôi đã tối ưu hóa mô hình với mạng được đào tạo trước VGG-16 và sử dụng sự mất đảo để giảm thiểu các sai lệch trong lớp và giữa các lớp

Các đối số định nghĩa nhiệm vụ FER là một vấn đề Đa nhãn (ML) Hình 2.3B cho thấy đầu ra có thể có của dự đoán đa nhãn Ví dụ của hình ảnh biểu đạt có thể chứa một hoặc nhiều cảm xúc cơ bản thông tin trong các nhiệm vụ đa nhãn biểu hiện trên khuôn mặt

Giải pháp của mô hình đã đạt được bởi một chức năng được gọi là Maximum lỗ bản lề ký quỹ GLMM sau đó đã được cải tiến thành Nhóm thích ứng Hồi quy Lasso để gán một giá trị liên tục cho phân phối của biểu thức có trong một nhóm khác không GLMM cho thấy nó hiệu suất vượt trội so với một số phương pháp ML hiện có từ thử nghiệm được thực hiện trên s-JAFFE Li và Deng đã giới thiệu một mô hình học sâu đa nhãn có tên là Deep Bi-Manifold CNN (DBM-CMM) Mô hình bảo tồn mối quan hệ địa phương của sâu đặc điểm cảm xúc và cấu trúc đa dạng của nhãn cảm xúc đồng thời tìm hiểu tính năng phân biệt của biểu thức đa nhãn

Nhận dạng cảm xúc sử dụng mô hình mạng nơ-ron

Gương mặt là phần biểu đạt cảm xúc tốt nhất trên cơ thể con người Gương mặt có thể truyền tải rất nhiều cảm xúc mà không cần dùng đến lời nói Nhận diện được cảm xúc của gương mặt là một trong những biểu hiện của hành vi và tính cách của con người

Nhận diện cảm xúc gương mặt đã trở thành một lĩnh vực nhận được nhiều sự quan tâm từ giới nghiên cứu nhờ vào các ứng dụng vượt trội của nó với các lĩnh vực khác như giáo dục, thương mại, xã hội hoá rô-bốt Theo như các nguồn nghiên cứu đa dạng thì việc nhận diện cảm xúc có vai trò quan trọng trong lĩnh vực tiếp thị, quảng cáo Hiện nay, để đánh giá thái độ yêu, ghét của khách hàng đối với sản phẩm của mình, các nhà tiếp thị thường sử dụng các biện pháp như bảng hỏi, hoặc quan sát trực tiếp thái độ của khách hàng khi sử dụng sản phẩm Tuy nhiên, những biện pháp này đang dần tỏ ra không hiệu quả khi không đánh giá được chính xác cảm xúc của khách hàng hoặc mất quá nhiều thời gian để có kết quả chính xác Sử dụng hệ thống nhận diện gương mặt khách hàng theo thời gian thực, nhà tiếp thị có thể ngay lập tức đánh giá được cảm nhận khách hàng, từ đó lên kế hoạch tiếp thị phù hợp hơn cho sản phẩm của mình

Mục đích của bài nghiên cứu là ứng dụng nhận diện cảm xúc khách hàng trong mạng nơ-ron tích chập nhằm đánh giá chất lượng phục vụ khách hàng bằng hệ thống tự động nhận diện cảm xúc gương mặt dựa trên mạng Nơ-ron tích chập, một thuật toán học sâu được sử dụng rộng rãi trong việc phân loại ảnh Hệ thống bao gồm một quá trình nhiều giai đoạn nhằm trích xuất được những đặc điển nổi bật của con người

Hệ thống của bài luận dự định bao gồm ba giai đoạn, nhận diện khuôn mặt, chuẩn hoá, và nhận diện một trong những cảm xúc cơ bản của con người đó là trung tính, tức giận, sợ hãi, buồn phiền, hạnh phúc, bất ngờ và ghê tởm

Dưới đây là phần mô tả hệ thống được đề xuất trong bản nghiên cứu để phân tích biểu cảm gương mặt của khách hàng sử dụng mạng nơ-ron tích chập

Bước 1: Hệ thống phát hiện khuôn mặt từ nguồn dữ liệu đầu vào Sau đó bức ảnh của khuôn mặt được cắt và chuẩn hoá đến kích cỡ 48x48 Bước 2, những bức ảnh này được sử dụng như nguồn dữ liệu đầu vào cho kiến trúc CNN Cuối cùng, kết quả thu được sẽ là kết quả nhận dạng biểu cảm khuôn mặt ( Tức giận, hạnh phúc, buồn bã, ghê tởm, bất ngờ và trung tính) Hình dưới đây mô tả các bước thực hiện của phương án đề xuất

Hình 2.4 Mô tả mô hình CNN

Mô hình này bao gồm 4 lớp tích chập với 4 lớp gộp để trích xuất các đặc điểm, và 2 lớp kết nối đầy đủ tiếp đó là lớp softmax với 7 loại cảm xúc Dữ liệu đầu vào là bức ảnh mặt đen trắng với kích cỡ 48x48 Với mỗi lớp tích chập, sử dụng lớp lọc 3x3 với bước nhảy bằng 2 Với các lớp gộp, sử dụng lớp gộp cực đại và 2x2 phễu và bước nhảy bằng 2 Do đó, để giới thiệu sự không tuyến tính trong mô hình Rectified Linear Unit (ReLU) đã được sử dụng ReLU được định nghĩa trong phương trình sau:

Hình 2.5 mô tả hàm ReLU

Ta thấy R(z) = 0 nếu z nhỏ hơn hoặc bằng 0 và R (z) = z khi z lớn hơn hoặc bằng 0 Bảng 1 miêu cả dạng mạng lưới của mô hình được sử dụng

Loại lớp Kích cỡ Bước nhảy

Tầng kết nối đầy đủ - -

Tầng kết nối đầy đủ - - Áp dụng mô hình mạng nơ-ron vào nhận dạng cảm xúc

Quy trình áp dụng mô hình mạng nơ-ron vào nhận dạng cảm xúc như sau Bước 1: Sử dụng thư viện OpenCV để lưu giữ những khung hình chuyển động từ camera và để nhận diện gương mặt của khách hàng dựa vào phương pháp Haar Cascades (14) (được biểu diễn ở hình 8) Haar Cascades sử dụng thuật toán Adaboost phát minh bở Freund và các đồng nghiệp Thuật toán Adaboost lựa chọn một vài đặc điểm nổi bật từ một tập dữ liệu lớn để có hiệu quả trong việc phân loại Mô hình mạng nơ-ron tích chập sử dụng TensorFlow (18) và Keras(17) và API cấp cao

Trong Keras, lớp ImageDataGenerator được sử dụng để thực hiện tác vụ tăng cường ảnh như được sử dụng trong Lớp này giúp thay đổi các bức ảnh dùng để huấn luyện bằng cách xoay, tịnh tiến, cắt bớt, phóng to và lật ngược Cấu hình được sử dụng là

Phạm vi tịnh tiến chiều ngang = 0.1

Phạm vi tịnh tiến chiều cao = 0

Phát hiện khuôn mặt dựa sử dụng Haar Cascades

Hình 2.6: Tăng cường hình ảnh sử dụng Keras

Sau đó, mạng nơ-ron tích chập CNN định nghĩa với 4 lớp tích chập, bốn lớp gộp và hai lớp kết nối đầy đủ Sau đó, để có sự không đồng biến trong mô hình, hàm ReLU được áp dụng, đồng thời sử dụng chuẩn hoá theo nhóm để chuẩn hoá hoạt động của lớp trước tại mỗi nhóm Cuối cùng softmax được sử dụng là hàm chủ động cuối cùng Để huấn luyện mô hình CNN, tập dữ liệu được chia thành hai phần Trong đó 80% là dữ liệu huấn luyện, 20% là dữ liệu kiểm thử Sau đó, tăng cường Stochastic gradient descent (SGD) Tại mỗi epoch, Keras kiểm tra nếu mô hình hoạt động tốt hơn mô hình trước hay không Nếu mô hình hoạt động tốt hơn, nó sẽ được lưu trữ lại để sử dụng trực tiếp mà không phải huấn luyện lại khi muốn sử dụng ở những hoàn cảnh khác.

Nền tảng DeepFace về nhận dạng cảm xúc

Deepface [11] là một nền tảng nhẹ (lightweight) nhận dạng khuôn mặt và phân tích thuộc tính khuôn mặt (tuổi, giới tính, cảm xúc và chủng tộc) Đó là một nền tảng nhận dạng khuôn mặt kết hợp bao gồm các mô hình tiên tiến nhất: VGG-Face, Google FaceNet, OpenFace, Facebook DeepFace, DeepID, ArcFace, Dlib và SFace

Các thí nghiệm cho thấy con người có thể nhận dạng khuôn mặt với độ chính xác đạt 97,53%, trong khi những mô hình đó đã đạt và vượt qua mức độ chính xác đó

Nhận dạng khuôn mặt (Face Recognition)

Quy trình nhận dạng khuôn mặt hiện đại bao gồm 5 giai đoạn phổ biến: phát hiện, căn chỉnh, chuẩn hóa, đại diện và xác minh Mặc dù Deepface xử lý chung tất cả các giai đoạn trong nền tảng này, nhưng bạn không cần phải có kiến thức chuyên sâu về tất cả các quy trình đằng sau nó Bạn chỉ có thể gọi chức năng xác minh, tìm kiếm hoặc phân tích theo cú pháp

Hình 2.4 Một số mô hình tiên tiến trong nền tảng DeepFace

Nhận dạng khuôn mặt yêu cầu áp dụng xác minh khuôn mặt nhiều lần Ở đây, Deepface có chức năng tìm sẵn dùng để xử lý hành động này Nó sẽ tìm danh tính của hình ảnh đầu vào trong đường dẫn cơ sở dữ liệu và nó sẽ trả về danh sách khung dữ liệu cấu trúc làm đầu ra Trong khi đó, các phần nhúng khuôn mặt của cơ sở dữ liệu khuôn mặt được lưu trữ trong tệp pickle để được tìm kiếm nhanh hơn trong lần tiếp theo Kết quả sẽ là kích thước của các khuôn mặt xuất hiện trong ảnh nguồn Bên cạnh đó, hình ảnh mục tiêu trong cơ sở dữ liệu cũng có thể có nhiều khuôn mặt

Phân tích thuộc tính khuôn mặt (Facial Attribute Analysis)

Phân tích thuộc tính khuôn mặt của Deepface cũng đi kèm với một mô-đun phân tích thuộc tính khuôn mặt mạnh mẽ bao gồm tuổi tác, giới tính, cảm xúc và chủng tộc Mô hình này sẽ thực hiện nhận dạng được 7 cảm xúc trên khuôn mặt, bao gồm: tức giận (angry), ghê tởm (disgust), sợ hãi (fear), hạnh phúc (happy), buồn bã (sad), ngạc nhiên (surprise), trung tính (neutral) Mô hình này sẽ thực hiện phân loại được 6 chủng tộc người bao gồm: người châu Á (Asian), người da trắng (White), người Trung Đông (Middle Eastern), người Ấn Độ (Indian), người Mỹ gốc Latinh (Latino) và người da đen (Black)

Hình 2.5 Hình ảnh minh họa phân tích thuộc tính khuôn mặt của DeepFace.

Kết luận chương

Phương pháp nhận dạng cảm xúc là quá trình nhận biết và phân loại cảm xúc từ dữ liệu đầu vào như ảnh, video, âm thanh hoặc văn bản Phương pháp nhận dạng cảm xúc tiếp tục được nghiên cứu và phát triển Các mô hình mạng nơ-ron và các phương pháp học sâu khác đã chứng minh khả năng xuất sắc trong việc nhận dạng cảm xúc từ đa dạng nguồn dữ liệu.

KẾT QUẢ THỬ NGHIỆM TRONG BÀI TOÁN ĐÁNH GIÁ CHẤT LƯỢNG PHỤC VỤ KHÁCH HÀNG DỰA TRÊN NHẬN DẠNG CẢM XÚC

Bài toán đánh giá chất lượng phục vụ khách hàng dựa trên nhận dạng cảm xúc

Trong thời đại số hóa và phát triển nhanh chóng của doanh nghiệp và dịch vụ, khả năng đo lường và đánh giá sự hài lòng của khách hàng đóng vai trò quan trọng trong việc duy trì và nâng cao chất lượng phục vụ Đồng thời, việc nhận dạng và hiểu được cảm xúc của khách hàng thông qua khuôn mặt của họ có thể mang lại nhiều lợi ích quan trọng Ứng dụng của bài toán này rất đa dạng và có sự ảnh hưởng lớn đến nhiều lĩnh vực Trong lĩnh vực dịch vụ khách hàng, việc nhận dạng cảm xúc khuôn mặt giúp doanh nghiệp đánh giá hiệu suất của nhân viên và dịch vụ Trong lĩnh vực bán lẻ, việc hiểu rõ cảm xúc của khách hàng giúp tối ưu hóa trải nghiệm mua sắm và điều chỉnh chiến lược kinh doanh Ngoài ra, bài toán còn có ứng dụng trong lĩnh vực giáo dục, y tế và nhiều lĩnh vực khác

Mục tiêu chính của bài toán này là sử dụng công nghệ nhận dạng khuôn mặt và phân tích cảm xúc để đánh giá chất lượng phục vụ khách hàng Điều này có thể được thực hiện bằng cách sử dụng các hệ thống camera hoặc thiết bị ghi hình để quan sát khách hàng trong quá trình tương tác với sản phẩm hoặc dịch vụ Các thuật toán học máy và trí tuệ nhân tạo sẽ được áp dụng để nhận dạng các biểu hiện khuôn mặt liên quan đến cảm xúc, chẳng hạn như mỉm cười, biểu lộ sự bất mãn hoặc sự hứng thú Để giải quyết bài toán này, cần có sự kết hợp của nhiều kỹ thuật và công nghệ Việc nhận dạng khuôn mặt yêu cầu sự sử dụng của các mô hình học sâu như mạng neural tích chập (CNN) để xác định đặc trưng của khuôn mặt Sau đó, các mô hình phân loại cảm xúc có thể được áp dụng để xác định cảm xúc cụ thể của khách hàng trong thời gian tương tác

Các tập dữ liệu đóng vai trò quan trọng trong việc phát triển và đánh giá hiệu suất của các hệ thống nhận dạng cảm xúc khuôn mặt Những tập dữ liệu này bao gồm hàng ngàn ảnh khuôn mặt với các biểu hiện khác nhau của cảm xúc Việc thu thập, gán nhãn và xử lý các tập dữ liệu này đòi hỏi sự công phu và đầu tư thời gian, nhưng chính nó là cơ sở để xây dựng các mô hình nhận dạng cảm xúc đáng tin cậy

Hình 3.1 thể hiện mô hình tổng quan của hệ thống đề xuất Dữ liệu đầu vào là các video tại các nơi làm việc Đầu tiên, hệ thống thực hiện trích xuất các khung ảnh liên tiếp từ video đầu vào để thực hiện xử lý trên các khung ảnh riêng biệt đó Tiếp theo, mô hình mạng nơ-ron tích chập (CNN) được sử dụng để nhận dạng cảm xúc trên các khuôn mặt Mô hình VGG-Face trong nền tảng Deepface được sử dụng để thực hiện và phát triển hệ thống Sau đó, hệ thống sẽ thống kê các cảm xúc của khách hàng

Phát hiện khuôn mặt và nhận dạng cảm xúc

Thống kê các cảm xúc

Hình 3.1 Tổng quan của hệ thống đề xuất

Tuy nhiên, việc đánh giá chất lượng phục vụ khách hàng dựa trên nhận dạng cảm xúc khuôn mặt cũng đặt ra nhiều thách thức Cảm xúc là một khía cạnh phức tạp của con người và có thể thay đổi theo thời gian hoặc ngữ cảnh Các biểu hiện khuôn mặt cũng có thể không phản ánh chính xác cảm xúc thực sự của người dùng Đồng thời, việc bảo vệ quyền riêng tư của người dùng cũng là một vấn đề cần được xem xét cẩn thận.

Cơ sở dữ liệu

Hình 3.2 Ảnh chụp từ các video trong cơ sở dữ liệu

Cơ sở dữ liệu huấn luyện: Bộ dữ liệu FER-2013 (Facial Expression Recognition 2013) [12] là một tập dữ liệu phổ biến được sử dụng trong lĩnh vực nhận dạng biểu cảm khuôn mặt Bộ dữ liệu này chứa tổng cộng 35,887 hình ảnh khuôn mặt Mỗi hình ảnh có kích thước 48x48 điểm ảnh Bộ dữ liệu này chứa các hình ảnh khuôn mặt của con người với 7 lớp biểu cảm khác nhau, bao gồm: Angry (Tức giận), Disgust (Ghê tởm), Fear (Sợ hãi), Happy (Hạnh phúc), Sad (Buồn bã), Surprise (Ngạc nhiên), và Neutral (Bình thường)

Bộ dữ liệu FER-2013 thường được sử dụng để huấn luyện và đánh giá các mô hình nhận dạng biểu cảm khuôn mặt dựa trên hình ảnh Nhận dạng biểu cảm khuôn mặt là một ứng dụng quan trọng trong lĩnh vực thị giác máy tính và trí tuệ nhân tạo, có thể được sử dụng trong những ứng dụng như nhận dạng cảm xúc của người dùng, phân loại nội dung dựa trên tương tác với máy tính, và nhiều ứng dụng khác liên quan đến giao tiếp giữa con người và máy

Cơ sở dữ liệu kiểm tra: Cơ sở dữ liệu này được xây dựng bằng cách tách các khung hình (frame) từ các video Các video này được quay tại một số địa điểm, cửa hàng như: Bưu điện huyện Quỳnh Phụ tỉnh Thái Bình, cửa hàng Viettel Quỳnh Phụ tỉnh Thái Bình, … Tổng số video thu thập được là 10 video và tương ứng với 2.000 ảnh để phục vụ việc kiểm tra, đánh giá mô hình Hình 3.2 thể hiện các ảnh chụp từ các video trong cơ sở dữ liệu.

Huấn luyện mô hình

Mô hình VGG-Face [13] trong nền tảng Deepface sẽ được sử dụng để phát triển hệ thống này Sau khi thu thập được cơ sở dữ liệu, chúng ta sẽ tiến hành huấn luyện mô hình mạng VGG-Face trên cơ sở dữ liệu huấn luyện (FER-2013) Nhiệm vụ huấn luyện mô hình này rất quan trọng vì nó ảnh hướng trực tiếp đến chất lượng của hệ thống

Mô hình VGG-Face là một trong những mô hình quan trọng và hiệu quả trong lĩnh vực nhận dạng khuôn mặt sử dụng mạng nơ-ron tích chập Mô hình này được phát triển dựa trên kiến trúc VGG16, một kiến trúc mạng nơ-ron học sâu được phát triển bởi nhóm nghiên cứu Visual Geometry Group (VGG) tại Đại học Oxford VGG- Face chủ yếu được áp dụng để nhận dạng khuôn mặt và phân loại người dựa trên hình ảnh khuôn mặt

- Giới thiệu về VGG-Face:

VGG-Face là một mô hình học sâu (deep learning) được thiết kế để nhận dạng khuôn mặt con người Nó là một biến thể của kiến trúc VGG16, được điều chỉnh và đào tạo lại với mục tiêu nhận dạng và biểu diễn đặc điểm khuôn mặt của con người

Mô hình này có khả năng học được các đặc trưng phức tạp từ hình ảnh khuôn mặt, giúp nó có khả năng phân loại và nhận dạng khuôn mặt hiệu quả

- Kiến trúc của VGG-Face:

Mô hình VGG-Face được xây dựng dựa trên kiến trúc VGG16, với một số thay đổi và điều chỉnh để phù hợp với nhiệm vụ nhận dạng khuôn mặt Kiến trúc của VGG16 bao gồm 16 lớp chồng chéo, trong đó có 13 lớp tích chập và 3 lớp kết nối đầy đủ (fully connected layers) Các lớp tích chập sử dụng các bộ lọc nhỏ để tìm ra các đặc trưng cục bộ từ hình ảnh Lớp kết nối đầy đủ cuối cùng thực hiện phân loại dựa trên các đặc trưng đã học từ các lớp trước đó

Hình 3.3 Cấu trúc mô hình VGG-Face

VGG-Face hoạt động bằng cách trích xuất các đặc trưng từ hình ảnh khuôn mặt và sử dụng chúng để phân loại người Quá trình này bao gồm các bước sau:

Tiền xử lý hình ảnh: Hình ảnh khuôn mặt đầu vào được chuẩn hóa kích thước và tiền xử lý để đảm bảo chất lượng hình ảnh tốt nhất cho việc trích xuất đặc trưng

Trích xuất đặc trưng: Hình ảnh qua mạng nơ-ron tích chập VGG-Face để trích xuất các đặc trưng chính từ hình ảnh Các đặc trưng này thể hiện các chi tiết quan trọng của khuôn mặt như đường viền mắt, mũi, miệng và các điểm nổi bật khác

Phân loại: Các đặc trưng được đưa vào các lớp kết nối đầy đủ để thực hiện phân loại người

- Ứng dụng của VGG-Face:

VGG-Face đã tạo ra sự cách mạng trong lĩnh vực nhận dạng khuôn mặt và biểu cảm Ứng dụng chính của nó bao gồm:

Nhận dạng khuôn mặt: VGG-Face có khả năng xác định người dựa trên hình ảnh khuôn mặt Điều này có thể ứng dụng trong an ninh, quản lý sự ra vào, và thậm chí trong công nghệ mở khóa khuôn mặt của điện thoại di động

Phân loại biểu cảm: Với khả năng học đặc trưng từ biểu cảm khuôn mặt, VGG- Face có thể phân loại các biểu cảm như vui, buồn, bất ngờ, giúp trong việc nghiên cứu tâm lý học và ứng dụng trong quản lý tương tác con người - máy

Thiết bị phần cứng: Nghiên cứu này được triển khai trên máy tính có CPU core i7 3.70 GHz, hệ điều hành Windows 64 bit, RAM 32 GB, GPU (NVIDIA TITAN V)

Phần mềm: Nghiên cứu này sử dụng nền tảng Anaconda để phát triển chương trình Anaconda là một nền tảng mã nguồn mở được phát triển để hỗ trợ việc quản lý môi trường lập trình, phát triển ứng dụng và thực hiện các dự án khoa học dữ liệu Nền tảng này được phát triển bởi công ty Anaconda, Inc và đã trở thành một công cụ cần thiết cho các nhà phân tích dữ liệu, lập trình viên và nhà khoa học dữ liệu Trong bài viết này, chúng ta sẽ khám phá chi tiết về Anaconda, từ đặc điểm, cách cài đặt, quản lý môi trường và ứng dụng

Anaconda cung cấp một số đặc điểm quan trọng cho việc phát triển và quản lý dự án:

Môi trường ảo: Anaconda cho phép bạn tạo các môi trường ảo độc lập, cho phép bạn quản lý các phiên bản khác nhau của các gói và thư viện Điều này giúp tránh xung đột giữa các gói và tạo môi trường ổn định cho từng dự án

Quản lý gói và thư Viện: Anaconda cung cấp một hệ thống quản lý gói và thư viện mạnh mẽ Bạn có thể dễ dàng cài đặt, cập nhật và xóa các gói cũng như quản lý các phụ thuộc của chúng

Giao diện đồ họa: Anaconda cung cấp một giao diện đồ họa (Anaconda Navigator) để quản lý môi trường, cài đặt gói, và thực hiện các tác vụ liên quan đến dự án khoa học dữ liệu một cách trực quan

Hỗ trợ đa nền tảng: Anaconda có sẵn cho nhiều hệ điều hành như Windows, MacOS và Linux, giúp bạn dễ dàng sử dụng trên môi trường làm việc của bạn

Kết quả thử nghiệm

3.4.1 Đánh giá kết quả nhận dạng cảm xúc

Trong phần này, chúng tôi đánh giá kết quả nhận dạng cảm xúc trên cơ sở dữ liệu đã được thu thập Với trường hợp, các video chỉ có 1-2 người trên 1 khung hình và khuôn mặt nhìn thẳng như các video 5-9 trong Hình 3.2 Do đó, việc nhận dạng cảm xúc khuôn mặt trên các video này được thực hiện dễ dàng hơn

Hình 3.4 hiển thị ảnh minh họa kết quả nhận dạng cảm xúc khuôn mặt trên các video 5-9 Trong đó, cảm xúc hạnh phúc (happy) được thể hiện ở trong video 5 và 8 Đây là cảm xúc tích cực của khách hàng Ngược lại, cảm xúc buồn bã (sad) được xác định ở video 6 và 8 Trong hai video này khách hàng đều đang tập trung vào điện thoại và cảm xúc là không tốt Ở các video 7, 8 và 9 thì cảm xúc được xác định là trung tính (neutral) Đây là cảm xúc phổ biến nhất được xác định của khách hàng Việc phân tích kết nhận dạng cảm xúc khuôn mặt sẽ được trình bày chi tiết ở mục sau

Trong trường hợp, các video chỉ có nhiều người trên 1 khung hình và các khuôn mặt được theo dõi ở các góc khác nhau như các video 1-4, 10 trong Hình 3.2

Do đó, việc nhận dạng cảm xúc trên các video này khó khăn hơn

Hình 3.5 thể hiện ảnh minh họa kết quả nhận dạng cảm xúc khuôn mặt trên các video 1-4, 10 Trong video 1 và 2, các khuôn mặt có kích thước nhỏ do ở xa camera, hay khách hàng đeo khẩu trang Tuy nhiên, hệ thống vẫn có thể phát hiện được khuông mặt và nhận dạng chính xác cảm xúc, gồm: cảm xúc buồn bã (sad) và trung tính (neutral) Các video 3, 4 và 10 gồm các nhóm khác hàng và được nhận dạng cảm xúc một cách chính xác, gồm: hạnh phúc (happy), buồn bã (sad) và trung tính (neutral) Việc nhận dạng cảm xúc gặp một số khó khăn do một số yếu tố như: đeo khẩu trang, nhìn ở góc nghiêng, hoặc cúi mặt xuống, …

Hình 3.4 Kết quả nhận dạng cảm xúc khuôn mặt trong các video 5-9

Hình 3.5 Kết quả nhận dạng cảm xúc khuôn mặt trong các video 1-4 và 10

3.4.2 Phân tích kết quả nhận dạng cảm xúc khuôn mặt

Trong phần này, chúng ta thực hiện phân tích kết quả nhận dạng cảm xúc khuôn mặt trên 10 video kiểm thử, tương ứng với 2.000 khung ảnh được trích xuất Hình 3.6 thể hiện kết quả nhận dạng cảm xúc khuôn mặt thu được Từ biểu đồ này, chúng ta dễ dàng thấy được cảm xúc buồn bã (sad) và trung tính (neutral) chiếm tỉ lệ lớn, lần lượt là 33,45% và 30,88% Sau đó đến 3 cảm xúc là hạnh phúc (happy), tức giận (angry) và sợ hãi (fear) với tỉ lệ lần lượt là 16,16%, 11,28% và 7,66% Các cảm xúc chiếm tỉ lệ thấp lần lượt là ghê tởm (Disgust) và bất ngờ (surprise) với 0,31% và 0,26%

Qua kết quả thu được, chúng ta nhận thấy phần lớn cảm xúc khách hàng là trung tính Cảm xúc tích cực (hạnh phúc) chiếm tỉ lệ thấp hơn nhiều so với cảm xúc tiêu cực (buồn bã, sợ hãi, giận dữ)

Hình 3.6 Thống kê kết quả nhận dạng cảm xúc khuôn mặt.

Kết luận chương

Trong trường hợp kịch bản đơn giản với các khuôn mặt có góc nhìn thẳng, không đeo khẩu trang thì việc nhận dạng cảm xúc được thực hiện dễ dàng Ngược lại, ở các trường hợp phức tạp như có đeo khẩu trang, quan sát ở góc nghiêng, khách hàng quá đông, các khuôn mặt ở khoảng cách quá xa camera hoặc cúi mặt xuống, … đều là những thử thách cho việc nhận dạng cảm xúc khuôn mặt

Căn cứ vào các kết quả phân tích việc nhận dạng cảm xúc, các đơn vị có những điều chỉnh kịp thời để cải thiện chất lượng phục vụ khách hàng, tăng những cảm xúc tích cực của khách hàng và giảm những cảm xúc tiêu cực.

Ngày đăng: 20/02/2024, 13:56

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w