Giới thiệu chung
Nhận dạng cảm xúc là quá trình xác định cảm xúc của con người sử dụng các thông tin về trạng thái của cơ thể con người
Nhận dạng cảm xúc đã được áp dụng rộng rãi trong nhiều lĩnh vực như lái xe an toàn, chăm sóc sức khỏe và an sinh xã hội Phương pháp này có thể chia thành hai loại chính: sử dụng tín hiệu vật lý của con người như biểu hiện khuôn mặt, lời nói và cử chỉ, và sử dụng tín hiệu sinh học – sinh lý như điện não đồ (EEG), điện tâm đồ (ECG) và phản ứng điện da (GSR) Mặc dù tín hiệu vật lý dễ thu thập, nhưng độ tin cậy không cao do có thể bị kiểm soát và giả mạo Ngược lại, tín hiệu sinh học phản ánh phản ứng tự nhiên của hệ thần kinh trung ương và hệ thần kinh tự động, giúp tăng cường độ chính xác trong nhận dạng cảm xúc Việc sử dụng các tín hiệu sinh học không chỉ quan trọng trong nghiên cứu mà còn trong các ứng dụng thực tiễn, vì chúng khó bị kiểm soát và phản ánh chính xác trạng thái cảm xúc của con người.
Các mô hình cảm xúc
Để phân biệt cảm xúc, cần định nghĩa và đánh giá các trạng thái cảm xúc một cách định lượng Mặc dù các định nghĩa về cảm xúc cơ bản đã xuất hiện từ nhiều thập kỷ trước, nhưng vẫn chưa được các nhà tâm lý học công nhận rộng rãi Các nhà tâm lý học thường mô hình hóa cảm xúc theo hai cách: một là phân loại cảm xúc thành các loại riêng biệt, và hai là sử dụng nhiều chiều để gán nhãn cho cảm xúc.
Mô hình cảm xúc gián đoạn
Nhà tâm lý học Paul Ekman là người tiên phong trong nghiên cứu về cảm xúc và mối quan hệ của chúng với biểu cảm trên khuôn mặt Ông coi cảm xúc là những trạng thái rời rạc, có thể đo lường được và liên quan đến các yếu tố sinh lý Ekman cũng đã chỉ ra những đặc điểm đặc trưng của các cảm xúc cơ bản.
Con người được sinh ra với những cảm xúc bản năng
Mọi người thể hiện những cảm xúc giống nhau trong cùng một tình huống
Mọi người thể hiện những cảm xúc này theo cách tương tự
Mọi người thể hiện các kiểu sinh lý tương tự khi thực hiện các chuyển động giống nhau
Theo các đặc điểm trên, ông đã kết luận có sáu cảm xúc cơ bản là: “vui”, “buồn”,
Cảm xúc như "giận dữ", "sợ hãi", "bất ngờ" và "ghê tởm" thường được xem là kết quả của các phản ứng tâm lý, đồng thời chúng cũng là sự kết hợp của những cảm xúc cơ bản.
Năm 1980, nhà tâm lý học Plutchik đã giới thiệu mô hình bánh xe cảm xúc với tám cảm xúc cơ bản: “vui”, “tin tưởng”, “sợ hãi“, “bất ngờ“, “buồn bã“, “ghê tởm“, “tức giận“ và “dự đoán” Mô hình này thể hiện cảm xúc theo cường độ, với cảm xúc mạnh hơn ở trung tâm và cảm xúc yếu hơn ở ngoài Tương tự như màu sắc, những cảm xúc cơ bản có thể kết hợp để tạo ra cảm xúc phức tạp Nhà tâm lý học Carroll Izard cho rằng những cảm xúc này đã hình thành qua quá trình tiến hóa, mỗi cảm xúc cơ bản tương ứng với một mạch não đơn giản mà không có yếu tố nhận thức phức tạp Ông đã xác định mười cảm xúc cơ bản, bao gồm “quan tâm”, “vui”, “bất ngờ”, “buồn”, “sợ hãi”, “bẽn lẽn” và “tội lỗi”.
“tức giận”, “ghê tởm” và “khinh miệt” (interest, joy, surprise, sadness, fear, shyness, guilt, angry, disgust, and contempt)
Hình 1.1 Bánh xe cảm xúc c a Plutchik ủ
Các mô hình cảm xúc rời rạc dựa vào từ ngữ để diễn đạt cảm xúc, thay vì sử dụng phân tích định lượng Điều này khiến việc phân tích những cảm xúc phức tạp trở nên khó khăn, đặc biệt là với những cảm xúc lẫn lộn mà từ ngữ khó có thể diễn tả chính xác, đòi hỏi cần có nghiên cứu định lượng.
Mô hình không gian cảm xúc đa chiều
Nghiên cứu của các nhà tâm lý học cho thấy có mối tương quan giữa các cảm xúc như thù hận, ghét, vui lòng và thích, với cường độ khác nhau Hạnh phúc, chẳng hạn, có thể được mô tả từ một chút đến rất hạnh phúc Để phân loại các cảm xúc, Peter J Lang đã phát triển mô hình không gian 2D dựa trên hai yếu tố: valence và arousal Valence trải dài từ cảm xúc khó chịu (tiêu cực) đến dễ chịu (tích cực), trong khi arousal từ bị động (thấp) đến chủ động (cao), thể hiện sức mạnh của cảm xúc con người Các cảm xúc khác nhau có thể được biểu diễn trong không gian 2D như hình minh họa.
Hình 1.2 Không gian cảm xúc 2 chiề u
Trong không gian cảm xúc hai chiều, việc phân biệt cảm xúc tích cực và tiêu cực trở nên dễ dàng, nhưng việc phân loại các cảm xúc tương tự như “sợ hãi” và “tức giận” lại rất khó khăn vì chúng đều nằm trong khu vực có valence tiêu cực và arousal cao Albert Mehrabian đã phát triển mô hình cảm xúc từ 2D sang 3D, bổ sung thêm trục dominance, từ submisive đến dominant, phản ánh khả năng kiểm soát của con người trong mỗi cảm xúc Nhờ vào chiều này, “tức giận” có thể được phân biệt với “sợ hãi” bởi vì “tức giận” nằm trong vùng dominant, trong khi “sợ hãi” nằm trong vùng submisive.
Hình 1.3 Không gian cảm xúc 3 chiề u
Ưu điểm, nhược điểm của các phương pháp nhận dạng cảm xúc
Nhận d ng c m xúc s d ng hình nh ạ ả ử ụ ả
Nhận dạng cảm xúc qua biểu cảm khuôn mặt là phương pháp phổ biến nhất trong lĩnh vực này, vì gương mặt con người thể hiện rõ ràng nhiều trạng thái cảm xúc có thể quan sát dễ dàng Phương pháp này tập trung vào hai bài toán chính: phát hiện cảm xúc từ ảnh và từ video Dưới đây là một số ưu điểm và nhược điểm của phương pháp này.
Tín hiệu hình ảnh khuôn mặt rất dễ thu thập
Việc gán nhãn dữ liệu được đảm bảo bởi con người bởi hình ảnh có thể dễ dàng quan sát đc bởi con người
Rất nhiều các kỹ thuật xử lý hình ảnh đã và đang được phát triển và có những kết quả rất tốt trong lĩnh vực này
Các trạng thái cảm xúc được thể hiện trên khuôn mặt là không quá khác nhau đối với các cá nhân khác nhau
Các ứng dụng đơn giản và tương tác trong cuộc sống hàng ngày rất phù hợp vì dễ thực hiện và chi phí để có được hình ảnh thấp Tuy nhiên, vẫn tồn tại một số nhược điểm cần lưu ý.
Mặc dù biểu cảm cảm xúc của con người thường giống nhau giữa các cá nhân trong cùng một trạng thái cảm xúc, sự khác biệt về màu da và đặc điểm khuôn mặt giữa các dân tộc trên thế giới lại là một nhược điểm của phương pháp này.
Tín hiệu hình ảnh chỉ thể hiện được một số ít các trạng thái cảm xúc phổ biến, không mô tả được các trạng thái cảm xúc phức tạp
Biểu cảm khuôn mặt có thể dễ dàng bị làm giả bởi con người để che dấu cảm xúc
Nhận d ng c m xúc s d ng gi ng nói ạ ả ử ụ ọ
Phương pháp phát hiện cảm xúc qua giọng nói đang trở nên phổ biến, tương tự như việc sử dụng biểu cảm gương mặt Giọng nói và hình ảnh là những tín hiệu dễ dàng thu thập và nhận diện, cho phép con người thực hiện nhiệm vụ này một cách hiệu quả.
Giọng nói cũng là một tín hiệu dễ có thể thu thập được
Việc gán nhãn dữ liệu cũng được đảm bảo bởi con người có thể phân biệt được giọng nói bằng tai
Rất nhiều nghiên cứu về giọng nói đã được thực hiện và các mô hình học sâu đã và đang cho những kết quả rất tốt b Nhược điểm
Giọng nói cũng có thể bị làm giả bởi con người
Giọng nói cũng rất khác nhau ở mỗi cá nhân cả về tông giọng và cách nói chuyện của mỗi người
Không phù hợp với các đối tượng là người khiếm khuyết về giọng nói
Nhận d ng c m xúc s d ng tín hi u sinh h c ạ ả ử ụ ệ ọ
Các tín hiệu sinh học liên quan đến hệ thống thần kinh tự trị giúp đánh giá cảm xúc một cách khách quan Việc sử dụng tín hiệu sinh học mang lại nhiều ưu điểm vượt trội so với các phương pháp truyền thống, nhưng cũng tồn tại một số nhược điểm nhất định.
Các tín hiệu sinh học như điện dẫn da (SC), điện tim (ECG), điện não (EEG), …khó có thể bị làm giả bởi con người
Có thể mô tả được các trạng thái cảm xúc phức tạp
Các ứng dụng cần sự chân thật trong cảm xúc người dùng hoặc phục vụ đối tượng có khiếm khuyết về khuôn mặt và giọng nói sẽ phù hợp với công nghệ này Tuy nhiên, vẫn tồn tại một số nhược điểm cần được xem xét.
Thu thập tín hiệu rất khó và tốn nhiều chi phí
Gán nhãn dữ liệu là một quá trình phụ thuộc vào tài liệu kích thích và khả năng khơi gợi cảm xúc Việc phân biệt các tín hiệu ứng với các trạng thái thường gặp khó khăn khi chỉ dựa vào quan sát bằng mắt thường.
Có sự khác nhau nhất định trong các tín hiệu đối với mỗi cá nhân
Khó khăn của phương pháp nhận dạng cảm xúc sử dụng tín hiệu sinh học
Mặc dù phương pháp nhận dạng cảm xúc bằng tín hiệu sinh học có nhiều ưu điểm vượt trội, nhưng các nghiên cứu trong lĩnh vực này vẫn gặp phải không ít khó khăn Dưới đây là một số thách thức mà các nghiên cứu này phải đối mặt.
Để thu thập dữ liệu chất lượng cao cho phân tích cảm xúc, cần thiết lập một thử nghiệm khơi gợi cảm xúc hiệu quả, thường được thực hiện trong môi trường phòng thí nghiệm tiêu chuẩn Trong đó, các đối tượng sẽ ngồi yên với tai nghe trước màn hình hiển thị tài liệu kích thích cảm xúc, giúp đảm bảo dữ liệu ổn định và không bị nhiễu Tuy nhiên, việc ghi nhận cảm xúc chân thật phụ thuộc vào chất lượng tài liệu sử dụng Hiện tại, nhiều nghiên cứu chỉ tập trung vào việc nhận diện cảm xúc ngắn hạn, từ vài giây đến vài phút, mà chưa theo dõi cảm xúc trong thời gian dài, có thể kéo dài hàng giờ, ngày hoặc thậm chí tháng Việc ghi lại chính xác nhãn cảm xúc liên tục trong thời gian dài vẫn là một thách thức lớn, cho thấy cần nhiều nghiên cứu hơn nữa để thu thập dữ liệu cảm xúc lâu dài và nhận diện cảm xúc trong bối cảnh thực tế.
Việc lựa chọn tài liệu kích thích cảm xúc do con người thực hiện dẫn đến việc gán nhãn thủ công, gây ra độ lệch lớn trong đánh giá cảm xúc, vì cảm xúc của mỗi cá nhân có thể khác nhau với cùng một tác nhân kích thích Nhiều yếu tố ảnh hưởng đến cảm xúc trong tài liệu kích thích, và các phương thức kích thích khác nhau tạo ra các phản ứng sinh lý khác nhau Hiện tại, chưa có mô hình thử nghiệm rõ ràng nào được xác minh để thu thập dữ liệu chất lượng cao cho phân tích cảm xúc, do đó, cần nhiều nỗ lực để phát triển một mô hình thử nghiệm hiệu quả và xây dựng cơ sở dữ liệu nguồn mở lớn cho nhận dạng cảm xúc.
Nhiều nhà nghiên cứu đang tìm kiếm các đặc trưng cảm xúc từ tín hiệu sinh học, với nhiều đặc trưng khác nhau trong miền thời gian và tần số Mặc dù đã có nhiều đặc trưng được sử dụng, nhưng vẫn chưa có bằng chứng rõ ràng về sự kết hợp nào giữa các tín hiệu sinh học có liên quan đáng kể đến sự thay đổi cảm xúc.
Trong nhiều nghiên cứu, số lượng đối tượng thường hạn chế, chỉ từ hai mươi đến ba mươi Điều này dẫn đến việc hiệu suất phân loại với các đối tượng không nằm trong tập huấn luyện sẽ không đạt yêu cầu.
Nhận thức và trải nghiệm cảm xúc tạo nên sự khác biệt rõ rệt ở mỗi cá nhân, dẫn đến sự thay đổi đáng kể trong các tín hiệu sinh học tương ứng.
Các mô hình nhận dạng đối tượng độc lập hiện tại chưa đủ tiên tiến để áp dụng trong thực tế và thời gian thực, đòi hỏi cần có thêm nghiên cứu Nhiều nghiên cứu đã dựa vào phân tích nhóm để mô tả các đặc điểm chung của đối tượng nhằm cải thiện khả năng khái quát hóa thông qua việc chọn lựa các đặc trưng và bộ lọc mạnh mẽ Tuy nhiên, độ chính xác nhận dạng trung bình vẫn thấp hơn nhiều so với các mô hình phụ thuộc vào cá nhân.
Trong quy trình tiền xử lý và phân tích để chọn các phân loại, có một số yếu tố quan trọng cần xem xét Nếu số lượng mẫu nhỏ, chỉ nên áp dụng các bộ phân loại tuyến tính Việc chia dữ liệu thành các phân đoạn nhỏ hơn giúp tạo ra nhiều mẫu đào tạo hơn Đồng thời, khi số lượng mẫu hạn chế, việc trích xuất một số lượng đặc trưng tương đối nhỏ là hợp lý Đối với khuôn khổ phân loại cảm xúc, cần chú ý đến các bước tiền xử lý và quy trình phân tích trong cả hai trường hợp có và không có mô hình cụ thể.
Quy trình của một bài toán nhận dạng cảm xúc sử dụng các tín hiệu sinh học
Đối với các bài toán nhận dạng cảm xúc được giải quyết bởi các mô hình học máy, hầu hết sẽ được thực hiện theo quy trình dưới đây:
Hình 1.4 Quy trình của bài toán nh n d ng c m xúc s d ng tín hi u sinh h cậ ạ ả ử ụ ệ ọ
Dữ liệu thu thập thường là những tín hiệu thô, chưa qua xử lý, và để sử dụng chúng trong huấn luyện, cần chuyển đổi thành các dạng chuẩn có giá trị cho việc nhận dạng Quá trình này, gọi là “trích chọn đặc trưng”, đóng vai trò quan trọng trong các phương pháp học máy truyền thống.
Sau khi lọc nhiễu từ các tín hiệu thô, có thể tính toán nhiều đặc trưng quan trọng như giá trị trung bình, giá trị tối đa, giá trị tối thiểu và độ lệch chuẩn.
Các đặc trưng tần số như biến đổi Fourier, biến đổi wavelet, đặc trưng mật độ phổ (PSD) và đặc trưng Differential Entropy (DE) đóng vai trò quan trọng trong việc phân tích tín hiệu Các tín hiệu như điện não (EEG) và điện tim (ECG) có thể được chuyển đổi sang các dạng đặc trưng khác như ảnh phổ và đồ thị điện cực EEG Sau khi thực hiện các phép tính và biến đổi, mỗi tín hiệu hoặc bộ tín hiệu tương ứng với một trạng thái cảm xúc sẽ tạo ra một vector một chiều hoặc một ma trận/tensor dựa trên các phương pháp trích xuất và biến đổi khác nhau.
Tiền xử lý Áp dụng các kỹ thuật phân lớp
Ra quyết định nhận dạng
Sau khi tính toán xong, bước tiếp theo là quyết định có sử dụng toàn bộ các đặc trưng để huấn luyện bộ phân loại hay không Việc này là cần thiết vì số lượng đặc trưng lớn có thể gây tốn thời gian tính toán và ảnh hưởng không tốt đến các bộ phân loại Một số đặc trưng có thể là nhiễu hoặc tương quan với nhau, do đó không cần thiết Để giải quyết vấn đề này, có thể sử dụng các phương pháp như SFAs, PCA, LDA, Autoencoder, để giảm số chiều và giữ lại những thông tin quan trọng Dữ liệu mới sau khi giảm chiều sẽ được sử dụng để huấn luyện các bộ phân lớp, giúp tăng tốc độ và độ chính xác của thuật toán phân lớp.
Trong lĩnh vực học máy, có nhiều kỹ thuật phân lớp khác nhau, mỗi thuật toán đều có ưu điểm và nhược điểm riêng, phù hợp với từng bài toán cụ thể Hai kỹ thuật phổ biến nhất trong học máy là Học có giám sát (Supervised learning) và Học không giám sát (Unsupervised learning).
Học có giám sát là một phương pháp trong đó các thuật toán xây dựng mô hình toán học từ dữ liệu chứa cả đầu vào và đầu ra mong muốn, được gọi là dữ liệu đào tạo Mỗi ví dụ đào tạo bao gồm một hoặc nhiều đầu vào và đầu ra, được gọi là tín hiệu giám sát, và được biểu diễn bằng vector đặc trưng Các thuật toán học có giám sát tối ưu hóa mô hình thông qua việc tối ưu một hàm mục tiêu, cho phép dự đoán đầu ra cho các đầu vào mới Mô hình đạt được độ chính xác cao sau khi huấn luyện được coi là đã học cách thực hiện nhiệm vụ Các thuật toán này bao gồm phân loại (classification) cho các đầu ra hạn chế và hồi quy (regression) cho các đầu ra có giá trị số liên tục.
Học không giám sát là một phương pháp trong đó các thuật toán phân tích tập hợp dữ liệu chỉ chứa đầu vào để tìm ra cấu trúc của dữ liệu, như phân nhóm hoặc phân cụm các điểm dữ liệu Các thuật toán này hoạt động trên dữ liệu chưa được gán nhãn và chưa phân loại, nhằm xác định điểm tương đồng trong dữ liệu thay vì đưa ra dự đoán.
Học không giám sát, đặc biệt trong ước tính mật độ và tóm tắt dữ liệu, đóng vai trò quan trọng trong việc phân tích dữ liệu Trong bài toán nhận dạng cảm xúc, mục tiêu là xác định trạng thái cảm xúc từ các tín hiệu đầu vào, thuộc loại học có giám sát và là một bài toán phân loại Sau khi thu thập các vector/ma trận/tensor đặc trưng từ bước tiền xử lý, bước tiếp theo là huấn luyện một kỹ thuật phân lớp bằng cách sử dụng các vector này cùng với nhãn tương ứng Các kỹ thuật phân lớp truyền thống như KNN, hồi quy softmax, hồi quy logistic, cây quyết định và các vec tơ hỗ trợ thường được áp dụng, bên cạnh các kiến trúc mạng nơ ron như CNN và RNN trong học sâu Sau khi hoàn thành quá trình huấn luyện, bộ phân loại có thể được sử dụng để dự đoán tín hiệu mới đã được tiền xử lý phù hợp với mô hình.
Ra quyết định nhận d ng ạ
Sau khi áp dụng các kỹ thuật phân lớp, chúng ta có thể dự đoán các tín hiệu mới ngay lập tức Tuy nhiên, trong thực tế, mỗi bộ phân lớp có thể đưa ra những dự đoán khác nhau cho cùng một tín hiệu đầu vào, do đó, việc ra quyết định nhận dạng là rất quan trọng Chúng ta có thể dựa vào một bộ phân lớp duy nhất để ra quyết định, hoặc sử dụng dự đoán từ nhiều bộ phân lớp làm đầu vào cho một bộ phân lớp khác, gọi là phương pháp kết hợp (Ensemble Method) Dự đoán cuối cùng có thể dựa trên trung bình các dự đoán hoặc trung bình có trọng số từ các bộ phân loại, phương pháp này thường mang lại kết quả nhận dạng tốt hơn trong hầu hết các trường hợp.
Hình 1.5 Mô hình kết hợp (ensemble model)
Chương đầu tiên của bài viết đã tổng quan về bài toán nhận dạng cảm xúc, giới thiệu các phương pháp và phân tích ưu nhược điểm của chúng Mặc dù phương pháp nhận dạng cảm xúc dựa trên tín hiệu sinh học gặp nhiều khó khăn trong nghiên cứu và chưa đạt hiệu quả cao như các phương pháp khác, nhưng nó vẫn được coi là đáng tin cậy và có nhiều ứng dụng thực tiễn Quy trình thực hiện bài toán nhận dạng cảm xúc sử dụng tín hiệu sinh học cũng đã được mô tả ngắn gọn, cùng với một số kỹ thuật học máy như trích chọn đặc trưng và phân lớp Trong chương tiếp theo, các kỹ thuật này sẽ được giới thiệu và phân tích chi tiết hơn.
Một số kỹ thuật trích chọn đặc trưng, lựa chọn đặc trưng
Trong học máy, việc trích chọn và lựa chọn đặc trưng đóng vai trò quan trọng trong kết quả của mô hình Nghiên cứu về nhận dạng cảm xúc từ tín hiệu sinh học đã áp dụng nhiều phương pháp trích chọn và lựa chọn đặc trưng, mỗi phương pháp có ưu điểm và nhược điểm riêng Bài viết này sẽ giới thiệu một số thuật toán phổ biến thường được sử dụng trong các mô hình học máy nhận dạng cảm xúc.
SFAs là nhóm thuật toán lựa chọn đặc trưng giúp giảm không gian đặc trưng d chiều ban đầu xuống không gian con k chiều (k < d), tự động chọn các đặc trưng có liên quan nhất đến vấn đề Mục tiêu chính của việc lựa chọn đặc trưng là cải thiện hiệu quả tính toán và giảm lỗi khái quát hóa của mô hình bằng cách loại bỏ các đặc trưng hoặc nhiễu không liên quan Tóm lại, SFAs thực hiện việc loại bỏ hoặc thêm đặc trưng dựa trên hiệu suất phân loại cho đến khi đạt được tập hợp con đặc trưng với kích thước k mong muốn Có bốn loại thuật toán SFAs phổ biến.
Sequential Forward Floating Selection (SFFS)
Sequential Backward Floating Selection (SBFS)
Thuật toán SFS và SBS đều là các phương pháp chọn lọc đặc trưng, nhưng chúng hoạt động theo cách khác nhau SFS bắt đầu với một tập rỗng và từng bước thêm các đặc trưng từ tập ban đầu; nếu một đặc trưng mới cải thiện kết quả đánh giá, nó sẽ được giữ lại Ngược lại, thuật toán SBS khởi đầu với tất cả các đặc trưng và tiến hành loại bỏ những đặc trưng không cần thiết dựa trên tiêu chí đánh giá.
Các biến thể “Floating”, SFFS và SBFS mở rộng các thuật toán SFS và SBS đơn giản hơn Thuật toán “floating” bao gồm một bước loại trừ hoặc bổ sung để điều chỉnh các đặc trưng đã được thêm vào hoặc loại trừ, tạo ra nhiều tổ hợp đặc trưng hơn Quy trình của thuật toán SFFS như sau:
Thuật toán Sequential Forward Floating Selection (SFFS): Đầu vào: tập tất cả các đặc trưng Y = {y1, y2, , yd} Đầu ra: một tập con gồm k đặc trưng (k