Ứng dụng thuật toán mạng bộ nhớ dài ngắn hạn trong phân loại tín hiệu sóng não

12 6 0
Ứng dụng thuật toán mạng bộ nhớ dài ngắn hạn trong phân loại tín hiệu sóng não

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tạp chí Phát triển Khoa học Cơng nghệ – Khoa học Tự nhiên, 5(2):1167-1178 Bài nghiên cứu Open Access Full Text Article Ứng dụng thuật toán mạng nhớ dài ngắn hạn phân loại tín hiệu sóng não Huỳnh Quốc Việt1,2 , Nguyễn Thị Như Quỳnh1,2 , Trần Đức Minh1,2 , Lê Ngọc Ánh1,2 , Nguyễn Thanh Phước1,2 , Huỳnh Văn Tuấn1,2,* TÓM TẮT Use your smartphone to scan this QR code and download this article Cảm xúc người đóng vai trị quan trọng việc giao tiếp không sử dụng ngôn ngữ, cảm xúc hỗ trợ cho nghiên cứu hành vi người Ngồi ra, tín hiệu điện não nhà nghiên cứu đánh giá cao độ tin cậy dễ dàng lưu trữ ghi nhận Do phương pháp sử dụng điện não đồ để nhận dạng cảm xúc người lĩnh vực tương đối Các ý tưởng tiền xử lý tín hiệu, trích xuất tính tối ưu hóa thuật tốn phương pháp nhiều nhà nghiên cứu nhắm tới lĩnh vực Trong nghiên cứu này, hướng đến nhận diện trạng thái cảm xúc thông qua tín hiệu điện não cách sử dụng thuật toán nhớ dài ngắn hạn Tập liệu tín hiệu cảm xúc lấy từ sở liệu DEAP tác giả Koelstra cộng để phục vụ cho trình nghiên cứu Việc nghiên cứu tập trung vào độ xác phân loại thời gian huấn luyện, đồng thời kiểm tra dạng kiến trúc khác thông số khởi tạo mạng nhớ dài ngắn hạn (LSTM) Các kết đạt cấu trúc liệu chiều có hiệu suất tốt so với cấu trúc liệu chiều mạng nhớ dài ngắn hạn phù hợp cho nhiệm vụ Ngồi ra, nghiên cứu chúng tơi đối sánh với nghiên cứu tác giả khác nhằm chứng minh hiệu thuật toán phân loại Từ khoá: liệu hai chiều, liệu ba chiều, điện não đồ, cảm xúc, mạng nhớ dài ngắn hạn GIỚI THIỆU Khoa Vật lý - Vật lý Kỹ thuật, Trường Đại học Khoa học Tự Nhiên, Việt Nam Đại học Quốc gia TP HCM, Việt Nam Liên hệ Huỳnh Văn Tuấn, Khoa Vật lý - Vật lý Kỹ thuật, Trường Đại học Khoa học Tự Nhiên, Việt Nam Đại học Quốc gia TP HCM, Việt Nam Email: hvtuan@hcmus.edu.vn Lịch sử • Ngày nhận: 30-12-2020 • Ngày chấp nhận: 25-3-2021 • Ngày đăng: 30-4-2021 DOI : 10.32508/stdjns.v5i2.1006 Bản quyền © ĐHQG Tp.HCM Đây báo công bố mở phát hành theo điều khoản the Creative Commons Attribution 4.0 International license Trong năm gần đây, có nhiều phương pháp sử dụng để trích xuất đặc trưng tín hiệu cảm xúc người biểu khn mặt , giọng nói 2,3 , nháy mắt , sử dụng tín hiệu sinh lý Khi so sánh biểu đề cập, có biểu sử dụng tín hiệu sinh lý từ người nhà nghiên cứu đánh giá cao độ tin cậy , việc sử dụng tín hiệu sinh lý nhà nghiên cứu khẳng định khó làm giả Ngoài ra, dạng tín hiệu đa dạng tín hiệu điện não đồ (EEG) 7,8 , điện (EMG) , huyết áp (BVP) 10 , điện tim (ECG) 11,12 … Các tín hiệu dễ dàng ghi nhận lưu trữ Trong báo này, sử dụng tín hiệu EEG nhằm phục vụ q trình phân loại cảm xúc người Để phân loại trạng thái cảm xúc thơng qua tín hiệu EEG, trình phân loại cần phải khắc phục hạn chế bước tiền xử lý, trích xuất đặc trưng tín hiệu, tối ưu hóa mơ hình phân loại Nhiều nhà nghiên cứu đề xuất phương pháp để giải hạn chế kể Nhà nghiên cứu Zheng Lu sử dụng mạng nơron học sâu nhằm kiểm tra dải tần số quan trọng để nhận dạng cảm xúc thông qua tín hiệu EEG tác giả đưa kết luận dải beta gamma phù hợp 13 Tác giả Lakshmi cộng khảo sát phương pháp xử lý trích xuất tín hiệu EEG, bao gồm phương pháp phân tích thành phần độc lập (ICA), phương pháp phân tích thành phần (PCA), phương pháp biến đổi Wavelet, phương pháp biến đổi Fourier 14 Tác giả Hatamikia Nasrabadi đề xuất sử dụng bốn phương pháp trích xuất đặc trưng bao gồm entropy gần đúng, entropy phổ, phân cụm khoảng cách Katz phân cụm khoảng cách Petrosian, từ kết hợp phương pháp với nhau, sau họ sử dụng số Dunn nhằm chọn tính nhiều thơng tin phân loại cảm xúc cách sử dụng đồ tự tổ chức (SOM) 15 Trong tất nghiên cứu đề cập trước đó, tác giả sử dụng nhiều phương pháp để trích xuất tính đặc trưng tín hiệu EEG, sử dụng nhiều thuật toán phân loại khác Chúng tơi nhận thấy việc trích xuất tính tác giả tập trung vào chiều không gian từ chiều (1D) đến hai chiều (2D) tín hiệu Tuy nhiên, nghiên cứu thêm tín hiệu ba chiều (3D) mô tả tổng quát độ sâu liệu Trích dẫn báo này: Việt H Q, Quỳnh N T N, Minh T D, Ánh L N, Phước N T, Tuấn H V Ứng dụng thuật toán mạng nhớ dài ngắn hạn phân loại tín hiệu sóng não Sci Tech Dev J - Nat Sci.; 5(2):1167-1178 1167 Tạp chí Phát triển Khoa học Cơng nghệ – Khoa học Tự nhiên, 5(2):1167-1178 Ngồi ra, tín hiệu EEG tín hiệu liên tục theo thời gian 16 , phân đoạn thời điểm định có ảnh hưởng tới phân đoạn trước sau Và việc sử dụng thuật tốn có khả phân loại tín hiệu thời điểm định nghiên cứu trước khó khăn tín hiệu biến thiên liên tục Các thuật toán phân loại bỏ sót số thơng tin tín hiệu Trong nghiên cứu này, chúng tơi phân loại trạng thái cảm xúc người thông qua tín hiệu điện não cách sử dụng thuật toán nhớ dài ngắn hạn (LSTM) Tập liệu tín hiệu cảm xúc lấy từ sở liệu DEAP để phục vụ cho trình nghiên cứu Chúng chia tập liệu thành phân đoạn có độ dài thời gian nhau, phân đoạn trích xuất thành bốn dải tần số (δ , α , β , γ ) - Dải δ (0.5-4 Hz) dải tần số có biên độ khoảng 20 mV thường xuất người trạng thái ngủ Khi dải δ thay đổi biên độ tần số dấu hiệu thiếu oxy não có nguy đột quỵ - Dải α (7.5-12.5 Hz) dải tần số có biên độ trung bình từ 50-70 mV thường xuất người thư giãn, tỉnh táo nhắm mắt Khi có thay đổi dải α dấu hiệu tiếp xúc với ánh sáng, trường hợp mở mắt, tổn thương võng mạc - Dải β (13-40 Hz) dải tần số có biên độ nhỏ 15mV thường xuất người trạng thái suy nghĩ, tập trung Khi dải β thay đổi biểu cho dấu hiệu căng thẳng, lo âu - Dải γ (40-60 Hz) dải tần số có biên độ nhỏ thường xuất người thiền định, tập trung ý, quản lý nhớ Thơng qua lọc sau kết hợp phân đoạn dải tần số thành hình khối 3D Việc nghiên cứu tập trung vào độ xác phân loại thời gian huấn luyện thông qua việc khảo sát ảnh hưởng thông số bên kiến trúc mạng LSTM Ngồi ra, việc nghiên cứu chúng tơi so sánh với phương pháp tác giả trước để đánh giá hiệu thuật toán VẬT LIỆU VÀ PHƯƠNG PHÁP Bộ liệu DEAP Bộ liệu DEAP sử dụng rộng rãi nghiên cứu nhận dạng cảm xúc tín hiệu EEG Trong tập liệu này, tín hiệu EEG 32 người tình nguyện tham gia ghi lại hai phòng nghiên cứu khác nhau, người tham gia đánh số từ đến 22 thu tín hiệu Twente (Mỹ) người cịn lại thu Geneva (Thụy Sĩ) Quá trình thu tín hiệu điện não đồ diễn tình nguyện viên ngồi xem 40 đoạn phim khác 1168 với đoạn phim có độ dài 60 giây Với đoạn phim sau xem xong, người tham gia phải đánh giá cảm xúc theo mức từ đến chín bốn loại tín hiệu cảm xúc bao gồm: Arousal, Valence, Ấn tượng Yêu thích Các kết đánh giá người tham gia sử dụng nhãn tương ứng cho q trình thu Sau đánh giá tín hiệu kiểm tra phù hợp, q trình thu tín hiệu lặp lại đoạn phim 17 Ngoài ra, tác giả liệu DEAP cung cấp phiên tiền xử lý trước liệu thô nhằm phục vụ cho trình nghiên cứu Phiên chia làm hai phần: liệu nhãn Trong phần liệu chứa ma trận với kích thước 40×40×8064 (số mẫu × video × kênh), phần nhãn có ma trận 40×4 (mức độ × cảm xúc) với cột dạng cảm xúc (Arousal, Valence, Ấn tượng Yêu thích) Trong phiên tiền xử lý này, liệu lấy mẫu xuống cịn 128 Hz tín hiệu được lọc thơng qua lọc thơng dải có tần số từ 4Hz - 40,5Hz Các tín hiệu đo thử giây đầu xóa 17 Bảng trình bày tóm tắt phiên tiền xử lý tập liệu DEAP Trong nghiên cứu này, sử dụng 32 kênh liệu tiền xử lý kênh cịn lại (kênh 33 đến kênh 40) sử dụng nhằm phục vụ đo tín hiệu EOG thơng số khác nhiệt độ, huyết áp Chính kênh không liên quan đến nghiên cứu báo Ngoài nhãn sử dụng cảm xúc Arousal để phân loại cảm xúc đặc trưng có kết cao đặc trưng cho trình phân loại 18 Tách dải tần số trích xuất tính đặc trưng Mỗi tín hiệu EEG lần thu phân đoạn theo ba độ dài 0,5 giây, giây 1,5 giây Mỗi độ dài phân đoạn phân cụm chung nhằm tạo thành ba tập liệu mới; Các tập liệu đặt tên “input_1” (tập liệu với phân đoạn dài 0,5 giây), “input_2” (tập liệu với phân đoạn dài giây) “input_ 3” (tập liệu với phân đoạn dài 1,5 giây) Các nghiên cứu trước dải tần số với tần suất xuất khác đại diện cho trạng thái cảm xúc người 19 Do đó, phân đoạn tách thành bốn dải tần số (δ , α , β , γ ) thông qua lọc Butterworth Chúng sử dụng công thức entropy vi sai (DE) liên tục để tính tốn độ phức tạp phân đoạn tín hiệu EEG liệu 20 Đối với chuỗi tín hiệu tn theo phân phối Gauss N (µ , δ 2) Tạp chí Phát triển Khoa học Cơng nghệ – Khoa học Tự nhiên, 5(2):1167-1178 Bảng 1: Thông số tổng quan liệu DEAP Tên thành phần Cấu trúc Các thành phần Dữ liệu 40×40×8064 Đoạn phim × Kênh × Số mẫu Nhãn 40×4 Số lần thử × Nhãn (Arousal, Valence, Ấn tượng u thích) 14, gọi X biến ngẫu nhiên liên tục có hàm mật độ xác xuất cơng thức DE h(X) mô tả sau: (x )2 ì h(x) = e 2  2πδ  (x − µ )2   log  √ e 2δ  dxπ 2πδ ∫ +∞ h(X) = ( ) log 2π eδ 2 (1) (2) Dựa vào kết khảo sát Laskhmi 14 , tín hiệu EEG chứng minh chúng hoạt động theo phân bố Gaussian dải tần số từ 2Hz - 44Hz Do đó, cơng thức entropy vi sai cho tần số mô tả sau 20 : hi (X) = ( ) log 2π eδi2 (3) hi entropy vi sai tín hiệu EEG tương ứng dải tần số i δi2 phương sai tín hiệu Dựa vào cơng thức (3), kết tính tốn phân đoạn EEG vec-tơ 1D Toàn q trình mơ tả tổng qt Hình Mạng nhớ dài ngắn hạn (LSTM) Mạng LSTM mơ hình sử dụng để giải tốn liên quan đến chuỗi tín hiệu Điểm đặc biệt mạng LSTM số lượng hàm hoạt động có đơn vị kiến trúc Nói cách khác, đơn vị chứa nhiều hàm hoạt động 21 Trong đó, hàm hoạt động kết hợp với để thực chức gọi “cổng” Kiến trúc đơn vị mạng LSTM gồm ba cổng mơ tả tổng quan Hình Cổng “cổng quên”, nhiệm vụ cổng nhằm xác định thơng tin từ đơn vị phía trước định chúng có nên bị loại bỏ hay không Nếu giá trị đầu “cổng quên” khơng thơng tin tương ứng bị xóa Ngược lại, giá trị đầu cho phép thơng tin tương ứng vào cổng 22 Đầu cổng tính toán theo (4): ( ) (4) f t = σ W f [ht−1 , xt ] + b f Cổng thứ hai “Cổng đầu vào”, nhiệm vụ cổng tổng hợp thơng tin từ tín hiệu đầu vào kết đầu “cổng quên” Nói cách khác, kết tính tốn “Cổng đầu vào” kết hợp thông tin từ đơn vị trước thơng tin đầu vào thời điểm tính tốn 22 , cơng thức mơ tả theo (5): Ct = Ct−1 ∗ ft + Ct ∗ it Xây dựng cấu trúc chiều kết hợp phân đoạn Trong mục này, bốn vec-tơ đại diện cho bốn dải tần số (δ , α , β , γ ) xây dựng thành ma trận 2D nhằm mô cấu trúc thiết bị đo tập liệu DEAP Từ chúng tơi trì thông tin khoảng cách kênh thiết bị thu Một ma trận 2D với kích thước h × w sử dụng, h w số lượng tối đa điện cực xét theo chiều dọc ngang Với liệu DEAP, giá trị lớn cho h w chín 18 Ngồi ra, giá trị khơng thêm vào điểm khơng có điện cực Hình Dựa vào Hình 2, dải tần số biến đổi thành ma trận 2D Các ma trận kết hợp với để tạo thành khối 3D, chúng khung (frame) chuỗi tín hiệu EEG Hình (5) Cổng cuối “Cổng đầu ra” Cổng định giá trị đưa vào đơn vị giá trị đầu cuối thời điểm tính tốn 22 Cơng thức tính theo (6) (7): ot = σ (Wo · [ht − 1, xt ] + bo ) (6) ht = (Ct ) ∗ ot (7) KẾT QUẢ VÀ THẢO LUẬN Trong mục này, thiết kế mạng LSTM hai lớp, với lớp thứ có 512 đơn vị lớp thứ hai có 64 đơn vị Kiến trúc bên đơn vị gồm hai hàm hoạt động hàm Tanh hàm Sigmoid Chúng tạo lớp kết nối đầy đủ với 1024 nút để nhận kết đầu cuối lớp thứ hai nhằm phân loại 1169 Tạp chí Phát triển Khoa học Cơng nghệ – Khoa học Tự nhiên, 5(2):1167-1178 Hình 1: Tổng quan q trình tách dải tần số tính tốn độ phức tạp tín hiệu EEG Hình 2: Ma trận (9×9) mơ vị trí điện cực liệu 18 giá trị tính tốn Các giá trị kết đưa vào nút, từ lớp kết nối đầy đủ bỏ phiếu để đưa trạng thái cảm xúc tương ứng với tín hiệu EEG huấn luyện Đối với tập nhãn liệu phân chia thành hai mức cao thấp mức độ cảm xúc Chúng đặt ngưỡng với giá trị năm để chia giá trị nhãn thành hai tập liệu cao thấp Mức cao có giá trị lớn năm mức thấp có giá trị nhỏ năm Để đảm bảo cân mức cao thấp trạng thái cảm xúc, sử dụng phương pháp entropy chéo (cross-entropy) để chia liệu thành 10 phần (chín phần cho trình huấn luyện phần cho trình kiểm tra) Độ xác cuối kết trung bình 1170 10 lần thay đổi phần huấn luyện kiểm tra Giá trị tốc độ học chọn ngẫu nhiên 10−4 giá trị chuẩn hóa L2 (L2 regularization) khởi tạo 0,005 nhằm tránh tình trạng “overfitting” (khi trạng thái này, mạng khơng thể gặp khó khăn trình huấn luyện liệu mới) Khảo sát ảnh hưởng giai đoạn huấn luyện tới mơ hình phân loại Chúng tơi sử dụng “input_1” làm tập liệu cho trình khảo sát Đầu tiên, khảo sát mạng LSTM với số lần huấn luyện khác (epoch), từ đánh giá ảnh hưởng số epoch đến độ xác phân loại thời gian huấn luyện Kết Tạp chí Phát triển Khoa học Công nghệ – Khoa học Tự nhiên, 5(2):1167-1178 Hình 3: Quá trình biến đổi thành khối liệu 3D Hình 4: Cấu trúc đơn vị LSTM 21 1171 Tạp chí Phát triển Khoa học Công nghệ – Khoa học Tự nhiên, 5(2):1167-1178 mơ tả Hình 5, với epoch 10 độ xác phân loại đạt giá trị cao (65,6%) Ngồi ra, chúng tơi nhận thấy với epoch lớn 10 độ xác giảm đáng kể (xấp xỉ 7,8%), nguyên nhân mạng học thêm liệu kéo dài huấn luyện Bởi liệu huấn luyện mạng phải tiếp tục thay đổi kiến trúc để thích ứng, q trình thay đổi tạo kiến trúc mạng khơng phù hợp với liệu huấn luyện Về mặt thời gian huấn luyện, thời gian tăng dần theo số epoch dao động từ 81 giây đến 434 giây, chúng tơi kết luận thời gian tỉ lệ thuận với số epoch Tuy nhiên, epoch thời gian khơng cịn tăng tuyến tính mà tăng lên cách đột biến Do đó, chúng tơi rút mạng LSTM khơng thể huấn luyện với epoch Khảo sát giá trị tốc độ học ảnh hưởng tới mơ hình phân loại Trong mục này, để xác định rõ mối quan hệ độ xác phân loại thời gian huấn luyện với tốc độ học Chúng huấn luyện mạng LSTM với tốc độ học thay đổi từ 10−1 - 10−5 ; Kết trình bày Bảng Trong Bảng 2, độ xác phân loại hiệu (65,6%) độ học 10−4 đạt hiệu thấp (51.6%) cho độ học 10−5 Theo kết nghiên cứu Jing 23 , tốc độ học lớn mạng học liệu hiệu trình hội tụ diễn nhanh hơn, điều dẫn đến mạng kết thúc trình học trước hoàn thành số epoch định Ngược lại, tốc độ học nhỏ trình hội tụ diễn chậm khả học tính bị hạn chế Dựa vào kết Bảng 2, kết luận tốc độ học 10−4 giá trị phù hợp cho mơ hình mạng LSTM, với tốc độ học 10−5 mạng bị chậm lại q trình học tín hiệu mới, điều dẫn đến độ xác phân loại bị giảm Đối với thời gian huấn luyện, kết thời gian huấn luyện tỉ lệ thuận với độ học, tốc độ học thay đổi dẫn đến tình trạng “overfitting” so với trình thay đổi số epoch Khảo sát ảnh hưởng số lớp mơ hình đến độ xác phân loại Trong mục này, muốn khảo sát ảnh hưởng số lớp mạng LSTM với độ xác phân loại Chúng khởi tạo bốn kiến trúc khác mạng LSTM, bao gồm lớp, hai lớp, ba lớp va bốn lớp với đầu vào thông số kiến trúc Kết trình bày Bảng 1172 Trong Bảng 3, mạng hai lớp cho kết có độ xác phân loại cao nhất, mạng bốn lớp có độ xác thấp (50,5%) Kết khảo sát chi tiết trình bày Hình 6, chúng tơi nhận thấy mạng LSTM ba lớp bốn lớp phân loại trạng thái mức cao thấp tín hiệu cảm xúc, mạng khơng huấn luyện nhận kiểu nhãn (nhãn không) Nguyên nhân dẫn đến việc không huấn luyện có nhiều đơn vị lớp mạng LSTM, dẫn đến mát thông tin trình truyền tín hiệu (do ”cổng qn” loại bỏ q nhiều thông tin) Khảo sát mối quan hệ đặc điểm liệu với độ xác phân loại thời gian huấn luyện Tiếp theo, khảo sát ảnh hưởng độ lớn liệu đến độ xác phân loại mạng Mạng LSTM cung cấp với liệu có độ lớn khác nhau, lấy n người số 32 người tham gia cách ngẫu nhiên, huấn luyện mạng với số lần với kết làm tròn 32 n , độ xác phân loại trung bình 32 lần lấy ngẫu nhiên n Kết mô tả Bảng Kết cho thấy độ xác phân loại cao với 32 người tham gia Với người tham gia 10 người tham gia, mạng học phân loại tín hiệu EEG, vấn đề xảy tương tự mạng ba lớp (Hình 6) Dựa vào kết quả, kết luận rằng, mạng LSTM không phù hợp để huấn luyện với liệu nhỏ, đặc tính xử lý tín hiệu chuỗi mạng cần phải có nhiều thơng tin từ tín hiệu phía trước hỗ trợ Đối với thời gian huấn luyện, kết luận thời gian huấn luyện tỉ lệ thuận với kích thước tập liệu Nguyên nhân xuất phát từ việc có nhiều liệu mạng cần phải học toàn số liệu dẫn đến thời gian lâu Trong trình khảo sát tiếp theo, tập liệu “input_1”, “input_2” “input_3” sử dụng với kiến trúc mạng LSTM tốt nhất, từ khảo sát ảnh hưởng độ dài phân đoạn đến độ xác phân loại Trong Bảng 5, thấy độ dài liệu lớn độ xác phân loại thấp Quá trình xử lý với liệu chuỗi phải cần sử dụng phân đoạn có độ dài phù hợp, phân đoạn có độ dài q lớn có nhiều thơng tin tổng qt có thơng tin chi tiết Do đó, thơng tin khơng cung cấp nhiều tính cho q trình huấn luyện Ngoài xét mặt thời gian, liệu có độ dài phân đoạn ngắn có thời gian huấn luyện Tạp chí Phát triển Khoa học Cơng nghệ – Khoa học Tự nhiên, 5(2):1167-1178 Hình 5: Đồ thị thể ảnh hưởng số epoch đến độ xác phân loại thời gian huấn luyện Bảng 2: Mối quan hệ độ xác phân loại thời gian huấn luyện tương ứng với tốc độ học khác Tốc độ học Độ xác (%) Thời gian huấn luyện (giây) 10−1 60,3 563 10−2 62,5 535 10−3 62,3 478 10−4 65,6 347 10−5 51,6 331 Bảng 3: Mối quan hệ số lớp độ xác phân loại mạng LSTM Số lớp Một lớp Hai lớp Ba lớp Bốn lớp Độ xác (%) 60,9 65,6 51,6 50,5 Bảng 4: Mối quan hệ độ lớn liệu với độ xác phân loại thời gian huấn luyện Số người tham gia 10 15 20 25 30 32 Độ xác (%) 50,0 50,0 56,6 57,5 60,0 63,0 65,6 Thời gian huấn luyện (giây) 66 136 259 355 401 426 437 1173 Tạp chí Phát triển Khoa học Công nghệ – Khoa học Tự nhiên, 5(2):1167-1178 Hình 6: Ma trận phân loại mạng ba lớp Bảng 5: Sự ảnh hưởng độ dài phân đoạn số chiều liệu đến độ xác phân loại Độ dài phân đoạn (giây) Độ xác phân loại (%) Thời gian huấn luyện (giây) Dữ liệu 2D Dữ liệu 3D Dữ liệu 2D Dữ liệu 3D 0,5 60,4 65,6 437 331 57,8 61,7 84 76 1,5 50 58,2 55 44 lâu, nguyên nhân thay đổi số lượng liệu đầu vào, tín hiệu thu 60 giây, chia liệu độ dài 0,5 giây có tới 120 mẫu chia giây có 60 mẫu Khi số lượng mẫu tăng lên việc tính tốn diễn lâu hơn, điều chứng minh Bảng Ngoài ra, chúng tơi cịn so sánh liệu dạng 2D 3D với độ dài phân đoạn khác (Bảng 5) Các kết cho thấy, liệu 3D cho kết tốt 1174 liệu 2D tất độ dài phân đoạn độ xác phân loại thời gian huấn luyện Đối với liệu 2D đưa vào huấn luyện mạng LSTM hình bao gồm trục x y tương đương với kích thước độ dài rộng ma trận thông số thể độ phức tạp kênh thu liệu Ngoài liệu 2D không cung cấp thông tin liên hệ dải tần số, trình huấn luyện mạng phải cắt liệu thành lát cắt Tạp chí Phát triển Khoa học Cơng nghệ – Khoa học Tự nhiên, 5(2):1167-1178 riêng biệt cho dải tần số học cách riêng biệt Ngược lại, liệu 3D đưa vào huấn luyện bao gồm tồn thơng số liệu 2D (kích thước ma trận thơng số thể độ phức tạp), nhiên liệu 3D cung cấp thêm trục z, trục cung cấp thêm thông số mối liên hệ dải tần số ghép với Trong trình huấn luyện, mạng LSTM xử lý liệu đồng loạt cho dải tần số mà không cần phải chia thành lát cắt nhỏ để xử lý thành phần Chúng kết luận rằng, việc sử dụng tín hiệu dạng 3D giúp mơ tả chi tiết thành phần kết hợp tín hiệu, từ mơ tả chi tiết dải tần số hoạt động mối quan hệ chúng, điều mà tín hiệu 2D khó làm (do thành phần tín hiệu kết hợp tính toán giá trị nhất) So sánh phương pháp đề xuất với nghiên cứu trước Trong mục này, so sánh phương pháp đề xuất với nghiên cứu có sử dụng liệu DEAP nghiên cứu Evi Septiana Pane cộng sử dụng phương pháp vec-tơ học máy (SVM) để phân loại trích xuất tính đặc trưng 24 Tác giả Katarzyna Mrozik, Bożena Kostek sử dụng phép biến đổi wavelet phân loại theo phương pháp knearest neighbors mạng nơ ron nhân tạo (ANN) 25 Nhà nghiên cứu Xiang Li sử dụng chín đặc trưng tuyến tính ba đặc trưng phi tuyến trích xuất từ tín hiệu dùng phương pháp Random Forest (RF) để phân loại trạng thái cảm xúc 26 Các kết mô tả Bảng Dựa vào Bảng 6, kết cho thấy phương pháp đề xuất sử dụng tín hiệu dạng 3D xử lý tín hiệu chiều thời gian góp phần làm tăng hiệu trình phân loại Cụ thể hơn, phương pháp thu kết cao phương pháp ANN khoảng 0,7%, kết xem vượt trội, hai phương pháp có đặc tính huấn luyện giống Tuy nhiên, với thuật tốn SVM phương pháp chúng tơi cho hiệu cao 3,9%, so với phương pháp k-nearest neighbors 6,0%, tiếp hiệu 3,9% phương pháp SVM, cuối cao 3,8% so với phương pháp Random Forest Các kết so sánh thu được chứng minh thông qua phương pháp xử lý trích xuất tín hiệu phương pháp, tác giả Evi Septiana Pane sử dụng 11 tính chiều thời gian để làm tính cho thuật tốn SVM 24 sử dụng dải tần số đầu vào thuật toán phân loại, việc thiếu hụt việc sử dụng nhiều dải tần số làm giảm hiệu thực mô tả chi tiết trạng thái cảm xúc Đối với tác giả Xiang Li, tác giả sử dụng thuật toán Random Forest với năm phần liệu chia cho việc học kiểm tra liệu thay đổi so với liệu (dữ liệu huấn luyện nhỏ liệu kiểm tra lại lớn hơn) điều làm q trình phân loại khơng hiệu khơng đủ liệu cho q trình huấn luyện mơ hình Ngồi việc trích xuất tính có 12 giá trị cho kênh so với số tính chúng tơi thấp hơn, 32 tính cho kênh, việc huấn luyện có thơng tin để học Tác giả Katarzyna Mrozik sử dụng liệu có độ dài mười giây, độ dài lớn nhiều so với liệu (0.5 giây), việc sử dụng liệu có độ dài lớn trích xuất tính lấy giá trị chi tiết để phân loại trạng thái cảm xúc Ngoài nghiên cứu tác giả tập trung vào khảo sát việc trích xuất liệu phương pháp Wavelet đưa thuật toán phân loại khác để kiểm tra, đó, tác giả không trọng vào việc thiết kế chi tiết mơ hình phân loại mà dùng thơng số mặc định Ngoài ra, việc chia liệu thành 60% cho trình huấn luyện 40% cho q trình kiểm tra gặp khó khăn tác giả Xiang Li Những đặc điểm dẫn đến việc phân loại không tối ưu KẾT LUẬN Nghiên cứu khẳng định mạng LSTM sử dụng cho việc phân loại trạng thái cảm xúc người Trong nghiên cứu này, khảo sát ảnh hưởng thơng số có mạng bao gồm số epoch, tốc độ học số lớp, thơng số có ảnh hưởng đáng kể đến q trình phân loại mơ hình Chúng kết luận với epoch 10, tốc độ học 10−4 số lớp hai thông số phù hợp cho mạng LSTM để phân loại tín hiệu phương pháp chúng tơi Thêm vào đó, kết nghiên cứu đặc điểm liệu khác độ dài phân đoạn có ảnh hưởng lớn đến trình huấn luyện Kết tập liệu với độ dài phân đoạn 0,5 giây (“input_1”) cho kết tốt so sánh tập liệu với độ dài phân đoạn lớn Ngoài ra, mạng LSTM sử dụng liệu dạng 3D cho kết tốt so với liệu dạng 1D 2D Các kết nghiên cứu so sánh với nghiên cứu khác, phương pháp đề xuất cho thấy hiệu cao q trình tín hiệu cảm xúc, đồng thời khẳng định việc sử dụng mối liên hệ tín hiệu EEG chiều thời gian cải thiện q trình phân loại 1175 Tạp chí Phát triển Khoa học Công nghệ – Khoa học Tự nhiên, 5(2):1167-1178 Bảng 6: Bảng so sánh phương pháp đề xuất với nghiên cứu khác Tác giả Phương pháp Độ xác (%) Xiang Li Random Forest 61,8 Evi Septiana Pane SVM 61,6 Katarzyna Mrozik k-nearest neighbors 59,4 Katarzyna Mrozik ANN 64,7 Phương pháp đề xuất LSTM 65,6 DANH MỤC CÁC TỪ VIẾT TẮT TÀI LIỆU THAM KHẢO 1D: 1-dimension (1 chiều) 2D: 2-dimensions (2 chiều) 3D: 3-dimensions (3 chiều) ANN: Artificial Neural Network (Mạng nơ-ron nhân tạo) BVP: Blood Volume Pulse (Huyết áp) DE: Differential entropy (Entropy vi sai) EEG: Electroencephalogram (Điện não đồ) EMG: Electromyography (Điện cơ) EOG: ElectroOculogram (Điện mắt) ICA: Independent component analysis (Phân tích thành phần độc lập) LSTM: Long short term memory (Mạng nhớ dài ngắn hạn) RF: Random Forest (Rừng định ngẫu nhiên) RNN: Recurrent neural network (Mạng hồi quy) SOM: Self-organizing map (Mạng tự tổ chức) SVM: Support vector machine (Vec-tơ hỗ trợ học máy) PCA: Principal component analysis (Phân tích thành phần chính) Andersonno KMP A real-time automated system for the recognition of human facial expressions IEEE Trans Syst Man Cybern Part B Cybern;36(1):96–105 PMID: 16468569 Available from: https://doi.org/10.1109/TSMCB.2005.854502 El Ayadi M, Mohamed S Kamel, and Fakhri Karray Survey on speech emotion recognition: Features, classification schemes, and databases Pattern Recognition 2017;4(3):575587;Available from: https://doi.org/10.1016/j.patcog.2010.09 020 Petrushin V Emotion in speech: recognition and application to call centers Proceedings of Artificial Neural Networks in Engineering 1999;710;Available from: https://doi.org/10.1007/ 978-3-319-68600-4_25 Soleymani MPMPT Multimodal emotion recognition in response to videos IEEE Trans Affect Comput 2012;3(2):211223;Available from: https://doi.org/10.1109/T-AFFC.2011.37 Sahayadhas KSMMRPA Physiological signal based detection of driver hypovigilance using higher order spectra Expert Systems with Applications 2015;42(22):8669-8677;Available from: https://doi.org/10.1016/j.eswa.2015.07.021 Alex M, et al Discrimination of Genuine and Acted Emotional Expressions Using EEG Signal and Machine Learning IEEE Access 2020;8:191080-191089;Available from: 10.1109/ ACCESS.2020.3032380 MA SUA, et al Deep Learning for EEG motor imagery classification based on multi-layer CNNs feature fusion Future Generation Computer Systems 2019;101:542-554;Available from: https://doi.org/10.1016/j.future.2019.06.027 Bhatti MH, et al Soft Computing-Based EEG Classification by Optimal Feature Selection and Neural Networks IEEE Transactions on Industrial Informatics 2019;15(10):57475754;Available from: 10.1109/TII.2019.2925624 Rahman MM, et al Sleep stage classification using single-channel EOG Computers in Biology and Medicine 2018;102;Available from: https://doi.org/10 1016/j.compbiomed.2018.08.022 10 Nakisa B, et al Automatic Emotion Recognition Using Temporal Multimodal Deep Learning IEEE Access 2020;Available from: 10.1109/ACCESS.2020.3027026 11 Wagner JK, Jonghwa; ANDRÉ, Elisabeth From physiological signals to emotions: Implementing and comparing selected methods for feature extraction and classification 2005 IEEE international conference on multimedia and expo IEEE2005;p 940–943 Available from: 10.1109/ICME.2005.1521579 12 Gouizi K Negative emotion detection using EMG signal International Conference on Control, Decision and Information Technologies (CoDIT); Metz 2014;p 690–695 Available from: https://doi.org/10.1109/CoDIT.2014.6996980 13 Zheng WLB Investigating critical frequency bands and channels for EEG-based emotion recognition with deep neural networks IEEE Trans Auton Mental Dev 2015;7(3):162175;Available from: https://doi.org/10.1109/TAMD.2015 2431497 14 Lakshmi MR, et al Survey on EEG Signal International Journal of Advanced Research 2014;4(1):84-91; XUNG ĐỘT LỢI ÍCH Các tác giả đồng ý khơng có xung đột lợi ích liên quan đến kết cơng bố ĐĨNG GĨP CỦA CÁC TÁC GIẢ Tác giả Huỳnh Quốc Việt viết chương trình, tổng hợp thảo Các tác giả Nguyễn Thị Như Quỳnh, Trần Đức Minh, Lê Ngọc Ánh, Nguyễn Thanh Phước tham gia đo đạc xử lý liệu Tác giả Huỳnh Văn Tuấn tham gia viết chỉnh sửa thảo LỜI CẢM ƠN Nghiên cứu tài trợ Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia TP Hồ Chí Minh thơng qua đề tài mã số T2020-03 1176 Tạp chí Phát triển Khoa học Công nghệ – Khoa học Tự nhiên, 5(2):1167-1178 15 Hatamikia S, and Ali MN Recognition of emotional states induced by music videos based on nonlinear feature extraction and some classification 2014 21th Iranian Conference on Biomedical Engineering (ICBME) 2014;p 333–337 Available from: https://doi.org/10.1109/ICBME.2014.7043946 16 Kannathal N, et al Characterization of EEG-a comparative study Computer methods and Programs in Biomedicine 2005;80(1):17-23;PMID: 16099533 Available from: https://doi org/10.1016/j.cmpb.2005.06.005 17 Koelstra S, et al Deap: A database for emotion analysis; using physiological signals IEEE transactions on affective computing 2011;3(1):18-31;Available from: https://doi.org/10.1109/ T-AFFC.2011.15 18 Yang Y, et al Continuous Convolutional Neural Network with 3D Input for EEG-Based Emotion Recognition The 25th International Conference on Neural Information Processing; Cambodia 2018;p 433–443 Available from: https://doi.org/10 1007/978-3-030-04239-4_39 19 Elisabeth EA Reasons, years and frequency of yoga practice: Effect on emotion response reactivity Frontiers in human neuroscience 2018;12(264);PMID: 30022932 Available from: https://doi.org/10.3389/fnhum.2018.00264 20 Shi L-CJ, et al Differential entropy feature for EEG-based vigilance estimation 2013 35th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC); Osaka 2013;p 6627–6630 Available from: 10.1109/ EMBC.2013.6611075 21 Yong EA A review of recurrent neural networks: LSTM cells and network architectures Neural com- 22 23 24 25 26 putation 2019;31(7):1235-1270;Available from: https: //doi.org/10.1162/neco_a_01199 Zhu LMaXX A Recurrent Convolutional Neural Network for Land Cover Change Detection in Multispectral Images IGARSS 2018 - 2018 IEEE International Geoscience and Remote Sensing Symposium; Valencia 2018;p 4363–4366 Available from: 10.1109/IGARSS.2018.8517375 LI GS, et al On comparing three artificial neural networks for wind speed forecasting Applied Energy 2010;87(7):23132320;Available from: https://doi.org/10.1016/j.apenergy.2009 12.013 Evi S Identifying rules for electroencephalograph (EEG) emotion recognition and classification 2017 5th International Conference on Instrumentation, Communications, Information Technology, and Biomedical Engineering (ICICI-BME); Bandung 2017;p 167–172 Available from: 10.1109/ICICIBME.2017.8537731 Mrozik K, et al Comparison of selected electroencephalographic signal classification methods 2017 Signal Processing: Algorithms, Architectures, Arrangements, and Applications (SPA); Poznan 2017;p 36–41 Available from: https: //doi.org/10.23919/SPA.2017.8166834 Li X, et al Emotion recognition from multi-channel EEG data through Convolutional Recurrent Neural Network 2016 IEEE International Conference on Bioinformatics and Biomedicine (BIBM); Shenzhen 2016;p 352–359 Available from: 10.1109/ BIBM.2016.7822545 1177 Science & Technology Development Journal – Natural Sciences, 5(2):1167-1178 Research Article Open Access Full Text Article Application of long short term memory algorithm in classification electroencephalogram Viet Quoc Huynh1,2 , Quynh Nguyen-Thi-Nhu1,2 , Minh Duc Tran1,2 , Anh Ngoc Le1,2 , Phuoc Thanh Nguyen1,2 , Tuan Van Huynh1,2,* ABSTRACT Use your smartphone to scan this QR code and download this article Human emotion plays an important role in communication without language, and it also supports research on human behavior In addition, electroencephalogram signals have been highly confirmed by researchers for reliability as well as ease of storage and recognition So, the use of electroencephalogram to identify emotion signals are currently a relatively new field Many researchers are targeting the key ideas in this research field such as signal preprocessing, feature extraction and algorithm optimization In this paper, we aim to recognize emotion signals using Long Short Term Memory (LSTM) algorithms Emotional signals dataset was taken from DEAP database of koelstra authors and associates to serve this research The research will focus on accuracy and training time, and it will test different architectural types as well as the initials of LSTM The obtained results show the 3-dimensional cubes's structure has better performance than the 2-dimensional cubes's structure In addition, our research is also compared with other authors' studies to prove the effectiveness of the classification algorithm Key words: electroencephalogram, emotion, LSTM, 2D data, 3D data Faculty of Physics and Engineering Physics, University of Science, VNU-HCM, Vietnam Viet Nam National University Ho Chi Minh city, Vietnam Correspondence Tuan Van Huynh, Faculty of Physics and Engineering Physics, University of Science, VNU-HCM, Vietnam Viet Nam National University Ho Chi Minh city, Vietnam Email: hvtuan@hcmus.edu.vn History • Received: 30-12-2020 • Accepted: 25-3-2021 • Published: 30-4-2021 DOI : 10.32508/stdjns.v5i2.1006 Copyright © VNU-HCM Press This is an openaccess article distributed under the terms of the Creative Commons Attribution 4.0 International license Cite this article : Huynh V Q, Nguyen-Thi-Nhu Q, Tran M D, Le A N, Nguyen P T, Huynh T V Application of long short term memory algorithm in classification electroencephalogram Sci Tech Dev J - Nat Sci.; 5(2):1167-1178 1178 ... khăn tín hiệu biến thiên liên tục Các thuật toán phân loại bỏ sót số thơng tin tín hiệu Trong nghiên cứu này, phân loại trạng thái cảm xúc người thông qua tín hiệu điện não cách sử dụng thuật toán. .. vi sai tín hiệu EEG tương ứng dải tần số i δi2 phương sai tín hiệu Dựa vào cơng thức (3), kết tính tốn phân đoạn EEG vec-tơ 1D Toàn trình mơ tả tổng qt Hình Mạng nhớ dài ngắn hạn (LSTM) Mạng LSTM... độ dài phân đoạn đến độ xác phân loại Trong Bảng 5, thấy độ dài liệu lớn độ xác phân loại thấp Quá trình xử lý với liệu chuỗi phải cần sử dụng phân đoạn có độ dài phù hợp, phân đoạn có độ dài

Ngày đăng: 28/06/2021, 17:45

Mục lục

    Ứng dụng thuật toán mạng bộ nhớ dài ngắn hạn trong phân loại tín hiệu sóng não

    VẬT LIỆU VÀ PHƯƠNG PHÁP

    Bộ dữ liệu DEAP

    Tách dải tần số và trích xuất các tính năng đặc trưng

    Xây dựng cấu trúc 3 chiều và kết hợp các phân đoạn

    Mạng bộ nhớ dài ngắn hạn (LSTM)

    KẾT QUẢ VÀ THẢO LUẬN

    Khảo sát sự ảnh hưởng của từng giai đoạn huấn luyện tới mô hình phân loại

    Khảo sát các giá trị tốc độ học ảnh hưởng tới mô hình phân loại

    Khảo sát ảnh hưởng của số lớp trong mô hình đến độ chính xác phân loại