DAI HOC DA NANG
TRUONG DAI HOC SU PHAM
DUONG THANH LINH
XAY DUNG HE THONG NHAN DIEN CHUYEN DONG CUA NGUOI THONG QUA GIAI MA TIN HIEU
DIEN NAO DO BI MAT
Chuyên Ngành: Hệ thống Thông tin
Mã số: 848.01.04
LUẬN VĂN THẠC SĨ
Người hướng dẫn khoa học
Trang 2LỜI CÁM ƠN
Lời đầu tiên tôi xin gửi lời cảm ơn chân thành đến các quý thầy cô giáo, Khoa Tin học, Trường Đại học Sư Phạm — Đại học Đà Nẵng đã tận tình giảng dạy, truyền đạt những kiến thức, kinh nghiệm quý báu trong suốt thời gian tôi theo học chương trình thạc sĩ ngành Hệ thống thông tin Các kiến thức, kinh nghiệm quý báu của các thầy cô giáo không chỉ giúp cá nhân tôi hoàn thiện hệ thống kiến thức trong học tập mà còn giúp tôi ứng dụng các kiến thức đó trong công việc hiện tại
Đặc biệt, tôi xin gởi lời cảm ơn chân thành và sâu sắc nhất đến cô TS Nguyễn Thị Ngọc Anh, người đã tận tình hướng dẫn và tạo điều kiện tốt nhất để tơi hồn thành luận
văn này
Tôi cũng xin được bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè đã tạo điều kiện để tôi có thể dành thời gian cho khóa học Xin chân thành cảm ơn các anh chị em trong lớp K40.HTTT.BD đã luôn hỗ trợ tôi trong quá trình học tập để có được kết quả như ngày hôm nay
Tuy có nhiều cố gắng, nhưng chắc chắn luận văn không tránh khỏi những thiếu sót nhất định Tôi rất mong nhận được ý kiến đóng góp quý báu của các quý thầy cô giáo
và các anh chị, các bạn để luận văn được hoàn thiện hơn Trân trọng cảm on!
Tác giả luận văn
Dương Thanh Linh
|
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân
Các số liệu, kết quả trình bày trong luận văn là trung thực Những tư liệu được sử dụng trong luận văn có nguồn gốc và trích dẫn rõ rằng, day du
Tác giả luận văn
a
Trang 4
TRANG THONG TIN LUAN VAN THAC Si
Tên đề tài: XÂY DỰNG HỆ THÓNG NHẬN DIỆN CHUYÊN ĐỘNG CỦA NGƯỜI THÔNG QUA GIẢI MÃ TÍN HIỆU ĐIỆN NÃO ĐỎ BỊ MÁT
Ngành: Hệ thống thông tin
Họ và tên học viên: Dương Thanh Linh
Người hướng dẫn khoa học: TS Nguyễn Thị Ngọc Anh
Cơ sở đào tạo: Trường Đại học Sư Phạm — Đại học Đà Nẵng
Tóm tắt
Luận văn này nghiên cứu tác động của việc khôi phục dữ liệu điện não đồ (EEG) bị mắt thông quan sự cải tiến của thuật toán hệ thống động lực học tuyến tính (LDS hay còn gọi là Kalman Filter), sau đó trích chọn đặc trưng để phân loại chuyển động bàn tay dựa trên sự kết hợp thuật toán LDS và sự tiến bộ của đại số tensor Các tín hiệu EEG này được hình thành từ một chuỗi dữ liệu không gian và thời gian với nhiều chiều nên dữ liệu có thể bị mat trong quá trình thu thập Những dữ liệu bị mắt này có thể gay ra bién dạng hoặc làm giảm hiệu quả của các thuật toán phân tích tín hiệu EEG Luận văn để xuất một phương pháp mới để tự động khôi phục dữ liệu bị mắt liên tiếp ngau nhiên từ dữ liệu EEG dựa trên
cải tiến của thuật toán Kalman Filter Phuong pháp được để xuất nhằm mục đích nắm bất các mô hình
tối ưu dựa trên hai đặc điểm chính trong chuỗi thời gian EEG liên tục: động lực thông qua khám phá
các hành vi phát triển theo thời gian và các mối tương quan bằng cách xác định mối quan hệ tiềm an
giữa nhiều tín hiệu não Từ những khai thác này, phương pháp được để xuất đã trích xuất thành công khai thác các biến ẩn và phát hiện ra động lực của chúng để khôi phục tự động các giá trị còn thiếu
Phần trăm dữ liệu bị mắt được giả sử thay đổi từ 5% đến 15% và tiến hành phục hồi dữ liệu bằng phương
pháp đề xuất Kết quả thực nghiệm chứng minh rằng phương pháp được đề xuất cung cấp hiệu suất tái tạo tốt hơn lên đến 67% so với phương pháp MSVD và phương pháp nội suy Đồng thời luận văn xây dựng hệ thống nhận dạng các chuyển động của bàn tay trên dữ liệu được khôi phục cho kết quả độ chính xác trên dữ liệu hoàn chỉnh, dữ liệu bị thiếu và dữ liệu khôi phục lan luot 1a 92.15%, 73.19% va 86.18%, chứng minh tính khả thi trong việc ứng dụng của phương pháp để xuất trong việc phục hỏi dữ liệu
Từ khóa: điện não đồ, động lực học tuyến tính, trích chọn đặc trưng, khôi phục dữ liệu, Kalman Filter
nhận dạng, phân loại, dữ liệu bị thiêu
Xác nhận của giáo viên hướng dẫn Người thực hiện đề tài
/4— —3282 TS Nguyễn Thị Ngọc Anh Dương Thanh Linh
Trang 5INFORMATION PAGE OF MASTER THESIS
Name of thesis: BUIDING A HUMAN MOVEMENT RECOGNITION SYSTEM BASED ON ENCODING INCOMPLETE ELECTROENCEPHALOGRAPHY SIGNALS
Major: Information System
Full name of Master student: Duong Thanh Linh Supervisors: Dr Nguyen Thi Ngoc Anh
Training institution: University of Science and Education — The University of Da Nang
Abtract
The thesis presented the effects of recovering the missing data from Electroencephalogram (EEG) based on improved Linear Dynamical System (LDS), known as Kalman Filter, the selected features from recovered data then are used to classify the movements of hands based on the recent advancement of Tensor algebra The EEG signals are formed from the series of spatial and temporal data with multiple dimensions, so the data might contain missing values in collecting progress These missing data can lead to distortion, repudiation, or reduce the effectiveness of analyzing algorithms of EEG signals The thesis proposed a new approach to restore automatically the random consecutive missing data from EEG data based on the improvement of Kalman Filter algorithm The proposed method aims to capture the optimal patterns based on two main characteristics in the coevolving EEG time series including Dynamics via discovering temporal evolving behaviors and correlations by identifying the relationships between multiple brain signals The proposed method successfully identifies a few hidden variables and discovers their dynamics to impute missing values from the exploits Percent of missing data changed from 5% to 15% and the missing data were restored with the proposed method The experimental simulations demonstrate that the proposed method provides better reconstruction performance up to 67% improvements over MSVD and interpolation approaches In addition, the thesis contributed a system to recognize the movements of hands based on the restored data to get the degree of accuracy of complete
data, missing data, and restored data s; one after another the exact results were 92.15%, 73.19%, and
86.18% That proved the application of the proposed method is feasible
Keywords: Electroencephalogram, linear dynamical system, feature extraction, data recovery, Kalman
Filter, identification, classification, missing data
Supervior’s confirmation Student
Ca ———
Trang 6MỤC LỤC 09029 10 0ẽa ẽ i LOI CAM DOAN ›¡11/88 1877.777 .7ẻẻốẽ ẽ ẽ cố ao i DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮTT ‹‹«<<c«eecsee vii /9);:80109 9.079 ẽ.ẽ i DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ 1 Lý do chọn để tài -.-s- 5s csc 22x22127112711211271 2127 111111211111111212111 1 xe 1 2 Mục: đích:nphiên:GỮU: :¿ -:2¿ c6 212g bồng 6515855161553483683315638314Sg13EPQI00816314 0081686858 2 4 Đối tượng và phạm vi nghiên cứu
5 Phương pháp nghiÊn CỨU ¿+ + t1 1 SH HH HH HH HH0 00H Hàn 2 Nho 00 na, an ẽ ai 2 5.2 Phương pháp thực nghiệm anges 23 6 Y nghia khoa hoc va thyre tién cia 1u4n VAM esssessssessssesssseecsseesneeesssesseeeneesseeees 3
Đen 0.0000 3
2615: nh Ả 3
7 Nội dung luận văn -. ) CHƯƠNG l1 GIỚI THIỆU TỎNG QUAN -5-s5c5s5Sscxesvxsesseerserxee 5 1.1 Giới thiệu về bộ não con người -:¿- :22++222+22xxtSESEktEEEErrtrrerrerrve 5 1.1.1 Cấu trúc não và chức năng của bộ não . 5:5 tri 5 1.1.2 Sinh ly học thần kinh não người
l2 GIiớififfudiệnnĂodl ec-k-nnndiiosdttoiaai
1.2.1 Hệ thống 10-20 -:-2+22+2221122311251122121211211111111112112011111112011 1e 9
135 Fhẩn laiffnhiuiEnnniu HẪnssssnmnnnhiesrnsssarstiazerngaesernniiieensesem II
1.2.3 Thách thức nghiên cứu EEG và các ứng dụng cà „L2 1.33 Giao diện não-máy tính (BC]Ï) 5 tt th ghe 13 123 ĐỊnh ngHĩà ‹ -icc2-s26001020007016881565X13EHAGSSTBDISRRGNEEIERHRRUIGHSSRMB 13
1.3.2 Kiến trúc của hệ thống BCI - - ¿22222 222x223xS2xEEEkrrttrrirrrrrrrre
1.3.3 Ứng dụng của BCI
1.3.4 BCI dựa trên hình ảnh chuyển động (Motor Imagery)
CHUONG 2 CƠ SỐ LÝ THU ẾT ng gnnngagggH G1 D11 513H1NGE181.15813003813688045018000
2.1 Các kỹ thuật xử lý đữ liệu bị mất -cs:222xtccxterrrtrtrrtrrrrrrrrrrre
Trang 7
vi
2.1.1.1 Xóa theo danh sách sssssssssnsesroatiliiiisasodgiudiatdtiotfios108110381416883093908 19 QA b2 KGa theo Cap visvcsesnuseeeerwwacnsueresavonveseovesasvevecrseciecsvecrsny 20 2.1.2 Phuong pháp áp đặt cành HH HH tru 20 2.1.2.1 Mean substitUtON chén nh HH ghế 20 2.1.2.2 Cold deck impufafiOI ác St SE àu 21
2.1.23 dotdeck imputation cscs annemnerem 21
2.12.4 Linear regression analysisiscsamusmrmmcnnma nnn 22 2.1.2.5 SplineinterpolafHOD:issssssassssaroiaibsiorastiuroaiddttiiadaaarssttenasa 23 2.12.6 Maximum likelihood (EM algorithm) wwvsssivssescssssnscenssersssvessesosvenecees 23 2.1.2.7 Multiple imputation 2.2 Hệ thống động lực học tuyến tính an 2.2.2 Hệ thống động lực học tuyến tính -:c:-222xtttrtetrrrerriiierrierrkee 27
2.2.3 The Forward Pass (Kalman Filter) 28
2.2.4 Tối đa hóa kỳ Vọng . csc 22c 2 2212222 1t 29 2.3 May vector HO trl ccssssssssssssecsnscsseecsnscsseessnecnsessecssecseensnnvesseesvossissssniecsensanesss 31 2.4 Mô hình khong gian chUNg cece eee eeeeeeesseetseesseseeseseneeeeeeeeees 32
2.5 Phép biến đổi Wavelet 33
CHƯƠNG 3 XÂY DỰNG MÔ HÌNH - THỰC NGHIỆM VÀ ĐÁNH GIÁ 36 3.1 Mô tả bài toán phục hồi dữ liệu EEG bị mắt :55scccscvvsvzrvsex
3.2 Đề xuất mơ hình ¿ c:©2++22x+2221 221 21211121110221121 21 re 3.2.1 Hệ thống động lực học tuyến tính cho EEG
3.2.2 Thiết lập mô hình được đề xuất khi thiếu các giá trị
3.3 _ Thực nghiệm và đánh giá ¿c2 nhe rà re 3.3.1 Môi trường thực nghiệm :.: ssccicii5652020202g08110108080808101x88 3.3.2 Giới thiệu về cơ sở đữ liệu thực nghiệm
Trang 8vii DANH MUC CAC KY HIEU, CAC CHU VIET TAT Ký hiệu Thuật ngữ EEG Electroencephalography EMG Electromyography BCI Brain-Computer Interfacing MI Motor-Imagery
MI-BCI Motor Imagery-Based Brain-Computer Interface SVM Support Vector Machine
EcoG Electrocorticography LFP Local Field Potentials
LIS Locked-In Syndrome
SMR Sensorimotor Rhythms
ERD Event Related Desynchronization CSP Common Spatial Pattern
LDA Linear Discriminant Analysis LDS Linear Dynamical Systems
EM Expectation Maximization
QP Quadratic Program
SVD Singular Value Decomposition PCA Principal Component Analysis
WT Wavelet
CWT Continues Wavelet Transform DWT Discrete Wavelet Transforms
MSVD Missing Singular Value Decomposition
AP Action Potentials
PSP Postsynaptic Potentials
MSE Mean Square Error
MAR Missing At Random
OAR Observed At Random
Trang 9vill Ky hiéu Thuật ngữ
Trang 10DANH MUC CAC BANG
Sé higu bang Tén ban 8 Tran 8
2.1 _ | Hai nhóm kỹ thuật để xử lý dữ liệu bị thiếu 18
22 Ví dụ về xóa theo cặp 20
2.3 | Ví dụ về tác động của Hot deck imputation 21
3.1 Bảng định nghĩa và mơ tả tốn học 39 3.2 | Thiết bị thực nghiệm 43 33 Lỗi cấu trúc lại đối với các tỷ lệ khác nhau của các giá trị bị mất 47 , 5%, 10% va 15% So sánh kết quả thực nghiệm phân loại với dữ liệu giả định bị 3.4 ke ox doc qin : a 50
mât và dữ liệu sau khi phục hôi
3.5 Độ chính xác của phương thức phân loại chuyển động với dữ liệu EEG 50
Trang 11DANH MỤC CÁC HÌNH VẼ, ĐỎ THỊ
enti Tén hinh vé Trang
1.1 Các khu vực giải phẫu của não 5
1.2 Một cấu trúc đơn giản của nơ-ron 7
13 Sự sinh điện của điện thế trường vỏ não cho một kích thích thuần 7 ở đuôi gai của một tê bào hình tháp điên hình
14 Bản ghi đâu tiên của tín hiệu điện não đồ do Hans Berger thực ọ hiện
1.5 Vị trí đặt điện cực trong hệ thống EEG 10-20 10
1.6 Các dạng sóng não được đo bằng điện não đồ 11
1.7 Kiến trúc chung một hệ thống BCI 14
18 ERD va ERS trong dai Alpha, Beta va Gamma dugc do bang 16 điện cực C3 khi nhac ngón tay phải
2.1 Dữ liệu day đủ trước khi xóa theo danh sách 19
2.2 Tập dữ liệu sau khi xóa theo danh sách 19
2.3 Kỹ thuật thay thế trung bình (Giá trị trung bình là khoảng 21) 21 24 Thay thế các giá trị còn thiếu bằng phương pháp hồi quy tuyến 22
tính (dữ liệu giả định)
2.5 Tập dữ liệu giả thuyết với 2 nhóm giá trị quan sát khác nhau 23 2.6 | Cùng một tập dữ liệu, nhưng các nhóm bị ân 23 2.7 Hàm khá năng được cung cấp bởi suy đoán mù 24
2.8 | Các hàm khả năng có thể xảy ra [3] 25
2.9 Hàm khả năng xảy ra sau lần lặp thứ 20 25
2.10 | Các phương pháp áp đặt 26
2.11 | Lược đồ của nhiều phương pháp gán 26
2.12 | Biểu diễn bằng đồ thị của LDS xác định-ngẫu nhiên 28 213 Hình bên cho thấy hai ranh giới quyết định tuyến tính có thê có 3]
đôi với máy vectơ hô trợ (SVM)
2.14 | Wavelet Gaussian bậc ba, một ví dụ cho wavelet liên tục 34 2.15 | Biểu diễn tần số thời gian của các điện cực trong đữ liệu EEG 35
2.16 _ | Mô tả tác động của biến đổi Wavelet lên tín hiệu EEG 85
Trang 12XI Số hiệu hình vẽ Tên hình vẽ Trang
3.2 | Mô phỏng các tín hiệu EEG gốc, bị thiếu và được phục hôi 44
3.3 Phân loại trên dữ liệu EEG hoàn chỉnh 45
3.4 | Phân loại trên dữ liệu EEG với 5% đến 15% giá trị bị mat 45 3.5 | Phân loại trên dữ liệu EEG đã phục hồi giá trị bị mắt 46
3.6 | Cấu trúc lại so với tín hiệu ban đầu ở kênh 22 48
Trang 13MỞ ĐẦU
1 Lý do chọn đề tài
Điện não đồ (EEG) là một kỹ thuật ghi lại hoạt động điện do não tạo ra bằng cách
sử dụng các điện cực Có hai phương pháp để thu được tín hiệu điện não đồ: xâm lấn và
không xâm lắn Trong phương pháp xâm lắn các điện cực được đặt trên bề mặt tiếp xúc của não, phương pháp không xâm lấn các điện cực được đặt doc theo da đầu Giao diện não-máy tính (BC]) là công nghệ sử dụng các điện cực khác nhau để thu thập các tín hiệu điện sinh học do hoạt động của não tạo ra, sau đó xử lý và phân tích các tín hiệu thông qua máy tính để giải mã các tín hiệu như chuyển động và thị giác, nhằm đạt được sự tương tác giữa người và máy tính BCI cung cấp một kênh giao tiếp trực tiếp giữa não và thiết bị bên ngồi mà khơng liên quan đến bất kỳ hoạt động cơ bắp nào Các hệ thống này hoặc sử dụng hoạt động điện não đồ được ghi lại từ da đầu hoặc hoạt động
của các tế bào thần kinh vỏ não riêng lẻ được ghi lại từ các điện cực được cấy ghép BCI
có nhiều ứng dụng như điều khiển bộ phận giá, điều hướng robot, điều khiển hệ thống tự động hóa tại nhà, điều khiển các ứng dụng điện thoại di động, điều khiển chuyển động của xe lăn và hệ thống nhận dạng giọng nói
Hình ảnh chuyển động (MI) là quá trình nhận thức tưởng tượng ra chuyển động của bộ phận cơ thể mà không cần thực sự đi chuyển bộ phận cơ thể đó Giao diện não- máy tính dựa trên hình ảnh chuyển động (MI-BCI) có ý nghĩa thực tế trong nhiều lĩnh vực như: quan sát hành vi vô thức con người, ứng dụng thần kinh học, ứng dụng tương tác người và máy, và đặc biệt trong ứng dụng kỹ thuật sinh học là những thiết bị điều khiển hoạt động của con người, đem lại niềm hy vọng cho những bệnh nhân phục hồi chức năng thần kinh và vận động Ngày nay, biên giới cuối cùng giữa con người và máy tính đang được bắc cầu thông qua việc sử dụng các giao diện não-máy tính, cho phép máy tính được điều khiển có chủ đích thông qua giám sát hoạt động của tín hiệu não Mặc dù BCI có thể được thiết kế để sử dụng tín hiệu EEG theo nhiều cách khác nhau để điều khiển, trong đó người dùng tưởng tượng các chuyển động xảy ra ở tay chân của họ để điều khiển hệ thống đã được quan tâm nghiên cứu sâu rộng trong những năm qua Sự quan tâm này là do chúng có tiềm năng ứng dụng giải mã suy nghĩ của con người về một chuyển động tưởng tượng sẽ là vô giá
Trang 14luận văn đề xuất phương pháp cải tiến tensor dé tién hành trích chọn các đặc trưng của dữ liệu từ đó phân lớp và nhận diện chuyển động
Với những vấn đề nêu trên tôi đã chọn đề tài: “Xây dựng hệ thống nhận diện chuyển động của người thông qua giải mã tín hiệu điện não đồ bị mat” làm chủ đề nghiên cứu luận văn thạc sĩ này
2 Mục đích nghiên cứu
Lĩnh vực phận loại chuyển động dựa trên các đặc điểm của tín hiệu EEG là rất khó khăn vì tín hiệu EEG là phi tuyến tính, không có định và chứa một lượng nhiễu đáng kẻ
Hơn nữa, các đặc trưng của tín hiệu EEG chủ yếu được trích xuất từ miền thời gian, tần số hoặc tần số thời gian và gần đây là từ miền không gian Mục tiêu chính của để tài là đề xuất ra mô hình mới, trên mức độ lý thuyết và thuật toán để khai thác và phát hiện những cấu trúc ấn của dữ liệu chuỗi thời gian trong hoạt động não bộ được ghi lại dưới dạng đa phương thức dựa trên những tiến bộ gần đây của đại số tensor và hình học vi phân Nghiên cứu về tín hiệu điện não đồ, phương pháp phục hồi dữ liệu bị mắt và thuật toán phân lớp SVM áp dụng vào bài toán nhận dạng chuyển động của người thông qua
giải mã tín hiệu điện não đồ bị mắt
3 Mục tiêu nghiên cứu
Mục tiêu nghiên cứu trong luận văn là:
— Định nghĩa và phân loại tín hiệu EEG, ứng dụng và thách thức
— Nghiên cứu các kỹ thuật đang sử dụng để ứng phó với những thách thức của dữ liệu EEG bị thiếu, và các kỹ thuật để nhận dạng chuyển động dựa trên tín hiệu EEG
— So sánh các kỹ thuật hiện có với phương pháp đề xuất trong luận văn liên quan đến việc phục hồi đữ liệu tín hiệu EEG bị mắt
— Kết luận về việc ứng dụng các kỹ thuật khác nhau trong phục hồi và nhận dạng đữ liệu tín hiệu EEG
4 Đối tượng và phạm vi nghiên cứu
Trong khuôn khổ luận văn thuộc loại nghiên cứu và ứng dụng, đề tài chỉ giới hạn nghiên cứu các vấn đề sau:
~_ Nghiên cứu tổng quan về bộ não con người, tính hiệu điện não dé (EEG) — Phuong pháp Support Vector Machine (SVM)
— Nghiên cứu các vấn đề trên để giải quyết bài toán phục hồi dữ liệu tín hiệu EEG bị mắt, phân lớp và nhận diện chuyển động
5 Phương pháp nghiên cứu 5.1 Phương pháp lý thuyết
Trang 15— Nghiên cứu lý thuyết đại số tensor — Nghiên cứu kỹ thuật học máy
— Nghiên cứu các phương pháp xử lý dữ liệu bậc cao gồm: phục hồi đữ liệu bị mắt dựa trên phương pháp cải tiến từ thuật toán Kalman Filter, phan ra Tucker để trích chọn đặc trưng cho dữ liệu đa phương thức EEG, các phương thức phân lớp dữ liệu
5.2 Phương pháp thực nghiệm — Xây dựng kho dữ liệu huấn luyện
—_ Tiền xử lí dữ liệu
~ Xây dựng mô hình phục hồi dữ liệu EEG bi mat
— Trích chọn đặc trưng bằng phương pháp phân rã Tucker và nhận dạng chuyển động của người
6 Ý nghĩa khoa học và thực tiễn của luận văn 6.1 Ý nghĩa khoa học
Đề tài đang hướng vào ứng dụng công nghệ thông tin trong lĩnh lĩnh vực chăm sóc sức khỏe, cụ thể là giao diện não-máy tính dựa trên nghiên cứu các EEG Việc ứng dụng những xu hướng mới trong việc khai phá dữ liệu cho việc phân tích tính hiệu não đang nhận được sự quan tâm hàng đầu của các nhà khoa học và các nhà nghiên cứu nhằm tạo ra những công cụ phân tích linh hoạt Đóng góp chính của đề tài là đề xuất cách tiếp cận mới dựa trên đại số tensor trong việc phục hồi dữ liệu bị mất và trích chọn đặc trưng cho bài toán nhận diện chuyển động của con người thông qua giải mã tín hiệu điện não đồ
bị mắt
6.2 Ý nghĩa thực tiễn
Hướng đến cuộc cách mạng công nghệ của internet vạn vật, cảm biến y tế có sẵn trong các thiết bị phục vụ đời sống hằng ngày (điện thoại thông minh, đồng hồ thông minh), các thiết bị này thu thập và tạo ra rất nhiều dữ liệu Hệ thống đề xuất có thể trả
lời cho thách thức làm thế nào để phân tích và xử lý những dữ liệu đó Đề tài nghiên cứu
theo hướng tiếp cận mới, kết quả sẽ được phát hành dưới dạng mã nguồn mở Vì đề tài nghiên cứu dựa vào các dữ liệu mở và chia sẻ, mục tiêu là đóng góp kết quả nghiên cứu như một tác động tiềm năng để thiết kế ra các công cụ mới để phân tích và đánh giá hoạt động của não
7 Nội dung luận văn
Luận văn gồm 3 chương chính:
Chương 1: Giới thiệu tông quan
Trang 16Chương 2: Cơ sở lý thuyết
Trong chương này, luận văn trình bày một cách tổng quan về cơ sở lý thuyết liên
quan đến các kỹ thuật xử lý đữ liệu bị mắt, hệ thống động lực học tuyén tinh (LDS) hay
còn gọi thuật toán Kalman Filter, máy vector hỗ trợ (SVM) và mô hình không gian chung (CPS)
Chương 3: Xây dựng mô hình —- Thực nghiệm và đánh giá mô hình
Từ những cơ sở lý thuyết đã được tìm hiểu ở chương 2, trong chương này đề xuất
phương pháp phục hồi dữ liệu bị mắt, kỹ thuật phân rã tucker và thuật toán phân lớp
CSP áp dụng vào bài toán nhận dạng chuyển động của người thông qua giải mã tín hiệu
điện não đồ bị mắt Từ mô hình xây dựng ở trên, tôi sử dụng ngôn ngữ lập trình Matlab
Trang 17
CHUONG 1
GIOI THIEU TONG QUAN
1.1 Giới thiệu về bộ não con người
Chỉ huy tối cao của cơ thể con người là bộ não, nó là phần trung tâm của hệ thống thần kinh, nơi chỉ phối các chức năng của các cơ quan khác nhau trong cơ thể Đầu tiên, chúng ta tìm hiểu các cấu trúc giải phẫu của não và chức năng của chúng Sau đó, tập trung vào cách thức, và tại sao não là nơi tạo ra các hoạt động điện có thể được ghi lại trên da đầu Nó cung cấp một ý tưởng rõ ràng dé hiểu việc tạo ra các dòng điện cục bộ trong não có thể được ghi lại bằng điện não đồ
1.1.1 Cấu trúc não và chức năng của bộ não
Về mặt giải phẫu, não có thể được chia thành ba phần chính: đại não, tiểu não và
thân não [1] như minh hoa trong Hinh 1.1 Tiếp theo là phần giới thiệu tổng quát về ba
thành phân nói trên của não bộ Đại não 'Phữy£ró Vỏ nảo vận động Vỏ nảo cảm giác PHI Thùy đỉnh Thuy cham Thùy thái dương Tiểu não Thân não Tủy sống Hình I.1 Các khu vực giải phẫu của não
— Đại não (Cerebrum): là phần lớn nhất và quan trọng nhất của não người và thường liên quan đến các chức năng của não, liên quan đến suy nghĩ, chuyên động, cảm xúc và chức năng vận động Lớp ngoài cùng của đại não được tạo thành từ các mô thần kinh được gọi là vỏ não Đại não bao gồm hai bán cầu: bán cầu não phải và bán cầu não trái Mỗi bán cầu não có thể được chia thành bốn thùy: trán, dinh, cham va thái dương [2] Các thùy này chịu trách nhiệm về một loạt các chức năng của cơ thể
e Thuy trdn (Frontal Lobe) liên quan đến tính cách, cảm xúc, giải quyết vấn
đề, phát triển vận động, lý luận, lập kế hoạch, các phần của lời nói và cử động
Trang 18và chuyển động
e_ Thùy chẩm (Oceipital Lobe) chịu trách nhiệm xử lý của thị giác
s_ Thùy thái dương (Temporal Lobe) có liên quan đến việc nhận biết các kích
thích thính giác, lời nói, nhận thức và trí nhớ
— Tiéu nao (Cerebellum): nam & phia sau đưới của đầu và cũng được chia thành
hai bán cầu Nó có cấu trúc lớn thứ hai của não và chứa hơn một nửa số tế bào thần kinh
của não bộ Tiểu não là một trong những khu vực cảm giác của não, chịu trách nhiệm kiểm soát vận động, nhận thức cảm giác và phối hợp Tiểu não cũng liên quan đến các cử động phản xạ của cơ, các kỹ năng vận động, điều chỉnh tư thế và thăng bằng
— Thân não (Brainstem): nằm ở dưới cùng của não và kết nối não với tủy sống Thân não giống như một ổ cứng của máy tính và nó là bảng điều khiển chính của cơ thể Nó kiểm soát các chức năng quan trọng của cơ thể, bao gồm hơi thở, ý thức, chuyển động của mắt và miệng, và chuyển tiếp các thông điệp cảm giác (đau, nóng, tiếng ồn, v.v.), nhịp tìm, huyết áp và cảm giác đói
1.1.2 Sinh lý học thần kinh não người
Bộ não con người bao gồm khoảng 100 tỷ tế bào thần kinh được gọi là nơ-ron (neurons) và điện tích của não được duy trì bởi các nơ-ron này Các tế bào thần kinh có cùng đặc điểm và có các bộ phận giống như các tế bào khác, nhưng khía cạnh điện hóa cho phép chúng truyền tín hiệu điện và truyền thông điệp cho nhau qua một khoảng cách xa Tế bào thần kinh có ba phần cơ bản: thân tế bào (soma), sợi trục và đuôi gai [2] được mô tả ở Hình 1.2
Nhân tế bào là trái tìm của tế bào, cung cấp cho tế bào những chỉ dẫn về những việc phải làm Sợi trục là một phần dài và mảnh của tế bào thần kinh, kết nối nhân của
tế bào thần kinh của chính nó với sợi dây thần kinh của tế bào thần kinh khác Sợi nhánh
là một đoạn ngắn của tế bào thần kinh với nhiều vị trí thụ thể cho các chất dẫn truyền
thần kinh, có thể được gửi bởi một sợi trục được ghép nối Các đuôi gai có thể nằm ở một hoặc cả hai đầu của tế bào Thông qua liên kết sợi trục, tế bào thần kinh có thể giao
tiếp với nhau
Trang 19, Cơ thể tế bào Khớp thân kinh thần kinh ; Nhân - tê bào
Sợi trục của Sợi trục
nơ-ron trước Cơ thể tế bào
thân kinh 3
Khóp
thân kinh
+ Đuôi gai của tế bào
Đâu sợi thân kinh tiếp theo
trục
Tín hiệu điện Nhánh
Hình 1.2 Một cấu trúc đơn giản của nơ-ron
Khi các tế bào thần kinh được kích hoạt bằng một độ dốc điện hóa, các dòng điện cục bộ được tạo ra Hoạt động điện của tế bào thần kinh có thể được chia thành hai tập con: điện thế hoạt động (AP) và điện thế sau synap (PSP) Nếu PSP đạt đến mức dẫn truyền ngưỡng đối với nơ-ron sau synap, thì nơ-ron đó sẽ kích hoạt và một AP được bắt đâu Kích thích đầu vào synap Hoạt động của tín hiệu EEG Dòng tín hiệu Cơ thể tế bào Cây đuôi gai (soma) Đuôi gai giống nhau Sợi trục
Hình 1.3 Sự sinh điện của điện thế trường vỏ não cho một kích thích thuần ở đuôi gai của một tế bào hình tháp điển hình
Trang 20tế bào thần kinh có phân bố trường tiềm năng nhỏ hơn nhiều và thời gian ngắn hơn nhiều so với PSP Do đó, AP không đóng góp đáng kể vào các bản ghi điện não đồ nội sọ trên da đầu hoặc lâm sàng Chỉ những quần thể lớn tế bào thần kinh hoạt động mới có thể tạo ra hoạt động điện có thé ghi lại được trên da đầu [2, 3, 4]
Quá trình đo điện não đồ, phần vỏ não là cấu trúc có liên quan nhất vì nó chịu trách
nhiệm cho các nhiệm vụ nhận thức cắp cao hơn, chẳng hạn như giải quyết vấn đề, hiểu ngôn ngữ, chuyển động và xử lý thông tin thị giác phức tạp Do vị trí bề mặt của phần
vỏ não, hoạt động điện của nó có ảnh hưởng lớn nhất đến các bản ghi điện não đồ 1⁄2 Giới thiệu điện não đồ
Điện não đồ (EEG) là một phép đo các điện thế phản ánh hoạt động điện của não người Đây là một kỹ thuật ghi lại tín hiệu điện của não bằng cách sử dụng các điện cực đặt trên da đầu [5], nó cung cấp bằng chứng về cách não hoạt động theo thời gian Lịch
sử của điện não đồ bắt đầu từ năm 1875 khi bản ghi điện não đồ đầu tiên từ động vật được thực hiện bởi Richard Caton [6] Bản ghi đầu tiên từ con người được thực hiện bởi
Hans Berger vào năm 1924 Điện não đồ được sử dụng rộng rãi bởi các bác sĩ và nhà khoa học để nghiên cứu các chức năng của não và chẩn đoán các rối loạn thần kinh Nghiên cứu về hoạt động điện não, thông qua các bản ghi điện não đồ, là một trong những công cụ quan trọng nhất để chẳn đoán các bệnh thần kinh, chẳng hạn như động kinh, u não, chắn thương đầu, rối loạn gidc ngủ, sa sút trí tuệ và theo đõi độ sâu gây mê trong quá trình phẫu thuật [7] Nó cũng có thể được khuyến nghị để điều trị các bất
thường, rối loạn hành vi, rối loạn chú ý, các vấn đề học tập, chậm phát triển ngôn ngữ,
Máy điện não đồ được Hans Berger giới thiệu ra thế giới lần đầu tiên vào năm
1929 [8] Berger, bác sĩ tâm thần kinh từ Đại học Jena ở Đức, đã sử dụng thuật ngữ
tiếng Đức “elektrenkephalogramm” để mô tả biểu diễn đồ họa của các dòng điện được tạo ra trong não Ông cho rằng các dòng điện trong não thay đổi tùy thuộc vào trạng thái chức năng của não như ngủ, gây mê và động kinh Đây là ý tưởng mang tính cách mạng đã giúp tạo ra một ngành mới của khoa học y tế gọi là sinh lý học thần kinh Hình 1.4 hiển thị bản ghi đầu tiên của các tín hiệu điện não đồ do Hans Berger thực hiện Berger nhận thấy rằng những thay đổi nhịp điệu (sóng não) thay đổi theo trạng thái ý thức của cá nhân
Trong quá trình kiểm tra điện não đồ, một số đĩa nhỏ được gọi là điện cực được đặt vào các vị trí khác nhau trên bề mặt da đầu bằng các loại keo tạm thời Sau đó, mỗi điện cực được kết nối với một bộ khuếch đại (một bộ khuếch đại cho mỗi cặp điện cực) và một máy ghi điện não đồ Cuối cùng, các tín hiệu điện từ não được chuyển thành các
đường lượn sóng trên màn hình máy tính để ghi lại kết quả Bản ghỉ EEG, tùy thuộc vào
Trang 21bịt HA EV pas Yay AAAAAAAAAAAAAAAA ANAAAAMAAAA?
Hinh 1.4 Ban ghi đầu tiên của tín hiệu điện não dé do Hans Berger thực hiện
Tín hiệu điện não đồ thường được ghi lại bằng cách sử dụng điện cực Ag-AgCI và các giá trị tín hiệu có thể thu được nằm trong khoảng 0,5—100 tV Ngoài EEG, các kỹ
thuật khác để ghi lại các tín hiệu điện của não cũng có sẵn, sự khác biệt chính giữa chúng là vị trí của các điện cực: Điện tâm đồ (Eco@) - trong đó các tín hiệu điện được phi lại
bằng cách sử dụng các điện cực đặt trên bề mặt vỏ não (bên trong hộp sọ); Điện thế trường cục bộ (LFP) - trong đó các điện cực được đưa vào bên trong não Thu thập EEG được thực hiện trong môi trường thực tế, các đối tượng đeo thiết bị ghi lại tín hiệu EEG, khi đó chỉ đối tượng đang sử dụng thiết bị mới có thể đảm nhận việc đo lường ghi nhận
tín hiệu Do đó, không thể dễ đàng sửa chữa các vấn đề trong quá trình thu thập như tín hiệu não: một số dữ liệu bị mất do nhiễu đường dây diện, nhiễu cho chuyển động, nhiễu
do tiếp xúc điện cực và hỏng thiết bị cảm biến,
1.2.1 Hệ thống 10-20
Để cho phép so sánh các bản ghi điện não đồ khác nhau, Liên đoàn quốc tế về bệnh tiểu đường về điện não và sinh lý thần kinh lâm sàng đã đề xuất một hệ thống tiêu chuẩn cho việc đặt điện cực gọi là điện não đồ 10—20 [9]
Trang 22II
bất kỳ bản dựng phim nào cũng có thể được dựng theo phương pháp toán học từ bất kỳ người nào khác, nên máy điện não đồ có thể được xem bằng máy EEG trong bất kỳ bản dựng phim hiển thị nào mong muốn
Các mẫu điện não đồ rất quan trọng để hiểu các hoạt động của não bằng cách xác định các đặc điểm hình thái hoặc kiểm tra các đải tần số liên quan đến các hoạt động tỉnh thần hoặc trạng thái ý thức khác nhau Các dải tần số có thể được chia thành sáu loại được trình bày ở phần tiếp theo, chúng ta sẽ thảo luận về các dạng tín hiệu điện não đồ
1.2.2 Phân loại tín hiệu điện não đồ
Một số nghiên cứu đã được thực hiện để hiểu các đặc tính của các tín hiệu điện não đồ Các tế bào thần kinh trong não truyền thông tin bằng cách gửi các xung điện ngắn, được gọi là các xung điện Khi các gai từ một nhóm tế bào thần kinh được xếp chồng lên nhau, tín hiệu thu được có bản chất dao động Các dao động kết quả được gọi là dao động thần kinh và được chia thành nhiều dải tần số tự do Các tín hiệu EEG thường được đặc trưng dựa trên nội dung tần số của chúng Tần số này có một vai trò quan trọng trong nghiên cứu điện não, vì mỗi dao động thần kinh được kết nối với một số loại trạng thái nhận thức [11]: Delta Rhythm (6) 06 a on st ee, [ | | li J Theta Rhythm (0) oh oi ia ấy s Ta | A , | | \ j a Alpha Rhythm (0) as ti a ‘ ua ts Mu Rhythm () oo Beta Rhythm ([) La! NV NV Hi VAN fÍ | H†+ Ì Gamma Rhythm (7) :
Hình 1.6 Các dạng sóng não được đo bằng điện não đồ
Trang 2312
— Sóng Theta (6): Đây là nhịp điệu nhanh hơn một chút (4 - 7 Hz), được quan sát chủ yếu khi buồn ngủ và ở trẻ nhỏ
— Sóng Alipnha (œ): Đây là những dao động nằm trong dải tan 8 - 12 Hz, xuất hiện chủ yếu ở vùng sau của đầu (thùy cham) khi nhắm mắt hoặc ở trạng thái thư giãn
— Song Mu (u): Đây là những dao động trong dải tần số 8 — 13 Hz, nằm trong vỏ não vận động và cảm giác Biên độ của nhịp điệu này thay đổi khi đối tượng thực hiện các chuyển động Do đó, nhịp điệu này còn được gọi là nhịp điệu vận động cơ thể
— Sóng Beta (8): Đây là sóng có tần số tương đối nhanh từ 13 Hz đến 30 Hz Sóng Beta được quan sát thấy ở những người tỉnh táo và có ý thức Sóng này cũng bị ảnh hưởng bởi việc thực hiện các chuyển động
— Sóng Gamma (ÿ): sóng này chủ yếu liên quan đến tần số trên 30 Hz Sóng Gamma đôi khi được định nghĩa là có tần số tối đa khoảng 80 Hz đến 100 Hz Nó có liên quan đến các chức năng nhận thức và vận động khác nhau
Những sóng này có liên quan đến các nhiệm vụ tỉnh thần và thể chất khác nhau được thực hiện bởi con người Ngoài ra, độ mạnh của các sóng này cũng phụ thuộc vào vùng não nơi các tín hiệu đang được thu nhận Các tín hiệu điện trong điện não đồ có nguồn gốc không phải từ não được gọi là tín hiệu nhiễu (arúfaets) Dữ liệu điện não đồ
hầu như luôn bị ảnh hưởng bởi các tín hiệu nhiễu như vậy Biên độ của tín hiệu nhiễu
phần lớn có thể liên quan đến kích thước biên độ của các tín hiệu quan tâm của vỏ não Đây là một trong những lý do tại sao trong y học sức khỏe cần có kinh nghiệm để giải thích chính xác điện não đồ trên lâm sàng
1.2.3 Thách thức nghiên cứu EEG và các ứng dụng
Điện não đồ đã được sử dụng cho một loạt các ứng dụng, trong số đó bao gồm: — Nghiên cứu khoa học: EEG đã được sử dụng trong nhiều cuộc điều tra khoa học trong các lĩnh vực nghiên cứu đa dạng như ngôn ngữ học, tâm lý học, sáng tạo, nghiên cứu liên quan đến thiền định, tiếp thị thần kinh, sự khác biệt giới tính, rối loạn giấc
ngủ, ;
— Chẩn đoán chết não: EEG được sử dụng như một công cụ để xác nhận chết não; — Bệnh động kinh: EEG của bệnh nhân động kinh chứa các đợt phóng điện đặc biệt của gai và sóng Vì vậy, điện não đồ là một công cụ có giá trị để chẩn đoán, phân loại
và theo dõi bệnh động kinh;
~ Phản hồi thần kinh: một loại phản hồi sinh học trong đó tín hiệu điện não đồ được
hình ảnh hóa và hiển thị cho bệnh nhân (ví dụ như trong một dạng trò chơi) giúp bệnh nhân học cách tự điều chỉnh hoạt động não của mình Phản hồi thần kinh đã được sử dụng để giúp những bệnh nhân mắc hội chứng thiếu chú ý, nghiện rượu, đột quy, hội
chứng mệt mỏi mãn tính, hoặc bệnh hen suyễn;
Trang 2413
khiển bộ phận robot được gắn vào cơ thẻ, phát hiện mệt mỏi khi lái xe và cảnh báo, Trong hầu hết các phân tích dữ liệu EEG (dữ liệu chuỗi thời gian), các giá trị bị thiếu do nhiều lý do khác nhau như lỗi của người dùng hoặc lỗi thiết bị dẫn đến giảm
hiệu suất hoặc thậm chí gây ra lỗi hệ thống Các kỹ thuật phân tích dữ liệu EEG được
áp dụng gần đây không chỉ áp đặt thống kê truyền thống mà còn áp dụng phương pháp
tổng hợp dựa trên học máy để giải quyết vấn đề các giá trị bị thiếu Tuy nhiên, các
phương pháp này không có khả năng tạo ra các giá trị tín hiệu chuỗi thời gian thực tế bị mắt, các chuỗi thời gian bị mắt liên quan đến thông tin tiềm ân quan trong cần thiết để khai thác trong ứng dụng thực tế, chẳng hạn như phân loại chuyển động dựa trên điện
não đồ
Việc có tập dữ liệu EEG hoàn chỉnh trong thực tế là điều gần như không thể Đặc biệt, trong lĩnh vực y học và chăm sóc sức khỏe, người ta cũng báo cáo rằng phần lớn các bản ghi EEG chứa một số lượng lớn các giá trị bị thiếu Việc ghi không thành công có thể là do sự cố của thiết bị ghi, bị mất hồ sơ hoặc do nhằm lẫn trong việc gắn điện cực Ngoài ra, rất khó để ghi bổ sung lại dữ liệu điện não đề hoàn chỉnh, vì các yêu cầu nghiêm ngặt của môi trường ghi hoặc các đối tượng tham gia Do đó, hầu hết các ứng dụng sử dụng bộ đữ liệu này đều bị thiếu các giá trị, từ đó chúng có thể đưa ra cảnh báo
sai hoặc chẩn đốn khơng chính xác
1.3 Giao diện não-máy tính (BC]) 1.3.1 Định nghĩa
Giao diện não-máy tính là con đường giao tiếp trực tiếp giữa một bộ não nâng cao hoặc có dây và một thiết bị bên ngoài BCI khác với điều khiển thần kinh ở chỗ nó cho phép luồng thông tin hai chiều BCI thường được hướng vào nghiên cứu, lập bản đồ, hỗ trợ, tăng cường hoặc sửa chữa các chức năng nhận thức hoặc vận động cảm giác của con người Khi tiến hành nghiên cứu trong lĩnh vực giao diện não-máy tính, một định nghĩa
chính xác về giao diện não-máy tính là rất hữu ích Ở hội nghị BCI quốc tế lần đầu tiên
đưa ra định nghĩa: “Giao diện não-máy tính là một hệ thống giao tiếp không phụ thuộc vào các con đường đầu ra bình thường của não là các dây thần kinh và cơ ngoại vi [12].” Định nghĩa này giới hạn phạm vi tín hiệu điều khiển BCI đối với tín hiệu não, loại trừ bắt kỳ tín hiệu nào thu được từ cơ hoặc dây thần kinh ngoại vi Điều này rất quan trọng, vì EEG cũng chứa các thành phần liên quan đến chuyển động của cơ được gọi là nhiễu
(artifacts), có thể được sử dụng nhằm kiểm soát BCI Ví dụ chuyển động của mắt hoặc
động tác chớp mắt rất mạnh trong điện não đồ Nếu những tín hiệu trên được sử dụng có mục đích để điều khiển BCI, do nhằm lẫn hoặc do giám sát Thì hệ thống này không phải là một giao diện não-máy tính theo nghĩa của định nghĩa trên, bởi vì nó sử dụng thông tin từ các cơ
1.3.2 Kiến trúc của hệ thống BCI
Thông thường, một hệ thống BCI yêu cầu quy trình khép kín, thường bao gồm sáu
Trang 2514 biên dich thành lệnh và phản hồi [13] được thể hiện trong Hình 1.7 ®*Ì Tiền xử lý —| Trích chọn đặc trưng * Phân loại 1101010001101 Số hóa Biên dịch thành lệnh |
Lién lac Điều khiển mô trường,
Điều khiển chuyển dong / 4l 6® $ \ a ) a ws Phản hồi
Hình 1.7 Kiến trúc chung một hệ thống BCI
Bước 1 Đo lường hoạt động của não: Đo lường hoạt động của não một cách hiệu quả là một bước quan trọng đối với truyền thông BCI Ý định của con người điều chính
các tín hiệu điện được đo bằng nhiều loại điện cực khác nhau và sau đó các tín hiệu này được số hóa Trong luận văn này sử dụng điện não dé dé nghiên cứu các hoạt động của
não bộ
Bước 2 Tiền xử lý dữ liệu: Tiền xử lý nhằm mục đích đơn giản là các thao tác xử lý tiếp theo, nâng cao chất lượng tín hiệu mà không làm mắt thông tin Trong bước này, các tín hiệu đã thu thập được xử lý để làm sạch dữ liệu và loại bỏ những tín hiệu nhiễu nhằm nâng cao thông tin liên quan được chứa trong các tín hiệu
Bước 3 Trích chọn đặc trưng: Các mẫu tín hiệu não được sử dụng trong BCI được đặc trưng bởi một số tính năng nhất định Việc trích xuất tính năng nhằm mục đích xác
định các tín hiệu bằng một vài giá trị có liên quan được gọi là “đặc trưng”
Bước 4 Phân loại: Bước phân loại gán một nhãn cho một tập hợp các tính năng được trích xuất từ các tín hiệu ở bước 3 Nhãn này tương ứng với loại trạng thái tỉnh thần đã được xác định
Buóc 5 Chuyến thành lệnh/ứng dụng: Khi trạng thái tỉnh thần được xác định, lệnh
sẽ được liên kết với trạng thái tỉnh thần này để điều khiển một ứng dụng nhất định như máy tính hoặc robot
Bước 6 Phản hồi: Cuối cùng, bước này cung cấp cho người dùng phản hồi về trang thai tinh thần đã được xác định Điều này nhằm mục đích giúp người dùng kiểm
Trang 261.3.3 Ứng dụng của BCI
Giao diện não-máy tính có thể có nhiều cách sử dụng khác nhau Việc sử dụng BCI đã được đề xuất cho những bệnh nhân mắc hội chứng khóa (LIS) [12] Những người
mắc hội chứng khóa hầu như bị liệt hoàn toàn (trừ mắt) do hậu quả của đột quy, chan thương não hoặc các bệnh thoái hóa não Thông qua việc sử dụng giao diện não-máy
tính, một số người trong số này có thể lấy lại phương tiện liên lạc với thế giới bên ngoài
Điều đáng tiếc, các nghiên cứu cho thấy BCI không áp dụng được cho tắt cả bệnh nhân-
những bệnh nhân mắc hội chứng nhốt hoàn tồn, thậm chí khơng thể cử động mắt, không thể sử dụng hệ thống BCI
Ngoài ra, hệ thống BCI cũng được đề xuất cho giao tiếp (spellers), bộ phận giả
thần kinh, xe lăn, trò chơi điện tử và thực tế ảo, biểu hiện sáng tạo, truy cập internet 1.3.4 BCI dựa trên hình ảnh chuyền động (Motor Imagery)
Bắt cứ khi nào một cơ của cơ thể người tự ý di chuyên, các tín hiệu dao động sẽ
xuất hiện trong các tín hiệu EEG của não ở khu vực vận động và cảm giác, đồng thời nhịp sóng não của cảm giác vận động (SMR) sẽ thay đổi Những thay đổi này khá cục bộ, tuân theo tổ chức tương đồng của vùng vỏ não này [14] Sự giảm dao động được gọi là quá trình khử đồng bộ theo sự kiện (ERD) và thường xuất hiện trong quá trình chuyển động hoặc chuẩn bị chuyển động Sự gia tăng dao động được gọi là đồng bộ hóa liên quan đến sự kiện (ERS) và xuất hiện sau chuyển động hoặc thư giãn Trong dai dai Mu, quá trình giải đồng bộ bắt đầu 2,5 giây trước khi bắt đầu chuyển động, đạt đỉnh sau khi bắt đầu chuyển động và phục hồi trở lại mức cơ bản trong vòng vài giây Trong dải Beta, quá trình khử đồng bộ chỉ diễn ra trong thời gian ngắn, ngay sau đó là quá trình đồng bộ hóa đạt cực đại trong giây đầu tiên sau khi chuyển động Trong dải Gamma, sự đồng bộ hóa đạt cực đại ngay trước khi bắt đầu chuyển động, nhưng những dao động Gamma
này hiếm khi được tìm thấy trong điện não đồ của con người Quan sát Hình 1.8, qua trình thời gian cho ERD và ERS có thể được nhìn thấy cho ba dải tần số khác nhau,
đường thắng đứng biểu thị độ lệch của chuyên động
Trên thực tế, ngay cả khi tưởng tượng các chuyển động như vậy cũng tạo ra các mẫu ERD và ERS rất giống với các chuyển động thực tế Các nhà nghiên cứu đã phát hiện thấy vùng trung tâm của não người xuất hiện các sóng não Mu và Beta khi người chỉ suy nghĩ đến hoặc thực hiện các chuyển động của bàn tay hoặc ngón tay [15] Vỏ
não vận động được chia thành nhiều phần khác nhau điều khiển các chuyển động của
phần cơ thể được đại diện bởi phần đó Cơ thể bên trái được điều khiển bởi bán cầu não bên phải và ngược lại
Trang 2716
mẫu có thể phân biệt được với nền EEG nhiễu và đủ xa nhau để phân biệt các mẫu ERD
và ERS với nhau Ví dụ, khi đo hoạt động của não bằng EEG, các mẫu ERD và ERS cho chuyển động tay trái và tay phải được tưởng tượng nỗi bật nhất so với vị trí điện cực C3 (tay phải) và C4 (tay trái) Các khu vực vỏ não cho bàn chân trái và phải ở phía bên kia, rat gần nhau và các mô hình tương ứng xuất hiện cả trên vị trí điện cực Cz Điều này làm cho chuyền động chân trái và chân phải gần như không thể phân biệt được với nhau bằng cách sử dụng điện não đồ Độ phân giải không gian tương đối thấp của EEG là lý do tại sao thường chỉ có một số (ví dụ hai hoặc ba) hành động khác nhau có thể được sử dụng với BCI dựa trên chuyển động bằng cách phân tích EEG [16] C3 - channel 250 200 Post-movement 3 1ø Gamma ERS beta ERS ư br 100 14-18 Hz ~ 5 œ uo -50 -100 Mu ERD -100 10 — 12 Hz t[s]
Hình 1.8 ERD và ERS trong dải Alpha, Beta và Gamma được đo bằng điện cực C3 khi nhấc ngón tay phải
Hình ảnh vận động (MI) được định nghĩa là quá trình nhận thức tưởng tượng về chuyển động của bộ phận cơ thể của người mà không thực sự di chuyên bộ phận cơ thể đó MI BCI có một loạt các ứng dụng, chẳng hạn như điều khiển xe lăn, thực tế ảo, phục hồi chức năng thần kinh và điều khiển các thiết bị chẳng hạn như quadcopters trong không gian 2-D/3-D Quá trình xử lý tín hiệu EEG cho MI BCI liên quan đến việc trích xuất các tính năng và sự phân loại
Trong giai đoạn trích xuất đặc trưng, tín hiệu EEG thu được cho MI BCI cho thấy các đặc điểm của nhiệm vu cu thé trong cả miền phổ và miền không gian Một số phương pháp xử lý phổ như biến đổi wavelet, biến đổi fourier, mô hình tự hồi quy và phương pháp không gian như mẫu không gian chung (CSP) đã được sử dụng trong tài liệu để nghiên cứu các đặc trưng từ các tín hiệu điện não đổ này Thuật toán CSP là thành công
nhất và được sử dụng rộng rãi trong MI-BCI do tỷ lệ nhận dạng cao và tính đơn giản
của nó [L7]
Trang 2817
khác nhau như cử động tay trái-phải, cử động chân, cử động lưỡi hoặc tạo từ Các thuật
toán phân loại đa dạng, chẳng hạn như máy vectơ hỗ trợ, phân tích phân biệt tuyến tính (LDA) mạng nơ-ron và mạng nơ-ron sâu có đã được áp dụng trên MI-BCI
Tiểu kết chương 1
Trong chương này luận văn đã trình bày kiến thức liên quan đến bộ não con
người, tín hiệu điện não đồ, phân loại tín hiệu và ứng dụng của điện não đồ Trình bày
Trang 2918 CHƯƠNG 2
CO SO LY THUYET
2.1 Các kỹ thuật xử lý dữ liệu bị mắt
Phần lớn các giá trị bị thiếu trong tập dữ liệu có thể được giải quyết bằng hai chiến
lược Việc xem xét các giá trị bị thiếu bằng cách phát triển các mô hình hoặc thuật tốn (1) khơng bị ảnh hưởng bởi các giá trị bị thiếu và (2) sửa đổi tập dữ liệu bằng cách nhập
hoặc xóa để có được một tập dữ liệu hoàn chỉnh mà không bị thiếu các giá trị Xóa chỉ đơn giản là loại bỏ tất cả các bản ghi hoặc thậm chí các cột bao gồm bất kỳ giá trị bị thiếu nào đó và áp đặt thống kê đơn giản thay thế các giá trị bị thiếu bằng giá trị trung bình, hoặc giá trị xuất hiện với mật độ thường xuyên nhất, đã được sử dụng trong quá khứ [18] Tuy nhiên, việc xóa dữ liệu có thé dẫn đến mắt quá nhiều thông tin trong tập dữ liệu và các phép áp đặt đơn giản thường không tạo ra dữ liệu hợp lý trong thực tế khi xem xét ngữ cảnh Hơn nữa, mục tiêu đầu tiên để phát triển một mô hình mạnh mẽ xử lý các giá trị bị thiếu vốn có một hạn chế là chúng ta phải nghĩ ra một kỹ thuật riêng cho mọi ứng dụng với tập dữ liệu
Sự tiến bộ gần đây trong các kỹ thuật học máy đã cho phép chúng ta thay thế các giá trị bị thiếu bằng một giá trị được tạo thực tế Các phương pháp tính theo chuỗi thời gian trong [19] và điểm do người dùng xếp hạng trong [20] đã xây dựng dữ liệu của họ dưới dạng ma trận mục người dùng và sử dụng phân tích nhân tử ma trận để ước tính các mục nhập còn thiếu Vì các mạng nơ-ron tái phát ban đầu đã được sử dụng để nhập các giá trị bị thiếu vào dữ liệu chuỗi thời gian trong và các mô hình tổng hợp gần đây như bộ mã hóa tự động và mạng đối thủ chung cũng được khai thác để xử lý các giá trị bị thiếu Trong [21], một kỹ thuật áp đặt cho dữ liệu cảm biến chuỗi thời gian đã được phát triển bằng cách sử dụng mạng tuần tự, phù hợp với dữ liệu chuỗi thời gian rời rạc Hơn nữa, [22] và [23] có được bộ mã hóa tự động và máy biến áp để tái tạo lại các vùng bị thiếu trong khung đầu vào tương ứng
Bảng 2.1 Hai nhóm kỹ thuật để xử lý dữ liệu bị thiếu
Phân tích dữ liệu có sẵn Phương pháp áp đặt (Available data analysis) (Imputation methods)
1 Listwise deletion Mean substitution
2 Pairwise deletion Cold deck imputation Hot deck imputation Regression analysis Spline interpolation
Trang 3019
Những kỹ thuật này đã cho thấy một hiệu suất đáng kể Tuy nhiên, chúng yêu cầu bộ dữ liệu hoàn chỉnh đề đào tạo huấn luyện Trong thực tế, hầu hết các tập dữ liệu thu được trong thế giới thực hầu như bị thiếu các giá trị như tín hiệu EEG thu thập từ các thiết bị y tế, tín hiệu địa chấn từ các cảm biến phân tán và nhiều quan sát khác trong tự nhiên khác Các kỹ thuật có thể được sử dụng để đối phó với vấn đề dữ liệu bị thiếu hiện nay có chia chúng thành hai nhóm riêng biệt: Phân tích dữ liệu có sẵn; Sử dụng các phương pháp áp đặt
2.1.1 Phương pháp phân tích dữ liệu sẵn có
Có hai kỹ thuật trong nhóm các phương pháp này: Xóa theo danh sách và Xóa theo cặp Số lượng dữ liệu bị thiếu phải tương đối nhỏ để sử dụng các phương pháp này, nếu không chúng sẽ dẫn đến các ước tính tham số chệch, mặc dù độ chệch có thể được coi
là tối thiểu [24]
2.1.1.1 Xóa theo danh sách
Xóa theo danh sách là một phương pháp xuất hiện dầu tiên khi nghĩ đến vấn đề thiếu dữ liệu Toàn bộ các điểm bị thiếu của phương pháp này sẽ được loại bỏ khỏi tập dữ liệu Nó không yêu cầu bất kỳ phương pháp khôi phục dữ liệu nào, sau đó chỉ tiến hành phân tích khi không có các đối tượng khơng hồn chỉnh
Giả sử bạn có dữ liệu giả định có X là biến quan sát hoàn chỉnh và Y là biến quan sát không đầy đủ Có thể dễ dàng thấy phương pháp này sẽ ảnh hưởng như thế nào đến
dữ liệu từ các hình minh họa ở Hình 2.1 và Hình 2.2: đồ thị của dữ liệu đầy đủ và đồ thị
của dữ liệu còn lại sau khi xóa theo danh sách Chấm đen thể hiện dữ liệu đầy đủ và chấm đỏ thể hiện các đối tượng thiếu thông tin về biến Y
Phương pháp này được hầu hết các nhà nghiên cứu sử dụng theo mặc định [25], mặc dù trên thực tế nó là một phương pháp được cho kém hiệu quả nhất hiện có
—a— Y (Full data) —a— Y (Partial data)
e@ Missing values © Missing values 120 Dr 120 ° ˆ —NM, e i - TS 7 100 i \ a 100 —nm — “ gl \/ À “ + 5 ÀN = 8 90 5 ® g 3 ° = 3 Œ 98 5 > 40 20 ọ SS Sn SER ——r TT A rẻ nnn 1+2 3-4-5 6 7-8-9 10-11 12 13-14 16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 x x
Hình 2.1 Dữ liệu đây đủ trước khi xóa Hình 2.2 Tập dữ liệu sau khi xóa
Trang 3120
2.1.12 Xóa theo cặp
Việc xóa theo cặp rất giống với phan trước đó, ngoại trừ khi có giá trị bị thiếu trong
một số biến, các biến khác sẽ được tính trong phân tích sau Ví dụ dữ liệu giả định được trinh bay trong Bang 2.2 Ở đây X là một biến hoàn chỉnh, trong khi Y, Z và T là các
biến khơng hồn chỉnh Trong trường hợp này, không giống như xóa theo danh sách, các quan sát j và & sẽ không bị bỏ qua hoàn toàn: các biến khơng hồn chỉnh Z và T của quan sát / vẫn sẽ đóng góp vào phân tích trong tương lai cũng như biến T của quan sát k Mặc dù phương pháp này có thể mang lại kết quả tốt hơn tùy thuộc vào hoàn cảnh, nhưng nó vẫn có các vấn đề tương tự như phương pháp xóa theo danh sách [26] Bảng 2.2 Ví dụ về xóa theo cặp Biến Quan sat i Quan sat j Quan sat k X 54 35 22 Y 67 ? ? Z T7 67 ? T 58 98 26
2.1.2 Phuong phap ap dat
Phương pháp áp đặt là phương pháp thay thé để xử lý dữ liệu bị thiếu Ý tưởng
chính của nhóm phương pháp này là thay vì loại bỏ một số mục nhập trong dữ liệu để đối phó với dữ liệu bị thiếu, các giá trị mới sẽ được gán cho chúng Bằng cách này, tất cả các giá trị còn thiếu sẽ được điền vào, do đó tập dữ liệu sẽ trông có vẻ hoàn chỉnh và có thể được phân tích thêm Nói chung, các phương pháp này mang lại kết quả tốt hơn so với các phương pháp trước do những lý do đã nêu ở trên [26] Tuy nhiên, các kỹ thuật áp đặt đòi hỏi nhiều sức mạnh tính toán hơn
2.1.2.1 Mean substitution
Thay thế trung bình là một kỹ thuật phổ biến rộng rãi được nhiều nhà nghiên cứu sử dụng [27] Ý tưởng cốt lõi là bạn chỉ cần thay thế các giá trị bị thiếu bằng giá trị trung bình của các giá trị được quan sát Trong Hình 2.3, có thể thấy một ví dụ về thay thế trung bình trên dữ liệu giả định Các chấm đen ở đây đại diện cho các giá trị quan sát được, các chấm màu đỏ đại diện cho các giá trị bị thiếu đã được thay thế bằng giá trị trung bình
Kỹ thuật này có rất nhiều vấn đề Trước hết, nếu thiếu nhiều giá trị, nó sẽ là không chính xác khi thay thế chúng bằng giá trị trung bình: nó sẽ làm giảm độ phân tán đáng
kể Ngoài ra, xét đến thực tế là các giá trị thường bị thiếu có thể thấp hơn nhiều (hoặc
Trang 32= Rationality 60 ¬ 55 - " 50 4 45 4 40 + 304 253 Rationality 20+ 1548 a 10 + 0-—r— 1 2 3 4 5 6 7 89 T T T T T T T Number T T T T T T 10 11 12 13 14 15
Hinh 2.3 Ky thuat thay thế trung bình (Giá trị trung bình là khoảng 21) 2.1.2.2 Coldl deck imputation
Trong phương pháp này, dữ liệu bị thiếu được tìm thấy trong dữ liệu đầu vào chỉ đơn giản được gán với giá trị bên ngoài tĩnh (thường là 0) [28] Thông thường giá trị này dựa trên các nghiên cứu trước đây đã được thực hiện về cùng chủ đề Không có nhiều điều để nói về phương pháp này: nó cung cấp dữ liệu sai chỉ để loại bỏ các giá trị bị thiếu, nhưng thông thường tốt hơn là chỉ sử dụng các phương pháp phân tích đữ liệu có sẵn trong trường hợp này
2.1.2.3 Hot deck imputation
Ý tưởng chính của phương pháp này là thay thế giá trị còn thiếu bằng giá trị của một quan sát khác gần nhất với giá trị này Quá trình suy nghĩ như sau: nếu quan sát gần với quan sát khác, thì nó nên lấy tất cả các tham số tương tự Hãy xem một ví dụ trong Bang 2.3 Ở đây chúng ta có 2 quan sát: quan sat i va quan sat Khi chúng ta gặp quan sát #, thiếu biến Z„ chúng ta so sánh # với cả ¡ và j bằng cách sử dụng X và Y Trong ví dụ này, # gần với ¿ hơn, có nghĩa là Z nên được lấy từ đó, kết quả phục hồi của & là 67
Trang 3322
Một số nghiên cứu khuyên nên sử dụng phương pháp này thay vì xóa theo danh sách và từng cặp cũng như thay thế trung bình [25], điều này chủ yếu dựa theo nghiên cứu trước đó Phương pháp này cũng có một nhược điểm đáng kể: một lý thuyết nhất quán vẫn chưa được phát triển tốt về việc sử dụng phương pháp này khi nào và ở đâu, và nó có ảnh hưởng gì đến các tính chất thống kê của dữ liệu
2.1.2.4 Linear regression analysis
Phân tích hồi quy tuyến tính dựa trên giả định rằng các biến là thắng hàng (bằng cách nào đó được phân phối xung quanh hàm tuyến tính) Vì vậy, các giá trị của hàm tuyến tính này có thể được sử dụng dé thay thế các giá trị bị thiếu =_ Risk appetite, 80+ 75 4 " 70 4 60 + 55+ a 5 soj ° ° ° 45 4 40 + 35 4 a a @ 30 3 25 3 20 3 15 + 104 54 Risk appetite 123 4 5 6 7 6 9 101112 13 14 16 Number Hình 2.4 Thay thế các giá trị còn thiếu bằng phương pháp hồi quy tuyến tính (dữ liệu giả định)
Như Draper đã đề cập trong [29], nếu coi dữ liệu nằm trên hàm tuyến tính, thì hàm
này có thể được tính như sau (đối với trường hợp 2 biến): y(x) = a + bx
"— ` apd , A “ i221 Yi Dita Xi
Các hệ sô ø và b có thể được tính theo công thức sau: a = —————==, b= nS fet Mii Dies Xi* Dir Vi
meDE xƒ~(VP XI
Ví dụ của phương pháp này được hiển thị trên Hình 2.4 Có thể thấy, tất cả các giá trị bị thiếu đã được thay thế bằng các giá trị nằm trên dòng, được xác định bằng các công
trong đó ø là lượng giá trị đữ liệu quan sát được
thức trên
Ưu điểm chính của phương pháp này là lý thuyết được phát triển tốt, tuy nhiên phương pháp này cũng có một nhược điểm lớn Để sử dụng phương pháp này, phải chứng minh rằng các biến là thang hàng, và trong một số lĩnh vực vấn đề thăng hàng đã
Trang 3423
2.1.2.5 Spline interpolation
Phương pháp nội suy spline là một phương pháp sử dụng spline để dự đoán các giá trị còn thiếu Đầu tiên, tạo một hàm spline bằng cách sử dụng các giá trị rời rạc có sẵn Sau đó, chỉ cần sử dụng các giá trị của hàm được tạo lại để thay thế các giá trị bị thiếu Điều quan trọng cần biết là một số splines như B-splines không nhất thiết phải có các giá trị quan sát; nhưng tuy nhiên, chúng sử dụng tổng trọng số của chúng làm tham chiếu
để tạo một hàm
Trong phương pháp này, chúng ta sẽ chỉ sử dụng B-splines, có thể thu được bằng cách sử dụng thuật toán Cox-de Boor [30]: y(x) = 3;/=o NE (x) * y;, trong do k la thir tự của spline, W#⁄(z) là một chức năng được mô tả là Ni(x) =
( SE Xe NEG) =2 TA NT) + NE
Nhược điêm chính của phương pháp này là nếu bạn có nhiều giá trị bị thiếu, thì độ
chính xác của các giá trị được tạo lại sẽ rất thấp, có nghĩa là các giá trị được tạo lại sẽ
rất khác với các giá trị có thể quan sát được 2.1.2.6 Maximum likelihood (EM algorithm)
Phương pháp này được đề xuất bởi Rubin và các đồng nghiệp của ông vào năm 1977 [31] Thuật toán EM được gọi như vậy vì nó bao gồm 2 bước chính: Bước (1) kỳ vọng (Expectation step), Bước (2) ti da hoa (Maximization step) Y tưởng cốt lõi là tạo
ra một hàm khả năng của dữ liệu thống kê được cung cấp bởi các quan sát nhất định và
sau đó tìm các giá trị cực đại cục bộ của hàm này [32]
Giá sử chúng ta có một tập dữ liệu giả định có 2 nhóm khác nhau được biểu thị bằng các chấm màu đỏ và xanh lam được mỉnh họa ở Hình 2.6 Chúng ta có thể đễ dàng tính toán giá trị trung bình và các tham số khác có thể đặc trưng cho các nhóm này Ví dụ: giá trị trung bình của nhóm màu đỏ là khoảng 3 và giá trị trung bình của nhóm màu xanh là khoảng 7
Data (ne hidden yanables!
Hình 2.5 Tập dữ liệu giả thuyết với 2 nhóm giá trị quan sát khác nhau
Thực ra khi sử dụng thuật toán EM, chúng ta không thực sự cần biết màu sắc của các chấm để tính tốn các thơng số thống kê của nó, quan sát ở Hình 2.7
Oata (hidden colours)
Trang 3524
Đề làm diều này, chúng ta nên tiến hành các bước sau:
(1) Thực hiện một phỏng đoán mù quáng về giá trị ban đầu của tham số chúng ta
đang tìm kiếm;
(2) E-step: Tính toán khả năng mỗi tham số tạo ra điểm dữ liệu;
(3) Đối với mỗi điểm dữ liệu, tính toán các trọng số cho thấy khả năng của tham
số tạo ra các điểm đó;
(4) M-step: Tính giá trị tốt hơn cho tham số bằng cách sử dụng hàm tối đa hóa khả nang xay ra;
(5) Lap lai cac bude 2-4 cho đến khi ước tính tham số hội tụ hoặc số bước yêu cầu được hoàn thành
Vấn đề chính là chúng ta không bao giờ biết chúng ta có bao nhiêu nhóm chấm, vì vậy chúng ta phải phỏng đoán ở đây
Xét ví dụ vừa đề cập ở trên:
(1) Chúng ta phải đưa ra những phỏng đoán mù ở đây Giả sử rằng chúng ta có 2 nhóm chấm có giá trị trung bình là 1.7 và 9 Giả thiết này cho chúng ta phân phối như trong Hình 2.8
(2) Bây giờ đối với mỗi dấu chấm, chúng ta tính toán các số sẽ đại diện cho xác suất có mặt trong mỗi nhóm Trong trường hợp này, với dự đoán hiện tại, điểm dữ liệu tại 1.761 có nhiều khả năng có màu đỏ (0.189) hơn là màu xanh lam (0.00003) 020 ⁄ ⁄ ⁄ ⁄ | N / \ 015 ⁄ H bŠ 7 z ! % ⁄ \ ` \ \ / \ 010 4 f \ / oe 005 000 ô1 mm _ Â “em 6 %5 ee @ 4 oe 2 6 2 4 6 8 10 12
Hình 2.7 Hàm khả năng được cung cấp bởi suy đoán mù
(3) Bây giờ chúng ta biến những con số đó thành xác suất thực tế bằng cách tính
trọng số của chúng Đối với điểm dữ liệu là 1.761, nó sẽ cho chúng ta 99.98% cơ hội ở
trong nhóm màu đỏ và khoảng 0.02% cơ hội ở trong nhóm màu xanh lam
(4) Bây giờ chúng ta tính toán các giá trị phù hợp hơn cho các tham số trung bình mà chúng ta đã đoán một cách mù ở bước I
(5) Chuyển sang bước 2 và thực hiện một lần lặp mới
Trang 36t5 an
cho thấy kết quả của 5 lan lp dau tiên cho ví dụ của chúng ta (các lần lặp sau có nét vẽ ngoài đậm hơn)
Và cuối cùng, sau 20 lần lặp lại, chúng ta sẽ có một hình ảnh được hiển thị ở Hình
2.10 sẽ cung cấp cho chúng ta các giá trị trung bình gần hợp lý cho cả hai nhóm Các giá trị trung bình được tính toán sẽ cho chúng ta 2.91 đối với màu đỏ và 6.84 đối với các chấm màu xanh lam, trong khi các giá trị thực tương ứng là 2.8 va 6.93 040 035 030 025 020 “2 9 2 4 6 8 19 12 04 03 02 01 00 @ ôde one â 13 8Ð 2 > ĐÓ DĐ — 2 Hinh 2.9 Ham kha nang xay ra sau lần lặp thứ 20 2.1.2.7 Multiple imputation
Tất cả các phương thức gán trước đây còn được gọi là các phương pháp gán đơn Điều này có nghĩa là thay thế giá trị bị thiếu bằng một giá trị khác được thuật toán tính toán Mặt khác, phương pháp gán nhiều giá trị [26] thay thế giá trị bị thiếu bằng nhiều giá trị tuân theo các mô hình khác nhau Lời giải thích ngắn gọn về phương pháp này sẽ được trình bài trong luận văn này, nguồn thông tin bổ sung có thể tìm thấy trong các nguồn liên quan [26] là thay thé giá trị bị thiểu bằng một giá trị khác được thuật toán tính toán
Quan sát Hình 2.11, có thể thấy rằng một giá trị bị thiếu được biểu diễn bằng m giá trị khác nhau Bằng cách này, nếu có m mô hình có thể được sử dụng để áp đặt các giá trị, thì cuối cùng sẽ nhận được m tập dữ liệu mới với các giá trị được quy định Để
Trang 3726
là nếu có n số lần quan sát thì bạn phải chạy thử nghiệm theo nx m lần Lược đồ đơn giản hóa của phương pháp truyền nhiều lần được đưa ra trên Hình 2.12 OBSERVED DATA IMPUTATIONS 1 2 -m 9 ——— n —> V¿ > 2 —> sử Hình 2.10 Các phương pháp áp đặt
Incomplete Imputed Analysis Pooled
Data Data Results Results
Hình 2.11 Lược đồ của nhiều phương pháp gán
Khi thực hiện phương pháp này, cần hết sức thận trọng vì phương pháp áp đặt không có nguyên tắc có thê tạo ra nhiều vấn để hơn nó giải quyết, làm sai lệch ước tính, sai số tiêu chuẩn và kiểm tra giả thuyết Điều này chủ yếu là do nhu cầu cao về tài nguyên máy tính
2.2 Hệ thống động lực học tuyến tính
2.2.1 Giới thiệu
Trang 3827
Để cho {A;(M)}j_¡ biểu thị các giá trị riêng của một biểu thị các giá trị riêng của
ma tran Mn x n theo thứ tự độ lớn giảm dần, {⁄4(M)}ƒ_¡ bộ định vị chiều dài đơn vị
tương ứng và xác định bán kính quang phổ của nó ø(&) = |À¡(M)| Một LDS với ma
trận động lực học A là ổn định bên trong nếu tất cả các giá trị riêng của A có độ lớn
nhiều nhất là 1, tức là p (A) < 1 Các thuật toán tiêu chuẩn dé học các tham số LDS
không thực thi tiêu chí ổn định này, học các giá trị tối ưu cục bộ cho các tham số LDS bằng cách giảm dần độ dốc, tối đa hóa kỳ vọng (EM) hoặc bình phương nhỏ nhất trên ước lượng trình tự trạng thái thu được bằng các phương pháp nhận dạng không gian con Tuy nhiên, khi học từ các mẫu dữ liệu hữu hạn, tất cả các giải pháp này có thể không ổn định ngay cả khi hệ thống được lập mô hình là én định Hạn chế của việc bỏ qua tính ổn định là rõ ràng nhất khi mô phỏng hoặc dự đoán các chuỗi dài từ hệ thống để tạo ra dit liệu đại điện hoặc suy ra các khoảng giá trị bị thiếu
Luận văn sử dụng thuật toán tối ưu hóa lồi để học ma trận động lực học đồng thời đảm bảo tính ổn định khi ước lượng của hệ động lực học lần đầu tiên thu được bằng cách sử dụng EM hoặc nhận dạng không gian con Sau đó, xây dựng bài toán bình phương nhỏ nhất cho ma trận động lực học dưới dạng chương trình bậc hai (QP) ban đầu không có ràng buộc Khi QP này được giải quyết, ước lượng Âthu được có thé không ổn định Tuy nhiên, bất kỳ giải pháp không ổn định nào cũng cho phép chúng ta suy ra một ràng buộc tuyến tính mà sau đó chúng ta thêm vào QP ban đầu của mình và giải lại Hai bước trên được lặp đi lặp lại cho đến khi chúng ta đạt được một giải pháp én định, sau đó được tỉnh chỉnh bằng một phép nội suy đơn giản để có được ước tính ổn
định tốt nhất có thẻ
Phương pháp đề xuất có thể được xem như là tạo ràng buộc cho một chương trình cơ bản với một tập hợp khả thi của tất cả các ma trận có giá trị kỳ dị nhiều nhất là 1, tương tự như hoạt động trong hệ thống điều khiển [34] Tuy nhiên, phương pháp đề xuất kết thúc trước khi đạt được tính khả thi trong chương trình, bằng cách kiểm tra tính ổn định của ma trận sau mỗi ràng buộc mới Điều này làm cho thuật toán đề xuất ít bảo thủ hơn so với các phương pháp trước đây để thực thi tính ổn định vì nó chọn điều tốt nhất trong một tập hợp lớn hơn các ma trận động lực học ổn định Sự khác biệt trong các hệ thống ổn định kết quả là rõ ràng khi mô phỏng và dự đoán dữ liệu Phương pháp tạo ràng buộc cũng đạt được hiệu quả cao hơn nhiều so với các phương pháp trước đây trong các thử nghiệm của tôi
2.2.2 Hệ thống động lực học tuyến tính
Sự phát triển của một hệ thống động lực học bắt biến theo thời gian tuyến tính ngẫu nhiên (LDS) có thể được mô tả bằng hai phương trình sau:
Xta1 = Ax, + We we ~ N(0,Q)
(2.1)
Trang 3928
Thời gian được lập chỉ mục bởi biến rdi rac ¢ O day x; biểu thị các trạng thái ấn trong R", y, nhitng quan sat trong IR™, va cdc thông số của hệ thống: ma trận động lực hoc A € IR"*" và mô hình quan sát C € R™*", Cac bién w; va v, mé ta qua trình có phân phối chuẩn không trung bình và nhiễu quan sát tương ứng, với ma trận hiệp phương sai và hiệp phương sai chéo
We Q s
m{[|J# ø1]}=|f g|5 (2.2)
Trong d6, 6;, là ham Kronecker delta, Q € R”"*” 1a dinh nghia khéng phủ định, Re R™*™ là xác định tích cực và $ € IR**" là hiệp phương sai chéo Các đầu vào có thể được kết hợp vào mô hình LDS thông qua sửa đổi Phương trình 2.1 dẫn đến LDS xác định-ngẫu nhiên
Xtti = Ay, + Bu, + We Ye = Œy + Dự +, — % ~ N(O,R) w¿ ~ W(0,Q) GS) 23
Trong đó, uy biểu thị một đầu vào ngoại sinh trong IRử tại thời điểm t và B € R™! va D € R™™*! là các thước đo chỉ phối ảnh hưởng của các yếu tố đầu vào lên hệ động lực Do đó, một LDS ngẫu nhiên (Phương trình 2.1) lập mô hình phân phối đầu ra P(y,ry, trong khi LDS xác định-ngẫu nhiên (quan sát Phương trình 2.3 và Hình 2.13) mô hình phân phối có điều kiện của các đầu ra cho các đầu vào xác định PQœ,:rlu,:r) Các mũi tên màu xám lớn hơn cho biết các thông báo chuyển tiếp và lùi
lại được chuyển trong quá trình suy luận
Hình 2.12 Biểu diễn bằng đồ thị của LDS xác định-ngẫu nhiên 2.2.3 The Forward Pass (Kalman Filter)
Sự phân phối theo trạng thái tại thời điểm £,P(Œ; | y¡,1„r) có thể được tính chính xác thành hai phần: chuyển tiếp và chuyển tiếp đệ quy lùi Chuyển tiếp phụ thuộc vào trạng thái ban đầu xạ và các quan sát y¡,;, được gọi là bộ lọc Kalman Hãy ước tinh
giá trị trung bình và hiệp phương sai của trang thai niém tin P(X; | Vz, Ure) tai thoi
Trang 4029
Xeje-1 = AX¢-aje-1 + Buy (2.4)
Puta = AP,4\¢-1A" +Q (2.5)
Phương trình 2.4 có thể được coi là áp dụng ma trận hệ thống A va B va đầu vào
ngoại sinh ;_¡ cho giá trị trung bình để tạo thành một dự đoán ban đầu của X, Tuong
tự, Phương trình 2.5 có thể được hiểu là sử dụng ma trận động lực học A và hiệp phương
sai Q để lập ước lượng ban đầu về hiệp phương sai tin cdy P, Các ước tính sau đó được điều chỉnh:
Xịt = Xee-1 + Krếy (2.6)
Poe = Pea — KO Poa (2.7)
trong đó lỗi trong dự đoán ở bước thời gian trước đó (đổi mới) e,_, va Kalman ma tran độ lợi K;_¡ được tính như sau:
Cp = Vea — (CXp-aye-1 + Duy_) (2.8)
oa =1
Ea E-anE TẾ: Jết + SỔ (2.9)
Sai số có trọng số trong Phương trình 2.6 sửa chữa giá trị trung bình dự đoán cho một quan sát và Phương trình 2.8 làm giảm phương sai của niềm tin một lượng tỷ lệ với hiệp phương sai quan sát Kết hợp lại với nhau, Phương trình 2.6-2.9 xác định một dạng cụ thể của bộ lọc Kalman được gọi là mô hình đổi mới so với trước
2.2.4 Tối đa hóa kỳ vọng
Thuật toán tối đa hóa kỳ vọng (EM) là một thủ tục lặp lại để tìm các tham số tối đa
hóa khả năng dữ liệu quan sát P(Y | Ø) có mặt của các biến tiềm ẩn x Trong thực tế, thay vì tối đa hóa khả năng một cách trực tiếp, một giới hạn thấp hơn đối với log- likelihood
L(0) = log P(Y | 0) = log i P(X,Y | 0)dX (2.10)
x
được tối đa hóa bằng cách đi lên tọa độ Sử dụng bắt kỳ phân phối nào trên các biến ẩn Q, giới hạn thấp hơn về log-likelihood #(@,Ø) < £(0) có thé thu được bằng cách sử
dụng bất đẳng thức Jensen được trình bày ở Phương trình 2.1 Ib