SVM đi tìm mặt phân cách sao cho margin tìm được là lớn nhất, đồng nghĩa với việc các điểm dữ liệu an tồn nhất so với mặt phân cách. Khoảng cách lề được
cho là tối ưu khi khoảng cách lề của hai lớp là bằng nhau và lớn nhất. Hình 3-13
mơ tả khoảng cách lề của hai lớp sử dụng bộ phân loại SVM và bộ phân loại khác.
Hình 3. 13.Lề của hai lớp là khơng bằng nhau (bên trái) và bằng nhau (bên phải)
Thuật tốn SVM được chia làm hai loại: hard margin SVM và soft margin SVM. Hard margin SVM thường dùng cho các bài tốn mà dữ liệu cĩ thể phân tách tuyến tính giữa các lớp. Ngược lại, soft margin SVM áp dụng được cho trường
hợp dữ liệu khơng phân tách được (non-separable).
Trong thuật tốn soft margin SVM, quá trình tối ưu thuật tốn là tìm các hyperparameter phù hợp nhất với training data. Các tham số này bao gồm chọn hàm kernel, hệ số C và tham số𝛾𝛾. Để chọn được bộ tham số phù hợp, cĩ thể sử
dụng kỹ thuật grid search, tạo các mơ hình nhận tham số là sự kết hợp của một tập
xác định các tham số (kernel, C, 𝛾𝛾) và đánh giá kết quả phân loại trên tập validation.
Bộ phân loại cho kết quả tốt nhất sẽđược trích xuất bộ tham số (kernel, C, 𝛾𝛾) để xây dựng một mơ hình SVM duy nhất.
44 Để đánh giá khách quan khả năng phân loại của mơ hình cần xem xét khả năng phân loại của mơ hình với các dữ liệu mới, chưa từng gặp trong quá trình training. Cĩ rất nhiều tham số để đánh giá một mơ hình phân loại, trong chương này sẽ đề cập tới một số tham số cơ bản, thường dùng nhất trong việc đánh giá mơ hình.
45
CHƯƠNG 4. KẾT QUẢ NGHIÊN CỨU TỪ BỘ DỮ LIỆU “EEG IN SCHIZOPHRENIA”
4.1 Bơ dữ liệu “EEG in schizophrenia”
Bộ dữ liệu được dùng gồm 28 bản ghi trong đĩ cĩ 14 bản ghi của các bệnh
nhân tâm thần phân liệt thể paranoid, 14 bản ghi được thu từ các đối chứng khỏe mạnh cĩ độ tuổi và giới tính tương ứng với các bệnh nhân. Các bệnh nhân nhập viện tại Viện Tâm thần và Thần kinh Warsaw, Ba Lan đáp ứng các tiêu chí phân
loại bệnh tật Quốc tế ICD – 10 đối với bệnh tâm thần phân liệt hoang tưởng
(loại F20.0).Bộ dữ liệu được lấy mẫu ở tần số 250Hz, sử dụng mũ điện não tiêu
chuẩn hệ thống quốc tế 10-20. Các bản ghi điện não kéo dài trong khoảng mười
lăm phút ở điều kiện trạng thái nghỉ ngơi nhắm mắt với 19 kênh điện não: Fp1, FP2, F7, F3, Fz, F4, F8, T3, C3, Cz, C4, T4, T5, P3, Pz, P4, T6, O1, O2. Điện cực tham chiếu được đặt giữa Fz và Cz [37]. Mỗi bản ghi 15 phút được chia thành từng đoạn 30 giây khơng chồng chéo, mỗi đoạn tương ứng với một mẫu thì thu được bộ dữ liệu gồm 951 mẫu, trong đĩ cĩ 522 mẫu của bệnh nhân và 429 mẫu của người khỏe mạnh.