CHƯƠNG 1 CƠ SỞ LÝ THUYẾT VỀ ĐIỆN NÃO ĐỒ
3.4 Các bộ phân loại trong học máy
3.4.4 Support vector machine (SVM)
3.4.4.1. Support vector machine (SVM)
Trong học máy, SVM là mơ hình học cĩ giám sát với các thuật tốn học liên quan đến phân tích dữ liệu được sử dụng để phân loại và phân tích hồi quy. Được phát triển tại Phịng thí nghiệm AT&T Bell, SVM được coi là một trong
57 những phương pháp dự đốn mạnh mẽ nhất, dựa trên statistical learning framework. Cho một tập hợp các mẫu huấn luyện, mỗi mẫu được đánh dấu thuộc một hoặc hai category, thuật tốn SVM xây dựng một mơ hình nhằm gán các mẫu mới vào một trong các category cĩ sẵn, hay SVM chính là bộ phân loại tuyến tính nhị phân khơng xác suất. Mơ hình SVM biểu diễn các mẫu dưới dạng các điểm trong khơng gian, được ánh xạđể các mẫu của các category được chia theo một khoảng trống rõ ràng và càng rộng càng tốt. Các mẫu mới sau đĩ được ánh xạ vào cùng khơng gian đĩ và được dự đốn là thuộc một category dựa trên vị trí mà chúng rơi vào. Ngồi việc thực hiện phân loại tuyến tính, SVM cĩ thể thực hiện phân loại phi tuyến tính một cách hiệu quả bằng cách sử dụng kernel, kernel ánh xạcác đầu vào của chúng thành khơng gian đặc trưng đa chiều (high- dimensional feature spaces).
3.4.4.2. Các quy ước cơ bản
Giả sử cĩ bài tốn phân loại như sau: phân loại hoa quả vào hai nhĩm hàng loại I và loại II, với loại I là nhĩm các quả cĩ chất lượng tốt hơn loại II. Các yếu tố cần cân nhắc khi phân loại gồm cĩ: khối lượng, kích thước (chiều rộng, chiều cao) và thời gian sau thu hoạch. Giả sử một quả (một mẫu) được ký hiệu là x, các đặc trưng liên quan đến mẫu đĩ gồm cĩ x1, x2, x3, x4, hay 𝑥𝑥⃗ = [x1, x2, x3, x4] (với x1, x2, x3, x4 lần lượt là khối lượng, chiều rộng, chiều cao và số ngày sau thu hoạch của quả đĩ). Để cho việc trình bày ngắn gọn, người ta thường bỏ các dấu vector đi và viết 𝜃𝜃 = [𝑥𝑥1,𝑥𝑥2, 𝑥𝑥3,𝑥𝑥4].Xét trong một thùng quả (n mẫu), cĩ thể gọi các mẫu lần lượt là x(1)đến x(m), với x(i) Є R4, 1 ≤ 𝑖𝑖 ≤ 𝑛𝑛.
Bảng 3-3 Quy ước ký hiệu của mẫu và đặc trưng tương ứng
i j 1 2 … m 1 𝑥𝑥1(1) 𝑥𝑥2(1) 𝑥𝑥𝑚𝑚(1) 2 𝑥𝑥1(2) 𝑥𝑥2(2) 𝑥𝑥𝑚𝑚(2) … n 𝑥𝑥1(𝑛𝑛) 𝑥𝑥2(𝑛𝑛) 𝑥𝑥𝑚𝑚(𝑛𝑛) Như vậy, một tập dữ liệu cĩ n mẫu với thứ tự các mẫu là i (1 ≤ 𝑖𝑖 ≤ 𝑛𝑛), mỗi mẫu cĩ m đặc trưng, thứ tựcác đặc trưng là j (1 ≤ 𝑗𝑗 ≤ 𝑚𝑚), cĩ thểquy ước
58 ký hiệu như trong Bảng 3.3. Đặc trưng thứ i của mẫu thứ j sẽ được ký hiệu là 𝑥𝑥𝑖𝑖(𝑖𝑖).
Giả sử chỉ xem xét đến đặc trưng x1 và x2 và biểu diễn các mẫu x(i) trong cùng một mặt phẳng Ox1x2 (Hình 3-8), cĩ thể phân tách các mẫu thuộc nhĩm I và nhĩm II bằng một đường thẳng. Mở rộng ra trường hợp m đặc trưng, các mẫu cũng được biểu diễn trong khơng gian Rm, và các nhĩm thay vì được phân cách nhờ mặt phẳng thì được phân cách nhau bằng một siêu phẳng (siêu phẳng). Vậy việc giải một bài tốn phân loại cũng chính là bài tốn tìm ra phương trình siêu phẳng phân tách các nhĩm với nhau.
Hình 3-8 Các mẫu được biểu diễn trong khơng gian R2 và siêu phẳng phân tách hai nhĩm (categories)
Giả thiết phương trình của siêu phẳng trong khơng gian Rm là:
ℎ𝜃𝜃(𝑋𝑋) = 𝜃𝜃0+𝜃𝜃1𝑥𝑥1+ 𝜃𝜃2𝑥𝑥2+ …+ 𝜃𝜃𝑚𝑚𝑥𝑥𝑚𝑚 (3.1) Vì phương trình siêu phẳng khơng cĩ được ngay mà phải thơng qua tính tốn, nên (3.1) cịn được gọi là giảđịnh (hypothesis) – một hàm số cĩ dạng giống với siêu phẳng, qua quá trình huấn luyện, giả định sẽ thay đổi các hệ số và kết quả là trở thành siêu phẳng.
3.4.4.3. Hàm mất mát (loss function)
Việc tìm phương trình của siêu phẳng cũng chính là tìm các hệ số 𝜃𝜃0,𝜃𝜃𝑚𝑚, … 𝜃𝜃𝑚𝑚, hay chính là 𝜃𝜃⃗ = [𝜃𝜃0,𝜃𝜃1, … 𝜃𝜃𝑚𝑚], với 𝜃𝜃⃗Є Rm+1trong hàm giảđịnh. Để cho việc trình bày ngắn gọn, người ta thường bỏ các dấu vector đi và viết 𝜃𝜃 =
59
[𝜃𝜃0,𝜃𝜃1, … 𝜃𝜃𝑚𝑚]. Tách 𝜃𝜃thành hai phần: 𝜃𝜃0 và vector [𝜃𝜃1, … 𝜃𝜃𝑚𝑚], ta cĩ thể gọi 𝜃𝜃0 là
bias và [𝜃𝜃1, … 𝜃𝜃𝑚𝑚] là weight của phương trình giảđịnh.
Nếu viết lại𝑥𝑥 = [𝑥𝑥1,𝑥𝑥2 … 𝑥𝑥𝑚𝑚] thành 𝑥𝑥 = [𝑥𝑥0,𝑥𝑥1,𝑥𝑥2 … 𝑥𝑥𝑚𝑚] với x0 = 1, phương trình (3.1) sẽ trở thành:
ℎ𝜃𝜃(𝑋𝑋) = 𝜃𝜃𝑇𝑇.𝑋𝑋 (3.2) Như vậy, nếu hàm giả định, kết hợp với đầu và X, ta cĩ thể tính ra vị trí của X so với giả định trong khơng gian Rm. Ví dụ trong Hình3-8, thay giá trị của X vào phương trình giả định cho kết quả ℎ𝜃𝜃(𝑋𝑋) = < 0 thì mẫu X này nằm bên trái siêu phẳng (nhĩm I), cịn nếu kết quả ℎ𝜃𝜃(𝑋𝑋) = > 0 thì X nằm bên phải siêu phẳng (nhĩm II), nếu ℎ𝜃𝜃(𝑋𝑋) = = 0 thì X nằm trên siêu phẳng. Như đã nĩi, để cĩ được siêu phẳng, cần khởi tạo một giảđịnh cĩ dạng hàm số giống với hàm số của siêu phẳng, và khởi tạo giảđịnh chính là tạo ra θ bất kỳ. Trong thực tế, cách khởi tạo θ = [0, 0, … 0] được sử dụng nhiều.
Từ cơng thức giả định khởi tạo ban đầu, ứng với mỗi đầu vào X, mơ hình sẽ phân loại X một nhĩm cụ thể (nhĩm I hay nhĩm II). Từ dạng khởi tạo ngẫu nhiên ban đầu, giả định thường cho kết quả khơng chính xác. Khi so sánh ℎ𝜃𝜃(𝑋𝑋) với nhãn y thực thế, sẽ cĩ một mức chênh lệch nhất định. Tổng bình phương của tất cả các mức chênh lệch này khi đầu vào là tất cả các mẫu trong tập huấn luyện được gọi là mất mát (hay chênh lệch giữa giá trị dự đốn và giá trị thực tế). Hàm mất mát được ký hiệu là J(θ), được tính theo cơng thức sau:
J(θ) = 21𝑛𝑛�(ℎ𝜃𝜃�𝑋𝑋(𝑖𝑖)− 𝑦𝑦(𝑖𝑖))�2
𝑛𝑛
𝑖𝑖=1
(3.3)
Hàm sigmoid
Trong trường hợp phân loại nhị phân, kết quảđầu ra chỉ mang hai giá trị 0 hoặc 1 (thuộc nhĩm I hoặc nhĩm II), hàm giả định sẽ cĩ dạng của hàm sigmoid (Hình 3-9) và phương trình (3.2) được viết lại như sau:
ℎ𝜃𝜃(𝑋𝑋) = 𝑙𝑙(𝜃𝜃𝑇𝑇.𝑋𝑋) ( 3.4) Với g là hàm sigmoid: 𝑙𝑙(𝑧𝑧) = 1+1𝑒𝑒−𝑧𝑧
60
Hình 3-9 Đồ thị hàm số hàm sigmoid
Hàm sigmoid cĩ giá trị thuộc khoảng (0; 1), g(z)≈ 0 với z vơ cùng nhỏ và g(z)≈ 1 với z vơ cùng lớn. Nếu lấy 0.5 làm ngưỡng để phân chia giữa hai nhĩm: ℎ𝜃𝜃(𝑋𝑋) < 0.5 X thuộc nhĩm I, ℎ𝜃𝜃(𝑋𝑋)≥ 0.5 và X thuộc nhĩm II) - Hình 3- 10. Với g(z) = 0.5 tại z = 0, vậy mọi 𝑧𝑧< 0 X thuộc nhĩm I và 𝑧𝑧 ≥ 0 X thuộc nhĩm II, hay:
• 𝜃𝜃𝑇𝑇.𝑋𝑋 < 0 ℎ𝜃𝜃(𝑋𝑋) = 𝑙𝑙(𝜃𝜃𝑇𝑇.𝑋𝑋) = 0 X thuộc nhĩm I
• 𝜃𝜃𝑇𝑇.𝑋𝑋≥ 0 ℎ𝜃𝜃(𝑋𝑋) = 𝑙𝑙(𝜃𝜃𝑇𝑇.𝑋𝑋) = 1 X thuộc nhĩm II
Hình 3-10 Hàm giả định, trường hợp lấy ngưỡng bằng 0.5
Cơng thức tính hàm mất mát
Vì ℎ𝜃𝜃(𝑋𝑋) thuộc khoảng (0; 1) và y chỉ mang giá trị 0 hoặc 1, hàm mất mát
61 𝐽𝐽(𝜃𝜃) = �−log�ℎ𝜃𝜃(𝑋𝑋)� 𝑣𝑣ớ𝑖𝑖 𝑦𝑦= 1
−log� 1− ℎ𝜃𝜃(𝑋𝑋)� 𝑣𝑣ớ𝑖𝑖 𝑦𝑦= 0
(3.5)
Đồ thị hàm số y = -log(x) được mơ tả trong Hình 3-11, với x thuộc khoảng (0; 1) thì y thuộc (+∞; 0), hay giá trị của hàm mất mát bằng +∞ nếu kết quả dự đốn ℎ𝜃𝜃(𝑋𝑋) và kết quả thực tế y cĩ khác biệt lớn và mất mát bằng 0 nếu ℎ𝜃𝜃(𝑋𝑋) và y trùng nhau (dựđốn đúng). Ví dụng ℎ𝜃𝜃(𝑋𝑋) = 0.9: 𝐽𝐽(𝜃𝜃) = �−log�ℎ𝜃𝜃(𝑋𝑋)�= 0.1054 𝑣𝑣ớ𝑖𝑖𝑦𝑦 = 1 −log� 1− ℎ𝜃𝜃(𝑋𝑋)�= 2.3026 𝑣𝑣ớ𝑖𝑖𝑦𝑦 = 0 (3.6) Với kết quả dựđốn ℎ𝜃𝜃(𝑋𝑋) = 0.7, nếu thực tế nhãn y bằng 1 thì hàm hàm mất mát cĩ giá trị 0.1054; nếu thực tế nhãn y bằng 0 thì hàm mất mát cĩ giá trị 2.3026, do 0.9 gần với 1 hơn nên mất mát trong trường hợp y = 1 nhỏhơn trường hợp y = 0.
Vì y chỉ mang giá trị 0 hoặc 1 nên cơng thức 3.6 cĩ thể viết tĩm gọn lại như sau: 𝐽𝐽(𝜃𝜃) = −𝑛𝑛1� 𝑦𝑦𝑙𝑙𝑙𝑙𝑙𝑙( 𝑛𝑛 𝑖𝑖=1 ℎ𝜃𝜃�𝑋𝑋(𝑖𝑖)�) + (1− 𝑦𝑦)log (1− ℎ𝜃𝜃�𝑋𝑋(𝑖𝑖)�) (3.7) Từ cơng thức (3.7) cĩ thể suy ra cơng thức (3.8) như sau :
• Trường hợp y = 0: 𝐽𝐽(𝜃𝜃) = −log (1− ℎ𝜃𝜃�𝑋𝑋(𝑖𝑖)�) (3.8)
• Trường hợp y = 1 : 𝐽𝐽(𝜃𝜃) = −log (ℎ𝜃𝜃�𝑋𝑋(𝑖𝑖)�)
Hình 3-11 Đồ thị hàm số y = -log(x)
Tối thiểu hĩa hàm mất mát bằng phương pháp gradient descent
Để cơng thức của giả định tiến gần tới hàm siêu phẳng, cần update θ (các hệ số weight và bias); một trong các cách update weight và bias là dùng thuật
62 tốn gradient descent. Cách tiếp cận này dựa trên tính hội tụ của hàm số lồi: nếu hàm mất mát J(θ) là một hàm lồi, cĩ thểtìm điểm cực tiểu địa phương của hàm đĩ nhờ các “bước đi” nhỏ từ một điểm bất kỳ. Phương pháp cụ thể được trình bày dưới đây.
Đạo hàm của hàm số tại một điểm: là tiếp tuyến tại điểm đĩ của đồ thị hàm số. Đạo hàm mang giá trị dương nếu độ dốc dương (theo hướng từ trái qua phải, tiếp tuyến chếch lên trên); mang giá trị âm nếu độ dốc âm (theo hướng từ trái qua phải, tiếp tuyến chếch xuống dưới). Đạo hàm của hàm J(θ) tại một điểm bất kỳ chỉra hướng dốc nhất của đồ thị tại điểm đĩ.
Tốc độ học (learning rate - α):được coi như “bước đi” từ giá trị θ cũ đến θ mới (được update từ θ cũ) theo hướng dốc nhất mà đạo hàm tìm được, khiến cho việc tiến dần tới điểm cực tiểu nhanh hơn. Tốc độ học càng lớn thì “bước đi” càng dài, khiến cho việc tiến xuống dốc nhanh hơn, nhưng cĩ thể khơng bao giờ chạm đến điểm cực tiểu (hội tụ) do “bước đi” quá lớn cĩ thể vượt qua giá trị cực tiểu đĩ để sang sườn dốc bên cạnh. Ngược lại, tốc độ học nhỏ giúp tránh tình trạng trên nhưng vì “bước đi” quá nhỏ khiến việc “xuống dốc” lâu hơn, tốn nhiều chi phí tính tốn hơn. Việc lựa chọn tốc độ học cĩ thể tùy từng bài tốn, thử qua nhiều giá trị từ khoảng 10-4đến 10.
Hội tụ: Từđiểm bất kỳtrên đồ thị hàm số, sau khi tiến những “bước nhỏ” xuống gần cực tiểu địa phương và đã chạm đến điểm cực tiểu thì đạo hàm hàm số tại đây bằng 0 (tiếp tuyến tại điểm cực tiểu cĩ độ dốc bằng 0) “bước đi” tiếp theo cĩ độ dài bằng 0 θ khơng được update. Đây chính là điểm hội tụ, hàm
mất mát cĩ giá trị cực tiểu (cực tiểu địa phương). Điểm hội tụ chỉ cĩ thểtìm được khi hàm mất mát là một hàm lồi.
Hình 3-12 mơ tả phương pháp tìm cực tiểu của hàm J(θ0,θ1) bằng thuật tốn gradient descent. Nếu điểm khởi tạo là điểm 1 (initialization point 1) thì dựa vào gradient descent sẽ tìm được điểm cực tiểu địa phương, cịn nếu khởi tạo tại điểm 2 (initialization point 2) sẽtìm được tồn cục. Việc tìm được điểm cực tiểu nào phụ thuộc vào điểm khởi tạo ban đầu, và điểm tìm được cũng khơng xác định được là cực tiểu địa phương hay cực tiểu tồn cục. Khi sử dụng thuật tốn này, người ta chấp nhận phương án cực tiểu tìm được cĩ thể là cực tiểu địa phương, khơng phải là điểm mà tại đĩ hàm mất mát nhỏ nhất (cực tiểu tồn cục).
63
Hình 3-12 Phương pháp tìm điểm cực tiểu bằng thuật tốn gradient descent
Để update θ, cần update tất cả các thành phần bias (θ0) và weight (từ θ1 đến θm), dựa trên cơng thức (3.9).
𝜃𝜃𝑖𝑖 = 𝜃𝜃𝑖𝑖 − 𝜕𝜕
𝜕𝜕�𝜃𝜃𝑖𝑖�𝐽𝐽(𝜃𝜃)∗ 𝛼𝛼
(3.9)
Như vậy, giá trị mỗi “bước đi” từ θj cũ đến θj mới là 𝜕𝜕
𝜕𝜕�𝜃𝜃𝑗𝑗�𝐽𝐽(𝜃𝜃)∗ 𝛼𝛼. Từ (3.5) và (3.9), cĩ thể suy ra: 𝜃𝜃𝑖𝑖 = 𝜃𝜃𝑖𝑖 − 𝛼𝛼 �(ℎ𝜃𝜃�𝑋𝑋(𝑖𝑖)− 𝑦𝑦(𝑖𝑖))� 𝑛𝑛 𝑖𝑖=1 𝑋𝑋𝑖𝑖 (3.10) 3.4.4.4. Lề trong thuật tốn SVM
Hình 3-13 Các siêu phẳng phân loại lớp hình vuơng xanh và lớp hình trịn đỏ
Trong bài tốn phân loại nhị phân, cĩ thể tồn tại nhiều siêu phẳng phân tách hai lớp (Hình 3-13). Vậy cần cĩ một tiêu chí để xem xét siêu phẳng nào là
64 tốt nhất. Tiêu chí đĩ chính là “lề” (margin); lề của một lớp là khoảng cách từ các điểm gần siêu phẳng của lớp đĩ nhất tới siêu phẳng.
Một thuật tốn phân loại tốt là thuật tốn tìm ra siêu phẳng cĩ lề của hai class bằng nhau và lớn nhất cĩ thể. Hình 3-14 (trái) minh họa siêu phẳng cĩ lề hai bên khơng bằng nhau, lề của lớp hình trịn đỏ nhỏhơn lề của lớp vuơng xanh, do đĩ khi cĩ một mẫu mới, khảnăng nĩ được phân về lớp vuơng xanh sẽcao hơn dẫn tới thực tế các mẫu trịn đỏ bị phân loại sai. Hình 3-14 (phải) minh họa hai siêu phẳng (nét liền đen đậm (1) và nét đứt xanh lục đậm(2)) đều thỏa mãn tính chất lề hai bên bằng nhau. Nhưng siêu phẳng (1) cho lề rộng hơn siêu phẳng (2) nên khả năng phân loại những điểm gần siêu phẳng sai sẽ thấp hơn. Cĩ thể kết luận, một siêu phẳng tốt nhất là siêu phẳng cho lề của hai lớp bằng nhau và lớn nhất cĩ thể. Thuật tốn SVM hướng tới việc tìm siêu phẳng thỏa mãn các tính chất trên, nên cịn được gọi là thuật tốn phân lớp tối đa khoảng cách giữa các lề. Tính chất này làm cho SVM trở thành một trong những thuật tốn phân loại nhị phân tốt nhất hiện nay.
Hình 3-14 Margin của hai classes là bằng nhau và lớn nhất cĩ thể 3.4.4.5. Kernel
Các siêu phẳng cịn cĩ thể gọi là các “đường cong quyết định” – decision boundary. Các phần trên mơ tả thuật tốn SVM với đường bao quyết định là đường thẳng tuyến tính (phương trình của siêu phẳng là phương trình bậc nhất – cơng thức (2.1). Thực tế, nhiều bài tốn yêu cầu đường bao quyết định phi tuyến (hình trịn, elip, thậm chí cĩ hình dạng bất kỳ), siêu phẳng cũng cĩ cơng thức phức tạp hơn. Ví dụ:
65
Hình 3-15Đường bao quyết định phi tuyến
Trong một vài trường hợp, đường bao quyết định khơng cĩ phương trình xác định (Hình 3-15), lúc này, việc tìm một phương trình cụ thể là phức tạp và thiếu chính xác, việc sử dụng kernel là một phương pháp thay thế hiệu quả.
Ý tưởng cơ bản của Kernel SVM và các phương pháp kernel nĩi chung là tìm một phép biến đổi sao cho dữ liệu ban đầu là khơng phân biệt tuyến tính được ánh xạ sang khơng gian mới. Ở khơng gian mới này, dữ liệu trở nên phân biệt tuyến tính. Cụ thể, kernel SVM đi tìm một hàm số biến đổi dữ liệu x từ khơng gian đặc trưng ban đầu thành dữ liệu trong một khơng gian mới bằng hàm số Φ(x). Hàm Φ() nhằm tạo thêm một chiều dữ liệu mới (một đặc trưng mới) là một hàm số của các đặc trưng đã biết. Hàm số này cần thỏa mãn điều kiện: trong khơng gian mới, dữ liệu giữa hai lớp là phân biệt tuyến tính hoặc gần như phân biệt tuyến tính. Khi đĩ, cĩ thể dùng các bộ phân lớp tuyến tính thơng thường để áp dụng phân loại dữ liệu.
Các hàm Φ() thường tạo ra dữ liệu mới cĩ số chiều cao hơn số chiều của dữ liệu ban đầu, thậm chí là vơ hạn chiều. Nếu tính tốn các hàm này một cách trực tiếp sẽ rất dễ dẫn đến các vấn đề về bộ nhớ và hiệu năng tính tốn. Do đĩ, một cách tiếp cận khác thường được sử dụng là các hàm kernel (kernel functions) cĩ chức năng mơ tả quan hệ giữa hai điểm dữ liệu bất kỳ trong khơng gian mới, thay vì đi tính tốn trực tiếp biểu diễn của từng điểm dữ liệu trong khơng gian mới. Kỹ thuật này được xây dựng dựa trên quan sát về bài tốn đối ngẫu của SVM.
Dưới đây là một số hàm kernel phổ biến nhất trong các bài tốn SVM.
66 Đây là trường hợp đơn giản với kernel chính là tích vơ hướng giữa hai vector:
𝑘𝑘(𝑥𝑥,𝑧𝑧) = 𝑥𝑥𝑇𝑇𝑧𝑧
Polynominal kernel
𝑘𝑘(𝑥𝑥,𝑧𝑧) = (𝑟𝑟+ 𝛾𝛾𝑥𝑥𝑇𝑇𝑧𝑧)𝑑𝑑
Với d là một số dương để chỉ bậc của đa thức. d cĩ thể khơng là số tự nhiên vì mục đích chính ở đây là tìm một hàm biểu diễn khoảng cách giữa hai điểm chứ khơng phải tìm một đa thức chính xác của kernel. Polynomial kernel cĩ thểdùng để mơ tả hầu hết các đa thức cĩ bậc khơng vượt quá d nếu d là một số tự nhiên.
Radial basic function (rbf kernel)
Radial basis function hay Gaussian kernel là hàm kernel được sử dụng nhiều nhất, được định nghĩa như sau:
𝑘𝑘(𝑥𝑥,𝑧𝑧) = exp(−𝛾𝛾‖𝑧𝑧 − 𝑥𝑥‖22), 𝛾𝛾 > 0
Sigmoid kernel
Hàm sigmoid cũng được sử dụng làm kernel: 𝑘𝑘(𝑥𝑥,𝑧𝑧) =𝑡𝑡𝑎𝑎𝑛𝑛ℎ(𝑟𝑟+ 𝛾𝛾𝑥𝑥𝑇𝑇𝑧𝑧)𝑑𝑑
Giải quyết bài tốn phát hiện bệnh nhân tâm thần phân liệt chính là tìm một bộ phân loại để phân tách các điểm dữ liệu với số chiều khơng gian là sốđặc trưng (thu được từ quá trình trích chọn đặc trưng). Do sốlượng đặc trưng lớn nên dữ liệu thuộc hai lớp cĩ khảnăng cao là khơng phân tách tuyến tính. Vì vậy, việc dùng SVM với một trong các kernel kể trên cĩ thể là một giải pháp hiệu quả, cho độ chính xác phân loại cao.
Ensemble Learning
Ensemble learning (học cộng đồng) là một kỹ thuật rất phổ biến nhằm mục đích kết hợp nhiều bộ phân loại yếu để tạo ra một bộ phân loại mạnh. Ensemble learning cĩ thể được sử dụng nhằm mục đích giảm bias (tránh chưa khớp), giảm variance (tránh quá khớp) và cải thiện độ chính xác của mơ hình.
67
• Sequential learners: các mơ hình khác nhau được tạo tuần tự và những