K-Nearest Neighbor (k-NN)

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT VỀ ĐIỆN NÃO ĐỒ

3.4 Các bộ phân loại trong học máy

3.4.2 K-Nearest Neighbor (k-NN)

k-NN là một trong số các phương pháp phổ biến trong học máy, thuộc nhĩm lazy leaner. Ý tưởng của k-NN là khơng xấy dựng một mơ hình mơ tả rõ rang cho hàm mục tiêu cần học mà quá trình học chỉ lưu lại các huấn luyện dữ liệu, việc dựđốn cho một quan sát mới sẽ dựa vào các lân cận gần nhất (nearest neighbor). Do đĩ k-NN là một phương pháp phi tham số (non-parameter method). Việc xác định nearest neighbor được dựa trên độ đo tương đồng giữa các đối tượng. k trong k-NN là số lân cận được sử dụng cho quá trình tính tốn giá trị dự đốn. Ví dụ vềthay đổi k dẫn đến thay đổi kết quả phân loại được thể

54 hiện trong Hình 3-7. Nếu xét 1, 3, 5 nearest neighbor thì z lần lượt được gán vào lớp c2, c1, c1.

Do kết quả phân loại của k-NN phụ thuộc rất lớn vào cách chọn số lượng nearest neighbor nên đây cũng là vấn đề quan trọng nhất của k-NN. Về lý thuyết, 1-NN cũng cĩ thể là một trong sốcác phương pháp tối ưu, nhưng trong thực tiễn nên lấy nhiều nearest neighbor (k>1) khi cần phân lớp, nhưng k cũng khơng nên quá lớn. Nếu k quá nhỏ, model sẽ dễ bị ảnh hưởng bởi nhiễu; nếu k quá lớn sẽ phá vỡ cấu trúc tiềm ẩn trong dữ liệu.

Hình 3-7 Ví dụ về số lượng nearest neighbor ảnh hưởng tới kết quả phân loại

Khoảng cách d là yếu tố để lựa chọn nearest neighbor. Cĩ nhiều cách tính khoảng cách trong k-NN:

- Các hàm khoảng cách hình học: cĩ thể phù hợp với các bài tốn cĩ các thuộc tính đầu vào là kiểu số thực.

- Hàm khoảng cách Hamming: Cĩ thể phù hợp với các bài tốn cĩ các thuộc tính đầu vào là kiểu nhị phân.

Một số hàm tính khoảng cách hình học thường dùng: - Hàm Euclid (p = 2):

Xét bài tốn phân loại với C lớp. Giả sử cĩ một điểm dữ liệu 𝑥𝑥 ∈ 𝐺𝐺𝐷𝐷, xác

suất đểđiểm dữ liệu này rơi vào lớp c là: 𝑝𝑝(𝑦𝑦=𝑡𝑡|𝑥𝑥) hay 𝑝𝑝(𝑡𝑡|𝑥𝑥). Nếu tính tất cả các xác suất điểm dữ liệu rơi vào các lớp 1, 2, ...C thì cĩ thể xác định lớp của điểm dữ liệu đĩ bằng cách chọn ra lớp cĩ xác suất cao nhất:

𝑡𝑡 =𝑎𝑎𝑟𝑟𝑙𝑙𝑚𝑚𝑎𝑎𝑥𝑥𝑝𝑝(𝑡𝑡|𝑥𝑥);𝑡𝑡 ∈{1, 2, …𝐶𝐶}

Biểu thức trên thường khĩ được tính trực tiếp, thay vào đĩ, quy tắc Bayes được sử dụng:

𝑡𝑡 =𝑎𝑎𝑟𝑟𝑙𝑙𝑚𝑚𝑎𝑎𝑥𝑥 𝑝𝑝(𝑥𝑥𝑝𝑝|𝑡𝑡(𝑥𝑥)𝑝𝑝)(𝑡𝑡) ⇔ 𝑡𝑡=𝑎𝑎𝑟𝑟𝑙𝑙𝑚𝑚𝑎𝑎𝑥𝑥𝑝𝑝(𝑥𝑥|𝑡𝑡)𝑝𝑝(𝑡𝑡)

p(c) là xác suất để một điểm rơi vào lớp c. Giá trị này cĩ thể được tính bằng phương pháp ước lượng hợp lý cực đại (Maximum likelihood function – MLE), tức tỉ lệ số điểm dữ liệu trong tập huấn luyện rơi vào lớp này chia cho tổng sốlượng dữ liệu trong tập huấn luyện; hoặc cũng cĩ thểđược đánh giá bằng phương pháp Maximum a Posterior estimation - MAP. Trường hợp thứ nhất thường được sử dụng nhiều hơn.

Thành phần cịn lại p(x|c) tức phân phối của các điểm dữ liệu trong lớp c thường rất khĩ tính tốn vì x là một biến ngẫu nhiên nhiều chiều, cần rất rất nhiều dữ liệu huấn luyện để cĩ thể xây dựng được phân phối đĩ. Để giúp cho việc tính tốn được đơn giản, người ta thường giả sử một cách đơn giản nhất rằng các

56 thành phần của biến ngẫu nhiên x là độc lập với nhau, nếu biết c. Khi đĩ p(x|c) sẽ được tính theo cơng thức:

𝑝𝑝(𝑥𝑥|𝑡𝑡) = 𝑝𝑝(𝑥𝑥1,𝑥𝑥2, … ,𝑥𝑥𝑑𝑑|𝑡𝑡) = � 𝑝𝑝(𝑥𝑥𝑖𝑖|𝑡𝑡)

𝑑𝑑

𝑖𝑖=1

Ởbước kiểm tra, với một điểm dữ liệu mới x, lớp của nĩ sẽđược xác đinh bởi:

𝑡𝑡 =𝑎𝑎𝑟𝑟𝑙𝑙𝑚𝑚𝑎𝑎𝑥𝑥𝑝𝑝(𝑡𝑡)� 𝑝𝑝(𝑥𝑥𝑖𝑖|𝑡𝑡);𝑡𝑡 ∈{1, 2, …𝐶𝐶}

𝑑𝑑

𝑖𝑖=1

Khi d lớn và các giá trị xác suất rất nhỏ, cơng thức trên cĩ thểđược viết lại thành:

𝑡𝑡 =𝑎𝑎𝑟𝑟𝑙𝑙𝑚𝑚𝑎𝑎𝑥𝑥 log (𝑝𝑝(𝑡𝑡))�log (𝑝𝑝(𝑥𝑥𝑖𝑖|𝑡𝑡))

𝑑𝑑

𝑖𝑖=1

Mặc dù giả thiết mà Nạve Bayes Classifiers (NBC) sử dụng là quá phi thực tế, cả việc huấn luyện và kiểm tra của NBC nhanh hơn nhiều các phương pháp phân loại phức tạp khác. Việc giả sử các thành phần (đặc trưng) trong dữ liệu là độc lập với nhau, nếu biết nhãn lớp, khiến cho việc tính tốn mỗi phân phối p(x|c) trở nên rất nhanh.

Mỗi giá trị p(c) cĩ thể được xác định như là tần suất xuất hiện của lớp c

trong dữ liệu huấn luyện.

Việc tính tốn p(xi|c) phụ thuộc vào loại dữ liệu. Cĩ ba loại được sử dụng phổ biến là: Gaussian Nạve Bayes, Multinomial Nạve Bayes, và Bernoulli Nạve. Trong bài tốn phân loại nhị phân, mơ hình Bernoulli Nạve thường được sử dụng.

Cơng thức p(xi|c) được tính theo mơ hình Bernoulli Nạve Bayes: 𝑝𝑝(𝑥𝑥𝑖𝑖|𝑡𝑡) = 𝑝𝑝(𝑖𝑖|𝑡𝑡)𝑚𝑚𝑖𝑖(1− 𝑝𝑝(𝑖𝑖|𝑡𝑡))1−𝑚𝑚𝑖𝑖

3.4.4 Support vector machine (SVM)

3.4.4.1. Support vector machine (SVM)

Trong học máy, SVM là mơ hình học cĩ giám sát với các thuật tốn học liên quan đến phân tích dữ liệu được sử dụng để phân loại và phân tích hồi quy. Được phát triển tại Phịng thí nghiệm AT&T Bell, SVM được coi là một trong

57 những phương pháp dự đốn mạnh mẽ nhất, dựa trên statistical learning framework. Cho một tập hợp các mẫu huấn luyện, mỗi mẫu được đánh dấu thuộc một hoặc hai category, thuật tốn SVM xây dựng một mơ hình nhằm gán các mẫu mới vào một trong các category cĩ sẵn, hay SVM chính là bộ phân loại tuyến tính nhị phân khơng xác suất. Mơ hình SVM biểu diễn các mẫu dưới dạng các điểm trong khơng gian, được ánh xạđể các mẫu của các category được chia theo một khoảng trống rõ ràng và càng rộng càng tốt. Các mẫu mới sau đĩ được ánh xạ vào cùng khơng gian đĩ và được dự đốn là thuộc một category dựa trên vị trí mà chúng rơi vào. Ngồi việc thực hiện phân loại tuyến tính, SVM cĩ thể thực hiện phân loại phi tuyến tính một cách hiệu quả bằng cách sử dụng kernel, kernel ánh xạcác đầu vào của chúng thành khơng gian đặc trưng đa chiều (high- dimensional feature spaces).

3.4.4.2. Các quy ước cơ bản

Giả sử cĩ bài tốn phân loại như sau: phân loại hoa quả vào hai nhĩm hàng loại I và loại II, với loại I là nhĩm các quả cĩ chất lượng tốt hơn loại II. Các yếu tố cần cân nhắc khi phân loại gồm cĩ: khối lượng, kích thước (chiều rộng, chiều cao) và thời gian sau thu hoạch. Giả sử một quả (một mẫu) được ký hiệu là x, các đặc trưng liên quan đến mẫu đĩ gồm cĩ x1, x2, x3, x4, hay 𝑥𝑥⃗ = [x1, x2, x3, x4] (với x1, x2, x3, x4 lần lượt là khối lượng, chiều rộng, chiều cao và số ngày sau thu hoạch của quả đĩ). Để cho việc trình bày ngắn gọn, người ta thường bỏ các dấu vector đi và viết 𝜃𝜃 = [𝑥𝑥1,𝑥𝑥2, 𝑥𝑥3,𝑥𝑥4].Xét trong một thùng quả (n mẫu), cĩ thể gọi các mẫu lần lượt là x(1)đến x(m), với x(i) Є R4, 1 ≤ 𝑖𝑖 ≤ 𝑛𝑛.

Bảng 3-3 Quy ước ký hiệu của mẫu và đặc trưng tương ứng

i j 1 2 … m 1 𝑥𝑥1(1) 𝑥𝑥2(1) 𝑥𝑥𝑚𝑚(1) 2 𝑥𝑥1(2) 𝑥𝑥2(2) 𝑥𝑥𝑚𝑚(2) … n 𝑥𝑥1(𝑛𝑛) 𝑥𝑥2(𝑛𝑛) 𝑥𝑥𝑚𝑚(𝑛𝑛) Như vậy, một tập dữ liệu cĩ n mẫu với thứ tự các mẫu là i (1 ≤ 𝑖𝑖 ≤ 𝑛𝑛), mỗi mẫu cĩ m đặc trưng, thứ tựcác đặc trưng là j (1 ≤ 𝑗𝑗 ≤ 𝑚𝑚), cĩ thểquy ước

58 ký hiệu như trong Bảng 3.3. Đặc trưng thứ i của mẫu thứ j sẽ được ký hiệu là 𝑥𝑥𝑖𝑖(𝑖𝑖).

Giả sử chỉ xem xét đến đặc trưng x1 và x2 và biểu diễn các mẫu x(i) trong cùng một mặt phẳng Ox1x2 (Hình 3-8), cĩ thể phân tách các mẫu thuộc nhĩm I và nhĩm II bằng một đường thẳng. Mở rộng ra trường hợp m đặc trưng, các mẫu cũng được biểu diễn trong khơng gian Rm, và các nhĩm thay vì được phân cách nhờ mặt phẳng thì được phân cách nhau bằng một siêu phẳng (siêu phẳng). Vậy việc giải một bài tốn phân loại cũng chính là bài tốn tìm ra phương trình siêu phẳng phân tách các nhĩm với nhau.

Hình 3-8 Các mẫu được biểu diễn trong khơng gian R2 và siêu phẳng phân tách hai nhĩm (categories)

Giả thiết phương trình của siêu phẳng trong khơng gian Rm là:

ℎ𝜃𝜃(𝑋𝑋) = 𝜃𝜃0+𝜃𝜃1𝑥𝑥1+ 𝜃𝜃2𝑥𝑥2+ …+ 𝜃𝜃𝑚𝑚𝑥𝑥𝑚𝑚 (3.1) Vì phương trình siêu phẳng khơng cĩ được ngay mà phải thơng qua tính tốn, nên (3.1) cịn được gọi là giảđịnh (hypothesis) – một hàm số cĩ dạng giống với siêu phẳng, qua quá trình huấn luyện, giả định sẽ thay đổi các hệ số và kết quả là trở thành siêu phẳng.

3.4.4.3. Hàm mất mát (loss function)

Việc tìm phương trình của siêu phẳng cũng chính là tìm các hệ số 𝜃𝜃0,𝜃𝜃𝑚𝑚, … 𝜃𝜃𝑚𝑚, hay chính là 𝜃𝜃⃗ = [𝜃𝜃0,𝜃𝜃1, … 𝜃𝜃𝑚𝑚], với 𝜃𝜃⃗Є Rm+1trong hàm giảđịnh. Để cho việc trình bày ngắn gọn, người ta thường bỏ các dấu vector đi và viết 𝜃𝜃 =

[𝜃𝜃0,𝜃𝜃1, … 𝜃𝜃𝑚𝑚]. Tách 𝜃𝜃thành hai phần: 𝜃𝜃0 và vector [𝜃𝜃1, … 𝜃𝜃𝑚𝑚], ta cĩ thể gọi 𝜃𝜃0 là

bias và [𝜃𝜃1, … 𝜃𝜃𝑚𝑚] là weight của phương trình giảđịnh.

Nếu viết lại𝑥𝑥 = [𝑥𝑥1,𝑥𝑥2 … 𝑥𝑥𝑚𝑚] thành 𝑥𝑥 = [𝑥𝑥0,𝑥𝑥1,𝑥𝑥2 … 𝑥𝑥𝑚𝑚] với x0 = 1, phương trình (3.1) sẽ trở thành:

ℎ𝜃𝜃(𝑋𝑋) = 𝜃𝜃𝑇𝑇.𝑋𝑋 (3.2) Như vậy, nếu hàm giả định, kết hợp với đầu và X, ta cĩ thể tính ra vị trí của X so với giả định trong khơng gian Rm. Ví dụ trong Hình3-8, thay giá trị của X vào phương trình giả định cho kết quả ℎ𝜃𝜃(𝑋𝑋) = < 0 thì mẫu X này nằm bên trái siêu phẳng (nhĩm I), cịn nếu kết quả ℎ𝜃𝜃(𝑋𝑋) = > 0 thì X nằm bên phải siêu phẳng (nhĩm II), nếu ℎ𝜃𝜃(𝑋𝑋) = = 0 thì X nằm trên siêu phẳng. Như đã nĩi, để cĩ được siêu phẳng, cần khởi tạo một giảđịnh cĩ dạng hàm số giống với hàm số của siêu phẳng, và khởi tạo giảđịnh chính là tạo ra θ bất kỳ. Trong thực tế, cách khởi tạo θ = [0, 0, … 0] được sử dụng nhiều.

Từ cơng thức giả định khởi tạo ban đầu, ứng với mỗi đầu vào X, mơ hình sẽ phân loại X một nhĩm cụ thể (nhĩm I hay nhĩm II). Từ dạng khởi tạo ngẫu nhiên ban đầu, giả định thường cho kết quả khơng chính xác. Khi so sánh ℎ𝜃𝜃(𝑋𝑋) với nhãn y thực thế, sẽ cĩ một mức chênh lệch nhất định. Tổng bình phương của tất cả các mức chênh lệch này khi đầu vào là tất cả các mẫu trong tập huấn luyện được gọi là mất mát (hay chênh lệch giữa giá trị dự đốn và giá trị thực tế). Hàm mất mát được ký hiệu là J(θ), được tính theo cơng thức sau:

J(θ) = 21𝑛𝑛�(ℎ𝜃𝜃�𝑋𝑋(𝑖𝑖)− 𝑦𝑦(𝑖𝑖))�2

𝑛𝑛

𝑖𝑖=1

(3.3)

Hàm sigmoid

Trong trường hợp phân loại nhị phân, kết quảđầu ra chỉ mang hai giá trị 0 hoặc 1 (thuộc nhĩm I hoặc nhĩm II), hàm giả định sẽ cĩ dạng của hàm sigmoid (Hình 3-9) và phương trình (3.2) được viết lại như sau:

ℎ𝜃𝜃(𝑋𝑋) = 𝑙𝑙(𝜃𝜃𝑇𝑇.𝑋𝑋) ( 3.4) Với g là hàm sigmoid: 𝑙𝑙(𝑧𝑧) = 1+1𝑒𝑒−𝑧𝑧

Hình 3-9 Đồ thị hàm số hàm sigmoid

Hàm sigmoid cĩ giá trị thuộc khoảng (0; 1), g(z)≈ 0 với z vơ cùng nhỏ và g(z)≈ 1 với z vơ cùng lớn. Nếu lấy 0.5 làm ngưỡng để phân chia giữa hai nhĩm: ℎ𝜃𝜃(𝑋𝑋) < 0.5 X thuộc nhĩm I, ℎ𝜃𝜃(𝑋𝑋)≥ 0.5 và X thuộc nhĩm II) - Hình 3- 10. Với g(z) = 0.5 tại z = 0, vậy mọi 𝑧𝑧< 0  X thuộc nhĩm I và 𝑧𝑧 ≥ 0  X thuộc nhĩm II, hay:

• 𝜃𝜃𝑇𝑇.𝑋𝑋 < 0 ℎ𝜃𝜃(𝑋𝑋) = 𝑙𝑙(𝜃𝜃𝑇𝑇.𝑋𝑋) = 0  X thuộc nhĩm I

• 𝜃𝜃𝑇𝑇.𝑋𝑋≥ 0 ℎ𝜃𝜃(𝑋𝑋) = 𝑙𝑙(𝜃𝜃𝑇𝑇.𝑋𝑋) = 1  X thuộc nhĩm II

Hình 3-10 Hàm giả định, trường hợp lấy ngưỡng bằng 0.5

Cơng thức tính hàm mất mát

Vì ℎ𝜃𝜃(𝑋𝑋) thuộc khoảng (0; 1) và y chỉ mang giá trị 0 hoặc 1, hàm mất mát

61 𝐽𝐽(𝜃𝜃) = �−log�ℎ𝜃𝜃(𝑋𝑋)� 𝑣𝑣ớ𝑖𝑖 𝑦𝑦= 1

−log� 1− ℎ𝜃𝜃(𝑋𝑋)� 𝑣𝑣ớ𝑖𝑖 𝑦𝑦= 0

(3.5)

Đồ thị hàm số y = -log(x) được mơ tả trong Hình 3-11, với x thuộc khoảng (0; 1) thì y thuộc (+∞; 0), hay giá trị của hàm mất mát bằng +∞ nếu kết quả dự đốn ℎ𝜃𝜃(𝑋𝑋) và kết quả thực tế y cĩ khác biệt lớn và mất mát bằng 0 nếu ℎ𝜃𝜃(𝑋𝑋) và y trùng nhau (dựđốn đúng). Ví dụng ℎ𝜃𝜃(𝑋𝑋) = 0.9: 𝐽𝐽(𝜃𝜃) = �−log�ℎ𝜃𝜃(𝑋𝑋)�= 0.1054 𝑣𝑣ớ𝑖𝑖𝑦𝑦 = 1 −log� 1− ℎ𝜃𝜃(𝑋𝑋)�= 2.3026 𝑣𝑣ớ𝑖𝑖𝑦𝑦 = 0 (3.6) Với kết quả dựđốn ℎ𝜃𝜃(𝑋𝑋) = 0.7, nếu thực tế nhãn y bằng 1 thì hàm hàm mất mát cĩ giá trị 0.1054; nếu thực tế nhãn y bằng 0 thì hàm mất mát cĩ giá trị 2.3026, do 0.9 gần với 1 hơn nên mất mát trong trường hợp y = 1 nhỏhơn trường hợp y = 0.

Vì y chỉ mang giá trị 0 hoặc 1 nên cơng thức 3.6 cĩ thể viết tĩm gọn lại như sau: 𝐽𝐽(𝜃𝜃) = −𝑛𝑛1� 𝑦𝑦𝑙𝑙𝑙𝑙𝑙𝑙( 𝑛𝑛 𝑖𝑖=1 ℎ𝜃𝜃�𝑋𝑋(𝑖𝑖)�) + (1− 𝑦𝑦)log (1− ℎ𝜃𝜃�𝑋𝑋(𝑖𝑖)�) (3.7) Từ cơng thức (3.7) cĩ thể suy ra cơng thức (3.8) như sau :

• Trường hợp y = 0: 𝐽𝐽(𝜃𝜃) = −log (1− ℎ𝜃𝜃�𝑋𝑋(𝑖𝑖)�) (3.8)

• Trường hợp y = 1 : 𝐽𝐽(𝜃𝜃) = −log (ℎ𝜃𝜃�𝑋𝑋(𝑖𝑖)�)

Hình 3-11 Đồ thị hàm số y = -log(x)

Tối thiểu hĩa hàm mất mát bằng phương pháp gradient descent

Để cơng thức của giả định tiến gần tới hàm siêu phẳng, cần update θ (các hệ số weight và bias); một trong các cách update weight và bias là dùng thuật

62 tốn gradient descent. Cách tiếp cận này dựa trên tính hội tụ của hàm số lồi: nếu hàm mất mát J(θ) là một hàm lồi, cĩ thểtìm điểm cực tiểu địa phương của hàm đĩ nhờ các “bước đi” nhỏ từ một điểm bất kỳ. Phương pháp cụ thể được trình bày dưới đây.

Đạo hàm của hàm số tại một điểm: là tiếp tuyến tại điểm đĩ của đồ thị hàm số. Đạo hàm mang giá trị dương nếu độ dốc dương (theo hướng từ trái qua phải, tiếp tuyến chếch lên trên); mang giá trị âm nếu độ dốc âm (theo hướng từ trái qua phải, tiếp tuyến chếch xuống dưới). Đạo hàm của hàm J(θ) tại một điểm bất kỳ chỉra hướng dốc nhất của đồ thị tại điểm đĩ.

Tốc độ học (learning rate - α):được coi như “bước đi” từ giá trị θ cũ đến θ mới (được update từ θ cũ) theo hướng dốc nhất mà đạo hàm tìm được, khiến cho việc tiến dần tới điểm cực tiểu nhanh hơn. Tốc độ học càng lớn thì “bước đi” càng dài, khiến cho việc tiến xuống dốc nhanh hơn, nhưng cĩ thể khơng bao giờ chạm đến điểm cực tiểu (hội tụ) do “bước đi” quá lớn cĩ thể vượt qua giá trị cực tiểu đĩ để sang sườn dốc bên cạnh. Ngược lại, tốc độ học nhỏ giúp tránh tình trạng trên nhưng vì “bước đi” quá nhỏ khiến việc “xuống dốc” lâu hơn, tốn nhiều chi phí tính tốn hơn. Việc lựa chọn tốc độ học cĩ thể tùy từng bài tốn, thử qua nhiều giá trị từ khoảng 10-4đến 10.

Hội tụ: Từđiểm bất kỳtrên đồ thị hàm số, sau khi tiến những “bước nhỏ” xuống gần cực tiểu địa phương và đã chạm đến điểm cực tiểu thì đạo hàm hàm số tại đây bằng 0 (tiếp tuyến tại điểm cực tiểu cĩ độ dốc bằng 0)  “bước đi” tiếp theo cĩ độ dài bằng 0  θ khơng được update. Đây chính là điểm hội tụ, hàm

mất mát cĩ giá trị cực tiểu (cực tiểu địa phương). Điểm hội tụ chỉ cĩ thểtìm được khi hàm mất mát là một hàm lồi.

Hình 3-12 mơ tả phương pháp tìm cực tiểu của hàm J(θ0,θ1) bằng thuật tốn gradient descent. Nếu điểm khởi tạo là điểm 1 (initialization point 1) thì dựa vào gradient descent sẽ tìm được điểm cực tiểu địa phương, cịn nếu khởi tạo tại điểm 2 (initialization point 2) sẽtìm được tồn cục. Việc tìm được điểm cực tiểu nào phụ thuộc vào điểm khởi tạo ban đầu, và điểm tìm được cũng khơng xác định được là cực tiểu địa phương hay cực tiểu tồn cục. Khi sử dụng thuật tốn này, người ta chấp nhận phương án cực tiểu tìm được cĩ thể là cực tiểu địa phương, khơng phải là điểm mà tại đĩ hàm mất mát nhỏ nhất (cực tiểu tồn cục).

Hình 3-12 Phương pháp tìm điểm cực tiểu bằng thuật tốn gradient descent

Để update θ, cần update tất cả các thành phần bias (θ0) và weight (từ θ1 đến θm), dựa trên cơng thức (3.9).

𝜃𝜃𝑖𝑖 = 𝜃𝜃𝑖𝑖 − 𝜕𝜕

𝜕𝜕�𝜃𝜃𝑖𝑖�𝐽𝐽(𝜃𝜃)∗ 𝛼𝛼

(3.9)

Như vậy, giá trị mỗi “bước đi” từ θj cũ đến θj mới là 𝜕𝜕

𝜕𝜕�𝜃𝜃𝑗𝑗�𝐽𝐽(𝜃𝜃)∗ 𝛼𝛼. Từ (3.5) và (3.9), cĩ thể suy ra: 𝜃𝜃𝑖𝑖 = 𝜃𝜃𝑖𝑖 − 𝛼𝛼 �(ℎ𝜃𝜃�𝑋𝑋(𝑖𝑖)− 𝑦𝑦(𝑖𝑖))� 𝑛𝑛 𝑖𝑖=1 𝑋𝑋𝑖𝑖 (3.10) 3.4.4.4. Lề trong thuật tốn SVM

Hình 3-13 Các siêu phẳng phân loại lớp hình vuơng xanh và lớp hình trịn đỏ

Trong bài tốn phân loại nhị phân, cĩ thể tồn tại nhiều siêu phẳng phân tách hai lớp (Hình 3-13). Vậy cần cĩ một tiêu chí để xem xét siêu phẳng nào là

64 tốt nhất. Tiêu chí đĩ chính là “lề” (margin); lề của một lớp là khoảng cách từ các điểm gần siêu phẳng của lớp đĩ nhất tới siêu phẳng.

Một thuật tốn phân loại tốt là thuật tốn tìm ra siêu phẳng cĩ lề của hai class bằng nhau và lớn nhất cĩ thể. Hình 3-14 (trái) minh họa siêu phẳng cĩ lề hai bên khơng bằng nhau, lề của lớp hình trịn đỏ nhỏhơn lề của lớp vuơng xanh,

Nhiễu trên điện não đồ

Ưu và nhược điểm của điện não đồ