Chiều VC về khả năng phân tách của hàm tuyến tính

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu các phương pháp phân lớp dữ liệu và ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thông​ (Trang 38 - 42)

Chiều VC (VC dimension), mang tên hai tác giả Vapnik và Chervonenkis, là một độ đo về năng lực (capacity) của một lớp hàm, ví dụ nhƣ lớp các hàm tuyến tính mà chúng ta đang quan tâm. Chúng ta đã biết rằng với một tập gồm l điểm thì sẽ cĩ 2l cách khác nhau để gán nhãn các điểm này với một trong hai −1 hoặc +1. Với mỗi phƣơng án gán nhãn, nếu cĩ thể tìm đƣợc một thành viên của họ hàm f(x,α) phân tách một cách chính xác tất cả các điểm thì chúng ta gọi tập l điểm cĩ thể bị chia tách bởi họ hàm đĩ. Chiều VC đƣợc định nghĩa nhƣ sau:

Định nghĩa 3.6. Chiều VC của một họ hàm số 𝑓(𝑥, 𝛼) là số lƣợng lớn nhất h các véc-tơ 𝑥1, … , 𝑥𝑕 cĩ thể đƣợc chia tách thành hai lớp với bất kỳ 2𝑕

cách gán nhãn nào (số lƣợng lớn nhất các véc-tơ cĩ thể bị chia tách bởi họ hàm). Nếu với bất kỳ số tự nhiên n nào đều tồn tại một tập n vec-tơ cĩ thể bị chia tách thì chiều VC của họ hàm 𝑓(𝑥, 𝛼) là vơ tận. Bây giờ chúng ta cùng trở lại với câu hỏi đã nêu: tại sao một hàm tuyến tính lại cĩ năng lực lớn hơn khi đƣợc áp dụng trọng một khơng gian nhiều chiều hơn. Định lý sau sẽ cho chúng ta biết câu trả lời [2].

Định lý 3.3. Cho một tập gồm m điểm trong khơng gian 𝑅𝑑 và chọn một điểm bất kỳ làm gốc tọa độ. Chúng ta cĩ m điểm cĩ thể bị chia tách bởi một

siêu phẳng nếu và chỉ nếu các véc-tơ vị trí của tất cả các điểm cịn lại là độc

lập tuyến tính [2].

Một hệ quả cĩ thể đƣợc rút ra từ định lý trên là chiều VC của các siêu phẳng cĩ hƣớng trong khơng gian 𝑅𝑑 chính là d + 1 bởi vì chúng ta luơn cĩ thể chọn đƣợc một tập nhiều nhất gồm d điểm độc lập tuyến tính.Nĩi một cách khác, càng làm việc trong khơng gian nhiều chiều thì các siêu phẳng càng cĩ khả năng chia tách đƣợc nhiều véc-tơ khác nhau. Do vậy, một tập điểm khơng khả tách tuyến tính trong khơng gian đặc trƣng ít chiều nhƣng ảnh của chúng trong khơng gian thuộc tính nhiều chiều hơn lại cĩ thể là khả tách tuyến tính (và do vậy thuật tốn tìm siêu phẳng với lề cực đại cĩ thể đƣợc áp dụng). Vấn đề cốt lõi ở đây là làm sao để cĩ đƣợc, hay xây dựng đƣợc, các ánh xạ đĩ.

2.3.2.2 Hàm nhân và SVM phi tuyến (Kernel function and nonlinear SVMs)

SVMs là một ví dụ điển hình của phƣơng pháp hàm nhân [2]. Trong cả bài tốn tối ƣu tìm siêu phẳng với lề cực đại (3.37) và hàm quyết định (3.42), chúng ta khơng làm việc trực tiếp với từng véc-tơ 𝑥𝑖, 𝑖 = 1, . . . , 𝑙, mà chỉ cần tới tích vơ hƣớng giữa hai véc-tơ bất kỳ. Trong bài tốn đối ngẫu, những giá trị của tích vơ hƣớng giữa hai véc-tơ 𝑥𝑖. 𝑥𝑗 đĩng vai trị là các tham số để tìm ra giá trị tối ƣu của các tham số La-grăng 𝛼𝑖. Do vậy, chúng ta chỉ cần biết cách tính đƣợc tích vơ hƣớng giữa hai ảnh véc-tơ trong khơng gian thuộc tính là cũng đủ để tìm đƣợc siêu phẳng tối ƣu trong khơng gian thuộc tính mà khơng cần biết một cách tƣờng minh khơng gian thuộc tính đĩ cĩ bao nhiêu chiều hay ảnh của mỗi véc-tơ đặc trƣng cĩ tọa độ cụ thể là bao nhiêu. Hàm số để tính đƣợc tích vơ hƣớng đĩ thƣờng đƣợc gọi là hàm nhân (kernel function) đƣợc định nghĩa nhƣ sau:

Định nghĩa 3.7. Hàm nhân K là một hàm số trên khơng gian X mà với mọi véc-tơ 𝑢, 𝑣 ∈ 𝑋

𝐾 𝑢, 𝑣 = 𝛷 𝑢 . 𝛷 𝑣 (3.44)

với Φ là một ánh xạ từ X tới một khơng gian (vơ hƣớng) thuộc tính F

𝛷 ∶ 𝑅𝑑 → 𝐹 Φ (3.45)

Một khi chúng ta cĩ thể tính đƣợc tích vơ hƣớng của hai véc-tơ trong một khơng gian đặt trƣng nào đĩ thì chúng ta cĩ thể tìm siêu phẳng tối ƣu trong khơng gian đĩ bằng cách thay các giá trị xi. xj trong (3.37) bởi K xi. xj

min 𝛼 1 2 𝑦𝑖𝑦𝑗𝛼𝑖𝛼𝑗𝐾(𝑥𝑖. 𝑥𝑗) 𝑙 𝑖,𝑗 =1 − 𝛼𝑖 (3.46) 𝑙 𝑖=1 𝑡𝑕ỏ𝑎 𝑚ã𝑛 𝑦𝑖𝛼𝑖 = 0 (3.47) 𝑙 𝑖=1 0 ≤ 𝛼𝑖 ≤ 𝐶, 𝑖 = 1, … , 𝑙. (3.48) Khi đĩ, hàm phân tách cĩ dạng: 𝑓 𝑥 = 𝑦𝑖𝛼𝑖 𝛼𝑖≠0 𝐾 𝑥𝑖. 𝑥𝑗 + 𝑏 (3.49)

Vấn đề cốt lõi bây giờ là những hàm số trên khơng gian đặc trƣng nào cĩ thể là nhân, hay là hàm số để tính đƣợc tích vơ hƣớng trên một khơng gian thuộc tính (nhiều chiều) nào đĩ?

Về lý thuyết, tất cả những hàm số thỏa mãn điều kiện Mercer sau đây đều cĩ thể là hàm nhân.

Định lý 3.4.(Mercer condition) [2] Điều kiện cần và đủ để một hàm đối

xứng khả vi liên tục 𝐾 𝑢, 𝑣 trong khơng gian 𝐿2 𝐶 (các hàm khả vi bậc 2)

𝐾 𝑢, 𝑣 = 𝑎𝑘𝑧𝑘 𝑢 ∞

𝑘=1

𝑧𝑘 𝑣 (3.50)

với các hệ số 𝑎𝑘 > 0 (ví dụ: 𝐾 𝑢, 𝑣 mơ tả một tích vơ hướng trong

khơng gian thuộc tính nào đĩ), là điều kiện

𝐾 𝑐 𝑐

𝑢, 𝑣 𝑔 𝑢 𝑔 𝑣 𝑑𝑢𝑑𝑣 ≥ 0 (3.51)

thỏa mãn với mọi hàm 𝑔 ∈ 𝐿2 𝐶 (C là một tập con (compact) của 𝑅𝑑).

Trên thực tế ứng dụng, cĩ hai loại hàm nhân đƣợc sử dụng rộng rãi nhất. Đĩ là hàm đa thức (polynomial function) và hàm RBF (radial basis function)

 Hàm nhân đa thức: là hàm số trên khơng gian Rd

cĩ dạng

𝐾 𝑢, 𝑣 = 𝑢. 𝑣 𝑝 (3.52)

Với p = 2 và d = 2, chúng ta cĩ thể xây dựng một cách tƣờng minh một ánh xạ Φ từ R2 tới R3 nhƣ sau:

𝛷 ∶ 𝑅2 → 𝑅3 (3.53)

𝑢1, 𝑢2 → 𝑢12, 2𝑢1𝑢2, 𝑢22 (3.54)

và 𝐾 𝑢, 𝑣 chính là tích vơ hƣớng của hai véc-tơ Φ(u)Φ(v) trong R3 (lƣu ý rằng một hàm nhân cĩ thể tƣơng ứng với nhiều ánh xạ). Với d > 2, chúng ta cĩ: 𝑢. 𝑣 2 = 𝑢𝑖𝑣𝑖 𝑑 𝑖=1 2 = 𝑢𝑖𝑢𝑗 𝑑 𝑗 =1 𝑑 𝑖=1 𝑣𝑖𝑣𝑗

= (𝑢𝑖𝑢𝑗)(𝑣𝑖𝑣𝑗) (𝑑,𝑑)

𝑖,𝑗 =(1,1)

(3.55)

Đây chính là tích vơ hƣớng của hai véc-tơ đặc trƣng

𝛷 𝑢 = 𝑢𝑖𝑢𝑗 𝑑, 𝑑

𝑖, 𝑗 = 1,1 , (3.56) 𝛷 𝑣 = 𝑣𝑖𝑣𝑗 𝑑, 𝑑

𝑖, 𝑗 = 1,1 , (3.57)

và số chiều của khơng gian đặc trƣng trong trƣờng hợp này là 𝑑 + 1 2 .

Một cách tổng quát hơn, số chiều của khơng gian đặc trƣng tƣơng ứng đối với hàm nhân đa thức bậc p đồng nhất (homogeneous) và khơng đồng nhất (inhomogeneous)

𝐾 𝑢, 𝑣 = 𝑢. 𝑣 𝑝 (3.58) 𝐾 𝑢, 𝑣 = 𝑢. 𝑣 + 𝑐 𝑝 (3.59)

Là 𝑑 + 𝑝 − 1𝑝 và 𝑑 + 𝑝𝑝 Số chiều này là rất lớn so với d khi giá trị của p tăng.

 Hàm nhân RBF: là hàm số cĩ dạng

𝐾 𝑢, 𝑣 = 𝑒− 𝑢−𝑣 2/2𝛿2 (3.60)

trong đĩ δ thƣờng đƣợc gọi là độ rộng (width) của hàm. Trong trƣờng hợp này, số chiều của khơng gian đặc trƣng là vơ tận, và do vậy năng lực của các hàm tuyến tính cũng trở nên khơng giới hạn.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu các phương pháp phân lớp dữ liệu và ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thông​ (Trang 38 - 42)

Tải bản đầy đủ (PDF)

(85 trang)