hàm phân biệt
Xét một bài tốn nhận dạng điển hình là bài tốn phân loại hai lớp. Ta đã biết là đối với bài tốn phân loại hai lớp nếu tìm được một hàm d(t) trong đó t là véc tơ đặc trưng của dạng (hay cá thể) cần phân lớp vàd(t) có tính chất sau:
d(t) = 1 nếut∈C1 0 nếut∈C2. (3.13)
trong đó,C1;C2 ký hiệu cho lớp dạng thứ nhất và thứ hai, thì hàm d(t) sẽ được gọi làhàm quyết địnhcho lời giải bài toán phân loại hai lớp trên.
Tuy nhiên, hàm d(t) là chưa biết và ta muốn tìm một hàm xấp xỉ cho nó theo một tiêu chuẩn tối ưu nào đó. Khi đó lời giải của bài toán này được tiếp cận theo cách sử dụng kết quả quan sát thực nghiệm về các véc tơ dạng t để ước lượng véc tơ tham sốx=θ của một hàm xấp xỉ chod(t) ở dạngD(t):=φT(t)θ với giả thiết là φ(t)T = (ϕ1(t), . . . ,ϕK(t)) trong đó ϕ1(t), . . . ,ϕK(t) là các hàm số độc lập tuyến tính đã biết, nghĩa làD(t) sẽ có dạng là một tổ hợp tuyến tính của các hàm cơ sở sau: D(t) = K ∑ i=1 θiϕi(t) =φT(t)θ (3.14)
Hàm D(t) xác định ở (3.14) sẽ được gọi là hàm phân biệt tuyến tính và véc tơ tham số của nó sẽ được xác định sao cho với véc tơ x= θ được chọn thì hàm mục tiêu
J(x) =E[d(t)−φT(t)x]2 (3.15) sẽ đạt cực tiểu. Nói cách khác, chúng ta muốn tìm một ước lượng cho véc tơ tham số x=θ của hàm phân biệt D(t) sao cho với véc tơ tham số x=θ hàm phân biệt D(t) =φT(t)θ được chọn sẽ có sai số trung bình bình phương nhỏ nhất.
Nếu giả thiết là đã tìm được hàm phân biệt tuyến tính D(t) = φT(t)θ thì do
d(t)≈D(t) theo ý nghĩa trên nên ta sẽ sử dụng hàm phân biệt tuyến tính D(t)
để phân loại một dạng cần phân lớp có véc tơ đặc trưng quan sát được làt theo quy tắc sau:
• Nếu D(t)≥ 1
2 thì xếp dạng có véc tơ đặc trưng tvào lớpC1.
• Nếu D(t)< 1
2 thì xếp dạng có véc tơ đặc trưng tvào lớpC2
Bây giờ ta xét bài tốn tìm véc tơ tham số θ làm cực tiểu hàm J(x) xác định trong cơng thức (3.15). Khi đó ta thu được nghiệmθ ở dạng:
θ =M −1E[φ(t) d(t)] (3.16) trong đó
M =E[φ(t)φT(t) ] (3.17)
và giả thiết là tồn tại ma trận nghịch đảoM−1.
Ta có nhận xét là chúng ta khơng thể xác định được nghiệm đúng θ theo các cơng thức (3.16); (3.17) vì các hàm phân phối xác suất của các lớp dạng đều chưa biết. Tuy nhiên, nếu giả thiết cho trước một tập luyện có hướng dẫn các quan sát về các cá thể của khơng gian dạng ở dạng sau(t1;s1);. . .;(tn;sn)trong đó sk là chỉ số lớp của véc tơ đặc trưng tk hay d(tk) = sk với mọi k =1;n và
sk ∈ {0; 1} thì với mỗi xấp xỉ cho véc tơ θ là véc tơ xn, ta sẽ thu được một quan sát không chệch cho hàm hồi quy J(x) ở dạng d(tk)−φT(tk)xk 2 và tương ứngφ(tn) d(tn)−φT(tn)xn cho đạo hàm của hàm hồi quy này. Vì vậy, nghiệmx=θ của bài tốn cực trị hàmJ(x) có thể xác định bằng sử dụng thuật tốn xấp xỉ ngẫu nhiên Robbins - Monro có dạng sau:
xn+1 =xn +anφ(tn) [d(tn)−φT(tn)xn ] (3.18) trong đóx1 là một véc tơ chọn trước thích hợp và an là hệ số hiệu chỉnh chọn tối ưu theo cách đã xét ở thuật toán Robbins - Monro nhiều chiều.
Chú ý.
d(t) là một hàm ngẫu nhiên của tnên nó xác định sự phân lớp của t và với mỗi giá trị cho trước của t thì có một xác suất P(C1|t) để d(t) =1 và một xác suất
P(C2|t)để d(t) =0. Lấy kỳ vọng của hàm ngẫu nhiênd(t) ta được:
Ed[d(t)] =1.P(C1|t) +0.P(C2|t) =P(C1|t) (3.19) ở đó chỉ số dưới d thể hiện việc lấy kỳ vọng qua phân phối của d với mỗi t
cho trước. Do đód(t)được xem như là tổng hợp của một thành phần tất định là
P(C1|t)cộng với thành phần ngẫu nhiên ζ(t) có vọng số bằng 0 hay
d(t) =P(C1|t) +ζ(t) (3.20) Từ công thức (3.13) nênd(t) =d2(t). Vì vậy ta có:
Eζ[ζ(t)] =Ed[d(t)]−P(C1|t) =0
Eζ[ζ2(t)] =Ed[d2(t)−2d(t)P(C1|t) +P2(C1|t)]
=P(C1|t)−P2(C1|t)
(3.21)
Do đó, tiêu chuẩn trung bình bình phương trở thành:
J(x) =E[d(t)−φT(t)x]2
=EtEd[(d(t)−φT(t) x)2]
=EtEζ[P(C1|t)−φT(t)x +ζ(t)]2
=Et[P(C1|t)−φT(t)x]2+Et[P(C1|t)−P2(C1|t)]
Số hạng thứ haiEt[P(C1|t)−P2(C1|t)] độc lập với x và trên thực tế hàm phân biệt D(t) =φT(t)θ làm cực tiểu J(x) chính là xấp xỉ trung bình bình phương của xác suất có điều kiện P(C1|t). Vì P(C1|t) khơng biết và khơng quan sát được nên ta sử dụng hàm phân biệtD(t)để thay thế hàm đã biết d(t)trong thuật toán xấp xỉ ngẫu nhiên.
Bây giờ ta nói đến điều kiện hội tụ của thuật tốn ( 3.18) vừa chỉ ra ở trên.
Định lý 3.3.1. Thuật tốn (3.18) hội tụ theo nghĩa trung bình bình phương và
hội tụ với xác suất 1 về nghiệmθ nếu các điều kiện sau được thỏa mãn:
1. Các véc tơ của tập luyện t1;t2;. . . là độc lập cùng phân phối với chỉ số lớp tương ứng của chúng là đã cho trước.
2. ∑∞n=1an =∞ và∑∞n=1a2n<∞.
3. Các ma trận E[φ(t)φT(t) ] vàE[φ(t)φT(t)φ(t)φT(t) ]tồn tại và xác định dương.
4. Tồn tại các véc tơ hàng E[φ(t)P(C1|t)] vàE[φ(t)φT(t) φ(t) P(C1|t)].
Chứng minh. Ta sẽ sử dụng định lý 2.2.1 về sự hội tụ của thuật toán Dvoretzky xét cho trường hợp nhiều chiều để chứng minh định lý này.
Thuật toán (3.18) được viết lại như sau:
xn+1 =Tn (x1 ;. . .;xn ) +ηn (3.22) trong đó
Tn (x1 ;. . .;xn ) =xn −anφ(tn) φT(tn) [xn −θ ]
ηn =anφ(tn) [d(tn)−φT(tn) θ ]
(3.23)
và từ các giả thiết đã cho, chúng ta dễ dàng kiểm tra được ln có:
E[ηn |x1 ;. . .;xn ] =0
∞
∑
n=1
E[kηn k2]<∞ Ta có thể thay điều kiện
kTn (x1 ;. . .;xn )−θ k ≤Fnkxn −θ k (3.24)
trong thuật toán Dvoretzky bởi điều kiện yếu hơn là
EkTn (x1 ;. . .;xn )−θ k2 ≤FnEkxn −θ k2 (3.25)
để cùng với các điều kiện khác thuật toán (3.22) sẽ hội tụ. Thật vậy, từ (3.23) ta có:
EkTn (x1 ;. . .;xn )−θ k2 =Ek(I−anφ(tn) φT(xn) )(xn −θ )k2 Vìtn vàxn độc lập nên ta có thể lấy kỳ vọng theo tn trước và thu được
EkTn (x1 ;. . .;xn )−θ k2
=Ek(I−anM )(xn −θ )k2
(3.26) trong đó
Gọiλ0 là giá trị riêng nhỏ nhất của ma trận M và lưu ý rằng 0<λ0 <∞ tương ứng với điều kiện (3) trong định lý. Do đó sẽ tồn tại một số nguyên dươngksao cho với∀n≥k,anλ0<1và
EkT n(x 1;. . .;xn)−θ k2 ≤(1−anλ0)2Ekx n−θ k2 (3.27)
Đặt Fn = (1−anλ0)2. Khi đó, điều kiện ∑∞
n=1an =∞ tương ứng với điều kiện ∏∞n=1Fn =0. Do đó hai điều kiện (3.24) và (3.25) là tương đương. Do đó định lý được chứng minh.
Nhận xét 5. Thuật tốn (3.18) cịn có thể viết dưới dạng một thuật tốn cấp hai như sau: xn+1 =xn+1 nM −1(n)φ(tn)d(tn)−φT(tn)xn M−1(n+1) = n n−1 M−1(n) − M −1(n)φ(tn)φT(tn)M−1(n) (n−1) +φT(tn)M−1(n)φ(tn)