Chương II CÁC KIẾN THỨC NỀN TẢNG VỀ HỌC THỐNG KÊ
II.3 Perceptron trong bài toán trích chọn thông tin
II.3.5 Chứng minh tính hội tụ của thuật toán perceptron
Vấn đề cần quan tâm ở đây là ánh xạ từ đầu vào xXđến đầu ra yY. Ví dụ: X là tập các câu đầu vào, Y là tập các chuỗi nhãn có thể, ta giả sử:
Các ví dụ huấn luyện là (xi, yi) với i = 1…n.
Hàm GEN liệt kê tập các đầu ra có thể GEN(x) cho một đầu vào x.
Một biểu diễn ánh xạ mỗi (x,y) XxY đến một vectơ đặc trưng (x,y)Rd.
Tham số vectơ Rd.
Các thành phần GEN, và xác định ánh xạ từ một đầu vào x đến một đầu ra F(x) thông qua công thức:
Với (x, y), là một tích trong s s s(x, y). Việc học của mô hình chính là việc sử dụng các ví dụ huấn luyện để thiết lập giá trị của tham số .
Hình 10: Một cách thể hiện khác của thuật toán perceptron
Bài toán gán nhãn trong phần 2 có thể được biến đổi thành thuật toán này bằng cách thiết lập như sau:
o Các mẫu huấn luyện là các cặp câu/chuỗi được gán nhãn: i i n w i
x 1: và
i n
i t i
y 1: với i = 1…n.
o Giả sử có tập các nhãn có thể T, đặt GEN(w[1:n]) = Tn. Ví dụ, hàm GEN ánh xạ một câu đầu vào w[1:n] vào tập tất cả các chuỗi nhãn độ dài n.
Đầu vào: Các ví dụ huấn luyện (xi, yi).
Khởi tạo: = 0.
Thuật toán:
Với t = 1…T, i = 1…n.
Tính zi = arg max ( )
xi
zGEN (xi, z). . Nếu zi ≠ yi, thì
Đầu ra: tham số
o Biểu diễn (x,y) = (w[1:n], t[1:n]) được định nghĩa thông qua vectơ đặc trưng cục bộ (h,t), trong đó (h,t) là một cặp ngữ cảnh/nhãn.
Với các giả thiết được thiết lập như trên ta thấy thuật toán trong hình II.6 chỉ là một trường hợp của thuật toán trong hình II.8.
Định lý sau đây chứng minh tính hội tụ của thuật toán trên.
II.3.5.1 Trường hợp dữ liệu có thể phân tách được
Phần này sẽ mô tả các định nghĩa và định lý để chứng minh tính hội tụ của thuật toán trình bày trong phần trên
Định nghĩa 1 :
Kí hiệu: !GEN(xi) = GEN(xi) – {yi}.
Nói cách khác, !GEN(xi) chính là tập các đầu ra không đúng đối với mẫu xi. Ta nói chuỗi huấn luyện (xi, yi), với i = 1…n, có thể phân tách được với lề 0, nếu tồn tại vectơ U với ||U|| = 1 thỏa mãn:
), ( GEN
!
, z xi
i
U. (xi,yi) - U. (xi,z). (||U|| là một 2-norm của U, ví dụ ||U|| = sUs2 )
Định lý 1: Với bất cứ chuỗi huấn luyện (xi, yi) có thể phân tách được bởi lề >0, khi đó thuật toán perceptron trong hình II.7 sẽ có:
Số lượng lỗi
2 2
R .
Trong đó R là một hằng, với i,z !GEN(xi) || (xi,yi) - (xi,z)||R. Chứng minh:
Gọi -k là trọng số trước khi lỗi thứ k xảy ra. Ta có -1 = 0. Giả sử lỗi sai thứ k xảy ra ở mẫu thứ i. Gọi z là đầu ra thực tế của mẫu này (z là phần tử thuộc GEN(xi) mà ( , ).x zi k lớn nhất).
Thao tác cập nhật của thuật toán:
1 ( , ) ( , )
k k
i i i
x y x z
Nhân vô hướng 2 vế của phương trình trên với vector U:
. k 1 . k . ( ,i i) . ( , )i . k U U U x y U x z U .
Bất đẳng thức có được từ tính chất của U được cho trước ở định nghĩa 1 Vì -1 = 0 nên U.-1 = 0. Do đó quy nạp theo k ta được:
U.-k+1 k (k).
Theo tính chất của tích vô hướng, ta có:
1 1 1
. k . k k
k U U (1) Ta cũng có thể xác định được cận trên của k 1 2:
2 2 2 2
1 2
( , ) ( , ) 2. .( ( , ) ( , ))
k k k k
i i i i i i
x y x z x y x z R
Có được bất đẳng thức trên là do giả thiết ( ,x yi i) ( , )x zi Rvà
.( ( , ) ( , )) 0
k
i i i
x y x z
, vì z là phần tử cho ( , ).x zi k lớn nhất.
Theo quy nạp ta suy ra:
1 2 2
k kR
. (2)
Từ (1) và (2) suy ra:
2 2 k 1 2 2
k kR .
Vậy ta có:
k R2/2.(đpcm)
Định lý này chỉ ra rằng, nếu có một vectơ tham số U tạo ra 0 lỗi trên tập huấn luyện thì sau một số hữu hạn lần lặp, thuật toán sẽ hội tụ tới giá trị tham số không gây ra lỗi. Quan trọng là số lượng lỗi không phụ thuộc vào số lượng các đầu ra có thể của mỗi mẫu huấn luyện (ví dụ: kích thước của GEN(xi) đối với mỗi i). Nó
chỉ phụ thuộc vào độ phân tách của dữ liệu huấn luyện, trong đó phân tách được định nghĩa như trên. Điều này rất quan trọng, do trong nhiều bài toán NLP, GEN(x) có thể có kích thước là hàm mũ đối với kích thước của các đầu vào. Có thể nói tất cả các kết quả được sinh ra và tính hội tụ của thuật toán trong phần này đều phụ
thuộc vào định nghĩa về khả năng phân tách, hơn là kích thước của GEN.
Hai câu hỏi được đặt ra. Thứ nhất, thuật toán có thể chấp nhận được trong trường hợp dữ liệu huấn luyện là không thể phân tách. Thứ hai, hiệu suất của thuật toán trên mẫu huấn luyện là rất tốt, nhưng đối với một mẫu kiểm tra thô mới thì
sao? Phần tiếp theo ta sẽ đề cập đến việc mở rộng thuật toán để trả lời cả hai câu hỏi trên.
II.3.5.2 Trường hợp dữ liệu không thể phân tách được
Định nghĩa 2: Cho một chuỗi (xi, yi), đối với mỗi cặp U, . Kí hiệu:
. U
mi (xi,yi) - max !GEN( )
xi
z U. (xi,z),
i
i m
max 0, ,
ni i DU, 12.
Giá trị DU,là độ đo khoảng cách của U phân tách dữ liệu huấn luyện với lề . DU,= 0, nếu vectơ U phân tách dữ liệu với ít nhất lề . Nếu U phân tách
phần lớn các mẫu với lề , nhưng có một số mẫu không được gán nhãn đúng hoặc có lề nhỏ hơn , khi đó DU,sẽ có giá trị nhỏ (relative small value).
Định lý 2: Với mọi chuỗi huấn luyện (xi,yi), thuật toán perceptron (được mô tả ở hình II.6) tại lần duyệt thứ nhất có số lỗi là k, ta có:
2 , , 2
( )
min U
U
R D
k
.
Trong đó R là một hằng số sao cho với mọi i, mọi z thuộc !GEN(xi) thoả mãn ( ,x yi i) ( , )x zi Rvà hàm min được xét với mọi > 0 và U = 1.
Chứng minh.
Ta chuyển hàm (x,y) Rd thành hàm ‟(x,y) Rd+n như sau:
- Với i = 1…d, ‟i(x,y) = i(x,y).
- Với j = 1…n:
o nếu (x,y) = (xj,yj), thì ’d+j(x,y) =
o ngược lại, ’d+j(x,y) = 0. là một tham số dương.
Tương tự, với mỗi cặp U, và các giá trị i tương ứng (được định nghĩa 1 ở phần II.3.5.1), ta định nghĩa U‟Rd+n:
- Với i =1…d: U’i = Ui.
- Với j = 1…n: U’d+j(x,y) = i/.
Từ các định nghĩa trên có thể dễ dàng chứng minh các kết quả sau:
, ( ),i '. '( ,i i) '. '( , )i
i z GEN x U x y U x z
,
2 2
, ( ),i '( ,i i) '. '( , )i
i z GEN x x y U x z R
,
2 2 2 2 2 2
' i / 1 U, /
i
U U D .
Từ đó có thể suy ra vector U'/ U'2(chuẩn hoá U’ để có chuẩn bằng 1) phân tách dữ liệu với giá trị lề / 1DU2, /2. Theo định lí 1, điều này có nghĩa là
lần duyệt thứ nhất của thuật toán perceptron với biểu diễn U’ có số lỗi sai tối đa:
2 2
2 2 ,
max 2
1 /
( ) ( ) DU
k R
.
Tuy nhiên, vì tham số trọng số cho việc thay đổi biểu diễn, thêm các đặc trưng ‟d+j, chỉ ảnh hưởng tới một mẫu của dữ liệu huấn luyện và không ảnh hưởng tới dữ liệu test, nên lần duyệt thứ nhất của thuật toán với biểu diễn và ‟ là như nhau. Do đó, thuật toán perceptron áp dụng cho biểu diễn ban đầu cũng chỉ mắc nhiều nhất kmax() lỗi trong lần duyệt thứ nhất trên dữ liệu huấn luyện.
Chọn RDU, để tối thiểu hoá kmax(), ta được kmax() = (R D2U,)2
.
Từ đó suy ra điều phải chứng minh.
II.3.5.3 Trường hợp tổng quát
Định lý 1 và 2 cho thấy có thể hạn chế số lượng lỗi đối với các mẫu huấn luyện. Nhưng câu hỏi đặt ra là liệu có thể chấp nhận được kết quả trong trường hợp thực hiện thuật toán với tập dữ liệu thử nghiệm mới không? Ta có kết quả của một số định lý cho thấy, nếu thuật toán perceptron chỉ có một số ít các lỗi trên một tập dữ liệu huấn luyện, thì sau đó nó cũng có thể thực hiện tốt như vậy với các mẫu mới. Trong phần này sẽ trình bày một số các kết quả đã được trình bày trong [7] và
xuất phát từ kết quả của Helmbold và Warmuth 95.
Nhận thấy rằng, thực tế voted-perceptron và averaged perceptron có thể xem như là tương tự nhau. Trong đó averaged perceptron có lợi điểm hơn ở chỗ một mã hóa với các tham số trung bình có thể được thực hiện tốt hơn là n mã hóa với việc thiết lập n tham số.
Trong thuật toán voted-perceptron, ta có một giả thiết là có một phân phối P(x,y) chưa biết trên tập XxY, và cả mẫu huấn luyện và mẫu kiểm thử đều không phụ thuộc.
Định lý 3: (Freund và Schapire 99)
Giả sử trong trường hợp tổng quát tất cả các mẫu là ngẫu nhiên. Một chuỗi mẫu huấn luyện {(x1, y1),…,(xn, yn)} và (xn+1, yn+1) là mẫu kiểm thử. Khi đó
xác suất (trên toàn bộ n mẫu) mà thuật toán voted-perceptron không đoán nhận được yn+1 với đầu vào xn+1 lớn nhất là:
Trong đó En+1[] là kỳ vọng của n+1 mẫu, R và DU,được định nghĩa như trên, min được xác định trên >0 và ||U||=1.