Chứng minh tính hội tụ của thuật toán perceptron- 123docz.net

Chương II CÁC KIẾN THỨC NỀN TẢNG VỀ HỌC THỐNG KÊ

II.3 Perceptron trong bài toán trích chọn thông tin

II.3.5 Chứng minh tính hội tụ của thuật toán perceptron

Vấn đề cần quan tâm ở đây là ánh xạ từ đầu vào xXđến đầu ra yY. Ví dụ: X là tập các câu đầu vào, Y là tập các chuỗi nhãn có thể, ta giả sử:

 Các ví dụ huấn luyện là (xi, yi) với i = 1…n.

 Hàm GEN liệt kê tập các đầu ra có thể GEN(x) cho một đầu vào x.

 Một biểu diễn ánh xạ mỗi (x,y) XxY đến một vectơ đặc trưng (x,y)Rd.

 Tham số vectơ  Rd.

Các thành phần GEN, và  xác định ánh xạ từ một đầu vào x đến một đầu ra F(x) thông qua công thức:

Với (x, y),  là một tích trong s s s(x, y). Việc học của mô hình chính là việc sử dụng các ví dụ huấn luyện để thiết lập giá trị của tham số  .

Hình 10: Một cách thể hiện khác của thuật toán perceptron

Bài toán gán nhãn trong phần 2 có thể được biến đổi thành thuật toán này bằng cách thiết lập như sau:

o Các mẫu huấn luyện là các cặp câu/chuỗi được gán nhãn: i  i n w i

x  1: và

 i n

i t i

y  1: với i = 1…n.

o Giả sử có tập các nhãn có thể T, đặt GEN(w[1:n]) = Tn. Ví dụ, hàm GEN ánh xạ một câu đầu vào w[1:n] vào tập tất cả các chuỗi nhãn độ dài n.

Đầu vào: Các ví dụ huấn luyện (xi, yi).

Khởi tạo:  = 0.

Thuật toán:

Với t = 1…T, i = 1…n.

Tính zi = arg max ( )

zGEN (xi, z). . Nếu zi ≠ yi, thì

Đầu ra: tham số 

o Biểu diễn (x,y) = (w[1:n], t[1:n]) được định nghĩa thông qua vectơ đặc trưng cục bộ  (h,t), trong đó (h,t) là một cặp ngữ cảnh/nhãn.

Với các giả thiết được thiết lập như trên ta thấy thuật toán trong hình II.6 chỉ là một trường hợp của thuật toán trong hình II.8.

Định lý sau đây chứng minh tính hội tụ của thuật toán trên.

II.3.5.1 Trường hợp dữ liệu có thể phân tách được

Phần này sẽ mô tả các định nghĩa và định lý để chứng minh tính hội tụ của thuật toán trình bày trong phần trên

Định nghĩa 1 :

Kí hiệu: !GEN(xi) = GEN(xi) – {yi}.

Nói cách khác, !GEN(xi) chính là tập các đầu ra không đúng đối với mẫu xi. Ta nói chuỗi huấn luyện (xi, yi), với i = 1…n, có thể phân tách được với lề  0, nếu tồn tại vectơ U với ||U|| = 1 thỏa mãn:

), ( GEN

, z xi

i  

 U. (xi,yi) - U. (xi,z). (||U|| là một 2-norm của U, ví dụ ||U|| = sUs2 )

Định lý 1: Với bất cứ chuỗi huấn luyện (xi, yi) có thể phân tách được bởi lề  >0, khi đó thuật toán perceptron trong hình II.7 sẽ có:

Số lượng lỗi

2 2



 R .

Trong đó R là một hằng, với i,z !GEN(xi) || (xi,yi) - (xi,z)||R. Chứng minh:

Gọi -k là trọng số trước khi lỗi thứ k xảy ra. Ta có -1 = 0. Giả sử lỗi sai thứ k xảy ra ở mẫu thứ i. Gọi z là đầu ra thực tế của mẫu này (z là phần tử thuộc GEN(xi) mà ( , ).x zi k lớn nhất).

Thao tác cập nhật của thuật toán:

1 ( , ) ( , )

k k

i i i

x y x z

      

Nhân vô hướng 2 vế của phương trình trên với vector U:

. k 1 . k . ( ,i i) . ( , )i . k U  U  U x y  U x z U .

Bất đẳng thức có được từ tính chất của U được cho trước ở định nghĩa 1 Vì  -1 = 0 nên U.-1 = 0. Do đó quy nạp theo k ta được:

U.-k+1  k (k).

Theo tính chất của tích vô hướng, ta có:

1 1 1

. k . k k

k U   U      (1) Ta cũng có thể xác định được cận trên của  k 1 2:

2 2 2 2

1 2

( , ) ( , ) 2. .( ( , ) ( , ))

k k k k

i i i i i i

x y x z x y x z R

               

Có được bất đẳng thức trên là do giả thiết ( ,x yi i) ( , )x zi Rvà

.( ( , ) ( , )) 0

i i i

x y x z

     , vì z là phần tử cho ( , ).x zi k lớn nhất.

Theo quy nạp ta suy ra:

1 2 2

k kR

   . (2)

Từ (1) và (2) suy ra:

2 2 k 1 2 2

k     kR .

Vậy ta có:

k  R2/2.(đpcm)

Định lý này chỉ ra rằng, nếu có một vectơ tham số U tạo ra 0 lỗi trên tập huấn luyện thì sau một số hữu hạn lần lặp, thuật toán sẽ hội tụ tới giá trị tham số không gây ra lỗi. Quan trọng là số lượng lỗi không phụ thuộc vào số lượng các đầu ra có thể của mỗi mẫu huấn luyện (ví dụ: kích thước của GEN(xi) đối với mỗi i). Nó

chỉ phụ thuộc vào độ phân tách của dữ liệu huấn luyện, trong đó phân tách được định nghĩa như trên. Điều này rất quan trọng, do trong nhiều bài toán NLP, GEN(x) có thể có kích thước là hàm mũ đối với kích thước của các đầu vào. Có thể nói tất cả các kết quả được sinh ra và tính hội tụ của thuật toán trong phần này đều phụ

thuộc vào định nghĩa về khả năng phân tách, hơn là kích thước của GEN.

Hai câu hỏi được đặt ra. Thứ nhất, thuật toán có thể chấp nhận được trong trường hợp dữ liệu huấn luyện là không thể phân tách. Thứ hai, hiệu suất của thuật toán trên mẫu huấn luyện là rất tốt, nhưng đối với một mẫu kiểm tra thô mới thì

sao? Phần tiếp theo ta sẽ đề cập đến việc mở rộng thuật toán để trả lời cả hai câu hỏi trên.

II.3.5.2 Trường hợp dữ liệu không thể phân tách được

Định nghĩa 2: Cho một chuỗi (xi, yi), đối với mỗi cặp U, . Kí hiệu:

. U

mi  (xi,yi) - max !GEN( )

z U. (xi,z),

 i

i  m

 max 0, ,



 ni i DU, 12.

Giá trị DU,là độ đo khoảng cách của U phân tách dữ liệu huấn luyện với lề . DU,= 0, nếu vectơ U phân tách dữ liệu với ít nhất lề . Nếu U phân tách

phần lớn các mẫu với lề , nhưng có một số mẫu không được gán nhãn đúng hoặc có lề nhỏ hơn , khi đó DU,sẽ có giá trị nhỏ (relative small value).

Định lý 2: Với mọi chuỗi huấn luyện (xi,yi), thuật toán perceptron (được mô tả ở hình II.6) tại lần duyệt thứ nhất có số lỗi là k, ta có:

2 , , 2

( )

min U

R D

k 

 

  .

Trong đó R là một hằng số sao cho với mọi i, mọi z thuộc !GEN(xi) thoả mãn ( ,x yi i) ( , )x zi Rvà hàm min được xét với mọi  > 0 và U = 1.

Chứng minh.

Ta chuyển hàm (x,y)  Rd thành hàm ‟(x,y)  Rd+n như sau:

- Với i = 1…d, ‟i(x,y) = i(x,y).

- Với j = 1…n:

o nếu (x,y) = (xj,yj), thì ’d+j(x,y) = 

o ngược lại, ’d+j(x,y) = 0.  là một tham số dương.

Tương tự, với mỗi cặp U,  và các giá trị i tương ứng (được định nghĩa 1 ở phần II.3.5.1), ta định nghĩa U‟Rd+n:

- Với i =1…d: U’i = Ui.

- Với j = 1…n: U’d+j(x,y) = i/.

Từ các định nghĩa trên có thể dễ dàng chứng minh các kết quả sau:

, ( ),i '. '( ,i i) '. '( , )i

i z GEN x U x y U x z 

       ,

2 2

, ( ),i '( ,i i) '. '( , )i

i z GEN x x y U x z R

         ,

2 2 2 2 2 2

' i / 1 U, /

U  U    D   .

Từ đó có thể suy ra vector U'/ U'2(chuẩn hoá U’ để có chuẩn bằng 1) phân tách dữ liệu với giá trị lề / 1DU2, /2. Theo định lí 1, điều này có nghĩa là

lần duyệt thứ nhất của thuật toán perceptron với biểu diễn U’ có số lỗi sai tối đa:

2 2

2 2 ,

max 2

1 /

( ) ( ) DU

k R 



 

    .

Tuy nhiên, vì tham số trọng số cho việc thay đổi biểu diễn, thêm các đặc trưng ‟d+j, chỉ ảnh hưởng tới một mẫu của dữ liệu huấn luyện và không ảnh hưởng tới dữ liệu test, nên lần duyệt thứ nhất của thuật toán với biểu diễn  và ‟ là như nhau. Do đó, thuật toán perceptron áp dụng cho biểu diễn ban đầu  cũng chỉ mắc nhiều nhất kmax() lỗi trong lần duyệt thứ nhất trên dữ liệu huấn luyện.

Chọn   RDU, để tối thiểu hoá kmax(), ta được kmax() = (R D2U,)2



 .

Từ đó suy ra điều phải chứng minh.

II.3.5.3 Trường hợp tổng quát

Định lý 1 và 2 cho thấy có thể hạn chế số lượng lỗi đối với các mẫu huấn luyện. Nhưng câu hỏi đặt ra là liệu có thể chấp nhận được kết quả trong trường hợp thực hiện thuật toán với tập dữ liệu thử nghiệm mới không? Ta có kết quả của một số định lý cho thấy, nếu thuật toán perceptron chỉ có một số ít các lỗi trên một tập dữ liệu huấn luyện, thì sau đó nó cũng có thể thực hiện tốt như vậy với các mẫu mới. Trong phần này sẽ trình bày một số các kết quả đã được trình bày trong [7] và

xuất phát từ kết quả của Helmbold và Warmuth 95.

Nhận thấy rằng, thực tế voted-perceptron và averaged perceptron có thể xem như là tương tự nhau. Trong đó averaged perceptron có lợi điểm hơn ở chỗ một mã hóa với các tham số trung bình có thể được thực hiện tốt hơn là n mã hóa với việc thiết lập n tham số.

Trong thuật toán voted-perceptron, ta có một giả thiết là có một phân phối P(x,y) chưa biết trên tập XxY, và cả mẫu huấn luyện và mẫu kiểm thử đều không phụ thuộc.

Định lý 3: (Freund và Schapire 99)

Giả sử trong trường hợp tổng quát tất cả các mẫu là ngẫu nhiên. Một chuỗi mẫu huấn luyện {(x1, y1),…,(xn, yn)} và (xn+1, yn+1) là mẫu kiểm thử. Khi đó

xác suất (trên toàn bộ n mẫu) mà thuật toán voted-perceptron không đoán nhận được yn+1 với đầu vào xn+1 lớn nhất là:

Trong đó En+1[] là kỳ vọng của n+1 mẫu, R và DU,được định nghĩa như trên, min được xác định trên  >0 và ||U||=1.

Chứng minh tính hội tụ của thuật toán perceptron

Các phương pháp tối ưu số