0
Tải bản đầy đủ (.pdf) (68 trang)

PHÂN TÁCH TUYẾN TÍNH KHƠNG GIAN DỮ LIỆ U

Một phần của tài liệu NGHIÊN CỨU GIẢI THUẬT NAЇVE BAYES TRONG BÀI TOÁN PHÂN LOẠI VĂN BẢN (Trang 33 -33 )

Như đã biết, trong các bài tốn học cĩ giám sát (supervised learning), tồn bộ

hệ thống được xây dựng lên với mục đích từ một tập các thành thần đầu vào (các

đối tượng dữ liệu vào, với các trường dữ liệu tương ứng) sẽ được thực hiện đánh

nhãn (phân loại) thành các lớp khác nhau. Các đối tượng dữ liệu với các trường dữ

liệu tương ứng được thể hiện dưới cấu trúc của một vector nhiều chiều, vì vậy

khơng gian đầu vào sẽ được tính như một khơng gian nhiều chiều . Để thực hiện

làm được việc phân loại các lớp dữ liệu này cĩ vơ vàn cách được đưa ra, nhưng đơn

giản và dễ dàng tưởng tượng nhất đĩ là sử dụng một đường thẳng – khơng gian 2 chiều; mặt phẳng – khơng gian 3 chiều; siêu phẳng – khơng gian n chiều để thực hiện việc phân loại này. Các phương pháp phân loại truyền thống cũng thường thực hiện phân tách 2 lớp với nhau thơng qua việc xây dựng sêu phẳng như thế. Những siêu phẳng được xây dựng bằng những phương pháp cụ thể và được tinh chỉnh sao cho phù hợp vơi bộ dữ liệu của hệ thống nhất. Đường thẳng phân loại này trong nhiều cách khác nhau cĩ thể được biểu diễn dưới nhiều dạng, và đây chính là kết quả của quá trình học phân loại 2 lớp. Phương pháp Support Vector Machine được xây dựng từ ý tưởng này, tập trung chính và việc biểu diễn, và tinh chỉnh đường thẳng như vậy.

Thơng thường, đường thẳng cĩ thể được biểu diễn dưới dạng một hàm thực:

Và hàm này sẽ thực hiện phân loại khơng gian dữ liệu theo cách sau:

Đầu vào x = {x1, x2, …, xn}’ sẽ được gán vào lớp dương nếu như f(x) ≥ 0, cịn nếu ngược lại đầu vào này sẽ được phân loại vào lớp âm.

Như đã nĩi ở trên, giả định hàm f sẽ cĩ dạng là một hàm bậc nhất với dữ liệu

đầu vào (để cĩ dạng một đường thẳng – khơng gian 2 chiều; mặt phẳng – khơng gian 3 chiều; siêu phẳng – khơng gian n chiều), nghĩa là với biến số , thì hàm f(x) cĩ cơng thức tổng quát như sau:

Luận văn tốt nghiệp Nghiên cu gii thut NB trong bài tốn TC

Trang 29

Trong đĩ, bộ là các tham số để xác định chính xác hàm phân

loại (hàm quyết định) được đưa ra bởi giá trị , với quy ước của hàm dấu .

Theo cách thể hiện trên thì bộ tham số này sẽ được “học” từ tồn bộ tập dữ

liệu đầu vào cùng với các phân loại mẫu cĩ sẵn tương ứng, và khơng gian X sẽ được phân thành hai phần bởi “lát cắt” như hình dưới:

Hình 6. Lát cắt phân loại được tạo bởi siêu phẳng trong khơng gian phân loại được biểu diễn thơng qua vector w và b

3.2. LÝ THUYẾT TỐI ƯU PHI TUYẾN

Bài tốn tối ưu được phát biểu như sau:

Cho hàm và là miền xác định của x. Tìm sao cho là bé nhất ( trong trường hợp muốn tìm cực đại thì cĩ thể thay f(x) bằng -f(x)).

Hình 7. Hàm f(x) đạt cực đại tại x0 S

Chúng ta đã biết trong trường hợp x khơng bị giới hạn, thì: nếu x0 là cực trị thì

đạo hàm của f(x) tại x0 bằng 0: (điều kiện Fermat). Tuy nhiên trong

trường hợp x bị giới hạn bởi một tập S nĩi chung thì cực trị cĩ thể xảy ra tại biên của S.Tại đĩ khơng bắt buộc đạo hàm phải bằng khơng.

Luận văn tốt nghiệp Nghiên cu gii thut NB trong bài tốn TC

Trang 30

Phần sau sẽ trình bày điều kiện Karush-Kuhn-Tucker, là điều kiện để tìm cực tiểu của hàm f(x) khi x bị giới hạn bởi S. Để đơn giản, chỉ xét khi S là một tập các bất phương trình.

(trong trường hợp đầy đủ thì các S cịn phải bao gồm thêm tập các phương

trình ràng buộc: )

3.2.1.Điều kiện Karush-Kuhn-Tucker (KKT)

Điều kiện KKT được phát biểu như sau:

Xét vấn đề sau: Cực tiểu: f(x) Dựa trên: Nếu f(x) là hàm lồi tại x0, và S là tập lồi với là các hàm liên tục, khả vi tại x0 thi điều kiện cần và đủ để f(x0) là cực tiểu của f(x) là: Tồn tại u1, u2, … ,um; sao cho: với i = 1, 2, …, m với i = 1, 2, …, m là đạo hàm của f(x) và g(x) tại x0

Luận văn tốt nghiệp Nghiên cu gii thut NB trong bài tốn TC

Trang 31

Hình 8. Ý nghĩa hình học của điều kiện KKT

Trong hình trên, miền xác định S được giới hạn bởi các hàm:

Trong đĩ g1 và g2 cắt nhau tại x1, cịn g3g2 cắt nhau tại x2. A là điểm cực tiểu của hàm f(x) nếu x khơng bị giới hạn bởi S. Các đường cong đứt nét là các

đường mức mà cĩ cùng giá trị f(x). Từ hình vẽ cĩ thể phán đốn rằng chính x1

điểm cực tiểu của f(x) trong miền xác định S.

Bây giờ ta cũng xem xét x1 và x2 dưới điều kiện KKT.

Đạo hàm của g1(x) và g2(x) tại x1 là hai vector và . Đạo hàm của f(x) tại x1 là vector . Điều kiện KKT nĩi rằng nếu x1 là cực tiểu của f(x) thì tồn tại u1, u2, …, um thỏa:

với i = 1, 2, 3 với i = 1, 2, 3 Vì x1 g3(x) nên g3(x1) ≠ 0, theo điều kiện trên thì u3 = 0. Vì g1(x1) = 0 và

Luận văn tốt nghiệp Nghiên cu gii thut NB trong bài tốn TC

Trang 32

Mệnh đề này chứng tỏ rằng vector cĩ thể được phân tích một tồng tuyến tính của hai vector và . Điều này chỉ cĩ thể xảy ra khi vector – thuộc hình chĩp tạo bởi hai vector và .

Trở lại với hình vẽ, đối với điểm x1 cĩ thể thấy rằng vector – nằm giữa hai vector và nên suy ra mệnh đề KKT được thỏa mãn tại x1. Điều đĩ

chứng tỏ rằng x1 là cực tiểu của f(x) trong miền S.

Cịn đối với điểm x2 thì vector – khơng nằm giữa hai vector và. Nên sẽ

khơng tồn tại u2 và u3 để:

Do đĩ x2 khơng thỏa điều kiện KKT, x2 khơng phải là cực tiểu của f(x) trong S.

Điều kiện KKT chỉ đơn thuần là điều kiện kiểm định tính cực trị của một biến.

Nĩ khơng đưa ra cách để tìm đến nghiệm của bài tốn.

3.2.2.Lý thuyết đối ngẫu

Cho một bài tốn tối ưu (bài tốn phát biểu đầu chương), các nhà tốn học tìm ra một bài tốn tối ưu khác liên quan chặt chẽ với bài tốn đĩ. Bài tốn thứ nhất

được gọi là bài tốn gốc (primal problem), bài tốn thứ hai được gọi là bài tốn đối ngẫu (dual problem) hay cịn được gọi là bài tốn đối ngẫu Lagrangian. Dưới một vài giả thiết về tính lồi, bài tốn gốc và bài tốn đối ngẫu cĩ cùng kết quả ( cực tiểu của bài tốn gốc bằng với cực đại của bài tốn đối ngẫu). Từ nghiệm của bài tốn

đối ngẫu suy ra được nghiệm của bài tốn gốc và ngược lại.

Vấn đề đối ngẫu rất cĩ ích. Nhiều khi bài tốn gốc quá phức tạp để tìm nghiệm, người ta chuyển qua giải tốn đối ngẫu thì đơn giản hơn, và từ đĩ suy ngược ra lại nghiệm của bài tốn gốc. Phương pháp SVM cĩ dùng đến phương pháp đối ngẫu này.

Để đơn giản ở đây chỉ trình bày bài tốn gốc cĩ miền giới hạn là tập các bất

phương trình: S = {gi(x): gi(x) ≤ 0, i = 1, 2, … , m}. Phát biểu bài tốn đối ngẫu: Cho bài tốn gốc: Cực tiểu: f(x) Dựa trên: g(x) ≤ 0 với i = 1, 2, … , m x Rn Thì bài tốn đối ngẫu Langrangian của nĩ là: Cực đại : Dựa trên: x Rn

Luận văn tốt nghiệp Nghiên cu gii thut NB trong bài tốn TC

Trang 33 Với

Các ui được gọi là các hệ số nhân Lagrangian.

Định lý: nếu f(x) là các hàm lồi và S là tập lồi thì kết quả bài tốn gốc và kết quả bài tốn đối ngẫu là bằng nhau, nghĩa là:

Hơn nữa nếu x0 là nghiệm của bài tốn gốc và u0 là nghiệm của bài tốn đối ngẫu thì x0 và u0 liên hệ với nhau qua điều kiện KKT của bài tốn gốc:

i = 1, 2, … , m

Đây là tính chất quan trọng vì nĩ giúp ta tìm được nghiệm của bài tốn gốc thơng qua nghiệm của bài tốn đối ngẫu sau khi đã giải bài tốn đối ngẫu.

Ý nghĩa hình học của bài tốn đối ngẫu trong mối quan hệ với bài tốn gốc

được minh họa qua ví dụ sau:

Tìm cực tiểu của f(x) với x Rn và g(x) ≤ 0

Trong mặt phẳng (z1, z2), xây dựng một tập G như sau: z1 = g(x), z2 = f(x).

Như vậy là ta đã ánh xạ khơng gian Rn vào thành một tập G trong khơng gian

R2 thơng qua ánh xạ (g,f)

Bài tốn gốc trở thành tìm điểm (z01, z02) sao cho z01≤ 0 và z02 là bé nhất. Rõ ràng (z01, z02) là điểm chỉ định trên hình vẽ.

Bây giờ cho u ≥ 0, ta phải xác định của bài tốn đối ngẫu. Vì

nên để tìm ta di chuyển đường thẳng f(x) + ug(x) = z1 + z2 = α sao cho α là bé nhất mà vẫn đảm bảo đường thẳng này cĩ giao với G. Vậy là giá trịα khi đường thẳng tiếp tuyến với G như trong hình dưới.

Luận văn tốt nghiệp Nghiên cu gii thut NB trong bài tốn TC

Trang 34

Ta đã tìm được tương ứng với một u ≥ 0 nào đĩ. Để tìm lớn nhất (mục tiêu của bài tốn đối ngẫu) ta xoay đường thẳng sao cho nĩ cắt trục tung tại

điểm lớn nhất. Rõ ràng điểm này cũng chính là điểm (z01, z02) của bài tốn gốc.

đạt được lớn nhất với hệ số gĩc đường thẳng là –u0.

Vậy nghĩa là kết quả của bài tốn đối ngẫu bằng với kết quả

của bài tốn gốc.

3.2.3.Giải bài tốn đối ngẫu bằng phương pháp giảm đạo hàm

Một phương pháp giải bài tốn đối ngẫu đơn giản là phương pháp giảm đạo hàm (Gradient Method). Ngồi ra cịn một số phương pháp khác như phương pháp

mặt phẳng cắt…

Phương pháp giảm đạo hàm dựa trên nhận xét sau về đạo hàm:

Cho một điểm uk, nếu đạo hàm thì cực trị tại uk, nếu đạo hàm thì di chuyển dọc theo vector :

với thích hợp.

Thì sẽ cải thiện được giá trị của , làm giá trị của hàm dần tiến đến cực trị, và làm giảm đạo hàm . Cứ tiếp tục tiến hành cho đến khi = 0 thì chính là nghiệm của bài tốn Đối với bài tốn đối ngẫu: Cực đại: Dựa trên: u ≥ 0; u Rm. Với

Ta cịn cĩ thêm điều kiện u ≥ 0 nên trong quá trình di chuyển phải chú ý để

Luận văn tốt nghiệp Nghiên cu gii thut NB trong bài tốn TC

Trang 35

tương ứng < 0 (sẽ làm cho uk+1,i < 0) thì ta phải thay bằng vector

như sau:

Thay vì di chuyển uk theo , ta sẽ di chuyển theo và điều kiện dừng ki tìm được cực trị tức là = 0

Phương pháp trên cho thấy rằng nếu cĩ ràng buộc thì cực trị khơng nhất thiết phải xảy ra khi = 0 mà cĩ thể xảy ra trên các đường biên khi = 0

3.3. GIẢI THUẬT SVM (SUPPORT VECTOR MACHINE)

Đây là trường hợp đơn giản nhất. Trong trường hợp này, tập mẫu là một tập cĩ thể được phân chia tuyến tính bằng một siêu phẳng. Và SVM đi tìm siêu phẳng này.

3.3.1.Giai đoạn huấn luyện SVM

Giả sử tập mẫu cĩ được gồm 1 phần tử là: ). ( )..., , ( ), , (y1 x1 y2 x2 yl,xl Trong đĩ xi Rn cịn xi {-1, 1} là phân lớp của xi.

Cần xác định một siêu phẳng mà cĩ thể tách biệt được hai lớp trên. Cĩ thể cĩ nhiều siêu phẳng như vậy và vấn đề là cần tìm ra siêu phẳng nào làm cho khoảng cách Euclid giữa hai lớp trên là lớn nhất (Hình dưới). Lúc đĩ các vector cĩ khoảng cách gần siêu phẳng nhất được gọi là support vector.

Giả sử phương trình siêu phẳng cần tìm làwzb0 trong đĩ w là vector

pháp tuyển của siêu phẳng w Rn. Ta cĩ bất hệ bất phương trình sau:

1 , 1 ) ( 1 , 1 ) ( i i i i y b z w y b z w l i 1,...,

Luận văn tốt nghiệp Nghiên cu gii thut NB trong bài tốn TC Trang 36 Hay cĩ thể viết lại là: 1 , 1 1 , 1 ) ( ) ( i i i y y b z w sign x f

Kết hợp hai điều kiện trên trên: , 1 ) ( i i i w z b y     i 1,...,l.

Lúc đĩ những support vector xi thoả mãn phương trình wxi + b = -1 thì nằm trên siêu phẳng Hi, phương trình wxi + b = 1 thì nằm trên siêu phẳng H2.

Khoảng cách cĩ dấu d1 từ gốc toạ độ đến H1 là: d1 = (1 - b)/||w|| Khoảng cách cĩ dấu d2 từ gốc toạ độ đến H2 là: d2 = (- 1 – b)/||w|| Suy ra khoảng các phân hoạch d giữa H1 và H2 là: d = |d1 – d2| = 2/||w||

Do đĩ để cĩ d lớn nhất thì ||w|| phải nhỏ nhất hay nĩi cách khác phải đi tìm cực tiểu của ||w||2 (được biến đổi một chút để dễ tìm w sau này).

Tại sao lại phải cần tìm siêu phẳng ứng với khoảng cách phân hoạch lớn nhất? Cĩ thể giải thích điều này từ lý thuyết của nguyên tắc SRM. Vì siêu phẳng này phân hoạch tập mẫu thành hai lớp tách biệt nên Remp(α) = 0. Cịn VC Confindence

thì sao? Vapnik đã chứng minh rằng nếu các điểm x1, x2, x3,…, xn nằm bên trong hình cầu bán kính R của khơng gian Rn và ||w|| A thì VC dimension của các tập siêu phẳng w.x + b = 0 là:

Trong đĩ: là phần nguyên của

Do đĩ nếu chọn d lớn thì ||w|| nhỏ, suy ra A nhỏ thì VC dimension h sẽ nhỏ. Và

đĩ là mục tiêu của nguyên tắc SRM. Hình dưới minh hoạ tính chất này của ||w||.

Bao xung quanh các điểm mẫu xi là các hình cầu bán kính 1/A. Siêu phẳng tìm

được phải khơng được cắt các hình cầu (như vậy thì mới đảm bảo điều kiện d

2/A). Nếu khơng cĩ ràng buộc này thì tập siêu phẳng bao gồm tất cả các siêu phẳng trong khơng gian Rn. Tuy nhiêu với ràng buộc này, số lượng các siêu phẳng bị giới hạn lại. Cĩ nghĩa là VC dimension của tập siêu phẳng giới hạn sẽ nhỏ hơn VC

dimension khi khơng bị giới hạn. ||w|| càng nhỏ (hay d càng lớn) thì số các siêu phẳng càng ít đi, dẫn đến VC dimension càng giảm.

Luận văn tốt nghiệp Nghiên cu gii thut NB trong bài tốn TC Trang 37 Hình 9. Lựa chọn đường thẳng cho d lớn a) Phương án để tìm cc tiu ca ||w||2 Bài tốn: tìm cực tiểu của ||w||2 theo w và b Dựa trên yi(wzib)1, i1,....,l

Là loại bài tốn tối ưu cĩ ràng buộc, trong đĩ hàm mục tiêu là một hàm lồi và miền ràng buộc cũng là một tập lồi.

Do cĩ tính lồi nên để giải bài tốn trên ta cĩ thể chuyển qua giải bài tốn đối ngẫu tương ứng. Bài tốn đối ngẫu sẽ là:

Tìm cực đại của: với u Rl, u ≥ 0

Trong đĩ:

Để giải bài tốn đối ngẫu trước tiên ta phải tìm cực tiểu của

theo w và b

Vì L là hàm hai biến w, b bậc hai khơng ràng buộc nên theo điều kiện Fermat, cực tiểu của L xảy ra tại w và b sao cho:

Luận văn tốt nghiệp Nghiên cu gii thut NB trong bài tốn TC

Trang 38

(*)

Lúc đĩ giá trị cực tiểu của L là:

Như vậy bài tốn đối ngẫu được viết lại thành:

Tìm cực đại của Dựa trên

Giải bài tốn này ta tìm được u và từ đĩ tính được w theo cơng thức (*)

Để tính b, vận dụng điều kiện KKT cho bài tốn gốc, ta cĩ được:

Do đĩ đối với một i thì cĩ hai trường hợp:

ui = 0: trong trường hợp này suy ra xi khơng nằm trên siêu phẳng biên H1 hay H2. Vì ui = 0 nên xi khơng tham gia vào việc cấu trúc w theo cơng thức (*). Những xi này là khơng cần thiết và cĩ thể bỏ đi mà khơng ảnh hưởng đến w.

ui > 0: lúc này suy ra xi nằm trên siêu phẳng biên H1 hay H2. xiđược gọi là support vector và tham gia vào việc tính w. Thường thì số lượng support vector nhỏ hơn nhiều so với số lượng mẫu.

Do đĩ để tính b chỉ cần chọn một i mà cĩ ui > 0, lúc đĩ:

nên

Vậy ta đã tính được w và b nên xác định được siêu phẳng phân hoạch.

Một phần của tài liệu NGHIÊN CỨU GIẢI THUẬT NAЇVE BAYES TRONG BÀI TOÁN PHÂN LOẠI VĂN BẢN (Trang 33 -33 )

×