Siờu phẳng phõn cỏch

Một phần của tài liệu Nghiên cứu phương pháp nhận dạng chữ viết tay hạn chế bằng mô hình SVM (Support Vector Machines) (Trang 35 - 37)

Cho trƣớc tập dữ liệu D gồm (x1, y1), (x2, y2), ..., (x|D|, y|D|).

Trong đú Xi là một tập cỏc bộ huấn luyện tƣơng ứng với nhón lớp yi. Mỗi yi sẽ nhận một trong hai giỏ trị hoặc là +1 hoặc là -1 (yi {+1, -1}).

Phƣơng phỏp phõn lớp SVM sẽ tỡm ra đƣờng phõn lớp “tốt nhất” để phõn chia tập dữ liệu này thành từng lớp tỏch biệt ra với nhau. Phƣơng trỡnh tổng quỏt của một đƣờng phõn chia nhƣ vậy đƣợc biểu diễn dƣới dạng sau:

0 .x b

Trong đú:

w: Vector trọng số, w = {w1, w2,…,wn).

x: Số thuộc tớnh (hay cũn gọi là số chiều của dữ liệu).

b: Một đại lƣợng vụ hƣớng, thƣờng đƣợc xem nhƣ là một độ nghiờng .

Đối với trƣờng hợp dữ liệu hai chiều (hai thuộc tớnh) thỡ phƣơng trỡnh trờn biểu diễn của đƣờng thẳng phõn chia. Nếu dữ liệu của chỳng ta là ba chiều thỡ đƣờng phõn chia giữa hai tập sẽ là một mặt phẳng phõn cỏch. Tổng quỏt cho dữ liệu

n chiều thỡ sẽ đƣợc phõn cỏch bởi một siờu phẳng. Chỳng ta sẽ sử dụng thuật ngữ “siờu phẳng” (hyperplane) để chỉ đến ranh giới quyết định mà chỳng ta muốn tỡm kiếm bất chấp số lƣợng thuộc tớnh.

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

Tuy nhiờn trong thực tế ta cú thể tỡm đƣợc vụ số những siờu phẳng phõn chia trờn cựng một tập dữ liệu. Và chỳng ta muốn tỡm đƣờng thẳng phõn chia sao cho tốt nhất, cú nghĩa là cú sai sút phõn loại bộ nhất trờn bộ dữ liệu.

Hỡnh 2.4. Một bộ dữ liệu hai chiều được phõn chia tuyến tớnh.

Do đú mục tiờu của phƣơng phỏp phõn lớp SVM là tỡm một siờu phẳng phõn cỏch giữa hai lớp sao cho khoảng cỏch lề (margin) giữa hai lớp đạt cực đại.

Siờu phẳng cú biờn độ lớn nhất (maximum marginal hyperplane) sẽ đƣợc chọn nhƣ là siờu phẳng phõn chia tập dữ liệu một cỏch tốt nhất. Trong hỡnh bờn dƣới, ta thấy cú hai siờu phẳng cú thể phõn chia đƣợc và những biờn độ của nú. Trƣớc khi đi vào định nghĩa của biờn độ (margin), hóy nhỡn vào hỡnh trờn một cỏch trực quan. Cả hai siờu phẳng đều phõn tỏch tất cả những bộ dữ liệu cho trƣớc. Một cỏch trực quan, siờu phẳng với biờn độ lớn hơn sẽ chớnh xỏc hơn trong việc phõn loại cỏc bộ dữ liệu trong tƣơng lai so với siờu phẳng cú biờn độ nhỏ hơn. Điều này là lý do tại sao (trong suốt giai đoạn học hay huấn luyện), SVM tỡm những siờu phẳng cú biờn độ lớn nhất, gọi là MMH (maximum marginal hyperlane). Siờu phẳng cú biờn độ lớn nhất là siờu phẳng cú khoảng cỏch từ nú tới hai mặt bờn của nú thỡ bằng nhau (mặt bờn song song với siờu phẳng). Khoảng cỏch đú thật ra là khoảng cỏch ngắn nhất từ MMH tới bộ dữ liệu huấn luyện gần nhất của mỗi lớp. Siờu phẳng cú biờn độ lớn nhất này cho chỳng ta một sự phõn loại tốt nhất giữa cỏc lớp.

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

Hỡnh 2.5.Hai siờu phẳng phõn chia tuyến tớnh cựng với biờn độ của nú.

Siờu phẳng phõn cỏch cú vai trũ quan trọng trong việc phõn lớp, nú quyết định xem một bộ dữ liệu sẽ thuộc về lớp nào. Để thực hiện việc phõn lớp, SVM chỉ cần xỏc định xem một bộ dữ liệu nằm về phớa nào của siờu phẳng phõn cỏch.

b x sign x D . Với:

- D(x) < 0: bộ dữ liệu sẽ nằm phớa dƣới siờu phẳng phõn cỏch

- D(x) = 0: bộ dữ liệu sẽ nằm trờn siờu phẳng phõn cỏch

- D(x) > 0: bộ dữ liệu sẽ nằm phớa trờn siờu phẳng phõn cỏch

Một phần của tài liệu Nghiên cứu phương pháp nhận dạng chữ viết tay hạn chế bằng mô hình SVM (Support Vector Machines) (Trang 35 - 37)

Tải bản đầy đủ (PDF)

(77 trang)