23 .2.2 Tim ra các luật
4.6.1 Chiến lược Một-đỐi-Phần còn lại (One Versus the Rest)
Để phân lớp với dừ liệu có M lớp, cách thông thường mà ta thường dùng đó là tạo ra tập các bộ phân lớp nhị phân mồi bộ phân lớp tách một lóp với tẩt cả các lớp còn lại của dừ liệu, sau đó kết hợp các kết quả lại để sử dùng hàm quyết định sgn bằng công thức :
TÂZ^ MdKx) . với g i ( x ) = y (a /k{x, Xị) + b> (4.58)
i = l
(Chú ý : / * 0 ) = S 0 n ( £ ' O ) ) )
Giá trị g i ( x ) được dùng để quyết định loại bỏ. Giả sử độ đo tin cậy khi phân lớp X là giá trị giừa hai hàm g i ự ) lớn nhất. Nếu như độ đo tin cậy thấp hơn một giá trị 0 thì bộ phân lớp sẽ từ chối chấp nhận thuộc lớp X.
Ý nghĩa của chiến lược này có thể hiểu theo ngôn ngừ là “người chiến thắng sẽ lấy tất cả” . Phương pháp này có hiệu quả không cao khi làm việc với các tập dữ liệu phi đối xứng.
4.6.2 Chiến Iưọc so sánh theo cặp (hay còn gọi là một đối một)
Trong tập dừ liệu, ta chọn hai lóp một đế thực hiện phân lớp nhị phân, do đó với M lớp thi có (M-l )M/2 bộ phân lớp nhị phân, số lượng này thường nhiều bộ phân lớp nhị phân hơn so với phương pháp Một-Đối-Tất cả. Ví dụ, nếu có 10 lóp thì phương pháp này cần 45 bộ phân lớp nhị phân thay vì 10 bộ phân lớp nhị phân như ở phương pháp trên.
Trong phương pháp này, các bộ dữ liệu huấn luyện nhỏ hơn, các lớp ít khả năng chồng lên nhau nên bài toán giải dễ dàng hơn. Tuy nhiên, khi M lớn thì thuật toán có thể chạy chậm hơn so với thuật toán Một-Đối-Tất cả.
Bài toán quy hoạch toàn phương cần giải khi áp dụng phương pháp này là
1 M c m
minimizeWr^n ỉ rbrmí ^ \ ị w rịị2 £ ị\, (4.59)
r = 1 i = l r ^ y i
Sao cho < Wy.,Xi > +by. > < wr,Xị > +br + 2 — Ị[, (4.60)
m
ỉ ĩ > 0, (4.60)
Trong đó m G { 1 , . . ., và e { 1 , , M} là nhãn của mẫu
CH Ư Ơ N G 5 : M Ộ T SÓ Ủ NG DỤNG CỦA KỸ T H U Ậ T V E C T O R TỤ A
Hiện nav, kỹ thuật vector tira đã được áp dụng vào rất nhiều lĩnh vực của đời sống. Đe áp dụng thành công kỹ thuật vector tựa thì cần phải có sự phân tích
thiết kế hệ thống tổt, tức là phải có các giải pháp cho các vấn đề trong quá trình thiết kế hệ thổng ví dụ như xác định miền dừ liệu đầu vào, sinh các mẫu dừ liệu huấn luyện,... Trong kỹ thuật vector tựa các hạt nhân thường được lựa chọn là Gaussian hay hàm đa thức, nhưng các hạt nhân này lại không đem lại hiệu quả cao khi làm việc với các dừ liệu có cấu trúc rời rạc, khi đó chúng ta cần có các hạt nhân phức tạp hơn. Một khi đã chọn được hạt nhân thoả mãn các điều kiện
tối ưu thì có thể nói là đã xác định được hướng quan trong để giải bài toán Bên cạnh việc chọn ra được hàm hạt nhân thì việc chọn các tham số cho các hạt nhân cũng là một vấn đề phức tạp. Ví dụ trong hạt nhân Gaussian ta phại chọn tham sổ ơ, cách tổt nhất để đặt tham số ơ là tìm ra được khoảng cách gần nhất giữa một điểm của phân lớp đến phân lớp khác, do đó việc chọn tham số còn phải phụ thuộc vào dữ liệu. Việc chọn tham số thường mang tính kinh nghiệm, trong các trường hợp khó chọn các tham số thì chúng ta thường phải đổi sánh chéo để đặt các tham số. Các tham số thường phải trải qua nhiều thử nghiệm khác nhau cho đển khi tìm ra được một tham số tốt
Trong thực tế, dừ liệu có thể có các mức nhiều khác nhau và nằm trong không gian có sổ chiều khác nhau. Điều đó dẫn đến việc phải lựa chọn các kỹ thuật vector tựa sao cho phù hợp, có thể chọn phân lớp với siêu phẳng có lề lớn nhất hay là phân lớp với siêu phẳng có lề mềm,...
Tuy các ứng dụng sử dụng kỹ thuật vector tựa là khá phong phú, nhưng còn có rất nhiều các lĩnh vực mà kỹ thuật vector tựa có thể áp dụng thành công. 5.1 Phân loại văn bản
Phân loại văn bản hay phân lớp văn bản là quá trình xem xét, đánh giá đế phân loại các văn bản bình thường xem các văn bản có nội dụng thuộc về các chủ để nào trong số các chủ đề đã cho trước. Bài toán phân loại văn bản được nêu ra trong nhiều ứng dụng liên quan đến xử lý dữ liệu dạng văn bản như : lọc thư điện tử, tìm kiếm web, sắp xếp văn bản theo chủ đề, văn phòng tự động, phân lóp các bản tin,...M ột văn bản có thể được phân loại vào nhiều hơn một
chủ đề, tuy nhiên đây không phải là bài toán phân lớp vơi dữ liệu thuộc nhiều lóp mà đây là một chuồi các bài toán phân lớp nhị phân theo các chủ đề.
Đế phân loại được văn bản thì ta phải thu lượm được nội dung của văn bản (IR - Information Retrieval), điều này dẫn đến ý tưởng sử dụng hạt nhân Mcrcer đẻ ánh xạ các đặc trưng. Không gian vector của văn bản thường được xây dựng từ các từ hay cụm từ theo sự xuất hiện trong văn bản. Nếu như văn bản
-Y được biếu diền bởi một vector ^ ( x ) , trong đó OC*) có thể được đánh chi số đế thế hiện sự có mặt hay không có mặt của các từ, cụm từ trong văn bản hay các chỉ số có giá trị là các trọng số của các từ, cụm từ theo số lần xuất hiện trong văn bản. Sau đó các vector được chuẩn hoá, khi đó các thôna tin về thứ tự của các từ cùng như độ dài của văn bản là không còn nữa. Và khoảng cách giừa hai văn bản được tính bằng tính vô hướng của hai vector biểu diễn hai văn bản đó.
Các nghiên cứu về IR đã chỉ ra rằng, các từ gốc là các đơn vị biểu diễn văn bản rất tốt. Từ gốc là từ được dẫn xuất ra nhiều từ khác nhau, ngược lại từ các từ ta có thể bỏ các tiền tố, hậu tố,... để thu được từ gổc, ví dụ các từ có chung từ gốc “comput” là “computer”, “computation”,’’computing” . Chúng ta tạo thành một danh mục theo dạng từ điển của văn bản sau khi đã loại bỏ đi các từ có nghĩa bổ xung, các trạng từ và sắp xếp các cụm từ theo số lần xuất hiện. Công thức tính trọng sổ các từ gốc thường được chọn là :
^ _ ưi^og (i d f i) <K*) = --- — ---
K
Trong đó, tfi là số lần xuất hiện của các từ gốc thứ i trong vãn bản X, idfi
là tỉ số giữa tổng số các văn bản và số các văn bản có chứa từ gốc đó, K là hằng số chuẩn để đảm bảo là 110112 = 1.
Theo cách biểu diễn như trên thì vector $ có thể bao gồm hàng ngàn phần tử, thậm chí số phần tử của vector còn có thể nhiều hơn số dữ liệu huấn luyện. Hơn nữa một số văn bản có thể được biểu diễn dưới vector 0 trong đó chỉ có vài phần tử có giá trị khác không. Với các dừ liệu được phân bố phân tán và trong không gian rất nhiều chiều như vậy thì việc phân lớp là dễ dàng và hiệu quả.Do đó, g iải pháp tốt nhất là sử dụng kỹ thuật vector tựa với lề cổ định.
Thuật toán điển hình được cài đặt đế giải quyết bài toán này là thuật toán SVMligh! của Joachims. Tập dừ liệu được Joachims, Dumais và những người
khác thu thập từ các bài báo của Reuters, và được phân loại thành các chủ đề khác nhau. Trong đó tập dữ liệu huấn luyện là 9603 văn bản, tập dữ liệu kiểm tra là 3299 văn bản. Các dữ liệu được phân loại theo 90 chủ đề khác nhau, độ dài trung bình cùa mồi văn bản là khoảng 200 từ. Trong thuật toán cài đặt bởi Joachims, có thể dề dàng chuyển từ lề cứng sang lề mềm. Hàm hạt nhân đa thức với bậc thấp và hạt nhân Gauusian đã được kiểm tra và cho kết quả khá khả quan. Rỗ ràng với khả năng lựa chọn hàm hạt nhân đa dạng, kỹ thuật vector tựa có ưu điềm hơn so với các phương pháp truyền thống như Navie Bayes, Rocchio, thuật toán cây quyết định C4.5 và phương pháp k-láng giềng gần nhất.
5.2 Nhận dạng ảnh
Ngày nay, trên mạng internet hay trong các cơ sở dừ liệu chuyên nghành dừ liệu dạng ảnh ngày xuất hiện nhiều, phong phú và đa dạng. Các thiết bị tạo ra ảnh kỹ thuật số ngày càng rẻ và thuận tiện. Do đó nhiệm vụ phân loại ảnh là một trong nhừng yêu cầu của một số ứng dụng, ví dụ như trích rút thông tin từ ảnh, lọc dừ liệu trên mạng internet, các ứng dụng trong y học, phát hiện các đối tượng trong ảnh.
Các phương pháp phân lớp truyền thống gặp nhiều khó khăn khi xử lý đừ liệu có nhiều chiều như dừ liệu anh. Trong khi đó kỹ thuật vector tựa có thể giải quyết tốt bài toán phân lớp với dừ liệu có rất nhiều chiều, chỉ bằng cách chọn lề cứng ta cũng có thế có kết quả tốt với phân lớp dữ liệu ảnh. Trong đó các đặc trưng thường được lấy từ lược đồ mức xám, các mức xám, các phân bố mầu,..Một sổ trường hợp, ảnh lại được biểu diễn trực tiếp dưới dạng ma trận (nhận dạng chữ viết tay).
5.2.1 Phân lớp độc lập
Một nghiên cứu về khả năng của kỹ thuật vector tựa được thực hiên bởi Pontil và Verri trong trương hợp nhận dạng các đối tượng độc lập trong ảnh. Trong đó, ảnh được biểu diễn dưới dạng ma trận bitmap với chiều cao h và độ rộng w, khi các ma trận ảnh được coi là các vector đầu vào. Đối với ảnh mầu đó là vector có độ dài 3xw*h, còn với ảnh mức xám đó là vector có độ dài wxh, mỗi thành phần của vector thể hiện một điềm ảnh. Các tác giả sử dụng tập dừ liệu COIL (Columbia Object Image Libraly) bao gồm 7200 ảnh : 72 góc nhìn khác nhau cảu 100 đối tượng trong không gian 3D. Các ảnh này được được
ch u y ế n từ ản h m à u s a n g ả n h m ứ c x á m v à đ ộ p h â n giải đ ư ợ c g iả m từ 128 *1 2 8
thành một điếm ảnh. Sau quá trình tiền xử lý ảnh, các vector ảnh bây giờ có số chiều là 1024. Tích vô hướng giữa hai vector được chọn làm hạt nhân và kỹ thuật vector tựa vời lề cứng lớn nhất được áp dụng cho bài toán nàv. Với các cách biêu diễn dừ liệu và cách sử dụng kỹ thuật như vậy đà cho các kết quả rất khả quan, tuy nhiên khi ta thêm các nhiễu vào dừ liệu thì sẽ dẫn đến các trường hợp nhận dạng sai. So với phương pháp huấn luyện bằng mạng perceptron trên cùng bộ dữ liệu thì phương pháp dùng vector tựa cho kết quả tốt hơn.
5.2.2 Phân lớp vói ảnh màu
Trong thử nghiệm ở trên, chúng ta chỉ làm việc với dữ liệu là các ảnh mức xám nên chúng ta đã bổ đi thông tin quan trọng đó là mầu. Olivier Chapelle và các đồng nghiệp đã giải quyết bài toán phân lớp sử dụng kỹ thuật vector tựa cho dừ liệu là ảnh mầu, trong đó các thông tin được dùng là độ sáng và mầu của các điểm ảnh.
Tương tự như bài toán phân loại nội dung văn bản, các tác giả so sánh sự tương đồng của các ảnh thông qua khoảng cách của các ảnh dựa trên lược đồ phân bố màu. Mặc dù, các tác giả chưa chứng minh được các hạt nhân sử dụng có thoả mãn điều kiện Mercer hay không nhưng các kết quả trả về khi đối sánh mẫu là rất tốt.
Như chúng ta đã biêt, môi màu săc được biêu diên băng một điêm trong không gian ba chiều của hệ màu RGB (Red-Green-Blue), mỗi ảnh màu đều có một lược đồ màu. Vậy nên các đặc trưng là một tập các vùng màu, kích thước của không gian dữ liệu phụ thuộc vào kích thước của vùng màu. Bằng cách biểu diễn như vậy ta có thể đối sánh các ảnh khác nhau về kích thước.
Công thức hạt nhân dùng trong trường hợp này la :
trong đó d là tham sô thê hiện sự tương đông giữa các dữ liệu vào, trong trường hợp mức sử dụng lược đồ màu thì có một lựa chọn là hàm X2, xấp xỉ bằng :
/ n \ V p
d p ( x , z) = Ç T ll* i ~ z i\\p J
H à m h ạ t n h â n s ử d ụ n g dp với p = l , 2 thì th o ả m ã n đ iề u k iện M e rc e r, m ặc d ầ u tro n g t r ư ờ n g h ợ p sử d ụ n g hàm X 2 thì k h ô n g th ể x á c đ ịn h đ ư ợ c có th o ả m ãn
điều kiện Mercer hay không.
Các ảnh dùng để nhận dạng là các ảnh được lấy từ Corel Stock Photo Collection, bao gồm 200 nhóm ảnh, mồi nhóm là 100 ảnh. Trong thực nghiệm
c ác tác g iả d ù n g m ộ t tậ p c o n ảnh b a o g ồ m 14 n h ó m k h á c n h a u : M á y b ay , g ấu ,
voi, hổ, ngựa, gấu bẳc cực, các động vật đặc trưng nhất của Châu phi, báo gấm, đại bàng đầu trọc, núi, cánh đồng, sa mạc, hoàng hôn, cảnh ban đêm. Các dừ
liệu đ ư ợ c c h ia th à n h ba p h ần , hai p h ầ n là d ữ liệu h u ấ n luyện, m ộ t p h ầ n là d ữ liệu
kiểm tra. Dải màu của ảnh là 16 do đó kích thước của không gian đặc trưng là 163=4096.
K ế t q u ả là với các m a trân n h ư n h a u thì p h ư ơ n g p h á p th u đ ư ợ c kết q u ả tốt
hơn so với phương pháp k-láng giềng gần nhất. Còn khi sử dụng ba ma trận màu
v à s ử dụng h ạ t n h â n 1-n o rm và X 2 thì c h o k ết q u ả n h ư n h au , c ò n sử d ụ n g 2-
norm thi kết quả còn kém hơn.
5.3 Nhận dạng chữ số viết tay
Đ ây là b ài to á n th ự c tiề n đ ầu tiên m à p h ư ơ n g p h á p p h â n lớp sử d ụ n g kỹ
thuật vector tựa được đưa vào để thử nghiệm. Bài toán này xuất phát từ yêu cầu phân loại thư tự động dựa vào các chữ số viết tay trong phần mã vùng của Bưu điện Mỹ. Các dạng của kỹ thuật vector tựa đã được thử nghiệm dựa trên cơ sở dữ liệu của USPS (United States Postal Service) và NIST (National Institute for Standard and Technology), các cơ sở dữ liệu đều có thể truy cập tự do. Dữ liệu của LSPS bao gồm 7291 dữ liệu huấn luyện, 2007 dữ liệu kiểm tra, thể hiện
t ro n g v e c to r 2 5 6 c h iề u ( m a trận k ích th ư ớ c 16 X l 6 ) với các g iá trị c ủ a các p h ần t ử tro n g v e c to r tro n g k h o ả n g [0..255]. D ữ liệu của N I S T bao g ồ m 6 0 .0 0 0 d ừ liệu
huấn luyện và 10.000 dừ liệu kiếm tra, các dừ liệu được biểu diễn bằng các ảnh mức xám kích thước 20x20.
Vapnik và các đồng nghiệp của ông đà giải bài toán trên bằng cách sử dụng kỹ thuật vector tựa với siêu phẳng có lề cứng và lề mềm, các hạt nhân được sứ dụng là hạt nhân đa thức và hạt nhân Gaussian, hạt nhân sigmoid cùng đã được kiểm tra mặc dầu nó không thoả mãn điều kiện Mercer. Hơn thê, phân lớp với nhiều lớp sử dụng kỹ thuật vector tựa cũng đã được thử nghiệm trên các dừ liệu nói trên. Do đó, ngoài việc có thể so sánh kỹ thuật vector tựa với các kỹ thuật phân lớp khác thì chúng ta còn có thể so sánh các dạng vector tira với nhau. Các kết quả có được là khá giống nhau, với các phương pháp sử dụng hạt nhân khác nhau thì đều tìm ra các vector tựa giống nhau, tuy nhiên tốc độ thực hiện thì khác nhau. Chúng ta có thế tìm thấy các kết quả thực nghiệm của Vapnik trên các bài báo của Burges, Cortes, Scholkopf, Vapnik,...
Với dữ liệu USPS, không gian dữ liệu đầu vào là 256, các hàm hạt nhân đa thức và Gaussian sau được sử dụng :
với các giá trị khác nhau cùa d và ơ
Trong hạt nhân đa thức, bậc từ 1 đến 6 đã được kiểm tra, trong hạt nhân Gaussian giá trị của ơ được kiểm tra trong khoảng 0.1 đến 4.0. Cách lựa chọn các hạt nhân khác nhau sẽ dẫn đến sự tổng quát hoá khác nhau. Trong dữ liệu USPS, các dữ liệu được phân chia hoàn toàn với lề lớn nhất khi bậc từ 3 trở lên, khi sử dụng phân lớp với lề mềm 1-norm và bậc bàng 1 thì lồi huấn luyện là 340/7291 và bậc bằng 3 thì lỗi là 4/7291. số lượng các vector tựa tìm được tăng