Phân lớp độc lập

Một phần của tài liệu Một số kỹ thuật vector tựa (SVM) trong khai phá dữ liệu và ứng dụng vào nhận dạng (Trang 63)

23 .2.2 Tim ra các luật

5.2.1 Phân lớp độc lập

Một nghiên cứu về khả năng của kỹ thuật vector tựa được thực hiên bởi Pontil và Verri trong trương hợp nhận dạng các đối tượng độc lập trong ảnh. Trong đó, ảnh được biểu diễn dưới dạng ma trận bitmap với chiều cao h và độ rộng w, khi các ma trận ảnh được coi là các vector đầu vào. Đối với ảnh mầu đó là vector có độ dài 3xw*h, còn với ảnh mức xám đó là vector có độ dài wxh, mỗi thành phần của vector thể hiện một điềm ảnh. Các tác giả sử dụng tập dừ liệu COIL (Columbia Object Image Libraly) bao gồm 7200 ảnh : 72 góc nhìn khác nhau cảu 100 đối tượng trong không gian 3D. Các ảnh này được được

ch u y ế n từ ản h m à u s a n g ả n h m ứ c x á m v à đ ộ p h â n giải đ ư ợ c g iả m từ 128 *1 2 8

thành một điếm ảnh. Sau quá trình tiền xử lý ảnh, các vector ảnh bây giờ có số chiều là 1024. Tích vô hướng giữa hai vector được chọn làm hạt nhân và kỹ thuật vector tựa vời lề cứng lớn nhất được áp dụng cho bài toán nàv. Với các cách biêu diễn dừ liệu và cách sử dụng kỹ thuật như vậy đà cho các kết quả rất khả quan, tuy nhiên khi ta thêm các nhiễu vào dừ liệu thì sẽ dẫn đến các trường hợp nhận dạng sai. So với phương pháp huấn luyện bằng mạng perceptron trên cùng bộ dữ liệu thì phương pháp dùng vector tựa cho kết quả tốt hơn.

5.2.2 Phân lớp vói ảnh màu

Trong thử nghiệm ở trên, chúng ta chỉ làm việc với dữ liệu là các ảnh mức xám nên chúng ta đã bổ đi thông tin quan trọng đó là mầu. Olivier Chapelle và các đồng nghiệp đã giải quyết bài toán phân lớp sử dụng kỹ thuật vector tựa cho dừ liệu là ảnh mầu, trong đó các thông tin được dùng là độ sáng và mầu của các điểm ảnh.

Tương tự như bài toán phân loại nội dung văn bản, các tác giả so sánh sự tương đồng của các ảnh thông qua khoảng cách của các ảnh dựa trên lược đồ phân bố màu. Mặc dù, các tác giả chưa chứng minh được các hạt nhân sử dụng có thoả mãn điều kiện Mercer hay không nhưng các kết quả trả về khi đối sánh mẫu là rất tốt.

Như chúng ta đã biêt, môi màu săc được biêu diên băng một điêm trong không gian ba chiều của hệ màu RGB (Red-Green-Blue), mỗi ảnh màu đều có một lược đồ màu. Vậy nên các đặc trưng là một tập các vùng màu, kích thước của không gian dữ liệu phụ thuộc vào kích thước của vùng màu. Bằng cách biểu diễn như vậy ta có thể đối sánh các ảnh khác nhau về kích thước.

Công thức hạt nhân dùng trong trường hợp này la :

trong đó d là tham sô thê hiện sự tương đông giữa các dữ liệu vào, trong trường hợp mức sử dụng lược đồ màu thì có một lựa chọn là hàm X2, xấp xỉ bằng :

/ n \ V p

d p ( x , z) = Ç T ll* i ~ z i\\p J

H à m h ạ t n h â n s ử d ụ n g dp với p = l , 2 thì th o ả m ã n đ iề u k iện M e rc e r, m ặc d ầ u tro n g t r ư ờ n g h ợ p sử d ụ n g hàm X 2 thì k h ô n g th ể x á c đ ịn h đ ư ợ c có th o ả m ãn

điều kiện Mercer hay không.

Các ảnh dùng để nhận dạng là các ảnh được lấy từ Corel Stock Photo Collection, bao gồm 200 nhóm ảnh, mồi nhóm là 100 ảnh. Trong thực nghiệm

c ác tác g iả d ù n g m ộ t tậ p c o n ảnh b a o g ồ m 14 n h ó m k h á c n h a u : M á y b ay , g ấu ,

voi, hổ, ngựa, gấu bẳc cực, các động vật đặc trưng nhất của Châu phi, báo gấm, đại bàng đầu trọc, núi, cánh đồng, sa mạc, hoàng hôn, cảnh ban đêm. Các dừ

liệu đ ư ợ c c h ia th à n h ba p h ần , hai p h ầ n là d ữ liệu h u ấ n luyện, m ộ t p h ầ n là d ữ liệu

kiểm tra. Dải màu của ảnh là 16 do đó kích thước của không gian đặc trưng là 163=4096.

K ế t q u ả là với các m a trân n h ư n h a u thì p h ư ơ n g p h á p th u đ ư ợ c kết q u ả tốt

hơn so với phương pháp k-láng giềng gần nhất. Còn khi sử dụng ba ma trận màu

v à s ử dụng h ạ t n h â n 1-n o rm và X 2 thì c h o k ết q u ả n h ư n h au , c ò n sử d ụ n g 2-

norm thi kết quả còn kém hơn.

5.3 Nhận dạng chữ số viết tay

Đ ây là b ài to á n th ự c tiề n đ ầu tiên m à p h ư ơ n g p h á p p h â n lớp sử d ụ n g kỹ

thuật vector tựa được đưa vào để thử nghiệm. Bài toán này xuất phát từ yêu cầu phân loại thư tự động dựa vào các chữ số viết tay trong phần mã vùng của Bưu điện Mỹ. Các dạng của kỹ thuật vector tựa đã được thử nghiệm dựa trên cơ sở dữ liệu của USPS (United States Postal Service) và NIST (National Institute for Standard and Technology), các cơ sở dữ liệu đều có thể truy cập tự do. Dữ liệu của LSPS bao gồm 7291 dữ liệu huấn luyện, 2007 dữ liệu kiểm tra, thể hiện

t ro n g v e c to r 2 5 6 c h iề u ( m a trận k ích th ư ớ c 16 X l 6 ) với các g iá trị c ủ a các p h ần t ử tro n g v e c to r tro n g k h o ả n g [0..255]. D ữ liệu của N I S T bao g ồ m 6 0 .0 0 0 d ừ liệu

huấn luyện và 10.000 dừ liệu kiếm tra, các dừ liệu được biểu diễn bằng các ảnh mức xám kích thước 20x20.

Vapnik và các đồng nghiệp của ông đà giải bài toán trên bằng cách sử dụng kỹ thuật vector tựa với siêu phẳng có lề cứng và lề mềm, các hạt nhân được sứ dụng là hạt nhân đa thức và hạt nhân Gaussian, hạt nhân sigmoid cùng đã được kiểm tra mặc dầu nó không thoả mãn điều kiện Mercer. Hơn thê, phân lớp với nhiều lớp sử dụng kỹ thuật vector tựa cũng đã được thử nghiệm trên các dừ liệu nói trên. Do đó, ngoài việc có thể so sánh kỹ thuật vector tựa với các kỹ thuật phân lớp khác thì chúng ta còn có thể so sánh các dạng vector tira với nhau. Các kết quả có được là khá giống nhau, với các phương pháp sử dụng hạt nhân khác nhau thì đều tìm ra các vector tựa giống nhau, tuy nhiên tốc độ thực hiện thì khác nhau. Chúng ta có thế tìm thấy các kết quả thực nghiệm của Vapnik trên các bài báo của Burges, Cortes, Scholkopf, Vapnik,...

Với dữ liệu USPS, không gian dữ liệu đầu vào là 256, các hàm hạt nhân đa thức và Gaussian sau được sử dụng :

với các giá trị khác nhau cùa dơ

Trong hạt nhân đa thức, bậc từ 1 đến 6 đã được kiểm tra, trong hạt nhân Gaussian giá trị của ơ được kiểm tra trong khoảng 0.1 đến 4.0. Cách lựa chọn các hạt nhân khác nhau sẽ dẫn đến sự tổng quát hoá khác nhau. Trong dữ liệu USPS, các dữ liệu được phân chia hoàn toàn với lề lớn nhất khi bậc từ 3 trở lên, khi sử dụng phân lớp với lề mềm 1-norm và bậc bàng 1 thì lồi huấn luyện là 340/7291 và bậc bằng 3 thì lỗi là 4/7291. số lượng các vector tựa tìm được tăng chậm so với sự tâng của bậc

5.4 Tin-sinh học (Bio-Informatics) 5.4.1 Phát hiện protein tưoìig đồng

Một protein được hình thành từ một chuồi 20 các axit amin, có hàng nghìn các chuồi protein khác nhau, và một trong những bài toán trong Tin-sinh

học ià dự đoán các cấu trúc và chức năng của protein dựa trên chuỗi axit amin của nó. Vấn đề này được giải quyết nếu như ta tìm ra mối liên hệ giữa các protein mới và các protein mà ta đã biết được các thuộc tính của nó (nghĩa là tìm các protein tương đồng). Khi có được sự tương đồng, ta có thể nhóm các protein vào theo từng họ, và nhóm các họ protein thành một nhóm lớn hơn (dòng họ).

Đã có nhiều công nghệ nhằm xác định sự tương đồng giữa các protein dựa trên chuỗi trong protein. Một trong những cách phổ biến là xây dựng một mô hình chung cho một họ các protein từ các mẫu đã biết, rồi từ các chuỗổitng protein mới đi tìm ra độ lệch với mô hình chung để xác định mức độ tương đồng. Một trong nhừng công nghệ mà ta đang nói tới là sử dụng mô hình Markov ấn sứ dụng biến 9 và hàm H(6) để tính độ tương đồng.

//( ớ ) đưa ra xác suất P (x |f/(ớ )) thể hiện khả năng tương đồng của một protein với một dòng họ protein. Jaakkola và Haussier đã sử dụng mô hình trên làm hạt nhân cho bộ phân lớp sử dụng vector tựa cho bài toán tìm protein tương đồng nói trên.

Một trong các giá trị để đánh giá trong HMM là điểm Fisher, với một chuồi X được cho bởi :

đó là gradient của mức độ giống nhau của chuồi X với các tham số của mô hình //(ớ ). Vector uxsự thể hiện của các chuồi truy vấn trong HMM. Ta có thể dự đoán ràng khoáng cách giữa các vector trên cho ta biết được mức độ tương đồng của các chuỗi tương ứng. Một hạt nhân sử dụng Gaussian dựa trên dạng 2- norm :

Hạt nhân K là tích vô hướng trong không gian đặc trưng mà không gian đặc trung đó là sự kết hợp của hai ánh xạ đặc trưng : X Ux >-» <Ì>(UX)

tỊ dỉogP(x\H(6Ỵ)

x de

r

Chúng tôi đã tiến hành cài đặt một chương trình để nhận dạng ảnh khuôn mặt người dựa trên kỹ thuật vector tựa. Chương trình được phát triền trên môi

trư ờ n g V is u a l S tu d io . N E T 2 0 0 5 , n g ô n n g ữ c s h a ip .

6.1 Nhận dạng ảnh khuôn mặt người

Như chúng ta đã biết, các nghiên cứu và ứng dụng công nghệ nhận dạng đã phát triển nhanh chóng nhừng năm vừa qua. Công nghệ nhận dạng mặt người đã và đang được đưa vào nhiều ứng dụng trong thực tiễn, có thể kể ra các ứng

d ụ n g điển h ìn h n h ư :

• K iể m s o á t v à o - r a : X á c th ự c các đ ổ i t ư ợ n g x u ấ t c ả n h n h ậ p cản h hay các

đối tượng truy nã qua ảnh chân dung.

• K iể m s o á t a n n in h c ô n g c ộ n g q u a h ệ th ố n g c a m e r a

• T ìm k iế m d ữ liệu c ó ả n h k h u ô n m ặ t trê n c ơ s ở d ữ liệu đ a p h ư ơ n g tiện, ví

dụ tìm kiểm các đoạn phim có hình ảnh của một nhân vật,..

• X á c đ ịn h các t rạ n g thái cảm x ú c trê n k h u ô n m ặ t tro n g c á c hệ th ố n g tư ơ n g tác n g ư ờ i - m á y

• C ả n h b á o c h o các lái xe nếu ng ư ờ i lái c ó b iể u h iện n g ủ gật • C á c ứ n g d ụ n g tro n g n g h iê n c ứ u , th iế t kế v à đ iề u k h iển r o b o t • ứ n g d ụ n g c ủ a các h ã n g sản x u ấ t m á y c h ụ p h ì n h k ỹ th u ậ t số

Để áp dụng thành công nghệ công vào ứng dụng thì các hệ thống nhận dạng phải có khả năng nhận dạng tốt khi có các thay đổi trên ảnh khuôn mặt.

T h e o tự n h iê n , k h u ô n m ặ t c ủ a con n g ư ời sẽ có th a y đ ổ i th eo thờ i gian do s ự p h á t

triển và lão hoá. Tuy nhiên, các nhà nghiên cứu đã chứng minh được rằng trong thời kỳ trưởng thành (thời thanh niên và trung niên) thì khuôn mặt có hình dáng ổn định nhất. Trong thực tiễn, những thay đổi, khác biệt tự nhiên của các ảnh khuôn mặt là nhỏ hơn rất nhiều so với những thay đổi về điều kiện khách quan khi lấy ảnh khuôn mặt (điều kiện về ánh sáng, góc chụp, khoảng cách,...)

Khi đó bài toán nhận dạng khuôn mặt đặt ra hai vấn đề, thứ nhất là cách biễu diễn khuôn mặt với như thế nào, thứ hai là cách để phân lớp các ảnh khuôn mặt theo cách biểu diễn đã chọn.

Trong cách biểu diễn khuôn mặt theo các đặc trưng hình học như mắt, mũi, miệng, má, trán,..Khi xác định được vị trí các bộ phận trên khuôn mặt thì ta

có thông tin về kích thước, khoảng cách, tỉ lệ và các góc giừa các đặc trưng, các thông số đó sẽ dùng làm các đặc trưng để biểu diễn một khuôn mặt. Lợi thể của cách biểu diễn này là kích thước đặc trưng sẽ nhỏ, không bị ảnh hưởng bởi độ sáng tối. Nhưng đế xác định chính xác vị trí các điểm trên khuôn mặt là khó khăn, do vậy kết quả phân lớp khuôn mặt theo phương pháp này có kết quả không cao.

Ngược lại với phương pháp biếu diễn khuôn mặt theo khoảng cách hình học là phương pháp biểu diễn khuôn mặt theo các giá trị cùa từng điểm ảnh trên ảnh khuôn mặt. Theo cách biếu diễn này thì có các phương pháp phân lớp các khuôn mặt là đối sánh mẫu và mạng nơron. Chính vì không phải xác định vị trí, khoảng cách các đặc trime trên khuôn mặt nên phương pháp này có tính ứng dụng cao.

Một trong nhừng phương pháp nhận dạng khuôn mặt thành công là phương pháp đổi sánh mẫu dựa trên giá trị riêng của khuôn mặt (eigenface) bằng cách lấy đặc trưng và nhận dạng dựa trên biến đổi Karhunen Loeve (KLT) và phân tích dựa trên các thành phần chính (PCA). Khi đó các ảnh khuôn mặt được biểu diễn như là các vector trọng số trong không gian eigenface, việc phân lớp khuôn mặt được dựa trên khoảng cách của các vector đặc trưng.

Kỹ thuật vector tựa được Vapnik và các cộng sự đưa ra đã cho phép giải quyết hiệu quả bài toán nhận dạng mẫu nói chung và nhận dạng khuôn mặt nói riêng. Ý tướníỉ chính cúa phương pháp là chia các tập dừ liệu dựa vào các siêu phẳng tối ưu. Phương pháp này không những giảm thiểu được các lồi trong huấn luyện dừ liệu mẫu mà còn giảm thiểu được lồi khi phân lớp với các dữ liệu kiểm

6.1.1 Xây dựng không gian đặc trưng

Trong cài đặt thử nghiệm, chúng tôi sử dụng bộ dữ liệu ảnh khuôn mặt của ORL. Dữ liệu bao gồm 400 ảnh của 40 người khác nhau, mỗi người có 10 ảnh với các góc độ, trạng thái tình cảm khác nhau. Các ảnh khuôn mặt đều là ảnh đen trắng và có kích thước cao X rộng là 112x92. Tập dữ liệu được chia thành hai phần dừ liệu huấn luyện và dữ liệu kiểm tra, mỗi phần gồm 200 ảnh của 10 người khác nhau.

Hình 6. ỉ : Anh của một người trong dữ liệu ảnh ORL

Đe giảm số chiều khi xây dựng không gian đặc trưng, chúng ta tiến hành giảm kích thước ảnh bằng cách thu nhỏ ảnh xuống kích thước 33x27. Ta coi các ảnh là các ma trận, giá trị của các phần tử trong ma trận là giá trị mức xám của của các điểm ảnh nằm trong khoảng [0,255]. Khi đó, các ảnh sẽ được chuyển thành các vector có số chiều là 33x27=891 bàng cách chuyển từng hàng của ma trận vào vector. -4 7 7 9 ... 7 6 • 7 9 • • 1 3 2 ... • 1 2 7 • ♦ = [ 4 7 7 9 ... 7 9 ] -43 7 6 - 7 9 -

Để giảm số chiều trong không gian dữ liệu, ta tiến hành trích rút đặc trưng theo phương pháp PCA và ánh xạ các dữ liệu ban đầu vào không gian đặc trưng. Ta tiến hành các bước sau :

1) Từ không gian vector dữ liệu ban đầu ta tìm ra vector trung bình mẫu

2) Xây dựng ma trận hiệp phương sai kích thước N X N, N =891

3) Tìm vector riêng và giá trị riêng từ ma trận hiệp phương sai ta có 891 giá trị riêng và tương ứng là 891 vector riêng

5) Chiếu các vector ban đầu vào không gian đặc trung K chiều ta thu được không gian đặc trưng mới gồm các vector K chiều.

Như vậy, qua phép biến đổi ảnh và biến đổi PCA ta đã thu được một không gian đặc trưng mới có kích thước nhỏ hơn nhiều so với không gian dữ liệu lúc ban đầu, từ 1 12x92=10304 chiều xuống còn K chiều (0<K<N). Ví dụ, nếu ta chọn K=100 thì có nghĩa là số chiều trong không gian dừ liệu đã giảm xuống hơn 100 lần. Đối với các bài toán có liên quan đến dừ liệu ảnh thì kích thước của dừ liệu là một vấn đề lớn cần giải quyết, vì kích thước dữ liệu sẽ kéo theo kích thước bộ nhớ lớn và thời gian chạy thuật toán lâu hơn.

Bây giờ, trong không gian đặc trưng mồi vector được gán một nhãn thể hiện rằne vector đó thuộc về lớp nào, tương ứng với ảnh khuôn mặt cùa cá nhân nào. Ví dụ vector sau có nhãn là 1 có các đặc trưng theo thứ tự là :

1 : 3 1 7 2.3 5 7 6 6 9 4 2 6 2 6, 2:1 8 7.6 9 3 3 8 9 5 8 1 1 0 5, 3: -2 6 5.4 6 3 7 7 0 1 3 0 7 5 8, 9 9:- 4.5 4 7 2 2 4 5 6 1 6 1 5 5 1, 1 0 0:6 0 . 5 8 2 9 2 6 1 4 3 5 0 1 1 6.1.2 Huấn luyện nhận dạng

Như ta đã biết, kỹ thuật vector tựa rất mạnh trong phân lớp nhị phân với

Một phần của tài liệu Một số kỹ thuật vector tựa (SVM) trong khai phá dữ liệu và ứng dụng vào nhận dạng (Trang 63)

Tải bản đầy đủ (PDF)

(76 trang)