Luận văn thạc sĩ Kỹ thuật điện tử: Thiết kế hệ thống nhúng nhận dạng vật thể với phương pháp kết hợp so khớp Spatial Pyramid và Vec-tơ hỗ trợ SVM

Ngo ira luận vanc n sử dụng phương pháp sliding window dé đọc thông tin từ các vùng trong ảnh nh m tìm kiếm vị tr của vật thé trong ảnh.Luận văn th c hiện thử nghiệm huấn luyện v nhận di

Trang 2

Cán bộ hướng dẫn khoa hoc : PGS.TS Ho ng Trang.

(Ghi rõ họ, tên, học h m, học vịv chữ ky)

Cán bộ cham nhận xét 1 : GS.TS Lê Tiến Thường

(Ghi rõ họ, tên, học h m, học vịv chữ ky)

Cán bộ cham nhận xét 2 : TS Bùi Trọng Tú

(Ghi rõ ho, tên, học h m, học vịv chữ ky)Luận văn thạc sĩ được bảo vệ tại Truong Dai học Bách Khoa, DHQG Tp.HCM ngày 05 tháng 01 năm 2017

Th nh phần Hội đồng đánh giá luận văn thạc sĩ gồm:(Ghi rõ họ, tên, học h m, học vi của Hội đồng cham bảo vệ luận văn thạc sĩ)

1 TS Lê Chí Thông2 TS Truong Quang Vinh

3 GS TS Lê Tiến Thường

4.TS Bùi Trọng Tú5 TS Trương Công Dung Nghi

Xác nhận của Chủ tịch Hội đồng đánh giá LV v Trưởng Khoa quản lý

chuyền ng nh sau khi luận văn đã được sửa chữa (nêu có).

CHỦ TỊCH HỘI ĐÔNG TRƯỞNG KHOA ĐIỆN-ĐIỆN TỬ

Trang 3

TRUONG DAI HOC BACH KHOA Độc lập — Tự do — Hanh phúc.

NHIEM VU LUẬN VAN THẠC SĨHo tén hoc vién: LY NGUYEN VUONG MSHV: 7140023

Ng y, thang, nam sinh: 02/09/1991 Noi sinh: Quang Ngai

Chuyên ngành: Kỹ Thuật Điện Tử Mã số: 60520203I TEN DE TÀI: THIET KE HE THONG NHAN DANG VAT THE VỚI

PHUONG PHAP KET HOP SO KHOP SPATIAL PYRAMID VA VEC-TOHO TRO SVM

Il NHIEM VU VA NOI DUNG:1 Tim hiểu mô hình giải thuật Bag of Word và mô hình máy học vec-tơ hỗ

trợ SVM với phương pháp so khớp phân cấp “Spatial Pyramid

Matching”.

2 Xây d ng hệ thong nhận dang vật thé trên máy t nh cá nhân.3 Xây d ng hệ thông nhận dạng vật thể trên BeagleBone Black.II NGÀY GIAO NHIỆM VU: 11/01/2016

IV NGÀY HOÀN THÀNH NHIEM VỤ: 05/01/2017V CÁN BỘ HƯỚNG DÂN: PGS.TS Ho ng Trang

Trang 4

LOI CAM ON

Em xin gửi lời cảm ơn chân th nh đến PGS.TS Hoang Trang Thay đã hướngdẫn và hỗ trợ em trong quá trình th c hiện luận văn Thầy đã cung cấp cho emnhiều kinh nghiệm quý báo trong quá trình nghiên cứu cũng như th c hiện luận văn.Em cũng gửi lời cám ơn đến quý thầy cô bộ môn Điện tử trường Đại học BáchKhoa TP Hỗ Ch Minh đã tạo điều kiện dé em có thé hoàn thành luận văn

Tôi cám ơn các tác giả của các b 1 viêtm tôi đã tham khảo đã cung cap cho

tôi những thông tin rất khoa học v hữu ch giúp tôi th c hiện luận văn

Tôi cũng xin cảm ơn các bạn nghiên cứu viên, học viên và các bạn sinh viêndang th c hiện công việc nghiên cứu tại phòng 116/B1 (IC design LAB) các ban đã

hỗ trợv giúp đỡ tôi trong công việc

Tôi gửi lời cám ơn đên gia đình, bạn bè, mọi người đã giúp đỡ, động viên tôi

trong suốt quá trình th c hiện luận văn

TP Hồ Chi Minh, 19/12/2016

Học viênLý Nguyên Vương

Trang 5

TOM TAT LUAN VAN THAC SI

Luan van nhan dién vat thé trong ảnh d a trên mô hình Bag of word két hopso khớp Spatial Pyramid Qua trình huấn luyện sử dụng đặc trưng Sift (Scale-invariant feature transform) để xây d_ng bộ từ điển theo mô hình Bag of word Quátrình nhận dạng ảnh sử dụng phương pháp Spartial Pyramid kết hợp SVM (SupportVector Machine) để phân loại ảnh v o các lớp vat thể cần nhận dạng Số lớp vật thé

trong luận văn 6 lớp Ngo ira luận vanc n sử dụng phương pháp sliding window

dé đọc thông tin từ các vùng trong ảnh nh m tìm kiếm vị tr của vật thé trong ảnh.Luận văn th c hiện thử nghiệm huấn luyện v nhận diện anh với các k ch thước từđiển khác nhau và các mức phân cấp nhận dạng khác nhau để đánh giá s anhhưởng của hai thông số n y đến kết quả nhận dạng

Luận văn th c hiện xây d ng chương trình nhận dạng vật thể trên máy t nh cánhân với hệ điều hành Ubuntu cùng với công cu lập trình QT Creator, sử dụng ngônngữ C++ với s hỗ trợ của thư viện OpenCV Bên cạnh đó luận văn cũng tìm hiểuvà xây d ng chương trình trên hệ thống nhúng BeagleBone Black

Trang 6

Tôi xin cam đoan:

Toil ngườith c hiện luận vann y dưới s hướng dẫn của thầy Ho ng Trang.Mọi tham khảo trong luận văn tôi đều tr ch dẫn rõ r ng tên tác giả, công trình,

Trang 7

2.1 Bài toán nhận dạng anh 5-5 5523 232333333335655555555Eerrrrree 5

2.2 Cac hướng tiếp cận trong bài toán nhận dạng - s55 se: 5

2.3 Các phương pháp tr ch chọn đặc trưng << 5< <<<<<<s+++2 7

2.3.1 Đặc trưng m U SẮC tt E111 5111 5E reo 82.3.2 Đặc trưng kết CaU i ccccccecccsssssscscscsesesesecscssscsssvevevevstsvevevereeeees 9

2.3.3 Đặc trưng hình dang cccccsssssssssceeeeececeeeeessessssssceeeeeeeeees 10

2.3.4 Đặc trưng cục bộ bất biến SIFT, ¿+ cac se EeEsEseEsEsessrssd 11

2.4 Chia cụm K-me@ ane ceccccccccsessssccccceeesssesccssseessescccsseeeasccssseeeesess 152.5 — Bap Of WoOrds cececcccessssssccccececeeceeeeseessssnceeeeeescceeseeseeeseeeesnssaeeeeess 182.6 Phương pháp nhận dang SVM (Support Vector Machine) 21

2.6.1 SVM tuyến tính kh 111111 11 re 222.6.2 SVM không tuyến tính - - « ssSxxStStSkSEEEEEEESESEExEkrkrvceckeo 242.6.3 LỀ mềm (soft margiin), «set EEEEEESESEExEkrkrkrecees 252.7 So khớp không gian phân cấp (SP.M) 5 +c+c+x+Esesesrererees 262.7.1 So khớp phân cấp (Partial Matching) -csccseseererees 262.7.2_ So khớp không gian phân cấp (SPM) - + + csesrsrrees 28

2.8 _ Sliding WIndOwW: HS SH 00 11 1 ve 29

Trang 8

2.9.1 Đặc trưng Siffv chia cụm K mean: - 555555 <<<<++++2 3]

2.9.2 Phân loại vật thé (Object Categorization): - s «sex xe: 32

2.9.3 Máy học vector (SVM): [8] ST SA SS S91 111111 xsrrrree 33

2.10 Hệ thống nhúng - -EEEE E1 E115 111152 352.10.1 Hệ điều hành nhúng Angstrong 5 cs+x+esesrsrererees 352.10.2 Hệ thống phan cỨng - - «sex +k#E#E#EEESESEEkEkrkrkrerees 36Chương 3: THUC HIỆN HE THNG (5+ +5 sSxSxSxxct+keveeeeeeeeee 383.1 Tổng QUan: - c1 TH 11g11 xrxrvei 383.2 Tập dữ liệu dùng để nhận dạng và huấn luyện - - +: 403.3 Phương pháp Bag of word kết hợp sliding window - 403.3.1 Quá trình huấn luyỆN: - «s3 EEEEEESEEExrkrkrkeerees 40

4.2.2 U-Boot BootÏOaer . c1 11H ng re 654.2.3 BOOT MES T6) U | 0) re 66A.2A Linux Kernel 0 ccccessccccccsssssneceecesssesnsceeceesseeseeeeeeeeessesseeeeeeees 674.2.5 Root file system sử dụng buIldroOt «<< << << <<<<<++++2 684.2.6 BOOẨIDE cG Q09 TT ng 0 11 kh re 68

Trang 9

4.2.7 Buildroot cho BBB, HH ng re 694.2.8 Sử dụng Image file cho BBB G2221 1111 ssrrree 694.3 Biên dịch ứng dụng trên Board << sssseeeesss 704.3.1 C 1 đặt trình biên dịch chéo - << << *<ccces 70“N9 71

4.3.3 Thiết lập Qt Creator dé biên dịch với nên tang Qt Everywhere 73Chương 5: KET QUÁ G311 E1E1915111115151 3xx 775.1 Kết quả dat được tk SE TT TT rreg 77

5.1.1 Hoạt động của chương trình << << << << seseeeeesssssssss 77

5.1.2 Kết quả của chương trình - - s++EsEsEExEkckckckekekeeeeeeeree 785.2 _ Kết quả thống kê G-Gk E199 SE ST ng 805.2.1 Kết quả nhận dạng với các k ch thước từ điển M khác nhau 815.2.2 Kết qua nhận dang với các mức phân cấp 5-sss se: 825.2.3 Kết qua nhận dang với các k ch thước từ điển 845.2.4 So sánh kết quả của sliding window va SPM -c-c-c«: 875.3 Ban luận kết quả - E191 SE ST cưng 87Chương 6: KẾT LUẬN VÀ KIÊN NGHỊ ccceccccccccscscssssesssesecesssererevseseeeeee 896.| Kết luận ĂĂ treo 896.2 Kiến nghị một số hướng nghiên cứu tiếp theo c5ss se: 90DANH MỤC TÀI LIEU THAM KHẢO -.- ¿2c ce te EeE+EseEeEeErereesses 91

Trang 10

DANH SÁCH HÌNH MINH HỌA

Hình 1-1 Kết quả VOC 2012 - ksEStSk E151 11E1E15115 111111111111 |

Hình 2-I Quá trình huấn luyện và nhận dạng của hệ thống nhận dạng 5

Hình 2-2 Góc ở bức anh lớn hơn có thé không còn là góc nữa 12

Hình 2-3 T nh DoG ở các k ch thước khác nhau của ảnh . - 12

Hình 2-4 Khảo sát các giá trị DoG để lọc tìm ra điểm đặc biệt 13

Hình 2-5 Ảnh với các điểm Sift 5c 5c 2t 222 2rrrred 13Hình 2-6 Vùng có k ch thước 16x16 xung quanh điểm đặc biệt 14

Hình 2-7 Vùng lân cận của điểm đặc biệt được chia th nh 16 ô nh 15

Hình 2-8 T nh gradient hướng ở mỗi vùng con 4x4 -s +s+s£scss+ 15Hình 2-9 Các tâm mỗi cụm được chọn ngẫu nhiên - 2-5 + + se +s£s£ss+ 16Hình 2-10 Các cum được hình th nh b ng cách tim tâm gần nhất 16

Hình 2-11 Các tâm của mỗi cum được t nh lail các điểm trung bình của cụm(0 17

Hình 2-12 Bước 2v bước 3 lặp lại đến khi b i toán hội tu, tức không ¢ nsthay đối tâm nữa tk HT 1111111111 11T HH1 rrv 17Hình 2-13 Mô hình Bag of WOrds G c1 1111111211111 1 111111 re 18Hình 2-14 bộ từ điển hình ảnh hình th nh b ng cách chia cụm các mô tả 19

Hình 2-15 Hình tượng mô hình BoOŸW HH ng 1111 re 20Hình 2-16 SVM tuyến tínhh - - s9 SE cv cv E1gE E5 1111k 22Hình 2-17 Siêu phang phân cách hai tập mẫu 22-2 s+s+E+£+x+x+Sez 23Hình 2-18 Bên trai: So khớp cục bộ giữa tập các đặc trưng Bên phải: So khớpphân cấp với đầu vào là hai tập véc tơ đặc trưng - - -cscscecsesrsrerees 27Hình 2-19 Lược đỗ minh họa biểu diễn không gian phân cấp 28

Hình 2-20 Ví dụ xây d ng phân cấp 3 mức ¿- - + +x+k+k#EeEsesEsrererees 29Hình 2-21 Ví dụ phát hiện xe đạp b ng sliding wIndow + <2 29Hình 2-22 Đặc trưng Sift kết hợp với phương pháp khớp mẫu Brute-Force 31

Hình 2-23 BeagleBone Black - c1 1221111111118 1111111182111 re 36Hình 2-24 Các khối của BBB 5c 2222 2 2 22221 EEerrrrred 37Hình 3-1 Sơ đồ hệ thống nhận dạng - ¿2® EE+E#E£EeEeEeEeEvkrererecees 38Hình 3-2 Các khối xử lý chính trong quá trình huẫn luyện 5 40

Hình 3-3 Các bước xây d ng từ điển SifL Gv EEeEeEsrerrerees 41Hình 3-4 Sơ đồ giải thuật tạo từ điển BOW cee esesesecseeesesesesessetsesesseseens 44Hình 3-5 Các bước huấn luyện S'VM - << Sex EEgEeEsrerrerees 45Hình 3-6 Sơ đồ giải thuật tạo histogram có gan nhãn - 5s se: 46Hình 3-7 Các bước trong quá trình nhận dạng ảnh từ cửa SỐ trƯỢT 48

Hình 3-8 Cửa số trượt theo phương ngang với bước dịch chuyển L lô 49Hình 3-9 Sơ đồ giải thuật khối sliding window 5-5cccccscsrereeeeeee 50

Trang 11

Hình 3-12 Các histogram của các mức phân cấp - - - cscsx+esesrsrerees 56Hình 3-13 Histogram phân cấp mức 2 của ảnh 2 2s + s+s+E+£+ezx+sez 57Hình 3-14 Sơ đồ giải thuật tạo histogram phân cấp - s sec: 58Hình 3-15 So đồ giải thuật tao histogram gan nhãn với histogram phân cap 59

Hình 3-16 Các bước trong quá trình nhận dạng ảnh b ng SPM 60

Hình 3-17 Sơ đồ giải thuật chương trình nhận dạng b ng SPM 61Hình 4-1 Hệ thống phần cỨng - - + + + s+xSESE+E+k+E#E#E#EeESEeEeEkreesrrerees 62Hình 4-2 Hệ thống phần mêm - 2 2E E2 E£EE+E+E#E#EEEEEE+E+ESEeEEEerkrksee 62

Hình 4-3 Thêm trình biên dich ARM trên Ộ SA eeeeeee 74Hình 4-4 Chon | a trình biên dịch cho Ọt 752cc cccsseeeeeess 75Hình 5-1 Giao diện chính của chương trình << << << sssseeeeesss 77

Hình 5-2 Một số hình ảnh kết quả nhận dạng của hệ thống ¬—— 79Hình 5-3 Nhận dạng với hình nền phức tạp ¿- - - + +x+E£EeEeEsEsrererees 79Hình 5-4 Nhận dạng với vật thé chính chiếm tỉ lệ thấp trong hình 80Hình 5-5 Nhận dạng anh có nhiều đối TƯỢN cecceeessssccceeeccceeeeeseesseessssneeeeeees 80Hình 5-6 Kết qua nhận dạng của các lớp với các k ch thước 82Hình 5-7 Kết qua nhận dạng của các lớp với các mức phân cấp 83Hình 5-8 Ti lệ các ảnh nhận dang đúng với các mức phân cấp 84Hình 5-9 Ti lệ ảnh nhận dang đúng với k ch thước từ điển và các mức phâncấp khác nhaU - - G3111 E1919151513 1111111 1 1 111111111 110101 1311111 85

Trang 12

DANH SACH BANG SO LIEU

Bang 2-1 Đặc tính của BBB ce ccccccccesessssessssscceeeeeececeeeeesessssssensaaaaeeeees 37

Bang 4-1: Kết quả nhận dạng các lớp với SVM thuan v_ k ch thước từ điển 81Bảng 4-2 Kết quả nhận dạng các lớp với SVM kết hợp SPM với các mức phâncấp khác nhaU - - G3111 E1919151513 1111111 1 1 111111111 110101 1311111 83Bảng 4-3 Ti lệ anh nhận dạng đúng với k ch thước từ điển và các mức phânS1 85

Trang 13

DANH SÁCH CHU VIET TAT

BoW Bag of Words

CNN Convolution Neural Network

DoG Difference of GaussianSVM Support Vector Machine

SPM Spatial Pyramid Matching

PM Pyramid MatchingSIFT Scale Invariant Feature TransformVOC Visual Object Classes

BBB BeagleBone Black

Trang 14

Với s bung nô của đữ liệu ảnh, việc nhận dạng vật thé trong anh la mot trongnhững nhu cầu cơ bản cho việc quản ly và truy van ảnh d a trên nội dung Thêm

nữa, nhận dang anh là một trong những b 1 toán cơ bản trong lĩnh v c thị giác máy

tính và ứng dụng máy học đã nhận được s quan tâm của nhiều nhà khoa học trênthế giới Hiện nay có rất nhiều cuộc thi trong lĩnh v c nhận dang va phân lớp vậtthé, nỗi trội hơn cả là cuộc thi PASCAL Visual Object Classes (VOC) được tô chứctừ năm 2005 đã qui tụ được rất nhiều nhóm nghiên cứu trên toàn thế giới tham gia.Hình 1-1 thé hiện kết quả nhiệm vụ phân lớp ảnh của các nhóm ở cuộc thi PASCALVisual Object Classes v o năm 2012 Ở nhiệm vụ phân lớp ảnh có 17 nhóm thamgia, da phần các nhóm đều sử dụng phương pháp túi đặc trưng kết hợp với phươngpháp tr ch đặc trưng SIFT để huấn luyện và nhận dạng b ng mô hình SVM

& 3 awe RY 4

Fà ho ò ` Xà S$ 4 vể * § Á @« # 8 sè iS£ v v * về 4$ ge ¢ bề = tò Xi S SS ¢ FŠ ð s &

INRIA_Flat 74.8 62.5 51.2 69.4 29.2 604 76.3 57.6 S31 41.1 54.0 42.8 76.5 623 84.5 35.3 41.3 501 776 493INRIA_Genetic 77.5 63.6 56.1 71.9 33.1 60.6 78.0 588 53.5 42.6 549 45.8 77.5 64.0 85.9 363 447 506 792 532

INRIA_Larlus 62.6 540 328 475 178 464 69.6 442 446 260 38.1 34.0 660 55.1 772 13.1 29.1 367 62.7 433MPI_BOW 58.9 46.0 31.3 590 169 40.5 672 402 443 283 31.9 344 63.6 53.5 757 223 266 354 60.6 40.6PRIPUVA 48.6 20.9 213 172 64 142 45.0 314 274 123 143 237 301 13.3 62.0 100 124 13.3 26.7 262QMUL_HSLS 70.6 54.8 35.7 64.5 278 S11 714 54.0 46.6 366 344 39.9 71.5 554 80.6 15.8 35.8 41.5 73.1 45.5QMUL_LSPCH 71.6 55.0 41.1 65.5 272 S11 722 551 474 35.9 374 415 715 57.9 80.8 15.6 333 41.9 765 45.9

TKK 714 51.7 48.5 634 273 499 70.1 51.2 51.7 323 463 41.5 726 60.2 82.2 31.7 30.1 392 711 41.0

ToshCam_rdf 59.9 36.8 29.9 40.0 23.6 333 60.2 33.0 41.0 17.8 33.2 33.7 63.9 53.1 779 29.0 273 31.2 50.1 376ToshCam_svm 54.0 27.1 303 35.6 17.0 223 580 346 38.0 190 27.5 324 48.0 40.7 781 234 218 28.0 45.5 31.8

Tsinghua 62.9 424 33.9 497 23.7 40.7 62.0 352 42.7 21.0 389 34.7 65.0 48.1 769 169 30.8 328 58.9 33.1

UVA_Bigrams 61.2 3342 294 45.0 165 376 546 313 39.9 172 314 30.6 61.6 424 746 145 209 23.5 49.9 30.0UVA_FuseAll 67.1 48.1 43.3 58.1 199 463 618 41.9 484 278 41.9 385 69.8 514 794 32.5 31.9 360 662 403

UVA_MCIP 66.5 47.9 41.0 58.0 168 440 61.2 40.5 48.5 27.8 41.7 37.1 664 450.1 786 31.2 323 31.9 66.6 403UVA.SFS 66.3 497 43.5 60.7 18.8 449 648 41.9 468 249 423 33.9 71.5 534 804 29.7 31.2 31.8 674 43.5UVA_WGT 497 33.7 34.9 445 222 32.9 559 363 368 206 252 34.7 65.1 40.1 742 264 269 25.1 50.7 297XRCE 723 57.5 53.2 68.9 285 $7.5 754 503 522 39.0 46.8 453 75.7 58.5 84.0 326 397 50.9 75.1 49.5

Hinh 1-1 Két qua VOC 2012 [26]

Trang 15

Day | dé tài rộng và tham vọng trong thị giác máy tính Tuy nhiên nó lại là van dé

cot lõi v lau đời của ngành này.

Bài toán nhận dạng vật thể có rất nhiều thách thức từ việc ảnh được chụp dướinhiều sóc độ khác nhau, điều kiện chiếu sáng khác nhau, s da dạng các thể hiệncủa cùng một lớp vật thé cũng như s phức tạp của thông tin nên trong ảnh Dé giảiquyết bài toán nhận dang vật thé có 4 hướng tiếp cận, đó so khớp mẫu, nhận dang

thông kê, nhận dạng d a vào câu trúc và nhận dạng theo mang noron.

Trong đó, hướng tiếp cận d a trên so khớp mẫu được áp dụng rộng rãi vàmang lại kết quả cao trong bài toán nhận dạng ảnh nói riêng và trong thị giác máy

tính nói chung.

Thông thường dé biểu diễn một đối tượng ta thường biểu diễn nó từ những đặctrưng hoặc từ những bộ phận cấu thành Trong thị giác máy tính, một hình ảnh cóthể được mô tả bởi các đặc trưng cục bộ được trích chọn từ các điểm hấp dẫn “nhô

ra” (salient interest points) của ảnh Tương t như trong xử lý ngôn ngữ t nhiên,

các tài liệu và chủ đề được đặc trưng bởi túi các từ (bag of words), trong thị giác

máy tính các ảnh được đặc trưng bởi túi các đặc trưng Tuy nhiên, việc đánh giá độ

giống nhau giữa các mẫu theo phương pháp n y 1 một thách thức khi tập các đặctrưng gồm nhiều yếu tố, các yếu tô không có thứ t Dé so sánh tập các đặc trưngnày, các nha nghiên cứu thường cô gắng sử dụng những giải pháp phù hợp tốn ít chỉphí nhất, tuy nhiên đây lại là những tính toán tốn kém và trở nênkhông khả thi khitập n y có k ch thước lớn Những phương pháptrước đây nhận đầu v ol các véctơvới mỗi chiều tương ứng là một đặc trưng to n cục riêng biệt Nhược điểm củanhững phương pháp n y 1 không t nh tới vị tr tương đối của các đặc trưng, giảiquyết với những đặc trưng tương ứng rõ r ng, điều này làm cho việc tính toán tốnkém, hạn chế việc sử dụng những đầu vào có phạm vi lớn; Do đó để cải thiện nhữngnhược điểm n y Kristen Graumanv_ Trevor Darrell đã phát triển phương pháp so

Trang 16

một phương pháp mới ra đời nh m giải quyết nhược điểm trên đó 1 phương phápso khớp không gian phân cấp (Spatial Pyramid Matching — SPM).

Với những lý do nêu trên tôi đã | a chọn đề t i: “Thi tk hệ thống nhậndạng vât thế” d a trên mô hình túi đặc trưng (Bag of Word) với phương pháp kếthợp so khớp phân cap (spatial pyramid matching) và máy véc-tơ hỗ trợ (SVM)

e Mục tiêu nghiên cứu:

o Nghiên cứu trích chọn đặc trưng cục bộ bất biến (Scale Invariant

Feature Transform — SIFT)

o Tìm hiểu phương pháp Spatial Pyramid Matching

o Nghiên cứu phương pháp học may SVMo Nghiên cứu phương pháp sliding window

o Xây d ng chương trình demo từ những nghiên cứu va tìm hiểu

nói trên.

e Giới hạn dé tài:o Luận văn viết chương trình để phân loại ảnh đầu vào thuộc một

trong 6 nhóm vật thé đã được huấn luyện.o Ảnh thử là loại ảnh k ch thước vừa phải mỗi chiều từ 200 đến 500

pIxel.

o Chương trình chỉ nhận dạng một vật thể chính trong ảnh, d ih 1ảnh đầu vào phải chứa vat thé ch nh có k ch thước lớn hơn nhiều so

với các đôi tượng còn lại trong ảnh

Trang 17

Chương 1: Tổng quan Trình b y tình hình nghiên cứu, lý do chọn dé t i, mụcđ ch, đối tượng v phạm vi nghiên cứu, ý nghĩa th c tiễn v khoa học của đề t i

nghiên cứu.

Chương 2: Cơ sở lý thuy t Trinh bay những lý thuyết cơ bản về bài toán nhận

dạng ảnh, các phương pháp trích chọn đặc trưng, mô hình Bag of word, so khớp

phân cấp không gian SPM, phương pháp sliding window v phương pháp học máySVM được sử dụng trong luận văn Bên cạnh đó c n trình b y lý thuyết hệ thống

nhúng.

Chương 3: Thực hiện hệ thống Mô tả cách xây d ng hệ thống nhận dạng của

luận vănv các công việc đãth c hiện trên máy tính các nhân.

Chương 4: Xây dựng hệ thống trên BeagleBone Black Mô ta cách xây d ng hệthống trên board nhúng BeagleBone Black

Chương 5: K t qu Trình b y các kết quả của luận văn B n luận về kết quả thu

được.

Chương 6: Ph nk t luận và ki n nghị Tổng kết những kết quả đã đạt được củaluận văn v hướng phát triển nghiên cứu tiếp theo

Trang 18

2.1 Bài toán nhận dạng nh

Nhận dạng ảnh d a trên lý thuyết về nhận dạng Nhận dạng là quá trình phânloại các đối tượng được biéu diễn theo một mô hình n o đó v o một lớp d a theoquy luật và các mẫu chuẩn Quá trình bao gồm việc xác định các lớp của đối tượngsao cho có thể phân biệt

Hệ thống nhận dạng sẽ th c hiện 2 việc: huấn luyện và nhận dạng Trong quátrình huan luyện, các đặc trưng sẽ được trích chọn phù hợp cho việc biéu diễn và bộphân loại sẽ được huẫn luyện dé phân chia không gian đặc trưng Quá trình nhậndạng, bộ phân loại đã được huấn luyện gán một mẫu đầu vào vào một trong các lớp

d a trên các đặc trưng đó.Một mô hình sẽ được xây d ng d a trên các dữ liệu huân luyện và mô hìnhnày sẽ được sử dụng đề phân loại một dữ liệu mới vào các lớp.

>kiểm tra Trích chon đặc trưng

Hình 2-1 Quá trình huấn huyện và nhận dang của hệ thông nhận dạng

2.2 Các hướng ti p cận trong bài toán nhận dang

Có 4 hướng tiếp cận chính cho bài toán nhận dạng :

o Nhận dạng d a vào so khớp mauo Nhận dạng thống kê

Trang 19

Trong các phương pháp trên thi phương pháp so khớp mẫu được sử dụng rộng

rãi bởi tính dé th c thi của nó

So khớp là một thuật toán chung trong nhận dạng, nó được sử dụng để xácđịnh những điểm giống nhau giữa hai th c thé (các điểm, các góc, hình dạng ).Trong so khớp mẫu, các mẫu cần nhận dang là biết trước v được so khớp với cácmẫu đã lưu trữ, có tính tới các trường hợp mẫu bị quay, thay đổi tỉ lệ và bị tịnh tiến

Ngày nay với phương pháp so khớp mẫu, có rất nhiều cách để xây d ng bộ từđiển nhưng nổi trội hơn ca 1 mô hình Bag of word Mô hình n y có ưu điểm 1 đơngiản, dé năm bat, nhưng lại không đánh giá yếu tố không gian trong nhận diện vậtthể, do đó kết quả không được chính xác

Bag of Words được sử dụng trong thị giác may tính, va xử lý ngôn ngữ t

nhiên Những ý tưởng đầu tiên về phương pháp n y được để xuất bởi Zellig Harris

Năm 1999, David Lowe đã phát minh ra giải thuật Sift với kha năng mô tả anh

mạnh mẽ Từ đó Bag of Words có khuynh hướng sử dụng đặc trưng Sift để tạo các“Words” Có rất nhiều dé tài nghiên cứu theo hướng n y đạt được kết quả khả quan.Đầu tiên phải kế đến dé t i của tác giả Gabriella Csurka[3], đề t in y sử dụng môhình BoW cơ bản kết hợp với việc khảo sát hiệu quả của phương pháp Bow khi đik m với các phương pháp phân lớp SVM va Bayes Một số tác giả tìm cách khắcphục nhược điểm của BoW b ng cách kết hợp BoW với các yếu tô không gian, điển

hình | tác giả S Lazebniksử dụng phương pháp khớp mẫu Spatial Pyramid [4]

trong phân loại cảnh quan ảnh v Leibe với phương pháp Implicit Shape Model[5].

Mô hình BoW sử dụng nhiều thông số thay đôi khác nhau, nghiên cứu của tácgiả lun Yang đã đánh giá s thay đổi của một số thông số trong mô hình ảnh hưởngđến kết quả nhận dạng [6]

Trang 20

Luận văn của tôi theohướng tiếp cận so khớp mẫu với mô hình Bag of word,trích chọn đặc trưng SIFT kết hợp kernel phân cấp không gian SPM Ngoài ra luậnvăn c n sử dụng phương pháp sliding window để xác định vị trí của vật thé tronganh Luân văn tiễn hành khảo sát độ ảnh hưởng của mức phân cấp v_ k ch thước từđiển đến chất lượng nhận dạng.

2.3 Các phương pháp trích chọn đặc trưngTrong nhận dang ảnh, việc | a chọn các đặc trưng th ch hop với từng loại truy

vẫn và miền ứng dụng cùng với các độ đo tương đồng tương ứng là thành phầnquan trọng và then chốt nhất Việc 1 a chọn các đặc trưng v độ đo thích hợp sẽ

giúp tang cả tốc độ và mức độ chính xác của các hệ thống J.V.Jawahe và cộng s

[24] đã nêu ra các yêu cau co bản đối với thành phan | a chọn đặc trưng cho ảnh:

e Thành phân | a chọn đặc trưng phải | a chọn được một tập các đặctrưng cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh Nếu sốlượng các đặc trưng quá nhiều sé 1 m “che khuất? các “tn hiệu”(giảm các “tn hiệu” đối với tỉ lệ nhiễu), mặt khác, nếu số lượng cácđặc trưng quá t sẽ khó phân biệt được ảnh trong tìm kiếm

e Nó phải giảm bớt được độ phức tap trong lúc tính toán tổng thé b nggiảm đa chiều của bài toán phân lớp

e Khi người dùng muốn sử dụng các đặc trưng đó cho mọi truy van, thiviệc sử dụng các đặc trưng n y phải hiệu quả Vì số lượng các đặctrưng có thể | h ng ng n, dó đó thời gian xử lý của module phảituyến tính với số lượng đặc trưng

e Vì thời gian xử lý của thành phần | a chọn đặc trưng tuyến tính với sốlượng đặc trưng, do đó việc | a chọn các đặc trưng cũng nên tuyến

tính d a trên phân lớp.

Trang 21

Trong phan nay, chúng tôi sẽ trình b y sơ bộ về các van đề vẻ đặc trưng củaảnh(màu sac, kết cau, hình dạng, đặc trưng cục bộ SIFT), một số độ đo tương đồngtương ứng với các đặc trưng v phương pháp | a chọn đặc trưng ảnh dé tăng chất

lượng tập đặc trưng.

2.3.1 Đặc trưng màu s c

Nhận dạng ảnh theo lược đồ m ul phương pháp phố biến v được sử dụngnhiều nhất trong các hệ thống tìm kiếm ảnh theo nội dung Day I phương pháp đơngiản, tốc độ tìm kiếm tương đối nhanh tuy nhiên kết quả tìm kiếm có độ chính xáckhông cao Đây có thé xem 1 bước lọc đầu tiên cho những bước xử lý sau Một sốlược đồ m u được sử dụng như: lược đồ m u RGB, lược đồ m u HSI, lược đồ HSIcải tiến Trong đó, lược đồ m u RGB được sử dụng pho bién nhat

Lược đô mau RGB: Đôi với anh 256 m u, lược đỗ mau của anh tương đươngvới lược đô màu cua ảnh xám Đôi với ảnh 24 bit m u, lược đô miêu tả khả năng kêtnồi vé cường độ của ba kênh màu R, G, B Luợc đô m un y được định nghĩa nhưsau:

haecsÌr.g,bÌ =N x Prob(R =7,G =g,B =b) (3.1)

Trong đóNL số lượng điểm có trong anh

Lược đồ m un y được tính b ng cách rời rac hóa từng mau trong anh, sauđó đếm số điểm ảnh của mỗi màu Khi mà số lượng màu là có hạng, để thuậntiện hơn, người ta thường chuyển đổi ba kênh mau thành một biến giá trị duynhất Một cách khác dé t nh lược đồ màu của ảnh RGBLI ta phân ral m 3 lượtđỗ riêng biệt hg[ ], hel ].hpg[ ] Khi đó, mỗi lược đồ được tính b ng cáchđếm kênh m u tương ứng trong mỗi điểm ảnh

e D6 tương đông về màu sac

Trang 22

Goi h() va h(M) tương ứng là 2 lượt đồ màu của hai anh I và anh M Khiđó các loại độ đo màu được định nghĩa là một số nguyên (hoặc số th c) theo các

loại độ đo tương ứng như sau:

o Khoảng cách Ơclit:

Day 1 khoảng cách Oclit thông thường giữa các K bin:

Intersectiơn(h(), h(M)) = »7~ VAC) — (h(M))? (3.2)

o Độ đo Jensen-Shannon divergence (JSD):

Độ đo Jensen-Shannon divergence sử dụng lược d6 m u RGB dé tinh toánđộ tương đồng về mau sắc giữa 2 anh:

—~ + Hy,log —=- (3.3)

2

Hm+ Hm+Hm,

đ;sp(CH,H') = Xm=1 HuÌ0gTrong đó: Hv H I1 2 biêu đồ m u được so sánh, H,, là bin thứ m cuabiểu đồ H

2.3.2 Đặc trưng k t cauHiện tại, vẫn chưa có một định nghĩa ch nh thức cụ thé về kết cầu Kết cau làmột đối tượng dùng để phân hoạch ảnh ra thành những vùng quan tâm để phân lớpnhững vùng đó Kết cấu cung cấp thông tin về s sắp xếp về mặt không gian củamàu sắc v cường độ một ảnh Kết cau được đặc trưng bởi sẽ phan bé khong giancủa những mức cường độ trong một khu v c láng giéng với nhau Kết cau gdm cáckết cầu gốc hay nhiều kết cau gộp lại đôi khi gọi là texel

o Một số phương pháp dùng để trích xuất các đặc trưng kết cau như [25]:- Kimt tháp "có thé lái được" (the steerable pyramid)

- _ Biến đối đường viên (the cotourlet transform)- _ Biến đối sóng Gabor (The Gabor Wavelet transform)- _ Biểu diễn ma trận đồng hiện (co-occurrence matrix)- _ Hệ thống bộ lọc định hướng phức tạp (The complex directional fillter

bank)

Trang 23

Dé đo độ tương đồng theo kết cau giữa các ảnh, người ta thường sử dung độđo Ơclit Kết cầu được trích xuất từ các bức ảnh sẽ được biểu diễn thành các vectornhiều chiều và khoảng cách Oclit được dùng dé đo độ tương đồng giữa các đặc

trưng của ảnh truy van với đặc trưng của ảnh trong cơ sở dir liệu.

2.3.3 Đặc trưng hình dạng

Màu sắc và kết cấu là những thuộc tính có khái niệm toàn cục trong một ảnh

Trong khi đó, hình dạng không phải là một thuộc tính của ảnh Nói tới hình dạng

không phải là nhac đến hình dạng của một ảnh Thay vi vay, hình dạng có khuynhhướng chỉ đến một khu v c đặc biệt trong ảnh, hay hình dạng chỉ là biên của mộtđối tượng n o đó trong ảnh

Trong nhận dạng ảnh, hình dạng là một cấp cao hơn so với màu sắc và kếtcầu Nó đih ¡is phan biệt giữa các vùng để tiến hành xử lý về độ đo của hìnhdạng Các hệ thống tìm kiếm ảnh theo nội dung thường khai thác hai nhóm biểu

diễn hình dạng sau :

- _ Biểu diễn hình dạng theo đường biên (cotour-based descriptor) : Biểu

điên các đường biên bao bên ngoài

- Biéu diễn theo ving (region-based descriptor): Biéu diễn một vùng

toàn vẹn

o_ Độ đo tương đồng cho hình dạngĐộ đo về hình dạng rất nhiều trong phạm vi lý thuyết của bộ môn xử lý ảnh

Chúng trải rộng từ những độ đo toàn cục dạng thô với s trợ giup của việc

nhận dạng đối tượng, cho tới những độ đo chỉ tiếtt động tìm kiếm những hìnhdạng đặc biệt Lược đồ hình dang là một ví dụ của độ đo đơn giản Kỹ thuật dùngđường biên hiệu quả hơn phương pháp trước, chúng tìm kiếm những hình dạng đốitượng gan giống với đường biên nhất Phương pháp vẽ phác hoa là phương pháp cónhiều đặc trưng rõ ràng hon, không chỉ tìm kiém những đường biên đối tượng don,ma còn đối với tập những đối tượng đã được phân đoạn trong một ảnhm_ người

Trang 24

2.3.4 Đặc trưng cục bộ bat bi n SIFTĐể so sánh hoặc phân loại ảnh, cách tiếp cận thông thường là biéu diễn ảnh

dưới dạng véc tơ đặc trưng b ng cách sử dụng các kỹ thuật tạo và trích chọn đặc

trưng Vécto đặc trưng sau đó được sử dung | m dau v o cho các phương pháp phânloại hoặc để t nh độ tương t giữa các anh với nhau Có rất nhiều dạng đặc trưngđược đề xuất và sử dụng trong phân loại ảnh Trong phạm vi luận văn, tôi chọn sửdụng đặc trưng cục bộ bất biến, viết tat 1 SIFT I m đặc trưng biéu diễn ảnh

SIFT là một giải thuật mạnh mẽ trong lĩnh v c nhận diện vat thể Bởi vì mô tảcủa đặc trưng SIFT không bị biến đối với các k ch thước ảnh khác nhau, các hướngxoay khác nhau và thậm chí có thé không biến đổi trong điều kiện ánh sáng khác

nhau và méo dạng.

Phương pháp tr ch chọn đặc trưng SIFT được tiếp cận theo phương pháp tháclọc, theo đó phương pháp được th c hiện lần lượt theo các bước sau:

e Xác định vị trí điểm đặc biệt (Key localization):

Anh dau v o được nhân tích chập với bộ lọc Gaussian với các giá tri 0 khácnhau dé tạo ra ảnh mới với các độ mờ khác nhau.

L(x,y,Ø) = G(x, y, a) * I(x,y) (3.4)

Với I(x, y) là ảnh đầu vào va G(x, y, ø) là bộ loc Gaussian với số ø.DoG (Difference of Gaussian) | phương pháp dùng dé nổi rõ các chỉ tiết của

ảnh.

DŒ,y,Ø) = L(x, y, ka) — L(,y,Ø) (3.5)

Trong phương pháp xác định góc Harris, ta thấy r ng van có thé phát hiện ragóc nếu ảnh bị xoay Tuy nhiên khi anh bị thay đổi k ch thước, một góc có thé

không còn là một góc nữa Như hình minh họa bên dưới đây:

Trang 25

é — ©

Hình 2-1 Góc ở bức anh lớn hơn có thé không còn là góc nữa [7]

Như v dụ ở trên ta thay khi ảnh thay đổi k ch thước, một yếu tố n o đó có thékhông còn là bất biến nữa Do vậy dé tìm được yếu tổ bất biến qua nhiều k ch thướcảnh khác nhau ta cần khảo sát DoG ở nhiều k ch thước ảnh

Scale

(nextoctave}

Scale(first

octave)

Difference of

Gaussian Gaussian (DOG)

Hình 2-2 Tnh DoG oc ck ch thước kh cnhau của anh [7]

Khi DoG đã được xác định, mỗi pixel trong ma trận DoG sé được so sánh với

8 pixel ở xung quanh nó và 9 pixel ở Scale tiếp theo v Scale trước đó Nếu mộtdiém 1 điểm lớn nhất hoặcnh nhất trong các lân cậnm nó so sánh thì nói điểm

Trang 26

FT a a

20.0%

Hình 2-3 Khảo s tc cgi tr DoGdél ctmra điểm ä c biệt.e Tính vị trí chính xác các điểm đặc biệt:

Một số điểm đặc biệt đã tìm ở bước trước không ôn định Bước nay sẽ trình

bày cách tính toán vị tr các diém một cách ch nh xác hơn.

Các điểm có độ tương phản thấp hoặc vi trí n m trên cạnh cũng bị loại b

Hình 2-4 nh với c c điểm Sift [23]

eTinh môt địa phương c a điểm đặc biệt:Người ta sử dụng một vùng lân cận 16x16 xung quanh điểm đặc biệt để tính

toán mo tả của nó.

Trang 27

Ô 16x16 được phân thành 4 ô con, mỗi ô con lại có k ch thước 4x4.Với mỗi ô con k ch thước 4x4.độ lớn của gradient hướng được tính Những sđịnh hướng n y được xếp vào 8 loại: 0-44 độ, 45-89 do, 90-134 độ Người ta lậphistogram theo 8 loại Nhu vậy ta đã t nh độ định hướng cua 16 pixel dé tạo thànhhistogram 8 loại Ta tốn 8 giá trị dé mô tả histogram 8 loại nay.

L mtuongt với tất cả 16 ô k ch thước 4x4 ta cần 16x8 = 128 giá trị dé mô

tả.

Như vậy với mỗi điểm đặc biệt ta trích xuất được một vector có 28 giá tri để

mô tả lân cận xung quanh đó Vector đó ta gọi la Descriptor.

16x16 window

@ Keypoint

Hình 2-5 V ng có k ch thước 16x16 xung quanh điểm đ c biệt [9]

Trang 28

” + * *“ó Mơ *`4

Hình 2-7 T nh gradient hưởng om iv ng con 4x4.[9]

2.4 Chia cum K-meanPhân cụm k-mean là một phương pháp lượng tử tử vector Mục dch cuaphương pháp n y! phân n mau dau vào thành k cụm mà trong từng cụm ma môimau gân với diém trung vi của cụm đó nhat so với diém trung vi của các cụm cònlại.

Trang 29

e Phuong phap th c hién:

o K điểm trung vi được chon ngẫu nhiên trong miền dữ liệu.o Tính khoảng cách giữa các mẫu đầu v o v_ k điểm trung vị Khoảng cách

nào gan nhất ta sẽ phân mẫu đầu vào vào cụm đó.o Tnh điểm trung vi mới của k cụm mới tạo thành.o Lap lại bước2v bước 3 cho đến khi không có s thay đổi cụm giữa các

điểm đầu vào xảy ra Tức b i toán đã hội tụ.e Các đặc điểm nồi bật của phương pháp k-mean:

o Khoảng cách Euclide được dùng để xác định khoảng cách giữa các điểm

trong thuật toán

o Chỉ số k là chỉ số đầu v o do người dùng chọn Việc xác định k không

chính xác sẽ dân đên kết quả sai lệch rat nhiêu so với th c tê.

Trang 30

Hình 2-10 C c tâm củam ic mdu ctnhlail c c điểm trung b nh cua

c mdo [10]

Hình 3-0-11 Bước 2v bước 31 p lại đến khi b ito nh it, tức không c n

s_lfhay ä i tam nữa | I0]

e Ứng dụng của chia cụm k-mean:

o Lượng tử hóa vector:

k-mean được sử dụng trong lĩnh v c xử lý tính hiệu Vi du, trong

lĩnh v c đồ họa máy tính, k-mean được sử dung để giảm số màusử dụng của một bức ảnh thành số chính xác là k k-mean được sửdụng trong việc n y v_ thường cho kết quả rất tốt

o Phân tích cụm:

Trong phân tích cụm, k-mean được sử dụng để phân các dữ liệuđầu vào k cụm khác nhau Tuy nhiên thuật toán k-mean khôngđược linh hoạt và có nhiều hạn chế Trong th c tế việc bắt buộcphải chọn được thông số k chính xác ngay từ đầu là rất khó th chiện Việc sử dụng khoảng cách euclide để t nh toán cũng không

Trang 31

được ch nh xác Do đó rất nhiều thuật toán mới được phát triển dékhắc phục những khuyết điểm đó.

o Học đặc trưng (Feature learning):

Phân cụm k-mean được sử dụng trong bước học đặc trưng để tạo từđiển Phương pháp cơ bản nhất là phân các mẫu huấn luyện đầu vào(chưa được gan nhãn) thành k cụm khác nhau nh m tạo lập từ dién

2.5 BagofWords

Object —— Bag of ‘words’

Hình 2-12 Mô h nh Bag of Words.[11]

Trong thi giác máy t nh, Bag of Words(BoW) thường được dùng dé phân loạiảnh, vật thể trong ảnh b ng cách coi đặc trưng của ảnh như một từ Trong bài toánphân lớp BoW là một vector biểu diễn histogram của các từ

Trang 32

e Biểu diễn nh bang mô hình BoW:Đề biểu diễn một ảnh b ng BoW, ta xem một ảnh như một đoạn văn bản Dođó từng “words” trong anh cũng cần được khai báo Dé 1 m được như vậy, quá trình

xử lý trải qua ba bước căn bản như sau:

e Biéu diễn đặc trưng:

Ảnh đầu v o được phát hiện các đặc trưng Các đặc trưng trong ảnh có thể làđặc trưng Sift, Surf, Harris, Các đặc trưng đó được biéu diễn dưới dạng vector.Vi dụ đặc trưng Sift cua một điểm được biểu diễn b ng một vector có 128 giá tri.Trong các loại biểu diễn đặc trưng, phương pháp Siftl nổi tiếng nhất hiện nay

e Tạo bột điển:Số lượng lớn các ảnh dùng để huấn luyện sẽ được trích xuất đặc trưng Cácđặc trưng n y sau đó sẽ được chia cụm để tạo lặp bộ từ điển Mỗi cụm là tập hợpmột số các đặc trưng có giá trị gần giống nhau Phương pháp chia cum pho biếnnhất I phương pháp k-mean Mỗi từ trong bộ từ điển l điểm trung tâm của cụm

SO lượng các cụm là sô từ trong bộ từ điền.

Airpianes (Sy AS ¬ xã ell

FacesWild Cats

Leaves

Hình 2-13 b t diénhnhanhhnhth nhb ngc chchiac mc c mô

ta [13]Bikes

Trang 33

e Huan luyện dựa trên BoW:

Các ảnh đã gán nhãn sẽ được sử dụng đề huân luyện Các ảnh này sẽ qua quá

trình tr ch đặc trưng dé tạo thành vector.Mỗi vector đặc trưng sẽ được khớp với một từ trong bộ từ điển Có nhiềuphương pháp khớp khác nhau nhưng đơn giản nhất 1 phương pháp điểm gan nhất.Tic 1 đặc trưng sẽ được khớp với từ có khoảng cách Euclide gần nó nhất

Mỗi ảnh được mô tả bởi nhiều vector đặc trưng, mỗi vector đặc trưng khớpvới một từ Do đó mỗi ảnh huẫn luyện sẽ được biéu diễn bởi một tập hợp các từ cótrong từ điển Ta sẽ lập histogram từ của ảnh Vi dụ k ch thước từ điển là 1000 từ,thì mỗi ảnh sẽ được biểu diễn bởi một vector có 1000 phần tử để biểu diễn

Trang 34

e Ưu điểmec a mô hình Bag of Words:

o_ Đơn giản, dễ nắm bắt.o Kết quả nhận diện có độ ch nh xác cao.o_ Có thể áp dụng cho nhiều k ch thước ảnh khác nhau.o Có thé nhận diện được vật ở nhiều tư thế khác nhau trong ảnh Điều

n yl vì BoW không quan tâm đến vị tr không gian của các điểm Sifttrong ảnh Vật thé cần nhận diện sẽ xuất hiện với rất nhiều góc cạnh

khác nhau trong ảnh nên đôi khi việc mô tả vị tr không gian của từng

bộ phận vật thé trong anh | m kha năng nhận dạng vat thể bị bó hẹp

lại.

e Khuy tdiéme a mô hình Bag of Words:

o Không xác định được vi tri của đối tượng trong ảnho Không tnh đến ảnh hưởng của yếu tô không gian trong ảnh Do đó

chất lượng nhận dạng đôi khi không được cao Trong nhiều trườnghợp việc không t nh đến yếu tô không gian lại I khuyết điểm V dụ

như trong việc nhận dạng khung cảnh.

o Không nhận dạng được vat thé trong ảnh có nhiều vật thể khác nhau

2.6 Phương pháp nhận dang SVM (Support Vector Machine)

Trong những năm gần đây phương pháp nhận dang Support Vector Machine

(SVM) đã thu hut được s quan tâm nghiên cứu của các nhà khoa học v đã đạt

những kết quả nhận dạng tốt trong nhiều bài toán nhận dạng Trong nhiều trườnghợp, chăng hạn như nhận dạng chữ viết quang học offline, SVM đã đạt những kếtquả ngang b ng các phương pháp truyền thống như mạng Neural

Phương pháp SVM được Vapnik dé xuất v o năm 1995 Day l một phươngpháp d a trên lý thuyết học thông kê (Statistical Learning Theory) nên có một nềntảng toán học chặt chẽ để bảo đảm r ng két qua dat duoc tối ưu Y tưởng chính củaSVM là chuyển tập mẫu từ không gian biểu diễn Rn của chúng sang một khônggian Rd có số chiều lớn hơn Trong không gian Rd tìm một siêu phăng tối ưu dé

Trang 35

phân hoạch tập mẫu nay d a trên phân lớp của chúng, cũng có nghĩa tìm ra miềnphân bố của từng lớp rong không gian biểu diễn Rn, để từ đó xác định được phânlớp của một mẫu cần nhận dạng.

Cũng như mang Neural, phương pháp SVM | một phương pháp có t nh tổngquát cao, có thé ap dung cho nhiều loại bài toán nhận dạng khác nhau

2.6.1 SVM tuy n tính

Xét trường hợp việc phân chia hai lớp mẫu có thé được phân chia hoan toàn b ngmột siêu phăng tuyến tính (hình 3-15) Việc phân lớp tuyến tính là tìm ra một siêuphăng H (w.x+ b= 0) với khoảng cách giữa HI và H2 là lớn nhất

Giả sử tập mẫu có được gồm | phan tử là:

(X41, 1ì), (xa, 32), (Xn, Vn)

Trong đó x; € R" ec ny; € {-1;1} là phan lớp cua x;

Cần xác định được siêu phăng mà có thé tách biệt được hai lớp trên Có thé có

siêu phăng như vậy và vân đề là cân tìm ra siêu phăng nào làm cho khoảng cách

Trang 36

Euclid giữa hai lớp trên là lớn nhất (hình 3-16) Luc đó các vector có khoảngcách gần siêu phăng nhất được gọi là support vector.

-b/ |

Gốc toa đô

khoảng cách phân hoạch

Hình 2-16 Siêu phẳng phân cách hai tập m u [15]

Giả sử phương trình siêu phăng cần tìm là w.x+ b= 0 trong đó wl pháp vectorcủa siêu phang w € RTM Ta có hai bất phương trình sau:

(wn +b <—10ớiy; = —1 (3.3)

Kết hợp hai bất phương trình trên ta được:

Lúc đó những support vector x; th a mãn phương trình (wx, + b)=-1 thin m

trên siêu phăng H, , phương trình (wx; + b)=1 thin m trên siêu phang H, Khoảng cách có dau từ gốc tọa độ đến là: đ;=(1-b)/|Iw|| (3.5)Khoảng cách có dau từ gốc tọa độ đến là: đ;= (-1-b)/|Iw|| (3.6)

Trang 37

Suy ra khoảng cách phân hoạch d giữaH; vàH; là: d = |d; -đ; |=2/||w|| (3.7)

Do đó để có d lớn nhất thì ||w|| phải nh nhất hay nói cách khác phải đi timc ctiểu của” ||w|| 2 Việc time c tiểu sẽl quá trình đi tìm wv_ b từ đó tìm ra siêuphăng H Kết quả của bài toán này theo [14]

Sau khi tìm ra siêu phăng phân chia tập mẫu việc nhận dạng một mẫu x là

việc xác định xem x thuộc phân lớp nào Phân lớp y cua x (-1 hoặc +1) đượcxác định theo công thức:

y =ƒ(z) = sign(wx + b) = sign'¡-1u¡x¡y¡x + b) (3.10)

2.6.2 SVM không tuy n tính

Trường hop tong quát chung của bài toán SVM là các mẫu không thé phânchia hoàn toàn b ng một siêu phăng Lúc nảy công việc đầu tiên là làm saochuyển đối dé đưa các mau này thành một tập hợp có thé phân chia hoàntoàn Giải pháp cho bài toán này là ánh xạ các mẫu sang một không gianđặc trưng có chiều cao hơn dé có thé phân chia hoàn toàn các mẫu này vớimột siêu phăng tuyến t nh Lúc n y h m ngõ ra được biểu diễn với dạng

như sau:

ƒŒ) = Lie y¡K (%, x) + b (3.11)

Trang 38

Voix vector đầu vào cần được phân lớp, KQ là ham kernel sé th c hiệnmột phép ánh xạ từ không gian đầu v o trong không gian đặc trưng Có bốnloaih m KQ) thường được sử dụng [16]: tuyến t nh, đa thức, Radial Basis

Trong một số trường hợp việc phân lớp không thé được th c hiện một cách

hoàn toàn dù th c hiện phép ánh xa Corinna Cortes va Vladimir N Vapnik

đã đề xuất thuật toán lề mềm dé giải quyết b i toán trong trường hợp nay.Với bài toán này với mỗi mẫu xi sẽ được gan một sai số ši

Trang 39

Kết quả trong phương pháp C-SVM

2.7.1 So khớp phân cấp (Partial Matching)

Sau khi trích chọn đặc trưng thì mỗi ảnh được đại diện bởi tập các véc tơ đặc

trưng trong không gian d chiều Như vậy việc so sánh hai ảnh với nhau trở thànhviệc đánh giá độ tương đồng của hai tập véc tơ đặc trưng Gọi X, Y là hai tập véc tođặc trưng trong không gian d chiều Grauman v_ Darrell đã đề xuất phương pháp sokhớp phân cấp (viết tat | PM) dé ước lượng độ tương đồng giữa hai tập véc tơ n y

Trang 40

So khớp phân cấp th c hiện b ng cách thay thé chuỗi các lưới điểm thô tăngdần v thu được tổng số các so khớp tại mỗi độ phân giải (resolution) Tại mỗi độphân giải bất kỳ, hai điểm được gọi là so khớp nếu chúng rơi v o cùng một vùngcon của lưới điểm; các so khớp được tìm thấy ở độ phân giải mịn có trọng số cao

hơn những so khớp ở độ phân giải thô.

L5 ou

flak F —=

Th |

aoÑ Ũ

Hình 3-0-17 Bên trải: So khớpc cb_ giữa tậpc cd c trưng Bên phải: So

khớp phân cấp với d u vào là hai tập véc tơ dc trung.[17]Cụ thể, chúng ta xây d ng một chuỗi lưới điểm tại các độ phân giải 0, 1, L;

Như vậy lưới điểm ở mức 1 có 2! vùng con dọc theo mỗi chiều, tong số sẽ có D =

2% vùng con GoiH (i) và Hỷ(0)là histogram của X và Y tại lưới điểm nay, dođóH‡( va H$(0 là số điểm của tập Xv_ Y rơi v o vùng con thứ i của lưới điểm.Số lượng so khớp tại mức | được cho bởi hàm histogram intersection:

I(Hy, Hy) = DP min(Hš(), Hy (i) (3.18)Dé ngan gon, ta sẽ thay !(Hỷ, HỆ) bởi I

Lưu ý: số các so khớp ở mức | cũng bao gồm tất cả các so khớp ở mức 1+1 Vì

vậy, số các so khớp mới ở mức 1 là I! — I'*1( 1= 0, 1, L-1) Trọng số i tuong

ứng ở tỉ lệ 1 là nghịch đảo ti lệ chiều rộng giữa các vùng con được định nghĩa ở tỉ lệtương ứng Trọng số n y được dùng để bù cho việc so khớp trên nhiều vùng có tỉ lệ

Tiêu đề	Thiết kế hệ thống nhúng nhận dạng vật thể với phương pháp kết hợp so khớp Spatial Pyramid và Vec-tơ hỗ trợ SVM
Tác giả	Ly Nguyen Vuong
Người hướng dẫn	PGS.TS Hoang Trang
Trường học	ĐẠI HỌC QUOC GIA TP. HO CHI MINH TRUONG DAI HOC BACH KHOA
Chuyên ngành	Kỹ thuật Điện Tử
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2017
Thành phố	TP. HO CHI MINH

Định dạng
Số trang	107
Dung lượng	50,36 MB