Phát hiện, nhận dạng đối tượng là một bài toán thị giác máy tính quan trọng liên quan đến việc phát hiện các trường hợp của các đối tượng trực quan của một lớp nhất định như con người, đ
Trang 1BO GIAO DUC VA DAO TAO DAI HOC HUE
TRUONG DAI HOC KHOA HOC
LE HUNG PHONG
TIM HIEU KY THUAT NHAN DANG DOI TUONG TRONG ANH QUA HE THONG
CAMERA GIAM SAT
LUAN VAN THAC SI KHOA HOC
CONG NGHE THONG TIN
Thira Thién Hué, 2020
Trang 2
MO DAU
1 Ly do chon dé tai
Nhận dạng đối tượng người trong ảnh và video là một trong những chủ dé
được quan tâm rất lớn trong lĩnh vực thị giác máy tính, hiện đang được nhiều nhà
khoa học và nghiên cứu quan tâm Phát hiện chính xác người trong ảnh và chuỗi video sẽ có những với nhiều ứng dụng trong robotic, hệ thống giám sát con người,
các kỹ thiết bị kỹ thuật hỗ trợ cho các ứng dụng trực quang, truy vấn, chỉ mục nội
dung (vi dụ như Flickr, Google, movies), các giao diện tương tác giữa người và máy, an tồn tự động (ơtơ) Không những trong khoa học máy tính, phát hiện con người còn có nhiều ứng dụng trong nhiều lĩnh vực khác như kinh tế, an ninh và giao thông v.v Điển hình như trong các ngân hàng, các tồ nhà cơng sở, công ty,
dựa vào các video theo dõi từ camera mà bảo vệ có thể giám sát khách hàng vào ra,
phát hiện ra những đối tượng nghỉ vấn có thê tiến hành cướp ngân hàng Trong các sân bay, nhà ga tàu điện ngầm, tàu lửa thì việc phát hiện con người cũng giúp cho
bảo vệ hay bộ phận kiểm soát có thể phát hiện được các tình huống, các đối tượng
nghi vấn Phát hiện con người cũng đang được nghiên cứu để ứng dụng trong xe ô
tô thông minh, hồ trợ cho người lái xe, giúp các tài xế có thể tránh được các tai nạn
đáng tiếc có thể xảy ra Mặc đù nghiên cứu phát hiện đối tượng người đã đạt được nhiều kết quả đáng kể trong thời gian gần đây tuy nhiên vẫn còn gặp phải một số thách thức như:
- Hinh dạng con người phụ thuộc vào hướng và góc thu nhận ảnh của camera,
các đối tượng có thé bị biến đạng đo đi bộ, thay đổi tư thé, bị che khuất bởi các đối
tượng khác
- Sự xuất hiện đối tượng con người trong ảnh ở các vị trí khác nhau với kính thước và hình dạng nhiều tỉ lệ khác nhau
Trang 3thuật toán học, kết quả đầu ra là một giá trị nhị phân hoặc một giá trị thực cho biết
độ tin cậy của quyết định Trọng số ø„ chỉ rõ độ quan trọng của „ trong kết quả của
bộ phân loại mạnh, trọng số này được tính toán dựa vào lỗi e„ của nó trên tập dữ
l-e n
liệu huấn luyện: ø, = pu } Cuối cùng trọng số (7) được điều chỉnh sao cho
e
các mẫu bị phân loại sai bởi Z„ trở nên quan trọng hơn (trọng số tăng lên) so với các mẫu khác Quá trình xử lý này được lặp lại, bộ phân loại yếu tiếp theo sẽ tập trung
xử lý các mẫu bị phân loại sai bởi bộ phân loại hiện tại dựa trên các trọng số này Thuật toán dừng khi là một số lượng nhất định các bộ phân loại được huấn luyện
hoặc đạt đến một tiêu chí nào đó (chẳng hạn như lỗi đã thấp hơn ngưỡng) 1.3.2 Boosfing ngoại tuyến lựa chọn đặc trưng
Mục đích của việc lựa chọn là chọn được những đặc trưng hữu ích, giảm các chiều của không gian đặc trưng và loại bỏ nhiễu Lựa chọn đặc trưng dựa vào boosting được giới thiệu lần đầu tiên bởi Tieu và Viola Việc lựa chọn đặc trưng hữu ích từ tập hợp các đặc trưng được thực hiện bằng thuật toán AdaBoost Ý tưởng
chính là mỗi đặc trưng tương ứng với mỗi bộ phân loại yếu đơn giản và sử dụng
thuật toán để chọn một tập hợp con các đặc trưng mang nhiều thông tin nhất
Quá trình huấn luyện tương tự như thuật toán boosting đã được mô tả Cho một tập hợp các dac trung F ={f , f,}, trong bước lặp thứ ø, thuật toán xây dựng
một giả thuyết yếu dựa vào trọng số của các mẫu huấn luyện Một bộ phân loại yêu tốt nhất 7““ tương ứng với đặc trưng được chọn ƒ, Các trọng số của các mẫu
huấn luyện được cập nhật lại dựa vào lỗi của các giả thuyết đã được chọn Cuối cùng, một bộ phân loại mạnh ø””* được tinh bằng cách kết hợp tuyến tính các
trọng số của các bộ phân loại yếu, voi trong sé a, được ước tính theo lỗi của ø“#
như được mô tả ở trên
1.3.3 Boosting trực tuyến
Các thuật toán học trực tuyến liên quan đến việc học mỗi mẫu huấn luyện và loại bỏ nó sau mỗi lần cập nhật Một thuật toán học trực tuyến L lay mot dau vao la
Trang 4LOI CAM ON
Trước tiên, tôi muốn gửi lời cảm ơn sâu sắc đến ba mẹ, người đã sinh thành, dưỡng dục, hỗ trợ mọi điều kiện vật chất và tỉnh thần để tôi có được ngày hôm nay
Tôi xin chân thành cảm ơn thầy TS Nguyễn Đăng Bình đã hướng dẫn chỉ bảo tận tình giúp tôi hoàn thành luận văn tốt nghiệp này
Tôi xin chân thành cám ơn Trường Đại học Khoa học - Huế, Khoa Công nghệ Thông tin đã tạo mọi điều kiện thuận lợi cho tôi được học tap, va qui thay cô
đã tận tình giảng đạy giúp tôi có được những kiến thức cơ bản về chuyên môn
Tôi xin chân thành cám ơn Phòng Đào tạo Sau đại học Trường Đại học Khoa học Huế đã tạo điều kiện giúp tôi, hướng dẫn các thủ tục cần thiết và có được đữ liệu phục vụ luận văn này
Cuối cùng, xin được gửi lời cảm ơn đến Trường THPT Phan Bội Châu
TP.Pleik, tỉnh Gia Lai, cùng tất cả đồng nghiệp Đặc biệt gửi lời cám ơn đến người vợ của tôi cùng với bạn bè đã luôn động viên, giúp đỡ tôi trong suốt quá trình học tập và hoàn thành luận văn này
Người thực hiện luận văn
Lê Hùng Phong
Trang 5MUC LUC
Trang
LOT CAM ĐOAN 20 221221 2212221211221121121121112121 re i
LỜI CẢM ƠN 255 22212221122211 2212212211211 212212 rau ii
MUC LUC Lecce cece Ẽ6 Đ© ‹4ă ul
DANH MỤC CÁC CHỮ VIẾT TẮTT 22 22S22E12251225122312131211121112111211 2212 xe Vv DANH MUC CAC BANG o.oo ooo sooo see 222222122212211221222222222222222 2e vi DANH MỤC CÁC HÌNH VẼ 52221 212211221211211211212212122122 re vii MỞ ĐẦU 52-2222 2221222112211221122112211 21122122121 eere 1 1 Lý do chọn để tài 52 22212212221221211211222211221221222222222 re 1
2 Đối tượng nghiên cứu 2- S22 22122212212112112211211221122222 2 2eree 3
3 Mục tiêu của để tải s22 22122212 221122112111211122112211 2112212121 re 3
4 Phuong phap nghién ctu 4
5 Cu tric Wan VAM occ ccceccccescccesecsesessesecvesecsesessesessssesussestesesesesssesesestsseetsreetsaeanevees 4 CHUONG 1 TÔNG QUAN VẺ NHẬN DẠNG ĐÓI TƯỢNG -2 5
LoD GiGi Hi hhảảỘỒŨDỪỪŨŨẶ 5
1.2 Phương pháp phân tích thành phan chinh (PCA) 0.0.0 ccc cec ces eeseeteee 7
1.3 Kỹ thuật Boosting ccc ct 2S nhà Hà Hà Hà HH Hà HH 9
m5 v9 cece ccc ccccccceccssescsesceeessesssescsseesasscsescsesssesssessssessaeenes 10
1.3.2 Boosting ngoai tuyến lựa chọn đặc trưng -2-©2s 2222221222222 cxze 11
1.3.3 Boosting trực tuyến 22 22 2212221221122112211222212222 are 11
Trang 62.1 Giới thiỆU S2 HH HH HH HH Hà HH He 29
2.2 Cơ sở lý thuyết 22-222 2222312111211121112111211121112112112112222222 re 30
22:1 Eoe:thíchrnp đÍưsscteeeseg t1 E0 ĐDEHSIEEEEASAERSSEPRGREHEEISHSIREIERBIRPNIBBIsPlpeBl 30
2.2.2 Phân loại dựa vào phương pháp mô tả so với phương pháp dự báo 34
2.3 Định nghĩa học thận trọng - c2: 21321212 12 E8 tt Hye tre 37
2.4 Khung hệ thống học máy thận trọng - -222222222221222122212221221 22 ee 40
2.4.1 Khởi tạo và lấy mẫu mới . -©-2222222122512111211121112111211121122 2e 40
2;:4:2: Nlô:hinh:imB lỗ batngapntiditiititdtititBSEUBIGEIUNDIGHSISS.DBWIESISDNNiTRlGiingtoegiiadeeenl 42
2.4.3 Mô hình dự báo c2: 12221212 HH HH HH he 43
2.4.4 Quy tắc cập nhật thận trọng -.- - c1: 2S nhe Hrererreg 44 2.5 Tiểu kết chương 2 - 52 22 22222211211121112111211121121121121212222ee 45 CHƯƠNG 3 THUC NGHIEM VÀ LƯỢNG HÓA KẾT QUÁ 47
3.1 Tiêu: chí (đánh Bi li s:snencrrivsninhindtintititrtriidrtrstgitgtStRUnLTt1 A610 00i800080565154 080057419130 47
3.2 Đánh giá mô hình học thận trọng .- ¿c2 St S 3S sErrrterrrerrreree 48
3.2.1 Dữ liệu đánh giá S1 n1 48
3.2.2 Đánh giá trên mô hình học thận trọng ngoại tuyến - 48
3.2.3 Đánh giá trên mô hình học thận trọng trực tuyến = 50 3.3 Thực nghiệm trên các bộ dữ liệu chuẩn - 2s S21 211511112111121151 2111121 xxe 51 K0 00:02 1 51 3.3.3 Bộ dữ liệu PETS 2006 - 5 t2 2121221222222 he 53 3:344: Bồ:dữ liệu ,Lechg8ÍGscsssiiseisrrrdtttotedsntiiEEEDJHGIGISRGRSHGSORNHMONSiiinoa 55 3.4 Kết luận và hướng phát triển - 22222 222225222512111211121112111221222 xe 56 3.4.1 Kết luận 2 c2, 22H n2 HH ng 56
3.4.2 Hướng phát triỂn -©22- 222 22112212212221211211221221222221ee 57 TÀI LIỆU THAM KHẢO 2222 2222221222112212221121121121121122222 e6 58
Trang 8DANH MUC CAC BANG
Số hiệu Bảng Tên bảng Trang
#1 Kết quả thực nghiệm với phương pháp học thận trọng 5Ơ
ngoại tuyên
3.2 Kết quả chỉ tiết phát hiện người với bộ dữ liệu Caviar 52
Trang 9DANH MỤC CÁC HÌNH VẾ Tên hình vẽ Trang Số lượng ấn phẩm ngày càng tăng trong phát hiện déi trong Hình 1.1 , 5
từ năm 1998 đên năm 2018
Hình 1.2 Một bản đỗ của các nghiên cứu phát hiện nhận dạng đối tượng 6
Hình 1.3 Hoe PCA 8
Hinh 1.4 Hình ảnh kiểm tra và tái cấu trúc của nó 8
Hinh 1.5 Boosting trực tuyén cho việc lựa chon đặc trưng 15
Thay đôi nền: một chiếc xe đang chuyền từ nên thành đối
Hình 1.6 tượng trong khi một chiếc xe thứ hai là chuyển từ đối tượng 17 thành nền ` Thay đổi nền: ngay cả đối với mô hình nền trong nhà đã Hình 1.7 Co ey, os 2 18 thích nghi với điêu kiện chiêu sáng thay đôi Hình 1.8 | Phương pháp khử nền 19 Mô hình dựa trên nên khối được hình thành bởi lưới liên kết Hình 1.9 ` 24 các ô chông nhau Mô hình khối dựa trên nên và những ảnh hưởng với thay đổi Hình 1.10 vá ' 27
của diém anh trong mô hình nên
Các mô hình khối dựa trên nền sử dụng kích thước khối Hình 1.11 28 khác nhau Mô hình nhận dạng đối tượng sử dụng kỹ thuật học thận Hình 2.1 ⁄ 29 trọng trực tuyên tình:2 8 Lay mau ở ranh giới đúng hiện tại có hiệu quả hơn lấy mẫu s1 ngâu nhiên Hình 2.3 Học chủ động - cập nhật phù hợp cho việc học bộ phát hiện 32 Hình 2.4 Giám sát học chủ động 32 Hình 25 Phân lớp dựa vào phương pháp mô tả so với phương pháp 35 dự báo
Mơ hình mơ tả hồn thiện có thể được tính toán từ số lượng
Hình 2.6 ít các mâu huân luyện 36
Trang 10
Hinh 2.7 Mô hình mô tả 36
Hình 2.8 Khối chuyển động thu được từ phép khử nền 41
Hinh 2.9 Kết quả phát hiện của bộ phát hiện người Dalal-Triggs 42
Mô hình hình dạng dựa trên sự biến đổi khoảng cách
Hình 2.10 42
Euclide của hình ảnh nhị phân
Hình 2.11 | M6 hình mô tả — năm véc tơ chính 43
Vẻ bề ngoài, sự tái câu trúc của nó; hình dáng, sự tái cầu
Hình 2.12 oo, 44
truc cua no
Hinh 2.13 | Cập nhật thận trọng của bộ phân loại phân biệt 45 Hinh 3.1 Nén tin cậy cho các thực nghiệm 47
Hình 3.2 Kết quả phát hiện người với các bộ phân loại khác nhau 50
Hình 3.3 Kết quả phát hiện người với bộ dữ liệu Caviar 53
Trang 11MO DAU
1 Ly do chon dé tai
Nhận dạng đối tượng người trong ảnh và video là một trong những chủ dé
được quan tâm rất lớn trong lĩnh vực thị giác máy tính, hiện đang được nhiều nhà
khoa học và nghiên cứu quan tâm Phát hiện chính xác người trong ảnh và chuỗi video sẽ có những với nhiều ứng dụng trong robotic, hệ thống giám sát con người,
các kỹ thiết bị kỹ thuật hỗ trợ cho các ứng dụng trực quang, truy vấn, chỉ mục nội
dung (vi dụ như Flickr, Google, movies), các giao diện tương tác giữa người và máy, an tồn tự động (ơtơ) Không những trong khoa học máy tính, phát hiện con người còn có nhiều ứng dụng trong nhiều lĩnh vực khác như kinh tế, an ninh và giao thông v.v Điển hình như trong các ngân hàng, các tồ nhà cơng sở, công ty,
dựa vào các video theo dõi từ camera mà bảo vệ có thể giám sát khách hàng vào ra,
phát hiện ra những đối tượng nghỉ vấn có thê tiến hành cướp ngân hàng Trong các sân bay, nhà ga tàu điện ngầm, tàu lửa thì việc phát hiện con người cũng giúp cho
bảo vệ hay bộ phận kiểm soát có thể phát hiện được các tình huống, các đối tượng
nghi vấn Phát hiện con người cũng đang được nghiên cứu để ứng dụng trong xe ô
tô thông minh, hồ trợ cho người lái xe, giúp các tài xế có thể tránh được các tai nạn
đáng tiếc có thể xảy ra Mặc đù nghiên cứu phát hiện đối tượng người đã đạt được nhiều kết quả đáng kể trong thời gian gần đây tuy nhiên vẫn còn gặp phải một số thách thức như:
- Hinh dạng con người phụ thuộc vào hướng và góc thu nhận ảnh của camera,
các đối tượng có thé bị biến đạng đo đi bộ, thay đổi tư thé, bị che khuất bởi các đối
tượng khác
- Sự xuất hiện đối tượng con người trong ảnh ở các vị trí khác nhau với kính thước và hình dạng nhiều tỉ lệ khác nhau
Trang 12- Phát hiện người trong đám đông với mật độ xuất hiện cao và mật độ x36uất
hiện dày đặt trong ảnh
Hơn nữa quá trình học biểu diễn của một đối tượng phải đối mặt với vấn để là
phải có tập mẫu để huấn luyện, mà thường tập mẫu này phải thực hiện thủ công Khi mà lớp đối tượng phức tạp, tập mẫu này có thể khá lớn (vài nghìn đến vài vạn ảnh) Do áp lực ngày càng có nhiều dữ liệu cần được xử lý, tạo nên yêu cầu cần phải có lượng lớn đữ liệu huấn luyện đã được gắn nhãn, đề giải quyết có hiệu quả các bài toán phát hiện và phân loại đối tượng Đây là trở ngại lớn và là cản trở chính đổi với nhiều phương pháp hiện nay Bởi vì dé gắn nhãn cho một lượng lớn các dữ liệu huấn luyện thi chúng ta phải mắt nhiều thời gian, tốn nhiều công sức và chỉ phí
Do đó, việc kết hợp các dữ liệu có gắn nhãn và chưa gắn nhãn theo cách tiếp cận
học nửa giám sát hứa hẹn giảm bớt rất nhiều các khó khăn này Việc sử dụng thêm
các dữ liệu mới, chưa gắn nhãn để huấn luyện chính các bộ phát hiện đối tượng đã
có trước đây theo cách tiếp cận học nửa giám sát cũng hứa hẹn tăng khả năng, tăng hiệu quả của việc giải quyết loại bài toán thị giác máy Ngoài ra, còn do những ưu
điểm của phương pháp học nửa giám sát về độ chính xác, tính hữu hiệu, tính mạnh
mẽ và về khả năng giải quyết các bài toán với các đối tượng có độ phức tạp cao, ứng dụng sát với đời sống sinh hoạt và công nghiệp, Thêm vào đó là làm sao để
tạo ra được các máy có thể tự học để từ đó hiểu được, nhìn được như con người; làm sao xây dựng được các hệ thông tự vận hành thông minh; làm sao có thể giảm
sát được các hoạt động các đối tượng khác nhau ở những nơi công cộng (sân bay:
cửa khẩu; các toàn nhà; thư viện, ) thông qua các hệ thống giám sát rộng lớn; bên
cạnh phải giải quyết lưu trữ một số lượng lớn thông tin, người sử đụng cân các thuật
toán, hoặc công nghệ để giúp cho họ hình thành tri thức từ dữ liệu đã lưu trữ hoặc dữ liệu trực tuyến một cách có hiệu quả hơn, và theo ngữ cảnh mà người sử dụng
mong muốn
Câu hỏi đặt ra làm sao có thể xây dựng hệ thống, mô hỉnh học máy có thể tự học và tự phát hiện được đối tượng là con người hay là tìm ra vị trí con người ở đâu
Trang 13các môi trường mới, các biến đổi mới mà hạn chế sự can thiệp vào hệ thống của con
người trong quá trình học cũng như quá trình chẩn bị, và hệ thống không phải học
hay cập nhật lại từ đầu
Từ những thách thức ở trên đòi hỏi cần phải tiếp tục có những nghiên cứu mới trong lý thuyết, thuật toán và các mô hình mới để khắc phục những thách thức đó Từ tính cấp thiết của dé tai va mong muốn nghiên cứu trong lĩnh vực thị giác máy tính em quyết định chọn để tài nghiên cứu: “Tìm hiểu kỹ thuật nhận dạng đối tượng trong ảnh qua hệ thống camera giám sát” Dựa trên mô hình được xây dựng kết hợp những ưu điểm của hai mô hình tiên tiến hiện nay đó là mô hình mô tả (generative model) và mô hình dự báo (diseriminative model) trong một khung hệ
thống học và nhận dạng đối tượng trực tuyến
2 Đối tượng nghiên cứu
Rất nhiều các phương pháp phát hiện người đã được nghiên cứu và đạt được những thành công đáng ghi nhận Một vài phương pháp sử dụng thuộc tính tông thé
như các mẫu biên [Š] hoặc sử dụng các thuộc tính bộ phận như Haar [4], phương
pháp dựa trên bộ miêu tả biểu đồ mức xám của các đường cong có hướng (HOG) [2] Đề xây dựng bộ phát hiện từ thuộc tính, một vài phương pháp sử dụng mô hình
đồ thi nhu Markov Random Field (MRF) [3], mô hình hình ân (SM) [7] Ngoài ra
còn có các phương pháp sử dụng cách tiếp cận dựa vào quá trình học chẳng hạn như SVM [7], hoặc AdaBoost [6]
Nội dung của luận văn chú trọng việc tiếp tục hướng nghiên cứu gần đây mà ở đó cho nhiều kết quả khả quan Tiếp cận mô hình học trực tuyến cho bài toán phát hiện người trong ảnh và video
Nghiên cứu về thuật toán gia tăng PCA va Online Boosting trên cơ sở đó đề xuất xây dựng một khung chương trình mới trên cơ sở kết hợp mô hình online PCA và các bộ phân loại phân biệt kết hợp với ngữ cảnh
3 Mục tiêu của đề tài
Phát hiện, nhận dạng đối tượng trong ảnh (vị trí con người, nhận diện
Trang 14động Nghiên cứu để xuất kỹ thuật nhận dạng đối tượng sử dụng mô hình học
thận trọng để nhận dạng đối tượng là con người trong ảnh/viđeo trong nhiều môi trường khác nhau
4 Phương pháp nghiên cứu
Phương pháp nghiên cứu lý thuyết:
Tham khảo các nguồn tài liệu: các luận văn thạc sĩ, luận án tiến sĩ, các bài báo,
tạp chí trong và ngoài nước
So sánh, đánh giá các thuật toán
Thực nghiệm xây dựng:
Cài đặt ứng dụng trên các lý thuyết đã nghiên cứu Lượng hóa đánh giá kết quả
5 Cấu trúc luận văn
Luận văn có 2 phần chính:
Phân mở đầu: trình bày tính cấp thiết của dé tài, mục đích, đối tượng phạm vi
nghiên cứu, phương pháp nghiên cứu, và cấu trúc luận văn Phân nội dung: gồm có 3 chương
Chương 1 Giới thiệu tông quan về phát hiện đối tượng
Chương 2 Trinh bày Kỹ thuật nhận dạng đối tượng sử dụng mô hình học thận
trọng trực tuyến
Chương 3 Mô tả các thực nghiệm trên mô hình đề ra từ đó phân tích, đánh giá
hiệu suất của mô hình
Trang 15CHUONG 1 TONG QUAN VE NHAN DANG DOI TUQNG
1.1 GIỚI THIỆU
Nhận dạng đối tượng là một trong những vấn để cơ bản và thách thức nhất
trong lĩnh vực thị giác máy tính, đã nhận được sự quan tâm rất lớn của cộng đồng
các nhà nghiên cứu trong những năm gần đây Sự phát triển của nó trong hơn hai
thập niên qua có thể được coi là một điển hình của lịch sử thị giác máy tính Nếu
chúng ta nghĩ nhận dạng đối tượng của hôm nay như là một kỹ thuật dưới sức mạnh
của học máy Phát hiện, nhận dạng đối tượng là một bài toán thị giác máy tính quan
trọng liên quan đến việc phát hiện các trường hợp của các đối tượng trực quan của
một lớp nhất định (như con người, động vật hoặc ô tô) trong hình ảnh kỹ thuật SỐ
Số lượng công trình xuất bản trong phát hiện nhận đạng đối tượng 1400 1200 1000 800 600 400 sa Ắ meme i i | il | | |
mƠœ © = œ% œ&ñ x= Lrn ŒG h DB AGATA c(i m x NH VUO KR @ nn OO OCOD CC CS CC CC CC C5 = =ã tat att at = aot ao a (oo) © CC CC CC CC CC CC CC CC CC CC CC CC CC CC CC
"mm #1 Ẳ(ầ âA ầẦAX Œ~x h Ghm h h h6 Chí h hi GÀ h6 h hm h hm Rh
Year
Hình 1.1 Số lượng ấn phâm ngày càng tăng trong phát hiện đối tượng từ năm 1998 đến năm 2018 (Dữ liệu từ “Google scholar advanced search: allintitle:” từ khóa “obJect
dectection” va “detecting objects”.) [1]
Mục tiêu của nhận dạng đối tượng là phát triển các mô hình và kỹ thuật tính
toán cung cấp một trong những thông tin cơ bản nhất cần thiết cho các ứng đụng thị giác máy tính: Đối tượng nào ở đâu? Là một trong những vấn đề cơ bản của thị giác
máy tính, phát hiện, nhận dạng đối tượng tạo thành nên tảng của nhiễu tác vụ thị
Trang 16nhóm thành hai chủ đề nghiên cứu Phát hiện đối tượng chung, ứng đụng phát hiện đối tượng và ứng dụng phát hiện dữ liệu, trong đó mục tiêu trước đây là khám phá các phương pháp phát hiện các loại đối tượng khác nhau trong khuôn khổ thống nhất để mô phỏng con người tầm nhìn và nhận thức, và sau này để cập đến việc phát
hiện theo các kịch bản ứng dụng cụ thể, như phát hiện người đi bộ, phát hiện khuôn
mặt, phát hiện văn bản, v.v Trong những năm gần đây, sự phát triển nhanh chóng của các kỹ thuật học máy đã thúc đầy nhiều hướng nghiên cứu mới vào nhận đạng đối tượng, đẫn đến những đột phá đáng chú ý và đây nó tới một điểm nóng nghiên
cứu với sự chú ý chưa từng có Phát hiện nhận dạng đối tượng hiện đã được sử dụng rộng rãi trong nhiều ứng dụng trong thế giới thực, chang han như lái xe tự động, thị
giác robot, giám sát video, v.v Hình 1.1 cho thấy số lượng ấn phẩm ngày càng tăng có liên quan đến phát hiện nhận dạng đối tượng của Google trong hai thập kỷ qua
Trong hai thập kỷ qua, người ta chấp nhận rộng rãi rằng tiến trình phát hiện đối tượng nói chung đã trải qua hai giai đoạn lịch sử: Thời kỳ phát hiện nhận đạng đối tượng theo các phương pháp truyền thống (trước năm 2014) và phát hiện nhận
dạng đối tượng dựa trên học máy (sau năm 2014), và như trong Hình 2 Object Detection Milestones +Multi-resolution Detection + Hard-negative Minin SSD (W Liu Retina-Net
etal-16) (T.Y.Lin etal-17)
/ˆ_ +Bounding Box Regression OIE D Íeeeh DPM et al-16,17) HOG Det (P Felzenszwalb et al-08, 10) One-stage (N Dalal et al-05) VJ Det detector (P Viola et al-01) / +AlexNet 2014 2015 2016 2017 2018 2019 2001 2004-2006 2003 amie Se 2014 2015 2016 2017 2018 2019
Traditional Detection ⁄ RCNN Two-stage
Methods ⁄ (R Girshick et al'14) sppNet detector
SN nnnnurnzn / (K He et al-14)
1sdom oi ie cold weapon Ps / Deep Learning based f i Fast RCNN
Detection Methods (R Girshick-15)
Technical aesthetics of GPU Faster RCNN Pyramid Networks
(S Ren et al-15) (T ¥ Lin et al-17)
+ Multi-reference Detection
- (Anchors Boxes
Hình 1.2 Một bản đồ của các nghiên cứu phát hiện nhận dạng đối tượng:
Trang 17Trong chương này trình bày hai vấn cốt lõi của kỹ thuật phát hiện nhận dạng đổi tượng sử dụng mô hình học thận trọng Thứ nhất là phương pháp Phân tích thành phần Chính (PCA) và Boosting trực tuyến để lựa chọn thuộc tính Chương này sẽ chỉ ra nguồn gốc của hai phương pháp trên đồng thời nói rõ làm thế nào áp dụng các phương pháp đó để sử dụng cho phân loại hình ảnh Thứ hai, tập trung trình bày về ý tưởng của mô hình nền, đó là nền tảng cho các phương pháp được đề xuất trong các phần sau Đặc biệt, chúng tôi sẽ đưa ra cái nhìn tổng quan về mô hình khử nên và mô hình thống kê nền
1.2 PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHÀN CHÍNH (PCA)
Phương pháp phân tích thành phần chính (PCA) được sử đụng rộng rãi trong kĩ thuật thống kê Người đầu tiên giới thiệu là Pearson và đã được Hotelling khám phá lại một cách độc lập Ý tưởng chính là nhằm giảm kích thước của dữ liệu trong khi lưu trữ được nhiều thông tin nhất có thể sử dụng phép chiếu Phần tiếp theo sẽ đưa ra nguồn gốc của PCA, những đặc tính của phép chiếu và chỉ ra lam thé nao dé áp dụng trong phân loại hình ảnh
PCA duoc giới thiệu trong lĩnh vực thị giác máy tính boi Kirby va Sirovich và trở nên phổ biến khi Turk và Pentland ứng dụng nó cho việc dạng mặt Ở đây, hình ảnh được xem là những véc tơ có kích thước lớn và hình ảnh I có kích thước hxw duoc sap xép nhu 1 véc to xER™, trong dé m = hw Murase va Nayar sit dung lý thuyết này trong lĩnh vực nhận dạng đối tượng Rõ ràng rằng dữ liệu hình ảnh có kích thước lớn có thể được chiếu vào không gian con trong đó dữ liệu có kích thước
nhỏ hơn, điều đó sẽ giảm sự phức tạp tính toán đối nhiệm vụ phân loại Những
phương pháp khác sử dụng PCA để tiền xử lí nhằm giảm kích thước hay sử dụng
PCA để trích chọn thuộc tính và thực hiện những thuật toán khác nhau để phân loại Minh họa bằng ví dụ sau đây: một đối tượng (đồ chơi) , được học từ 125 hình ảnh
Trang 18—sa8—- PCA |
Dữ liệu huấn luyện 5 hình ảnh tiêu biểu đầu tiên
Hình 1.3 Học PCA: dữ liệu được biểu diễn bằng kích thước nhỏ hơn
(a) (b)
Hình 1.4 Hình ảnh kiểm tra và tái cầu trúc của nó: (a) đối tượng đại diện cho lớp đối tượng được nghiên cứu (đồ chơi); (b) đối tượng không đại diện cho lớp đối tượng được
nghiên cứu (mặt người)
Nói chung, khi phân tích đữ liệu thế giới thực ta phải đối mặt với dữ liệu
không đáng tin cậy, ví dụ như sai số trong dữ liệu đo lường hay đữ liệu nhằm Do dé, các phương pháp mạnh rất cần thiết Những ứng dụng giống nhau cho học trực quan (ví dụ: phần đối tượng bị che khuất hoặc điểm ảnh không đáng tin cậy đo
nhiễu camera).Khi xác định tính mạnh trong lĩnh vực học, phải phân biệt giữa giai đoạn mạnh trong lượng hóa và mạnh trong giai đoạn học Đối với trường hợp một,
giả sử rằng mẫu số trong giai đoạn học là không đổi Do đó, trong giai đoạn lượng hóa, dữ liệu không đáng tin có thê tái cấu trúc từ mô hình nghiên cứu trước Trái lại
quá trình học mạnh, nghĩa là học từ những dữ liệu không đáng tin cay, la vấn để
khó hơn, bởi vì không có tri thức trước về đối tượng để ước tính phần ngoài Những phương pháp khác sử dụng ước tính M mạnh hay dựa vào công thức EM của PCA Tiếp theo, luận văn sẽ tóm tắt phương pháp lấy mẫu phụ theo hướng của Leonardis va Bischof Phuong phap nay duoc dé xuất trong giai đoạn nhận dạng
Y tuong chinh la cac hé số a=lai ak] déi voi 1 gia tri chuẩn hóa trung
Trang 19tính cho ra một xấp xỉ chính xác cho những giá trị thực Dé đảm bảo tính mạnh, các hệ số được ước tính bằng quá trình lặp đi lặp lại Đầu tiên, tập con điểm ảnh
%* được chọn ngẫu nhiên và hệ số 4” được tính bằng cách giải quyết hệ thống xác
định Sau đó, hình ảnh được tái cấu trúc với những điểm ảnh với sai số tái cấu trúc lớn nhất bị loại bỏ Bước này lặp đi lặp lại cho tới I số lượng xác định ảnh điểm còn
lại Vì thế không phải tất cả các khởi tạo ngẫu nhiên sẽ cho ra kết quả tốt, vài giả thuyết khác nhau được tạo ra giống như mô tả ở trên Cuối cùng, cái tốt nhất được
chọn Quá trình lựa chọn được thực hiện dựa vào lỗi tái cấu trúc của những điểm
tương thích, nguyên tắc thông thường sử đụng là MDL 1.3 KY THUAT BOOSTING
Mục tiêu của đề tài là phát triển các thuật toán trực tuyến lựa chọn các đặc
tính mới đựa trên Boosting Trước tiên chúng ta có thể giới thiệu các van dé co ban
của máy học, cách tiếp cận Boosting, thuật toán cơ bản của Adaboost và một số thuật toán máy học Boosting ngoại tuyến và trực tuyến có lựa chọn đặc tính Sau đây là một số khái niệm cơ bản: Mẫu: một mẫu (x, y) e Xx Y là một tập các đặc tính x e X, mà ở đó x được gán một nhãn ye Y
Bài toán học: Bài toán học được xác định trên hàm mật độ xác suất P trên tập dữ liệu mẫu X x Y Nếu Y chứa một số hữu hạn các lớp thì được coi là bài toán
phân loại, nếu khơng là bài tốn hồi quy Trong để tài này chúng tôi tập trung vào
bài toán phân lớp nhị phân, ví dụ Y e ƒ-1, +1} Hơn nữa, chúng ta xem xét X = RỶ, ở đó d là số chiều của véc tơ đầu vào, chang han: x e {0, , 255}# là § bit giá trị
mức xám với d điểm ảnh
Giả thiết: Học được hình thành trên ước tính hàm f: X > Y Kiến thức cụ thể được cho bởi một tập mẫu Chang hạn, học có giám sát là dự báo nhãn thực sự
y¡ thông qua ?= /(x,) Bằng cách mở rộng kiến thức cụ thể của f được mã hóa bởi không gian đầy đủ các mẫu (x, y) œ X x Y một giả thuyết được xây dựng
Trang 20(Xx Y)= UJ" (xP) là tập tất cả các mẫu va Y* la tap ctia tat cd cdc ham f: X >
Y Máy học có thê xem như bài toán tìm kiếm tối ưu giả thiết trong các lớp giả thiết
đã biết H” mà phù hợp nhất với các mẫu đã cho
1.3.1 AdaBoost
Các thuật toán học là một trong những phương pháp học máy, kết quả của nó
có thể được cải thiện bằng cách kết hợp các thuật toán học cơ sở Boosting là một
trong những phương pháp đó, nó là một thuật toán hỗ trợ mạnh mẽ các kết quả thực
nghiệm Thuật toán đã được phân tích cân thận và đã được kiểm tra thực nghiệm
bằng nhiều nghiên cứu trong cộng đồng Boosting đã được cải tiến thành nhiều phiên bản khác nhau chẳng hạn như AdaBoost, Real-Boost Một số thuật ngữ liên quan đến thuật toán mà trong chương này sử dụng đó là:
Bộ phân loại yếu: Một bộ phân loại yếu là một thuật toán học, nó chỉ cần thực hiện phân loại đúng các mẫu với tỷ lệ đủ lớn hơn 50% Một giả thuyết được tao ra bang một bộ phân loại yếu được gọi là giả thuyết yếu va ky hiéu h(x)
Bộ phân loại mạnh: Cho một tập hợp gồm N b6 phan loại yéu, một bộ phân loại mạnh được tạo ra bằng cách kết hợp tuyến tính các bộ phân loại yếu
N
he" (x) = si gn> ot, A (x)
n=l
Vấn để cốt lõi cần giải quyết là huấn luyện các bộ phân loại yếu và chọn các
trọng số ơi, ,œ„ thích hợp Thuật toán Adaboost đã được giới thiệu bởi Freund và
Schapire Thuật toán này có khả năng thích nghi với các mẫu huấn luyện bằng cách
đánh lại trọng số thay vì lay lại mẫu Các bước cơ bản của thuật toán được nêu như
sau: Cho một tập đữ liệu huấn luyện 7= {(x,.9, \ sens Bp )} với x¿œY là các mẫu huấn luyện và Ÿ = {1,41} 1a các nhãn (—1) chỉ rõ không phải là đối tượng hoặc (+1) là đối tượng, các nhãn này gán cho các mẫu huấn luyện tương ứng, một phân phối
trọng số được khởi tạo đồng bộ D@)= + cho các mẫu Dựa vào tập huấn luyện 7 và m
trong số D0), một bộ phân loại yếu h"** được huấn luyện bằng cách áp dụng một
Trang 21thuật toán học, kết quả đầu ra là một giá trị nhị phân hoặc một giá trị thực cho biết
độ tin cậy của quyết định Trọng số ø„ chỉ rõ độ quan trọng của „ trong kết quả của
bộ phân loại mạnh, trọng số này được tính toán dựa vào lỗi e„ của nó trên tập dữ
l-e n
liệu huấn luyện: ø, = pu } Cuối cùng trọng số (7) được điều chỉnh sao cho
e
các mẫu bị phân loại sai bởi Z„ trở nên quan trọng hơn (trọng số tăng lên) so với các mẫu khác Quá trình xử lý này được lặp lại, bộ phân loại yếu tiếp theo sẽ tập trung
xử lý các mẫu bị phân loại sai bởi bộ phân loại hiện tại dựa trên các trọng số này Thuật toán dừng khi là một số lượng nhất định các bộ phân loại được huấn luyện
hoặc đạt đến một tiêu chí nào đó (chẳng hạn như lỗi đã thấp hơn ngưỡng) 1.3.2 Boosfing ngoại tuyến lựa chọn đặc trưng
Mục đích của việc lựa chọn là chọn được những đặc trưng hữu ích, giảm các chiều của không gian đặc trưng và loại bỏ nhiễu Lựa chọn đặc trưng dựa vào boosting được giới thiệu lần đầu tiên bởi Tieu và Viola Việc lựa chọn đặc trưng hữu ích từ tập hợp các đặc trưng được thực hiện bằng thuật toán AdaBoost Ý tưởng
chính là mỗi đặc trưng tương ứng với mỗi bộ phân loại yếu đơn giản và sử dụng
thuật toán để chọn một tập hợp con các đặc trưng mang nhiều thông tin nhất
Quá trình huấn luyện tương tự như thuật toán boosting đã được mô tả Cho một tập hợp các dac trung F ={f , f,}, trong bước lặp thứ ø, thuật toán xây dựng
một giả thuyết yếu dựa vào trọng số của các mẫu huấn luyện Một bộ phân loại yêu tốt nhất 7““ tương ứng với đặc trưng được chọn ƒ, Các trọng số của các mẫu
huấn luyện được cập nhật lại dựa vào lỗi của các giả thuyết đã được chọn Cuối cùng, một bộ phân loại mạnh ø””* được tinh bằng cách kết hợp tuyến tính các
trọng số của các bộ phân loại yếu, voi trong sé a, được ước tính theo lỗi của ø“#
như được mô tả ở trên
1.3.3 Boosting trực tuyến
Các thuật toán học trực tuyến liên quan đến việc học mỗi mẫu huấn luyện và loại bỏ nó sau mỗi lần cập nhật Một thuật toán học trực tuyến L lay mot dau vao la
Trang 22một giả thuyết yếu ¡ và một mẫu huấn luyện mới (x,y).Sau khi xử lý, thuật toán trả về một giả thuyết mới cập nhật để phản ánh mẫu mới đó Giả thuyết hiện tại duy trì
thông tin của các mẫu huấn luyện cho đến thời điểm hiện tại Học trực tuyến là cần thiết khi dong dé liệu hoặc tập dữ liệu cần xử lý quá lớn Cho một tập hợp các bộ
phân loại yếu (”a h,) và các trọng số (ø, +,) tương ứng, một giả thuyết mạnh h”°"*(x) có thể được xây đựng Theo ý tưởng đã đề xuất của Oza, bước quan trong
của boosting trực tuyến là ước lượng độ quan trọng (hoặc độ khó) của mẫu Độ
quan trọng có thể được thực hiện bằng cách lan truyền thông qua một tập hợp các bộ phân loại yếu Ý tưởng này có thể được xem như mô hình liên quan đến ø bộ
phân loại đầu tiên và mã hóa nó thành độ quan trọng của trọng số Àn (được khởi tạo bằng ho =1).Dé thực hiện cập nhật cho bộ phân loại yếu thứ ø + ] dựa vào trọng số A, cua mẫu hiện tại Mặt khác An duoc xem như là một tỷ lệ học trong thuật toán Đề cập nhật các bộ phân loại yếu, mọi thuật toán học trực tuyến đều có thể thực
hiện Lỗi của bộ phân loại yếu thứ ø được tính bằng công thức qurong
trong đó 4ƒ” và 2” là tổng của các trọng số của các mẫu được phân loại
Trang 231 2.d—e,) A n-1" 1 2.(e,) h,(%) = y h(x) #y
Oza đã chứng minh rằng, nếu thực hiện boosting ngoại tuyến và trực tuyến
trên một tập huấn luyện đã cho, thì kết quả của các bộ phân loại yếu sử dụng
boosting trực tuyến sẽ hội tụ về kết quả của boosting ngoại tuyến khi số lần lặp N—>œ Vì vậy, việc lặp lại của tập đữ liệu huấn luyện khi áp dụng hai phương pháp boosting trực tuyến và ngoại tuyến đều cho cùng một kết quả Trong thuật toán boosting trực tuyến yêu cầu số lượng các bộ phân loại yếu phải cố định
Trong thuật toán AdaBoost ngoại tuyến, toàn bộ tập dữ liệu huấn luyện được
sử dụng đề cập nhật trọng số cho một bộ phân loại yếu, trong khi trong trường hợp
trực tuyến một mẫu huấn luyện được sử dụng để cập nhật cho toàn bộ các bộ phân
loại yếu cùng với trọng số tương ứng
1.3.4 Boosting trực tuyến lựa chọn đặc trưng
Boosting lua chọn đặc trưng như mô tả ở trên đã được thiết kế để làm việc ngoại tuyến Vì vậy, để huấn luyện một bộ phân loại, toàn bộ mẫu huấn luyện phải
có trước cho nên không thể thích nghi được với các thay đổi của đối tượng Trong
luận văn, chúng tôi sử dụng thuật toán boosting trực tuyến cho việc lựa chọn đặc trưng, thuật toán này được đề xuất bởi Grabner va Bischof , dua vao phiên bản trực
tuyến của Adaboost Thuật toán để cập phương pháp lựa chọn đặc trưng bằng boosting trực tuyến Trong trường hợp Boosting ngoại tuyến, các bộ phân loại yếu
tương ứng với các đặc trưng, thuật toán boosting trực tuyến lựa chọn đặc trưng dựa vào các bộ chọn (selector) và thực hiện boosting trực tuyến trên các bộ chọn nay ma không trực tiếp thực hiện trên các bộ phân loại yếu Mai bé chon A! (x) nắm giữ
weak
một tap gồm Ä bộ phân loại yếu {hr (x), , Me" va no chọn một trong số các bộ
phân loại yếu đó
Trang 24theo một tiêu chí tối ưu hóa dựa vào ước tính 16i e, cua méi bé phan loai yéu 7°" sao cho z= arg min, e, Lưu ý rằng, bộ chọn này cũng có thể được hiểu như một bộ
phân loại yếu Huấn luyện một bộ chọn tức là mỗi bộ phân loại yếu được cập nhật và một bộ phân loại yếu tốt nhất (tức lỗi ước tính của nó thấp nhất) sẽ được chọn
Tương tự như trong trường hợp ngoại tuyến, các bộ phân loại yếu tương ứng với
các đặc trưng, chang han như các gia thuyét được tạo ra từ các bộ phân loại yếu dựa
vào sự đáp ứng của các đặc trưng Phiên bản thuật toán huấn luyện trực tuyến của
AdaBoost sử dụng cho việc lựa chọn đặc trưng được thực hiện như sau: Đầu tiên,
cho một tập cố định gồm X bộ chọn, ø” *' được khởi tạo ngẫu nhiên bằng các
bộ phân loại yếu, chẳng hạn là các đặc trưng Khi một mẫu huấn luyén moi (x,y) đến, các bộ chọn được cập nhật Việc cập nhật này được thực hiện đối với trọng số quan trọng À của mẫu hiện tại Bộ phân loại yếu có lỗi ước tính nhỏ nhất sẽ được chọn bằng bộ chọn Anthong 7ø =argmin(e, „) trong đó e,„„= m mam ” AMong 4 corr — ‘n,m ‘nm nym
Trọng số ø, và trọng số quan trọng 2 của mẫu được cập nhật và chuyển
đến cho bộ chọn tiếp theo Z#' Trọng số 2 sẽ tăng lên nếu mẫu bị phân loại sai n+l *
bởi bộ chọn hiện tại (tức bộ phân loại đã được chọn) và giảm xuống nếu ngược lại Cuối cùng, một bộ phân loại mạnh được xây dựng bằng kết hợp tuyến tính của X bộ chọn
N
h””* (x) = sig » a, he ©)
n=l
Trái ngược với thuật toán boosting ngoại tuyến, một bộ phân loại sẵn
dùng tại mọi thời điểm và có thể được đánh giá trực tiếp, nó cung cấp cho người sử dụng thông tin phản hồi tức thời tại bất kỳ giai đoạn nào của quá trình huấn luyện
Trang 25hSelN Một mẫu huẩn luyện | hSell ước lượng _— độ quan ori tao ¿| trạng của ‘i — hSelz | — Ge lượng độ quan I trọng nữa + P*lniuhienta [+] mẫu hiện tại ¬ A“1 : ^ ^ Œ s:|@® -: ®@@ ra]
4 BG phan logi mạnh hiện tại hStrang
Lap lai doi veri mỗi mu HEHđ â: âđ +
Hình 1.5 Boosting trực tuyến cho việc lựa chọn đặc trưng
Thuật toán 1.5 Boosting trực tuyến lựa chọn đặc trưng Đâu vào: -_ Mẫu huấn luyện (x, ¥ py € Ck#) nang - Bộ phân loại mạnh (được khởi tạo ngẫu nhiên) _ A691" xwrong `
-_ Các trọng sô “”*"? Âm (duoc khoi tao bang 1)
- Khoi tao dé quan trọng của trọng s6 4 = 1 cho tất cả các bộ chọn
` N
Dau ra: h*"? (x) = sign} Ya, na he 6) Phuong phap:
1 for n = 1,2, ,.N do //cập nhật bộ chọn he
2 for m = 1,2, Mdo //cập nhật mỗi bộ phân loại yếu
he = update hy", (x, y)s A)
3 it Œ)7 then Jước lượng lỗi
on =a
else
Trang 26Berens — gerong 4 9 ‘nym ‘n,m end if wrong —— Ẩm đàm — LG Tớ ‘am ‘nm end for 4 /chọn bộ phân loại yếu có lỗi bé nhất mm =argmin(, „) e =e = ⁄” = Ly n— nm+? n n,m+ 1 e =0 Ør 6e >— if 2 then exit; end if 1 l-e, , =—.In 2 €, sel _ it” “=> then // tinh trong số //cập nhật độ quan trọng cua trong số _ 1 '2d-e,) else A=A, I 22„) Š endif 6 end for 1.4 LƯỢNG HÓA NÈN
Phát hiện thay đổi thường là bước tiền xử lý trong rất nhiều các ứng đụng của
thị giác máy tính Mục đích là để xác định điểm ảnh có dấu hiệu khác nhau của các
ảnh liên tiếp Các ứng dụng này bao gồm giám sát trực quan, chân đoán y tế, hoặc theo dõi đối tượng Ở phần tiếp theo, chúng tôi sẽ tập trung vào các vấn để của mô
hình nền, là mô hình có thể được coi là một trường hợp đặc biệt phát hiện sự thay
đổi trong giám sát trực quan Ngược lại với các chân đoán y tế hoặc điều khiển cảm
biến từ xa, không chỉ tập trung vào sự khác biệt của một cặp hình ảnh đơn, một mô hình này sẽ ước tính từ một số lượng lớn các hình ảnh trước hình ảnh hiện tại Đối
với cảm biến từ xa có thê là vài tuần hoặc vài tháng trong khi giám sát trực quan sẽ
Trang 27tính toán ngay cả với những ảnh được chia thành nhiều khung hình trong một giây
Nói chung mục tiêu của mô hình nên là để có được một phân đoạn của hình nên ví
dụ, phần không thích hợp với khung cảnh và phần trên của nền Vì vậy, trong giai
đoạn huấn luyện một mô hình được xây dựng từ hình ảnh sẽ thể hiện cho nền Trong giai đoạn lượng hóa, mỗi điểm ảnh của một hình ảnh đầu vào được kiểm tra xem có
thê được giải thích bằng mô hình hay không Cuối cùng căn cứ vào đó, các vùng thể
hiện cho phần trên của nền (các đối tượng quan tâm) có thể được trích chọn Mặc dù
vị trí máy quay không thay đổi nhưng nên sẽ vẫn thay đổi theo thời gian do ánh sáng xung quanh, bóng hoặc các đối tượng thay đổi từ nền thành đối tượng hoặc ngược
lại (ví dụ, một chiếc xe đang đậu xe va lai di).Trong Hinh 2.9 một tình huống điển hình được minh họa Một chiếc xe khỏi nơi đậu xe, chiếc xe đang chuyển từ nền thành đối tượng, trong khi một chiếc xe thứ hai đang đậu, trở thành một phần của nên Một ví dụ khác của nền thay đổi được thể hiện trong hình 2.10 Mặc dù kịch
bản được thê hiện trong nhà nhưng có thê thấy rằng nên bị thay đổi đo điều kiện ánh sáng thay đổi Vì vậy, đối với các ứng dụng thực tế chỉ có các mô hình nền thích
nghi, nghĩa là mô hình có thể cập nhật mô hình tại thời điểm hiện tại là mô hình
được quan tâm
(b)
Hình 1.6 Thay đổi nền: một chiếc xe đang chuyền từ nền thành đối tượng trong khi một chiếc xe thứ hai là chuyên từ đối tượng thành nền
Trang 28i
(b)
Hình 1.7 Thay đổi nền ảnh ngay cả đối với mô hình nền trong nhà đã thích nghỉ với điều kiện chiếu sáng thay đổi Các khung hình hiển thị ở đây đã được chụp trong vòng
chưa đầy 10 phút
Có thể chia phương pháp mô hình hóa nền thành ba loại: phương pháp khử nên, phương pháp thống kê, và các phương pháp dựa trên khối Phương pháp khử
nên là mô hình hóa nên như một ảnh đơn và sự phân đoạn được lượng hóa giữa ảnh
nên và các ảnh hiện tại Ngược lại, phương pháp thống kê lượng hóa mô hình thống kê cho mỗi điểm ảnh và kiêm tra nếu một điểm ảnh trong ảnh đầu vào phủ hợp với
mô hình trước đây đã được học Phương pháp khối phóng đại điểm ảnh và kết hợp
thông tin của các điểm ảnh bên cạnh để ước tính mô hình nên
1.4.1 Phương pháp khử nền
Sử dụng một máy ảnh cố định là cách tiếp cận phổ biến để phát hiện các đối tượng trên nền của phương pháp khử nền Do đó, nền được mô hình hóa bởi một hình ảnh duy nhất Các đối tượng trên nền sau đó được dán nhãn bởi ngưỡng điểm ảnh khôn ngoan (pixel-wise) sự khác biệt giữa ảnh đang xứ lý và ảnh nền Cho B; là
Trang 29Với Tp va Hp la phuong sai va trung bình cua B: (m, n) - It (m, n).Cac blob:
nhị phân tương ứng sự khác biệt hình ảnh cho cac D, hinh anh khac nhau thu duoc
bằng cách (2,65) được tính bằng
Blobi(m,n) = 1 Déi tượng (m,n) >Ø
{ 0 Cac truong hop khac
Với 0 là ngưỡng Do đó các hình ảnh nhị phân thu được có thể được hậu xử
lý bằng cách sử dụng các phép toán hình học để có được các khối phù hợp hơn Toàn bộ quá trình được thể hiện trong hình 2.11 Hình (a) cho thấy vùng ảnh nên, hình (b) là hình ảnh đầu vào hiện tại Khi ngưỡng khác nhau của ảnh mô tả trong hình 2.11 (c), cuối cùng ta có được hình ảnh nhị phân trong Hình 2.11 (d) hiển thị
các khu vực trên nên
(a) (b) (c) (d)
Hình 1.8 Phương pháp khử nền: (a) anh nén; (b) anh vào hiện tại; (c) ảnh khác nhau; (đ) ngưỡng ảnh khác nhau
1.4.1.1 Hiệu số khung hình
Hiệu số khung hình là kỹ thuật đơn giản nhất để ước lượng mô hình nền Mô
hình này được ước tính bởi sự khác biệt của khung hình tại thời điểm t và khung hình tại thời điểm t -1 Vì chỉ có một khung hình duy nhất được sử dụng nên mơ
hình khơng chính xác hồn tồn Nhưng những thơng tin này có thể vẫn có giá trị Ví dụ, khi phân tích các đối tượng di chuyển chúng ta có thể xác định chính xác những điểm ảnh đang di chuyên Thông tin đơn giản này có thể được sử dụng như một tiêu chuẩn bổ sung hay không cho đù một điểm ảnh có thể được sử dụng đề cập nhật mô hình nền hay không
Trang 301.4.1.2 Trung binh va trung binh lién tuc
Lay ví dụ về bức ảnh cổ điển một hình nền có thể thu được bằng cách khám
phá bộ phim trong một thời gian dài trước đó Cơng thức tốn học trong quá trình xử
lý vật lý là trung bình dài hạn của hình anh, được xác định bởi công thức:
B,(mn)= vàn (mn)
Với m và n là tọa độ điểm ảnh và N là số khung hình được sử dụng để tính
toán Trung bình của một tập hợp các hình ảnh được tính bằng (1.67) cũng có thể được tính toán gia tăng:
li 1
B,ữứmn,n)= | Bes (m,n) toh (m,n)
Một cách tính toán hiệu quả hơn cho phương pháp ước tính mô hình nền theo trung bình hình ảnh, đó là trung bình hình ảnh liên tiếp :
5, ứn,n) = đB, ứm,n)+ (— #)1,(m, 1)
Do đó, chỉ có một tham chiếu hình ảnh phải được giữ trong bộ nhớ, là hình ảnh được cập nhật bởi một tham số học œ trong mỗi bước Một kinh nghiệm tính
của công thức (1.69) đã được giới thiệu bởi Ha Ý tưởng chính là phân loại từng điểm ảnh là phía trên hay nền trước, sau đó chỉ sử dụng những điểm ảnh đã được
gắn nhãn như là nền cho việc cập nhật mô hình hiện tại Vì vậy, mô hình nên sẽ
không bị ảnh hưởng bởi điểm ảnh đã được phân loại là phía trên:
Be (mạn) =[aB,0n.n)+(1—a)1,0n.n) — blobi(m.n) =0
(oe ngược lại
1.413 Trung bình và xấp xỉ trung bình
Một phương pháp sử dụng rộng rãi và đơn giản để tạo ra một mô hình nên là lọc trung bình pixel-khôn ngoan của độ dài L:
Bi(m,n)=trung bình(Ic+ (n,n), ,luứn,n1))
Điều này mặc nhiên thừa nhận rằng một đối tượng sẽ không ở cùng một vị trí
tương tự trong hơn L2 khung hình [214] Phương pháp này đơn giản có hai nhược
điểm chính:
Trang 31(a) trung bình phải được tính ở mỗi bước t (b) khung hình L phải được lưu trữ trong bộ nhớ
Một phương pháp thay thế tính toán hiệu quả hơn được phát triển bởi McFarlane va Schofield Các bộ lọc trung bình xấp xỉ tính một xấp xi của trung bình bằng cách tăng ước tính hiện tại lên 1 nếu giá trị điểm ảnh đầu vào lớn hơn so với dự toán và giảm 1 nó bằng một nếu nhỏ hơn:
Ben (m,n) = |Bi(mn) +1 Bi(mn)<I(m,n) fn -1 Bm,n)>L(mn)
Dé tránh cho các đối tượng trên nền không đi chuyển được gán vào mô hình nên và để bảo đâm cách tính trung bình mạnh, trọng số không gian và thời sẽ được gán vào các bản cập nhật
1.4.2 Mô hình thống kê
Mô hình khử nền đã được chứng minh để làm việc cho nhiều kịch bản nhưng vẫn có một số nhược điểm Trước tiên, là các đối tượng trên nên có thể có mau
tương tự nền các đối tượng này không thê phát hiện được bởi ngưỡng Thứ hai, các phương pháp nêu ra chỉ chậm thích nghi với điều kiện môi trường thay đổi ít Do đó,
thay đổi đột ngột như bật đèn không thể thu được Thứ ba, thể hiện của nên có thể
được định kỳ thay đổi như là một tín hiệu đèn pin hay lá rung trong gió
Để khắc phục những vấn đề đó mô hình thống kê đa phương thức được phát triển Vì vậy, trong giai đoạn huấn luyện một mô hình thống kê cho mỗi điểm ảnh
mô tả nền đã được ước tính Do đó, phương sai tự nhiên của các giá trị điểm ảnh sẽ
thu lại được Ngoài ra, nếu phương sai cho phép quá lớn, các mô hình đa phương thức có thể được tính Trong giai đoạn lượng hóa, các điểm ảnh trong hình ảnh đầu vào sẽ được kiểm tra xem có phù hợp với các mô hình ước tính hay không
1.4.2.1 Hén hop Gaussians
Wren du kién sit dụng một mô hình Gaussian đơn để tính mô hình nền Do
đó, không chỉ trung bình hình ảnh được mô tả mà còn bố sung phương sai của các
Đầu vào Mô hình này có một số hạn chế đối với môi trường tự nhiên, ví dụ thay đổi it, chuyén động định kỳ, và độ nhiễu máy ảnh, không thể được mô hình bởi cách
tiếp cận này Vì vậy, Friedman và Russel áp dụng Hỗn hợp của Gaussians để ước
Trang 32mô hình nên Cách tiếp can nay đã được mở rộng bởi Stauffer và Grimson Họ dự
kiến sử đụng xấp xi trực tuyến của K-means hiệu quả hơn đề cập nhật các mô hình hỗn hợp Gaussian thay vì sử dụng thuật toán EM-như trong cách tiếp cận ban dau
Ý tưởng chính của hỗn hợp Gaussians không phải là để tính giá trị điểm ảnh trực tiếp, mà để tính mô hình thống kê cho mỗi điểm ảnh bằng một hỗn hợp của Gaussians Như vậy, một điểm ảnh sẽ là phần trên nếu giá trị điểm ảnh không phù
hợp với phân phối nên Cho xị là một điểm ảnh cụ thể của l: và {x1, , xt} la lich str gan đây thì xác suất của điểm ảnh xí hiện tạ được cho bởi: k PR) = ÐS@,,(@,.„,.Ð ,) Với K là sô phân phôi và “i là trọng số của phân i=l Re gg in 1 1 ri phôi thir 7: ?; (Com Hie >à it) = —1—enf- 5h ~ Lie y XG ~ Hie ) (22)7|>,,,|
tại thời điểm t Các tham số “+ và >+ là giá trị trung bình, và ma trận hiệp phương
sai tại thời điểm t Giả sử rằng các giá trị RGB là độc lập và có cùng phương sai Ta
, _ it
có > =0,,E
Để phân biệt giữa nền và phan trên, trọng số “f được sắp xếp theo “it/ Te,
Phân phối B đầu tiên thỏa mãn mô hình nên trong đó 0 là ngưỡng Nếu 0 rất nhỏ các
mô hỉnh thu được thường là unimodal Nếu 0 cao hơn, sẽ thu được một mô hình đa mô hình (ví dụ, lá của một cây hoặc một lá cờ trong g1)
B
>, œ,ơ >0
/=l
Khi cập nhật các mô hình hiện tại mỗi điểm ảnh mới x: sé duoc kiém tra lan
nữa với phân phối Gaussians K Để cập nhật các mô hình hiện tại trong mỗi lần lặp
các tham số +: /!, và a duoc cap nhat: @œ,, =(l—Ø)@,,¡ +ơM,,
H, =q=Ø)„¡ ta,
Or, = (= PY + PO = My) OG - My)
Với œ e[0,1] và ø= ø;(x,./,,.ơ,,) là tỷ lệ học và M¡¿ = I cho mô hình trùng khớp và M¡¿ = 0 cho các mô hình khác
Trang 331.4.2.2 Nén riéng
Nền riêng đã được giới thiệu bởi Oliver và Torre và Black Y tuéng chinh la dé thích nghi xây dựng một không gian riêng sử dụng hình ảnh đầu vào để mô hình hóa nền Do đối tượng di động không xuất hiện trên cùng vị trí trên N hình ảnh mẫu, chúng không có một ý nghĩa đóng góp cho mô hình Các đối tượng đi chuyển được phát hiện bởi các ngưỡng khoảng cách Euclide của hình ảnh vào
ban đầu và hình ảnh chiếu Cách tiếp cận ban đầu có hai nhược điểm chính Thứ
nhất, mô hình nên riêng phải được xây dựng cho mỗi khung hình khi xử lý Thứ
hai, N khung hình phải được lưu trữ Cả hai nhược điểm có thể tránh được bằng
cách sử dụng gia tăng PCA
1.4.3 Khối dựa trên mô hình nền
Mô hình nền được mô tả trong phan trước được ước tính dựa vào mức điểm
ảnh Nhưng những phương pháp tiếp cận có hai nhược điểm chính Thứ nhất, độ
phức tạp tính toán cao Trong thực tế, một mô hình riêng biệt đã tính toán và thận trọng cho mỗi điểm ảnh Thứ hai, các mô hình là rất nhạy cảm với nhiễu Đối với
các mô hình giữ một hình ảnh duy nhất do đó các giá trị điểm ảnh thực sự không thê mô hình hóa do các bản cập nhật thích nghi Đối với các mô hình thống kê phương sai điểm ảnh có thê quá lớn để có được một mô hình có ý nghĩa, ngay cả đối với mô hình đa phương thức
Vì vậy, gần đây một số tác giả đề xuất phương pháp, phóng đại thể hiện của
điểm ảnh đơn dựa trên sử dụng thuộc tính hoặc bộ phân loại Đề tiếp tục cải thiện
các kết quả phân đoạn của mô hình hỗn hợp Gaussian, Tian đã phân tích các thông tin cấu trúc ở phân đoạn vùng trên nên Ý tưởng chính là câu trúc trong phân loại sai vùng trên nên (ví du, bóng) cũng tương tự như các cấu trúc trong nên Vì thế, với
mỗi sự phân loại điểm ảnh trên nền, một phương pháp cầu trúc tương tự dựa trên độ
dốc được tính toán bởi điểm ảnh lân cận Các phát hiện vùng tĩnh sau đó chuyên trở
lại thành nẻn
Tuong tu, Heikkil va Pietikanen để xuất sử dụng mô hình mẫu nhị phân cục bộ (LBP) dé mô tả cấu trúc để trực tiếp tính mô hình nền Với mục đích đó các tác
giả chia các khung hình đầu vào thành các khối có kích thước đều nhau và một phần
Trang 34chéng lên nhau Đối với mỗi khối lược đồ LBP sẽ được tính và lịch sử của các lược
đỗ và các trọng số tương ứng được lưu trữ Sau đó nền được mô hình hóa bằng các lược đồ có trọng số cao nhất Trong giai đoạn đánh giá, mỗi khối trong ảnh kiểm tra,
một biểu đề LBP sẽ được tính và so sánh với lược đồ đang xây dựng mô hình nên
(giống như mô hình đa phương thức)
1.4.3.1 Khối dựa trên bộ phân loại nên
Tương tự như Heikkila và Pietikanen ý tưởng chính là phân chia một hình
ảnh đầu vào thành một mạng lưới các khối hình chữ nhật nhỏ, chồng nhau và tính
toán tăng dần từng bước một phân đoạn phân loại (nhị phân) riêng biệt cho mỗi khối Trong quá trình tính toán phân loại này được áp dụng trên ảnh kiểm tra Để cuối cùng thu được một lớp nhị phân, tương tự như các phương pháp mô tả trong
các phan trước, các 'phân loại phản ứng được kết hợp bới toán tử OR Do đó, một điểm ảnh được phân loại là trên nên nếu ít nhất một khối, có chứa các pIxel, được
phân loại là trên nền Nguyên tắc chính mô tả trong hình 1.9 Luận văn để xuất áp
dụng Boosting trực tuyến để lựa chọn thuộc tính là phân loại cơ bản cho các khối
chồng lên nhau Như vậy, một mô hình đa phương thức có thể tính cho từng khối, cho phép độ chính xác cao với phân đoạn nền cũng như trên nền Do không có mẫu
sai, ta có thể xử lý vấn để như là một vấn để phân loại một lớp và chỉ sử dụng mẫu đúng cho việc cập nhật N : : Bộ phân loại ( kkết hợp Ay đặc trưng) _— ” BI i
Hình 1.9 Mô hình dựa trên nền khối được hình thành bởi lưới liên kết các ô chồng nhau Mỗi ô được đại diện bởi một bộ phân loại
Trang 35Ý tưởng chính là tính phân phối sai cho từng thuộc tính trực tiếp mà không cần học Các giá trị xám của từng điểm ảnh được mô hình hóa phân bố đồng đều có trung bình trong 128 và 2567/12 (cho mỗi ảnh 8 bit ).Vì vay, chúng tôi có thể tính bộ phân loại yếu và sử dụng cho việc phân loại nền Đối với phép tính và cập nhật độ
tin cậy của mẫu hiện tại x được tính bởi công thức:
Va, h, (2)
conf (x) = =
Khối được gán nhãn là trên nên nếu nó không thể được mô hình hóa bởi bộ phân loại, độ tin cậy thu được của bộ phân loại sẽ nhỏ hơn ngưỡng nhất định:
conƒ(x) < 0°“
Để cập nhật bộ phân loại chúng tôi áp dụng cách giải quyết rất đơn giản sau
Chúng tôi cập nhật bộ phân loại nếu độ tin cậy nằm trong khoảng được định trước:
g22nmhat <conf(x)< aceennat
thâphon caohon
Thông thường đƒ7””=Ø”“ và ngưỡng trên được thiết lập để tránh over-
fitting Ngoai ra, trong bước hậu xử lý một vài vùng (như đối tượng) được loại trừ khỏi quá trình cập nhật trong một thời gian nhất định Ngoài ra, bất kỳ bộ phân loại
nhị phân khác có thể được sử dụng Đặc biệt, chúng tôi đã áp dụng thành công bộ
phân loại nhị phân đơn giản sau đây thể hiện khối dựa trên nên:
Khối dựa trên trung bình xấp xi: Các mô hình trung bình xấp xỉ được tính
cho từng khối riêng biệt Công việc cập nhật được thực hiện như mô tả trong mục 2.3.1.3 Để có được bộ phân loại nhị phân đầu tiên, sự khác biệt duy nhất của các điểm ảnh được coi là ngưỡng, sau đó các điểm ảnh được phát hiện là trên nên sẽ
được đếm Nếu số lượng các điểm ảnh trên nền lớn hơn ngưỡng (thường được thiết lập 50%) bộ phân loại nhị phân trả về phần trên nền Do đó, phương pháp này có thêm hai tham số: một ngưỡng điểm ảnh và tỷ lệ phần trăm của điểm ảnh trên nên
Khối dựa trên eigenbackgrounds: Mô hình eigenbackground ước tính cho
mỗi khối riêng biệt Mô hình này được mô ta chi tiết trong mục 2.3.2.2 Đề có được bộ phân loại nhị phân đầu tiên, hình ảnh khác biệt của đầu vào hiện tại và tái cầu
Trang 36trúc của nó là ngưỡng Sau đó, số lượng các điểm ảnh trên nền phát hiện sẽ được ước tính Nếu con số này lớn hơn ngưỡng (thường là 50%) bộ phân loại nhị phân trả về phần trên nền Do đó, phương pháp này có hai tham số:ngưỡng lỗi tái cấu trúc của điểm ảnh đuy nhất và tỷ lệ của điểm ảnh trên nên
Khối dựa trên mô hình trung bình/phương sai: Tương tự như khối dựa trên phương pháp của Heikkila và Pietikanen chúng tôi có thể tính một mô hình đơn giản bằng cách phân tích những phần xén hiện tại Vì vậy, trung bình và phương sai
của tất cả các gia tri diém anh trong khối hiện tại được tính theo thời gian Bộ phân
loại được biểu diễn bởi trung bình và phương sai Để tính những đặc điểm này chúng tôi sử dụng phương pháp trung bình liên tục như trong phần 2.3.1.2 (một cách
tính chính xác hơn được Manzanera và Richefeu để xuất sử dụng hoặc để có một
mô hình thận trọng trực tiếp thông qua thống kê gia tăng Manzanera và Richefeu để xuất sử dụng trung bình xấp xỉ như một ước tính xấp xỉ cho trung bình thật sự, mà sau đó cũng được sử dụng để ước tính xấp xỉ phương sai Trong giai đoạn lượng hóa, các đặc tính thống kê được tính cho các phần hiện tại Nếu chúng không phủ
hợp với mô hình ước tính, bộ phân loại trả về một khối trên nền Do đó, phương
pháp này có một tham số: ngưỡng trung bình/phương sai Tiếp tục hoàn thiện phân đoạn nẻn/trên nền chúng tôi giới thiệu các mô hình này với tỷ lệ thời gian khác
nhau Vì vậy, nhiều mô hình nên có tần số cập nhật khác nhau được thận trọng song
song Vì vậy, thay đổi ít hoặc đột ngột thu được bằng một trong các mô hình này Đằng cách kết hợp các mô hình cơ bản theo cách phù hợp chúng tôi có thể xử lý các
kịch bản phức tạp hơn Ví dụ, có ba mô hình, chúng tôi sẽ cập nhật các mô hình, ví dụ, mỗi khung hình thứ 1, thứ 30, thứ 120, tương ứng Chúng tôi biểu diễn các mô
hình này như BG¡, BG›o, và BGiso Các quy tắc lựa chọn đơn giản sau đây dé đánh giá bộ phân loại BG cuối cùng đã chứng minh cho kết quả chính xác đầy đủ:
BGi BGI = BGao
BG= { BGi20 ngược lại
Do đó, mô hình lâu đài là mô hình tin cậy nhất Nhưng nếu thay đổi đột ngột thu được bởi nhiều hơn một mô hình những thay đổi này có thê được đưa vào mô hình cuối cùng nhanh hơn
Trang 371.4.3.2 Thuc nghiém minh hoa
Trước tiên, chúng tôi chứng minh rằng mô hình khối dựa trên nền bị ảnh hưởng với độ nhiễu máy thu hình và một chút thay đổi của điểm ảnh Hình 1.10 cho thấy, mô hình pixel dựa trên nền không đáp ứng được Từ hình 1.10 (b) có thê thấy rằng các chuyển động do thay đổi ánh sáng, đặc biệt là các ranh giới của những điểm trên sàn, không xử lý bởi mô hình pixel đựa trên nên
(a) (b) (c)
Hình 1.10 Mô hình khối dựa trên nền ít bị ảnh hưởng với những thay đôi của một vài điểm ảnh trong mô hình nền: (a) ảnh ban đầu- ánh sáng thay đổi theo thời gian; (b) phân đoạn nhị phân trên nền bằng cách sử dụng một mô hình điểm ảnh; (c) phân đoạn nhị phân
trên nền bằng cách sử dụng dựa trên mô hình khối
Vấn đề chính là giá trị của điểm ảnh đơn có thê thay đổi đáng kê từ khung hình này sang khung hình khác Ngược lại, kết quả của bộ phân loại khối không thay đổi cho đến
khi một số lớn các điểm ảnh thay đổi Như vậy, mô hình được chống nhiễu mạnh mẽ hơn
và ta có được phân đoạn nền/phẩn trên nền hoàn hảo như minh họa trong hình 1.10 (c).Áp dụng tương tự cho những thay đôi gây ra bởi độ nhiễu của máy ảnh Tiếp theo, chúng tôi trình bày độ chính xác và cách phân đoạn cho nền/phần trên nền là có thể mở rộng bằng cách thay đổi kích thước của khối và tỷ lệ chồng lên nhau Ví dụ, nếu mô hình được áp dụng để cho camera phát hiện chuyển động không cần phải chính xác với hình đạng của
một người cần được trích xuất Hình 1.11 cho thay những ví dụ về phân đoạn thu được
bằng các kích thước khối khác nhau Đối với phân đoạnn trong hình 1.11 (b) mỗi khối có
kích thước là 15x15 điểm ảnh, được chồng 75% Một phân đoạn chính xác hơn nhưng chi
phí tính toán cao hơn thu được khi sử dụng các khối 8x8 điểm ảnh và tỷ lệ chồng là 90%
Trang 38(b) (c)
Hình 1.11 Các mô hình khối dựa trên nền sử dụng kích thước khối khác nhau:(a) hình ảnh đầu vào ban đầu, (b) khối có kích thước 15 x 15, tỷ lệ chồng 75%; (c) kích thước khối 8 x
§ và tỷ lệ chồng 90%
1.5 TIEU KET CHUONG 1
Trong chương này, luận văn trình bày tổng quan về phát hiện nhận đạng đối tượng và trình bày tổng quan về hai phương pháp học máy tiêu biểu PCA và Boosting cho hai mô hình đó là mô hình mô tả và mô hình dự báo Phương pháp mô tả có ưu điểm trong biểu diễn các đặc trưng của đối tượng, chẳng hạn như hình dạng
và bề mặt đối tượng mô tả Phươn pháp dự báo thì có ưu điểm trong cải thiện độ
chính xác của sự phân lớp Kết hợp hai ưu điểm của hai phương pháp này, luận văn tiếp cận theo hướng tạo mô hình mới kết hợp hai mô hình này trong một khung học máy trực tuyến cho ứng dụng phát hiện nhận dạng đối tượng hình ảnh trực quan từ hệ thống giám sát camera
Trang 39CHUONG 2 NHAN DANG DOI TƯỢNG SỬ DỤNG KỸ
THUAT HOC THAN TRONG TRUC TUYEN
2.1 GIGI THIEU
Trong phan này, luận văn giới thiệu và thảo luận về vẫn dé học một cách
chỉ tiết hơn Ý nghĩa chính của phương pháp học này là nhằm hạn chế tới mức tối thiêu những công việc thủ công khi huấn luyện bộ phân loại và kết hợp tiềm
năng của bộ phân loại phân biệt với tính linh hoạt của các mô hình tự sinh Bắt đầu từ một tập các mẫu đúng và mẫu sai, bộ phân loại phân biệt được huấn
luyện Thực tế quá trình áp dụng các bộ phân loại này, hầu hết các đối tượng được tìm ra nhưng vẫn còn 1 số lượng lớn các mẫu sai Vì vậy chúng tôi áp dụng một bộ phân loại PCA theo cách phương pháp mô tả để xác nhận các mẫu thu được để quyết định xem nó có phải là đối tượng hay không Sau đó chúng
tôi sẽ rất thận trọng sử dụng những mẫu được xác nhận nay cho việc cập nhật bộ phân loại tại thời điểm hiện hành bằng cách sử dụng luật cập nhật dữ liệu,
Trang 402.2 CO SO LY THUYET
2.2.1 Học thích nghỉ
Hạn chế chính của phương pháp học này tự sinh từ việc sử dụng các dữ liệu dé huấn luyện Những mẫu đúng phù hợp với thê hiện khác nhau của các đối tượng,
trong khi đó thì các mẫu sai thường được trích từ các cơ sở dữ liệu hình ảnh lớn, mà
không còn chứa đối tượng này Vì vậy, giá trị những mẫu rời rạc thường không
được sử dụng trong việc học Ví dụ khi học bộ phát hiện người sẽ là hình ảnh của
con đường, hành lang, hay một phần nào đó của người Thậm chí khi đã sử dụng những mẫu phù hợp hơn cho việc học thì cũng không đảm bảo có một bộ phân loại
mạnh mẽ Thông qua việc lựa chọn các mẫu một cách ngẫu nhiên và độc lập từ sự phân bế của hầu hết các mẫu đã được chọn mẫu cần thận và vì vậy chỉ có ảnh hưởng rất nhỏ lên các bộ phân loại đã được ước tính Nhiều mẫu là cần thiết và thuật toán học như thế sẽ hội tụ một cách rất chậm chạp Chiến lược lay mẫu này thường liên quan đến việc học thụ động
Để khắc phục những vấn để này, một thuật toán thích nghi dùng ý tưởng nếu như ta áp dụng phương pháp học thích nghi Nói chung, một bộ học chủ động có thé
được xem là một bộ năm phan tu (C, H, S, L, U), trong do C là bộ phân loại, Q là
hàm truy vấn, S là giám sát (giao vién), L va U tuong tng la mét tap hop cac dit
liệu dán nhãn và không dán nhãn Đầu tiên, phân loại Co ban đầu được huấn luyện từ tập hợp dán nhãn L Cho bộ phân loại C ¡, hàm truy vấn Q lựa chọn hầu hết các
mẫu không dán nhãn có thông tin nhất từ U và giám sát S được yêu cầu đán nhãn
các mẫu đó Sử dụng các mẫu dán nhãn như vậy thì bộ phân loại hiện tại được huấn luyện lại mang bộ phân loại C¡ mới Tiến trình này được tóm tắt trong thuật toán2 l
Thuật toán 2.1 Học thích nghị