Từ những hạn chế này đề tài đã nghiên cứu và đề xuất các thuật toán như phát hiện khuôn mặt, nhận diện sự chuyên động của người trong thời gian thực và nhúng giải thuật vào thiết bị điện
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
a
|
NGUYEN THI MY HANH
NGHIÊN CỨU DE XUAT THUAT TOÁN NHAN DIEN DOI
TƯỢNG TRONG UNG DỤNG E-DOGS
LUAN VAN THAC Si
Khóa: 09
Ngành: Công Nghệ Thông Tin
Mã ngành: 60480201
TP HO CHÍ MINH - NĂM 2017
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BOK CR
⁄
@
NGUYEN THỊ MỸ HẠNH
NGHIÊN CỨU ĐÈ XUẤT THUẬT TOÁN NHAN DIỆN
ĐÓI TƯỢNG TRONG ỨNG DỤNG E-DOGS
LUẬN VĂN THẠC SĨ
Khóa Luận: 09 Ngành: Công Nghệ Thông Tin
Mã ngành: 60480201
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS NGUYEN MINH SƠN
TP HO CHÍ MINH - NĂM 2017
Trang 3Công Nghệ Thông Tin, Khoa Kỹ Thuật Máy Tinh, Thầy chủ nhiệm - Trưởng Bộ
Môn Khoa Học và Kỹ Thuật Thông Tin - TS Nguyễn Gia Tuần Anh của tường Đạihọc Công Nghệ Thông Tin đã dành thời gian cung cấp kiến thức trong suốt thờigian em học tập tại trường.
Em chân thành cảm ơn sâu sắc đến Thầy hướng dẫn luận văn TS Nguyễn
Minh Sơn Thay đã dành thời gian quý giá dé hướng dẫn tận tình luận văn “Nghiên
cứu đề xuất thuật toán nhận diện đối tượng trong ứng dụng E-Dogs” Nhờ sự chỉbảo và chu đáo của Thầy em mới hoàn thành luận văn của mình
Xin chân thành cám on ba mẹ, anh chị em đã động viên trong suốt thời gianlàm luận văn.
Chân thành cám ơn đồng nghiệp, bạn bè, các tình nguyện viên đã hồ trợ choviệc lấy ảnh mẫu đề có dữ liệu làm luận văn
Trong quá trình thực hiện luận văn mặc dù đã cố gắng hoàn thiện luận vănnhưng không tránh khỏi sai sót, rat mong Quý Thầy/Cô bỏ qua và đóng góp ý để em
hoàn thiện luận văn.
TPHCM, ngày tháng năm 2017
Học viên
Nguyễn Thị Mỹ Hạnh
Trang 4quả nêu trong luận văn là trung thực và chưa được công bố trong các công trìnhkhác Nếu không đúng như đã nêu trên, tôi xin hoàn toàn chịu trách nhiệm về dé tàiluận văn của mình.
Người cam đoan
Nguyễn Thị Mỹ Hạnh
Trang 5s.Ý nghĩa khoa học đạt được
6.Ý nghĩa thực tiễn đạt được
7 Mục tiêu nghiên cứu của để tài
8 Những đóng góp mới của đề tài
9 Hướng nghiên cứu của luận văn:
10 Đối tượng và phạm vi nghiên cứu:
11 Nội dung nghiên cứu và hướng phát triên
12 Bố cục của đề tai
CHUONG I: TONG QUAN CÁC CÔNG TRÌNH NGHIÊN CỨU VÀ HƯỚNG
TIẾP CẬN
1.1 Giới thiệu tông quát hiện trạng
1.2 Các công trình nghiên cứu liên quan.
1.3 Hướng tiếp cận
1.4 Các phương pháp liên quan
1.4.1 Phương pháp mạng Neural
1.4.2 Phương pháp Support Vector Machine - SVM
1.4.3 Phương pháp mô hình Mackov ân - Hidden Mackov Model - HMM 16
1.4.4 Phương pháp Histogram of Oriented Gradients (HOGs)
1.4.5 Phương pháp Adaboost
1.5 Tổng quan về OpenCV
Trang 62.1 Mô hình ứng dung E-Dog: 192.2 Đề xuất phương pháp giải quyết bài toán phát hiện khuôn mặt người 20
2.2.1 Các đặc trưng Haar-like 25 2.2.2 Tháp phân loại — Casecade of Classifiers 2.28 2.2.3 Bài toán phát hiện khuôn mặt người của dé tai „31
2.3 Đề xuất bài toán phát hiện cơ thể người 362.3.1 Vector Gradient 362.3.2 Khối nhận diện (Descriptor Blocks)
2.4 Những ưu điểm của OpenCV
CHƯƠNG 3: HIỆN THỰC VÀ ĐÁNH GIÁ THỰC NGHIỆM
3.1 Hiện thực phát hiện khuôn mặt người
3.1.1 Thực nghiệm ngoài trời với cơ sở dữ liệu của
3.1.2 Thực nghiệm ngoài trời với CSDL của OpenCV.
3.1.3 So sánh thực nghiệm ngoài t
3.1.4 So sánh thực nghiệm ngoài trời trên CSDL của Đề tài và OpenCV SI3.1.5 Thực nghiệm trong nha với CSDL của đề tài
3.1.6 Thực nghiệm trong nhà với CSDL của OpenCV
3.1.7 So sánh thực nghiệm trong nhà giữa PC va RAS từ CSDL của đê tài và của OpenCV +60 3.1.8 So sánh thực nghiệm trên CSDL của Dé tài và OpenCV 1-63 3.2 Hiện thực phát hiện người 14 3.2.1 Thực nghiệm phát hiện người trên thiét bi RAS 164
3.2.2Thực nghiệm phát hiện người trên thiết bi PC 663.2.3 So sánh thực nghiệm phát hiện cơ thé người trên PC va RAS +683.3 Thực hiện phát hiện khuôn mặt kết hợp với cơ thé người 603.3.1 Thực hiện phát hiện khuôn mặt CSDL của để tài kết hợp với cơ thê ngườicủa OpenCV +693.3.2 Thực hiện phát hiện khuôn mặt CSDL của OpenCV kêt hợp với cơ thể
người của OpenCV wee 72
3.4 So sánh tích hợp bài toán phát hiện khuôn mặt và co thể người wl 43.5 Hình ảnh kết quả thực nghiệm
CHƯƠNG 4: KÉT LUẬN VÀ HƯỚNG PHÁT TRIÊN
Trang 74.3 Hướng phát trién.
TÀI LIỆU THAM KHẢO
Trang 8SVM Support Vector Machine
OPENCV Open Source Computer Vision
HOG Histogram of Oriented Gradients
LBP Local Binary Pattern
HMM Hidden Mackov Model
CSDL Cơ sở dữ liệu
RAS Raspberry Pi 3
PC Computer Persional
Trang 9Bảng 3 1 Thực nghiệm ngoài trời phát hiện khuôn mặt với CSDL của dé tài trên PC
Bảng 3 2 Thực nghiệm ngoài trời phát hiện khuôn mặt với CSDL của đê tài trên
RAS 42
Bang 3 3 Thực nghiệm ngoài trời phát hiện khuôn mặt với CSDL của OpenCV' trên
PC 44Bang 3 4 Thực nghiệm ngoài tr CSDL của OpenCV trên RAS 46
Bang 3 5 Bang thống kê ti lệ phát hiện khuôn mặt ngoài trời theo khoảng cách trên
CSDL của dé t wTBang 3 6 Bảng thống kê tỉ lệ phát hiện khuôn mặt ngoài trời theo khoảng cách trên
CSDL của OpenCV 49Bang 3 7 Bảng thống kê tỉ lệ phát hi 1
Bang 3 8 Bang thống kê thời gian xử ly trung bình theo khoảng các 51
Bang 3 9 Thực nghiệm trong nhà của CSDL đề tài trên PC 53Bảng 3 10 Thực nghiệm trong nhà trên CSDL của dé tài trên RAS 55Bang 3 11 Thực nghiệm trong nhà trên CSDL của OpenCV trên PC ST
Bang 3 12 Thực nghiệm trong nhà trên CSDL của OpenCV trên RAS 58
Bang 3 13 Bang thống kê hát hiện theo khoảng cách trên CSDL Dé ti 60Bảng 3 14 Bảng thống kê
của OpenCV
Bang 3 15 Bảng thông kê ti in trăm pi
Bảng 3 16 Bảng thống kê tốc độ xử lý phát hiện khuôn mặt của
Bảng 3 19 Bảng thống kê tốc độ phát hiện cơ thê theo khoảng cách.
Bane > 3 20 Bang ining ké ui lệ phát hiện cơ thê người theo khoảng các
phát hiện c cơ thể s ir dụng CSDL của OpenCV
Bang 3 3.23 Bang thông kê tộc độ Xử lý khuôn mặt và cơ the
Bảng 3 27 Hình ảnh thực nghiệm phát hiện cơ thê người trên RA.
Bang 3 28 Hình ảnh phát hiện cơ thê người trên PC
81
Trang 10.21
.2
Hình 2 1 Kiến trúc dé xuất cho thiết bị E-Dog
Hình 2 2Mô hình các bộ phân loại yêu đê xác định khuôn mặt.
Hình 2 3 Một trong sô ảnh được lây ra từ tập ảnh mau
Hình 2 4 Một sé mẫu không chứa khuôn mặt 23
Hình 2 5 Giải thuật Adaboost [17] 24
Hình 2 6 Các đặc trưng Haar-like cơ bản .26
Hình 2 7 Đặc trưng cạnh
Hình 2 8 Đặc trưng đường
Hình 2 9 Đặc trưng xung quanh tâm
Hình 2 10 Công thức tính Integral Image của ảnh
Hình 2 11 Cách tính tổng giá trị pixcel vùng ảnh can tính
Hình 2 12 Lược đồ minh họa thuật toán huấn luyện Casecade
Hình 2 13 Thuật toán Casecade Traning
Hình 2 14 Các bước Ở
Hình 2 15 Tiến trình
Hình 2 16 Ví dụ của tập tin info.txt hiên tl
Hình 2 17 Cú pháp nói hai tập tin info.txt và đường dẫn tập ảnh ÉHình 2 18 Kết quả tệp chứa đường dẫn đến mỗi bức ảnh cùng với tọa độ sample.txt
33 33 34
Hình 2 22 Hiệu suât thực hiện huân luyện đặc trưng
Hình 2 23 Minh họa cách tính Vector Gradient
Hình 2 24 Rectangular HOG
Hình 2 25 Minh họa mẫu cửa s
Hình 2 26 Minh hoa 6 kích thước 8x8 trong cửa sô tim kiêm.
Hình 2 27 Minh họa sự chồng lắp các ô
Hình 2 28 Minh họa kết quả phát hiện ngư:
xml sau khi thực hiện huân
Hình 3 3 Biểu đồ đường tg hién ti lệ phần trăm thi hiện khuôn mặt ngoài trời của
OpenCV „50Hình 3 4 Bié của OpenCV
Trang 11Hình 3 10 Biêu đô cột th
trăm phát hiện khuôn
Trang 12TÓM TẮT LUẬN VĂN
Bài toán phát hiện và nhận diện đối tượng chuyền động trong thời gian thựcđang được các chuyên gia khoa học quan tâm trong nhiều năm qua vì ý nghĩa khoahọc và thực tiễn của lĩnh vực nghiên cứu này Trong đề tài, tác giả đã nghiên cứu và
đề xuất giải thuật Adaboost và các đặc trưng Haar-Like để phát hiện khuôn mặtngười và phát hiện người di chuyển trong khung hình bằng History OrientedGradient.
Thuật toán được thực nghiệm qua hai loại phân cứng khác nhau:
- Máy tính Laptop với bộ vi xử lý Intel® CoreTM ¡7 - 4510U PCU
@2.00GHz-2.60 GHz 64bit, Camera IP.
- Thuật toán được tích hợp trên chip Broadcom BCM2835 SoC của
Raspberry Pi3, với bộ xử lý Cortex-A53 bốn nhân 1.2 GHz 64 bit Viđiều khiển ARM được cài đặt hệ điều hành Rasberry Jessie và thực
hiện việc giao tiếp với Camera Pi Rev 1.3 thông qua cổng CSI
(Camera Interface).
Đề tài thực hiện thực nghiệm trên hai thiết bị phần cứng và so sánh tốc độ và
độ chính xác của hai bài toán đã đề ra trên cơ sở dữ liệu của đề tài tự xây dựng và
của OpenCV.
Ngôn ngữ được sử dụng trên máy tính cá nhân là C Sharp, trên thiết bị
Raspberry Pi 3 là C++ cùng với thư viện OpenCV Kết quả mong đợi giai đoạn 1 là
tích hợp từng thuật toán phát hiện khuôn mặt và phát hiện cơ thể người trên máytính cá nhân với camera senser, giai đoạn 2 là kết hợp được hai thuật toán lên thiết
bị Raspberry Pi3, giai đoạn 3 là kết hợp các thiết bị cảm biến đề xây dựng thành
một con E-Dog hoàn chỉnh với các tính chất như khả chuyển, dễ cài đặt, tốc độ xử
lý nhanh, nhỏ gọn, tiêu thụ điện năng thấp
Trang 13sử dụng Chính phủ Mỹ hiện đang đưa ứng dụng nhận diện khuôn mặt tại sân bay
để đảm bảo an ninh cho quốc gia này và loại bỏ những lá phiếu bầu cử gian lận
Trên lĩnh vực điện thoại di động, các công ty công nghệ hàng đầu thế giớinhư Google, Apple, Sony cũng cạnh tranh nhau đề cho ra đời các dòng sản phẩm có
ứng dụng nhận diện khuôn mặt như Picasa và Picture Motion Browser Tuy nhiên
vẫn chưa mạnh mẽ và đồng bộ hóa các dòng sản phẩm vì những dòng sản phẩm vềsau như iOS6 không có tinh năng này phải tải về từ bên thứ ba có tinh năng tương
tự mang tên Face Vault.
Ứng dụng nhận diện khuôn mặt trong điều tra tội phạm là một bước ngoặcphát triển công nghệ Tuy nhiên, trong nhiều lĩnh vực liên quan, nhận diện khuônmặt đang gặp van đề pháp lý, xâm phạm quyền riêng tư chưa được chấp thuận của
người sử dụng, đặc biệt là ở các nước phát triên ở Châu Âu.
Ở Việt Nam, công nghệ giám sát an ninh được các doanh nghiệp đầu tư
mạnh mẽ tại các sân bay, ngân hàng, siêu thị, nhà sách, các trạm rút tiền ATM Đặc
biệt, trong thời gian gần đây tình trạng tội phạm dùng máy cắt và bình xịt dé lấy tiềntại các trạm ATM đã gây thiệt hại nặng nề cho các doanh nghiệp, và gây án tại cáctrạm ATM đã làm cho người sử dụng có tâm trạng lo sợ và hoang mang Dé giảiquyết bài toán này các doanh nghiệp đã đầu tư mạnh mẽ vào hệ thống giám sát anninh, khi có sự có hệ thống sẽ báo động đến trung tâm hệ thống và còi hú sẽ kích
hoạt tại các trạm ATM.
Trang 14Trong thời gian gần đây tình hình an ninh của người dân ở Việt Nam diễn ra
rất phức tạp Tình trạng trộm vào nhà, gây án ngày càng nghiêm trọng, vì thế một sốgia đình có điều kiện đã lắp đặt hệ thống giám sát trong nhà nhưng chỉ ở với mức
giám sát, độ an ninh chưa cao Các chuyên gia Việt Nam cũng rất quan tâm đến bài
toán này Tuy nhiên chi dừng lại ở mức mô phỏng chưa đưa vào áp dụng thực tếnhiều
Những bài toán nhận dạng được ứng dụng nhiều trong lĩnh vực Robot nhưngười robot, thú cưng robot, robot hạng nặng giúp con người làm những việc nặng,nguy hiểm và tăng thêm niềm vui trong cuộc sống của con người Bên cạnh đó,Robot là một phan không thé thiếu trong ngôi nha thông minh nhưng chỉ phí cao sovới thu nhập đa số người dân Việt Nam Đề tài nghiên cứu nhận dạng đối tượng
chuyển động, đặc biệt là nhận dạng khuôn mặt trong hệ thống E-Dogs Đề tài mong
muốn mang lại một hệ thống giám sát thông minh phù hợp về địa thế nhà ở và kinh
tế của người dân Việt Nam, giúp cho người dân thoải mái đi làm xa hay công tác
nhiều ngày mà vẫn có thé giám sát ngôi nhà của mình qua Internet
4 Lý do chọn đề tài
Hiện nay, các sản phẩm về giám sát, an ninh hiện còn mang tính cục bộ và
thủ công, chưa tự động hóa Hiện chưa có sản phâm giám sát an ninh thông minh và
tự động hóa phù hợp với cầu trúc nhà ở và thu nhập của người Việt Nam
Đồng thời các công trình nghiên cứu về lĩnh vực xử lý ảnh như phát hiện,
nhận diện đối tượng được thực hiện trên máy tính cá nhân hoặc server điều này sẽhạn chế cho việc sử dụng linh hoạt của thiết bị, không phát huy hết chức năng thông
minh và khả chuyên.
Từ những hạn chế này đề tài đã nghiên cứu và đề xuất các thuật toán như
phát hiện khuôn mặt, nhận diện sự chuyên động của người trong thời gian thực và
nhúng giải thuật vào thiết bị điện tử E-Dogs nhằm tăng khả năng khả chuyển, nhỏ
gọn.
Trang 155.Y nghĩa khoa học đạt được
Đề tài góp phan giới thiệu các bước chuẩn bị dữ liệu mẫu và xây dựng hệthống phát hiện khuôn mặt người và đối tượng di chuyển trong thời gian thực
Nghiên cứu và cài đặt thử nghiệm thuật toán Adaboost cùng với phương
pháp rút trích đặc trưng Haar-like.
Tao tiền đề cho những nghiên cứu tiếp theo trong tương lai
6 Ý nghĩa thực tiễn đạt được
Đề tài đã xây dựng thành công hệ thông phát hiện khuôn mặt người bằng giảithuật kinh điển Adaboost kết hợp với rút trích đặc trưng Haar-like nhưng tốc độnhanh hơn rat nhiều so với các công trình nghiên cứu trước đó
Ứng dụng thành công trong việc áp dụng công nghệ xử lý ảnh của OpenCV
vào bài toán mà tác giả đã đê xuât trong luận văn.
Đề tai đã xây dựng thành công dữ liệu mẫu thực tế của người Việt Nam côngviệc này làm tăng tốc độ nhận dạng khuôn mặt
Ngoài ra, dé tài mong đợi sẽ ứng dụng vào một hệ thống nhà thông minh
mang tính thương mại trong tương lai gần, trở thành một thành phần không thể
thiếu trong nhà thông minh ở Việt Nam
7 Mục tiêu nghiên cứu của đề tài
Mục tiêu chính của đề tài là xây dựng hệ thống mô phỏng thiết bị E-Dogs
phát hiện khuôn mặt người, nhận diện đối tượng chuyên động trong thời gian thực.
Từ tập ảnh mẫu được đề tài xây dựng thành cơ sở dữ liệu mẫu, hệ thống sẽ tiếnhành phát hiện khuôn mặt trong ảnh tĩnh, video hoặc thời gian thực Kết quả của
quá trình phát hiện khuôn mặt là khuôn mặt được bao quanh bởi khung hình chữ
nhật.
Nghiên cứu các đặc trưng Haar-like trên mặt người và kỹ thuật rút trích đặc
trưng 2D phục vụ cho bài toán phát hiện mặt người Tìm hiểu các kiến thức cơ sở,xây dựng dữ liệu ảnh mẫu nhằm thực nghiệm bài toán đã đề xuất trong luận văn
Trang 168 Những đóng góp mới của đề tài
Đề tài đề xuất hướng tiếp cận hiệu quả nhằm áp dụng các ưu điểm của một
số phương pháp tiếp cận đã được nghiên cứu trước đó vào ảnh tĩnh, góp phần nâng
cao khả năng xử lý phát hiện khuôn mặt và nhận dạng đối tượng di chuyền.
Với mục tiêu chính là tìm hiểu, nghiên cứu các đặc trưng trên mặt người và
kỹ thuật rút trích đặc trưng 2D, đồng thời là tiền đề cho bài toán phát hiện mặt
người trong ảnh tĩnh cũng như trong thời gian thực.
9 Hướng nghiên cứu của luận văn:
Nguyên lý hoạt động của hệ thống mô phỏng thiết bị E-Dogs:
Cơ chế giao tiếp: Camera tượng trưng cho đôi mắt của E-Dogs, kết nối với
mạng không day giao tiếp trực tiếp với các cảm biến bên trong E-Dogs
Cơ chế nhận dạng: Thiết bị E-Dogs giám sát các đối tượng trong phạm vi 2.5
m, phát hiện khuôn mặt, bám theo khuôn mặt và nhận diện đối tượng chuyển động
10 Đối tượng và phạm vi nghiên cứu:
Đối tượng nghiên cứu:
- Các phương pháp, giải thuật trong lĩnh vực phát hiện khuôn mặt trên anh
tĩnh.
- Các thư viện phục vụ cho việc xử lý ảnh của OpenCV.
- Hệ thống E-Dogs phát hiện khuôn mặt, nhận diện đối tượng trong nhà vàngoài trời với hệ thống camera tĩnh
Pham vi nghiên cứu:
Việc xử lý ảnh và phát hiện khuôn mặt, nhận dạng đối tượng chuyển động chỉ hoạt
động hiệu quả nếu thỏa mãn các điều kiện sau:
- Ảnh chất lượng tốt
- Anh sáng môi trường không quá sáng chói, không quá tối
- Khuôn mặt không bị che khuất hơn % khuôn mặt
~ Góc quay khuôn mặt không quá 30 độ.
Trang 17- Phát hiện khuôn mặt trong thời gian thực hiệu qua ở khoảng cách không quá
2m.
-_ Khung nền đơn giản
Kết quả sẽ không chính xác nếu không thỏa mãn các yêu cầu trên
11 Nội dung nghiên cứu và hướng phát triển
Nội dung nghiên cứu
- Cac ứng dụng và các chức năng của E-Dogs.
~ Giải thuật Gaussian Mixture trừ khung nền
- Giải thuật Support Vector Machine — SVM và phân tích các đặc trưng của
vector dé phân loại sự di chuyển của đối tượng
- Giải thuật Histogram of Oriented Gradients (HOGs) nhận dang cơ thé người
- Co chế báo động khi có hành vi đáng nghỉ trong nhà
phạm vi nghiên cứu, nội dung nghiên cứu, bố cục của luận văn
Chương 1: Tổng quan các công trình nghiên cứu và hướng tiếp cận Trongchương này giới thiệu về thực trạng hiện tại về lĩnh vực mà đề tài đang nghiên cứu,
các nghiên cứu liên quan, hướng tiếp cận, giới thiệu các ưu và nhược điểm của
phương pháp nghiên cứu liên quan đến đề tài
Chương 2: Đề xuất phương pháp phát hiện khuôn mặt - nhận diện đối tượng.Giới thiệu mô hình E-Dogs, tìm hiểu lý thuyết các giải thuật Adaboost, các đặc
Trang 18trưng Haar like, thuật toán Histogram, thư viện OpenCV, phương pháp phát hiện
mặt người bằng các đặc trưng Haar like, cơ thể người bằng Histogram
Chương 3: Kết quả thực nghiệm hệ thống mô phỏnsg thiết bị E-Dogs —Chwong 4:Kết luận và hướng phát triên Thực hiện thực nghiệm trên hai cơ sở dữ liệu khác
nhau của dé tài xây dựng và của OpenCV , vẽ bảng, biểu dé so sánh tốc độ xử lý và
độ chính xác ở mỗi trường hợp thực nghiệm.
Chương 4:_ Kết luận kết quá đạt được và hướng phát triển Kết luận về nhữnghạn chế của dé tài và hướng phát triển trong tương lai
Trang 19CHƯƠNG 1: TONG QUAN CÁC CÔNG TRÌNH NGHIÊN CỨU
VÀ HƯỚNG TIẾP CẬN
1.1 Giới thiệu tống quát hiện trạng
Bài toán phát hiện khuôn mặt và nhận diện đối tượng đã được nghiên cứu từnhững năm 70, cụ thể là đã có nhiều công trình nghiên cứu về phát hiện khuôn mặtngười trong ảnh xám, tĩnh Trong thời gian gần đây đã có những công trình nghiên
cứu phát hiện khuôn mặt trong thời gian thực nhưng chỉ đang trong giai đoạn nghiên cứu.
Hiện nay, cùng với sự phát triển trong và ngoài nước, vấn đề giám sát, anninh đang ngày càng được quan tâm Các hệ thống nhận dạng con người đượcnghiên cứu và phát triển với độ chính xác ngày càng cao Có rất nhiều bài toán đượcđưa ra bởi các chuyên gia phục vụ cho vấn đề nhận dạng như: con ngươi trong mắtngười, vân tay, giọng nói, khuôn mặt, mã thẻ cá nhân Bài toán đang được quan
tâm hiện nay là bài toán nhận dạng khuôn mặt Các tổ chức điều tra tội phạm ở các
nước châu Âu, cũng như những công ty công nghệ nổi tiếng như Microsoft,Facebook, Apple, Google, đang đầu tư mạnh mẽ về lĩnh vực nhận dạng khuônmặt để điều tra tội phạm một cách nhanh chống và chính xác, cũng như làm tăng sựthuận tiện sử dụng công nghệ của công ty.
Gần đây, với nhu cầu an ninh quốc gia, một số nước phát triển ở Châu Âu, cụthé là Mỹ đã dau tư hệ thống phát hiện và nhận dạng khuôn mặt ở các sân bay déphát hiện kịp thời những tội phạm, nhưng vẫn còn hạn chế ở các nước Châu Á Việcphát hiện khuôn mặt trong ảnh, có thể diém được bao nhiêu người trong ảnh, việc
đếm số lượng người có ý nghĩa rất thực tiễn như thống kê được lượng khách hàng ra
vào siêu thị, sân bay, nhà sách, mật độ lưu thông trên đường.
Boston Dynamics là một trong những công ty nồi tiếng ở Mỹ chuyên nghiêncứu và chế tạo nhiều loại robot khác nhau như LS3, Atlas, Petman, Cheetah,Bigdog, SandFlea, Rhex, RiSE, LittleDog [1] Đặc biệt đối với BigDog hay LS3được dùng trong quân đội Bigdog có thé mang tổng khối lượng là 154 Kg BigDog
có trọng lượng là 109 kg, nó có thé đi bộ trên địa hình gồ ghé và dốc đến 35 độ, và
chạy với tốc độ 4 m/giờ BigDog di chuyền theo người dẫn đầu với một khoảng
Trang 20cách cố định Người dẫn đầu mặt một chiếc áo nhận phản chiếu laser của SICK
LIDAR được thiết kế cùng với BigDog dùng dé xác định vị trí của người dẫn đầu.Tháng 5 năm 2015 Boston Dynamics đã cải tiến và ra mắt Bigdog với kích thước
nhỏ hơn với cái tên mới là “Spot”.
Vào năm 1990 công ty Sony cũng chế tao ra AIBO [2] AIBO có thể nghehiểu 3 thứ tiếng, sủa, quay đuôi khi được vuốt ve ở lưng hoặc cổ, múa, nhận diện đồ
chơi, banh mau, Nam 2006 công ty Sony tuyên bố ngừng sản xuất AIBO thay vào
đó là những loại sản phẩm khác sinh nhiều lãi suất hơn Tháng 7 năm 2014 công ty
tuyên bố ngừng hồ trợ cho khách hàng về sửa chữa AIBO
Năm 2005, các nhà khoa học của công ty phát triển công nghệ Nhật BảnNKS cộng tác với University of Electro-Communications (UEC) đã chế tạo ra “chó
điện tử dẫn đường” [3] giúp dẫn đường cho người khiếm thị, phiên bản đầu tiên có
tên là NR001 Năm 2007 “chó điện tử dẫn đường” được cập nhật lên phiên bản
NR002 Sau đó không lâu, NKS và UEC đã cập nhật lên phiên bản NROO3, bằngcách thêm cảm biến Kinect của Microsoft giúp cho robot có thé phát hiện và tránhđược chướng ngại vật như cầu thang, và nó có thê nhận sự điều khiển của ngườidùng bằng giọng nói Thêm vào đó, nó có hình dáng giống một con chó hơn lànhững phiên bản trước đó Năm 2009 NKS ra mắt phiên bản mới có tên NWR001
nhưng nó to và nặng hơn những phiên bản trước, 2 năm sau NWR002 được tung ra
thị trường với nền tảng nhẹ hơn và đẹp mắt hơn Năm 2013 NKS tung ra sản phẩmmới mang tên NWR003 nhẹ hơn với nhiều cảm biến nhận dạng chướng ngại vậtphía trước nhưng có cùng nhược điểm với NWR001, 002 là không thé leo lên cầu
thang như phiên bản NROOI.
Công ty Bkav Việt Nam [4] là một trong những công ty lớn hàng đầu ViệtNam tiên phong trong lĩnh vực nhà thông minh, công ty đã đưa ra những sản phẩm
nhà thông minh đem lại sự thoải mái và an tâm cho khách hàng, các thiết bị cảm
ứng được kết nối với nhau thông qua hệ thống mạng, người dùng có thể điều khiểncác thiết bị bằng Smartphone hoặc Ipad, Tablet Một sản phẩm không thé thiếutrong hệ thống SmartHome Bkav đó là hệ thống chống trộm Hệ thống cảnh báochống tộm ba vòng, ghi hình chụp ảnh kẻ đột nhập thông báo cho chủ nhà thông
Trang 21qua email, tin nhắn khi có trộm đột nhập Hệ thống được lập trình theo bối cảnhnhằm xua đuổi trộm: khi trộm đột nhập vào vòng I, còi sé rú, đèn toàn ngôi nhà sẽbật sáng Khi trộm đột nhập vào vòng 2 còi sẽ rú lớn hơn, các cửa cổng tự độngđóng lại, hệ thống chống trộm sẽ gửi tin nhắn và hình ảnh chụp được qua cameragửi đến điện thoại của chủ nhà Điện thoại tự động kết nối tới công an địa phươngnơi gần nhát
Công ty Lumi Việt Nam [5] được thành lập vào năm 2012 và ngày càng phát triên trong thị trường nhà thông minh trong và ngoài nước Ngày 27/10/2015 Công
ty đã cho ra mắt những công nghệ mới và thuận tiện cho khách hàng, một trong số
đó là cảm biến chống trộm: là những cảm biến được gắn ở cửa ra vào, cửa số có tácdụng phát hiện xâm nhập bat hợp pháp khi không có người ở nhà dé kích hoạt cácthiết bị chống trộm đặt sẵn như còi hú, đèn xoáy kèm theo đó là thông báo tới chủnhà bằng Smartphone Đồng thời Lumi Việt Nam mới đưa ra là bộ xử lý trung tâmđược lắp đặt và kết nối với các thiết bị cần điều khiển thông qua mạng tín hiệukhông dây Zigbee, một chuẩn truyền tín hiệu đang rất phổ biến trên thị trường, vaquan trọng là chỉ phí chỉ từ 30 đến 60% so với các thương hiệu khác trong nước
Bên cạnh đó, Công ty OnSky cũng là một trong những công ty có các sản
phẩm nhà thông minh Thông qua các sản phẩm nhà thông minh người dùng có thểđiều khiển các thiết bị điện gia dụng, camera an ninh theo một kịch bản chuẩn bịtrước Hiện nay, mô hình nhà thông minh OnSky đang sử dụng dịch vụ điện toánđám mây do Công viên Phần mềm Quang Trung cấp OnSky tích hợp hệ thốngInternet of Things (IoT) cho nhà thông minh OnSky sử dụng công nghệ điện toán
đám mây trong quy trình tự động hóa, an ninh, ghi hình lưu trữ OnSky chính thức hoạt động vào năm 2015.
Về mặt tổng quan, hiện nay những ngôi nhà thông minh được tập hợp bởicác cảm biến thông minh kết hợp với nhau tạo thành một hệ thống, các cảm biếnnày kết nối với nhau thông qua mạng không dây như wifi/3G/4G Những công ty tạiViệt Nam cũng đang đầu tư về lĩnh vực nhà thông minh như: OnSky, Lumi,Bkav, Nhưng nhìn chung thì các hệ thống có các chức năng như: tự động đóng rèmkhi trời tối, mở rèm khi trời sáng, mở đèn khi có người đi qua, tắt đèn khi ra khỏi
Trang 22phịng, bật/tắt máy điều hịa, âm thanh khi người trong nhà cĩ nhu cầu sử dụng,
quan sát nhà từ xa qua camera, hệ thống an ninh bật cịi hụ và phối hợp ánh sángđèn trong nhà khi cĩ người lạ xâm nhập và gửi tin nhắn báo cho chủ nha, hé thơng
được thực hiện trên kịch bản đã soạn sẵn Hệ thống an ninh nhìn chung chưa đưa
được các bài tốn về xử lý ảnh như phát hiện, nhận dạng, phân tích đối tượng vào
các ứng dụng thơng minh vào chức năng an ninh của nhà thơng minh Đây là động
lực cho dé tài nghiên cứu và phát triển hệ thống dé ứng dụng trong thực tế, giúp cho
những người Việt Nam cĩ thể tiếp cận và sử dụng cơng nghệ phù hợp với kinh tếcủa mình.
1.2 Các cơng trình nghiên cứu liên quan
Trong Hước:
Nhĩm tác giả Châu Ngân Khánh và Đồn Thanh Nghị đã kết hợp đặc trưngHaar-like và các đặc trưng cục bộ khơng, đổi (Scale — Invarant Feature Transform —SIFT) với mơ hình phân tầng của Boost (Cascade of Boosted Classifiers - CBC)cho nhận dang mặt người Để tăng tính chính xác nhĩm tác giả đã dé xuất sử dungcác thuật tốn K láng giéng gan nhat (K Nearest Neighbor —kNN) với độ chính xác
mà nhĩm tác giả đạt được là 94.35%, kNN đảo ngược với 86.05% và Nạve Bayer Nearest Neighbor (NBNN) với 98.83% [6].
Tác gia Dương Anh Hùng đã áp dụng thuật tốn Local Binary Pattern (LBP)
để rút trích đặc trưng khuơn mặt và giải thuật Principal Component Analysis (PCA)
cho mục đích nhận dạng khuơn mặt, độ chính xác mà tác giả đạt được khi thực
nghiệm trên bộ thư viện chuẩn Multiple Biometric Grand Challenge (MBGC) là
trên 90% và đạt 70-80% trên cơ sở dữ liệu thu thập thực tế (7]
Tác giả Ta Thi Ai Nhi đã nghiên cứu các phương pháp AdaBoost kết hợp với
Haar Like để phát hiện khuơn mặt, thuật tốn MeanShift và CamShift cho mục đích
theo vết, các thuật tốn xác định chuyển động như Frame Difference, RunningGausian Average và Codebook Kết quả mà tác giả thu được từ chương trình thực
nghiệm trên 40 video mẫu từ bộ chuẩn video số Audio Video Interleave (AVI) với
độ chính xác khoảng 80% [8].
Trang 23Nhóm tác giả Trần Thanh Việt đã kết hợp phương pháp Optical Flow vớiphương pháp trích chon mẫu dé phát hiện và theo bám đối tượng di chuyền, nhưng
độ chính xác thu được còn phụ thuộc vào môi trường như độ nhiễu, độ thay đổi ánh
sáng, độ phản chiếu [9]
Tác giả Nguyễn Thành Trung đã đưa ra một phương pháp lai với mục đích
xác định 20 điểm đặc trưng của khuôn mặt Tác giả đã sử dụng các đặc trưng Haarlike để xây dựng bộ luật xác định 6 điểm đặc trưng như hai mống mắt, hai điểm lỗmũi và hai khée miệng Đồng thời, tác giả cũng dùng bộ lọc Gabor kết hợp vớiphương pháp học máy Support Vector Machine (SVM) để xác định 14 điểm đặctrưng còn lại Hệ thống thực nghiệm thu được trên bộ dữ liệu chuân Cohn Kanadevới độ chính xác là 90% cho 6 điểm dựa trên hướng tiếp cận bằng luật, và 66.6%cho 14 điêm còn lại dựa trên đặc trưng Gabor và SVM [10].
Ngoài nước:
Arundhati Das và cộng sự cải tiến các đặc trưng của Haar like kết hợp vớigiải thuật AdaBoost vào hệ thống thực nghiệm của nhóm tác giả Hệ thống được
thực hiện trên Camera của máy tính với độ phân giải 1366x768 trong thời gian
thực Từ video thu hình trực tiếp, một khuôn mặt người thì được phát hiện và đượcđánh dấu những vùng trên khuôn mặt như khuôn mặt, mắt Sự cải tiến của nhóm tác
giả góp phần làm cho hệ thống có thể phát hiện ra khuôn mặt người trong những
điều kiện môi trường phức tạp như sự thay đổi độ sáng tối của khung nền, khuôn
mặt bị che khuất, độ nghiên của khuôn mặt, đeo kính với độ chính xác trung bình
thu được là 80% [11].
Md.Adbur Rahim cùng với nhóm cộng sự đã nghiên cứu phương pháp Local
Binary Patterns cùng với lược đồ Histograms trên ảnh tĩnh xám đề nhận diện khuôn
mặt, khai thác đặc trưng và phân tích đặc trưng Kết quả thực nghiệm của hệ thốngdựa trên sự phân tích hình ảnh khuôn được kiểm tra với những tập ảnh trong cơ sở
dữ liệu với độ chính xác là 100% [12].
Guanglei Sheng va Wenze Li đã nghiên cứu các giải thuật dựa trên các đặc
trưng hình vuông của Haar like trong kỹ thuật phát hiện khuôn mặt Nhóm tác giả
đã chỉnh lại kích thước của tập ảnh huấn luyện của mỗi đặc trưng hình vuông để
Trang 24được phân lớp yếu; chọn những phân lớp yếu đó thực hiện những cải tiến để thu
được những phân lớp mạnh bằng thuật toán AdaBoost Kết quả thực nghiệm củanhóm tác giả cho thấy sự phát hiện có thể nhanh hơn và phát hiện khuôn mặt ngườimột cách chính xác trên hình ảnh tĩnh xám với tỷ lệ chính xác thu được qua quá
trình thực nghiệm là 92.5% [13].
Sự phát hiện mắt người là một phần của khuôn mặt người mà khá nhạy cảm
của sự khác nhau về ánh sáng và cử chỉ đưới điều kiện môi trường phức tạp Đểgiải bài toán xác định vị trí mắt người trong điều kiện môi trường phức tạp: Ping
Zhang và cộng sự đã dựa vào giải thuật Adaboost và thông tin trên tỉ lệ ảnh xám
giải thuật phát hiện mắt của con người Các tiến trình mà nhóm tác giả thực hiệnbốn bước Đầu tiên nhóm tác giả thu thập những mẫu ảnh chứa mắt khác nhau thựchiện căng bằng tỉ lệ xám Từ một cơ sở dữ liệu chọn một số lượng nhỏ đặc trưngHaar like sản xuất ra một phân lớp mạnh và hiệu quả Thứ hai, nhóm tác giả dùngmột phương pháp của tháp phân lớp tạo thành một tháp phân lớp phức tạp hơnnhiều Và sau đó, dùng ngưỡng của tỉ lệ xám làm phương tiện thực hiện tiền xử lý.Cuối cùng là áp dụng một phân lớp thực hiện phát hiện mắt trong phạm vi khuônmặt của con người Kết quả thu được từ thực nghiệm với tỉ lệ nhận dạng là 91%[1].
Nam 2010, Microsoft đã giới thiệu sản phâm Kinect, với Camera RGB — D
với giá rẻ đầu tiên Kèm theo đó, Microsoft cũng đã cung cấp một thư viện cho việcphát hiện người và xương người Tuy nhiên, có thể do độ biến thiên của thước đo
độ sâu khi đối tượng ở quá xa so với camera, thư viện này chỉ phát hiện người khi
họ ở trong khoản cách từ 0.5 đến 4.5m từ camera Đó là lý do và động lực lớn chonhóm tác giả Anh-Tuan Nghiem va Francois Bremond đã dé xuất một giải thuật trừkhung nền đặc biệt dành cho độ sâu của video từ camera RGB-D Được nhúngtrong một bộ thư viện phát hiện người, nó không phải là phân loại đối tượng vàkhung nên tại mức pixel mà cung cấp thông tin hữu ích cho thư viện để khử nhiễu
Độ nhiễu chỉ được khử khi thư viện có tất cả thông tin từ việc trừ khung nên, sự
phân loại và theo vết đối tượng Trong thực nhiệm của nhóm tác giả, giải thuật trừkhung nên vượt trội so với Gaussian Mixture Model (GMM), là một giải thuật trừkhung nên phô biến, trong việc phát hiện người và khử nhiễu Kết quả thực nghiệm
Trang 25của nhóm tác giả có thể vẫn phát hiện người với khoảng cách xa hơn 4.5m với một
ít sai số [15]
E.Rivlin và cộng sự đã mô tả một hệ thống phân tích sự di chuyền của đốitượng Hệ thống được kiểm thử thên một cơ sở dữ liệu lớn hơn 100 chuỗi hình hiểnthị sự đi chuyển của người, vật, xe và cây bằng giải thuật SVM Hệ thống là sự tríchxuất ra những tính năng tĩnh và động của các đối tượng di chuyển và dùng chúng dé
phân loại giữa các đối tượng đã được định nghĩa trước Hệ thống gồm các nội dung
chính: khởi tạo và cập nhật nền, phát hiện và theo vết đối tượng, phân tích đối
tượng là người hay vật [ I6].
Paul Viola và Michael Jones đã nghiên cứu và mô tả cách tiếp cận một hệ
thống máy học dành cho việc phát hiện đối tượng một cách trực quan với khả năng
xử lý ảnh cực kỳ nhanh và đạt được tỉ lệ phát hiện cao Nhóm tác giả đã có những
đóng góp quan trọng cho những công trình nghiên cứu sau này Đầu tiên là nhóm
tác giả đã giới thiệu một thể hiện mới của hình ảnh được gọi là “Integral Image”
(hình ảnh tích phân) cho phép các đặc trưng được sử dụng bởi sự dò tìm của nhóm
tác giả để được tính toán một cách rất nhanh Thứ hai là một giải thuật học, dựa vào
AdaBoost, chọn một số lượng nhỏ các đặc trưng trực quan quan trọng từ một tập
lớn và nâng suất của sự phân lớp cực kỳ hiểu quả Đóng góp thứ ba là một phươngpháp cho sự kết hợp tăng độ phân loại phức tạp hơn trong một tháp (cascade) cái màcho phép vùng nên của hình thì được loại bỏ một cách nhanh chóng dựa vào sự tínhtoán trên những vùng đối tượng triển vọng Nhóm tác giả đã thực hiện ứng dụngtrong thời gian thực, sự dò tìm chạy 15 frames/giây không cần sự sắp xép hình ảnh
hoặc dò theo màu da [17].
1.3 Hướng tiếp cận
Hiện nay có rất nhiều phương pháp phát hiện và nhận dạng đối tượng như:người, xe, vật, Các hướng tiếp cận mà hiện nay các nhà khoa học và các nhà
nghiên cứu đã và đang nghiên cứu như sau:
Hướng tiếp cận dựa vào các đặc trưng cơ bản: Đây là phương pháp dựa vào
các thành phần cơ bản trên khuôn mặt như: mắt, mũi, miệng, màu đa Trong phương
Trang 26pháp này có 2 hướng tiếp cận khác nhau: từ dưới lên (Bottom — up) và từ trên xuống(top — down).
Từ dưới lên (Bottom — up): hướng tiếp cận này có gắng xác định từng đặctrưng và nhóm chúng lại và kiểm tra Phương pháp này có nhược điểm là các đặctrưng sẽ bị ảnh hưởng bởi các yêu tố về chất lượng ảnh và độ sáng tối của ảnh, ưuđiểm là không bị ảnh hưởng bởi hướng xoay và di chuyển của khuôn mặt
Từ trên xuống (top — down): hướng tiếp cận này tạo ra một mẫu về khuôn
mặt theo nhiều chiều như: 2 chiều, 3 chiều, sau đó tìm kiếm trên toàn bộ ảnh để
ghép mẫu đã tạo ra với những thành phan trên ảnh
Hướng tiếp cận dựa trên diện mạo: Đây là hướng tiếp cận dựa vào phân lớpmột bức ảnh với kích thước cố định đó là đối tượng cần nhận dạng hay không.Phương pháp này được sử dụng dé xác định đối tượng cần nhận dạng từ một tập ảnhmẫu được huấn luyện và đã xây dựng sẵn Các bước được thực hiện theo hướng tiếp
cận dựa trên diện mạo như sau:
- Đầu tiên là tạo ra một bộ phân lớp khuôn mặt và không chứa khuôn mặt
- Tiép theo, sử dung một cửa sô có kích thước cố định trên toàn bộ bức
ảnh đầu vào
- Cuối cùng, xử lý các trường hợp phát hiện trùng lặp
- Cac phương pháp dùng phát hiện khuôn mặt
Ngày nay có rất nhiều phương pháp được các nhà khoa học và các nhà
nghiên cứu tìm ra và áp dụng trong các công trình nghiên cứu của mình và là tiền đềcho các nghiên cứu sau này Một số trong những phương pháp phỏ biến và nổi tiếng
đã được các nhà khoa học sử dụng đó là: Adaboost, Support Vector Machine (SVM), mạng Neural, Hidden Mackov Model (HMM), Bayers Các phương pháp
này sẽ được giới thiệu trong phan tiếp theo 1.4
1.4 Các phương pháp liên quan
1.4.1 Phương pháp mạng Neural
Mạng Neural là một mạng lưới các phần tử kết nối với nhau thông qua các
liên kết, mỗi liên kết có một trọng số liên kết Mạng Neural hình thành thông qua
Trang 27quá trình hiệu chỉnh trọng số liên kết giữa các Nơron, hay còn được gọi là tập hợpcác mẫu huấn luyện Mạng Neural được sử dụng nhiều trong các bài toán nhận dạng
ký tự, đối tượng, mặt người Rowley và cộng sự [18] đã sử dụng mang Neural dé
xác định khuôn mặt người.
Theo như Rowley, phương pháp dùng mạng Neural được xem là tối ưu nhấtđối với ảnh xám Phương pháp này sử dụng chủ yếu là để học các mẫu khuôn mặt
và không phải khuôn mặt từ các ảnh tương ứng với cường độ sáng, vị trí trong
không gian của các điểm ảnh Ảnh đầu vào của hệ thống là ảnh màu, nhưng dé giảm
bớt độ phức tạp tính toán ảnh đầu vào của mạn Neural, tập các ảnh cho việc huấnluyện đều là ảnh xám Tập ảnh xám này được xử lý để nâng cao chất lượng độtương phản, làm giảm nhiễu cho histogram, bộ loc, [18]
1.4.2 Phương pháp Support Vector Machine -SVM
Phương pháp Support vector Machine (SVM) là một phương pháp may hoc
mới do Vladimir Vapnik và nhóm nghiên cứu của ông (AT&T Laboratory, USA)
[19] Có thể thấy rằng SVM là phương pháp được huấn luyện theo đa thức, mạngNeural hoặc phân loại hàm co bản xuyên tâm Tuy SVM giải quyết được van dé lập
trình căn bac hai rang buộc tuyến tính nhưng do dạng căn bậc hai thì khá dày đặc và
yêu cầu bộ nhớ luôn phình ra với số lượng hình vuông của các điểm dữ liệu Năm
1997 Robert Freund và cộng sự [20] đã trình bày một phương pháp phân rã điều này
đảm bảo sự tối ưu hoàn toàn, và có thể dùng để huấn luyện SVM trên một tập dữliệu rất lớn Ý tưởng của hướng tiếp cận này là phân nhỏ bài toán và đánh giá các
điều kiện tối ưu mà được dùng dé cải thiện giá trị lặp lại, và cũng thiết lập điều kiện
dừng của giải thuật.
SVM có ưu thế trong việc tính toán hiệu quả trên các tập dit liệu lớn và trênkhông gian nhiều chiều như các bài toán phân loại văn bản, phân tích quan điểm vàđây cũng là nhược điểm của SVM vì trong trường hợp số lượng thuộc tính của tập
dữ liệu lớn hơn rất nhiều so với số lượng dữ liệu thì SVM cho kết quá khá tệ Dochỉ có một tập hợp con của các điểm được sử dụng trong quá trình huấn luyện và ra
quyết định thực tế cho các điểm dữ liệu mới nên chỉ có những điểm cần thiết mới
được lưu trữ trong bộ nhớ khi ra quyết định Khả năng áp dụng Kernel mới cho
Trang 28phép linh động giữa các phương pháp tuyến tính và phi tuyến tính từ đó khiến cho
hiệu suất phận loại lớn và linh hoạt.
1.4.3 Phương pháp mô hình Mackov 4n - Hidden Mackov Model - HMM
HMM là nột tập các mô hình được dùng dé mô tả thuộc tính thống kê củamột tín hiệu HMM cung cấp một nền tảng đơn giản và hiệu quả, hầu như từ điểnlớn hiện nay tiếp tục cho hệ thống nhận dạng giọng nói dựa vào HMM Năm 1993,
Ferdinando Samaria [21] đã sử dụng một kiến trúc mới để mô tả các đặc trưng của
khuôn mặt dựa vào HMM Hình ảnh khuôn mặt thì được phân mảnh một cách tự
động thành những vùng ngang Khuôn mặt được trải ra thành đối tượng hai chiều và
sự phân mảnh thì được thực hiện bởi việc trích xuất thống kê các đặc trưng củakhuôn mặt HMM lọc ra các đặc trưng của khuôn mặt theo quy tắc chuyên tiếp
trạng thái Các vùng đặc trưng cơ bản như trán, mắt, mũi, miệng theo thứ tự từ trên
xuống dưới, mỗi vùng được thiết kế thành một trạng thái một chiều Mỗi ảnh được
phân đoạn thành năm vùng tương ứng với năm trạng thái từ trên xuống Ý tưởngcủa HMM là đầu tiên phải xác định được có bao nhiều trạng thái 4n cho mô hình.Tiếp theo, huấn luyện HMM học theo xác xuất chuyền tiếp giữa các trạng thái từ
các mẫu, các mẫu như một chuỗi các vector quan sát, mỗi vector là một dãy các
điêm ảnh.
Hình 1 1 Các vùng khuôn của khuôn mặt cho 5 vùng từ trái sang phải của HMM
1.4.4 Phương pháp Histogram of Oriented Gradients (HOGs)
HOGs là một giải thuật được dùng dé mô tả đặc trưng trong thị giác máy tính
và xử lý ảnh phục vụ cho mục đích nhận diện đối tượng Mặc dù đã được nghiên
cứu cách đây hàng thập kỷ nhưng ngay nay HOG vẫn còn được nghiên cứu và sử
Trang 29dụng trong các hệ thống ứng dụng nhận diện đối tượng Trong một vài hệ thống, sự
phát hiện khuôn mặt thì bị hạn chế bởi sự ràng buộc của người dùng Hầu hết các hệthống thường kết hợp màu da và kết cấu của khuôn mặt đề xác định vị trí của khuônmặt và dùng hình tháp để cho phép khuôn mặt với nhiều kích thước ảnh khác nhauđược phát hiện Nhóm tác giả đã phát triển bài toán phát hiện khuôn mặt không chỉtrực diện mà còn có thể thực hiện việc phát hiện khuôn mặt tốt và chính xác ở các
gốc quay của khuôn mặt từ +90 độ đến -90 độ, thậm chỉ với khuôn mặt bịt kín một
phần lớn khuôn mặt Năm 2014 Dr.M.Z.Kurian và Rekha N đã thực hiện và thựcnghiệm nghiên cứu của nhóm tác giả tại International Journal of Advanced
Research in Computer Engineering and Technology (IJARCET)[22] Kishor
B.Bhangale và R.U.Shekokar đã kết hop HOG va phân loại tuyến tính mảnh SVM
để phát hiện thân của người (body human) [23]
1.4.5 Phương pháp Adaboost
n nhanh nhấtAdaboost là một phương pháp được đánh giá là hướng tiếp
trong các thuật toán học máy Hướng tiếp cận này được kết hợp với mô hình phânloại tháp — cascade of classifiers để tăng tốc độ phát hiện khuôn mặt trong ảnh Nộidung chính của phương pháp Adaboost là kết hợp các phân loại yếu thành một phânloại mạnh Ý tưởng của phương pháp này là, bộ phân loại yếu tiếp theo sẽ được xây
dựng dựa trên các đánh giá về các bộ phân loại yếu trước đó, cuối cùng các phân
loại yếu sẽ được kết hợp đề trở thành bộ phân loại mạnh Viola và Jones [17] dùng
Adaboost và Casecade để xác định khuôn mặt người kết hợp với các đặc trưng
Haar-like Đề tài trình bày chỉ tiết về cách tiếp cận Adaboost ở chương 2
1.5 Tổng quan về OpenCV
OpenCv' (Open Source Computer Vision) được phat trién tại Intel vào năm 1999
bởi Gary Bradski với mục đích day nhanh trong nghiên cứu va các ứng dụng thươngmại của thị giác máy tính trên thế giới Đối với Intel, nhu cầu việc tạo ra các máy
tính mạnh hơn bởi các ứng dụng như vậy Vadim Pisarevsky là đã gia nhập Gary đê
quản lý đội phần mềm OpenCV người Nga của Intel Theo thời gian, nhóm nghiêncứu OpenCV đã chuyền sang những công ty khác và những nghiên cứu khác Một
" http://openev.org/about.html
Trang 30trong số nhóm ban đầu cuối cùng đã tìm đến Willow Garage Vào năm 2008,
Willow Garage đã thấy được nhu cầu tăng nhanh nâng cao nhận thức của robot mộtcách cới mở, vì thế, Gary và Vadim lại một lần nữa dẫn đầu cho sự thúc đầy toàn bộnghiên cứu và cộng đồng thương mại và bắt đầu hỗ trợ OpenCV
Thu viện có hơn 3000 giải thuật đã được tối uu, bao gồm một sự thiết lập thị giác
máy tính thông minh kể cả cổ điển và hiện đại và các giải thuật máy học Những
giải thuật này có thé được dùng dé phát hiện và nhận dạng khuôn mặt, xác định đốitượng, phân tích những hành động của người trong video, theo vết các di chuyển
trong camera, trích lọc mô hình 3D của đối tượng, phân mảnh ảnh đề cho ra ảnh có
độ phân giải cao hơn của toàn bộ khung ảnh, tìm những hình giống nhau trong cơ sở
dữ liệu ảnh, xóa mắt đỏ trong ảnh khi dùng đèn flash, theo sự di chuyên của mắt,nhận dạng đồ vật,
Cùng với sự thành lập của các công ty lớn như Google, Yahoo, Microsoft, Intel,
IBM, Sony, Honda, Toyota cũng đã dùng thư viện OpenCV cho nhiều sản phẩm
như Applied Minds, VideoSurf, và Zeitera.
Trang 31CHƯƠNG 2: ĐÈ XUẤT PHƯƠNG PHÁP PHÁT HIỆN KHUÔN
MAT - NHAN DIỆN DOI TƯỢNG
2.1 Mô hình ứng dụng E-Dogs
Theo mục tiêu mà để tài đưa ra là nhận diện đối tượng chuyển động Giả
thuyết được đề tài đưa ra là: nếu đối tượng ở xa thiết bị E-Dogs thì hệ thống sẽ pháthiện thân hình của con người va theo vết đối tượng di chuyền Trong trường hợp đối
tượng đang ở vị trí cách với thiết bị E-Dogs khoảng từ 0.5 mét đến 2.5 mét thì hệ
thống sẽ đò tìm khuôn mặt của đối tượng bằng cách tìm đặc trưng của khuôn mặt vàxác định các vị trí đặc trưng, và theo vết khuôn mặt người Để giải quyết bài toán
mà dé tài đã đặt ra, đề tài bao gồm hai nội dung chính:
- Phát hiện khuôn mặt người, theo vết khuôn mặt trong phạm vi ngắn hơn 2.5
mét so với vị trí của thiết bị E-Dogs.
- Phát hiện đối tượng di chuyền trong phạm vi giám sát xa so với vi trí của
thiết bị E-Dogs
Gửi hình ảnh
—-cảnh báo cho Sate DU Wil/36/4G
người sử dung “> DESIG
Trang 32Thiết bị E-Dog phải đáp ứng các yêu cầu như: khả chuyền, dễ cài đặt, tốc độ
xử lý nhanh, nhỏ gọn, tiêu thụ điện năng thấp, chỉ phí phù hợp với phần đông ngườitiêu dùng Việt Nam.
2.2 Đề xuất phương pháp giải quyết bài toán phát hiện khuôn mặt người
Dựa trên cơ sở lý thuyết đã tìm hiểu ở nội dung chương 1 Đề tài đề xuấtphương pháp phát hiện khuôn mặt theo hướng tiếp cận dựa vào diện mạo, giải thuật
cụ thể là Adaboost kết hợp với các đặc trưng Haar like Adaboost là một thuật toán
được cải tiến từ thuật toán Boosting, ý tưởng chính của Adaboost là kết hợp cácphân loại yếu dé xây dựng bộ phân loại mạnh
Như đã giới thiệu ở nội dung chương | mục 1.4.4 Adaboost được viết tắt bởicụm từ Adaptive Boost là một bộ phân loại mạnh phi tuyến phức tạp dựa trênhướng tiếp cận Boosting được Freud và cộng sự [22] thực hiện vào năm 1996.Adaboost hoạt động trên nguyên tắc kết hợp tuyến tính các phân loại yếu dựa trêncác đặc trưng Haar-like để hình hình một phân loại mạnh Để có thể kết hợp các bộphân loại yếu, Adaboost sử dụng một trọng số để đánh dấu các mẫu nhận dạng.Trong quá trình huấn luyện, cứ mỗi bộ phân loại yếu được xây dựng thì trọng sốđược cập nhật lại để làm cơ sở cho việc xây dựng các mẫu bộ phân loại yếu tiếptheo Trọng số của bộ phân loại yếu sẽ càng trở nên lớn hơn trước đó đề hệ thống có
thể tập trung vào các phân loại yếu đó, sau nhiều lần huấn luyện các phân loại yếu
sẽ kết hợp với nhau theo mức độ tốt để tạo thành phân loại mạnh
Trang 33Viola và cộng sự [17] cũng đã sử dụng AdaBoost kết hợp với Haar-like theo
Hình 2 2Mô hình các bộ phân loại yếu dé xác định khuôn mặt
Các phân loại yếu được biểu diễn với công thức:
1 nếu p,fu(x) < pp Ox (2.1)
nếu ngược lại
moo = {5
Trong do:
- x: cửa số con cần xét (x= xI, x2, , xn) là vector đặc trưng của mẫu
- ƒ#: là giá trị đặc trưng Haar-like
- pg: là hệ số quyết định chiều của phương trình
- Oy: ngưỡng
Trang 34Mỗi bộ phân loại yếu sẽ quyết định kết quả cho một đặc trưng Haar-like,
được xác định ngưỡng đủ nhỏ sao cho có thể vượt qua được các mẫu ảnh trong tậphuấn luyện Trong quá trình phát hiện mặt người, mỗi vùng ảnh con sẽ được kiểm
tra với các đặc trưng trong chuỗi các đặc trưng Haar-like, nếu kết quả cho ra là
khuôn mặt người thì quá trình phát hiện khuôn mặt sẽ dừng lại Các đặc trưng
Haar-like được xét theo quy tắc là dựa vào các trọng số của đặc trưng đó, Adaboost sẽ
quyết định số lần và thứ tự xuất hiện của các đặc trưng Haar-like
Để huấn luyện bộ phát hiện Adaboost, một tập huấn luyện các ảnh khuôn
mặt và không khuôn mặt được đề tài xây dựng bởi sự giúp đỡ của các tình nguyệnviên Tập huấn luyện khuôn mặt của đề tài là 1776 ảnh khuôn mặt Với mỗi ảnh, đềtài chọn vùng ảnh chứa khuôn mặt trong ảnh và nén hình lại về độ phân giải 24x24pixcel.
phuclbmp phuc2bmp phuc3.bmp phúetbmp phucSbmp phucSbmp tanhibmp tanh2bmp tanh3bmp tanh4bmp
tanh6bmp tanhZbmp tanh8bmp tanhlQbm tbanglbm tbang2bm tbangibm thangibm tbang6bm tbang7bm
tu2bmp tulbmp tu4bmp tu5bmp vinhLbmp vinh2bmp vih3bmp vinh4bmp vinhĩbmp vinh6bmp
Hình 2 3 Một trong số ảnh được lấy ra từ tập ảnh mẫu
Trang 35IMG_4721.bmp IMG.A728bmp IMG AT752.mp
IMG.757bmp IMG.4765bmp IMG.4766bmp IMG.4768.bmp neg, 0002(1.6mp
Ỷ | =
neg Tibmp neg 115tbmp neg 1i8Ibmp neg!180bmp vanban bmp
Hình 2 4 Một số mẫu không chứa khuôn mặt
Tập các ảnh huấn luyện không có khuôn mặt sử dụng để huấn luyện bộ
Adaboost được tạo từ 300 ảnh mà không chứa bất kỳ khuôn mặt nào Để xây dựng
cơ sở dữ liệu mẫu, dé tài sử dụng thư biện mã nguồn mỡ OpenCV
Thuật toán Adabooost:
Trang 36Đầu vào: chuỗi các mẫu ảnh (x:,V¡) 1 (Xa, Yo)
Với y„€ Y =(1, ,n}
WeakLearn: Giải thuật học phân lớp yêu
T: vòng lặp lặp T lần (T là một số nguyên) [1] Khởi tạo trọng số: D¿(k) = 1/n cho tất cả k (2.2)
(5] Tinh sai số của hy :
eị = 3 €/ŒÖ[h¿(xy # y4)] (2.4)
Hai (x) = arg vở Dialogs) (h(x =y)] (2.8)
Hình 2 5 Giải thuật Adaboost [17]
Trang 37Quá trình huấn luyện bộ phân loại được thực hiện bằng một vòng lặp mà ởmỗi bước lặp thuật toán sẽ chọn ra một phân loại yếu h, thực hiện việc phân loại với
sai số e nhỏ nhất đề bổ sung vào phân loại mạnh Mỗi khi chọn được một phân loại
h, Adaboost sẽ tinh giá trị e¿ theo công thức (2.4).
Công thức (2.4) cho thấy hệ số €& thể hiện mức quan trọng của h, Theo công
thức phân loại của H(x), mức độ đóng góp của tất cả các bộ phân loại của h, phụ
thuộc vào giá trị e; tương ứng; h, với e, càng lớn thì nó càng có vai trò quan trong
trong H(x).
Trong công thức (2.6), giá trị của e; tỉ lệ nghịch với ø¿ Bởi vì h, được chọn
với tiêu chí đặt e; nhỏ nhất, do đó nó sẽ đảm bảo giá trị e, lớn nhất
Sau khi tính được e, Adaboost thực hiện việc cập nhật lại trọng số của cácmẫu bằng cách tăng trọng số các mẫu mà h, phân loại sai, giảm trọng số các mẫu mà
h, phân loại đúng Điều này cho thấy, trọng sé của mẫu phan ánh mức độ khó nhậndang của mẫu đó và h, + 1 sẽ ưu tiên học phân loại với các trong số có giá trị lớn
Vòng lặp xây dựng phân loại mạnh sẽ dừng lại sau T lần lặp Nhưng trongthực tế thì thư viện OpenCV của Intel ít khi sử dụng giá trị T vì không bảo đảmđược tính tối ưu trong quá trình huấn luyện Đổi lại, giá trị tỷ lệ nhận dang sai tối đa(max false alarm) được sử dụng để xây dựng phân loại mạnh Tỷ lệ của phân loạiđang xây dựng không được lớn hơn tỷ lệ nhận dạng sai tối đa này Vì thế, qua quátrình lặp, tỷ lệ nhận dạng sai của phân loại mạnh tại lân lặp thứ t sẽ giảm dần chođến khi nhỏ hơn tỷ lệ nhận dạng sai tối đa thì vòng lặp sẽ kết thúc, cho ra phân loạimạnh.
2.2.1 Các đặc trưng Haar-like
Viola và cộng sự [17] sử dung bốn đặc trưng cơ bản để xác định khuôn mặtngười Mỗi đặc trưng Haar-like là sự kết hợp các hình vuông lại với nhau:
Trang 38Hình 2 6 Các đặc trưng Haar-like cơ bản
Từ bốn đặc trưng cơ bản trên, không thê xác định khuôn mặt với đặc trưngphức tạp nên Viola đã mở rộng thêm các đặc trưng như:
a) Đặc trưng cạnh — edge feature:
tno
Hinh 2 7 Dac trung canh
b) Đặc trưng đường — line feature:
| BEE oe
Hinh 2 8 Dac trung duong
©) Đặc trưng xung quanh tâm — center surround feature:
Hình 2 9 Đặc trưng xung quanh tâm
Trang 39Giá i các đặc trưng Haar-like là sự chênh lệch giữa tông pixcel den vàpixcel trắng được tính với công thức như sau:
F(x) = tổng vùng pixcel đen — tổng vùng pixcel trắng (2.9)
Ta có thé thay rằng, dé tinh các giá trị của đặc trưng Haar-like, ta phải tínhtổng các vùng pixcel trên ảnh nhưng chỉ phí khá lớn Vì thế, Viola và cộng sự đãđưa ra một khái niệm là Integral Image và đưa thêm khái niệm Rotated SummedArea Table (RSAT) dùng để tính toán nhanh các đặc trưng xoay một góc 45 độ.Integral Image là một mảng hai chiều với kích thước bằng với kích thước của ảnh
cần tính các đặc trưng Haar-like, với mỗi phần tử của mãng được tính bằng cách
tổng của điểm ảnh phía trên — dòng 1 và bên trái — cột 1 Bắt đầu từ vị trí trên, bêntrái đến vị trí dưới, phải của ảnh, việc tính toán này chỉ đơn giản là cộng các sốnguyên nên tốc độ tính nhanh
(0,0)
Poy) = Ux'sxy'sy UX’)
(2.10)
Poy)
Hình 2 10 Công thức tinh Integral Image của ảnh
Để tính tổng giá trị pixcel trong vùng ảnh cần tính, ta dựa vào kết quả của
Integral Image như sau:
Trang 40Poss Ny = Py + Py— Py— Py
Hình 2 11 Cách tính tổng giá trị pixcel vùng anh can tính
2.2.2 Tháp phân loại — Casecade of Classifiers
Nhu đã phân tích, quá trình huấn luyện, bộ phân loại duyệt qua tất cả các đặctrưng của mẫu trong tập huấn luyện Công việc này tốn rất nhiều thời gian vì thế
casecade of classifiers được xây dựng nhằm rút ngắn thời gian xử lý, giảm tỷ lệ
nhận dang sai cho bộ phân loại Cây casecade gồm nhiều stage, mỗi stage là mộtstage phân loại Một mẫu đề được phân loại xem có phải là đối tượng cần được xác
định không thì nó cần phải đi qua hết tất cả các stages của cây Các bộ phân loại
stage ở stage sau được huấn luyện bằng những mẫu không có đối tượng cần tìm màstage phân loại trước nó nhận dạng sai, thì nó sẽ tập trung học từ các mẫu khungnền khó hơn, do đó sự kết hợp các stage phân loại này sẽ giúp bộ phân loại có stagesai đầu tiên, đáp ứng tốt nhất đối với độ phức tạp tăng lên của các mẫu đưa vào,
đồng thời rút ngắn thời gian xử lý
đoạn 3
Mô hình minh họa huấn luyện Casecade, ở mỗi phân lớp yếu tương ứng sẽ thu được kết quả ở
phân lớp đó với độ chính xác H, và tỷ lệ nhận diện sai fy
Hình 2 12 Lược đồ minh họa thuật toán huấn luyện Casecade