Tuy nhiên kết quả đạt được đối với mỗi kĩ thuật có hiệu quả khác nhau và thường khó có thể áp dụng trực tiếp để phát hiện người đi bộ trong tình hình giao thông ở Việt Nam.. Holistic det
Trang 1HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG
Vương Thị Thúy Vân
PHÁT HIỆN NGƯỜI ĐI BỘ TRÊN ĐƯỜNG PHÔ
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
TÓM TÁT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2015
Trang 2Người hướng dẫn khoa học: Tiến sĩ Phạm Văn Cường
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3CHƯƠNG 1: TONG QUAN
1.1 Đặt van đề
Trong thời dai hiện nay, công nghệ thông tin đóng vai trò quan trọng trong rat nhiều lĩnhvực khoa học công nghệ và ứng dụng trong đời sống Cùng với sự phát triển của công nghệ
thông tin, công nghệ nhận dạng hình anh được nghiên cứu và ngày càng trở nên phổ biến
Chúng ta đã quen thuộc với những thiết bị đa phương tiện được tích hợp công nghệ nhận diện
hình ảnh (nhận diện con người, nhận diện khuôn mặt, nụ cười, nhận diện ánh mắt ) Phát hiện
người đi bộ trên đường là một trong số đó
Phát hiện người đi bộ là một vấn đề quan trọng trong học máy, với rất nhiều ứng dụngbao gồm người máy, hệ giám sát và an toàn tự động Phát hiện người đi bộ là một ứng dụngthiết yêu và vô cùng quan trong trong bat cứ hệ thống giám sát thông mình nào, vì nó cung cấpcác thông tin cơ bản cho sự hiểu biết về ngữ nghĩa của các đoạn video Khả năng mở rộng củaphát hiện người đi bộ rất lớn, có tiền năng trong các ứng dụng tự động dé cải thiện hệ thống an
toàn.
Con người đóng vai trò trung tâm, quan trọng nhất trong môi trường; các nghiên cứu vềlĩnh vực thị giác máy tính (computer vision) nghiên cứu về các vấn đề làm sao cho máy tính có
thé “hiểu” được môi trường xung quanh, bao gồm: nhận biết đối tượng, nhận biết con người và
các tương tác giữa con người Trong đó phát hiện và theo dõi người là một trong những lĩnh
vực nghiên cứu quan trọng, các ứng dụng dựa trên phát hiện người đi đường bao gồm: robot,giải trí, giám sát tự động, hệ thống chăm sóc người già và tan tật, an toàn giao thông v.v
Theo các khảo sát gần đây tại Mỹ, có gần 5000 trong 35000 trường hợp tử vong do tai
nan giao thông liên quan tới người di bộ Tình trang giao thông ở Việt Nam thậm chi còn phức
tạp hơn khi hệ thống cơ sở hạ tầng chưa phát triển, cùng với đó, ý thức của người tham gia giaothông còn chưa cao Theo thống kê của Ủy ban an toàn giao thông Quốc gia Việt Nam, hàngnăm nước ta có hơn 14% số người đi bộ thiệt mạng trong tổng số người tử vong do tai nạn giaothông đường bộ nói chung Thống kê trong năm 2014 cho thấy, trên toàn quốc xảy ra 25322 vụtai nạn, làm chết 8996 người, bị thương 24417 người Do đó, nghiên cứu vấn đề tự động pháthiện người đi bộ trên đường phố là một trong những vấn đề được quan tâm
Trang 4Vấn đề phát hiện người đi bộ đã thu hút sự quan tâm của những nhà nghiên cứu về vấn
đề học máy trong một vai năm gan day Mot số kĩ thuật đã được dé xuất với các về tính năng,
mô hình và kiến trúc chung Tuy nhiên kết quả đạt được đối với mỗi kĩ thuật có hiệu quả khác
nhau và thường khó có thể áp dụng trực tiếp để phát hiện người đi bộ trong tình hình giao
thông ở Việt Nam.
1.2 Các nghiên cứu trước đây
1.2.1 Holistic detection (Nhận dạng toàn bộ)
Các chương trình máy tính phát hiện được huấn luyện dé tìm kiếm người đi bộtrong các khung hình video bằng cách quét toàn bộ khung hình Chương trình máy tínhphát hiện sẽ thông báo nếu như tính năng phát hiện hình ảnh bên trong của khung hìnhbắt gặp hình ảnh tương ứng Một vài phương pháp sử dụng các tính năng toàn diện nhưcạnh mẫu [1], một vào phương pháp khác sử dụng các tính năng cơ bản như lược đồ cóhướng gradient [2] Hạn chế của phương pháp này là kết quả nhận diện của nó có thê dễdàng bị ảnh hưởng khi nền ảnh có nhiều nhiễu và các điểm bị che khuất
1.2.2 Part-based detection (Nhận dang dựa trên thành phan)
Người đi bộ được mô hình hóa thành tập nhiều bộ phận Bộ phận giả lập được tạonên ban đầu bằng cách học các đặc điểm của người thật, trong đó bao gồm các định
hướng của đặc điểm [3] Những bộ phận giả lập Mặc dù phương pháp này rất được các
nhà nghiên cứu quan tâm, tuy nhiên bản thân nhận dạng dựa trên thành phần đã là mộtphương pháp khó Việc cài đặt phương pháp này theo sau đó là một quy trình chuẩn vớicác tiến trình với các dit liệu hình ảnh bao gồm tạo một mẫu tam giác các hình ảnh động,tính toán các đặc điểm với từng tỉ lệ, thực hiện phân lớp tat cả các địa điểm có thê và cuốicùng là sử dụng giải thuật non-maximum supression để sinh ra tập các khung cuối cùng
[4].
1.2.3 Patch-based detection (Nhận dạng dua trên cum/nhém)
Gần đây Leibe [5] dé xuất một phương pháp kết hợp cả hai phương pháp nhận dạng và phân đoạn ảnh với cái tên Implicit Shape Model (ISM) Một codebook xuất hiện
ban dau được học trong suốt quá trình huấn luyện Trong quá trình phát hiện, các đặc điểm
được lây ra ban dau được sử dụng dé phù hợp với các mô tả của codebook, va moi một đặc
Trang 5điểm phù hợp sẽ là một đặc điểm nhận dạng cho người đi bộ giả lập Cuối cùng kết quảphát hiện thu được bang cách làm mịn những giả lập đó Lợi ích của phương pháp này làchỉ yêu cầu tương đối ít ảnh huấn luyện.
1.2.4 Motion-based detection (Nhận dang dựa trên chuyển động)
Khi các điều kiện khách quan cho phép (camera cé định, điều kiện ánh sáng cho
phép ) phương pháp trừ nền có thé sử dụng dé phát hiện người đi bộ Các điểm ảnh đượcphân loại trừ nền của mỗi video của mỗi khung hình mà không phát hiện chuyên độnghoặc phía sau, nơi phát hiện chuyển động Quá trình này đánh dấu các bóng đen (những
thành phần kết nối của ảnh nền) của tat cả những vật thé trong ảnh, kể cả con người Một
thuật toán được phát triển tại đại học Lidege, dé phân tích những bong den dé phat hiénhình dang con người Vi phương pháp này sử dung toàn bộ bóng dé thực hiện nhận dạng,nên nó thường phụ thuộc nhiều vào những sai khác nhỏ về hình dáng Một số phươngpháp khác sử dụng cách phân tích bóng thành những phần nhỏ khác nhau đã được đưa ra
dé giảm bớt ảnh hưởng của những sai khác này Ngược lại với các phương pháp dựa trên
bộ phận khác, phương pháp này không có bất cứ ý nghĩa về giải phẫu học nào Thuậttoán này đã được mở rộng đến phạm vi phát hiện người trong không gian video 3D.[6]
1.2.5 Detection using multiple camera (Nhận dạng đa nguồn)
Fleuret [7] để xuất một phương pháp nhận dạng đa nguồn được điều chỉnh đểphát hiện nhiều người đi bộ Trong phương pháp này, một chiếc máy bay được chiathành một thé thống nhất, bao gồm các 6 lưới không chồng lên nhưng với kích cỡ thông
thường là 25x25cm Các chương trình máy tính phát hiện tạo ra một Provabilitu
Occupancy Map (POM), nó cung cấp một ước lượng của xác suất mỗi ô lưới được xácđịnh bởi một người Với 2 — 4 luồng video đồng bộ thực hiện trong tam mắt và từ nhiềugóc độ khác nhau, phương pháp này có thé kết hợp hiệu quả với một mô hình được tao ravới lập trình động để theo dõi chính xác sáu cá thể độc lập trong hàng ngàn khung hìnhxác định bị che khuất và ánh sáng thay đổi Nó cũng có thé xác định được quỹ đạo chính
xác của một trong sô đó.
1.3 Phạm vi và các giả định
Đôi tượng nghiên cứu gôm:
Trang 6— Phát hiện người đi đường trên đường phố bằng việc phân tích ảnh từ camera;
Về phạm vi nghiên cứu:
— Phương pháp phát hiện người bang phân tích và xử lý anh số được chụp
(captured) từ camera của điện thoại trong điều kiện ánh sáng ban ngày
— Một số phương pháp phát hiện người đi đường
— Phạm vi thử nghiệm là một số tuyến phố
Trang 7CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN NGƯỜI ĐI BỘ TRÊN
ĐƯỜNG PHÓ
2.1 Phân đoạn và xử lý ảnh
2.1.1 Phân đoạn ảnh bằng thuật toán K-means
Thuật toán K-means do MacQuean đề xuất trong lĩnh vực thống kê năm 1967
Thuật toán k-mean là thuật toán gom cụm lặp đơn giản Nó phân mảnh tập dữ liệu cho
trước thành k cụm, giá trị k do người dùng xác định Thuật toán dễ thực hiện, thi hànhnhanh, dễ thích nghỉ và phổ biến trong thực tế
K-Mean là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phâncụm Tư tưởng chính của thuật toán K-Mean là tim cách phân nhóm các đối tượng đã chovào K cụm (K là số các cụm được xác định trước và K nguyên dương) sao cho tổng bìnhphương khoảng cách giữa các đối tượng đến tâm của nhóm đạt được là nhỏ nhất
Bài toán phân cụm dữ liệu trong thuật toán K-mean:
Cho tập các điểm D = {Xị, X¿, , Xn},
Trong đó x; = (Xị, Xịa, , x„) là một vector có r chiêu trong không gian RỶ, var là
một số thuộc tính của tập dit liệu D
Giải thuật K-Mean phân cụm dữ liệu dựa trên khoảng cách Euclidean nhỏ nhấtgiữa đối tượng đến phần tử trung tâm của các nhóm
Khoảng cách Euclidean
Ta giả sử:
Xj = (Xi, Xi2, , Xịy) - đối tượng thứ 1 cần phân phân loại, (i=1 n)
Cj = (Ci, Cja, , Cir) - phan tử trung tam nhóm j (j=1 k)
Khoảng cách Euclidean từ đối tượng a; đến Cj (phan tử trung tâm nhóm j)
được tính toán dựa trên công thức:
Trang 8Trong đó:
6,,- khoảng cách Euclidean từ a; đến Cj
ji
x;, - thuộc tính thứ s của đối tượng x;
Xj” thuộc tinh thứ s của phan tử trung tâm Cj
Phan tử trung tâm của nhóm được xác định bang giá trị trung bình các phan tử
trong nhóm.
Phân tử trung tâm
k phần tử trung tâm (k nhóm) ban đầu được chọn ngẫu nhiên, sau mỗi lần nhómcác đôi tượng vào các nhóm, phan tử trung tâm được tính toán lại
Cluster;{Xị, Xa, , X,} — Nhóm thứ 1
i=l k, k số số nhóm cần phân chùm; j= l r, r số thuộc tính
t - số phan tử hiện có của nhóm thứ I; x, - thuộc tính thứ j của phần trs s=l t
cy - toa độ thứ J của phan tử trung tâm nhóm i;
(2.2)
Giải thuật K- mean:
Bước 1: Chọn ngẫu nhiên K tâm (centroid) cho K cum (cluster) Mỗi cụm được
đại diện băng các tâm của cụm.
Bước 2: Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng
khoảng cách Euclidean)
Bước 3: Nhóm các đôi tượng vào nhóm gân nhât
Bước 4: Xác định lại tâm mới cho các nhóm
Trang 9Bước 5: Thực hiện lại bước 2 cho đến khi không có sự thay đôi nhóm nao của các
đối tượng
Phân đoạn ảnh là bước đầu tiên trong quá trình xử lý ảnh Quá trình này thực hiện
phân vùng ảnh thành các vùng rời rạc và đồng nhất với nhau, nó chính là việc xác định các biên của các vùng ảnh đó Mỗi vùng gồm một nhóm điểm ảnh liên thông hoặc đồng
nhất theo một tiêu chí lựa chọn như màu sắc, hình dạng, kết cấu, Sau khi phân đoạnmỗi điểm ảnh chỉ thuộc về một vùng duy nhất Những vùng ảnh đồng nhất này thông
thường sẽ tương ứng với toàn bộ hay từng phần của các đối tượng thật sự có trong ảnh.
Gia sử màu sac bê mặt của các đôi tượng trong ảnh là một thuộc tính không đôi và mau sac đó được ánh xạ vào một không gian 2 chiêu và màu Khi đó áp dụng giải thuật phân cụm K-mean cho việc xác định các cum màu, môi cum màu có tập các diém ảnh
Trang 10(Những cụm lý tưởng: Những cụm được gom lại đã loại trừ được điểm ngoại lai —
điểm ngoại lai: điểm không liên quan tới đối tượng nhận dạng vô tình xuất hiện trong
hình.)
Do đó, một ngưỡng t; được chỉ định cho mỗi lớp huấn luyên người di bộ fj Cácthông số thuật toán (tức là ngưỡng) được xác định băng tay như là kết quả của một thủ
tục hợp lệ qua 4 nhóm trên một elip trong khoảng giữa các thử nghiệm và các hình ảnh
người di bộ huấn luyện Một thuật toán nhận dạng người đi bộ như vậy là đơn giản,nhưng đủ nhanh dé phân lớp hình anh theo thời gian thực Một người đi bộ phù hợp nếu
khoảng cách ngắn nhất trong k hình ảnh gần nhất lớn hơn một ngưỡng cho các lớp huấn
luyện người đi bộ, nếu không, f; bị từ chối (tức là phân lớp như là một người đi bộ không
rõ).
Trong tập thử nghiệm trong luận văn, ta sthiết lập k=2 dé đánh giá hệ thống nhận
dạng trên tập dữ liệu tự thu thập: k= 2 nghĩa là phan cụm dữ liệu ra làm 2 cum (clusters):
có người di bộ (pedestrian) va không có người di bộ (non-pedestrian) Việc sử dụng k = 2
cũng khiến cho thuật toán phân cụm k-means thực hiện nhanh hơn, có ý nghĩa lớn trongviệc cài đặt hệ thống nhận dạng thời gian thực (real-time)
2.1.2 Tiền xử lý
Dé việc nhận dang anh chi tập trung vào đúng đối tượng quan tâm là người đi bộ
Ta cần loại bỏ những đối tượng không liên quan tới nhận dạng như phông nền xungquanh đối tượng quan tâm: bầu trời, đường bộ, các loại phương tiện giao thông, cây cối
Để có thé tăng cường chất lượng ảnh, bước tiền xử ly là bước đầu tiên nhằm loại bỏnhiễu, khắc phục những khiếm khuyết trong bước thu nhận ảnh chưa được tốt là mộtbước quan trọng Luận văn đưa ra ba phương pháp đề thực hiện tiền xử lý: phương pháplọc tương phan (contrast filtering), circular head filtering và lọc đối xứng (symmetry
filtering).
Phan tich va trich chon dac trung 2.2.1 Dac trung SURF
Đặc trưng SURF (Speeded Up Robust Feature) — Đặc trưng nhận dang nhanh là
một phương pháp mô tả và nhận dang những điểm tiêu biểu không đổi về tỉ lệ - góc độ
Trang 11Phương pháp này tương đương, thậm chí tốt hơn những phương pháp khác về khả nănglặp lại, dễ phân biệt, sự chính xác cao và tốc độ tính toán nhanh hơn Đề có kết quả này,
toàn bộ ảnh được sử dụng cho việc nhận dạng và xây dựng dựa trên các bộ nhận dạng.
Việc nhận dạng những điểm tương tự giữa hai bức ảnh của một cảnh hoặc một vật
duy nhất là thành phần rất quan trọng của nhiều ứng dụng thị giác máy Tĩnh chỉnh máy
ảnh, dựng 3D, đăng kí ảnh và nhận dạng vật thé là những ứng dụng tiêu biểu Các bước
để xác định sự tương đồng này được thực hiện qua các bước chính Đầu tiên, một sốđiểm đặc trưng sẽ được lựa chọn ra trong ảnh, ví dụ như các điểm ở góc, ở cạnh và cácđiểm kết nối Tính năng quan trọng nhất của bộ xác định điểm này là tính ôn định, bộ xác
định này phải chỉ ra được những điểm đặc trưng trong nhiều điều kiện khác nhau Tiếp
theo, vùng phụ cận của những điểm này được biểu diễn bằng một vector đặc trưng.Những bộ mô tả này phải mô tả được những đặc trưng cơ bản đồng thời lọc bỏ đượcnhững nhiễu, sai số hay những biến đổi về hình dáng hay màu sắc Cuối cùng nhữngvector mô tả sẽ được so sánh trong những bức ảnh khác nhau Sự kiểm định so sánh này
thường được tính toán dựa vào khoảng cách giữa các vector theo công thức Euclidean
hoặc Mahalanobis Số chiều của vector này có ảnh hưởng trực tiếp đến thời gian tínhtoán này, do vậy, số chiều này càng nhỏ sẽ càng cải thiện được thời gian tính toán
Với các đặc trưng cơ bản, việc đầu tiên cần xử lý là xác định mức độ bất biến củachúng Điều này phụ thuộc vào những biến dạng về hình dáng, màu sắc do sự thay đổicủa góc nhìn Ta sẽ tập trung hơn đến những bộ nhận dạng, mô tả sử dụn các đặc trưng
về tỉ lệ, góc xoay Chúng có kết quả tốt, hài hòa giữa độ phức tạp của đặc trưng và khảnăng chống lại những biến đổi thường xảy ra Các hiệu ứng làm co kéo, dan, biến đổi tỉ lệ
do góc nhìn, khung nhìn cũng được xử lý bố sung bằng những bộ nhận dạng này
2.2.2 Bộ nhận dạng nhanh Hessian
Ta sẽ sử dụng bộ nhận dạng dựa trên ma trận Hessian bởi hiệu năng tính toán và mức độ tính toán của chúng Tuy nhiên thay vì sử dụng các phương pháp
khác nhau để lựa chọn vị trí và tỉ lệ của ảnh (sử dụng toán tử Laplace trên Hessian),
ta sẽ chỉ sử dung Hessian cho cả 2.
Với một điểm định trước x = (x,y) trong ảnh, ma trận Hessian H(x,o) ởđiểm x với tỷ lệ o sẽ được định nghĩa như sau:
Trang 12ứng Phương pháp Gauss là phương pháp tối ưu dé phân tích vùng tỉ lệ Tuy nhiên
trong thực tế, Gaussian cần được rời rạc hóa và cắt bớt, dù vậy, sự phân mảnh vẫndiễn ra do ảnh kết quả đã được lay mẫu giảm đi (về độ phân giải) Việc giảm bớt
độ phân giải ảnh không làm xuất hiện thêm bắt kì cầu trúc nào mới đã được chứngminh trong các trường hợp 1D, nhưng nó không thé áp dụng với các trường hợp
2D Do vậy độ quan trọng của Gauss dường như đã được đánh giá quá mức, ta chỉ
cần kiểm tra theo cách đơn giản hơn Do bộ lọc Gauss không tối ưu với bất kìtrường hợp nào, cùng sự thành công của Lowe với phương pháp xấp xi LoG (tínhLaplacian của ham Gaussian), ta sẽ áp dụng bộ lọc hộp tương đối Việc tính toántương đối của đạo hàm Gauss bậc 2 có thé được thực hiện rất nhanh bằng cách sửdụng ảnh tích phân không phụ thuộc kích cỡ Chất lượng của nó có thể thấy trong
hình dưới đây, hiệu qua của phương pháp nay tương đương với phương phap Gauss roi rac.
Hình 2.4: Ma trận dao hàm cấp 2 Gauss
Ma trận 9x9 ở hình là đạo hàm cấp 2 Gauss với ti lệ bằng 1.2 là thấp nhất
Ta chứng minh sự tương đối bằng D,,, Dyy và Dyy Trọng số được áp dụng cho cácvùng hình chữ nhật được giữ đơn giản nhất có thé dé tối ưu hiệu năng tính toán.Tuy nhiên ta cũng cần cân bang giữa các trọng số tương đối trong biểu diễn của
Hessian với:
Trang 13(Lzu(1.2)Ir|Dzz(9)lE — nịc ~ ac
Lee 2DpiD.,(9p = 0-912 > 0.9
Trong đó |x|, là định mức Frobenius Công thức nay cho kết qua:
Hơn nữa, kết quả của bộ lọc được chuẩn hóa theo kích cỡ của mặt để đảmbảo định mức Frobenius là không đổi
Không gian tỉ lệ thường được cài đặt như một kim tự tháp ảnh Các ảnh
được làm min với Gauss va sau đó được lấy mẫu xuống để đạt được một mức caohơn (trong kim tự tháp) Với tính chất của bộ lọc khung và ảnh tích phân, ta có thể
áp dụng trực tiếp phương pháp với bất kì cỡ nào trên ảnh gốc mà không cần áp
dụng với ảnh ở mức trước (thậm chí chạy song song) mà không làm tăng thời gian
chạy Bởi vậy, không gian tỉ lệ được kiểm tra bằng cách tăng dần cỡ lọc thay vìgiảm dần kích cỡ ảnh Kết quả bộ lọc 9x9 ở trên sẽ được được sử dụng là lớp tỉ lệđầu tiên, ta sẽ gọi nó là tỉ lệ s = 1.2 (Tương ứng với đạo hàm Gauss với o = 12).Các lớp sau đó được xây dựng bằng các thực hiện lọc với các tỉ lệ lớn hơn theo đặctính rời rạc của các ảnh tích phân và cấu trúc của bộ lọc Các lớp này sẽ được lọc
với các bộ lọc kích cỡ 9x9, 15x15, 21x21, 27x27 Với mức độ lớn hơn, bước nhảy
của kích cỡ cũng sẽ tăng lên tương ứng Với mỗi giai đoạn, bước tăng kích cỡ của
bộ lọc sẽ tăng lên gấp đôi Cùng lúc với nó, tần số lấy mẫu sẽ chọn ra các điểm đặc
trưng.
Do tỉ lệ của bộ lọc là không đổi sau mỗi lần điều chỉnh, đạo hàm tương đôiGauss cũng thay đổi tương ứng, ví dụ bộ lọc 27x27 sẽ cho kết quả tương đương với
o = 3x1.2 = 3.6 = s Hơn nữa định mức Frobenios không đổi cho bất kì bộ lọc nào
do chúng đã được chuẩn hóa
Để có thể cục bộ hóa các điểm trên ảnh, ta thực hiện lược bỏ các điểm
không tối ưu ở quanh đó trong khoảng 3x3x3 Định thức tối ưu của ma trận
Hessian sẽ được nội suy theo tỉ lệ và không gian ảnh với phương pháp được giới
thiệu bởi Brown [] Việc nội suy không gian tỉ lệ là tối quan trọng với SURF do sai