HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG
Vương Thị Thúy Vân
PHÁT HIỆN NGƯỜI ĐI BỘ TRÊN ĐƯỜNG PHÔ
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
TÓM TÁT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2015
Trang 2Người hướng dẫn khoa học: Tiến sĩ Phạm Văn Cường
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3CHƯƠNG 1: TONG QUAN
1.1 Đặt van đề
Trong thời dai hiện nay, công nghệ thông tin đóng vai trò quan trọng trong rat nhiều lĩnh vực khoa học công nghệ và ứng dụng trong đời sống Cùng với sự phát triển của công nghệ
thông tin, công nghệ nhận dạng hình anh được nghiên cứu và ngày càng trở nên phổ biến.
Chúng ta đã quen thuộc với những thiết bị đa phương tiện được tích hợp công nghệ nhận diện
hình ảnh (nhận diện con người, nhận diện khuôn mặt, nụ cười, nhận diện ánh mắt ) Phát hiện
người đi bộ trên đường là một trong số đó.
Phát hiện người đi bộ là một vấn đề quan trọng trong học máy, với rất nhiều ứng dụng bao gồm người máy, hệ giám sát và an toàn tự động Phát hiện người đi bộ là một ứng dụng thiết yêu và vô cùng quan trong trong bat cứ hệ thống giám sát thông mình nào, vì nó cung cấp các thông tin cơ bản cho sự hiểu biết về ngữ nghĩa của các đoạn video Khả năng mở rộng của phát hiện người đi bộ rất lớn, có tiền năng trong các ứng dụng tự động dé cải thiện hệ thống an
Con người đóng vai trò trung tâm, quan trọng nhất trong môi trường; các nghiên cứu về lĩnh vực thị giác máy tính (computer vision) nghiên cứu về các vấn đề làm sao cho máy tính có
thé “hiểu” được môi trường xung quanh, bao gồm: nhận biết đối tượng, nhận biết con người và
các tương tác giữa con người Trong đó phát hiện và theo dõi người là một trong những lĩnh
vực nghiên cứu quan trọng, các ứng dụng dựa trên phát hiện người đi đường bao gồm: robot, giải trí, giám sát tự động, hệ thống chăm sóc người già và tan tật, an toàn giao thông v.v
Theo các khảo sát gần đây tại Mỹ, có gần 5000 trong 35000 trường hợp tử vong do tai
nan giao thông liên quan tới người di bộ Tình trang giao thông ở Việt Nam thậm chi còn phức
tạp hơn khi hệ thống cơ sở hạ tầng chưa phát triển, cùng với đó, ý thức của người tham gia giao thông còn chưa cao Theo thống kê của Ủy ban an toàn giao thông Quốc gia Việt Nam, hàng năm nước ta có hơn 14% số người đi bộ thiệt mạng trong tổng số người tử vong do tai nạn giao thông đường bộ nói chung Thống kê trong năm 2014 cho thấy, trên toàn quốc xảy ra 25322 vụ
tai nạn, làm chết 8996 người, bị thương 24417 người Do đó, nghiên cứu vấn đề tự động phát hiện người đi bộ trên đường phố là một trong những vấn đề được quan tâm.
Trang 4Vấn đề phát hiện người đi bộ đã thu hút sự quan tâm của những nhà nghiên cứu về vấn đề học máy trong một vai năm gan day Mot số kĩ thuật đã được dé xuất với các về tính năng, mô hình và kiến trúc chung Tuy nhiên kết quả đạt được đối với mỗi kĩ thuật có hiệu quả khác
nhau và thường khó có thể áp dụng trực tiếp để phát hiện người đi bộ trong tình hình giao
thông ở Việt Nam.
1.2 Các nghiên cứu trước đây
1.2.1 Holistic detection (Nhận dạng toàn bộ)
Các chương trình máy tính phát hiện được huấn luyện dé tìm kiếm người đi bộ trong các khung hình video bằng cách quét toàn bộ khung hình Chương trình máy tính phát hiện sẽ thông báo nếu như tính năng phát hiện hình ảnh bên trong của khung hình bắt gặp hình ảnh tương ứng Một vài phương pháp sử dụng các tính năng toàn diện như cạnh mẫu [1], một vào phương pháp khác sử dụng các tính năng cơ bản như lược đồ có hướng gradient [2] Hạn chế của phương pháp này là kết quả nhận diện của nó có thê dễ
dàng bị ảnh hưởng khi nền ảnh có nhiều nhiễu và các điểm bị che khuất.
1.2.2 Part-based detection (Nhận dang dựa trên thành phan)
Người đi bộ được mô hình hóa thành tập nhiều bộ phận Bộ phận giả lập được tạo nên ban đầu bằng cách học các đặc điểm của người thật, trong đó bao gồm các định
hướng của đặc điểm [3] Những bộ phận giả lập Mặc dù phương pháp này rất được các
nhà nghiên cứu quan tâm, tuy nhiên bản thân nhận dạng dựa trên thành phần đã là một phương pháp khó Việc cài đặt phương pháp này theo sau đó là một quy trình chuẩn với các tiến trình với các dit liệu hình ảnh bao gồm tạo một mẫu tam giác các hình ảnh động, tính toán các đặc điểm với từng tỉ lệ, thực hiện phân lớp tat cả các địa điểm có thê và cuối cùng là sử dụng giải thuật non-maximum supression để sinh ra tập các khung cuối cùng
1.2.3 Patch-based detection (Nhận dạng dua trên cum/nhém)
Gần đây Leibe [5] dé xuất một phương pháp kết hợp cả hai phương pháp nhận dạng và phân đoạn ảnh với cái tên Implicit Shape Model (ISM) Một codebook xuất hiện
ban dau được học trong suốt quá trình huấn luyện Trong quá trình phát hiện, các đặc điểm
được lây ra ban dau được sử dụng dé phù hợp với các mô tả của codebook, va moi một đặc
Trang 5điểm phù hợp sẽ là một đặc điểm nhận dạng cho người đi bộ giả lập Cuối cùng kết quả phát hiện thu được bang cách làm mịn những giả lập đó Lợi ích của phương pháp này là chỉ yêu cầu tương đối ít ảnh huấn luyện.
1.2.4 Motion-based detection (Nhận dang dựa trên chuyển động)
Khi các điều kiện khách quan cho phép (camera cé định, điều kiện ánh sáng cho
phép ) phương pháp trừ nền có thé sử dụng dé phát hiện người đi bộ Các điểm ảnh được phân loại trừ nền của mỗi video của mỗi khung hình mà không phát hiện chuyên động hoặc phía sau, nơi phát hiện chuyển động Quá trình này đánh dấu các bóng đen (những
thành phần kết nối của ảnh nền) của tat cả những vật thé trong ảnh, kể cả con người Một
thuật toán được phát triển tại đại học Lidege, dé phân tích những bong den dé phat hién hình dang con người Vi phương pháp này sử dung toàn bộ bóng dé thực hiện nhận dạng, nên nó thường phụ thuộc nhiều vào những sai khác nhỏ về hình dáng Một số phương pháp khác sử dụng cách phân tích bóng thành những phần nhỏ khác nhau đã được đưa ra dé giảm bớt ảnh hưởng của những sai khác này Ngược lại với các phương pháp dựa trên bộ phận khác, phương pháp này không có bất cứ ý nghĩa về giải phẫu học nào Thuật toán này đã được mở rộng đến phạm vi phát hiện người trong không gian video 3D.[6]
1.2.5 Detection using multiple camera (Nhận dạng đa nguồn)
Fleuret [7] để xuất một phương pháp nhận dạng đa nguồn được điều chỉnh để phát hiện nhiều người đi bộ Trong phương pháp này, một chiếc máy bay được chia thành một thé thống nhất, bao gồm các 6 lưới không chồng lên nhưng với kích cỡ thông
thường là 25x25cm Các chương trình máy tính phát hiện tạo ra một Provabilitu
Occupancy Map (POM), nó cung cấp một ước lượng của xác suất mỗi ô lưới được xác định bởi một người Với 2 — 4 luồng video đồng bộ thực hiện trong tam mắt và từ nhiều góc độ khác nhau, phương pháp này có thé kết hợp hiệu quả với một mô hình được tao ra với lập trình động để theo dõi chính xác sáu cá thể độc lập trong hàng ngàn khung hình xác định bị che khuất và ánh sáng thay đổi Nó cũng có thé xác định được quỹ đạo chính
xác của một trong sô đó.
1.3 Phạm vi và các giả định
Đôi tượng nghiên cứu gôm:
Trang 6— Phát hiện người đi đường trên đường phố bằng việc phân tích ảnh từ camera; Về phạm vi nghiên cứu:
— Phương pháp phát hiện người bang phân tích và xử lý anh số được chụp (captured) từ camera của điện thoại trong điều kiện ánh sáng ban ngày
— Một số phương pháp phát hiện người đi đường — Phạm vi thử nghiệm là một số tuyến phố
Trang 7CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN NGƯỜI ĐI BỘ TRÊN
ĐƯỜNG PHÓ
2.1.Phân đoạn và xử lý ảnh
2.1.1 Phân đoạn ảnh bằng thuật toán K-means
Thuật toán K-means do MacQuean đề xuất trong lĩnh vực thống kê năm 1967.
Thuật toán k-mean là thuật toán gom cụm lặp đơn giản Nó phân mảnh tập dữ liệu cho
trước thành k cụm, giá trị k do người dùng xác định Thuật toán dễ thực hiện, thi hành nhanh, dễ thích nghỉ và phổ biến trong thực tế.
K-Mean là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm Tư tưởng chính của thuật toán K-Mean là tim cách phân nhóm các đối tượng đã cho vào K cụm (K là số các cụm được xác định trước và K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm của nhóm đạt được là nhỏ nhất.
Bài toán phân cụm dữ liệu trong thuật toán K-mean:
Cho tập các điểm D = {Xị, X¿, , Xn},
Trong đó x; = (Xị, Xịa, , x„) là một vector có r chiêu trong không gian RỶ, var là
một số thuộc tính của tập dit liệu D.
Giải thuật K-Mean phân cụm dữ liệu dựa trên khoảng cách Euclidean nhỏ nhất giữa đối tượng đến phần tử trung tâm của các nhóm.
Khoảng cách EuclideanTa giả sử:
Xj = (Xi, Xi2, , Xịy) - đối tượng thứ 1 cần phân phân loại, (i=1 n)
Cj = (Ci, Cja, , Cir) - phan tử trung tam nhóm j (j=1 k)
Khoảng cách Euclidean từ đối tượng a; đến Cj (phan tử trung tâm nhóm j)
được tính toán dựa trên công thức:
Trang 8Trong đó:
6,,- khoảng cách Euclidean từ a; đến Cj
x;, - thuộc tính thứ s của đối tượng x;
Xj” thuộc tinh thứ s của phan tử trung tâm Cj
Phan tử trung tâm của nhóm được xác định bang giá trị trung bình các phan tử
trong nhóm.
Phân tử trung tâm
k phần tử trung tâm (k nhóm) ban đầu được chọn ngẫu nhiên, sau mỗi lần nhóm các đôi tượng vào các nhóm, phan tử trung tâm được tính toán lại.
Cluster;{Xị, Xa, , X,} — Nhóm thứ 1
i=l k, k số số nhóm cần phân chùm; j= l r, r số thuộc tính
t - số phan tử hiện có của nhóm thứ I; x, - thuộc tính thứ j của phần trs s=l t
cy - toa độ thứ J của phan tử trung tâm nhóm i;
Giải thuật K- mean:
Bước 1: Chọn ngẫu nhiên K tâm (centroid) cho K cum (cluster) Mỗi cụm được
đại diện băng các tâm của cụm.
Bước 2: Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng
khoảng cách Euclidean)
Bước 3: Nhóm các đôi tượng vào nhóm gân nhât
Bước 4: Xác định lại tâm mới cho các nhóm
Trang 9Bước 5: Thực hiện lại bước 2 cho đến khi không có sự thay đôi nhóm nao của các
đối tượng
Phân đoạn ảnh là bước đầu tiên trong quá trình xử lý ảnh Quá trình này thực hiện
phân vùng ảnh thành các vùng rời rạc và đồng nhất với nhau, nó chính là việc xác định các biên của các vùng ảnh đó Mỗi vùng gồm một nhóm điểm ảnh liên thông hoặc đồng
nhất theo một tiêu chí lựa chọn như màu sắc, hình dạng, kết cấu, Sau khi phân đoạn mỗi điểm ảnh chỉ thuộc về một vùng duy nhất Những vùng ảnh đồng nhất này thông
thường sẽ tương ứng với toàn bộ hay từng phần của các đối tượng thật sự có trong ảnh.
Gia sử màu sac bê mặt của các đôi tượng trong ảnh là một thuộc tính không đôi vàmau sac đó được ánh xạ vào một không gian 2 chiêu và màu Khi đó áp dụng giải thuậtphân cụm K-mean cho việc xác định các cum màu, môi cum màu có tập các diém ảnh
tương tự nhau.
Khi áp dụng thuật toán Kmean cho phân vùng ảnh, có những đối tượng không liên quan có trong khung hình cần được loại bỏ Ví dụ một điểm ngoại lai theo hình minh họa
Trang 10(Những cụm lý tưởng: Những cụm được gom lại đã loại trừ được điểm ngoại lai —
điểm ngoại lai: điểm không liên quan tới đối tượng nhận dạng vô tình xuất hiện trong
Do đó, một ngưỡng t; được chỉ định cho mỗi lớp huấn luyên người di bộ fj Các thông số thuật toán (tức là ngưỡng) được xác định băng tay như là kết quả của một thủ
tục hợp lệ qua 4 nhóm trên một elip trong khoảng giữa các thử nghiệm và các hình ảnh
người di bộ huấn luyện Một thuật toán nhận dạng người đi bộ như vậy là đơn giản, nhưng đủ nhanh dé phân lớp hình anh theo thời gian thực Một người đi bộ phù hợp nếu
khoảng cách ngắn nhất trong k hình ảnh gần nhất lớn hơn một ngưỡng cho các lớp huấn
luyện người đi bộ, nếu không, f; bị từ chối (tức là phân lớp như là một người đi bộ không
Trong tập thử nghiệm trong luận văn, ta sthiết lập k=2 dé đánh giá hệ thống nhận
dạng trên tập dữ liệu tự thu thập: k= 2 nghĩa là phan cụm dữ liệu ra làm 2 cum (clusters):có người di bộ (pedestrian) va không có người di bộ (non-pedestrian) Việc sử dụng k = 2
cũng khiến cho thuật toán phân cụm k-means thực hiện nhanh hơn, có ý nghĩa lớn trong việc cài đặt hệ thống nhận dạng thời gian thực (real-time).
2.1.2 Tiền xử lý
Dé việc nhận dang anh chi tập trung vào đúng đối tượng quan tâm là người đi bộ Ta cần loại bỏ những đối tượng không liên quan tới nhận dạng như phông nền xung quanh đối tượng quan tâm: bầu trời, đường bộ, các loại phương tiện giao thông, cây cối Để có thé tăng cường chất lượng ảnh, bước tiền xử ly là bước đầu tiên nhằm loại bỏ nhiễu, khắc phục những khiếm khuyết trong bước thu nhận ảnh chưa được tốt là một bước quan trọng Luận văn đưa ra ba phương pháp đề thực hiện tiền xử lý: phương pháp lọc tương phan (contrast filtering), circular head filtering và lọc đối xứng (symmetry
Phan tich va trich chon dac trung2.2.1 Dac trung SURF
Đặc trưng SURF (Speeded Up Robust Feature) — Đặc trưng nhận dang nhanh là
một phương pháp mô tả và nhận dang những điểm tiêu biểu không đổi về tỉ lệ - góc độ.
Trang 11Phương pháp này tương đương, thậm chí tốt hơn những phương pháp khác về khả năng lặp lại, dễ phân biệt, sự chính xác cao và tốc độ tính toán nhanh hơn Đề có kết quả này,
toàn bộ ảnh được sử dụng cho việc nhận dạng và xây dựng dựa trên các bộ nhận dạng.
Việc nhận dạng những điểm tương tự giữa hai bức ảnh của một cảnh hoặc một vật
duy nhất là thành phần rất quan trọng của nhiều ứng dụng thị giác máy Tĩnh chỉnh máy
ảnh, dựng 3D, đăng kí ảnh và nhận dạng vật thé là những ứng dụng tiêu biểu Các bước
để xác định sự tương đồng này được thực hiện qua các bước chính Đầu tiên, một số điểm đặc trưng sẽ được lựa chọn ra trong ảnh, ví dụ như các điểm ở góc, ở cạnh và các điểm kết nối Tính năng quan trọng nhất của bộ xác định điểm này là tính ôn định, bộ xác
định này phải chỉ ra được những điểm đặc trưng trong nhiều điều kiện khác nhau Tiếp
theo, vùng phụ cận của những điểm này được biểu diễn bằng một vector đặc trưng Những bộ mô tả này phải mô tả được những đặc trưng cơ bản đồng thời lọc bỏ được những nhiễu, sai số hay những biến đổi về hình dáng hay màu sắc Cuối cùng những vector mô tả sẽ được so sánh trong những bức ảnh khác nhau Sự kiểm định so sánh này
thường được tính toán dựa vào khoảng cách giữa các vector theo công thức Euclidean
hoặc Mahalanobis Số chiều của vector này có ảnh hưởng trực tiếp đến thời gian tính toán này, do vậy, số chiều này càng nhỏ sẽ càng cải thiện được thời gian tính toán.
Với các đặc trưng cơ bản, việc đầu tiên cần xử lý là xác định mức độ bất biến của chúng Điều này phụ thuộc vào những biến dạng về hình dáng, màu sắc do sự thay đổi của góc nhìn Ta sẽ tập trung hơn đến những bộ nhận dạng, mô tả sử dụn các đặc trưng về tỉ lệ, góc xoay Chúng có kết quả tốt, hài hòa giữa độ phức tạp của đặc trưng và khả năng chống lại những biến đổi thường xảy ra Các hiệu ứng làm co kéo, dan, biến đổi tỉ lệ do góc nhìn, khung nhìn cũng được xử lý bố sung bằng những bộ nhận dạng này.
2.2.2 Bộ nhận dạng nhanh Hessian
Ta sẽ sử dụng bộ nhận dạng dựa trên ma trận Hessian bởi hiệu năng tínhtoán và mức độ tính toán của chúng Tuy nhiên thay vì sử dụng các phương pháp
khác nhau để lựa chọn vị trí và tỉ lệ của ảnh (sử dụng toán tử Laplace trên Hessian),
ta sẽ chỉ sử dung Hessian cho cả 2.
Với một điểm định trước x = (x,y) trong ảnh, ma trận Hessian H(x,o) ở điểm x với tỷ lệ o sẽ được định nghĩa như sau:
Trang 12os Dw (X, a) Lay (x a)
Hx, 6) = Ley(x, 7) Lyy(x, ø)
Với L„„(x,ø) là tích chập của đạo hàm bậc 2 Gaussian của anh ở điểm x, tương tự như vậy L,, và Lyy cũng là những đạo hàm bậc 2 theo các biến tương
ứng Phương pháp Gauss là phương pháp tối ưu dé phân tích vùng tỉ lệ Tuy nhiên
trong thực tế, Gaussian cần được rời rạc hóa và cắt bớt, dù vậy, sự phân mảnh vẫn diễn ra do ảnh kết quả đã được lay mẫu giảm đi (về độ phân giải) Việc giảm bớt độ phân giải ảnh không làm xuất hiện thêm bắt kì cầu trúc nào mới đã được chứng minh trong các trường hợp 1D, nhưng nó không thé áp dụng với các trường hợp
2D Do vậy độ quan trọng của Gauss dường như đã được đánh giá quá mức, ta chỉ
cần kiểm tra theo cách đơn giản hơn Do bộ lọc Gauss không tối ưu với bất kì trường hợp nào, cùng sự thành công của Lowe với phương pháp xấp xi LoG (tính Laplacian của ham Gaussian), ta sẽ áp dụng bộ lọc hộp tương đối Việc tính toán tương đối của đạo hàm Gauss bậc 2 có thé được thực hiện rất nhanh bằng cách sử dụng ảnh tích phân không phụ thuộc kích cỡ Chất lượng của nó có thể thấy trong
hình dưới đây, hiệu qua của phương pháp nay tương đương với phương phapGauss roi rac.
Hình 2.4: Ma trận dao hàm cấp 2 Gauss
Ma trận 9x9 ở hình là đạo hàm cấp 2 Gauss với ti lệ bằng 1.2 là thấp nhất.
Ta chứng minh sự tương đối bằng D,,, Dyy và Dyy Trọng số được áp dụng cho các vùng hình chữ nhật được giữ đơn giản nhất có thé dé tối ưu hiệu năng tính toán Tuy nhiên ta cũng cần cân bang giữa các trọng số tương đối trong biểu diễn của
Hessian với:
Trang 13(Lzu(1.2)Ir|Dzz(9)lE — nịc ~ ac
Lee 2DpiD.,(9p = 0-912 > 0.9
Trong đó |x|, là định mức Frobenius Công thức nay cho kết qua:
Hơn nữa, kết quả của bộ lọc được chuẩn hóa theo kích cỡ của mặt để đảm bảo định mức Frobenius là không đổi.
Không gian tỉ lệ thường được cài đặt như một kim tự tháp ảnh Các ảnh
được làm min với Gauss va sau đó được lấy mẫu xuống để đạt được một mức cao hơn (trong kim tự tháp) Với tính chất của bộ lọc khung và ảnh tích phân, ta có thể áp dụng trực tiếp phương pháp với bất kì cỡ nào trên ảnh gốc mà không cần áp
dụng với ảnh ở mức trước (thậm chí chạy song song) mà không làm tăng thời gian
chạy Bởi vậy, không gian tỉ lệ được kiểm tra bằng cách tăng dần cỡ lọc thay vì giảm dần kích cỡ ảnh Kết quả bộ lọc 9x9 ở trên sẽ được được sử dụng là lớp tỉ lệ đầu tiên, ta sẽ gọi nó là tỉ lệ s = 1.2 (Tương ứng với đạo hàm Gauss với o = 12) Các lớp sau đó được xây dựng bằng các thực hiện lọc với các tỉ lệ lớn hơn theo đặc tính rời rạc của các ảnh tích phân và cấu trúc của bộ lọc Các lớp này sẽ được lọc
với các bộ lọc kích cỡ 9x9, 15x15, 21x21, 27x27 Với mức độ lớn hơn, bước nhảy
của kích cỡ cũng sẽ tăng lên tương ứng Với mỗi giai đoạn, bước tăng kích cỡ của
bộ lọc sẽ tăng lên gấp đôi Cùng lúc với nó, tần số lấy mẫu sẽ chọn ra các điểm đặc
Do tỉ lệ của bộ lọc là không đổi sau mỗi lần điều chỉnh, đạo hàm tương đôi Gauss cũng thay đổi tương ứng, ví dụ bộ lọc 27x27 sẽ cho kết quả tương đương với o = 3x1.2 = 3.6 = s Hơn nữa định mức Frobenios không đổi cho bất kì bộ lọc nào do chúng đã được chuẩn hóa.
Để có thể cục bộ hóa các điểm trên ảnh, ta thực hiện lược bỏ các điểm
không tối ưu ở quanh đó trong khoảng 3x3x3 Định thức tối ưu của ma trận
Hessian sẽ được nội suy theo tỉ lệ và không gian ảnh với phương pháp được giới
thiệu bởi Brown [] Việc nội suy không gian tỉ lệ là tối quan trọng với SURF do sai