Phát Hiện Người Đi Bộ Trên Đường Phố

Tuy nhiên kết quả đạt được đối với mỗi kĩ thuật có hiệu quả khác nhau và thường khó có thể áp dụng trực tiếp để phát hiện người đi bộ trong tình hình giao thông ở Việt Nam.. Holistic det

Trang 1

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG

Vương Thị Thúy Vân

PHÁT HIỆN NGƯỜI ĐI BỘ TRÊN ĐƯỜNG PHÔ

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01.01

TÓM TÁT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2015

Trang 2

Người hướng dẫn khoa học: Tiến sĩ Phạm Văn Cường

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

CHƯƠNG 1: TONG QUAN

1.1 Đặt van đề

Trong thời dai hiện nay, công nghệ thông tin đóng vai trò quan trọng trong rat nhiều lĩnhvực khoa học công nghệ và ứng dụng trong đời sống Cùng với sự phát triển của công nghệ

thông tin, công nghệ nhận dạng hình anh được nghiên cứu và ngày càng trở nên phổ biến

Chúng ta đã quen thuộc với những thiết bị đa phương tiện được tích hợp công nghệ nhận diện

hình ảnh (nhận diện con người, nhận diện khuôn mặt, nụ cười, nhận diện ánh mắt ) Phát hiện

người đi bộ trên đường là một trong số đó

Phát hiện người đi bộ là một vấn đề quan trọng trong học máy, với rất nhiều ứng dụngbao gồm người máy, hệ giám sát và an toàn tự động Phát hiện người đi bộ là một ứng dụngthiết yêu và vô cùng quan trong trong bat cứ hệ thống giám sát thông mình nào, vì nó cung cấpcác thông tin cơ bản cho sự hiểu biết về ngữ nghĩa của các đoạn video Khả năng mở rộng củaphát hiện người đi bộ rất lớn, có tiền năng trong các ứng dụng tự động dé cải thiện hệ thống an

toàn.

Con người đóng vai trò trung tâm, quan trọng nhất trong môi trường; các nghiên cứu vềlĩnh vực thị giác máy tính (computer vision) nghiên cứu về các vấn đề làm sao cho máy tính có

thé “hiểu” được môi trường xung quanh, bao gồm: nhận biết đối tượng, nhận biết con người và

các tương tác giữa con người Trong đó phát hiện và theo dõi người là một trong những lĩnh

vực nghiên cứu quan trọng, các ứng dụng dựa trên phát hiện người đi đường bao gồm: robot,giải trí, giám sát tự động, hệ thống chăm sóc người già và tan tật, an toàn giao thông v.v

Theo các khảo sát gần đây tại Mỹ, có gần 5000 trong 35000 trường hợp tử vong do tai

nan giao thông liên quan tới người di bộ Tình trang giao thông ở Việt Nam thậm chi còn phức

tạp hơn khi hệ thống cơ sở hạ tầng chưa phát triển, cùng với đó, ý thức của người tham gia giaothông còn chưa cao Theo thống kê của Ủy ban an toàn giao thông Quốc gia Việt Nam, hàngnăm nước ta có hơn 14% số người đi bộ thiệt mạng trong tổng số người tử vong do tai nạn giaothông đường bộ nói chung Thống kê trong năm 2014 cho thấy, trên toàn quốc xảy ra 25322 vụtai nạn, làm chết 8996 người, bị thương 24417 người Do đó, nghiên cứu vấn đề tự động pháthiện người đi bộ trên đường phố là một trong những vấn đề được quan tâm

Trang 4

Vấn đề phát hiện người đi bộ đã thu hút sự quan tâm của những nhà nghiên cứu về vấn

đề học máy trong một vai năm gan day Mot số kĩ thuật đã được dé xuất với các về tính năng,

mô hình và kiến trúc chung Tuy nhiên kết quả đạt được đối với mỗi kĩ thuật có hiệu quả khác

nhau và thường khó có thể áp dụng trực tiếp để phát hiện người đi bộ trong tình hình giao

thông ở Việt Nam.

1.2 Các nghiên cứu trước đây

1.2.1 Holistic detection (Nhận dạng toàn bộ)

Các chương trình máy tính phát hiện được huấn luyện dé tìm kiếm người đi bộtrong các khung hình video bằng cách quét toàn bộ khung hình Chương trình máy tínhphát hiện sẽ thông báo nếu như tính năng phát hiện hình ảnh bên trong của khung hìnhbắt gặp hình ảnh tương ứng Một vài phương pháp sử dụng các tính năng toàn diện nhưcạnh mẫu [1], một vào phương pháp khác sử dụng các tính năng cơ bản như lược đồ cóhướng gradient [2] Hạn chế của phương pháp này là kết quả nhận diện của nó có thê dễdàng bị ảnh hưởng khi nền ảnh có nhiều nhiễu và các điểm bị che khuất

1.2.2 Part-based detection (Nhận dang dựa trên thành phan)

Người đi bộ được mô hình hóa thành tập nhiều bộ phận Bộ phận giả lập được tạonên ban đầu bằng cách học các đặc điểm của người thật, trong đó bao gồm các định

hướng của đặc điểm [3] Những bộ phận giả lập Mặc dù phương pháp này rất được các

nhà nghiên cứu quan tâm, tuy nhiên bản thân nhận dạng dựa trên thành phần đã là mộtphương pháp khó Việc cài đặt phương pháp này theo sau đó là một quy trình chuẩn vớicác tiến trình với các dit liệu hình ảnh bao gồm tạo một mẫu tam giác các hình ảnh động,tính toán các đặc điểm với từng tỉ lệ, thực hiện phân lớp tat cả các địa điểm có thê và cuốicùng là sử dụng giải thuật non-maximum supression để sinh ra tập các khung cuối cùng

[4].

1.2.3 Patch-based detection (Nhận dạng dua trên cum/nhém)

Gần đây Leibe [5] dé xuất một phương pháp kết hợp cả hai phương pháp nhận dạng và phân đoạn ảnh với cái tên Implicit Shape Model (ISM) Một codebook xuất hiện

ban dau được học trong suốt quá trình huấn luyện Trong quá trình phát hiện, các đặc điểm

được lây ra ban dau được sử dụng dé phù hợp với các mô tả của codebook, va moi một đặc

Trang 5

điểm phù hợp sẽ là một đặc điểm nhận dạng cho người đi bộ giả lập Cuối cùng kết quảphát hiện thu được bang cách làm mịn những giả lập đó Lợi ích của phương pháp này làchỉ yêu cầu tương đối ít ảnh huấn luyện.

1.2.4 Motion-based detection (Nhận dang dựa trên chuyển động)

Khi các điều kiện khách quan cho phép (camera cé định, điều kiện ánh sáng cho

phép ) phương pháp trừ nền có thé sử dụng dé phát hiện người đi bộ Các điểm ảnh đượcphân loại trừ nền của mỗi video của mỗi khung hình mà không phát hiện chuyên độnghoặc phía sau, nơi phát hiện chuyển động Quá trình này đánh dấu các bóng đen (những

thành phần kết nối của ảnh nền) của tat cả những vật thé trong ảnh, kể cả con người Một

thuật toán được phát triển tại đại học Lidege, dé phân tích những bong den dé phat hiénhình dang con người Vi phương pháp này sử dung toàn bộ bóng dé thực hiện nhận dạng,nên nó thường phụ thuộc nhiều vào những sai khác nhỏ về hình dáng Một số phươngpháp khác sử dụng cách phân tích bóng thành những phần nhỏ khác nhau đã được đưa ra

dé giảm bớt ảnh hưởng của những sai khác này Ngược lại với các phương pháp dựa trên

bộ phận khác, phương pháp này không có bất cứ ý nghĩa về giải phẫu học nào Thuậttoán này đã được mở rộng đến phạm vi phát hiện người trong không gian video 3D.[6]

1.2.5 Detection using multiple camera (Nhận dạng đa nguồn)

Fleuret [7] để xuất một phương pháp nhận dạng đa nguồn được điều chỉnh đểphát hiện nhiều người đi bộ Trong phương pháp này, một chiếc máy bay được chiathành một thé thống nhất, bao gồm các 6 lưới không chồng lên nhưng với kích cỡ thông

thường là 25x25cm Các chương trình máy tính phát hiện tạo ra một Provabilitu

Occupancy Map (POM), nó cung cấp một ước lượng của xác suất mỗi ô lưới được xácđịnh bởi một người Với 2 — 4 luồng video đồng bộ thực hiện trong tam mắt và từ nhiềugóc độ khác nhau, phương pháp này có thé kết hợp hiệu quả với một mô hình được tao ravới lập trình động để theo dõi chính xác sáu cá thể độc lập trong hàng ngàn khung hìnhxác định bị che khuất và ánh sáng thay đổi Nó cũng có thé xác định được quỹ đạo chính

xác của một trong sô đó.

1.3 Phạm vi và các giả định

Đôi tượng nghiên cứu gôm:

Trang 6

— Phát hiện người đi đường trên đường phố bằng việc phân tích ảnh từ camera;

Về phạm vi nghiên cứu:

— Phương pháp phát hiện người bang phân tích và xử lý anh số được chụp

(captured) từ camera của điện thoại trong điều kiện ánh sáng ban ngày

— Một số phương pháp phát hiện người đi đường

— Phạm vi thử nghiệm là một số tuyến phố

Trang 7

CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN NGƯỜI ĐI BỘ TRÊN

ĐƯỜNG PHÓ

2.1 Phân đoạn và xử lý ảnh

2.1.1 Phân đoạn ảnh bằng thuật toán K-means

Thuật toán K-means do MacQuean đề xuất trong lĩnh vực thống kê năm 1967

Thuật toán k-mean là thuật toán gom cụm lặp đơn giản Nó phân mảnh tập dữ liệu cho

trước thành k cụm, giá trị k do người dùng xác định Thuật toán dễ thực hiện, thi hànhnhanh, dễ thích nghỉ và phổ biến trong thực tế

K-Mean là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phâncụm Tư tưởng chính của thuật toán K-Mean là tim cách phân nhóm các đối tượng đã chovào K cụm (K là số các cụm được xác định trước và K nguyên dương) sao cho tổng bìnhphương khoảng cách giữa các đối tượng đến tâm của nhóm đạt được là nhỏ nhất

Bài toán phân cụm dữ liệu trong thuật toán K-mean:

Cho tập các điểm D = {Xị, X¿, , Xn},

Trong đó x; = (Xị, Xịa, , x„) là một vector có r chiêu trong không gian RỶ, var là

một số thuộc tính của tập dit liệu D

Giải thuật K-Mean phân cụm dữ liệu dựa trên khoảng cách Euclidean nhỏ nhấtgiữa đối tượng đến phần tử trung tâm của các nhóm

Khoảng cách Euclidean

Ta giả sử:

Xj = (Xi, Xi2, , Xịy) - đối tượng thứ 1 cần phân phân loại, (i=1 n)

Cj = (Ci, Cja, , Cir) - phan tử trung tam nhóm j (j=1 k)

Khoảng cách Euclidean từ đối tượng a; đến Cj (phan tử trung tâm nhóm j)

được tính toán dựa trên công thức:

Trang 8

Trong đó:

6,,- khoảng cách Euclidean từ a; đến Cj

ji

x;, - thuộc tính thứ s của đối tượng x;

Xj” thuộc tinh thứ s của phan tử trung tâm Cj

Phan tử trung tâm của nhóm được xác định bang giá trị trung bình các phan tử

trong nhóm.

Phân tử trung tâm

k phần tử trung tâm (k nhóm) ban đầu được chọn ngẫu nhiên, sau mỗi lần nhómcác đôi tượng vào các nhóm, phan tử trung tâm được tính toán lại

Cluster;{Xị, Xa, , X,} — Nhóm thứ 1

i=l k, k số số nhóm cần phân chùm; j= l r, r số thuộc tính

t - số phan tử hiện có của nhóm thứ I; x, - thuộc tính thứ j của phần trs s=l t

cy - toa độ thứ J của phan tử trung tâm nhóm i;

(2.2)

Giải thuật K- mean:

Bước 1: Chọn ngẫu nhiên K tâm (centroid) cho K cum (cluster) Mỗi cụm được

đại diện băng các tâm của cụm.

Bước 2: Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng

khoảng cách Euclidean)

Bước 3: Nhóm các đôi tượng vào nhóm gân nhât

Bước 4: Xác định lại tâm mới cho các nhóm

Trang 9

Bước 5: Thực hiện lại bước 2 cho đến khi không có sự thay đôi nhóm nao của các

đối tượng

Phân đoạn ảnh là bước đầu tiên trong quá trình xử lý ảnh Quá trình này thực hiện

phân vùng ảnh thành các vùng rời rạc và đồng nhất với nhau, nó chính là việc xác định các biên của các vùng ảnh đó Mỗi vùng gồm một nhóm điểm ảnh liên thông hoặc đồng

nhất theo một tiêu chí lựa chọn như màu sắc, hình dạng, kết cấu, Sau khi phân đoạnmỗi điểm ảnh chỉ thuộc về một vùng duy nhất Những vùng ảnh đồng nhất này thông

thường sẽ tương ứng với toàn bộ hay từng phần của các đối tượng thật sự có trong ảnh.

Gia sử màu sac bê mặt của các đôi tượng trong ảnh là một thuộc tính không đôi và mau sac đó được ánh xạ vào một không gian 2 chiêu và màu Khi đó áp dụng giải thuật phân cụm K-mean cho việc xác định các cum màu, môi cum màu có tập các diém ảnh

Trang 10

(Những cụm lý tưởng: Những cụm được gom lại đã loại trừ được điểm ngoại lai —

điểm ngoại lai: điểm không liên quan tới đối tượng nhận dạng vô tình xuất hiện trong

hình.)

Do đó, một ngưỡng t; được chỉ định cho mỗi lớp huấn luyên người di bộ fj Cácthông số thuật toán (tức là ngưỡng) được xác định băng tay như là kết quả của một thủ

tục hợp lệ qua 4 nhóm trên một elip trong khoảng giữa các thử nghiệm và các hình ảnh

người di bộ huấn luyện Một thuật toán nhận dạng người đi bộ như vậy là đơn giản,nhưng đủ nhanh dé phân lớp hình anh theo thời gian thực Một người đi bộ phù hợp nếu

khoảng cách ngắn nhất trong k hình ảnh gần nhất lớn hơn một ngưỡng cho các lớp huấn

luyện người đi bộ, nếu không, f; bị từ chối (tức là phân lớp như là một người đi bộ không

rõ).

Trong tập thử nghiệm trong luận văn, ta sthiết lập k=2 dé đánh giá hệ thống nhận

dạng trên tập dữ liệu tự thu thập: k= 2 nghĩa là phan cụm dữ liệu ra làm 2 cum (clusters):

có người di bộ (pedestrian) va không có người di bộ (non-pedestrian) Việc sử dụng k = 2

cũng khiến cho thuật toán phân cụm k-means thực hiện nhanh hơn, có ý nghĩa lớn trongviệc cài đặt hệ thống nhận dạng thời gian thực (real-time)

2.1.2 Tiền xử lý

Dé việc nhận dang anh chi tập trung vào đúng đối tượng quan tâm là người đi bộ

Ta cần loại bỏ những đối tượng không liên quan tới nhận dạng như phông nền xungquanh đối tượng quan tâm: bầu trời, đường bộ, các loại phương tiện giao thông, cây cối

Để có thé tăng cường chất lượng ảnh, bước tiền xử ly là bước đầu tiên nhằm loại bỏnhiễu, khắc phục những khiếm khuyết trong bước thu nhận ảnh chưa được tốt là mộtbước quan trọng Luận văn đưa ra ba phương pháp đề thực hiện tiền xử lý: phương pháplọc tương phan (contrast filtering), circular head filtering và lọc đối xứng (symmetry

filtering).

Phan tich va trich chon dac trung 2.2.1 Dac trung SURF

Đặc trưng SURF (Speeded Up Robust Feature) — Đặc trưng nhận dang nhanh là

một phương pháp mô tả và nhận dang những điểm tiêu biểu không đổi về tỉ lệ - góc độ

Trang 11

Phương pháp này tương đương, thậm chí tốt hơn những phương pháp khác về khả nănglặp lại, dễ phân biệt, sự chính xác cao và tốc độ tính toán nhanh hơn Đề có kết quả này,

toàn bộ ảnh được sử dụng cho việc nhận dạng và xây dựng dựa trên các bộ nhận dạng.

Việc nhận dạng những điểm tương tự giữa hai bức ảnh của một cảnh hoặc một vật

duy nhất là thành phần rất quan trọng của nhiều ứng dụng thị giác máy Tĩnh chỉnh máy

ảnh, dựng 3D, đăng kí ảnh và nhận dạng vật thé là những ứng dụng tiêu biểu Các bước

để xác định sự tương đồng này được thực hiện qua các bước chính Đầu tiên, một sốđiểm đặc trưng sẽ được lựa chọn ra trong ảnh, ví dụ như các điểm ở góc, ở cạnh và cácđiểm kết nối Tính năng quan trọng nhất của bộ xác định điểm này là tính ôn định, bộ xác

định này phải chỉ ra được những điểm đặc trưng trong nhiều điều kiện khác nhau Tiếp

theo, vùng phụ cận của những điểm này được biểu diễn bằng một vector đặc trưng.Những bộ mô tả này phải mô tả được những đặc trưng cơ bản đồng thời lọc bỏ đượcnhững nhiễu, sai số hay những biến đổi về hình dáng hay màu sắc Cuối cùng nhữngvector mô tả sẽ được so sánh trong những bức ảnh khác nhau Sự kiểm định so sánh này

thường được tính toán dựa vào khoảng cách giữa các vector theo công thức Euclidean

hoặc Mahalanobis Số chiều của vector này có ảnh hưởng trực tiếp đến thời gian tínhtoán này, do vậy, số chiều này càng nhỏ sẽ càng cải thiện được thời gian tính toán

Với các đặc trưng cơ bản, việc đầu tiên cần xử lý là xác định mức độ bất biến củachúng Điều này phụ thuộc vào những biến dạng về hình dáng, màu sắc do sự thay đổicủa góc nhìn Ta sẽ tập trung hơn đến những bộ nhận dạng, mô tả sử dụn các đặc trưng

về tỉ lệ, góc xoay Chúng có kết quả tốt, hài hòa giữa độ phức tạp của đặc trưng và khảnăng chống lại những biến đổi thường xảy ra Các hiệu ứng làm co kéo, dan, biến đổi tỉ lệ

do góc nhìn, khung nhìn cũng được xử lý bố sung bằng những bộ nhận dạng này

2.2.2 Bộ nhận dạng nhanh Hessian

Ta sẽ sử dụng bộ nhận dạng dựa trên ma trận Hessian bởi hiệu năng tính toán và mức độ tính toán của chúng Tuy nhiên thay vì sử dụng các phương pháp

khác nhau để lựa chọn vị trí và tỉ lệ của ảnh (sử dụng toán tử Laplace trên Hessian),

ta sẽ chỉ sử dung Hessian cho cả 2.

Với một điểm định trước x = (x,y) trong ảnh, ma trận Hessian H(x,o) ởđiểm x với tỷ lệ o sẽ được định nghĩa như sau:

Trang 12

ứng Phương pháp Gauss là phương pháp tối ưu dé phân tích vùng tỉ lệ Tuy nhiên

trong thực tế, Gaussian cần được rời rạc hóa và cắt bớt, dù vậy, sự phân mảnh vẫndiễn ra do ảnh kết quả đã được lay mẫu giảm đi (về độ phân giải) Việc giảm bớt

độ phân giải ảnh không làm xuất hiện thêm bắt kì cầu trúc nào mới đã được chứngminh trong các trường hợp 1D, nhưng nó không thé áp dụng với các trường hợp

2D Do vậy độ quan trọng của Gauss dường như đã được đánh giá quá mức, ta chỉ

cần kiểm tra theo cách đơn giản hơn Do bộ lọc Gauss không tối ưu với bất kìtrường hợp nào, cùng sự thành công của Lowe với phương pháp xấp xi LoG (tínhLaplacian của ham Gaussian), ta sẽ áp dụng bộ lọc hộp tương đối Việc tính toántương đối của đạo hàm Gauss bậc 2 có thé được thực hiện rất nhanh bằng cách sửdụng ảnh tích phân không phụ thuộc kích cỡ Chất lượng của nó có thể thấy trong

hình dưới đây, hiệu qua của phương pháp nay tương đương với phương phap Gauss roi rac.

Hình 2.4: Ma trận dao hàm cấp 2 Gauss

Ma trận 9x9 ở hình là đạo hàm cấp 2 Gauss với ti lệ bằng 1.2 là thấp nhất

Ta chứng minh sự tương đối bằng D,,, Dyy và Dyy Trọng số được áp dụng cho cácvùng hình chữ nhật được giữ đơn giản nhất có thé dé tối ưu hiệu năng tính toán.Tuy nhiên ta cũng cần cân bang giữa các trọng số tương đối trong biểu diễn của

Hessian với:

Trang 13

(Lzu(1.2)Ir|Dzz(9)lE — nịc ~ ac

Lee 2DpiD.,(9p = 0-912 > 0.9

Trong đó |x|, là định mức Frobenius Công thức nay cho kết qua:

Hơn nữa, kết quả của bộ lọc được chuẩn hóa theo kích cỡ của mặt để đảmbảo định mức Frobenius là không đổi

Không gian tỉ lệ thường được cài đặt như một kim tự tháp ảnh Các ảnh

được làm min với Gauss va sau đó được lấy mẫu xuống để đạt được một mức caohơn (trong kim tự tháp) Với tính chất của bộ lọc khung và ảnh tích phân, ta có thể

áp dụng trực tiếp phương pháp với bất kì cỡ nào trên ảnh gốc mà không cần áp

dụng với ảnh ở mức trước (thậm chí chạy song song) mà không làm tăng thời gian

chạy Bởi vậy, không gian tỉ lệ được kiểm tra bằng cách tăng dần cỡ lọc thay vìgiảm dần kích cỡ ảnh Kết quả bộ lọc 9x9 ở trên sẽ được được sử dụng là lớp tỉ lệđầu tiên, ta sẽ gọi nó là tỉ lệ s = 1.2 (Tương ứng với đạo hàm Gauss với o = 12).Các lớp sau đó được xây dựng bằng các thực hiện lọc với các tỉ lệ lớn hơn theo đặctính rời rạc của các ảnh tích phân và cấu trúc của bộ lọc Các lớp này sẽ được lọc

với các bộ lọc kích cỡ 9x9, 15x15, 21x21, 27x27 Với mức độ lớn hơn, bước nhảy

của kích cỡ cũng sẽ tăng lên tương ứng Với mỗi giai đoạn, bước tăng kích cỡ của

bộ lọc sẽ tăng lên gấp đôi Cùng lúc với nó, tần số lấy mẫu sẽ chọn ra các điểm đặc

trưng.

Do tỉ lệ của bộ lọc là không đổi sau mỗi lần điều chỉnh, đạo hàm tương đôiGauss cũng thay đổi tương ứng, ví dụ bộ lọc 27x27 sẽ cho kết quả tương đương với

o = 3x1.2 = 3.6 = s Hơn nữa định mức Frobenios không đổi cho bất kì bộ lọc nào

do chúng đã được chuẩn hóa

Để có thể cục bộ hóa các điểm trên ảnh, ta thực hiện lược bỏ các điểm

không tối ưu ở quanh đó trong khoảng 3x3x3 Định thức tối ưu của ma trận

Hessian sẽ được nội suy theo tỉ lệ và không gian ảnh với phương pháp được giới

thiệu bởi Brown [] Việc nội suy không gian tỉ lệ là tối quan trọng với SURF do sai

Tiêu đề	Phát Hiện Người Đi Bộ Trên Đường Phố
Tác giả	Vương Thị Thúy Vân
Người hướng dẫn	Tiến Sĩ Phạm Văn Cường
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Khoa học máy tính
Thể loại	luận văn thạc sĩ
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	26
Dung lượng	5,58 MB