Chương trình xây dựng dựa trên mô hình này có thể phát hiện được đối tượng ở trong các môi trường khác nhau, đối tượng có thể xuất hiện với hình dáng bất kỳ và đặc biệt một số bộ phận củ
TỔNG QUAN VỀ ĐỀ TÀI
Bài toán phát hiện đối tượng
Một camera quay lại hình ảnh của tuyến phố, câu hỏi đặt ra là đặt ra là có bao nhiêu chiếc xe đi qua tuyến phố đó trong một khoảng thời gian Một chiếc xe ô tô thông minh phải xác định được đâu là các chiếc xe khác hay đâu là con người Một Robot tự hành cần phân biệt được các đối tượng mà nó gặp phải Các ví dụ trên là các yêu cầu cơ bản của nhiệm vụ phát hiện đối tượng (Object detection) Phát hiện đối tượng là một trong những thách thức cơ bản của thị giác máy tính Nó trả lời cho câu hỏi “Đó là những đối tượng nào?”, “Đối tượng ở đâu trong hình?” Từ “đối tượng” ở đây được hiểu như một lớp đối tượng chắc chắn nào đó như con người, tòa nhà, xe cộ, khuôn mặt v.v., mà chúng ta muốn máy tính "nhìn thấy" ở trong hình. Đầu vào của nhiệm vụ phát hiện đối tượng thông thường là một ảnh tĩnh và kết quả đầu ra thường là một cặp thông tin vị trí và nhóm đối tượng Cho một tập hợp các nhóm đối tượng được định nghĩa trước, mục đích là trả về danh sách chính xác nhóm đối tượng quan tâm có ở trong hình và vị trí của mỗi đối tượng với một bounding box bó sát bao quanh phạm vi của đối tượng. Để trả lời cho câu hỏi “Đối tượng ở đâu trong hình?” của các ví dụ trên là một vấn đề không hề đơn giản Quá trình thu nhận từ môi trường thực tế chiếu một ảnh từ một không gian ba chiều vào một không gian hai chiều Thông tin thu thập được bị mất mát và bị ảnh hưởng bởi nhiễu là điều không thể tránh khỏi Từ đầu vào này hệ thống phát hiện đối tượng phải chỉ ra được có những đối tượng nào trong hình và nó ở đâu Ngay cả định nghĩa về đối tượng nhiều khi cũng còn gây nhầm lẫn, ví dụ chúng ta định nghĩa đối tượng xe hơi (Car) như thế nào? Nếu suy nghĩ về cách định nghĩa đó nhiều khi nó cũng gây nhầm lẫn với các đối tượng tương tự khác như xe tải, hay một đối tượng khác mà cũng có bốn bánh Nhưng
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN
Hình 1.1: Kết quả của một thuật toán phát hiện đối tượng trong tập mẫu PASCAL VOC 2010 [1] kể cả với các đối tượng trong các lớp nhỏ hơn chúng cũng có sự khác biệt lớn vì ảnh hưởng bởi các yếu tố như: sự tương phản của ánh sáng, hình dáng đa dạng của đối tượng, sự che khuất một phần của đối tượng, sự xuất hiện của cùng lúc nhiều đối tượng khác nhau trong một khung cảnh phức tạp v.v.;
Hình 1.1 minh họa kết quả của một thuật toán phát hiện đối tượng Trong hình có ba nhóm đối tượng "Dog", "Bicycle" và "Car" với các thách thức đặc trưng của bài toán phát hiện đối tượng Các đối tượng nằm chen lẫn với các đối tượng khác, một số bộ phận của đối tượng bị che khuất, độ chiếu sáng là khác nhau đối với các đối tượng khác nhau, các đối tượng cũng có sự biến dạng nhất định Kết quả của bài toán là các hình chữ nhật bao quanh đối tượng và các nhãn thể hiện nhóm đối tượng.
Việc phát hiện đối tượng có rất nhiều ứng dụng khác nhau trong nghiên cứu khoa học cũng như trong đời sống, nó là bước đầu để máy tính có thể “nhìn” thấy thế giới Phát hiện
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 2 đối tượng có nhiều ứng dụng rộng rãi trong mọi mặt của đời sống như phát hiện khuôn mặt,phát hiện người, phát hiện xe, biển báo giao thông, các hệ thống tìm kiếm thông tin dựa trên nội dung ảnh, các robot thông minh v.v
Các công trình nghiên cứu liên quan
Phát hiện đối tượng là một đề tài nhận được nhiều quan tâm của các nhà khoa học trên thế giới Có rất nhiều phương pháp đã được đề xuất và được thực nghiệm, mỗi phương pháp đều có ưu và nhược điểm riêng Trong phần này, các phương pháp chính và nổi trội trong thời gian gần đây được trình bày tổng quan nhằm tạo ra một cái nhìn tổng quát về bức tranh
“phát hiện đối tượng” hiện nay.
De Carrera và các cộng sự [3] đã áp dụng phương pháp phân tích thành phần chính Principal component analysis (PCA) và thuật toán Eigenface để nhận dạng khuôn mặt.
Viola và Jones [4] đã giới thiệu khái niệm ảnh tích phân (Integral image) nhằm tính nhanh các đặc trưng Haar-like và áp dụng phương pháp máy học Adaboost để xây dựng một bộ phân loại mạnh được áp dụng vào việc phát hiện khuôn mặt với độ chính xác cao Một hướng tiếp cận khác là sử dụng các đặc trưng bất biến cục bộ Scale Invariant Feature Transform (SIFT) được Lowe [5] giới thiệu như là các đặc trưng bất biến trước những biến đổi của tỉ lệ ảnh, tịnh tiến, phép quay, không bị thay đổi một phần đối với phép biến đổi hình học affine và thích nghi với những thay đổi về độ sáng, sự nhiễu và che khuất Chennamma và các cộng sự [6] đã sử dụng đặc trưng cục bộ SIFT để nhận dạng khuôn mặt trên tập ảnh chọn lọc được cho trước và so sánh kết quả nhận dạng với thuật toán phân tích thành phần chính cho thấy kết quả có độ chính xác cao hơn. Được đề xuất bởi Dalal và các cộng sự [7], đặc trưng Histogram of Oriented Gradients (HOG) mô tả trạng thái của đối tượng bằng sự phân bố về cường độ và hướng của cạnh.
Các đặc trưng của đối tượng được đưa vào thuật toán huấn luyện phân lớp Support Vector Machine (SVM) để tạo ra một “siêu phẳng” nhằm phân biệt giữa hai nhóm “đối tượng” hoặc “không phải đối tượng” Bài báo đã áp dụng thành công vào việc phát hiện người đi bộ với độ chính xác cao trên tập ảnh INRIA Person do chính nhóm tác giả đề xuất.
Tiếp nối thành công của Dalal, P.Felzenszwalb và các đồng sự [8, 2] đã sử dụng thành
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN công đặc trưng HOG kết hợp với mô hình Deformable Part Model (DPM) để biểu diễn một đối tượng như là một tập của các thành phần khác nhau Nhóm tác giả đã giới thiệu một phương pháp huấn luyện mới được gọi với cái tên Latent SVM , trong đó vị trí của mỗi phần của đối tượng được xem như latent Nhóm tác giả đã xây dựng mô hình của nhiều nhóm đối tượng khác nhau và sử dụng để phát hiện đối tượng Hiện nay trên tập mẫu PASCAL VOC, thuật toán của nhóm tác giả đề xuất đang chiếm giữ vị trí là thuật toán phát hiện đối tượng có độ chính xác cao nhất.
Một phương pháp tiếp cận mới gần đây là sử dụng một mô hình Deep Learning có tên CNNs (Convolutional Neural Nets) được nhóm của Sermanet và các cộng sự [9] đề xuất.
Kết quả thực nghiệm trên tập mẫu INRIA Person giảm sai số phát hiện xuống còn 10% đạt kết quả cao hơn nhiều so với thuật toán HOG + SVM mà Dalal [7] đã đề xuất Hiện nay CNNs đang được ứng dụng để hỗ trợ tìm kiếm ảnh trong Google Plus Ross Girshick là một trong những tác giả của hai bài báo [8, 2] đã đề xuất thuật toán Fast Region-based Convolutional Network (Fast R-CNN) [10] nhằm cải tiến tốc độ so với R-CNN truyền thống Kết quả thực nghiệm trên tập PASCAL VOC 2012 cho kết quả phát hiện đối tượng cao hơn và thời gian huấn luyện mô hình đối tượng và thời gian detect nhanh hơn nhiều so với CNN truyền thống. Đề tài phát hiện đối tượng dựa vào các đặc tính cục bộ ứng dụng lý thuyết về mô hình DPM [2] vào việc phát hiện các đối tượng Chương trình xây dựng dựa trên mô hình này có thể phát hiện được đối tượng ở trong các môi trường khác nhau, đối tượng có thể xuất hiện với hình dáng bất kỳ và đặc biệt một số bộ phận của đối tượng có thể bị che khuất nhưng mô hình vẫn đưa ra được dự đoán vị trí của đối tượng.
Các tập mẫu chuẩn như PASCAL VOC [1], SUN database [11], ImageNet [12] đưa ra rất nhiều “thử thách” đối với các thuật toán phát hiện đối tượng.
Đặc tính toàn cục và Đặc tính cục bộ
Một bộ mô tả (descriptor) dùng một thuật toán nào đó để mã hóa ảnh đầu vào tạo ra một đặc trưng nhằm cho phép so khớp hai ảnh với nhau Có nhiều cách để miêu tả các đặc trưng khác nhau, dựa vào phạm vi của vùng được lấy đặc trưng mà các đặc trưng được chia làm
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 4 hai nhóm: Đặc trưng cục bộ mô tả tổng quát toàn bộ bức ảnh Các đặc trưng cục bộ bao gồm các biểu diễn về đường viền (contour), các mô tả hình dáng (Shape) và các đặc trưng bề mặt(texture features) Các thuật toán mô tả đặc trưng toàn cục tiêu biểu như Shape Matrices [13], Invariant Moments [14], HOG [7] Các đặc trưng toàn cục thường không bền vững với các thay đổi trong các thành phần của đối tượng Dẫn đến kết quả sai trong các bài toán nhận dạng, ảnh hưởng đến bộ mô tả kết quả Các đặc trưng này cũng được trích xuất và áp dụng vào các bài toán phát hiện đối tượng [15, 16, 17], và là một phần trong đặc trưng của các đối tượng được mô tả trong luận văn này. Đặc trưng cục bộ mô tả một phần của ảnh, thường là các điểm đặc biệt (Keypoint) của một đối tượng Một vài thuật toán trích xuất đặc trưng cục bộ gồm có SIFT [5], Speeded up robust features (SURF) [18] , Local Binary Pattern (LBP) [19] , and Maximally Stable Extremal Region (MSER) [20] Các đặc trưng cục bộ mô tả bền vững hơn đối với sự thay đổi của các bộ phận của đối tượng Đặc trưng SIFT được sử dụng trong bài báo [21], nhằm trích xuất các điểm của các đối tượng trong 2 frame hình khác nhau Sau đó việc phân tích sự kết nối của các đặc tính này nhằm tạo ra một vùng quan tâm trong ảnh.
Một các tổng quát, đối với các bài toán phát hiện, phân lớp đối tượng, các đặc trưng cục bộ thường được sử dụng Đối với các bài toán nhận dạng đối tượng, so khớp ảnh các đặc trưng cục bộ được áp dụng hiệu quả hơn.
Trong luận văn này khái niệm đặc trưng cục bộ được sử dụng chỉ đặc trưng được trích xuất các bộ phận của đối tượng, kết hợp các đặc trưng cục bộ của các bộ phận của đối tượng cho ta một cái nhìn tổng quát về một đối tượng.
Cách tiếp cận vấn đề
Quan sát các đối tượng từ thực tế, thông thường một đối tượng thường được tạo thành từ nhiều bộ phận khác nhau Ví dụ hình ảnh của một con người thông thường được cấu thành từ các bộ phận như: “đầu”, “ hai tay”, “hai chân”, “mình” Trong một đối tượng có thể bao gồm các kết nối sâu hơn như đối với bộ phận "đầu" được đặc trưng bởi khuôn mặt Một khuôn mặt thường có “hai mắt”, “mũi”, “miệng”, “gò má” Một chiếc xe hơi thông thường
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN có “bốn bánh”, “gương”, “thân xe”, “cửa kính” Hình 1.2 minh họa đối tượng "Con Voi" với các bộ phận chính như "vòi", "tai", "đầu", "chân" và "thân" Các bộ phận của đối tượng trong hình vẽ có thể bị che khuất, biến dạng, thay đổi vị trí so với các đối tượng khác cùng loại.
Hình 1.2: Đối tượng và các bộ phận cấu thành
Xét đối tượng khuôn mặt trong Hình 1.3, các bộ phận như "mái tóc", "mắt", "mũi",
"tai", "miệng" được xem như các nút hay các đỉnh Các bộ phận liên kết với nhau thông qua các kết nối là các cạnh minh họa cho sự dịch chuyển vị trí so với vị trí tương đối của các bộ phận khác Đồng thời các bộ phận có thể xuất hiện hoặc không tương ứng với sự tồn tại của các đỉnh, khi đó các cạnh kết nối cũng xuất hiện tương ứng Đó là những quan sát thực tế về hình ảnh của các đối tượng trong thế giới thực.
Nếu một hình ảnh thu nhận được của một đối tượng có càng đầy đủ các bộ phận thì xác suất đó chính là “đối tượng” càng cao Trong một số trường hợp, một số bộ phận của đối tượng không xuất hiện hoặc bị che lấp trong hình Tuy nhiên dựa vào số lượng của các bộ phận xuất hiện, chúng ta có thể đưa ra được dự đoán “bao nhiêu phần trăm” đó là đối tượng dựa theo một ngưỡng cho trước.
Từ cách tiếp cận đối tượng theo sự kết hợp của các phần khác nhau, và tổng quan của các thuật toán phát hiện đối tượng trong luận văn này một mô hình của các đối tượng được xây dựng nhằm giải quyết được các vần đề sau:
• Xây dựng mô hình tổng quan cho bài toán phát hiện đối tượng dựa theo cấu trúc của
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 6
Hình 1.3: Đối tượng khuôn mặt và sư liên kết giữa các bộ phận các bộ phận.
• Xây dựng thuật toán rút trích đặc trưng của từng bộ phận riêng lẻ của đối tượng, mà đặc trưng đó các các đặc tính bất biến đối với các phép biến đổi như độ sáng, sự thay đổi khung nhìn (xoay) của đối tượng, sự biến dạng của đối tượng Đồng thời kích thước của đặc trưng được tạo ra phải đảm bảo đủ nhỏ để đáp ứng tốc độ của thuật toán.
• Mô hình đáp ứng được cấu trúc đa dạng của đối tượng, nhóm đối tượng có nhiều hình dáng khác nhau
• Xây dựng được thuật toán huấn luyện mô hình của đối tượng đáp ứng được các yêu cầu của bài toán phát hiện đối tượng.
Từ các yêu cầu đặt ra kết hợp với việc khảo sát các thuật toán phát hiện đối tượng luận văn đề xuất các thuật toán xây dựng mô hình cho bài toán phát hiện đối tượng dựa theo các đặc trưng cục bộ như sau:
• Xây dựng mô hình đối tượng dựa theo thuật toán DPM [2] và mô hình trộn (mixture model) của đối tượng nhằm thích ứng với sự đa dạng, gồm nhiều thành phần con và sự che khuất một phần của đối tượng.
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN
• Trích xuất đặc trưng các phần của đối tượng sử dụng thuật toán HOG [7] Thuật toán trích xuất đặc trưng HOG bền vững đối với các biến đôi hình học như xoay, biến dạng, sự thay đổi cường độ ánh sáng.
• Sử dụng thuật toán PCA nhằm giảm kích thước của vector đặc trưng, trong khi vẫn giữ được tính bất biến đối với các phép biến đổi.
• Huấn luyện mô hình các lớp đối tượng sử dụng thuật toán Latent SVM.
Ý nghĩa khoa học
Luận văn xây dựng mô hình phát hiện đối tượng dựa theo các đặc trưng cục bộ nhằm đáp ứng nhu cầu thực tiễn, giải quyết các thách thức khó khăn của bài toán phát hiện đối tượng.
Mặt khác luận văn cũng mang lại một số ý nghĩa khoa học nhất định:
• Việc xây dựng mô hình phát hiện đối tượng dựa theo các đặc trưng cục bộ là phù hợp với nhận thức thông thường của con người đối với một đối tượng cụ thể.
• Việc phát hiện đối tượng dựa trên các phần khác nhau thường cho kết quả phát hiện chính xác cao, đáp ứng được tính đa dạng của nhiều đối tượng khác nhau trong thế giới thực, kể cả trong trường hợp ảnh thu thập được bị che khuất một phần, thay đổi góc nhìn, thay đổi mức sáng, bị biến dạng .
• Việc lựa chọn tham số tối ưu cho quá trình trích xuất đặc trưng và huấn luyện đối tượng có ý nghĩa trong việc nâng cao tốc độ, độ chính xác của quá trình phát hiện đối tượng.
• Kết quả của việc phát hiện chính xác đối tượng là tiền đề để cho máy tính “hiểu” được nội dung của một bức ảnh ngày một sâu sắc hơn.
Tóm lược luận văn
Cấu trúc của luận văn được chia thành các phần như sau, Chương 1 trình bày tổng quan về bài toán phát hiện đối tượng và cách tiếp cận bài toán dựa theo cấu trúc từng phần Chương
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 8
2 trình bày mô hình tổng quan của bài toán phát hiện đối tượng theo từng phần Chương 3 trình bày cách huấn luyện mô hình đối tượng dựa theo thuật toán Latent-SVM Chương 4 trình bày cách trích xuất đặc trưng của từng phần Chương 5 giới thiệu về các tập mẫu và kết quả áp dụng của thuật toán trên các tập mẫu đó Cuối cùng kết luận lại những đóng góp chính và tồn tại của của luận văn.
CÁC ĐẶC TÍNH CỤC BỘ
Mô hình toàn cục
Mô hình trong bài toán phát hiện đối tượng này nhằm chỉ các bộ lọc tuyến tính được áp dụng trên các lớp đặc trưng tại các vị trí và độ phân giải khác nhau (dense feature maps).
Một lớp đặc trưng (feature map) là một mảng mà các phần tử là một vector có độ dài bằng d được tính toán từ một lưới dày đặc tại các vị trí trong một ảnh Một cách trực quan thì một lớp đặc trưng là một mảnh của ảnh cục bộ Thuật toán để tính lớp đặc trưng này có thể dùng các thuật toán khác nhau như HOG [7], Shape Matrices [13], Dense SIFT, Shape Context [22] vv Trong luận văn này thuật toán HOG được sử dụng và được trình bày chi tiết trong Chương 3 Tuy nhiên mô hình tổng quát là độc lập so với việc sử dụng các thuật toán trích xuất đặc trưng khác nhau.
Một bộ lọcF là một mẫu hình chữ nhật được định nghĩa bởi một mảng của các vector trọng số có độ dài bằng d Đáp ứng hoặc điểm của bộ lọcF tại vị trí(x,y) trong lớp đặc trưng Glà tích vô hướng của bộ lọc và một cửa sổ con của lớp đặc trưng tại góc trên trái của ảnh(x,y):
(2.1) Để xác định điểm tại các vị trí và tỷ lệ ảnh khác nhau, kim tự tháp đặc trưng được sử dụng Kim tự tháp đặc trưng chỉ ra một lớp đặc trưng tại một số hữu hạn các tỉ lệ của ảnh,được tính bằng cách sử dụng ảnh đầu vào và lặp lại các phép làm trơn và tính lại tỷ lệ(smoothing and subsampling) tương tự như khái niệm Gaussian Pyramid trong bài báo củaLowe [5] Sau đó thì tính lớp đặc trưng từ mỗi cấp của kim tự tháp này Hình 4 minh họa cách xây dựng ảnh kim tự tháp và đáp ứng tại các cấp khác nhau.
Không gian tỉ lệ trong kim tự tháp đặc trưng được đặc trưng bởi tham sốλ xác định số cấp trong mỗi ocatave.λ là số lần cần giảm kích thước ảnh trong kim tự tháp mà độ phân giải của ảnh lần sau cao gấp đôi ảnh lần trước Việc lấy mẫu mịn hơn trong không gian tỉ lệ (scale space) giúp đạt được kết quả phát hiện chính xác hơn Tuy nhiên khi tăngλ lên thì việc tính toán lại trở nên chậm hơn Trong luận văn nàyλ được chọn bằng 5 khi thực hiện huấn luyện mô hình và được chọn bằng 10 khi chạy kiểm thử trên các tập mẫu.
Hình 2.1: Kim tự tháp đặc trưng và sự minh họa của mô hình người
Hệ thống của [7] sử dụng một bộ lọc đơn để định nghĩa mô hình của một đối tượng Hệ thống này phát hiện đối một đối tượng bằng cách tính điểm của điểm của bộ lọc tại các vị trí và tỉ lệ khác nhau của kim tự tháp đặc trưng HOG, sau đó sử dụng một ngưỡng để xác định sự tồn tại của đối tượng ChoF là một bộ lọc co kích thước w×h, H là kim tự tháp đặc trưng, và p= (x,y,l)chỉ rõ vị trí(x,y)tại cấp thứl của kim tự tháp Choφ(H,p,w,h) là vector đạt được bằng cách nối các vector đặc trưng trong cửa sổ có kích thướcw×hcủaH với gúc trờn trỏi tại p theo thứ tự hàng Đỏp ứng của bộ lọc F tại plàF 0 ãφ(H,p,w,h),
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN vớiF 0 vector hàng của đặc trưngF chuyển vị thành.
Hình 2.1 minh họa kim tự tháp đặc trưng và mô hình con người Cột bên trái thể hiện kim tự tháp ảnh, cột bên phải thể hiện kim tự tháp đặc trưng được trích xuất bằng thuật toánHOG Ở trên đỉnh của kim tự tháp là ảnh có độ phân giải thấp nhất tại đây đáp ứng của bộ lọc góc là là lớn nhất được thể hiện bằng hình chữ nhật màu đỏ Ở hình dưới cùng của kim tự tháp với độ phân giải lớn hơn đáp ứng của bộ lọc từng phần với lớp đặc trưng là cao nhất được thể hiện bằng các hình chữ nhật màu xanh.
Mô hình từng phần
Xem lại minh họa ở hình 2.1 ta thấy đáp ứng của bộ lọc gốc ở hình có độ phân giải thấp là cao nhất, tại đây kích thước của bộ lọc bao trùm gần như toàn bộ đối tượng Ở hình dưới cùng có độ phân giải cao hơn các bộ lọc từng phần đáp ứng tốt hơn so với hình trên cùng.
Từ cách tiếp cận về mô hình từng phần của đối tượng được trình bày trong chương 1, phần này trình bày cách mô hình hóa một đối tượng được cấu tạo từ các phần riêng biệt.
Mộ mô hình biến dạng từng phần được định nghĩa bằng một bộ lọc gốc bao phủ toàn bộ các phần của đối tượng Ở độ phân giải cao hơn các bộ lọc bộ phận bao phủ các phần nhỏ hơn của đối tượng Bộ lọc góc xác định được toàn bộ đối tượng, trong khi các bộ lọc từng phần định vị từng phần của đối tượng ở cấpλ của kim tự tháp, vì vậy các đặc trưng ở cấp dưới được tính tại độ phân giải cao gấp đôi so với cấp trên liền kề của nó.
Một mô hình của một đối tượngnphần được định nghĩa bởi(n+2)bộ(F 0 ,P 1 , ,P n ,b), vớiF 0 là bộ lọc gócP i là mô hình của phần thứivàblà giá trị độ lệch Mỗi mô hình của một phần được xác định bởi một bộ ba(F i ,v i ,d i ), vớiF i là bộ lọc của phần thứi,v i là một vector hai chiều xác định sự móc nối của phần thứivới vị trí của bộ lọc góc,d i = (a x i ,a y i ,b x i ,b y i ) là một vector bốn chiều xác định các hệ số của hàm bậc hai định nghĩa chi phí biến dạng cho mỗi vị trí của phần liên quan đến vị trí neo.
Một đối tượng giả thiết xác định vị trí của mỗi bộ lọc trong mô hình trong kim tự tháp đặc trưng,z= (p 0 , ,p n ), với p i = (x i ,y i ,l i )xác định cấp và vị trí của bộ lọc thứi Như đã phân tích trong phần mô hình toàn phần, mỗi bộ lọc từng phần trong kim tự tháp đặc trưng được tính ở lớp có độ phân giải cao gấp đôi so với bộ lọc gốc,l i =l 0 −λ vớii>0.
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 12
Hình 2.2: Mô hình người và kết quả của chương trình phát hiện người vớidx i =x i −x 0 vàdy i =y i −y 0 Công thức 2.2 biểu diễn điểm của một giả thiết được tính bằng tổng điểm của mỗi phần tại vị trí tương ứng của nó trừ đi chi phí biến dạng của mỗi phần đối với vị trí tương đối của bộ lọc góc cộng với độ lệch.
Với(dx i ,dy i )miêu tả sự dịch chuyển của phần thứiso với vị trí neo,
(dx i ,dy i ) = (x i ,y i )−(2(x 0 ,y 0 ) +v i ) (2.3) vàφ d (dx,dy)là đặc trưng của sự biến dạng: φ d (dx,dy) = dx,dy,dx 2 ,dy 2
Hình 2.2 minh họa mô hình người với hình a) minh họa bộ lọc góc, hình b) minh họa các bộ lọc bộ phận với độ phân giải cao gấp đôi so với bộ lọc góc, hình c) minh họa chi phí biến dạng của các bộ lọc bộ phận so với vị trí tương đối của neo (chấm màu đỏ), hình d) minh họa việc phát hiện người với các bộ phận tương ứng. Độ lệchb trong công thức 2.2 nhằm tạo ra điểm số của nhiều mô hình có thể so sánh với nhau kết hợp chúng trong một mô hình hỗn hợp sẽ được trình bày trong mục 2.4.
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN Điểm của một giải thiếtzcó thể được quy về dạng tích vô hướng:
Score(z) =β.ψ(H,z) (2.5) giữa một vector của các tham số mô hìnhβ với một vectorψ(H,z). β = F i 0 , ,F n 0 ,d 1 , ,d n ,b
Công thức 2.5 minh họa sự liên kết giữa mô hình và các bộ phân lớp tuyến tính Mối liên hệ này được sử dụng để huấn luyện các tham số của mô hình bằng Latent SVM, sẽ được trình bày chi tiết trong chương 4.
Sử dụng mô hình từng phần để phát hiện đối tượng
Để xác định vị trí của đối tượng, điểm tổng của mỗi vị trí góc được tính theo vị trí của phần có điểm cao nhất,
Các vị trí góc có điểm cao được xác định trong khi vị trí của các phần mang lại hình ảnh đầy đủ về đối tượng Bằng cách áp dụng tổng điểm cho mỗi vị trí góc các đối tượng được phát hiện Phương pháp này tương tự như dùng một cửa sổ trượt nếu chúng ta hình dung đối tượng chỉ bao gồm một bộ lọc gốc.
Kỹ thuật lập trình động và Distance transform (khoảng cách gần nhất từ một điểm tới biên) được trình bày trong [23, 24] được dùng để tính khoảng của mỗi phần tới vị trí góc gần nhất Độ phức tạp của thuật toán đã được chứng minh làO(nk)trên mỗi đáp ứng của bộ lọc, vớinlà số phần của một mô hình vàklà tổng số vị trí trong kim tự tháp đặc trưng.
ChoR i,l (x,y) =F i 0 ãφ(H,(x,y,l))là một mảng chứa đỏp ứng của phần thứicủa mụ hỡnh với cấp thứlcủa kim tự tháp đặc trưng Sau khi tính đáp ứng này chúng ta tính đáp ứng của bộ lọc đối với các gốc
D i,l (x,y) = max p 1 , ,p n R i,l (x+dx,y+dy)−d i ãφ d (dx,dy)
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 14
Công thức tính đáp ứng 2.9 có tính đến hai yếu tố đó là khoảng cách đến gốc gần nhất và chi phí biến dạng Tổng điểm tại mỗi cấp có thể được biểu diễn bằng tổng đáp ứng của bộ lọc gốc tại cấp đó cộng với đáp ứng của các phần đã được tính chi phí dịch chuyển so với các vị trí gốc,
Trong đó λ là số cấp cần đi xuống trong kim tự tháp đặc trưng để đạt được độ phân giải cao gấp đôi Hình 2.3 minh họa các bước của thuật toán phát hiện đối tượng được trình bày trong [8, 2] Nhìn vào hình minh họa ta có thể thấy vị trí của gốc là độc lập trong việc lựa chọn vị trí tốt nhất cho các phần bởi vì không có mối liên quan giữa vị trí các phần trong điểm của một giả thiết MảngD i,l thể hiện sự đóng góp của thành phần thứiđối với điểm tổng của gốc, như là một hàm biểu diễn sự kết nối với vị trí gốc Vì vậy để tính được tổng điểm tại vị trí gốc ở cấpl trong kim tự tháp đặc trưng, đáp ứng của bộ lọc gốc được cộng với sự đống góp của các phần đối với góc đóD i,l−λ
Mô hình hỗn hợp
Khái niệm mô hình hỗn hợp dùng để biểu diễn mô hình của đối tượng có nhiều hình dáng khác nhau Ví dụ khi nhìn một chiếc xe đạp ở các góc khác nhau ta sẽ có các hình ảnh khác nhau về chiếc xe đạp Mô hình hỗn hợp là tập hợp các mô hình biến dạng từng phần đã được trình bày ở mục 2.2 Hình 2.4 minh họa mô hình hỗn hợp của một chiếc xe đạp được cấu thành từ ba mô hình biến dạng từng phần khác nhau.
Một mô hình hỗn hợp với mthành phần được định nghĩa bởi một bộ(M 1 , ,M m ), với M c là thành thành phần thứ c Một giả thiết về vị trí của một đối tượng trong ảnh được xác định bởi một hỗn hợp các thành phầnM c ,1≤c≤m, và vị trí cho mỗi bộ lọc củaM c , z= (c,p 0 , ,p n c ) Ở đây,n c là số bộ phận củaM c Điểm của mỗi thành phầnM c chính là điểm của giả thiếtz 0 = (p 0 , ,p n c )
Trong trường hợp mô hình có một thành phần, điểm của một giả thiết cho một mô hình hỗn hợp được biểu diễn như tích vô hướng của các tham số mô hình β và vetor ψ(H,z).
Với mô hình hỗn hợp gồm nhiều thành phần vectorβ là sự kết nối các vector tham số của từng mô hình biến dạng từng phần.
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN
Hình 2.3: Thuật toán phát hiện đối tượng sử dụng mô hình biến dạng từng phần [2] β = (β 1 , ,βm) (2.11) ψ(H,z)là một ma trận thưa với các vị trí khác không được định nghĩa bởiψ(H,z 0 )tại các
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 16
Hình 2.4: Mô hình hỗn hợp của một chiếc xe đạp vị trí tương ứng vớiβ c trongβ. ψ(H,z) = 0, ,0,ψ H,z 0
Với cách xây dựng như vậy thì β.ψ(H,z) =β.ψ(H,z 0 ) Để phát hiện đối tượng sử dụng mô hình hỗn hợp thì ta sử dụng thuật toán phát hiện đối tượng đã được mô tả trong mục 2.3 để tìm đối tượng mà không phụ thuộc và số thành phần của đối tượng.
TƯỢNG
Huấn luyện mô hình
Phần này trình bày cách cài đặt cấu trúc của một mô hình trộn và huấn luyện các tham số của mô hình Choclà một lớp đối tượng, việc huấn luyệncđược cho bởi các bounding box Pvà một tập các ảnhN.Plà một tập các cặp(I,B), vớiIlà một ảnh vàBlà bounding box cho một đối tượng củalớpctrong ảnhI.
Cho M là một mô hình hỗn hợp với cầu trúc cố định Các tham số của mô hình được định nghĩa bởi vectorβ Để huấn luyệnβ, một bài toán latent SVM được xây dựng với một tập huấn luyện D, với các hình ảnh chứa đối tượng từ P(Positive examples), và các hình ảnh không chứa đối tượng từN(Negative examples).
Với mỗi mẫu hx,yi ∈D có một mối liên kết giữa hình ảnh và kim tự tháp đặc trưng H(x) Giá trị ẩnz∈Z(x)chỉ ra một số trường hợp củaMtrong kim tự tháp đặc trưngH(x). Định nghĩaΦ(x,z) =ψ(H(x),z), suy ra β.Φ(x,z)là điểm của giả thiếtz đối vớiM trên H(x).
Một bounding box chứa đối tượng(I,B)∈Psẽ đáp ứng với detector tại vị trí được định nghĩa bởiB Có nghĩa là tổng điểm của toàn bộ đối tượng (tổng đáp ứng của góc + tổng đáp ứng của các phần - chi phí biến dạng) sẻ ở mức cao hơn ngưỡng tạiB.
Với mỗi cặp (I,B)∈P chúng ta định nghĩa một mẫu dương (positive example) xcho bài toán huấn luyện latent SVM (LSVM) Chúng ta xác địnhZ(x)vì vậy cửa sổ phát hiện đối tượng của một bộ lọc gốc được chỉ ra bởi giả thiết z∈Z(x) phải bao phủ B ít nhất là50% Có thể có nhiều vị trí gốc cùng trên một ảnh, tại nhiều tỉ lệ khác nhau mà có độ che phủ ít nhất50% Việc xem vị trí bộ lộc gốc là một ẩn có tác dụng trong việc loại bỏ các nhiễu trong tập huấn luyện, vì thông thường tập huấn luyện có những bounding box
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN không bao phủ hoàn toàn đối tượng Bây giờ chúng ta xét đến các phần ảnh không chứa đối tượngI∈N Chúng ta không muốn các detector mà chúng ta huấn luyện được đáp ứng tốt với các phần ảnh này Nghĩa là điểm của mội bộ lọc gốc tại các vùng ảnh này là thấp hơn một ngưỡng ChoGlà một tập các vị trí trong kim tự tháp đặc trưng Xác định một vị trí (x,y,l)∈Gkhông chứa đối tượngx Chúng ta đã định nghĩaZ(x)nên cấp của bộ lọc gốc được xác định bởiz∈Z(x)làl, và trọng tâm của cửa sổ là (i,j) Thông thường trong một ảnh có rất nhiều vị trí mà không chứa đối tượng Điều này phù hợp với yêu cầu của một bộ phân loại có tỉ lệ false positive rate thấp (False Positive rate: số các trường hợp không thuộc lớpcbị phân nhầm vào lớpc).
Hình 3.1 minh họa lại thủ tục huấn luyện mô hình Vòng lặp ngoài cùng thực nghiệm lặp lại coordinate descent trên trênL D (β,Z p ) Dòng 3 đến dòng 6 thực hiện bước Relabel positive Kết quả của từng vector đặc trưng được chứa trongF p Dòng 7 đến 14 thực hiện việc tối ưu hóa β Vì số lượng các mẫu không chứa đối tượng là rất lớn nên thuật toán data-minning LSVM được sử dụng Thuật toán này lặp lại một số lần cố định mà không lặp lại cho đến khi hội tụ nhằm giúp thuận tiện trong việc huấn luyện Tại mỗi lần lặp các mẫu hard negative (giống với đối tượng) được chứa trongF n , huấn luyện một mô hình mới và sau đó giảm kích thước củaF n bằng cách loại bỏ các vector đặc trưng Trong quá trình huấn luyện bộ nhớ cache chứaN được tăng liên tục cho tới khi đạt tới giới hạn của bộ nhớ.
Hàmdetect−best(β,I,B)tìm điểm cao nhất của một giả thiết đối với bộ lọc gốc mà có độ chồng lần bằngBtrongI Hàmdetect−all(β,I,t)tính giả thiết tốt nhất cho mỗi vị trí góc và chọn một vị trí mà có điểm lớn hơn ngưỡngt.
Hàm gradient−descent(F) huấn luyện β sử dụng các vector đặc trưng chứa trong cache Trong thực tế các hệ số của chi phí biến dạng được cài đặt là lớn hơn 0.01 Mặt khác các mô hình cũng được xây dựng sao cho các phần của đối tượng có tính đối xứng theo trục dọc, điều này làm giảm số lượng tham số của mô hình vì chỉ cần tính toán một nữa sau đó lấy đối xứng nửa còn lại.
Khởi tạo các tham số của bài toán huấn luyện mô hình
Việc khởi tạo và huấn luyện một mô hình trộn được thực hiện trong 3 phase dưới sau đậy:
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 20
Hình 3.1: Thuật toán huấn luyện mô hình của đối tượng
Phase 1, Khởi tạo bộ lọc gốc: việc huấn luyện một mô hình trộn có m thành phần, các bounding box trong Pđược sắp xếp theo tỉ số hình học và được chia vào m nhóm có kích thước bằng nhauP 1 , ,P m Tiếp đến chúng ta huấn luyệnmbộ lọc gốc khác nhau u F 1 , ,F m , một bộ lọc cho mỗi nhóm bounding box. Để định nghĩa kích thước của F i , chúng ta chọn tỉ số hình dáng trung bình trong của các mẫu trongP i và diện tích lớn nhất là không lớn hơn80%của các box còn lại Điều này
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN đảm bảo rằng tất cả các cặp(I,B)∈P i có thể đặtI trong kim tự tháp củaIvì vậy nó có thể chồng lênBmột cách đáng kể.
Việc huấn luyện bộ lọc gốc được tiến hành bằng cách sử dụng SVM chuẩn tương tự như phương pháp của Navneet Dalal and Bill Triggs [7] Với mỗi cặp(I,B)∈P i , vùng ảnh đó được lấy phản chiếu nhằm tăng số lượng positive example lên gấp đôi Độ dài của vector đặc trưng này bằng độ dài củaF i TrongN chọn ngẫu nhiên các cửa sổ có kích thước bằng với kích thước củaP Hình 3.2 minh họa việc huấn luyện bộ lọc góc của hai đối tượng xe
Hình 3.2: Minh họa việc huấn luyện bộ lọc góc của hai đối tượng xe đạp và xe hơi đạp và xe hơi, mỗi đối tượng trong trường hợp này có ba thành phần.
Phase 2, Trộn các thành thành:Các bộ lọc gốc ban đầu được kết hợp vào trong một
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 22 mô hình hỗn hợp mà không có các bộ phận Các thông số của mô hình hỗn hợp được huấn luyện lại sử dụng tập dữ liệu đầy đủ, tập dữ liệu này chưa được chia ra các nhóm và chưa lấy phản chiếu Trong trường hợp này nhãn của các thành phần và vị trí của bộ lọc gốc được xem như là các biến ẩn Thuật toán coordinate descent có thể được xem như là một phương pháp phân cụm phân biệt, luân phiên làm các công việc gán nhãn cụm (nhãn của mô hình trộn) cho các mẫu và việc ước lượng nhóm góc.
Phase 3, khởi tạo các bộ lọc bộ phậnVới mỗi phần của mô hình trộn, số thành phần được thiết lập là 6, đặt các phần có vào các vị trí có năng lượng cao trong bộ lọc gốc Năng lượng của một vùng được định nghĩa bằng chuẩn của vector trọng số trong cửa sổ đó Các phần được neo theo trục dọc của bộ lọc gốc hoặc nếu phần đó không là nằm trên trục dọc thì nó sẽ có một phần khác đối xứng với nó qua trục dọc của bộ lọc gốc Khi một phần chọn được vị trí của nó năng lượng tại vùng đó của bộ lọc góc được thiết lập bằng 0, và chúng ta tìm vùng có năng lượng cao tiếp theo cho đến khi mô hình có đủ sáu phần.
Các bộ phận được cài đặt bằng cách nội suy bộ lọc gốc thành độ phân giải cao gấp đôi ở các vị trí của từng phần tương ứng Tham số biến dạng của mỗi phần đầu tiên được cài đặt bằng d i = (0,0,1,1) Việc gán trọng số đánh giá chi phí biến dạng này thể hiện rằng các phần mà ở sát vị trí neo sẽ có chi phí biến dạng thấp trong khi những phần cách xa vị trí của neo sẽ có chi phí biến dạng cao.
Hình 3.3 minh họa mô hình một số đối tượng đã được huấn luyện theo tập dữ liệuPASCAL 2009 Trong mỗ nhóm đối tượng số hàng minh họa số thành phần của nhóm, cột thứ nhất minh họa bộ lọc gốc, cột thứ hai minh họa các bộ lọc bộ phận, hình 3 minh họa chi phí biến dạng cho mỗi phần của đối tượng.
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN
Hình 3.3: Mô hình một số đối tượng hoàn thành sau khi huấn luyện.
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 24
TRÍCH XUẤT ĐẶC TRƯNG CỦA ĐỐI TƯỢNG
Trích xuất đặc trưng HOG của đối tượng
Thuật toán Histogram of Oriented Gradients (HOG) dùng để trích xuất đặc trưng của một vùng ảnh, được giới thiệu lần đầu tiên bởi Dalal [7] Thuật toán ban đầu được dùng để phát hiện người đi bộ (perdestian detection), tuy nhiên sau đó do tính bền vững và dễ thực hiện của thuật toán nó đã được sử dụng nhiều trong các bài toán phát hiện đối tượng. Đặc tính của đặc trưng là bất biến đối với các sự thay đổi độ sáng, sự đổ bóng, các phép biến đổi hình học, độ sáng cục bộ, dịch chuyển và xoay một phần nhỏ của đối tượng.
Phương pháp HOG dựa trên việc đếm số lần xuất hiện của các hướng đạo hàm (gradient orientation) trong các vùng cục bộ của ảnh Ý tưởng chính của thuật toán là hình dáng và trạng thái của vật thể có thể được đặc trưng bằng sự phân bố về cường độ và hướng của các cạnh.Thông tin về hình dáng và vẻ bề ngoài của các đối tượng cục bộ trong ảnh có thể được mô tả bằng cách sử dụng thông tin về sự phân bố của các cường độ gradient (intensity gradients) hoặc của các hướng biên (edge directions).
Thuật toán HOG được cài đặt bằng cách chia một ảnh thành các vùng nhỏ gị là các cell.
Với mỗi cell một histogram về các hướng của gradient sẽ được tính cho các điểm nằm tròng trong cell Ghép các histogram này lại ta có một biểu diễn cho bức ảnh ban đầu Để tăng hiệu quả nhận dạng các histogram cục bộ có thể được chuẩn hóa về độ tương phản bằng cách tính một ngưỡng về cường độ trong một vùng lớn hơn trong ảnh gọi là block, và sử dụng ngưỡng đó để chuẩn hóa tất cả các cell trong khối đó Kết quả của bước này là các vector đặc trưng có tính bất biến cao hơn so với các biến đổi về điều kiện ánh sáng.
Thuật toán tính vector đặc trưng HOG của một ảnh có bản gồm có bốn bước: Tính gradient, gán hướng vào các vùng giá trị khác nhau, tính histogram của các khối, và chuẩn
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN hóa các khối.
Tính gradient: được thực hiện bằng cách lấy tích chập ảnh gốc với 2 nhân một chiều D x =h
Với một ảnhI ta sẽ có hai đạo hàm riêng theo hai hướng được tính bằng công thức I x =I∗D x vàI y =I∗D y Với mỗi điểm ảnh (x,y)sẽ có hai thành phần tương ứng, hướngθ(x,y)và cường độr(x,y)với: θ =arctan
Hình 4.1 minh họa kết quả của các phép tính đạo hàm theo các phương dọc và ngang cùng với hướng cà cường độ gradient của một ảnh.
Gán hướng: Sau khi tính đạo hàm ta có thành phần hướng ở các điểm ảnh trong mỗi cell của ảnh đầu vào Các giá trị này được chia đều vào trong pô khác nhau sử dụng một trong hai phương pháp signed-HOG hoặc unsigned-HOG:
Tức các giá trị hướng này được chia thành các vùng đều nhau trong khoảng từ 0 đến 360 0 hoặc từ0đến180 0 Theo khảo sát của Dalal trong [7], thì với p=9và phương pháp B 2 thì cho kết quả tốt hơn đối với các bài toán phát hiện đối tượng Có ngĩa với các giá trị hướng nằm trong khoảng
0, 180 9 sẽ được phân vào ô thứ nhất, ác giá trị hướng nằm trong khoảng 180
9 ,2∗ 180 9 sẽ được phân vào ô thứ hai, vv Sau đó histogram của mỗi ô sẽ được tính độc lập với nhau.
Tính histogram của các khối: Để đáp ứng với sự thay đổi về điều kiện ánh sáng và độ tương phản, các giá trị gradient cần phải được chuẩn hóa cục bộ, điều này đòi hỏi phải gán các cell thành các vung liên kết không gian với nhau gọi là các khối Vector histogram sẽ là vector tổng hợp histogram của các cell đã được chuẩn hóa từ các khối, các khối này được chia và không tách biệt nhau, mỗi cell sẽ đóng góp thông tin về các hướng tại các điểm ảnh của nó nhiều hơn một lần.
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 26
Hình 4.3 minh họa việc móc nối các cell thành các block Trong hình các ôC 1 , ,C 9 minh họa các cell có kích thước 8∗8, block đầu tiên màu đỏ có kích thước 2∗2 sẽ kết nối cacsc cell C 1 ,C 2 ,C 4 ,C 5 lại với nhau Tiếp đến block màu vàng sẽ kết nối các cell C 2 ,C 3 ,C 5 ,C 6 Mỗi lần các block trượt qua một cell.
Chuẩn hóa các khối : Có nhiều phương pháp chuẩn hóa các khối Trong luận văn này các khối được chuẩn hóa theo chuẩn 2 (L2-hys) Gọivlà vector cần chuẩn hóa chứa tất cả các histogram của một khối Các giá trị củavlớn hơnα được cắt xén vềα. v i
Sau đó khối được chuẩn hóa theo công thức f = v q kvk 2 2 +ε 2
(4.6) trong đó ε 2 là một giá trị dương rất nhỏ nhằm tránh trường hợp chia cho 0 Các thông số cuả việc trích xuất đặc trưng HOG trong luận văn này được sử dụng là: số bin p=9, kích thước của cellk=h
, giá trị giới hạnα=0.2 Điều này dẫn đến kích thước của mỗi vector đặc trưng là 36.
Hình 4.1(f) minh họa hình ảnh của một đặc trưng HOG của hình ảnh người đi xe máy thể hiện trong hình 4.1(a).
PCA và phân tích giảm số chiều của vector đặc trưng
Một nhược điểm của việc trích xuất đặc trưng HOG là số chiều của vector lớn Để khắc phục nhược điểm của HOG, phần này trình bày phương pháp để giảm số chiều của dữ liệu.
Cách đơn giản nhất để giảm chiều dữ liệu từ D về K < D là chỉ giữ lại K phần tử quan trọng nhất Tuy nhiên, việc làm này chắc chắn chưa phải tốt nhất vì chúng ta chưa biết xác định thành phần nào là quan trọng hơn Hoặc trong trường hợp xấu nhất, lượng thông tin mà mỗi thành phần mang là như nhau, bỏ đi thành phần nào cũng dẫn đến việc mất một lượng thông tin lớn [25].
PCA chính là phương pháp đi tìm một hệ cơ sở mới sao cho thông tin của dữ liệu chủ yếu tập trung ở một vài toạ độ, phần còn lại chỉ mang một lượng nhỏ thông tin Và để cho
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN đơn giản trong tính toán, PCA sẽ tìm một hệ trực chuẩn để làm cơ sở mới Ý tưởng chính của PCA: Tìm một hệ trực chuẩn mới sao cho trong hệ này, các thành phần quan trọng nhất nằm trongKthành phần đầu tiên.
Vector đặc trưng HOG của mỗi block có độ dài là 36 được tạo thành từ 4 vector his- togram, mỗi vector này có số chiều bằng 9 đã được chuẩn hóa vì vậy có thể xem mỗi vector đặc trưng HOG như một ma trận4×9 Các thành phần chính của vector đặc trưng được thể hiện trong hình 4.4 Các trị riêng chỉ ra rằng các không gian con xấp xỉ 11 vector riêng thu giữ tất cả các thông tin quan trọng của vector đặc trưng HOG.
(4.8) là một hệ cơ sở trực giao mới Chúng ta định nghĩa một vector đặc trưng mới có số chiều là 13 bằng cách lấy tích vô hướng của vector đặc trưng gốcF original (có số chiều là 36) với với mỗi phần tửu k vàv k Tích vô hướng củaF original với cácu k được thực hiện bằng cách tính tổng của bốn vector hướng đã được chuẩn hóa Tích vô hướng củaF original với cácv k được tính bằng cách tính tổng trên 9 hướng của mỗi vector đã được chuẩn hóa.
Việc thực hiện phát hiện đối tượng sử dụng vector đặc trưng gốc có độ dài bằng 36 hay vector đã được phân tích có độ dài bằng 11 hoặc 13 có kết quả tương tự nhau Tuy nhiên việc tính toán trên vector có độ dài bằng 11 hoặc 13 đỡ tốn chi phí tính toán củng như về mặt lưu trữ Mặt khác việc tính toán vector đặc trưng mới bằng cách chiếu vector đặc trưng gốc lênu k vàv k đỡ tốn kém chi phí hơn Hơn nữa vector đặc trưng có độ dài bằng 13 được hiểu một cách đơn giản như là kết hợp của 9 đặc tính hướng và 4 đặc tính phản ánh về tổng năng lượng gradient ở các khu vực khác nhau xung quanh một cell.
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 28
Trong quá trình thực nghiệm, trong một số trường hợp sử dụng signed-HOG có kết quả cao hơn so với việc sử dụng unsigned-HOG và ngược lại Chính vì vậy trong luận văn này vector đặc trưng HOG được trích xuất bằng cách kết hợp cả signed-HOG và unsigned-HOG.
ChoC là vector đặc trưng thu được bằng cách tính HOG của ảnh theo phương pháp unsigned-HOG với 9 hướng.Dlà vector đặc trưng thu được bằng cách tính HOG của ảnh theo phương pháp signed-HOG với 18 hướng.CvàDtrong các block được chuẩn hóa dựa theo công thức 4.6, và sau đó được cắt ngọn các phần từ lớn hơnα sử dụng công thức 4.5, với α =0.2 Kết quả chúng ta đạt được một vectorF có độ dài bằng 4∗(9+18) 8.
Bằng cách xác định lạiV ={u 1 , ,u 27 } ∪ {v 1 , ,v 4 }, và thực hiện việc chiếuF lên cácv k vàu k tương ứng Việc chiếu được thực hiện bằng cách sử dụng công thức 4.10 với chú ý ở đây độ dài của mỗiH i là 27 Kết quả chúng ta đạt được một vector có độ dài bằng 31, với27 chiều tương ứng với 27 hướng (9 unsigned-HOG và 18 signed-HOG), cộng với 4 chiều thu giữ toàn bộ năng lượng gradient trong các cell của một khối.
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN
Hình 4.1: Trích xuất đặc trưng HOG, (a) ảnh gốc, (b) đạo hàm theo phương ngang, (c) đạo hàm theo phương dọc, (d) Cường độ gradient, (e) hướng gradient, (f) Minh hoạ ảnh của HOG
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 30
Hình 4.2: Minh họa việc gán hướng gradient
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN
Hình 4.3: Minh họa việc tính histogram tại các khối
Hình 4.4: Phân tích PCA của vector đặc tính HOG
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 32
KẾT QUẢ THỰC NGHIỆM VÀ KẾT LUẬN
Các tập mẫu
Luận văn này đã tiến hành áp dụng mô hình các đặc tính cục bộ vào việc phát hiện đối tượng trên các tập mẫu phổ biến Với mỗi tập dữ liệu, mô hình của đối tượng được huấn luyện riêng biệt dữa vào dữ liệu của tập đó Mỗi tập chứa hàng ngàn bức ảnh được thu thập từ thế giới thực Các ảnh này đặt ra các thách thức đối với các chương trình phát hiện đối tượng Các thách thức này bao gồm kích thước đa dạng của ảnh, kích thước đối tượng, sự hỗn độn của nhiều nhóm đối tượng trong một hình, sự biến dạng của đối tượng, sự đa dạng của đối tượng trong cùng một lớp, vv Thách thức đặt ra là các chương trình phát hiện đối tượng phải đưa ra dự đoán chính xác về vị trí và số lượng của mỗi nhóm đối tượng ở trong hình Mỗi tập dữ liệu này các bounding-box ground-truth của các nhóm đối tượng (vị trí hình chữ nhật bao quanh đối tượng trong mỗi bức ảnh nhằm dùng để đánh giá các chương trình phát hiện các nhóm đối tượng) Trong thực nghiệm các hệ thống phát hiện đối tượng phải đưa ra được bounding-box với điểm tương ứng của nó (xác suất bao nhiêu phần trăm là đối tượng).
Tập mẫu INRIA Person Dataset: Tập dựa liệu này lần đầu tiên được giới thiệu trong bài báo của Dalal [7] bao gồm các thách thức về nhận phát hiện hình ảnh con người trong tư thế đứng thẳng Tập dữ liệu được chia làm hai phần riêng biệt (a) hình ảnh gốc với các tệp chú thích về vị trí tương ứng của đối tượng, và (b) Các hình ảnh về con người với tư thế thẳng đứng ở kích thước 64x128, và một nhóm hình không chứa hình ảnh con người Phần b) của dataset này dùng để huấn luyện đối tượng trong khi phần a) dùng để đánh giá mô hình.
PASCAL VOC 2012 Tập mẫu PASCAL [26] này đưa ra các thách thức nhằm nhận dạng và phát hiện đối tượng trong các ảnh được thu thập từ thế giới thực Tập gồm 20 lớp
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN đối tượng, mỗi lớp đối tượng chứa hàng ngàn bức ảnh được chia làm hai nhóm, một nhóm dùng để huấn luyện mô hình, nhóm còn lại dùng để đánh giá mô hình Đi kèm với tập dữ liệu này là một Development Kit hỗ trợ việc truy xuất dataset, đọc các annotation, hỗ trợ huấn luyện và đánh giá mô hình theo chuẩn của tập mẫu đưa ra.
SUN Dataset 2012: Tập mẫu SUN [11] được xây dựng nhằm cung cấp data cho các nghiên cứu trong lĩnh vực thị giác máy tính Các ảnh trong tập này được thu thập từ môi trường mạng Tập mẫu cung cấp một số định dạng khác nhau trong đó có định dạng tương tự như tập mẫu PASCAL VOC 2012 nhằm tận dụng hỗ trợ của Development Kit của tậpPASCAL.
Tiêu chuẩn đánh giá
Mộ số khái niệm sau được dùng để đánh giá độ chính xác của mô hình trên các tập mẫu.
T P i : Số lượng các ví dụ thuộc lớpc i được phân loại chính xác vào lớpc i FP i : Số lượng các ví dụ không thuộc lớpc i bị phân loại nhầm vào lớpc i FN i : Số lượng các ví dụ thuộc lớpc i bị phân loại nhầm (vào các lớp khácc i ).
Precision (Độ chính xác): trong tập tìm được thì bao nhiêu cái (phân loại) đúng.
Recall: Tổng số các ví dụ thuộc lớpc i được phân loại chính xác chia cho tổng số các ví dụ thuộc lớpc i
T P+FN (5.2) Độ chính xác trung bình (average precision - AP) là một độ đo kết hợp độ chính xác ở các mức bao phủ và được tính bởi công thức sau:
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 34 với p(r)˜ là giá trị precision đo được tại recallr.˜
Trong các tập dữ liệu chuẩn của PASCAL, AP được định nghĩa là độ chính xác trung bình tại tập hợp 11 khoảng đều nhau của đường cong precision-recall.
Trong quá trình thực nghiệm, Precision thể hiện được độ chính xác của việc phát hiện đối tượng Một bounding-box đưa ra được cho là dự đoán chính xác đối tượng nếu phần diện tích của bounding-box đó bao phủ hơn 50% của bounding-box ground-truth Nếu phần hợp đó bé hơn 50% thì xem như dự đoán sai Nếu nhiều bounding box cùng nằm trên một vùng của ground-truth thì chỉ một cái được xem là đúng còn các bounding-box khác xem như phát hiện sai.
Kết quả thực nghiệm
Việc huấn luyện mô hình và thực nghiệm phát hiện đối tượng được xây dựng trên phần mềm Matlab 2015b, chạy trên hệ điều hành Windows 10 64bit Với các thông số của phần cứng như sau: Chip Intel(R) Core(TM)i5-3337u CPU @1.8Ghz., với RAM 6GB.
Luận văn đã tiến hành xây dựng (huấn luyện) mô hình của ba nhóm đối tượng Person, Motobike và Car trên mỗi tập dữ liệu Mỗi tập dữ liệu đã mô tả ở trên bao gồm 2 phần, Training data set và Test data set Trong Training data set chứa 2 tập Possitive set và Neg- ative set.Tập Possitive set chứa các hình ảnh có đối tượng, và bounding box bao quanh đối tượng được mô tả trong một tập tin xml kèm theo Data set chứa vị trí trên trái và dưới phải của bounding box Tương tự cho tập Negative set với các hình không chứa đối tượng Việc đọc các thông tin này được tiến hành dựa vào Development kit kèm theo Dataset.
Việc trích xuất đặc trưng của Possitive set và Negative set được thực hiện theo thuật toán trích xuất đặc trưng HOG và thực hiện phân tích giảm số chiều của vector đặc trưng theo thuật toán PCA được mô tả trong chương 4.
Việc huấn luyện mô hình được thực hiện bằng sự hỗ trợ của thư viện SVM-Light [27].
Trình tự huấn luyện được thực hiện theo ba bước:
• Bước 1: Huấn luyện bộ lọc gốc, các mẫu positive được chia thànhmnhóm theo tỉ số hình dáng, kích thước của bộ lọc gốc thứi,F i được xác định theo tỉ số hình dáng và
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN
Bảng 5.1: Kết quả phát hiện các nhóm đối tượng theo chỉ số AP diện tích trung bình của các mẫu positive trong nhóm Bộ lọc gốcF i được huấn luyện theo thuật toán SVM.
• Bước 2: Huấn luyệnmthành phần của mô hình hỗn hợp Ở bước này mô hình hỗn hợp chưa xác định được các bộ lọc gốc.
• Bước 3: Khởi tạo các bộ lọc gốc: sử dụng 8 hình chữ nhật bao phủ toàn bộ đối tượng và cho mỗi hình này trượt qua toàn bộ bộ lọc gốc ở độ phân giải gấp đôi Trong quá trình trượt mặt nạ này qua bộ lọc gốc, tại các vị trí có mức năng lượng cao hơn mặt nạ này xác định được vị trí của bộ lọc bộ phận Các tham số của hàm chi phí biến dạng được xác định vớid i = (0,0,1,1).
Thời gian huấn luyện một mô hình đối tượng khoảng 4 giờ Kết quả của một số mô hình đã huấn luyện được mô tả trong hình 3.1.
Sau khi mô hình của các đối tượng được huấn luyện, các mô hình này được áp dụng vào việc phát hiện đối tượng Thuật toán phát hiện một đối tượng trong một hình ảnh được thực hiện dựa theo giải thuật mô tả trong hình 2.3 Ngưỡng cho việc phát hiện đối tượng được thiết lập là 0.3 Thời gian phát hiện một đối tượng trong một bức ảnh có kích thước 800×600với thời gian xấp xỉ 2s.
Các mô hình đã huấn luyện được áp dụng vào việc phát hiện đối tượng trong các tập mẫu PASCAL VOC, INRIA PERSON, SUN DATABASE Kết quả của mô hình được ước lượng thông qua bảng 5.1 Chỉ số AP trong bảng này tương đối thấp, tuy nhiên cũng cần nhấn mạnh là các tập mẫu này chứa nhiều trường hợp tương đối thách thức đối với tất cả các thuật toán phát hiện đối tượng. Đối với việc phát hiện một nhóm đối tượng, chương trình đầu tiên load mô hình đối
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 36 tượng đã được lưu trữ Tiếp đến hình ảnh được tính feature map tại các tỉ lệ khác nhau.
Sau khi áp dụng thuật toán phát hiện đối tượng được mô tả trong hình 2.3 và áp dụng một ngưỡng chương trình sẽ chỉ ra vị trí của đối tượng Hình 5.1 minh họa việc phát hiện các đối tượng với các bộ phận tương ứng Trong hình các hình chữ nhật màu xanh minh họa vị trí của các bộ phận, hình chữ nhật màu đỏ minh họa vị trí của đối tượng Hình 5.2 minh họa một số kết quả của việc phát hiện các đối tượng person, car và motobike Trong hình các đối tượng xuất hiện trong nhiều ngữ cảnh khác nhau, các đối tượng đứng xen kẽ hoặc bị che khuất một phần, kích thước của ảnh và đối tượng cũng đa dạng.
Hình 5.1: Kết quả của thuật toán phát hiện đối tượng dựa theo cấu trúc bộ phận.
Việc phát hiện nhiều nhóm đối tượng cùng lúc được thực hiện bằng cách sau khi tính toán feature map của ảnh ở các scale khác nhau sau đó sử dụng mô hình của từng đối tượng kết hợp với thuật toán phát hiện đối tượng lần lượt Hình 5.3 minh họa việc phát hiện nhiều đối tượng cùng lúc Việc phát hiện sai, phát hiện thiếu đối tượng cũng xảy ra ở một số trường hợp được minh họa trong hình 5.4 Sự sai sót này đến từ nhiều nguyên nhân như sự đa dạng của nhóm đối tượng, sự che khuất một phần, sự biến dạng quá lớn của đối tượng so với mô hình góc, hay sự gần giống nhau của các nhóm đối tượng, v.v.
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN
Hình 5.2: Kết quả của thuật toán phát hiện đối tượng.
Hình 5.3: Kết quả của thuật toán phát hiện nhiều đối tượng cùng lúc.
Kết luận
Luận văn đã tiến hành xây dựng được mô hình toán của đối tượng dựa trên các đặc tính cục bộ Mô hình có tính đáp ứng được với tính đa dạng của đối tượng có nhiều bộ phận, mỗi bộ phận có sự biến dạng khác nhau Tiến hành xây dựng được thuật toán trích xuất đặc trưng của đối tượng, đồng thời sử dụng thuật toán phân tích thành phần chính PCA để giảm số chiều của vector đặc trưng trong khi vẫn giữ được các thông tin cơ bản của đối
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 38
Hình 5.4: Một số trường hợp phát hiện sai đối tượng. tượng Luận văn cũng đã xây dựng được thuật toán huấn luyện đối tượng dựa theo thuật toán Latent-SVM mà các bộ phận của đối tượng xem như một biến ẩn Sử dụng mô hình của đối tượng đã được huấn luyện để phát hiện đối tượng trên ba tập dữ liệu phổ biến đó là INRIA Person, PASCAL VOC 2012, SUN Database 2012.
Mặc dù đã đạt nhiều kết quả quan trọng nhưng luận văn vẫn còn một số vấn đề chưa được giải quyết triệt để hoặc cần thực nghiệm nhiều hơn để kiểm chứng: Mô hình nhạy cảm với việc cài đặt các tham số ban đầu trong quá trình huấn luyện, dẫn đến mô hình đối tượng nhiều lúc không có kết quả cao trên cùng một tập dữ liệu Phân tích thì mô hình được cấu thành từ nhiều lớp tức trong đối tượng có đối tượng nhưng chỉ mới thực nghiệm trên các đối tượng với cấu hình một lớp Tốc độ thực hiện của chương trình còn chậm, chưa đáp ứng được các bài toán real-time.
Trong thời gian tới cần cải thiện chương trình huấn luyện đối tượng sao cho việc cài đặt các thông số ban đầu được tiến hành một cách tự động các tham số này không ảnh hưởng nhiều đến mô hình của đối tượng Thực nghiệm xây dựng mô hình của đối tượng có nhiều lớp lồng vào nhau nhằm hoàn chỉnh mô hình Xây dựng chương trình bằng các giải thuật xử lý song song nhằm nâng cao tốc độ của chương trình.
HỌC VIÊN
tion
Vehicle classification and detection based coarse data
for warning traffic jam in VietNam
Tên hội nghị:The 3rd National Foundation for Science and Technology Development Con- ference on IEEE, 2016
Tên tác giả:Đinh Văn Tuyến, Lưu Ngọc Điệp, Trịnh Hoàng Hơn
Bài báo trình bày cách phân loại các loại xe trong bài toán giao thông thông minh Sử dụng các đặc tính hình học bài báo đề xuất giải thuật trích xuất vùng quan tâm Các đặc tính hình học của đối tượng như diện tích, tỉ số hính dáng, độ dài các trục, v.v được sử dụng để huấn luyện mô hình của các loại phương tiện Đồng thời dựa vào các đặc tính này bài báo cũng đưa ra cách tính mật độ, lưu lượng xe.
ING VEHICLE DETECTION
A Robust Geometric Model of Road Extraction Method
Tên hội nghị:The 4th NAFOSTED Conference on Information and Computer Science,
Tên tác giả:Đinh Văn Tuyến, Trịnh Hoàng Hơn
Bài báo trình bày phương pháp trích xuất vùng quan tâm trong bài toán giám sát giao thông
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN ở Việt Nam Hướng tiếp cận của bài báo là sử dụng các đặc tính chuyển động của đối tượng để dự đoán được vùng quan tâm mà không dựa vào các đặc tính hình học như các bài báo trước đây Các đặc trưng cục bộ của đối tượng di chuyển trên đường được trích xuất nhằm mục đích matching sự giống nhau của các đối tượng trong hai frame liền kề nhau Sau đó dùng giải thuật RANSAC được sử dụng để tìm điểm vô cực Thống kê vị trí cực trị của các đặc trưng cục bô kết hợp với điểm vô cực bài báo đã chỉ ra cách để giới hạn vùng quan tâm mà không sử dụng đến các đặc tính cạnh.
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 42
[1] M Everingham, S A Eslami, L Van Gool, C K Williams, J Winn, and A Zis- serman, “The pascal visual object classes challenge: A retrospective,”International journal of computer vision, vol 111, no 1, pp 98–136, 2015.
[2] P F Felzenszwalb, R B Girshick, D McAllester, and D Ramanan, “Object detec- tion with discriminatively trained part-based models,”IEEE transactions on pattern analysis and machine intelligence, vol 32, no 9, pp 1627–1645, 2010.
[3] P F De Carrera and I Marques, “Face recognition algorithms,” Master’s thesis in Computer Science, Universidad Euskal Herriko, 2010.
[4] P Viola and M J Jones, “Robust real-time face detection,” International journal of computer vision, vol 57, no 2, pp 137–154, 2004.
[5] D G Lowe, “Distinctive image features from scale-invariant keypoints,” Interna- tional journal of computer vision, vol 60, no 2, pp 91–110, 2004.
[6] H Chennamma, L Rangarajan et al., “Face identification from manipulated facial images using sift,” in Emerging Trends in Engineering and Technology (ICETET), 2010 3rd International Conference on IEEE, 2010, pp 192–195.
[7] N Dalal and B Triggs, “Histograms of oriented gradients for human detection,” in
Computer Vision and Pattern Recognition, 2005 CVPR 2005 IEEE Computer Society Conference on, vol 1 IEEE, 2005, pp 886–893.
[8] P Felzenszwalb, D McAllester, and D Ramanan, “A discriminatively trained, mul- tiscale, deformable part model,” inComputer Vision and Pattern Recognition, 2008.
CVPR 2008 IEEE Conference on IEEE, 2008, pp 1–8.
[9] P Sermanet, K Kavukcuoglu, S Chintala, and Y LeCun, “Pedestrian detection with unsupervised multi-stage feature learning,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2013, pp 3626–3633.
LUẬN VĂN CAO HỌC GVHD: TS TRỊNH HOÀNG HƠN
[10] R Girshick, “Fast r-cnn,” in Proceedings of the IEEE international conference on computer vision, 2015, pp 1440–1448.
[11] J Xiao, J Hays, K Ehinger, A Oliva, and A Torralba, “Sun database: Large-scale scene recognition from abbey to zoo,” in2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.
[12] O Russakovsky, J Deng, H Su, J Krause, S Satheesh, S Ma, Z Huang, A Karpathy, A Khosla, M Bernsteinet al., “Imagenet large scale visual recognition challenge,”
International Journal of Computer Vision, vol 115, no 3, pp 211–252, 2015.
[13] A Goshtasby, “Description and discrimination of planar shapes using shape matri- ces,” IEEE Transactions on Pattern Analysis and Machine Intelligence, no 6, pp.
[14] R Y Wong and E L Hall, “Scene matching with invariant moments,” Computer Graphics and Image Processing, vol 8, no 1, pp 16–24, 1978.
[15] V T Dinh, N D Luu, and H H Trinh, “Vehicle classification and detection based coarse data for warning traffic jam in vietnam,” in 2016 3rd National Foundation for Science and Technology Development Conference on Information and Computer Science (NICS), Sept 2016, pp 223–228.
[16] V.-T D H H Trinh, Manh-Dung Ngo, “Hog and geometrical model based moving vehicle detection,” inThe 2017 12th IEEE Conference on Industrial Electronics and Applications (ICIEA 2017), Sept 2017, pp 1896–1901.
[17] H.-H T Van-Tuyen Dinh, Manh-Dung Ngo, “Histogram of oriented gradients based vehicle detection,” inHội nghị toàn quốc lần thứ 8 về Cơ Điện tử - VCM-2016.
[18] H Bay, T Tuytelaars, and L Van Gool, “Surf: Speeded up robust features,”Computer vision–ECCV 2006, pp 404–417, 2006.
[19] G Zhang, X Huang, S Z Li, Y Wang, and X Wu, “Boosting local binary pattern (lbp)-based face recognition.” inSinobiometrics Springer, 2004, pp 179–186.
HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 44
[20] M Donoser and H Bischof, “Efficient maximally stable extremal region (mser) track- ing,” inComputer Vision and Pattern Recognition, 2006 IEEE Computer Society Con- ference on, vol 1 IEEE, 2006, pp 553–560.
[21] V T Dinh and H H Trinh, “A robust geometric model of road extraction method for intelligent traffic system,” in2017 4th NAFOSTED Conference on Information and Computer Science, Nov 2017, pp 264–268.
[22] J.-G Wang, J Li, W.-Y Yau, and E Sung, “Boosting dense sift descriptors and shape contexts of face images for gender recognition,” inComputer Vision and Pat- tern Recognition Workshops (CVPRW), 2010 IEEE Computer Society Conference on.
[23] P Felzenszwalb and D Huttenlocher, “Distance transforms of sampled functions,”
[24] P F Felzenszwalb and D P Huttenlocher, “Pictorial structures for object recogni- tion,”International journal of computer vision, vol 61, no 1, pp 55–79, 2005.
[25] “Principal component analysis,” https://machinelearningcoban.com/2017/06/15/pca/, accessed: 2017-12-10.
[26] M Everingham, L Van Gool, C K I Williams, J Winn, and A Zisser- man, “The PASCAL Visual Object Classes Challenge 2012 (VOC2012) Results,” http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html.
[27] T Joachims, “Making large-scale svm learning practical,” Universit¨at Dortmund, LSVIII-Report, LS8-Report 24, 1998.
Vehicle Classification and Detection based Coarse data for Warning Traffic Jam In
Van-Tuyen Dinh ICALab, University of Technology,
VietNam National University in Hochiminh City, VietNam Email: dvtuyen@icalabhcmut.edu.vn
Website: http://icalabhcmut.edu.vn/
Ngoc-Diep Luu ICALab, University of Technology,
VietNam National University in Hochiminh City, VietNam Email: lndiep@icalabhcmut.edu.vn Website: http://icalabhcmut.edu.vn/
Hoang-Hon Trinh ICALab, University of Technology,
VietNam National University in Hochiminh City, VietNam Email: thhon@icalabhcmut.edu.vn Website: http://icalabhcmut.edu.vn/
Abstract—This paper describes a new method to detect vehicles such as cars, motorbikes; it will be a good coarse data to analyze the traffic jam, specially in VietNam where motorbikes densely appear on the roads From a new image, the method auto-hierarchically (automatically and hierarchically) learns and retrieves geometrical model, backgroud model, foreground objects The geometrical model is used for reducing size of focus region, and reduc- ing time processing The background is automatically re- trieved and updated by using Median filter method From the background model and new image, the foreground objects are detected as candidates of Vehicles To detect and classify the vehicle, Morphological features as area, aspect ratio, bounding box, orientation are used From training set, the thresholds of morphological features are specified for each type of single, double or motorbikes, cars This approach is built and finished by several well known algorithms such as line segment detection, domi- nant vanishing point calculation The results shows that single, double or motorbikes, cars of vehicles are detected and classified in high accuracy and highly potential for real applications.
Nowadays, the research of intelligent traffic con- troller (ITC) is popular topic on the world Transporta- tion research has the aim to optimize transportation flow of people and goods Because the number of vehicle increases and resources provided by the current infrastructures are limited, intelligent control of traffic will become an important issue in the future Avoiding congestions for example is thought to be beneficial to both environment and economy [4] In practice, ITC always be challenged not only by cycle traffic lights, traffic management signals, early warning, traffic jam but also automatic penalty, tracking demented vehicle, errors traffic statistics, etc Therefore, vehicle detection is essential.
Studies in many countries have tried to improve traffic congestion on city roads during peak hours [1], [3], [6], [7], [8], [9], [10] Many studies, so many algorithms and methods were proposed but they are the same operating principle of the traffic control system based on important information such as flow, speed and density of vehicles in road The images obtained from the camera are transmitted to the control cabinet This data is pre-processed and packaged data compression before transfer to processing centers The control cabinet can perform sampling images from the camera And sampling cycle can be controlled from the central control and traffic monitor Controlling signal information (cycle traffic lights, traffic management signals) is transmitted to the controlling cabinets in real time From these control signals, controlling cabinets directly control the traffic signals at the intersection.
System controlling panel operates in four modes: The automatic mode operates according to the traffic situ- ation; remote controlling mode; fixed operating cycle mode and manual Control mode Intelligent control system automatically updates the traffic situation at the intersections through the camera after a period of time to calculate and adjust operating cycle of green- red lights to give the optimal parameters This is a reasonable way to manage traffic flow and reduce the risk of congestion.
Fig 1 Proposed scheme for Vehicle Classification and Detection based Coarse data for Warning Traffic Jam In VietNam
However, flow traffic parameters and propsed meth- ods are difficult to apply in Vietnams traffic condition.
2016 3rd National Foundation for Science and Technology Development Conference on Information and Computer Science
Because the motorbikes occupy a large number of vehicle components in Vietnam All of their approaches were applied for highway, where camera positions are high The images of objects (cars) are separated so that they even could be counted and the objects are easy to track In VietNam and several Asian countries, the motorcycles are congestion so their images are coherence at peak times.
In this paper, we propose an approach as see in Fig.1, where the number of appeared objects is estimated via their density To detect and classify the vehicles, the foregrounds are extracted as candidates of moving objects Then morphological features as area, aspect ratio, bounding box, orientation are calculated The candidates that survive all trained thresholds are treated as detected vehicles To reduce processing times, the proposed method builds a geometrical model that can be used to extract focus regions A background and foreground of focus regions are used for proposed process The remainder of this paper is organized as fol- lows, section 2 introduces a construction of geometrical model; section 3 builds and updates the background; section 4 describes how morphological features and trained thresholds are calculated The experiments are represented in the section 5 The last section is for summarized several key ideas of the paper.
Fig 2 Hierarchical results of geometrical model processing, a) Original image, b) gray image, c) Detected edge, d) Survived edge pixels passing orientation conditons, f) Line segment detection result.
An input RGB image is converted into gray image, and normalized into [0,1] value of intensity Using
Canny function to get edge and gradient which is used to calculate the orientation We assume that the cap- tured images is always upright as in Fig.2(a); survived edge pixels are collected when they pass the follow conditions, δ = 1, −α 0 ≤ α ≤ α 0 (1a)
0, Others (1b) where, α = atan(dx, dy), is orientation of gradient at pixel (x,y) whose components (dx,dy) are received from Canny operator. α 0 is a threshold, in this paper α 0 is 45 0 Then the survived edge pixels are calculated,
BW (x,y) surv = BW (x,y) × δ (x,y) (2) where, BW (x,y) is edge image obtained from Canny operator.
The Orthogonal least squares method [2] is used to detect straight line segment as in Fig.2f Dominant vanishing point is calculated by MSAC (m-estimator sample consensus, [11]); the boundary of geometrical model is established from inlier segments of previous step.
Given continuous pairs of sequence images with a period of time equals to 0.2 second, two sub-regions are focused to reduce time processing and increase effective results The size and position of focused regions are estimated so that the objects inside are clear enough and all moving objects must be appeared with above period time To do so, the local features as SIFT- descriptors, [5], are calculated for all the road areas.
Two candidate regions are chosen then sliding along the geometrical model boundary; the sizes are increas- ing for each searching time The SIFT-descriptors of them are matched together, the results are automat- ically recorded for each pairs The training process are repeated for 50 first image pairs Total number of matches from each position is summarized, and two candidates winning with largest matched number are selected as focus regions of geometrical model A drawback of local feature method is that it takes a long time for feature extraction and matching The problem is more serious, when sliding windows are used within increased size But this process is in offline learning phase, so processing time does not affect to the final results The focused region pairs are not only used for exploring the good region but also used for tracking the moving objects The tracking phase of moving objects will be clarified in future work section of this paper.
In the case of upright images, the best candidates usually locate at bottom images because this position gives the best foreground resolution; this logic is clar- ified by obtained results in Fig.3c,d.
III B ACKGROUND MODEL AND UPDATING
To make the candidates of moving objects robust to scale and distortion by captured camera, all obtained
MOVING VEHICLE DETECTION
Hoang-Hon Trinh Ho Chi Minh City University of Technology, Viet Nam
Email: thhon@icalabhcmut.edu.vnn
Manh-Dung Ngo Ho Chi Minh City University of Technology, Viet Nam
Email: nmdung@hcmut.edu.vn
Van-Tuyen Dinh Ho Chi Minh City University of Technology, Viet Nam Email: dvtuyen@icalabhcmut.edu.vn
Abstract —This paper presents a new method for detecting moving vehicle based on Geometrical Model and Histograms of Oriented Gradient (HOG) features To do so, a geometrical model is built, which is used to reduce the size of the focus region and processing time This model has two components which are Road boundary and Background model Road boundary to redefine the limits of the focus region where the probability of vehicle detection on the road is the highest Background model helps indicate the candidate moving vehicle in the focus region The background is extracted and updated automatically by using the median method From the background and a new frame of video, the foreground is extracted as the candidate of the moving object Followed by, HOG feature pyramid is extracted from these region candidates Based on the score of the filters at different positions and scales, objects are detected and classified Finally, the Vietnam traffic dataset is used to verify the effectiveness and accuracy of the proposed method Experimental results show that the moving vehicles such as motorcycles, cars, buses and trucks have been detected and classified with high accuracy The use of combined geometry and background models has significantly reduced the number of times sliding windows on each photo frame.
An intelligent surveillance system typically has four func- tion modules, motion detection, object classification, object tracking and behavior recognition Moving object detection is the first step in this system to identify objects of interest in the video The result of this step affects the accuracy entire system.
Based on the information about the motion in the video, the methods of detecting moving objects are divided into three categories: Frame Difference, Optical Flow estimation, Background Subtraction The frame difference method detects all objects moving by considering the difference the between or more consecutive images Li & He [1], Lei & Gong [2] were based on the change in three consecutive frame image to detect moving objects The advantage of this method is simple calculations, however, when objects move at this method failed because the change between frames is not much The purpose of the Optical Flow Estimation method is to determine motion field from a set of image frame changes over time Assuming the appearance of the object is not much change in light intensity at two adjacent frames, Fleet & Weiss [3] were based on the gradient constraint equation to determine the movement of objects in an image sequence However, this method needs a large number of calculations, on the other hand it is also very sensitive to noise and the change in light intensity The back- ground subtraction method detects objects by comparing the change of a new frame from the background The key issue is to determine the precise background There are many methods to build and update the background model were Benezeth, et al [4], Sobral, et al [5] surveyed and compared with each other.
The two most common methods are Gaussian Of Mixture and Approximate Median The approximate Median method requires a large enough buffer for temporary storage before calculating the median frame, but it fits many models of different backgrounds In contrast, the Gaussian Of Mixture requires method requires only a small memory, but it does not automatically adapt to different background After obtaining the background, the foreground is extracted by getting a new frame minus background and compared to a threshold value.
Foreground is normalized by removing noise, the empty space is filled holes and adjacent areas are connected to each other.
Background Subtraction method, computational requirements is relatively few, but it is very sensitive to changes in light.
After the objects are shown, the classification of the object is performed on the candidate this region Parekh, et al [6], has divided the methods of classifying objects into four groups which are Shape based classification, Motion based, Color based classification and texture based classification.
Recently, some new methods have been applied to vehicle detection Li, at al [7] proposed a vehicle discovery model based on the AND-OR graph (AOG) multiscale model The advantage of this model is the circumvent the multiscale problem The experimental results of the model show that this model is efficiently dealt with multiscale vehicles and also adapted to different vehicle shapes and vehicle occlusion The use of the Convolutional Neural Network (CNN) is a new trend in object detection Bautista et al [8], have applied CNN in detection and classification of vehicles Using low quality traffic cameras Experimental results suggest that this approach can be applied to real-time traffic monitoring applications.
These methods often apply to traffic data sets collected in developed countries There are mainly Car and the distance between vehicles is relatively large In Vietnam and some other Asian countries, personal vehicles are mainly motorcycles.
Means of circulation often appear dense and move according to a certain law It is this problem that makes it difficult to detect the vehicle.
Fig 1 Proposed scheme for moving object detection
In this paper for the detection and classification of moving objects, an approach as see in Fig.1 has been proposed.
To reduce processing times, the proposed method builds a geometrical model that can be used to extract a focus region.
In this focus region, a background model is built based on the median method Then foregrounds are extracted as candidates of moving objects HOG features of the candidates are ex- tracted at different scales Next, these features are passing the SVM classifiers were trained earlier Here the classifiers will indicate what kind of the objects Because the candidates are extracted features in different scale should sometimes be more than a bounding box around an object Therefore, the removal of the excess bounding box is necessary to point out exactly the object The method proposed in this paper is tested on the Vietnam traffic dataset These videos were filmed in various roads in Vietnam in different environmental conditions The remainder of this paper is organized as follows, section 2 intro- duces a construction of geometrical model, section 3 describes how to extract HOG features The experiments are represented in the section 4 The last section is for summarizing several key ideas of the paper.
The determination of the limit of interest has important implications in the detection of objects It helps indicate the re- gion in which the objects are likely to appear higher So reduce processing costs in areas not necessary In Vietnam set traffic pattern, normally the roadside path reserved for pedestrians separated from the lane reserved for vehicles Based on the properties of the edge roadside dominant, limiting the region of interest is performed automatically An input RGB image is converted into gray image, and normalized in to [0, 1] value of intensity Line segment detection is the computation of image edges using the Canny edge detector The results of Canny function are edge and gradient which are used to calculate the they pass the follow conditions, δ = 1, −α 0 ≤ α ≤ α 0
0, Others (1) where, α = atan(dx, dy) , is the orientation of the gradient at pixel (x, y) whose components (dx, dy) are received from Canny operator is a threshold, in this paper α 0 is 45 0 Then the survived edge pixels are calculated,
BW (x,y) surv = BW (x,y) × δ (x,y) (2) where, is an edge image obtained from Canny operator The Orthogonal least squares method, Chen & Cowan (1991) is used to detect straight line segment as in Fig.2 ( e, f ) The dominant vanishing point is calculated by MSAC (m-estimator sample consensus, Zisserman & Mlesac [9]); the boundary of geometrical model is established from inlier segments of the previous step The result of this step is illustrated in Fig.2(g).
Given a frame of sequence images with a period of time equals to 0.2 second, a sub region is focused to reduce time processing and increase effective results To do so, HOG- features are calculated for all regions of the road A candidate region is chosen, then sliding along the geometrical model boundary; the sizes are increasing for each searching time.
The HOG-features of them are used to detect vehicles, the result is automatically recorded for the subregion The training process is repeated for 50 first images Total number of matches from each position is summarized, and a candidate winning with a largest matched number is selected as focus regions of geometric models In the case of upright images, the best candidates usually looked at bottom images because this position gives the best foreground resolution; this logic is clear by the results obtained in Fig.2(h).
Fig 2 The results of geometrical model and focus region processing, (a) Original image, (b) gray image, (c) Detected edge, (d) Survived edge pixels passing orientation conditions, (e) Line segment detection result, (f) inlier of MSAC algorithm, (f) detected boundary of geometrical model, (h) detected focus region
There are many methods of detecting background wereBouwmans, et al [10] surveyed and compared with each other.
However, because of the simplicity and efficiency, this paper has chosen the median method To verify the effectiveness, the paper compares the results with a different method was Trinh, et al [11] proposed before Given a group of N continuous images in the sequence, each image supports a focus region for training background The equation used in this study is described in the formula as Eq.3.
M xy t 0 = i=1,2, ,N−2 M edian (I xy (t −N ) , I xy (t −N +i ) , , I xy (t −1 ))
LÝ LỊCH TRÍCH NGANG
Họ và tên: ĐINH VĂN TUYẾN Phái: Nam Ngày, tháng, năm sinh: 18/10/1985 Nơi sinh: Quảng Bình
Địa chỉ liên lạc: Đinh Văn Tuyến, 81/2/30 đường 18D, KP 10, phường
Bình Hưng Hòa A, quận Bình Tân, TP HCM
Email: dinhtuyen01@gmail.com Điện thoại: 0975.757.842 Khóa (năm trúng tuyển): 2015 - đợt 1
QUÁ TRÌNH ĐÀO TẠO
2008 – 2011: Học đại học tại trường Đại Học Quảng Bình
Chuyên ngành: Công nghệ thông tin
2015 – 2017: Học cao học tại trường Đại Học Bách Khoa TP HCM
Chuyên ngành: Kỹ thuật điều khiển và tự động hóa