Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA THÁI NGỌC DUNG ĐỀ TÀI LUẬN VĂN THẠC SĨ Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông A framework for vehicles detection and classification Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ Tp Hồ Chí Minh – Tháng 06 năm 2014 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học: PGS TS Thoại Nam TS Lê Thành Sách Cán chấm nhận xét 1: Cán chấm nhận xét 2: Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 14 tháng 07 năm 2014 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: TS., Chủ tịch TS., Phản biện TS., Phản biện TS., Ủy viên TS., Thư kí Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TS TRƯỞNG KHOA KH & KT MÁY TÍNH PGS.TS THOẠI NAM Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Thái Ngọc Dung Ngày, tháng, năm sinh: 07/11/1989 Chuyên ngành: Khoa Học Máy Tính MSHV : 12070500 Nơi sinh: Gia Lai Mã số : 604801 I TÊN ĐỀ TÀI : XÂY DỰNG FRAMEWORK TỔNG QUÁT CHO HỆ THỐNG PHAT HIỆN VÀ PHÂN LOẠI PHƯƠNG TIỆN GIAO THÔNG (A framework for vehicles detection and classification) II NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu kiến thức phương pháp phân loại phát phương tiện giao thơng - Tìm hiểu vấn đề phân loại đối tượng có kích thước nhỏ cấu trúc phức tạp dựa rút trích đặc trưng mơ hình Bag-of-Visual Words - Nghiên cứu đề xuất giải pháp phân loại phát phương tiện giao thông, tập trung vào đối tượng xe máy III IV V NGÀY GIAO NHIỆM VỤ: 24/06/2013 NGÀY HOÀN THÀNH NHIỆM VỤ: 23/05/2014 CÁN BỘ HƯỚNG DẪN: PGS TS Thoại Nam TS Lê Thành Sách Tp HCM, ngày 14 tháng 07 năm 2014 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO TRƯỞNG KHOA KHOA HỌC & KĨ THUẬT MÁY TÍNH PGS.TS THOẠI NAM Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thơng LỜI CẢM ƠN Trong suốt q trình học tập hồn thành luận văn này, tơi đã nhận hướng dẫn, giúp đỡ quý báu thầy cô, anh chị, em bạn Với lòng kính trọng biết ơn sâu sắc xin bày tỏ lới cảm ơn chân thành tới: Ban giám hiệu, Phòng đào tạo sau đại học, Khoa Khoa Học Kĩ Thuật Máy Tính trường Đại Học Bách Khoa – Đại Học Quốc Gia TPHCM đã tạo điều kiện thuận lợi giúp đỡ trình học tập hồn thành luận văn Phó giáo sư- Tiến sĩ Thoại Nam Tiến sĩ Lê Thành Sách, người thầy kính mến đã hết lòng giúp đỡ, dạy bảo, động viên tạo điều kiện thuận lợi cho tơi suốt q trình học tập hoàn thành luận văn tốt nghiệp Xin chân thành cảm ơn thầy cô hội đồng chấm luận văn đã cho tơi đóng góp quý báu để hoàn chỉnh luận văn Xin gửi lới cảm ơn tới bạn bè, anh chị em Khoa Khoa Học Kĩ Thuật Máy Tính đã động viên giúp đỡ tơi lúc tơi gặp khó khăn Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thơng TĨM TẮT LUẬN VĂN Recent growth of traffic surveillance based on computer vision techniques has caught more and more attentions from researchers Since the detection of vehicles is the primary step of such system, there is a large body of works has been made to develop an efficient detection scheme on various operating conditions However, they mainly focus on car and pedestrian In this paper, we shifted our attention to motorbike, which is also a common road user and are is complex due to its small size, high variant and a high degree of occlusion Our proposed method takes advantages of the local features to achieve robustness to changes in illuminations, affine transformations and occlusions Next, the local features are used to construct a Bag of Visual Words model for representing objects via their parts This representation is then learned using a Support Vector Machine to classify motorbike and non-motorbike objects We also develop an algorithm for forming a detection hypothesis from this binary classifier Finally, we evaluate our method on a dataset of 3000 images of motorbike and nonmotorbike objects The experimental results show that our proposed method can achieve high accuracy in the context of real-life motorbike detection applications Trong năm gần đây, nghiên cứu xây dựng hệ thống giám sát giao thông dựa thị giác máy tính ngày nhận nhiều quan tâm từ giới nghiên cứu Mà đó, tốn phân loại phát phương tiện giao thông bước sở hệ thống nêu Do đó, nhiều nghiên cứu đã thực nhằm đóng góp phương pháp hiệu để phân loại phát phương tiện điều kiện hoạt động đa dạng hệ thống Tuy nhiên, phần lớn nghiên cứu tập trung vào đối tượng xe người đường Trong đó, đối tượng xe máy thành phần giao thông phổ biến lại chưa quan tâm mức Vì lí đó, luận văn đề xuất phương pháp tổng quát để phân loại phát phương tiện giao thơng, tập trung chủ yếu vào phương tiện xe máy Do đối tượng xe máy có kích thước nhỏ, lại có cấu trúc phức tạp đa dạng, ngồi cịn dễ bị che khuất phương pháp đề xuất đã xem xét đề phương án đề khắc phục vấn đề Đầu tiên, phương pháp tận dụng giải thuật rút trích biểu diễn đặc trưng để xây dựng nguyên liệu cho việc biểu diễn đối tượng dựa thành phần đặc trưng Qua hạn chế ảnh hưởng môi Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông trường, mức sáng, góc quay che phủ đối tượng kết phân loại đối tượng Những đặc trưng rút trích từ tập ảnh đối tượng sau dùng để xây dựng mơ hình Bag-of-Visual Words, từ biểu diễn đối tượng dạng thống kê phận đặc trưng cho đối tượng Tiếp theo, biểu diễn dùng để học phân loại nhị phân Support Vector Machine (SVM) để phân loại xe máy đối tượng khác Luận văn đề xuất giải pháp xây dựng giả thiết phát đối tượng từ ảnh tồn cảnh dựa phân loại nói Cuối cùng, để đánh giá phương pháp phân loại phát phương tiện giao thông đề xuất, luận văn xây dựng tập liệu có 3000 ảnh đối tượng điều kiện hoạt động thực tế hệ thống Kết thực nghiệm cho thấy phương pháp đã đề xuất đạt kết với độ xác cao ngữ cảnh hoạt động thực tế phương pháp Trước yêu cầu trên, luận văn nghiên cứu đề giải pháp cho việc phân loại phát phương tiện giao thông, tập trung chủ yếu vào phương tiện xe máy Nội dung luận văn trình bày sau:  Chương 1: giới thiệu đề tài, mục tiêu ý nghĩa khoa học ý nghĩa thực tiễn đề tài  Chương 2: trình bày sở lý thuyết liên quan đến đề tài rút trích biểu diễn đặc trưng, mơ hình Bag-of-Visual Words, Support Vector Machine  Chương 3: trình bày nghiên cứu có liên quan đến đề tài, phân tích ưu nhược điểm từ đưa hướng phát triển đề tài  Chương 4: viết hướng tiếp cận cách giải vấn đề phân loại phát phương tiện giao thông  Chương 5: đánh giá nhằm chứng minh giải pháp mà luận văn đề nghị hiệu  Chương 6: tổng kết việc làm được, chưa làm hướng phát triển đề tài  Phụ lục: báo kết nghiên cứu Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông LỜI CAM ĐOAN Tôi xin cam đoan kết luận văn cơng trình nghiên cứu tơi, số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Học Viên Cao Học THÁI NGỌC DUNG Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông MỤC LỤC LỜI CẢM ƠN TÓM TẮT LUẬN VĂN LỜI CAM ĐOAN MỤC LỤC .8 Chương Giới thiệu đề tài 12 1.1 Lý chọn đề tài 12 1.2 Mục tiêu nghiên cứu 13 1.3 Ý nghĩa .15 1.3.1 Ý nghĩa khoa học 15 1.3.2 Ý nghĩa thực tiễn .15 Chương Cơ sở lý thuyết 17 2.1 Rút trích biểu diễn đặc trưng .17 2.1.1 Khái niệm cở sở lý thuyết 18 2.1.2 Một số phương pháp rút trích biểu diễn đặc trưng .19 2.2 Mơ hình Bag-of-Visual Words 22 2.3 Support Vector Machine 24 Chương Các cơng trình nghiên cứu liên quan .27 3.1 Phân loại đối tượng dựa mơ hình Bag-of-Keypoints 28 3.1.1 Rút trích biểu diễn đặc trưng 28 3.1.2 Xây dựng tập từ vựng 29 3.1.3 Phân loại đối tượng 30 3.2 Phát đối tượng dựa biểu diễn thành phần đối tượng 30 3.2.4 Xây dựng tập từ vựng 31 3.2.5 Biểu diễn ảnh đối tượng 32 3.2.6 Học phân loại .33 Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 3.2.7 3.3 Xây dựng giả thiết phát đối tượng 33 Kết luận 34 Chương Phát xe máy dựa mơ hình Bag-of-Visual Words .35 4.1 Tổng quan hệ thống 35 4.2 Giải thuật rút trích biểu diễn đặc trưng .36 4.2.1 Scale Invariant Feature Transform (SIFT) 37 4.2.2 Dense Scale Invariant Feature Transform (DSIFT) 42 4.2.3 Speeded-Up Robust Feature (SURF) 43 4.2.4 Spatial Pyramid Kernel .45 4.3 Mơ hình Bag-of Visual Words 46 4.4 Bộ phân loại dựa SVM .48 4.5 Xây dựng giả thiết phát phương tiện giao thông .49 Chương Thí nghiệm đánh giá .52 5.1 Xây dựng tập liệu 52 5.2 Đánh giá độ xác phân loại 53 5.3 Đánh giá độ xác giả thiết phát 54 Chương Tổng kết hướng phát triển 58 6.1 Tổng kết 58 6.2 Hướng phát triển 59 TÀI LIỆU THAM KHẢO .62 PHỤ LỤC 65 Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 10 THAI Ngoc Dung, LE Thanh Sach, THOAI Nam: A fast method for background subtraction with Gaussian Mixture Model on GPU Journal of Science and Technology, Vietnam Academy of Science and Technology, ISSN 0866-708X, Vol 51, No 4B, 2013, pp 61-69 (a Special Issue on ACOMP 2013) Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 51 nghiệm, kết cho thấy cửa sổ có khoảng trống nên giá trị activation map khơng liên tục Dẫn đến vị trí điểm cực trị khơng trùng với vị trí đối tượng Ngồi ra, với tốn mà đối tượng khảo sát xe máy, đối tượng có cấu trúc phức tạp, kích thước lại nhỏ nên trường hợp đối tượng che khuất lẫn cửa sổ đối tượng có độ tin cậy cao Để khắc phục vấn đề trên, luận văn đề xuất trước tiên cần xấp xỉ mặt liên tục từ activation map để tăng độ xác cho bước tìm cực trị Ở đây, cần thiết phải nhấn mạnh đường biên đối tượng gần nên luận văn đề xuất sử dụng bi-harmonic fitting Với đặc điểm cố gắng chia miền giá trị thành hai vùng âm-dương hay vùng bên đối tượng bên đối tượng, bi-harmonic fitting giúp giảm khả điểm cực trị nằm vùng biên đối tượng Hình 22 trình bày trình xây dựng activation map cho ảnh toàn cảnh sử dụng bi-harmonic fitting Hình 22 (Từ trái sang phải) Quá trình xây dựng activation map cho ảnh toàn cảnh sử dụng bi-harmonic fitting (a) Ảnh toàn cảnh (b) Activation map xấp xỉ với bi-harmonic fitting (c) Dựa cực trị activation map để xác định vị trí đối tượng Như vậy, chương luận văn đã trình bày tổng quan chi tiết bước phương pháp phân loại phát giao thông đề nghị Chương trình bày kết thực nghiệm đánh giá độ xác phương pháp Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 52 Chương Thí nghiệm đánh giá Trong chương này, luận văn trình bày kết thực nghiệm đánh giá phương pháp phân loại phát phương tiện đề xuất thơng qua hai thí nghiệm Thí nghiệm thứ đánh giá độ xác phương pháp trích xuất biểu diễn đặc trưng, có khơng có kết hợp thơng tin cấu trúc khơng gian vật thể Trong thí nghiệm thứ hai, luận văn đề xuất thông số đo lường để đánh giá độ xác giả thiết phát trình bày kết đánh giá cho phương pháp 5.1 Xây dựng tập liệu Để đánh giá hiệu phương pháp điều kiện môi trường thực tế, cần thiết phải có tập liệu mẫu đa dạng, bao hàm trường hợp xảy trình hoạt động thực hệ thống giám sát giao thông Hiện nay, khác hệ thống thành phần tham gia giao thông quốc gia khác nên chưa có tập liệu hồn chỉnh cho đánh giá Mà đặc biệt đó, tập liệu chứa xe máy với mật độ, độ che khuất phương tiện thay đổi môi trường chưa có Do đó, luận văn xây dựng tập liệu mẫu phù hợp với yêu cầu nói để phục vụ cho đánh giá Tập liệu bao gồm 06 chuỗi ảnh quay giao lộ khoảng thời gian khác ngày, với góc nhìn từ xuống góc lệch nhỏ (15 độ) Với thiết lập vậy, cho phép tập ảnh phương tiện có tính hội tụ đảm bảo tập liệu có phong phú thay đổi mức sáng, môi trường, mật độ mức độ che khuất phương tiện giao thông Tập huấn luyện (training set) kiểm định chéo (cross-validation set) bao gồm 3000 ảnh đơn mẫu dương đối tượng xe máy mẫu âm trích xuất từ 05 chuỗi ảnh Các mẫu dương đánh dấu tay để đảm bảo độ xác, mẫu âm trích xuất ngẫu nhiên chương trình lọc lại tay Tập mẫu đồng thời chứa mẫu khó, đối tượng bị che khuất đối tượng khác loại khác loại, hay đối tượng có ảnh hỗn loạn đối tượng khác gây Chuỗi ảnh thứ sáu dành riêng cho đánh giá giả thiết phát phương tiện giao Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 53 thông mục 5.3 Hình 23 trình bày số mẫu tập liệu dùng để đánh giá độ xác phân loại Hình 23 Một số mẫu ngẫu nhiên tập liệu mẫu dùng để huấn luyện đánh giá độ xác phân loại Có tập mẫu đảm bảo đa dạng thay đổi mơi trường, ánh sáng, góc quay v.v cho phép đánh giá phương pháp phân loại phát phương tiện điều kiện gần với môi trường vận hành hệ thống thực tế 5.2 Đánh giá độ xác phân loại Độ xác phương pháp trước tiên thể qua độ xác bước phân loại giao thơng Qua đó, cho phép ta biết giải thuật rút trích đặc trưng phù hợp với đối tượng yêu cầu toán đặt Các giải thuật rút trích biểu diễn đặc trưng thực sử dụng OpenCV Các thông số tùy chỉnh giải thuật thiết lập dựa báo [10] [12] [13] [16] Mơ hình BoVW xây dựng từ tập đặc trưng đã trình bày phần 4.3 với kích thước tập từ vựng 100 Độ xác phân loại SVM tương ứng với giải thuật trích xuất biểu diễn đánh giá tập liệu nêu bước Trong trường hợp toán, số lượng mẫu âm thường lớn nhiều so với số lượng mẫu âm ảnh đối tượng trích xuất từ ảnh tồn cảnh cửa sổ trượt Do đó, luận văn sử dụng đại lượng recall precision để đánh giá độ xác phân loại Cụ thể sau Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 54 𝑅𝑒𝑐𝑎𝑙𝑙 = # 𝑠ố 𝑙ượ𝑛𝑔 𝑚ẫ𝑢 𝑑ươ𝑛𝑔 đú𝑛𝑔 # 𝑡ổ𝑛𝑔 𝑠ố 𝑚ẫ𝑢 𝑑ươ𝑛𝑔 𝑡ℎự𝑐 𝑡ế 𝑐ó 𝑡𝑟𝑜𝑛𝑔 𝑡ậ𝑝 𝑚ẫ𝑢 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = # 𝑠ố 𝑙ượ𝑛𝑔 𝑚ẫ𝑢 𝑑ươ𝑛𝑔 đú𝑛𝑔 # 𝑠ố 𝑙ượ𝑛𝑔 𝑚ẫ𝑢 𝑑ươ𝑛𝑔 đú𝑛𝑔 + # 𝑠ố 𝑙ượ𝑛𝑔 𝑚ẫ𝑢 𝑑ươ𝑛𝑔 𝑠𝑎𝑖 𝐹 − 𝑠𝑐𝑜𝑟𝑒 = 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 Bảng trình bày giá trị recall-precision phân loại tương ứng với giải thuật trích xuất biểu diễn đặc trưng khác Ta thấy phương pháp rút trích đặc trưng SURF cho kết với độ xác cao so với phương pháp khác Feature SIFT Dense SURF Pyramid SIFT Pyramid SURF No of correct detections 136 124 134 0.89 0.81 0.88 No of false detections 10 135 0.88 0.96 0.92 137 0.90 0.98 0.94 Recall Precision F-score 0.94 0.93 0.96 0.91 0.86 0.91 Bảng Đánh giá độ xác phân loại tương ứng với giải thuật rút trích đặc trưng khác nhau, trường hợp có khơng có mã hóa thông tin cấu trúc đối tượng không gian Như vậy, phương pháp phân loại đối tượng ảnh chứa đối tượng đơn lẻ sử dụng mơ hình BoVW để biểu diễn đối tượng cho kết với độ xác cao 94% Thực nghiệm cho thấy thơng tin cấu trúc phận đặc trưng cho đối tượng khơng gian giúp nâng cao độ xác phân loại 5.3 Đánh giá độ xác giả thiết phát Mục tiêu phương pháp phân loại phát phương tiện không chỉ dừng lại xác định loại phương tiện mà cịn cần tìm vị trí phương tiện tồn khung ảnh Do để đánh giá độ xác tồn phương pháp, cần phải xem xét liệu giả thiết phát có tìm vị trí phương tiện ảnh hay khơng Để xác định mức độ xác vị trí đối tượng ảnh, luận văn đề xuất hai thông số, độ trùng lắp tỉ lệ lỗi cửa sổ ảnh phát chân trị cửa sổ ảnh đánh giấu tay Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 55 Overlap score hay độ trùng lắp tỉ lệ pixel cửa sổ ảnh giả thiết phát xác định có đối tượng chân trị cửa sổ ảnh đánh giấu tay Với cửa sổ ảnh chứa đối tượng đối chiếu với chân trị đã đánh dấu, mức độ trùng lắp ứng với cửa sổ chân trị gần với cửa sổ ảnh ghi nhận công thức 𝑂𝑣𝑒𝑟𝑙𝑎𝑝 = 𝑅1 ∩ 𝑅2 𝑅1 Error score hay tỉ lệ lỗi thể sai khác vùng phát vùng chân trị đối tượng ảnh Khi xác định cửa sổ chân trị gần với cửa sổ phát hiện, error score tính số pixel thuộc vùng không giao hai cửa sổ 𝐸𝑟𝑟𝑜𝑟 = (𝑅1⁄ 𝑅2) ∪ (𝑅2 ∕ 𝑅1) 𝑅1 ∪ 𝑅2 Trong R1, R2 số pixel thuộc vùng chân trị vùng phát đối tượng ảnh Vị trí tương đối vùng chân trị vùng phát rơi vào trường hợp thể Hình 24 Hình 24 (Từ trái sang phải) Những vị trí tương đối vùng chân trị vùng đối tượng phát (a) vùng chân trị vùng phát chồng lắp lên (b) vùng chân trị vùng phát hoàn toàn tách biệt (c) vùng chân trị hay vùng phát chứa vùng lại Dễ thấy cửa sổ phát gần với cửa sổ chân trị chỉ số overlap hội tụ chỉ số lỗi hội tụ Để đánh giá giả thiết phát phương tiện, luận văn thực việc xây dựng giả thiết dựa sở phân loại đối tượng Matlab Sau đó, giả thiết dùng để xác định vị trí đối tượng ảnh toàn cảnh từ chuỗi ảnh thứ bao gồm 200 khung ảnh giao lộ đã nói phần 5.1 Kết thực nghiệm cho thấy phương pháp đạt Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thơng 56 độ xác cao với overlap score khoảng 0.7 error score vào khoảng 0.3 Hình 25 trình bày chi tiết độ xác giải thuật phát cho khung ảnh thể qua trung bình chỉ số overlap error Hình 25 độ xác giải thuật phát cho khung ảnh thể qua trung bình chỉ số overlap error Cuối cùng, Hình 26 thể vài khung ảnh với vị trí xe máy đánh dấu sử dụng phương pháp phân loại phát phương tiện trình bày luận văn Hình 26 Một vài khung ảnh chứa đối tượng xe máy đánh dấu phương pháp phân loại phát phương tiện luận văn đề xuất từ chuỗi 200 ảnh dùng cho đánh giá Kết cho thấy phương pháp đề nghị có khả phát xe máy điều kiện xe nằm gần hay che khuất lẫn khung ảnh Tuy nhiên, Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 57 số xe máy phát bước phân loại lại bị loại bỏ lúc gom nhóm cửa sổ lân cận Điều việc loại bỏ bớt khung xác định đối tượng đồng thời loại bỏ khung có độ tin cậy thấp Ngồi ra, thấy điều kiện mơi trường, thay đổi mức sáng hay góc nhìn 3D xe máy khơng làm ảnh hưởng đến kết phân loại phát Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 58 Chương Tổng kết hướng phát triển 6.1 Tổng kết Trên đây, luận văn đã trình bày phương pháp phân loại phát đối tượng dựa biểu diễn đối tượng mơ hình Bag-of-Visual Words (BoVW) Đầu tiên, thơng qua việc rút trích đặc trưng ảnh đối tượng đã tạo nguồn nguyên liệu để biểu diễn ảnh đối tượng cách xác khơng phụ thuộc vào điều kiện mơi trường ánh sáng, góc quay v.v Tập đặc trưng đưa vào xây dụng mơ hình BoVW, đặc trưng gom cụm tổng qt hóa, mang tính chất đại diện cho lớp đối tượng Sau đó, phân loại xây dựng dựa tập biểu diễn hay véc-tơ đặc trưng BoVW đối tượng Kết thực nghiệm cho thấy kết phân loại kết hợp rút trích đặc trưng mơ hình BoVW cao 91% cho SIFT, SURF Tuy nhiên, đặc trưng BoVW chỉ mang tính chất thống kê phận đặc trưng đối tượng không quan tâm đến vị trí phận đặc trưng khơng gian Do đó, luận văn đề xuất sử dụng pyramid spatial kernel kết hợp với rút trích đặc trưng Phương pháp cho độ xác cao 94% (Pyramid + SURF) Bên cạnh đó, luận văn phân biệt rõ phân loại phát đối tượng toàn khung ảnh Từ phân loại đối tượng đơn, luận văn đề xuất phương pháp xây dựng giả thiết phát đối tượng khung ảnh toàn cảnh, chứa hay nhiều đối tượng Giả thiết phát phát triển sở activation map, cho biết độ tin cậy vị trí đối tượng khung ảnh Bài toán phát đối tượng đưa thành tốn tìm cực trị cục activation map Xét yêu cầu toán phát xe máy, đối tượng đích có kích thước nhỏ khả che khuất lẫn khung ảnh cao, việc sử dụng trực tiếp activation map cho kết với độ xác khơng cao Để khắc phục vấn đề trên, luận văn đề xuất sử dụng bi-harmonic fitting để gia tăng độ xác đầu vào cho giải thuật tìm cực trị cục Từ đó, luận văn đã xây dựng giả thiết phát với độ xác cao Bên cạnh đó, luận văn đề xuất chỉ số overlap error để đánh giá kết phát Kết thực nghiệm cho thấy giả thiết phát xác định vị trí đối tượng khung ảnh với chỉ số overlap cao 0.7 chỉ số error mức 0.3 Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 59 Những kết thực nghiệm nói đánh giá tập liệu xây dựng đề tài luận văn Theo đó, tập liệu xây dựng từ điều kiện thực tế, với thời điểm khác ngày Từ đảm bảo yêu cầu bao quát điều kiện thay đổi mức sáng, mức độ che khuất phương tiện v.v Như vậy, phương pháp phân loại phát phương tiện luận văn đề xuất có khả hoạt động điều kiện môi trường thực tế với độ xác cao 6.2 Hướng phát triển Trong phạm vi luận văn, chỉ giới hạn xem xét đối tượng xe máy chủ yếu, nhiên mở rộng cho loại phương tiện khác Đối với phân loại, từ phân loại nhị phân đề cập luận văn, xây dựng phân loại cho nhiều lớp đối tượng cách sử dụng phương pháp one-against-all Trong đó, xem xét lớp đối tượng, với lớp đối tượng xem mẫu dương lớp lại xem mẫu âm Tuy nhiên, bước xây dựng giả thiết phát mà sở activation map, xác định mức độ tin cậy vị trí ảnh tương ứng với lớp đối tượng trường hợp nhiều lớp đối tượng vấn đề đơn giản Ở đây, giải theo hai hướng Thứ là, xây dựng activation map cho lớp đối tượng riêng lẻ dựa kết từ phương pháp oneagainst-all, sau tổng hợp vị trí lớp đối tượng rong hình dựa ràng buộc không gian Thứ hai sử dụng kết ứng với lớp đối tượng có độ tin cậy cao vị trí activation map, sử dụng activation map để phát đối tượng Cả hai hướng cần xem xét phát triển thêm Đối với chi tiết bước phương pháp xem xét, mở rộng thêm theo hướng sau  Thứ nhất, giải thuật rút trích biểu diễn đặc trưng ngày đa dạng phục vụ cho nhiều toán khác Tuy nhiên, với loại đối tượng cụ thể ứng với giải thuật rút trích biểu diễn đặc trưng phù hợp Trong phạm vi luận văn chỉ xem xét số loại đặc trưng thơng dụng có độ xác cao Tuy nhiên, tương lai cần phải khảo sát thêm giải thuật rút trích biểu diễn đặc trưng khác, đặt yêu cầu cụ thể toán đối tượng cần phân loại phát Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 60  Thứ hai kết hợp thông tin không gian vào biểu diễn đối tượng Như đã thấy, việc kết hợp không gian đối tượng thông qua sử dụng pyramidspatial kernel luận văn đề xuất cho kết cao so với chỉ sử dụng trích xuất biểu diễn đặc trưng Như vậy, thấy việc kết hợp thông tin không gian cần quan tâm, xem xét thêm từ cho phép biểu diễn đối tượng xác Một hướng phát triển khác kết hợp phân loại phát với theo vết đối tượng Hiện tại, phương pháp luận văn đề xuất có khả phân loại phát đối tượng với độ xác cao khung ảnh tĩnh Nếu kết hợp thêm thông tin theo vết đối tượng khung ảnh dòng thời gian có khả giúp loại bỏ vị trí đối tượng khơng phù hợp dựa ảnh trước Như vậy, có khả tăng độ xác phân loại phát hiện, ngược lại tăng độ xác cho theo vết đối tượng Bên cạnh đó, thơng tin theo vết dùng bước tiền xử lý cho phân loại phát Theo đó, cho phép giới hạn phạm vi phân loại phát đối tượng, từ tiết kiệm chi phí tính tốn Cuối cùng, luận văn đề nghị hướng tăng hiệu suất phương pháp phân loại phát theo hướng song song hóa Dựa thực nghiệm cho thấy bước sau có độ phức tạp tính tốn cao nhất, cần có phương pháp song song hóa đề tăng tốc q trình tính tốn  Trước tiên bước xây dựng mơ hình Bag-of-Visual Words, cần gom cụm đặc trưng tương tự lẫn để hình thành tập từ vựng Bước sử dụng giải thuật k-means để gom cụm đặc trưng tương tự lại với Tuy nhiên, yêu cầu toán, tập từ vựng thường có kích thước lớn từ khoảng 106 véc-tơ Do đó, giải thuật kmeans có độ phức tạp tính toán lớn thời gian chạy chậm Do yêu cầu đặt cần song song hóa giải thuật để giảm thời gian tính tốn Tuy q trình xây dựng mơ hình Bag-of-Visual Words làm offline, cần giảm thời gian tính tốn để tiết kiệm chi phí cho q trình xây dựng phân loại  Tiếp theo quan trọng việc song song hóa q trình biểu diễn đặc trưng cho ảnh vào hệ thống theo mơ hình Bag-ofXây dựng framework tổng qt cho hệ thống phát phân loại phương tiện giao thông 61 Visual Words Đối với khung ảnh vào hệ thống, cần rút trích đặc trưng đưa vào đối chiếu, so sánh với tập từ vựng Từ xây dựng véc-tơ histogram thành phần đặc trưng đối tượng hay đặc trưng BoVW Như vậy, trình cần phải đạt yêu cầu real-time thời gian thực thi Do đó, luận văn đề nghị tập trung vào song song hóa cho bước để tăng tốc cho trình phân loại phát khung ảnh, đảm bảo yêu cầu hệ thống yêu cầu real-time Trên đây, luận văn đã trình bày tổng kết, đánh giá phương pháp phân loại phát phương tiện đề xuất Đồng thời, luận văn đề xuất hướng phát triển để tăng độ xác hiệu suất cho phương pháp phân loại phát phương tiện Qua đó, thấy phương pháp đề xuất đã giải toán với độ xác cao Bên cạnh còn nhiều tiềm triển vọng phát triển thêm Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 62 TÀI LIỆU THAM KHẢO [1] S Messelodi, C M Modena, and M Zanin, “A computer vision system for the detection and classification of vehicles at urban road intersections,” Pattern Analysis and Applications, vol 8, pp 17-31, 2005 [2] A Ottlik and H H Nagel, “Initialization of model-based vehicle tracking in video sequences of inner city intersections,” International Journal Computer Vision, vol 80, no 2, pp 211–225, 2008 [3] K Park, D Lee, and Y Park, “Video-based detection of street-parking violation,” International Conference on Image Processing, Computer Vision, and Pattern Recognition, 2007 [4] T Gao, Z G Liu, W C Gao, and J Zhang, “A robust technique for background subtraction in traffic video,” Advances in Neuro-Information Processing, pp 736–744, 2009 [5] C Stauffer and W E L Grimson, “Adaptive background mixture models for real-time tracking,” IEEE Computer Society Conference on Computer Vission Pattern Recognition, vol 2, pp 246–252, 1999 [6] J W Hsieh S H Yu Y S Chen and W F Hu, “Automatic trafficsurveillance system for vehicle tracking and classification”, IEEE Transaction on Intelligent Transport System, vol 7, no 2, pp 175-187, 2006 [7] N K Kanhere and S T Birchfield, “Real-time incremental segmentation and tracking of vehicles at low camera angles using stable features”, IEEE Transactions on Intelligent Transport System, vol 9, no 1, pp 148-160, 2008 [8] S Agarwal, A Awan, and D Roth, “Learning to detect objects in images via a sparse part-based representation,” IEEE Transaction on Pattern Analysis and Machine Intelligence, vol 26, no 11, pp 1475-1490, 2004 [9] N Dalal and B Triggs, “Histograms of oriented gradients for human detection,” IEEE Computer Society Conference Computer Vision and Pattern Recognition, vol 1, pp 886–893, 2005 [10] A Vedaldi, and B Fulkerson, “VLFeat: An open and portable library of computer vision algorithms,” Proceedings of the international conference on Multimedia, ACM, pp 1469-1472, 2010 Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 63 [11] F Attneave, “Some informational aspects of visual perception,” Psychological Review, vol 61, pp 183–193, 1954 [12] D G Lowe, “Distinctive Image Features from Scale-Invariant Keypoints,” International Journal of Computer Vision, vol 60, 2, pp 91-110, 2004 [13] H Bay, T Tuytelaars and L Van Gool, “SURF: Speeded Up Robust Features,” 9th European Conference on Computer Vision, 2006 [14] N Buch, J Orwell, and S A Velastin, “Three-dimensional extended histograms of oriented gradients (3-DHOG) for classification of road users in urban scenes,” Proceedings of British Machine Vision Conference, 2009 [15] K Mikolajczyk and C Schmid, “Indexing based on scale invariant interest points,” Proceedings of Eighth IEEE International Conference on Computer Vision, ICCV, pp 525 – 531, 2011 [16] Bosch, Anna, Andrew Zisserman, and X Munoz, “Representing shape with a spatial pyramid kernel,” Proceedings of the 6th ACM international conference on Image and video retrieval, ACM, pp 401– 408, 2007 [17] Fei-Fei Li, Rob Fergus, and Pietro Perona, “Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories,” Computer Vision and Image Understanding vol.106, no 1, pp 59-70, 2007 [18] TREC Video Retrieval Evaluation (TRECVID), http://www- nlpir.nist.gov/projects/trecvid/ [19] G Csurka, C Bray, C Dance and L Fan, “Visual categorization with bags of keypoints,” in Workshop on Statistical Learning in Computer Vision, ECCV, pp 1-22, 2004 [20] Fei-Fei Li, Rob Fergus, and Antonio Torralba, “Recognizing and learning object categories,” CVPR Short Course 2, 2007 [21] Feng, Yansong, and Mirella Lapata, “Visual information in semantic representation,” Human language technologies: the 2010 Annual Conference of the North American chapter of the Association for Computational Linguistics Association for Computational Linguistics, 2010 Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 64 [22] Bergsma, Shane, and Randy Goebel, “Using Visual Information to Predict Lexical Preference,” Recent Advances in Natural Language Processing, RANLP, pp 399-405, 2011 [23] Bruni, Elia, Giang Binh Tran, and Marco Baroni, “Distributional semantics from text and images,” Proceedings of the GEMS 2011 Workshop on GEometrical Models of Natural Language Semantics Association for Computational Linguistics, 2011 [24] Buch Norbert, Sergio A Velastin, and James Orwell, “A review of computer vision techniques for the analysis of urban traffic,” IEEE Transactions on Intelligent Transportation Systems, vol 12, no 3, pp 920-939, 2011 [25] N Buch, J Orwell, and S A Velastin, “Urban road user detection and classification using 3-D wireframe models,” IET Computer Vision, vol 4, pp 105116, 2010 [26] J W Hsieh, S H Yu, Y S Chen, and W F Hu, “Automatic traffic surveillance system for vehicle tracking and classification,” IEEE Transaction on Intelligent Transport Systems, vol 7, no 2, pp 175–187, 2006 [27] Harris, Chris, and Mike Stephens “A combined corner and edge detector,” Alvey vision conference, vol 15, p 50 1988 [28] D Arthur and S Vassilvitskii, “k-means++: The advantages of careful seeding,” Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, Society for Industrial and Applied Mathematics, pp 1027-1035, 2007 [29] Viola, Paul, and M J Jones, “Robust real-time face detection,” International journal of computer vision, vol 57, pp 137-154, 2004 Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 65 PHỤ LỤC THAI Ngoc Dung, LE Thanh Sach, THOAI Nam: A fast method for background subtraction with Gaussian Mixture Model on GPU Journal of Science and Technology, Vietnam Academy of Science and Technology, ISSN 0866-708X, Vol 51, No 4B, 2013, pp 61-69 (a Special Issue on ACOMP 2013) Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông ... Việc phát triển hệ thống phân loại phát giao thông với vai trò bước đầu hệ thống có ý Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 16 nghĩa nâng cao hiệu hệ thống. .. ta Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 17 Chương Cơ sở lý thuyết Trong hệ thống giám sát giao thông, bước phân loại phát phương tiện giao thông cho. .. cao tốc Xây dựng framework tổng quát cho hệ thống phát phân loại phương tiện giao thông 13 Với ứng dụng thiết thực tồn nêu trên, việc xây dựng phương pháp phát phân loại phương tiện giao thông

Định dạng
Số trang	65
Dung lượng	2,39 MB