1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Ước lượng mật độ giao thông dựa vào video quan sát

105 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ước lượng mật độ giao thông dựa vào video quan sát
Tác giả Huỳnh Chí Kiên
Người hướng dẫn TS. Lê Thành Sách
Trường học Trường Đại học Bách Khoa - Đại học Quốc gia TP. HCM
Chuyên ngành Khoa học Máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2016
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 105
Dung lượng 51,07 MB

Nội dung

Có rất nhiều hướng tiếp cận cho van dé này, nhưng một trong các hướng giảiquyết đang được sử dụng trên một số nước tiên tiến trên thế giới là tích hợp các hệthống giao thông thông minh v

Trang 1

ĐẠI HOC QUOC GIA TP HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA

HUỲNH CHÍ KIÊN

ƯỚC LƯỢNG MẬT ĐỘ GIAO THÔNG DỰA VÀO

VIDEO QUAN SÁT

Ngành: Khoa học Máy tínhMã số: 60.48.01.01

LUẬN VÁN THẠC SĨ

TP HO CHI MINH, tháng 12 năm 2016

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI

TRƯỜNG ĐẠI HỌC BACH KHOA -DHQG -HCM

Cán bộ hướng dẫn khoa học: TS Lê Thành Sách 2s s££+s+

CHỦ TỊCH HỘI ĐÔNG TRƯỞNG KHOA

KHOA HỌC & KỸ THUAT MAY TÍNH

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRUONG ĐẠI HOC BACH KHOA Độc lập - Tự do - Hanh phúc

NHIEM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Huynh Chí Kiên + MSHV: 7140826

Ngày, tháng, năm sinh: I3/11/1991 .-<<+55- Nơi sinh: Mỹ Tho, Tiền GiangNgành: Khoa học Máy tính 5-5 scxcEcrvrszxcree Mã số : 60480101

I TÊN DE TÀI: Xác định mật độ giao thông từ video quan sát -cccsccszxczees

Il NHIEM VỤ VÀ NỘI DUNG:1 Tim hiểu các phương pháp ước lượng số lượng hoặc mật độ phương tiện giao thông

phù hợp cho điều kiện tại Việt Nam Ưu tiên tìm các giải pháp hoạt động được cho

Tp HCM, ngày tháng năm 2016

CÁN BỘ HƯỚNG DÂN TRƯỞNG KHOA KH & KTMT(Họ tên và chữ ký) (Họ tên và chữ ký)

Trang 4

LOI CAM ON

Trong suốt thời gian học chương trình cao học tại Dai hoc Bach Khoa thànhphố Hồ Chí Minh, đặc biệt là giai đoạn làm luận văn tốt nghiệp, tôi đã nhận được rat

nhiều sự quan tâm, động viên, giúp đỡ của gia đình, thay cô, ban bè.

Trước hết, tôi xin gửi lời cảm ơn sâu sac đến gia đình mình, đặc biệt là mẹmình Mẹ là người luôn bên tôi những lúc khó khăn nhất, mẹ đã hi sinh, vất vả rấtnhiều để tôi có được cuộc sống no du dé học tập ở một trường đại học xa quê Mẹ đãcho tôi nguon động lực mạnh dé nỗ lực vươn lên học tập thật tốt

Tiếp theo tôi xin gửi lời cảm ơn chân thành nhất đến thầy hướng dẫn của tôi,Tiến sĩ Lê Thành Sách, là người đã định hướng và diu dat tôi từ những bước đâu tiên,thay luôn quan tâm, chỉ cho tôi cách nhìn và hướng giải quyết van dé một cách rõrang, chính xác để tôi hoàn thành tốt luận văn

Tôi cũng xin gửi lời cám ơn đến các thầy cô đã giảng dạy cho tôi trong suốtthời gian cao học, những người đã trang bị cho tôi các kiến thức, kĩ năng quý báu và

cân thiệt cho con đường phía trước của tôi.

Cuối cùng tôi xin cảm ơn trường Đại học Bach Khoa thành phố Hồ Chí Minh,tất cả các thây cô, các bạn sinh viên, đã tạo cho tôi một môi trường học tập thật tốt,

thật hào hứng, thật ý nghĩa.

Một lân nữa, tôi xin chân thành cảm ơn!

Huỳnh Chí Kiên

5/12/2016

Trang 5

TOM TAT LUẬN VĂN

Trong những năm gan đây, vấn đề về giao thông luôn là dé tài nhức nhói củanhiều người dân tại các thành phố lớn Nguyên nhân chủ yếu của van nạn nay năm ởdân số quá tải so với sức chứa của cơ sở hạ tầng Hiện tại, trước khi các thành phó kipnâng cấp cơ sở hạ tầng dé đáp ứng được lượng người dân mỗi năm một tăng, nhiềugiải pháp đã và đang được đưa ra dé làm giảm bớt tình trạng căng thắng trong giaothông Có rất nhiều hướng tiếp cận cho van dé này, nhưng một trong các hướng giảiquyết đang được sử dụng trên một số nước tiên tiến trên thế giới là tích hợp các hệthống giao thông thông minh vào cơ sở hạ tầng

Có nhiều loại hệ thống giao thông thông minh, một trong số chúng là khai thácthông tin về mật độ, số lượng phương tiện di chuyển để phân tích và gửi cho ngườidùng Dé có thé làm được điều này, các hệ thông có thé nhờ đến thông tin GPS, dựavào các thiết bị cảm biến vô tuyến, hoặc dựa vào thi giác máy tính Trong các hướngđi, thị giác máy tính có nhiều tiềm năng vì nó có thể cung cấp thông tin trực quan, đadạng Một hệ thống ước lượng mật độ phương tiện bằng thị giác máy tính có thé đượcphát triển lên cho các mục đích phức tạp hơn như theo vết, dự báo tai nạn, xem xét

hành vi lái xe phạm luật, v.v.

Trước đây, do phân cứng máy tính cùng với việc các phương pháp thị giác máytính chưa phát triển đủ mạnh nên các giải thuật theo hướng này chưa được sử dụngnhiều trong các hệ thống thực tế Tuy nhiên, trong những năm gan đây, với sự hỗ trợmạnh mẽ từ các công cụ phần cứng như GPU cùng với sự tiến bộ vượt bậc của cácphương pháp thị giác máy tính, việc phát triển một hệ thống ước lượng mật độ giaothông dựa vào video quan sát trở nên khả thi hơn bao giờ hết

Dù có nhiều hệ thống giao thông thông minh dùng thị giác máy tính đã xuấthiện trên thế giới, nhưng số lượng các hệ thống tập trung vào đối tượng xe máy là cựckỳ ít Trong khi đó, tại Việt Nam, lượng xe máy rất đông khiến cho việc áp dụng các

hệ thông sẵn có trên thê giới là khá khó khăn Vì vậy, can có những nghiên cứu cụ thé,

Trang 6

thiết thực để xác định các phương pháp khả thi trong điều kiện giao thông ở Việt

Nam.

Trong dé tài này, một số phương pháp ước lượng số lượng phương tiện giaothông được dé xuất và đánh giá trên các tập dữ liệu thực tế Dữ liệu đánh giá cho thấykhả năng hoạt động của các phương pháp dé xuất không chỉ chính xác mà còn ổnđịnh Các phương pháp dé xuất có thé dé dàng được tích hợp vào các hệ thống thực tếvà giúp ích cho nhiều ứng dụng giao thông khác nhau

Trang 7

In recent years, traffic problems have been causing many troubles amongcitizens in large-scale cities The situation can only be worsened since the populationin these areas will keep rising Existing infrastructures can’t be developed fast enoughto handle incoming people Before they can be built, many solutions have beenproposed to mitigate traffic problems Among many approaches to the problem, anintuitive and practical solution has been successfully used in some countries:integrating an intelligent traffic system (ITS) into the infrastructure.

Many kinds of ITS exist, one of them is aimed for finding the traffic density atgiven locations By finding such information, the system can signal drivers wheretraffic might be stuck and recommend them to avoid those Obviously, there are alsomany ways to tackle this density estimation problem Some system takes advantage ofGPS data from users’ devices, others use wireless sensors to verify vehicles’appearance However, one emerging solution is to use computer vision techniques inan ITS These techniques do not only allow us to know how many vehicles present ina scene, they are also the basic requirements to develop more sophisticated systemssuch as tracking, accident warning, traffic violation verification, etc.

Previously, due to the lack of computing power and the immature developmentof the fields, ITS that uses computer vision is usually frown upon However, with thehelp of specialized devices such as GPU and the exponential growth of relevantmethods, an ITS based on computer vision is now a possibility, potentiallyoutperforms other rivalry systems.

There might be many ITS being used around the world; however, few of themfocus on the scenario where there are a lot of motorbikes In contrast, a vast majorityof vehicles in Vietnam are motorbike Directly bringing an existing system fromanother country to Vietnam might not be possible without thorough investigation andexperiments Therefore, research needs to be conducted to find a suitable solution thatcan work in the country.

Trang 8

In this thesis, robust methods are proposed and tested as a solution for countingmotorbike in dense traffic Experimental results show that they can work in difficultcases and achieve high accuracy With minor adjustment, these methods can be usedas the cores of an ITS, mitigating traffic problems in Vietnam.

Trang 9

LỜI CAM ĐOANLuận văn của tôi có tham khảo các tài liệu, bài báo, trang web như được trình

bày ở mục tài liệu tham khảo và ở mỗi tham khảo tôi đều trích dẫn nguồn gốc Tôi xincam đoan răng ngoài những trích dẫn từ các tham khảo trên, toàn bộ nội dung trongbáo cáo là do tôi tự soạn thảo từ những kết quả nghiên cứu của riêng tôi, không saochép từ bat ki tài liệu nào khác

Tôi sẽ hoàn toàn chịu xử lí theo qui định nêu có bât cứ sai phạm nào so với lờicam kết.

Huỳnh Chí Kiên

Trang 10

MỤC LỤC

LOI CẢM ƠN ST 2111211101211 110111 11111 n1 11 H11 111gr sa iLOI CAM ĐOAN - c1 1 11121121211 111111111 1111111 11 n1 1 1tr gu iiTOM TAT LUẬN VĂN 5c c1 2111111101111 1111111 1 111 n1 n1 ng ra iii

ABSTRACTT 5c s11 11 1112111011111 1111 1111 n1 n1 111 111 111gr ru Vv10/9092 vii

DANH MỤC HÌNH - 15c 1 E1211121111211211111Ẹ11111111 11 111 111 1 1111 xDANH MỤC BẢNG 1 c1 1111121 11111111121 111211 111 11111 trai xiiDANH MỤC CÁC TU VIET TẮTT 52k St SE E11211112112111211121111 E111 11t te xiiiCHUGONG 1: TONG QUAN 1 ằ |

1.1 Giới thiệu c c2 1 11211 1 trai |

1.2 Ý nghĩa của dé tài c3 E11 1 E1 t1 xu 21.3 Phạm vi của dé tài c1 E121 1 1211 1111111 grg 31.4 Bố cục luận văn ST HT 11T 1115115151151 51 15 81T E5 TH na rei 4CHUONG 2: CAC CÔNG TRÌNH NGHIÊN CUU LIEN QUAN 5

2.1 Tổng quan về các hướng ước lượng số lượng, mật độ vat thé 52.2_ Các phương pháp ước lượng gián tiẾp - ¿5 s22 ‡EEEvEExrxerered 62.3 Các phương pháp ước lượng trực ti€p oo ceeeeccceceecesecseseseeeseseeeeeeeeees 18

2.4 Mô hình SSD [66] - 5 2251 1E 1EE121E11E1111E1111 0111111 1111 28

2.4.1 Huấn luyện với SSD - 5 + tt E1 E111 1 11111 12111111 rtxe 332.4.2 Kiểm thử với SSD TT E1E1181 1112111 trai 352.5 Tổng kẾT -c t1 111111111111 1111211111111 ereg 36

Trang 11

3.2 Vector gradient trên ảnh + 1112222251111 1111151 x+2 393.3 Histogram of oriented gradient [3 Ï] - 2-5 c + + +22 sssvccsseeessss 403.4 Gom cụm K-Im€ậ'S LG - - CC 1112111011113 1111111 1111 11k tk cu 403.5 Mơ hình tÚI Ừ - L2 1 2211121111121 11 1111111111119 1 111 1H kh hưu Al

3.6 Mơ hình hơi qui least square support vector machine - 42

3.7 Convolutional neural network c- c1 3+2 11322 xe vei 44

CHUONG 4: PHƯƠNG PHAP DE XUẤTT -:©22222222xcvvrerxrsrrrerrree 45

4.1 Phương pháp ước lượng gián tiếp dé xUat cece eeeeeseseeeeeeeeeeees 454.1.1 Huấn luyện + ST EEEEE1112111111111 E1 1111 reo 474.12 Kiểm thử cc22L22122122112212112111221111 ke 494.2_ Phương pháp ước lượng trực tiếp dé xuất - 2 +cccsEsrsxerered 49CHƯƠNG 5: CÁC PHƯƠNG PHAP DOI SÁNH 5522252 22ccsrrsrreei 50

5.1 Các phương pháp gián tiẾp - c1 EEEEEE11121111111 51 111tr 50

5.1.1 Phuong pháp Lempitsky-Zisserman [32]' - -:: 505.1.2 Phương pháp cua Donatello Conte va các cộng sự [27] 515.1.3 Phương pháp của Qing Wen và các cộng sự [27] 52

5.2 Các phương pháp trực tiẾp - s1 tEEEE1111E1111111 111gr 53

5.2.1 Histogram of oriented gradient [3 Ï] -<++‡<<++<<sx+s2 535.2.2 Phương pháp cua Jinchen Wu va các cộng su [43] 54

5.2.3 Phát hiện sử dung mang CNN lan truyén xuơi [70] 54CHUONG 6: THÍ NGHIỆM :22222222222 2212221122112 57

6.1 Quá trình thí nghiệm - - 2211111222 1111111158111 111588111 rreg 57

6.1.1 Các phương pháp ước lượng gián ti€p oo cece eeeeeseseeeeeseeeees 576.1.2 Các phương pháp ước lượng trực tiẾp -cccscstxsxerered 57

6.2 Tiêu chi đánh giá - c1 2011122111121 111511 1118111181111 E811 1 1k rHrky 58

Trang 12

6.2.1 Đánh giá các phương pháp ước lượng gián tiếp ¿ 586.2.2 Đánh giá các phương pháp ước lượng trực tiẾp -s¿ 59

6.3 Dữ liệu đánh gI1â - S011 112222 11111110 1111111901 111kg khe 60

6.3.1 Dữ liệu đánh giá cho các phương pháp ước lượng gián tiếp 606.3.2 Dữ liệu đánh giá cho các phương pháp ước lượng trực tiếp 61

6.4 Cài dat thí nghiem - c0 10022222111 1111 222111111112 1111111 khe, 62

6.4.1 Ước lượng gián tIẾp - -kSEEx1EEEE111111110111111 01 1tErrtki 626.4.2 Ước lượng trực tiẾp -sccctn E1 111E111111111 01111101 1Errrei 646.4.3 Cau hình phan cứng và phần mềm - ¿+2 s+EvEvEe£E+EeEersd 656.5 Kết quả thí nghiệm ¿+ 2k SEEE 11 EEEEE21E1E1115112111111111 11tr 666.5.1 Kết quả cho các mô hình ước lượng gián tip eee 666.5.2 Kết quả cho các mô hình ước lượng trực tiép cece cece 73CHƯƠNG7: KẾT LUẬN VÀ HƯỚNG PHAT TRIÉN -cccccszsccs 76CHƯƠNG 8: TÀI LIEU THAM KHẢO 252 22221221221E2121122121Eeerree 78LY LICH TRÍCH | GA] 2 2+22+E22E2212512112112112112112121 2171211 88PHU LUC BÀI BAO KHOA HỌC 2-22 222E2122127122112122127121211 re 89

Trang 13

DANH MỤC HINH

Hình 1-1: Anh minh họa cho tình trạng giao thông tại TP HCM, được chụp tại ngãsáu Lý Thái Tổ - Điện Biên Phủ + 5+ s SE EEEE1121E1E211151E11111111111111111 01x11 gxc 3Hình 2-1: Một ví dụ của qui trình ước lượng gián tiếp thường gặp Trong ví dụ này,đối tượng là xe máy, mỗi đặc trưng (toàn cục) Xỉ có 4 chiều Hàm ƒX được tìm bằng

quá trình học MAY 1112222221111 1111211 1111111180111 1150011111 kg kh 6

Hình 2-2: Một ảnh minh hoa (trái) và ảnh kết quả của việc hiệu số nên (phải) | guén:

nỉ 8Hình 2-3: Qua trình ước lượng của phương pháp [ Ï Ï] - -22-<<+++<+<ssssx++2 9

Hình 2-4: Quá trình phân loại mật độ người trong ảnh dau vào của công trình [13] 11Hình 2-5: Cách chia ảnh thành các ô nhỏ và đếm người trong từng ô của công trình

của XInyu WU và CONG SỰ 001101120111 11 1121011111111 001 11111101 1kg ke 12

Hình 2-6: Một ảnh minh hoa (a) va ảnh kết quả biến đổi homography (b) | guén:

[QA] 14Hình 2-7: Minh hoa cho phương pháp [27] 2 2222222222 EEExxssresxss 15

Hình 2-8: Minh họa cho phương pháp lay anh cắt lớp theo thời gian Ảnh cắt lớp theothời gian ở đây (b) đã được xử lí băng hiệu số nên | guén: [34] -: 16Hình 2-9: Mô hình phat hiện đối tượng thường gặp ooo ceecceeeseseseseeseseeeeeeseeeees 18Hình 2-10: Anh gốc (trai) và kết qua hiển thi HOG tương ứng (phải) 20

Hình 2-11: Quá trình phân loại của công trình [40] 55 55222 cc+ssssxss2 21Hình 2-12: Qui trình phát hiện của công trình [43 | - 555555222 ‡‡+++sesss2 22Hình 2-13: Các mô hình 3D biểu diễn người trong công trình của Tao Zhao và Rami0 0 5 24

Hình 2-14: Phương pháp phát hiện đối tượng dựa vào đường bao [52] 25

Hình 2-15: Các dạng đặc trưng Haar-like được dùng trong công trình [Š6] 26Hình 2-16: Qui trình phát hiện của YOLO [6Š] 2 2c 22221122 E2 EEssrrrssks 27

Hình 2-17: Quá trình huấn luyện và kiểm thử của mô hình SSD .-. 29Hình 2-18: Kiến trúc mạng CỊ | VGG-16 [67] :- 5E ESx+E£EEE2E£EeEeEerrkerered 31Hình 2-19: Biểu đồ chi tiết kiến trúc của toàn bộ mang SSÙ -cc c2 32Hình 3-1: Ảnh minh hoa và kết quả tích chập với một số mặt nạ khác nhau 39

Trang 14

Hình 3-2: Mô hình tính toán HOG | gu6n: [68] -5- 5c 22 2E2E£ESEzxerzkered 40

Hình 3-3: Minh họa cho việc lượng tự hóa từng vùng trên ảnh thành các từ (nhãn) 42Hình 3-4: Minh hoa cho histogram của các nhãn có trên ảnh - ++++› 42Hình 3-5: Mô hình CI Ị Lell et [37] - 2c 2221111211111 11 1111111111811 11811 Exkg 44

Hình 4-1: Mô hình ước lượng gián tiếp dé xuất - - 5:52 2 1E EEEE2E£EEEEEEErrerrred 46Hình 5-1: Minh họa cho quá trình đánh dấu chuẩn vàng va ước lượng của phương

9:10 2 50

Hình 5-2: Minh họa cho việc gom cụm các điểm SURF bằng cây phủ nhỏ nhất Mỗicụm được bao lại bằng một hình chữ nhật - - - CC 1112 S SE Sky 52Hình 5-3: Kiến trúc mang Ca â dùng trong [70] .c.cecccecccecccscescsesescsesesececseseseseeseseees 55Hình 5-4: So đồ qui trình phat hiện sử dụng mang Cả 4 trong [70] - 56Hình 6-1: Một số ảnh minh họa cho tập dữ liệu A (hàng đâu) và B (hàng thứ ba) Đồthị bên dưới các hình biểu diễn số xe máy xuất hiện trong 1000 hình (chuẩn vàng) 6 ÌHình 6-2: Một số anh đã đánh dau khung bao bằng tay được lây trong tập A 62Hình 6-3: Biểu đồ phân tán chỉ tiết biểu diễn cho kết quả ước lượng của các phương

pháp trên 1000 ảnh của hai tập A (trên) và B (dưới) - 5c 2c S22 ssvvceseees 69

Hình 6-4: Tập hợp một số mảng ảnh 32 x 32 được nhóm theo thứ tự trọng số cao đếnthấp trong hàm hỒi qui - 2 + SE EE2E5EEEEEE2EEEEEEEEEE1151111111111111111 111111111 72Hình 6-5: Một số kết qua phát hiện của mô hình SSD 5 2+x+x+EvES£E+xeEered 75

Trang 15

DANH MỤC BANG

Bảng 6-1: Kết quả đánh giá cho phương pháp gián tiếp dé xuất và các phương phápAOE ii Rnt 67Bảng 6-2: So sánh độ chính xác giữa các phiên bản khác nhau của phương pháp đềXUẤT TT HT TH H11 1111111 11g 71Bảng 6-3: Kết qua so sánh giữa các phương pháp ước lượng trực tiếp 73

Trang 16

DANH MỤC CAC TỪ VIET TAT

SSD Single-shot multibox detectorReLU Rectified linear unit

MESA Maximum Excess over SubArraysMAE Mean absolute error

MRE Mean relative errorRBF Radial basis functionLSL Least square SVM with linear kernelLSRBF Least square SVM with RBF kernel

ML Maximum likelihood

RF Random forest

LR Linear regressionGAa Generative adversarial network

Trang 17

CHUONG 1: TONG QUAN1.1 Giới thiệu

â hững năm gần đây, tình hình giao thông tại các nơi đông dân như TP Hỗ ChíMinh, thủ đô Ha 4 ội ngày càng trở nên phức tạp Trong những giờ cao điểm, giaothông tại các tuyến đường nóng có thé bị chậm hoặc tac nghẽn, gây bức xúc cho nhiềungười tham gia giao thông Một trong số các nguyên nhân chính dẫn đến hiện trạngnày là do dân số quá tải Vào năm 2015, TP Hồ Chí Minh đã chứa khoảng 7.95 triệudân, dự báo của 4 gân hàng Thế giới là vào năm 2020 thành phố sẽ đạt mốc 10 triệu[1] Dé có thể giảm thiểu hệ quả về giao thông do dân số quá đông, ngoài các biệnpháp trực tiếp như cải thiện cơ sở hạ tầng hoặc điều chỉnh phân bố nhân lực, ta còn cóthé sử dụng các mô hình giao thông thông minh như các nước tiên tiễn trên thế giới

Có nhiều loại mô hình giao thông thông minh và chúng có thể sử dụng cácphương pháp, hướng tiếp cận khác nhau Một trong số các hướng đi được dùng nhiềutrong thời gian gần đây là sử dụng thị giác máy tính trong việc phân tích, điều tiết giaothông [2], [3] [4] [5] 4 goai sự trực quan, các hệ thống sử dụng thị giác máy tính cònđược dùng nhiều vi sự phát triển vô cùng nhanh chóng của các phương pháp liên quan(xử lí ảnh, học máy, học sâu, v.v) â goài ra, tốc độ xử lí của phần cứng máy tính cũngđủ khả năng đáp ứng cho các giải thuật phức tạp dé các hệ thống có thé thực thi trong

thời gian thực.

Về cơ sở hình thành để tài thì có hai nguyên nhân chính Đầu tiên, ta có thểnhận thấy răng, hầu hết các phương pháp, hệ thống thị giác máy tính được sử dụngtrên thế giới đều tập trung vào xe bốn bánh â gược lại, ở Việt â am, do thói quen sửdụng xe máy là cực kỳ lớn nên điều kiện giao thông khác biệt rât nhiều Vì vậy, việcáp dụng cứng nhắc một hệ thống có sẵn trên thé giới vào môi trường giao thông tạiViệt â am là không khả thi

a guyên nhân thứ hai năm ở điêu kiện có san trong cơ sở ha tang Vào nam

2012, tại TP Hồ Chí Minh đã có hàng trăm camera giao thông đã được lắp đặt ở nhiều

Trang 18

vị trí khác nhau [6] Với cơ sở này, việc phát triển một hệ thống giao thông dựa trên

các video giao thông là kha thuận lợi.

Với hai lí do như trên, đề tài này đã được thực hiện với các mục tiêu chính

1.2 Y nghĩa của đề tài

a) Y nghĩa thực tiến:e Góp phan tự động hóa cho việc đánh giá, phân tích tình hình giao

thông Tại TP Hồ Chí Minh, dù đã có nhiều camera quan sát đã được lắpthì phương pháp đánh giá tình hình giao thông chủ yếu vẫn là dựa vàongười quan sát Một vi dụ điển hình là đài phát thanh Tiếng nói Việt 4 am(Voice of Vietnam — VOV) 4 hu vay, nếu có thé tự động hóa quá trìnhquan sát, phân tích mật độ, số lượng phương tiện tham gia giao thông thì sẽgiúp giảm đi yêu cầu về nhân lực rất nhiều

e Là nên tảng cho các hệ thống giao thông thong minh sir dụng thị giácmáy tính Việc xác định mật độ là một trong những yêu cau cốt lõi dé cóthể xây dựng một hệ thống hoàn chỉnh Một hệ thống giao thông thôngminh, nếu được phát triển và sử dụng rộng rãi, sẽ có nhiều lợi ích chongười tham gia giao thông tại Việt â am

e Hỗ trợ cho công tác thống kê về giao thông Việc ước lượng số lượng,mật độ phương tiện tự động cho phép ta thống kê tình hình giao thông liêntục mỗi ngày Từ đó, dữ liệu thống kê sẽ được làm giau, giúp ích cho côngtác qui hoạch đô thị và thiết kế cơ sở hạ tầng phù hợp

b) Ý nghĩa khoa học;

Trang 19

e_ Đóng góp vào hệ thống các phương pháp ước lượng mật độ giao thôngmà xe máy chiếm số đông Trên thế giới, chỉ cố một số ít các quốc gia sửdụng xe máy nhiều như Việt 4am, vì vậy ta có thé thay hầu hết cácphương pháp liên quan đều tập trung vào xe hơi, xe tải hay xe buýt Việcdé xuất phương pháp ước lượng mật độ giao thông cho môi trường nhưViệt â am là điều cần thiết.

e Các phương pháp đề xuất có thé được sử dụng lại cho các đối tượng

khác Bài toán ước lượng mật độ không chỉ có riêng ở mảng giao thông.

Phương pháp dé xuất của dé tai này hoàn toàn có thé được áp dung lại chocác loại đối tượng khác

Hình 1-1: Anh minh họa cho tinh trạng giao thông tại TP HCM, được chụp tại

ngã sáu Lý Thái Tô - Điện Biên Phú.e Bài toán ước lượng mật độ giao thông tại các nơi đông dân ở Việt Nam

là tương đối khó 4 hư ta có thé thấy trong hình Hình 1-1, giao thông ởcác vị trí đông đúc thường khá hỗn loạn do có nhiều xe máy Sự che lấpgiữa các phương tiện cũng diễn ra khá nhiều Vì vậy, nếu một phươngpháp có thể hoạt động với điều kiện như vậy thì khả năng cao là nó sẽ cóthể được dùng lại cho các điều kiện đơn giản hơn

1.3 Pham vi của đề tài

e Đối tượng ước lượng: xe máy.e Điều kiện ánh sáng: ban ngày, không mưa

Trang 20

e Phuong pháp: xử lí anh, học máy, thi giác máy tính.

e Bối cảnh: giao thông tại TP Hồ Chí Minh, Việt â am.¢ Góc nhìn cố định

e Sô lượng camera: một.

1.4 Bồ cục luận văn

Trong báo cáo này có tất cả 9 chương Chương 2 có mục đích giới thiệu cáccông trình nghiên cứu liên quan, các hướng giải quyết cho bài toán ước lượng.Chương 3 cung cấp một số cơ sở lý thuyết đặt nền móng cho các mô hình được đềxuất trong chương 4 Chương 5 dé cập các mô hình ước lượng đối sánh (benchmark).Chương 6 đưa ra thông tin thí nghiệm, các chỉ tiêu đánh giá và kết quả đánh giá củacác phương pháp cùng với một số nhận xét dựa vào các kết quả đây Chương 7 kết

luận báo cáo Chương 8 là danh sách các tài liệu tham khảo và Chương 9 là danh mụccác bài báo liên quan đên đê tài đã được xuât bản.

Trang 21

CHƯƠNG2: CÁC CÔNG TRÌNH NGHIÊN

CỨU LIÊN QUAN

â hư đã đề cập, có rất ít các phương pháp ước lượng mật độ được phát triểndành riêng cho xe máy Tại các nước phát triển, hầu hết người dân đều di chuyển bằngxe hơi hoặc phương tiện công cộng Vì vậy, việc các phương pháp trong lĩnh vực đềutập trung cho xe bốn bánh là điều dễ hiểu

â goài van dé về giao thông, đối tượng con người cũng được quan tâm nhiềutrong bài toán ước lượng số lượng, mật độ Các phương pháp này tuy dành cho đối

tượng khác nhưng việc ứng dụng cho bài toán giao thông không phải là không kha thi.

Vì vậy, phần này sẽ tập trung đề cập đến nhiều phương pháp ước lượng mật độ củanhiêu loại đối tượng khác nhau chứ không giới hạn ở phương tiện giao thông

2.1 Tổng quan về các hướng ước lượng số lượng, mật độ vật thể

Từ lúc lĩnh vực thị giác máy tính ra đời cho đến nay, đã có rất nhiều công trìnhliên quan đến việc đếm (hay ước lượng) số lượng đối tượng nao đó có trong ảnh Tacó thé chia toàn bộ các phương pháp thành hai hướng chính:

e Ước lượng gián tiếp.e Ước lượng trực tiếp.Ở nhóm gián tiếp, các đối tượng thường được ước lượng thông qua các môhình rút trích đặc trưng toàn cục và hồi qui Do đặc điểm rút trích đặc trưng toàn cụcnên vị trí các đối tượng trong ảnh có thé sẽ bị ấn đi (location-agnostic)

Đối với nhóm trực tiếp, các phương pháp sẽ xác định được vị trí hoặc đườngbao của từng đối tượng Sau khi đã có được vị trí va đường bao của từng vật thé,nghiễm nhiên ta sẽ đếm được số lượng của chúng Thực chất, ước lượng trực tiếpchính là bài toán phát hiện, xác định vi tri đối tượng trong ảnh

Trang 22

2.2 Các phương pháp ước lượng gián tiếp

Anh dau vao Vector đặc trưng Số lượng xe máy

Hình 2-1: Một vi dụ của qui trình ước lượng gián tiếp thường gap Trong ví dụ

nay, đôi tượng là xe máy, mỗi đặc trưng (toàn cục) X; có 4 chiêu Hàm ƒ(X) được

tim băng quá trình học may.

Mô hình ước lượng gián tiếp được biểu diễn trong Hình 2-1 Tuy trong ví dụtrên đối tượng được đếm là xe máy, qui trình này có thé được áp dung cho nhiều loạivật thé khác â hư ta có thé thấy, các phương pháp thuộc dang nay được gọi là ướclượng gián tiếp vì trong toàn bộ quá trình ta không cân quan tâm vị trí của chúng trong

ảnh Vector đặc trưng được rút trích là toàn cục, đại diện cho toàn bộ ảnh chứ không

riêng cho bất kỳ đối tượng nào Tuy ta có thể mã hóa thông tin về không gian cục bộcủa ảnh đâu vào ở trong vector đặc trưng, thì hàm ƒ(X) cũng chỉ trả về số lượng â éudau ra của f(X) là vị trí của các đối tượng thì phương pháp sẽ được phân vào nhómtrực tiếp

Ưu điểm:e Kháng được che khuất cao.e Tốc độ xử lí nhanh

Nhược điểm:

Trang 23

e Chỉ cho ta biết số lượng đối tượng Trong một ứng dụng phức tạp, chỉvới số lượng thi ta có thé không có đủ thông tin can thiết.

Có nhiều phương pháp ước lượng gián tiếp nhưng ta có thể phân chúng thànhbốn nhóm chính:

(i) Ước lượng dựa vào đặc trưng hình anh co ban (low-level feature).

(ii) Ước lượng dựa vào phân tích câu trúc ảnh (texture analysis).(iii) Ước lượng dựa vào điểm trọng yếu (keypoint)

(iv) Ước lượng dựa vào đặc trưng cấp cao (high-level feature).Các loại đặc trưng hình ảnh cơ bản được biết đến từ khi lĩnh vực thị giác máytính ra đời Một số đặc trưng cơ bản gồm: diện tích, độ dài đường bao khối pixel, độsáng pixel, đường kính, v.v Các phương pháp này tuy cơ bản nhưng van có thé hoạtđộng được trong các tình huống tương đối lí tưởng Tuy nhiên, rất khó để chúng cóthể được dùng trực tiếp ở ảnh đầu vào Thông thường, các loại đặc trưng này phảiđược đi kèm với một quá trình tiền xử lí phía trước như: hiệu số nền, cân bang sang,v.v Để tính các loại đặc trưng này thì không cần mất quá nhiều thời gian Tuy nhiên,

độ chính xác của các phương pháp dựa trên chúng thường kha kém.

Ở một mức cao hơn, các đặc trưng về câu trúc ảnh cũng được đưa vào sử dụngcho việc ước lượng số lượng đối tượng Một số hướng rút trích đặc trưng dựa vào câutrúc gồm: thông kê, hình học, xử lí tín hiệu số, v.v Các phương pháp loại nay có thé

rút trích được các đặc trưng phức tạp hơn so với (1) vì vậy độ chính xác cũng thườngcao hơn.

Một trong các phương pháp xử lí ảnh phố biến là tìm các điểm trọng yếu(keypoint) có trên ảnh Các điểm trọng yếu này có thé được rút trích theo nhiều cáchkhác nhau, nhưng chúng thường năm ở các vị trí đặc biệt như mắt, mũi, góc cạnh, v.v.Lợi dụng đặc điểm này, nhiều công trình cũng sử dụng các điểm trọng yếu đề đoánbiết số lượng vật thể Thế mạnh của hướng tiếp cận này là chúng có khả năng thíchứng với nhiều điều kiện ánh sáng khác nhau Điều này là do đặc thù bất biến của cácphương pháp xác định điểm trọng yếu

Trang 24

Các phương pháp theo hướng tiếp cận (iv) chỉ mới được sử dụng nhiều trongthời gian gần đây, khi phần cứng máy tính cho phép tính toán chúng trong thời gianthực vì chúng thường kha phức tạp Các loại đặc trưng cấp cao có thé được chia thànhhai loại nhỏ hơn là đặc trưng do người thiết kế và đặc trưng do máy học Đặc trưngdo con người thiết kế được rút trích theo một thuật toán, một qui trình cụ thể do ngườithiết kế tạo ra Các loại đặc trưng này thường có tính tong quát, có thé biểu diễn đượccho nhiều loại đối tượng khác nhau Chúng thường được thiết kế cho các bài toán tìmkiếm, phân loại đối tượng, v.v nhưng vẫn có thể được dùng vào việc ước lượng giántiếp Đối với các đặc trưng do máy học, con người chỉ thiết kế các kiến trúc, mô hình

học máy Các đặc trưng sẽ được rút trích một cách tự động, dựa theo một hàm lỗi

(error function) định nghĩa trước Với loại đặc trưng nay, ta có thé biết chúng được rúttrích như thé nao, nhưng tai sao may học được chúng thi cần nhiều nghiên cứu hơn

Trong tất cả hướng tiếp cận, thì hướng đi (iv) được dành nhiều sự quan tâmnhất trong thời gian gần đây Một phân là vì như đã đề cập, quá trình tính toán các loại

đặc trưng này thường khá phức tạp nên việc tính toán chúng trong thời gian thực chỉ

mới khả thi trong thời gian gần đây Lí do thứ hai là vì sự ra đời của nhiều phươngpháp vượt trội, có thé giải quyết các bài toán khó hơn trước kia với độ chính xác khacao.

i) Ước lượng dựa vào đặc trưng hình ảnh cơ bản (low-level feature)

Trang 25

Do bản chất của các loại đặc trưng này là đơn giản, nên hầu hết các phươngpháp ước lượng đều phải sử dụng các công cụ tiền xử lí trước khi rút trích Một trongcác công cụ phổ biến nhất là học nền và hiệu số nền (background modeling &

background subtraction) Trong công trình [7], [8], [9] và [10], các tac gia sử dụng

hiệu số nên để bóc tách các pixel thuộc về người đi bộ (Hình 2-2) Đối với [7] sau khiđã có được từng cụm pixel chứa người, họ tiến hành tính histogram kích thước cụm(blob size) va histogram dựa vào hướng cạnh dé dùng làm đặc trưng Trước khi hồiqui, các điểm ảnh sẽ được chuẩn hóa dựa vào độ xa gân so với camera Dé có thể ướclượng được số người từ những đặc trưng, các tác giả sử dụng mạng no-ron Ở côngtrình [8] cũng tương tự, Ruihua Ma và các cộng sự phải tiến hành tỉnh chỉnh lại ảnhbang phương pháp hình học (gometric correction) 4 hư vậy thì việc ước lượng dựatrên số lượng pixel của họ mới khả thi

Đối với công trình [9], các tác giả vẫn phải chuẩn hóa các pixel dựa vào phốicảnh Sau đó, tong số các pixel của các cụm người được dùng làm đặc trưng cho việcđếm Tại công trình [10], D Ryan và các cộng sự sử dụng nhiều đặc trưng hon, baogồm: diện tích, chu vi, tỉ lệ chu vi/dién tích, tong pixel cạnh, histogram hướng cạnh.Cả hai công trình [9] và [10] đều dùng mạng nơ-ron nhân tạo cho việc hồi qui

video feature extraction GP model count estimate

=a =)

Hình 2-3: Quá trình ước lượng của phương pháp [11].

Ở các công trình trên, việc bóc tách người ra khỏi nên được thực hiện thôngqua phương pháp học nên và hiệu số nền Khác với hướng di ấy, [11] và các cộng sựthực hiện bóc tách người ra khỏi nền dựa vào hướng di chuyển của họ â hững dòng

người di theo các hướng khác nhau sẽ được bóc ra thành các cụm riêng biệt Các đặc

trưng mà họ dùng thì tương tự với [10] nhưng có bao gồm thêm số lượng các cụm

Trang 26

Phương pháp ước lượng mà họ dùng là hồi qui Gaussian Process và héi qui Bayesiantrên phân phối Poisson.

Tóm lại, các phương pháp ước lượng đặc trưng dựa trên các đặc trưng cấp thấpđều can có sự hỗ trợ của các phương pháp tiền xử lí dé bóc tách các đối tượng ra khỏinên Điều này là do bản chất của các đặc trưng như: số pIxel, độ dài cạnh, diện tíchcụm, v.v đều không có khả năng biểu diễn sự khác biệt giữa đối tượng (người, xe) vànên ảnh (đường, nhà cửa) Việc sử dụng các đặc trưng nay dé gặp nhiễu nếu như quátrình bóc tách đối tượng không tốt hoặc do điều kiện sáng khó â goài ra, chúng phụthuộc vào phối cảnh và điều kiện chụp rat nhiều nên khi đổi vị trí, góc quay mới thì taphải tốn thời gian điều chỉnh lại cho đúng Các phương pháp này tuy có tốc độ tínhtoán tương đối nhanh nhưng độ chính xác của chúng kém hơn so với các hướng di

khác, đặc biệt là hướng (11) và (iv).

ii) Ước lượng dựa vào phân tích cấu trúc anh (texture analysis)Một trong các phương pháp ước lượng gián tiếp dựa vào phân tích cấu trúc ảnhkinh điển nhất được dé xuất vào năm 1997 bởi A â Manara và các cộng sự [12] Vàonăm 2005, nhóm của họ cải tiến lại phương pháp gốc với độ chính xác và tốc độ xử línhanh hơn [13] Về cơ bản, phương pháp [12] và [13] sử dụng ma trận đồng mức xám(grey level co-occurence matrix - GLCM) dé rút trích đặc trưng Với GLCM, ta có théphân tích sự tương quan độ sáng giữa các pixel trong miền không gian qua các chỉ sốnhư: độ tương phan (contrast), độ đồng chat (homogeneity), năng lượng (entropy), độhỗn loạn (entropy), v.v Trong bài báo gốc, các tác giả cũng dé xuất sử dụng hiệu sốnên nhăm làm tăng độ chính xác Đề có thé ước lượng mật độ, các tác giả sử dụng

mạng nơ-ron self-organizing map (SOM neural network) [14].

Trang 27

cách gom cum pixel Cac pixel có đặc trưng GLCM tương tự nhau sẽ được gom vào

một cụm, dựa vào SOM Sau đó, họ tiến hành tinh histogram của câu trúc ảnh và đưahistogram này vào một SOM thứ hai để đánh giá mật độ người có trong ảnh Để có thểtăng tốc cho quá trình tính toán GLCM, các tác giả đề xuất sử dụng một hệ thống tínhtoán song song g6m nhiều máy tính con Một điểm can lưu ý là cả hai phương pháp[12] và [13] đều có đầu ra là mức độ đông của các đối tượng có trong ảnh thay vì sốlượng đối tượng như các phương pháp khác Mỗi ảnh sẽ được xếp vào một trong nămnhóm: rất thấp, thấp, trung bình, cao, rat cao

Trang 28

Hình 2-5: Cách chia ảnh thành các ô nhỏ và đếm người trong từng ô của công

trình của Xinyu Wu và cộng sự.

Kế thừa ý tưởng của công trình [12], Xinyu Wu và các cộng sự sử dụng lạiGLCM để ước lượng số lượng người trong ảnh [15] Tương tự như một số công trìnhđã đề cập ở nhóm (i), các tác giả trong công trình này cũng tiến hành chuẩn hóa ảnhdựa vào phối cảnh Mỗi ảnh sẽ được chia ra làm nhiều ô nhỏ hơn va mỗi 6 này sẽ cótrọng số riêng biệt để phản ánh thông tin về phối cảnh Các ô xa hơn sẽ có trọng sốcao hơn do chúng chứa nhiều đối tượng hon Dé có thé ước lượng số lượng người đi

bộ, các tac gia dùng mô hình học may support vector machine (SVM) [16].

Ở công trình [17], nhóm nghiên cứu cũng sử dung lại GLCM nhưng để dùnglàm công cụ so sánh là chủ yếu Phương pháp dé xuất của họ là sử dung Invariant

Orthonormal Chebyshev Moments (IOCM) [18] IOCM phương pháp tính động lực

(moment) sử dụng các đa thức Chevbyshev trực giao trên miễn rời rac Ưu điểm củađặc trưng IOCM là nó có tính bat bién với phép dịch chuyển 4 éu sử dụng các đa thứcbậc cao, ta có thé rút trích được các thông tin phức tạp, tuy nhiên việc tính toán sẽ lâu.Với kết quả thử nghiệm, các tác giả đã chứng minh được là IOCM có khả năng phânloại mật độ chuẩn xác hơn khi dùng GLCM

Trang 29

â goài các công trình kể trên, một số nhóm nghiên cứu cũng tập trung thửnghiệm phân tích cấu trúc ảnh băng local binary pattern (LBP) [19], [20] Trong côngtrình [19], họ sử dụng cách tính LBP thông thường là lấy ngưỡng tại mỗi ô 3 x 3pixel Tuy nhiên, dé làm giảm số chiều khi lay đặc trưng trên toàn ảnh, họ phân nhómLBP tại mỗi ô 3 x 3 thành một trong 15 loại dựa vào độ dài và vị trí bắt đầu của dãycác pixel 1 Đề phân loại mật độ, họ tiến hành øom cụm các vector đặc trưng băng K-mean trong quá trình huấn luyện sau đó dùng K-nearest neighbor lúc kiểm thử Tươngtự, Hajer Fradi và các cộng sự chia anh ra lam nhiều vùng và tính LBP trên mỗi vùng[20] Sau đó, họ tính LBP histogram trên mỗi vùng, chuẩn hóa và nối toàn bộ lại để

làm vector đặc trưng cho việc phân loại mật độ.

Không giống với các công trình trên, nhóm của Qing Wen sử dụng bộ lọcGabor dé phân tích cấu trúc ảnh [21] Ảnh xám đầu vao sẽ được xử lí bởi 16 bộ lọckhác nhau và cho kết quả là 16 kênh đầu ra Với mỗi kênh đâu ra đó, họ tiễn hành tínhtrung bình (mean) và phương sai (variance) mức xám Cuối cùng, toàn bộ các cặp giátrị trung bình và phương sai đã tính được nối lại để làm vector đặc trưng cho toàn ảnh.Vector ấy có 32 chiều Sau cùng, họ dùng mô hình least square SVM (LS-SVM) đểước lượng số lượng người có trong ảnh Độ chính xác trong bài báo gốc khá cao mặcdù đặc trưng họ rút trích tương đối cơ ban Lí do vì bộ lọc Gabor có khả năng làm nổibật các câu trúc như góc, cạnh trong anh

Trong hau hết các công trình đã được liệt kê, các phương pháp phân tích cau

trúc ảnh thường có độ chính xác cao hơn so với các phương pháp dựa vào đặc trưng

cơ bản Điều này có thé hiểu là do các bộ đặc trưng cau trúc có khả năng biéu diễn ảnhtốt và chi tiết hơn Một điểm chung giữa các công trình là GLCM được dùng khánhiều Tuy nhiên, do đặc điểm tính toán khá phức tạp nên việc tính toán thường matnhiêu thời gian â goài ra, đa số các phương pháp đều dừng lại ở mức phân loại mựcđộ theo cấp (rất thấp đến rat cao) Vì vậy, việc so sánh và đánh giá những phươngpháp nay với các phương pháp trả về số lượng gặp nhiều khó khăn Một điểm yếukhác của các phương pháp theo hướng phân tích cấu trúc ảnh là các đặc trưng rút tríchđược thường sẽ bị phụ thuộc nhiều vào tập huấn luyện

iii) — Ước lượng dựa vào điểm trọng yếu (keypoint)

Trang 30

Có nhiều cách phát hiện điểm trọng yếu khác nhau, trong đó phương pháp pháthiện góc Harris [22] là một trong những phương pháp được sử dụng nhiều Trongcông trình [23], sau khi đã dùng phương pháp Harris để phát hiện góc, các tác giả tiễnhành khử các điểm không thuộc người đi bộ Các điểm này là các điểm tĩnh giữanhiều frame trong một video Sau đó, họ tiến hành lấy tổng số các điểm thuộc vềngười đi đường, chia nó cho số điểm mà một người có thể sinh ra để tính số người đi

bộ.

(a)

Hình 2-6: Một ảnh minh họa (a) và ảnh kết quả biến đối homography (b)

Nguôn: [24].Kế thừa từ công trình [23], các tác giả của bài báo [24] cũng đếm người thôngqua số lượng các điểm Harris â goài việc rút trích đặc trưng và đếm tương tự nhưcông trình đi trước, họ tiễn hành chuẩn hóa trọng số mỗi điểm Harris thông qua

homography Trong công trình [25], Hajer Fradi va Jean-Luc Dugelay dùng phương

phap phat hién diém trong yéu scale-invariant feature transform (SIFT) [26] thay viHarris 4 goài ra, họ cũngn chuẩn hóa các điểm này dựa vào phối cảnh Kết quả của cảhai bài báo [24] và [25] đều tốt hơn [23]

Trang 31

Tương tự với công trình [23], Donatello Conte và các cộng sự cũng sử dung

các điểm trọng yếu dé ước lượng số người [27] Tuy nhiên, thay vì dùng Harris haySIFT thì họ sử dung speeded up robust features (SURF) [28] Có rất nhiều điểm SURFsau quá trình phát hiện điểm trọng yếu Dé giảm bớt các điểm không cân thiết, họcũng loại bớt các điểm thuộc nên như công trình [23] Dựa vào các điểm nay, họ ápdụng gom cụm để gom các điểm gân nhau lại Phương pháp gom cụm mà ho sử dụnglà dựa trên cây phủ nhỏ nhất [29] Sau khi đã gom cụm, họ sẽ tính toán số người trongmỗi cụm Vector đặc trưng cho mỗi cum bao gôm: tổng số các điểm trọng yếu, mật độcác điểm trong yếu, khoảng cách từ cụm đến camera Phương pháp ước lượng được

dùng là SVM.

Trong một cải tiến khác [30], thay vì gom cụm các điểm SURF thì các tác giảtiến hành chia ảnh thành từng vùng ngang dựa vào phối cảnh Các vùng càng gầncamera thì có trọng số cảng thấp, càng xa thì có trọng số cảng cao â hư vậy, các điểmở xa sẽ đóng góp nhiều hơn các điểm ở gan trong việc đếm người Các vùng nay đượctinh đựa vào việt theo đối chiều cao của một người đi bộ, thay vì phải lay thông tincamera dé tính Đối với việc ước lượng, các tác giả sử dụng hồi qui bình phương tốithiểu tuyến tính

â hìn chung, các phương pháp sử dụng điểm trọng yếu có độ chính xác cao hơncác phương pháp dựa vào đặc trưng cơ bản Một ưu điểm của việc dùng điểm trọngyếu như Harris, SIFT, SURF là chúng có khả năng bất biến với độ sáng tốt Tuy

nhiên, rat khó đê phân biệt các diém trọng yêu giữa người đi bộ và nên â goài ra,

Trang 32

phương pháp bi ảnh hướng rất nhiều bởi qui luật xa-gần, vì vậy nên hau hết cácphương pháp phải tích hợp thêm bước chuẩn hóa phối cảnh.

iv) — Ước lượng dựa vào đặc trưng cấp cao (high-level feature)Trong những hướng đi đã dé cập, thì các đặc trưng phức tạp nhất được dùng làGLCM và IOCM Các đặc trưng này có khả năng biểu diễn được cho cau trúc của ảnhtốt Tuy nhiên, về mặt phân biệt hình dạng (appearance) giữa các vật thể, các đặctrưng GLCM và IOCM thường sẽ không biểu diễn tốt băng các đặc trưng được thiếtkế riêng cho mục đích ây như: SIFT, SURF, histogram of oriented gradient (HOG)[31] Về co ban, SIFT, SURF hay HOG có thé được xem là đặc trưng cơ bản vi mộtvector đơn lẻ khó có thé biểu diễn cho cả một đối tượng Tuy nhiên, nếu tổng hopnhiều vector nay lại băng một số phương pháp khác nhau, chúng ta có thé sử dụng kếtquả ấy để làm vector đặc trưng có khả năng hoạt động tốt

Trong bài báo cua Victor Lempitsky va Andrew Zisserman [32], họ sử dụng

các đặc trưng SIFT kết hợp với mô hình túi từ [33] va dùng làm đặc trưng Việc rúttrích vector đặc trưng được tiễn hành trên từng pixel Sau đó, việc hồi qui cũng đượcthực hiện trên từng pixel dé sinh ra bản đồ mật độ đối tượng trong ảnh Tổng của bảnđô này cũng chính là tổng số đối tượng có trong ảnh 4 goài ra, học cũng tiến hành thửnghiệm rút trích đặc trưng bang cây quyết định dé so sánh Do việc ước lượng đượcthực hiên trên từng pixel nên độ chính xác rất cao Tuy nhiên, quá trình thực thi chậmdo phải tính toán khá nhiêu

Trang 33

mau ảnh cat lớp theo thời gian (temporal slice) thông qua một đoạn thắng ngắn trênvideo (Hình 2-8) Trên ảnh cắt lớp theo thời gian, họ tiến hành đếm người Điểm đặcbiệt là số người đếm được không phải là số người xuất hiện riêng trong khung ảnhnào, mà là số người đã đi qua đoạn thăng trong khoảng thời gian lấy mẫu Trên ảnhcắt lớp theo thời gian, vector đặc trưng HOG kết hợp với túi từ được rút trích Môhình hôi qui được dùng dé đếm số người là Bayesian Poisson [35].

â hư ta có thể thây, mô hình SIFT hoặc HOG kết hợp với túi từ không phải làdo con người can thiệp hoàn toàn vi trong quá trình xây dựng từ dién thi cần đến K-means Khác với hướng đi này, ta có thể sử dụng các mô hình học máy để rút trích đặctrưng tự động với sự can thiệp rat ít của người lập trình Trong công trình [36], nhóm

nghiên cứu đã su dung mạng nơ-ron convolutional (convolutional neural network —

Ca â ) [37] dé rút trích đặc trưng Ở tang ấn cuối, ho áp dụng hôi qui luận lí (logisticregression) bằng một tang kết nối day đủ (fully connected) có năm nút và các hàmsigmoid Lớp hôi qui luận lí này có nhiệm vu phân loại đầu vào thành một trong nămlớp mật độ: rat thưa, thưa, vừa, cao, rất cao Dù kết quả có độ chính xác khả caonhưng đầu ra của phương pháp bị hạn chế bởi năm lớp định trước

Một phương pháp khác tận dụng cả ảnh cắt lớp thời gian và Cả a được dé xuấttrong công trình [38] bởi Lijun Cao và các cộng sự Với video đầu vào, họ tiến hànhlây mẫu ảnh cắt lớp theo thời gian tương tự như [34] Tuy nhiên, không chỉ dừng lại ởảnh gốc, ho còn lay mẫu anh cắt lớp theo thời gian cho các vector dong quang Sau đó,các ảnh được đưa qua tat cả 3 bộ Cả â dé tìm ra số người bước vào và bước ra khỏi

khung hình.

Tập hợp các công trình ước lượng gián tiếp theo hướng tiếp cận này nhìn chungđều có ưu điểm là mạnh Tuy nhiên, do quá trình tính toan khá phức tạp nên có một sốphương pháp sẽ chậm hơn các phương pháp của các nhóm (i) và (iii) â goài ra, một sốphương pháp như Ca â hoặc SIFT kết hợp túi từ cũng bi ảnh hưởng bởi phối cảnh,góc quay Điểm yếu này có thể được khác phục bởi việc làm giàu dữ liệu, nhưngkhông phải trong thực tế lúc nào cũng tìm được nhiều dữ liệu có gán nhãn để huấn

luyện.

Trang 34

2.3 Các phương pháp ước lượng trực tiếp

TH) | 0 Phân loại

đặc trưng 1.5 :

lộ \

Sinh ảnh : : ¬.ae —3 Hậu xử lý

0.77 RX2 = 6 Y> = On

hay không Sau khi đã có nhãn cho từng mảng ảnh, thường sẽ có một bước hậu xử lí

(post-processing) dé tổng hợp chúng lại và cho ra kết quả phát hiện sau cùng

Một điểm can lưu ý là ngoài mô hình chung được mô tả trong Hình 2-9 còn cónhiều hướng giải quyết khác Một phương pháp hoàn toàn có thể gom việc rút tríchđặc trưng và phân loại lại làm một ma không ảnh hưởng đến độ chính xác 4 goai ra, takhông nhất thiết phải xác định khung bao của đối tượng mà có thể chỉ cần xác định

tâm của chúng.

Trang 35

e Cho ta biết nhiều thông tin: vị trí, kích thước, số lượng đối tượng.e C6 khả năng được ứng dụng cho các bai toán như theo vết, ước lượng

hướng đi chuyền, v.v.Nhược điểm:

e Thuong chậm hơn các phương pháp gián tiếp.e Dễ bị ảnh hưởng bởi sự che khuất giữa các đối tượng.Một số hướng ước lượng trực tiếp phổ biến:

(1) Ước lượng dựa vào đặc trưng gradient do người thiết kế

(hand-engineering gradient-based features).

(ii) Ước lượng dựa vào hình dạng vật thé (shape)

(iii) Ước lượng dựa vào học máy (machine learning).

Trong hướng thứ nhất, việc rút trích đặc trưng thường được dựa vào gradient

tại các pixel hoặc các vùng pixel có trên ảnh Các đặc trưng như SIFT và HOG hỗ trợ

việc này khá tốt Các phương pháp rút trích dạng này thường được dé xuất với giảithuật chung (generic) đi kèm dé có thé rút trích với nhiều bộ tham số khác nhau Banthân mỗi vector đặc trưng được rút trích thường khó có thé biểu diễn được một đốitượng day đủ Vì vậy hau hết các công trình phải kết hợp nhiều vector nay lại dé cóthể phát hiện đối tượng tốt Trong nhiều công trình dạng này, mô hình phân loại SVMđược dùng khá nhiều

Đối với nhóm (ii), các đặc trưng cũng thường được thiết kế bởi người nghiêncứu Các đặc trưng dạng này thường có tính đặc thù riêng loại đối tượng mà ngườilàm muốn phát hiện (ví dụ: mặt sau xe hơi có hình chữ nhật, đầu người có hình tròn,v.v) Do được thiết kế riêng dựa vào hình dạng của đúng đối tượng can tìm, các đặctrưng này có thể có độ chính xác cao Tuy nhiên, cũng vì tính đặc thù về hình dạngnên mỗi phương pháp khó có thể áp dụng lại cho các đối tượng khác quá nhiều so với

ban đâu.

Ở nhóm cuối cùng, các thành phân của qui trình phát hiện hau như đều phảithông qua học máy, đặc biệt là bước rút trích đặc trưng Đây là điểm khác biệt chính

Trang 36

của nhóm (iii) so với nhóm (i) và (ii) Do máy có thể tự học hoan toàn các bước rúttrích đặc trưng va phân loại nên thông thường van dé khó khăn nhất là nam ở thu thậpdữ liệu và giám sát quá trình học Một bộ học may có thể học được các đặc trưng tốtnếu được theo dõi và đánh giá thấu đáo Dù vậy, quá trình huấn luyện các bộ hoc máymạnh mẽ cũng vẫn còn gặp nhiều khó khăn do các hiện tượng như quá khớp Việchuấn luyện được bộ học máy tốt cần đến kinh nghiệm của người thực hiện thí nghiệm.

i) Ước lượng dựa vào đặc trưng về gradient do người thiết kế

(hand-engineering gradient-based features)

1

Hình 2-10: Anh gốc (trái) và kết quả hiển thị HOG tương ứng (phải).Trong nhiều trường hợp, ta có thể biểu diễn một đối tượng thông qua việc tínhtoán, thống kê các gradient của các chi tiết đối tượng Một trong số các công trìnhkinh điển nhất theo hướng di này là HOG [31] 4 hư ta có thé thay trong Hình 2-10,các vector đặc trưng HOG có khả năng làm nổi bật được các cạnh có trong ảnh Tuyvay, ta không thé dùng từng vector HOG để mô tả cho đối tượng mà phải tong hợpnhiều vector lại Kỳ vọng ở đây là những đối tượng thuộc cùng một nhóm sẽ có cácđặc trưng về góc, cạnh tương tự nhau Việc rút trích và tổng hợp HOG sẽ làm cho quátrình phân loại dé hơn Trong bài báo HOG gốc, các tác giả sử dụng SVM để phân

loại và cho ra kêt quả cao hơn hăn so với các công trình đi trước.

Điểm yếu của HOG năm ở chỗ các đặc trưng thu về được khá cứng nhắc Vì

Trang 37

dé xuất sử dụng mô hình Deformable Part Model (DPM) [39] Trong mô hình này,mỗi đối tượng được định nghĩa từ nhiều bộ phận con Mỗi bộ phận được tính toánbằng HOG thông thường Tuy nhiên, điểm khác biệt của DPM so với phiên bản HOGgốc là phương pháp cho phép các bộ phận di chuyền trong một khoảng cho phép Điềunày làm cho DPM hoạt động được khi gặp phải các đối tượng di chuyên phức tạp hoặcbị che khuất.

A

Hình 2-11: Quá trình phân loại của công trình [40].

Một cải tiễn khác dựa trên HOG là công trình của Xiaoyu Wang, Tony X Han

Confident3 —|€onsistent?| | Yes

YesHOG-LBP Feature

va Shuicheng Yan [40] Trong công trình này, nhóm tac giả sử dung HOG kết hop vớiđặc trưng local binary pattern (LBP) [41] dé phân loại người Việc phân loại đượcthực hiện bằng SVM nhân tuyến tính Để cải thiện khả năng phát hiện băng HOG-LBP đối với các đối tượng bị che khuất, họ tiến hành đánh giá đóng góp của từng ôHOG vao trong quá trình tính toán HOG â éu 6 HOG nao có đóng góp it thì chứng tỏvị trí đó đã bị che đi Khi một đối tượng bi che quá nhiêu, họ sẽ sử dụng một chỉ tiêukhác (độ thống nhất - consitency) dé xác định xem có người hay không (Hình 2-11)

Ở những công trình vừa dé cập như [31], [39] và [40] hầu hết đều tập trung

vào độ chính xác của việc phân loại và phát hiện Vì vậy nên quá trình tính toán vẫn

còn tương đối chậm, đặc biệt là khi bài toán có xuất hiện thêm nhiều loại đối tượngkhác Để khắc phục, nhóm nghiên cứu ở Google dé xuất sử dụng thuật toán băm dégiảm tốc độ tính toán cho L loại đối tượng khác nhau xuống còn tương đương với 1loại [42] Công trình này thừa kế ý tưởng của DPM Tuy nhiên, thay vì phải thực hiệntích chập cho L loại đối tượng, họ tiến hành băm kết quả HOG trên ảnh gốc 4 ếu kếtquả băm có gia tri tương tự như kết quả băm của một loại đối tượng đã học từ trước,

Trang 38

họ chỉ cần tiễn hành phân loại cho đúng đối tượng đó chứ không phân loại cho toan bộL loại Với cải tiễn nay, phương pháp dat mức tăng tốc gấp 20 lần so với phiên bảnDPM gốc Tuy nhiên, do ta phải dùng băm nên kích thước HOG đầu vảo phải cô định

giữa tat cả các class.

Hình 2-12: Qui trình phát hiện của công trình [43].

Một cải tiến khác theo hướng tăng tốc năm trong công trình của Jinchen Wu và

các cộng sự [43] Cũng sử dung HOG, trong nghiên cứu này, họ tích hợp quá trình

phát hiện hai lần dé giảm thiểu thời gian tìm kiếm đối tượng (Hình 2-12) Ở bước pháthiện lần thứ nhất, họ dùng một bộ phân loại yếu dé tìm các bộ phận của các đối tượngvới tần suất tìm kiếm khá thưa (sparse search) Sau khi đã xác định được vi trí của mộtbộ phận nào đó (ví dụ: tay, chân, đâu v.v), hỏi qui nhỏ nhất bán phan được dùng đểtìm khoảng lệch giữa bộ phận đã tìm được với tâm đối tượng Sau khi di chuyển cửasố tìm kiếm về đúng tâm đối tượng, bước phát hiện lần hai sẽ được thực thi (dense

search) â hờ vào cách này mà sô lượng cửa sô tìm kiêm được giảm hơn 10 lân.

â goài đặc trưng HOG, đặc trưng SIFT [26] cũng thường được sử dụng để phục

Trang 39

(128), nên nếu chỉ đơn thuần dùng nhiều vector SIFT nối lại thì tổng số chiều củavector đầu ra sẽ rất to Đề tránh vấn đề này, công trình [44] và [45] xây dụng mô hìnhtúi từ từ các đặc trưng SIFT Tuy nhiên, nhược điểm chính của mô hình túi từ thuầntúy là sự mat mát thông tin về không gian của mỗi từ trong cửa số Vì vậy, cả hai côngtrình trên đều phải tích hợp thêm phương pháp tháp không gian để ràng buộc khônggian của các từ ngữ [46] Tuy số chiều sẽ tăng lên so với phiên bản túi từ gốc, nhưngvẫn không nhiều băng SIFT thuân túy.

Một hướng giải quyết khác cho gánh nặng về số chiều khi dùng SIFT là áp

dụng phương pháp principal component analysis (PCA) [47] PCA là quá trình phân

tích các chiều có đóng góp lớn nhất trong không gian đặc trưng Đối với các chiều cóđóng góp quá nhỏ, ta có thé loại chúng ra khỏi vector đặc trưng dé làm giảm độ phứctạp Trong công trình [48], các tác giả đã sử dung PCA trên đặc trưng SIFT thưa đểtiễn hành phát hiện đối tượng

Trong toàn bộ các phương pháp kề trên thì DPM và các cải tiễn tương tự có độchính xác cao nhất Tuy nhiên, hầu như đa số các phương pháp đều mắc phải tìnhtrang xử lí chậm do có quá nhiều đặc trưng can tính toán Các cải tiễn về tốc độ như[42] và [43] cũng giúp giảm bớt gánh nặng trong việc tìm kiếm các đối tượng, nhưngbù lại độ chính xác lại không được như DPM thuân túy

il) Ước lượng dựa vào đặc trưng về hình dang (shape)

Trang 40

trình khác tương tự là công trình cua Lan Dong và các cộng sự [50] Cũng sử dụng các

hình người 2D định nghĩa trước, họ áp dụng mô hình hồi qui cục bộ trên từng cụmpixel dé tìm ra phân bố người phù hợp nhất

Sử dụng các đặc trưng hình dạng cơ bản như chu vi, diện tích, các tác gia của

công trình [51] đã tiến hành thử nghiệm phát hiện xe máy, xe hơi trên đường cao tốc.4 goài việc tách nền như các phương pháp kể trên, công trình này còn tận dụng thêmcác bước tiền xử lí như: Laplacian, khử nhiễu băng phép co (erosion) Việc phân loạicác loại xe được tiến hành thông qua cây quyết định Tuy thí nghiệm của công trìnhcho kết quả khá cao nhưng tap dit liệu được dùng còn khá thưa và hạn chế 4 goai ra,

Ngày đăng: 09/09/2024, 05:42