Nhiều nghiên cāu xây dựng hệ thống tập trung giám sát, truy vết, phân lo¿i các ph°¡ng tiện tham gia giao thông và dự đoán tốc độ dựa trên video là xét xem t¿i một thßi điểm, trong vùng q
Trang 1LâI CAM ĐOAN
Tôi xin cam đoan luận văn th¿c sĩ công nghệ thông tin <Hà THàNG ĐO TàC ĐÞ PH¯¡NG TIàN GIAO THÔNG TRÊN QUàC LÞ BÂNG CAMERA KĀ THU¾T Sà= là do tôi nghiên cāu, tổng hợp và thực hiện
Toàn bộ nội dung luận văn, những điều đ°ợc trình bày là cÿa chính cá nhân tôi hoặc là đ°ợc tham khÁo, tổng hợp đều đ°ợc trích xuất với nguồn gốc rõ ràng Các số liệu, kết quÁ nêu trong luận văn là trung thực và ch°a từng đ°ợc ai công bố trong bất kỳ công trình nào khác
TP.HCM, ngày 07 tháng 07 năm 2022
Học viên thực hián lu¿n vn
LÝ BNG
Trang 2LâI CÀM ¡N Lßi đầu tiên, học viên xin bày tỏ lòng biết ¡n sâu sắc đến PGS.TS Vũ Đāc Lung, ng°ßi đã trực tiếp định h°ớng và h°ớng dẫn tận tình học viên trong suốt quá trình hoàn thành luận văn Những kinh nghiệm cÿa thầy là tiền đề để giúp học viên má rộng kiến thāc và hoàn thành khóa luận tốt nghiệp
Em cũng xin dành lßi cÁm ¡n chân thành đến Thầy Cô Học viện Công Nghệ B°u Chính Viễn Thông c¡ sá t¿i TP.HCM Các Thầy Cô đã d¿y bÁo và luôn t¿o điều kiện tốt nhất cho học viên trong suốt quá trình tham gia lớp cao học
Xin trân trọng cÁm ¡n ban Giám Đác trung tâm công nghá thông tin - vißn thông Tây Ninh, đã cho phép tôi sử dụng dữ liệu camera thông minh cÿa VNPT Tây Ninh CÁm ¡n các b¿n đồng nghiệp c¡ quan, đã t¿o điều kiện về thßi gian và quan tâm động viên tinh thần trong thßi gian học viên đi học và hoàn thành luận văn
Cuối cùng, xin cÁm ¡n gia đình và b¿n bè đã luôn bên tôi, cỗ vũ và động viên tôi trong suốt quá trình hoàn thành luận văn này
TP.HCM, ngày 07 tháng 07 năm 2022
Học viên thực hián lu¿n vn
LÝ BNG
Trang 32 Tổng quan về vấn đề nghiên cāu 2
3 Câu hỏi nghiên cāu 3
1.2 Các nghiên cāu trong n°ớc 6
1.3 Các nghiên cāu ngoài n°ớc 7
2.1.4.Nhận diện và phân lo愃⌀i ảnh 15
2.2. Giới thiệu về OpenCV 15
Trang 42.4.1.Theo vết đối tượng 26
2.4.2.Quy trình theo vết đối tượng 27
2.4.3.Các Phương pháp dựa trên Deep Learning 29
2.4.4.Các phương pháp truy vết nhiều vật thể trong video 34
Trang 6DANH MĀC CÁC THU¾T NGĂ, CÁC CHĂ VI¾T TÀT
Vi¿t TÁt Ti¿ng Anh OpenCV Open Source Computer Vision Library CCD Charge Coupled Device
CCIR Consultive Committee for International Radio
CUDA Compute Unified Device Architecture
GMM General Method of Moments
LPR License Plate Recognition
SaaS Software-as-a-Service
MOG Mixture of Gaussians
R-CNN (Region with CNN feature)
SSD Single-Shot Multibox Detector
SPP-net spatial pyramid pooling layer
Trang 7DANH SÁCH BÀNG
BÁng 1: So sánh các mô hình dựa trên R-CNN 33BÁng 2: Kết quÁ so sánh vận tốc từ camera bắn tốc độ thật cÿa CSGT và vận tốc đo đ°ợc cÿa ch°¡ng trình 56
Trang 8DANH SÁCH HÌNH VẼ
Hình 1: Các giai đo¿n chính trong xử l{ Ánh 11
Hình 2: Các quá trình phát hiện chuyển động 17
Hình 14: Mô hình khung đo 43
Hình 15: Tỷ lệ chiều dài thực và chiều dài khung đo [3] 43
Hình 16: Tính vận tốc trung bình cÿa các giai đo¿n [1] 44
Hình 17: L°u đồ ho¿t động 46
Hình 18: Minh họa xác định đối t°ợng 47
Hình 19 : L°u đồ thuật toán tính khoÁng cách di chuyển thực tế cÿa hai đối t°ợng trên các frame 48
Hình 20: Giao diện ch°¡ng trình ch¿y video 49
Hình 21: Camera quay quét 52
Trang 9Hình 22: Phát hiện và theo vết đối t°ợng chuyển động 54 Hình 23: Kết quÁ thử nghiệm đo tốc độ 55
Trang 10MỞ ĐÀU 1 Lý do chọn đß tài
Trong thßi đ¿i ngày này công nghệ thông tin hầu nh° đã thâm nhập vào toàn bộ các lĩnh vực đßi sống xã hội, cùng với đó sự phát triển về mọi mặt cÿa đßi sống xã hội từ văn hóa, giáo dục cho đến công nghệ và đặc biệt sự phát triển v°ợt bậc cÿa thßi đ¿i số hóa, công nghiệp từ đó công nghệ thông tin đã và đang góp phần to lớn cho xã hội con ng°ßi rất nhiều trong nhiều lĩnh vực nh° kinh tế, đßi sống, giáo dục, dịch vụ,… Từ đó nhiều hệ thống camera để theo dõi giám sát an ninh, tình hình giao thông kết hợp với giám sát đã đ°ợc lắp đặt ngày càng nhiều Từ những dữ liệu có sẵn nhiều āng dụng thu thập khai thác phân tích dữ liệu từ hệ thống giám sát theo dõi này nh° tính toán dự đoán mật độ l°u thông, đếm l°u l°ợng xe, truy vết, nhận d¿ng biển số, đo tốc độ xe
Cùng với đó việc đ°a āng dụng công nghệ thông tin vào việc quÁn lý kiểm soát, sử ph¿t hay điều chỉnh các tuyến đ°ßng bố trí l¿i luồn ph°¡ng tiện tham gia giao thông góp phần kiềm chế những vụ tai n¿n giao thông không đáng có cũng nh° duy trì trật tự, an ninh, an toàn, nâng cao tự giác ý thāc trong tham giao thông góp phần nhằm điều chỉnh nhận thāc cũng nh° hành vi cÿa ng°ßi tham gia giao thông là cần thiết
Trên thực tế cho thấy, mật độ giao thông và ý thāc điều khiển tốc độ di chuyển cÿa nhiều ph°¡ng tiện cÿa ng°ßi tham gia giao thông Ánh h°áng rất lớn đến xác suất xÁy ra tai n¿n làm Ánh h°áng đến māc độ nghiêm trọng cÿa mỗi vụ tai n¿n Trong bối cÁnh điều kiện h¿ tầng giao thông n°ớc ta còn ch°a phát triển, tổ chāc l°u thông các ph°¡ng tiện á n°ớc ta còn nhiều h¿n chế cùng với việc ng°ßi tham gia điều khiển ph°¡ng tiện giao thông thiếu ý thāc, th°ßng xuyên không làm chÿ đ°ợc tốc độ, môi tr°ßng tham gia giao thông xấu, đã dẫn đến tình tr¿ng xÁy ra các vụ tai n¿n giao thông nghiêm trọng ngày càng gia tăng.Vì vậy cần thiết phÁi các kế ho¿ch đề ra cÁi tiến trình quÁn lý, phÁi āng dụng công nghệ thông tin vào việc xây dựng quÁn lý và giám
Trang 11sát giao thông thông minh hỗ trợ các c¡ quan ban ngành và đó chính là l{ do thực hiện đề tài này
2 Táng quan vß v¿n đß nghiên cāu
Thßi đ¿i ngày nay từ những nhu cầu cần thiết về xử lý hình Ánh có rất nhiều nghiên cāu về lĩnh vực thị giác máy tính là một trong những lĩnh vực khoa học máy tính đ°ợc nhiều nhà nghiên cāu trên thế giới và Việt Nam đã và đang quan tâm đặc biệt về tình tr¿ng giao thông, xử lý vi ph¿m thông qua xử lý hình Ánh, nhận d¿ng, truy vết và phân lo¿i ph°¡ng tiện giao thông
Nghiên cāu về việc xây dựng một hoặc nhiều hệ thống giám sát, truy vết, phân lo¿i ph°¡ng tiện giao thông và dự đoán đ°a ra cÁnh báo về tốc độ trong bối cÁnh Việt Nam là điều cấp thiết và có { nghĩa to lớn áp dụng cÁ về lý thuyết và thực tiễn
Nhiều nghiên cāu xây dựng hệ thống tập trung giám sát, truy vết, phân lo¿i các ph°¡ng tiện tham gia giao thông và dự đoán tốc độ dựa trên video là xét xem t¿i một thßi điểm, trong vùng quan tâm, có những lo¿i ph°¡ng tiện gì, h°ớng di chuyển, số l°ợng t°¡ng āng Về mặt āng dụng, hệ thống giám sát thuộc nhóm các āng dụng liên quan đến giao thông thông minh Việc xây dựng hệ thống giám sát đ°ợc tích hợp āng dụng nhiều trong nhiều lĩnh vực quÁn lý giao thông, trong nhiều ho¿t động an ninh, quốc phòng, kinh tế xã hội, nh° cÁnh báo trộm, cÁnh báo cháy, hỗ trợ giám sát bÁo vệ các mục tiêu quan trọng, góp phần xây dựng an ninh xã hội cùng với đó āng dụng công nghệ thông tin hỗ trợ c¡ quan ban ngành thu thập các chāng cā t¿i những tình huống nh¿y cÁm
Các yêu cầu c¡ bÁn cÿa việc xây dựng hệ thống giám sát nhận diện, truy vết, phân lo¿i ph°¡ng tiện giao thông và cÁnh báo tốc độ ph°¡ng tiện là với dữ liệu đầu vào là video giao thông, yêu cầu đầu ra là lo¿i ph°¡ng tiện tham gia giao thông trong vùng quan sát, thông tin về tốc độ cÿa ph°¡ng tiện tham gia giao thông (ô tô, xe máy và các ph°¡ng tiện thô s¡ khác)
Trang 123 Câu hßi nghiên cāu
Xây dựng hệ thống đo tốc độ ph°¡ng tiện giao thông trên địa bàn tỉnh Tây Ninh mang l¿i lợi ích gì cho các sá ban ngành?
Cần những dữ liệu nào phù hợp, để có thể quÁn lý và dự báo? Sử dụng Ph°¡ng pháp nào để phát hiện, nhận diện đối t°ợng chuyển động Āng dụng phép toán nào để dự đoán h°ớng di chuyển và tính toán vận tốc cÿa ph°¡ng tiện tham gia giao thông
4 Māc đích nghiên cāu
Luận văn tập trung nghiên cāu sâu về các lý thuyết liên quan về xử lý Ánh, nhận d¿ng phân lo¿i và theo vết đối t°ợng, phát hiện và truy vết đối t°ợng qua từng frame cÿa video và cuối cùng là dự đoán tốc độ,
Nghiên cāu các lý thuyết liên quan bài toán tính tốc độ ph°¡ng tiện Xây dựng thử nghiệm āng dụng đo tốc độ …
Từ các kết quÁ nghiên cāu học hỏi về lý thuyết, từ đó xây dựng một phần mềm thử nghiệm thực tế áp dụng cho địa ph°¡ng
5 Đái t°ÿng và ph¿m vi nghiên cāu
Đối t°ợng nghiên cāu á đây chÿ yếu là các lo¿i ph°¡ng tiện trên đ°ßng phố, camera kỹ thuật số giám sát giao thông
Các ph°¡ng pháp nhận d¿ng đối t°ợng, theo vết đối t°ợng và °ớc l°ợng tốc độ đối t°ợng
Ph¿m vi nghiên cāu tập trung cÿa luận văn này chỉ tập trung vào đo tốc độ chuyển động cÿa ô tô, Môi tr°ßng đặt camera trong điều kiện môi tr°ßng ban ngày, sáng và khá rõ
Trang 136 Ph°¢ng pháp nghiên cāu
- Tập trung Thu thập nghiên cāu các bài báo, phân tích nhiều lo¿i tài liệu về các
nghiên cāu đã thực hiện trên thế giới và Việt nam tập trung các vấn đề giám
sát thông minh bằng hình Ánh
- Phân tích, lựa chọn giÁi pháp và hiện thực thử nghiệm Đánh giá kết quÁ và
hiệu chỉnh nếu có
- Thu thập dữ liệu
- Hiện thực thử nghiệm và đánh giá kết quÁ
7 Nhăng đóng góp cÿa đß tài
Vận dụng các thuật toán dự báo để xây dựng hệ thống đo tốc độ trên quốc lộ
và các cửa ngõ quan trọng trên địa bàn tỉnh Tây Ninh
Xây dựng hệ thống đo tốc độ ph°¡ng tiện tham gia giao thông
Trang 14Ch°¢ng 1: TàNG QUANG NGHIÊN CĀU
TRONG VÀ NGOÀI N¯àC 1.1 Giái thiáu
Hiện nay t¿i các n°ớc phát triển, việc áp dụng sử dụng nhiều camera bắn tốc độ (speeding camera) khá thông dụng với hàng nhìn camera bắn tốc độ và camera chụp hình sai ph¿m giao thông sai làn đ°ßng, v°ợt đèn đỏ đ°ợc bố trí nhiều n¡i kín đáo và chằng chịt trên khắp mọi nẻo đ°ßng
Hệ thống xác định ph°¡ng tiện tham gia giao thông không phÁi là hệ thống mới, tuy nhiên vẫn còn nhiều thách, đặc biệt đối với tình tr¿ng giao thông n°ớc ta có nhiều thách thāc nh°: Tình tr¿ng giao thông á Việt Nam phāc t¿p bái mật độ l°u thông xe máy tăng nhanh một số thßi điểm, nhiều lo¿i xe có kích cỡ quá tÁi, môi tr°ßng và điều kiện thßi tiết xấu, góc đặt máy quay đa d¿ng v.v… Bên c¿nh đó, áp dụng để có thể phát hiện những tr°ßng hợp ch¿y v°ợt quá tốc độ quy định, nhiều tuyến đ°ßng đã đ°ợc trang bị các hệ thống máy bắn tốc độ sử dụng laser Thiết bị này có chi phí rất cao, phÁi bÁo trì bÁo d°ỡng và việc trang bị số l°ợng nhiều trên nhiều tuyến đ°ßng là không khÁ thi, vì vậy ta có thể tận dụng hình Ánh thu đ°ợc từ các video giám sát giao thông từ đó sử dụng các ph°¡ng pháp xử lý Ánh để phát hiện phân tích tính toán tốc độ xe đang là giÁi pháp tối °u đ°ợc nhiều nhà nghiên cāu quan tâm Tóm l¿i, để tăng c°ßng việc giám sát phát hiện, truy vết, xử lý các sai ph¿m cÿa ph°¡ng tiện tham gia giao thông qua các camera giám sát đang đ°ợc trang bị với số l°ợng lớn trên các con đ°ßng khắp cÁ n°ớc, h°ớng tiếp cận áp dụng các kỹ thuật thuật toán xử lý Ánh để phát hiện, truy vết và tính toán tốc độ các ph°¡ng tiện là cần thiết và khÁ thi với māc chi phí hợp lý
Trang 151.2 Các nghiên cāu trong n°ác
Ngày nay á n°ớc ta, các nghiên cāu về vấn đề nhận diện, đo tốc độ xe chuyển động qua camera còn rất nhiều h¿n chế do tính phāc t¿p, mật độ giao thông và āng dụng vào thực tế Chÿ yếu là tập trung nhiều vào các ph°¡ng pháp nghiên cāu liên quan về bám đối t°ợng trong video, dự đoán h°ớng di chuyển Hiện nay nhiều bài báo nghiên cāu khoa học có nhiều thành viên tham gia học hỏi nghiên cāu phát triển nh°: Năm 2015 các tác giÁ Nguyễn Văn Hùng, Nguyễn Văn Xuất, Lê M¿nh C°ßng [1] dùng ph°¡ng pháp một mô hình xác suất có sử dụng hai đặc tr°ng đó là dựa vào bề mặt và màu sắc để đi tìm đối t°ợng trong các khung Ánh mới, ph°¡ng pháp này có theo sát truy vết các đối t°ợng hiệu quÁ trong các cÁnh khác nhau
Năm 2016 có nhiều tác giÁ đ°a ra nhiều nghiên cāu điển hình nh° Lâm Hữu Tuấn, Nguyễn Thị Hồng Nhung, Trần Cao Đệ, Huỳnh Phụng Toàn [2] sử dụng ph°¡ng pháp xác định tính toán vận tốc chuyển động cÿa các xe từ hình Ánh video với một <khung đo= để nhận biết phát hiện đối t°ợng chuyển dựa trên ph°¡ng pháp trừ nền, đ°ợc āng dụng phép toán tính trung bình có trọng số để tính toán và đoán h°ớng di chuyển và vận tốc cÿa đối t°ợng
Công trình cÿa Viet-Hoa Do và các cộng sự=A simple camera calibration method for vehicle velocity estimation= [3] Xác định các tham số camera (camera calibration) Mục tiêu cÿa việc này là nhằm xác định đ°ợc tọa độ thực tế cÿa một pixel trong Ánh thu đ°ợc bái camera Để thực hiện đ°ợc điều này, camera cần phÁi xác định ba thông số sau: độ cao h, góc nghiêng (tilt angle) theta và khoÁng cách lấy nét (focus distance) f
T¿i hội nghị FAIR 2020 tác giÁ Vũ Đāc Lung và các cộng sự “khÁo sát bài
toán nhận diện ph°¡ng tiện và đo tốc độ ph°¡ng tiện tham gia giao thông= [4] Trong bài toán này tác giÁ đã nêu lên đ°ợc các ph°¡ng pháp trong việc nhận diện và đo tốc độ ph°¡ng tiện giao thông
Trang 161.3 Các nghiên cāu ngoài n°ác
Hiện nay, nhiều nghiên cāu ngoài n°ớc về các kỹ thuật trừ nền, sử dụng camera hỗ trợ trong việc truy vết và camera phân tích xử lý Ánh để đo tốc độ
Công trình cÿa Jakub Sochor và các cộng sự= Comprehensive Dataset for Automatic Single Camera Visual Speed Measurement= [8] Nhóm tác giÁ đề ra 1 tập dataset và đánh giá 1 số ph°¡ng pháp trên tập dataset này
Các h°ớng tiếp cận chính: + Dựa trên các line markings: quan sát các line markings Chỉ áp dụng đ°ợc khi các line markings này đ°ợc đặc tÁ, có hiển thị và nhận diện Ph°¡ng pháp này chỉ giới h¿n á đ°ßng nội thành Và 1 số ph°¡ng pháp yêu cầu đo đ¿c con đ°ßng cũng là 1 bất lợi
+ Dựa trên các di chuyển cÿa ph°¡ng tiện: không cần các line markings Tuy nhân vẫn chỉ đ°ợc sử dụng á đ°ßng nội thành nhỏ khi mà các hiệu chỉnh (calibration) cũng tốn rất nhiều thßi gian khi phÁi quan sát các ph°¡ng tiện
+ Tính toán thÿ công: độ chính xác cao (trên 1 số cases), tuy nhiên phÁi dừng các ph°¡ng tiện giao thông để làm phép đo đ¿c
+ Dựa trên thống kê các chiều không gian: tính toán trên 2 vanishing point khác nhau"
Công trình cÿa Dominik Zapletal và các cộng sự <Vehicle Identification for Automatic Video Traffic Surveillance= nhận diện ph°¡ng tiện (cột H) với đề xuất (cột F) sử dụng 3D bounding box, chỉ dùng mặt bên và mặt tr°ớc cÿa vật thể (ko dùng hình Ánh từ đỉnh xe), sau đó ghép 2 phần l¿i thành 1 Ánh đ¿i diện cho vật thể đó và trích xuất đặc tr°ng màu sắc từ Ánh đó * Proposed vehicle Re-ID: dùng linear SVM classifier cho kết quÁ True positive rate khoÁng 60% [9]
Re-Công trình cÿa zheng tang, và các cộng sự <single-camera and inter-camera vehicle tracking and 3D speed estimation based on fusion of visual and semantic
Trang 17features= [10] bài báo này tác giÁ sử dụng 2 ph°¡ng pháp đ¡n camera 3D và đa camera để xác định ph°¡ng tiện, phân lo¿i ph°¡ng tiện và °ớc l°ợng tốc độ Bài báo đ°ợc top 1 cuộc thi AI city 2018
Công trình cÿa Ahmad Arinaldiet al <Detection and classification of vehicles for traffic video analytics= Tác giÁ đề xuất một hệ thống phân tích giao thông dựa trên thị giác máy tính Hệ thống có khÁ năng đếm số ph°¡ng tiện, phân lo¿i ph°¡ng tiện, °ớc l°ợng tốc độ và theo dõi quá trình sử dụng làn đ°ßng [11]
Năm 2019, Fukai Zhang [12] và các cộng sự đã đề xuất mô hình Single-Shot Multibox Detector (SSD) để phát hiện nhận diện các ph°¡ng tiện tham giao thông và có khÁ năng nhận d¿ng phân lo¿i phát hiện nhiều lo¿i ph°¡ng tiện khác nhau trong thßi gian thực Nhóm tác giÁ đã āng dụng nhiều bộ trích xuất đặc tr°ng khác nhau trong việc xác định các ph°¡ng tiện, vị trí và phân lo¿i trong cùng một m¿ng CNN Để cÁi tiến hoàn thiện chất l°ợng, các đặc tr°ng này đ°ợc kết hợp với nhau thông qua các thao tác deconvolution và pooling Nhóm tác giÁ cũng tiến hành điều chỉnh các tỷ lệ khác nhau thông qua bounding box để có thể phát hiện các ph°¡ng tiện có kích th°ớc nhỏ đ°ợc chính xác h¡n Nhìn chung, hệ thống nhận diện ph°¡ng tiện giao thông có thể đ°ợc chia thành 3 ph°¡ng pháp tiếp cận chính bao gồm: ph°¡ng pháp dựa trên các đặc tr°ng chuyển động, ph°¡ng pháp dựa trên các đặc tr°ng cấp thấp và ph°¡ng pháp dựa trên m¿ng neural
Tác giÁ Kenneth S Palacio-Baus [13] từ Đ¿i học Illinois t¿i Chicago theo dõi đo tốc độ xe và truy vết ô tô trên cao tốc sử dụng thuật toán trừ nền MOG2 từ th° viện OpenCV và các th° viện công cụ khác cho kết quÁ nhận diện đối t°ợng tốt T¿i Thái Lan [14] công ty SmartVision Technology với công nghệ (Smart - LPR) đây là một trong số nhiều sÁn phẩm th°¡ng m¿i, có khÁ năng đọc biển số xe tự động, theo vết ph°¡ng tiên, với tốc độ đo tối đa 180 km/h có độ chính xác 85% trá lên Công ty Traffiko [15] với nhiều giÁi pháp vận chuyển thông minh, sáng t¿o, cÁi tiến, cung cấp nhiều āng dụng vào web để quÁn l{ bãi đỗ xe bằng SaaS thông minh và các āng dụng dựa trên, thực thi pháp luật liên quan đến giao thông đ°ßng phố và ngoài phố thông
Trang 18qua phân tích thßi gian hành trình, phân tích kiểm soát truy cập video dựa trên một nền tÁng tích hợp
Trong quá trình học, chúng tôi nghiên cāu các bài báo cÿa n°ớc ngoài và các bài báo cÿa Việt Nam Hầu hết các bài báo cÿa n°ớc ngoài đều đề cập hiệu quÁ việc phát hiện ph°¡ng tiện bằng một số giÁi pháp khác nhau, đặc biệt là học sâu Ngoài ra, đã có các lo¿i giấy cÿa Việt Nam giÁi quyết vấn đề này bằng cách xử l{ đ°ßng viền Vì vậy, chúng tôi nhận thấy rằng việc áp dụng ph°¡ng pháp học sâu để phát hiện ph°¡ng tiện cho giao thông Việt Nam là cần thiết
Trang 19Ch°¢ng 2: C¡ SỞ LÝ THUY¾T
Trong ch°¡ng này luận văn sẽ giới thiệu c¡ bÁn về các khái niệm, đặc tr°ng và các kỹ thuật từ c¡ bÁn đến nâng cao liên quan đến xử l{ hình Ánh và phát hiện đối t°ợng Các kỹ thuật hiện t¿i áp dụng cho hệ thống phát hiện, truy vết đối t°ợng, đo
tốc độ đối t°ợng và những h¿n chế cÿa các kỹ thuật này 2.1 Các kā thu¿t xā lý 愃ऀnh và nh¿n dián đái t°ÿng
2.1.1 Tổng quan về một hệ thống xử lý ảnh
Việc thu thập xử lý phân tích, nhận d¿ng hình Ánh là đối t°ợng nghiên cāu cÿa lĩnh vực thị giác máy, là một quá trình biến đổi từ một Ánh hoặc nhiều Ánh ban đầu sang một Ánh mới với các đặc tính, đặc tr°ng và luôn tuân theo { muốn cÿa ng°ßi sử dụng Xử l{ Ánh có thể gồm nhiều quá trình thu thập phân tích dữ liệu đầu vào nhận từ các camera giám sát, từ phân lớp các đối t°ợng, làm tăng chất l°ợng, hoặc giÁm, phân đo¿n và tách c¿nh, thông tin hình Ánh cÿa Ánh ta có thể gán nhãn cho vùng hay quá trình biên dịch Việc xử l{ bộ dữ liệu hình Ánh bằng đồ họa, xử l{ Ánh số từ các video là một trong nhiều lĩnh vực cÿa tin học āng dụng Một cấu trúc dữ liệu và đ°ợc t¿o bái nhiều ch°¡ng trình ta xem nh° là các tập dữ liệu hình Ánh Xử l{ Ánh nhân t¿o bằng nhiều tập dữ liệu đồ họa đề cập đến, Các kỹ thuật xử l{ Ánh số là tập hợp nhiều ph°¡ng pháp và kỹ thuật biến đổi, truyền tÁi hoặc mã hóa các Ánh tự nhiên Mục đích cÿa việc xử l{ Ánh gồm: Biến đổi Ánh làm giÁm chất l°ợng Ánh hoặc tăng chất l°ợng Ánh Tự động đón nhận Ánh, nhận d¿ng Ánh, đánh giá l¿i các nội dung cÿa Ánh Từ đó việc nhận biết và đánh giá các nội dung cÿa nhiều tập Ánh là sự phân tích một hay nhiều hình Ánh thành những phần có { nghĩa để phân biệt để phân biệt nhận biết đối t°ợng này với một hoặc nhiều đối t°ợng khác, dựa vào đó ta có thể mô tÁ l¿i các cấu trúc cÿa hình Ánh ban đầu Ta có thể liệt kê nhiều ph°¡ng pháp nhận d¿ng, phân tích Ánh c¡ bÁn nh° phân biệt nhận d¿ng Ánh cÿa các đối t°ợng trên Ánh một hoặc nhiều, tách c¿nh, phân đo¿n hình Ánh,… Các kỹ thuật này đ°ợc tập trung sử
Trang 20dụng nhiều nhất trong y học (xử l{ tế bào, nhiễm sắc thể), nhận d¿ng hình chữ trong văn bÁn
Tr°ớc hết là quá trình thu nhận Ánh Ành có thể thu nhận qua camera Thông th°ßng Ánh đ°ợc thu nhận ghi l¿i qua camera là tín hiệu số hóa (lo¿i CCD - Charge Coupled Device), và cũng có thể là tín hiệu t°¡ng tự (lo¿i camera ống kiểu CCIR)
Quá trình phân tích Ánh thực chất phân chia ra nhiều công đo¿n nhỏ Tr°ớc hết là phÁi tăng c°ßng Ánh để nâng cao chất l°ợng Ánh Trên thực tế có nhiều nguyên nhân khác nhau: có thể do nguồn sáng do chất l°ợng thiết bị thu nhận Ánh, hay do nhiễu, chất l°ợng đ°ßng truyền không tốt, Ánh có thể bị suy biến Vì vậy cần phÁi có những thuật toán, thiết bị, tăng c°ßng và khôi phục l¿i Ánh để làm nổi bật một số đặc tính chính cÿa Ánh để dễ nhận biết và phân biệt, sẻ làm cho Ánh gần giống nhất với
Trang 21tr¿ng thái gốc - tr¿ng thái tr°ớc khi Ánh bị biến d¿ng và đ°ợc xử l{ Và giai đo¿n tiền xử lý là phát hiện các đặc tính đặc tr°ng nh° biên, phân vùng Ánh, trích chọn các đặc tính, v.v
Tùy theo các mục đích sử dụng cÿa āng dụng7, trong giai đo¿n nhận d¿ng, phân lớp hay các quyết định khác Quá trình xử lý Ánh đ°ợc chia làm các giai đo¿n chính có thể mô tÁ á hình 1
Một số hệ thống phân tích xử lý Ánh thu nhận qua camera nh° là con mắt cÿa hệ thống thu nhận hình Ánh đầu vào Có 2 lo¿i camera: camera ống lo¿i CCD và camera CCIR Lo¿i camera với tiêu chuẩn CCIR hình Ánh đ°ợc quét với một tần số 1/25 và mỗi Ánh gồm 625 dòng… Lo¿i CCD gồm các photo điốt có c°ßng độ t°¡ng āng sáng t¿i một điểm Ánh āng với đó là một phần tử Ánh (pixel) Nh° vậy, Ánh là tập hợp các điểm Ánh Độ phân giÁi (resolution) đ°ợc gọi là số pixel t¿o nên một Ánh
2.1.2 Một số khái niệm
(Picture Element): phần tử ảnh
Trong xử l{ Ánh thực tế là Ánh liên tục về giá trị c°ßng độ sáng và về không gian Để có thể xử l{ nhiều tập Ánh bằng máy tính tr°ớc tiên cần thiết phÁi tiến hành số hóa Ánh Trong quá trình Ánh đ°ợc số hóa các tín hiệu đ°ợc thay đổi liên tục sang tín hiệu rßi r¿c thông qua các quá trình thu thập lấy mẫu (rßi r¿c hóa về không gian), l°ợng hóa các thành phần thay đổi giá trị thể về nguyên tắc bằng mắt th°ßng chúng ta không thể phân biệt đ°ợc hai điểm kề nhau Khái niệm Picture element là
trong quá trình phần tử Ánh ng°ßi ta áp dụng
Pixel hay đề cập đến trong các hệ thống xử l{ đồ họa máy tính Pixel thiết bị là tên gọi để tránh nhầm lẫn chúng ta t¿m gọi khái niệm pixel Pixel thiết bị có thể đ°ợc nhận xét nh° sau: (trong chế độ đồ họa) khi ta quan sát màn hình, màn hình hiển thị điểm Ánh không liên tục mà gồm nhiều điểm nhỏ đ°ợc hiển thị gọi là pixel Mỗi pixel gồm một cặp tọa độ x, y và màu
Cặp tọa độ x, y t¿o nên độ phân giải (resolution) Nh° màn hình máy tính đ°ợc
sử dụng hiện nay có rất nhiều lo¿i và với độ phân giÁi khác nhau: màn hình CGA có
độ phân giÁi bình th°ßng là 320x200; màn hình VGA là 640x350
Trang 22Vậy, một Ánh là một tập hợp các điểm Ánh Đối với tập Ánh đ°ợc số hóa, th°ßng đ°ợc hiển thị hoặc biểu diễn bái nhiều bÁng hai chiều I (n, p): n dòng và p cột Ta nói Ánh gồm n x p pixels Ng°ßi ta th°ßng k{ hiệu I (x, y) để chỉ một pixel Th°ßng giá trị cÿa n chọn bằng p và bằng 256
Mức xám (Gray level):
Là kết quÁ cÿa sự mã hóa t°¡ng āng một c°ßng độ sáng cÿa mỗi điểm Ánh t°¡ng āng một hoặc nhiều giá trị số từ đó kết quÁ đ¿t đ°ợc cÿa quá trình l°ợng hóa Cách mã hóa kinh điển th°ßng dùng 16, 32 hay 64 māc Mã hóa 256 māc là phổ dụng nhất do lý do kỹ thuật Mỗi pixel sẽ đ°ợc mã hóa bái 8 bit.Vì 28 = 256 (0, 1, , 255), với 256 māc
Biểu diễn ảnh xám:
Là Ành hai chiều, Giá trị đ°ợc mô tÁ māc xám cho điểm Ánh trên cùng mặt phẳng mỗi điểm (x, y) trên Ánh āng với một f (x, y) Trong đó, x là số hiệu cột, y là số hiệu dòng trên Ánh
Nếu là Ánh màu, có bÁng màu thì f (x, y) là số hiệu màu Các giá trị R, G và B cÿa điểm Ánh là thể hiện cÿa Ành h¡n 256 màu thì f (x, y) là 3 byte
Tách ngưỡng:
Tách ng°ỡng đ°ợc hiểu nh° sau GiÁ thuyết ta có Ánh I ~ kích th°ớc Ánh đ°ợc thể hiện m × n, gồm có hai số Min, Max và ng°ỡng ¸ khi đó:
Kỹ thuật tách ng°ỡng thể hiện for (i = 0; i < m; i + +)
for (j = 0; j < n; j + +) I [i, j] = I [i, j] > = ¸? Max: Min; * Áp dụng: Nếu Min = 0, Max = 1 sử dụng kỹ thuật chuyển một Ánh thành Ánh đen trắng đ°ợc ta āng dụng khi nhận d¿ng văn bÁn và khi quét có thể xÁy ra ít sai sót nền thành Ánh hoặc ng°ợc l¿i dẫn đến Ánh bị đāt nét hoặc dính không thể hiện rõ
Trang 232.1.3. Các vấn đề cơ bản trong xử lý ảnh
Chỉnh bi¿n d¿ng: Tập Ánh ta thu đ°ợc có thể bị biến d¿ng, không đ°ợc rõ
nhiễu do các thiết bị quang học và điện tử Ta có thể khắc phục khi sử dụng các tập hợp phép chiếu đ°ợc xây dựng dựa trên tập hợp các điểm điều khiển
Khā nhißu: Trong quá trình thu nhận Ánh th°ßng có 2 lo¿i nhiễu mà chúng ta
Gi愃ऀm sá māc xám: Ta có thể thực hiện bằng cách nhóm nhiều māc xám gần
nhau thành một nhóm Thông th°ßng các tr°ßng hợp ta giÁm xuống hai māc xám thì chính là chuyển về Ánh đen trắng
Sá māc xám tng: Sử dụng kỹ thuật nội suy ra các māc xám trung gian Kỹ
thuật này tăng c°ßng độ mịn cho Ánh
Kā thu¿t Nén 愃ऀnh: Là ph°¡ng pháp nhằm giÁm thiểu không gian l°u trữ, tiết
kiệm bộ nhớ à đây ta có hai h°ớng tiếp cận chính là Ánh đ°ợc nén có bÁo toàn và không đ°ợc bÁo toàn thông tin Thực hiện nén không bÁo toàn thì th°ßng có khÁ năng nén cao h¡n nh°ng khi phục hồi đ°ợc Ánh gốc là rất khó, ng°ợc l¿i nén có bÁo toàn cho phép khôi phục tối đa hoàn toàn Ánh gốc
Trang 242.1.4 Nhận diện và phân lo愃⌀i ảnh
Nhận diện, Phát hiện tự động và truy vết, phân lo¿i và nhóm các mẫu là những vấn đề rất quan trọng cÿa thị giác máy tính, Khi mà thßi đ¿i công nghệ ngày càng phát triển đ°ợc āng dụng trong nhiều ngành, lĩnh vực khác nhau Ví dụ nh° phát hiện dấu vân tay, phân lo¿i hàng hóa, phát hiện khuôn mặt hay một biểu đồ cÿa âm thanh Để phát hiện hoặc phân lo¿i đ°ợc Ánh có thể sử dụng hai cách chính:
Học có giám sát (supervised learning): Phân lo¿i mẫu đầu vào vào một
lớp đã xác định
Học không giám sát (unsupervised learning): Các mẫu đ°ợc gom
nhóm với nhau dựa trên một số điều kiện nào đó Tâp hợp các lớp Ánh này cho đến thßi điểm ta xử lý phân lo¿i vẫn ch°a biết hay ch°a đ°ợc định danh
2.2 Giái thiáu vß OpenCV
2.2.1 Tổng quan về OpenCV
OpenCV (Open Source Computer Vision Library) là th° viện mã nguồn má hàng đầu cho thị giác máy tính (computer vision), Cụ thể h¡n OpenCV là kho l°u trữ các mã nguồn má đ°ợc dùng để xử lý hình Ánh, phát triển các āng dụng đồ họa trong thßi gian thực Máy học, xử lý hình Ánh và các tính năng tăng tốc tối °u GPU trong thßi gian thực
OpenCV đ°ợc phát hành theo giấy phép BSD, Do đó các dịch vụ nó cung cấp là hoàn toàn miễn phí và đ°ợc h¿n chế tối đa các rào cÁn thông th°ßng Cụ thể, b¿n đ°ợc phép sử dụng phần mềm này cho cÁ ho¿t động th°¡ng m¿i lẫn phi th°¡ng m¿i OpenCV còn có các interface Python, Java, C++, C, và hỗ trợ, Windows, Linux, Mac OS, iOS và Android OpenCV đ°ợc xây dựng thiết kế để hỗ trợ các phép tính toán hiệu quÁ và với sự tập trung chính vào các āng dụng thßi gian thực Đ°ợc tối °u hóa C/C++, ta có thể tận dụng th° viện xử l{ đa lõi Đ°ợc sử dụng rộng rãi trên toàn thế giới, Ph¿m vi sử dụng phổ biến trong rất nhiều trong t°¡ng tác lĩnh vực nghệ thuật, khai thác mỏ, cho đến lĩnh vực bÁn đồ trên web hoặc công nghệ robot
Trang 252.2.2 Cấu trúc OpenCV
S¡ l°ợc về cấu trúc cÿa th° viện OpenCV: 2 phần (module) chính trong th° viện OpenCV Mã nguồn đ°ợc nhóm phát triển xây dựng và kiểm định toàn diện, gồm nhiều thuật toán đã đ°ợc thế giới công nhận và đánh giá dựa trên c¡ sá l{ thuyết chắc chắn là Phần căn bÁn (basic) Các tổ chāc khoa học khác nhau trên thế giới đóng góp xây dựng các thuật toán cập nhật đ°ợc xây dựng từ nhiều công trình nghiên cāu là Phần má rộng (contribution) đ°ợc các bài báo mới đăng trong thßi gian gần đây Từ phiên bÁn 3.0, phần má rộng đ°ợc tách riêng không còn đ°ợc gộp chung với th° viện mặc định Nhiều thuật toán đ°ợc nghiên cāu xây dựng trong phần má rộng đ°ợc nâng cấp bổ sung có độ ổn định và tối °u không cao OpenCV là th° viện mã nguồn má đ°ợc đóng gói thành tập tin nén Tùy vào hệ điều hành khác nhau mà tập tin nén này có định d¿ng t°¡ng āng Th° viện OpenCV cung cấp cho ng°ßi dùng từ các cấu trúc dữ liệu, các hàm các đối t°ợng khai báo nguyên mẫu (prototype) cÿa chúng trong các tập tin th° viện C/C++ (*.h, *.hpp,…) và đ°ợc định nghĩa chi tiết bái các tập tin mã nguồn (*.c, *.cpp) Với māc độ sử dụng OpenCV, cài đặt các tập tin đã đ°ợc biên dịch sẵn rồi thực hiện các thao tác cài đặt đ°ßng dẫn cho thích hợp để ch°¡ng trình tìm đến đúng vị trí cÿa các tập tin th° viện à māc độ cao h¡n, ta phÁi biên dịch l¿i mã nguồn trực tiếp trên máy tr°ớc khi cài đặt nếu ta muốn hiệu chỉnh cập nhật sửa
đổi thuật toán hay sử dụng các phần má rộng cÿa OpenCV
Trang 262.2.4 Chức năng OpenCV
Image/video I/O, xử l{, hiển thị (core, imgproc, highgui) Phát hiện các vật thể (objdetect, features2d, nonfree) Geometry-based monocular or stereo computer vision (calib3d, stitching, videostab)
Computational photography (photo, video, superres) Machine learning & clustering (ml, flann)
CUDA acceleration (gpu)
2.3 Các Ph°¢ng pháp phát hián chuyán đßng (Sā dāng các kĩ thu¿t trÿ
nßn trong camera giám sát)
2.3.1 Phát hiện đối tượng chuyển động là gì ?
Phát hiện đối t°ợng chuyển động [6] thực ra là quá trình phân tích xử l{ đ°a ra nhận biết các vết đối t°ợng chuyển động từ nhiều khung hình video Quá trình này là quá trình xử l{ tập hợp các chuỗi Ánh liên tiếp trong một đo¿n video từ đó ta có thể phát hiện nhận d¿ng các đối t°ợng chuyển động trong một đo¿n khung hình Ánh
Hình 2: Các quá trình phát hián chuyán đßng
Trang 272.3.2 Phát hiện các vùng ảnh nổi
Hình 3: Phát hián vùng 愃ऀnh nái
Phát hiện phân lo¿i các vùng Ánh nổi là một trong những module thiết yếu trong hệ thống phát hiện truy vết theo đối t°ợng chuyển động qua khung hình video Module này đóng vai trò quan trọng phân tích xử l{ các khung hình video để lọc ra các vùng Ánh nổi lên trên tách biệt với phần còn l¿i cÿa các khung hình nền Ph°¡ng pháp trừ Ánh nền (Background Subtraction)
Ph°¡ng pháp trừ Ánh nền (Background Subtraction) Là ph°¡ng pháp so sánh Ánh đ¡n giÁn nhất Background Subtraction là ph°¡ng pháp dựa trên sự sai khác giữa hai hoặc nhiều Ánh và tiến hành so sánh sự sai khác này với một hoặc nhiều giá trị ng°ỡng cho tr°ớc Tr°ßng hợp mà sự sai khác này lớn h¡n hoặc nhỏ h¡n giá trị ng°ỡng đã cho, thì á đây có nghĩa là đã có sự sai khác về các giá trị pixel Ánh Ta đ°a ra kết luận có đối t°ợng chuyển động
Ph°¡ng pháp dựa trên thống kê( Statistical Methods) Ph°¡ng pháp dựa trên thống kê các đặc điểm riêng cÿa các điểm Ánh từ đó tính toán để phát triển các thuật toán có thể khắc phục v°ợt qua đ°ợc những khó khăn v°ớng mắc mà ph°¡ng pháp trừ nền ch°a xử l{ đ°ợc đó là những khó khăn gặp phÁi khi khung cÁnh luôn bị tác động thay đổi bái nhiều yếu tố môi tr°ßng
Những tập hợp Các điểm Ánh nổi sẽ đ°ợc phân tích xác định bái việc so sánh các thông tin cÿa nhiều điểm Ánh với các mô hình Ánh nền Ph°¡ng pháp dựa trên thống kê này đ°ợc lựa chọn áp dụng khá phổ biến trong những khung cÁnh, khung hình có nhiều nhiễu, ánh sáng thay đổi liên tục bái môi tr°ßng và các yếu tố khác
Trang 28Ph°¡ng pháp thống kê c¡ bÁn vẫn phÁi áp dụng dựa trên kỹ thuật trừ Ánh nền song đ°ợc sử dụng thêm vào đó nó còn đ°ợc thực hiện ăn khớp, và cập nhật động thông tin l¿i các điểm Ánh thuộc Ánh nền đang đ°ợc xử lý
Ph°¡ng pháp này đ°ợc đ°a ra dựa trên sự chênh lệch t¿m thßi giữa tập hợp các khung hình dựa trên sự chênh lệch t¿m thßi giữa các khung hình Ph°¡ng pháp này phát hiện ra những vùng thay đổi chuyển động bằng cách sử dụng các thuật toán so sánh sự khác nhau á māc điểm Ánh giữa hai hoặc nhiều khung hình liên tiếp trong một chuỗi các khung hình video Sử dụng ph°¡ng pháp này là khá tối °u tốt đối với khung cÁnh có nhiều chuyển động động nhiều thay đổi song nó l¿i ch°a đ°ợc chính xác trong việc phát hiện ra các điểm Ánh có liên quan đến một số kiểu chuyển động
2.3.3 Xử lý các vùng ảnh nổi
Xử l{ các vùng Ánh nổi trên thực tế vẫn còn nhiều khó khăn do nhiễu do đó cần để phÁi lọc nhiễu, xử l{ ghép nhiều vùng phân mÁnh, phân tích lo¿i bỏ các vết không liên quan thì cần phÁi áp dụng một số module xử l{ các vùng Ánh nổi để đ°a ra sÁn phẩm là các các đối t°ợng chuyển động rõ ràng để từ đó ta mới xác định đ°ợc tính chất, đặc tr°ng cÿa chúng
Trừ Ánh dựa vào khối l°ợng tiếp cận phân khối sử dụng các tài nguyên có đặc tính cục bộ nhầm tách biệt tăng tính độc lập với các di chuyển cÿa camera và đối
Trang 29t°ợng Mỗi khung hình đ°ợc chia thành b khối Tập hợp các khối trên khung hình f1
đ°ợc đ°a vào so sánh với khối t°¡ng āng với trên khung hình f2 Về c¡ bÁn thì độ chênh lệch giữa nhiều khung hình đ°ợc tính nh° sau:
Một h°ớng tiếp cận khác so với kỹ thuật trừ Ánh phân khối đ°ợc Shahraray cho rằng chia khung hình thành 12 miền và tìm những miền tối °u thích hợp nhất cho mỗi miền á khung hình kia Sử dụng Độ chênh lệch tính bằng kỹ thuật trừ Ánh dựa vào các điểm Ánh thßi điểm hiện t¿i cÿa từng miền đ°ợc sắp sếp Từ đó ta tính tổng có trọng số đ°ợc sắp xếp cÿa các chênh lệch cho ta kết quÁ D cuối cùng
Trừ ảnh dựa vào biểu đồ
Ta có thể áp dụng biểu đồ biểu đồ màu hoặc māc xám để tính toán sự sai khác giữa hai khung hình vì sự phân bố màu trên các frame liên tục th°ßng thì không bị Ánh h°áng nhiều bái chuyển động cÿa chuyển động cÿa đối t°ợng và camera
Biểu đồ màu hay còn đ°ợc gọi là māc xám cÿa khung hình I là vect¡ G chiều Hi = (Hi(1), Hi(2), (Hi(3), ………, Hi(G)
Trong đó: G là số màu (māc xám) Hi(j) là số điểm Ánh cÿa khung hình i có màu (māc xám)j Biểu đồ toàn cục hoặc biểu đồ cục bộ là hai ph°¡ng pháp chính cÿa Ph°¡ng pháp trừ Ánh dựa trên biểu đồ
- Biểu đồ đ°ợc hiển thị biểu diễn sự phân bố giá trị màu (māc xám) cÿa toàn bộ khung hình đ°ợc gọi là Biểu đồ toàn cục
- Biểu đồ chỉ mô tÁ l¿i sự phân bố màu hay māc xám hiển thị cÿa phần nào đó cÿa khung hình là Biểu đồ cục bộ
Trang 30Trừ ảnh dựa vào điểm ảnh
Ph°¡ng pháp để tính toán sự sai khác giữa hai frame bằng việc tính toán một tập hợp các giá trị, nó mô tÁ mọi l¿i toàn bộ thay đổi về c°ßng độ điểm Ánh trong các Ánh hiển thị trên khung hình Có nhiều ph°¡ng pháp đ°ợc áp dụng để tính sự sai khác nhau này, Nagasaka và tanaka đã tìm ra ph°¡ng pháp tối °u để xử l{ vấn đề là ph°¡ng pháp tính tổng toàn bộ những thay đổi khác nhau về c°ßng độ điểm Ánh đ°ợc phân tích giữa hai khung hình nh° nhau là độ chênh lệch khung D(f1, f2)
à ph°¡ng pháp này ta dựa vào ph°¡ng pháp trừ giá trị điểm Ánh Ta không đi tính tổng sự sai khác cÿa tất cÁ các điểm Ánh, ta dùng các thuật toán chia nhỏ Ánh thành tập các miền rồi so sánh các đ¿i l°ợng thống kê trên các điểm Ánh cÿa các miền đó
Trên toàn bộ khung hình biểu diễn hiển thị sử dụng một giá trị Ta sử dụng thống kê tỷ lệ số tập hợp điểm Ánh thay đổi khác nhau
d: đ°ợc tính giữa hai điểm Ánh t°¡ng āng Là ng°ỡng sai khác
Gọi S là tập các điểm Ánh có độ sai khác lớn h¡n d:
ÿ = {(x, y) \ | Ā1 (x, y) 2 Ā2 (x, y)| > d} (3) Tính độ sai khác giữa các khung hình đ°ợc tính bằng tỷ lệ từ các điểm Ánh nhận đ°ợc có độ chênh lệch lớn h¡n d
ÿ(Ā1,Ā2) =ÿ ýāÿĀþÿ ∗ Ā (4) Các khác dùng đúng các đ¿i l°ợng thống kê cho từng miền, nhu biểu đồ chẳng h¿n Ph°¡ng pháp này còn khá nhiều sai sót trong phát hiện cÁnh phim
Đặc trưng là vector chuyển động:
Trang 31Ng°ßi ta th°ßng thấy các hiệu āng do những chuyển động cÿa các đối t°ợng trong camera, nh° pan (quét), zoom (zoom in - phóng to, zoom out - thu nhỏ), italic (nghiêng)
Đặc trưng là c愃⌀nh:
Phân lo¿i và phát hiện chuyển cÁnh là một tập hợp các sự phát hiện sự xuất hiện các cÁnh trong một khung hình, chúng cách các cÁnh trong nhiều khung hình tr°ớc một khoÁng kích th°ớc nhất định Kỹ thuật này phát hiện và phân lo¿i các lo¿i chuyển cÁnh: chồng mß, Cắt cāng, fade, wipe
2.3.5 Một số kỹ thuật trừ nền cơ bản
Sự khác biệt khung (Frame Differencing)
Trong nhiều ph°¡ng pháp trừ nền thì ph°¡ng pháp khác biệt khung đ°ợc xem là ph°¡ng pháp đ¡n giÁn nhất Tốc độ thực thi thuật toán nhanh, Chi phí tính toán thấp., Tuy nhiên kết quÁ đ¿t đ°ợc khi ta áp dụng ch¿y thuật toán này là t°¡ng đối
thấp
Các đối t°ợng chuyển động sẽ đ°ợc phân tích xử l{ phát hiện dựa trên sự khác biệt giữa hai khung Ánh liên tiếp nhau cùng với một ng°ỡng đ°ợc chọn tr°ớc là Ý t°áng chính trong ph°¡ng pháp khác biệt khung Từ đó việc sử dụng GiÁi thuật trên đối với mỗi giá trị pixel kết quÁ ta so sánh giá trị t¿i pixel đó với ng°ỡng đã đ°ợc chọn đ°ợc thực hiện bằng ph°¡ng pháp trừ hai khung liên tiếp Các tập hợp giá trị này nằm trong một ng°ỡng cho tr°ớc đ°ợc cho phép thì t¿i đó ta xem nh° là nền
Ng°ợc l¿i không phÁi là nền
Lọc trung bình (Running Average)
Ph°¡ng pháp trừ nền trung bình đ°ợc phát triển cÁi tiến cÿa ph°¡ng pháp trừ nền c¡ bÁn Từ những cái c¡ bÁn thay vì giữ nguyên giá trị khung hình nền B(x,y) trong phép trừ nên, ph°¡ng pháp trừ nền trung bình đ°ợc phát triển cÁi tiến bằng việc cập nhật liên tục các giá trị lọc tách khung hình nền nhằm tăng tính chính xác cho kết quÁ phát hiện nhận diện đặc tr°ng cÿa đối t°ợng chuyển động
Thu¿t toán táng quát đái vái pixel (x,y):
�㔏: Tham số ng°ỡng cho tr°ớc
Trang 32Ā: Giá trị cập nhật nền cho tr°ớc € [0,1] Bt(x,y): Giá trị khung nền
It(x,y): Giá trị khung video đến Giá trị khái t¿o mô hình nền và frame video đến: B0(x,y)= I0(x,y) B°ớc 1: Cập nhật giá trị nền B0(x,y) theo chỉ số frame t:
Đánh giá:
- Các giá trị đ°ợc cập nhật liên tục những giá nền thông qua việc sử dụng tham số Ā đã làm cho thuật toán tăng c°ßng độ chính xác h¡n cho việc phát hiện đối t°ợng chuyển động sau đó ta so với thuật toán trừ nền c¡ bÁn
- Cài đặt giÁi thuật đ¡n giÁn giÁm thiểu thßi gian ch¿y, độ phāc t¿p tính toán đ¡n giÁn,tăng tốc độ xử lý nhanh
Nh°ÿc điám:
Ph°¡ng pháp này còn nhiều h¿n chế ch°a giÁi quyết đ°ợc: - Không thể phát hiện đ°ợc sự thay đổi lớn trong một vùng Ánh nhỏ và ng°ợc l¿i, camera thu Ánh có còn bị nhiễu
- Kết quÁ phát hiện ch°a thật chính xác đối với những tr°ßng hợp đối t°ợng trong đo¿n video không di chuyển
- Cũng nh° ch°a khắc phục đ°ợc những h¿n chế cÿa ph°¡ng pháp trừ nền c¡ bÁn
Trang 332.3.6 Kỹ thuật trừ nền nâng cao
Mô hình Gauss hỗn hợp (Mô hình GMM))
Stauffer and Grimson (1999) đã đ°a ra ph°¡ng pháp trộn các mô hình nền lai để giÁi quyết vấn đề ánh sáng thay đổi, sự lộn xộn từ khung cÁnh thực tế các hành động lặp l¿i Chāng minh một mô hình nền đ¡n thì không thể xử l{ đ°ợc các khung hình liên tục trong một thßi gian dài
Sử dụng ph°¡ng pháp pha trộn phân tán Gauss ta có thể dùng để biểu diễn mỗi điểm Ánh trên một mô hình
Theo luận điểm trên, thực hiện và tích hợp sử dụng ph°¡ng pháp này vào trong hệ thống giám sát Trong mô hình này, ta coi các giá trị cÿa điểm Ánh theo thßi gian xem nh° là một tiến trình điểm Tiến trình điểm là một tập hợp chuỗi giá trị điểm theo thßi gian, nghĩa là giá trị cấp xám hoặc là véc t¡ đối với Ánh màu
T¿i thßi điểm t, t¿i điểm (x0,y0) thì {X1, ,Xt} = {I(x0,y0,i), 1≤i≤t} là một tiến trình điểm Đây là mốt trong những yếu tố h°ớng dẫn cách lựa chọn mô hình và các thÿ tục cập nhật Dãy {X1, ,Xt} đ°ợc mô hình hóa bái K phân bố Gauss Tần suất thực hiện quan sát cÿa điểm Ánh hiện t¿i đ°ợc tính bái công thāc:
�㕃(ÿþ) = ∑ �㔔ÿ,þ �㔂(ÿþ, �㔇ÿ, ∑ÿ,þ)
�㕘
ÿ=1
(7) Trong đó:
i, t là trọng số t°¡ng āng với Gauss thā i t¿i thßi điểm t; I, t là giá trị tính trung bình các Gauss thā i t¿i thßi điểm t; i, t là tập ma trận hiệp ph°¡ng sai cÿa phân bố Gauss thā i t¿i thßi gian t; là hàm mật độ xác suất đ°ợc xác định bái công thāc:
�㔂(ÿþ , �㔇, �㗴) = 1
(2ÿ�㕛⁄2|∑|1⁄2)ÿ212(ÿ
�㕡2�㔇�㕡)�㕇∑21(ÿ�㕡2�㔇�㕡) (8) K phụ thuộc vào bộ nhớ và khÁ năng xử l{ cÿa máy tính
Ma trận hiệp ph°¡ng sai đ°ợc giÁ thiết có d¿ng sau:
I: là ma trận đ¡n vị
Trang 34R, G, B giá trị cÿa các điểm Ánh là các thành phần đ°ợc cho là độc lập và có cùng một ph°¡ng sai Thÿ tục phát hiện các điểm tiền cÁnh:
Ta phân phối K-Gauss cho một điểm Ánh đ°ợc khái t¿o với các giá trị trung bình, với giá trị trọng số thấp nh° các công thāc á trên
Khi có một điểm Ánh mới trong chuỗi khung hình đ°ợc quan sát, để xác định kiểu cÿa nó,
Vector RGB đ°ợc so sánh kiểm tra l¿i so với K-Gauss cho đến khi tìm ra đ°ợc tr°ßng hợp đúng
Giá trị điểm Ánh trong vòng 2.5 độ lệch chuẩn cÿa một phân phối đ°ợc xác định khi giá trị tìm đ°ợc phù hợp
Tiếp theo, xét K phân phối t¿i thßi điểm t: i,t đ°ợc cập nhật theo công thāc:
ω�㕘,þ = (1 2 α)ω�㕘,þ21 + ÿ�㕀�㕘,þ (10)
là tỉ lệ học, �㕀�㕘,þ=1với phân phối Gauss và �㕀�㕘,þ=0 đối với các phân phối khác Tiếp theo sau khi b°ớc trên kết thúc, các trọng số phân phối đ°ợc chuẩn hóa và các tham số nhằm xác định chính xác hóa Gauss sẽ đ°ợc cập nhật với các quan sát tiếp theo:
�㔇þ = (1 2 Ā)�㔇þ21 + Āÿþ (11) �㔎þ2 = (1 2 Ā)�㔎þ212 + Ā(ÿþ 2 �㔇þ)þ(ÿþ 2 �㔇þ) (12) Trong đó:
ρ = α·(Xt, μt, σk) Tr°ßng hợp không đúng thì phân phối Gauss với những kết quÁ có xác suất thấp nhất sẽ đ°ợc thay thế bái xác suất phân phối mới với giá trị khác là giá trị điểm Ánh mới đ°ợc thêm vào
Bài toán phát hiện ra lo¿i điểm Ánh (tiền cÁnh hay nền), phân phối K-Gauss đ°ợc sắp xếp bái giá trị /
Trang 35Danh sách này các tập hợp điểm Ánh thuộc Ánh nền sẽ t°¡ng āng với xác suất phân phối thuộc trọng số lớn và ít biến đổi B sẽ đ°ợc phân phối nh° là một mô hình xác định Ánh nền theo công thāc:
ý = arg ÿ�㕖ĀĀ {∑
ÿ=1Ā
�㔔ÿ,þ| ∑
ÿ=1Ā
�㔔ÿ,þ > Ā} (13)
T: Giá trị nhỏ nhất đ°ợc tìm trong mô hình Ánh nền 2.4 Ph°¢ng pháp theo v¿t đái t°ÿng
2.4.1 Theo vết đối tượng
Theo vết đối t°ợng [7] là các quá trình chính xác hóa đối t°ợng trong các khung hình liên tiếp để từ đó ta đ°a ra các thông tin về chuyển động cÿa đối t°ợng nh° lo¿i xe, đ°ßng đi, tốc độ và h°ớng chuyển động
Theo vết đối t°ợng bao gồm hai giai đo¿n: - Cô lập những đối t°ợng ra khỏi nền trong từng frame - Sự liên kết cÿa các đối t°ợng trong các frame kế tiếp để theo vết
Mục tiêu cÿa ph°¡ng pháp theo vết đối t°ợng là tìm ra đối t°ợng chuyển động đã đ°ợc phát hiện trong giai đo¿n nh° hình 4, ta có thể phát hiện đối t°ợng chuyển động từ khung hình thā nhất sang khung hình thā hai trong một dãy tập hợp các khung hình
Trang 36Hình 4: Quy trình theo v¿t đái t°ÿng
Phần quan trọng nhất trong hệ thống là theo vết đối t°ợng chuyển động Kết quÁ phát hiện đối t°ợng chuyển động sẽ Ánh h°áng trực tiếp đến tốc độ xử l{ và độ chính xác cÿa toàn hệ thống Nếu kết quÁ phát hiện đối t°ợng chính xác, hệ thống sẽ xử l{ nhanh và đ¿t đ°ợc độ chính xác cao và ng°ợc l¿i
2.4.2 Quy trình theo vết đối tượng
Việc āng dụng hệ thống theo vết trong hệ thống camera giám sát thông minh còn gặp nhiều khó khăn do một số nguyên nhân sau đây:
- Tốc độ xử l{ dữ liệu đ°ßng truyền, xử l{ trong thßi gian thực
- Cách tiếp cận theo vết đối t°ợng đựa dựa vào nh° màu sắc cÿa đối t°ợng Cách tiếp cận này sử dụng mô hình Kalman đã đ°ợc phát triển trong giao tiếp
giám sát bằng máy tính
- Truy vết đối t°ợng dựa vào các đ°ßng bao động (Active Contour): Cách tiếp cận ta dựa trên biên bao gồm tìm ra các đ°ßng biên bao đặc tr°ng cÿa một đối t°ợng và liên tục cập nhập tự động l¿i các thuộc tính cÿa đối t°ợng đó
- Ành nền lộn xộn: Do có sự có mặt cÿa nhiều đối t°ợng khác, sự chuyển
động hỗn lo¿n trong khung hình
Vết và đặc tr±ng cÿa đßi t±ợng
Chính xác hóa đßi t±ợng(Occlution Handling)Xÿ lý nhập nhằng
Dÿ đoán chuyển đßng cÿa đßi t±ợngPhát hiện đßi t±ợng
rời khßi cảnh
бờng đi cÿa đßi t±ợng
Trang 37- C°ßng độ chiếu sáng thay đổi: Thay đổi h°ớng và c°ßng độ chiếu sáng
- Thay đổi điểm nhìn: Thay đổi vị trí cÿa đối t°ợng Nếu đối t°ợng chỉ có một vài đặc tr°ng thị giác, nh° màu sắc… dùng để biểu diễn thì việc xác định tất cÁ các điểm Ánh cùng màu với đối t°ợng khá dễ dàng Nh°ng trên thực tế, còn phụ thuộc vào nhiều yếu tố khác nh° đối t°ợng phát hiện, số l°ợng và theo vết nh° nào Đối t°ợng trong video hầu hết đều chuyển động, khi xuất hiện nhiều đối t°ợng vào cùng một vùng giám sát việc theo vết rất khó trong việc xác định vết nào cÿa đối t°ợng nào nh°: c°ßng độ chiếu sáng tối khác nhau, góc quay sẽ làm cho việc phát hiện, nhận d¿ng và theo dõi sẽ gặp rất nhiều khó khăn
Trong một đối t°ợng có rất nhiều đặc tr°ng: đặc tr°ng về cấu trúc, đặc tr°ng về mô hình, đặc tr°ng về màu sắc Do các đối t°ợng có nhiều đặc tr°ng Vì vậy cũng có rất nhiều ph°¡ng pháp theo vết đối t°ợng khác nhau nh°: theo vết đối t°ợng theo h°ớng hình học, theo đặc tr°ng cÿa đối t°ợng Để giÁi quyết vấn đề tổng quát l¿i ta có thể chia thành bốn cách tiếp cận chính nh°:
Theo vết dựa trên mô hình: Hệ thống dựa vào mô hình học cấu trúc 2D hay 3D cÿa đối t°ợng Để khắc phục những nh°ợc điểm trong mô hình 3D thì Các mô hình 2D đ°ợc giới thiệu Việc tìm ra đ°ßng đi cÿa các mô hình yêu cầu độ chính xác cao mà đối t°ợng theo dõi là ít mô hình này đ°ợc áp dụng hiệu quÁ
Theo vết dựa trên tên miền: Ý t°áng là nhận d¿ng những miền liên kết với nhau trong Ánh, khối mà có liên kết với mục tiêu đ°ợc theo dõi ¯u điểm cÿa cách tiếp cận này là: Các tham số cÿa thuật toán cũng có { nghĩa vật lý, dễ dàng khái niệm hóa Khái t¿o khá dễ dàng, chỉ cần có vị trí và kích th°ớc cÿa cửa sổ cần đ°ợc định nghĩa
Theo vết đối t°ợng dựa vào đ°ßng bao động (Active Contour): Cách tiếp cận dựa trên biên bao gồm tìm đ°ßng biên bao cÿa một đối t°ợng và liên tục cập nhập tự động đối t°ợng đó N¡i khớp nhất sẽ là đ°ßng biên hiện t¿i, mô hình sẽ cập nhật đ°ßng biên hiện t¿i để phÁn ánh hình dáng cÿa đối t°ợng trong frame hiện t¿i Quá trình này sẽ đ°ợc lặp đi lặp l¿i với mô hình đ°ßng biên đ°ợc cập nhật ¯u điểm cÿa cách tiếp cận này là với tình huống đối t°ợng bị che khuất một phần có khÁ năng xử
Trang 38lý hiệu quÁ Tuy nhiên vấn đề cần quan tâm cÿa mô hình là nó yêu cầu sự khái t¿o chính xác và xử l{ nh° nào với tr°ßng hợp nhập nhằng
Cách tiếp cận này sử dụng mô hình Kalman đã đ°ợc phát triển trong giao tiếp giám sát bằng máy tính Chọn các đặc tr°ng cÿa đối t°ợng và theo vết dựa trên những đặc tr°ng đó, ví dụ ta theo vết bằng việc theo dõi một nhóm tập hợp điểm trên một góc nào đó cÿa đối t°ợng, trong các frame ta tìm đối t°ợng bằng cách tìm tập hợp các điểm đó sao cho giống nhất ¯u điểm cÿa ph°¡ng pháp này là có thể giÁi quyết đ°ợc sự che khuất cÿa đối t°ợng, khi một số đặc tr°ng cÿa đối t°ợng vẫn còn thì ta vẫn có thể tiến hành theo vết đ°ợc Tuy nhiên chính vì việc theo vết dựa trên đặc tr°ng cÿa đối t°ợng nên yêu cầu những đặc tr°ng này là duy nhất cho đối t°ợng cần theo dõi, không đ°ợc phổ biến, lẫn với các đối t°ợng khác Việc chọn các đặc tr°ng này khó và tốn nhiều thßi gian
2.4.3. Các Phương pháp dựa trên Deep Learning
Một số kỹ thuật phát hiện và nhận d¿ng đối t°ợng dựa trên m¿ng CNN phổ biến trên thế giới nh°: R-CNN(Region-Convolutional Neural Network)[16], Fast R-CNN[17], Faster R-CNN[18], SSD (Single Shot Multibox Detector)[19] …
Các nghiên cāu về các kỹ thuật học sâu các kỹ thuật phân lo¿i dựa trên HOG[19] ta thu đ°ợc nhiều kết quÁ rõ ràng dần đ°ợc cÁi tiến thay thế bằng một kỹ thuật học sâu nh° CNN đã cho kết quÁ chính xác h¡n Tuy nhiên, có một vấn đề là CNN quá chậm và tính toán rất tốn kém Không thể ch¿y CNN trên nhiều cửa sổ đ°ợc t¿o bái thuật toán cửa sổ tr°ợt (sliding window detector) R-CNN[17] đã giÁi quyết vấn đề này bằng cách ch¿y một thuật toán đ°ợc gọi là Selective Search để giÁm số hộp giới h¿n (bounding box) đ°ợc đ°a vào bộ phân lo¿i Selective Search là sử dụng các dấu hiệu đ°ợc bố cục nh° c°ßng độ, kết cấu, màu sắc để t¿o ra các vị trí có thể chāa đối t°ợng CNN đ°ợc dựa trên các phân lo¿i mà chúng ta có thể cung cấp các hộp giới h¿n
Hãy nhớ rằng, lớp kết nối đầy đÿ (Fully connected layer) cÿa CNN có một đầu vào kích th°ớc cố định vì vậy chúng ta thay đổi kích cỡ cÿa tất cÁ các hộp giới h¿n
Trang 39về một kích th°ớc cố định và cũng cấp cho CNN Do đó R-CNN[17] th°ßng có 3 phần quan trọng
- Ch¿y Selective Search để tìm kiếm các hộp các đối t°ợng có thể xuất hiện - Đ°a các hộp đó vào CNN, sau đó là SVM[17] để dự đoán lớp cÿa từng hộp - Tối °u hóa các hộp bằng cách huấn luyện
Hình 5: Mô hình R-CNN
Tuy R-CNN[16] đã đ¿t đ°ợc nhiều tiến bộ nh°ng nó vẫn còn rất chậm Bái vì nó phÁi ch¿y CNN với 2000 khu vực đ°ợc đề xuất bái Selective Search dẫn đến mất rất nhiều thßi gian SPP-net[20] (Spatial Pyramid Pooling Network) đã cố gắng tối °u nó Với SPP-net các tính toán đặc tr°ng trên CNN chỉ thực hiện một lần và có thể sử dụng để tính toán các đặc tr°ng cho mỗi khu vực đ°ợc t¿o bái Selective Search
Trang 40Hình 6: Mô hình SPP-net
Fast R-CNN[23] sử dụng { t°áng cÿa SPP-net, R-CNN và sửa một vấn đề chính trong SPP-net nh°: Fast R-CNN có thể thực hiện từ đầu đến cuối (end-to-end) Một điều nữa là họ đã thêm tính toán hồi quy để tìm hộp giới h¿n vào việc huấn luyện Vì vậy m¿ng có hai đầu ra một đầu phân lo¿i đầu ra và một đâu dự đoán hộp giới h¿n Mục tiêu này là tính năng nổi bật cÿa Fast R-CNN[17] vì nó không còn yêu cầu huấn luyện m¿ng độc lập để tìm vị trí và phân lo¿i đối t°ợng So với SPP-net hai thay đổi này đã tối °u và làm giÁm bớt thßi gian huấn luyện tổng thể và tăng độ chính xác
Hình 7: Mô hình m¿ng Fast R-CNN