MỤC LỤC
• Đề xuất một phương pháp ước lượng được vận tốc của phương tiện gồm xe máy, ô-tô con, xe buýt và xe tải một cách tự động trên đa số các camera đặt cố định bằng cách sử dụng hoặc cải tiến các nghiên cứu và giải pháp hiện có. (2) Huấn luyện dữ liệu (Training Data) đây là thành phần với nhiệm vụ chính là xử lý hình ảnh, gắn nhãn và huấn luyện lại mô hình YOLOv7 sử dụng công cụ Roboflow [10].
– Định nghĩa và mô tả kỹ thuật hiệu chuẩn camera sử dụng các điểm ảo (hoặc điểm biến mất) trong trường hợp camera đặt cố định. • Chương 6 "Đánh giá và tổng kết nghiên cứu": Chương này sẽ tiến hành đánh giá trên tập dữ liệu thật, từ đó có cơ sở để tổng kết kết quả đạt được cũng như đề xuất hướng mở rộng cho đề tài.
Cú hai hướng tiếp cận chính trong bài toán này đó là nhận diện dựa trên hình dáng bên ngoài và chuyển động của tiền cảnh (phần gần nhất với camera). Hướng tiếp cận này dựa vào việc trích xuất các đặc trưng kết cấu, màu sắc hay hình dạng của phương tiện. 1) Phương pháp dựa trên đặc điểm hình dáng. Histogram of Oriented Gradients (HOG): đặc trưng này được sử dụng để nhận diện phương tiện giao thông, do khả năng mô tả hình dáng tổng thể của các đối tượng [15]. Harr-like Feature: đặc trưng này được sử dụng để nhận diện phương tiện giao thông, do khả năng mô tả các góc và cạnh của các đối tượng. 2) Phương pháp dựa trên đặc trưng chuyển động.
Theo nghiên cứu [27], mục đích của hiệu chuẩn camera chính là để tính toán khoảng cách thực tế d giữa 2 điểm (P1,P2) trên mặt đường thông qua phép chiếu (p1, p2) trên không gian ảnh. Hình 2.7: Mục đích hiệu chuẩn camera. Nhóm tác giả [27] đề xuất mô hình tổng quan cho việc hiệu chuẩn camera có thể được biểu diễn dưới dạng một ma trận chiếu P = K [ R T], trong đó K là ma trận nội tham số của camera, R là ma trận quay và T là vector tịnh tiến. Với cách tiếp cận này, tác giả thường chấp nhận một số giải định sau: phương tiện di chuyển theo đường thằng, ít nhất là trong một phạm vi xác định, tâm điểm của camera ở giữa khung hình camera và độ lệch ống kính bằng 0. Trên cơ sở giả định này, các phương pháp đo tốc độ phương tiện dựa trên hiệu chuẩn camera thành 4 hướng tiếp cận:. 1) Hướng tiếp cận từ vạch kẻ đường. Hai điểm ảo này được sử dụng để hiệu chuẩn tự động các tham số trong camera bằng ước tính bình phương tối thiểu thay vì tính toán dạng đóng (closed-form computation). Trong [29], nhóm tác giả giả định camera chỉ nghiêng theo trục Y. Họ giả định điểm ảo thứ hai nằm ở vô cực và điểm ảo thứ nhất được tính toán bằng cách lấy giao điểm của các vạch kẻ đường. Các phương tiện giao thông được nhận diện bằng cỏch tỏch bỏ ảnh nền và theo dừi bằng kỹ thuật tương quan chéo chuẩn hóa. Phương pháp này có thể được sử dụng trên những con đường lớn, nhưng không thể sử dụng trên những con đường nhỏ ở vùng quê hoặc khu vực đường nội bộ không có vạch kẻ đường. 2) Hướng tiếp cận từ chuyển động của phương tiện. Filipiak và cộng sự [30] đề xuất sử dụng chuyển động của biển số xe để tính toán tham số camera thông qua giải thuật tiến hóa. Công bố [30] sử dụng biến đổi Hough xếp tầng và tọa độ song song để theo dừi cỏc đặc trưng cục bộ và phân tích quỹ đạo di chuyển. Phương pháp này không phụ thuộc vào vạch kẻ đường nhưng cần nhiều phương tiện di chuyển để đảm bảo độ chính xác. 3) Hướng tiếp cận từ đo lường thủ công. Hướng tiếp cận này yêu cầu biết trước một số thông số trong thế giới thực để thực hiện việc hiệu chuẩn. Công bố [31] yêu cầu cần phải biết trước 2 góc tùy ý trên mặt đất và độ dài của các vạch kẻ đường trong thực tế. Trong khi đó, Công bố [32] tập trung vào việc đo tốc độ phương tiện giao thông vào buổi tối. Nhóm tác giả nhận diện phương tiện bằng cách phát hiện cặp đèn xe, sau đú theo dừi chuyển động và tớnh toỏn tốc độ. 4) Hướng tiếp cận tự động điều chỉnh tham số camera dựa trên thống kê các chiều.
Như vậy với minh hoạ trên thì bài toán đo tốc độ phương tiện giao thông cơ bản sẽ có hai bước xử lý gồm các bước, đầu tiên là xác định được phương tiện, tiếp theo là theo dừi để tỡm kiếm đoạn đường di chuyển của phương tiện, cuối cùng tốc độ sẽ được tính toán bằng khoảng cách di chuyển chia cho thời gian. Từ thông số thu được ở bước hiệu chuẩn camera, để tính toán khoảng cách phương tiện di chuyển được từ frame thứ t đến frame t+τ trong video (τ là số frame liên tiếp nhau) bằng cách xác định vị trí của phương tiện phát hiện được ở mỗi frame từ giải thuật theo dừi DeepSORT (phần này sẽ trỡnh bày ở mục tiếp theo).
Trong deep SORT, nhóm tác giả giải quyết vấn đề liên kết dữ liệu dựa trên thuật toán Hungary (tương tự như SORT), tuy nhiên, việc liên kết không chỉ dựa trên IOU mà còn quan tâm đến các yếu tố khác: khoảng cách của detection và track (xét tính tương quan trong không gian vector) và khoảng cách cosine giữa 2 vector đặc trưng được trích xuất từ detection và track- 2 vector đặc trưng của cùng 1 đối tượng sẽ giống nhau hơn là đặc trưng của 2 đối tượng khác nhau. Với điểm ảo đầu tiên (VP1) được xác định từ hướng di chuyển của dòng phương tiện phát hiện được bằng mô hình YOLOv7, điểm này được tính toỏn bằng cỏch theo dừi cỏc điểm đặc trưng trờn phương tiện sử dụng bộ phỏt hiện điểm cực tiểu và bộ theo dừi KLT [52], chuyển động của điểm bị theo dừi được biến đổi bằng Hough [53] và được tham số hoỏ bằng toạ độ.
Cột ảnh bờn trỏi là kết quả điểm bị theo dừi được trờn ụ tụ được biểu thị bằng đường thẳng dọc theo hướng di chuyển của phương tiện; cột ảnh bên phải là điểm ảo VP1 và biểu đồ biến đổi Hough ở góc bên trái mỗi ảnh. • Bước tiếp theo là tìm điểm ảo thứ hai VP2, tác giả sử dụng các bước tương tự bước xác định VP1 là trích xuất ra vùng 2D bounding box của mỗi phương tiện và giải thuật Diamond Space luỹ tích để tìm ra đường thẳng và toạ độ đồng nhất.
Vì vậy, trong bước này, tác giả dùng giải thuật Candy [54] tích hợp trong OpenCV để tìm kiếm các cạnh có chất lượng tốt trên vùng 2D bouding box của phương tiện phát hiện được. Từ hình minh hoạ 4.5 có thể thấy hai đường tiếp tuyến xuất phát từ VP1 (màu đỏ), hai đường tiếp tuyến xuất phát từ VP2 (xanh lá cây) và hai đường còn lại xuất phát từ VP3.
Ngoài ra, để làm phong phú và đa dạng hơn tập dữ liệu về phương tiện giao thông tại Việt Nam, Hệ thống còn sử dụng thêm một số nguồn dữ liệu khác như kho dữ liệu của Roboflow [10] và Kaggle [62]. Sau khi tiến trình thu thập hoàn tất, hình ảnh sẽ được lưu trữ trên máy tính cá nhân sau đó được upload lên Google Drive và tên file ảnh sẽ đặt theo định dạng là <timestamp><tên đường hoặc vị trí camera>.JPG với kích thước ảnh được chọn lọc đảm bảo phù hợp với kích thước cũng như độ phân giải ảnh đầu vào của mô hình YOLOv7.
Vì vậy, bộ dữ liệu đầu vào cho quá trình huấn luyện lại mô hình phân đoạn YOLOv7 sẽ được gắn nhãn lại phân đoạn cho 05 loại phương tiện giao thông phổ biến ở TP.HCM gôm ô tô, xe máy, xe buýt, xe tải và xe van, trong đó xe bus và xe van là loại phương tiện mới được thêm vào để phù hợp hơn với thực tế ở Việt Nam. Nếu trong quá trình thực nghiệm, hiệu suất nhận diện phương tiện xuống thấp, chúng tôi sẽ tiến hành huấn luyện lại mô hình từ tập dữ liệu ảnh đã có sẵn lưu trữ trên máy chủ Roboflow, từ đó có thể áp dụng lại vào mô hình đã đề xuất.
– Nhóm nghiên cứu của Đại học Quốc gia Singapore đã thử nghiệm DeepSORT trên tập dữ liệu Cityscapes [67] và cho thấy giải thuật này có thể đạt độ chớnh xỏc theo dừi lờn tới 90% với ụ tụ, 75% với xe mỏy, và 80%. Tóm lại, từ những đánh giá thực nghiệm và kết quả quan sát quá trình hiện thực và thử nghiệm kết hợp giữa mô hình YOLOv7 và DeepSORT với các camera giám sát trong các điều kiện khác nhau trong ngày, cho thấy hiệu suất và độ chớnh xỏc nhận diện cũng như theo dừi phương tiện giao thụng tốt, cú thể sử dụng để hiện thực tiếp bài toán ước lượng vận tốc.
Điểm ảo 1 (VP1) là điểm hội tụ của các cạnh tương đồng theo hướng di chuyển của xe; Điểm ảo số 2 (VP2) là điểm hội của các cạnh tương đồng theo hướng vuông góc với đoạn thẳng vuông góc xuất phát từ VP1. Cuối cùng, Với toạ độ ba điểm ảo thu được và áp dụng các công thức 3.7 để trích xuất các thông số của camera gồm ma trận mặt phẳng đường, tiêu cự và ma trận xoay của camera làm tiền đề cho module ước lượng vận tốc được trình bày ở phần tiếp theo.
Đồng thời, tương ứng với mỗi dòng phương tiện, vận tốc trung bình của mỗi dòng xe lưu thông sẽ được tính toán dựa bằng công thức 4.17, ví dụ với camera đặt ở đoạn đường Lý Tự Trọng, Quận 1 có một dòng phương tiện 1 chiều, tốc độ trung bình tính toán được là 17.3 km/h. Để có góc nhìn khách quan và kiểm chứng được kết quả hiện thực giải pháp đề xuất, trong chương tiếp theo, phần thực nghiệm để đánh giá được kết quả sẽ được thực hiện trên hai bộ dữ liệu có gắn vận tốc thật.
Vận tốc chính xác (grounth-truth) trong tập dữ liệu này được xác định bằng cách đặt 2 máy đo LIDAR trên đường có gắn GPS đồng bộ thời gian với nhau, kết hợp với ba vị trí camera trên đoạn đường thẳng, tốc độ phương tiện lưu thông cao. Từ bảng thống kê 6.1, ta có thể thấy được sai số lỗi của vận tốc ước lượng từ phương pháp so với vận tốc thật của bộ dữ liêu kiểm chứng là7.4 km/h, đây là một kết quả chấp nhận được với bài toán có độ phức tạp lớn do phải tiến hành xử lý nhiều phần.
Từ bảng thống kê 6.2, số lượng phương tiện ước lượng được tại mỗi dòng xe trong khoảng thời gian hơn 20 phút lần lượt là 7514 và 6204, đây là con số lớn phù hợp thời điểm giao thông đang đông đúc khi thực nghiệm quan sát được. Thêm vào đó, sai số vận tốc trung bình khoảng 3.1km/h, đây là kết quả chấp nhận được trong khi điều kiện giao thông phức tạp với nhiều loại xe lưu thông, nhất là xe máy như trong video, đòi hỏi phương pháp phải phát hiện và theo dừi nhiều phương tiện và liờn tục.
Từ đánh giá độ chính xác trong phần 6.1, có thể thấy tỉ lệ lỗi với phương pháp sử dụng hệ số tỉ lệ và 3D bouding box của phương tiện là 7.47% trên tập dữ liệu ngoài nước và khoảng 3% đối với tập dữ liệu thực tế ở TP. Với khả năng ước lượng vận tốc của phương tiện cũng như dòng xe, các hệ thống này có thể cung cấp thông tin hữu ích cho người tham gia giao thông và cơ quan chức năng, giúp cải thiện tình trạng giao thông tại đoạn có gắn camera giao thông.
Tối ưu hoá phương pháp ước lượng hệ số tỉ lệ bằng cách chuyển đổi 3D bouding box của phương tiện sang 2D với góc nhìn vuông góc từ trên xuống (Bird Eyes View); (2) Có thể tăng độ chính xác và tốc độ của chức năng xác định các điểm ảo bằng cách sử dụng các mạng học sâu từ một số nghiên cứu (DeepVP) [71];. Tareeq, “A feature based method for real time vehicle detection and classification from on-road videos,” in 2017 20th International Conference of Computer and Information Technology (ICCIT), 2017, pp.