Những đặc trưng được rút trích từ tập ảnh đối tượng sau đó được dùng để xây dựng mô hình Bag-of-Visual Words, từ đó biểu diễn đối tượng dưới dạng thống kê của các bộ phận đặc trưng cho đ
Giới thiệu đề tài
Lý do chọn đề tài
Trong những năm trở lại đây, việc xây dựng hệ thống giám sát giao thông dựa trên thị giác máy tính ngày càng nhận được nhiều sự quan tâm của giới nghiên cứu Một trong những nguyên nhân là sự phát triển nhanh chóng của khoa học kỹ thuật khiến cho lượng tài nguyên và dữ liệu dùng cho tính toán trở nên hết sức dồi dào Hệ thống camera giao thông sẵn có mở ra khả năng ứng dụng cao như thống kê lượng phương tiện giao thông, phân tích hành vi của người đi đường, phát hiện vi phạm luật giao thông v.v Đồng thời, cũng đặt ra yêu cầu về hệ thống tính toán tự động thay thế cho con người Một nguyên nhân khác là nhờ có sự đóng góp của các nhà nghiên cứu trong việc xây dựng và phát triển các kỹ thuật thị giác máy tính dùng cho hệ thống giám sát giao thông Sự sẵn có của các hệ thống tính toán hiệu năng cao cho phép sử dụng các kỹ thuật tính toán với độ phức tạp lớn và độ chính xác cao Nhiều hệ thống giám sát giao thông đã được xây dựng và đưa vào thử nghiệm trên thế giới như SCOCA [1], hệ thống theo vết phương tiện Motris [2], v.v đạt được nhiều kết quả khả quan
Là bước đầu tiên trong hệ thống giám sát giao thông, phương pháp phát hiện và phân loại phương tiện giao thông có ảnh hưởng lớn đến độ chính xác của toàn bộ hệ thống Vấn đề đặt ra là do tính chất đặc trưng của hệ thống yêu cầu tầm hoạt động rộng, áp dụng được cho nhiều điều kiện môi trường như thay đổi mức sáng, thời tiết v.v… Điều này làm ảnh hưởng không nhỏ tới kết quả phân loại và phát hiện Vì vậy, phần lớn các nghiên cứu hiện nay đều tập trung nâng cao độ chính xác của giải thuật phát hiện và phân loại phương tiện giao thông Điển hình như trong [3] [4] và [5] áp dụng các phương pháp từ frame differencing, wavelet, background subtraction GMM đạt được độ chính xác ngày càng cao (94.7%, 97%, 95%) trong điều kiện môi trường thay đổi Một vấn đề khác trong giám sát giao thông ở môi trường đô thị, đó là sự che khuất giữa các phương tiện giao thông Trong điều kiện mật độ giao thông cao, hay các phương tiện di chuyển gần nhau, dẫn tới hình chiếu của các phương tiện bị dính liền, gây khó khăn cho việc phân loại và phát hiện từng đối tượng tham gia giao thông
Một vài nghiên cứu đã đề xuất giải pháp cho vấn đề này như [6] và [7], tuy nhiên chưa triệt để giải quyết cho môi trường đô thị mà chủ yếu áp dụng cho đường cao tốc
Với những ứng dụng thiết thực cũng như những tồn tại nêu trên, việc xây dựng phương pháp phát hiện và phân loại phương tiện giao thông là bước đầu tiên quan trọng trong xây dựng hệ thống giám sát giao thông Bên cạnh đó, những nghiên cứu trước đây đều tập trung vào phát hiện và phân loại phương tiện kích thước lớn như ô tô, xe tải v.v Trong khi xe máy cũng là một trong những phương tiện giao thông phổ biến lại chưa được quan tâm đúng mức Đặc điểm của xe máy so với các phương tiện giao thông khác là có kích thước nhỏ hơn, tuy nhiên lại có cấu trúc phức tạp hơn Kết hợp với sự thay đổi của môi trường như mức sáng, thời tiết, màu sắc v.v yêu cầu giải thuật phân loại và phát hiện xe máy phải hiệu quả trên tập dữ liệu có mức độ hỗn loạn lớn Ngoài ra, do cấu tạo phức tạp nên với thay đổi góc nhìn nhỏ dẫn đến sự thay đổi lớn đối với hình chiếu của xe máy Cùng với kích thước nhỏ dẫn đến dễ bị che khuất bởi các phương tiện cùng loại hay khác loại khiến cho việc phát hiện và tách rời từng đối tượng xe máy trong khung hình hết sức phức tạp Người điều khiển xe máy cũng là một nhân tố gia tăng độ sai khác của ảnh xe máy, làm giảm tính hội tụ của tập dữ liệu trong học máy.
Mục tiêu nghiên cứu
Dựa trên các lý thuyết nghiên cứu về phát hiện và phân loại giao thông, luận văn đề xuất giải pháp phân loại và phát hiện phương tiện giao thông Trọng tâm nghiên cứu là giải quyết các vấn đề sau:
Xây dựng phương pháp phân loại và phát hiện hiệu quả trong điều kiện thay đổi của môi trường hoạt động như mức sáng, thời tiết v.v
Phân loại và phát hiện đối tượng độc lập trong trường hợp đối tượng bị biến đổi bởi tỉ lệ kích thước, phép xoay và độc lập tương đối đối với thay đổi góc quay
Phát triển giả thiết phát hiện và tách rời từng đối tượng trong trường hợp xảy ra che khuất giữa các đối tượng cùng loại hoặc khác loại
Thông qua tổng quan nghiên cứu, hiện nay có hai phương pháp phân loại và phát hiện chính Phương pháp cổ điển phát hiện hình chiếu của các đối tượng chuyển động dựa trên khác biệt giữa các khung hình theo dòng thời gian, sau đó phân loại hình chiếu của đối tượng thu được Phương pháp này có khả năng hoạt động hiệu quả trong điều kiện thay đổi của môi trường Tuy nhiên, vấn đề che khuất giữa các đối tượng chưa thể giải quyết một cách triệt để Do đó, đề tài nghiên cứu đi sâu và phương pháp phân loại và phát hiện phương tiện dựa trên phân loại và phát hiện bộ phận đối tượng được ứng dụng từ nhận dạng đối tượng động gần đây Phương pháp này có khả năng phát hiện đặc trưng của đối tượng trong khung ảnh tĩnh, thông qua phân loại bộ phận đối tượng được tổng hợp thành đối tượng hoàn chỉnh Ưu điểm của phương pháp này là dựa trên đặc trưng cục bộ nên ít bị ảnh hưởng bởi các nhân tố như thay đổi mức sáng, tỉ lệ, góc quay v.v Hơn nữa, do việc phân loại và phát hiện dựa trên bộ phận đối tượng nên trong trường hợp đối tượng bị che khuất mà vẫn giữ được một số lượng đặc trưng nhất định thì vẫn có thể được phân loại và phát hiện đúng
Xe máy là phương tiện phổ biến nhưng chưa được quan tâm đúng mức Bài toán phân loại và phát hiện xe máy khó do đặc điểm của xe Luận văn nghiên cứu phân loại và phát hiện xe máy, phương pháp này cũng có thể áp dụng cho các loại phương tiện khác Phương pháp đề xuất có thể phân loại và phát hiện trong khung hình tĩnh, không kết hợp đặc tính thời gian, cho phép xử lý song song các khung hình Khung hình được quay từ trên xuống giúp giảm biến đổi của vật thể và đảm bảo thị trường quan sát đủ rộng Để đánh giá độ chính xác của phương pháp, cần một tập dữ liệu có tính khái quát cao trong ngữ cảnh thực tế Hiện chưa có tập dữ liệu chung để đánh giá phân loại xe máy trong điều kiện mật độ giao thông cao.
Do vậy, đề tài luận văn đồng thời xây dựng một tập dữ liệu cho việc phân tích và đánh giá độ chính xác của phương pháp phân loại và phát hiện phương tiện giao thông Tập dữ liệu được quay tại giao lộ với góc quay từ trên xuống, trải dài trong những khoảng thời gian khác nhau trong ngày để thu được sự thay đổi mức sáng, môi trường cũng như mật độ giao thông
Tóm lại, đề tài nghiên cứu cần xây dựng một giải pháp cho việc phân loại và phát hiện phương tiện giao thông, trong đó tập trung vào đối tượng xe máy Phương pháp này được áp dụng cho khung ảnh tĩnh và với góc nhìn từ trên xuống Đồng thời, đề tài luận văn cũng cần xây dựng một tập dữ liệu mẫu để phân tích và đánh giá hiệu quả của phương pháp được đề xuất ở trên.
Ý nghĩa
Thông qua việc tìm hiểu và phát triển phương pháp phân loại và phát hiện phương tiện giao thông, đề tài luận văn có ý nghĩa đóng góp cho hệ thống giám sát giao thông, và rộng hơn là nghiên cứu về nhận dạng đối tượng Đồng thời mở ra khả năng ứng dụng hiệu quả trong môi trường thực tế, mà đặc biệt là trong trường hợp xe máy là đối tượng phổ biến
1.3.1 Ý nghĩa khoa học Đối với nghiên cứu khoa học nói chung, đề tài có ý nghĩa thực nghiệm, phân tích và đánh giá các bước trong phương pháp phân loại và phát hiện phương tiện giao thông dựa trên bộ phận đặc trưng cho đối tượng Để biểu diễn bộ phận đặc trưng cho đối tượng, có nhiều phương pháp từ đơn giản dùng trực tiếp ảnh bộ phận đối tượng [8] đến phức tạp hơn như trích xuất đặc trưng tại các điểm cực trị trong ảnh đối tượng, ví dụ như trong [9] [12] và [13] Đề tài luận văn tổng hợp và đánh giá các cách biểu điễn bộ phận đặc trưng cho đối tượng theo những yêu cầu mà bài toán đặt ra ở phần 1.2
Ngoài ra, đề tài nghiên cứu còn có ý nghĩa trong việc mở rộng ứng dụng phát hiện mục tiêu từ việc phân loại từng bộ phận đối tượng riêng lẻ thành một giả thiết hoàn chỉnh để phát hiện nhiều đối tượng trong khung hình với độ che khuất cao giữa các đối tượng.
Tuy đề tài nghiên cứu tập trung vào phân loại và phát hiện xe máy, nhưng có thể mở rộng áp dụng cho các đối tượng có kích thước nhỏ và kết cấu phức tạp trong điều kiện độ che phủ cao, thay đổi góc quay và ảnh nền nhiễu lớn Việc phân loại và phát hiện đối tượng dựa trên bộ phận đặc trưng còn cho phép phát hiện sớm khi phương tiện mới vào khung hình Bên cạnh đó, phương pháp này có thể hoạt động trên ảnh tĩnh, có ý nghĩa lớn trong việc song song hóa hệ thống nhờ cho phép các khung ảnh hoàn toàn độc lập với nhau và với trình tự thời gian
Hệ thống giám sát giao thông có tính ứng dụng và ý nghĩa to lớn đối với việc phát triển chất lượng của hệ thống giao thông Tuy nhiên, thách thức lớn đối với hệ thống chính là tầm hoạt động rộng và môi trường hoạt động thay đổi Việc phát triển hệ thống phân loại và phát hiện giao thông với vai trò là bước đầu của hệ thống có ý nghĩa nâng cao hiệu quả của hệ thống giám sát giao thông Từ đó giúp cho các ứng dụng dựa trên hệ thống giám sát giao thông hoạt động chính xác hơn, nâng cao chất lượng của hệ thống giao thông
Một yếu tố khác biệt của hệ thống giám sát giao thông giữa các quốc gia đó là vận hành trên thành phần tham gia giao thông khác nhau Đối với thực tế giao thông ở Việt Nam, đối tượng tham gia giao thông chính là xe máy Do đó, với việc tập trung vào phân loại và phát hiện đối tượng xe máy, đề tài có tính ứng dụng cao phù hợp với điều kiện thực tế ở nước ta.
Cơ sở lý thuyết
Rút trích và biểu diễn đặc trưng
Bước đầu để xây dựng phương pháp phân loại và phát hiện phương tiện giao thông hiệu quả là việc biểu diễn ảnh phương tiện giao thông sao cho ảnh hưởng của mức sáng, tỉ lệ, góc quay v.v là nhỏ nhất Từ ý tưởng ban đầu là biểu diễn ảnh phương tiện thông qua ảnh bộ phận, đến nay việc biểu diễn ảnh phương tiện được thực hiện thông qua việc rút trích và biểu diễn đặc trưng của ảnh phương tiện Trong mục này xin được giới thiệu khái niệm và cơ sở lý thuyết của việc rút trích và biểu diễn đặc trưng, đồng thời giới thiệu một vài phương pháp rút trích và biểu diễn đặc trưng được dùng trong đề tài luận văn
2.1.1 Khái niệm và cở sở lý thuyết Đặc trưng (features hay interest points) của một ảnh đối tượng là những vị trí trong ảnh có tính chất đại diện cho ảnh, phân biệt với những điểm ảnh lân cận Mỗi đặc trương thường gắn liền với một hoặc một vài đặc điểm như mật độ, màu sắc, hay vật liệu (texture) v.v của ảnh đối tượng Đặc trưng có thể được trích xuất từ ảnh như những điểm, cạnh hoặc một phần nhỏ của ảnh (image patches) sau đó được biểu diễn thành véc-tơ đặc trưng (descriptors) từ vùng ảnh có trung tâm tại đặc trưng được trích xuất Cụ thể, những đặc trưng của đối tượng có thể được hiểu đơn giản như trình bày ở
Hình 1 Biểu diễn đối tượng thông qua đặc trưng của đối tượng như điểm nối
(junctions), cạnh (edges) và ví dụ về đặc trưng của ảnh đối tượng được trích xuất dựa trên phát hiện cạnh
Điểm cốt lõi của phương pháp phân loại đối tượng dựa trên tập đặc trưng nằm ở tính thống kê của các vị trí ảnh, tại đó một số đặc điểm không thay đổi của đối tượng được quan sát trong nhiều điều kiện môi trường và đối với nhiều đối tượng khác nhau cùng loại Quá trình trích xuất và biểu diễn đặc trưng sẽ tạo ra một tập hợp các vectơ đặc trưng đáp ứng tính chất trên, đại diện cho các tính chất chung nhất của lớp đối tượng, giúp phân loại hiệu quả ngay cả khi môi trường thay đổi Ngoài ra, tập đặc trưng còn cho phép đưa vào các đặc điểm có ý nghĩa chuyên sâu vào từng loại đặc trưng khác nhau, phù hợp với từng bối cảnh ứng dụng, chẳng hạn như đặc trưng cạnh để nhận dạng đường phố trong ảnh vệ tinh hoặc đặc trưng Haar-like để nhận dạng khuôn mặt.
2.1.2 Một số phương pháp rút trích và biểu diễn đặc trưng Đặc trưng có thể được rút trích và biểu diễn bằng nhiều phương pháp, từ đơn giản đến phức tạp Ở đây có thể phân làm hai bước nhỏ, trước tiên vị trí đặc trưng được trích xuất từ ảnh đối tượng, sau đó thông qua bước biểu diễn đặc trưng để tạo thành tập véc-tơ đặc trưng Một phương pháp rút trích có thể được sử dụng với nhiều cách biểu diễn khác nhau và ngược lại Dưới đây xin giới thiệu sơ lược các phương pháp đã được đề xuất đối với hai bước trên
Phương pháp trích xuất đơn giản nhất là lấy mẫu phân phối đều (uniformly sampling) từ không gian ảnh [8] [9] và [10] Phương pháp này có ưu điểm là số lượng đặc trưng luôn cố định cho từng ảnh và việc trích xuất đơn giản, yêu cầu tính toán thấp Tuy nhiên, cũng do vị trí lấy mẫu được phân phối đều, như nhau cho mọi ảnh nên tập đặc trưng có thể có độ hội tụ không cao và nhạy cảm đối với vị trí của đối tượng trong ảnh Từ đó, dẫn đến khoảng cách lấy mẫu cần đủ hẹp mới có thể đạt được độ chính xác cao Kết quả là tập đặc trưng có khả năng có kích thước rất lớn và yêu cầu tính toán cao ở bước xây dựng bộ phân loại về sau Dựa trên những quan sát về tầm quan trọng của góc (corners) và điểm nối (junctions) trong ảnh, nghiên cứu [11] chỉ ra rằng ảnh của những cấu trúc nhân tạo thường chứa nhiều những điểm đặc trưng trên Theo đó, nhiều nghiên cứu đề xuất những biện pháp trích xuất dựa trên phát hiện góc và điểm nối như [12] [13] và [14] Những phương pháp trích xuất đặc trưng này cho phép phát hiện những điểm bất biến trong ảnh đối với thay đổi về vị trí đối tượng, tỉ lệ, góc quay v.v Điểm yếu của phương pháp này là số lượng đặc trưng của tập đặc trưng thu được không ổn định Đối với các ảnh đối tượng quá nhỏ có thể không thu được đủ đặc trưng để đưa ra kết luận về loại đối tượng
Phương pháp biểu diễn đặc trưng đơn giản nhất là basic patch based trong đó trực tiếp sử dụng giá trị điểm ảnh của bộ phận đối tượng như [8] Phương pháp này rất nhạy cảm với thay đổi của môi trường cũng như góc quay của đối tượng Để hạn chế ảnh hưởng của môi trường và góc quay, đặc trưng có thể được biểu diễn dưới dạng véc-tơ gradient như trong [12] [13] hoặc histogram [9] [14] thay vì sử dụng giá trị điểm ảnh Bên cạnh đó, một số các thông tin khác như hướng quay (rotations) của đối tượng có thể được mã hóa trong véc-tơ đặc trưng, cho phép đặc trưng có độ bất biến tương đối với các phép biến đổi như biến đổi tỉ lệ ảnh, phép xoay v.v
Dựa trên tổng quan nghiên cứu về rút trích và biểu diễn đặc trưng, đối chiếu với bài toán với đối tượng cụ thể là phương tiện giao thông, đề tài luận văn xem xét một số phương pháp rút trích và biểu diễn đặc trưng như sau:
Scale Invariant Feature Transform (hay SIFT) được giới thiệu trong nghiên cứu [12] Ý tưởng của phương pháp này ngữ nghĩa của đặc trưng đối tượng chỉ có thể được nhận biết ở một tỉ lệ nhất định Nghĩa là khi ta phóng to hay thu nhỏ ảnh đối tượng đến một mức nào đó, ta không còn có thể nhận biết đối tượng trong ảnh Tương tự như trường hợp ta sử dụng ảnh vệ tinh để quan sát bề mặt trái đất, ở một mức tỉ lệ nhất định ta có thể nhận biết xe, nhà cửa nhưng càng thu nhỏ lại, như ở mức quan sát cả thành phố hay quốc gia, những chi tiết này bị mất đi kiến ta không thể nhận biết những đối tượng trên nữa Như vậy, trong một khoảng tỉ lệ ảnh nhất định, có sự tồn tại của những điểm đặc trưng mà từ đó ta có thể nhận biết đối tượng Dựa trên cơ sở trên, tác giả của [12] đề xuất phương pháp rút trích đặc trưng trên tập mẫu được tạo ra bằng cách sinh ảnh từ ảnh trong tập gốc với những tỉ lệ khác nhau Những điểm có sự thay đổi không đáng kể ở những tỉ lệ khác nhau chính là những điểm đặc trưng cần tìm.Nghiên cứu cũng đề xuất biểu diễn đặc trưng dưới dạng véc-tơ gradient và thông tin về hướng xoay của đối tượng dưới dạng histogram Để đánh giá hiệu quả của phương pháp, [12] đưa ra một ví dụ nhận dạng đối tượng trong ảnh 600x480 pixels Kết quả thực nghiệm cho thấy phương pháp này có thể ứng dụng để nhận dạng đối tượng trong điều kiện thay đổi mức sáng, tỉ lệ, hướng xoay của đối tượng trên nền ảnh nhiễu hoặc trong điều kiện bị che phủ
Dense Scale Invariant Feature Transform (hay DSIFT) được đề xuất trong nghiên cứu [10] Đối với những ảnh đối tượng có kích thước nhỏ, số lượng đặc trưng cho mỗi ảnh được trích xuất bằng SIFT không ổn định và có thể không đủ để phân loại đối tượng Vì vậy, phương pháp Dense SIFT đề nghị việc lấy mẫu phân bố đều trên mắt lưới dày (dense grid) của khung ảnh thay vì trích xuất đặc trưng tại điểm cực trị, sau đó chuyển đổi thành véc-tơ đặc trưng tương tự như phương pháp SIFT
Speed-Up Robust Feature (hay SURF) được giới thiệu trong nghiên cứu [13] Phương pháp này cũng dựa trên trích xuất đặc trưng tại các điểm cực trị của ảnh tương tự như SIFT Tuy nhiên, tại bước rút trích đặc trưng, tác giả [13] cho rằng việc sử dụng xấp xỉ Gaussian trong thực tế là quá mức cần thiết, có khả năng dẫn tới trường hợp false positive cao Do đó, phương pháp đề xuất gia tăng ràng buộc không gian bằng cách sử dụng Box Filter thay vì xấp xỉ Gaussian Đồng thời, việc tính toán cho Box Filter có thể lợi dụng tính chất của ảnh integral để giảm độ phức tạp tính toán Kết quả thực nghiệm cho thấy phương pháp này có độ chính xác lớn hơn SIFT khoảng 10% trên tập dữ liệu của Mikolajczyk [15] Bên cạnh đó, phương pháp này còn có tốc độ tính toán nhanh và khả năng song song hóa dễ dàng
Tựu chung, các phương pháp nói trên đều hướng tới xây dựng một tập đặc trưng cho phân loại đối tượng hiệu quả trong trường hợp thay đổi mức sáng, góc quay, tỉ lệ v.v Tuy nhiên, các phương pháp trên chỉ cung cấp một tập các đặc trưng cục bộ, độc lập với nhau mà chưa cho phép đưa dữ liệu không gian giữa các điểm đặc trưng Trong nghiên cứu [12], tác giả đề nghị đối với các ảnh đối tượng có kích thước nhỏ như xe máy, đặc trưng không gian có thể được đưa vào bằng cách thay vì chỉ trích xuất đặc trưng trên một ảnh, đặc trưng được trích xuất từ một tập hình chóp ảnh (pyramid images) được cắt ra từ ảnh gốc Hay nói cách khác, áp dụng một spatial pyramid kernel [16] trong trích xuất đặc trưng Từ đó cho phép các đặc trưng ở trung tâm có trọng số cao hơn so với các đặc trưng ở vùng rìa của ảnh, qua đó nâng cao độ chính xác của bộ phân loại Kết quả thực nghiệm cho thấy phương pháp này có khả năng tăng độ chính xác của bộ phân loại lên 10% trên tập dữ liệu của Caltech-10 [17] và
Như vậy, dựa trên cở sở lý thuyết của các phương pháp rút trích và phát hiện đặc trưng nói trên, thông qua phân tích và đánh giá các số liệu dựa trên cơ sở lý thuyết của những nghiên cứu trước, có thể thấy việc lựa chọn đặc trưng phù hợp cho bài toán đóng vai trò quan trọng đối với độ chính xác của hệ thống Do đó, đề tài luận văn tiến hành thực nghiệm, xem xét các phương pháp rút trích và biểu diễn đặc trưng nói trên trong ngữ cảnh thực tế phân loại và phát hiện phương tiện giao thông Mà trong đó, tập trung vào bài toán với đối tượng xe máy đáp ứng những yêu cầu như kích thước nhỏ, cấu trúc phức tạp, ảnh đối tượng đa dạng với góc quay thay đổi Bên cạnh đó, luận văn cũng kết hợp đánh giá ảnh hưởng của thông tin cấu trúc của các bộ phận đối tượng trong không gian đối với việc biểu diễn ảnh đối tượng một cách chính xác.
Mô hình Bag-of-Visual Words
Mô hình Bag-of-Visual Words (BoVW) biểu diễn hình ảnh như một "túi" chứa các đặc trưng, đại diện cho khái niệm hình ảnh của lớp đối tượng, tương tự như các từ khóa đặc trưng trong xử lý ngôn ngữ tự nhiên Mô hình này tập trung vào tần suất xuất hiện của các đặc trưng, bỏ qua vị trí và thứ tự của chúng trong hình ảnh BoVW được ứng dụng rộng rãi trong phân tích văn bản và sau đó được giới thiệu trong xử lý hình ảnh, dựa trên ý tưởng phân biệt văn bản theo tần suất xuất hiện của các từ khóa đặc trưng.
Những nghiên cứu gần đây như [21] [22] và [23] đã khẳng định sự tương quan ngữ nghĩa của đặc trưng đối với từng loại đối tượng hình ảnh khác nhau Với lý do trên, mô hình tương tự cũng có thể được áp dụng đối với phân loại đối tượng hình ảnh
Như đã nói ở trên, mục tiêu của mô hình BoVW là xây dựng một biểu diễn đối tượng ảnh, từ đó tổng quát hóa khái niệm hình ảnh (visual concept) của một lớp đối tượng Ở đây, khái niệm hình ảnh của một lớp đối tượng được hiểu như là một đại diện tổng quát cho một tập các trường hợp hay biểu diễn khác nhau của một đối tượng Ví dụ như khái niệm hình ảnh của lớp đối tượng "cây" là đại diện tổng quát cho tập những đối tượng cây khác nhau như trong Hình 2 Đối tượng mới được phân loại dựa trên những khái niệm ảnh được tổng quát hóa từ không gian đối tượng
Hình 2 Khái niệm hình ảnh (visual concept) của đối tượng “cây” được tổng quát hóa trên một tập ảnh những đối tượng cây có trong thực tế
Với mục tiêu xây dựng khái niệm hình ảnh cho một lớp đối tượng, mô hình BoVW hoạt động theo nguyên lý được trình bày sau đây Trước tiên, từ mỗi ảnh đối tượng trong tập ảnh mẫu một tập từ vựng được trích xuất biểu diễn cho ảnh đó Tập từ vựng (visual words) ở đây chính là tập hợp các véc-tơ đặc trưng được rút trích và biểu diễn như đã trình bày ở phần 2.1.Từ tập từ vựng trên ta xây dựng được một không gian từ vựng chứa tất cả các từ vựng từ những ảnh đối tượng khác nhau Để tổng quát hóa tập từ vựng trên, mô hình BoVW áp dụng giải thuật phân cụm (clustering) trong không gian từ vựng Những mẫu từ vựng ở trung tâm mỗi cụm có thể được xem như từ khóa đại diện cho toàn cụm từ vựng tương ứng Tập hợp những mẫu từ vựng ở trung tâm này được gọi là từ điển hình ảnh (visual dictionary) Sử dụng từ điển hình ảnh này, ảnh đối tượng được biểu diễn dưới dạng một biểu đồ tần số (histogram) của số lượng từ trong từ điển xuất hiện trong ảnh đối tượng tương ứng.Hình 3 mô tả một cách tổng quát quá trình xây dựng mô hình BoVW và biểu diễn một ảnh đối tượng của mô hình này
Hình 3 Tổng quan quá trình xây dựng và biểu diễn một ảnh đối tượng của mô hình Bag-of-Visual Words Bao gồm quá trình học tập từ vựng và biểu diễn đối tượng thuộc các lớp đối tượng khác nhau bằng tập từ vựng nói trên
Có được véc-tơ histogram của mỗi ảnh đối tượng, bước tiếp theo để tổng quát hóa đối tượng là sử dụng cộng gộp những đặc trưng chung của những véc-tơ trên bằng các phương pháp học máy Từ đó thu được khái niệm hình ảnh của đối tượng dưới dạng giả thiết của bộ học và có thể sử dụng để phân loại đối tượng.
Support Vector Machine
Support Vector Machine (SVM) là mô hình học máy có giám sát thường được áp dụng để phân tích và học mẫu trong tập dữ liệu, từ đó đưa ra giả thiết phân loại đối tượng (classification) hoặc phân tích hồi quy (regression) Trên lý thuyết, SVM là một thuật toán phân loại nhị phân nhưng trong thực tế có thể được mở rộng để phân loại nhiều lớp đối tượng bằng phương pháp one-against-all Trong mục này, luận văn phân tích cơ sở lý thuyết của mô hình SVM trong trường hợp là bộ phân loại nhị phân
Nguyên lý hoạt động của SVM dựa trên tối ưu hóa một mặt hyperplane phân chia không gian đối tượng thành hai lớp sao cho khoảng cách từ các mẫu huấn luyện đến hyperplane này là xa nhất có thể Các mẫu mới được biểu diễn trong cùng không gian trên và được dự đoán thuộc lớp nào tùy thuộc vào vị trí của mẫu nằm ở phía nào của hyperplane Như ta đã biết, mục tiêu của mô hình học máy cho phân loại đối tượng là tạo ra một giả thiết phân chia không gian đối tượng thành không gian lớp đối tượng
Tuy nhiên, giả thiết phân loại nào mới là tốt nhất? Trong Hình 4, ta có thể thấy đối với một không gian đối tượng, có thể tồn tại rất nhiều giả thiết phân loại
Hình 4 (Từ trái sang phải) Cơ sở lý thuyết của mô hình Support Vector Machine (a) Những giả thiết phân loại có thể tồn tại (b) Khi thêm mẫu mới vào không gian đối tượng (c) Giả thiết tối ưu hóa khoảng lề của SVM Để đánh giá các giả thiết phân loại này, ta thử đưa một mẫu mới vào không gian trên và phân tích kết quả dự đoán của mẫu mới có trùng hợp với chân trị hay không
Trong thuật toán SVM, ngoài việc phân tách không gian đối tượng thành hai lớp, SVM còn tìm kiếm giả thiết tạo ra khoảng cách xa nhất đến tất cả các mẫu Khoảng cách này được gọi là khoảng lề (margin) Mục tiêu của mô hình SVM là tối đa hóa khoảng lề để đảm bảo giả thiết phân loại không quá gần với tập mẫu huấn luyện, tránh tình trạng nhạy cảm với nhiễu và dự đoán sai trong trường hợp có mẫu mới.
Trước tiên, ta cần định nghĩa một giả thiết phân loại đối tượng hay một mặt hyperplane phân chia không gian đối tượng thành hai lớp tương ứng như sau
Trong quá trình huấn luyện mô hình hồi quy tuyến tính, trọng số β và độ thiên vị β0 là những tham số quan trọng ảnh hưởng đến vị trí của siêu mặt phẳng tốt nhất Siêu mặt phẳng này không duy nhất và có vô số cách biểu diễn khác nhau bằng cách thay đổi các giá trị của β và β0 Để chuẩn hóa, ta chọn hệ tham chiếu của siêu mặt phẳng thỏa mãn một số điều kiện nhất định.
Trong đó x đại diện cho mẫu trong tập huấn luyện mà gần nhất với mặt hyperplane
Những mẫu này được gọi là support vectors Biểu diễn mặt hyperplane như trên được gọi là mặt hyperplane chuẩn hóa (canonical hyperplane) Như vậy, khoảng cách từ một mẫu đến mặt hyperplane (β, β0) có thể được định nghĩa như sau
||𝛽|| hay, trong trường hợp mặt hyperplane chuẩn hóa
Gọi khoảng lề (margin) ở trên là M, ta có
Như vậy, bài toán cực đại hóa M chính là bài toán cực tiểu hóa hàm mục tiêu L(β) với ràng buộc rằng mặt hyperplane phân loại đúng tất cả các ví dụ trong tập huấn luyện, biểu diễn bằng công thức như sau min𝛽,𝛽 0 𝐿(𝛽) = 1
Trong đó y i là nhãn của của mẫu x i tương ứng trong tập huấn luyện.Bài toán này là bài toán tối ưu Lagrangian và có thể được giải quyết bằng Lagrange multipliers để chọn giá trị β và β0 của mặt hyperplane tối ưu.
Các công trình nghiên cứu liên quan
Phân loại đối tượng dựa trên mô hình Bag-of-Keypoints
Cơ sở của việc phân loại đối tượng theo hướng từ dưới lên là xây dựng một biểu diễn đúng đắn cho ảnh đối tượng Trong đó, yêu cầu đặt ra đối với biểu diễn này là nó cần phải chứa đựng những đặc trưng của đối tượng Đồng thời, cần tổng quát hóa cho những đối tượng khác nhau của cùng một lớp Nghiên cứu [19] trình bày phương pháp phân loại đối tượng dựa trên mô hình Bag-of-Keypoints nhằm giải quyết bài toán trên
Trước tiên, một tập đặc trưng bất biến với thay đổi góc quay được trích xuất từ tập ảnh mẫu Sau đó được dùng để xây dựng tập từ vựng cho mô hình Bag-of-Keypoints Ảnh đối tượng được biểu diễn dựa trên mô hình này và được đưa vào huấn luyện bộ phân loại Thực nghiệm cho thấy phương pháp đạt được độ chính xác cao cho phân loại 7 lớp đối tượng (trong đó có xe hơi) Bên cạnh đó, nghiên cứu [19] cũng so sánh dộ chính xác của hai bộ phân loại: Naive Bayes và SVM
3.1.1 Rút trích và biểu diễn đặc trưng Để biểu diễn ảnh đối tượng chính xác, trước tiên những đặc trưng của ảnh đối tượng cần được rút trích và biểu diễn một cách chính xác Nghiên cứu [19] định nghĩa đặc trưng của đối tượng là những đại lượng có tính chất lặp lại cho mỗi đối tượng trong cùng một lớp Mà theo đó, đại lượng này là bất biến khi có sự biến đổi giữa hai thực thể của cùng một đối tượng trong không gian và đối với sự thay đổi mức sáng Từ đó, tác giả [19] đề xuất việc phát hiện các điểm đặc trưng sử dụng giải thuật phát hiện bất biến đối với góc quay của Harris (Harris affine detector) được giới thiệu trong
Điều này cho phép tìm thấy các điểm đặc trưng không đổi của lớp đối tượng dù kích thước góc nhìn ảnh đối tượng (do luật gần - xa) và góc chiếu 3D của đối tượng (do thay đổi góc quay) có thay đổi Điểm đặc trưng của đối tượng được phát hiện bằng Harris affine detector (hình 5) vẫn được tìm thấy khi thay đổi kích thước góc nhìn ảnh.
Hình 5 (Từ trái sang phải) Vùng đặc trưng được phát hiện bằng Harris affine detector; vùng đặc trưng được chuẩn hóa; 8 vùng giá trị biên độ của véc tơ gradient tạo thành biểu diễn đặc trưng SIFT
Sau khi rút trích được những điểm đặc trưng của đối tượng, yêu cầu cần thiết là phải biểu diễn những điểm đặc trưng này như thế nào để giữ được tính đặc trưng đồng thời tổng quát hóa cho nhiều thực thể trong cùng một lớp đối tượng Ở đây, nghiên cứu [19] đề xuất sử dụng biểu diễn SIFT (Scale Invariant Feature Transform) Do biểu diễn đặc trưng bằng SIFT cho phép xây dựng một tập đặc trưng ổn định, giàu thông tin, tạo tiềm năng cho việc biểu diễn ảnh đối tượng một cách chính xác ở các bước sau
3.1.2 Xây dựng tập từ vựng
Từ tập đặc trưng được trích xuất từ tập ảnh mẫu ở bước trên, tác giả [19] đề xuất phương pháp đối chiếu biểu diễn mới của đối tượng với những biểu diễn đã có trong tập huấn luyện, đó là xây dựng tập từ vựng đặc trưng cho lớp đối tượng Khi một biểu diễn mới của đối tượng vào hệ thống, biểu diễn đó có thể được đối chiếu lần lượt với từng biểu diễn đã có Tuy nhiên, trong trường hợp số lượng mẫu lớn hay số lớp đối tượng nhiều đặt ra yêu cầu tính toán cao Thay vào đó, nghiên cứu [19] đề xuất gom cụm những biểu diễn của đối tượng trong tập mẫu thành một số lượng cụm hợp lý
Trong đó, những cụm này vừa đủ lớn để đảm bảo tính đặc trưng cho đối tượng vừa đủ nhỏ để có thể đối chiếu với đối tượng mới một cách dễ dàng Đồng thời, gom cụm những biểu diễn tương tự cũng cho phép tổng quát hóa biểu diễn đối tượng trên nhiều thực thể của lớp đối tượng Nghiên cứu [19] sử dụng giải thuật k-means để thực hiện việc gom cụm này Những biểu diễn ở tâm của mỗi cụm được chọn vào tập từ vựng đặc trưng cho mỗi lớp đối tượng Biểu diễn đối tượng mới sẽ được so sánh với tập từ vựng thay vì tất cả biểu diễn trong tập huấn luyện
Sau khi có được biểu diễn đặc trưng cho ảnh đối tượng, bước cuối cùng là xây dựng một bộ phân loại để xác định lớp của đối tượng Trước tiên một tập mẫu được dùng để huấn luyện bộ phân loại Bộ phân loại sau đó được dùng để phân loại đối tượng trong một tập kiểm tra để đánh giá độ chính xác Trong [19], hai bộ phân loại được đánh giá là Nạve Bayes và Support Vector Machine (SVM)
Bộ phân loại Nạve Bayes dựa trên cơ sở cực đại hĩa một chuỗi các lựa chọn trong đó một đối tượng được phân loại dựa trên phân loại của những đối tượng trước nó Gọi tập mẫu huấn luyện đã được đánh dấu là I={Ii} và tập từ vựng là V={Vi} Mỗi đặc trưng được trích xuất từ ảnh đối tượng được gán nhãn với điểm đặc trưng gần nhất với nó trong không gian đặc trưng Số lần đặc trưng Vi xuất hiện trong hình Ii là N(t,i) Đối tượng mới được phân loại dựa trên luật Bayes như sau
Trong đó, xác suất có điều kiện của đặc trưng V i thuộc lớp C i được xấp xỉ bằng toán tử Laplacian để tránh trường hợp bằng 0 như sau
Support Vector Machine (SVM) được dùng để tìm một hyperplane phân cách giữa hai lớp đối tượng dựa trên cực đại độ lớn của lề Trong [19], SVM hoạt động như đã được trình bày trong phần 2.3 ở trước Để phân loại nhiều lớp đối tượng, [19] sử dụng phương pháp one-against-all Nghiên cứu [19] cũng xem xét nhiều loại hạt nhân (kernel) như tuyến tính, đa thức và lập phương Trong đó, kernel đa thức cho kết quả tốt nhất đối với phân loại xe hơi trong khi nhân tuyến tính cho kết quả tốt nhất đối với xe máy Kết quả thực nghiệm cho thấy bộ phân loại SVM đạt được độ chính xác cao hơn so với bộ phân loại Nạve Bayes, giảm tỉ lệ lỗi từ 28% xuống 15%.
Phát hiện đối tượng dựa trên biểu diễn thành phần đối tượng
Nghiên cứu [8] trình bày phương pháp phân loại và phát hiện đối tượng dựa trên cơ sở xây dựng một biểu diễn đúng cho ảnh đối tượng Trong đó, tác giả cho rằng bộ phận đối tượng cùng với quan hệ cấu trúc giữa các bộ phận đó có thể xác định đối tượng trong ảnh Từ đó, nghiên cứu [8] đề xuất xây dựng biểu diễn của ảnh đối tượng dựa trên một tập từ vựng gồm những ảnh bộ phận đối tượng, cùng với quan hệ giữa các ảnh bộ phận đó Những biểu diễn này được dùng để học một bộ phân loại đối tượng có khả năng phân loại khung ảnh chứa đối tượng riêng lẻ Cuối cùng, một giả thiết được xây dựng từ bộ phân loại ở bước trước để phát hiện các đối tượng trong toàn khung ảnh Thực nghiệm cho thấy phương pháp đạt độ chính xác cao trên tập ảnh xe ô-tô với góc nhìn ngang (side view) trong điều kiện đối tượng bị che khuất và ảnh nền thay đổi Sau đây, luận văn phân tích chi tiết ưu, nhược điểm của phương pháp này thông qua phân tích các bước chính của phương pháp như sau:
3.2.4 Xây dựng tập từ vựng
Bước đầu tiên của phương pháp này là xây dựng một tập từ vựng hay những bộ phận giàu thông tin của đối tượng từ tập ảnh mẫu Trong đó, những bộ phận tương tự nhau được gom nhóm và xem như một bộ phận đặc trưng cho đối tượng Những bộ phận này được trích xuất từ ảnh đối tượng bằng cách áp dụng toán tử Forstner để phát hiện các điểm đặc trưng là giao điểm của cách cạnh và tâm của những hoa văn tròn
Sau đó, được biểu diễn bằng giá trị của phần ảnh có tâm tại điểm đặc trưng ở trên Từ đây, một tập từ vựng hay là tập bộ phận đặc trưng cho đối tượng được xây dựng Ảnh đối tượng có thể được biểu diễn bằng một tập con của tập từ vựng này
Hình 6 Tập từ vựng gồm 400 bộ phận của đối tượng xe hơi (với góc nhìn ngang) được xây dựng dựa trên toán tử Forstner
Hình 7 Một vài cụm bộ phận đối tượng được tạo ra bằng cách gom cụm những bộ phận tương tự nhau từ những ảnh đối tượng khác nhau
Hình 7 minh họa tập từ vựng cho xe hơi (góc nhìn ngang) bằng toán tử Forstner Các bộ phận được trích xuất được phân nhóm trong hình minh họa, thể hiện tính tương đồng của chúng.
Do đó, chúng có thể được tổng quát hóa thành bộ phận đặc trưng bằng cách gom cụm các bộ phận tương tự Để gom nhóm các bộ phận tương tự này, [8] sử dụng một thủ tục gom cụm từ dưới lên, dựa trên chỉ số tương tự (similarity) giữa các cụm với nhau
Cụ thể, chỉ số tương tự giữa hai cụm C1 và C2 được tính bằng độ tương tự trung bình giữa các thành phần p1, p2 của hai cụm với nhau:
|𝐶 1 | × |𝐶 2 | Như vậy, tập từ vựng cung cấp nguyên liệu cho biểu diễn ảnh đối tượng một cách chính xác Thông qua gom cụm những bộ phận tương tự từ những ảnh đối tượng khác nhau, tập từ vựng cho phép tổng quát hóa bộ phận đối tượng đồng thời vẫn đảm bảo đủ số bộ phận chi tiết để mô tả đối tượng Tuy nhiên, tập từ vựng này lại được biểu diễn dưới dạng bộ phận ảnh (patch-based) nên rất dễ bị ảnh hưởng bởi điều kiện thay đổi mức sang hay thay đổi góc quay, môi trường Ngoài ra, việc gom cụm được thực hiện dựa trên cơ sở chỉ số tương tự giữa các bộ phận nhưng không cho phép tùy chỉnh độ mịn hay số bộ phận cho một đối tượng
3.2.5 Biểu diễn ảnh đối tượng
Dựa trên tập từ vựng được xây dựng ở bước trên, ảnh đối tượng được biểu diễn bằng một véc-tơ nhị phân cho biết ảnh đối tượng chứa những từ vựng hay bộ phận nào và quan hệ giữa các bộ phận đó như thế nào trong không gian Khi một ảnh đối tượng được đưa vào hệ thống, trước tiên, các bộ phận đặc trưng được phát hiện bằng toán tử
Forstner Sau đó, các bộ phận này được so sánh với tập từ vựng, nếu tìm được từ vựng tương tự với bộ phận thì vị trí tương ứng với từ vựng trong véc-tơ nhị phân được thiết lập thành 1 Tương tự, quan hệ giữa các bộ phận đối tượng trong không gian cụ thể là khoảng cách và hướng được rời rạc hóa và tổng hợp trong quá trình học bộ từ vựng
Vectơ nhị phân đặc trưng ảnh đồng thời cung cấp thông tin về cặp quan hệ khoảng cách-hướng giữa các thành phần trong ảnh Hình 8 minh họa cách thể hiện ảnh đối tượng bằng tập từ vựng đã xây dựng.
Hình 8 Biểu diễn ảnh đối tượng đối với mẫu dương và mẫu âm trong quá trình học bộ phân loại Ảnh ở cột giữa cho thấy những bộ phận đặc trưng cho đối tượng được trích xuất một cách chính xác Ảnh ở cột phải cho thấy những bộ phận đặc trưng trùng khớp với tập từ vựng
Những bộ phận này cùng với mối quan hệ giữa chúng trong không gian được dùng để phân loại đối tượng
Sử dụng tập véc-tơ đặc trưng biểu diễn cho tập ảnh mẫu, một bộ phân loại nhị phân được huấn luyện để phân loại ảnh xe ô-tô (với góc nhìn ngang) Tập véc-tơ đặc trưng này có đặc điểm là số chiều lớn do số bộ phận đặc trưng cho một lớp đối tượng và quan hệ giữa chúng rất lớn Tuy nhiên, đối với mỗi ảnh mẫu, số lượng bộ phận và quan hệ không gian lại tương đối nhỏ Như vậy, có thể thấy tập véc-tơ đặc trưng này là một tập dữ liệu thưa (sparse data) Do đó, tác giả đề xuất sử dụng bộ phân loại Sparse Network of Windows (SNoW) phù hợp với đặc điểm này của tập véc-tơ đặc trưng
Với mỗi véc-tơ đặc trưng cho ảnh đối tượng mới, bộ phân loại cho biết đối tượng thuộc lớp nào dựa trên giá trị kích hoạt (activation value) Giá trị kích hoạt này đồng thời cũng đại diện cho mức độ tin tưởng đối với giả thiết phân loại và được dùng để xây dựng giả thiết phát hiện đối tượng ở bước sau
3.2.7 Xây dựng giả thiết phát hiện đối tượng
Sau khi có được bộ phân loại đối với ảnh chứa đối tượng đơn, tác giả [8] đề xuất phương pháp xây dựng giả thiết phát hiện đối tượng trong toàn khung ảnh có chứa nhiều đối tượng Một phương pháp phổ biến để phát hiện đối tượng trong toàn khung ảnh dựa trên bộ phân loại ảnh đối tượng đơn là sử dụng một cửa sổ trượt (sliding window) trượt qua từng vị trí trong ảnh và phân loại cửa sổ đó Vấn đề đặt ra với phương pháp này là không chỉ những cửa sổ chứa trọn vẹn đối tượng mới được chấp nhận, mà những cửa sổ lân cận đối tượng cũng có thể được chấp nhận do chứa một vài bộ phận đặc trưng Do đó, để phát hiện đối tượng trong toàn khung ảnh hay nói cách khác là xác định vị trí tâm đối tượng một cách chính xác, cần có phương pháp để loại bỏ những cửa sổ lân cận này mà không làm ảnh hưởng tới các cửa sổ khác Trong [8], việc này được thực hiện bằng cách xây dựng một bản đồ giá trị kích hoạt (classifier activation map) tương ứng với khả năng một cửa sổ chứa đối tượng đích Dễ thấy, cửa sổ ở tâm của đối tượng thường có giá trị kích hoạt cao nhất so với các cửa sổ xung quanh Do đó, vị trí đối tượng trong toàn khung ảnh có thể được phát hiện thông qua việc tìm các cực trị cục bộ trong ảnh.
Kết luận
Trên đây đã trình bày tổng quan nghiên cứu về phương pháp phân loại và phát hiện phương tiện giao thông Trong đó, đi sâu vào phân tích hai phương pháp phân loại và phát hiện phương tiện theo hướng từ dưới lên [8] và [19] Hai phương pháp trên đều cho kết quả với độ chính xác khá cao cho phân loại phương tiện giao thông từ 85% đối với [8] và 92.7% đối với [19] Tuy nhiên, cả hai phương pháp nêu trên đều còn có những tồn tại nhất định ảnh hưởng tới kết quả phân loại và phát hiện phương tiện giao thông Đối với phương pháp được đề xuất trong [8] đã chứng minh đối tượng có thể được biểu diễn bằng bộ phận đặc trưng cho phân loại Đồng thời, [8] cũng đã đưa ra phương pháp phát hiện nhiều đối tượng trong cùng một khung ảnh Tuy nhiên, đặc trưng của đối tượng được biểu diễn trực tiếp bằng bộ phận ảnh, dẫn đến dễ bị ảnh hưởng bởi thay đổi môi trường và mức sáng Ngoài ra, trường hợp các đối tượng thuộc cùng một lớn nằm gần nhau hay che khuất lẫn nhau vẫn chưa được quan tâm xem xét Đối với phương pháp được đề xuất trong [19] bộ phận đặc trưng đối tượng được trích xuất và biểu diễn độc lập với những ảnh hưởng của môi trường, ánh sáng, tỉ lệ v.v… Nhưng nghiên cứu [19] chỉ dừng lại ở việc phân loại một đối tượng cho một khung ảnh chứ không đưa ra giả thiết phân loại phát hiện cho trường hợp nhiều đối tượng trong khung ảnh
Trên cơ sở phân tích ưu nhược điểm của hai phương pháp trên, luận văn xây dựng và đề xuất phương pháp cải tiến nhằm nâng cao độ chính xác, phương pháp này sẽ được trình bày một cách chi tiết ở chương tiếp theo.
Phát hiện xe máy dựa trên mô hình Bag-of-Visual Words
Tổng quan hệ thống
Phương pháp phân loại và phát hiện phương tiện giao thông luận văn đề nghị bao gồm có những bước chính như sau
Hình 9 Tổng quan phương pháp phân loại và phát hiện xe máy Đầu tiên, mô hình
Bag-of-Visual Words được xây dựng và đặc trưng được trích xuất từ tập ảnh mẫu
Sau đó, bộ phân loại SVM được huấn luyện từ tập những đặc trưng ở trên Và cuối cùng, một giải thuật phát hiện xe máy được xây dựng để xác định vị trí xe máy trong toàn khung ảnh
Đầu tiên, một bộ phân loại được dùng để xác định loại của đối tượng trong ảnh chứa đối tượng đơn lẻ Sau đó, bộ phân loại này được dùng để xây dựng một giả thiết phát hiện xe máy từ khung ảnh toàn cảnh có thể chứa một hoặc nhiều đối tượng và có thể che khuất lẫn nhau Đặc trưng của ảnh đối tượng được trích xuất và gom cụm để xây dựng mô hình Bag-of-Visual Words (BoVW) Với mỗi ảnh, một histogram của tập đặc trưng được xấp xỉ từ mô hình này, được gọi là đặc trưng BoVW, tạo nên tập đặc trưng BoVW đại diện cho các ảnh đối tượng trong tập mẫu có thể được dùng để huấn luyện bộ phân loại Support Vector Machine (SVM) với hạt nhân Radial Basis.
Function (RBF) và tối ưu hóa thông số bằng giải thuật k-folds
Sau khi có được bộ phân loại cho ảnh chứa đối tượng đơn lẻ, cần thiết phải xây dựng một giả thiết phát hiện đối tượng trong khung ảnh toàn cảnh chứa một hay nhiều đối tượng Điều này có thể được thực hiện bằng cách sử dụng một cửa sổ trượt (sliding window) trên toàn bộ ảnh lớn và phân loại cho những cửa sổ này trượt này Vấn đề đặt ra là khi đó, không chỉ có cửa sổ chứa toàn bộ đối tượng mà những cửa sổ lân cận chứa một bộ phận đối tượng cũng được nhận là mẫu dương Dẫn đến khó xác định được vị trí của và số lượng các đối tượng trong toàn khung ảnh Do đó, luận văn đề xuất một phương pháp gom nhóm và lược bỏ các cửa sổ lân cận để khắc phục vấn đề trên Phương pháp này dựa trên ý tưởng ma trận kích hoạt (activation map) được đề xuất trong bài báo [8] Tuy nhiên, nếu trong [8] chỉ giải quyết trường hợp các đối tượng nằm tách rời lẫn nhau thì ở đây luận văn xem xét cả trường hợp các đối tượng cùng loại hay khác loại nằm gần nhau hoặc che khuất lẫn nhau
Những phần sau đây đi sâu vào giải thích chi tiết từng bước của phương pháp phân loại và phát hiện xe máy được luận văn đề xuất.
Giải thuật rút trích và biểu diễn đặc trưng
Bước đầu tiên của phương pháp phân loại và phát hiện phương tiện là trích xuất và biểu diễn đặc trưng từ ảnh đối tượng Những đặc trưng này chính là nguyên liệu để biểu diễn cho đối tượng, do đó, chúng cần đảm bảo tính bất biến, độc lập với điều kiện của môi trường như thay đổi mức sáng Ngoài ra, do đối tượng có thể có kích thước khác nhau trong khung hình do luật gần xa hay ảnh đối tượng có thể khác nhau theo góc nhìn, những đặc trưng này còn cần bất biến tương đối với góc quay và hình chiếu 3D Dựa trên những cơ sở lý thuyết đã trình bày ở phần 2.1, luận văn đề xuất và so sánh một vài giải thuật có thể đạt được những yêu cầu trên
4.2.1 Scale Invariant Feature Transform (SIFT) Ý tưởng chính của giải thuật để đạt được bất biến đối với kích thước đối tượng là lấy mẫu đối tượng với những tỉ lệ khác nhau, những điểm đặc trưng là những điểm có giá trị giống nhau, độc lập với tỉ lệ ảnh Như vậy, trước tiên cần tạo không gian lấy mẫu từ ảnh đối tượng ban đầu Dễ thấy rằng khi càng thu nhỏ ảnh, các chi tiết trong ảnh sẽ mất dần đi, chỉ những chi tiết đặc trưng mới còn giữ lại trong ảnh Tuy nhiên, trong quá trình thu nhỏ ảnh, những chi tiết sai biệt cũng có thể được thêm vào ảnh Do đó, với mỗi bước phóng to ảnh, thường cần kèm theo một số bước làm mờ (Gaussian blur) để giảm thiểu các chi tiết thừa này Theo [12], không gian tỉ lệ được hình thành bằng cách lần lượt thay đổi tỉ lệ ảnh gốc và làm mờ ảnh tạo ra như trong Hình 10
Trong đó, các ảnh có cùng kích thước được gọi là một quãng (hay octave), các ảnh trong cùng một octave có độ làm mờ (hay scale) tăng dần
Dựa trên hình số 10, ta có quy trình tạo không gian tỷ lệ để trích đặc trưng Đối với octave đầu tiên, ảnh được tăng gấp đôi kích thước so với ảnh gốc và làm mờ đi với 5 mức tăng dần Tương tự, với các octave tiếp theo, ảnh được giảm một nửa kích thước và cũng làm mờ với 5 mức tăng dần.
Việc làm mờ ảnh dựa trên tính tích chập (convolution) của ảnh gốc và một hàm Gaussian với công thức như sau
I, L lần lượt là ảnh gốc và ảnh đã được làm mờ
G là toán từ làm mờ Gaussian
σ là thông số "scale" hay độ mờ của ảnh Sự khác nhau về độ mờ giữa các ảnh có ảnh hưởng rất lớn đến lượng chi tiết còn lại trong các ảnh đã được làm mờ Theo [12], độ mờ giữa các ảnh có thể khác nhau k*σ với k là một hằng số cho trước
Hình 11 Áp dụng toán tử Difference of Gaussian (DoG) trên không gian tỉ lệ để xác định các điểm bất biến, không phụ thuộc và kích thước, tỉ lệ ảnh
Không gian tỉ lệ chứa ảnh đối tượng với các kích thước, tỉ lệ khác nhau Các điểm bất biến trong không gian này là những điểm đặc trưng không phụ thuộc kích thước, tỉ lệ ảnh Để xác định các điểm này, ta tính đạo hàm bậc hai của sự thay đổi ảnh đối tượng tương ứng với các tỉ lệ khác nhau bằng toán tử Laplacian of Gaussian (hoạt động LoG).
Tuy nhiên, đạo hàm bậc hai rất nhạy cảm đối với nhiễu và có độ phước tạp tính toán cao Do đó, thay vì dùng toán tử LoG, [12] đề xuất xấp xỉ độ khác nhau các tỉ lệ ảnh trong cùng một quãng bằng toán tử Difference of Gaussian (DoG operation) Cụ thể, các khung ảnh liên tiếp trong cùng một quãng có cùng kích thước nhưng có tỉ lệ khác nhau được trừ lần lượt cho nhau như được mô tả trong Hình 11 Toán tử DoG cho kết quả xấp xỉ gần giống như toán tử LoG, tuy nhiên có thể thấy quá trình tính toán chỉ là phép trừ giữa các ảnh nên độ phức tạp tính toán thấp hơn nhiều so với tính đạo hàm bậc hai Kết quả, ta thu được một tập ảnh DoG cho biết sự thay đổi giữa các ảnh đối tượng có cùng kích thước nhưng có những tỉ lệ khác nhau Từ đó, các điểm đặc trưng bất biến đối với tỉ lệ chính là các vị trí mà tại đó có giá trị mang tính chất đại diện khi thay đổi tỉ lệ của ảnh Hay nói cách khác chính là các cực trị của tập ảnh DoG Các điểm cực trị này được xác định thông qua so sánh giữa các ảnh DoG liên tiếp Hình 12 cho thấy cách tìm các điểm cực trị của ảnh đối tượng từ tập ảnh DoG
(a) Kiểm tra giá trị điểm ảnh hiện tại có phải là cực đại hay cực tiểu so với 26 điểm ảnh lân cận (b) Xác định xấp xỉ cực tiểu cục bộ từ tập vị trí điểm ảnh mà tại đó giá trị đạt cực trị.
Với mỗi vị trí điểm ảnh trong ảnh, sẽ được so sánh với 26 điểm ảnh xung quanh, nếu giá trị của điểm này lớn nhất hay nhỏ nhất so với 26 điểm xung quanh thì nó sẽ được chọn làm vị trí cực trị xấp xỉ Điều này là do thường các điểm cực trị sẽ không rơi vào chính xác vị trí của điểm ảnh mà nằm lân cận giữa các điểm này Như trong
Hình 12 trình bày, những vị trí cực trị có thể tìm ra từ tập ảnh DoG được đánh dấu bằng màu đỏ, tuy nhiên cực trị lại nằm ở vị trí đánh dấu màu xanh Do đó, ta cần dùng khai triển Taylor để mở rộng giá trị của các điểm cực trị ra xung quanh Từ đó ta có thể tính xấp xỉ vị trí điểm cực trị hay cũng là vị trí những điểm đặc trưng cần tìm
Như vậy, ta đã có được một tập những điểm đặc trưng cho đối tượng Tuy nhiên trong số những điểm đặc trưng này, có những điểm có thể nằm ở khu vực có độ tương phản quá thấp, hay những điểm nằm trên cạnh của đối tượng Những điểm đặc trưng này không có tính đại diện cao cho đối tượng Do đó, ta cần loại bỏ bớt những điểm này Việc này được thực hiện bằng cách sử dụng ma trận Hessian để kiểm tra xem những điểm này có phải là góc hay không (thường ta chỉ quan tâm tới các điểm góc), từ đó loại bỏ bớt những điểm cạnh Còn đối với những điểm có độ tương phản thấp có thể dễ dàng loại bỏ bằng cách lọc giá trị của điểm ảnh tại vị trí đó Cuối cùng, ta thu được một tập vị trí đặc trưng đại diện cho đối tượng
Bên cạnh tính bất biến đối với tỉ lệ ảnh đối tượng, hướng của ảnh đối tượng cũng được mã hóa cho mỗi vị trí đặc trưng Từ đó, cho phép đặc trưng SIFT đồng thời cũng có tính bất biến tương đối đối với hướng của đối tượng trong không gian Hướng của điểm đặc trưng đối tượng được mã hóa như sau:
Đầu tiên một vùng cửa sổ xung quanh điểm đặc trưng được chọn để tính toán, kích thước cửa sổ này thường bằng với kích thước của Gaussian kernel dùng để làm mờ ảnh Với mỗi điểm ảnh thuộc vùng này, biên độ và hướng của véc tơ gradient được tính bằng công thức sau
Sau đó, một histogram chứa hướng của những điểm ảnh xung quanh vị trí đặc trưng được xây dựng từ những giá trị này Trong histogram này, giá trị của hướng thuộc 360 được chia vào 36 bin (mỗi bin 10) Giá trị hướng có tần suất cao nhất trong histogram này được chọn là hướng của đối tượng
Hình 13 trình bày một histogram ví dụ cho hướng của đặc trưng đối tượng
Ngoài ra, đối với những vị trí đặc trưng mà histogram hướng của nó bao gồm nhiều hơn một giá trị có độ lớn trên 80% tần suất cực đại thì tương ứng với những hướng đó sẽ tạo thành một điểm đặc trưng mới có vị trí như nhau nhưng có hướng khác nhau
Mô hình Bag-of Visual Words
Từ tập ảnh đối tượng, không gian đặc trưng được trích xuất để xây dựng mô hình "Bag-of-Visual Words" (BoVW) nhằm biểu diễn hình ảnh Quá trình này bao gồm hai bước: trích xuất đặc trưng và lượng tử hóa.
Hình 19 (Từ trái sang phải) Xây dựng tập từ vựng và biểu diễn ảnh bằng mô hình Bag-of-
Visual Words (a) Đặc trưng được trích xuất từ tập ảnh huấn luyện (b) Gom cụm đặc trưng sử dụng giải thuật k-means (c) Biểu diễn đặc trưng trong ảnh đối tượng bằng véc tơ histogram
Trước tiên, một tập từ vựng được tạo ra bằng cách áp dụng giải thuật gom cụm k- means trên tập đặc trưng Điều này cho phép những đặc trưng gần giống nhau từ những thực thể khác nhau được tổng quát hóa cho lớp đối tượng Tập từ vựng là tập đặc trưng ở trung tâm của các cụm, do đó mang tính chất đại diện nhất cho các đặc trưng của lớp đối tượng Như vậy, giải thuật gom cụm có ý nghĩa rất lớn ảnh hưởng tới độ chính xác và tổng quát của tập từ vựng Do đó, luận văn lựa chọn phương pháp khởi tạo điểm trung tâm của cụm như trong [28] và lặp lại giải thuật gom cụm với nhiều giá trị khởi tạo ban đầu khác nhau để chọn ra phương án gom cụm tốt nhất Từ đó, một tập từ vựng có tính đặc trưng cao và đồng thời đảm bảo tính tổng quát hóa cho các đối tượng được tạo ra
Sau khi có được tập từ vựng, ảnh đối tượng được biểu diễn bằng cách xây dựng một histogram của các đặc trưng, cho biết những đặc trưng nào xuất hiện trong ảnh của một lớp đối tượng và với tần số bao nhiêu Đối với mỗi ảnh đối tượng cần biểu diễn, đầu tiên, các đặc trưng của ảnh được trích xuất với phương pháp tương ứng ở phần 4.2 Với mỗi đặc trưng sẽ được so trùng với những đặc trưng trong tập từ vựng của mô hình BoVW Ở đây, đề tài luận văn chọn sử dụng giải thuật so trùng BruteForce với khoảng cách giữa các đăc trưng được tính bằng hàm Euclide để đạt được độ chính xác cao nhất Sau khi tìm được đặc trưng gần nhất với đặc trưng trích xuất từ ảnh, đặc trưng đó được xác định thuộc về cụm nào thì vị trí của cụm tương ứng trong histogram sẽ được tăng thêm 1 đơn vị Cuối cùng, ta thu được một véc tơ histogram đại diện cho ảnh đối tượng, hay còn gọi là đặc trưng BoVW Dưới đây là giải thuật biểu diễn ảnh đối tượng bằng đặc trưng BoVW dưới dạng mã giả
Giải thuật 1 Compute BoVW Features function computeBoVWFeatures(Input image, Output bowDescriptor) keypoints = FeatureDetector->detect(image) descriptors = FeatureDescriptor->compute(image, keypoints) for each descriptor in descriptors match = DescriptorMatcher->match(descriptor, vocabularies) idx = cluster->getIndexOf(match) bowDescriptor[idx] ++ end for bowDescriptor->normalized() end function
Như vậy, bằng cách sử dụng mô hình BoVW để biểu diễn cho tập ảnh đối tượng, ta có được một tập các véc-tơ đặc trưng BoVW xác định với mỗi ảnh đối tượng chứa các thành phần đặc trưng nào và với tần số bao nhiêu Từ đây ta có thể học một bộ phân loại dựa trên những thông số này để xác định lớp của một đối tượng mới trong khung ảnh như được trình bày ở các bước sau đây.
Bộ phân loại dựa trên SVM
Khi các hình ảnh đối tượng được mô tả chính xác theo các bộ phận đặc trưng, bài toán được chuyển thành tối ưu hóa giả thiết phân loại đối tượng của bộ phân loại Theo nghiên cứu của [19], bộ phân loại SVM cho kết quả tốt nhất phù hợp với đặc điểm của tập vectơ đặc trưng BoVW Vì vậy, luận văn đề xuất sử dụng bộ phân loại SVM để phân loại đối tượng cho ảnh chứa đối tượng đơn lẻ.
Hình 20 So sánh kết quả phân loại giữa một vài hạt nhân SVM đối với cùng tập huấn luyện Đối với bộ phân loại SVM, việc lựa chọn hạt nhân (kernel) phù hợp với thông số đầu vào có ảnh hưởng quan trọng tới độ chính xác của bộ phân loại Thông qua thực nghiệm, luận văn đề xuất sử dụng kernel RBF (Radial Basis Function) để đạt kết quả phân loại với độ chính xác cao
Như đã biết, các thông số đặc trưng hay các thành phần của véc-tơ đặc trưng cho đối tượng sẽ có đóng góp khác nhau đối với kết quả phân loại Ngoài ra, một số thông số khác như bậc của giả thiết phân loại cũng ảnh hưởng đến độ chính xác của bộ phân loại Để tối ưu hóa các thông số này, luận văn đề xuất sử dụng phương pháp k-folds đối với bộ phân loại Theo đó, tập dữ liệu đầu vào sẽ được chia làm k tập con và giải thuật SVM được chạy k lần trên từng tập con đó Các thông số của bộ phân loại SVM được xem như một hàm tối ưu trên cơ sở kiểm định chéo (cross-validations) đối với kết quả của giả thiết phân loại trên k tập con
Tóm lại, từ tập đặc trưng BoVW đại diện cho tập ảnh đối tượng, một bộ phân loại SVM được huấn luyện dựa trên cơ sở tối ưu hóa kernel và các thông số của bộ phân loại Từ đó, ta có được một giả thiết để phân loại ảnh chứa đối tượng đơn lẻ với độ chính xác khá cao Đồng thời, kèm với mỗi ảnh đối tượng được phân loại, bộ phân loại SVM cũng cho ta biết mức độ tin cậy của kết quả phân loại ảnh đối tượng tương ứng Độ tin cậy này được tính bằng khoảng cách từ đặc trưng của đối tượng tới mặt phẳng phân loại Đây chính là cơ sở để xây dựng giả thiết phát hiện đối tượng từ khung ảnh toàn cảnh ở bước sau.
Xây dựng giả thiết phát hiện phương tiện giao thông
Bước cuối cùng của hệ thống là phân loại và phát hiện phương tiện trong toàn bộ khung ảnh toàn cảnh Ở các bước trên, ta đã xây dựng được một bộ phân loại có khả năng phân loại ảnh chứa đối tượng đơn lẻ Trong phần này, luận văn trình bày phương pháp xây dựng giả thiết phát hiện đối tượng trong khung ảnh toàn cảnh chứa một hay nhiều đối tượng từ bộ phân loại nói trên
Trước tiên ta cần chia ảnh toàn cảnh thành những ảnh nhỏ có thể chứa đối tượng đích Để làm điều đó, phương pháp thông dụng nhất và được áp dụng ở đây là sử dụng một cửa sổ trượt để quét qua toàn bộ khung ảnh Kích thước của cửa sổ ảnh được xác định bằng cách lấy trung bình kích thước ảnh đối tượng đơn lẻ trong tập huấn luyện
Với mỗi bước trượt, cửa sổ trượt dời đi một khoảng nhỏ (khoảng 10% kích thước cửa sổ) để đảm bảo tập vị trí ảnh chứa đối tượng là tập con của tập ảnh sinh ra bởi cửa sổ trượt Với mỗi cửa sổ, véc-tơ đặc trưng BoVW được trích xuất và biểu diễn theo phương pháp đã trình bày ở trên Đồng thời, một bản đồ kích hoạt (activation map) cho biết xác suất hay độ tin cậy mà đối tượng là đối tượng đích cần tìm
Theo như cách sử dụng cửa sổ trượt nói trên, những cửa sổ lân cận vị trí vùng ảnh chứa đối tượng cũng sẽ chứa một số bộ phận của đối tượng Do đó, những cửa sổ lân cận cũng sẽ được nhận là vùng chứa đối tượng Hình 21 cho thấy kết quả phân loại các vùng ảnh được quét bằng cửa sổ trượt
Hình 21 (Từ trái sang phải) Kết quả phân loại các vị trí trong ảnh toàn cảnh sử dụng bộ phân loại kết hợp với cửa sổ trượt (a) Đối với đối tượng nằm riêng lẻ (b) Đối với các đối tượng che khuất lẫn nhau Đối với giả thiết phân loại đối tượng, việc này hoàn toàn đúng và hợp lý Tuy nhiên, đối với phát hiện đối tượng, ta cần phải loại bỏ những cửa sổ xung quanh này để đảm bảo với một đối tượng chỉ có một vị trí của nó trong khung ảnh được xác định là đúng Theo [8], thường vị trí cửa sổ chứa ảnh đối tượng thường có độ tin cậy cao nhất và giảm dần đối với những cửa sổ xung quanh Do đó, bài toán xác định vị trí của đối tượng trong ảnh có thể xem là bài toán tìm cực trị cục bộ trong activation map của ảnh toàn cảnh nói ở trên Dựa trên ý tưởng này, luận văn hiện thực một giải thuật tìm cực trị cục bộ trên ảnh, những điểm với giá trị độ tin cậy cực đại được đưa vào danh sách ứng viên (bounding box candidates) cho vị trí của đối tượng trong ảnh toàn cảnh
Các cửa sổ ứng với các điểm cực trị trong danh sách được nhóm lại bằng giải thuật nhóm vị trí [29] Tuy nhiên, trong thực nghiệm, kết quả cho thấy các khoảng trống giữa các cửa sổ khiến giá trị của activation map không liên tục, dẫn đến vị trí cực trị có thể lệch khỏi vị trí thực của đối tượng Đối với bài toán xe máy có cấu trúc phức tạp và kích thước nhỏ, các đối tượng có thể che khuất nhau khiến các cửa sổ ở giữa có độ tin cậy cao Đề xuất xấp xỉ một mặt liên tục từ activation map bằng bi-harmonic fitting để tăng độ chính xác cho bước tìm cực trị, đồng thời nhấn mạnh đường biên của đối tượng nhằm giảm khả năng điểm cực trị nằm ở vùng biên Hình 22 mô tả quá trình xây dựng activation map sử dụng bi-harmonic fitting cho một ảnh toàn cảnh.
Hình 22 (Từ trái sang phải) Quá trình xây dựng activation map cho một ảnh toàn cảnh sử dụng bi-harmonic fitting (a) Ảnh toàn cảnh (b) Activation map được xấp xỉ với bi-harmonic fitting (c) Dựa trên cực trị của activation map để xác định vị trí đối tượng
Chương này trình bày tổng quan và chi tiết các bước của phương pháp phân loại và phát hiện phương tiện đề xuất Chương tiếp theo sẽ trình bày kết quả thực nghiệm và đánh giá độ chính xác của phương pháp.
Thí nghiệm và đánh giá
Xây dựng tập dữ liệu
Để đánh giá hiệu quả của phương pháp trong điều kiện môi trường thực tế, cần thiết phải có một tập dữ liệu mẫu đa dạng, bao hàm những trường hợp có thể xảy ra trong quá trình hoạt động thực thế của hệ thống giám sát giao thông Hiện nay, do sự khác nhau về hệ thống cũng như thành phần tham gia giao thông ở các quốc gia khác nhau nên vẫn chưa có một tập dữ liệu hoàn chỉnh nào cho đánh giá Mà đặc biệt trong đó, tập dữ liệu chứa xe máy với mật độ, độ che khuất giữa các phương tiện và thay đổi của môi trường hiện nay vẫn chưa có Do đó, luận văn xây dựng một tập dữ liệu mẫu phù hợp với những yêu cầu nói trên để phục vụ cho đánh giá
Bộ dữ liệu gồm 06 dãy ảnh ghi ở ngã tư vào thời điểm khác nhau trong ngày, góc nhìn từ trên xuống và góc lệch nhỏ (15 độ) Cho phép ảnh phương tiện hội tụ nhưng vẫn đảm bảo dữ liệu đa dạng về sáng tối, môi trường, mật độ và che khuất phương tiện Bộ huấn luyện (training set) và kiểm định chéo (cross-validation set) gồm 3000 ảnh đơn của mẫu dương (xe máy), mẫu âm trích từ 05 dãy ảnh đầu Mẫu dương được đánh dấu thủ công đảm bảo độ chính xác, mẫu âm trích xuất ngẫu nhiên bằng chương trình và lọc thủ công Chứa cả ảnh khó, đối tượng bị che khuất bởi đối tượng khác cùng loại hoặc khác loại, ảnh nền nhiễu do các đối tượng khác.
Chuỗi ảnh thứ sáu được dành riêng cho đánh giá giả thiết phát hiện phương tiện giao thông ở mục 5.3 Hình 23 trình bày một số mẫu trong tập dữ liệu được dùng để đánh giá độ chính xác của bộ phân loại
Hình 23 Một số mẫu ngẫu nhiên trong tập dữ liệu mẫu được dùng để huấn luyện và đánh giá độ chính xác của bộ phân loại
Có được tập mẫu đảm bảo được sự đa dạng về thay đổi môi trường, ánh sáng, góc quay v.v cho phép đánh giá phương pháp phân loại và phát hiện phương tiện trong điều kiện gần nhất với môi trường vận hành của hệ thống trong thực tế.
Đánh giá độ chính xác của bộ phân loại
Độ chính xác của phương pháp trước tiên được thể hiện qua độ chính xác của bước phân loại giao thông Qua đó, cho phép ta biết được những giải thuật rút trích đặc trưng nào là phù hợp nhất với đối tượng và yêu cầu của bài toán đặt ra Các giải thuật rút trích và biểu diễn đặc trưng này được hiện thực sử dụng OpenCV Các thông số tùy chỉnh của các giải thuật trên được thiết lập dựa trên các bài báo [10] [12] [13] và [16]
Mô hình BoVW được xây dựng từ tập các đặc trưng này như đã trình bày ở phần 4.3 với kích thước tập từ vựng là 100 Độ chính xác của bộ phân loại SVM tương ứng với mỗi giải thuật trích xuất và biểu diễn được đánh giá trên cùng một tập dữ liệu được nêu ở bước trên Trong trường hợp của bài toán, số lượng mẫu âm thường lớn hơn rất nhiều so với số lượng mẫu âm do ảnh đối tượng được trích xuất từ ảnh toàn cảnh bằng cửa sổ trượt Do đó, luận văn sử dụng đại lượng recall và precision để đánh giá độ chính xác của bộ phân loại Cụ thể như sau
# 𝑠ố 𝑙ượ𝑛𝑔 𝑚ẫ𝑢 𝑑ươ𝑛𝑔 đú𝑛𝑔 + # 𝑠ố 𝑙ượ𝑛𝑔 𝑚ẫ𝑢 𝑑ươ𝑛𝑔 𝑠𝑎𝑖
Bảng 1 trình bày giá trị recall-precision của bộ phân loại tương ứng với những giải thuật trích xuất và biểu diễn đặc trưng khác nhau Ta có thể thấy phương pháp rút trích đặc trưng SURF cho kết quả với độ chính xác cao hơn so với các phương pháp khác
Feature No of correct detections Recall No of false detections Precision F-score
Bảng 1 Đánh giá độ chính xác của bộ phân loại tương ứng với những giải thuật rút trích đặc trưng khác nhau, trong trường hợp có và không có mã hóa thông tin cấu trúc của đối tượng trong không gian
Như vậy, phương pháp phân loại đối tượng trong ảnh chứa đối tượng đơn lẻ sử dụng mô hình BoVW để biểu diễn đối tượng cho kết quả với độ chính xác cao 94%
Thực nghiệm cũng cho thấy thông tin về cấu trúc của các bộ phận đặc trưng cho đối tượng trong không gian có thể giúp nâng cao độ chính xác của bộ phân loại.
Đánh giá độ chính xác của giả thiết phát hiện
Mục tiêu của phương pháp phân loại và phát hiện phương tiện không chỉ dừng lại ở xác định loại phương tiện mà còn cần tìm ra vị trí của phương tiện trong toàn khung ảnh Do đó để đánh giá độ chính xác của toàn bộ phương pháp, cần phải xem xét liệu giả thiết phát hiện có tìm ra đúng vị trí của phương tiện trong ảnh hay không Để xác định mức độ chính xác của vị trí đối tượng trong ảnh, luận văn đề xuất hai thông số, độ trùng lắp giữa và tỉ lệ lỗi cửa sổ ảnh được phát hiện và chân trị cửa sổ ảnh được đánh giấu bằng tay
Overlap score hay độ trùng lắp là tỉ lệ pixel trong cửa sổ ảnh được giả thiết phát hiện xác định là có đối tượng và chân trị cửa sổ ảnh được đánh giấu bằng tay Với mỗi cửa sổ ảnh chứa đối tượng sẽ được đối chiếu với những chân trị đã được đánh dấu, mức độ trùng lắp ứng với cửa sổ chân trị gần nhất với cửa sổ ảnh sẽ được ghi nhận như trong công thức dưới đây
Điểm lỗi là thước đo sai khác giữa vùng đối tượng phát hiện và vùng chân thực trong hình ảnh Khi xác định được cửa sổ chân thực gần nhất với cửa sổ phát hiện, điểm lỗi được tính bằng số pixel không đồng thời nằm trong cả hai cửa sổ này.
Trong đó R1, R2 lần lượt là số pixel thuộc vùng chân trị và vùng được phát hiện của đối tượng trong ảnh Vị trí tương đối giữa vùng chân trị và vùng phát hiện có thể rơi vào một trong các trường hợp như thể hiện trong Hình 24
Hình 24 (Từ trái sang phải) Những vị trí tương đối giữa vùng chân trị và vùng đối tượng được phát hiện (a) vùng chân trị và vùng phát hiện chồng lắp lên nhau (b) vùng chân trị và vùng phát hiện hoàn toàn tách biệt (c) vùng chân trị hay vùng phát hiện chứa vùng còn lại
Dễ thấy rằng khi cửa sổ được phát hiện càng gần với cửa sổ chân trị thì chỉ số overlap sẽ hội tụ về 1 trong khi chỉ số lỗi sẽ hội tụ về 0 Để đánh giá giả thiết phát hiện phương tiện, luận văn hiện thực việc xây dựng giả thiết này dựa trên cơ sở bộ phân loại đối tượng ở trên bằng Matlab Sau đó, giả thiết này được dùng để xác định vị trí của đối tượng trong ảnh toàn cảnh từ chuỗi ảnh thứ 6 bao gồm 200 khung ảnh của một giao lộ như đã nói ở phần 5.1 Kết quả thực nghiệm cho thấy phương pháp có thể đạt độ chính xác cao với overlap score khoảng 0.7 và error score vào khoảng 0.3 Hình 25 trình bày chi tiết độ chính xác của giải thuật phát hiện cho mỗi khung ảnh thể hiện qua trung bình của các chỉ số overlap và error
Hình 25 độ chính xác của giải thuật phát hiện cho mỗi khung ảnh thể hiện qua trung bình của các chỉ số overlap và error
Cuối cùng, trong Hình 26 ở dưới đây thể hiện một vài khung ảnh với vị trí của xe máy được đánh dấu sử dụng phương pháp phân loại và phát hiện phương tiện được trình bày trong luận văn
Hình 26 Một vài khung ảnh chứa đối tượng xe máy được đánh dấu bằng phương pháp phân loại và phát hiện phương tiện được luận văn đề xuất từ chuỗi 200 ảnh dùng cho đánh giá
Kết quả cho thấy phương pháp đề nghị có khả năng phát hiện xe máy trong điều kiện các xe này nằm rất gần nhau hay che khuất lẫn nhau trong khung ảnh Tuy nhiên, một số xe máy được phát hiện ở bước phân loại nhưng lại bị loại bỏ trong lúc gom nhóm các cửa sổ lân cận Điều này là do việc loại bỏ bớt các khung xác định cùng một đối tượng đồng thời cũng loại bỏ những khung có độ tin cậy thấp Ngoài ra, có thể thấy điều kiện môi trường, thay đổi mức sáng hay góc nhìn 3D của xe máy không làm ảnh hưởng đến kết quả phân loại và phát hiện.
Tổng kết và hướng phát triển
Tổng kết
Trên đây, luận văn đã trình bày phương pháp phân loại và phát hiện đối tượng dựa trên biểu diễn đối tượng bằng mô hình Bag-of-Visual Words (BoVW) Đầu tiên, thông qua việc rút trích đặc trưng của ảnh đối tượng đã tạo một nguồn nguyên liệu để biểu diễn ảnh đối tượng một cách chính xác và không phụ thuộc vào điều kiện môi trường như ánh sáng, góc quay v.v Tập đặc trưng này được đưa vào xây dụng mô hình BoVW, trong đó các đặc trưng được gom cụm và tổng quát hóa, mang tính chất đại diện cho lớp đối tượng Sau đó, một bộ phân loại được xây dựng dựa trên tập những biểu diễn hay véc-tơ đặc trưng BoVW của đối tượng Kết quả thực nghiệm cho thấy kết quả phân loại của kết hợp rút trích đặc trưng và mô hình BoVW này khá cao 91% cho SIFT, SURF Tuy nhiên, đặc trưng BoVW chỉ mang tính chất thống kê các bộ phận đặc trưng của đối tượng chứ không quan tâm đến vị trí của các bộ phận đặc trưng trong không gian Do đó, luận văn đề xuất sử dụng pyramid spatial kernel kết hợp với rút trích đặc trưng Phương pháp này cho độ chính xác cao nhất 94% (Pyramid + SURF)
Bên cạnh đó, luận văn cũng phân biệt rõ giữa phân loại và phát hiện đối tượng trong toàn khung ảnh Từ bộ phân loại đối tượng đơn, luận văn đề xuất phương pháp xây dựng một giả thiết phát hiện đối tượng trong khung ảnh toàn cảnh, chứa một hay nhiều đối tượng Giả thiết phát hiện được phát triển trên cơ sở activation map, cho biết độ tin cậy đối với vị trí đối tượng trong khung ảnh Bài toán phát hiện đối tượng được đưa về thành bài toán tìm cực trị cục bộ trong activation map Xét yêu cầu của bài toán phát hiện xe máy, trong đó đối tượng đích có kích thước nhỏ và khả năng che khuất lẫn nhau trong khung ảnh cao, việc sử dụng trực tiếp activation map cho kết quả với độ chính xác không cao Để khắc phục vấn đề trên, luận văn đề xuất sử dụng bi-harmonic fitting để gia tăng độ chính xác của đầu vào cho giải thuật tìm cực trị cục bộ Từ đó, luận văn đã xây dựng được một giả thiết phát hiện với độ chính xác cao Bên cạnh đó, luận văn cũng đề xuất chỉ số overlap và error để đánh giá kết quả phát hiện Kết quả thực nghiệm cho thấy giả thiết phát hiện có thể xác định vị trí của đối tượng trong khung ảnh với chỉ số overlap khá cao 0.7 và chỉ số error ở mức 0.3
Tập dữ liệu sử dụng trong nghiên cứu được xây dựng dựa trên điều kiện thực tế, bao gồm các thời điểm khác nhau trong ngày Thiết kế này đảm bảo tính bao quát, phản ánh các điều kiện vận hành thực tế như thay đổi mức độ sáng, mức độ che khuất giữa các phương tiện giao thông.
Như vậy, phương pháp phân loại và phát hiện phương tiện được luận văn đề xuất có khả năng hoạt động trong điều kiện môi trường thực tế với độ chính xác khá cao.
Hướng phát triển
Trong một khuôn khổ rộng hơn, phương pháp này có thể áp dụng cho nhiều lớp đối tượng khác nhau bằng cách sử dụng phương pháp phân loại một đối một (one-against-all) Tuy nhiên, việc sử dụng activation map để xác định mức độ tin cậy của từng vị trí trong ảnh với mỗi lớp đối tượng khi có nhiều lớp đối tượng trở nên phức tạp Để giải quyết vấn đề này, có hai hướng tiếp cận: xây dựng activation map riêng cho từng lớp đối tượng dựa trên kết quả one-against-all, sau đó tổng hợp vị trí các lớp đối tượng trên ảnh dựa trên ràng buộc không gian; hoặc sử dụng kết quả ứng với lớp đối tượng có độ tin cậy cao nhất tại mỗi vị trí trong activation map để phát hiện đối tượng.
Thứ nhất, hiện nay các giải thuật rút trích và biểu diễn đặc trưng ngày càng đa dạng và phục vụ cho nhiều bài toán khác nhau Tuy nhiên, với mỗi loại đối tượng cụ thể thì cũng ứng với các giải thuật rút trích và biểu diễn đặc trưng phù hợp Trong phạm vi của luận văn mới chỉ xem xét một số loại đặc trưng thông dụng và có độ chính xác cao nhất Tuy nhiên, trong tương lai cần phải khảo sát thêm các giải thuật rút trích và biểu diễn đặc trưng khác, đặt trong yêu cầu cụ thể của bài toán và đối tượng cần phân loại và phát hiện
Thứ hai là kết hợp thông tin không gian vào biểu diễn của đối tượng Như đã thấy, việc kết hợp không gian đối tượng thông qua sử dụng pyramid- spatial kernel được luận văn đề xuất cho kết quả cao hơn so với chỉ sử dụng trích xuất và biểu diễn đặc trưng Như vậy, có thể thấy việc kết hợp thông tin không gian cần được quan tâm, xem xét thêm từ đó cho phép biểu diễn đối tượng được chính xác hơn
Một hướng phát triển khác là kết hợp phân loại và phát hiện với theo vết đối tượng Hiện tại, phương pháp được luận văn đề xuất có khả năng phân loại và phát hiện đối tượng với độ chính xác khá cao trong khung ảnh tĩnh Nếu được kết hợp thêm thông tin theo vết của đối tượng trong khung ảnh trên dòng thời gian có khả năng giúp loại bỏ những vị trí đối tượng không phù hợp dựa trên những ảnh trước
Như vậy, có khả năng tăng độ chính xác của phân loại và phát hiện, ngược lại cũng tăng độ chính xác cho theo vết đối tượng Bên cạnh đó, thông tin theo vết có thể được dùng như một bước tiền xử lý cho phân loại và phát hiện Theo đó, cho phép giới hạn phạm vi phân loại và phát hiện đối tượng, từ đó tiết kiệm chi phí tính toán
Cuối cùng, đề bài luận văn đề xuất hướng gia tăng hiệu suất của phương pháp phân loại và phát hiện được đề cập ở trên theo hướng song song hóa Dựa trên thực nghiệm, những bước sau đây có độ phức tạp tính toán cao nhất:- Tính toán khoảng cách từ các mẫu dữ liệu đến các trọng tâm cụm- Cập nhật các trọng tâm cụm- Gán nhãn cho các mẫu dữ liệu Những bước này cần được song song hóa để gia tăng tốc độ quá trình tính toán.
Trước tiên là ở bước xây dựng mô hình Bag-of-Visual Words, trong đó cần gom cụm những đặc trưng tương tự lẫn nhau để hình thành tập từ vựng Bước này sử dụng giải thuật k-means để gom cụm các đặc trưng tương tự lại với nhau Tuy nhiên, do yêu cầu của bài toán, tập từ vựng thường có kích thước rất lớn từ khoảng 10 6 véc-tơ Do đó, giải thuật k- means có độ phức tạp tính toán khá lớn và thời gian chạy rất chậm Do đó yêu cầu đặt ra là cần song song hóa giải thuật này để giảm thời gian tính toán Tuy quá trình xây dựng mô hình Bag-of-Visual Words có thể làm offline, nhưng cũng cần giảm thời gian tính toán để tiết kiệm chi phí cho quá trình xây dựng bộ phân loại
Tiếp theo và cũng quan trọng hơn đó là việc song song hóa quá trình biểu diễn đặc trưng cho ảnh mới vào hệ thống theo mô hình Bag-of-
Để tăng tốc cho quá trình phân loại và phát hiện đối tượng trong từng khung hình, cần tập trung song song hóa bước trích xuất đặc trưng và so sánh với tập từ vựng để xây dựng vec-tơ histogram của thành phần đặc trưng của đối tượng hoặc đặc trưng BoVW Quá trình này cần đáp ứng được yêu cầu về thời gian thực để đảm bảo cho hệ thống hoạt động theo thời gian thực.
Luận văn đã đánh giá và tổng kết phương pháp phân loại và phát hiện phương tiện được đề xuất Bên cạnh đó, luận văn cũng đưa ra những hướng phát triển để nâng cao độ chính xác và hiệu suất cho phương pháp này Phương pháp đề xuất đã giải quyết được bài toán với độ chính xác đáng kể Tuy nhiên, vẫn còn nhiều tiềm năng để tiếp tục nghiên cứu và phát triển thêm.