Trong đó, vấn đề phát hiện đối tượng chuyển động và phân loại đối tượng là hai vấn đề cơ bản, làm đầu vào cho việc giải quyết các vấn đề sau đó của cả khối hệ thống giám sát thông minh..
GIỚI THIỆU
Giới thiệu đề tài
Ngày nay, các hệ thống giám sát ngày một phổ biến, chúng đóng vai trò thiết yếu trong việc đảm bảo an ninh, từ các nhà trẻ, trường phổ thông, các tòa nhà văn phòng, thương mại, hay các nơi công cộng quảng trường, đường phố giao thông cho đến các khu vực an ninh trọng yếu như nhà ga, sân bay, trụ sở chính phủ v.v Nhưng các hệ thống giám sát truyền thống vấp phải vấn đề nan giải là số lượng camera nhiều và việc ngồi quan sát màn hình camera bằng mắt người khá nhàm chán, rất dễ dẫn đến mệt mỏi và bỏ sót các vấn đề xảy ra Vì thế, nhu cầu về hệ thống giám sát thông minh có khả năng hoạt động độc lập, thay thế hoàn toàn con người trong giám sát là tất yếu Với yêu cầu như vậy, hệ thống giám sát thông minh khái quát sẽ có một số vấn đề như sau:
- Phát hiện đối tượng chuyển động
- Phát hiện hành vi/tình huống
Trong đó, vấn đề phát hiện đối tượng chuyển động và phân loại đối tượng là hai vấn đề cơ bản, làm đầu vào cho việc giải quyết các vấn đề sau đó của cả khối hệ thống giám sát thông minh Trong những năm gần đây, các nghiên cứu về phân loại đối tượng nói chung và phân loại đối tượng trên đường phố nói riêng đã đạt nhiều kết quả khả quan, song vẫn chưa đạt tới mức chính xác và tin cậy như mong muốn để có thể áp dụng rộng rãi trong thực tế Cách thức tiến hành phân loại đối tượng chủ yếu dựa vào máy quay ghi hình rồi xử lý trên video thu được để đưa ra kết quả phân loại đối tượng (xe, người,…) Hệ thống phân loại đối tượng thường có ba phần chính:
- Phát hiện đối tượng chuyển động
- Rút trích đặc trưng của đối tượng
Phân loại đối tượng trong những cảnh thực tế thực sự là một vấn đề khó trong các ứng dụng như theo dõi đối tượng, xác định đối tượng, Ý tưởng chính của bất kỳ thuật toán phân loại đối tượng là nhận diện các đối tượng và phân chúng thành các nhóm khác nhau Thuật toán phân loại đối tượng phải làm việc được với thời gian thực Trong thực tế, mỗi đối tượng trên đường phố có màu sắc và kích thước khác nhau Chẳng hạn như: mỗi người khi đi trên đường phố, họ thường mặc các loại quần áo với màu sắc khác nhau, mỗi người có kích thước khác nhau, mỗi xe có kích thước, hình dạng, màu sắc khác nhau và môi trường xung quanh của đối tượng luôn thay đổi Chính vì vậy, phát triển một ứng dụng để phân loại đối tượng người và xe trên đường phố là một việc làm khó và đầy thách thức.
Mục tiêu đề tài
Đề xuất ra một giải thuật phân loại đối tượng sử dụng các biến đổi Wavelet thế hệ mới với kết quả tốt hơn một giải thuật khác đã có, và có tính khoa học, đủ tầm chất lượng để công bố kết quả trên hội nghị quốc tế hoặc tạp chí chuyên ngành.
Nội dung đề tài
- Tìm hiểu các tài liệu liên quan về các phương pháp mô hình nền, chọn lựa và cài đặt phương pháp mô hình nền FTSG phục vụ bước mô hình nền cho phát hiện đối tượng, đây cũng là sự chuẩn bị để có dữ liệu ảnh khung bao đối tượng từ video cho toàn bộ quá trình phân loại đối tượng sau đó
- Lựa chọn phương pháp trong các họ Wavelet thế hệ mới: Tìm hiểu các tính chất, ưu nhược điểm của các họ Wavelet thế hệ mới (Curvelet Transform, Contourlet Transform, Ridgelet Transform,…), so sánh các họ Wavelet với nhau để chọn lựa phương pháp sử dụng Từ đó, xây dựng miền Wavelet thế hệ mới sử dụng ngưỡng (threshold) lọc để lấy ra đặc trưng đối tượng cho nhận dạng
- Lựa chọn phương pháp trong các loại moments: Tìm hiểu các tính chất, ưu nhược điểm của các loại moment (Cartesian moments, Complex moments, Zernike moments, …), so sánh với nhau để chọn moments sử dụng cho việc kết xuất đặc trưng đối tượng bởi Wavelet thế hệ mới về một giá trị đại diện, phục vụ nhận dạng
- Xác định và rút trích các đặc trưng của đối tượng: lựa chọn số lượng đặc trưng, các loại đặc trưng phù hợp để kết hợp với đặc trưng kết xuất bởi Wavelet thế hệ mới và Zernike moment, cho phép phân loại những loại đối tượng quan tâm hiệu quả trên cơ sở xem xét các đặc điểm, thể hiện về hình dạng, chuyển động, bề ngoài v.v
- Huấn luyện mẫu đặc trưng: tìm hiểu và lựa chọn phương pháp huấn luyện phù hợp (SVM, Adaboost), tạo lập các mẫu huấn luyện theo các đặc trưng đã chọn cho từng loại đối tượng quan tâm, tiến hành huấn luyện bộ lọc
- Phân loại đối tượng: ráp nối các công việc đã làm trên để hoàn thiện giải thuật để xuất, hiện thực và áp dụng cho phân loại trên tập dữ liệu thử nghiệm để đánh giá kết quả giải thuật đề xuất về độ chính xác và tốc độ, so sánh với một giải thuật khác để đánh giá hiệu quả cải tiến, công bố kết quả trên hội nghị quốc tế hoặc tạp chí chuyên ngành.
Giới hạn đề tài
Đề tài được giới hạn trong phạm vi các video cảnh trên đường phố, và đối tượng gồm hai loại là người (human) và xe hơi (car) Đề tài sẽ giới hạn không xử lý các vấn đề nhiễu của môi trường khi phân loại như chuyển động nhỏ của cành cây, ngọn cỏ; sự thay đổi ánh sáng, cảnh ban đêm, nắng, bóng đối tượng hay cảnh, điều kiện thời tiết xấu như tuyết, mưa; đối tượng đơn lẻ có sự vận động chứ không chỉ là 1 khối như người đánh tay, chạy, tương tác môi trường, đối tượng di chuyển chậm, đối tượng ngừng chuyển động; đối tượng bị che khuất, di chuyển hay tương tác cùng nhau thành vùng liền
Cấu trúc luận văn
Luận văn được tổ chức như sau:
Chương 1: Giới thiệu tổng quan vấn đề nghiên cứu, bối cảnh hiện tại của đề tài, nêu các mục tiêu đặt ra của đề tài, nội dung các công việc đã thực hiện trong đề tài, phạm vi giới hạn nghiên cứu của đề tài
Chương 2: Trình bày về cơ sở lý thuyết toán học cũng như những kiến thức cơ bản có liên quan trong đề tài, các nghiên cứu khác và thành tựu đạt được trong lĩnh vực mà đề tài đang thực hiện, phương pháp thực hiện của đề tài
Chương 3: Toàn bộ giải thuật đề xuất cho việc phân loại đối tượng của đề tài được trình bày chi tiết các bước, lý do cho sự chọn lựa các giải pháp thành phần cũng như tổng thể giải thuật, các yêu cầu ban đầu đặt ra và phương pháp để đánh giá kết quả đạt được
Chương 4: Trình bày chi tiết thí nghiệm để kiểm chứng giải thuật đề xuất như tập dữ liệu sử dụng cho huấn luyện, kiểm tra, kết quả đạt được về độ chính xác, tốc độ, đánh giá về kết quả đó cũng như so sánh với một giải thuật đã được đề xuất khác
Chương 5: Tổng kết toàn bộ đề tài với kết quả đạt được của giải thuật đề xuất, những điểm tốt, ưu thế của giải thuật cũng như những hạn chế trong đề xuất, ý nghĩa đóng góp của giải thuật đề xuất trong nghiên cứu khoa học cũng như thực tiễn cuộc sống, hướng phát triển trong tương lai của đề tài
CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
Cơ sở lý thuyết
2.1.1 Hệ thống giám sát thông minh
Hệ thống giám sát thông minh
Phát hiện đối tượng chuyển động
Phân loại đối tượng Phát hiện hành vi/ tình huống
Hình 2.1: Tổng quan vấn đề nghiên cứu
Phân loại đối tượng là nội dung mà đề tài quan tâm nghiên cứu, nó là một thành phần trong hệ thống giám sát thông minh như hình 2.1 Đi từ tổng thể của hệ thống thông minh, chi tiết hơn là hệ thống giám sát thông minh và đến các thành phần của nó, các phần dần được phát triển theo sự tiến bộ khoa học và nhu cầu của con người
Bắt đầu với hệ thống thông minh là khi sự phát triển vượt bậc của khoa học kĩ thuật đã dẫn đến các mong muốn và yêu cầu có những máy móc ngày một tinh vi thay thế con người trong mọi lĩnh vực lao động Nếu phần cơ khí, vi mạch nói chung là phần xác của máy móc, thì hệ thống phần mềm điều khiển chính là linh hồn của chúng Ví dụ như một rôbốt có thể được lắp camera để quan sát, lắp cánh tay kim loại để cầm nắm, nhưng làm sao chúng biết phải quan sát điều gì và phục vụ con người ra sao? Đó chính là nhờ các phần mềm được lập trình cho chúng Và khi đủ cả hai phần như vậy thì ta có hệ thống thông minh Một định nghĩa hệ thống thông minh từ từ khóa “Smart
System” được Wikipedia [1] diễn giải bao gồm những thiết bị thu nhỏ có các chức năng cảm biến, kích hoạt và kiểm soát nhằm mô tả và phân tích tình huống để đưa ra quyết định dựa trên các dữ liệu sẵn có theo phương thức đoán nhận hay thích nghi, từ đó thực hiện được các hành xử hợp lý Hầu hết các trường hợp, sẽ thể hiện dưới dạng các hoạt động độc lập dựa trên các điều khiển theo chu trình khép kín, hiệu quả về năng lượng tiêu thụ và có khả năng hoạt động qua mạng Trong đó, ta thấy khả năng giám sát để ghi nhận tình huống và đưa ra những quyết định dựa trên dữ liệu sẵn có là điều mấu chốt làm nên sự thông minh
Hiện nay, ngày càng có nhiều hệ thống giám sát qua camera, những hệ thống giám sát trong nhà như những cửa hàng nhỏ sử dụng để giữ xe cho khách, an ninh cho hàng hóa tránh mất cắp, hay các trường mẫu giáo với camera cho phép cha mẹ theo dõi con mình từ nơi làm việc, cho đến các hệ thống giám sát ngoài trời như đường phố, giám sát giao thông, hướng tới các tiện ích như theo dõi lưu lượng xe, kiểm soát tốc độ an toàn, phát hiện kẹt xe, tai nạn, nhận diện người đi bộ băng qua đường để cảnh báo v.v Nhu cầu về giám sát qua camera là rất lớn, cách thức sử dụng sức người để theo dõi tất cả màn hình camera đang ngày càng trở nên không tưởng do số lượng camera lớn Vì thế, các nghiên cứu về hệ thống giám sát thông minh đang nhận được nhiều sự quan tâm Các mong đợi bao gồm đáp ứng yêu cầu thời gian thực và có thể nhận ra các đối tượng, các loại, thậm chí hành vi của chúng [2]
Thông thường, các video giám sát thường quan tâm nhiều đến những đối tượng chuyển động hơn là cảnh vật hay đối tượng đứng yên, do đây thường là nguồn gốc phát sinh các vấn đề có thể cần giám sát, vậy một vấn đề đầu tiên cần giải quyết là phát hiện đối tượng chuyển động trong video
Khi có những đối tượng chuyện động, để có thể giới hạn phạm vi quan tâm ví dụ trên đường có hai người có vị trí gần nhau trên video rồi 1 người chuyển động nhanh ra xa người kia, điều này có thể cảnh báo sự bất thường, làm cơ sở cho phát hiện hành vi như cướp giật chẳng hạn, nhưng nếu là 1
7 người và một xe rồi cả hai cùng di chuyển có thể là bình thường như người đó lên xe bus chẳng hạn Do đó, ta có một nhu cầu rất cơ bản là cần biết loại của đối tượng hay vấn đề phân loại đối tượng
Dựa trên các loại đối tượng chuyển động, ta tiếp tục theo dõi chuỗi chuyển động của nó trong video để tìm ra thông tin quan tâm như sự di chuyển nhanh xuyên suốt từ cổng vào tới cửa lên máy bay có thể cho biết một sự trễ máy bay đang cần hỗ trợ chẳng hạn, những thông tin về chuỗi chuyển động như hướng, tốc độ hay các vùng đi qua v.v có thể giúp ích cho bước sau để phát hiện các hành vi không tốt, hay chỉ đơn giản hơn, là biết đối tượng di chuyển tới đâu để kiểm soát, có thể là phục vụ việc bắt giữ nếu là tội phạm hay kẻ xâm nhập Đó là vấn đề theo dõi đối tượng
Những vấn đề tiếp theo của hệ thống sẽ tùy chức năng cụ thể, như hệ thống qua đường an toàn sẽ quan tâm hành vi băng qua đường trên cơ sở phát hiện đối tượng chuyển động là người và xe, nhận ra hướng di chuyển giao nhau giữa người và xe Từ khả năng đó, hệ thống có thể cảnh báo cho người lái xe chẳng hạn Nhưng nếu đối tượng là một máy bay có hướng di chuyển đi lên trời thì rõ ràng nó không phải là vấn đề quan tâm của hệ thống v.v Đó là vấn đề về phát hiện hành vi hay tình huống của những đối tượng quan tâm
Nhưng dù là vấn đề nào trong giám sát, đều dựa trên hai kết quả rất cơ bản là phát hiện đối tượng chuyển động, và phân loại đối tượng Luận văn tập trung sâu vào vấn đề thứ hai là phân loại đối tượng trong ngữ cảnh đường phố
2.1.2 Vấn đề phân loại đối tượng
Phát hiện đối tượng chuyển động
Phân loại đối tượng Rút trích đặc trưng
Hình 2.2: Các bước phân loại đối tượng
Vấn đề phân loại đối tượng có thể tổng quát thành ba bước chính như hình 2.2 Như đã trình bày trong phần 2.1.1, hệ thống giám sát mong muốn biết đối tượng chuyển động thuộc loại nào, nhưng việc xác định loại của đối tượng chuyển động cần thực hiện trên vùng ảnh chứa đối tượng chuyển động, vì thế trong nghiên cứu phân loại thường bao gồm việc phát hiện đối tượng chuyển động như là bước đầu tiên
Bước phát hiện chuyển động: về cơ bản là sự phân tích những khác biệt giữa các khung hình liên tiếp của đoạn video (chi tiết về video xem thêm phần 2.1.4), từ tập các điểm có thay đổi, ta kết nối thành các vùng ảnh có thay đổi gọi là các blob Tuy nhiên các vùng ảnh này có thể chứa sai sót hoặc là các thay đổi không quan tâm như ánh sáng phản chiếu, lá cờ bay trong gió, cành cây rung rinh v.v, chúng sẽ được loại bỏ bằng cách như là bỏ qua các vùng thay đổi có kích thước dưới một ngưỡng nào đó Các vùng ảnh còn lại sau quá trình khử nhiễu này sẽ là đầu vào cho bước tiếp theo Bước này thường gặp nhiều khó khăn do các điều kiện khách quan như môi trường, hay sự tương tác giữa các đối tượng
Bước rút trích đặc trưng: được thực hiện trên các vùng ảnh thu được ở bước trước Các đặc trưng được chọn lựa rút trích tùy theo các loại đối tượng mong muốn phân loại và đặc điểm từng loại Thông thường một đặc trưng đơn lẻ khó giúp phân loại được trong mọi tình huống cảnh video, nhất là với số loại đối tượng nhiều hơn hai Trong các nghiên cứu, người ta thường dùng nhiều đặc trưng kết hợp lại nhằm tăng tỷ lệ chính xác Kết quả của bước này thường là vector đặc trưng bao gồm thông tin các đặc trưng đã rút trích từ đối tượng Một vấn đề có thể gặp với vector đặc trưng là lượng thông tin lớn do nhiều đặc trưng hay đặc trưng thể hiện bởi nhiều dữ liệu, dẫn đến chi phí tính toán cao cho bước phân loại phía sau Thông thường người ta giữ lại các thông tin quan trọng của đặc trưng để giảm bớt dữ liệu, cũng như chọn các bộ đặc trưng ít nhất mà cho sự kết hợp hiệu quả với nhau
Bước phân loại đối tượng: Bước phân loại về cơ bản là dựa vào đặc trưng của đối tượng để xác định loại Tuy nhiên, vì khó có một ngưỡng hay công thức cố định rõ ràng và đúng trong mọi trường hợp, nên để máy có thể biết đặc trưng phân bố như thế này thì ứng với loại đối tượng nào, ta cần huấn luyện một bộ lọc để phân loại, các vector đặc trưng sẽ qua nó để ra kết quả Việc huấn luyện nói chung là dùng một tập dữ liệu đầu vào có thể đã biết loại đối tượng, cũng có thể chưa, để rút trích đặc trưng rồi đưa qua một bộ lọc hoạt động theo một giải thuật huấn luyện để đưa ra kết quả phân loại Quá trình huấn luyện cho phép giải thuật điều chỉnh dần các thông số của nó sao cho kết quả trùng khớp với kết quả mong muốn Việc huấn luyện này giúp tăng tỷ lệ chính xác khá hiệu quả, nhưng công sức và thời gian để chuẩn bị tập dữ liệu và huấn luyện cũng là vấn đề trong một số trường hợp, vì không phải lúc nào ta cũng có sẵn tập dữ liệu bao quát được mọi trường hợp
Nếu bước phát hiện chuyển động là cở sở đầu vào thiết yếu, bước phân loại với bộ lọc đã huấn luyện giúp cải thiện kết quả, thì bước chọn và rút trích đặc trưng lại là mấu chốt giúp phản ánh được loại đối tượng, và luận văn tập trung chính vào phần này
2.1.3 Các loại đối tượng chuyển động và đặc trưng
Các nghiên cứu liên quan
Hiện tại, có nhiều công trình nghiên cứu về phân loại đối tượng, mỗi công trình nghiên cứu đã đạt được một số thành tựu nhất định Elgammal [17], [18] đã đề xuất phương pháp NKDE (Nonparametric Kernel Density
Estimation) phát hiện được chuyển động cho cảnh (cảnh trí, các đối tượng không chuyển động) và vật (các đối tượng chuyển động) không phụ thuộc đặc tính cảnh vật, xử lý được các chuyển động nhỏ như cành cây dao động, thích ứng với ánh sáng thay đổi, khử được bóng của đối tượng, sự che khuất của nhánh cây, hay điều kiện trời mưa Nhược điểm chính của phương pháp này là chi phí tính toán cao, không đáp ứng được yêu cầu về thời gian thực của hệ thống Stauffer [19] đã đề xuất sử dụng phương pháp GMM (Gaussian Mixture Model) để khắc phục nhược điểm của phương pháp do Elgammal đề xuất Phương pháp này có tính ổn định, đáp ứng yêu cầu thời gian thực cho cảnh ngoài trời, thích ứng được với sự thay đổi ánh sáng chậm, những thay đổi nhỏ lặp lại như nhánh cây rung trong gió, sự thay đổi cảnh trong thời gian dài, đối tượng di chuyển chậm Nhược điểm chính của phương pháp này là chưa thể xử lý sự che khuất đối tượng và ánh sáng thay đổi nhanh sẽ làm kết quả không chính xác Một đề xuất gần đây là Wang [6] với phương pháp FTSG (Flux Tensor với Split Gaussian Models), phương pháp này có kết quả vượt trội về độ chính xác trong nhiều điều kiện như thời tiết xấu, khử được bóng của đối tượng, đối tượng di chuyển, dừng lại rồi lại di chuyển, đối tượng ngừng di chuyển, cảnh ban đêm, nền động như vòi nước, mặt hồ, camera di chuyển, sự thay đổi của ánh sáng môi trường v.v Phương pháp này kết hợp nhiều thành phần nên có độ phức tạp cao hơn GMM, bù lại có sự chính xác cao hơn cả NKDE
Lin [20] đã đề xuất phương pháp CAR (Contour Area Rate) dùng để phân biệt xe hơi và xe máy vì khi chuyển về cùng tỷ lệ khung bao, diện tích xe máy sẽ nhỏ hơn xe hơi, nhưng chiều dài đường biên lại lớn hơn Ý tưởng này khá tương đồng với ý tưởng của Lipton [21], tác giả đã phân biệt người và xe dựa trên diện tích người nhỏ hơn nhưng chiều dài đường biên lớn hơn Dalal [22] đã đề xuất phương pháp HOG (Histogram of Oriented Gradients) để phân biệt người và xe Javed [23] đề xuất phương pháp RMI (Recurrent Motion Image) để phát hiện đối tượng người nhờ việc tính toán các chuyển động lặp lại ví dụ như chuyển động chân khi bước đi Các đặc trưng nói trên cho ta độ chính xác tương đối, nhưng lại phức tạp về tính toán
Về phương pháp huấn luyện và phân loại cũng có nhiều công trình, trong đó có Vapnik [24] đã đề xuất phương pháp SVM (Support Vector Machine) cho độ chính xác cao, chống chịu được các nhiễu của dữ liệu, nhưng phương pháp này có độ phức tạp cao nên xử lý chậm và tốn thời gian huấn luyện nhiều Freund [25] đã đề xuất phương pháp AdaBoost cho phép kết hợp dễ dàng các bộ lọc yếu để tạo thành một bộ lọc tốt hơn với độ chính xác trong mỗi trường hợp sẽ chọn theo bộ lọc con tốt nhất trong trường hợp đó Phương pháp này cho tốc độ phân loại nhanh, dễ cài đặt, thích nghi sửa lỗi qua từng lần học nên huấn luyện nhanh, bù lại, nếu dữ liệu có độ nhiễu sẽ không thích hợp dùng phương pháp này
Tuy nhiên, hầu hết các phương pháp trên chưa đạt được độ chính xác cao, phức tạp và chưa đáp ứng được yêu cầu về thời gian thực
Tại Việt Nam, đa số các trường đại học đều có giảng dạy môn Xử lý ảnh (kể cả thị giác máy tính) và Đồ họa máy tính trong chương trình đào tạo đại học hay sau đại học Các môn học này cung cấp kiến thức cần thiết cho lĩnh vực xử lý ảnh kỹ thuật số
Hiện tại, có ít nhóm nghiên cứu về xử lý ảnh, video ở Việt Nam Lĩnh vực xử lý video trong phân loại đối tượng chưa được nghiên cứu sâu tại Việt Nam Việc áp dụng phương pháp xử lý ảnh, video vào trong cuộc sống còn rời rạc, thiếu sự tích hợp của lĩnh vực công nghệ thông tin và các lĩnh vực khác với nhau
Theo khảo sát của chúng tôi, một số ứng dụng trong giao thông mà chúng tôi đã khảo sát ở TPHCM đều sử dụng các camera quan sát và ghi nhận thông tin Tuy nhiên, việc phân loại đối tượng thường dựa vào người ngồi trước màn hình quan sát Điều này dẫn đến việc không thể nhìn xuyên suốt 100% thời gian trên màn hình để phân loại đối tượng Đôi khi việc phân loại theo phương pháp thủ công còn có nhiều sai sót Do đó, chúng chưa đáp ứng được yêu cầu thực tế Chính vì vậy, mảng phân loại đối tượng trên đường phố nói chung còn sơ khai, chưa có nhiều nghiên cứu có sức ảnh hưởng lớn trong những năm gần đây.
Phương pháp nghiên cứu
Nghiên cứu lý thuyết: nghiên cứu bắt đầu bằng việc tìm hiểu thu thập các tài liệu quan đến đề tài như các bài báo trên các tạp chí, hội nghị quốc tế có uy tín như Springer, IEEE, EAI, … Sau đó, đề tài tiến hành xem xét nghiên cứu, đánh giá các phương pháp hiện có về phân loại đối tượng, những ưu điểm đang có là gì, nhược điểm cần khắc phục, cũng như tình hình các kết quả dã đạt được trong lĩnh vực phân loại đối tượng Cuối cùng, về mặt lý thuyết, đề tài tiến hành chọn lựa và đề xuất một giải thuật cùng một số cải tiến nhằm hướng tới kết quả phân loại tốt hơn những gì mà các đề xuất hiện tại đã làm được
Nghiên cứu thực nghiệm: việc tiến hành thực nghiệm bằng cách cài đặt giải thuật đã đề xuất nhằm kiểm định những lý thuyết, lý luận và đánh giá đã tìm hiểu trước đó với môi trường thực tế Những kết quả đo đạc bằng số liệu
32 cụ thể sẽ được so sánh với những đề xuất đã có nhằm khẳng định tính vượt trội của nghiên cứu
GIẢI THUẬT ĐỀ XUẤT PHÂN LOẠI ĐỐI TƯỢNG
Yêu cầu bài toán
Bài toán đặt ra vấn đề phân loại được các đối tượng chuyển động trong các video giám sát cảnh trên đường phố, hướng đến việc giải quyết hay hỗ trợ giải quyết các vấn đề liên quan đến giao thông nói chung, nhằm cải thiện chất lượng cuộc sống con người
Bài toán nhận dữ liệu vào là các đoạn video ghi hình cảnh trên đường phố với các đối tượng chuyển động:
- Cảnh quay xét trong các điều kiện thông thường: máy quay đặt cố định, ánh sáng đủ để nhận ra chuyển động, hình ảnh đối tượng đủ lớn và rõ để phân biệt giữa các đối tượng với nhau bằng mắt người
- Cảnh quay gồm các đối tượng đơn lẻ di chuyển có thể đồng thời với chuyển động thành phần như đánh tay, bước chân, di chuyển chậm, đổi hướng hay ngừng chuyển động
- Cảnh quay giới hạn không xét đến các trường hợp nhiễu trong các điều kiện thực tế như cành cây, ngọn cỏ lây động trong gió, sự thay đổi ánh sáng như là do có mây che ngang mặt trời, bóng đối tượng do nắng, hay cảnh ban đêm với đèn đường; đối tượng bi che khuất, di chuyển hay tương tác cùng nhau thành vùng liền, v.v
Bài toán có đầu ra là loại của đối tượng: người và xe hơi, vốn là hai loại đối tượng chính trong các cảnh trên đường phố.
Giải thuật đề xuất
Các giải thuật phân loại đối tượng thường phải đánh đổi giữa tỷ lệ chính xác và tốc độ xử lý Một giải thuật sử dụng nhiều đặc trưng, tính toán xử lý cho nhiều trường hợp ảnh hưởng bởi môi trường sẽ cho kết quả chính xác hơn, nhưng không đáp ứng yêu cầu thời gian thực Ngược lại, giải thuật đơn giản với ít đặc trưng và khả năng chính xác trong nhiều điều kiện không
34 cao sẽ có tốc độ tốt hơn Trong giải thuật đề xuất này, luận văn đã chọn lựa các giải pháp thành phần không quá phức tạp, có hiệu quả chính xác tốt, tuy rằng tốc độ xử lý còn hạn chế do điểm thắt cổ chai ở phần rút trích đặc trưng đường biên nhưng cho thấy triển vọng phát triển hơn nữa trong tương lai Mô hình tổng quát của giải thuật như hình 3.1:
Quá trình phân loại đối tượng Đầu ra Đầu vào
3 Phát hiện đối tượng chuyển động bằng FTSG & blob analysis
4 Rút trích đặc trưng Đặc trưng đường biên bởi NSCT + Zernike Moment
5 Phân loại đối tượng bằng Gentle Boost
2 Khung hình Đặc trưng đơn giản: tỷ lệ cạnh
Hình 3.1: Giải thuật đề xuất Giải thuật có đầu vào là các video giám sát, chúng được tách ra thành nhiều khung hình hay ảnh và tiến hành xử lý lần lượt từng ảnh qua 3 bước chính: phát hiện đối tượng chuyển động, rút trích đặc trưng và phân loại đối tượng Kết quả đầu ra sẽ cho biết loại đối tượng là người hay xe hơi
Các video giám sát phổ biến là đến từ các máy quay ghi hình được đặt cố định trên đường phố, các khu vực công cộng lớn, hay trong các toà nhà văn phòng, trường học, cửa hàng Với đề tài, chỉ mới dừng lại ở mức thử nghiệm giải thuật đề xuất, nên sẽ dùng tập dữ liệu video đã có sẵn trên các cơ sở dữ liệu phổ biến để kiểm tra, không xét đến các loại video do các máy quay đặc biệt khác ghi lại như máy quay hồng ngoại
Viêc phát hiện đối tượng chuyển động và phân loại sẽ không thể thực hiện trực tiếp trên các video giám sát mà cần tách ra và xử lý trên từng khung hình của video Mỗi khung hình lưu giữ cảnh chụp lại của từng thời điểm, nhằm cho phép việc phân tích xử lý trên ảnh tĩnh Thông tin xử lý của các khung hình được kết hợp lại thành kết quả xử lý của cả video
3.2.3 Phát hiện đối tượng chuyển động
Bước phát hiện đối tượng chuyển động sẽ gồm hai bước chính Đầu tiên là mô hình nền với FTSG [6] để tìm ra các vùng ảnh có chứa đối tượng chuyển động Kết quả thu được là mặt nạ nhị phân với 0 là nền và 1 là vùng chuyển động Sau đó, bước thứ hai là xác định các đối tượng chuyển động dựa trên các vùng đã đánh dấu bởi mặt nạ bằng blob analysis [26] Kết quả thu được là các khung bao từng đối tượng chuyển động có trong khung hình a) Mô hình nền bằng FTSG
Trong các giải thuật mô hình nền, luận văn lựa chọn giải thuật FTSG do Wang [6] đề xuất Giải thuật này khá mới, được công bố năm 2014, với ưu điểm là có mức độ phức tạp đủ để đạt được tính chính xác cao, lại thích nghi được với nhiều điều kiện nhiễu như sự thay đổi ánh sáng, thời tiết xấu, nền có các chuyển động nhỏ như cành cây rung rinh, các đối tượng di chuyển chậm, ngừng di chuyển v.v, nhưng tốc độ xử lý vừa phải (khoảng 10 khung hình/giây cho video 320x240) Giải thuật này mới được công bố gần đây nên chưa có sẵn mã nguồn, và trong luận văn đã tiến hành hiện thực lại theo mô tả của tác giả Sự chọn lựa đầu tư công sức này dựa trên hai yếu tố là kết quả công bố vượt trội của giải thuật này so với nhiều giải thuật đã có trước đó và nhận định, bước mô hình nền là đầu vào đầu tiên hết cho toàn giải thuật, nên sự kém chính xác ở bước này chắc chắn là chặn trên về tính chính xác cho cả giải thuật tổng thể
Giải thuật FTSG được hiện thực lại có một điểm cải tiến nhỏ như đã trình bày trong 2.1.6 là phần giải thuật Flux Tensor giảm từ 3 tích chập xuống còn 2 tích chập cho việc tính đạo hàm b) Xác định các khung bao đối tượng chuyển động bằng blob analysis
Giải thuật xác định các khung bao từ mặt nạ chuyển động đến từ Blob Analysis [26] của Matlab, đây là một lớp sẵn có do Matlab cung cấp, nó nhận vào mặt nạ FFinal và trả ra thông tin các khung bao theo dạng (x, y, rộng, cao) Các vùng nhỏ, rời rạc vốn là các nhiễu ở bước mô hình nền sẽ được loại trừ Thông tin các vùng nhiễu này sẽ được dùng cập nhật lại cho mô hình nền của
SG để học vào các nhiễu này
Với mong muốn đạt được tốc độ rút trích đặc trưng tốt, cũng như vector đặc trưng tối giãn nhất nhưng đủ để huấn luyện và phân loại, đề tài chọn hai đặc trưng: một là tỷ lệ cạnh - đơn giản có thể tính toán nhanh chóng để hỗ trợ phân loại và hai là đặc trưng đường biên - đặc trưng chính nhằm đảm bảo độ chính xác cao cho phương pháp Mỗi khung bao đối tượng sẽ được rút trích ra vector đặc trưng gồm hai con số: tỷ lệ cạnh và giá trị Zernike NSCT phản ánh đường biên Đặc trưng đơn giản theo hình dạng là tỷ lệ cạnh
Aspect Ratio = Width / Height (15) Với:
Width và Height là chiều rộng và chiều cao tính theo pixel của khung bao
Aspect Ratio là tỷ lệ cạnh Đặc trưng tỷ lệ cạnh rất đơn giản nhưng hiệu quả Đặc trưng này dựa trên quan sát rằng khung bao của người thường có chiều rộng ít hơn chiều cao, còn xe thì ngược lại Điều này đặc biệt đúng với đa số cảnh ngoài trời vì
37 con người thường xuất hiện trong tư thế đứng như là đi bộ, chạy Đối với xe, hầu hết thực tế thường có chiều rộng nhiều hơn chiều cao và chỉ có 1 tư thế mà thôi Tuy nhiên, không có nghĩa là đặc trưng này luôn luôn đúng, nó vẫn có thể thất bại trong những trường hợp như là con người đang ngồi, lúc này chiều cao giảm một nửa so với khi đứng Hoặc anh ta giơ hai tay sang ngang cũng làm chiều rộng khung bao tăng thêm nhiều Đối với xe, thì đó có thể là vấn đề góc đặt máy quay Nếu hướng nhìn của camera cùng hướng với hướng di chuyển của xe thì nó sẽ có chiều cao nhiều hơn chiều rộng Nhưng, những trường hợp như vậy sẽ ít hơn Đặc trưng tỷ lệ cạnh được chọn kết hợp với đặc trưng chính – đường biên bởi vì nó nhanh và nó khác hoàn toàn bản chất, nhờ đó khi hợp của hai tập các trường hợp sai của hai đặc trưng sẽ nhỏ hơn Khi tỷ lệ cạnh sai vì tư thế của người hay góc nhìn của xe, đường biên sẽ hỗ trợ được nhờ tập huấn luyện có nhiều tư thế và góc nhìn Trong trường hợp đường biên bị mờ, hay không chính xác vì trùng với màu nền xung quanh, hay giải thuật phát hiện cạnh không tốt, thì tỷ lệ cạnh sẽ bù lại Đặc trưng chính là giá trị Zernike NSCT
Giá trị Zernike NSCT là một con số đại diện cho đặc tính đường biên của đối tượng và được dùng phân biệt giữa người và xe Nó được tính toán là độ lớn của Zernike moment trên ảnh nhị phân đường biên của khung bao đối tượng như sau: đầu tiên, ảnh khung bao đối tượng được phát hiện cạnh bằng
NSCT [13] Tham số các mức phân tách của NSCT được dùng là [0, 1, 3] Tham số này có 3 số, nghĩa là sử dụng 3 mức hình kim tự tháp (từ tỷ lệ thô đến mịn hơn) Số đầu tiên - 0 nghĩa là tại mức 1 của hình kim tự tháp, mức của sự phân tách ngân hàng bộ lọc hướng sẽ là 2 mũ 0 bằng 1 Đó chính là ảnh đường biên nhận được khi tổng hợp từ 2 mức tiếp theo Mức thứ hai của kim tự tháp là 2 mũ 1 bằng 2 Nó chính là nên ở mức này ta thấy có 2 ảnh với hướng năng lượng phân bố chiều ngang và dọc Tương tự, mức thứ 3 là , nghĩa là 8 ảnh với năng lượng xoay vòng 8 phía Sự tổng hợp lại từ
38 mức 3, mức 2, đến mức 1 sẽ cho ta ảnh đường biên với năng lượng tại tất cả các hướng được giữ lại Số mức và số hướng tại mỗi mức được chọn sao cho hiệu quả tính toán và đủ tốt để rút trích đường biên Trong thí nghiệm, NSCT khá chậm, nhưng 3 mức và tối đa 8 hướng là hợp lý Tuy không phải tất cả ảnh đường biên thu được đều hoàn hảo nhưng nó đủ tốt cho kết quả phân loại
Phương pháp đánh giá kết quả
Phương pháp định lượng: ghi nhận các kết quả thử nghiệm dưới dạng bảng số liệu để đánh giá dựa trên hai chỉ số là tỷ lệ chính xác theo phần trăm, và tốc độ trung bình xử lý theo số ảnh đối tượng trên giây
Giải thuật đề xuất dự kiến sẽ được so sánh với phương pháp do Somasundaram [34] đề xuất, giải thuật này là giải thuật gần đây nhất (năm 2012) theo đề tài biết mà có thử nghiệm trên tập dữ liệu PETS 2001 [35] giống đề tài, giải thuật cũng đạt độ chính xác rất cao (95.7%)
THỰC NGHIỆM VÀ KẾT QUẢ
Tập dữ liệu test
Đề tài tập trung vào các cảnh đường phố ngoài trời, vì thế tập dữ liệu PETS 2001 [35] được sử dụng Các video có độ phân giải 768 x 576 và tốc độ
25 khung hình/giây Dataset 1, 2 và 3 được dùng, trong đó mỗi dataset có phân chia sẵn thành thư mục dữ liệu huấn luyện và kiểm tra Dữ liệu huấn luyện sau bước rút trích khung bao đối tượng chuyển động rồi được chọn lựa lại gồm có 4,710 hình người và 2,714 hình xe hơi, loại bỏ các hình sai và các hình không thuộc đề tài như nhóm người, nhóm xe v.v Dữ liệu kiểm tra sau bước rút trích khung bao đối tượng có 16,198 hình người và 5,160 hình xe hơi, trong đó, chọn ra 5,830 hình người và 2,093 hình xe hơi có khung bao bắt tương đối đủ đối tượng, phù hợp để đánh giá đặc trưng đề xuất Một số cảnh trong tập dữ liệu huấn luyện, test và ảnh mẫu khung bao đối tượng người và xe trong các hình 4.1, 4.2 và 4.3
Hình 4.1 Các cảnh trong dataset huấn luyện (a) và (b) là các cảnh của dataset huấn luyện 1 (c) và (d) là các cảnh của dataset huấn luyện 2 (e) và (f) là các cảnh của dataset huấn luyện 3
Hình 4.2 Các cảnh trong dataset kiểm tra (a) và (b) là các cảnh của dataset kiểm tra 1 (c) và (d) là các cảnh của dataset kiểm tra 2 (e) và (f) là các cảnh của dataset kiểm tra 3
(a) (b) (c) (d) Hình 4.3 Các ảnh khung bao đối tượng mẫu (a) và (b) là xe hơi và người trong dữ liệu huấn luyện (c) và (d) là xe hơi và người trong dữ lieu kiểm tra.
Thí nghiệm
Để việc thí nghiệm được nhanh chóng và tiện lợi hơn thì quá trình thí nghiệm được chia thành nhiều giai đoạn riêng rẽ ứng với từng bước của giải thuật:
- Đầu tiên, phần phát hiện đối tượng chuyển động được thực thi với dữ liệu là các video đã nói ở phần 4.1 nhằm lấy ra tập hình ảnh khung bao đối tượng
- Sau đó, tập hình này gồm dữ liệu huấn luyện và kiểm tra của từng dataset được phân loại bằng mắt người thành bốn thư mục tương ứng hình người, xe hơi, nhóm đối tượng hay loại đối tượng ngoài giới hạn đề tài như xe tải nhỏ, người đi xe đạp, và cuối cùng là nhóm hình bắt sai vào nền
- Bước thứ ba là việc tạo dữ liệu huấn luyện từ tập ảnh khung bao đối tượng đã phân loại như trên bằng cách thực thi giải thuât rút trích đặc trưng trên từng ảnh, lấy ra hai giá trị đặc trưng tương ứng, rồi lưu lại theo đúng định dạng làm tập tin dữ liệu huấn luyện
- Bước thứ tư là kiểm tra độ chính xác bằng cách khởi tạo bộ phân loại Gentle boost với file dữ liệu huấn luyện, rồi cho thực thi việc phân loại trên tập ảnh khung bao kiểm tra, kết quả xuất ra được đối chiếu tự động với tên thư mục chứa ảnh cũng là kết quả phân loại bằng mắt người để biết độ chính xác
Việc phân chia này cho phép khi có sai sót hay điều chỉnh cần phải làm lại thí nghiệm thì chỉ cần thực hiện từ bước có điều chỉnh về sau, giảm công sức người và thời gian chờ máy tính thực hiện thí nghiệm Việc phân loại bằng mắt và xếp riêng từng thư mục theo loại đối tượng ở bước thứ hai cho phép các bước 3 và 4 mỗi khi chạy lại có thể tự động biết được loại chính xác của ảnh để tạo dữ liệu huấn luyện cũng như đếm tự động số lượng ảnh chính xác khi phân loại dữ liệu kiểm tra
Thí nghiệm được cài đặt trên Matlab phiên bản 2013a, ngoài các thư viện sẵn có của Matlab, có sử dụng mã nguồn NSCT và Zernike moments do bài báo tham khảo tương ứng cung cấp
Thí nghiệm thực thi trên máy tính xách tay tính với cấu hình: bộ vi xử lý Intel i7 4700MQ 2.4 GHz, bộ nhớ RAM 16 GB DDR3, hệ điều hành Windows 7 64bit Professional.
Đánh giá kết quả
Một số kết quả kiểm tra giải thuật đã khoanh vùng và đưa ra loại của đối tượng trên 6 video kiểm tra được thể hiện trong các hình 4.4, 4.5, 4.6, 4.7, 4.8, 4.9
Hình 4.4 Các cảnh trong dataset kiểm tra 1, video 1 với khung bao và loại của đối tượng (a), (b), (c), (d), (e), (f), (g), (h), (i), (j) là các cảnh chụp lại ngẫu nhiên ứng với các diễn tiến của video
Hình 4.5 Các cảnh trong dataset kiểm tra 1, video 2 với khung bao và loại của đối tượng (a), (b), (c), (d), (e), (f), (g), (h), (i), (j) là các cảnh chụp lại ngẫu nhiên ứng với các diễn tiến của video
Hình 4.6 Các cảnh trong dataset kiểm tra 2, video 1 với khung bao và loại của đối tượng (a), (b), (c), (d), (e), (f), (g), (h), (i), (j) là các cảnh chụp lại ngẫu nhiên ứng với các diễn tiến của video
Hình 4.7 Các cảnh trong dataset kiểm tra 2, video 2 với khung bao và loại của đối tượng (a), (b), (c), (d), (e), (f), (g), (h), (i), (j) là các cảnh chụp lại ngẫu nhiên ứng với các diễn tiến của video
Hình 4.8 Các cảnh trong dataset kiểm tra 3, video 1 với khung bao và loại của đối tượng (a), (b), (c), (d), (e), (f), (g), (h), (i), (j) là các cảnh chụp lại ngẫu nhiên ứng với các diễn tiến của video Từ hình d) là giải thuật chạy từ frame thứ 1300 (vì khoảng trước đó không có chuyển động)
Hình 4.9 Các cảnh trong dataset kiểm tra 3, video 2 với khung bao và loại của đối tượng (a), (b), (c), (d), (e), (f), (g), (h), (i), (j) là các cảnh chụp lại ngẫu nhiên ứng với các diễn tiến của video Từ hình c) là giải thuật chạy từ frame thứ 1000 (vì khoảng trước đó không có chuyển động)
Tuy nhiên, giải thuật mô hình nền FTSG được hiện thực một cách không hoàn hảo vì nhiều lý do khách quan lẫn chủ quan Trong đó, về chủ
55 quan, kiến thức của học viên thực hiện luận văn còn hạn chế nên không thể nắm bắt hết một số điểm về mặt toán học của giải thuật Về khách quan, vì đề tài thuần túy là dựa trên tài liệu bài báo công bố và các bài báo liên quan để hiện thực, nên gặp khá nhiều khó khăn, do nội dung trình bày bài báo khá cô động, thiếu đi một số chi tiết cần thiết để hiện thực lại Một vài trong số đó có thể kể đến như việc tính toán tích chập như thế nào trong Flux tensor, khi có đủ nDt kết quả trung gian trong hàng đợi, việc nhân với bộ lọc đạo hàm thời gian với từng kết quả trung gian hay như thế nào, để sau đó ta chỉ nhận ra 1 kết quả trung gian để đi tiếp? Đề tài chỉ có thể đoán và chọn một số cách làm, nhưng kết quả mặt nạ nhị phân cho ra của Flux tensor không giống như mô tả của bài báo công bố Hay các tham số cần thiết không được cung cấp như các bộ lọc dùng tính toán Flux Tensor, tham số ngưỡng Tl cho mô hình nền của Split Gaussian Models để loại bỏ các phân phối không còn đúng nữa (trọng số thấp hơn ngưỡng), điều này dẫn tới, các đoạn video càng dài, tốc độ sẽ càng chậm do số lượng phân phối Gaussian được thêm vào nhiều nhưng xóa ra ít Với đoạn video có thời gian dài 20 phút (~25 khung hình/giây), giải thuật mô hình nền có thể cần đến 6 giờ để xử lý Trong các hình kết quả trên, với dataset kiểm tra 3, các phần đầu của 2 video trong dataset này có đoạn đầu dài là sự thay đổi ánh sáng mà không có chuyển động nào, và giải thuật FTSG hiện thực chưa đúng nên đã bị bắt nhầm rất nhiều, vì thế, giải thuật được chạy bỏ qua đoạn thay đổi ánh sáng này, chỉ chụp ảnh demo phần bị sai ở đầu trong hình 4.8a,b,c và 4.9a,b Trong khuôn khổ thời gian thực hiện, đề tài cũng đã xem xét và thử nghiệm nhưng vẫn chưa thể hiện thực giải thuật FTSG để cho ra kết quả như mô tả trong bài báo công bố vì thế, giải thuật bắt sai các vùng không chuyển động rất nhiều
Ta dễ dàng thấy rằng độ chính xác tổng thể sẽ chịu ảnh hưởng rất nhiều bởi bước phát hiện đối tượng chuyển động, và ở bước phân loại cuối cùng sẽ so sánh với kết quả phân loại bởi mắt người nên các đối tượng bị bắt sai trong phần phát hiện chuyển động (không di chuyển, hay khung bao lớn hơn gấp
56 đôi chiều ngang hay rộng của đối tượng, khung bao chỉ bắt được 1 phần đối tượng, chưa đủ 70% đối tượng) và các đối tượng mà mắt người không thể nhận ra nếu không có toàn bộ khung hình gốc sẽ bị bỏ qua Đó là các điều kiện để có kết quả như bảng 4.1 – chỉ xét 5,830 hình người và 2,093 hình xe hơi đủ điều kiện Điều này nhằm tập trung phản ánh độ chính xác của đặc trưng đề xuất (xét trên các ảnh kết quả đúng của bước phát hiện đối tượng chuyển động) Bảng 4.3 sẽ là kết quả tổng hợp tất cả giai đoạn và các sai sót qua từng giai đoạn Mỗi khung hình trong video có thể có nhiều đối tượng và mỗi khung bao từng đối tượng này sẽ tính như là một thể hiện của lớp đối tượng đó Vì đề tài sử dụng đường biên làm đặc trưng, nên khi đối tượng thay đổi tư thế ta đều xem là một ảnh mới cần phân loại lại xem còn nhận ra đúng nữa không Tốc độ xử lý đo trên số ảnh khung bao hay số đối tượng phân loại được, và chỉ xét trong giai đoạn từ ảnh khung bao, ta rút trích đặc trưng rồi phân loại Nếu khung hình có nhiều đối tượng hay kích thước khung bao lớn hơn thì tốc độ xử lý xét trên khung hình sẽ thấp hơn Kết quả thí nghiệm được thể hiện trong bảng 4.1, bảng 4.2 và bảng 4.3
Người Xe hơi Độ chính xác trên từng lớp
Tốc độ trung bình 2.0 đối tượng/giây Độ chính xác tổng thể
Bảng 4.1: Kết quả thí nghiệm cuả giải thuật đề xuất khi chỉ xét các ảnh khung bao thỏa các điều kiện nói trên
Bảng trên cho thấy kết quả phân loại với dữ liệu kiểm tra Số ảnh người được phân loại đúng là 5,685 so với 145 ảnh bị nhận nhầm là xe hơi trong tổng cộng 5,830 ảnh người Đối với 2,093 ảnh xe hơi, bộ phân loại nhận đúng 1,981 ảnh và bị nhầm thành người 112 ảnh Độ chính xác tổng thể cho cả hai lớp đối tượng là 96.8% với tốc độ 2.0 đối tượng/giây Các trường hợp sai của đề xuất là khi các đối tượng bị che khuất một phần như di chuyển vào hay ra khỏi cảnh, bị che bởi một cái gì đó hay khung bao không sát vào đối tượng
Tuy nhiên kết quả trên khá tốt với sự kết hợp đơn giản của chỉ hai đặc trưng Giới hạn về tốc độ của giải thuật NSCT khiến thí nghiệm mất nhiều thời gian và khó chạy được trên nhiều tập dữ liệu hơn nhưng nó cũng đủ cho thấy sự hứa hẹn của đề xuất khi so sánh với một đề xuất khác của Somasundaram như trong bảng 4.2 Đề tài Somasundaram [34] Độ chính xác đặc trưng 96.8% 95.7%
Bảng 4.2: So sánh giữa đề tài khi chỉ xét các ảnh khung bao thỏa các điều kiện với đề xuất của Somasundaram
Somasundaram sử dụng các đặc trưng diện tích, vận tốc, DHOG và DCOV và kết hợp chúng lại bằng bộ phân loại Naive Bayes Những đặc trưng này cũng đơn giản và đạt được kết quả cao khi kết hợp cùng nhau DHOG cải tiến HOG để phản ánh được đặc tính chuyển động cứng nhắc hay không giữa xe hơi với con người vì người di chuyển thường có chuyển động thành phần của tay và chân chứ không như xe chỉ là 1 khối chuyển động DCOV sử dụng màu sắc, đạo hàm riêng cấp 1 – nhấn mạnh đường biên và đạo hàm riêng cấp
2 - làm sắc nét đường biên để phân biệt người và xe Cả hai đặc trưng DHOG và DCOV được xét trong sự sai khác cùng với khoảng cách di chuyển của đối tượng qua các khung hình kế cận trên tổng số khung hình quan sát
Ta thấy Somasundaram dùng đặc trưng vận tốc, đây là một yếu tố không thuận lợi, vì thường chúng ta không có sẵn các thông tin đo đạc thực tế cho từng camera quan sát đặt trên đường, và để làm điều này sẽ tăng chi phí mỗi lần lắp đặt camera cũng như thay đổi điều chỉnh vị trí Nhưng vấn đề chính có thể thấy trong cách tiếp cận là chủ yếu dựa vào thể hiện bên ngoài, đây càng là điềm yếu với các video cảnh đường phố mà chính tác giả cũng thừa nhận Vì các cảnh đường phố thường được ghi nhận ở khoảng cách vừa hoặc xa dẫn đến ảnh đối tượng được trích ra có độ phân giải thấp Các chi tiết như tay chân, màu sắc quần áo, hay sự di chuyển vị trí nhiều khi không rõ Đề tài sử dụng đặc trưng chính là đường biên, nên ít phụ thuộc vào độ phân giải
58 hơn là các chi tiết bên trong đường biên của đối tượng Khi cảnh càng xa, càng ít chi tiết bên trong, nhưng đường biên tổng thể thường vẫn còn rõ Đó chính là lý do đề tài đạt được độ chính xác tổng thể cao hơn đề xuất của Somasundaram