Hình ảnh ảnh gốc trong cơ sở dữ liệu

Một phần của tài liệu Nhận diện và theo dấu đối tượng trên hệ thống nhiều camera (Trang 77 - 95)

6 Tổng kết

5.3 Hình ảnh ảnh gốc trong cơ sở dữ liệu

Thêm vào đó, nhóm cũng đã thực hiện việc phục hồi khn mặt. Tuy nhiên, những kết quả thu được chưa khả quan vì mơ hình pretrain chưa thể hoạt động tốt trên tập dữ liệu ít sự đa dạng. Mặt khác, do mật độ mất mát thông tin quá lớn nên khi phục hồi ảnh cũng gặp rất nhiều bất lợi vì cần rất nhiều dữ liệu và thời gian để huấn luyện. Do đó, những nghiên cứu về phục hồi ảnh cho khn mặt đeo khẩu trang chưa tỏ ra có hiệu quả để khắc phục nhược điểm của vấn đề này.

5.4 Truy vết

Mục tiêu của phần này là để đánh giá độ chính xác của mơ hình truy vết đề xuất của đề tài cũng như so sánh kết quả giữa những cấu hình khác nhau của mơ hình truy vết. Mơ hình truy vết sẽ được đánh giá trên tập dữ liệu MTA (mục 5.1.1) và tập dữ liệu THD (mục 5.1.2). Như đã đề cập ở mục, mơ hình truy vết gồm hai bước là truy vết trên từng máy quay riêng lẻ và truy vết trên tất cả máy quay vì vậy mơ hình đề xuất sẽ được đánh giá trên cả hai phương diện truy vết trên từng máy quay và truy vết trên nhiều máy quay. Cụ thể, đối với việc đánh giá kết quả truy vết trên từng máy quay, nhóm tiến hành so sánh mơ hình truy vết sử dụng bộ xác định khung người Faster R-CNN và Mask R-CNN như đã đề cập ở mục 4.2.2. Đối với việc đánh giá kết quả trên nhiều máy quay, mơ hình WDA_Tracker trong bài báo [17] sẽ được so sánh với mơ hình truy vết đề xuất

của đề tài WRDA_Tracker khi lần lượt sử dụng bộ xác định khung người Faster R-CNN và Mask R-CNN. Tất cả những mơ hình truy vết dùng để đánh giá đều có một điểm chung là dùng mơ hình rút trích đặc trưng ABD-Net được huấn luyện trước trên tập dữ liệu Duke-MCMT-ReID. Cuối cùng ta sẽ đánh giá kết quả truy vết trên tiêu chí IDF1, IDP, IDR, MT, , ML, IDs, FM và MOTA. Các tiêu chí này đã được đề cập và giải thích ở mục 3.4. Cuối cùng, một số ký hiệu trong bảng kết quả mang ý nghĩa như sau:

• ↑: những tiêu chí đi kèm với ký hiệu này thể hiện giá trị của tiêu chí càng cao càng

tốt

• ↓: những tiêu chí đi kèm với ký hiệu này thể hiện giá trị của tiêu chí càng cao càng

tốt

• Số in đậm: Thể hiện kết quả tốt nhất của một tiêu chí trong tất cả các cách tiếp cận. Ngồi ra, nhóm cịn tiến hành đo số khung hình trên một giây (FPS) mà framework có thể xử lý được trên cả 2 tập dữ liệu. Quá trình đo tốc độ này được chạy trên máy tính có cấu hình như sau:

GPU: Tesla V100 FHHL 16 Gigabyte

RAM: 189 Gigabyte

5.4.1 Kiểm thử trên tập dữ liệu MTA

Bảng 5.10 thể hiện kết quả truy vết trung bình trên 6 máy quay của tập dữ liệu MTA khi dùng 2 bộ xác định khung người khác nhau. Có thấy bộ xác định khung người Mask R-CNN cho ra kết quả tốt trên hầu hết các tiêu chí. Đáng chú ý là chỉ số IDF1 được cải thiện khoảng 20% so với khi sử Faster R-CNN (tằng từ 0.21 lên 0.25). Điều này chứng minh tác dụng cải thiện kết quả tái định của Mask R-CNN khi giúp mơ hình truy vết có được những đặc trưng ngoại hình tốt hơn như đã nhắc đến ở mục 4.2.2.

Bảng 5.11 là kết quả của việc truy vết trên nhiều máy quay của bộ truy vết WDA_Tracker

và mơ hình đề xuất của luận văn khi sử dụng Faster R-CNN và Mask R-CNN. Như đã đề cập ở mục 4.5.1, WDA_Tracker có sử dụng thêm 2 phép đo để giúp cải thiện việc truy vết trên nhiều máy quay vì vậy có thể thấy WDA_Tracker cho kết quả tốt hơn nhiều so với hai mơ hình của luận văn. Tuy nhiên, ta cũng có thể thấy được Mask R-CNN vẫn tiếp tục cho kết quả tốt hơn Faster R-CNN, đặc biệt khi giảm số lượng id của đối tượng bị đổi (IDs) từ 1788 xuống 1232 cũng như giảm số lượng các truy vết bị phân mảnh (FM) từ 8890 xuống 8193.

Tuy nhiên, các chỉ số kết quả truy vết trên từng máy quay và trên nhiều máy quay của tất cả mơ hình thử nghiệm đều cho kết quả tương đối thấp. Điều này có thể được giải thích bằng việc bộ xác định Faster R-CNN và Mask R-CNN cũng như bộ rút trích đặc trưng ABD-Net được sử dụng đều được huấn luyện trên những tập dữ liệu đời thật như COCO và DukeMTMC-Re-ID. Ngược lại, tập dữ liệu MTA là tập dữ liệu mô phỏng bởi trị chơi điện tử vì vậy các đối tượng, khung cảnh, màu sắc của tập dữ liệu này sẽ khơng thể giống hồn toàn như ngoài đời thật. Điều này sẽ được chứng minh ta kiểm thử mơ hình truy vết trên tập dữ liệu đời thật THD do nhóm tự gán nhãn ở phần 5.4.2.

Với tập dữ liệu MTA gồm 6 máy quay và gần 500 đối tượng, tốc độ xử lý của hệ thống nhận diện và truy vết trên nhiều máy quay có tốc độ xử lý 2.22 khung hình trên giây và dung lượng bộ nhớ trong được sử dụng là 7.5 GB.

KẾT QUẢ HIỆN THỰ Faster R-CNN 21.20 39.46 15.16 6 36 36 268 1448 32.03 DeepSORT w/ Mask R-CNN 25.24 46.12 17.02 6 36 36 266 1451 32.14

Bảng 5.10: Kết quả truy vết trung bình trên mỗi quay của tập dữ liệu MTA.

Approach IDF1↑ IDP↑ IDR↑ MT↑ PT↑ ML↓ IDs↓ FM↓ MOTA↑

WDA_Tracker 22.12 48.26 14.40 3 119 56 1005 8140 26.02

WRDA_Tracker

w/ Faster R-CNN 8.42 18.04 7.35 3 120 55 1788 8890 25.70

WRDA_Tracker

w/ Mask R-CNN 11.38 24.49 7.80 3 122 53 1232 8193 26.12

Bảng 5.11: Kết quả truy vết trên nhiều máy quay trên tập dữ liệu MTA.

5.4.2 Kiểm thử trên tập dữ liệu THD

Ta cũng tiến hành kiểm thử trên 3 testcase của tập dữ liệu THD như cách ta kiểm thử mơ hình truy vết trên tập dữ liệu MTA ở mục 5.4.1. Chi tiết về tập dữ liệu THD nằm ở mục 5.1.1.

5.4.2.1 Kết quả trên Testcase 1

Từ bảng 5.12 và bảng 5.13, một lần nữa, Mask R-CNN lại giúp mơ hình đề xuất của đề tài cải thiện độ chính xác trên đa số các tiêu chí tuy khơng nhiều khi so với Faster R-CNN trên cả hai bài toán truy vết trên từng máy quay và trên nhiều máy quay. Việc các chỉ số được cái thiện khơng q đáng kể có thể do Testcase 1 có thời lượng ngắn (21 giây) và ít đối tượng (3 đối tượng) dẫn tới sự chênh lệch giữa hai mơ hình khơng q đáng kể. Ngồi ra, ta có thể thấy ở bảng 5.13, mơ hình đề xuất của luận văn khi sử dụng bộ xác định người Faster R-CNN và Mask R-CNN đều cho kết quả truy vết tốt hơn nhiều so với mơ hình WDA_Tracker, cụ thể các chỉ số IDF1, IDP, IDR đều cao hơn khoảng

30%. Bởi vì việc mơ hình WDA_Tracker cần nhiều dữ liệu đã gán nhãn để thuật toán RANSAC có thể tìm được những điểm giao giữa các góc quay của những máy quay khác nhau từ đó mới có thể tính được ràng buộc về thời gian trên nhiều máy quaykhoảng

cách của đối tượng trên vùng giao của các máy quay như đã đề cập ở mục 4.5. Tuy nhiên,

trong testcase này, chỉ có một đối tượng đi qua cả 3 góc quay nên việc tìm vùng giao giữa các máy quay gặp khó khăn làm giảm độ chính xác của WDA_Tracker.

Với Testcase 1 gơm 3 đối tượng, tốc độ xử lý của hệ thống nhận diện và truy vết trên nhiều máy quay có tốc độ xử lý 7.3 khung hình trên giây và dung lượng bộ nhớ trong được sử dụng là 5.58 GB.

5.4.2.2 Kết quả trên Testcase 2

Ở Testcase 2, khi số lượng đối tượng tăng lên 9, ta có thể sự chênh lệch kết quả truy vết trên từng máy quay và trên nhiều máy quay giữa Mask R-CNN và Faster R-CNN ở bảng 5.14 và bảng 5.15 tăng lên nhiều so với khi ta kiểm thử trên Testcase 1. Đặc biệt, Mask R-CNN giúp cải thiện lên tận 6% các chỉ số tái định danh (IDF1, IDP, IDR) khi truy vết trên nhiều máy quay. Một điều đáng chú ý nữa trong Testcase này là khi các đối tượng đi qua nhiều máy quay tăng lên cũng giúp cho độ chính xác của mơ hình WDA_Tracker tăng lên khi cao hơn khoảng 25% ở các chỉ số IDF1, IDP, IDR so với mơ hình đề xuất của nhóm và giảm số lượng id của đối tượng bị thay (IDs) đổi xuống đáng kể cịn 1

Với Testcase 2 gơm 9 đối tượng, tốc độ xử lý của hệ thống nhận diện và truy vết trên nhiều máy quay có tốc độ xử lý 5 khung hình trên giây và dung lượng bộ nhớ trong được sử dụng là 5.8 GB.

5.4.2.3 Kết quả trên Testcase 3

Trong Testcase 3 này, các mơ hình truy vết sẽ được kiểm tra trên những thử thách của bài toán truy vết như là đám đông, các đối tượng che lấp lẫn nhau và đi xen kẽ nhau. Có thể thấy ở bảng 5.16, Mask R-CNN vẫn cho kết quả truy vết trên từng máy quay tốt hơn Faster R-CNN trên mọi chỉ số. Ở bảng kết quả truy vết trên nhiều máy quay 5.17, mơ hình truy vết đề xuất khi sử dụng Faster R-CNN có kết quả cao hơn so với Mask R-CNN ở các chỉ số tái định danh nhưng không nhiều. Tuy nhiên, bộ xác định người

Mask R-CNN có giúp giảm số lượng lượng id của đối tượng bị thay đổi (IDs) và số lượng kết quả truy vết bị đứt quãng (FM). Một điểm đáng lưu ý nữa là mơ hình truy vết của đề tài trong trường hợp sử dụng Faster R-CNN và Mask R-CNN đều cho kết quả truy vết trên nhiều máy quay tốt hơn mơ hình truy vết WDA_Tracker thể hiện được mơ hình

đề xuất của đề tài có thể hoạt động tốt hơn khi gặp những trường hợp khó của bài tốn truy vết đối tượng trên nhiều máy quay.

Với Testcase 3 gôm 7 đối tượng, tốc độ xử lý của hệ thống nhận diện và truy vết trên nhiều máy quay có tốc độ xử lý 4.88 khung hình trên giây và dung lượng bộ nhớ trong được sử dụng là 5.94 GB.

KẾT QUẢ HIỆN THỰ Faster R-CNN 82.94 91.20 76.80 2 1 0 0 4 84.85 DeepSORT w/ Mask R-CNN 83.81 90.46 78.55 2 1 0 0 3 86.44

Bảng 5.12: Kết quả truy vết trung bình trên mỗi máy quay khi đánh giá trên Testcase 1.

Approach IDF1↑ IDP↑ IDR↑ MT↑ PT↑ ML↓ IDs↓ FM↓ MOTA↑

WDA_Tracker 54.38 56.94 52.03 3 1 0 2 11 87.82

WRDA_Tracker

w/ Faster R-CNN 79.31 83.06 75.89 3 1 0 0 11 87.99

WRDA_Tracker

w/ Mask R-CNN 80.04 83.14 77.16 3 1 0 0 10 90.27

Bảng 5.13: Kết quả truy vết trên nhiều máy quay khi đánh giá trên Testcase 1.

KẾT QUẢ HIỆN THỰ Faster R-CNN 68.45 74.54 63.90 5 2 0 8 27 82.29 DeepSORT w/ Mask R-CNN 70.24 77.67 65.21 4 3 0 6 27 82.71

Bảng 5.14: Kết quả truy vết trên mỗi máy quay khi khi đánh giá trên Testcase 2.

Approach IDF1↑ IDP↑ IDR↑ MT↑ PT↑ ML↓ IDs↓ FM↓ MOTA↑

WDA_Tracker 82.44 91.19 75.20 6 3 0 15 90 80.37

WRDA_Tracker

w/ Faster R-CNN 59.43 65.13 54.64 6 3 0 29 91 80.70

WRDA_Tracker

w/ Mask R-CNN 63.81 69.29 59.12 6 3 0 24 91 81.98

Bảng 5.15: Kết quả truy vết trên nhiều máy quay khi đánh giá trên Testcase 2.

KẾT QUẢ HIỆN THỰ Faster R-CNN 69.49 90.38 58.12 1 4 1 8 37 60.43 DeepSORT w/ Mask R-CNN 71.78 95.07 59.98 1 4 1 6 29 60.79

Bảng 5.16: Kết quả truy vết trên mỗi máy quay khi đánh giá trên Testcase 3.

Approach IDF1↑ IDP↑ IDR↑ MT↑ PT↑ ML↓ IDs↓ FM↓ MOTA↑

WDA_Tracker 63.05 79.30 52.32 1 5 1 31 118 62.23

WRDA_Tracker

w/ Faster R-CNN 74.24 94.38 61.19 1 5 1 31 117 62.38

WRDA_Tracker

w/ Mask R-CNN 70.30 90.03 57.66 1 5 1 24 95 62.53

Bảng 5.17: Kết quả truy vết trên nhiều máy quay khi đánh giá trên Testcase 3.

5.4.2.4 Nhận xét chung

Thông qua việc kiểm thử trên hai tập dữ liệu, bộ xác định người sử Mask R-CNN đã giúp mơ hình truy vết của đề tài cải thiện độ chính xác trong việc truy vết trên từng máy quay trên mọi trường hợp so với mơ hình sử bộ xác định Faster R-CNN được đề xuất trong bài báo [17]. Với bài toán truy vết trên nhiều máy quay, mơ hình truy vết WDA_Tracker vẫn cho ra kết quả tốt hơn mơ hình đề xuất của luận văn khi hệ thống

máy quay có nhiều đối tượng đi lại giữa góc máy quay nhưng sự chênh lệch này là không nhiều. Bằng cách đánh đổi một phần nhỏ độ chính xác, mơ hình truy vết của đề tài có thể thực hiện truy vết trên bất kỳ hệ thống máy quay nào vì khơng cần phải có dữ liệu đã dán nhãn như mơ hình truy vết.

Về phương diện tốc độ xử lý của mơ hình nhận diện và theo vết, từ các kết quả đạt được có thể thấy số lượng máy quay trong hệ thống và số lượng đối tượng ảnh hưởng trực tiếp đến tốc độ xử lý của mơ hình. Cụ thể, số lượng máy và đối tượng càng lớn thì thời gian xử lý của mơ hình sẽ càng chậm.

Ngồi ra, kết quả truy vết khi chạy mơ hình đề xuất của đề tài trên 3 testcase của tập dữ liệu THD có thể được xem ở trang Youtube123.

1Testcase 1:https://youtu.be/PDhoKzLGn-E

2Testcase 2:https://youtu.be/5JcrDnqUdVw

Chương 6 Tổng kết

Tổng thể cấu trúc Luận văn tốt nghiệp của nhóm gồm có nhiều phần khác nhau. Chương 1 nhằm để giới thiệu chung về đề tài, động lực xây dựng hệ thống và mục tiêu đạt được. Chương 2 đề cập đến những nghiên cứu, bài báo liên quan đến hệ thống truy vết và nhận diện đối tượng. Chương 3 mô tả các kiến thức cơ bản về học máy, học sâu. Đây là phương pháp chính được nhóm sử dụng để xây dựng hệ thống. Chương 4 hiển thị cấu trúc tổng quan của hệ thống, bao gồm các module nhỏ, các mơ hình được sử dụng và các cải tiến. Chương 5 bao gồm các tập dữ liệu được nhóm sử dụng để đánh giá hệ thống và so sánh các kết quả đạt được trên các tập dữ liệu kiểm tra. Chương 6 tổng kết lại Luận văn tốt nghiệp của nhóm.

Chương cuối cùng, Tổng kết bao gồm những kết quả nhóm đã đạt được trong q trình thực hiện Luận văn tốt nghiệp. Tiếp đến là các hạn chế, khó khăn gặp phải khi xây dựng hệ thống. Ngoài ra, hướng phát triển trong tương lai mà nhóm mong muốn đạt được sau khi kết thúc Luận văn.

6.1 Các kết quả đạt được

Sau một thời gian nghiên cứu cũng như thử nghiệm các giải pháp khác nhau, nhóm đã đạt được những kết quả tương đối trong việc xây dựng mơ hình nhận diện và truy vết đối tượng trên hệ thống nhiều camera.

• Q trình phát hiện các gương mặt sử dụng khẩu trang có độ chính xác tương đối cao trong khi khơng địi hịi nhiều tài ngun tính tốn giúp giảm gánh năng cho các mơ-đun khác của hệ thống.

• Mơ hình nhận diện danh tính có độ chính xác tương đối tốt nếu điều kiện thuận lợi. Độ chính xác về nhận diện danh tính mang khẩu trang cho thấy vẫn hoạt động ổn trên một số tập dữ liệu nhất định.

• Xây dựng mơ hình truy vết đối tượng trên hệ thống nhiều máy quay khơng cần sử dụng dữ liệu được dán nhãn.

• Đề xuất phương pháp loại bỏ phơng nền nhằm tăng độ chính xác của tác vụ truy vết đối tượng.

• Kết hợp hai phần nhận dạng đối tượng và truy vết thành một hệ thống chung giúp vừa có thể truy vết nhiều đối tượng và định danh họ trên hệ thống nhiều máy quay. • Xây dựng và gán nhãn tập dữ liệu THD cho bài toán truy vết và nhận diện đối tượng

trên nhiều quay.

6.2 Những hạn chế

Hệ thống nhận diện và truy vết đối tượng trên nhiều máy quay vẫn còn gặp phải

Một phần của tài liệu Nhận diện và theo dấu đối tượng trên hệ thống nhiều camera (Trang 77 - 95)

Tải bản đầy đủ (PDF)

(95 trang)