Thu thập cơ sở dữ liệu

CHƯƠNG 3. KẾT QUẢ THỬ NGHIỆM TRONG BÀI TOÁN CAMERA GIÁM SÁT

3.2. Thu thập cơ sở dữ liệu

Cơ sở dữ liệu: Cơ sở dữ liệu này bao gồm 6.500 hình ảnh của đối tượng người.

Cơ sở dữ liệu này được chia làm 2 phần là tập dữ liệu huấn luyện (Training dataset) và tập dữ liệu kiểm thử (Testing dataset), với tỉ lệ tương ứng là 70% và 30%. Cơ sở dữ liệu này được tổng hợp từ một số nguồn dữ liệu khác nhau, bao gồm:

“Humans_data Image Dataset” [34] và thu thập dữ liệu thủ công. Thông tin chi tiết cơ sở dữ liệu được thể hiện trong Bảng 3.1. Hình 3.2 và 3.3 minh họa ảnh trong cơ sở dữ liệu được tổng hợp từ các nguồn khác nhau.

Bảng 3.1. Thông tin chi tiết cơ sở dữ liệu thực nghiệm

Stt Mã đối

tượng Tên đối

tượng Nguồn cơ sở dữ liệu Số lượng ảnh gốc

Ghi chú 1 Person Người Humans_data Image Dataset

[34] 6.426

2 Person Người Thu thập dữ liệu thủ công 74

Tổng 6.500

Hình 3.2. Minh họa ảnh trong cơ sở dữ liệu “Humans_data Image Dataset”.

Hình 3.3. Minh họa ảnh trong cơ sở dữ liệu được thu thập thủ công.

3.2.2. Công cụ gán nhãn dữ liệu

Trong quá trình tạo ra cơ sở dữ liệu, đầu tiên, dữ liệu thu thập được ở dạng thô (Raw data) là hình ảnh của đối tượng người cần phát hiện. Sau đó, những hình ảnh này sẽ được gán nhãn (Data labeling) nhằm cung cấp thông tin để mô hình phát triển có thể học hỏi từ dữ liệu đó. Trong nghiên cứu này, công cụ Make Sense [35] được sử dụng để gán nhãn các hình ảnh.

Trong lĩnh vực trí tuệ nhân tạo và học máy đang phát triển nhanh chóng, việc có sẵn dữ liệu được gán nhãn chất lượng cao là rất quan trọng để huấn luyện và phát triển các mô hình chính xác. Một trong những thách thức chính trong lĩnh vực này là việc gán nhãn cho hình ảnh và video, bao gồm việc gán nhãn chính xác cho các đối tượng và vùng quan tâm. Để giải quyết nhu cầu này, công cụ gán nhãn tiên tiến "Make Sense" đã xuất hiện như một giải pháp mạnh mẽ. Với giao diện dễ sử dụng và các đặc trưng tiên tiến, Make Sense giúp người dùng gán nhãn và gắn kết dữ liệu hình ảnh và video một cách hiệu quả, tạo điều kiện thuận lợi cho nhiều ứng dụng như phát hiện đối tượng, phân loại hình ảnh và phân đoạn ngữ nghĩa.

Giao diện người dùng và quy trình làm việc:

Hình 3.4 thể hiện giao diện làm việc trên công cụ Make Sense. Make Sense sở hữu một giao diện người dùng thân thiện và trực quan đảm bảo tính dễ sử dụng và quy trình gán nhãn mượt mà. Khi mở công cụ, người dùng sẽ được trình bày một không gian làm việc hấp dẫn mắt nơi họ có thể dễ dàng tải lên hình ảnh hoặc video để gán nhãn. Không gian làm việc này được trang bị một bộ công cụ gán nhãn toàn diện, cho phép người dùng vẽ các hộp giới hạn, đa giác, điểm nổi và nhiều công cụ khác. Công cụ cung cấp cả tùy chọn gán nhãn thủ công và bán tự động, phù hợp với sở thích và yêu cầu của người dùng và dự án cụ thể.

Gán nhãn đa lớp và gán nhãn phân cấp:

Make Sense hỗ trợ gán nhãn đa lớp, cho phép người dùng tạo và gán nhãn cho nhiều lớp đối tượng khác nhau trong một hình ảnh hoặc video. Điều này rất hữu ích khi làm việc với các bộ dữ liệu phức tạp chứa nhiều đối tượng yêu cầu các nhãn riêng biệt. Ngoài ra, công cụ còn hỗ trợ gán nhãn phân cấp, cho phép người dùng tạo mối quan hệ cha-con giữa các nhãn. Đặc trưng này đặc biệt hữu ích trong các tình huống mà các đối tượng có cấu trúc phân cấp, ví dụ như gán nhãn các cấu trúc cơ thể hoặc kiến trúc.

Hình 3.4. Giao diện làm việc trên công cụ Make Sense.

Gán nhãn đồng thời và gán nhãn theo khung hình:

Để tối ưu quá trình gán nhãn trong video, Make Sense cung cấp tính năng gán nhãn đồng thời và gán nhãn theo khung hình. Người dùng có thể gán nhãn đồng thời nhiều khung hình trong một video, loại bỏ việc gán nhãn trùng lặp. Tính năng này giúp giảm thời gian gán nhãn và cải thiện hiệu suất tổng thể, đặc biệt là khi làm việc với video dài hoặc bộ dữ liệu có tốc độ khung hình cao.

Gán nhãn tương tác và điều chỉnh:

Make Sense cung cấp khả năng gán nhãn tương tác, cho phép người dùng tương tác với các nhãn đã được gán và điều chỉnh vị trí, kích thước và hình dạng của chúng. Mức kiểm soát này đảm bảo việc gán nhãn chính xác và chính xác, nâng cao chất lượng của dữ liệu đã được gán nhãn. Người dùng có thể dễ dàng điều chỉnh và cải thiện các nhãn, đảm bảo chúng phù hợp với các đối tượng quan tâm trong hình ảnh hoặc video. Ngoài ra, công cụ hỗ trợ theo dõi gán nhãn, cho phép người dùng theo dõi đối tượng qua các khung hình trong một video, duy trì tính nhất quán và độ chính xác trong quá trình gán nhãn.

Xuất dữ liệu và tích hợp:

Make Sense cho phép xuất dữ liệu gán nhãn dễ dàng với nhiều định dạng phổ biến như Pascal VOC, YOLO, COCO và nhiều định dạng khác. Tính linh hoạt này giúp dễ dàng tích hợp với các framework và quy trình làm việc học máy hiện có. Dữ liệu đã được xuất có thể được sử dụng trực tiếp cho huấn luyện mô hình, đánh giá hoặc phân tích tiếp theo. Make Sense đảm bảo khả năng tương thích với các định dạng tiêu chuẩn của ngành, tạo điều kiện thuận lợi cho tương tác và sự hợp tác mượt mà giữa các nhà nghiên cứu, nhà phát triển và các nhà khoa học dữ liệu.

Hợp tác và quản lý dự án:

Hợp tác và quản lý dự án là những khía cạnh cần thiết của một công cụ gán nhãn. Make Sense giải quyết những yêu cầu này bằng cung cấp các chức năng quản lý dự án. Người dùng có thể tạo và quản lý dự án, mời cộng tác viên và gán vai trò và

quyền hạn. Công cụ hỗ trợ hợp tác thời gian thực, cho phép nhiều người dùng làm việc đồng thời trên cùng một dự án, khuyến khích sự hợp tác và cải thiện năng suất.

Tóm lại, Make Sense là một công cụ gán nhãn hình ảnh và video hiện đại và mạnh mẽ, đơn giản hóa quá trình gán nhãn và gắn kết dữ liệu cho các nhiệm vụ học máy khác nhau. Giao diện người dùng thân thiện, hỗ trợ gán nhãn đa lớp, gán nhãn phân cấp, gán nhãn đồng thời và gán nhãn tương tác giúp công cụ trở thành sự lựa chọn xuất sắc cho nhà nghiên cứu, nhà khoa học dữ liệu và nhà phát triển. Với khả năng tích hợp mượt mà và tùy chọn xuất dữ liệu đa dạng, Make Sense giúp người dùng tạo ra các bộ dữ liệu đã được gán nhãn chất lượng cao, cần thiết để huấn luyện và phát triển các mô hình trí tuệ nhân tạo chính xác. Cho dù bạn đang làm việc trong phát hiện đối tượng, phân loại hình ảnh hay phân đoạn ngữ nghĩa, Make Sense là một công cụ quý giá giúp tăng tốc quá trình làm việc và đạt được kết quả tốt hơn.

Các lớp trong mạng nơ-ron tích chập

Thuật toán JDT dựa trên học sâu