Mô hình phân tích đám đông trong giám sát tự động dựa vào thị giác máy

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu kỹ thuật phân tích đám đông trong giám sát tự động dựa vào thị giác máy (Trang 25)

6. Cấu trúc luận văn

1.4. Mô hình phân tích đám đông trong giám sát tự động dựa vào thị giác máy

thị giác máy

1.4.1. Tổng quan về Thị giác máy

Công nghiệp 4.0 ngày càng phát triển, các phương tiện tự động hóa, các thiế bị cảm biến tiến tiến ngày càng gia tăng. Các công nghệ tiên tiến đem đến một cách thức thực hiện mới cho các nhiệm vụ ngày càng phức tạp hơn [2].

Trong số các ngành khác nhau của trí tuệ nhân tạo, thị giác máy đang có được những động lực thúc đẩy đáng kể. Thị giác máy được định nghĩa là một lĩnh vực bao gồm các phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích và nhận dạng các hình ảnh, video, nói chung là dữ liệu đa chiều từ thế giới thực để cho ra các thông tin số hoặc biểu tượng. Thị giác máy cũng được mô tả là sự tổng thể của một dải rộng các quá trình tự động và tích hợp và các thể hiện cho các nhận thức thị giác.

16

Thị giác máy tính là thuật ngữ mô tả một tập hợp các công nghệ cho phép các thiết bị máy tính, phần mềm, robot hoặc bất kỳ thiết bị nào; thu nhận, phân tích và xử lý hình ảnh [3].

Các nguồn hình ảnh khác nhau có thể vô cùng đa dạng, có thể là hình ảnh, video, dữ liệu 3D, dữ liệu từ máy quét y tế hoặc công nghiệp,... Mục đích là để cung cấp cho các thiết bị này khả năng “nhìn” và phản ứng tùy thuộc vào thông tin nhận được.

Thị giác máy thường được so sánh với nhận dạng giọng nói. Thị giác máy có điểm khác với xử lý ảnh, xử lý ảnh là phân tích hình ảnh kỹ thuật số hoặc thực hiện các thuật toán, bao gồm việc phân loại, trích xuất, chỉnh sửa hoặc lọc,… Xử lý hình ảnh liên quan đến các công nghệ và phương pháp được sử dụng để gia tăng hình ảnh về khía cạnh thông tin, trong khi đó thị giác máy tính hướng đến các hành động thực tế, mặc dù ứng dụng đầu tiên của thị giác máy là quản lý hình ảnh nhưng thị giác máy cũng có thể được sử dụng để thực hiện các hoạt động khác nhau bao gồm nhận dạng đối tượng hoặc phát hiện sự kiện [5].

17

Cấu tạo của hệ thống thị giác máy thông thường được biểu diễn như Hình 1.7. Máy quay phim CCD (Charge-Coupled Device) có thể ghi lại các đối tượng cần nhận biết và phân tích dưới dạng hình ảnh. Về bản chất, máy quay phim CCD là một cảm biến quang điện, thu nhận các tín hiệu quang học phản ánh đối tượng, bối cảnh rồi chuyển thành tín hiệu điện để gi lại. Bộ phận thu nhận hình ảnh có thể hoạt động độc lập hoặc được gắn trực tiếp trong máy tính ở dạng card thu nhận hình ảnh có thể chuyển tín hiệu của máy quay phim thu nhận được thành tín hiệu số, số hóa hình ảnh, để máy tính tiến hành xử lý các loại yêu cầu. Hệ thống chiếu sáng cho phép nâng cao độ chiếu sáng phù hợp hình ảnh thu nhận được, làm lợi cho xử lý và phân tích hình ảnh [6].

Hình 1.7. Cấu tạo hệ thống thị giác máy.

Quá trình mô phỏng thị giác máy qua quá trình 03 giai đoạn nối tiếp: mô phỏng mắt (thu nhận), mô phỏng vỏ não thị giác (xử lý) và mô phỏng phần còn lại của bộ não (phân tích):

Thu nhận: Vài chục năm qua, con người đã tạo ra các cảm biến, vi xử lý

hình ảnh giống (và ở mức độ nào đó còn tốt hơn) khả năng nhìn của mắt người. Những thấu kính lớn hơn, hoàn hảo về mặt quang học cùng các điểm

18

ảnh phụ bán dẫn nhỏ tới mức nano mét giúp các camera ngày nay có độ chính xác và nhạy đáng kinh ngạc. Camera có thể chụp hàng ngàn ảnh mỗi giây và nhận diện từ xa với độ chính xác cao. Nói cách khác, phần cứng bị giới hạn khi không có phần mềm - đến giờ vẫn là khó khăn lớn nhất. Tuy vậy, camera ngày nay cũng khá linh hoạt và làm nền tảng tốt để nghiên cứu.

Hình 1.8. Thị giác máy có khả năng nhìn và hiểu giống nhƣ con ngƣời.

Mô tả: Bộ não được xây dựng từ con số 0 với các hình ảnh dần dần lấp đầy, Bộ não làm nhiệm vụ liên quan tới thị giác nhiều hơn bất kì công việc nào khác và việc này đều xuống tới cấp độ tế bào. Hàng tỉ tế bào phối hợp để lấy ra các hình mẫu, bắt được tín hiệu. Một nhóm nơ-ron sẽ báo cho nhóm khác khi có sự khác biệt dọc theo một đường thẳng (theo một góc, chuyển động nhanh hơn hay theo một hướng khác). Các thông tin khác sẽ dần được

bổ sung như: đường tròn màu trắng, đường thẳng màu đỏ, kích thước tăng dần,… hình ảnh sẽ dẫn hiện ra khi các thông tin được thêm mới.

19

Thấu hiểu: Chúng ta có thể xây dựng một hệ thống nhận diện được một

vật gì đó, từ bất kỳ góc nào, trong bất kỳ tình huống nào, dù đứng yên hay chuyển động, dù bị hỏng hay còn nguyên nhưng vẫn không thể nhận diện được vật đó. Đó chính là phần còn lại của bộ não, bộ nhớ ngắn/dài hạn, dữ liệu từ các giác quan, sự chú ý, nhận thức, bài học khi tương tác với thế giới,… được viết lên mạng lưới nơ-ron kết nối phức tạp hơn bất cứ thứ gì chúng ta từng thấy, theo cách mà chúng ta không thể hiểu.

Hình 1.9. Nhận thức về một vật trong ảnh của thị giác máy.

1.4.2. Một số lĩnh vực ứng dụng của thị giác máy

Thị giác máy đang được sử dụng trong nhiều lĩnh vực như: An ninh, y tế, bán lẽ, ngân hàng, học máy, học sâu, thiết bị thông minh, phát hiện cháy, phát hiện động đất [2]. Đặc biệt, Thị giác máy là một kỹ thuật tiên tiến nhất trong việc phát hiện chuyển động trên video, ứng dụng phân tích hành vi đám đông hiện nay như: Dự đoán sự di chuyển khẩn cấp của đám đông, nhận diện các hành vi, nhận diện khuôn mặt, nhận dạng giọng nói của con người,… để đưa

20

ra những kết quả, thông tin, dự đoán về hành vi của con người trong đám đông hiệu quả nhấ [7].

Hình 1.10. Mô hình một số lĩnh vực ứng dụng của thị giác máy 1.5. Kết luận Chƣơng 1

Chương này đã trình bày tổng quan về bài toán phân tích đám đông, cùng với các cách tiếp cận trong bài toán phân tích đám đông trên cơ sở ứng dụng của thị giác máy, từ mô hình camera, các kỹ thuật trong phân tích đám đông. Ngoài ra, trong chương này cũng đã phân tích một số vấn đề thách thức của bài toán phân tích đám đông cũng như các lĩnh vực ứng dụng của chúng.

Thị giác máy (Vision Computer) Robot Thiết bị tự động (máy bay không người lái) Y tế Ngân hàng An ninh Nhận diện khuôn mặt (Face ID) Học sâu (Deep learning) Học máy (Machine Learning) Thiết bị thông minh (điện thoại) Phát hiện thiên tai (động đất, cháy rừng)

21

Chƣơng 2. MỘT SỐ KỸ THUẬT PHÂN TÍCH ĐÁM ĐÔNG TRONG GIÁM SÁT TỰ ĐỘNG

2.1. Kỹ thuật phát hiện chuyển động

2.1.1. Giới thiệu

Phát hiện chuyển động là nhiệm vụ đầy thách thức, một kỹ thuật quan trọng trong phân tích đám đông chuyển động là xác định đặc trưng bởi các mẫu chuyển động thường xuyên như hướng, mật độ, tốc độ, và bất thường chuyển động,… Giám sát và mô hình hóa đám đông để phân tích hành vi của đối tượng đó trong đám đông là bình thường hay bất bình thường.

Hình 2.1. Phát hiện đối tƣợng có hành động đi tốc độ nhanh đƣợc khoanh vùng.

Phát hiện đối tượng chuyển động là bước cơ bản để tiếp tục phân tích video. Mọi phương pháp theo dõi đều yêu cầu một đối tượng cơ chế phát hiện trong mọi khung hình hoặc khi đối tượng lần đầu tiên xuất hiện trong video. Nó xử lý phân đoạn di chuyển vật thể từ vật thể nền tĩnh. Điều này tập trung trên xử lý cấp cao hơn. Nó cũng làm giảm tính toán thời gian. Do điều kiện

22

môi trường như ánh sáng thay đổi, phân đoạn đối tượng bóng trở nên khó khăn và vấn đề đáng kể. Một cách tiếp cận phổ biến để phát hiện đối tượng là sử dụng thông tin trong một khung duy nhất. Tuy nhiên, một số đối tượng phương pháp phát hiện tận dụng thông tin tạm thời được tính toán từ một chuỗi các khung để giảm số lượng phát hiện sai. Thông tin tạm thời này thường ở hình thức phân biệt khung hình, làm nổi bật các vùng thay đổi động trong các khung liên tiếp.

Hình 2.2. Mô hình phát hiện đối tƣợng chuyển động

 Phát hiện tiền cảnh:

Mục đích chính của phát hiện tiền cảnh là phân biệt các đối tượng ở tiền cảnh với đối tượng đứng sau. Hầu hết, mỗi hệ thống giám sát video sử dụng bước đầu tiên là phát hiện các đối tượng tiền cảnh. Điều này tạo ratrọng tâm của sự chú ý cho các cấp độ xử lý cao hơn, chẳng hạn như theo dõi, phân loại và hiểu hành vi và giảm thời gian tính toán đáng kể vì chỉ có pixel thuộc đối tượng tiền cảnh cần được xử lý.

Bước đầu tiên là khởi tạo cảnh nền. Đó là các kỹ thuật khác nhau được

MÔ HÌNH NỀN PHÁT HIỆN TIỀN CẢNH XỬ LÝ CẤP ĐỘ PIXEL VÙNG ĐƢỢC KẾT NỐI XỬ LÝ CẤP ĐỘ VÙNG KHUNG VIDEO ĐỐI TƢỢNG CHUYỂN ĐỘNG

23

sử dụng để tạo mô hình cảnh nền. Các phần liên quan đến cảnh nền của hệ thống bị cô lậpvà khớp nối của nó với các mô-đun khác được giữ ở mức tối thiểu để cho phép toàn bộ hệ thống phát hiện hoạt động linh hoạt với bất kỳ một trong các mô hình nền.

Bước tiếp theo trong phương pháp phát hiện là phát hiện pixel nền trước bằng cách sử dụng mô hình nền vàhình ảnh hiện tại từ video. Quy trình phát hiện mức pixel này phụ thuộc vào mô hình nền đang được sử dụng và nó được sử dụng để cập nhật mô hình nền để thích ứng với cảnh động thay đổi. Ngoài ra, do tiếng ồn của máy ảnh hoặc môi trường ảnh hưởng của bản đồ pixel nền trước được phát hiện có chứa nhiễu. Các hoạt động xử lý hậu kỳ cấp pixel được thực hiện để loại bỏ nhiễu ở các pixel nền trước. Khi chúng tôi nhận được các pixel nền trước đã lọc, trong bước tiếp theo, các vùng được kết nối được tìm thấy bằng cách sử dụng thuật toán gắn nhãn thành phần được kết nốivà các hình chữ nhật giới hạn của đối tượng được tính toán. Các nhãn các vùng có thể chứa các vùng gần nhưng tách rời do các khiếm khuyết trong quá trình phân đoạn tiền cảnh. Do đó, một số tương đối các vùng nhỏ do tiếng ồn môi trường gây ra được loại bỏ trong bước xử lý sau cấp vùng. Trong bước cuối cùng củaquá trình phát hiện, một số tính năng của đối tượng như khu vực, hộp giới hạn, chu vi của các vùng tương ứng với các đối tượng được trích xuất từ hình ảnh hiện tại bằng cách sử dụngbản đồ pixel nền trước.

 Xử lý cấp độ pixel:

Đầu ra của phát hiện tiền cảnh chứa nhiễu. Nói chung, nó ảnh hưởng bởi các yếu tố tiếng ồn khác nhau. Vượt qua vấn đề nan giải về nhiễu này, nó đòi hỏi xử lý mức pixel cao hơn. Có nhiều yếu tố gây ra tiếng ồn trong phát hiện tiền cảnh chẳng hạn như: Tiếng ồn của máy ảnh, tiếng ồn của máy ảnh xuất hiện do hình ảnh của máy ảnhcác thành phần mua lại. Đây là tiếng ồn docác

24

thành phần thu nhận hình ảnh của máy ảnh. Tiếng ồn này là tạo ra do cường độ của pixel tương ứng đến một cạnh giữa hai đối tượng màu khác nhau trong cảnh có thể được đặt thành một trong các màu của đối tượng trong một khung vàmàu khác trong khung tiếp theo. Màu của đối tượngcó thể có cùng màu với nền tham chiếu khó phát hiện các pixel nền trước với sự trợ giúp của tham chiếu nền. Tiếng ồn phản xạ gây ra bởi ánh sáng nguồn. Khi một nguồn sáng di chuyển từ vị trí này đến khác, một số bộ phận trong cảnh nền phản chiếu ánh sáng.

Chúng ta có thể sử dụng bộ lọc thông thấp và các phép toán hình thái học, xói mòn và giãn nở, đến bản đồ pixel nền trước để loại bỏ tiếng ồn gây ra bởi các mục liệt kê ở trên. Mục tiêu của chúng tôi trongáp dụng các thao tác này là loại bỏ tiền cảnh ồn ào pixel không tương ứng với các vùng tiền cảnh thực tế, và để loại bỏ các pixel nền nhiễu gần và bên trong vùng đối tượng thực sự là pixel nền trước. Vượt qua thấpbộ lọc được sử dụng để làm mờ và giảm nhiễu. Làm mờ được sử dụng trong các tác vụ tiền xử lý, chẳng hạn như loại bỏchi tiết từ một hình ảnh trước khi trích xuất đối tượng lớn và bắc cầu của các khe hở nhỏ trong các đường hoặc đường cong. Gaussian thấp quabộ lọc được sử dụng để xử lý bài đăng cấp pixel. Một bộ lọc Gaussian làm mịn hình ảnh bằng cách tính toán trung bình có trọng số trong một bộ lọc đồng hiệu quả. Bộ lọc Gaussian sửa đổi đầu vàotín hiệu bằng tích chập với một hàm Gaussian.

 Phát hiện các vùng được kết nối:

Sau khi phát hiện các vùng tiền cảnh và áp dụng các hoạt động xử lý hậu kỳ để loại bỏ các vùng nhiễu, các pixel nền trước đã lọc được nhóm lại thành các vùng được kết nối. Sau khi tìm các vùng riêng lẻ tương ứng với các đối tượng, các hộp giới hạn của các vùng này được tính toán.

25

 Xử lý sau cấp độ vùng:

Khi nhiễu ở mức pixel được loại bỏ, vẫn còn một số nhỏ nhân tạo các vùng vẫn còn chỉ vì sự phân đoạn không tốt. Đến loại bỏ loại vùng này, vùng có kích thước nhỏ hơn hơn ngưỡng xác định trước sẽ bị xóa khỏi nền trước bản đồ pixel. Sau khi phân đoạn các vùng, chúng ta có thể trích xuất các tính năng của các đối tượng tương ứng từ hình ảnh hiện tại. Các tính năng như kích thước, khối lượng trung tâm hoặc chỉ là tâm và được và vùng giới hạn của thành phần được kết nối. Các tính năng này được sử dụng cho theo dõi và phân loại đối tượng để xử lý thêm trong phát hiện sự kiện.

2.1.2. Kỹ thuật trừ nền

Kỹ thuật trừ nền là một cách tiếp cận được sử dụng rộng rãi để phát hiện các đối tượng chuyển động trong video từ máy ảnh tĩnh. Cơ sở tiếp cận là phát hiện các đối tượng chuyển động từ sự khác biệt giữa hệ quy chiếu hiện tại và hệ quy chiếu, thường được gọi là "hình nền" hoặc "mô hình nền". Như một cơ bản, hình nền phải là đại diện của cảnh không có vật thể chuyển động và phải được giữ thường xuyên cập nhật để thích ứng với các mức giá khác nhau điều kiện và cài đặt hình học. Các mô hình phức tạp hơn đã mở rộng khái niệm "nền tảng phụ" ngoài nghĩa đen của nó [19].

Phát hiện đối tượng có thể đạt được bằng cách xây dựng một đại diện của cảnh được gọi là mô hình nền và sau đó tìm độ lệch khỏi mô hình cho mỗi khung hình đến. Bất kỳ thay đổi đáng kể nào trong vùng hình ảnh so với mô hình nền đều biểu thị sự chuyển động vật. Các pixel cấu thành các vùng đang thay đổi được đánh dấu để biết xử lý, tiến trình này được gọi với một tên chung là tách nền. Thông thường, một thuật toán thành phần được kết nối được áp dụng để có được các vùng tương ứng với các đối tượng. Quy trình tổng quan của kỹ thuật trừ nền [20].

26

Hình 2.3. Quy trình trừ nền

Các thay đổi chính đối với nền được phân loại thành: - Theo sự thay đổi độ sáng (illumination changes)

+ Thay đổi độ sáng từ từ do nguồn sáng (mặt trời) chuyển động.

+ Thay đổi độ sáng đột ngột do nguồn sáng bị thay đổi: trời chuyển giữa mưa và nắng, đèn trong phòng chuyển từ bật sang tắt hoặc ngược lại.

+ Ảnh hưởng của nguồn sáng tới bóng của vật trên nền. - Thay đổi chuyển động (motion changes)

+ Hình ảnh thay đổi do camera dịch chuyển.

+ Chuyển động trong các thành phần của nền như cành cây đung đưa,

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu kỹ thuật phân tích đám đông trong giám sát tự động dựa vào thị giác máy (Trang 25)

Tải bản đầy đủ (PDF)

(69 trang)