Iva ec giải pháp phân tích video thông minh dựa trên điện toán biên

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00168 IVA-EC: GIẢI PHÁP PHÂN TÍCH VIDEO THƠNG MINH DỰA TRÊN ĐIỆN TỐN BIÊN Đào Vũ Hiệp1, Mạc Đình Hiếu1, Tống Việt Hùng2, Vũ Văn Phán2, Hà Quốc Trung2 Viện Công nghệ thông tin Truyền thông, Trường Đại học Bách khoa Hà Nội Trung tâm Công nghệ thông tin, Bộ Khoa học Công nghệ hiep.dvncs18032@sis.hust.edu.vn, hieumd@soict.hust.edu.vn, tvhung@most.gov.vn, vvphan@most.gov.vn, trunghq@soict.hust.edu.vn TĨM TẮT: Trong báo này, chúng tơi đề xuất IVA-EC, giải pháp phân tích video thơng minh dựa thuật toán học sâu (Deep learning) theo mơ hình điện tốn biên (Edge Computing) IVA-EC cho phép triển khai ứng dụng AI thành phố thông minh, giám sát giao thông thông minh, nhà máy thông minh, trực tiếp hạ tầng hệ thống camera giám sát sẵn có Trung tâm giải pháp thiết bị Edge AI cho phép chuyển đổi khung hình video thành liệu dạng text (metadata) mơ tả đối tượng thuộc tính, xuất khung hình theo thời gian thực Dữ liệu metadata sau gửi máy chủ phân tích triển khai hạ tầng điện toán đám mây để phân tích nội dung Mục tiêu IVA-EC cung cấp thơng tin có giá trị kết xuất kiện, cảnh báo theo sách định nghĩa trước cách tự động theo thời gian thực, đảm bảo tính riêng tư người dùng Các thông tin, kiện hiển thị phần mềm quản lý video cách trực quan.Giải pháp triển khai thử nghiệm cho ứng dụng giám sát khu vực hạn chế Kết thử nghiệm cho thấy thiết bị Edge AI xử lý đồng thời lên đến 30 dòng video thời gian kết xuất kiện < 1s Từ khóa: Điện tốn biên, phân tích video thơng minh, học sâu, điện tốn đám mây I GIỚI THIỆU Hệ thống IP camera ngày đóng vai trị quan trọng ứng dụng rộng rãi đời sống Theo báo cáo Statista, riêng năm 2018 có 25 triệu IP camera bán thị trường [1] Ước tính số tiếp tục tăng nhanh năm tới Tuy nhiên nhiều hệ thống camera đóng vai trò ghi lại kiện xảy khu vực giám sát Dữ liệu camera xem phân tích có kiện bất thường xảy người dùng cần phải xem lại truy vết hành động Việc giám sát trực tuyến hay phân tích video để trích rút thơng tin có ý nghĩa tiến hành người Thông thường, để phân tích video dài giờ, người cần tiêu tốn từ đến 2,5 cho trình xem tổng hợp thông tin cần thiết [2] Vì vậy, hệ thống giám sát lớn bao gồm hàng trăm camera đến hàng nghìn camera thành phố thông minh, quản lý giao thông thông minh, việc phân tích, kết xuất thơng tin hữu ích từ dịng video thu camera theo thời gian thực gần không khả thi dựa người Từ đặt nhu cầu cấp thiết hệ thống phân tích video tự động sử dụng AI để chuyển liệu khung hình video sang liệu text tổng hợp lại thành thông tin hữu ích Trong năm gần đây, học sâu (Deep Learning - DL) cách tiếp cận hiệu để giải nhiều toán phức tạp khác nhận dạng hình ảnh, xử lý ngơn ngữ tự nhiên, an ninh thông tin [8] Trong lĩnh vực thị giác máy tính (Computer Vision), mạng nơron học sâu CNN (Convolutional Neural Network), DNN (Deep Neural Network) cho thấy sức mạnh vượt trội toán phát đối tượng, phân loại ảnh, nhận dạng so với phương pháp học máy truyền thống [10] Nhờ khả “học” với lượng liệu khổng lồ khả trích rút đặc trưng cách tự động, trình “suy luận” (inference) phát đối tượng, phân loại đối tượng, nhận dạng đối tượng ảnh khung hình video DL có độ xác cao, tốc độ xử lý nhanh theo thời gian thực [9] Có thể nói, DL cách tiếp cận tốt cho việc chuyển đổi liệu ảnh đặc biệt liệu khung hình video thành hành động (actionable insight) mô tả dạng chuỗi đối tượng, thuộc tính vị trí chúng khung hình video xung quanh thời điểm mà hành động diễn Các tập đồn cơng nghệ hàng đầu giới IBM, Google, Nvidia xây dựng hệ thống giải pháp cho việc phân tích video dựa thuật tốn DL tiên tiến Xu hướng phát triển chung giải pháp tích hợp tính thông minh cho hệ thống camera giám sát dựa hạ tầng điện toán đám mây (Cloud Computing) [18] Các dòng video thu từ camera truyền hệ thống máy chủ tập trung điện tốn đám mây, nhờ sức mạnh tính tốn khổng lồ, thuật toán DL dễ dàng triển khai để phân tích, trích xuất thơng tin có ý nghĩa từ dòng video nhận Tuy nhiên, với bùng nổ số lượng camera giám sát, ba vấn đề gặp phải triển khai hệ thống là: (1) Băng thông tăng cao phải truyền trực tiếp nhiều dòng video hạ tầng mạng: camera cần băng thơng Mb/s cho việc truyền tải dòng video lên hệ thống đám mây, với hệ thống gồm 100 camera (hệ thống camera tòa nhà) yêu cầu đường truyền có băng thơng 300 Mb/s, dẫn tới chi phí cho việc truyền tải liệu lớn nhiều không khả thi thực tế; (2) Q trình phân tích có độ trễ lớn khơng đáp ứng yêu cầu xử lý theo thời gian thực: độ trễ gây trễ trình truyền tin, trình lập lịch xử lý, trình suy luận DL; (3) Vấn đề tính riêng tư: nhiều dịng video chứa thơng tin nhạy cảm nên truyền trực tiếp hạ tầng đám mây bên thứ để xử lý Các vấn đề không vấn đề riêng hệ thống camera thơng minh mà cịn vấn đề chung ứng dụng IoT Sự bùng nổ thiết bị IoT ứng dụng khiến cho mơ hình xử lý tập trung dựa điện toán đám mây thể nhiều bất cập mà khó giải cách triệt để Một số hệ thống IoT đòi hỏi độ trễ xử lý thấp (vài miliseconds), điều khó đảm bảo với mơ hình điện tốn đám mây phụ thuộc vào tốc độ đường truyền Internet Sự bùng nổ IoT nhanh dẫn tới sinh lượng Đào Vũ Hiệp, Mạc Đình Hiếu, Tống Việt Hùng, Vũ Văn Phán, Hà Quốc Trung 189 liệu khổng lồ vượt tốc độ phát triển hạ tầng mạng truyền dẫn Theo ước tính Cisco [3] đến năm 2021 tất người, máy móc thiết bị IoT tạo gần 850 ZB liệu, trung tâm liệu (Datacenter) tồn cầu tiếp nhận dc 20,6 ZB Hơn nữa, việc truyền tất liệu hệ thống xử lý trung tâm bên thứ ba lúc chấp nhận lo ngại tính bảo mật riêng tư liệu Vì xu hướng “giảm tải” (offload) cho hệ thống điện toán đám mây hệ thống điện toán biên (Edge Computing EC) xu hướng tất yếu nhận quan tâm rộng rãi giới nghiên cứu [4] Hiện nay, có nhiều cơng trình nghiên cứu tiềm mơ hình điện toán biên cho ứng dụng IoT [4] Donno cộng [6] tóm lược lại hình thành phát triển mơ hình điện toán phổ biến từ điện toán đám mây, IoT điện toán biên điện toán sương mù (Fog Computing) Tác giả rõ thách thức mà mơ hình điện tốn đám mây gặp phải với bùng nổ thiết bị IoT xu hướng chuyển dịch sang mơ hình điện tốn biên cuối hướng tới điện toán sương mù tương lai Mặt khác, Mohammadi [13] DL công cụ phù hợp cho việc xử lý liệu lớn, đặc biệt bùng nổ IoT Qi cộng [14] tiến hành thực nghiệm để đánh giá viêc triển khai mạng CNN thiết bị nhúng có tích hợp phần cứng chuyên dụng Nvidia Tegra X2, chứng tỏ tính khả thi việc triển khai DL thiết bị nhúng Theo cách tiếp cận khác, [9] đề xuất thuật toán lập lịch cho điện toán biên để tránh tình trạng nghẽn mạng triển khai đồng thời nhiều chương trình DL khác Trong đó, nghiên cứu [11][12] tận dụng tính phân tán điện toán biên để phân tải mạng DL nhiều thiết bị khác giúp mạng DL chạy trực tiếp thiết bị có lực tính tốn hạn chế Nhìn chung cơng trình nghiên cứu trên, tác giả thảo luận tiềm việc triển khai DL điện toán biên cho việc xử lý liệu tạo thiết bị IoT, đặc biệt với liệu dịng video có kích thước đến vài MB/s hệ thống camera Bài tốn phân tích video thơng minh nhận quan tâm nhiều nhà nghiên cứu Chen cộng [16] xây dựng hệ thống phân tích video thơng minh phân tán dựa điện tốn biên, tác giả tập trung xây dựng hệ thống cho phép mơ hình DL huấn luyện dựa kết hợp nhiều node điện toán biên theo kiến trúc đa tầng (multi-layer) với liệu huấn luyện lấy trực tiếp từ hệ thống camera Tan cộng [15] đề xuất tảng gọi FastVA phép sử dụng DL cho việc phân tích video với phần cứng xử lý NPU (Neural Processing Unit) thiết bị di động Ý tưởng tác giả tận dụng NPU điện thoại thơng minh để chạy thuật tốn DL phân tích trực tiếp khung hình video thu từ camera điện thoại trước gửi máy chủ Trong nghiên cứu [18], tác giả đề xuất hệ thống tổng thể cho phép phân tích dịng video quy mô lớn Tuy nhiên thuật toán DL triển khai hệ thống điện tốn đám mây hệ thống tính tốn biên làm nhiệm vụ tiền xử lý liệu giải mã dòng video, phát chuyển động Trong báo này, đề xuất giải pháp phân tích video thơng minh dựa kết hợp sức mạnh điện toán biên điện toán đám mây gọi IVA-EC Mục tiêu giải pháp cho phép phân tích video cách tự động theo thời gian thực đảm bảo tính riêng tư liệu tận dụng tối đa hạ tầng hệ thống camera giám sát sẵn có, đặc biệt với hệ thống camera phân tán nhiều vị trí địa lý khác nhau, khơng thể xử lý máy chủ tập trung Trong mơ hình này, dòng video xử lý thiết bị Edge AI, chất thiết bị nhúng tích hợp phần cứng chun dụng chạy thuật tốn học sâu, đặt phía người dùng Các thuật tốn DL Edge AI chuyển đổi liệu khung hình video thành danh sách đối tượng, thuộc tính vị trí chúng khung hình vào biểu diễn dạng metadata theo thời gian thực Dữ liệu metadata liệu text có cấu trúc có kích thước nhỏ nhiều lần so với khung hình video Hơn nữa, liệu text khó khai thác thông tin không hiểu rõ ngữ cảnh thực tế toán việc che giấu làm mờ liệu text đơn giản nhiều so với liệu dòng video Dữ liệu metadata liên tục Edge AI gửi hệ thống máy chủ triển khai hạ tầng đám mây để phân tích nội dung, kết xuất thành thơng tin có ý nghĩa dạng kiện, cảnh báo, biểu đồ thống kê gửi hệ thống quản lý video trung tâm (Video Management System -VMS) để hiển thị lên giao diện cho người dùng Bài báo gồm nội dung Sau phần giới thiệu, phần chúng tơi đề cập đến việc triển khai thuật toán học sâu cho điện tốn biên Phần chúng tơi trình bày cụ thể giải pháp phân tích video thơng minh đề xuất Phần chúng tơi trình bày thử nghiệm đánh giá thực tế để tính khả thi hiệu giải pháp Cuối phần kết luận hướng phát triển tương lai II TRIỂN KHAI DEEP LEANING CHO EDGE COMPUTING Điện tốn biên mơ hình tính tốn có vai trị ngày quan trọng, việc tính tốn liệu đưa đến hệ thống điện toán biên (edge) mạng hay liệu người dùng tính tốn mạng cục bộ, gần với nguồn phát, thay truyền hết hệ thống điện toán đám mây để xử lý [5] Tuy nhiên, để thiết bị tính tốn biên đóng vai trị mơ hình đặt ra, việc triển khai thuật toán DL yếu tố có tính định Một mạng DL sử dụng nhiều xử lý ảnh mạng CNN Về chất, CNN mạng nơron nhiều lớp (layer) hoạt động theo luồng xử lý sau: (1) lớp tích chập (convolution layer) quét ảnh đầu vào trích rút véctơ đặc trưng cách tự động; (2) hàm kích hoạt (activation function) xác định đặc trưng véctơ kích hoạt cho q trình suy luận (3) lớp tổng hợp (pooling-layer) giảm kích thước véctơ đặc trưng, lớp kết nối hoàn chỉnh (fully-connected layer) kết nối nhãn khả tới tất đầu lớp tổng hợp Dữ liệu ảnh đầu vào qua lớp mạng CNN nhanh chóng giảm kích thước, tự động lọc đặc trưng cần thiết đầu mạng thông tin đối tượng, vị trí thuộc tính 190 IVA-EC: GIẢI PHÁP PHÂN TÍCH VIDEO THƠNG MINH DỰA TRÊN ĐIỆN TOÁN BIÊN chúng xuất ảnh đầu vào Vì mạng nơron DL phù hợp cho điện tốn biên việc giảm kích thước liệu cần xử lý trước gửi máy chủ điện toán đám mây Đối với hệ thống camera giám sát, liệu thu thập từ mơi trường dịng video có kích thước lớn liệu sau qua thiết bị tính tốn điện tốn biên liệu text có kích thước nhỏ nhiều liệu đầu vào Một ưu điểm quan trọng khác DL điện tốn biên bảo vệ tính riêng tư liệu người dùng, đặc biệt với liệu dạng ảnh dòng video Dữ liệu ảnh đầu vào sau qua mạng CNN khó khai thác thơng tin khác ngồi thơng tin mà mạng huấn luyện để suy luận Ngay trường hợp có đặc trưng mạng CNN trích rút ra, việc hiểu đặc trưng khơng khả thi đặc trưng trích xuất tự động, có mức trừu tượng cao, diễn đạt hay hiểu theo ngôn ngữ thơng thường người Những lợi ích việc triển khai DL điện tốn biên mang lại lớn, nhiên thực tế việc chạy thuật toán DL thiết bị biên gặp phải nhiều thách thức Phần lớn thiết bị biên thiết bị nhúng hạn chế lượng tài nguyên tính toán [19] Các thuật toán “state-of-the-art” DL xây dựng dựa thư viện tảng lập trình AI phổ biến Tensorflow, Theano, Pytorch, Caffe, v.v Các tảng phát triển cho phần cứng mạnh PC máy chủ Việc triển khai trực tiếp tảng thiết bị nhúng gặp nhiều khó khăn Hiện nhà nghiên cứu thường tiếp cận theo hướng nén mơ hình DL phát triển phần cứng chuyên dụng tiêu thụ điện để tăng tốc độ xử lý cho thuật toán DL [20] Việc nén mơ hình mạng DL giúp giảm kích thước mơ hình từ giảm nhớ, giảm u cầu tài ngun tính tốn Trong khi, thiết bị nhúng tích hợp phần cứng chuyên dụng cho DL thay sử dụng CPU GPU để tính tốn giúp tăng tốc độ suy luận cho thuật tốn DL mà khơng tiêu thụ q nhiều điện A Nén mơ hình học sâu (Model Compression) Nén mơ hình học sâu kỹ thuật phép triển khai DL thiết bị biên Yêu cầu trình nén mơ hình DL giữ cho độ xác mơ hình tương đương giảm mức chấp nhận so với mơ hình gốc Một số kỹ thuật phổ biến thường sử dụng “cắt tỉa” mơ hình (Pruning) lượng tử hóa (Quantization) tham số mơ hình Quantization liên quan đến trình xấp xỉ tập đại lượng có giá trị tương đối lớn thay đổi liên tục lượng có giá trị nhỏ Hiểu cách đơn giản, lượng tự hóa chuyển đổi trọng số mơ hình từ biểu diễn số thực nhiều bit thành số thực bit hay làm tròn chúng Ví dụ số thực biểu diễn dạng số thực 32-bit (FP32) làm trịn dạng số thực 16-bit (FP16) số nguyên 8-bit (INT8) Việc làm tròn trọng số làm giảm độ xác mơ hình đồng thời làm giảm yêu cầu tài ngun tính tốn Mơ hình với FP16 INT8 đạt tốc độ xử lý nhanh gấp đến lần so với mơ hình ban đầu FP32 Một thực tế rằng, tất trọng số mà mơ hình mạng DL học q trình huấn luyện có ý nghĩa cho q trình suy luận, phán đốn model DL thiết kế cho việc tự động trích xuất đặc trưng đánh trọng số cho đặc trưng Do vậy, mơ hình sau huấn luyện tồn liên kết có trọng số thấp (xấp xỉ 0) Một số nghiên cứu số lượng nhỏ kết nối có vai trị thực quan trọng việc áp dụng kỹ thuật pruning (cắt tỉa) cho mạng giúp loại bỏ kết nối dừ thừa mơ hình từ giảm q trình tính tốn, tăng tốc độ xử lý [20] Các bước cắt tỉa mơ hình mơ tả sau: Huấn luyện mạng tìm tất kết nối (connections) có trọng số lớn Loại bỏ kết nối khơng quan trọng trọng số nhỏ giá trị ngưỡng cho trước cách thiết lập trọng số Sau trình cắt tỉa, mơ hình bị thay đổi nhiều giảm độ xác so với mơ hình ban đầu Vì cần thực q trình hiệu chỉnh trọng số mơ hình cắt tỉa để tăng độ xác B Tăng tốc phần cứng (Hardware Acceleration) Để tăng tốc độ suy luận cho DL, nhà sản xuất phần cứng phát triển mạch phần cứng chuyên dụng cho DL TPU Google, NVDLA NVIDIA, NPU Intel bên cạnh phần cứng xử lý sẵn có máy tính CPU GPU TPU mạch ASIC (Application Specific Intergrated Circuit) phát triển Google để tăng tốc độ xử lý cho tác vụ học sâu thiết kế riêng cho TensorFlow - thư viện học máy mã nguồn mở Google [23] Khơng giống CPU thực nhiều tác vụ khác nhau, mạch ASIC thường thực cơng việc Vì TPU cho hiệu cao watt điện dùng để vận hành hệ thống NVDLA (NVIDIA® Deep Learning Accelerator) tăng tốc phần cứng với hàm chức cấu hình thiết kế cho hoạt động suy luận ứng dụng học sâu [25] Nó cung cấp khả tăng tốc phần cứng đầy đủ cho mạng nơron tích chập (CNN) cách xây dựng block riêng lẻ giúp tăng tốc hoạt động tính tốn liên quan đến lớp mạng CNN (ví dụ: block cho lớp tích chập, block cho lớp kết nối đầy đủ, block cho lớp kích hoạt, v.v.) Với kiến trúc mơđun, NVDLA có khả mở rộng, cấu hình linh hoạt thiết kế để đơn giản hóa việc tích hợp triển khai mạch FPGA Mặt khác, so với việc sử dụng GPU cho tác vụ học sâu, mạch tăng tốc phần cứng TPU NVDLA có nhớ, băng thơng I/O tài ngun tính tốn tương đối hạn chế Tuy nhiên, chúng đạt hiệu suất mức độ vừa phải với công suất tiêu thụ thấp nên phù hợp cho thiết bị nhúng thiết bị IoT có lượng hạn chế [24] Đào Vũ Hiệp, Mạc Đình Hiếu, Tống Việt Hùng, Vũ Văn Phán, Hà Quốc Trung 191 III GIẢI PHÁP ĐỀ XUẤT A Kiến trúc hệ thống phân tích video thơng minh Các hệ thống camera giám sát tiến hành ghi lại tất dòng video để lưu trữ Tuy nhiên, video liệu thô người dùng Người dùng quan tâm đến kiện xảy thông tin chứa Tùy theo mục đích sử dụng khác mà thơng tin có giá trị với người sử dụng khác Mục đích hệ thống camera giám sát ghi lại hành động diễn vị trí mà camera bao qt, từ có liệu để người dùng xem lại, phân tích chi tiết có kiện bất thường xảy Ví dụ, ứng dụng giám sát khu vực hạn chế, liệu mà người dùng quan tâm kiện người vào khu vực Mục tiêu hệ thống phân tích video thơng minh tự động phát kiện coi bất thường theo sách đặt để cảnh báo cho người dùng (xảy cháy nổ, người vào khu vực cấm, v.v.) hay thống kê thơng tin coi hữu ích với người dùng (nhận biết khách hàng quen thuộc, số lượng khách đến cửa hàng, v.v.) Vì vậy, hệ thống phân tích video thơng minh phát triển theo mơ hình hướng kiện (event-base) Kiến trúc hệ thống mô tả Hình với với thành phần chính, có Camera, NVR (Network Video Recoder) phần mềm phần mềm quản lý video đa (Video Management System - VMS) thành phần sẵn có hệ thống camera giám sát Thiết bị Edge AI máy chủ phân tích video triển khai điện toán đám mây thành phần thêm vào cho chức phân tích video thơng minh Về bản, hệ thống phân tích video thơng minh giải pháp đề xuất tận dụng tối đa trạng hạ tầng camera giám sát sẵn có, từ tiết kiệm chi phí thời gian triển khai cho quan tổ chức Cloud – Analytic Server Video Stream Events & Metadata Python/Java/C++ Ứng dụng AI Khu vực CSDL Edge AI Metadata Message Broker NodeJS/PHP API Camera 01 Logstash Camera N ElasticSearch Internet Khu vực M Trung tâm giám sát NVR Video Management System Edge AI 01 02 03 04 05 06 07 08 09 Event Camera 01 Camera N Hình Kiến trúc tổng thể hệ thống Vai trò chức thành phần hệ thống mô tả chi tiết sau: Camera: đóng vai trị “mắt điện tử” ghi lại hình ảnh khu vực truyền tải hình ảnh trung tâm giám sát thông qua giao thức truyền tải thời gian thực (Real-time Transfer Protocol - RTP) trình thiết lập, điểu khiển phiên truyền thơng trạm cuối giao thức truyền tin thời gian thực RTSP (Real Time Streaming Protocol) phụ trách Edge AI: máy tính nhúng tích hợp phần cứng chuyên dụng cho thuật toán DL Edge AI có kích thước nhỏ gọn, kết nối với camera mạng LAN triển khai tủ mạng kết nối camera khu vực Edge AI nhận trực tiếp dòng video từ camera sử dụng thuật toán DL để phát đối tượng xuất khung hình (phát người, phương tiện giao thông, động vật, v.v.) vị trí đối tượng (tọa độ kích thước bounding box đối tượng) số thuộc tính mà người dùng quan tâm (giới tính, màu sắc, hình dáng, biểu cảm, v.v.) Tất thơng tin đóng gói tin có cấu trúc gửi lên máy chủ phân tích triển khai hệ thống điện tốn đám mây thơng qua giao thức pub/sub messaging NVR: hệ thống đầu ghi có nhiệm vụ nhận dịng RTP từ camera lưu trữ liệu nhận dạng tệp tin video Bên cạnh chức ghi liên tục hay ghi theo lịch hệ thống NVR truyền thống, NVR có thêm chức “smart record” ghi thông minh theo kiện mà hệ thống tự động phân tích Tính ghi theo kiện giảm khối lượng video phải lưu trữ xuống cách tối đa, từ tăng thời gian lưu trữ video cho kích thước ổ cứng Vấn đề đặt q trình NVR nhận lệnh ln có độ trễ Vì NVR tiến hành nhận lệnh bắt đầu ghi làm mát liệu Để giải vấn đề trên, cần có chế cache (lưu tạm) để lưu lại khung hình video khoảng thời gian ngắn định nghĩa trước, từ cho phép video ghi lại chứa khoảng thời gian trước nhận lệnh IVA-EC: GIẢI PHÁP PHÂN TÍCH VIDEO THƠNG MINH DỰA TRÊN ĐIỆN TOÁN BIÊN 192 Máy chủ phân tích: máy chủ có nhiệm vụ phân tích video triển khai hệ thống điện toán đám mây dựa liệu metadata nhận từ Edge AI thông qua hệ thống stream liệu phân tán Các máy chủ ứng dụng tổng hợp liệu metadata nhận theo chuỗi khung hình liên tiếp xử lý thuật toán đặc thù cho ứng dụng để kết xuất kiện hay thông tin có giá trị Sự kiện cập nhật vào CSDL ứng dụng gửi đến NVR để kích hoạt chế độ ghi thơng minh Một máy chủ dịch vụ cung cấp API cho phép VMS phân hệ khác tương tác với CSDL lấy thông tin kiện để hiển thị cho người dùng VMS: phần mềm quản lý video đa năng, có nhiệm vụ tiếp nhận dịng RTP từ camera giải mã hiển thị hình ảnh lên hình giám sát Trong giải pháp đề xuất, bên cạnh tính VMS truyền thống, phần mềm tích hợp thêm plugin cho ứng dụng phân tích video thơng minh giao diện hiển thị kiện, cảnh báo theo thời gian thực, giao diện hiển thị thơng tin phân tích dạng hình ảnh, bảng biểu trực quan Hơn nữa, người dùng xem lại video ngắn thời điểm kiện xảy ghi lại chức “smart record” NVR Mặt khác, việc quản lý, cấu hình điều khiển thiết bị Edge AI tích hợp vào phần mền VMS thông qua giao diện tương tác trực quan B Thiết bị Edge AI Edge AI trung tâm giải pháp với nhiệm vụ nhận dòng liệu video, giải mã lấy khung hình để tiến hành suy luận, phán đốn mơ hình DL huấn luyện với liệu mẫu Hình mơ tả chi tiết luồng xử lý thiết bị Edge AI Mơđun “suy luận” dựa thuật tốn DL cho tác vụ phổ biến xử lý ảnh phát đối tượng (object detection), phân loại ảnh (classification), theo vết đối tượng (object tracking), phân vùng ảnh (object segmentation) Các mơ hình huấn luyện với liệu mẫu tùy theo yêu cầu toán kỹ thuật học chuyển tiếp (Transfer learning) Transfer learning trình truyền đặc trưng học từ ứng dụng sang ứng dụng khác cách huấn luyện mơ hình với liệu cơng khai trước, sau sử dụng mơ hình thu để huấn luyện tiếp với liệu toán đặc thù Kỹ thuật đạt hiệu tốt nhiều lớp ban đầu mạng nơron chủ yếu sử dụng để xác định đường viền, đường cong đặc điểm khác hình ảnh [21] Các đặc trưng dễ dàng kế thừa toán khác Mặt khác, việc huấn luyện mơ hình tập liệu nhỏ làm trình huấn luyện diễn nhanh giảm thiểu chi phí thu thập gán nhãn liệu Kết hợp với kỹ thuật cắt tỉa mơ trình bày nội dung II, người dùng giảm đáng kể kích thước tổng thể mơ hình, dẫn đến dung lượng nhớ thấp nhiều thông lượng suy luận cao hơn, điều quan trọng cho việc triển khai thiết bị biên Training model on Cloud server Training Pruning ReTrain Pretrained Model Model Custom Dataset Model Trained Model Edge AI Decode Pre process Inference Analyze Data Message Producer Hình Luồng xử lý thiết bị Edge AI Q trình suy luận mơ hình DL tách đối tượng xuất khung vị trí thuộc tính chúng Ví dụ đầu thuật toán Tiny-YOLOv3 danh sách bounding box (bbox), phân loại đối tượng xuất ảnh [22] Thông qua Edge AI liệu khung hình video rút gọn lại thành danh sách đối tượng xuất khung hình Kích thước liệu giảm đáng kể loại bỏ liệu “background” Các liệu gọi metadata đóng gói lại thành tin để gửi máy chủ phân tích thơng qua giao thức pub/sub messaging Một tin bao gồm thông tin theo cấu trúc XML JSON Định danh camera Frame ID: số thứ tự khung hình Timestamp: thời gian ghi nhận hình ảnh Danh sách đối tượng: bbox nhãn đối tượng (người, ô tô, khn mặt, biển số xe,…) Đào Vũ Hiệp, Mạc Đình Hiếu, Tống Việt Hùng, Vũ Văn Phán, Hà Quốc Trung 193 Thuộc tính đối tượng: giới tính, màu sắc, hình dạng, Đặc trưng đối tượng: véctơ đặc trưng trích rút mạng CNN Các thơng tin khác định nghĩa sẵn: thơng tin vị trí camera thực tế, thông tin bổ sung khác C Mô hình truyền liệu Edge AI máy chủ phân tích hệ thống điện tốn đám mây Q trình truyền liệu từ Edge AI lên hệ thống đám mây dựa hệ thống message pub/sub phân tán mơ hình mơ tả Hình Ưu điểm mơ hình cung cấp tảng truyền tin có độ trễ thấp thông lượng cao cho việc xử lý nhiều nguồn cấp liệu khác theo thời gian thực Edge AI đóng vai trị procuder ứng dụng máy chủ phân tích cosumer Consumer đăng ký (subscribe) để nhận liệu từ topic tạo riêng cho Edge AI Dữ liệu topic phân chia thành nhiều phân vùng (partition) Mỗi phân vùng lưu liệu camera, giúp bảo toàn liệu xử lý liệu dễ dàng Các phân vùng cho phép thực đọc liệu theo nhiều luồng song song tới topic cụ thể cách phân chia liệu topic nhiều broker khác nhau, phân vùng đặt máy riêng biệt – cho phép nhiều consumer đọc liệu đồng thời từ topic IoT Edge Computing Location N Location 02 Location 01 Edge AI N Edge AI 02 Edge AI 01 Topic 02 Partition 01 Metadata Cam 02 Topic N Application 01 Consumer Group 01 Analytics Module CSDL Topic 01 Inference by Deep Learning Cam 01 Cloud Computing Message Broker Partition 02 Message Procuder Application 02 Consumer Group 02 Analytics Module API Application K Partition M Consumer Group K Analytics Module Cam M Hình Mơ hình truyền liệu Edge AI máy chủ phân tích hệ thống điện toán đám mây IV THỬ NGHIỆM VÀ ĐÁNH GIÁ A Kịch môi trường thử nghiệm Để chứng minh tính khả thi giải pháp thực tế, xây dựng hệ thống phân tích video thơng minh cho ứng dụng giám sát khu vực hạn chế (Restricted Zone Monitoring) theo mơ hình đề xuất Trong đó, hệ thống có nhiệm vụ tự động phát người vào khu vực hạn chế bao quát camera giám sát hiển thị cảnh báo cho quản trị viên theo thời gian thực phần mềm VMS Vùng hạn chế xác định toàn khu vực quan sát camera Khi có thay đổi số lượng người xuất khung hình hệ thống xác định có kiện xảy Nếu số người tăng, kiện có người vào khu vực, ngược lại có người khỏi khu vực Sự kiện kết xuất dựa chuỗi khung hình liên tiếp để đảm bảo độ xác Chúng tơi sử dụng mạch nhúng Jetson Nano Jetson AGX Xavier làm thiết bị Edge AI Chi tiết cấu hình thiết bị mô tả Bảng Bảng Cấu hình phần cứng chi tiết thiết bị Edge AI thử nghiệm CPU GPU Memory Power Mechanical DL Accelerator AI Performance Jetson Nano [26] Quad-Core ARM Cortex – A57 MPCore 128-core NVIDIA MaxellTM GPU 4GB 64-bit LPDDR4 25.6GB/s 5W/10W 69,6mm x 45mm 472 GFLOPs Jetson AGX Xavier [26] 8-core NVIDIA Carmel Armv8.2 64-bit CPU 512-core NVIDA VoltaTM GPU with 64 Tensor Cores 32GB 256-bit LPDDR4x 136.5GB/s 10W/15W/30W 100mm x 87 mm 2x NVDLA Engines 32 TOPs Các thuật toán hạng nhẹ phổ biến cho phát đối tượng Tiny-YOLOv3, SSD – ResNet18, DetectNet_v2 sử dụng Edge AI để phát người xuất khu vực Mơ hình thuật tốn huấn luyện công cụ Transfer Learning Toolkit NVIDIA chia sẻ cơng khai cho nhiều tốn khác [27] Thiết bị Edge AI sử dụng TensorRT [28], tảng tính tốn hạng nhẹ cho phần cứng nhúng tiêu thụ điện năng, sử dụng GPU NVIDIA, để thực lượng tử hóa mơ hình việc giảm độ xác loại liệu INT8 FP16 Sau trình suy luận mơ hình DL, đối tượng khung hình biểu diễn IVA-EC: GIẢI PHÁP PHÂN TÍCH VIDEO THƠNG MINH DỰA TRÊN ĐIỆN TOÁN BIÊN 194 dạng bounding box nhãn tương ứng Dữ liệu đóng gói lại thành tin truyền đến máy chủ phân tích thơng qua dịch vụ IBM Event Streams Hệ thống máy chủ phân tích video triển khai hệ thống điện toán đám mây IBM (IBM Cloud) kết xuất kiện thuật toán theo vết đối tượng (tracking object) với liệu đầu vào chuỗi bounding box khung hình liên tiếp B Kết thử nghiệm, nhận xét đánh giá Để đánh giá tính khả thi giải pháp, quan tâm đến ba yếu tố: (1) Hiệu chạy thuật toán DL thiết bị Edge AI (FPS – Frame Per Second); (2) Băng thơng cần thiết cho q trình truyền tải tin từ thiết bị Edge AI đến máy chủ phân tích (bytes/s); (3) Thời gian cần thiết để kết xuất kiện (ms) Bảng cho thấy hiệu xử lý thiết bị Jetson Nano Jetson AGX Xavier với liệu dòng video có độ phân giải FullHD Nhìn chung thiết bị đáp ứng tốt khả suy luận theo thời gian thực cho dòng video (tốc độ xử lý > 30FPS) Đặc biệt, Jetson AGX Xavier có hiệu xử lý ấn tượng lên đến 442 FPS với thuật toán DetectNet_v2 Tức thiết bị Edge AI sử dụng phần cứng Jetson AGX Xavier xử lý đồng thời 30 dịng video có tốc độ khung hình 15 FPS (tốc độ khung hình thường dùng hệ thống camera giám sát) Các thuật tốn Tiny YOLO-v3 SSD-RestNet18 có tốc độ xử lý thấp DetectNet-v2 thuật tốn phát 80 loại đối tượng khác nhau, DetectNet-v2 nhận biết loại đối tượng Bảng Tốc độ suy luận thuật toán phát đối tượng thiết bị Edge AI Model Arch Tiny YOLO-v3 SSD – ResNet18 DetectNet_v2 Resolution 416 416 300 300 480 272 Precision FP16 FP16 FP16 Number of classes 80 91 Jetson Nano 44 FPS 40,6 FPS 63 FPS Jetson AGX Xavier 223 FPS 215 FPS 442 FPS Do cấu hình phần cứng thấp nhiều so với Jetson AGX Xavier, Jetson Nano xử lý dòng video đồng thời triển khai thuật toán DetectNet_v2 Tuy nhiên, với ứng dụng triển khai cho số lượng nhỏ camera Jetson Nano lại lựa chọn phù hợp tối ưu chi phí Hình thống kê lưu lượng liệu mà thiết bị Edge AI gửi lên topic hệ thống IBM Event Streams theo thời gian thực Trong kịch này, sử dụng thiết bị Jetson AGX Xavier để xử lý 30 dòng video đồng thời với thuật toán DetectNet_v2 Kết detect khung hình camera đóng gói thành tin gửi lên parttition tương ứng thuộc topic tạo riêng cho thiết bị Edge AI Băng thơng cần thiết cho q trình truyền liệu cho 30 camera khoảng 217 KB/s, nhỏ nhiều so với băng thông cần thiết để truyền dịng video Điều chứng minh tính ưu việt mơ hình đề xuất việc giảm tải cho hệ thống điện toán đám mây Hơn nữa, việc xử lý liệu text máy chủ phân tích để kết xuất kiện có tốc độ cao với độ trễ < 1s liệu camera lưu trữ độc lập theo phân vùng chương trình phân tích xử lý đa luồng nhờ tận dụng sức mạnh tính tốn khổng lồ điện tốn đám mây Hình Thống kê lưu lượng liệu gửi lên topic theo thời gian thực V KẾT LUẬN Trong báo này, chúng tơi trình bày giải pháp phân tích video thơng minh cho hệ thống camera giám sát để phân tích dịng video cách tự động, kết xuất thơng tin hữu ích cho người sử dụng theo thời gian thực, tận dụng tối đa hạ tầng hệ thống camera giám sát sẵn có Các kết thử nghiệm chứng tỏ tính khả dụng giải pháp Việc triển khai mơ hình học sâu thiết bị nhúng hạn chế hoàn toàn khả thi với phần cứng phần mềm sẵn có thị trường Thiết bị Edge AI biên mở hướng tiếp cận việc áp dụng AI vào lĩnh vực khác đời sống TÀI LIỆU THAM KHẢO [1] Smart home IP camera shipments worldwide from 2012 to 2019 (in million units), [Online] Available: https://static1.statista.com/statistics/486027/smart-home-ip-camera-shi pments-worldwide/ Đào Vũ Hiệp, Mạc Đình Hiếu, Tống Việt Hùng, Vũ Văn Phán, Hà Quốc Trung 195 [2] An Intelligent Video Analytics Platform, [Online] Available: https://gigabyte.com/Solution/AI-AIoT/intelligentvideo [3] Cisco Global Cloud Index: Forecast and Methodology, White Paper [Online] Available: https://www.cisco.com/c/en/us/solutions/collateral/service-provider/global-cloud-index-gci/white-paper-c11738085.html, 2016-2021 [4] Shi, Weisong, et al "Edge computing: Vision and challenges" IEEE internet of things journal 3.5: 637-646, 2016 [5] Satyanarayanan, Mahadev "The emergence of edge computing" Computer 50.1: pp 30-39, 2017 [6] De Donno, Michele, Koen Tange, and Nicola Dragoni "Foundations and evolution of modern computing paradigms: Cloud, iot, edge, and fog" Ieee Access 7: pp 150936-150948, 2019 [7] Shi, Weisong, and Schahram Dustdar "The promise of edge computing" Computer 49.5: pp 78-81, 2016 [8] Zhou, Zhi, et al "Edge intelligence: Paving the last mile of artificial intelligence with edge computing" Proceedings of the IEEE 107.8: pp 1738-1762, 2019 [9] Li, He, Kaoru Ota, and Mianxiong Dong "Learning IoT in edge: Deep learning for the Internet of Things with edge computing" IEEE network 32.1: pp 96-101, 2018 [10] Verhelst, Marian, and Bert Moons "Embedded deep neural network processing: Algorithmic and processor techniques bring deep learning to iot and edge devices" IEEE Solid-State Circuits Magazine 9.4: pp 55-65, 2017 [11] Zhao, Zhuoran, Kamyar Mirzazad Barijough, and Andreas Gerstlauer "DeepThings: Distributed adaptive deep learning inference on resource-constrained IoT edge clusters" IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems 37.11: pp 2348-2359, 2018 [12] Tang, Jie, et al "Enabling deep learning on IoT devices" Computer 50.10: pp 92-96, 2017 [13] Mohammadi, Mehdi, et al "Deep learning for IoT big data and streaming analytics: A survey" IEEE Communications Surveys & Tutorials 20.4: pp 2923-2960, 2018 [14] Qi, Xuan, and Chen Liu "Enabling deep learning on iot edge: Approaches and evaluation" 2018 IEEE/ACM Symposium on Edge Computing (SEC) IEEE, 2018 [15] Tan, Tianxiang, and Guohong Cao "FastVA: Deep Learning Video Analytics Through Edge Processing and NPU in Mobile" arXiv preprint arXiv: pp 2001.04049, 2020 [16] Chen, Jianguo, et al "Distributed deep learning model for intelligent video surveillance systems with edge computing" IEEE Transactions on Industrial Informatics (2019) Chen, Jianguo, et al "Distributed deep learning model for intelligent video surveillance systems with edge computing." IEEE Transactions on Industrial Informatics, 2019 [17] Zhou, Zhi, et al "Edge intelligence: Paving the last mile of artificial intelligence with edge computing" Proceedings of the IEEE 107.8: pp 1738-1762, 2019 [18] Ali, Muhammad, et al "Edge enhanced deep learning system for large-scale video stream analytics" 2018 IEEE 2nd International Conference on Fog and Edge Computing (ICFEC) IEEE, 2018 [19] Shawahna, Ahmad, Sadiq M Sait, and Aiman El-Maleh "FPGA-based accelerators of deep learning networks for learning and classification: A review" IEEE Access 7: pp 7823-7859, 2018 [20] Chen, Jiasi, and Xukan Ran "Deep learning with edge computing: A review" Proceedings of the IEEE 107.8: pp 1655-1674, 2019 [21] Pan, Sinno Jialin, and Qiang Yang "A survey on transfer learning" IEEE Transactions on knowledge and data engineering 22.10: pp 1345-1359, 2009 [22] Redmon, Joseph, and Ali Farhadi "Yolov3: An incremental improvement" arXiv preprint arXiv:1804.02767 2018 [23] Cloud Tensor Processing Units (TPUs) Google Cloud [Online] Available: https://cloud.google.com/tpu/docs/tpus [24] Shawahna, Ahmad, Sadiq M Sait, and Aiman El-Maleh "FPGA-based accelerators of deep learning networks for learning and classification: A review" IEEE Access 7: pp 7823-7859, 2018 [25] Farshchi, Farzad, Qijing Huang, and Heechul Yun "Integrating NVIDIA deep learning accelerator (NVDLA) with RISC-V soc on firesim" 2019 2nd Workshop on Energy Efficient Machine Learning and Cognitive Computing for Embedded Applications (EMC2) IEEE, 2019 [26] NVIDIA Jetson - The AI Platform for Autonomous Machines Available: https://developer.nvidia.com/embedded/ develop/hardware [27] NVIDIA TensorRT - Programmable Inference Accelerator Available: https://developer.nvidia.com/tensorrt [28] Transfer Learning Toolkit for Intelligent Video Analytics V2.0 Release Notes Available: https://docs.nvidia com/metropolis/TLT/tlt-release-notes/index.html 196 IVA-EC: GIẢI PHÁP PHÂN TÍCH VIDEO THƠNG MINH DỰA TRÊN ĐIỆN TỐN BIÊN IVA-EC: INTELLIGENT VIDEO ANALYTICS SOLUTION BASED ON EDGE COMPUTING Dao Vu Hiep, Mac Dinh Hieu, Tong Viet Hung, Vu Van Phan, Ha Quoc Trung ABSTRACT: This paper proposes an Intelligent Video Analytics solution (IVA-EC) using Deep Learning (DL) algorithms Such solution is implemented in an edge-computing enviroment It can be used to build end-to-end AI-powered applications, namely smart city, smart traffic monitoring, smart factory, directly on existing camera surveillance systems The heart of IVA-EC involves a group of Edge AI devices that allows organizations to turn raw video data into actionable insights (metadata) locally in real time The metadata is subsequently sent to the Video Analytic servers, which are deployed in cloud computing for content analysis The aim of IVA-EC is to provide instantaneous event notification of rule-violations The notifications are displayed in the Video Management System (VMS) with an intuitive user interface The solution enables real-time intelligent video analysis for hundreds to thousands of cameras simultaneously while ensuring the privacy of end-users ... GIẢI PHÁP PHÂN TÍCH VIDEO THƠNG MINH DỰA TRÊN ĐIỆN TỐN BIÊN 192 Máy chủ phân tích: máy chủ có nhiệm vụ phân tích video triển khai hệ thống điện toán đám mây dựa liệu metadata nhận từ Edge AI thông. .. 190 IVA- EC: GIẢI PHÁP PHÂN TÍCH VIDEO THƠNG MINH DỰA TRÊN ĐIỆN TỐN BIÊN chúng xuất ảnh đầu vào Vì mạng nơron DL phù hợp cho điện toán biên việc giảm kích thước liệu cần xử lý trước gửi máy chủ điện. .. tốn biên làm nhiệm vụ tiền xử lý liệu giải mã dòng video, phát chuyển động Trong báo này, đề xuất giải pháp phân tích video thơng minh dựa kết hợp sức mạnh điện toán biên điện toán đám mây gọi IVA- EC

Định dạng
Số trang	9
Dung lượng	649,19 KB