TRƯỜNG ĐẠI HỌC QUY NHƠN KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CUỐI KỲ XỬ LÝ ẢNH SỐ “Nghiên cứu nhận diện và phát hiện đối tượng dựa trên nên tảng hệ thống iot camera” Hướng dẫn TS Lê Thị Kim Nga Thực hiện Nguyễn Trường Hải Đặng Kỳ Duyên Trần Thị Diệu Mỹ Lớp Khoa học máy tính K23 Quy Nhơn, 042022 MỤC LỤC DANH MỤC HÌNH ẢNH 3 PHẦN MỞ ĐẦU 4 CHƯƠNG 1 TỔNG QUAN VỀ HỆ THỐNG IOT CAMERA VÀ BÀI TOÁN PHÁT HIỆN VÀ NHẬN DIỆN ĐỐI TƯỢNG 6 1 1 Tổng quan về hệ thống IoT camera 6 1 1 1 Internet vạn vật 6 1 1 2 Hệ thố.
TRƯỜNG ĐẠI HỌC QUY NHƠN KHOA CÔNG NGHỆ THÔNG TIN - - BÁO CÁO CUỐI KỲ XỬ LÝ ẢNH SỐ “Nghiên cứu nhận diện phát đối tượng dựa nên tảng hệ thống iot camera” Hướng dẫn: TS Lê Thị Kim Nga Thực hiện: Nguyễn Trường Hải Đặng Kỳ Duyên Trần Thị Diệu Mỹ Lớp: Khoa học máy tính K23 Quy Nhơn, 04/2022 MỤC LỤC DANH MỤC HÌNH ẢNH PHẦN MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ HỆ THỐNG IOT CAMERA VÀ BÀI TOÁN PHÁT HIỆN VÀ NHẬN DIỆN ĐỐI TƯỢNG 1.1 Tổng quan hệ thống IoT camera 1.1.1 Internet vạn vật 1.1.2 Hệ thống camera giám sát 1.2 Bài toán phát nhận diện đối tượng 10 1.2.1 Giới thiệu liệu video 10 1.2.2 Phát đối tượng ảnh .12 1.2.3 Nhận diện đối tượng ảnh 12 1.3 Quy trình phát nhận diện đối tượng hệ thống IoT camera 12 CHƯƠNG 2: PHÁT HIỆN VÀ NHẬN DIỆN ĐỐI TƯỢNG TRÊN HỆ THỐNG IOT CAMERA 15 2.1 Một số kỹ thuật tiền xử lý 15 2.1.1 Kỹ thuật phát chuyển động 15 2.1.2 Kỹ thuật tách màu 17 2.2 Phát đối tượng ảnh 21 2.3 Nhận diện đối tượng ảnh 25 KẾT LUẬN 28 DANH MỤC HÌNH Ả Hình 1: Tham luận PIACOM hội thảo Cách mạng Công nghiệp 4.0 ứng dụng IoT vào sản xuất thông minh .8 Hình 1.2: Một số ví dụ hệ thống camera giám sát Hình 1.3: Zeotrope .10 Hình 1.4: Minh họa khung hình 11 Hình 1.5: Sơ đồ chung trình xử lý 13Y Hình 1: Khung hình trừ cho khung hình thời điểm trước 16 Hình 2.2: Các kết phân ngưỡng ảnh độ lệch 16 Hình 2.3: Khung hình tổng hợp với n=10 ảnh mặt nạ kết 17 Hình 2.4: Khung hình tổng hợp với giá trị n khác ảnh mặt nạ kết 17 Hình 2.5: Hình ảnh ví dụ trận thi đấu bóng đá 18 Hình 2.6: Chọn vùng ảnh mẫu để phân tích màu .18 Hình 2.7: Histogram kênh Red vùng ảnh mẫu chọn 19 Hình 8: Histogram kênh Green vùng ảnh mẫu chọn .19 Hình 9: Histogram kênh Blue vùng ảnh mẫu chọn 19 Hình 2.10:Chọn vùng ảnh mẫu khác để phân tích màu .20 Hình 2.11: Histogram kênh Red vùng ảnh mẫu chọn 20 Hình 2.12: Histogram kênh Green vùng ảnh mẫu chọn 20 Hình 2.13: Histogram kênh Blue vùng ảnh mẫu chọn .20 Hình 2.14: Tương quan vấn đề định vị đối tượng ảnh so với nhận diện phát đối tượngtrong ảnh 22 Hình 2.15: Minh họa trình xử lý OverFeat 22 Hình 2.16: Minh họa trình phát đối tượng dựa định vị YOLO 23 Hình 2.17: Ảnh mẫu minh họa cho q trình phân chia khơng gian YOLO 23 Hình 2.18: Kết đối tượng ảnh mẫu .23 Hình 2.19: Minh họa kết ước lượng mong muốn với mắt lưới 24 Hình 2.20: Minh họa độ đo IoU 24 Hình 2.21: Mơ hình ước lượng hình bao khoanh màu xanh da trời dựa vào mắt lưới khoanh màu vàng .25 Hình 2.22: Minh họa bước nhận diện đối tượng mắt lưới để tổng hợp vào kết phát đối tượng YOLO 25 Hình 2.23: Kết ước lượng mắt lưới: hình bao đối tượng ứng với lớp khác khoanh màu khác 26 Hình 2.24: Kiến trúc mạng nơ ron tích chập YOLO 26 PHẦN MỞ ĐẦU Nghiên cứu xử lý ảnh thị giác máy lĩnh vực nghiên cứu nhiều quan tâm nhà khoa học hãng công nghệ giới nước Có nhiều cách để phân chia hướng nghiên cứu này, số phân chia theo liệu đầu vào ảnh tĩnh liệu video Trong đó, liệu video thường gắn liền với loại thiết bị ghi webcam loại camera ví dụ loại gắn nhà, tơ, ngồi trời, điện thoại di động Thời gian gần đây, phát triển phổ biến nhanh chóng thiết bị điện tử, đặc biệt loại camera thời đại Cách mạng Công nghiệp 4.0 tạo điều kiện cho đời nhiều hệ thống IoT camera với nhiều tác vụ xử lý thơng minh từ liệu hình ảnh thu Một toán nhận nhiều quan tâm đặt nghiên cứu khoa học lẫn thực nghiệm toán nhận diện phát đối tượng tảng hệ thống IoT camera Trong toán vậy, ta cần đến khả truy cập liệu camera hạ tầng mạng hệ thống IoT camera để từ tiến hành phân tích xử lý đối tượng quan tâm khung hình video Đây tốn có nhiều ứng dụng thực tế ví dụ phát đối tượng đột nhập khu vực nhạy cảm, hỗ trợ xử lý vi phạm giao thông, cảnh báo khói lửa… Hiện nước có nhiều đơn có hướng nghiên cứu liên quan ví dụ Đại học Quốc Gia Hà Nội, Đại học Lạc Hồng, Đại học Bách Khoa Hà Nội… Đây hướng nghiên cứu trọng tâm Viện Nghiên cứu ứng dụng Khoa học Công nghệ - Đại học Quy Nhơn năm gần Xuất phát từ hoàn cảnh đó, luận văn lựa chọn đề tài “Nghiên cứu nhận diện phát đối tượng dựa tảng hệ thống IoT camera” nhằm nghiên cứu số vấn đề toán với giải pháp liên quan Bố cục luận văn gồm phần mở đầu, phần kết luận ba chương nội dung bố cục sau: Chương 1: Tổng quan khái niệm hệ thống IoT camera đặc điểm liệu video toán phát đối tượng nhận diện đối tượng Trên sở đó, luận văn đưa sơ đồ xử lý chung cho quy trình phát nhận diện đối tượng hệ thống IoT camera Chương 2: Lý thuyết số kỹ thuật phục vụ phát nhận diện đối tượng hệ thống IoT camera, cụ thể số kỹ thuật tiền xử lý phát chuyển động tách màu nhằm mục tiêu xác định sơ khung hình có đối tượng hay không, tiếp đến nội dung phát đối tượng nhận diện đối tượng theo quy trình cơng trình YOLO CHƯƠNG 1: TỔNG QUAN VỀ HỆ THỐNG IOT CAMERA VÀ BÀI TOÁN PHÁT HIỆN VÀ NHẬN DIỆN ĐỐI TƯỢNG 1.1 Tổng quan hệ thống IoT camera 1.1.1 Internet vạn vật a Giới thiệu Trong năm gần đây, phát triển Cách mạng Công nghiệp 4.0 tạo nhiều chuyển biến người xã hội giới nói chung Việt Nam nói riêng Nhiều lĩnh vực liên quan đến hệ thống công nghệ thông tin đại dần trở nên quen thuộc đời sống người Một lĩnh vực IoT (Internet of Things), hay tiếng Việt thường dịch Internet vạn vật Hiểu cách đơn giản trực tiếp, IoT lĩnh vực công nghệ thông tin liên quan đến việc nghiên cứu xây dựng hệ thống mà nhiều thiết bị liên kết với qua môi trường Internet Theo xu hướng Cách mạng Công nghiệp 4.0, ta hình dung hệ thống IoT bao gồm tập hợp nhiều thiết bị máy móc có khả kết nối với qua mơi trường internet Trong đó, chúng thực truyền tải, trao đổi thông tin liệu sở phục vụ thực nhiệm vụ cụ thể mà cần khơng cần đến tương tác người, bao gồm người với người người với thiết bị máy móc Để vận hành hệ thống IoT cần đến ba loại hình kết nối: thứ máy móc - máy móc (machine to machine), thứ hai người - máy móc (person to machine) thứ ba người - người (person to person) Trong mối liên kết đó, kết nối máy móc - máy móc đóng vai trị chủ đạo xuyên suốt hoạt động hệ thống IoT Để làm điều này, hệ thống IoT cần đến mạng lưới cảm biến thực chức thu thập đo lường thông số liệu để truyền tải máy chủ trung tâm để thực phân tích xử lý Trên sở thiết bị máy móc người sử dụng thông tin thu thập phân tích cách tốt theo yêu cầu chức cụ thể hệ thống Có thể phản ứng nhanh chóng thiết bị thời gian thực thời gian thực điều phối kịp thời người dùng từ xa thông qua tảng điện toán đám mây Các thiết bị hệ thống IoT kết nối với qua nhiều hình thức, có dây khơng dây với nhiều loại công nghệ truyền thông khác tùy vào thiết kế cụ thể Thông qua hạ tầng kết nối đó, cảm biến truyền liệu một hệ thống máy chủ xử lý Đây đầu não cho việc vận hành điều khiển nhằm phục vụ mục tiêu có hệ thống lệ thuộc hồn tồn khơng lệ thuộc vào điều khiển người Cách mạng Công nghiệp 4.0 b Một số minh họa IoT từ lâu nhận định lĩnh vực nhiều tiềm phát triển Vào năm 2011, theo tính tốn hãng Cisco đến năm 2020 ước tính có khoảng 50 tỷ thiết bị IoT kết nối vào Internet Tại Việt Nam, IoT quan tâm từ lâu nhiều lĩnh vực kinh tế Chẳng hạn, vấn đề kiểm soát nước thải quan tâm nhiều sau số vụ việc ô nhiễm vụ việc ô nhiễm môi trường nghiêm trọng sông Thị Vải công ty VEDAN, vụ Formosa Hà Tĩnh… Cụ thể quy định quản lý bảo vệ môi trường khu kinh tế, khu kinh tế cửa khẩu, khu công nghệ cao, khu chế xuất cụm công nghiệp Thông tư 08/2009/TT-BTNMT Nghị định 80/2014/NĐ-CP quy định hoạt động thoát nước xử lý nước thải đô thị, khu công nghiệp, khu kinh tế, khu chế xuất, khu công nghệ cao, khu dân cư nông thôn tập trung Những sách làm tăng nhanh nhu cầu hệ thống quan trắc xử lý nước thải Việt Nam Trên giới có nhiều cơng ty lớn cung cấp giải pháp IoT phục vụ nhu cầu đó, kể đến giải pháp hỗ trợ giám sát từ xa phục vụ quản lý nước nước thải công ty Advantech hay giải pháp quản lý nước thải cơng ty Ursalink Một ví dụ minh họa khác lĩnh vực xăng dầu Tại hội thảo “Cách mạng Công nghiệp 4.0 ứng dụng IoT vào sản xuất thông minh” tổ chức Khách sạn Inter Continental Asiana Saigon, TP Hồ Chí Minh, cơng ty Cổ phần Tin học Viễn thông Petrolimex (PIACOM) tham gia triển lãm với giải pháp quản lý cửa hàng bán lẻ xăng dầu (EGAS) hệ thống Tự động hóa cửa hàng xăng dầu (AGAS) với mơ hình tự động hóa đo bồn bể, thiết bị in hóa đơn giao dịch bán lẻ xăng dầu cho khách hàng từ hệ thống EGAS Hình 1: Tham luận PIACOM hội thảo Cách mạng Công nghiệp 4.0 ứng dụng IoT vào sản xuất thông minh 1.1.2 Hệ thống camera giám sát Trong thiết bị cảm biến, nói cảm biến hình ảnh thiết bị phổ biến rộng rãi với xuất camera nơi đời sống kinh tế xã hội Camera giám sát sản phẩm dễ dàng tìm thấy sử dụng phổ biến thị trường Thị trường camera ngày khơng cịn khu đô thị, khu công nghiệp mà cịn phát triển khu vực ngoại thành, nơng thơn Hình 1.2: Một số ví dụ hệ thống camera giám sát Hiểu đơn giản, camera giám sát thiết bị lắp đặt để hỗ trợ việc giám sát quản lý cách cung cấp hình ảnh Thơng thường, chuỗi hình ảnh liên tục thu nhận từ camera lưu trữ truyền tải thiết bị quan sát từ xa Ta hình dung hệ thống camera giám sát hệ thống gồm nhiều thiết bị điện tử kết nối với có khả ghi nhận hình ảnh khu vực, hoạt động nơi cần quan sát truyền tải liệu hình ảnh đến thiết bị thu nhận kết nối xa Dữ liệu hình ảnh sau thu nhận lưu trữ thành file video hay xem trực tiếp thời gian thực Nhiều hệ thống cịn tích hợp tác vụ xử lý hình ảnh thơng minh phát đột nhập, phát khói lửa… Hầu hết hệ thống camera giám sát hệ thống IoT, thành phần hệ thống liên kết làm việc qua môi trường Internet Người sử dụng dễ dàng sử dụng điện thoại di động trình duyệt web máy tính để giám sát từ xa khu vực quan tâm, chẳng hạn camera nhà trẻ thường ln cung cấp cho phụ huynh để ln nhìn em tầm mắt… Trên thị trường có nhiều giải pháp cho hệ thống IoT camera Phổ biến kể đến hệ thống cài đặt mặc định triển khai hãng camera, chẳng hạn Hikvision Các hệ thống cho phép người dùng truy cập liệu từ xa qua phần mềm cài đặt điện thoại thông minh Tuy nhiên hầu hết khơng hỗ trợ tính xử lý ảnh mà cung cấp khả quan sát từ xa qua môi trường Internet thời gian thực Ngoài giải pháp hãng cung cấp thiết bị, nhiều sản phẩm phần mềm quản lý camera tập trung triển khai rộng rãi Có thể kể đến sản phẩm Milestone XProtect với số lượng thiết bị hỗ trợ 8500 cài đặt triển khai 500000 toàn giới Sản phẩm Milestone kết hợp với hệ thống plugin hãng thứ ba cung cấp Do nhiều tính xử lý thơng minh hỗ trợ nhận dạng biển số xe, giải pháp phân tích mặt người giới tính, tuổi, trạng thái đeo kính, biểu cảm… Một sản phẩm phần mềm quản lý camera tập trung Việt Nam phát triển gần công ty cổ phần VP9 Việt Nam với hướng phát triển phần cứng lẫn phần mềm VP9 vừa hướng tới sản xuất chip xử lý hình ảnh vừa đầu tư tính thơng minh xuất phát từ liệu camera Hiện VP9 tập đoàn Vingroup mua lại đầu tư phát triển thêm 1.2 Bài toán phát nhận diện đối tượng 1.2.1 Giới thiệu liệu video Hình 1.3: Zeotrope Nói đến video ta nói đến hiệu ứng hình ảnh chuyển động tạo từ dãy ảnh liên tục Vào năm 1834, William George Horner phát minh Zeotrope - loại thiết bị tạo ảo giác chuyển động việc sử dụng dãy ảnh liên tiếp Đây phát minh sơ khai mở cho thiết bị hoạt họa Đến năm 1877, Emile Reynaud thực cải tiến zeotrope thành praxinoscope Theo hình ảnh thu nhận từ thiết bị rõ ràng so với zeotrope Tiếp đến năm 1889, George Eastman phát minh phim chụp ảnh cho phép thực lưu trữ nhiều hình ảnh khác cuộn phim Sau năm 1895, Louis Lumière trở thành nhà phim giới hệ thống máy chiếu phim Thời kỳ bắt đầu đánh dấu phát triển phim ảnh Sự phát triển cho kỹ thuật video phải kể đến với thiết bị tivi sử dụng cathode CRT Thời kỳ đánh dấu nhiều phát minh mới, chẳng hạn nhóm Charles Ginsburg phát triển băng ghi hình VTR-Video Tape Recorder Vào năm 1951, băng từ lần sử dụng để ghi lại hình ảnh Sau năm 1971 với xuất băng cát xét VCRVideo Cassette Recorder Đến ngày nay, phát triển máy tính thiết bị điện tử mang lại cho người lựa chọn để lưu trữ, ghi hình, biên tập đồ họa truyền thông cách mạnh mẽ liệu video qua mạng tồn cầu Video chuỗi khung hình liên tiếp Mỗi khung hình hình ảnh, đơn vị liệu video Trong video, khung hình CHƯƠNG 2: PHÁT HIỆN VÀ NHẬN DIỆN ĐỐI TƯỢNG TRÊN HỆ THỐNG IOT CAMERA 2.1 Một số kỹ thuật tiền xử lý Các kỹ thuật tiền xử lý thường kỹ thuật không phức tạp có nhiệm vụ hỗ trợ cho chức xử lý chương trình Trong trường hợp chúng giúp xác định nhanh vùng có đối tượng quan tâm hay khơng cách đưa vùng chứa đối tượng vùng chắn khơng có đối tượng Việc lựa chọn sử dụng kỹ thuật xử lý thường phụ thuộc vào yêu cầu cụ thể toán đưa Một số kỹ thuật thường hay sử dụng kỹ thuật phát chuyển động kỹ thuật tách màu 2.1.1 Kỹ thuật phát chuyển động Ta xem xét liệu thu nhận từ camera quan sát khu vực cụ thể, thường với camera lắp đặt cố định, chẳng hạn camera quan sát đặt cổng vào, camera đường phố, camera đặt hành lang hay sảnh… Thường camera nằm hệ thống IoT giám sát trực tuyến khu vực cần theo dõi thực chức phát đột nhập khu vực nhạy cảm, điểm danh người vào hay phát vi phạm giao thông Trong hệ thống IoT camera vậy, mối quan tâm thường đặt lên đối tượng xuất cảnh người, mặt người, xe cộ Rõ ràng có nhiều thời điểm đối tượng khơng xuất khung hình ta khơng cần quan tâm đến khung hình Ví dụ liệu camera quay thời gian nghỉ, lúc nửa đêm số thời điểm khác mà khơng có đối tượng quan tâm người hay xe cộ qua lại Việc thực nhiều thao tác xử lý tốn nhiều tài ngun tính tốn khung việc làm vơ ích Xuất phát từ nhận xét đơn giản đó, liệu camera toán vậy, ý tưởng có đối tượng quan tâm có chuyển động, nên việc phát chuyển động bước tiền xử lý đơn giản để đánh giá xem khung hình có khả có đối tượng quan tâm hay khơng Ta xem xét số kỹ thuật phát chuyển động : so sánh hai khung hình liên tiếp, so sánh trung bình a So sánh khung hình liên tiếp Về mặt kỹ thuật, nói kỹ thuật đơn giản Thực cách lấy khung hình so sánh với khung hình trước cách lấy giá trị tuyệt đối hiệu điểm ảnh Công thức sau: Trong đó, khung hình khung hình thời điểm t so sánh với khung hình thời điểm t-1, Các giá trị độ lệch so sánh với ngưỡng Th để đánh giá chuyển động Hình 1: Khung hình trừ cho khung hình thời điểm trước Hình 2.2: Các kết phân ngưỡng ảnh độ lệch b So sánh trung bình Kỹ thuật có ưu điểm so với kỹ thuật so sánh hai khung hình liên tiếp giảm phụ thuộc với thay đổi tức thời Kỹ thuật dduwcowjc thực tương tự kỹ thuật so sánh hai khung hình liên tiếp thay dùng khung hình trước ta thực sử dụng khung hình tổng hợp Các điểm ảnh khung hình tổng hợp tính từ bình n khung hình gần với khung hình Cơng thức sau: Trong đó, khung hình khung hình thời điểm t so sánh với trung bình n khung hình liền trước nó, Các giá trị độ lệch so sánh với ngưỡng Th để đánh giá chuyển động Hình 2.3: Khung hình tổng hợp với n=10 ảnh mặt nạ kết Hình 2.4: Khung hình tổng hợp với giá trị n khác ảnh mặt nạ kết 2.1.2 Kỹ thuật tách màu Phân tích màu kỹ thuật hiệu để xử lý đối tượng ảnh đặc trưng màu ổn định ví dụ da người, bóng màu… để xử lý đối tượng ảnh đặt vùng có đặc trưng màu ổn định ví dụ hình ảnh diễn viên biểu diễn xanh hậu trường phim, hay hình ảnh cầu thủ di chuyển sân bóng phủ cỏ màu xanh Phương pháp dựa đặc trưng màu sắc có tính phân biệt vùng quan tâm so với vùng khác ảnh Một cách hình dung trực quan phân biệt đặc trưng màu, ta xét mơ hình biểu diễn histogram Ta xét hình ảnh ví dụ trận thi đấu bóng đá sau: Hình 2.5: Hình ảnh ví dụ trận thi đấu bóng đá Ta thực phân tích vùng ảnh sân cỏ : Hình 2.6: Chọn vùng ảnh mẫu để phân tích màu Ta xem xét trực tiếp histogram vùng ảnh chọn với kênh hệ màu truyền thống RGB : Hình 2.7: Histogram kênh Red vùng ảnh mẫu chọn Hình 8: Histogram kênh Green vùng ảnh mẫu chọn Hình 9: Histogram kênh Blue vùng ảnh mẫu chọn Dễ dàng nhận thấy ổn định đặc trưng màu, histogram tập trung vào vị trí Các vùng khác có giá trị histogram Như cách xét ngưỡng ta dễ dàng đánh giá sơ vùng ảnh vùng sân cỏ Ta thực phân tích tương tự với vùng ảnh khác : Hình 2.10:Chọn vùng ảnh mẫu khác để phân tích màu Ta xem xét trực tiếp histogram vùng ảnh chọn với kênh hệ màu truyền thống RGB : Hình 2.11: Histogram kênh Red vùng ảnh mẫu chọn Hình 2.12: Histogram kênh Green vùng ảnh mẫu chọn Hình 2.13: Histogram kênh Blue vùng ảnh mẫu chọn Dễ dàng nhận thấy đặc trưng màu vùng ổn định so với vùng vừa xét, histogram có phân tán rõ rệt khoảng giá trị điểm ảnh 2.2 Phát đối tượng ảnh Phát đối tượng ảnh nhằm mục tiêu đưa danh sách vị trí kích thước đối tượng quan tâm ảnh Do kỹ thuật phát đối tượng ảnh thường cố gắng thực phân tích vùng khơng gian ảnh theo nhiều tiêu chí khác để dễ dàng thực đánh giá Kỹ thuật trình bày nội dung kỹ thuật YOLO [6], cụ thể cách thức phân chia không gian ảnh cách đặt vấn đề xác định vị trí kích thước đối tượng quan tâm ảnh Những nội dung việc đặt vấn đề xác định nhãn lớp đối tượng mơ hình học máy trình bày mục nhận diện đối tượng ảnh Khác với YOLO số kỹ thuật phát đối tượng đại sử dụng deep learning, kỹ thuật phát đối tượng truyền thống thường sử dụngphương pháp cửa sổ trượt để phân chia không gian ảnh trước tiến hành bước xử lý khác Cụ thể tận dụng vùng cửa sổ làm tiêu chí để xác định tập vùng ảnh ảnh đầu vào Khi di chuyển cửa sổ khắp ảnh, vị trí cửa sổ ta thu vùng ảnh ảnh đầu vào Bằng cách sử dụng nhiều cửa sổ với kích thước khác với cách di chuyển cửa sổ khác cấu hình, ta thu tập hợp vùng ảnh ảnh đầu vào Đây ứng cử viên để đánh giá xem ảnh đối tượng Với vùng ảnh cụ thể, ta xác định rõ ràng vị trí kích thước vùng ảnh ảnh đầu vào nhờ tham số cửa sổ trượt, toán nhận diện đối tượng ảnh Cụ thể ta thực nhận diện vùng ảnh xem có phải đối tượng quan tâm hệ thống hay không Nếu đối tượng quan tâm hệ thống, vị trí kích thước vùng ảnh ghi nhận lại, khơng phải bỏ qua Phương pháp cửa sổ trượt đạt nhiều thành công nhiều kỹ thuật phát đối tượng khác Một cơng trình tiếng kỹ thuật Haar Adaboost Paul Viola Michael Jones Theo phát triển, kỹ thuật deep learning đời đưa giải pháp cho vấn đề mà kỹ thuật học máy truyền thống thường khó đáp ứng Một vấn đề Object Localization – tạm dịch ngữ cảnh định vị đối tượng ảnh Trong vấn đề này, cần đến mơ hình học máy cho phép hồi quy kết đầu thông tin tọa độ hình bao đối tượng từ ảnh đầu vào Hình 2.14: Tương quan vấn đề định vị đối tượng ảnh so với nhận diện phát đối tượngtrong ảnh Trong toán định vị, số lượng đối tượng ước lượng hình bao cố định, thường hiểu đối tượng ảnh Bài toán nghiên cứu cơng trình nhóm Szegedy nhóm Sermanet Cơng trình MultiBox nhóm Szegedy [8] xây dựng mạng nơ ron tích chập để ước lượng hình bao ảnh MultiBox đóng vai trị cơng đoạn nhỏ tồn q trình phát đối tượng Kết OverFeat nhóm Sermanet huấn luyện mạng nơ ron tích chập để thực định vị kết hợp với phương pháp cửa sổ trượt để hoàn thiện trình phát đối tượng Hình 2.15: Minh họa trình xử lý OverFeat Cách thiết lập phát đối tượng YOLO có điểm tương tự cơng trình dựa sở thao tác định vị đối tượng ảnh Tức hệ thống ước lượng hình bao đối tượng từ vùng ảnh cho trước Quy trình YOLO mơ tả sau: Hình 2.16: Minh họa trình phát đối tượng dựa định vị YOLO Như vậy, ta hiểu tóm tắt bước sau: ảnh đầu vào chia lưới, thực định vị mắt lưới sau tổng hợp kết lại Tất nhiên việc tổng hợp cần đến kết thao tác nhận diện đối tượng Ta hình dung bước chi tiết ảnh mẫu sau: Hình 2.17: Ảnh mẫu minh họa cho trình phân chia không gian YOLO Và ta giả sử kết đối tượng ảnh mẫu sau: Hình 2.18: Kết đối tượng ảnh mẫu Ảnh đầu vào xử lý chia lưới SxS Trong mắt lưới đầu vào để thuật tốn ước lượng hình bao cho đối tượng Kết thực với mắt lưới kỳ vọng hình sau: Hình 2.19: Minh họa kết ước lượng mong muốn với mắt lưới Ta nhận thấy hình, mắt lưới khoanh màu vàng thuộc đối tượng người vùng đối tượng người vẽ với hình bao màu xanh da trời Như vậy, thuật toán cần phải ước lượng kết tọa độ hình bao xấp xỉ vùng hình bao màu xanh da trời khoanh ảnh với đầu vào vùng ảnh mắt lưới khoanh màu vàng Để thực điều này, YOLOsẽ ước lượng B hình bao đối tượng với giá trị độ tin cậy tương ứng với hình bao đối tượng Các giá trị độ tin cậy phản ánh độ tin cậy mà mơ hình YOLO dự đốn cho hình bao tương ứng Hiểu cách khác dự đốn độ xác hình bao đề Giá trị độ tin cậy kỳ vọng độ đo IoU cho vùng hình bao ước lượng Hình 2.20: Minh họa độ đo IoU Với hai hình bao đối tượng hình bao xác gán nhãn ban đầu hình bao ước lượng từ mơ hình YOLO, giá trị IoU tính tỉ lệ diện tích vùng giao hai hình bao chia cho diện tích vùng hợp thành hai hình bao Như khơng có đối tượng tồn tương ứng với vị trí mắt lưới, giá trị độ tin cậy Trường hợp tốt hai hình bao trùng nhau, tức mơ hình dự báo hồn tồn xác hình bao đối tượng, giá trị độ tin cậy Trong B kết ước lượng hình bao đối tượng mắt lưới, kết bao gồm giá trị x, y, w, h confidence (x, y) tọa độ tâm hình bao theo quan hệ với tâm mắt lưới Cịn hai kích thước chiều rộng chiều cao (w, h) theo quan hệ với kích thước ảnh Minh họa kết sau: Hình 2.21: Mơ hình ước lượng hình bao khoanh màu xanh da trời dựa vào mắt lưới khoanh màu vàng Mơ hình ước lượng YOLO sử dụng mạng nơ ron tích chập Mạng thiết kế để sử dụng chung với chức nhận diện đối tượng ứng với mắt lưới Chi tiết mơ hình mạng trình bày phần nhận diện đối tượng ảnh 2.3 Nhận diện đối tượng ảnh Trong YOLO, việc nhận diện đối tượng ảnh thực thực mắt lưới Cụ thể, mơ hình dự đốn xác suất có điều kiện tương ứng với C lớp có tập liệu Các xác suất tính tốn mắt lưới có tương ứng với đối tượng thuật toán thực dự báo danh sách xác suất ứng với lớp lần mắt lưới Điều không phụ thuộc vào số lượng B hình bao đối tượng Quy trình YOLO mơ tả sau: Hình 2.22: Minh họa bước nhận diện đối tượng mắt lưới để tổng hợp vào kết phát đối tượng YOLO Như ảnh đầu vào chia thành S x S mắt lưới, mắt lưới ta thực nhận diện đối tượng cách ước lượng C giá trị xác suất tương ứng với C lớp tập liệu Nếu kết hợp với nội dung dự báo B hình bao, mắt lưới ta phải ước lượng tổng cộng B*5 + C giá trị Xét toàn ảnh, số giá trị phải ước lượng S*S*(B*5 + C) giá trị Nếu thực minh họa lại nhãn lớp màu cho tập hình bao, ta hình dung bước dự báo kết sau: Hình 2.23: Kết ước lượng mắt lưới: hình bao đối tượng ứng với lớp khác khoanh màu khác Để ước lượng toàn giá trị trên, tác giả xây dựng mơ hình mạng nơ ron tích chập cơng trình, tác giả đánh giá liệu PASCAL VOC Các tầng tích chập mạng thực trích rút đặc trưng ảnh tầng kết nối đầy đủ dự báo đầu giá trị xác suất tọa độ hình bao mơ tả Mơ hình mạng YOLO lấy cảm hứng từ mơ hình GoogLeNet dành cho tốn nhận diện ảnh nhóm Szegedy Google Về mặt chi tiết, mơ hình mạng YOLO bao gồm 24 tầng tích chập nối tiếp tầng kết nối đầy đủ Và đó, thay sử dụng module Inception cơng trình GoogLeNet, YOLO sử dụng tầng 1x1 theo sau tầng tích chập 3x3 tương tự cơng trình nhóm Lin Kiến trúc mạng nơ ron tích chập YOLO mơ tả sau: Hình 2.24: Kiến trúc mạng nơ ron tích chập YOLO Trong thử nghiệm mình, nhóm tác giả sử dụng tham số chia lưới S = 7, số hình bao dự đốn B = 2, số lớp gán nhãn C = 20, kết cần ước lượng 7*7*30 giá trị Đây đầu mơ hình mạng nơ ron thiết kế cơng trình Mạng nơ ron nhóm tác giả huấn luyện với tiêu chí tối ưu sai số tổng bình phương giá trị đầu Sai số tổng bình phương sai số hay sử dụng huấn luyện mạng nơ ron dễ dàng để tính đạo hàm để tối ưu Tuy nhiên chất kết đầu có nhiều loại kết khác chúng không ngữ cảnh nên sử dụng trực tiếp sai số tổng phương khơng phù hợp không cân đối sai số định vị sai số phân lớp Ngoài liệu học có nhiều mắt lưới khơng liên quan đến đối tượng, kết học bị lệch với việc đẩy giá trị độ tin cậy hình bao để đạt hiệu nhóm mắt lưới Như kết mạng trở nên khơng ổn định có khả loại hết trường hợp có đối tượng Để khắc phục cân sai số ngữ cảnh liệu khác nhau, tác giả thay đổi trọng số thành phần hàm lỗi, cụ thể tăng mức sai số cho việc ước lượng tọa độ hình bao đối tượng giảm mức sai số cho ước lượng độ tin cậy hình bao khơng liên quan đến đối tượng Cụ thể trọng số λcoord and λnoobj Trong thử nghiệm làλcoord = λnoobj = 0.5 Sai số đặt mức hình bao lớn hình bao bé Hàm lỗi tổng quát sau: Trong ám đối tượng có xuất mắt lưới thứ i ám hình bao dự đốn thứ j ứng với lưới thứ i kết đối tượng xác định KẾT LUẬN Phát nhận dạng đối tượng hệ thống IoT camera vấn đề có tính thời khả ứng dụng cao thực tế xã hội Liên quan đến tốn có nhiều vấn đề cần nghiên cứu chun sâu xử lý ảnh lẫn học máy Luận văn hệ thống số vấn đề toán phát nhận dạng đối tượng hệ thống IoT camera, nghiên cứu lý thuyết cài đặt thực tế Những vấn đề tóm tắt lại sau: Tổng quan khái niệm hệ thống IoT camera đặc điểm liệu video toán phát đối tượng nhận diện đối tượng Trên sở đó, luận văn đưa sơ đồ xử lý chung cho quy trình phát nhận diện đối tượng hệ thống IoT camera Lý thuyết số kỹ thuật phục vụ phát nhận diện đối tượng hệ thống IoT camera, cụ thể số kỹ thuật tiền xử lý phát chuyển động tách màu nhằm mục tiêu xác định sơ khung hình có đối tượng hay khơng, tiếp đến nội dung phát đối tượng nhận diện đối tượng theo quy trình cơng trình YOLO Luận văn hồn thành để xây dựng hệ thống phát nhận dạng đối tượng hệ thống IoT camera phù hợp với u cầu thực tế cịn nhiều vấn đề phải giải vấn đề xử lý tăng tính xác với liệu video có độ phân giải thấp phù hợp với khả thu thập liệu thực tế, vấn đề cải thiện thuật toán để phù hợp với yêu cầu xử lý liệu thời gian thực… ... machine), thứ hai người - máy móc (person to machine) thứ ba người - người (person to person) Trong mối liên kết đó, kết nối máy móc - máy móc đóng vai trị chủ đạo xuyên suốt hoạt động hệ thống IoT... thuật phát chuyển động : so sánh hai khung hình liên tiếp, so sánh trung bình a So sánh khung hình liên tiếp Về mặt kỹ thuật, nói kỹ thuật đơn giản Thực cách lấy khung hình so sánh với khung hình... ảnh độ lệch b So sánh trung bình Kỹ thuật có ưu điểm so với kỹ thuật so sánh hai khung hình liên tiếp giảm phụ thuộc với thay đổi tức thời Kỹ thuật dduwcowjc thực tương tự kỹ thuật so sánh hai