Xác định tỉ số giữa vùng giao nhau c a hai vùng phát hiện (a và b) với hợp c a hai vùng phát hiện (loại „Union‟), hoặc tỉ số giữa vùng giao nhau c a hai vùng phát hiện với giá trị nhỏ nhất c a hai vùng phát hiện (loại „Min‟).
b a b a b a s Union ) , ( : (2.37) ) , min( ) , ( : b a b a b a s Min (2.38) Đề tài này chọn loại „Union‟, ( , ) 0.5
b a b a b a s
Giải thuật học bộ phân loại window [19]:
-Ng vào: Các window positive độ phân giải ổn định và đƣợc chuẩn hóa (chiều rộng Wn và chiều cao Hn), các ảnh huấn luyện negative.
-Ng ra: Bộ phân loại nhị phân đã đƣợc huấn luyện cho quyết định đối tƣợng/không phải đối tƣợng trên các window ảnh WnxHn.
-Tạo ra các mẫu negative ban đầu một lần và cho lựa chọn ngẫu nhiên tất cả các vị trí window trên mỗi ảnh negative với giai đoạn học đầu tiên.
(a) Tính bộ mơ tả đƣợc cung cấp cho tất cả các ảnh positive.
(b) Học một bộ phân loại truyến tính SVM trên các vector bộ mơ tả đƣợc cung cấp.
-Tạo ra các mẫu negative c ng: thực hiện quét đa tỉ lệ đối với các positive sai trên tất cả các ảnh negative.
(a) Bắt đầu với hệ số tỉ lệ (scale) Ss=1 và tính hệ số tỉ lệ cuối cùng Se= min(Wi/Wn, Hi/Hn), trong đó Wi, Hi lần lƣợt là chiều rộng và chiều cao c a ảnh. (b) Tính số m c tỉ lệ để xử lý: 1) ) log( ) / log( ( r s e n S S S floor S ; trong đó Sr là hằng số giữa các m c đa tỉ lệ.
(c) Đối với mỗi tỉ lệ Si=[Ss, Sr, , Sn].
(1) Định lại tỉ lệ ảnh ng vào dùng nội suy hai biến.
(2) Áp dụng giải thuật mã hóa và quét ảnh tỉ lệ với bƣớc trƣợt Ns đối với các phát hiện đối tƣợng/không phải đối tƣợng.
(3) Đặt tất cả các phát hiện có t(wi)>0 (t c là các mẫu c ng) vào một danh sách.
-Giai đoạn học th hai:
(a) Ƣớc lƣợng tất cả số mẫu c ng có thể đƣợc lƣu trữ trong RAM:
amples NegativeEx amples PositiveEx size vector Feature TotalRAM es HardExampl # # _ _ #
(b) Nếu có nhiều mẫu c ng hơn số này, lấy mẫu đồng bộ số mẫu c ng này và gồm cả chúng trong dãy huấn luyện negative.
(c) Học bộ phân loại SVM cuối cùng trên các window positive, các mẫu negative ban đầu và các mẫu c ng đƣợc tạo ra.
Giải thuật trượt cửa sổ (Sliding Window Detection) [19, 26]:
Ngõ vào: - Ảnh test.
- Bộ phân loại window đã huấn luyện với các window đƣợc chuẩn hóa chiều rộng Wn và chiều cao Hn. Các mẫu positive ch a đối tƣợng và các mẫu negative không ch a đối tƣợng.
- Chọn một ngƣỡng c và bƣớc trƣợt Ns.
Ngõ ra: Các hộp giới hạn (bounding boxes) c a các phát hiện đối tƣợng. Xây dựng một hình chóp ảnh.
- Bắt đầu với Ss=1, tính Se= min(Wi/Wn, Hi/Hn), trong đó Wi, Hi lần lƣợt là chiều rộng và chiều cao c a ảnh.
- Tính số m c tỉ lệ để xử lý: 1) ) log( ) / log( ( r s e n S S S floor S .
Đối với mỗi tỉ lệ Si=[Ss, Sr, , Sn].
- Định lại tỉ lệ ảnh ng vào dùng nội suy hai biến.
- Trích rút đặc trƣng và quét ảnh tỉ lệ với bƣớc trƣợt Ns đối với các phát hiện đối tƣợng/không phải đối tƣợng.
- Đặt tất cả các phát hiện có t(wi)>c vào một danh sách. Loại bỏ không cực đại (Non-maximum suppression):
Đối với mỗi m c (level) c a hình chóp, áp dụng bộ phân loại cho mỗi window Wn x Hn, trƣợt với các bƣớc trƣợt Ns, trong m c này thu đƣợc một độ lớn đáp ng t.
Nếu t > c, chèn một ký hiệu vào window thành một danh sách L theo th bậc bởi t.
Đối với mỗi window W trong L, bắt đầu với đáp ng mạnh nhất. Loại bỏ tất cả các window U≠W chồng lên xấp xỉ với W, trong đó phần chồng lên đƣợc tính trong ảnh gốc bằng các window mở rộng trong tỉ lệ kém hơn.
L bây giờ sẽ là danh sách các đối tƣợng đƣợc phát hiện.
Hệ số tin cậy phân loại (score): Là khoảng cách từ mẫu đƣợc phân loại đến
biên quyết định c a SVM.
Hệ số tin cậy chuẩn hóa [19, 26] cho lớp positive “1” theo hàm sigmoid:
) ( 1 1 ) ( a w c e w t (2.39) Trong đó wi là các score SVM tuyến tính trong suốt q trình huấn luyện; các tham số a và c đƣợc đánh giá cho xác suất ƣớc tính là tốt nhất đối với các ng ra huấn luyện.
Hệ số tin cậy chuẩn hóa [19] cho lớp negative “-1”:
1 – t(w) (2.40)
Hình chóp ch a các ảnh đa tỉ lệ. Bắt đầu với m c 1 (level 1), ảnh đầu tiên chính là ảnh gốc, sau đó thêm một m c tiếp theo trong hình chop, cho đến khi kích thƣớc c a ảnh tỉ lệ nhỏ nhất lớn hơn window 64x128 (không đƣợc nhỏ hơn window). Hệ số tỉ lệ (scale) giữa các m c liên tiếp là 1.2. Minh họa hình chóp tỉ lệ [18] nhƣ hình 2.27.
Hình 2.27. Minh họa hình chóp tỉ lệ, mỗi m c mơ tả một tỉ lệ so với ảnh gốc.
Nhƣ đã đề cập trong mơ hình trƣợt window, bƣớc trƣợt window (khoảng cách mẫu giữa hai window liên tiếp) ở bất kỳ tỉ lệ nào c ng là 8 pixel. Nếu sau khi điều chỉnh vừa vặn tất cả các window tại một m c tỉ lệ mà còn dƣ ra phần biên thì lấy phần biên đó chia 2, làm trịn bé hơn rồi dịch chuyển tồn bộ lƣới window. Ví dụ nếu kích thƣớc ảnh ở m c hiện tại là (75x130), bƣớc trƣợt là 8, kích thƣớc window là (64x128) thì biên cịn lại là (3x2), thì ta dịch chuyển tất cả các window một
khoảng ] 2 arg , 2 arg [M inX M inY t c là ] 2 2 , 2 3 [ rồi trƣợt bình thƣờng.
Scale OrigWidth NewWidth (2.41) Scale OrigHeight NewHeight (2.42) Khi scale =1, ảnh tỉ lệ chính là ảnh gốc. (a) (b)
Hình 2.28. Một vài kết quả phát hiện trƣớc (a) và sau (b) khi loại bỏ các phát hiện
trùng lặp.
2.7. Đề xuất ứng dụng phát hiện ngƣời trong giám sát an ninh 2.7.1. Sự cấp thiết đề xuất mơ hình nhận dạng cảnh báo an ninh
Đầu năm 2017 đến nay, nhiều vụ trộm cắp tài sản trên địa bàn thành phố Hồ Chí Minh đƣợc các cơ quan ch c năng phát hiện, xử lý. Theo news.zing.vn, vụ trộm đột nhập nhà ca sĩ Đăng Khôi lấy đi 800 triệu đồng trong khoảng 2 giờ khi gia ch vắng nhà. Theo trình bày c a nạn nhân, nhà anh ở vị trí an ninh tốt (có đƣợc bảo vệ 24/7) và nằm ngay đối diện với chốt dân phòng. Anh Hoa Anh Cang (37 tuổi, ở nhà số 89A đƣờng 32A, phƣờng Bình Trị Đơng B, quận Bình Tân) c ng đến cơng an trình báo lúc 5h ngày 9/2 (mùng 2 Tết) gia đình đi chơi về đến nhà thì phát hiện trƣớc đó kẻ gian đã đột nhập vào nhà và phá két sắt lấy trộm 410 triệu đồng và một số nữ trang (trị giá khoảng 50 triệu đồng). Còn chị Phan Hồng Nam Phƣơng (nhà 23 đƣờng số 1, xã Vĩnh Lộc A, huyện Bình Chánh) cho biết vào 20h30 ngày 11/2 (mùng 4 Tết), chị về đến nhà thì phát hiện kẻ gian đột nhập vào nhà lấy trộm xe gắn
máy hiệu Airblade, 300 triệu đồng, 600 USD và một số nữ trang. Ngày 12/2 (mùng 5 Tết) ch nhà ở hẻm 528 đƣờng Điện Biên Ph , phƣờng 11, quận 10, c ng trình báo bị trộm lấy cắp xe gắn máy, lắc vàng, 1.300 đô la Australia, 500 đô la Canada, 200 USD và 1 máy quay phim. Trị giá tài sản ƣớc tính khoảng 1 tỷ đồng. Theo camera an ninh trong gia đình nạn nhân ghi lại vào khoảng 4h20 rạng sáng cùng ngày có một nam thanh niên cắt khóa cửa đột nhập để thực hiện vụ trộm trên.
Theo baomoi.com, trong ngày 30/4, hai đại gia ở TP. HCM bị mất tổng cộng số tiền lên tới hơn 2 tỷ đồng. Sau khi kiểm tra và phát hiện mất tài sản, Bà T tại đƣờng 4C thuộc khu dân cƣ Đại Phúc, ấp 5A, xã Bình Hƣng, huyện Bình Chánh trình báo cơng an và cho biết, tài sản mất trộm gồm tiền mặt và nữ trang có giá trị ƣớc tính khoảng gần 730 triệu đồng. C ng theo báo Công an TP. HCM, một vụ trộm khác c ng đƣợc phát hiện tại địa bàn trong chiều 30/4. Thời điểm này, ch nhà ở đƣờng số 5, khu dân cƣ Him Lam, P.Tân Hƣng, Q.7 trở về nhà phát hiện bị ngƣời lạ đột nhập và lấy đi nhiều tiền mặt, nữ trang có tổng giá trị khoảng 1,7 tỷ đồng. Bƣớc đầu khi khám nghiệm, công an nhận định, khả năng là kẻ trộm đột nhập vào nhà bằng lối cửa chính.
Theo kenh14.vn, ngày 6/7, Kẻ gian đã đột nhập, lấy đi 25 chiếc điện thoại di động trị giá lên đến gần nửa tỷ đồng c a siêu thị Điện máy Xanh tại xã Bà Điểm, huyện Hóc Mơn TP.HCM.
Theo vietnamnet.vn, ngày 6/6 vụ trộm tài sản lớn xảy ra tại cửa hàng kinh doanh vàng bạc, đá quý (số 289 đƣờng Tô Ngọc Vân, P.Tam Phú, Q.Th Đ c). ông B.V.V (SN 1980) xác định mất lƣợng lớn trang s c trị giá trên 400 triệu đồng. Ông V, ch cho thuê mặt bằng là N.Đ.K (SN 1978), c ng bị mất tài sản gồm: 1 xe tay ga hiệu Vespa, tiền mặt, hột xoàn tổng trị giá khoảng 130 triệu đồng. Khi cơng an vào cuộc điều tra, trích xuất hình ảnh từ camera an ninh cho thấy, lúc 2h rạng sáng 6/6 có một ngƣời đàn ông r nhân dạng đã phá cửa sắt, đột nhập vào trong trộm tài sản tại địa chỉ nói trên. Ngƣời này có diễn biến hành vi gây án rất bình tĩnh. Trong một vụ khác, cơ quan CSĐT Công an TP.HCM đang phối hợp cùng
Công an Q.12 điều tra vụ trộm tài sản có tổng trị giá hơn 1,1 tỷ đồng xảy ra tại trung tâm Công nghệ sinh học TP.HCM.
Có thể thấy rằng kẻ trộm thƣờng đột nhập vào nhà dân hoặc cơ quan vào dịp tết, dịp lễ, vào ngày nghỉ và ban đêm. Đa số nhà c a những nạn nhân bị mất cắp đều có trang bị camera an ninh, thậm chí nhà ở vị trí an ninh tốt. Các cơ quan bị mất cắp đều có trang bị camera an ninh và đội ng bảo vệ. Điều đó ch ng tỏ rằng kẻ trộm đã có những chiêu trị ngày càng tinh vi. Bên cạnh đó c ng có thể khẳng định rằng hệ thống an ninh giám sát hiện nay chƣa đ hoàn hảo để đáp ng yêu cầu thiết thực về giám sát an ninh, những tình huống mất cắp cịn xảy ra liên tục. Nghiên c u về phát hiện ngƣời, tơi đặt giả thuyết rằng nếu những tình huống mất cắp nói trên đƣợc cảnh báo kịp thời có lẻ sẽ ngăn chặn đƣợc hành vi c a kẻ trộm, giảm bớt tổn thất cho ngƣời dân và các tổ ch c, cơ quan.
2.7.2. Đề xuất mơ hình hệ thống nhận dạng cảnh báo an ninh
Sơ đồ khối mơ hình hệ thống nhận dạng cảnh báo an ninh nhƣ hình 2.29. Các module ch c năng cơ bản c a hệ thống nhận dạng cảnh báo an ninh gồm: - Thu nhận, truy vấn hình ảnh từ camera;
- Mô tả đặc trƣng dữ liệu;
- Nhận dạng và phát hiện đối tƣợng quan tâm; - Theo vết đối tƣợng;
Quyết định Ảnh/Video MÔ TẢ ĐẶC TRƢNG CAMERA THU NHẬN HÌNH ẢNH NHẬN DẠNG, PHÁT HIỆN TRUY VẤN ẢNH PHÁT CẢNH BÁO BIỂU DIỄN NGỮ NGHĨA THEO VẾT ĐỐI TƢỢNG MƠ HÌNH ĐỐI TƢỢNG HUẤN LUYỆN DỮ LIỆU VỀ ĐỐI TƢỢNG NGỮ CẢNH KHÔNG GIAN, THỜI GIAN DỮ LIỆU VỀ NGỮ NGHĨA HUẤN LUYỆN
Hình 2.29. Sơ đồ khối hệ thống nhận dạng cảnh báo an ninh.
Ch c năng chi tiết các module c a hệ thống đƣợc mô tả nhƣ sau:
a) Truy vấn hình ảnh: Camera thu nhận hình ảnh gửi trả về module chƣơng
trình truy vấn các hình ảnh tuần tự theo thời gian thu nhận từ camera cụ thể đƣợc xác định trƣớc.
b) Biểu diễn đặc trưng ảnh: Module này có ch c năng trích rút đặc trƣng dữ
liệu hình ảnh để có thể xử lý tự động bằng máy tính. Phƣơng pháp biểu diễn đặc trƣng phải đảm bảo yêu cầu làm nổi bật đối tƣợng cần nhận dạng và các đối tƣợng
không quan tâm khác. HOG (Histograms of Oriented Gradients) là một trong số các phƣơng pháp biểu diễn đặc trƣng nổi tiếng và cho kết quả nhận dạng cao.
c) Huấn luyện mơ hình đối tượng: Dựa trên tập dữ liệu huấn luyện, máy huấn
luyện có ch c năng tạo ra một mơ hình phân loại nhị phân. SVM (Support Vector Machine) là một trong những phƣơng pháp phân loại hiệu quả. Mơ hình đối tƣợng đã đƣợc huấn luyện thu đƣợc sẽ dùng làm đầu vào cho máy nhận dạng, phát hiện
d) Nhận dạng, phát hiện: Dùng tập mơ hình đối tƣợng đã thu đƣợc từ quá
trình huấn luyện để phân loại mẫu dữ liệu ảnh đầu vào có ch a đối tƣợng quan tâm hay khơng. Từ đó nhận dạng ra đối tƣợng hay khơng phải đối tƣợng quan tâm.
e) Theo vết đối tượng: Ch c năng c a module này là nhận dạng đối tƣợng
quan tâm xuất hiện trong ảnh thu đƣợc bƣớc trƣớc có xuất hiện ở ảnh hiện tại hay không. Kết quả theo vết đối tƣợng trong dãy tuần tự các ảnh sẽ giúp xác định đƣợc quỹ đạo chuyển động c a đối tƣợng, hỗ trợ cho việc xác định hành vi c a đối tƣợng. Đây là một kênh thơng tin hữu ích giúp xác định ngữ nghĩa hỗ trợ ra quyết định cảnh báo hay không.
f) Hệ thống ngữ nghĩa, khuyến nghị ra quyết định cảnh báo: Căn c vào
không gian, thời gian xuất hiện c a con ngƣời trong phạm vi theo d i và quỹ đạo chuyển động, hệ thống này sẽ biểu diễn trích rút ngữ nghĩa để đƣa ra khuyến nghị cảnh báo an ninh hay không cần cảnh báo. Trong trƣờng hợp thấy đối tƣợng xuất hiện với hành vi khả nghi, có thể ảnh hƣởng đến an ninh c a tịa nhà/cơ quan, hệ thống sẽ thông báo đến gia ch /ngƣời bảo vệ cơ quan thông qua hệ thống âm thanh, đèn báo hiệu và hình ảnh trên màn hình theo d i. Ngồi ra, có thể tạo âm thanh báo động, bật đèn tại nơi đối tƣợng xuất hiện nhằm cảnh báo đến đối tƣợng để ngăn chặn hành vi xâm nhập c a đối tƣợng.
Biểu diễn ngữ nghĩa về ngữ cảnh kết hợp không gian và thời gian để hỗ trợ ra quyết định m c độ cảnh báo có ý nghĩa hết s c quan trọng trong hệ thống giám sát an ninh. M c cảnh báo đƣợc đƣa ra khác nhau tùy thuộc vào thời gian, vị trí xuất hiện c a đối tƣợng. Ví dụ trong giờ hành chính ở cơ quan, khi cơ quan làm việc bình thƣờng, có cán bộ bảo vệ an ninh túc trực thƣờng xuyên thì rất hiếm khi xảy ra
sự cố trộm cắp tài sản. M c cảnh báo đƣợc xây dựng là m c thấp nhất (ví dụ chỉ cần ghi lại hình ảnh đối tƣợng lƣu vào bộ nhớ). Ngƣợc lại vào những thời điểm giữa đêm khuya, nếu có ngƣời vào cơ quan thì xác suất ngƣời đó là kẻ gian vào trộm cắp tài liệu, tài sản là rất cao. Vào thời gian đêm khuya cán bộ bảo vệ dễ cảm thấy mệt mỏi, khơng tập trung quan sát, thậm chí có thể ng quên. Do vậy, trong thời gian này, nếu có ngƣời vào cơ quan hệ thống phải đƣa ra cảnh báo để cán bộ bảo vệ tiến hành kiểm tra, ngăn chặn hành vi trộm cắp tài sản. M c cảnh báo đƣợc xây dựng là m c cao (ví dụ đèn báo, chng báo). Thời gian nghỉ lễ, vào đêm khuya có thể xây dựng m c cảnh báo là cao nhất. Trƣờng hợp hộ gia đình vắng nhà trong dịp lễ có thể báo qua điện thoại cá nhân,
Bên cạnh đó, xét về mặt khơng gian, nếu một ngƣời đến gần nhà/văn phịng làm việc sẽ có m c độ uy hiếm an ninh thấp hơn trƣờng hợp ngƣời đó đã vào trong tịa nhà hoặc nếu một ngƣời chỉ xuất hiện ở khu vực đi lại ngồi tịa nhà thì xác suất trộm cắp tài sản sẽ khơng cao, đó có thể chỉ là đi ngang qua tịa nhà mà khơng vào nhà nhằm thực hiện hành vi trộm cắp. Do vậy, hệ thống chỉ cần cảnh báo trên màn