CON NGƯỜI ĐƯỢC TRÍCH XUẤT TỪ MỘT CHUỖI CÁC HÌNH ẢNH CÓ CHIỂU SÂU SỬ DỤNG PHÂN ĐOẠN VÀ PHÁT HIỆN TIỀN CẢNH.pdf

CON NGƯỜI ĐƯỢC TRÍCH XUẤT TỪ MỘT CHUỖI CÁC HÌNH ẢNH CÓ CHIỂU SÂU SỬ DỤNG PHÂN ĐOẠN VÀ PHÁT HIỆN TIỀN CẢNH Lan Anh Trinh Kỹ thuật điện tử Bộ phận Bưu điện Viễn thông Viện Công nghệ HCM City lanatrinh@gmail.com Trừu tượng Nguyen Duc Thang Kỹ thuật y sinh Department International University Vietnam National Unviersity Ho Chi Minh City ndthang@hcmiu.ed u.vn Hoang-Hai Tran rường Thông tin & Truyền thông Đại học Công nghệHanoi Khoa học Công nghệ haith@soict.hut.edu Tran Cong Hung Công nghệ khoa học Sở Bưu Viễn thơng Viện Nghiên cứu Cơng nghệ-HCM conghung@ptith cm.edu.vn Bài viết điều tra cách tiếp cận cách trích xuất theo dõi nhiều đối tượng từ chuỗi hình ảnh độ sâu The Kinect máy ảnh sử dụng để có hình ảnh độ sâu tiết lộ độ sâu Thông tin trường Hệ thống đề xuất bao gồm đối tượng module phân cụm để phân đoạn vùng bị lập khác phóng viên đến đối tượng hình ảnh chiều sâu tiền cảnh module phát để tìm vùng chuyển động từ chuỗi Khung Sự kết hợp hai module cho biết đối tượng di chuyển chuỗi khung hình để xác định vị trí người chủ đề Để trích xuất hình bóng chiều sâu nhiều đối tượng thời gian, đề xuất sử dụng thuật tốn phù hợp hai khung hình liên tiếp để theo dõi chuyển động chúng Chúng ta đánh giá thuật tốn với chuỗi khung hình dài môi trường phức tạp chứa với đồ nội thất tỏ làm thuật tốn trích xuất tách xác đối tượng người khác với tốc độ xử lý nhanh Do cách tiếp cận đề xuất phù hợp với ứng dụng thực tiễn rộng rãi Làm việc với cơng nhận hoạt động người, ước tính tư người theo dõi người từ hình ảnh chiều sâu Danh mục Mơ tả Chủ đề I.4.6 [Phân khúc]: Phát triển khu vực, Phân vùng Điều khoản chung Thuật toán, Đo lường, Hiệu suất, Thử nghiệm, Thuyết Từ khố Khai thác người, hình ảnh chiều sâu, cụm, lặp lại lượng, phát tiền cảnh 1 GIỚI THIỆU Bạn đạt tới định mức dịch thuật tối đa ngày bạn - vui lòng quay trở lại vào ngày mai nghiên cứu tìm kiếm máy tính với ứng dụng nhiều lĩnh vực Thông thường, thông tin người nhận dạng khoảng thời gian ngắn thời gian cung cấp đầu vào để điều khiển thiết bị bên ngồi máy tính trị chơi Trong đó, Tư hoạt động lâu dài người nhận dạng thích ứng với tính tốn chủ động, chăm sóc sức khỏe người khám phá lối sơng người Trên thực tế, việc chăm sóc sức khỏe người ứng dụng nổ lực để giải theo cấp số nhân gia tăng dân số thể giới Mọi người sống lâu hơn,ngày nhiều người cao tuổi độ tuổi trưởng thành Vì vậy, dịch vụ chăm sóc sức khỏe người đặc biệt người cao tuổi nhận vai trò quan trọng hết Để chăm sóc sức khỏe ngoại tuyến dịch vụ, lượng lớn liệu bệnh nhân ghi lại video máy ảnh bác sĩ phân tích để gợi ý cho người dùng thay đổi lối sống chế độ ăn uống phù hợp Trong chăm sóc sức khỏe trực tuyến, hệ thống tự động giám sát người cung cấp hành động chủ động để ngăn ngừa kiện nguy hiểm giải pháp ưu tiên Gần đây, tầm nhìn cơng nghệ nhận thức người vừa mớitrở nên khả thi nhận nhiều nỗ lực từ cộng đồng nghiên cứu thời gian dài trước Trên thực tế, trở ngại cho việcđạt công nghệ nhận thức người hạn chế sở hạ tầng phần mềm phần cứng Một số nỗ lực phát triển hệ thống không đánh dấu để ước tính thơng tin người từ chuỗi hình ảnh đơn sắc (hoặc hình ảnh 2-D Red / Green / Blue) Bởi thơng tin 3-D đối tượng bị mất, chuyển động đối tượng khác khơng gian 3-D giám sát khơng xác mơ hồ tắc nghẽn Do đó, điểm đánh dấu khác hệ thống sử dụng nhiều camera để ghi lại chuyển động chiều người Thông qua hệ thống vậy, thông tin 3-D quan sát chủ thể người chụp từ quan điểm định hướng khác nhau, cung cấp kết tốt việc phục hồi chuyển động người D Tuy nhiên, nhiều máy ảnh yêu cầu thiết lập phức tạp với phần mềm phần cứng bổ sung để hỗ trợ truyền video lớn liệu từ nhiều camera qua mạng Do đó, có Ln ln đánh đổi linh hoạt việc sử dụng máy ảnh khả lấy thông tin 3D nhiều camera Có thể có thơng tin hữu ích bao gồm độ sâu Thông qua camera Một máy ảnh stereo đạt nhận thức chiều sâu cách tương tự mắt người cách tìm tương ứng hai hình ảnh từ máy ảnh bên trái bên phải để ước tính hình ảnh chênh lệch Sự chênh lệch cho chúng tơi xa điểm quan tâm đến camera thông qua phép chiếu phối cảnh Tuy nhiên, việc tìm kiếm tương ứng pixel từ hai hình ảnh nhiệm vụ dễ dàng Nếu chế độ xem tồn cục hình ảnh quan tâm tiêu tốn nhiều thời gian để xử lý tồn hình ảnh Trong đó, tính đến vùng cục hình ảnh, tương ứng từ pixel đến pixel khác xác đánh giá Máy ảnh thời điểm đến (TOA) phát chùm tia laser nhận phản xạ ánh sáng từ bề mặt đối tượng để lộ độ sâu Với công cụ phức tạp, máy ảnh TOA đắt tiền Máy ảnh dựa ánh sáng có cấu trúc Kinect sử dụng mơ hình có cấu trúc để thắp sáng vật thể Sự biến dạng dot-light cho Biết khoảng cách từ điểm 3-D đến máy ảnh Với triển khai, máy ảnh dựa ánh sáng có cấu trúc đạt chất lượng độ sâu tốt với giá thành rẻ so với loại cũ Các Máy ảnh Kinect giới hạn cho môi trường nhà đo khoảng cách khoảng gần (dưới 10 mét), chưa liên quan đến hệ thống chi phí thấp dễ thiết lập, máy ảnh tùy chọn cho ứng dụng giao diện máy tính người Bên cạnh đó, cơng nghệ dựa tia hồng ngoại tích hợp Kinect cho phép hoạt động ngày đêm thích hợp cho hầu hết hệ thống nhận thức người cá nhân hóa Trong cơng việc, chúng tơi quan tâm đến việc sử dụng camera Kinect cho phát người phân đoạn từ hình ảnh kỷ thuật quan trọng việc trích xuất thông tin chủ thể người Lưu ý thông tin độ sâu thu máy ảnh độ sâu cung cấp hình ảnh có độ sâu giá trị 16 bit pixel hình ảnh hiển thị khoảng cách tính milimét đến điểm chế độ 3-D Nhiều phương pháp tiếp cận ước tính đồ cạnh từ hình ảnh độ sâu để tìm ranh giới đối tượng [1,2,3] Hình bóng nhị phân sử dụng cho phát người trình bày [4,5] Ngồi thể người khn mặt [6] Hình dạng áo sơ mi [7] đề xuất vị trí diện chủ thể người, khai thác người hạn chế với cách tiếp cận Những nỗ lực khác thiết kế phân để tìm chủ thể người người khu vực quan tâm Trong để tóm tắt tính khu vực, Các tính giống Haar [8], Biểu đồ Gradient có hướng (HOG) [9], Scale Invariant Biến đổi tính (SIFT) [10], Mẫu hướng Ternay cục [11] vv áp dụng chủ yếu Cùng với độ sâu, tính màu sắc cung cấp dấu hiệu bổ sung để theo dõi người khung hình video máy ảnh RGB gắn với Kinect [12,13] Các kết hợp độ sâu màu sắc giúp người nhận diện tốt giới hạn thời gian tính tốn kích thước RGB hình ảnh lớn ba lần so với hình ảnh có chiều sâu Mặc dù thuật tốn nói giúp chúng tơi địa hóa chủ thể người hình ảnh sâu sắc, người bổ sung phân đoạn cần thiết để trích xuất hình bóng thể Loại bỏ thực trước phát nhằm mục đích xác xác định ranh giới đối tượng giám sát nhiệm vụ phát giảm thiểu cách tránh mơ hồ vùng từ Loại bỏ được phát triển nhiều thập kỷ nhắm mục tiêu đến tên miền cụ thể RGB Và hình ảnh màu xám Nền tĩnh tính trung bình chuỗi khung hình trừ khung hình video để tiết lộ trước Gần đây, pixel hình ảnh mơ hình hóa phân phối hỗn hợp Gaussian phép thay đổi động môi trường chụp [14, 15] Các phương pháp tiếp cận thường bị thiếu tiền cảnh theo dõi đối tượng đứng yên khoảng thời gian dài Một số tác phẩm khác sử dụng màu sắc độ sâu để ước tính tìm thấy [16], chúng phức tạp chậm thời gian thực ứng dụng Trong công việc này, đề xuất phương pháp tiếp cận đường ống cho người khai thác phát nhiều đối tượng từ phức tạp tầng lớp Các vùng khác xuất hình ảnh có độ sâu bị cô lập cách sử dụng độ tương tự độ sâu pixel lân cận Như vùng hợp thành đối tượng trình bày lớn sau cơng nhận người đặc điểm chuyển động Các đối tượng người theo dõi từ khung hình để tránh bị tắc nhiều đối tượng Với tích hợp hiệu phân khúc, cách tiếp cận đề xuất phù hợp với nhiệm vụ trích xuất phát đối tượng người từ hình ảnh chiều sâu Hơn nữa, thuật tốn nhanh chóng cho ứng dụng thời gian thực Phần lại báo tổ chức sau Phần trình bày phương pháp luận cách tiếp cận đề xuất Phần cho thấy kết thực nghiệm Chúng tơi hồn thiện báo với thảo luận Phần PHƯƠNG PHÁP NGHIÊN CỨU Hệ thống tổng thể minh họa Hình bao gồm hai thành phần Thành phần phân đoạn đối tượng nhằm mục đích phân biệt vùng ảnh chiều sâu Mỗi vùng cô lập tương ứng với đối tượng Trong đó, phát tiền cảnh xác định vị trí khu vực chuyển động từ chuỗi khung hình Sự kết hợp số hai cho phép tách đối tượng chuyển động từ độ sâu hình ảnh coi chủ thể người phương pháp đề xuất chúng tơi Cuối cùng, người dùng trích xuất định số xác định để theo dõi bóng chiều sâu chúng từ sở khung hình Hình 1: Xử lý bước phương pháp tiếp cận đề xuất 2.1 PHÂN ĐOẠN ĐỐI TƯỢNG Nhiệm vụ phân đoạn đối tượng từ hình ảnh thách thức diện phức tạp với đồ nội thất, chồng chéo khớp gần chuyển động nhiều đối tượng May mắn thay, với thơng tin chun sâu có sẵn, đối tượng trình bày đám mây điểm 3-D Thông thường, người đối tượng đứng sàn nhà Do đó, sau tầng bị xóa khỏi hình ảnh chiều sâu, đối tượng khác hình ảnh có chiều sâu tương ứng đến vùng bị cô lập Các vùng tìm thấy cách phân nhóm thuật tốn bao gồm thuật tốn phát triển vùng để hình thành vùng kết nối cụ thể superpixels [17] biểu đồ phân cụm để hợp superpixel nhằm tái tạo lại đối tượng Toàn thủ tục để phân đoạn đối tượng bao gồm hai bước mơ tả sau 2.1.1 Loại bỏ sàn Trong bước này, giải vấn đề làm để loại bỏ tầng từ hình ảnh chiều sâu Thơng thường, tầng thuộc phần thấp hình ảnh chiều sâu, đó, khơng cần thiết phải ước tính tầng phương trình mặt phẳng từ tồn ảnh Một phần thấp hình ảnh có độ sâu trích xuất pixel chuyển thành tập hợp điểm 3-D hệ tọa độ giới thực (Hình 2) u v số hàng cột pixel,u0,v0,f thông số cấu hình máy ảnh độ sâu Hình Trích xuất điểm 3-D mặt phẳng sàn từ độ sâu hình ảnh Sau đó, số ứng cử viên 3-D sàn tìm thấy để tính tốn phương trình mặt phẳng Để tìm ứng cử viên sàn, tập hợp điểm 3-D cắt mặt phẳng song song Zk với phương trình z = a Hình a giá trị khơng đổi xác định vị trí mặt phẳng dọc theo trục z Liên tục, điểm 3-D chiếu vào mặt phẳng gần để tìm điểm thuộc sàn mặt phẳng Zk Hình Chiếu điểm 3-D vào mặt phẳng Z khác Trong mặt phẳng, hình chiếu lồi điểm 3-D thành Zk phát thuật toán Graham Scan Lưu ý rằng, việc loại bỏ sàn hữu ích số lượng pixel sàn ứng viên lớn số lượng pixel xác định trước giá trị Trừ khi, máy bay phát từ hình ảnh khơng đủ lớn lọc chức loại bỏ sàn bị tắt Hình Tầng xóa khỏi hình ảnh chiều sâu 2.1.2 Vùng phát triển phân cụm đối tượng Trên thực tế, điểm 3-D nhóm lại phương tiện K để tạo thành đối tượng chậm xử lý số lượng pixel lớn theo chiều sâu hình ảnh Do đó, bước bổ sung để giảm số lượng đầu vào để thuật toán phân cụm cần thiết Khu vực phát triển sử dụng trình triển khai chúng tơi để phân đoạn hình ảnh có chiều sâu thành siêu ma trận không chồng lên Vùng phát triển từ điểm xi đến điểm lân cận xi + giá trị độ sâu xi + xấp xỉ giá trị độ sâu xi (sự khác biệt độ sâu chúng nhỏ ngưỡng định) Chỉ lần qt đủ tồn hình ảnh Tuy nhiên, tắc nghẽn, đối tượng tách thành nhiều superpixel Do đó, phân cụm cần thiết để hợp siêu ma trận để tạo đối tượng Hình Hai yếu tố định ảnh hưởng đến định kết hợp superpixels Xem xét tiêu chí để kết hợp superpixel đối tượng, xác định trung tâm khu vực Sau đó, khoảng cách lij centroid giá trị trung bình khác biệt độ sâu dij superpixels i j ranh giới chạm ước tính (Hình 5) Kết hợp hai phép đo này, đánh giá giống cặp superpixel là: Trong d0 l0 hai ngưỡng khoảng cách centroid chênh lệch độ sâu ranh giới để xác định thời điểm hai superpixel nên hợp với aphal, Pta tốc độ tăng trưởng chức hậu cần Thơng thường, có khoảng hàng chục superpixel hình ảnh độ sâu, tác vụ phân cụm giảm thiểu với giảm đáng kể đầu vào phân cụm Chúng áp dụng phân cụm quang phổ thơng qua lợi so với K-means để xử lý vùng không lồi Cuối cùng, hệ thống phân cấp phân cụm thực để nhóm điểm đóng khơng gian: Hai điểm gần với khoảng cách Euclide chúng không a ngưỡng xác định trước hợp thành nhóm Các trung tâm nhóm tính tốn lại để tạo tập hợp điểm Các sản xuất lặp lại khơng có nhóm thực Trong chúng tơi làm việc, để tiết kiệm thời gian tính tốn eigenvector phân rã, chúng tơi áp dụng quy trình lặp lại nguồn để ước tính eigenvector lớn W =D-1 A mô tả Bảng Trên thực tế, hội tụ cuối eigenvector tìm thấy lặp lại lũy thừa dẫn đến vectơ khơng đổi liên quan đến eigenvalue λ1=1 Ngồi ra, thuật tốn mơ tả Bảng nhằm mục đích tìm hội tụ cục eigenvector để đảm bảo phần tử cụm đóng cụm khác khơng tiếp cận đến giá trị điểm hội tụ cuối Bảng Thuật tốn để ước tính giá trị riêng lớn ma trận lực chuẩn hóa Đâu vào: n ← số lượng superpixel A ← ma trận lực đánh giá giống superpixel Thuật tốn: Xây dựng ma trận n×n ma trận D bình thường hóa W=D-1 A Khởi tạo eigenvector v0 với kích thước kích thước n × ngẫu nhiên Nâng v i+1 v i+1 ← Wv1 Bình thường hóa v t+1 ← v t+1 / || v t+1 || Tính tốn gia tốc = | σ t+1 – σ t | σ t+1 = |v t+1 –v t | bước Nếu gia tốc nhỏ ngưỡng, thuật toán dừng lại, khơng quay lại 2.2 PHÁT HIỆN TIỀN CẢNH Mục đích giai đoạn ước tính hình ảnh tiền cảnh pixel thay đổi chuỗi hình ảnh độ sâu định Các vấn đề tương đương làm để có động hình ảnh từ chuỗi khung hình Pixel tiền cảnh tương ứng khác biệt khung với hình ảnh thỏa mãn điều kiện | framei – i | > Ɛ Trong Ɛ ngưỡng xác định trước Trước đây, nhiều cách tiếp cận [15] đề xuất cho nhiệm vụ phát tiền cảnh ước tính hậu cảnh Ví dụ, xác định khung trước đó, hình ảnh có độ sâu tối đa số n-khung hình trước đó, chạy trung bình, hàm mật độ xác suất chung (PDF) ước tính ước tính mật độ khơng tham số, đơn vị đo lường nhỏ hình ảnh hiệp phương sai ước tính phân tích thành phần hỗn hợp phân phối Gaussian Các chi tiết kỹ thuật minh họa Bảng Trong công việc này, chúng tơi ước tính cách sử dụng hỗn hợp cụm Gaussian để khám phá hình ảnh tiền cảnh cho hai phía trước chuyển động lùi đối tượng người để giảm đệm kích thước để lưu trữ hình ảnh độ sâu lịch sử 2.3 Kết hợp Phân đoạn Đối tượng Phát tiền cảnh để khai thác người Chúng coi đối tượng phân đoạn có chứa pixel thay đổi (chuyển động) chủ thể người Thuật toán thực Phần 2.1 phân đoạn hình ảnh có độ sâu thành vùng khơng chồng chéo thư tín cho đối tượng Đồng thời, chúng tơi ước tính hình ảnh trước bao gồm pixel thay đổi cách sử dụng chuỗi khung lịch sử (trong Mục 2.2) Cuối cùng, để hồn tồn xóa nền, vùng phát bao gồm nhiều pixel trước giữ lại, pixel khác bị loại bỏ 2.4 THEO DÕI NHIỀU ĐỐI TƯỢNG Phần trả lời câu hỏi cách theo dõi đối tượng chuyển động từ khung đến sở khung Theo kỹ thuật cung cấp chúng tôi, so khớp vùng phân đoạn từ khung sang khung thể Hình Do đó, hai vùng chồng lên hai khung liên tiếp nhận số xác định Qua theo dõi số lượng xác định khu vực khác nhau, chúng tơi tách đối tượng khác theo dõi số xác định chúng sở khung Để khớp vùng khung Curren với vùng khung trước đó, chúng tơi tính tốn giao điểm cặp vùng hai khung độ sâu Nói chung, pixel gán mục tuyến tính xác định vị trí hàng cột pixel hình ảnh chiều sâu Do đó, vùng lưu trữ danh sách liên kết số pixel Tìm tập hợp giao điểm hai khu vực A B Trên thực tế, thời gian tính tốn chi phí cho việc xếp số pixel hai tập hợp A B Nếu phần phù hợp vượt ngưỡng xác định trước, coi hai lĩnh vực chủ thể Hình Theo dõi vùng từ khung sang khung khác Trong trường hợp theo dõi đối tượng người, khu vực phát thay đổi định số nhận dạng người dùng theo dõi Bằng cách áp dụng phương pháp đề xuất chúng tôi, chủ thể người đứng yên, phương pháp hiệu để phát vùng tương ứng với chủ đề để tách vùng khỏi Có vấn đề mà người chạm vào người khác đối tượng từ nền, bóng chiều sâu chúng hợp với kết phát triển khu vực Để tránh vậy, lưu trữ danh sách liên kết đối tượng thu từ khung trước Khi vùng người phát hiện, vùng đối sánh với vùng để loại bỏ phần dư thừa giao điểm hai đối tượng KẾT QUẢ THÍ NGHIỆM 3.1 ĐÁNH GIÁ PHÁT TRIỂN TIỀN CẢNH Thuật tốn Trong phần này, chúng tơi tiến hành loạt thử nghiệm để tìm thuật tốn tiền cảnh phù hợp có khả phát chuyển động pixel từ chuỗi hình ảnh độ sâu Các thuật toán thay đổi thực thử nghiệm chúng tơi ước tính tiền cảnh (a thay đổi hình ảnh) cách so sánh khác biệt khung với xác định khung trước đó, hình ảnh độ sâu tối đa, hình ảnh trung bình chạy, hình ảnh có phân bố mật độ khơng tham số (NDD), riêng hình ảnh có phân phối Gaussian hỗn hợp Định tính đánh giá thuật tốn khác chuỗi hình ảnh độ sâu hiển thị Hình Rõ ràng, cách sử dụng khung trước đó, hình ảnh trung bình, hình ảnh có phân bố mật độ khơng tham số, eigenbackground kết trước bao gồm tĩnh khu vực, điều không mong đợi cách tiếp cận chúng tơi muốn phát pixel chuyển động từ hình ảnh Một lượng di chuyển pixel sau đóng vai trị quan trọng để xác định đối tượng định làm chủ thể người theo dõi dọc theo khung hình liên tiếp Phương pháp sử dụng hình ảnh có độ sâu tối đa lịch sử hình ảnh chiều sâu lưu trữ đệm trích xuất miễn phí, diện vùng tĩnh Tuy nhiên, kích thước có hạn đệm, cách tiếp cận bỏ qua chuyển động lùi lại Cuối cùng, mơ tả Hình 8, cách tiếp cận ước tính hình sử dụng hỗn hợp phân phối Gaussian giải pháp thích hợp cho việc triển khai chúng tơi khơng cần lợi việc sử dụng hình ảnh có độ sâu tối đa phát chuyển động tiến lùi đối tượng Tốc độ tính tốn trung bình thuật tốn chênh lệch đưa Bảng Như thấy, ngoại trừ thuật tốn tính tốn sử dụng PCA ước tính mật độ phi tham số, tất số chúng phù hợp để triển khai thời gian thực Bảng Tốc độ tính tốn trung bình (fps) khác thuật tốn xác định 3.2 ĐÁNH GIÁ VIỆC KHAI THÁC CON NGƯỜI TỪ MỘT CHUỖI HÌNH ẢNH CHIỀU SÂU Chúng tơi đánh giá thuật tốn đề xuất để trích xuất đối tượng người từ chuỗi khung hình camera Kinect ghi lại Từ hai cảnh khác bao gồm phòng hành lang được thử nghiệm thí nghiệm chúng tơi Chúng tơi ghi 800 ~ 1500 khung hình cho trình tự độ sâu Kết khai thác người phân tích thơng qua đánh giá chủ quan Điều có nghĩa chúng tơi tính tốn độ xác trích xuất cách đếm số lượng khung hình xác xử lý tổng số hình ảnh có độ sâu liên tiếp Kết độ xác tổng thể đưa Bảng trình khai thác người thể Hình tương ứng Đây, số người tối đa phép vào giác quan hai Ví dụ phát khơng thành cơng đưa Hình 10 Rõ ràng, thuật tốn đề xuất phát trích xuất đối tượng người phức tạp Tuy nhiên, việc chạm đối tượng chủ thể có vùng hậu cảnh lớn gây vùng phát triển khơng xác định ranh giới xác chủ thể người Nhìn chung, tồn hệ thống thực máy tính xách tay sử dụng CPU Intel Core i5 2,5 GHz với nhiều lõi lõi luồng lõi đơn sử dụng cho tính tốn Ở trung bình, thuật tốn xử lý 60 fps với hình ảnh có độ sâu độ phân giải QGVA 320 x 240 nhanh thời gian thực ứng dụng Hỉnh Hiệu suất xác đề xuất phương pháp tiếp cận 4 KẾT LUẬN Trong báo này, đề xuất phương pháp để loại bỏ vùng tĩnh khỏi hình ảnh độ sâu để trích xuất theo dõi nhiều người dùng từ khung sang khung khác Cách tiếp cận đề xuất đặt số lợi thế: Nó ước tính động hình ảnh nền, chúng tơi khơng cần khởi tạo hình cho lần đầu tiên; Thuật tốn theo dõi nhiều người dùng tách chúng cách sử dụng số nhận dạng khác Các phương pháp nhanh với tốc độ xử lý khoảng 60 fps thích hợp cho ứng dụng thời gian thực; Bên cạnh đó, đề xuất chúng tơi thuật tốn vận hành môi trường khác Một số nhược điểm thuật tốn đề xuất chúng tơi cải thiện tiếp tục hoạt động Thứ nhất, số lượng đối tượng người xác định chúng mắc vào Chúng đề nghị sử dụng theo dõi thuật toán với Bộ lọc Kalman để xác định đối tượng người cho khoảng thời gian chí đối tượng biến khỏi cảnh Thứ hai, cá nhân chạm vào người khác, chiều sâu họ phản chiếu hợp thành Để giải vấn đề vậy, kết hợp khung với khung trước để tách khu phức hợp vùng chủ thể người thành phận giải pháp hiệu Khi cá nhân chạm vào đối tượng từ phức tạp, chuỗi khung sử dụng để đánh giá xem có hay khơng pixel thuộc đối tượng Bên cạnh đó, đối tượng bất ngờ chẳng hạn quạt, ghế di chuyển, v.v bị từ chối cách đăng ký thuật tốn phân loại hình dạng Cuối cùng, chúng tơi nhận việc di chuyển máy ảnh dẫn đến khó trích xuất hình ảnh tiền cảnh Do đó, chúng tơi có kế hoạch tích hợp thơng tin di chuyển camera cho thuật toán khai thác phát người LỜI CẢM ƠN Nghiên cứu tài trợ Quỹ Quốc gia Việt Nam cho Phát triển Khoa học Công nghệ (NAFOSTED) tài trợ số 102.05-2013.11 GIỚI THIỆU [1] Schafer, H., Lenzen, F., Garbe, C.: Depth and Intensity Based Edge Detection in Time-of-flight Image In: 3DV-Conference, (2013) [2] Lejeune, A., Pierad, S., Droogenbroeck, M V., and Verly, A.:A New Jump Edge Detection Method for 3D Cameras In: International Conference on 3D Imaging (ICA3D), (2011) [3] Xia, L., Chen, C.-C., Aggarwal J.K Human Detection Using Depth Information by Kinect Computer Vision and Pattern Recognition Workshops, (2011) [4] Xu, F., Fujimuar, K.: Human Detection Using Depth and Gray Images In: Advanced Video and Signal Based Surveillance, (2003) [5] Zhao, L., Thorpe, C.: Stereo and Neural Network-based Pedestrian Detection IEEE Transactions on Intelligent Transportation Systems, vol 1, no 3, pp 148 154 (2000) [6] Munoz, R., Aguiire, E., Garcia, M.: People Detection and Tracking Using Stereo Vision and Color Image and Vision Computing, vol 25, no 6, pp 995-1007 (2007) [7] Southwell, B J., Fang, G.: Human Object Recognition Using Colour and Depth Information from an RGB-D Kinect Sensor International Journal of Advanced Robotic Systems, vol 10, no 171, (2013) [8] Viola, P., Jones, M.: Rapid Object Detection Using a Boosted Cascade of Simple Features In: IEEE Computer Vision and Pattern Recognition, (2001) [9] Dalal, N., Trigs, B.: Historgrams of Oriened Gradients for Human Detection: In: IEEE Computer Vision and Pattern Recognition, (2005) [10] Lowe, D.: Object Recognition from Local Scale-invariant Features, In: IEEE International Conference on Computer Vision, (1999) [11] Shen, Y., Wang P., Ma, S., Liu, W.: A Novel Human Detection Approach Based on Depth Map via Kinect IEEE Conference on Computer Vision and Pattern Recognition Workshops, (2013) [12] Zhao, Y., Liu, Z., Yang, L., Cheng, H.: Combining RGB and Depth Map Features for Human Activity Recognition Signal & Information Processing Association Annual Summit and Conference (APSIPA ASC), Asia-Pacific, (2012) [13] Salas, J.,Tomasi, C.: People Detection Using Color and Depth Images Lecture Notes in Computer Science, (2011) [14] Langmann, B., Ghobadi, S., Hartmann, K., Hoffeld, O., Multi-modal Background Subtraction Using Gaussian Mixture Models In: IAPRS, (2010) [15] Brutzer, S., Hăoferlin, B., Heidemann, G.: Evaluation of Background Subtraction Techniques for Video Surveillance, IEEE Conference on Computer Vision and Pattern Recognition Workshops, (2011) [16] Crabb, R., Tracey, C., Puranik, A., Davis, J.: Real-time Foreground Segmentation via Range and Color Imaging In: Computer Vision and Pattern Recognition Workshops, (2008) [17] Toyoda, T., Hasegawa, O.: Random Field Model for Integration of Local Information and Global Information IEEE Transaction on Pattern Analysis and Machine Intelligence, vol 30, no 8, pp.1483 1489 (2008) Bảng So sánh thuật toán phát khác Phương pháp Bối cảnh khung trước Thuật toán Bối cảnh Nền = max { I t, I t-1, … , I t-h } dạng tối đa n- nơi It hình ảnh độ sâu mục thời gian t trước khung Bối cảnh chạy trung bình Nền PDF ước tính mật độ khơng tham số ước lượng Nền ước tính theo thành phần phân tích Ước tính với hỗn hợp Cụm nơi α tỷ lệ đọc PDF pixel xt ước tính từ Npixels S={xi}i=1 N cách nơi Kσ Là chức kernel Tiền cảnh phát Pr(xt) )< threshold Trong thuật toán này, khung n-trước xếp lại dạng cột ma trận A Sau đó, ma trận biến đổi C = AAT tính tốn Từ C, the ma trận chéo eigenvalues nó, L ma trận eigenvector, Φ, ước tính cho phù hợp Chỉ có eigenvectors M (eigenbackgrounds) giữ lại Một hình ảnh It có sẵn, chiếu lần M eigenvectors xây dựng lại It ' Sự khác biệt It - It " It It ' hình ảnh tiền cảnh eigenvector khơng gian phụ đại diện cho phần tĩnh trường Pdf trình bày hỗn hợp K Gaussian (μi) , σi , ωi ), nơi ωi trọng lượng cụm Gaussian μ trung bình Hạn chế Tiền cảnh phát chứa hai khu vực di chuyển số phần tĩnh lai lịch Thuật tốn khơng thể phát chuyển động lùi lại Tiền cảnh phát chứa phần tĩnh Xử lý chậm ồn Xử lý chậm bị phát tiền cảnh chứa tĩnh lai lịch Có thể phát hai phía trước chuyển động Gaussian cập nhật cách chạy trung bình mt +1 =aFt lùi lại + (1-a)mt Cụm có giá trị cao trọng lượng ωi chọn làm PDF Phương trình trọng lượng ωi Là cập nhật wi,k t = (1-a)wi,k t-1 +aIi,k t Để tránh diện tĩnh, cụm Gaussian-i chọn làm mà Chứa giá trị lớn ωti μti (a) Sử dụng khung trước làm (b) Sử dụng hình ảnh trung bình chạy làm (c) Sử dụng hình ảnh độ sâu tối đa làm (d) Hình tìm thấy ước tính mật độ phi tham chiếu (e) Hình tìm thấy PCA Hình Thuật tốn khác sử dụng để trích xuất hình ảnh tiền cảnh hàng hiển thị hình ảnh độ sâu ban đầu phía cho thấy tiền cảnh phân đoạn Hình So sánh ước tính hình ảnh độ sâu tối đa hỗn hợp phân phối Gaussian Hàng hiển thị hình ảnh gốc, hàng thứ hai hiển thị tiền cảnh Được trích xuất hình ảnh tối đa cuối cho thấy hình ảnh tiền cảnh trích xuất Gaussian phân phối hỗn hợp (a) Một vật thể phòng (b) Hai vật thể phòng (c) Một đối tượng hành lang (d) Hai đối tượng hành lang Hình Theo dõi nhiều đối tượng với môi trường khác Hình 10 Ví dụ phát thất bại ... 2.2 PHÁT HIỆN TIỀN CẢNH Mục đích giai đoạn ước tính hình ảnh tiền cảnh pixel thay đổi chuỗi hình ảnh độ sâu định Các vấn đề tương đương làm để có động hình ảnh từ chuỗi khung hình Pixel tiền cảnh... Thuật tốn khác sử dụng để trích xuất hình ảnh tiền cảnh hàng hiển thị hình ảnh độ sâu ban đầu phía cho thấy tiền cảnh phân đoạn Hình So sánh ước tính hình ảnh độ sâu tối đa hỗn hợp phân phối Gaussian... việc sử dụng camera Kinect cho phát người phân đoạn từ hình ảnh kỷ thuật quan trọng việc trích xuất thơng tin chủ thể người Lưu ý thông tin độ sâu thu máy ảnh độ sâu cung cấp hình ảnh có độ sâu

Định dạng
Số trang	19
Dung lượng	690,03 KB