Sử dụng GA trong việc tối ưu hóa tham số của bài toán nhận dạng vật thể

Sử dụng GA việc tối ưu hóa tham số tốn nhận dạng vật thể Nhóm thực  Trần Việt Dũng – KHMT K52  Mai Đình Lợi – KHMT K52  Phú Quang Hiển – KHMT K52 Nội dung trình bày  I Tổng quan  II Các nghiên cứu liên quan I Giới thiệu toán  Bài toán nhận dạng đối tượng Bài toán nhận dạng đối tượng toán nhận dạng đối tượng có ảnh gán nhãn cho chúng cách xác I Giới thiệu tốn  Đầu vào: Bức ảnh chưa dán nhãn cụ thể  Đầu ra: Ảnh gán nhãn rõ ràng sử dụng mã màu Các nhãn gán thuộc tập nhãn mà chương trình xét I Giới thiệu toán Các bước : Tiền xử lý  Ảnh đầu vào phân vùng thuật toán textons để làm bật lên đặc trưng trước đưa vào tính tốn cho CRF Gán nhãn sử dụng CRF  Sử dụng hàm để tính tốn xác suất lớp ảnh thơng qua việc tính tốn kết hợp xác suất đặc trưng ảnh Gán nhãn sử dụng CRF  Xác định tham số hợp lý cho hàm CRF  Tính tốn xác phân phối lớp ảnh =>đề xuất phương pháp tối ưu hóa tham số ứng dụng giải thuật di truyền Bộ liệu mẫu  gồm 591 ảnh kích thước xấp xỉ 320 x 240,  gán nhãn tay chia làm 21 lớp vật thể : nhà, cỏ, cây, bị, cừu, bầu trời, máy bay, nước, khn mặt, ô tô, xe máy, hoa, biển hiệu, chim, sách, ghế, đường, chó, mèo, thể, thuyền  Bộ ảnh chia làm phần: 45% liệu huấn luyện, 10% liệu xác nhận 45% liệu kiểm tra Ứng dụng  Lĩnh vực tìm kiếm hình ảnh  Thị giác máy tính II Các nghiên cứu liên quan  Một số mơ hình nhận dạng lớp vật thể mơ hình đặc trưng Fergus[1] mơ hình hình dạng biến đổi Berg[2] mơ hình vân bề mặt Winn[3] không phương pháp cho phép phân vùng mức độ điểm ảnh Ngược lại, số tác giả khác tập trung giải toán phân vùng ảnh[4][5] II Các nghiên cứu liên quan  Nhận dạng phân vùng phần vật thể : Winn[6], Kumar[7], Leibe[8] áp dụng mơ hình tồn hình dáng vật thể khơng thể giải trường hợp vật thể khơng nằm tồn ảnh, vật thể bị che khuât nhiều II Các nghiên cứu liên quan  Nghiên cứu tương tự với nghiên cứu tài liệu mô tả He [12]  kết hợp đặc trưng vùng toàn ảnh với mơ hình hình dáng ngữ cảnh Trường Ngẫu Nhiên Có Điều Kiện Nghiên cứu áp dụng phương pháp lấy mẫu Gibbs cho việc học tham số suy luận nhãn nó bị giới hạn tập liệu số lượng nhãn xử lý cách hiệu II Các nghiên cứu liên quan  Phương pháp “Fully Connected CRFs” III Kế hoạch thực Hướng tối ưu hóa hàm CRF sử dụng GA Ta xác định hàm số có sẵn cho loại đặc trưng (phân phối màu, phân phối vân bề mặt, ….) Sử dụng GA để tối ưu hóa tham số này:  Bộ gene: tập giá trị tham số hàm đặc trưng  Lai ghép: Lựa chọn giá trị (cùng vị trí) từ bố mẹ sử dụng khung để chọn  Đột biến: Sinh ngẫu nhiên giá trị Để tối ưu cần chọn hàm phù hợp xác định ảnh hưởng tham số đến kết quả, từ tối ưu hóa III Kế hoạch thực  Chia làm nhóm nghiên cứu hàm đặc trưng khác ảnh: nhóm 1: Nhận dạng sử dụng texture + color nhóm 2: Nhận dạng shape + location nhóm 3: cải thiện kết cách áp dụng nhiều đặc trưng  Đưa – hướng cài đặt toán Tài liệu tham khảo Fergus, R., Perona, P., Zisserman, A.: Object class recognition by unsupervised scale-invariant learning In: CVPR'03 Volume II (2003) 264 - 271 Berg, A.C., Berg, T.L., Malik, J.: Shape matching and object recognition using low distortion correspondences In: CVPR (2005) Winn, J., Criminisi, A., Minka, T.: Categorization by learned universal visual dictionary Int Conf of Computer Vision (2005) Kumar, S., Herbert, M.: Discriminative ¯elds for modeling spatial dependencies in natural images In: NIPS (2004) Borenstein, E., Sharon, E., Ullman, S.: Combining top-down and bottom-up segmentation In: Proceedings IEEE workshop on Perceptual Organization in Computer Vision, CVPR 2004 (2004) Winn, J., Jojic, N.: LOCUS: Learning Object Classes with Unsupervised Segmentation Proc of IEEE ICCV (2005) Kumar, P., Torr, P., Zisserman, A.: Obj cut Proc of IEEE CVPR (2005) Tài liệu tham khảo 10 11 12 13 Leibe, B., Schiele, B.: Interleaved object categorization and segmentation In:BMVC'03 Volume II (2003) 264-271 Duygulu, P., Barnard, K., de Freitas, N., Forsyth, D.: Object recognition as machine translation: Learning a lexicon for a ¯xed image vocabulary ECCV (2002) Tu, Z., Chen, X., Yuille, A.L., Zhu, S.: Image parsing: Unifying segmentation, detection, and recognition In: CVPR (2003) Konishi, S., Yuille, A.L.: Statistical cues for domain speci¯c image segmentation with performance analysis In: CVPR (2000) He, X., Zemel, R.S., Carreira-Perpinan, M.A.: Multiscale conditional random fieldsfor image labeling Proc of IEEE CVPR (2004) Philipp Krahenbuhl, Vladlen Koltun, Efﬁcient Inference in Fully Connected CRFs with Gaussian Edge Potentials

Định dạng
Số trang	19
Dung lượng	871,5 KB