Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
303,5 KB
Nội dung
Ứng dụng giải thuật di truyền để cải thiện tham số Trường Ngẫu Nhiên Có Điều Kiện việc nhận dạng lớp vật thể ảnh Trần Việt Dũng, Mai Đình Lợi, Phú Quang Hiển Trường Đại Học Bách Khoa Hà Nội Viện Công Nghệ Thông Tin Và Truyền Thơng Bộ Mơn Khoa Học Máy Tính Tóm Tắt Tài liệu mô tả hướng tiếp cận việc tối ưu hóa tham số CRF toán nhận dạng vật thể sử dụng giải thuật di truyền Hướng tiếp cận mở phương pháp tối ưu tham số cách hiệu với chi phí thấp Hướng tiếp cận ứng dụng kỹ thuật giải thuật di truyền như: lai ghép, chọn lọc, đột biến để sinh giá trị tốt cho CRF Việc ứng dụng giải thuật di truyền làm giảm bớt chi phí huấn luyện cho trường ngẫu nhiên giảm bớt yêu cầu lớn liệu huấn luyện Giới thiệu Bài toán Tài liệu tập trung vào việc tối ưu hóa tham số cho CRF để giải tốn cụ thể, từ hướng cho toán tương tự Bài toán giải trường hợp tốn tự động phát hiện, phân tích nhận dạng lớp vật thể ảnh Rõ ràng hơn, hệ thống xử lý phải có khả phân tích, chia ảnh cho trước thành vùng cụ thể gán nhãn xác cho vùng Tuy nhiên, thực tế, số lượng lớp vật thể đặc trưng chúng lớn chúng thường khơng có cấu trúc cụ thể, việc giải triệt để tốn khó khăn, nên phạm vi báo cáo này, tập trung vào việc phân tích, gán nhãn tập hữu hạn lớp vật thể (sẽ mô tả phần tiếp theo) Ta không tập trung vào xác giải thuật mà cịn vào tốc độ hiệu có ảnh hưởng lớn việc xử lý khối lượng lớn ảnh thực tế Thông thường, ta phân vùng nhận phần nhỏ ảnh dễ dẫn đến mập mờ việc nhận dạng thực thể Ví dụ: ta nhận dạng cửa sổ vật thể vật thể tơ, máy bay tòa nhà Để vượt qua mập mờ lớp vật thê này, ta cần phải phân tích dải rộng đặc trưng như: thành phần cấu trúc vật thể (hình dáng), tất vùng xung quanh Để đạt điều này, ta phải xây dựng mơ hình nhận dạng ảnh có khả tận dụng đặc trưng chính: diện mạo, hình dạng ngữ cảnh quanh vật thể Và mơ hình CRF mơ hình hợp lý để xử lý tốn Mơ hình CRF sử dụng để nhận biết phân phối xác suất lớp vật thể ảnh cho trước Ta sử dụng hàm để tính tốn xác suất lớp ảnh thơng qua việc tính tốn kết hợp xác suất đặc trưng ảnh Các đặc trưng xem xét bao gồm: hình dáng – bề mặt, phân phối màu sắc, dạng viền – cạnh vị trí vật thể ảnh Các ảnh đưa qua bước tiền xử lý để làm bật lên đặc trưng trước đưa vào tính tốn cho CRF Để xây dựng mơ hình CRF giải tốn hiệu quả, việc khó khăn phải làm xác định tham số hợp lý cho hàm CRF để tính tốn xác phân phối lớp ảnh Để giải điều này, báo cáo đề xuất phương pháp tối ưu hóa tham số ứng dụng giải thuật di truyền Bộ tham số CRF sản sinh, lại ghép chọn lọc theo kỹ thuật giải thuật di truyền Báo cáo tập trung vào tối ưu hóa tham số hàm xác suất để đạt kết tốt liệu chuẩn Những nghiên cứu liên quan Việc phân tích gán nhãn cho ảnh nghiên cứu cách độc lập nhiều năm gần đây, nhiều tác giả tìm giải chúng cách độc lập Ví dụ, việc nhận dạng lớp vật thể thực mơ hình đặc trưng Fergus i, mơ hình hình dạng biến đổi Berg ii mơ hình vân bề mặt Winn iii Tuy nhiên, không phương pháp cho phép phân vùng mức độ điểm ảnh Ngược lại, số tác giả khác tập trung giải toán phân vùng ảnh iv,v Việc nhận dạng phân vùng phần vật thể giải số tác giả khác Winnvi, Kumarvii, Leibeviii Các giải nêu áp dụng mơ hình tồn hình dáng vật thể vậy, phương pháp giải trường hợp vật thể khơng nằm tồn ảnh, vật thể bị che khuât nhiều Hơn nữa, chúng áp dụng với lớp vật thể cấu trúc mức cao Một toán nhận dạng tương tự với toán xét xem xét Duygulu Object recognition as machine translation: Learning a lexicon for a fixed image vocabularyix mà đó, phân loại sử dụng để gán nhãn vùng tìm thấy giải thuật phân vùng tự động Tuy nhiên, việc phân vùng thường không liên quan tới ý nghĩa vật thể Khác với phương pháp trên, ta thực việc phân vùng gán nhãn mơ hình thay thực bước riêng biệt Việc thực chung xem xét tài liệu khác Image parsing: Unifying segmentation,detection, and recognition x, nhiên tài liệu xem xét nhận dang chữ in khuôn mặt với chi phí tính tốn lớn Konishi Yuille xi thực gán nhãn ảnh sử dụng phân tích ngơi đơn giản, khơng thể phân vùng cách qn tồn không gian Nghiên cứu tương tự với nghiên cứu tài liệu mô tả He xii kết hợp đặc trưng vùng tồn ảnh với mơ hình hình dáng ngữ cảnh Trường Ngẫu Nhiên Có Điều Kiện Nghiên cứu áp dụng phương pháp lấy mẫu Gibbs cho việc học tham số suy luận nhãn Bởi vậy, bị giới hạn tập liệu số lượng nhãn xử lý cách hiệu Một Cơ sở lý thuyết CRF giới thiệu lần đầu vào năm 2001 Lafferty đồng nghiệp CRF mơ hình dựa xác suất điều kiện, tích hợp thuộc tính đa dạng chuỗi liệu quan sát nhằm hỗ trợ cho trình phân lớp CRF mơ hình đồ thị vơ hướng Điều cho phép CRF định nghĩa phân phối xác suất toàn chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay phân phối trạng thái với điều kiện biết trạng thái trước quan sát Chính cách mơ hình hóa vậy, CRF giải vấn đề ‘label bias’ Định nghĩa CRF:Kí hiệu X biến ngẫu nhiên nhận giá trị chuỗi liệu cần phải gán nhãn Y biến ngẫu nhiên nhận giá trị chuỗi nhãn tương ứng Mỗi thành phần Yi Y biến ngẫu nhiên nhận gía trị tập hữu hạn trạng thái S Trong tốn nhận biết loại thực thể, X nhận giá trị câu ngôn ngữ tự nhiên, Y chuỗi ngẫu nhiên tên thực thể tương ứng với câu thành phần Y i Y có miền giá trị tập tất nhãn tên thực thể (tên người, tên địa danh, ) Cho đồ thị vơ hướng khơng có chu trình G=(V,E), V tập đỉnh đồ thị E tập cạnh vô hướng nối đỉnh đồ thị Các đỉnh V biểu diễn thành phần biến ngẫu nhiên Y cho tồn ánh xạ một-một đỉnh thành phần Yv Y Ta nói (Y|X) trường ngẫu nhiên điều kiện (Conditional Random Field - CRF) với điều kiện X, biến ngẫu nhiên Yv tuân theo tính chất Markov đồ thị G: (1.1) Ở đây, N(v) tập tất đỉnh kề với v Như vậy, CRF trường ngẫu nhiên phụ thuộc tịan cục vào X Trong tốn xử lý liệu dạng chuỗi, G đơn giản dạng chuỗi G=(V={1,2,…m},E={(i,i+1)}) Kí hiệu X=(X1, X2,…, Xn), Y=(Y1,Y2, ,Yn) Mơ hình đồ thị cho CRF có dạng: Đồ thị vơ hướng mô tả CRF Gọi C tập hợp tất đồ thị đầy đủ đồ thị G - đồ thị biểu diễn cấu trúc CRF Áp dụng kết Hammerley-Clifford cho trường ngẫu nhiên Markov, ta thừa số hóa p(y|x) - xác suất chuỗi nhãn với điều kiện biết chuỗi liệu quan sát- thành tích hàm tiềm sau: (1.2) Vì tốn xử lý liệu dạng chuỗi đồ thị biểu diễn cấu trúc CRF có dạng đường thẳng hình nên tập C phải hợp E V, E tập cạnh đồ thị G V tập đỉnh G, hay nói cách khác đồ thị A gồm đỉnh gồm cạnh G Nguyên lý cực đại hóa Entropy :Lafferty xác định hàm tiềm cho mơ hình CRF dựa nguyên lý cực đại hóa Entropy Cực đại hóa Entropy nguyên lý cho phép đánh giá phân phối xác suất từ tập liệu huấn luyện Độ đo Entropy điều kiện:Entropy độ đo tính đồng hay tính khơng chắn phân phối xác suất Độ đo Entropy điều kiện phân phối mơ hình “một chuỗi trạng thái với điều kiện biết chuỗi liệu quan sát” p(y|x) có dạng sau: (2.1) Các ràng buộc phân phối mơ hình :Các ràng buộc phân phối mơ hình thiết lập cách thống kê thuộc tính rút từ tập liệu huấn luyện Tập thuộc tính tập hợp thông tin quan trọng liệu huấn luyện Kí hiệu kì vọng thuộc tính f theo phân phối xác suất thực nghiệm sau: Ở p~(x,y) phân phối thực nghiệm liệu huấn luyện Giả sử liệu huấn luyện gồm N cặp, cặp gồm chuỗi liệu quan sát chuỗi nhãn D={(xi,yi)}, phân phối thực nghiệm liệu huấn luyện tính sau: p~(x,y) =1/N * số lần xuất đồng thời x,y tập huấn luyện Kì vọng thuộc tính f theo phân phối xác suất mơ hình Phân phối mơ hình thống với phân phối thực nghiệm kì vọng thuộc tính theo phân phối xác suất phải kì vọng thuộc tính theo phân phối mơ hình : Phương trình thể ràng buộc phân phối mơ hình Nếu ta chọn n thuộc tính từ tập liệu huấn luyện, ta có tương đương n ràng buộc phân phối mơ hình Ngun lý cực đại hóa Entropy: Gọi P không gian tất phân phối xác suất điều kiện, n số thuộc tính rút từ liệu huấn luyện P’ tập P, P’ xác định sau: Các ràng buộc mơ hình P khơng gian toàn phân phối xác suất Trường hợp a: khơng có ràng buộc; trường hợp b: có ràng buộc C 1, mơ hình p thỏa mãn ràng buộc nằm đường C1; trường hợp c: ràng buộc C C2 giao nhau, mơ hình p thỏa mãn hai ràng buộc giao hai đường C C2; trường hợp d: ràng buộc C1 C2 không giao nhau, không tồn mơ hình p thỏa mãn ràng buộc Tư tưởng chủ đạo nguyên lý cực đại hóa Entropy ta phải xác định phân phối mô hình cho “phân phối tn theo giả thiết biết từ thực nghiệm ngồi khơng đưa thêm giả thiết khác” Điều có nghĩa phân phối mơ hình phải thỏa mãn ràng buộc rút từ thực nghiệm, phải gần với phân phối Nói theo ngơn ngữ tốn học, ta phải tìm phân phối mơ hình p(y|x) thỏa mãn hai điều kiện, phải thuộc tập P’ hai phải làm cực đại Entropy điều kiện (2.1) Với thuộc tính fi ta đưa vào thừa số langrange λ i , ta định nghĩa hàm Lagrange L ( p, λ ) sau: Phân phối p(y|x) làm cực đại độ đo Entropy H ( p) thỏa mãn n ràng buộc Ep(x,y) [f] = Ep[f] làm cực đại hàm ),( λpL (theo lý thuyết thừa số Langrange) Ta suy ra: Ở Z λ (x) thừa số chuẩn hóa để đảm bảo = với x: Hàm tiềm mơ hình CRF :Bằng cách áp dụng nguyên lý cực đại hóa Entropy, Lafferty xác định hàm tiềm CRF có dạng hàm mũ Ở fk thuộc tính chuỗi liệu quan sát γ k trọng số mức độ biểu đạt thông tin thuộc tính fk Có hai loại thuộc tính thuộc tính chuyển (kí hiệu t) thuộc tính trạng thái(kí hiệu s) tùy thuộc vào A đồ thị gồm đỉnh hay cạnh G Thay hàm tiềm vào công thức (1.2) thêm vào thừa sổ chuẩn hóa Z(x) để đảm bảo tổng xác suất tất chuỗi nhãn tương ứng với chuỗi liệu quan sát 1, ta được: Ở đây, x,y chuỗi liệu quan sát chuỗi trạng thái tương ứng; t k thuộc tính tịan chuỗi quan sát trạng thái ví trí i-1, i chuỗi trạng thái; sk thuộc tính tồn chuỗi quan sát trạng thái ví trí i chuỗi trạng thái Thừa số chuẩn hóa Z(x) tính sau: Θ( λ1 , λ2 , … ,μ1 ,μ2) vector tham số mơ hình, teta ước lượng giá trị nhờ phương pháp ước lượng tham số cho mơ hình Cơ sở liệu ảnh Bộ liệu gồm 591 ảnh kích thước xấp xỉ 320x240 pixel, chia làm 21 lớp vật thể : nhà, cỏ, cây, bị, cừu, bầu trời, máy bay, nước, khn mặt, tô, xe máy, hoa, biển hiệu, chim, sách, ghế, đường, chó, mèo, thể, thuyền Mỗi lớp vật thể tương ứng với mã màu riêng : Mã màu 21 lớp vật thể tốn Có nhãn đặc biệt rỗng dùng để vật thể không thuộc 21 lớp xét Bộ ảnh chia làm phần: 45% liệu huấn luyện, 10% liệu kiểm tra 45% liệu cho việc chạy thử kết Link download us/projects/objectclassrecognition/ : http://research.microsoft.com/en- Trường ngẫu nhiên có điều kiện cho tốn nhận dạng lớp vật thể Bài toán nhận dạng vật thể phân làm toán Phân vùng vật thể Gán nhãn vật thể Có số nghiên cứu kết hợp giải lúc toán con(Tài liệu) Các toán giải nhiều nhà nghiên cứu giới Bài toán kết hợp phân vùng gán nhãn ảnh có hướng tiếp cận : Phân vùng xong, sau gán nhãn ảnh phân vùng Thực đồng thời phân vùng + gán nhãn ln cho vùng Nhóm nghiên cứu theo hướng thứ 2, nghiên cứu đặc trưng : hình dạng, màu sắc, vị trí, cạnh biên cuả hình ảnh kết hợp đặc trưng để giải toán nhận dạng ảnh, đồng thời tối ưu tham số cho hàm đặc trưng sử dụng giải thuật di truyền Các nghiên cứu sơ hàm : 3.1.Hàm Shape : 3.2 Hàm Color : 3.3 Hàm Location : 3.4 Hàm Edge : Mô tả cụ thể cách giải sử dụng CRF B1 : Sử dụng thuật toán textons để phân vùng ảnh: Ảnh đầu vào(bên trái) ảnh sau sau phân vùng (bên phải) B2 : Phân tích, áp dụng CRF cho ô vuông thuộc vùng ảnh từ đưa nhãn Sử dụng hàm CRF: Đề xuất thuật toán tối ưu tham số Ghi : phần Dũng bổ sung chi tiết Ý tưởng Bước 1: Sản sinh tham số gốc cho hàm CRF (thế hệ đầu tiên) Bước 2: Tính tốn hàm sinh tồn dựa vào độ xác việc gán nhãn ảnh (Tính trung bình xác suất nhãn đúng) Bước 3: Kiểm tra điều kiện kết thúc (Đạt đến giá trị hàm sinh tồn chấp nhận ~ việc tiến gần đến 100%) Bước 4: Sản sinh hệ dựa vào việc lai ghép, đột biến Bước 5: Quay bước Các hướng tối ưu hóa hàm CRF sử dụng GA Ta xác định hàm số có sẵn cho loại đặc trưng (phân phối màu, phân phối vân bề mặt, ….) Sử dụng GA để tối ưu hóa tham số này: - Bộ gene: tập giá trị tham số hàm đặc trưng - Lai ghép: Lựa chọn giá trị (cùng vị trí) từ bố mẹ sử dụng khung để chọn - Đột biến: Sinh ngẫu nhiên giá trị Để tối ưu cần chọn hàm phù hợp xác định ảnh hưởng tham số đến kết quả, từ tối ưu hóa Kết thực nghiệm Kết luận Tài liệu tham khảo i Fergus, R., Perona, P., Zisserman, A.: Object class recognition by unsupervised scale-invariant learning In: CVPR'03 Volume II (2003) 264 - 271 ii Berg, A.C., Berg, T.L., Malik, J.: Shape matching and object recognition using low distortion correspondences In: CVPR (2005) iii Winn, J., Criminisi, A., Minka, T.: Categorization by learned universal visual dictionary Int Conf of Computer Vision (2005) iv Kumar, S., Herbert, M.: Discriminative ¯elds for modeling spatial dependencies in natural images In: NIPS (2004) v Borenstein, E., Sharon, E., Ullman, S.: Combining top-down and bottom-up segmentation In: Proceedings IEEE workshop on Perceptual Organization in Computer Vision, CVPR 2004 (2004) vi Winn, J., Jojic, N.: LOCUS: Learning Object Classes with Unsupervised Segmentation Proc of IEEE ICCV (2005) vii Kumar, P., Torr, P., Zisserman, A.: Obj cut Proc of IEEE CVPR (2005) viii Leibe, B., Schiele, B.: Interleaved object categorization and segmentation In:BMVC'03 Volume II (2003) 264-271 ix Duygulu, P., Barnard, K., de Freitas, N., Forsyth, D.: Object recognition as machine translation: Learning a lexicon for a ¯xed image vocabulary ECCV (2002) x Tu, Z., Chen, X., Yuille, A.L., Zhu, S.: Image parsing: Unifying segmentation, detection, and recognition In: CVPR (2003) xi Konishi, S., Yuille, A.L.: Statistical cues for domain speci¯c image segmentation with performance analysis In: CVPR (2000) xii He, X., Zemel, R.S., Carreira-Perpinan, M.A.: Multiscale conditional random fieldsfor image labeling Proc of IEEE CVPR (2004)