1. Trang chủ
  2. » Công Nghệ Thông Tin

Giải thuật rừng ngẫu nhiên giải bài toán phân đoạn ảnh theo đối tượng

66 588 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 66
Dung lượng 1,7 MB

Nội dung

Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI MAI ĐÌNH LỢI Họ tên tác giả luận văn Mai Đình Lợi CƠNG NGHỆ THÔNG TIN TÊN ĐỀ TÀI LUẬN VĂN GIẢI THUẬT RỪNG NGẪU NHIÊN GIẢI BÀI TOÁN PHÂN ĐOẠN ẢNH THEO ĐỐI TƢỢNG LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN 2013B Hà Nội – 2015 i Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Họ tên tác giả luận văn Mai Đình Lợi TÊN ĐỀ TÀI LUẬN VĂN GIẢI THUẬT RỪNG NGẪU NHIÊN GIẢI BÀI TOÁN PHÂN ĐOẠN ẢNH THEO ĐỐI TƢỢNG LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS TS Huỳnh Thị Thanh Bình Hà Nội – 2015 ii Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng TÓM TẮT NỘI DUNG LUẬN VĂN TỐT NGHIỆP Vấn đề phát hiện, nhận dạng, phân tách hiểu ngữ nghĩa đối tượng ảnh nghiên cứu rộng rãi trong lĩnh vực thị giác máy tính hàng thập kỷ qua Đây tốn có ý nghĩa thực tiễn lớn nhiều lĩnh vực đời sống Mục đích đề tài nhằm nghiên cứu tổng quan toán phân đoạn ảnh theo đối tượng (Object Segmentation), cài đặt chạy thử nghiệm chương trình phân đoạn ảnh Trên sở đó, đề xuất giải thuật rừng ngẫu nhiên nhằm nâng cao chất lượng ảnh đầu ra, so sánh đưa đánh giá hiệu giải thuật Cấu trúc luận văn gồm năm chương với nội dung sau: Chương trình bày kiến thức sở ảnh số xử lý ảnh làm tảng lý thuyết cho chương Chương trình bày tổng quan giải thuật rừng ngẫu nhiên ứng dụng Chương trình bày định nghĩa toán phân đoạn ảnh theo đối tượng ứng dụng, mơ hình giải thuật rừng ngẫu nhiên để giải tốn Chương trình bày kết thực nghiệm luận văn, so sánh đánh giá hiệu thuật tốn Chương trình bày kết luận hướng phát triển luận văn iii Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng ABSTRACT OF THESIS The problem of discovering, realizing, segmenting objects in image, which has contributed to life improvement in many fields like: Searching images, Robitics…,has been researched and developed widely in computer vision field for centuries up till now all around the world The purpose of this thesis is reserched object segmentation problem Moreover, researching the improvement image parameters using genetic algorithm is also strongly taken into consideration with the main purpose of finding out its meaning in real life by comparing and assessing efficiency of algorithms With chapters of thesis with reference from reliable information from books and internet, I hope this problem will be solved thoroughly through this thesis Every step of developing the problem solving is defined clearly in each chapter below: Chapter 1: Basic knowledge of digital image, image processing Chapter 2: Basic knowledge of random forest and its applications Chapter 3: Defining object segmentation and its applications, apply random forest model to solve object segmentation problem Chapter 4: The experimental results, comparision and efficiency assessment of algorithms Chapter 5: Conclusions and further work iv Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng LỜI CẢM ƠN Trước hết, em xin chân thành gửi lời cảm ơn sâu sắc tới thầy cô giáo Viện Công nghệ Thông tin Truyền thông tận tình giảng dạy, truyền đạt cho em kiến thức kinh nghiệm quý báu suốt 1,5 năm học tập rèn luyện trường Đại học Bách Khoa Hà Nội Em xin gửi lời cảm ơn đến TS Huỳnh Thị Thanh Bình - Giảng viên mơn Khoa học máy tính, Viện Cơng nghệ Thông tin Truyền thông, trường Đại học Bách Khoa Hà Nội hết lòng giúp đỡ, hướng dẫn dạy tận tình trình em làm luận văn cao học Đồng thời, em xin gửi lời cảm ơn tới thầy Đinh Viết Sang, bạn tập thể CNTT2 khóa 2013B, em sinh viên K55, đặc biệt em Nguyễn Tiến Quảng K55 giúp đỡ, hỗ trợ em suốt trình nghiên cứu thực luận văn Cuối cùng, em xin gửi lời cảm ơn chân thành tới gia đình, bạn bè quan tâm, động viên, đóng góp ý kiến giúp đỡ trình học tập, nghiên cứu hoàn thành luận văn tốt nghiệp Hà Nội, ngày 12 tháng năm 2015 Mai Đình Lợi Lớp CNTT2 – Khóa 2013B Viện CNTT & TT Đại học Bách Khoa Hà Nội v Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng LỜI MỞ ĐẦU Trong thập niên đầu kỷ 21, học máy nghiên cứu phát triển mạnh mẽ, đánh dấu bước ngoặt quan trọng thay đổi tảng nghiên cứu Trí tuệ nhân tạo Học máy liên quan đến việc xây dựng chương trình máy tính tự động thu thập tri thức, cải thiện khả thơng qua kinh nghiệm, việc nghiên cứu nguyên lý trình học Các kết công nghệ học máy thể qua ứng dụng đa dạng thực tế lĩnh vực như: xử lý ngôn ngữ tự nhiên, thị giác máy tính, tìm kiếm nhận dạng, robotics, khai phá liệu, v.v Thị giác máy tính, lĩnh vực nghiên cứu liên ngành, liên quan đến việc nghiên cứu lĩnh vực khoa học cơng nghệ hệ thống máy móc có khả nhìn hiểu hệ thống thị giác người Đây lĩnh vực quan tâm nghiên cứu rộng rãi vài thập niên gần ứng dụng thực tế đa dạng Một số ứng dụng kể đến là: tự động hóa dây chuyền sản xuất cơng nghiệp, viễn thám, giám sát giao thông, bảo mật sinh trắc học, y học, an ninh, web 3D, giải trí… Vấn đề phát hiện, nhận dạng, phân tách hiểu ngữ nghĩa đối tượng ảnh/video nghiên cứu rộng rãi trong lĩnh vực thị giác máy tính hàng thập kỷ qua Các nghiên cứu nhanh chóng phát triển nhờ tiến số lĩnh vực liên quan như: việc phát triển mơ hình toán học phức tạp, nghiên cứu chuyên sâu nhận thức tri giác (cognitive vision), lực hệ thống tính tốn, giải thuật thơng minh, đòi hỏi kiểm thử liệu lớn Mặc dù có nhiều kết nghiên cứu khả quan phát nhận dạng đối tượng cịn thách thức lĩnh vực thị giác máy đối tượng có tính chất thể khác Ngoài đối tượng lớp đa dạng Điều yêu cầu đặc trưng trích vi Giải thuật rừng ngẫu nhiên giải tốn phân đoạn ảnh theo đối tượng chọn phải có tính phân biệt cao cho đối tượng lớp khác nhau, thuật tốn học phải có khả phân tách hiệu lớp không gian đặc trưng đối tượng Hơn đối tượng có loạt đặc trưng đặc trưng có vai trị khác việc nhận dạng đối tượng Các giải thuật học tiên tiến phải có khả vừa kết hợp nhiều đặc trưng vừa trích rút, đưa mức ưu tiên khác cho đặc trưng, cao kết hợp chúng với yếu tố ngữ cảnh mức đáp ứng phân lọai cách hiệu Bên cạnh đó, nhiều ứng dụng thị giác máy tính yêu cầu thời gian thực Ví dụ: hệ thống camera cảnh báo vật cản giúp lái xe an toàn, robot phải hiểu cử điều khiển đáp ứng lại cử điều khiển Do đó, thuật toán học ứng dụng cho thị giác máy tính phải có thời gian tính tốn Cuối cùng, thuật toán học truyền thống thường yêu cầu xây dựng sở liệu hoàn chỉnh từ ban đầu Việc xây dựng sở liệu cơng việc khó khăn, tốn thời gian, sức người nhiều trường hợp thực Các giải thuật học cho phép xây dựng sở liệu trình hoạt động hệ thống, thích ứng với biến động môi trường biến đổi đối tượng theo thời gian Bài toán phân đoạn ảnh theo đối tượng (object segmentation) toán lĩnh vực thị giác máy tính Hiện tại, nhà nghiên cứu giới đưa nhiều mơ hình cho tốn này, cải tiến để nâng cao hiệu phân đoạn ảnh, kết đưa vài hạn chế : tỷ lệ ảnh gán nhãn chưa cao (xấp xỉ 75%), tập nhãn giới hạn số nhãn có kết tương đối thấp Luận văn tập trung nghiên cứu mơ hình giải thuật rừng ngẫu nhiên giải toán, đồng thời đề xuất giải thuật để cải thiện hiệu tốn Qua đưa đánh giá hướng phát triển toán phân đoạn ảnh theo đối tượng vii Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng MỤC LỤC TÓM TẮT NỘI DUNG LUẬN VĂN TỐT NGHIỆP iii ABSTRACT OF THESIS iv LỜI CẢM ƠN v LỜI MỞ ĐẦU vi MỤC LỤC viii DANH MỤC HÌNH VẼ x DANH MỤC CÁC BẢNG xi DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ xii CHƢƠNG I: CƠ SỞ LÝ THUYẾT I TỔNG QUAN VỀ XỬ LÝ ẢNH .2 Một số khái niệm 1.1 Điểm ảnh - Pixel (Picture Element) .2 1.2 Ảnh số 1.3 Độ phân giải ảnh .4 1.4 Mức xám ảnh Các phép biến đổi ảnh 2.1 Tăng cường ảnh, khôi phục ảnh 2.2 Biến đổi ảnh 2.3 Phân tích ảnh 2.4 Nhận dạng ảnh 2.5 Nén ảnh II TỔNG QUAN VỀ CÂY QUYẾT ĐỊNH Cây định .9 Xây dựng định 10 Thuật toán xây dựng định dựa Entropy 11 3.1 Tiêu chí chọn thuộc tính phân lớp 11 3.2 Thuật toán ID3 12 CHƢƠNG II: GIẢI THUẬT RỪNG NGẪU NHIÊN VÀ 14 ỨNG DỤNG 14 Tổng quan giải thuật rừng ngẫu nhiên .14 1.1 Lịch sử nghiên cứu .14 1.2 Bootstrap Bagging 16 1.3 Sơ đồ giải thuật .17 Một số đặc điểm RF 18 2.1 OOB (Out-of-bag) 18 2.2 Thuộc tính quan trọng 18 Ứng dụng 18 viii Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng 3.1 Giải thuật rừng ngẫu nhiên xiên phân RF-ODT toán nhận dạng dấu vân tay 18 3.2 Giải thuật rừng ngẫu nhiên toán phân loại liệu gen 21 CHƢƠNG III: GIẢI THUẬT RỪNG NGẪU NHIÊN TRONG BÀI TOÁN ĐOẠN ẢNH THEO ĐỐI TƢỢNG 22 I BÀI TOÁN PHÂN ĐOẠN ẢNH THEO ĐỐI TƯỢNG 22 Giới thiệu toán 22 Các ứng dụng toán phân đoạn ảnh theo đối tượng 25 2.1 Tự động phân loại ảnh 25 2.2 Tổng hợp ảnh ngữ nghĩa .26 2.3 Biên tập hình ảnh 27 Các nghiên cứu liên quan 28 II GIẢI THUẬT RỪNG NGẪU NHIÊN TRONG BÀI TOÁN PHÂN ĐOẠN ẢNH THEO ĐỐI TƯỢNG 31 Tổng quan giải thuật 31 Mơ hình trường ngẫu nhiên Markov (Markov random fields) 35 Cải tiến thuật tốn STF sử dụng mơ hình trường ngẫu nhiên Markov 38 CHƢƠNG IV: KẾT QUẢ THỰC NGHIỆM 41 Bộ liệu thử nghiệm 41 1 Bộ liệu MSRC 21-lớp 41 1.2 Bộ liệu Pascal VOC 2007 .42 Độ đo 43 Môi trường thử nghiệm 44 Kết thử nghiệm so sánh 44 4.1 Kết thử nghiệm MSRC 21-class .45 4.2 Kết thử nghiệm liệu Pascal VOC 2007 .48 Tham số thử nghiệm 50 Nhận xét .50 CHƢƠNG V: KẾT LUẬN 52 I ĐÁNH GIÁ 52 Các kết đạt 52 Hạn chế .52 II HƯỚNG PHÁT TRIỂN 52 TÀI LIỆU THAM KHẢO 53 ix Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng DANH MỤC HÌNH VẼ Hình 1: Biểu diễn ảnh số .4 Hình 2: Ví dụ định Hình 3: Phân hoạch đơn thuộc tính (trái), phân hoạch đa thuộc tính (phải) .15 Hình 4: Đặc trưng ảnh vân tay dùng cho nhận dạng 19 Hình 5: Ví dụ phân đoạn ảnh khơng giám sát (sử dụng thuật toán mean-shift [5]) 23 Hình 6: Ví dụ tốn nhận dạng đối tượng 23 Hình 7: Ví dụ tốn phân đoạn ảnh theo đối tượng 24 Hình 8: Phân loại ảnh tự động theo chủ đề dựa vào nhãn ảnh .26 Hình 9: Chương trình tổng hợp thơng tin ngữ nghĩa 27 Hình 10: Chương trình biên tập ảnh 28 Hình 11: Cây nhị phân với hàm phân chia nút  ngưỡng  31 Hình 12: Mơ tả rừng ngẫu nhiên .32 Hình 13: Ví dụ số thành phần ngữ nghĩa vân ảnh (Semantic Textons) 34 Hình 14: Vec tơ xác suất 21 chiều ứng với xác suất thuộc nhãn lớp 34 Hình 15: Mơ biểu diễn đồ thị lưới pixel (y) gán nhãn( x) 36 Hình 16: Mơ thuật tốn TRWS 38 Hình 17: Mơ hình cải tiến STF sử dụng MRF 39 Hình 18: Bộ liệu MSRC 21-class Cột a-d số ảnh liệu Cột e ảnh gán nhãn sẵn ảnh cột d 42 Hình 19: Bộ liệu VOC 2007 Cột ảnh liệu Cột 2,3 ảnh gán nhãn sẵn ảnh cột 43 Hình 20: Hình ảnh kết liệu MSRC, 47 Hình 21: Kết ảnh đầu liệu VOC 2007 .48 x Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng CHƢƠNG IV: KẾT QUẢ THỰC NGHIỆM Bộ liệu thử nghiệm 1 Bộ liệu MSRC 21-lớp Luận văn tập trung vào vấn đề phân đoạn ảnh đối tượng ảnh tĩnh Các ảnh phải tương đối phong phú, có hai đối tượng ảnh, phải có ảnh kết gán nhãn sẵn (grounth-truth) để huấn luyện kiểm tra Cụ thể hơn, thử nghiệm đánh giá hiệu thuật toán luận văn thực liệu Microsoft Research Cambridge - MSRC [10] Bộ liệu tải từ link : http://research.microsoft.com/en-us/projects/objectclassrecognition/ sử dụng báo nghiên cứu nhận dạng ảnh[10][14][17][24] Bộ liệu gồm 591 ảnh có 21 lớp đối tượng: building, grass, tree, cow, sheep, sky, airplane, water, face, car, bicycle, flower, sign, bird, book, chair, road, cat, dog, body, boat Các ảnh có kích thước khoảng 320 x 240 Môi trường ảnh đa dạng gồm đồng cỏ, cối, nhà, đường phố, trời, nước 21 đối tượng chia làm nhóm:  Môi trường: grass, sky, water, road  Động vật: cow, sheep, bird, cat, dog  Thực vật: tree, flower  Đồ vật: building, airplane, car, bicycle, sign, book, chair, boat  Người: face, body Mỗi ảnh kèm với ảnh gán nhãn sẵn (ground-truth) màu ứng với đối tượng (hình 18) Lưu ý ảnh gán nhãn, có chứa pixel gán nhãn “void” (màu đen), pixel không thuộc lớp 41 Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng bỏ qua lúc huấn luyện kiểm tra Do tồn pixel không gán nhãn, nên thông tin đường biên đối tượng tập liệu khơng xác Hình 18: Bộ liệu MSRC 21-class Cột a-d số ảnh liệu Cột e ảnh gán nhãn sẵn ảnh cột d 1.2 Bộ liệu Pascal VOC 2007 Bộ liệu gồm 422 ảnh thu thập từ trang mạng Flickr chia làm 20 lớp đối tượng: aeroplane, bicycle, boat, bottle, bus, car, cat, chair, cow, dining table, dog, horse, motorbike, person, potted plant, sheep, train, TV/monitor Pixel ảnh không thuộc lớp xếp vào lớp background, có màu đen ảnh ground-truth Môi trường ảnh đa dạng gồm nhóm: người, động vật, phương tiện giao thông, nhà, 20 đối tượng chia vào nhóm:  Con người: person 42 Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng  Động vật: bird, cat, cow, dog, horse, sheep  Phương tiện giao thông: aeroplane, bicycle, boat, bus, car, motorbike, train  Đồ vật nhà: bottle, chair, dining table, potted plant, sofa, tv/monitor Mỗi ảnh kèm với ảnh gán nhãn sẵn (ground-truth) màu ứng với đối tượng (hình 19) Lưu ý ảnh gán nhãn, có chứa pixel gán nhãn “void” (màu trắng), pixel không thuộc lớp bỏ qua lúc huấn luyện kiểm tra Hình 19: Bộ liệu VOC 2007 Cột ảnh liệu Cột 2,3 ảnh gán nhãn sẵn ảnh cột Độ đo Như hầu hết thuật toán phân đoạn ảnh khác, luận văn sử dụng phương pháp đánh giá dựa độ xác tổng thể (overall accuracy) Với liệu MSRC , luận văn sử dụng độ đo: tỷ lệ phần trăm số lượng pixel phân loại chia cho tổng số pixel (global): global    i Nii i , j Nij tỉ lệ phần trăm số pixel gán nhãn theo lớp (averege): average  Nii  , i m  j Nij 43 Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng Trong   {1,2, , m}, m  21 pixel nhãn i  số nhãn tập liệu MSRC 21-lớp; gán nhãn N ij số lượng j  Với liệu VOC 2007, luận văn sử dụng độ đo độ xác trung bình theo nhãn [9]: accuracy of classi    {1,2, , m}, m  21 i   Nii j Nij   j N ji j i số nhãn liệu VOC 2007; gán nhãn N ij , số lượng pixel nhãn j  Môi trƣờng thử nghiệm Chương trình thực giải thuật cài đặt ngơn ngữ lập trình C#, chạy mơi trường windows Cấu hình máy tính chạy thử nghiệm: STT Phần cứng Loại CPU Core i7-4770 CPU 3.40GHz (8 CPUs) RAM RAM 32GB DDR III 1333Mhz HDD SEAGATE 500GB OS Windows Ultimate Bảng 1: Cấu hình hệ thống thử nghiệm Kết thử nghiệm so sánh Để đánh giá hiệu thuật toán, kết thu với liệu MSRC so sánh với kết toán sử dụng thuật toán Joint Boosting J Shotton[10], giải thuật STF truyền thống nhóm nghiên cứu [16]; với liệu VOC 2007 so sánh với giải thuật [6] giải thuật STF truyền thống Dưới bảng kết mơ hình nghiên cứu để giải toán phân đoạn ảnh theo 44 Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng đối tượng Trong bảng giá trị tỷ lệ phần trăm pixel gán nhãn tổng số pixel nhãn 4.1 Kết thử nghiệm MSRC 21-class Các quy ước bảng kết :  Tiêu đề hàng, cột : nhãn gán  Giá trị số ô tỷ lệ % số pixel gán nhãn tương ứng 45 cow sheep sky aero plane water face car Bike flower sign bird book chair road cat dog body boat bird book chair road cat dog body boat Global Average tree sign grass building grass tree cow sheep sky aero plane water face car bike flower building Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng 39.1 0.0 3.2 1.9 0.0 0.4 0.6 2.0 0.6 6.7 8.6 0.2 7.7 1.5 93.7 16.6 7.5 4.7 0.2 1.2 0.5 0.0 0.1 0.8 14.2 1.2 6.2 1.7 66.5 0.7 0.0 1.8 0.9 4.5 0.8 2.8 1.9 5.4 7.0 0.4 1.4 0.2 74.4 0.6 0.0 0.0 0.0 0.1 0.0 0.0 8.1 0.0 1.1 0.9 0.3 7.8 90.0 0.0 0.0 0.0 0.1 0.0 0.0 0.0 0.0 7.5 0.0 5.2 0.8 1.1 93.7 5.3 16.3 0.3 0.0 0.0 0.0 0.7 10.0 0.7 3.9 0.8 2.8 0.6 85.8 0.0 0.0 0.0 0.1 0.0 0.0 5.4 0.0 1.3 0.6 0.3 2.7 1.7 57.9 0.0 6.1 0.7 0.0 6.3 3.3 0.0 0.2 0.0 0.0 0.0 0.0 0.1 94.1 0.1 0.1 0.0 0.0 2.6 0.0 0.1 0.0 0.0 0.0 0.0 0.0 0.0 64.1 0.1 0.0 0.3 1.4 0.1 0.1 0.0 0.0 0.0 0.0 0.9 0.0 8.0 72.8 0.0 0.4 0.0 0.0 0.0 0.1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 61.1 1.0 3.2 0.0 0.1 0.0 0.0 0.2 1.5 2.1 0.5 1.9 0.6 0.0 64.3 2.6 0.1 0.6 0.1 0.0 0.0 0.1 0.6 0.0 1.4 0.0 3.7 3.0 0.0 0.0 0.1 3.7 0.0 0.0 0.0 0.0 0.1 0.0 0.0 5.7 3.5 0.2 0.4 0.0 0.0 0.1 0.0 0.0 0.2 0.0 0.2 0.6 0.6 0.1 12.5 0.3 0.2 0.0 0.4 0.1 2.9 6.9 0.0 6.1 13.2 0.1 2.3 0.4 0.0 0.0 0.0 0.0 0.0 0.0 2.2 0.2 1.4 0.5 0.0 0.9 0.3 0.1 0.1 1.2 0.0 0.0 0.1 0.9 0.0 0.0 0.0 0.0 0.1 0.9 0.4 0.7 0.3 0.0 0.0 0.0 0.7 3.2 0.2 0.0 0.9 0.0 1.5 0.0 0.6 0.0 0.0 0.3 0.0 4.2 0.0 0.9 0.1 0.0 1.0 1.8 2.9 4.2 1.9 3.6 3.8 3.9 7.3 73.4 69.6 6.4 0.0 5.3 1.0 0.1 2.2 1.8 0.0 7.7 0.2 12.9 1.3 0.0 1.1 1.3 4.6 2.7 0.0 7.2 0.0 4.9 0.5 1.3 0.0 6.6 0.0 0.0 0.0 0.0 0.1 0.6 0.0 3.2 0.0 0.0 1.5 0.0 0.6 0.3 4.8 4.3 0.0 0.0 0.5 0.0 0.1 0.0 0.0 1.2 0.1 1.0 3.9 0.2 0.5 0.7 14.6 0.0 1.2 1.6 0.5 0.1 9.9 9.8 0.2 5.0 0.2 2.0 1.2 0.0 0.0 1.8 0.6 4.3 0.1 1.6 0.5 0.8 0.0 0.1 0.0 0.4 1.4 0.3 0.0 1.5 0.0 0.4 0.0 3.5 3.6 0.5 0.5 4.0 0.0 2.5 1.9 33.8 0.0 0.4 0.0 0.1 0.7 0.0 0.5 0.0 87.3 0.1 0.0 18.2 0.0 0.6 0.0 0.2 0.0 46.4 0.2 0.0 0.4 0.0 0.0 14.4 0.4 6.5 83.4 4.6 7.4 4.6 1.0 2.2 0.3 3.7 1.5 58.5 4.3 0.1 0.0 1.9 0.5 5.2 0.6 2.6 62.2 0.2 0.2 0.0 1.7 0.4 1.3 0.4 6.1 69.2 0.7 0.5 0.0 0.8 0.0 0.2 0.1 0.6 63.7 Bảng Kết tốt tìm giải thuật RF sau chạy 20 lần liệu MSRC 46 Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng grass tree cow sheep sky aero plane water face car bike Flower sign bird book chair road cat dog body boat Global Average Joint boost [34] STFs Our scheme Our scheme building ` Hình 20: Hình ảnh kết liệu MSRC, so sánh ảnh đầu vào, ảnh ground truth ảnh kết gán nhãn thuật toán 62 98 86 58 50 83 60 53 74 63 75 63 35 19 92 15 86 54 19 62 71 58 37.9 93.0 65.5 75.0 89.8 93.1 85.3 57.5 93.3 61.3 71.1 60.8 63.0 33.9 85.4 46.0 81.9 57.6 62.5 68.4 64.2 72.4 68.9 39.1 93.6 66.0 74.5 89.8 93.6 85.8 57.8 93.9 63.8 72.5 61.1 64.1 33.8 86.8 46.2 83.2 58.0 62.2 69.3 63.4 73.2 69.5 39.1 93.7 66.5 74.4 90.0 93.7 85.8 57.9 94.1 64.1 72.8 61.1 64.3 33.8 87.3 46.4 83.4 58.5 62.2 69.2 63.7 73.4 69.6 Bảng 3: Kết trung bình liệu MSRC thuật toán: Joint boost, STFs thử nghiệm luận văn 47 Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng 4.2 Kết thử nghiệm liệu Pascal VOC 2007 Trong luận văn, sử dụng liệu chạy thử nghiệm với tham số khác để tìm kết tốt Độ đo sử dụng liệu trình bày mục Hình 21: Kết ảnh đầu liệu VOC 2007 48 table dog horse motorbike person plant sheep sofa train tv / monitor Average 8.6 5.2 9.6 6.7 72.9 55.7 19.9 0.4 68 58.1 3.1 1.2 78.3 1.1 42 44 56 44.8 64.4 47.8 59.4 52.6 68.3 53.7 68.0 54.4 70.0 56.0 71.5 cow 0.4 41.4 16.4 16.1 16 34.8 37.9 38.9 chair 0.4 9.5 34.4 5.2 19 54.6 61.3 65.4 cat boat 30.8 44.8 20.7 29 28.1 33.6 34.5 car bird 5.5 29.7 0.6 18.8 26 42.9 45.2 46.0 bus bicycle 77.7 2.6 2.9 22.9 56 68.4 74.2 76.2 bottle aero plane Brookes [6] MPI_ESSOL [6] INRIA_PlusClass [6] TKK [6] CRF+N=2 [2] STFs Our scheme Our scheme background Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng 1.4 37.1 10.5 2.5 23 30.8 41.3 43.7 1.7 11.1 0.4 0.8 43.5 48.0 48.8 10.6 19.4 43.5 23.4 11 46.3 51.5 52.6 0.3 2.2 7.7 69.4 62 38.4 43.2 44.5 5.9 14.9 0.9 44.4 16 48.6 53.4 55.3 6.1 23.8 1.7 42.1 68 54.8 58.8 59.4 28.8 66.8 59.2 46 47.1 52.2 53.8 2.3 25.9 37.2 64.7 16 27.6 34.4 37.3 2.3 8.6 30.2 10 51.6 60.0 62.6 0.3 3.2 5.5 34.6 21 46.8 54.7 56.1 10.6 58.1 19 89.3 52 67.6 72.7 74.4 0.7 55.1 63.2 70.6 40 44.3 52.0 55.5 8.5 27.8 23.5 30.4 32 46.2 52.1 54.0 Bảng 4: Bảng kết (tỉ lệ phần trăm) liệu VOC 2007 49 Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng Tham số thử nghiệm Luận văn tiến hành thử nghiệm giải thuật rừng ngẫu nghiên đề xuất cài đặt lại giải thuật STF truyền thống liệu Số lượng lần thử nghiệm sau: STT Bộ liệu STF Our scheme Our scheme MSRC 21 class 20 20 20 VOC 2007 20 20 20 Bảng Số lượt chạy thử nghiệm giải thuật Trong đó: STF: số lần chạy giải thuật STF liệu Our scheme 1, Our scheme 2: số lần chạy giải thuật đề xuất liệu Giải thuật rừng ngẫu nhiên chạy thử nghiệm với thông số sau: Test Test Test Test Distance 21 21 21 21 Trees 5 5 Maximum depth 15 15 15 15 Features test Threshold test per split, Data per tree Patch size Global (%) 400 500 500 500 5 5 0.5 0.5 0.5 0.5 x8 x8 x4 x2 68.3 70.4 72.4 Bảng Thông số cài đặt giải thuật 73.2 Nhận xét Kết giải thuật đề xuất liệu MSRC 21-lớp thể bảng Giá trị trung bình tổng thể (global) đạt 73.4% Từ bảng ta thấy: lớp đánh nhãn nhiều lớp có nhiều tập huấn luyện cỏ, bầu trời, sách, đường phố Trong đó, lớp có tập liệu huấn luyện thuyền, ghế, chim, chó cho kết thấp Trong bảng kết so sánh giải thuật đề xuất thuật toán Joint Boost [34], STFs [35] Có thể thấy giải thuật đề xuất tăng hiệu gán gãn so với giải thuật truyền thống Đặc biệt việc giảm pixel nhiễu quanh đối tượng bị gán nhãn sai giải thuật STF truyền thống Đối với liệu VOC 2007, luận văn so sánh với kết nhóm nghiên cứu sử dụng phương pháp khác TKK [6] CRF+N=2 [2] Bảng trình bày kết gán nhãn trung bình theo nhãn Chúng ta thấy kết luận văn tốt phương pháp lại cải thiện tốt so với giải thuật STF truyền thống Với nhiều lớp giải thuật đề xuất cho kết gán nhãn tốt như: 50 Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng Máy bay, chim, chai, xe buýt, mèo… Ngoài ra, giải thuật đề xuất thứ cho hiệu nhanh d lần, với dxd kích thước superpixel Hình 21 vài kết ảnh đầu liệu VOC 2007 51 Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng CHƢƠNG V: KẾT LUẬN I ĐÁNH GIÁ Các kết đạt đƣợc Về mặt lý thuyết, luận văn trình bày nội dung sau:  Các khái niệm xử lý ảnh, giải thuật rừng ngẫu nhiên, phát biểu toán phân đoạn ảnh theo đối tượng ứng dụng  Đề xuất giải thuật cải tiến giải thuật rừng ngẫu nhiên nhằm tăng hiệu gán nhãn toán Về mặt thực nghiệm, luận văn thu số kết quả:  Đã cài đặt thành công giải thuật rừng ngẫu nhiên cải tiến đề xuất  So với mơ hình đưa tác giả trước, giải thuật đề xuất cho kết tốt giá trị trung bình tốt liệu thử nghiệm Kết luận văn công bố báo hội nghị SoICT 2014 [33] Hạn chế Như vậy, kết thực nghiệm phù hợp với trình bày lý huyết Tuy vậy, cịn nhiều hạn chế kiến thức, kinh nghiệm thân, thời gian thực hiện, luận văn hạn chế:  Cách cải tiến bước hậu xử lý, chưa phải giải thuật mạnh để tăng hiệu gán nhãn II HƢỚNG PHÁT TRIỂN Trong trình thực đề tài, chúng tơi nhận thấy cịn nhiều vấn đề khác liên quan toán phân đoạn ảnh theo đối tượng cần quan tâm Từ hạn chế gặp phải lúc thực đề tài, đề xuất hướng phát triển đề tài sau:  Nghiên cứu vấn đề phân đoạn ảnh đối tượng với nhiều mơ hình khác  Đề xuất cài đặt thử nghiệm thêm hàm đặc trưng để so sánh kết với mơ hình có giải thuật đề xuất đề tài 52 Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng TÀI LIỆU THAM KHẢO [1] P Felzenszwalb and D Huttenlocher Efficient Belief Propagation for Early Vision Int’l J Computer Vision, 70(1):41-54, 2006 [2] B Fulkerson, A Vedaldi, S Soatto Class segmentation and object localization with superpixel neighborhoods In IEEE 12th International Conference on Computer Vision, pp 670-677, 2009 [3] Leibe and B Schiele Interleaved object categorization and segmentation British Machine Vision Conference, volume II, pages 264–271, 2003 [4] A.C Berg, T.L Berg, and J Malik Shape matching and object recognition using low distortion correspondences IEEE Conference Computer Vision and Pattern Recognition, volume 1, pages 26–33, June 2005 [5] Comaniciu and P Meer, “Mean shift: A robust approach toward feature space analysis.” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 24, no 5, pp 603–619, 2002 [6] M Everingham, L Van Gool, C K I.Williams, J.Winn, and A Zisserman The PASCAL VOC Challenge 2007 http://www.pascalnetwork.org/challenges/VOC/voc2007/workshop/index.ht ml [7] Lowe Object recognition from local scale-invariant features International Conference on Computer Vision, 1999 [8] Borenstein, E Sharon, and S Ullman Combining top-down and bottom-up segmentations IEEE Workshop on Perceptual Organization in Computer Vision, volume 4, page 46-49, 2004 [9] M Everingham, L Van Gool, C K Williams, J Winn, A Zisserman The pascal visual object classes (voc) challenge International journal of computer vision, 88(2), 303-338, 2010 [10] J Shotton, J Winn, C Rother, and A Criminisi TextonBoost: Joint appearance, shape and context modeling for multi-class object recognition and segmentation European Conference on Computer Vision, pp 1–15, 2006 [11] J Winn and J Shotton The layout consistent random field for recognizing and segmenting partially occluded objects Coputer Vision and Pattern Recognition, pages 6–15, 2006 [12] J Winn and N Jojic LOCUS: Learning Object Classes with Unsupervised Segmentation International Conference on Computer Vision, volume 1, pages 756–763, Beijing, China, October 2005 [13] J Winn, A Criminisi, and T Minka Categorization by learned universal visual dictionary International Conference on Computer Vision, volume 2, pages 1800–1807, Beijing, China, October 2005 [14] Shilin Wu, Jiajia Geng, Feng Zhu Theme-Based Multi-Class Object Recognition and Segmentation International Conference on Pattern Recognition Istanbul, Turkey, pages 1-4, August 2010 [15] Jamie Shotton, John Winn, Carsten Rother, and Antonio Criminisi, TextonBoost for Image Understanding: Multi-Class Object Recognition and 53 Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng Segmentation by Jointly Modeling Texture, Layout, and Context, International Journal of Computer Vision, Springer Verlag, pages 2-8, January 2009 [16] J H Kappes, B Andres, F A Hamprecht, C Schnörr, S Nowozin, D Batra, S Kim, B X Kausler, J Lellmann, and N Komodakis A comparative study of modern inference techniques for discrete energy minimization problems In Proc IEEE CVPR, 2013 [17] L’ubor Ladick´ y Chris Russell, Pushmeet Kohli and Philip H.S Torr Associative Hierarchical CRFs for Object Class Image Segmentation International Conference on Computer Vision, 2009 [18] V Kolmogorov Convergent tree-reweighted message passing for energy minimization IEEE PAMI, 28(10):1568–1583, 2006 [19] M Johnson, G Brostow, J Shotton, O Arandjelovic, V Kwatra, and R Cipolla Semantic photo synthesis Computer Graphics Forum, 25(3): 407– 413, September 2006 [20] Pushmeet Kohli Minimizing Dynamic and Higher Order Energy Functions using Graph Cuts Phd Dissertation, November 2007 [21] R Fergus, P Perona, and A Zisserman Objectclass recognition by unsupervised scale-invariant learning IEEE Conference Computer Vision and Pattern Recognition, volume 2, pages 264–271, June 2003 [22] S Gould, J Rodgers, D Cohen, G Elidan, and D Koller Multi-class segmentation with relative location prior International Journal of Computer Vision, pages 5-10, 2008 [23] S Kumar and M Hebert Discriminative random fields: A discriminative framework for contextual interaction in classification International Conference on Computer Vision, volume 2, pages 1150–1157, October 2003 [24] Philipp Krahenbuhl, Vladlen Koltun Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials Neural Information Processing Systems, pages 1-8, 2011 [25] X He, R Zemel, and M Carreira-Perpinan Multiscale CRF for image labeling International Conference on Pattern Recognition, 2004 [26] Z Tu, X Chen, A.L Yuille, and S.C Zhu Image parsing: unifying segmentation, detection, and recognition In Proc International Conference on Computer Vision, voume 1, pages 18–25, Nice, France, October 2003 [27] S Geman and D Geman Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images IEEE PAMI , 6:721-741, 1984 [28] Y Boykov, O Veksler, and R Zabih Fast approximate energy minimization via graph cuts IEEE PAMI, 3(11):1222–1239, 2001 [29] R Szeliski, R Zabih, D Scharstein, O Veksler, V Kolmogorov, A Agarwala, M Tappen, and C Rother A comparative study of energy minimization methods for Markov random fields with smoothness-based priors IEEE PAMI, 30(6):1068–1080, 2008 [30] M J Wainwright, T.S Jaakkola, and A.S Willsky MAP estimation via agreement on (hyper)trees: Message-passing and linear-programming approaches IEEE Transactions on Information Theory, 51(11):3697-3717, November 2005 54 Giải thuật rừng ngẫu nhiên giải toán phân đoạn ảnh theo đối tượng [31] Y Amit and D Geman Shape quantization and recognition with randomized trees Neural Computation (9):1545-1588, 1996 [32] L Breiman, J Friedman, R Olshen and C Stone Classification and Regression Trees.Wadsworth International, 1984 [33] Dinh Viet Sang, Mai Dinh Loi, Nguyen Tien Quang, Huynh Thi Thanh Binh, Nguyen Thi Thuy A Combining Method for Semantic Image Segmentation SoICT 2014, December 04-05, 2014 [34] J Shotton, J Winn, C Rother, and A Criminisi TextonBoost: Joint appearance, shape and context modeling for multi-class object recognition and segmentation European Conference on Computer Vision, pp 1–15, 2006 [35] J Shotton, M Johnson and R Cipolla Semantic texton forests for image categorization and segmentation In Proc IEEE CVPR, 2008 55 ... GIẢI THUẬT RỪNG NGẪU NHIÊN TRONG BÀI TOÁN ĐOẠN ẢNH THEO ĐỐI TƢỢNG 22 I BÀI TOÁN PHÂN ĐOẠN ẢNH THEO ĐỐI TƯỢNG 22 Giới thiệu toán 22 Các ứng dụng toán phân đoạn ảnh theo đối tượng. .. III: GIẢI THUẬT RỪNG NGẪU NHIÊN TRONG BÀI TOÁN ĐOẠN ẢNH THEO ĐỐI TƢỢNG I BÀI TOÁN PHÂN ĐOẠN ẢNH THEO ĐỐI TƢỢNG Giới thiệu toán Bài toán phân đoạn ảnh (image segmentation) nhận dạng đối tượng. .. thuộc đối tượng II GIẢI THUẬT RỪNG NGẪU NHIÊN TRONG BÀI TOÁN PHÂN ĐOẠN ẢNH THEO ĐỐI TƢỢNG Tổng quan giải thuật Giải thuật rừng ngẫu nhiên tiếp cận toán phân đoạn ảnh dựa ngữ nghĩa đặc trưng vân ảnh

Ngày đăng: 26/07/2017, 20:59

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w