Thí nghiệm với các mức độ kết hợp đặc trƣng trong mô hình CRF đô

Một phần của tài liệu Kết hợp đa đặc trưng trong mô hình crfs cho bài toán phân đoạn ảnh theo đối tượng (Trang 54 - 60)

đôi

Trong thí nghiệm này, luận văn sẽ thử nghiệm hiệu năng phân đoạn ảnh giữa 4 mô hình sau:

 Chỉ sử dụng đặc trƣng vân – bố cục

 Thế năng đơn phân (gồm đặc trƣng vân - bố cục, đặc trƣng màu sắc và đặc trƣng vị trí)

 Mô hình CRFs đôi ( gồm thế năng đơn phân và thế năng liên kết).

 Thuật toán của Shotton [10], đƣợc dùng làm thuật toán baseline để so sánh kết quả

Bảng 4-1 cho thấy hiệu năng chung của 4 mô hình. Hiệu năng chung này đƣợc tính trên tất cả các lớp. Qua bảng này có thể nhận xét rằng, tuy đặc trƣng vân - bố cục còn kém kết quả trong [10] (~ 1%), nhƣng khi áp dụng thêm các đặc trƣng khác nhƣ màu sắc, vị trí tƣơng đối, thế năng liên kết, kết quả đã tốt lên trông thấy (xem hình 4-3).

Bảng 4-1. Hiệu năng chung của việc kết hợp các loại đặc trƣng khác nhau trong trong mô hình CRFs đôi

Shotton ([10]) Thế vân-bố cục Thế năng đơn phân CRF đôi

69.6 % 68.5 % 70.8 % 71.1 %

Bảng 4-2 cho thấy hiệu năng cụ thể hơn của từng lớp đối tƣợng trong 3 mô hình (gồm 21 lớp). Có thể thấy rằng, ở hầu hết các lớp mô hình CRFs đôi cho kết quả tốt nhất.

47

Bảng 4-2. Hiệu năng cụ thể của từng lớp với các loại đặc trƣng khác nhau trong mô hình CRFs đôi. b u il d - in g gr ass tree cow sh ee p sk y ae ro - p lan e wat er fac e car b ik e Vân-bố cục 47.0 94.1 70.3 74.8 58.2 64.7 58.5 49.2 53.5 70.5 84.6 Đơn phân 48.8 96.5 71.2 75.5 61.9 67.2 60.9 53.5 54.3 74.5 88.3 CRF 49.2 96.7 71.2 75.8 62.3 67.5 61.4 54.1 55.0 74.8 88.6 flow er sign b ird book ch air road cat d og bod y b oat Vân-bố cục 72.0 63.1 18.4 90.1 55.8 66.3 71.8 31.5 47.2 27.1 Đơn phân 71.3 65.3 16.9 91.7 55.0 71.5 73.8 35.2 49.6 23.7 CRF 71.4 65.5 16.2 92.1 55.0 71.8 74.0 35.8 50.1 23.4

Hình 4-3 thể hiện một số hình ảnh kết quả với 3 mô hình trên. Qua đó có thể nhận thấy rằng việc thêm thông tin về cạnh, màu sắc, vị trí (mô hình CRF đôi), giúp loại bỏ những pixel cô lập bị phân loại sai, do đó tăng hiệu năng của thuật toán.

Hình 4-3. Một số kết quả trên tập dữ liệu MSRC. Các cột lần lƣợt từ trái qua phải: ảnh đầu vào, ảnh kết quả dùng đặc trƣng vân-bố cục, kết quả dùng thế năng đơn

phân, ảnh kết quả dùng mô hình CRF đôi, ảnh groundtruth.

Lớp Mô hình

48

4.4.3. Thí nghiệm kết hợp với kết quả phân đoạn ảnh không giám sát trong mô hình CRFs mức cao

Trong thí nghiệm này, mô hình CRFs đôi sẽ đƣợc kết hợp với thông tin về các phân đoạn ảnh có đƣợc từ bƣớc tiền phân đoạn ảnh để tạo mô hình CRFs mức cao (xem phần 3.4). Thí nghiệm sẽ so sánh kết quả của việc dùng mô hình CRFs đôi, mô hình CRFs mức cao (dùng superpixel), và mô hình CRFs mức cao (dùng meanshift). Hai thuật toán phân đoạn ảnh superpixel và meanshift đƣợc sử dụng vì hiệu năng phân đoạn ảnh tốt nhƣ đƣợc mình hoạ trong hình 4-5.

Bảng 4-3. So sánh hiệu năng của mô hình CRFs đôi với hai mô hình CRFs mức cao sử dụng superpixel và meanshift CRF CRF mức cao (superpixel) CRF mức cao (mean-shift) CRF [10] 71.1 % 71.0 % 72.2 % 72.2%

Hính 4-4. Minh hoạ một số kết quả thực tế

Hình 4-4. Một số kết quả trên tập dữ liệu MSRC. Các cột lần lƣợt từ trái qua phải: ảnh đầu vào, ảnh kết quả dùng mô hình CRFs đôi, kết quả mô hình CRFs mức cao

49

với tiền phân đoạn ảnh dùng thuật toán superpixel, kết quả dùng mô hình CRF mức cao với tiền phân đoạn ảnh dùng thuật toán mean-shift, ảnh groundtruth.

Nhận xét: Việc sử dụng mô hình CRFs mức cao với tiền phân đoạn ảnh sử dụng thuật toán superpixel ảnh hƣởng không đáng kể đến hiệu năng. Tuy nhiên, với việc sử dụng thuật toán tiền phân đoạn ảnh là mean-shift, không những hiệu năng đƣợc cải thiện rõ rệt, mà kết quả trực quan cũng tốt hơn thấy rõ với việc đƣờng biên giữa các đối tƣợng đƣợc phân tách rõ ràng, chính xác hơn. Hình 4-5 sẽ giải thích vì sao có sự khác biệt này.

Hình 4-5. Minh họa kết quả phân đoạn ảnh khi áp dụng hai thuật toán superpixel và meanshift lên ảnh đầu vào và ảnh kết quả của mô hình CRFs mức cao. Lần lƣợt từ trái qua phải: ảnh đầu vào, kết quả phân đoạn ảnh đầu vào dùng superpixel, kết quả phân đoạn ảnh kết quả dùng superpixel, kết quả phân đoạn ảnh đầu vào dùng mean-

shift, kết quả phân đoạn ảnh kết quả dùng mean-shift.

Giải thích: trƣớc hết có thể thấy kết quả phân đoạn ảnh đầu vào của hai thuật toán superpixel và mean-shift đều khá tốt với đƣờng biên giữa các thành phần trong ảnh đƣợc thể hiện rất rõ ràng và chính xác. Tuy nhiên, hai thuật toán này lại đi theo hai trƣờng phái khác nhau. Trong khi thuật toán superpixel cho ra các phân đoạn có kích thƣớc và hình dáng tƣơng tự nhau, thì thuật toán mean-shift lại cho ra các phân

50

đoạn ảnh rất khác biệt cả về hình dáng và kích thƣớc. Chính điều này đã ảnh hƣởng đến kết quả phân đoạn ảnh trong mô hình CRFs mức cao. (adsbygoogle = window.adsbygoogle || []).push({});

Thông qua hai ảnh kết quả của việc áp dụng thuật toán mean-shift và superpixel lên kết quả của mô hình CRF mức cao, có thể thấy rõ ràng rằng trong cả hai mô hình, kết quả phân đoạn ảnh của mô hình CRFs mức cao phù hợp với kết quả tiền phân đoạn ảnh. Tuy nhiên, do các phân đoạn ảnh của thuật toán superpixel khá nhỏ nên khi có một số lƣợng tƣơng đối lớn pixel bị gãn nhãn sai trong phân đoạn ảnh nhỏ này, sẽ dẫn đến việc gán nhãn sai cho toàn bộ phân đoạn ảnh. Trong khi đó thuật toán mean-shift cho ra một số phân đoạn ảnh có kích thƣớc lớn với biên rất chính xác (chẳng hạn nhƣ vùng bầu trời hay đồng cỏ), do đó dù cho trong phân đoạn ảnh này có một số pixel bị sai, nhƣng khi số pixel đƣợc gán nhãn đúng đủ lớn, thuật toán vẫn có thể sửa những pixel bị sai này.

Nhƣ vậy, với việc sử dụng thêm kết quả tiền phân đoạn ảnh dùng thuật toán mean- shift, hiệu năng của mô hình đã gia tăng đáng kể so với ban đầu cả về con số thống kê lẫn trực quan quan sát và bằng với kết quả state-of-the-art đƣợc trình bày trong [10], qua đó chứng minh đƣợc ƣu điểm của việc kết hợp thế năng mức cao (sử dụng thông tin từ các thuật toán phân đoạn ảnh không giám sát) vào mô hình CRFs truyền thống.

51

Hình 4-6. Confusion matrix thể hiện kết quả của mô hình CRFs mức cao (mean-shift)

Qua hình 4-6 có thể thấy rằng đối tƣợng “bird” có kết quả phân đoạn ảnh rất kém. Điều này là do đối tƣợng này quá phong phú về màu sắc, hình dạng (vịt, công, én) và ngoại cảnh (trên mặt hồ, ở bờ hồ, trên cỏ, trên đƣờng, trên trời) nhƣ có thể thấy trong hình 4-7.

52

Chƣơng 5: Kết luận và hƣớng phát triển

Một phần của tài liệu Kết hợp đa đặc trưng trong mô hình crfs cho bài toán phân đoạn ảnh theo đối tượng (Trang 54 - 60)