Thế năng vị trí: - Kết hợp đa đặc trưng trong mô h- 123docz.net

Thế năng vị trí (location potential) mô hình hoá mối quan hệ giữa nhãn lớp và vị trị

tƣơng đối của pixel trong ảnh. Thế năng vị trí có dạng một bảng tra dựa vào giá trị lớp và vị trí pixel:

(3.23)

Trong đó, là vị trí chuẩn hoá của vị trí pixel i, việc chuẩn hoá này cho phép xử lý các ảnh với các kích thƣớc khác nhau. Và

(3.24)

Trong đó, là số lƣợng pixel thuộc lớp c tại vị trí i trong tập huấn luyện. là tổng số pixel tại vị trí i. và đƣợc chọn nhƣ sau: ,

Hình 3-9. Minh họa về thế năng vị trí. Màu trắng biểu hiện tần số xuất hiện cao. Hình trên cho biết một số thông tin nhƣ cây và bầu trời thƣờng nằm phía trên ảnh, đƣờng

Có ba thuật toán tiêu biểu nhằm giải quyết vấn đề này. Đó là thuật toán dựa trên đồ thị (graph-based) [23] , thuật toán mean-shift [5] và thuật toán superpixel [21]. Hình 4-9 so sánh kết quả ba thuật toán trên.

Hình 3-10. So sánh kết quả của ba thuật toán phân đoạn ảnh. (b) thuật toán dựa trên đồ thị [23] , (c) thuật toán superpixel [21] (d) thuật toán mean-shift [5]

Thuật toán phân đoạn ảnh dựa trên đồ thị sẽ xây dựng đồ thị với các đỉnh là các pixel, các cạnh là các pixel láng giềng với trọng số là khoảng cách Euclid giữa hai vector màu của hai pixel láng giềng. Thuật toán này rất nhanh do chỉ có một vòng lặp, tuy nhiên kết quả phân đoạn không đƣợc tốt với các phân đoạn ảnh có hình dạng rất khác nhau.

Thuật toán superpixel cũng xây dựng một đồ thị với các đỉnh là các pixel tuy nhiên trọng số của các cạnh đƣợc tính dựa vào sự giống nhau (trọng số càng cao tƣơng ứng với hai pixel cùng giống nhau). Sau đó tiến hành phân đoạn ảnh bằng việc giải bài toán k-cut trên đồ thị này. Thuật toán này cho ra kết quả tƣơng đối tốt, nhƣng đòi hỏi thời gian tính toán và bộ nhớ rất cao. Khác với hai thuật toán còn lại các phân đoạn ảnh kết quả của thuật toán này có kích thƣớc gần giống nhau.

Thuật toán mean-shift xem các pixel trong ảnh nhƣ một vector đặc trƣng 5 chiều (gồm 3 chiều màu, và 2 chiều vị trí x, y) . Tham số của thuật toán mean-shift gồm độ rộng băng thông màu và không gian . Thuật toán bắt đầu tại mỗi pixel, sau đó di chuyển trung tâm của pixel dựa theo láng giềng của nó (đƣợc xác định thông qua băng thông màu và không gian). Thuật toán lặp cho đến khi pixel đạt đến điểm dừng. Các phân đoạn đạt đƣợc bằng các nhóm các pixel hội tụ trong cùng điểm dừng.

Do thuật toán graph-based có kết quả phân đoạn không đƣợc tốt, nên luận văn chỉ sử dụng 2 thuật toán còn lại (superpixel và mean-shift). Cả hai thuật toán này đều cho ra kết quả phân đoạn ảnh không giám sát rất tốt, với việc các đƣờng biên đƣợc phân định rất rõ ràng. Tuy nhiên, hai thuật toán này có sự khác biệt căn bản về kích thƣớc của các phân đoạn ảnh. Trong khi thuật toán superpixel cho ra các phân đoạn ảnh có kích thƣớc và hình dạng gần giống nhau, thì kết quả của thuật toán mean- shift là các phân đoạn ảnh các kích thƣớc và hình dạng rất khác nhau.

3.4.2. Thế năng mức cao:

Thế năng mức cao sẽ khuyến khích các pixel nằm trong cùng phân đoạn ảnh có nhãn giống nhau. Do đó thế năng này sẽ có giá trị nhỏ khi các pixel nằm trong cùng phân đoạn ảnh có nhãn giống nhau và giá trị lớn nếu chúng khác nhau. Cụ thể, thế năng mức cao đƣợc tính nhƣ sau:

ế

ượ ạ (3.26) Trong đó ,

Tuy nhiên điều kiện trong công thức 4.26 khá ngặt nghèo, đòi hỏi tất cả các pixel trong cùng phân đoạn phải có nhãn giống nhau. Do đó, nó không giải quyết đƣợc trong trƣờng hợp các phân đoạn ảnh không chính xác hay hai phân đoạn xung đột nhau. Để giải quyết vấn đề này, có thể sử dụng thế năng mức cao bền vững (robust higher oder potential)

ế

ượ ạ

(3.27)

Trong đó, thể hiện số lƣợng pixel có nhãn khác với nhãn chủ đạo của phân đoạn ảnh c (nhãn chủ đạo là nhãn có số lƣợng pixel mang nhãn này nhiều nhất trong một phân đoạn ảnh). Công thức trên chấp nhận một số lƣợng nhất định các pixel mang nhãn khác nhau.

Sự khác biệt giữa hai công thức trên thể hiện qua hình dƣới đây:

Hình 3-11. Minh hoạ hai cách tính thế năng mức cao. Hình (a) ứng với công thức 4.26. Hình (b) ứng với công thức 4.27.

Chƣơng 4: Kết quả thực nghiệm

4.1. Bộ dữ liệu

Luận văn sẽ tập trung vào vấn đề phân đoạn ảnh đối tƣợng trên ảnh tĩnh. Các ảnh này phải tƣơng đối phong phú, có hơn hai đối tƣợng trong một ảnh, và phải có ảnh kết quả đã gán nhãn sẵn (grounth-truth) để huấn luyện và kiểm tra. Cụ thể hơn, các thử nghiệm đánh giá hiệu năng thuật toán trong luận văn này sẽ đƣợc thực hiện trên bộ dữ liệu Microsoft Research Cambridge - MSRC [10].

Bộ dữ liệu này gồm 591 ảnh trong đó có 21 lớp đối tƣợng: building, grass, tree, cow, sheep, sky, airplane, water, face, car, bicycle, ﬂower, sign, bird, book, chair, road, cat, dog, body, boat. Các ảnh có kích thƣớc khoảng 320 x 240. Môi trƣờng

trong các bức ảnh cũng rất đa dạng gồm đồng cỏ, cây cối, trong nhà, đƣờng phố, trên trời, dƣới nƣớc. 21 đối tƣợng này có thể đƣợc chia làm 5 nhóm:

 Môi trƣờng: grass, sky, water, road.

 Động vật: cow, sheep, bird, cat, dog.

 Thực vật: tree, flower

 Đồ vật: building, airplane, car, bicycle, sign, book, chair, boat.

 Ngƣời: face, body.

Mỗi ảnh sẽ đi kèm với một ảnh đã gán nhãn sẵn (ground-truth) trong đó mỗi màu sẽ ứng với một đối tƣợng (xem hình 1-3). Lƣu ý trong các ảnh đã gán nhãn, có chứa những pixel đƣợc gán nhãn “void” (màu đen), các pixel này không thuộc về bất kỳ lớp nào và sẽ đƣợc bỏ qua trong lúc huấn luyện cũng nhƣ kiểm tra. Do sự tồn tại của những pixel không đƣợc gán nhãn, nên thông tin về đƣờng biên giữa các đối tƣợng trong tập dữ liệu này không chính xác.

4.2. Độ đo

Nhƣ trong hầu hết các thuật toán phân đoạn ảnh khác, luận văn sử dụng phƣơng pháp đánh giá độ chính xác dựa trên tỷ lệ phần trăm số lƣợng pixel đƣợc phân loại đúng chia cho tổng số pixel.

ổ ố ượ

ổ ố (4.1)

Lƣu ý: các pixel đƣợc gán nhãn “void” (màu đen) sẽ không đƣợc tính.

Hình 4-1. Bộ dữ liệu MSRC. Cột a-d là một số ảnh trong bộ dữ liệu. Cột e là ảnh đã gán nhãn sẵn của các ảnh trong cột d.

4.3. Bố trí thí nghiệm

Các thí nghiệm trong luận văn này đƣợc tiến hành trên máy tính với cấu hình Core 2 Duo 2.4 GHz, 2Gb RAM. Tập dữ liệu đƣợc chia ra làm ba phần: 45% cho huấn luyện, 10% cho thực nghiệm chọn tham số, và 45% cho kiểm tra. Các thí nghiệm

đƣợc tiến hành trên môi trƣờng Windows 7 và sử dụng ngôn ngữ lập trình C++ và C#.

4.4. Kết quả

4.4.1. Thí nghiệm với các kích thƣớc từ điển khác nhau

Trong thí nghiệm này, luận văn sẽ thử nghiệm hiệu năng của đặc trƣng vân-bố cục với các kích thƣớc từ điển texton khác nhau. Hiệu năng đƣợc tính chung cho tất cả các lớp. Các tham số đƣợc chọn nhƣ sau: 150 đặc trƣng với kích thƣớc mỗi vùng tối đa là 200 x 200.

Kết quả thử nghiệm cho thấy, khi số lƣợng texton trong từ điển là 400 sẽ cho kết qua tối ƣu. Nhỏ hơn kích thƣớc này, từ điển texton không đủ để mô tả sự đa dạng về màu sắc, vân của các ảnh. Ngƣợc lại, nếu số lƣợng texton quá lớn sẽ gây nên tình trạng quá khớp, khiến cho hiệu năng giảm xuống.

Chi phí thời gian để huấn luyện với 5000 vòng boosting khoảng 40 giờ. Thời gian để kiểm tra một ảnh khoảng 6 phút.

Hình 4-2. Kết quả thí nghiệm hiệu năng của đặc trƣng vân – bố cục với các kích thƣớc từ điển texton khác nhau.

4.4.2. Thí nghiệm với các mức độ kết hợp đặc trƣng trong mô hình CRF đôi đôi

Trong thí nghiệm này, luận văn sẽ thử nghiệm hiệu năng phân đoạn ảnh giữa 4 mô hình sau:

 Chỉ sử dụng đặc trƣng vân – bố cục

 Thế năng đơn phân (gồm đặc trƣng vân - bố cục, đặc trƣng màu sắc và đặc trƣng vị trí)

 Mô hình CRFs đôi ( gồm thế năng đơn phân và thế năng liên kết).

 Thuật toán của Shotton [10], đƣợc dùng làm thuật toán baseline để so sánh kết quả

Bảng 4-1 cho thấy hiệu năng chung của 4 mô hình. Hiệu năng chung này đƣợc tính trên tất cả các lớp. Qua bảng này có thể nhận xét rằng, tuy đặc trƣng vân - bố cục còn kém kết quả trong [10] (~ 1%), nhƣng khi áp dụng thêm các đặc trƣng khác nhƣ màu sắc, vị trí tƣơng đối, thế năng liên kết, kết quả đã tốt lên trông thấy (xem hình 4-3).

Bảng 4-1. Hiệu năng chung của việc kết hợp các loại đặc trƣng khác nhau trong trong mô hình CRFs đôi

Shotton ([10]) Thế vân-bố cục Thế năng đơn phân CRF đôi

69.6 % 68.5 % 70.8 % 71.1 %

Bảng 4-2 cho thấy hiệu năng cụ thể hơn của từng lớp đối tƣợng trong 3 mô hình (gồm 21 lớp). Có thể thấy rằng, ở hầu hết các lớp mô hình CRFs đôi cho kết quả tốt nhất.

Bảng 4-2. Hiệu năng cụ thể của từng lớp với các loại đặc trƣng khác nhau trong mô hình CRFs đôi. b u il d - in g gr ass tree cow sh ee p sk y ae ro - p lan e wat er fac e car b ik e Vân-bố cục 47.0 94.1 70.3 74.8 58.2 64.7 58.5 49.2 53.5 70.5 84.6 Đơn phân 48.8 96.5 71.2 75.5 61.9 67.2 60.9 53.5 54.3 74.5 88.3 CRF 49.2 96.7 71.2 75.8 62.3 67.5 61.4 54.1 55.0 74.8 88.6 flow er sign b ird book ch air road cat d og bod y b oat Vân-bố cục 72.0 63.1 18.4 90.1 55.8 66.3 71.8 31.5 47.2 27.1 Đơn phân 71.3 65.3 16.9 91.7 55.0 71.5 73.8 35.2 49.6 23.7 CRF 71.4 65.5 16.2 92.1 55.0 71.8 74.0 35.8 50.1 23.4

Hình 4-3 thể hiện một số hình ảnh kết quả với 3 mô hình trên. Qua đó có thể nhận thấy rằng việc thêm thông tin về cạnh, màu sắc, vị trí (mô hình CRF đôi), giúp loại bỏ những pixel cô lập bị phân loại sai, do đó tăng hiệu năng của thuật toán.

Hình 4-3. Một số kết quả trên tập dữ liệu MSRC. Các cột lần lƣợt từ trái qua phải: ảnh đầu vào, ảnh kết quả dùng đặc trƣng vân-bố cục, kết quả dùng thế năng đơn

phân, ảnh kết quả dùng mô hình CRF đôi, ảnh groundtruth.

Lớp Mô hình

4.4.3. Thí nghiệm kết hợp với kết quả phân đoạn ảnh không giám sát trong mô hình CRFs mức cao

Trong thí nghiệm này, mô hình CRFs đôi sẽ đƣợc kết hợp với thông tin về các phân đoạn ảnh có đƣợc từ bƣớc tiền phân đoạn ảnh để tạo mô hình CRFs mức cao (xem phần 3.4). Thí nghiệm sẽ so sánh kết quả của việc dùng mô hình CRFs đôi, mô hình CRFs mức cao (dùng superpixel), và mô hình CRFs mức cao (dùng meanshift). Hai thuật toán phân đoạn ảnh superpixel và meanshift đƣợc sử dụng vì hiệu năng phân đoạn ảnh tốt nhƣ đƣợc mình hoạ trong hình 4-5.

Bảng 4-3. So sánh hiệu năng của mô hình CRFs đôi với hai mô hình CRFs mức cao sử dụng superpixel và meanshift CRF CRF mức cao (superpixel) CRF mức cao (mean-shift) CRF [10] 71.1 % 71.0 % 72.2 % 72.2%

Hính 4-4. Minh hoạ một số kết quả thực tế

Hình 4-4. Một số kết quả trên tập dữ liệu MSRC. Các cột lần lƣợt từ trái qua phải: ảnh đầu vào, ảnh kết quả dùng mô hình CRFs đôi, kết quả mô hình CRFs mức cao

với tiền phân đoạn ảnh dùng thuật toán superpixel, kết quả dùng mô hình CRF mức cao với tiền phân đoạn ảnh dùng thuật toán mean-shift, ảnh groundtruth.

Nhận xét: Việc sử dụng mô hình CRFs mức cao với tiền phân đoạn ảnh sử dụng thuật toán superpixel ảnh hƣởng không đáng kể đến hiệu năng. Tuy nhiên, với việc sử dụng thuật toán tiền phân đoạn ảnh là mean-shift, không những hiệu năng đƣợc cải thiện rõ rệt, mà kết quả trực quan cũng tốt hơn thấy rõ với việc đƣờng biên giữa các đối tƣợng đƣợc phân tách rõ ràng, chính xác hơn. Hình 4-5 sẽ giải thích vì sao có sự khác biệt này.

Hình 4-5. Minh họa kết quả phân đoạn ảnh khi áp dụng hai thuật toán superpixel và meanshift lên ảnh đầu vào và ảnh kết quả của mô hình CRFs mức cao. Lần lƣợt từ trái qua phải: ảnh đầu vào, kết quả phân đoạn ảnh đầu vào dùng superpixel, kết quả phân đoạn ảnh kết quả dùng superpixel, kết quả phân đoạn ảnh đầu vào dùng mean-

shift, kết quả phân đoạn ảnh kết quả dùng mean-shift.

Giải thích: trƣớc hết có thể thấy kết quả phân đoạn ảnh đầu vào của hai thuật toán superpixel và mean-shift đều khá tốt với đƣờng biên giữa các thành phần trong ảnh đƣợc thể hiện rất rõ ràng và chính xác. Tuy nhiên, hai thuật toán này lại đi theo hai trƣờng phái khác nhau. Trong khi thuật toán superpixel cho ra các phân đoạn có kích thƣớc và hình dáng tƣơng tự nhau, thì thuật toán mean-shift lại cho ra các phân

đoạn ảnh rất khác biệt cả về hình dáng và kích thƣớc. Chính điều này đã ảnh hƣởng đến kết quả phân đoạn ảnh trong mô hình CRFs mức cao.

Thông qua hai ảnh kết quả của việc áp dụng thuật toán mean-shift và superpixel lên kết quả của mô hình CRF mức cao, có thể thấy rõ ràng rằng trong cả hai mô hình, kết quả phân đoạn ảnh của mô hình CRFs mức cao phù hợp với kết quả tiền phân đoạn ảnh. Tuy nhiên, do các phân đoạn ảnh của thuật toán superpixel khá nhỏ nên khi có một số lƣợng tƣơng đối lớn pixel bị gãn nhãn sai trong phân đoạn ảnh nhỏ này, sẽ dẫn đến việc gán nhãn sai cho toàn bộ phân đoạn ảnh. Trong khi đó thuật toán mean-shift cho ra một số phân đoạn ảnh có kích thƣớc lớn với biên rất chính xác (chẳng hạn nhƣ vùng bầu trời hay đồng cỏ), do đó dù cho trong phân đoạn ảnh này có một số pixel bị sai, nhƣng khi số pixel đƣợc gán nhãn đúng đủ lớn, thuật toán vẫn có thể sửa những pixel bị sai này.

Nhƣ vậy, với việc sử dụng thêm kết quả tiền phân đoạn ảnh dùng thuật toán mean- shift, hiệu năng của mô hình đã gia tăng đáng kể so với ban đầu cả về con số thống kê lẫn trực quan quan sát và bằng với kết quả state-of-the-art đƣợc trình bày trong [10], qua đó chứng minh đƣợc ƣu điểm của việc kết hợp thế năng mức cao (sử dụng thông tin từ các thuật toán phân đoạn ảnh không giám sát) vào mô hình CRFs truyền thống.

Hình 4-6. Confusion matrix thể hiện kết quả của mô hình CRFs mức cao (mean-shift)

Qua hình 4-6 có thể thấy rằng đối tƣợng “bird” có kết quả phân đoạn ảnh rất kém. Điều này là do đối tƣợng này quá phong phú về màu sắc, hình dạng (vịt, công, én) và ngoại cảnh (trên mặt hồ, ở bờ hồ, trên cỏ, trên đƣờng, trên trời) nhƣ có thể thấy trong hình 4-7.

Chƣơng 5: Kết luận và hƣớng phát triển

5.1. Kết luận

Cùng với sự phát triển của phần cứng máy tính và các thuật toán ngày càng mạnh mẽ, ngành thị giác máy đang tập trung mạnh vào một trong những mục tiêu quan trọng nhất của ngành: hiểu thông tin ngữ nghĩa của các đối tƣợng thị giác (ảnh, phim) nhƣ cách con ngƣời hiểu. Bài toán “phân đoạn ảnh theo đối tƣợng” là một phần của xu hƣớng này, ra đời trên cơ sở hợp nhất của hai bài toán kinh điển phân đoạn ảnh và nhận dạng đối tƣợng, đang nhận đƣợc rất nhiều quan tâm của cộng đồng nghiên cứu.

Đa số các thuật toán giải quyết vấn đề này đều sử dụng phƣơng pháp cực tiểu hoá năng lƣợng trên hàm năng lƣợng đƣợc rút ra từ mô hình CRF. Các công trình này khác nhau ở việc lựa chọn đặc trƣng và mô hình CRF khác nhau. Luận văn đã khảo sát qua một số đặc trƣng tiêu biểu và trình bày một số cơ sở lý thuyết về mô hình