Tính toán đặc trƣng mức ảnh

3. Cấu trúc luận văn

2.4.3 Tính toán đặc trƣng mức ảnh

Khi đặc trƣng mức patch đã đƣợc tính cho mỗi patch, công việc còn lại là tính toán véctơ đặc trƣng cho toàn bộ ảnh. Theo Bo & Sminchisescu (2009)

[4], ta sử dụng một cấu trúc Pyramid bằng cách chia ảnh thành các ô bao gồm các dòng và các cột ở một số layer (hình 2.6).

Để tính toán đặc trƣng của toàn bộ ảnh, đầu tiên chúng ta tính toán véctơ đặc trƣng cho mỗi ô của cấu trúc pyramid sau đó ghép chúng lại để thu đƣợc véctơ đặc trƣng cuối cùng của toàn bộ ảnh.

Để tính toán véctơ đặc trƣng cho mỗi ô, chúng ta sử dụng một phƣơng pháp sinh véctơ dặc trƣng từ tập véctơ đặc trƣng mức patch của một vùng. Phƣơng pháp này là một biến thể của phƣơng pháp BoW (Bag Of Word) sử dụng các match kernel để đo độ tƣơng tác giữa hai đặc trƣng cục bộ. Một phƣơng pháp cụ thể đƣợc trình bày chi tiết trong Bo&Sminchisescu(2009) [4]

Hình 2.6: Cấu trúc pyramid

sử dụng EMK (Efficient Match Kernels).

Gọi C là một ô chứa một tập các patch. Tập các patch này có một tập các véctơ đắch trƣng mức patch tƣơng ứng:

X= {x1,….,xp} (2.29) trong đó P là số patch của ô C.

Trong BoW, mỗi véctơ đặc trƣng mức patch của ảnh đƣợc coi nhƣ một từ (word). Giả sử V={v1,…,vD} là từ điển ( một tập các từ). một véctơ đặc trƣng mức patch đƣợc lƣợng tử hóa thành một véctơ chỉ báo nhị phân D

chiều:

(2.30) trong đó ( ) đƣợc các định nhƣ sau:

(2.31)

trong đó . Véctơ đặc trƣng

của một ảnh đƣợc định nghĩa là một hitogram đã đƣợc chuẩn hóa:

(2.32)

trong đó |X| là lực lƣợng của tập X . Khi Bow cƣợc sử dụng cùng với một bộ phân lớp tuyến tính, hàm match kernel là:

(2.33)

Ta ký hiệu độ tƣơng tự giữa hai véctơ đặc trƣng mức patch là x và y (xem định nghĩa của ( ) trong công thức 2.30 và công thức 2.31):

Công thức 2.33 đƣợc viết lại nhƣ sau:

(2.35)

Ý nghĩa của công thức 2.34 là độ tƣơng tự giữa hai véctơ x và y là 1 nếu x và y đều cùng thuộc về một vung R(vi), và 0 nếu ngƣợc lại. Theo đó, hai véctơ đặc trƣng mức patch có thể đƣợc quy về hai cụm (cluster) khác nhau mặc dù hai véctơ đó rất gần nhau nhƣng lại đƣợc xem là hoàn toàn khác nhau (xem hình 2.7). Trong hình 2.7, các điểm v1,…,v4 biểu diễn trung tâm các cụm (các word), và điểm x,y,z là véctơ đặc trƣng mức patch. Ở đây, ta thấy hai

Hình 2.7: Nhược điểm của cách gán cứng [14]

nhƣợc điểm của cách gán cứng: (i) Trong cách gán cứng, độ tƣơng tự giữa hai véctơ đặc trƣng mức patch y và z sẽ là 0. Có nghĩa là chúng khác nhau hoàn toanfbowir vì chúng đƣợc gán vào hai word khác nhau mặc dù chúng gần nhau trong không gian đặc trƣng mức patch; (ii) hai véctơ đặc trƣng x và y cùng đƣợc gán vào một word v3 và không thể nhận ra rằng x gần

z hơn y cũng nhƣ không thể biết đƣợc thực tế là y gần z hơn x.Việc lƣợng tử hóa này là một cách xấp xỉ rất thô của độ tƣơng tự trên thực tế giữa hai véctơ đặc trƣng mức patch, 1 nếu đƣợc gán vào cùng một word và 0 nếu ngƣợc

lại.Cách gán cứng này có thể gây ra lỗi do sự thay đổi của véctơ đặc trƣng do ảnh hƣởng của nhiễu, điều kiện chiếu sáng thay đổi, các biến đổi không tuyến tính. Do đó chúng ta sẽ sử dụng cách gán mềm (“soft asignment”, đƣợc trình bày trong [14]). Phƣơng pháp này dựa trên kỹ thuật kết hợp có trọng số các word. Đây là một cải tiến trong việc matching các patch (so với việc gán cứng). Thuật ngữ “soft asignment” mô tả một kỹ thuật mà ở đó trọng số đƣợc gán cho các từ lân cận phụ thuộc vào khoảng cách giữa các véctơ đặc trƣng và các trung tâm cụm.

Với ý tƣởng tƣơng tự, trong EMK, ( ) trong công thức 2.35 đƣợc thay thế bằng hàm kernel liên tục ( ) giúp đo độ tƣơng tự giữa hai véctơ đặc trƣng mức patch và một cách chính xác hơn. Khi đó hàm kernel trở thành:

(2.36)

Giả sử rằng ( )là kernel hữu hạn chiều (xem Định nghĩa 1), khi đó match kernel là:

(2.37)

Định nghĩa 1: (Kernel hữu hạn chiều[4]) Hàm kernel được gọi là hữu hạn chiều nếu ánh xạ đặc trưng là hữu hạn chiều.

(2.38) Match kernel đƣợc viết lại nhƣ sau:

(2.39)

Véctơ đặc trƣng trên các tập patch đƣợc tính tƣờng minh. Sau đó có thể áp dụng toàn bộ phân lớp tuyến tính vào các véctơ đặc trƣng đã đƣợc tính toán. Trong 2.38, là ánh xạ đặc trƣng xấp xỉ (2.25) ứng với kernel

( ) với tập véctơ cơ sở đƣợc sinh ra bởi CKSVD [4].

Sau khi các véctơ ứng với mỗi ô đƣợc tính toán, ta ghép chúng lại để tạo ra véctơ đặc trƣng mức ảnh. Cho một ảnh, gọi L là số layer. ở đây L=3. Số ô ở layer thứ t trong layer l). Một patch đƣợc coi là thuộc một ô khi tâm của patch đó thuộc vào ô. Ánh xạ đặc trƣng trên cấu trúc Pyramid là (2.40)

(2.40)

Trong công thức 2.40, là trọng số ứng với layer l.

Hình 2.6 minh họa cách tính toán đặc trƣng mwucs ảnh trên cấu trúc pyramid.

Match kernel giữa 2 ảnh trên cấu truc pyramid sẽ là:

trong đó là ánh xạ đặc trƣng trên cấu trúc Pyramid :

(2.42) Trong (2.42), trọng số ứng với layer l đƣợc xác định nhƣ sau:

(2.43)

Cuối cùng, chúng ta thu đƣợc véctơ đặc trƣng cho toàn bộ ảnh bằng cách ghép tất cả các véctơ đặc trƣng của tất cả các ô trong lớp layer của cấu trúc pyramid. Véctơ đặc trƣng này sẽ đƣợc đƣa vào bộ phận Multiclass SVM để thu đƣợc xác xuất một mẫu thuộc về từng lớp. Kết quả tra cứu đƣợc đƣa ra dựa trên việc sắp xếp theo giá trị xác xuất (thu đƣợc từ multiclass SVM)

Học tính năng nhỏ gọn

Tính toán đặc trƣng mức Pixel