Xây dựng đồ thị hai phía

Hình 2.4 chỉ ra đồ thị hai phía với trọng số là khoảng cách giữa các đỉnh. Khoảng cách giữa các biểu đồ được tính bằng hàm Euclidean, giá trị này nằm trong khoảng 0 và 1. Sau khi tìm kiếm được giá trị đối sánh nhỏ nhất (đường nét đậm trong hình 2.4) tổng hợp lại sẽ được giá trị đối sánh. Giá trị đối sánh này sẽ là tổng giá trị đối sánh nhỏ nhất của các cạnh tìm được: cost=w(1,2) +w(2,4) +w(3,1) +w(4,3)=0.707.

2.1.2 Phương pháp Habin cải tiến

Khi sử dụng phương pháp Habin để tìm khoảng cách giữa các ảnh thì kết quả đối sánh có thể bao gồm các cạnh với khoảng cách lớn (độ tương tự nhỏ). Mặc dù vậy khi khoảng cách giữa hai khối là quá lớn thì hai khối đó sẽ không giống nhau chút nào và những cạnh với khoảng cách khá lớn sẽ chỉ làm tăng nhiễu cho khoảng cách cuối cùng giữa hai ảnh. Điều này có nghĩa là không cần phần biệt những khối có độ tương tự thấp. Ví dụ với ảnh L, N, M nếu sử dụng phương pháp Habin để tính toán khoảng cách giữa hai ảnh L với M và hai ảnh L với N thì ta phải xây dựng hai đồ thị hai phía và tìm giá trị đối sánh cực tiểu trong đó. Hình 2.5 chỉ rõ những cạnh được tính trong giá trị đối sánh cực tiểu.

Hình 2.5. Sử dụng giá trị đối sánh cực tiểu để tính toán khoảng cách giữa hai ảnh L với M và L với N

Từ hình 2.5 ta thấy rằng khoảng cách giữa hai ảnh L & M và L & N là giống nhau và đều bằng 2, điều này có vẻ là không hợp lý bởi những cạnh có giá trị là 0,5 đã làm tăng nhiễu cho kết quả cuối cùng. Để giảm bớt nhiễu khi xây dựng đồ thị hai phía, Shenggjiu Wang [18] đã sử dụng ngưỡng theo kinh nghiệm để làm thước đo xác định trọng số của các cạnh và gọi nó là . Nếu khoảng hai khối lớn hơn  thì trọng số của cạnh đó sẽ có giá trị cực đại (ở đây

giá trị cực đại bằng 1). Nếu sử dụng =0.5 thì trong đồ thị hai phía sẽ không có cạnh nào có trọng số nằm trong khoảng giữa 0.5 và 1. Bằng việc đặt tất cả các khoảng cách có giá trị lớn hơn  bằng khoảng cách cực đại, chúng ta hy vọng giảm được nhiễu và cải thiện được kết quả. Mặc dù vậy, nếu sử dụng  quá nhỏ thì sẽ loại bỏ những cạnh kết nối giữa những khối giống nhau và đây không phải là những gì mà chúng ta mong muốn. Giá trị của  bằng bao nhiêu để có được kết quả tốt nhất sẽ phụ thuộc vào kết quả thử nghiệm.

2.2 Phương pháp trừu tượng ảnh dựa trên chữ ký nhị phân

Hầu hết các phương pháp đã được đưa ra đã cải thiện được phần nào bằng cách kết hợp chặt chẽ các đặc tính nhận thức với biểu đồ màu, thông thường nhất là đặc tính không gian. Một sự quan trọng đó được thể hiện trong biểu diễn trực tiếp ảnh chỉ thông qua màu sắc trong biểu đồ màu. Để sử dụng dấu hiệu để trừu tượng ảnh, chúng ta phải thiết kế lược đồ như sau:

Mỗi ảnh trong cơ sở dữ liệu được lượng hóa thành một số cố định n màu, C=(c1, c2,.., cn) để loại bỏ đi ảnh hưởng của sự thay đổi nhỏ bên trong ảnh và cũng để tránh điều đó khi sử dụng 1 file lớn do biểu diễn độ phân giải cao .

Mỗi thành phần màu cj sau đó được mô tả thành t bin nhị phân (Bj = j t j j b b

b1 2.... ) bằng nhau hoặc có thể thay đổi, có thể coi như là kích thước bin. Nếu tất cả các bin có kích thước bằng nhau, ta gọi là phương pháp Constant- Bin Allocation (CBA), ngược lại nó được gọi là phương pháp Variable-Bin Allocation (VBA). Chẳng hạn, xét một ảnh gồm n màu và t bin. Chữ ký của ảnh này sau đó được biểu diễn bởi một chuỗi bit liên tiếp:

S= n t n n t tb b b b b b b b b .... 2... 2....1 2... 2 2 1 1 1 2 1 1 , trong đó j i

màu cj . Để đơn giản, ta có thể viết một chuỗi con j t j j b b b1 2... như là Bj (1j  n). Vì vậy chữ ký của một ảnh I cũng có thể được biểu diễn bằng SI = n

I I IB B B1 2....

Giá trị được chuẩn hóa thu được sau khi trích chọn màu một cách tự động được sử dụng bằng tập tương ứng các bin để sinh ra một dãy các giá trị nhị phân, thể hiện sự xuất hiện hoặc vắng mặt của một màu trong một miền mật độ cụ thể. Dựa vào cách tiếp cận CBA, mỗi màu cj sẽ được mã hóa theo điều kiện sau:

       otherwise o xt h ifi bij 1 j

Để ý rằng, ta giả sử lược đồ màu toàn cục (GCH) được chuẩn hóa theo tổng số các pixel trong một ảnh

Hình 2.6. Tập các mẫu ảnh

Ta xét ảnh A trong hình trên có 3 màu, tức là giả sử n=3, hay C=(c1, c2, c3)=(black, grey, while). Sau đó màu được chuẩn hóa có thể được biểu diễn bởi một vector HA=(h1, h2, h3)=(0.18, 0.06, 0.76), trong đó hj biểu diễn phần trăm pixel màu cj . Tiếp theo ta giả sử phân phối màu được mô tả bởi t=10 bin có kích thước bằng nhau, tức là mỗi bin chứa 1/10 tổng số các màu được biểu diễn. Sau đó, b1 thể hiện % pixel từ 1% đến 10%, b2 là từ 11% đến 20%,….Vì vậy, ảnh A gồm 18% màu c1, 6% màu c2 và 76% màu c3 được biểu diễn bởi một dãy tín hiệu SA=0100000000 0000000000 0000000100(được biểu diễn trong bảng 1). Biểu diễn như vậy bằng một tập các bin màu có kích

thước giống nhau, tức là CBA. Với cách tiếp cận VBA, dựa trên một cách mà các bin trong một tập có kích thước thay đổi được thể hiện trong đoạn con tiếp theo. Các tham số n và t đóng vai trò quan trọng trong tính hiệu quả của phương pháp luận đã được đưa ra, ta sẽ thấy điều này trong các đoạn sau.

Bảng 2.1. Chữ ký chi tiết dựa trên CBA

Mỗi bin được biểu diễn bởi một bit đơn, vì vậy chữ ký thu được rất cô đọng, là một biểu diễn hiệu quả của nội dung màu. Tức là cũng đã giảm được không gian lưu trữ, giả sử để lưu trữ một số thực phải cần f byte, suy ra để lưu trữ GCH của một ảnh gồm n màu ta cần (n x f) byte, trong khi đó trừu tượng ảnh được đưa ra của chúng ta chỉ cần (n x t) bit để biểu diễn một ảnh. Tương tự, kỹ thuật Color Coherence Vector – CCV thì phải cần (2 x n x f) byte để biểu diễn một ảnh. Do đó, kỹ thuật được đưa ra hiệu quả về mặt lưu trữ hơn cả hai phương pháp CCV và GCH. Cụ thể, sử dụng n=64, f=2 byte và t=10; thì chữ ký của CBA cần 80 byte cho mỗi ảnh, còn phương pháp GCH cần 128 byte, trong khi đó CCV cần 256 byte. Tức là CBA nhỏ hơn 37% so với GCH và 68.75% so với CCV. Hơn nữa, nó cũng thích hợp với mong muốn một số lượng lớn các màu không thể được biểu diễn trong một ảnh, mà chỉ đưa đến

một chuỗi lớn các số 0, có thể sử dụng kỹ thuật nén như nén loạt mã dài trong việc lưu trữ.

Với mỗi ảnh sẽ cho ta một chữ ký. Vấn đề không kém phần quan trọng trong việc tìm kiếm đối sánh là tìm hàm xác định sự tương tự của 2 đối tượng, ở đây sẽ là sự tương tự giữa hai chữ ký . Ban đầu, người ta đã sử dụng độ đo để phân tích sự tương tự của ảnh như sau:

     n j j I j Q pos B B pos I Q d 1 0( , ) ( ) ( ) Trong đó pos( k R

B ) cho ta vị trí của tập bit trong BK

của ảnh R. Cụ thể, với ảnh A trong hình 2.6, ta có pos( 1

A B ) =2, pos( 2 A B ) =1, pos( 3 A B ) =8, các màu không thể hiện trong ảnh có pos()=0. Tuy nhiên độ đo sự tương tự này là không kiên định được minh họa trong ví dụ sau:

Bảng 2.2. Chữ ký của ba ảnh X, Y, Z

Xét chữ ký của ảnh X, Y và Z chi tiết trong bảng 2, ta có: d0(X, Y) = (4-4)+(5-3)+(3-3) = 2,

d0(X,Z) = (4-4)+(4-3)+(4-3) = 2, suy ra hai ảnh Y và Z là tương tự với X, nhưng mà Y và Z là không giống nhau.

 2 1 ) ( ) , (     n j j Q j Q B B pos I Q d Khi đó, ta có d(X,Y)=(4-4)2 +(5-3)2 +(3-3)2=4, d(X,Z)=(4-4)2+(4-3)2+ (4-3)2=2 Như thế rõ ràng là hợp lý hơn.

2.3 Phương pháp ma trận Ordinal Co-occurrence

Đánh giá kết cấu là vấn đề hết sức quan trọng trong bài toán phát hiện chất liệu. Ma trận Co-occurrence đã được ứng dụng thành công trong phân tích kết cấu [15]. Tuy nhiên, vì nhiễu dịch chuyển trong mức xám, nên sự phân tích ma trận Co-occurrence có thể dẫn đến kết quả sai lầm. Vấn đề này có thể được giảm bớt bởi việc sử dụng những thứ tự của giá trị xám thay vì sử dụng chính giá trị của nó. Mari Partio[23] đã cung cấp một phương pháp kết cấu giữa độ đo thứ tự và ma trận Co-occurrence.

2.3.1 Ma trận Ordinal Co-occurrence

Mục đích của phương pháp này là tạo ra một tập những đặc tính kết cấu hoàn toàn dựa vào mối quan hệ thứ tự giữa những điểm trong một vùng kết cấu T. Những cặp điểm được sử dụng như là những phần tử cơ bản để xây dựng những đặc điểm.

Những đặc điểm được hình thành sử dụng một cửa sổ di chuyển W, kích thước phụ thuộc vào số khoảng cách sử dụng. Với mỗi vị trí của cửa sổ, nội dung của nó trước tiên được phân ngưỡng bởi giá trị X0 là điểm trung tâm trong cửa sổ. Nếu giá trị điểm ảnh nhỏ hơn X0 thì giá trị được phân ngưỡng là 0, ngược lại giá trị được phân ngưỡng là 1. Bên trong cửa sổ lấy ngưỡng, tất cả các điểm đều được so sánh với láng giềng của nó, như hình 2.7 bên dưới.

Hình 2.7. Ma trận Co-occurrence

Những đặc tính được xây dựng đại diện cho tần số biến cố của những mối quan hệ thứ tự nhất định (“ Lớn hơn”, “Nhỏ hơn”, “Bằng nhau”) tại những khoảng cách D và hướng O khác nhau. Vì chúng ta đề cập đến những cặp điểm, nên có thể có bốn quan hệ được đại diện trong ma trận Ordinal Co- occurrence: cooc11, cooc10, cooc01, cooc00. Mỗi ma trận có kích thước ND*NO, với ND là số khoảng cách và NO là số hướng. Cooc11(D,O) mô tả những biến cố của những giá trị ngưỡng của điểm hiện thời C và những điểm láng giềng của nó mà cả hai đều bằng 1 tại khoảng cách D và hướng O. Trong khi Cooc00(D,O) biểu diễn trường hợp tương tự khi cả hai giá trị bằng 0, Cooc10(D,O) chỉ ra những biến cố nơi mà giá trị ngưỡng của điểm hiện thời là 1 và giá trị ngưỡng của láng giềng là 0. Vị trí ngược lại mô tả trong Cooc01(D,O) dựa vào sự so sánh giữa những giá trị điểm, ô tương ứng trong ma trận tương ứng được tăng lên như được chỉ ra trong hình 2.7. Ma trận Co- occurrence thu được được sử dụng để mô tả đặc điểm kết cấu.

2.3.2 Giải thuật

Phương pháp này được thực hiện dựa trên việc quét tất cả các điểm NT trong vùng kết cấu T. Quá trình xử lý sử dụng một khu lân cận NHC với kích thước của nó phụ thuộc vào khoảng cách ND được sử dụng.

 i i D T

C P D dist P C N i N NH   ( , ) , 1,...,

Để xem xét tất cả các cặp điểm trong mỗi khu lân cận, chỉ tập láng giềng phía trước XF của điểm hiện thời C được xem xét.

 i i D i  C C

F C

F NH X P D dist P C N andoff P off C off C y W x

X  ,   ( , ) ( ) ( ), ( ) .¦ 

Ở đây, Pi và C là những điểm, off(C) là offset của điểm hiện thời, w và h là chiều rộng và chiều cao của vùng kết cấu T, xC và yC là những tọa độ điểm hiện thời. Chúng ta biểu thị bởi XjF là những phần tử XF. Cho ví dụ, nếu chúng ta xem ND=1, thì: NHC= '  4 ' 3 ' 2 ' 1 4 3 2 1 ,X ,X ,X ,X ,X ,X ,X X F F F F và XF X1F,X2F,X3F,X4F như chỉ ra trong hình 2.8.

Hình 2.8. Vùng lân cận 3 x 3 với 4 cặp điểm đối xứng

Mô tả giải thuật xây dựng ma trận Ordinal Co-occurrence trong hình 2.9. Số lượng khoảng cách và hướng sử dụng có thể được lựa chọn: Để giảm

bớt lượng tính toán, những mặt nạ khoảng cách và hướng được tính toán trước. Khi mặt nạ không cung cấp số điểm bằng nhau cho tất cả các khoảng cách và hướng thì ma trận Co-occurrence thu được sẽ được chuẩn hóa bởi tổng những cặp với khoảng cách và hướng tương ứng khi di chuyển qua vùng kết cấu T. Sự chuẩn hoán này được thực hiện ở bước 18 trong giải thuật.

2.3.3 So sánh đặc điểm

Ma trận được so sánh sử dụng khoảng cách Euclidean. Toàn bộ sự khác nhau giữa hai vùng kết cấu T1 và T2 có thể thu được bằng cách cộng tất cả các

1. FOR all possible center positions in T

2. Threshold the windown W using threshold X0 3. FOR all pixels C in W

4. FOR all forwarding neighbors XjF of C 5. Determine D and O 6. IF (C=1 & XjF =1) 7. Increment cooc11(D,O) 8. ELSEIF (C=0 & XjF =0) 9. Increment cooc00(D,O) 10. ELSEIF (C=1 & XjF =0) 11. Increment cooc10(D,O) 12. ELSE 13. Increment cooc01(D,O) 14. END 15. ENDFOR 16. ENDFOR 17. ENDFOR 18. Normalize cooc-matrices

sự khác nhau từ ma trận Cooc11, Cooc10, Cooc01 và Cooc00. Công thức khoảng cách được tính như sau:

dist(T1, T2)=    j i T T i j Cooc i j Cooc , 2 2 1(, ) 11 (, )) 11 (    j i T T i j Cooc i j Cooc , 2 2 1(, ) 10 (, )) 10 (    j i T T i j Cooc i j Cooc , 2 2 1(, ) 01 (, )) 01 (   j i T T i j Cooc i j Cooc , 2 2 1(, ) 00 ( , )) 00 (

Trên đây là những phương pháp phát hiện chất liệu một cách cơ sở nhất. Tiếp theo là các phương pháp nâng cao hiệu suất phát hiện.

2.4 Cách tiếp cận Mạng Nơron

Ngày nay, những nghiên cứu của ngành trí tuệ nhân tạo không ngừng phát triển theo nhiều hướng khác nhau. Một trong những hướng hay được sử dụng hiện nay là mạng Nơron. Với cơ chế mô phỏng các Nơron trong bộ não con người, các Nơron rất đơn giản trong cơ chế làm việc nhưng khi kết hợp lại với nhau lại có khả năng tính toán, suy nghĩ, ghi nhớ và điều khiển.

Mạng nơron là một hệ thống gồm nhiều phần xử lý đơn giản- các nơron, liên kết với nhau và hoạt động song song. Khả năng hoạt động của hệ thống phụ thuộc vào cấu trúc của hệ, các mối liên kết giữa các nơron và quá trình xử lý bên trong của các nơron. Mạng nơron có khả năng học dữ liệu và tổng quát hóa từ các số liệu đã luyện, nhớ, ngoại và nội suy, và quan trọng nhất đối với nhận dạng hay phát hiện là khả năng phân lớp mạnh của nó.

Qua thời gian, lớp các mô hình và các thuật toán luyện đi kèm với nó đã được phát triển rất nhanh và đa dạng làm cho lý thuyết và công nghệ mạng nơron cũng như khả năng ứng dụng của chúng thật sự phong phú. Trước hết

ta có thể tìm hiểu sơ qua về ý tưởng phương pháp mạng nơron trong phát hiện đối tượng.

2.4.1 Mô hình Mạng Nơron nhân tạo

Một nơron nhân tạo (đơn vị xử ý -PE) phản ánh các tính chất cơ bản của nơron sinh học và được mô phỏng dưới dạng sau:

Nơron nhân tạo có n tín hiệu vào xi , i=1, 2,…, n và một tín hiệu ra y. Trạng thái bên trong của nơron được xác định qua bộ tổng các đầu vào với

Những vùng tìm được của mạng

Ảnh trước khi tách ngưỡng động