Một khi một điểm khóa ứng cử được tìm thấy bằng việc so sánh một điểm ảnh với các láng giềng của nó, bước tiếp theo là thực hiện điều chỉnh chi tiết với dữ liệu lân cận cho vị trí, tỷ lệ, và tỷ lệ của các độ cong chủ yếu. Thông tin này cho phép loại bỏ các điểm có độ tương phản thấp hoặc được định vị kém dọc theo biên.
Thực thi ban đầu của hướng tiếp cận này [7] đã định vị một cách đơn giản các điểm khóa ở vị trí và tỷ lệ của điểm mẫu trung tâm. Tuy nhiên, gần đây người ta sử dụng một phương pháp khác [4] đó là làm phù hợp một hàm bậc hai 3D cho các điểm mẫu địa phương để xác định vị trí nội suy của điểm cực đại, và các thử nghiệm đã cho thấy rằng phương pháp này mang lại sự cải tiến đáng kể cho việc so khớp và độ ổn định. Phương pháp này sử dụng phép khai triển Taylor (tối đa là dạng bậc hai) của hàm không gian tỷ lệ, D(x,y,):
2 T 2 1 (x) x x x x 2 x T D D D D (2.17)
Trong đó D và các đạo hàm của nó được định giá ở điểm mẫu đó và x( , , )x y T là offset từ điểm này. Vị trí của cực trị, x, được xác định bằng việc lấy đạo hàm theo x và thiết lập nó bằng 0, ta thu được:
2 1 2 x x x D D (2.18)
Hình 2.11. Các giai đoạn lựa chọn các điểm khóa. (a) Ảnh gốc với 233189 điểm ảnh. (b) 832 vị trí điểm khóa ban đầu ở các điểm cực đại và cực tiểu của hàm Difference-of-
Gaussian. Các điểm khóa đƣợc thể hiện nhƣ các vectơ cho biết tỷ lệ, hƣớng và vị trí. (c) Sau
khi áp dụng một ngƣỡng lên độ tƣơng phản tối thiểu, còn lại 729 điểm khóa. (d) 536 điểm khóa cuối cùng đƣợc giữ lại sau khi lấy ngƣỡng cho tỷ lệ của các độ cong chủ yếu.
Ma trận Hessian và đạo hàm của D được xấp xỉ bằng việc sử dụng các độ chênh lệch giữa các điểm mẫu lân cận. Nếu offset x
lớn hơn 0.5 ở bất kỳ chiều nào, thì có nghĩa là cực trị đó nằm gần với một điểm mẫu khác hơn. Trong trường hợp này, điểm mẫu được thay đổi và thực hiện phép nội suy thay cho điểm đó. Offset cuối cùng x
được cộng thêm về hướng vị trí điểm mẫu của nó để có được sự ước lượng nội suy cho vị trí của cực trị đó.
Giá trị hàm ở cực trị, D( x), có ích cho việc loại bỏ các cực trị không ổn định có độ tương phản thấp. Dể thu được giá trị của hàm ở vị trí cực trị này ta thế phương trình (2.18) vào (2.17), được:
1 (x) x 2 x T D D D
Thông qua các thí nghiệm người ta nhận thấy rằng, tất cả các cực trị có giá trị |D( x)| nhỏ hơn 0.03 đều được loại bỏ.
Hình 2.11 cho thấy hiệu quả của việc lựa chọn điểm khóa trên một ảnh tự nhiên. Để tránh quá nhiều sự lộn xộn, sử dụng một ảnh có độ phân giải thấp với 233189 điểm ảnh và các điểm khóa được thể hiện như các vectơ cho biết vị trí, tỷ lệ, và hướng của mỗi điểm khóa (việc gán hướng được miêu tả ở mục sau). Hình 2.11(a) thể hiện ảnh gốc, ảnh này được thể hiện với độ tương phản thấp dần ở các hình tiếp theo. Hình 2.11(b) chỉ ra 832 điểm khóa ở tất cả các điểm cực đại và cực tiểu được phát hiện bởi hàm Difference-of-Gaussian, trong khi đó Hình 2.11(c) chỉ ra 729 điểm khóa còn lại sau khi loại bỏ các điểm có |D( x
)| nhỏ hơn 0.03. Phần (d) sẽ được giải thích trong mục tiếp theo.
* Loại bỏ các đáp ứng biên
Tính ổn định không đủ để loại bỏ các điểm khóa có độ tương phản thấp. Dù vị trí dọc theo biên được xác định tồi nhưng hàm Difference-of-Gaussian vẫn có một đáp ứng mạnh dọc theo các biên và vì vậy không ổn định khi có các lượng nhỏ tạp nhiễu.
Đỉnh được xác định tồi trong hàm Difference-of-Gaussian sẽ có một độ cong lớn chủ yếu ngang qua biên ngoại trừ độ cong nhỏ ở hướng trực giao. Các độ cong chủ yếu có thể được tính từ ma trận Hessian 22, H, ma trận này được tính ở vị trí và tỷ lệ của điểm khóa:
xx xy xy yy D D D D H (2.19)
Các đạo hàm này được ước lượng bằng việc lấy các độ chênh lệch giữa các điểm mẫu láng giềng.
Các giá trị riêng của ma trận H tương ứng với các độ cong chủ yếu của D. Lấy là giá trị riêng với cường độ lớn nhất và là giá trị riêng với cường độ nhỏ hơn. Khi đó, ta có thể tính tổng các giá trị riêng từ dấu vết của H và tích của chúng được tính từ giá trị của định thức:
Tr(H) = Dxx + Dyy = + , Det(H) = DxxDyy – (Dxy)2 = .
Trong trường hợp không chắc xảy ra đó là định thức có giá trị âm, các độ cong có các dấu hiệu khác nhau vì vậy điểm bị loại bỏ không phải là một cực trị. Lấy r là tỷ lệ giữa giá trị riêng có cường độ lớn nhất và giá trị riêng có cường độ nhỏ hơn, để = r. Khi đó, 2 2 2 2 2 Tr( ) ( ) ( ) ( 1) Det( ) r r r r H H
Biểu thức (r+1)2/r nhận giá trị cực tiểu khi hai giá trị riêngbằng nhau và nó tăng cùng với r. Vì vậy, để kiểm tra xem tỷ lệ của các độ cong chủ yếu có ở dưới một ngưỡng r nào đó không, ta chỉ cần kiểm tra:
2 2 Tr( ) ( 1) Det( ) r r H H
Các thí nghiệm cho thấy sử dụng giá trị r = 10, sẽ loại bỏ được các điểm khóa có tỷ lệ giữa các độ cong chủ yếu lớn hơn 10. Sự chuyển tiếp từ Hình 2.11(c) sang Hình 2.11(d) thể hiện các tác động của thao tác này.
2.4.3 Gán hƣớng cho các điểm khóa
Bằng việc gán một hướng thích hợp cho mỗi điểm khóa dựa trên các đặc tính ảnh cục bộ, bộ mô tả điểm khóa được trình bày ở phần sau có liên quan tới hướng được gán này và vì vậy đạt được sự bất biến đối với phép quay ảnh.
Để gán một hướng cục bộ cho mỗi điểm khóa ta sử dụng hướng gradient của ảnh. Tỷ lệ của điểm khóa được dùng để lựa chọn ảnh được làm trơn Gaussian, L, với tỷ lệ gần nhất, để thực hiện tất cả các tính toán theo kiểu bất biến tỷ lệ. Đối với mỗi mẫu ảnh, L(x,y), ở tỷ lệ này, cường độ gradient, m(x,y), và hướng, (x,y), được tính toán trước sử dụng độ chênh lệch điểm ảnh:
2 2 ( , ) ( ( 1, ) ( 1, )) ( ( , 1) ( , 1)) m x y L x y L x y L x y L x y 1 ( , )x y tan (( ( ,L x y 1) L x y( , 1)) /( (L x 1, )y L x( 1, )))y
Một biểu đồ hướng được thiết lập từ các hướng gradient của các điểm mẫu trong phạm vi một vùng lân cận xung quanh điểm khóa. Biểu đồ hướng có 36
bin bao phủ 360 độ của tất cả các hướng. Mỗi mẫu được thêm vào biểu đồ được gán trọng số bởi độ lớn gradient của nó và bởi một cửa sổ hình tròn Gaussian với gấp 1.5 lần tỷ lệ của điểm khóa đó.
Các đỉnh trong biểu đồ hướng tương ứng với các hướng bao quát các gradient cục bộ. Dựa vào biểu đồ hướng ta có thể xác định được đỉnh cao nhất trong biểu đồ và khi đó bất kỳ đỉnh cục bộ nào khác nằm trong phạm vi 80% so với đỉnh cao nhất đều được dùng để tạo ra một điểm khóa với cùng hướng đó. Vì vậy, đối với các vị trí có nhiều đỉnh có cường độ tương tự nhau, thì sẽ có nhiều điểm khóa được tạo ra ở cùng vị trí và tỷ lệ đó nhưng các hướng thì khác nhau. Chỉ có khoảng 15% điểm khóa được gán nhiều hướng, nhưng những điểm này góp phần đáng kể cho tính ổn định của việc so khớp. Cuối cùng, một đường parabol được làm phù hợp với 3 giá trị của biểu đồ gần với mỗi đỉnh nhất để nội suy vị trí của đỉnh đó nhằm mang lại độ chính xác tốt hơn.
2.4.4 Bộ mô tả ảnh cục bộ
Các thao tác ở trên đã gán vị trí, tỷ lệ và hướng cho mỗi điểm khóa. Các tham số này áp đặt cho hệ tọa độ 2D cục bộ để mô tả một vùng ảnh cục bộ. Bước tiếp theo là tính toán một bộ mô tả cho vùng ảnh xung quanh điểm đó để có thể bất biến đối với các thay đổi còn lại như thay đổi độ sáng hoặc điểm nhìn 3D.
Hình 2.12. Bộ mô tả điểm khóa
Hình 2.12 minh họa cho việc tính toán bộ mô tả điểm khóa. Đầu tiên các độ lớn và hướng gradient ảnh được lấy mẫu quanh vị trí điểm khóa, sử dụng tỷ lệ của điểm khóa để lựa chọn mức mờ Gaussian cho ảnh. Để đạt được sự bất biến về
hướng, các tọa độ của bộ mô tả và các hướng gradient bị quay có liên quan tới hướng của điểm khóa. Để thuận tiện trong việc tính toán bộ mô tả, các gradient phải được tính trước cho tất cả các mức của hình chóp. Các gradient này được minh họa bởi các mũi tên nhỏ ở mỗi vị trí mẫu ở hình bên trái của Hình 2.12.
Hàm gán trọng số Gaussian với bằng một nửa chiều rộng của cửa sổ bộ mô tả được dùng để gán một trọng số cho cường độ của mỗi điểm mẫu. Điều này được minh họa bằng một cửa sổ hình tròn thể hiện ở hình bên trái của Hình 2.12. Mục đích của cửa sổ Gaussian này là tránh các thay đổi đột ngột trong bộ mô tả khi có các thay đổi nhỏ ở vị trí của cửa sổ, và ít quan tâm đến các gradient ở xa vị trí trung tâm của bộ mô tả.
Hình bên phải của Hình 2.12 thể hiện bộ mô tả điểm khóa. Nó cho phép thay đổi đáng kể ở các vị trí gradient bằng việc tạo ra các biểu đồ hướng trên 44 vùng mẫu. Hình này thể hiện 8 hướng cho mỗi biểu đồ, với chiều dài của mỗi mũi tên tương ứng với độ lớn của mỗi mục (entry) của biểu đồ. Một mẫu gradient ở hình bên trái có thể dịch chuyển tối đa 4 vị trí mẫu trong khi đó vẫn góp phần vào cùng biểu đồ ở hình bên phải. Vì vậy đạt được mục đích là cho phép sự dịch chuyển cục bộ lớn.
Để tránh tất cả các ảnh hưởng biên là điều thật sự quan trọng, ở đó bộ mô tả thay đổi đột ngột vì một mẫu thay đổi liên tục từ một biểu đồ này sang một biểu đồ khác hoặc từ một hướng này sang hướng khác. Vì vậy, sử dụng phép nội suy tuyến tính bậc 3 để phân bố giá trị của mỗi mẫu gradient vào các bin biểu đồ gần kề. Mặt khác, mỗi entry trong một bin được tăng lên nhiều lần bởi trọng số là 1d cho mỗi chiều, trong đó d là khoảng cách của mẫu từ giá trị trung tâm của bin đó được đo dưới dạng các đơn vị của khoảng cách bin biểu đồ.
Bộ mô tả được tạo nên từ một vectơ chứa các giá trị của tất cả các entry của biểu đồ hướng, tương ứng với các chiều dài của các mũi tên ở hình bên phải của Hình 2.12. Hình này thể hiện một mảng 44 các biểu đồ với 8 bin hướng. Vì vậy, một vectơ đặc trưng có 448 =128 phần tử để mô tả cho mỗi điểm khóa.
Cuối cùng, vectơ đặc trưng được sửa đổi để giảm các tác động của sự thay đổi về độ sáng. Đầu tiên, vectơ được chuẩn hóa theo chiều dài đơn vị. Sự thay đổi về độ tương phản của ảnh tức là mỗi giá trị điểm ảnh được nhân với một hằng số sẽ làm tăng các gradient bởi cùng hằng số đó, cho nên phép chuẩn hóa
vectơ sẽ xóa bỏ được sự thay đổi về độ tương phản. Thay đổi độ sáng tức là một hằng số được cộng vào mỗi điểm ảnh, điều này sẽ không ảnh hưởng đến các giá trị gradient, vì giá trị gradient được tính từ các độ chênh lệch giữa các điểm ảnh. Bởi vậy, bộ mô tả bất biến đối với các thay đổi affine về độ sáng. Tuy nhiên, các thay đổi độ sáng phi tuyến tính cũng có thể xảy ra do sự bão hòa của camera hoặc do các thay đổi về sự chiếu sáng mà chúng ảnh hưởng đến các bề mặt 3D với các hướng khác nhau bởi các lượng khác nhau. Các ảnh hưởng này có thể gây nên sự thay đổi lớn ở các cường độ liên quan đối với một số gradient, nhưng ít có khả năng ảnh hưởng đến các hướng gradient. Vì vậy, giảm được tác động của các cường độ gradient lớn bằng việc lấy ngưỡng đối với các giá trị trong vectơ đơn vị đặc trưng cho mỗi cường độ là không vượt quá 0.2, sau đó chuẩn hóa lại chiều dài đơn vị. Điều này có nghĩa là việc so khớp các cường độ đối với các gradient lớn không còn quan trọng nữa, và sự phân bố của các hướng mới là điều quan trọng hơn. Giá trị 0.2 được xác định bằng thực nghiệm sử dụng các ảnh có các độ chiếu sáng khác nhau cho cùng các đối tượng 3D.
2.5 Kết luận
Trên đây đã trình bày các phương pháp phát hiện điểm quan tâm bất biến tỷ lệ và bất biến affine trong ảnh. Thuật toán phát hiện điểm bất biến affine đã được làm thích nghi đồng thời vị trí, tỷ lệ và hình dạng của một vùng lân cận của một điểm để thu được các điểm bất biến affine. Không có phương pháp nào trong các phương pháp trước đây giải quyết đồng thời cho tất cả các tham số này trong một thuật toán trích chọn đặc trưng. Các phương pháp bất biến tỷ lệ có thể xử lý tốt cho các thay đổi tỷ lệ lớn hơn phương pháp bất biến affine nhưng nó lại thất bại đối với các ảnh có các phép biến đổi affine lớn. Các điểm bất biến affine cũng mang lại một sự so khớp tin cậy cho các ảnh có các biến dạng hình phối cảnh đáng kể. Tuy nhiên, tính ổn định và độ hội tụ của các vùng affine là một chủ đề của hướng nghiên cứu tương lai cũng như tính bền vững của chúng đối với các đường biên cụt (occlusions).
Chƣơng 3 –
ỨNG DỤNG ĐIỂM BẤT ĐỘNG TRONG NHẬN DẠNG ĐỐI TƢỢNG
Phần này trình bày ứng dụng của phương pháp xác định điểm bất động trong việc trích chọn đặc trưng để giải quyết bài toán nhận dạng đối tượng trong ảnh. Cài đặt thử nghiệm một phương pháp đã trình bày ở chương 2.
3.1 Bài toán nhận dạng đối tƣợng
Phát biểu bài toán
Cho trước hai bức ảnh, bức ảnh thứ nhất chứa nhiều đối tượng, bức ảnh thứ hai chỉ chứa một đối tượng duy nhất, yêu cầu xác định xem trong bức ảnh thứ nhất có đối tượng như trong bức ảnh thứ hai không, thậm chí là đối tượng đó nằm ở tọa độ nào trong bức ảnh thứ nhất.
(a) (b)
Hình 3.1. Ví dụ về bài toán nhận dạng đối tƣợng: xác định xem đối tƣợng trong ảnh (b) có trong ảnh (a) không?
Cách giải quyết bài toán
Tư tưởng: Cho trước một ảnh huấn luyện về đối tượng cần nhận dạng, ta tìm trong ảnh cần xét (ảnh truy vấn) có đối tượng đó hay không. Bằng cách đánh giá mức độ giống nhau của đối tượng trong ảnh cho trước với các đối tượng trong ảnh
truy vấn. Do đó cần phải giải quyết bài toán này theo cách đối sánh các đặc trưng của ảnh cho trước với các đặc trưng của ảnh truy vấn. Một cách nôm na thì đây chính là một trường hợp đặc biệt của bài toán tra cứu ảnh dựa trên các đặc trưng đặc biệt nào đó. Và cũng lưu ý rằng yếu tố thời gian thực luôn được quan tâm cho mỗi bài toán, mức độ cần thiết của nó tùy thuộc vào bài toán mà ta giải quyết, yếu tố này quyết định sự thành công hay thất bại của nhiều bài toán.
Như vậy, bài toán nhận dạng đối tượng bằng kỹ thuật Xử lý ảnh gồm ba pha chính:
- Xác định và trích chọn các đặc trưng của hai ảnh một cách độc lập.
- Đánh giá độ tương tự (độ giống nhau) của đối tượng trong hai ảnh dựa vào việc so khớp các đặc trưng được trích chọn.
- Phân tích xác suất để thực hiện xác minh cuối cùng.