Hình 2.12 minh họa cho việc tính toán bộ mô tả điểm khóa. Đầu tiên các độ lớn và hướng gradient ảnh được lấy mẫu quanh vị trí điểm khóa, sử dụng tỷ lệ của điểm khóa để lựa chọn mức mờ Gaussian cho ảnh. Để đạt được sự bất biến về
hướng, các tọa độ của bộ mô tả và các hướng gradient bị quay có liên quan tới hướng của điểm khóa. Để thuận tiện trong việc tính toán bộ mô tả, các gradient phải được tính trước cho tất cả các mức của hình chóp. Các gradient này được minh họa bởi các mũi tên nhỏ ở mỗi vị trí mẫu ở hình bên trái của Hình 2.12.
Hàm gán trọng số Gaussian với bằng một nửa chiều rộng của cửa sổ bộ mô tả được dùng để gán một trọng số cho cường độ của mỗi điểm mẫu. Điều này được minh họa bằng một cửa sổ hình tròn thể hiện ở hình bên trái của Hình 2.12. Mục đích của cửa sổ Gaussian này là tránh các thay đổi đột ngột trong bộ mô tả khi có các thay đổi nhỏ ở vị trí của cửa sổ, và ít quan tâm đến các gradient ở xa vị trí trung tâm của bộ mô tả.
Hình bên phải của Hình 2.12 thể hiện bộ mô tả điểm khóa. Nó cho phép thay đổi đáng kể ở các vị trí gradient bằng việc tạo ra các biểu đồ hướng trên 44 vùng mẫu. Hình này thể hiện 8 hướng cho mỗi biểu đồ, với chiều dài của mỗi mũi tên tương ứng với độ lớn của mỗi mục (entry) của biểu đồ. Một mẫu gradient ở hình bên trái có thể dịch chuyển tối đa 4 vị trí mẫu trong khi đó vẫn góp phần vào cùng biểu đồ ở hình bên phải. Vì vậy đạt được mục đích là cho phép sự dịch chuyển cục bộ lớn.
Để tránh tất cả các ảnh hưởng biên là điều thật sự quan trọng, ở đó bộ mô tả thay đổi đột ngột vì một mẫu thay đổi liên tục từ một biểu đồ này sang một biểu đồ khác hoặc từ một hướng này sang hướng khác. Vì vậy, sử dụng phép nội suy tuyến tính bậc 3 để phân bố giá trị của mỗi mẫu gradient vào các bin biểu đồ gần kề. Mặt khác, mỗi entry trong một bin được tăng lên nhiều lần bởi trọng số là 1d cho mỗi chiều, trong đó d là khoảng cách của mẫu từ giá trị trung tâm của bin đó được đo dưới dạng các đơn vị của khoảng cách bin biểu đồ.
Bộ mô tả được tạo nên từ một vectơ chứa các giá trị của tất cả các entry của biểu đồ hướng, tương ứng với các chiều dài của các mũi tên ở hình bên phải của Hình 2.12. Hình này thể hiện một mảng 44 các biểu đồ với 8 bin hướng. Vì vậy, một vectơ đặc trưng có 448 =128 phần tử để mô tả cho mỗi điểm khóa.
Cuối cùng, vectơ đặc trưng được sửa đổi để giảm các tác động của sự thay đổi về độ sáng. Đầu tiên, vectơ được chuẩn hóa theo chiều dài đơn vị. Sự thay đổi về độ tương phản của ảnh tức là mỗi giá trị điểm ảnh được nhân với một hằng số sẽ làm tăng các gradient bởi cùng hằng số đó, cho nên phép chuẩn hóa
vectơ sẽ xóa bỏ được sự thay đổi về độ tương phản. Thay đổi độ sáng tức là một hằng số được cộng vào mỗi điểm ảnh, điều này sẽ không ảnh hưởng đến các giá trị gradient, vì giá trị gradient được tính từ các độ chênh lệch giữa các điểm ảnh. Bởi vậy, bộ mô tả bất biến đối với các thay đổi affine về độ sáng. Tuy nhiên, các thay đổi độ sáng phi tuyến tính cũng có thể xảy ra do sự bão hòa của camera hoặc do các thay đổi về sự chiếu sáng mà chúng ảnh hưởng đến các bề mặt 3D với các hướng khác nhau bởi các lượng khác nhau. Các ảnh hưởng này có thể gây nên sự thay đổi lớn ở các cường độ liên quan đối với một số gradient, nhưng ít có khả năng ảnh hưởng đến các hướng gradient. Vì vậy, giảm được tác động của các cường độ gradient lớn bằng việc lấy ngưỡng đối với các giá trị trong vectơ đơn vị đặc trưng cho mỗi cường độ là không vượt quá 0.2, sau đó chuẩn hóa lại chiều dài đơn vị. Điều này có nghĩa là việc so khớp các cường độ đối với các gradient lớn không còn quan trọng nữa, và sự phân bố của các hướng mới là điều quan trọng hơn. Giá trị 0.2 được xác định bằng thực nghiệm sử dụng các ảnh có các độ chiếu sáng khác nhau cho cùng các đối tượng 3D.
2.5 Kết luận
Trên đây đã trình bày các phương pháp phát hiện điểm quan tâm bất biến tỷ lệ và bất biến affine trong ảnh. Thuật toán phát hiện điểm bất biến affine đã được làm thích nghi đồng thời vị trí, tỷ lệ và hình dạng của một vùng lân cận của một điểm để thu được các điểm bất biến affine. Không có phương pháp nào trong các phương pháp trước đây giải quyết đồng thời cho tất cả các tham số này trong một thuật toán trích chọn đặc trưng. Các phương pháp bất biến tỷ lệ có thể xử lý tốt cho các thay đổi tỷ lệ lớn hơn phương pháp bất biến affine nhưng nó lại thất bại đối với các ảnh có các phép biến đổi affine lớn. Các điểm bất biến affine cũng mang lại một sự so khớp tin cậy cho các ảnh có các biến dạng hình phối cảnh đáng kể. Tuy nhiên, tính ổn định và độ hội tụ của các vùng affine là một chủ đề của hướng nghiên cứu tương lai cũng như tính bền vững của chúng đối với các đường biên cụt (occlusions).
Chƣơng 3 –
ỨNG DỤNG ĐIỂM BẤT ĐỘNG TRONG NHẬN DẠNG ĐỐI TƢỢNG
Phần này trình bày ứng dụng của phương pháp xác định điểm bất động trong việc trích chọn đặc trưng để giải quyết bài toán nhận dạng đối tượng trong ảnh. Cài đặt thử nghiệm một phương pháp đã trình bày ở chương 2.
3.1 Bài toán nhận dạng đối tƣợng
Phát biểu bài toán
Cho trước hai bức ảnh, bức ảnh thứ nhất chứa nhiều đối tượng, bức ảnh thứ hai chỉ chứa một đối tượng duy nhất, yêu cầu xác định xem trong bức ảnh thứ nhất có đối tượng như trong bức ảnh thứ hai không, thậm chí là đối tượng đó nằm ở tọa độ nào trong bức ảnh thứ nhất.
(a) (b)
Hình 3.1. Ví dụ về bài toán nhận dạng đối tƣợng: xác định xem đối tƣợng trong ảnh (b) có trong ảnh (a) không?
Cách giải quyết bài toán
Tư tưởng: Cho trước một ảnh huấn luyện về đối tượng cần nhận dạng, ta tìm trong ảnh cần xét (ảnh truy vấn) có đối tượng đó hay không. Bằng cách đánh giá mức độ giống nhau của đối tượng trong ảnh cho trước với các đối tượng trong ảnh
truy vấn. Do đó cần phải giải quyết bài toán này theo cách đối sánh các đặc trưng của ảnh cho trước với các đặc trưng của ảnh truy vấn. Một cách nôm na thì đây chính là một trường hợp đặc biệt của bài toán tra cứu ảnh dựa trên các đặc trưng đặc biệt nào đó. Và cũng lưu ý rằng yếu tố thời gian thực luôn được quan tâm cho mỗi bài toán, mức độ cần thiết của nó tùy thuộc vào bài toán mà ta giải quyết, yếu tố này quyết định sự thành công hay thất bại của nhiều bài toán.
Như vậy, bài toán nhận dạng đối tượng bằng kỹ thuật Xử lý ảnh gồm ba pha chính:
- Xác định và trích chọn các đặc trưng của hai ảnh một cách độc lập.
- Đánh giá độ tương tự (độ giống nhau) của đối tượng trong hai ảnh dựa vào việc so khớp các đặc trưng được trích chọn.
- Phân tích xác suất để thực hiện xác minh cuối cùng.
Đây cũng chính là bài toán lớn trong lĩnh vực nhận dạng và thị giác máy.
3.1.1 Mô hình bài toán nhận dạng đối tƣợng
Hình 3.2. Sơ đồ chức năng nhận dạng đối tƣợng Ảnh đầu vào Trích chọn đặc trƣng: Bất biến Ảnh huấn luyện Trích chọn đặc trƣng: Bất biến So sánh độ tƣơng tự Ảnh kết quả (ảnh có khoanh vùng đối tƣợng nhận dạng đƣợc)
3.1.2 Thuật toán
Để giải quyết bài toán trên ta sử thuật toán “Phép biến đổi đặc trưng bất biến tỷ lệ” (Scale Invariant Feature Transform – SIFT) đã được mô tả chi tiết ở chương 2. Đây là một trong những phương pháp hiệu quả để trích chọn các điểm bất biến và xây dựng nên các đặc trưng có tính phân biệt cao từ các ảnh được dùng để thực hiện so khớp tin cậy giữa các tầm nhìn khác nhau của cùng một đối tượng. Phương pháp này gồm 4 giai đoạn chính: phát hiện các cực trị trong không gian tỷ lệ, định vị chính xác điểm khóa, gán hướng cho các điểm khóa và xây dựng đặc trưng. Được trình bày vắn tắt lại như sau:
* Phát hiện cực trị trong không gian tỷ lệ
Giai đoạn đầu tiên của quá trình trích chọn các điểm bất động là tìm kiếm trên tất cả các tỷ lệ và các vị trí ảnh có thể để xác định các điểm quan tâm tiềm tàng mà chúng bất biến khi có sự thay đổi về tỷ lệ và phép quay.
Xây dựng một thể hiện không gian tỷ lệ cho một ảnh sử dụng hàm L(x,y,) được tạo bởi phép cuộn ảnh đầu vào I(x,y) với hàm Gaussian biến thiên tỷ lệ
G(x,y,):
L x y( , , ) G x y( , , ) I x y( , )
Chúng ta xét các điểm đặc trưng mà ở đó hàm D(x,y,) đạt được các cực trị địa phương, hàm này được tạo ra dựa vào sự chênh lệch giữa hai mức tỷ lệ lân cận được phân biệt bởi thừa số k:
D x y( , , ) L x y k( , , ) ( , , ) L x y
* Định vị điểm khóa
Một khi các cực trị địa phương của hàm D(x,y,) được tìm thấy, thì việc tiếp theo đó là định vị chính xác các điểm khóa, vì có thể có rất nhiều cực trị được phát hiện nhưng chỉ có một lượng nhất định các điểm khóa là ổn định và đặc trưng. Để định vị chính xác điểm khóa ta thực hiện chỉnh chi tiết vị trí của các điểm khóa ứng cử cho phù hợp với dữ liệu lân cần về vị trí, tỷ lệ, và tỷ lệ của các độ cong chủ yếu. Thông tin này cho phép loại bỏ các điểm có độ tương phản thấp hoặc các điểm được định vị kém dọc theo biên.
Hướng tiếp cận này sử dụng phép khai triển Taylor của hàm không gian tỷ lệ D(x,y,): 2 T 2 1 (x) x x x x 2 x T D D D D
Vị trí của cực trị được cho bởi công thức như sau:
2 1 2 x x x D D
Nếu |D( x)| thấp hơn ngưỡng thì vị trí ứng cử đó bị loại bỏ. Trong chương trình ta sử dụng một ngưỡng là 0.03 để loại bỏ các cực trị không ổn định. Khi đó các giá trị riêng của ma trận Hessian H:
H xx xy xy yy D D D D
được tính, và vị trí ứng cử bị loại bỏ nếu giá trị riêng nhỏ nhất thấp hơn ngưỡng.
* Gán hƣớng
Một hoặc nhiều hơn một hướng được gán cho mỗi vị trí điểm khóa dựa vào các hướng gradient ảnh cục bộ. Tất cả các thao tác sau này được thực hiện trên dữ liệu ảnh đã bị biến đổi có liên quan đến hướng được gán, tỷ lệ, và vị trí đối với mỗi điểm khóa, vì vậy cung cấp sự bất biến đối với các phép biến đổi này.
Để tính toán hướng cho điểm khóa (xk,yk,k) ta sử dụng gradient của ảnh
L(xk,yk,k) được chọn ở một tỷ lệ thích hợp. Chúng ta tính toán biểu đồ hướng gradient của L trong một vùng ảnh được đặt ở vị trí (xk,yk). Mỗi mẫu của biểu đồ hướng được gán trọng số bởi cường độ gradient. Hướng của điểm khóa được gán cho các đỉnh trong biểu đồ hướng.
* Xây dựng đặc trƣng
Đặc trưng được xây dựng bằng cách tạo ra một bộ mô tả cho mỗi điểm khóa. Một bộ mô tả được hình thành bằng việc lấy mẫu các cường độ và hướng gradient của vùng ảnh xung quanh vị trí điểm khóa, ở đó các hướng được biểu diễn có liên quan đến hướng của điểm khóa. Các biểu đồ hướng được tính trên 4x4 vùng mẫu. Mỗi biểu đồ có 8 bin hướng, vì vậy bộ mô tả có tổng cộng 128 phần tử.
* So khớp đặc trƣng
Sau khi trích chọn các đặc trưng từ ảnh huấn luyện và ảnh truy vấn, bước tiếp theo là tiến hành nhận dạng đối tượng. Nhận dạng đối tượng được thực hiện bằng cách so khớp mỗi đặc trưng một cách độc lập tới một cơ sở dữ liệu (CSDL) các đặc trưng được trích chọn từ các ảnh huấn luyện. Một so khớp ứng cử tốt nhất cho mỗi đặc trưng được tìm thấy bằng việc xác định láng giềng gần nhất của nó trong CSDL các đặc trưng. Láng giềng gần nhất được xác định bởi đặc trưng có khoảng cách Euclide ngắn nhất.
3.2 Cài đặt thử nghiệm
3.2.1 Cài đặt chƣơng trình
Các tính năng chính:
Chương trình được viết bằng ngôn ngữ Visual C++ 6.0, chạy trên hệ điều hành Window XP, máy tính tốc độ 1,5GHz, bộ nhớ 512MB RAM. Chương trình có các chức năng sau:
- Cho phép người sử dụng lựa chọn ảnh truy vấn và ảnh chứa đối tượng cần nhận dạng, lựa chọn thuộc tính tìm kiếm.
- Hiển thị kết quả nhận dạng.
3.2.2 Một số kết quả thực nghiệm
Thực hiện cài đặt thử nghiệm phương pháp “Phép biến đổi đặc trưng bất biến tỷ lệ” để trích chọn đặc trưng bất biến, sau đó sử dụng thuật toán láng giềng gần nhất để so khớp nhận dạng. Bước đầu với một số kết quả sau:
(a) (b)
(c)
Hình 3.4. (a) Ảnh truy vấn chứa nhiều đối tƣợng; (b) Ảnh huấn luyện; (c) Kết quả nhận dạng
Hình 3.4 thể hiện kết quả nhận dạng đối tượng, ở ảnh (a) các đối tượng được thu nhận trên một nền tương đối rõ ràng nên việc trích chọn và so khớp đặc trưng được tiến hành không mấy khó khăn và độ chính xác tương đối cao, hơn nữa góc nhìn của đối tượng cần nhận dạng trong cả hai giống nhau chỉ khác nhau về tỷ lệ nhưng không đáng kể.
(a) (b)
(c)
Hình 3.5. (a) Ảnh truy vấn chứa nhiều đối tƣợng; (b) Ảnh chứa đối tƣợng cần nhận dạng; (c) Kết quả nhận dạng
Hình 3.5 thể hiện một kết quả thực nghiệm khác về nhận dạng đối tượng, đối tượng cần nhận dạng trong cả hai ảnh có sự khác nhau đôi chút về góc nhìn, hơn nữa ảnh truy vấn lại chứa quá nhiều đối tượng, được thu nhận trên một nền không rõ ràng nền sẽ có rất nhiều đặc trưng được tìm thấy ở ảnh (a) vì vậy việc so khớp đặc trưng sẽ mất nhiều thời gian hơn và số lượng các so khớp không chính xác cũng tăng lên. Tuy nhiên vẫn nhận dạng được đối tượng.
Hình 3.6. Không nhận dạng đƣợc đối tƣợng
Hình 3.6 thể hiện một ví dụ không nhận dạng được vì đối tượng cần nhận dạng bị che khuất quá nhiều nên các điểm khóa được trích chọn từ vị trí có đối tượng này không tương ứng với các đặc trưng trong ảnh thứ hai nên việc so khớp không thành công.
* Nhận xét:
Thuật toán này được đánh giá là khá hiệu qủa trong việc trích chọn đặc trưng phục vụ cho việc nhận dạng đối tượng, đặc biệt khi các ảnh được thu nhận có tỷ lệ khác nhau hoặc các đối tượng trong ảnh được đặt ở các góc nhìn khác nhau. Tuy nhiên trong quá trình cài đặt thuật toán vẫn chưa xử lý được trường hợp đối tượng cần nhận dạng bị che khuất một số bộ phận hoặc bị thay đổi góc nhìn, tỷ lệ quá lớn.
KẾT LUẬN
Một vấn đề kinh điển trong thị giác máy và xử lý ảnh là xác định xem liệu có hay không dữ liệu ảnh chứa một đối tượng, một đặc trưng hay một hoạt động nào đó. Thông thường công việc này có thể được giải quyết bởi con người một cách đơn giản và không cần phải nỗ lực nhiều, nhưng vẫn không được giải quyết một cách hài lòng trong thị giác máy đối với trường hợp tổng quát: các đối tượng tùy ý trong các hoàn cảnh khác nhau. Các phương pháp hiện thời cho việc giải quyết vấn đề này chỉ có thể giải quyết tốt cho các đối tượng đặc biệt như các