freak
FREAK: Fast Retina KeypointTìm hiểu và trình bày về descriptor FREAK.(http://www.google.com.vn/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ved=0CB8QFjAA&url=http%3A%2F%2Finfoscience.epfl.ch%2Frecord%2F175537%2Ffiles%2F2069.pdf&ei=-6aIUIzkMcuYiAft5oDoCg&usg=AFQjCNHAbgDDw5CNRcwujx1up9nPlCTd7Q)1. Là gì ? Dùng để làm gì ?2. So với các descriptor khác thì nó tốt/ xấu ( tham khảo )http://computer-vision-talks.com/2012/08/a-battle-of-three-descriptors-surf-freak-and-brisk/3. Chương trình demo http://code.opencv.org/svn/opencv/trunk/opencv/samples/cpp/freak_demo.cpp.I. Giới thiệu :Hiện nay có rất nhiều các ứng dụng nhận dạng qua các kết nối keypoint hình ảnh có độ tin cậy cao. Thập kỷ vừa qua là một cuộc đua để tìm ra các keypoint nhanh hơn ,mạnh mẽ hơn và điển hình là các thuật toán : Scale In-variant Feature Transform (SIFT) , Speed-up Robust Feature (SURF) , Binary Robust Invariant Scalable Keypoints (BRISK).Ngày nay ,việc triển khai các thuật toán nhận dạng trên điện thoại thông minh và được nhúng vào các thiết bị với bộ nhớ ít và độ phức tạp tính toán được nâng lên : mục đích là nhận diện nhanh để tính toán và nhỏ gọn hơn.Tác giả đề xuất một mô tả Keypoint lấy cảm hứng từ hệ thống thị giác của con người và chính xác hơn là võng mạc, để tạo ra nhanh Keypoint (Freak). Một tác động nối tiếp các chuỗi nhị phân được tính bằng hiệu quả so sánh cường độ hình ảnh trên một mô hình lấy mẫu võng mạc. Qua thực nghiệm cho thấy thuật toán Freak tính toán nhanh hơn với chiếm dung lượng bộ nhớ thấp hơn và mạnh hơn so với SURF hay BRISK. Chúng là những lựa chọn thay thế để cạnh tranh keypoint có sẵn đặc biệt đối với các ứng dụng nhúng.1. Nhận diện Keypoint :Keypoint : Là vị trí (điểm ảnh) được lấy ra trên ảnh. Nghĩa là điểm đó có thể có các đặc trưng bất biến với việc quay ảnh, co giãn ảnh hay thay đổi cường độ chiếu sáng của ảnh. Một giải pháp đầu tiên là xem các góc như là keypoints. Harris và Stephen đã đề xuất phương pháp dò góc Harris. Mikolajczyk và Schmid đã làm cho nó có tỉ lệ không đổi. Một phương pháp khác là sử dụng vùng cực trị trong những phản ứng của các bộ lọc nhất định như những keypoints tiềm năng. Lowe lọc hình ảnh với Difference of Gaussians (DoG). Ebrahimi và Mayol - Cuevas trong quá trình tăng tốc tìm kiếm bằng cách bỏ qua các tính toán của bộ lọc phản ứng nếu phản ứng cho các điểm ảnh trước đó là rất thấp. Sau đó là một thuật toán khá nhanh để xác định vị trí keypoint ,đó là thuật toán BRISK được đề xuất bởi Leutenegger, chúng tìm kiếm toàn bộ trong không gian tỉ lệ bằng cách sử dụng số điểm FAST như một điểm nổi bật. Tác giả cũng dùng một thuật toán giống như vậy để đánh giá thuật toán FREAK của họ.2. Descriptors SIFTKhi keypoint nằm trong vùng, tác giả đang quan tâm đến mô tả các đường nối hình ảnh với một vector tính năng mạnh mẽ. Nổi tiếng nhất là descriptors SIFT. 128 chiều vector được lấy từ một mạng lưới các biểu đồ theo định hướng độ dốc. Nó có khả năng mô tả cao và mạnh mẽ để thay đổi phương chiếu sáng được dùng để mô tả Keypoint trong thập kỷ qua. Một tập hợp của descriptor SIFT đã từng nổi bật trong những năm qua. PCA-SIFT làm giảm kích thước mô tả vector từ 128 về 36 bằng cách sử dụng chính thành phần phân tích. Thời gian nối được giảm , nhưng thời gian để xây dựng các mô tả tăng lên dẫn đến tốc độ tăng lên nhỏ và có sự mất mát về tính khác biệt. Descriptor GLOH là một phần mở rộng của descriptor SIFT có nhiều sự khác biệt, nhưng cũng mất nhiều chi phí để tính toán. Ambai and Yoshida đề xuất Compact And Real-time Descriptors (CARD) nhưng cũng không mang lại hiệu quả. Sau đó người ta dùng SURF, nó nhanh hơn SIFT nhưng đặc điểm vector vẫn có quá nhiều tỉ lệ lớn.3. Difference of Gaussians (DoG)Theo các công bố của Koenderink (1984) và Lindeberg(1994) thì hàm Gaussian là hàm tốt nhất để biễu diễn không gian đo của ảnh 2 chiều. Vì vậy, không gian đo của một ảnh sẽ được định nghĩa như là một hàm L(x,y,σ) được tạo ra bằng cách nhân chập ảnh gốc l(x,y) với môt hàm Gaussian G(x,y,σ) có tham số về số đo σ thay đổi.L(x,y,σ) = G(x,y,σ) * I(x,y)Trong đó toán hạng * là phép nhân chập các ma trận 2 chiều x,y. Và G(x,y, σ) hàm Gaussian :G(x,y,σ) = Để tìm những điểm đặc trưng có tính bất biến cao, thuật toán được sử dụng là tìm cực trị cục bộ của hàm sai khác DoG (Difference-of-Gaussian), kí hiệu là D(x,y,σ ). Hàm này được tính toán từ sự sai khác giữa 2 không gian đo cạnh nhau của một ảnh với tham số đo lệch nhau một hằng số k. D(x,y,σ) = L(x,y,kσ) – L(x,y,σ) = (G(x,y,kσ) – G(x,y,σ)) * I(x,y) Các lý do lựa chọn hàm Gaussian là vì nó là kỹ thuật rất hiệu quả để tính toán L (cũng như làm tăng độ mịn của ảnh), mà L thì luôn phải được tính rất nhiều để mô tả đặc trưng trong không gian đo, và sau đó, D sẽ được tính một cách đơn giản chỉ với phép trừ ma trận điểm ảnh với chi phí thực hiện thấp. Sau khi áp dụng hàm DoG ta thu được các lớp kết quả khác nhau (scale) từ ảnh gốc, bước tiếp theo là tìm các cực trị trong các lớp kết quả theo từng miền cục bộ. Cụ thể là tại mỗi điểm trên các lớp kết quả sẽ được so sánh với 8 điểm lân cận trên cùng lớp và 9 điểm lân cận trên mỗi lớp khác (hình dưới).Quá trình tìm điểm cực trị trong các hàm sai khác DoGTrong hình trên: điểm đánh dẫu x sẽ được so sánh với 26 điểm lân cận (đánh dấu vòng tròn xanh). Điểm này sẽ được lấy làm điểm tiềm năng (điểm có thể làm điểm đặc biệt – candidate keypoint) nếu nó có giá trị lớn nhất hoặc nhỏ nhất so với 26 điểm lân cận như trên.II. Human retina1. Sự phát triển.Trong các tài liệu đã trình bày, tác giả đã thấy rằng thời gian qua đã cho thấy sự tiến bộ trong hình ảnh đại diện đơn giản với cường độ so sánh các cặp của các điểm ảnh có thể đủ tốt để mô tả và phù hợp với các đường nối hình ảnh.Y học đã thực hiện rất nhiều tiến bộ trong việc hiểu hệ thống thị giác và làm thế nào hình ảnh được truyền tới não. Người ta tin rằng võng mạc con người trích ra từ các chi tiết từ các hình ảnh bằng cách sử dụng Difference of Gaussians (DoG) với kích thước khác nhau và mã hóa khác biệt với hành động. Cấu trúc liên kết của võng mạc đóng một vai trò rất quan trọng. Tác giả bắt chước cùng một chiến lược để thiết kế hình ảnh mô tả của họ.2. Sự tương đồng: từ võng mạc tế bào nhận ánh sáng đến các điểm ảnh. Cấu trúc liên kết và mã hóa không gian của võng mạc rất thú vị. Đầu tiên, một số tế bào nhận kích thích ánh sáng ảnh hưởng đến ô trung tâm. Khu vực nơi ánh sáng ảnh hưởng đến các phản ứng của một ô trung tâm là trường tiếp nhận. Kích thước và dạng hình cây của các trường tăng lên với khoảng cách bán kính từ hố nhỏ. Sự phân bố không gian của các ô trung tâm giảm theo hàm mũ với khoảng cách đến các foveal. Chúng được chia thành bốn vùng: foveal , fovea , parafoveal , và perifoveal. Mỗi khu vực đóng một vai trò trong quá trình phát hiện và nhận diện đối tượng kể từ khi độ phân giải cao hơn lấy được trong fovea khi mà một hình ảnh rõ nét được hình thành trong perifoveal. Sự sụt giảm độ phân giải là để tối ưu hóa nguồn lực một vật thể. III. FREAK1. Lấy mẫu retinalNhiều mẫu lưới có thể so sánh cường độ của cặp điểm ảnh. BRIEF và ORB sử dụng cặp ngẫu nhiên. BRISK sử dụng một mô hình vòng tròn có điểm là khoảng cách đều nhau trên vòng tròn đồng tâm, tương tự như DAISY. Tác giả đề xuất sử dụng khung lưới vòng quanh retinal với sự khác biệt của việc mật độ dày đặc ở gần những điểm trung tâm.Mỗi điểm lấy mẫu cần được làm trơn với độ nhiễu ít. BRIEF và ORB sử dụng cùng một nhân cho tất cả đường nối các điểm. Để nối với mô hình retinal, tác giả sử dụng nhiều nhân có kích thước khác nhau cho mỗi điểm mẫu, tương tự BRISK. Sự khác biệt với BRISK là kích thước thay đổi theo cấp số nhân và sự chồng chéo về các trường tiếp nhận. Mỗi vòng tròn đại diện cho độ lệch chuẩn của các nhân Gaussian áp dụng cho các điểm lấy mẫu tương ứng. Hình 1 - minh họa cấu trúc liên kết của các trường tiếp nhậnTác giả đã thử nghiệm và thấy rằng sự thay đổi kích thước của các nhân Gaussian đối với mô hình biểu đồ cực retinal dẫn đến hiệu suất tốt hơn. Ngoài ra, chồng chéo lên các trường tiếp nhận cũng làm tăng hiệu suất. Một nguyên nhân có thể xảy ra là với sự chồng chéo được trình bày trong hình trên là có thêm thông tin được tạo ra. Tác giả cho biết sự dư thừa này mang lại nhiều hiệu năng rõ ràng. Ta xét cường độ Ii đo tại các trường tiếp nhận A, B, và C :IA > IB, IB > IC, and IA > IC (1)Nếu các trường không bị chồng chéo thì kết quả cuối cùng IA>IC ,không có thêm nhiều thông tin rõ ràng. Tuy nhiên, nếu các trường chồng chéo với nhau, một phần thông tin mới có thể được mã hóa. Nhìn chung, thêm phần dư thừa cho phép tác giả sử dụng ít trường tiếp nhận là một chiến lược dùng để nén hoặc từ điển học tập. Theo Olshausen và Field, phần dư thừa cũng tồn tại trong trường tiếp nhận của retinal.2. Hoàn thiện descriptorTác giả xây dựng mô tả nhị phân F bởi các giới hạn của sự khác biệt giữa các cặp của các trường tiếp nhận với nhân Gaussian tương ứng .Nói cách khác, F là một chuỗi nhị phân hình thành bởi chuỗi 1-bit Difference of Gaussians ( DoG ):Pa là một cặp của các trường tiếp nhận, N là kích thước muốn mô tả , vàVới I(PaT 1) là cường độ đều đặn của trường tiếp nhận đầu tiên của cặp PaVới nhiều trường tiếp nhận, hàng nghìn cặp có thể dẫn đến một descriptor lớn. Tuy nhiên, nhiều cặp không có hiệu quả hữu dụng để mô tả một hình ảnh. Một chiến lược có thể chọn cặp khoảng cách cho không gian của chúng tương tự như BRISK. Tuy nhiên, các cặp được lựa chọn có thể liên quan chặt chẽ và không phân biệt. Do đó, tác giả chạy một thuật toán tương tự như ORB để tìm hiểu cặp tốt nhất từ dữ liệu huấn luyện: • Tác giả tạo ra một ma trận D gần 50000 trích từ các keypoint. Mỗi hàng tương ứng với một Keypoint đại diện với descriptor làm bằng tất cả các cặp trong mô hình lấy mẫu retina minh họa trong hình 1. Tác giả sử dụng 43 trường tiếp nhận xấp xỉ 1000 cặp.• Tác giả tính toán giá trị trung bình của mỗi cột . Để có một đặc trưng phân biệt , phương sai cao là cần thiết. Trung bình 0,5 phương sai cao nhất của một số nhị phân sắp xếp.• Tác giả cấp lệnh các cột đối với phương sai cao nhất.• Tác giả giữ cho cột tốt nhất (trung bình 0,5 ) và lặp đi lặp lại các cột liên quan thấp đối với cột được lựa chọn.Đáng chú ý , có một cấu trúc trong các cặp đã chọn . Một thứ tự hoàn thiện của difference of Gaussians (các cặp) được tự động đưa ra. Hình 2 minh họa cặp lựa chọn bằng cách nhóm chúng thành bốn cụm (128 cặp mỗi nhóm). Tác giả thử nghiệm quan sát thấy rằng 512 cặp đầu tiên là phù hợp nhất và thêm nhiều cặp hơn cũng không tăng thêm hiệu suất. Biễu đồ đối xứng lấy được là do định hướng của mô hình chênh lệch dọc theo hình cầu. Điều thú vị là, cụm đầu tiên bao gồm chủ yếu biên trường tiếp nhận trong khi mà những cụm cuối cùng có độ liên quan cao đến trung tâm các trường. Nó dường như là biểu hiện của mắt người. Tác giả lần đầu tiên sử dụng perifoveal trong trường tiếp nhận để ước tính vị trí của một đối tượng quan tâm . Sau đó, sự xác nhận được thực hiện với mật độ phân phối các trường tiếp nhận trong khu vực. Thuật toán được lựa chọn là heuristic,nó phù hợp với quan điểm của tác giả về các mô hình của võng mạc con người. Các bước ghép nối của được tác giả tận dụng để hoàn thiện cấu trúc của decriptor FREAK. Lưu ý rằng trong những thập kỷ qua, chiến lược hoàn thiện thường được kháo sát trong việc phát hiện và kết nối đối tượng. Hình 2 – Minh họa phân tích hoàn thiện.3. Tim kiếm SaccadicCon người không nhìn vào một cảnh đều đặn mà không đổi. Mắt của họ di chuyển xung quanh với các chuyển động riêng lẻ không gián đoạn được gọi là saccades. Các tế bào cấu trúc liên kết có mặt trong võng mạc là một trong những lý do nó chuyển động như vậy. Như đã giải thích trước đó, hố nắm bắt thông tin có độ phân giải cao nhờ các mật độ dày đặc của bộ nhận ảnh. Do đó, nó đóng một vai trò quan trọng trong việc nhận ra và nối các đối tượng. Các perifoveal khu vực lấy được ít thông tin chi tiết, tức là tần suất quan sát thấp. Do đó, chúng được sử dụng để lập đánh giá đầu tiên của các vị trí của các đối tượng mà chúng tôi quan tâm.Tác giả đề xuất để bắt chước tìm kiếm saccadic bằng cách phân tích descriptor của tác giả trong một vài bước. Tác giả bắt đầu bằng cách tìm kiếm với 16 byte đầu tiên của descriptor FREAK miêu tả thông tin kém chất lượng. Nếu khoảng cách này nhỏ hơn một giới hạn, tác giả tiếp tục so sánh với các byte tiếp theo để phân tích thông tin tốt hơn. Kết quả là, một đợt so sánh được thực hiện đẩy nhanh hơn nữa việc kết hợp. Hơn 90% của các ứng cử viên bị loại bỏ 16 byte đầu tiên của descriptor FREAK của chúng tôi . Lưu ý rằng tác giả đã chọn 16 byte đợt đầu tiên để phù hợp với yêu cầu phần cứng. Để so sánh 1 byte hoặc 16 byte là gần như tương đương với Single Instruction and Multiple Data (SIMD ) quy trình trên các bộ vi xử lý của Intel kể từ khi hệ điều hành được thi hành song song.Tác giả minh họa tìm kiếm saccadic trong hình 3. Để mục đích rõ ràng, tác giả mô tả một đối tượng quan tâm với một descriptor FREAK duy nhất của các kích thước của vòng tròn giới hạn của nó ( Hình 3 (a) ). Sau đó, tác giả tìm kiếm cùng một đối tượng trong một hình ảnh mới . Tất cả các ứng cử viên khu vực hình ảnh cũng được mô tả với một descriptor duy nhất với kích thước của khu vực ứng cử viên. Đợt đầu tiên ( 16 byte đầu tiên ) loại bỏ nhiều ứng cử viên và chọn rất ít trong số đó để so sánh với byte còn lại. Trong hình 3(e), đợt cuối cùng đã lựa chọn một cách chính xác vị trí của các đối tượng quan tâm của tác giả mặc dù có những sự thay đổi về độ sáng và điểm nhìn.Hinh 3 –Minh họa phương pháp tiếp cận từng đợt.4. Định hướng Để ước lượng chuyển động quay của các Keypoint, tác giả tổng hợp ước tính độ dốc khu vực thông qua cặp lựa chọn tương tự như BRISK. Loại thứ hai là sử dụng cặp kéo dài để tính toán hình cầu định hướng trong khi mà chúng ta chủ yếu là chọn cặp với trường tiếp nhận đối xứng đối với trung tâm (xem hình 4). Hình 4- Minh họa các cặp được lựa chọn để tính toán định hướngG là tập hợp của tất cả các cặp được sử dụng để tính toán các độ dốc khu vực:Trong đó M là số các cặp trong G và PoTi là vector 2D của các tọa độ trong không gian của trung tâm trường tiếp nhận.Tác giả lựa chọn 45 cặp trái ngược với vài trăm cặp của BRISK. Ngoài ra, mô hình retinal của tác giả có trường tiếp nhận lớn hơn trong vùng perifoveal của BRISK, BRISK cũng thừa nhận có nhiều lỗi hơn trong tính toán định hướng. Do đó, không gian rời rạc định hướng trong các bước lớn hơn nhiều dẫn đến hơn 5 lần tải bộ nhớ nhỏ hơn (khoảng 7 MB đối với 40 MB ).5. Đánh giá hiệu năng.Để đánh giá, tác giả đã thử nghiệm trên 2 môi trường . FREAK: Fast Retina KeypointTìm hiểu và trình bày về descriptor FREAK. (http://www.google.com.vn/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ved=0CB8QFjAA&url=http%3A%2F%2Finfoscience.epfl.ch%2Frecord%2F175537%2Ffiles%2F2069.pdf&ei=-6aIUIzkMcuYiAft5oDoCg&usg=AFQjCNHAbgDDw5CNRcwujx1up9nPlCTd7Q)1.. )http://computer-vision-talks.com/2012/08/a-battle-of-three-descriptors-surf -freak- and-brisk/3. Chương trình demo http://code.opencv.org/svn/opencv/trunk/opencv/samples/cpp /freak_ demo.cpp.I. Giới thiệu