Camera giám sát thư viện opencv

Sử dụng thư viện opencv để nhận diện và theo dõi đối tượng sau đó dựa trên đặc trưng của đối tượng để rút trích đặc trưng của đối tượng đó. Các điểm đặc trưng rút trích được sẽ tiến hành so khớp để theo dõi đối tượng

Trang 1

LỜI CẢM ƠN

Đầu tiên em xin chân thành cảm ơn gia đình đã tận tình chăm sóc và ủng

hộ em trong suốt quá trình em đi học đến nay.

Em xin chân thành gửi lời cảm ơn đến các Thầy, Cô ở Khoa Công Nghệ Thông Tin và Truyền Thông nói riêng và toàn thể Thầy, Cô Trường Đại Học Cần Thơ nói chung đã nhiệt tình giảng dạy và truyền đạt cho em những kiến thức mới, chuyên môn giúp em hoàn thành tốt khóa học Đặc biệt em xin chân thành cảm ơn Thầy Đỗ Thanh Nghị - một người Thầy vô cùng tận tâm với công việc

và tận tình với học sinh Trong quá trình em được Thầy hướng dẫn, Thầy đã nhiệt tình giúp đỡ, theo sát chỉ bảo cho em những gì em chưa hiểu, cung cấp những thông tin mới và căn cứ khoa học để em có hướng đúng khi làm luận văn tốt nghiệp

Em xin cảm ơn bạn bè, anh chị đã ủng hộ và giúp đỡ em trong suốt quá trình em làm luận văn Mặc dù đã cố gắng hoàn thành luận văn trong thời gian quy định và đáp ứng theo yêu cầu đặt ra của giáo viên hướng dẫn nhưng chắc chắn sẽ không thể tránh khỏi những sai sót Em mong nhận được sự thông cảm, chỉ bảo và đóng góp của quý Thầy, Cô và các bạn.

Em xin chân thành cảm ơn!

Cần Thơ, ngày 09 tháng 05 năm 2016

Sinh viên thực hiện

Trần Lư Đông Châu

Trang 2

MỤC LỤC

Trang 3

DANH MỤC HÌNH



Hình 2.1: Minh họa các trường hợp λ1, λ2

Hình 2.2: Quá trình tính không gian đo (L) và hàm sai khác D

Hình 2.3: Quá trình tìm điểm cực trị trong các hàm sai khác DoG

Hình 2.4: Quá trình tìm điểm cực trị trong các hàm sai khác DoG

Hình 2.5: Mô tả hướng và độ lớn các đặc trưng

Hình 2.6: Xấp xỉ đạo hàm cấp 2 hàm Gaussian bằng bộ lọc

Hình 2.7: Lọc Haar wavelet để tính sự ảnh hưởng trên 2 hướng x và y

Hình 2.8: Vùng hình tròn xung quanh và hướng đại diện cho các điểm đặc trưng (nguồn: Tài liệu [10])

Hình 2.9: Hình vuông con xung quanh điểm đặc trưng

Hình 2.10: Ví dụ về đốm sáng trên nền tối hơn và đốm tối trên nền sáng hơnHình 2.11: Phép chiếu Homography

Hình 2.12: Góc tính minh họa – ORB descriptor

Trang 4

DANH MỤC BẢNG



Trang 5

KÝ HIỆU VÀ VIẾT TẮT



BRIEF Binary Robust Independent Elementary Features

FLANN Fast Library for Approximate Nearest Neighbors

SIFT Scale-invariant feature transform

TỪ KHÓA



SIFT, SURF, ORB, Flann – based match, Homoraphy, dò tìm, phát hiện, so khớp,Camshift, Meanshift, keypoint, descriptor

Trang 6

TÓM TẮT ĐỀ TÀI



Ngày nay nhu cầu về an ninh và bảo an tài sản đang ngày một gia tăng và việcứng dụng công nghệ cao trong lĩnh vực đảm bảo an toàn tài sản đang ngày càng chứngminh được tính ưu việt và hiệu quả vượt trội, cụ thể, hệ thống camera quan sát đã vàđang được sử dụng vô cùng rộng rãi và ngày càng phổ biến hơn Tuy nhiên, việc sửdụng hệ thống camera quan sát hiện nay còn phụ thuộc nhiều vào sự cộng tác trực tiếpcủa con người Do đó, có đã một số hạn chế và bất cập nhất định Điển hình, trongcùng một thời điểm một lao động không thể quan sát quá nhiều hình ảnh động từ cáccamera đặt ở nhiều vị trí khác nhau, ngoài ra những sai sót đặc trưng của con ngườitrong quá trình làm việc là điều không thể tránh khỏi, chi phí lao động cũng là một hạnchế rõ rệt của hệ thống camera quan sát hiện nay,

Với mong muốn cải thiện phần nào các vấn đề trên, em đã chọn đề tài

“Camera giám sát đồ vật” cho luận văn tốt nghiệp của mình Để tối ưu hoá hệ thống

camera giám sát thế hệ mới, em đã dựa vào việc quét chọn đối tượng cần theo dõi kếthợp với ảnh thu được từ camera quan sát, em trình bày phương pháp dò tìm các điểmđặc trưng của tài sản/đồ vật và mô tả các điểm đặc trưng dựa trên giải thuật ORB –(Oriented Fast and Rotated Brief), sau đó, so khớp các điểm đặc trưng với giải thuậtFlann-based matcher Ảnh thu được qua camera quan sát và đối tượng cần theo dõi sẽđược dò tìm, phát hiện và tính toán các điểm đặc trưng của vùng ảnh vừa quét sau đó

so khớp đặc trưng Sau khi đã so khớp các điểm đặc trưng với nhau và kết hợp với matrận Homography camera sẽ tự động thực hiện việc theo dõi, giám sát đối tượng và đưa

ra các báo động cần thiết mà không cần đến sự hỗ trợ trực tiếp từ con người

Trang 7



The demand of properties surveillance and security are gradually increasingand the applications of artificial intelligent in properties security are continuouslyproving its innovation and outstanding capability, for example, surveillance camerassystems have been being used widely and become more popular However, theoperation of surveillance cameras system still depends much on direct human beingparticipant Therefore, there are some obvious limitations and inconveniences, such as

an employee can not observe many motion pictures from many cameras installed indifferent locations, moreover individual errors during working time are unavoidable,labor cost is also an unexpected issue of current system

Based on the desire of improving the above problems, I have chosen "new-gensurveillance cameras" for my thesis For optimizing new-gen surveillance camerassystem, I has based on selecting and dragging the object, then combine with motionpictures from surveillance camera, I perform the object's keypoints detection methodand describe the keypoints by using ORB algorithm (Oriented Fast and Rotated Brief).After that, matching the keypoints by Flann-based matcher algorithm The motionpictures from surveillance camera and the object will be detected, and define themoments of the patch, then match the keypoints After matching the keypoints andcombine with Homography matrix, the camera will automatically detect, dosurveillance for the object and release needed alert without any participation from laborelement

Trang 8

CHƯƠNG 1: GIỚI THIỆU

Với nhu cầu giám sát và bảo quản đồ vật ngày càng cao hệ thống “Camera giám sát đồ vật” sẽ giúp con người đỡ vất vả hơn trong việc giữ gìn và giám sát đồ

vật Những nghiên cứu trong hệ thống này chủ yếu dựa trên những hình ảnh thu được

từ webcam để phát hiện đối tượng và theo dõi đối tượng đó Tuy nhiên đây cũng là mộtthử thách lớn bởi việc phát hiện và theo dõi đối tượng còn phụ thuộc vào nhiều yếu tốkhác nhau như vị trí, ánh sáng, đặc điểm của đối tượng, v.v Ngoài ra, khi con ngườiquan sát các đối tượng trực tiếp qua camera ghi hình sẽ không thể tránh sự sai sót tronghoạt động giám sát và tránh tốn quá nhiều lao động trong lĩnh vực này

Nhận thấy được tính ứng dụng cao của hệ thống đối với đời sống thực tiễn, đề

tài “Camera giám sát đồ vật” dựa vào sự kết hợp của máy học với giải thuật phát hiện

điểm đặc trưng, rút trích đặc trưng, so khớp các đặc trưng để theo dõi đối tượng Vớimong muốn hỗ trợ giúp đỡ con người có thể hoàn toàn sử dụng máy tính để quản lý đốitượng dựa trên việc quét và chọn đối tượng để theo dõi đối tượng cần theo dõi Có thểnói đây là một hướng nghiên cứu mới nhằm mở ra cho những ý tưởng mang tính sángtạo xung quanh đề tài nhằm phục vụ tốt cho nhu cầu đời sống xã hội ngày nay

1.2. Lịch sử giải quyết vấn đề

Đề tài theo dõi là một đề tài rộng lớn với nhiều phương pháp và đối tượng cầnphải theo dõi Đã có nhiều đề tài luận văn xoay quanh những vấn đề liên quan đến nhậndạng, theo dõi đối tượng như luận văn Thạc sĩ “Nhận dạng mặt người sử dụng giảithuật Haar Like Feature – Cascade of Boosted Classifiers và các đặc trưng Sift” củaChâu Ngân Khánh [1], luận văn “Nhận dạng biển số xe mô tô phục vụ quản lý xe tại

các bãi giữ xe, phân hệ: định vị biển số xe và ký tự với OpenCV” của Nguyễn Trung

Kiên [2], luận văn “Tìm kiếm ảnh theo nội dung sử dụng phân tích ngữ nghĩa tiềm ẩn

Trang 9

Hệ thống camera giám sát đã được sử dụng rộng rãi trên thế giới Ở Việt Nam

đã được ứng dụng rộng rãi trong các siêu thị, các nơi mua sắm ví dụ: khi lấy một sảnphẩm còn gắng một thiết bị trên sản phẩm đó rồi ra khỏi siêu thị khi chưa tính tiền thì

tự động thiết bị trên sản phẩm đó sẽ phát tính hiệu để mọi người phát hiện và nhắcnhỡ…Tuy nhiên với thiết bị như vậy vẫn còn nhiều hạn chế trong việc quản lý đồ vật,

vì vậy với đề tài “Camera giám sát” này hy vọng sẽ cải thiện phần nào trong việc

quản lý đồ vật

1.3. Phạm vi đề tài

Đề tài “Camera giám sát” nghiên cứu tập trung chủ yếu việc theo dõi đối tượng

sau khi được chọn nhờ vào các điểm đặc trưng trong vùng ảnh của đối tượng đượcquét Lý thuyết sẽ tập trung vào những giải thuật để dò tìm phát hiện các điểm đặctrưng, các mô tả điểm đặc trưng và các tính toán dùng để theo dõi đối tượng cụ thể làthuật toán tìm kiếm góc Harris, giải thuật SIFT, SURF, ma trận Homography, giảithuật ORB và một vài giải thuật so khớp như Brute – Force, Flann – based match

Vì chương trình được viết trên Linux bằng ngôn ngữ Python nên cần tập trungtìm hiểu việc lập trình với thư viện OpenCV và lập trình Python trên Linux

1.4. Bố cục luận văn:

Ở những chương sau, báo cáo sẽ được trình bày theo bố cục như sau:

Chương 2: Trình bày cơ sở lý thuyết về mô hình hệ thống camera giám sát baogồm: thuật toán tìm kiếm góc Harris, giải thuật SIFT, giải thuật SURF, ma trậnHomograpy, giải thuật ORB, giải thuật Brute – Force, giải thuật Flann-based match

Chương 3: Trình bày nội dung và kết quả nghiên cứu

Chương 4: Kết luận và hướng phát triển của đề tài

Trang 10

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Thị giác máy tính (Computer Vision)

Thị giác máy tính là một lĩnh vực gồm các phương pháp thu nhận, phân tích, xử

lý, nhận dạng hình ảnh và dữ liệu đa chiều từ thực tế để cho ra thông tin số hoặc biểutượng dùng cho các mục đích nhất định

Ý tưởng được dựa trên thị giác của con người về khả năng nhận dạng và hiểumột hình ảnh Để làm được điều đó, thị giác máy tính áp dụng các mô hình xây dựngdựa trên các ngành lý thuyết học, vật lý, thống kê và hình học

Trong các ứng dụng thị giác máy tính thường được lập trình để giải quyết mộtvấn đề cụ thể nhưng trên cơ bản các phương pháp đều dựa trên sự học (learning) trởnên ngày càng phổ biến Ví dụ các ứng dụng thị giác máy tính như:

• Điều kiển tiến trình (Controlling processes) như rô bốt công nghiệp

• Nhận dạng khuôn mặt (Recognition Face)

• Sự kiểm tra tự động (Automation inspection) như kiểm tra chất lượng sảnphẩm trong các nhà máy, xí nghiệp…

2.2. Thư viện OPENCV

Dự án về OpenCV được khởi động từ những năm 1999, đến năm 2000 nó đượcgiới thiệu trong một hội nghị của IEEE về các vấn đề trong thị giác máy và nhận dạng,tuy nhiên bản OpenCV 1.0 mãi tới tận năm 2006 mới chính thức được công bố và năm

2008 bản 1.1 pre-release mới được ra đời Tháng 10 năm 2009, bản OpenCV thế hệ thứhai ra đời thường gọi là phiên bản 2.0, phiên bản này có giao diện của C++ (khác vớiphiên bản rước có giao diện của C) và có khá nhiều điểm khác biệt so với phiện bảnthứ nhất

Trang 11

2.2.2. Đặc trưng:

Thư viện OpenCV có những đặc trưng cơ bản sau:

- Là thư viện mã nguồn mở dùng trong nhiều ngôn ngữ lập trình như: C/C++,Java, Python

- Được sử dụng rộng rãi, thu hút được một lượng lớn người dùng trong đó cócác công ty lớn như Microsoft, IBM, Sony, v.v

- Chạy độc lập với các nền tảng phần cứng và phần mềm

- Giúp cho việc xây dựng các ứng dụng xử lý ảnh, thị giác máy tính một cáchnhanh chóng hơn

- Tối ưu hóa và xử lý các ứng dụng trong thời gian thực

- OpenCV tập trung vào thu thập ảnh, xử lý ảnh và các thuật toán phân tích dữliệu từ ảnh

2.2.3. Tổ chức:

Thư viện OpenCV bao gồm các module:

- core: gồm các kiểu dữ liệu và các hàm cơ bản để sử dụng các module khác

- improc: bao gồm các giải thuật phân tích, xử lý ảnh như:

• Lọc ảnh tuyến tính (linear) và phi tuyến (non-linear)

• Chuyển đổi hình học (geomatrical image transformation)

• Biểu đồ tầng số (histograms)

- highgui: gồm các hàm về giao diện, sử dụng để đọc, ghi, hiển thị hình ảnh vàvideo; các hàm lắng nghe sự kiện từ chuột và bàn phím,…

- video: gồm các giải thuật phân tích, xử lý video như

• Ước lượng chuyển động (motion estimation)

• Trích xuất nền sau (background subtraction)

• Theo dõi đối tượng (object tracking)

- features2d: gồm các hàm dò tìm đặt trưng nổi bật (salient feature detectors),

mô tả (descriptors) và so khớp (descriptor matchers)

- objdetect: gồm các giải thuật phát hiện đối tượng và các tập dữ liệu để pháthiện một số đối tượng như khuôn mặt, mắt, miệng, con người, xe hơi,…

- ml: gồm các giải thuật máy học như mô hình thống kê, hồi quy, phân loại,gom cụm

Ngoài ra, còn rất nhiều module khác như flann, gpu, photo, stitching,nonfree, contrib, legacy, ocl, superres, viz

Trang 12

2.3. Thuật toán tìm kiếm góc Harris

Về mặt ý tưởng, thuật toán Harris sẽ tìm kiếm sự thay đổi lớn về cường độ xám theocác hướng khác nhau bằng cách dùng một cửa sổ nhỏ để làm nhiệm vụ rà soát và pháthiện những điểm được định nghĩa là “góc”

2.3.2. Thuật toán:

Giả sử ta có một ảnh xám (I), với mỗi điểm (u,v) và độ dịch chuyển (x,y) ta cóthể tính toán sự thay đổi trung bình cường độ xám bằng một cửa sổ dịch chuyển từ(u,v) tới (u+x,v+y) như sau:

S(x,y) = ∑u ∑vw(u,v) (I (u+x,v+y) - I(u,v))2 (2.1)Trong đó:

S(x,y) là tổng số bình phương giá trị độ lệch hay còn gọi là sự thay đổi cường độxám tại (x,y)

w(u,v) là cửa sổ tại (u,v)

I(u,v) và I(u+x,v+y) là giá trị cường độ xám của pixel tại các vị trí (u,v) vàI(u+x,v+y)

Lưu ý rằng, hàm w(u,v) thay vì là hàm nhị phân chỉ trượt được theo 4 hướngnhư trong thuật toán của Moravec [20], thì nay đã đã được thay thế bằng hàm Guassiantrong thuật toán Harris để có thể trượt theo nhiều hướng khác nhau

Giá trị I(u+x,v+y) có thể được khai triển theo công thức Taylor [21] như sau: I(u+x,v+y) ≈ I(u,v) + Ix(u,v)x + Iy(u,v)y(2.2)

Với Ix, Iy làđạo hàm theo thành phần x, y

Từ đó, (2.2) có thể được viết lại như sau:

S(x,y) = ∑u ∑vw(u,v) ( Ix(u,v)x - Iy(u,v)y )2 (2.3)Nếu biểu diễn dưới dạng ma trận thì S(x,y), ta có:

Trang 13

Trong đó, A là một cấu trúc như sau:

(2.5)

Gọi λ1, λ2 là các trị riêng A, k là hằng số và được xác định thông qua thực

nghiệm, thường có giá trị trong khoảng [0.04,…,0.15]

Khi đó, biểu thức dưới đây sẽ quyết định xem cửa sổ w có chứa góc hay không:

(2.6)

Hình 2.1: Minh họa các trường hợp λ 1, λ 2

(nguồn: Tài liệu [9])

Nếu cả λ 1 vàλ 2 đều nhỏ Có nghĩa là hàm S(x,y) gần như không thay đổi theo bất

kì hướng nào Khi đó vùng ảnh nằm trong cửa sổ gần như không có sự thay đổi về

cường độ Tức là trường hợp này không tìm thấy điêm góc Nếu λ 1 là lớn và λ 2 là nhỏ,hoặc ngược lại, thì có nghĩa là S(x,y) có sự thay đổi nhỏ nếu cửa sổ trượt theo mộthướng, và có sự thay đổi đáng kể nếu dịch chuyển theo hướng trực giao Điều này cho

thấy tồn tại một cạnh Nếu λ 1 là lớn và λ 2 đều lớn Khi đó sự dịch chuyển của cửa sổtrượt theo bất kì hướng nào cũng sẽ có sự thay đổi đáng kể về cường độ xám Điều nàybiểu thị cho một điểm góc

Trang 14

2.4. Giải thuật SIFT

2.4.1. Giới thiệu:

SIFT (Scale-invariant Feature Transform) là một thuật toán tiêu biểu và có hiệuquả khá cao Dựa theo các đặc trưng cục bộ bất biến trong ảnh với việc thay đổi tỷ lệảnh, quay ảnh, đôi khi thay đổi điểm nhìn hoặc thay đổi cường độ chiếu sáng của ảnh.Giải thuật SIFT do David G Lowe [5] đưa ra vào năm 2004 và được phát triển mạnh

mẽ đến nay Rút trích đặc trưng ảnh là một bước quan trọng trong so khớp ảnh Ở bướcnày giúp biểu diễn ảnh bằng các đặc trưng quan trọng Đặc trưng này được rút trích ra

từ các điểm đặc biệt cục bộ (keypoint), các điểm này kèm theo các mô tả về nó và mộtvector có lấy keypoint làm điểm gốc

2.4.2. Thuật toán SIFT:

Phương pháp rút trích các đặc trưng SIFT được thực hiện theo các bước sau:

- Bước 1: Dò tìm cực trị trong không gian đo (Scale-space Extrema Detection):

Bước này tiến hành tìm các điểm đặc biệt để trở thành điểm đặc trưng bằngphương pháp lọc theo tầng dựa vào việc thay đổi tham số bộ lọc Gaussian.Trong bước này ta cần dò tìm các vị trí và các số đo (kích cỡ) mà chúng bất biếntrong các khung hình khác nhau của cùng một đối tượng Các vị trí đó bất biến

về số đo có thể được dò tìm bằng cách tìm kiếm các đặc trưng ổn định trên toàn

bộ các số đo có thể, sử dụng một hàm liên tục về số đo vốn rất nổi tiếng có tên

là hàm không gian đo (Witkin 1983) [6]

Theo Koenderink (1984) [7] và Lindeberg (1994) [8] hàm Gaussian là hàmtốt nhất để biểu diễn ảnh không gian 2 chiều Không gian đo của một ảnh sẽđược định nghĩa như một hàm L(x,y,σ) được tạo ra bằng cách nhân chập ảnhgốc I(x,y) với môt hàm Gaussian G(x,y,σ) có tham số về số đo σ thay đổi

L(x,y,σ) = G(x,y,σ) * I(x,y) (2.7)Trong đó toán hạng * là phép nhân chập các ma trận 2 chiều x,y Và G(x,y,σ)

là hàm Gaussian:

G(x,y,σ) = (2.8)

Trang 15

Để tìm những điểm đặc trưng có tính bất biến cao, thuật toán được sử dụng làtìm cực trị cục bộ của hàm sai khác DoG (Difference-of-Gaussian), kí hiệu làD(x,y,σ) Hàm này được tính toán từ sự sai khác giữa 2 không gian đo cạnhnhau của một ảnh với tham số đo lệch nhau một hằng số k.

D(x,y,σ)= L(x,y,kσ) – L(x,y,σ) = (G(x,y,kσ) – G(x,y,σ)) * I(x,y)(2.9)

Các lý do lựa chọn hàm Gaussian là vì nó là kỹ thuật rất hiệu quả để tính toán

L (cũng như làm tăng độ mịn của ảnh), mà L thì luôn phải được tính rất nhiều để

mô tả đặc trưng trong không gian đo, và sau đó, D sẽ được tính một cách đơngiản chỉ với phép trừ ma trận điểm ảnh với chi phí thực hiện thấp

Hình 2.2: Quá trình tính không gian đo (L) và hàm sai khác D

Hơn nữa, hàm sai khác DoG có thể được sử dụng để tạo ra một sự xấp xỉ gầnvới đạo hàm bậc hai Laplace có kích thước chuẩn của hàm Gaussian (σ 2∇2G) dotác giả Lindeberg đề xuất năm 1994 [8]

Trang 16

Mối quan hệ giữa D và σ 2∇2G được biểu diễn như sau:

(2.10)Như vậy, ∇ 2G có thể được tính thông qua việc xấp xỉ sự saikhác hữu hạn tại các tham số đo gần nhau kσ và σ:

(2.11)

Hệ số (k-1) trong phương trình (2.6) là hằng số trong mọi không gian đo nên

nó sẽ không ảnh hưởng đến việc tìm các vị trí cực trị Sau khi áp dụng hàm DoG

ta thu được các lớp kết quả khác nhau (scale) từ ảnh gốc, bước tiếp theo là tìmcác giá trị cực trị trong các lớp kết quả theo từng miền cục bộ Cụ thể là tại mỗiđiểm trên các bước kết quả sẽ được so sánh với 8 điểm lân cận trên cùng lớp và

có 9 điểm lân cận trên mỗi lớp khác

Hình 2.3: Quá trình tìm điểm cực trị trong các hàm sai khác DoG

Trang 17

Trong hình 2.2 điểm đánh dấu x sẽ được so sánh với 26 điểm lân cận (đánhdấu vòng tròn xanh) Điểm này sẽ được lấy làm điểm đặc biệt, nếu nó có giá trịlớn nhất hoặc nhỏ nhất so với 26 điểm lân cận như trên.

- Bước 2: Định vị các điểm đặc trưng (keypoint localization)

Một hàm kiểm tra sẽ được đưa ra để quyết định xem các điểm đặc biệt tiềm năng có được lựa chọn hay không? Ở bước này sẽ loại bỏ các điểm có độ tương phản kém (nhạy cảm với nhiễu) hoặc tính đặc trưng cục bộ ít hơn các điểm kháchoặc có xu hướng là đường biên đối tượng

Bước này thực hiện gồm 3 công đoạn:

• Phép nội suy lân cận cho vị trí đúng các điểm tiềm năng

• Loại trừ các điểm có tính tương phản kém

• Loại bỏ các điểm dư thừa theo biên

Hình 2.4: Quá trình tìm điểm cực trị trong các hàm sai khác DoG

Trang 18

(a) là ảnh gốc (b) mô tả 832 điểm keypoints tìm được, các điểm keypoints được vẽ ở dạng một vector thể hiện 3 thông tin: vị trí, hướng và độ dài (c) sau khi đặt ngưỡng tương phản tối thiểu, ta giữ lại được 729 điểm (d) giữ lại 536 điểm sau khi áp dụng một ngưỡng nữa về hệ số độ cong.

- Bước 3: Xác định hướng cho các điểm đặc trưng:

Bằng việc gán một hướng cho mỗi điểm đặc trưng keypoint dựa vào cácthuộc tính ảnh cục bộ, bộ mô tả keypoint có thể được biểu diễn tương đối so vớihướng này và do đó đạt được tính bất biến đối với các hiện tượng quay ảnh Độ

đo của các điểm đặc trưng được sử dụng để tìm ra một ảnh đã lọc Gaussian Lvới kích thước gần nhất sao cho mọi tính toán sẽ được thực hiện trong cùng mộtcách bất biến về độ đo Với mỗi mẫu ảnh L(x,y) này, gọi m(x,y) là biên độgradient, θ (x,y) là hướng Hai giá trị cuối được tính toán như sau:

(2.13)

- Bước 4: Mô tả hướng cho các điểm đặc trưng:

Các điểm đặc biệt sau khi được xác định hướng sẽ được mô tả dưới dạng vector đặc trưng nhiều chiều Điểm đặc biệt sau khi được xác định hướng sẽ được biểu diễn dưới dạng các vector 4x4x8=128 chiều

Hình 2.5: Mô tả hướng và độ lớn các đặc trưng

(nguồn: Tài liệu [5]) 2.5. Giải thuật SURF

Trang 19

SURF (Speed Up Robust Feature) là một phương pháp phát hiện và mô tả hình ảnh mạnh mẽ, do Herbert Bay [10] đưa ra lần đầu vào năm 2006 Nó được lấy cảm hứng từ SIFT Tuy nhiên SURF nhanh hơn nhiều so với SIFT và nó chống lại sử biến đổi hình ảnh khác nhau tốt hơn SIFT Bộ phát hiện đặc trưng của SURF sử dụng phép xấp xỉ trên ma trận Hessian và ảnh tích hợp (Integral Image) [11] [12] để làm giảm thờigian tính toán một cách đáng kể SURF được mô tả bởi vector có số chiều ít hơn SIFT nên tốc độ so khớp nhanh hơn, tuy nhiên độ bền bững vẫn được bảo đảm

Thuật toán SURF gồm những bước sau đây:

- Bước 1: Xác định điểm nổi bật

Bộ dò này được xây dựng dựa trên ma trận Hessain vì hiệu suất của nó tốt

về thời gian tính toán và độ chính xác, kết hợp với việc sử dụng ảnh tích hợp đểgiảm thời gian tính toán đặc trưng Ma trận Hessain được định nghĩa như sau:

(2.13)

Trong đó Lxx(x,σ) = là tích của đạo hàm bậc hai của hàm

Gaussian với ảnh I tại điểm x(x,y), có tỉ lệ σ

Nếu như SIFT xấp xỉ việc tính Laplacian của hàm Gaussian (LoG) bằngviệc tính sai khác của hàm Gaussian (DoG) thì SURF xấp xỉ việc tính đạo hàmcấp 2 của hàm Gaussian bằng các hộp lọc (box filters) Dưới đây là một ví dụcủa việc tính xấp xỉ đạo hàm cấp hai của hàm Gaussian với hệ số tỉ lệ thấp nhấtbằng hộp lọc:

Trang 20

Hình 2.6: Xấp xỉ đạo hàm cấp 2 hàm Gaussian bằng bộ lọc

Trong hình trên: Ảnh thứ nhất là đạo hàm ma trận đạo hàm cấp 2 Gaussiantheo trục y, ảnh thứ hai theo trục x và trục y Ảnh thứ ba và thứ tư lần lượt là cáchộp lọc xấp xỉ với hai trường hợp của ảnh một và hai Phép tích chập xoắn củaảnh I với các hộp lọc này được thực hiệc rất nhanh bằng việc sử dụng kết hợpvới ảnh tích lũy

Ta xác định vị trí và hệ số tỉ lệ tương ứng của điểm đặc trưng dựa trên địnhthức của ma trận Hessian Công thức tính xấp xỉ định thức ma trận Hessian:

- Bước 2: Gán hướng cho điểm nổi bật

Đầu tiên, ta phải xác định vùng hình xung quanh điểm đặc trưng vừa tìmđược, gán một giá trị hướng duy nhất cho điểm đặc trưng Kích thước của hìnhtròn phụ thuộc vào hệ số tỉ lệ tương ứng trong không gian ảnh mà điểm đặctrưng tìm được

Ở đây các tác giả chọn bán kính của hình tròn là 6s, trong đó s là tỉ lệ mà tại

đó điểm đặc trưng được tìm thấy Hướng của đặc trưng được tính bằng Haarwavelet tác động theo hai hướng x và y (Hình 2.7) Trong đó, vùng tối có trọng

số -1, vùng sáng có trọng số +1 Kích thước của wavelet cũng phụ thuộc vào hệ

số tỉ lệ s, ở đây các tác giả chọn 4s [21]

Trang 21

Hình 2.7: Lọc Haar wavelet để tính sự ảnh hưởng trên 2 hướng x và y

Haar wavelet có thể được tính một cách nhanh chóng bằng cách sử dụng ảnh tích lũy tương tự như hộp lọc xấp xỉ của đạo hàm cấp 2 hàm Gaussian Vector hướng nào trội nhất sẽ được ước lượng và gắn vào thông tin của điểm đặc trưng Hình 2.8 sẽ mô tả hướng và vùng ảnh hưởng của đặc trưng

Hình 2.8: Vùng hình tròn xung quanh và hướng đại diện cho

các điểm đặc trưng (nguồn: Tài liệu [10])

Tiếp theo, ta xây dựng các vùng hình vuông xung quanh điểm đặc trưngmen theo vector hướng vừa ước lượng được ở bước trước đó Vùng hìnhvuông này được chia nhỏ thành 4x4 hình vuông con để ghi nhận thông tin củatrên miền không gian ảnh lân cận Haar wavelet được rút trích trên toàn bộkhông gian điểm ảnh Wavelet tác động trên hai hướng ngang và dọc đượccộng dồn các giá trị dx và dy trên mỗi hình vuông con

Hơn thế nữa, các giá trị tuyệt đối |dx| và |dy| cũng được cộng dồn để lấythông tin về độ lớn của sự thay đổi cường độ sáng trên ảnh Như vậy mỗi hìnhvuông con sẽ được mô tả bởi một vector 4 chiều:

Trang 22

Như vậy vector mô tả cho tất cả 4x4 hình vuông con là một vector 64chiều (4x4x4) (Hình 2.9) Đây cũng chính là mô tả đặc trưng chuẩn củaSURF (hay còn gọi là SURF-64)

Hình 2.9: Hình vuông con xung quanh điểm đặc trưng

- Bước 3: Lập chỉ mục và so khớp

Để lập chỉ mục nhanh chóng trong giai đoạn so khớp, dấu hiệu Laplacian(nghĩa là dấu vết của ma trận Hessian) là bao gồm choc các điểm quan tâm cơbản Dấu hiệu Laplacian khác biệt các đốm màu sáng trên nền tối từ trạng tháinghịch đảo Ở giai đoạn so khớp này, ta chỉ so sánh các đặc trưng nếu nó cócùng kiểu tương phản Do đó cho phép so khớp nhanh hơn mà không làm giảmhiệu suất của bộ mô tả Kỹ thuật này có thể giúp cho quá trình so khớp nhanhgấp đôi trong trường hợp tốt nhất do không phải tốn chi phí tính toán dấu củaLaplacian

Trang 23

Hình 2.10: Ví dụ về đốm sáng trên nền tối hơn và đốm tối trên nền sáng hơn 2.6. Giải thuật ORB (Oriented Fast and Rotated Brief)

ORB - Oriented Fast and Rotated Brief là sự hợp nhất của phát hiện điểm đặctrưng FAST (FAST keypoint detector) và mô tả BRIEF (BRIEF descriptor) [23] vớinhiều sửa đổi để nâng cao hiệu suất, được trình bày bởi Ethan Rublee et al in 2011[13] ORB được sử dụng trong thị giác máy tính như nhận dạng đối tượng hoặc xâydựng lại 3D, nó sử dụng FAST [21] để tìm kiếm những keypoints, sau đó áp dụng thuậttoán tìm kiếm góc Harris Corner để tìm N điểm tốt nhất trong số đó

Sử dụng phương pháp đo lường định hướng góc theo cách đơn giản nhưng hiệuquả Góc độ trọng tâm (intensity centroid [14]) giả định rằng góc độ của đối tượngđược xác định từ sự sai lệch so với tâm điểm của nó, và vectơ này thường được qui vềmột hướng Rosin đo lường cụ thể về lượng cho hình dạng của một tập hợp điểm trongvùng đặc trưng như sau: [13]

Trang 24

Dưới đây là minh họa để giúp giải thích giải thuật ORB

Hình 2.11: Góc tính minh họa – ORB descriptor

BRIEF [23] có một thuộc tính quan trọng mà mỗi bit đặc trưng có một phươngsai lớn và một giá trị trung bình gần bằng 0.5 Nhưng một khi nó được định hướng theohướng keypoint, nó sẽ mất thuộc tính này và trở nên phân tán hơn Phương sai cao làmmột đặc trưng rõ ràng hơn từ đó nó phản ứng lấy vi phân đến đầu vào Một thuộc tínhmong muốn khác nữa là phải có các kiểm tra không tương quan, từ đó mỗi cuộc kiểmtra sẽ góp phần vào kết quả Để giải quyết tất cả các vấn đề trên, ORB chạy một thuậttoán tìm kiếm tham lam trong số tất cả các kiểm tra nhị phân có thể để tìm thấy nhữngkết quả có cả phương sai cao và những giá trị trung bình gần 0,5 nghĩa là không tươngquan Kết quả đó gọi là rBRIEF

Để mô tả so khớp, đa dò tìm LSH [15] đã cải thiện dựa trên các LSH truyềnthống đã được sử dụng ORB nhanh hơn nhiều so với SURF và SIFT và mô tả ORBhoạt động tốt hơn so với SURF ORB là sự lựa chọn tốt trong các thiết bị có công suấtthấp cho ghép ảnh toàn cảnh

2.7. Ma trận Homography

2.7.1. Giới thiệu Homography:

Trong toán học Homography là sự dịch chuyển sử dụng phép chiếu hình học,hay nói cách khác nó là sự kết hợp của cặp điểm trong phép chiếu phối cảnh Ảnh thựctrong không gian ba chiều có thể biến đổi về không gian ảnh bằng phép chiếu thôngqua ma trận biến đổi Homography hay còn gọi là ma trận H Các phép chiếu biến đổithông qua ma trận Homography không đảm bảo về kích thước và góc của vật đượcchiếu, nhưng lại đảm bảo về tỷ lệ Trong lĩnh vực thị giác máy, Homography là mộtánh xạ từ mặt phẳng đối tượng đến mặt phẳng ảnh Ma trận Homography thường có

Trang 25

liên quan đến các công việc xử lý giữa hai ảnh bất kì và có ứng dụng rất rộng rãi trongcác công tác sửa ảnh, ghép ảnh, tính toán sự chuyển động, xoay hay dịch chuyển giữahai ảnh.

Ta có công thức sau:

HX = sX’ (2.17)Trong đó:

2.7.2.1. Phân rã giá trị đơn SVD (Singular Value Decomposition)

Phân rã giá trị đơn SVD [16] [17] là phương pháp đại số được sử dụng nhiều trong các bài toán yêu cầu việc tính toán ma trận vốn sẽ cho ra kết quả sai số lớn nếu như sử dụng các phương pháp thông thường như khử Gauss hay phân tích LU [24]

Phân rã SVD dựa trên định lý đại số tuyến tính sau:

Mọi ma trận có kích thước nào mà có thì đều có thể viết lại

dưới dạng tích của một ma trận trực giao theo cột có kích thước với một matrận chéo có kích thước với số đường chéo là không âm và một ma trận

chuyển vị của một ma trận trực giao có kích thước :

Trang 26

Ma trận và ma trận trực giao theo nghĩa các cột của chúng là trực giao:

(2.19)(2.20)

Trong đó, nếu và bằng 0 nếu Ta cũng có thể biểu diễn dưới dạng ma trận:

(2.21)

Vì là ma trận vuông nên cũng đồng thời là ma trận trực giao theo hàng:

Các phần tử của khác 0 và được gọi là giá trị đơn Theo quy ước, vector đơnđược xác định bằng cách sắp xếp các giá trị đơn theo thứ tự giảm dần

Nếu gọi và là tương ứng các cột của ma trận và , ta có phương trìnhphân tích giá trị đơn của như sau:

(2.22)

là các giá trị đơn của , do đó

Chỉ số giá trị đơn khác 0 cuối cùng trong dãy được kí hiệu là Tức,

Ta có cách tính SVD của ma trận :

Tính và bằng cách chéo hóa ma trận :

(2.23)Sau đó, tính theo công thức:

(2.24)

Trang 27

Cho phương trình , để tìm ra ta sẽ dùng phương pháp giá trị đơn

SVD sẽ được phân tích thành Khi đó, sẽ là cột cuối cùng của ma trận

2.7.2.2. Tính Homography bằng phương pháp Direct Linear Transform

Để tính ma trận Homography từ các căp điểm tương ứng, người ta dùng phươngpháp DLT (Direct Linear Transform) [18], gồm có hai bước: Đầu tiên, từ các cặp điểmtương ứng, ta chuyển về dạng ma trận Sau đó, áp dụng phân rã SVD để tính

ma trận

Phương pháp DLT với các điểm nổi bật được tìm thấy từ thuật toán Harris: Trong tọa độ không đồng nhất, công thức được viết lại như sau:

(2.25)Lần lượt chia dòng thứ nhất của công thức trên cho dòng thứ ba và dòng thứ hai cho dòng thứ ba, ta có:

(2.26)

Viết lại dưới dạng ma trận, ta có:

(2.27)

Với mỗi cặp điểm tương ứng, ta có hai biểu thức Mặt khác, do ma trận là ma

trận có bậc tự do (D.O.F) là 8 nên chỉ cần 4 cặp điểm tương ứng là ta có thể xác địnhđược nó

Áp dụng công thức phân rã SVD cho ma trận , ta có:

(2.28)

Với là các giá trị đơn và được sắp xếp nhỏ dần, nên là giá trị nhỏ nhất Khi

đó, giá trị của bằng giá trị cuối cùng của cột

Theo lý thuyết, với 4 cặp điểm tương ứng sẽ tìm được một ma trận H với D.O.F bằng

8 Tuy nhiên, trong thực tế các ảnh đầu vào có thể có gốc tọa độ ở góc trái của ảnh, cũng có thể gốc tọa độ nằm ở tâm ảnh Nếu để tình trạng như vậy sẽ ảnh hưởng đến cáckết quả biến đổi về sau như khi nhân ảnh với một hệ số hay các biến đổi tương tự,

Định dạng
Số trang	55
Dung lượng	11,72 MB