Hệ thống phát hiện đối tượng

Một phần của tài liệu (LUẬN văn THẠC sĩ) sinh câu miêu tả cho hình ảnh sử dụng mô hình ngôn ngữ (Trang 35 - 39)

Như ở hình minh hoạ trên, hệ thống nhận vào một ảnh đầu vào sau đó trích chọn ra khoảng 2000 vùng đề cử theo thứ tự từ dưới lên, sau đó tín tốn các vector

đặc trưng cho mỗi vùng sử dụng mạng neural nhân chập CNN, rồi phân loại mỗi

vùng đề cử theo máy vector hỗ trợ tuyến tính riêng biệt SVM.

3.2.1. Đề cử vùng

Đối tượng có thể nằm ở bất kỳ vị trí nào trong ảnh và cũng có kích thước

khác nhau, với cách thức thông thường với một cửa sổ cố định bất kỳ để quét toàn bộ ảnh theo mạng lưới thì chi phí cho một lần thực hiện q lớn [10].

Phương pháp HOG (The Histogram Of Oriented Gradients) là một phương pháp khá phổ biến, sử dụng một cửa sổ trượt trên toàn bộ ảnh theo mạng lưới với tỷ lệ cạnh cửa sổ không đổi. HOG thường được sử dụng như một bước chọn trước trong quá trình phân loại, sau đó sử dụng phân loại tuyến tính với máy vector hỗ trợ SVM, đầu tiên thực hiện quét nhanh qua ảnh sau đó loại bỏ đi những phân

vùng có vẻ như khơng chứa đối tượng, những vùng cịn lại được đánh giá là có chứa đối tượng. Hiệu quả của độ chính xác của phương pháp phụ thuộc vào tập huấn luyện.

Còn một số kỹ thuật khác như BOF (Bag-Of-Features) cũng thực hiện như với phương pháp HOG, kết hợp với máy vector hỗ trợ tuyến tính SVM để phân loại vùng đề cử có đối tượng, vẫn sử dụng cửa sổ trượt kết hợp máy vector hỗ trợ SVM và HOG, hay cịn có nghiên cứu kết hợp phương pháp HOG và BOF, phương pháp này cải thiện khá tốt hiệu năng [12] (hình minh hoạ) tuy nhiên họ tìm kiếm các đối tượng và các thành phần của đối tượng đó.

Hình 3-3. Thống kê kết quả Maximum Recall đối với số lượng cửa sổ trên ảnh giữa phương pháp SVM kết hợp HOG, phương pháp SVM kết hợp BOF, phương Pháp SVM kết hợp HOG và BOF. Kết quả thử nghiệm trên tập dữ liệu

PASCAL VOC 2007 [11].

Thay vì các phương pháp nhận dạng đối tượng nhóm các nhà nghiên cứu đề xuất phương pháp tìm kiếm nhận dạng đối tượng mới trong ảnh là tìm kiếm chọn lọc ( Selective Search ). Đây là phương pháp kết hợp các điểm mạnh của cả tìm kiếm tồn diện và phân đoạn ảnh. Q trình phân đoạn ảnh sẽ phân tích ảnh thành các vùng riêng biệt, những vùng có cùng mức xám hoặc thoả mãn điều kiện thì sẽ

được phân vào một vùng, từ đó tìm ra cấu trúc của ảnh phục vụ q trình xử lý

mẫu. Tìm kiếm tồn diện cho phép chúng ta xác định được vị trí của đối tượng. Phương pháp này giúp giảm thiểu số lượng vùng đề cử, tăng hiệu quả nhận dạng

đối tượng [10].

Tìm kiếm tồn diện

Sử dụng một cửa sổ có kích thước nhất định qt lần lượt tồn bộ hình ảnh, sau đó lựa chọn những vị trí khả thi nhất. Tốc độ, chi phí và chất lượng của tìm kiếm tồn diện phụ thuộc vào cách thức thực hiện.

Như đã nêu trên, phương pháp này kết hợp sử dụng một máy vector hỗ trợ tuyến tính SVM, để phân loại giữa những vùng được nhận dạng là chứa đối tượng và những vùng không chứa đối tượng.

Phân đoạn ảnh

Phương pháp phân đoạn ảnh được sử dụng ở đây là phương pháp phân đoạn

Cho đồ thị vô hướng G(V,E), với các đỉnh 𝑣i ∈ 𝑉 và các cạnh nối các cặp

đỉnh 𝑣i, 𝑣s là 𝑒u ∈ 𝐸. Các đỉnh thuộc tập V cũng chính là các phần tử cần được

phân đoạn. Mỗi cạnh có một trọng số tương ứng 𝑤 𝑣i, 𝑣s , trọng số này có giá trị không âm, thể hiện mỗi tương quan giữa các phần tử liền kề 𝑣i 𝑣à 𝑣s. Ứng dụng trong xử lý ảnh thì các phần tử chính là các điểm ảnh, và trọng số của một cạnh là giá trị tương quan giữa hai điểm ảnh được kết nối bởi cạnh đó, giá trị này có

thể tính theo sự thay đổi giữa cường độ xám, màu sắc, vị trí hay một vài thuộc

tính khác của hai đỉnh [14].

Một phân đoạn S là sự phân chia của các đỉnh V thành các phần tử C, mỗi phần tử C ∈ 𝑆 tương ứng với một liên thông trong một đồ thị G’(V,E’), với 𝐸′ ⊆ E. Mỗi phân đoạn được thể hiện như một tập con của các cạnh thuộc E. Như vậy cạnh giữa hai đỉnh có phần tử tương đồng thường có trọng số thấp, và ngược lại cạnh giữa hai đỉnh có phần tử khác biệt sẽ có trọng số cao.

Thuật tốn phân đoạn ảnh theo đồ thị [14]:

Đầu vào là một đồ thị vô hướng G(V,E), với n đỉnh và m cạnh. Đầu ra là

phân đoạn của các đỉnh V thành các phần tử S = (𝐶E, 𝐶F, … , 𝐶|).

0. Sắp xếp E theo 𝜋 = 𝑜E, 𝑜F, … , 𝑜S , theo thứ tự không giảm theo trọng số của các cạnh.

1. Bắt đầu từ phân đoạn 𝑆D, trong đó mỗi đỉnh 𝑣i nằm trong một phần tử.

2. Lặp lại bước 3 với q =1,2,…,m.

3. Thành lập 𝑆• 𝑡ℎ𝑒𝑜 𝑆•QE, đặt 𝑣i,𝑣s là các đỉnh liên thông bởi cạnh

q-th theo thứ tự. Thí dụ như: 𝑜• = ( 𝑣i,𝑣s ). Nếu 𝑣i và 𝑣s là thành phần khơng liền kề của 𝑠•QE và 𝑤(𝑜•) nhỏ trong điều kiện thì hợp hai thành phần đó lại. Ngược lại thì khơng thực hiện gì cả.

4. Trả về S = 𝑆S

Tìm kiếm chọn lựa theo kỹ thuật nhóm cụm thứ bậc.

Chúng ta lựa chọn sử dụng thuật tốn nhóm cụm thứ bậc hướng hội tụ cho tìm kiếm chọn lựa, vì đây là một phương pháp phân đoạn ảnh khá phổ biến. Từ

các phân vùng khởi tạo nhỏ chúng ta nhóm dần từng vùng nhỏ lại cho đến khi tất cả các vùng đã được nhóm lại thành một nhóm duy nhất.

Các phân vùng khởi tạo được thực hiện theo thuật toán phân đoạn theo đồ thị đã được trình bày ở mục trên. Thủ tục nhóm được thực hiện theo quy trình sau:

Áp dụng phân đoạn theo đồ thị vơ hướng để tạo các vùng khởi tạo. Sử dụng thuật tốn tham lam để nhóm các vùng lại với nhau theo giá trị đo độ tương tự đã được quy định trước. Hai vùng giống nhau nhất sẽ được nhóm lại với nhau, nhóm vùng vừa mới tạo ra sẽ được tiếp tục tính tốn độ tương tự với nhóm khác cùng thứ bậc và liền kề. Quá trình này lặp đi lặp lại cho đến khi tất cả hội tụ thành một nhóm duy nhất [10].

Thuật tốn nhóm theo thứ bậc[10]:

Đầu vào: Ảnh màu

Đầu ra: là tập các đối tượng, giả thiết là L.

0. Tạo các vùng khởi tạo trên ảnh R = (𝑟E, 𝑟F, … 𝑟H) bằng thuật toán phân

đoạn ảnh theo đồ thị.

1. Khởi tạo 1 giá trị độ tương tự S = ∅. 2. Với mỗi cặp vùng láng giềng (𝑟i, 𝑟s):

• Tính tốn độ tương tự s(𝑟i, 𝑟s).

• S = S ∪ s(𝑟i, 𝑟s). 3. Trong khi S ≠ ∅:

• Gán giá trị tương tự cao nhất s(𝑟i, 𝑟s) = max(S)

• Trộn vùng tương tự 𝑟X = 𝑟i ∪ 𝑟s

• Loại bỏ giá trị độ tương tự cùa 𝑟i ra khỏi tập hợp: S = S \ s(𝑟i, 𝑟∗)

• Loại bỏ giá trị độ tương tự của 𝑟s ra khỏi tập hợp: S = S \ s(𝑟∗, 𝑟s)

• S = S ∪ 𝑆X

• R = R ∪ 𝑟X

3.2.2. Trích chọn đặc trưng

Q trình trích chọn đặc trưng được thực hiện trên các phân vùng được đề cử, với vector đặc trưng 4096 chiều sử dụng Caffe, một Deep Learning

Framework của trung tâm nghiên cứu thuộc trường đại học Berkeley.

Các vector đặc trưng cho vùng đề cử được tính tốn thơng qua q trình lan truyền ngược qua 5 lớp mạng neural nhân chập CNN, 2 lớp kết nối đầy đủ, và lớp cuối cùng là lớp nhãn, yêu cầu dữ liệu ảnh đầu vào có kích thước 227 × 227

điểm ảnh RGB (Hình minh hoạ 3-1), do đó dữ liệu ảnh trong phân vùng đó cần

phải được chuyển đổi cho phù hợp, vì vậy mọi dữ liệu ảnh sẽ được chuẩn hố về kích thước 227x227 điểm ảnh.

Một phần của tài liệu (LUẬN văn THẠC sĩ) sinh câu miêu tả cho hình ảnh sử dụng mô hình ngôn ngữ (Trang 35 - 39)

Tải bản đầy đủ (PDF)

(64 trang)