Luận văn thạc sĩ Kỹ thuật điện tử: Tái nhận dạng người trong hệ thống nhiều camera giám sát

Mục tiêu của luận văn này là hướng tới là xây dựng hệ thống tái nhận dạng người một cách tự động trong hệ thống camera quan sát không trồng lấp khi đối tượng di chuyển qua lại giữa các t

GIỚI THIỆU CHUNG

Đặt vấn đề

Ngày nay, các hệ thống camera giám sát được phát triển rất rộng rãi Tuy nhiên, sự bùng nổ của hệ thống camera công cộng đặt ra một khó khăn rất lớn đối với người giám sát làm sao để phân tích khối lượng dữ liệu khổng lồ sinh ra từ hệ thống này và vấn đề an ninh do các hệ thống này mang lại cũng ngày càng trở nên quan trọng (Hình 1.1) Đã có rất nhiều công cụ, chương trình để hỗ trợ việc giám sát được đề xuất bởi các nhà nghiên cứu và bước đầu mang lại hiệu quả kinh tế

Hình 1.1: Phòng điều khiển hệ thống camera giám sát [30]

Mục tiêu của luận văn này là hướng tới một trong những vấn được nhiều nhà nghiên cứu quan tâm là theo vết, tìm kiếm lại những đối tượng khả nghi trong hệ thống camera quan sát không chồng lấp

Việc theo dõi một đối tượng khi đối tượng đó xuất hiện trong trường quan sát của camera ra này và xuất hiện lại ở trường quan sát của camera này hay camera khác là nhiệm vụ của bài toán tái nhận dạng Việc theo dõi đối tượng khi xuất hiện trong các trường quan sát của các camera cung cấp cho chúng ta thông tin về số lần vào ra, quá trình di chuyển của đối trượng trong khu vực quan sát, những thông tin này có thể giúp phân tích hoạt động của đối tượng Vấn đề nhận dạng có ý nghĩa quan trọng trong việc giám sát các khu vực công cộng như: nhà ga, sân bay, trường học, … cần nhiều camera quan sát.

Bài Toán nhận dạng

Tái nhận dạng người là xác định lại đối tượng khi đối tượng di chuyển qua nhiều camera khác nhau bằng cách liên kết, so sánh các dữ liệu thu được từ những camera

Nhiệm vụ này được thực hiện bằng cách lấy một hình (hoặc một tập hình) của một đối tượng quan sát được trong một camera và tiến hành trích các đặc trưng mô tả của đối tượng để so sánh với các hình của các đối tượng được quan sát trong camera khác hoặc ở thời điểm khác Tùy theo trường quan sát của các camera, có hai bài toán được đặt ra là:

- Hệ thống camera quan sát chồng lắp (Hình 1.2): Trong hệ thống này trường quan sát của camera chống lắp lên nhau một phần hoặc toàn phần

Hình 1.2: Minh họa môi trường camera giám sát chồng lấp

- Hệ thống camera quan sát không chồng lắp (Hình 1.3): Trong hệ thống này trường quan sát của camera không chống lắp lên nhau, chính vì điều này tạo nên các điểm mù quan sát (Blind spot)

Hình 1.3: Minh họa môi trường camera giám sát không chồng lấp [30]

Khó khăn

Khác với các hệ thống nhận dạng dựa trên những đặc điểm sinh học như khuôn mặt, vân tay, mồng mắt luôn đòi hỏi những quá trình lấy mẫu với độ phân giải và chính xác cao, thì các hệ thống sử dụng camera giám sát chỉ có thể cung cấp những thông tin về hình ảnh với độ phân giải thấp, trong những điều kiện ánh sáng, góc nhìn thay đổi khó kiểm soát Với đặc điểm như vậy, việc nhận dạng và tìm kiếm một đối tượng nào đó chỉ có thể dựa trên đặc điểm bề ngoài của đối tượng Giả thiết rằng các đối tượng sẽ không thay đổi quần áo khi di chuyển qua các camera khác nhau, những thông tin về dáng vẻ bề ngoài của đối tượng như màu sắc và quần áo sẽ được sử dụng cho bài toán nhận dạng Tuy nhiên, bài toán tồn tại những trở ngại ảnh hưởng đến kết quả nhận dạng

Như đã trình bày, một vấn đề quan trọng trong bài toán tái nhận dạng người là điều kiện quan sát giữa các bức ảnh thường khác nhau do sự thay đổi góc nhìn của camera quan sát, số lượng người trong khung ảnh, đối tượng bị che khuất, điều kiện ánh sáng thay đổi hay khoảng cách giữa đối tượng và camera khác nhau Mỗi nhân tố này điều ảnh hưởng đến vẻ ngoài của đối tượng, đồng thời chúng lại thay đổi độc lập với nhau, nghĩa là tất cả đều có thể thay đổi qua các camera khác nhau Điều này là một thách thức không nhỏ đối với bài toán tái nhận dạng vì nó liên quan đến việc tạo lại mối tương quan của cùng một đối tượng khi dáng vẻ bề ngoài của đối tượng bị thay đổi khi di chuyển qua các camera Dưới đây là những nguyên nhân chính gây nên sự thay đổi về dáng vẻ bên ngoài của một đối tượng:

Tư thế và Góc nhìn: Khi một đối tượng di chuyển từ tầm quan sát của camera này sang tầm quan sát của camera khác thì góc nhìn của các camera này sẽ khác nhau, thậm chí khi đối tượng di chuyển thì dáng người đã có sự khác nhau Khi đó, rất nhiều tình huống xảy ra như camera không quan sát được khuôn mặt của đối tượng khi chỉ quay được một bên hoặc sau lưng của đối tượng, việc phân tích dáng đi của đối tượng không dễ dàng hay hình dáng đối tượng bị thay đổi khi camera quay trực diện, sau lưng hay chỉ quay được một bên vai (Hình 1.4) Tất cả đều gây khó khăn cho việc tái nhận dạng đối tượng đó Bên cạnh đó, quần áo đối tượng mặc đôi khi lại có sự khác biệt về màu sắc ở trước và sau

Hình 1.4: Góc nhìn khác nhau [30] Độ phân giải: Khoảng cách từ camera quan sát đến người cũng ảnh hưởng đến vẻ bề ngoài của đối tượng trên hình thu thập từ camera Người ở gần camera quan sát sẽ to lớn hơn và được quan sát nhiều chi tiết hơn những người ở xa camera Khi đó, chỉ thông tin màu sắc thô của quần áo ít bị ảnh hưởng còn những chi tiết đặc biệt có thể bị mất Do đó, khi độ phân giải của camera càng tốt thì càng khắc phục được vấn đề này, tuy nhiên độ phân giải của hầu hết các camera quan sát là có giới hạn (Hình 1.5)

Hình 1.5: Độ phân giải thấp [30]

Sự che khuất: Sự che khuất xảy ra khi có người hoặc vật thể chắn giữa đối tượng và camera quan sát Khi mật độ người đông đúc thì số lượng ảnh bị che khuất sẽ tăng lên vì không gian của cá thể người bị thu hẹp lại Khi đó, việc tách đối tượng ra khỏi nền không dễ dàng, giải thuật sẽ phức tạp hơn và việc tách đối tượng ra khỏi nhiễu không phải lúc nào cũng cho ra kết quả tốt, thêm nữa khi bị che khuất thì hình ảnh của đối tượng đã có sự thay đổi, điều này ảnh hưởng đến kết quả tái nhận dạng (Hình 1.6)

Hình 1.6: Sự che khuất [30] Độ sáng: Khi điều kiện ánh sáng bị thay đổi sẽ ảnh hưởng đến vẻ bên ngoài của đối tượng Những địa điểm trong nhà và ngoài trời sẽ có cường độ sáng khác nhau, điều này tác động đến màu sắc và độ tương phản của khung hình Đối với các camera ngoài trời, được chiếu sáng bởi ánh sáng mặt trời thì sẽ chịu ảnh hưởng của chu kỳ ngày, đêm và thời tiết Ví dụ như một ngày nhiều mây, ít nắng thì ảnh thu được từ camera sẽ có màu nhạt, ngược lại ngày nắng gắt thì ảnh thu được có màu sặc sỡ hơn Trong khi, sự thay đổi về thời tiết này điều có khả năng diễn ra trong ngày đối với một cụm các camera quan sát Ngoài ra, thời tiết lại dễ dàng thay đổi và khó đoán trước trong suốt một ngày, nghĩa là một đối tượng xuất hiện trong một camera cũng sẽ có thể thay đổi theo thời gian Ánh sáng trong nhà thì ổn định hơn, các nguồn sáng thì ít thay đổi trong thời gian ngắn, tuy nhiên các nguồn sáng trong nhà lại đến từ nhiều nguồn khác nhau như: bóng đèn, cửa sổ Điều này chia ra những khu vực có mức độ sáng khác nhau trong căn phòng và chắc chắn cũng sẽ ảnh hưởng đến đối tượng khi di chuyển giữa các khu vực này Và sự thay đổi về độ sáng, về màu sắc sẽ càng rõ ràng khi một đối tượng di chuyển từ các khu vực trong nhà ra bên ngoài

1.3.2 Sự tương đồng về hình dáng bên ngoài

Một khó khăn của bài toán tái nhận dạng người là các đối tượng có vẻ bên ngoài gần như nhau, khi đó việc xác định đối tượng là vô cùng khó khăn, ví dụ như ba đối tượng trên (Hình 1.7) Những người ăn mặc tương tự nhau xuất hiện trong dữ liệu camera quan sát là điều không tránh khỏi, vấn đề này càng phổ biến hơn trong không gian công cộng nơi có số lượng người rất lớn, xác suất những hình dáng tương đồng xuất hiện sẽ càng lớn Điều này nghĩa là, ngoài việc xử lý các điều kiện nêu ở mục 1.3.1 thì các thuật toán nhận dạng cần phải phân biệt được các đối tượng rất giống nhau Đây là một thách thức không nhỏ của bài toán tái nhận dạng người

Hình 1.7: Giống nhau về diện mạo

Nội dung nghiên cứu

• Thực hiện tái nhận dạng dựa trên đặc điểm bề ngoài của đối tượng qua hệ thống camera giám sát với góc bao phủ không chồng lấp: phát hiện đối tượng trong trường của camera và nhận ra lại đối tượng đó trong trường của camera đó hoặc của một camera khác

• Nâng cao khả năng nhận dạng khi góc nhìn, tư thế và điều kiện sáng thay đổi

Luận văn này tập trung nghiên cứu:

- Các đặc trưng mô tả hình dạng con người

- Các giải thuật phục vụ cho bước tái nhận dạng

1.4.3 Đối tượng và phạm vi nghiên cứu

Luận văn này nghiên cứu các nội dung:

- Nghiên cứu phương pháp nhận dạng mà việc được thực hiện một cách tự động thông qua việc tự thu thập các mẫu nhận dạng của hệ thống

- Xây dựng chương trình mô phỏng cho các phương pháp dựa trên bộ dữ liệu

- Đánh giá khả năng nhận dạng của phương pháp dựa trên tỉ lệ nhận dạng.

Tổ chức nội dung

Luận văn được trình bày theo cấu trúc các chương như sau:

Chương 1: Giới thiệu hướng nghiên cứu, mục tiên, những khó khăn và bố cục của đề tài

Chương 2: Giới thiệu về các hướng tiếp cận bài toán tái nhận dạng và thực trạng nghiên cứu trên thế giới Sau đó, trình bày về mô hình bài toán nhận dạng sử dụng ở luận văn này

Chương 3: Trình bày quá trình tiền xử lý cơ sở dữ liệu, giúp dữ liệu ảnh tĩnh của các đối tượng được chuẩn hóa Khi đó việc so sánh các đặc trưng sẽ chính xác hơn Bên cạnh đó, dựa vào sự xuất hiện bên ngoài của đối tượng, phân tách ảnh thành các lưới mô tả đặc trưng cục bộ

Chương 4: Đề cập về các đặc trưng sử dụng để nhận dạng, phương pháp trích các đặc trưng này

Chương 5: Trình bày về cơ sở dữ liệu sử dụng trong đề tài, phương pháp đánh giá kết quả, những kết quả đạt được và hướng phát triển trong tương lai

Chương 6: Trình bày về khả năng ứng dụng và hướng phát triển trong tương lai.

CÁC PHƯƠNG PHÁP TIẾP CẬN

Các phương pháp đã được công bố

Để thực hiện nhận dạng các đối tượng thu được từ các camera quan sát có rất nhiều phương pháp khác nhau, có thể được chia làm hai nhóm cơ bản là nhóm nhận dạng có huấn luyện và nhóm nhận dạng trực tiếp

2.1.1 Nhóm phương pháp dựa trên quá trình huấn luyện Điểm hình là mô hình Vector Support Machine (SVM) hoặc K – Nearest Neighbors (KNN) mô tả trong [25, 13, 26, 9, 8] được sử dụng rộng rãi trong nhận dạng có huấn luyện trong đó:

- Prosser et al [25] xây dựng người tái xác định là một vấn đề xếp hạng, và sử dụng Rank SVMs để thức hiện nhận dạng đối tượng

- Gray et al [13] kết hợp không gian và thông tin màu sắc như một đặc trưng để nhận dạng đối tượng

- Schwartz et al [26] chủ yếu dựa vào các đặc tính cơ bản của đối tượng thu được để thực hiện tái nhận dạng như màu sắc, đường biên, kết cấu của đối tượng kết hợp với công cụ thống kê Partial Least Squares (PLS) để giảm bớt các thông tin dư thừa và tăng tính hiệu quả của quá trình nhật dạng (hình 2.1)

Hình 2.1: Mô tả quá trình nhận dạng trong [26]

- Wei-Shi Zheng et all [29] đưa ra phương pháp nhận dạng dựa trên việc tính khoảng cách xác xuất các đặc tính, phướng pháp này cho phép quá trình nhận dạng được thức hiện hiệu quả nhờ vào việc loại bỏ các đặc tính cứng nhắc của đối tượng

- Dikmen et all [8] thực hiện nhận dạng dựa trên việc tính khoảng cách trực tiếp kết hợp với phương pháp phân lớp KNN Độ chính xác của các phương pháp nhận dạng ở trên phụ thuộc nhiều vào số mẫu huấn luyện và phần lớn các phương pháp đều đòi hỏi các mẫu huấn luyện mới khi có sự thay đổi camera quan sát, đều này thì không thể áp dụng với các hệ thống quan sát công cộng với số lượng đối tượng quan sát rất lớn, và thay đổi thường xuyên Do đó nó đòi hỏi một phương pháp nhận dạng khác mà việc xác định đối tượng không cần sử dụng các mẫu huấn luyện cho quá trình phân lớp Nhóm các phương pháp này sẽ được trình bài ở phần (2.1.2)

2.1.2 Nhóm phương pháp nhận dạng trực tiếp

Một số phương pháp nhận dạng trực tiếp đã được nghiên cứu và phát triển để tái xác định người [10, 21, 27, 11], trong đó:

- Farenzena et al [10] phát triển nghiên cứu của nhóm Bazzani với đề xuất một mô hình Symmetry-Driven Accumulation of Local Features (SDALF), kết hợp nhiều nguồn thông tin: thông tin về màu sắc toàn cục histogram HSV, thông tin về phân bố không gian được ước lượng bằng Maximally Stable Color Regions (MSCR) và thông tin về những vùng ảnh có mật độ thông tin tập trung Tác giả đề xuất, trong giai đoạn đầu, tiến hành tách đối tượng theo các bộ phận (đầu, thân trên, thân dưới, và hai chân) như (Hình 2.2)

Hình 2.2: Minh họa mô hình SDALF

- Ma et al [21] dựa trên việc phát triển mô hình BiCOV bằng cách kết hợp các bộ lọc Gabor và mô tả hiệp phương sai để xử lý thay đổi chiếu sáng và bối cảnh biến thể từ đó tạo ra vector mô tả các đặc tính của đối tượng để tăng khả năng nhận dạng như trong (Hình 2.3)

Hình 2.3: Minh họa quá trình xây dựng vector mô tả các đặc tính của đối tượng theo mô hình BiCOV kết hợp với bộ lọc Gabor

- Wang et al [27], đề xuất sử dụng histogram của các gradient có hướng, kết hợp với thông tin về màu sác để mô tả đặc trưng của người Kỹ thuật này tỏ ra hiệu quả đối với tập dữ liệu của các đối tượng với sự thay đổi nhỏ về góc nhìn Giải thuật dựa trên phân đoạn hình của đối tượng thành nhiều vùng bằng cách sử dụng các tiêu chí về hình thái (từ điển hình thái được học trước) hoặc tiêu chí về diện mạo bên ngoài Các mô tả này hợp thành một ma trận thể hiện mối quan hệ không gian về màu của những vùng này Hình 2.4 minh họa các vùng phân đoạn dựa trên tiêu chí về hình thái hoặc diện mạo

Hình 2.4: Minh họa cơ sở dữ liệu và kết quả phân đoạn giữa hai hình (từ trái qua phải: hình gốc, kết quả phân đoạn dựa trên hình thái, kết quả phân đoạn dựa trên diện mạo)

- Gheissari et al [11] đưa ra phương pháp kết hợp và so sánh các đặc trưng về không gian – thời gian, xem xét 10 khung hình liên tục của từng người, và ước lượng phân đoạn dựa trên vùng Tác giả của bài báo đó, cũng đưa ra một mô hình trực quan hơn, xây dựng lưới tam giác để nắm bắt phân bố không gian của những đặc trưng cục bộ theo thời gian (hình 2.5), điều đó cho phép so sánh chính xác hơn

Hình 2.5: Hai ví dụ về xây dựng mô hình dựa trên lười tam giác

- Bak 2011 et al [1] và Cheng et al [7] khai thác Các đặc trưng hiệp biến, bắt nguồn giai đoạn từ phát hiện đối tượng, được trích thô từ nhiều phần của cơ thể và được lắp ghép lại nhằm mục tiêu giải quyết bài toán tái nhận dạng

Dựa trên cách phân loại, các giải thuật tái nhận dạng cũng có thể phân biệt thành lớp tiếp cận trên từng ảnh đơn (single-shot) với lớp phương pháp trên nhiều ảnh (multiple-shot) Cách phân loại dựa trên từng ảnh đơn tập trung so sánh một cặp ảnh, mỗi ảnh là một minh họa của một đối tượng Còn phương pháp multiple-shot sử dụng nhiều ảnh của một đối tượng để so sánh Với giả thiết là thu thập được nhiều khung hình của từng đối tượng theo dõi Trong thực tế, dữ liệu thu thập được sẽ có độ phân giải, độ che lấp không gian, điều kiện ánh sáng, dáng đi khác nhau và thay đổi

Chúng ta cố gắng khai thác các đặc trưng riêng linh hoạt của từng đối tượng phục vụ cho mục đích tái nhận dạng

Với các cách tiếp cận được trình bày ở 2.1 Cách tiếp cận trực tiếp trên từng ảnh đơn tương ứng với trường hợp có ít thông tin sử dụng nhất Một ảnh đơn của đối tượng được đem so sánh một cách độc lập với hàng trăm ứng viên khác Cách tiếp cận multi- shot dựa trên huấn luyện dữ liệu, đối mặt với một lượng thông tin rất lớn Phương pháp tiếp cận của chúng ta đề xuất nằm trong lớp trực tiếp, và nó linh hoạt, có thể làm việc theo cả hai phương thức single-shot và multiple-shot Nhìn chung thì cách tiếp cận huấn luyện dữ liệu cho hiệu quả cao hơn cách tiếp cận trực tiếp Tuy nhiên, như trình bày ở trên, nó không thực sự thích hợp để ứng dụng trong ngữ cảnh giám sát thực tế.

Mô hình nhận dạng

Bài toán tái nhận dạng như đã trình bày ở mục 2.1 có hai hướng nghiên cứu, tuy nhiên hướng nghiên cứu trực tiếp lại thích hợp nghiên cứu của đề tài Do đó, luận văn này cũng đi theo hướng nghiên cứu trực tiếp, nghĩa là khảo sát độc lập từng đối tượng và tập trung khai thác các đặc trưng bên ngoài để phân biệt đối tượng so với các đối tượng khác

Mô hình nhận dạng mà đề tài thực hiện như sau (Hình 2.6):

- Đầu tiên, ảnh của đối tượng sau khi được tách ra khỏi nền được đưa vào giai đoạn tiền xử lý, sẽ trình bày ở chương 3, nhằm giúp giảm thiểu ảnh hưởng của các thông số về sự thay đổi màu sắc Đồng thời, trong bước tiền xử lý này ảnh của đối tượng sẽ được chia thành nhiều phần nhỏ từ đó cho ra một vector đặc trưng để phục vụ cho nhận dang đối tượng

- Sau khi ảnh của đối tượng qua giai đoạn tiền xử lý, ta sẽ dùng ảnh thu được để áp dụng các giải thuật tách các đặc trưng cục bộ của đối tượng nhằm sử dụng các: thông tin màu sắc cục bộ - histogram và hướng tính của các đặc trưng cục bộ để phục vụ cho quá trình nhận dạng (được trình bày ở chương 3)

- Bước cuối cùng, sau khi đã có các đặc trưng của từng đối tượng ta sẽ so sánh kết quả bằng cách tính khoảng cách giữa các đặc trưng (được trình bài ở chương 4)

Hình 2.6: Sơ đồ khối thực hiện quá trình tái nhận dạng

Tách người ra khỏi ảnh nền

Trích xuất các đặc trưng cục bộ

Xây dựng bảng mô tả khoảng cách giữa các patch

Thực hiện nhận dạng (KNN, OCSVM) Ảnh của đối tượng

Khối xử lý nhận dạng

TIỀN XỬ LÝ

Hiệu chỉnh màu

Việc nhận dạng đối tượng dựa trên đặc điểm bề ngoài của đối tượng giữa nhiều camera khác nhau sẽ trở nên khó khăn khi điều kiện ánh sáng môi trường khác nhau cũng như độ nhạy khác nhau giữa các camera Điều đó làm giảm hiệu suất nhận dạng

Vì vậy hiệu chỉnh màu là một nhiệm vụ quan trọng Có nhiều phương pháp được sử dụng để giảm sự khác nhau đó trong môi trường nhiều camera như hiệu chỉnh liên camera, chuẩn hóa không gian màu (HSV, YCbCr, LAB), chuẩn hóa màu (color constancy),

Trước hết ta sẽ giới thiệu sơ lược về các không gian màu RGB và LAB Đây là hai hệ màu cơ bản khi xem xét các giải thuật xử lý thông tin về màu sắc của một bức ảnh màu

RGB là không gian màu rất phổ biến được dùng trong đồ họa máy tính và nhiều thiết bị kĩ thuật số khác Ý tưởng chính của không gian màu này là sự kết hợp của 3 màu sắc cơ bản: màu đỏ (R, Red), xanh lục (G, Green) và xanh dương (B, Blue) để mô tả tất cả các màu sắc khác

Nếu như một ảnh số được mã hóa bằng 24 bit, nghĩa là 8 bit cho kênh R, 8 bit cho kênh G, 8 bit cho kênh B, thì mỗi kênh này màu này sẽ nhận giá trị từ 0 − 255 Với mỗi giá trị khác nhau của các kênh màu kết hợp với nhau ta sẽ được một màu khác nhau, như vậy ta sẽ có tổng cộng 255 x 255 x 255 = 1.66 triệu màu sắc Ví dụ: màu đen là sự kết hợp của các kênh màu (R, G, B) với giá trị tương ứng (0, 0, 0) màu trắng có giá trị (255, 255, 255), màu vàng có giá trị (255, 255, 0), màu tím đậm có giá trị (64, 0, 128)

Hình 3.1: Không gian màu RGB

Không gian màu LAB, là một không gian màu dựa trên ba số liệu:

- L: (Luminance) Độ sáng của điểm ảnh(0 → 100)

- A: (channel A) biến đổi từ màu lục (-a) đến màu đỏ (+a) có giá trị biến đồi (-100→ 100)

- B (channel B): biến đổi từ màu vàng (-b) đến màu xanh (+b) có giá trị biến đồi (-100→ 100)

Hình 3.2: Không gian màu LAB Ý nghĩa của ba tham số trong hệ màu như sau:

- Kênh L (light): thể hiện độ sáng tối của điểm ảnh có giá trị từ 0 (đen) đến 100 (trắng), ví dụ điểm ảnh màu trắng sẽ có L = 100, a = 0, b = 0

- Kênh A (color channel A): biểu thị vùng màu chuyển đổi từ màu xanh lục sang màu đỏ Ví dụ màu đỏ có giá trị các kênh màu như sau LP, A0, và B = 0

- Kênh B (color channel B): biểu thị vùng màu chuyển đổi từ màu vàng sang màu lam

Các bước chuyển đổi từ không gian màu RGB sang không gian màu LAB

Bước 1: chuyển từ RGB sang CIE XYZ Đặt

1 92 f 2. var R R var R var R var R var R var var var var var var va

12.92 if r var var var var var

Ta tính lại các tham số như sau:

_ _ * 100 var R var R var G var G var B var B

Công thức chuyển đổi như sau:

_ * 0.4124 _ * 0.3576 _ * 0.1805 _ * 0.2126 _ * 0.7152 _ * 0.0722 _ * 0.0193 _ * 0.1192 _ * 0.9505 var R var G var B var R var G var B var R var G var B

Bước 2: chuyển từ CIE XYZ sang CIE LAB Đặt

_Z var X ref X var ref var ref

116 var X var X var X var X var X var X var var var var var var

16 if var var var var var var

Công thức chuyển đổi như sau:

* 200 * _ _ var Y var X var Y var Y var Z

Không gian màu RGB Không gian màu LAB

Hình 3.3: Kết quả chuyển đổi giữa hai không gian màu RGB và LAB

Tách người ra khỏi ảnh nền

Hình ảnh người đi bộ thu được từ các camera thường đi kèm theo các ảnh nền, trong 1 số trường hợp các ảnh nền này khá giống nhau ở hai người đi bộ khác nhau, trong khi ảnh nền của người đi bộ cần nhận dạng thì rất khác làm cho kết quả nhận dạng người đi bộ bị ảnh hưởng khá đáng kể (Hình 3.4) a b c

Hình 3.4: (b) và (c) có ảnh nền khá giống nhau, trong khi (a) và (b) là ảnh của cùng một đối tượng Để giảm ảnh hưởng của ảnh nền trong quá trình nhận dạng, trong phần này luận văn trình bài các phương pháp cơ bản để tách đối tượng ra khỏi ảnh nền và chi tiết phương pháp mà luận văn sử dụng để tách đối tượng ra khỏi ảnh nền

3.2.1 Các phương pháp phân đoạn ảnh

Trong những năm gần đây, có rất nhiều phương pháp, giải thuật phân đoạn ảnh được đưa ra với rất nhiều mục đích khác nhau như: ghép ảnh, tách ảnh trong y sinh, nhận dạng, … Các phương pháp này đã mang lại những lợi ích nhất định với những mục đích cụ thể Sau đây ta xem xét các phương pháp phân đoạn ảnh đã được nghiên cứu và công bố:

 Phương pháp phát hiện cạnh:

Có rất nhiều phương pháp khác nhau trong nhóm này, trong đó phương pháp được nhắc đến khá nhiều trong các tài liệu xử lý ảnh là phương pháp đạo hàm với các toán tử như: Sobel, toán tử Canny, …[2] a b1 b2 c1 c2

Hình 3.5: (a) Ảnh gốc, (b1) và (b2) là đường biên và mặt nạ ảnh được tạo ra tư bộ lọc

Canny, (c1) và (c2) là đường biên và mặt nạ được tạo ra từ bộ lọc Sobel

Với hai ví dụ ở trên ta thấy phương pháp phân đoạn ảnh không mạng lại hiệu quả khi tách đối tượng ra khỏi ảnh nền

Trong phương pháp này việc phân đoạn ảnh được dựa trên một ngưỡng được định nghĩa trước Ngưỡng này được người lập trình định nghĩa trước, hoặc sử dụng một số giải thuật để xác định ngưỡng Phương pháp này tuy đơn giản nhưng lại tỏ ra khá hiệu quả đối với ảnh chỉ có hai mức xám ví dụ như bản số xe (hình 3.6), nhưng nó lại không thể áp dụng cho ảnh đa mức xám

Hình 3.6: (a) Ảnh có 2 mức xám phân biệt, (b) Kết quả phân đoạn dựa trên ngưỡng

Với hình ảnh thu được của các đối tượng từ các camera quan sát thường là các ảnh đa mức xám, vì vậy phương pháp phân đoạn ảnh này không mang lại hiệu quả trong trường hợp của bài toán nhận dạng mà đề tài đưa ra

 Phương pháp đường biên động:

Trong phương pháp này, trước tiên chúng ta định nghĩa một vùng nào đó trên ảnh tạm gọi là mặt nạ, sau đó giải thuật sẽ tính toán lại đường biên dựa trên các hàm năng lượng của vùng bên trong và bên ngoài ảnh (hình 3.7)

Hình 3.7: (a) Ảnh góc, (b) mặt nạ ảnh được định nghĩa trước, (c) mặt nạ ảnh sau khi thực hiện giải thuật

Như ở Hình 3.7 nếu chọn lựa một mặt nạ phù hợp với đối tượng cần tách thì có thể tách ảnh của đối tượng ra khỏi ảnh nền Trong phần tiếp theo của luận văn sẽ trình bài chi tiết phương pháp đường biên động và cách chọn lựa mặt nạ phù hợp với ảnh của người đi bộ

3.2.2 Phân đoạn ảnh theo phương pháp đường biên động

Trong phần này, tôi trình bài giải thuật levetset [31] dùng để phân đoạn ảnh được đề suất sử dụng tách đối tượng ra khỏi nền như sau:

Theo giải thuật này, đầu tiên phải định nghĩa một vùng cục bộ cho ảnh cần phân đoạn (Hình 3.8), tạm gọi là mặt nạ ảnh

Hình 3.8: Một mặt nạ ảnh cho người đi bộ

Gọi C là đường biên của mặt nạ, vùng gần biên sẽ có giá trị gần bằng không sao cho C = {x|ϕ(x)=0}

Trong thực tế để mô tả chi tiết vùng trong (interor) của C tại vùng chuyển tiếp giữa trong và ngoài vùng chọn được sấp xỉ với giá trị hàm Heaviside

Và tương tự là giá trị ngoài vùng C là (1 – HΦ(x))

Những pixel ở đường biên C, hàm H[Φ(x)] sẽ được dùng để tính giá trị dưới dạng hàm Dirac delta Kế tiếp là hàm năng lượng sẽ chỉ tính toán những pixel nào thuộc vùng gần biên Ứng với từng pixel sẽ có vùng cục bộ tương ứng Vùng cục là vùng các pixel lân cận nhau pixel đang xét, ở đây dùng một vòng tròn có phương trình 3.8 (Hình 3.9) [31]:

Hình 3.9: Ứng với 1 pixel theo đường biên sẽ có 1 vòng tròn B(x, y) [31]

(a) Vùng trong tương ứng với công thức B(x, y) H[Φ(x)]

(b) Vùng ngoài tương ứng với công thức B(x, y) {1 – H[Φ(x)]}

Bây giờ hàm B(x, y) sẽ được dùng để định nghĩa một hàm năng lượng F chỉ có tác dụng trong vùng B(x, y)

Mô hình của hàm năng lượng F được trình bài trong [31]

Hình 3.10 cho thấy kết quả của việc phân đoạn ảnh theo phương pháp đường biên động

Hình 3.10: Từ trái qua lần lượt: ảnh cần phân đoạn, mặt nạ được định nghĩa ban đầu, mặt nạ ảnh sau khi chạy giải thuật đường biên động.

Trích xuất các đặc trưng cục bộ (local patch)

Ở phần này trình bài bước quan trọng nhất của quá trình nhận dạng là xây dựng các vector mô tả các đặc trưng cục bộ của đối tượng cần nhận dạng Bước này được thực hiện như sau:

Xây dựng biểu đồ màu (Dense Color Histogram) Mỗi hình ảnh của đối tượng thu được từ các camera quan sát được chia thành các mảng con (local patch) Sau đó tiến hành xác định xác định histogram cho mỗi local patch theo không gian màu LAB

Xây dựng biểu đồ các đặc tính bất biến (dense SIFT), mục đích của việc xây dựng SIFT là để xử lý các ảnh hưởng về thay đổi độ sáng và góc nhìn của đối tượng

Nó được sử dụng như một đặc tính bổ xung cho đặc tính phân phối xác suất màu (color histogram) cho mỗi local patch Mỗi local patch sẽ được chia làm 4×4 với 8 bin hướng tạo thành một vector đặc trưng có 4 × 4 × 8 = 128 phần tử để mô tả cho mỗi local patch

3.3.1 Xây dựng biểu đồ màu (Dense color Histogram)

Việc tạo dense color histogram được thực hiện qua các bước sau:

Bước 1: Cho ảnh thu được đi qua bộ lọc Gauss với hệ số scale = {0.5,

Hình 3.11: Ảnh của đối tượng khi đi qua bộ lọc Gauss với hệ số scale lần lượt là [1, 0.75, 0.5]

Bước 2: Chia ảnh thu được thành các local patch, mỗi patch có kích thước

10 × 10 pixel, với tần số lấy mẫu là 4, với ảnh có kích thước là 48 × 128 chúng ta có khoảng 300 patch trên mỗi ảnh (Hình 3.12)

Hình 3.12: Minh họa quá trình chia ảnh

Bước 3: Tính toán histogram cho mỗi patch với số mức màu là 32 bin

Như vậy với 3 mức scale cho 3 lớp màu LAB với số mức màu là 32 bin, giai đoạn này mỗi patch được đại diện bởi một vector đặc trưng có số chiều không gian là 32×3×3 = 288 chiều (Hình 3.13)

Hình 3.13: Số chiều và giá trị của từng chiều tương ứng với local patch 150

3.3.2 Xây dựng biểu đồ SIFT (dense SIFT)

Việc phân tích này thường phụ thuộc rất ít vào các phép biến đổi cơ bản như xoay, phóng to, thu nhỏ, tăng giảm cường độ sáng … vì vậy có thể xem đây là các đặc trưng mang tính cục bộ của ảnh

Hình 3.14: Mô tả cách tính toán hướng và hướng gradient của mỗi local patch

Bộ mô tả điểm khóa được tạo ra bằng cách: đầu tiên tính toán độ lớn và hướng gradient ở mỗi điểm mẫu trong một vùng xung quanh vị trí điểm khóa, như hình bên trái Các hướng này được gán trọng số bởi một cửa sổ Gaussian, được biểu thị bởi đường tròn phủ ngoài Sau đó các mẫu này được gom lại thành các biểu đồ hướng tóm tắt nội dung trên 4 x 4 vùng con, được thể hiện ở hình phải, với chiều dài mỗi mũi tên tương đương với tổng các cường độ gradient gần với hướng đó trong phạm vi của vùng đó Đầu tiên các độ lớn và hướng gradient ảnh được lấy mẫu quanh vị trí điểm khóa, sử dụng tỉ lệ của điểm khóa để lựa chọn mức mờ Gaussian cho ảnh Để đạt đến sự bất biến về hướng, thì các tọa độ của bộ mô tả và các hướng gradient bị quay có liên quan tới hướng của điểm khóa Để thuận tiện trong việc tính toán bộ mô tả, các gradient phải được tính trước cho tất cả các mức của hình chóp Các gradient này được minh họa bởi các mũi tên nhỏ ở mỗi vị trí mẫu ở hình bên trái của Hình 3.14

Hàm gán trọng số Gaussian với  bằng một nửa chiều rộng của cửa sổ bộ mô tả được dùng để gán một trọng số cho cường độ của mỗi điểm mẫu Điều này được minh họa bằng một cửa sổ hình tròn thể hiện ở hình bên trái của Hình 3.4 Mục đích của cửa sổ Gaussian này là tránh các thay đổi đột ngột trong bộ mô tả khi có các thay đổi nhỏ ở vị trí của cửa sổ, và ít quan tâm đến các gradient ở xa vị trí trung tâm của bộ mô tả

Hình bên phải của Hình 3.4 thể hiện bộ mô tả điểm khóa Nó chú ý đến sự thay đổi đáng kể ở các vị trí gradient bằng việc tạo ra các biểu đồ hướng trên 4 x 4 vùng mẫu Hình này thể hiện 8 hướng cho mỗi biểu đồ, với chiều dài của mỗi mũi tên tương ứng với độ lớn của mỗi entry của biểu đồ Để tránh tất cả các ảnh hưởng biên là điều thật sự quan trọng, ở đó bộ mô tả thay đổi đột ngột vì một mẫu thay đổi liên tục từ một biểu đồ này sang một biểu đồ khác hoặc từ một hướng này sang hướng khác Vì vậy, sử dụng phép nội suy tuyến tính bậc 3 để phân bố giá trị của mỗi mẫu gradient vào các bin biểu đồ gần kề Mặt khác, mỗi entry trong một bin được tăng lên nhiều lần bởi trọng số là 1 – d cho mỗi chiều, trong đó d là khoảng cách của mẫu từ giá trị trung tâm của bin đó được đo dưới dạng các đơn vị của khoảng cách bin biểu đồ

Bộ mô tả được tạo nên từ một vector chứa các giá trị của tất cả các entry của biểu đồ hướng, tương ứng với các chiều dài của các mũi tên ở hình bên phải của Hình 3.4 Hình này thể hiện một mảng 4 x 4 các biểu đồ với 8 bin hướng Vì vậy, một vector đặc trưng có 4 x 4 x 8 = 128 phần tử để mô tả cho mỗi điểm khóa

Tương ứng với 3 lớp màu ta có một bộ mô tả SIFT cho mỗi local path là 1 vector có số chiều là 4 x 4 x 8 x 3 = 384 chiều (Hình 3.15)

Hình 3.15: Mô tả giá trị của vector SIFT với 384 chiều của patch 150

3.3.3 Vector mô tả đặc trưng (dCOLORSIFT) cho mỗi local patch Được định nghĩa như là một vector đặc tính mô tả các đặc tính cục bộ của ảnh thu được Vector này được tạo ra bằng cách kết hợp vector SIFT với vector D Color, tạo thành một vector đặc trưng có tổng số chiều được tính như sau: 32×3×3+128×3 672 chiều (Hình 3.16) value

Hình 3.16: Vector dCOLORSIFT của patch 150 trong hình 3.5

Kết luận

Với những phân tích ở trên, ảnh của mỗi đối tượng được chia thành 10 patch trên mỗi dòng, một ảnh được chia thành 30 dòng như vậy mỗi ảnh có 300 patch

Mỗi patch được đại diện bởi một vector đặc trưng (dCOLORSIFT) có số chiều là 672 chiều

Như vậy mỗi ảnh được đại diện bởi một vector 300 chiều, mỗi chiều là một vector (dCOLORSIFT) valu e

XỬ LÝ NHẬN DẠNG

Xây dựng bảng mô tả khoảng cách giữa các patch

Để đối phó với sự không thẳng hàng giữa các patch ở hai bức ảnh của cùng một đối tượng thu được ở các camera quan sát khác nhau, được thực hiện bằng cách tiến hành tìm kiếm kề hạn chế (Adjacency Constrained Search) Tính năng dColorSIFT trong hình ảnh của đối tượng thu được đại diện như là X m n A , ,p , trong đó (A, p) là patch thứ p-th của đối tượng thu được từ camera A, và (m, n) là vị trí của path tại dòng m-th và cột n-th của hình ảnh p Gọi T A p , (m) là tập hợp của các patch ở dòng thứ m của ảnh P thu được từ camera A và được cho bởi công thức như sau [32]

Tất cả các patch trong tập hợp T A p , (m) có một tập tìm kiếm tương tự S ở dòng tương ứng của ảnh q thu được từ camera B:

Trong đó x B q , là tập hợp các patch của ảnh q thu được từ camera B S là hàm tìm kiếm tương ứng với dòng tương ứng Tuy nhiên, việc tìm kiếm theo dòng tương ứng thường không mang lại hiệu quả cao vì không thể kiểm soát được các góc nhìn của đối tượng quan sát Để đối phó với các biến thể không gian, việc tìm kiếm được nới rộng ra trên các dòng liền kề với dòng tìm kiếm, việc tìm kiếm này được mô tả theo công thức sau

Trong N m     m l  , , , m m l   , m l   0 và m l   M l xác định kích thước không gian thẳng đứng liền kề (các dòng kế cận trên và dưới) Nếu l rất nhỏ, một patch của ảnh này có thể không tìm thấy chính xác trên dòng tương ứng của ảnh khác cùng đối tượng nhưng có góc quan sát khác nhau Nếu l quá lớn, một patch ở phần thân của ảnh p sẽ tìm thấy một patch tương đồng ở phần chân của ảnh q Trong nghiên cứu này, tôi đề xuất trọn l = 2

Adjacency Searching: chỉ đơn giản là thực hiện một tìm kiếm k, gần nhất hàng xóm cho mỗix A p m n , , trong thiết lập tìm S ˆ(x , x ) A p m n , , B q , của mỗi hình ảnh trong tập tài liệu tham khảo Tìm kiếm trả về những người hàng xóm gần nhất cho mỗi hình ảnh theo khoảng cách Euclid với biến đổi Gaussian theo công thức tính như sau:

Trong đó d(x, y)=||x-y|| 2 là khoảng cách Euclid giữa patch x và y với σ là độ lệch chuẩn hàm Gaussian

Ví dụ ta có hai vector đặc trưng cho patch 150 và patch 151 với σ = 1 như (Hình 3.11):

Hình 4.1: dCOLORSIFT của patch 150 và 151 Khi đó ta có d(p150, p151 ) = 2471 4 , S(p150, p151) 1.211 =  10  4 , như vậy hai patch càng giống nhau sẽ có giá trị khoảng cách càng nhỏ, nếu áp dụng hàm kỳ vọng Gauss thì hai patch càng giống nhau càng có giá trị tiệm cận về 1, trong trường hợp lý tưởng hai patch giống nhau hoàn toàn thì giá trị sẽ là 1.

Phân tích giải thuật nhận dạng

Ở phần này trình bài hai phương pháp nhận dạng được áp dụng là KNN [5], OCSVM [14] và cách ứng dụng nó để giải quyết bài toán nhận dạng

Byers et al [5] tìm thấy khoảng cách KNN có thể được sử dụng để loại bỏ sự hỗn loạn Để áp dụng KNN cho tái nhận dạng, luận văn đề xuất tìm kiếm K liền kề cho mỗi test patch ứng với các patch được tạo ra ở [3.2.3]

Tập các hình ảnh tham khảo cho quá trình nhận dạng được cho bởi N r Sau khi các tập nhận vector đặc trưng (dCOLORSIFT) được xây dựng từ ảnh của đối tượng nhận dạng và các đối tượng tham khảo quan sát được từ các camera khác, mỗi vector đặc trưng dCOLORSIFT của ảnh cần nhận dạng x m n A p , , sẽ được so sánh với các vector đặc trưng khác tương ứng của ảnh tham khảo, như vậy mỗi local patch sẽ có Nr vector liền kề tương ứng với Nr các ảnh tham khảo gọi là tập X nn (x A p m n , , ), được cho bởi công thức:

Trong đó S ˆ p q ,  (x S ˆ m n A p , , , x B q , )là hàm tìm kiếm trong công thức (4.3), và s được tính toán dựa theo công thức (4.4) Áp dụng các đề xuất tính toán được nêu ra trong [5] cho tập hợp Xnn (X m n A p , , ) của mỗi test patch, và khoảng cách KNN được sử dụng để xác định các điểm tương đồng theo công thức sau:

Trong đo D k là khoảng cách của k-th liền kề Với Nr ảnh tham khảo, ta chỉ có thể tìm được k các local patch tương ứng có giá trị tham khảo cho quá trình nhận dạng, với k = αNr 0 < α < 1 là tham số tỉ lệ việc lựa chọn tham số này đảm bảo cho tốc độ tính toán và chất lương nhận dạng Nếu tham số α lớn thì chất lượng nhận dạng sẽ rất tốt, nhưng đổi lại kích thước của dữ liệu tham khảo sẽ rất lớn, ảnh hưởng đến tốc độ nhận dạng

Lựa chọn giá trị của k: Mục tiêu của tái nhận dạng là xác định đối tượng là duy nhất Chúng tôi giả định rằng nếu có một người như vậy xuất hiện trong tập dữ liệu tham khảo, hơn một nửa của những người trong tập tài liệu tham khảo có được không giống với anh/cô ấy Với giả định này, k  N r / 2 được sử dụng trong nghiên cứu này

Có một phương pháp khác có thể cho ra kết quả chính xác hơn được trình bài trong mục tiếp theo

4.2.2 One Class Support Vector Machines (OCSVM)

OCSVM được đề xuất trong [14] đã được sử dụng rộng rãi để phát hiện đối tượng nhận dạng Ý tưởng cơ bản của OCSVM là sử dụng một mặt cầu để mô tả các vector huấn luyện và tìm cách đưa hầu hết các vector vào trong không gian này Hàm toán học của không gian này được mô tả như sau:

Trong đó  (X ) i là hàm ánh xạ các vector huấn luyện X i , l là số lượng mẫu đào tạo, R và c là bán kính và tâm của mặt cầu, và v    0,1 là một tham số giới hạn (trade off) Mục tiêu của tối ưu hóa hàm mục tiêu là để giữ cho mặt cầu càng nhỏ càng tốt và bao gồm hầu hết các dữ liệu đào tạo Vấn đề tối ưu hóa có thể được giải quyết trong một hình thức kép bằng phương pháp tối ưu hóa QP [6], và hàm này được mô tả như sau:

Trong đó  i và  j các hệ số Larang, K(X, Y)=exp{-||X-Y|| /2 2  2 } được chọn là hàm phân lớp chính của giải thuật Như được hiển thị trong [6], các chức năng quyết định của hạt nhân một lớp SVM có thể cũng nắm bắt mật độ và phương thức tính năng phân phối

Trong nghiên cứu của luận văn này, giải thuật OCSVM được áp dụng như sau:

Trong đó d là khoảng cách Euclidean giữa local patch.

Nhận dạng đối tượng (Matching for re-identification)

Ở phần này trình bài cách thức sử dụng các kết quả thu được ở mục 4.1 đã trình bài để phục vụ cho quá trình nhận dạng

4.3.1 Tính trọng số kết hợp giữa các local patch

Trước tiên, chúng ta xem xét kết hợp giữa một cặp hình ảnh Như đã đề cập trong phần 4.1, với local patch x m n A p , , là phù hợp với x B q , trong phạm vi tìm kiếm

S  S Việc tìm kiếm liền kề được thực hiện bởi giải thuật sau:

Sau đó tìm kiếm hình ảnh phù hợp tốt nhất trong các hình ảnh thu được của các đối tương quan được từ các camera quan sát khác nhau, việc tìm kiếm này được thực theo công thức:

Trong đó x A p , và x B q , là tập hợp các vector đặc trưng (local patch) trong hai hình ảnh x A p ,  {x A p m n , , }m   , n N , x B q ,  {x B q i j , , }m   , n N , và những nét tương đồng giữa hai hình ảnh được tính theo cơ chế hai chiều

Thông thường, hình ảnh của cùng một người sẽ có nhiều khả năng có phân phối tương tự so với những người khác Như vậy, sự khác biệt giữa các hình ảnh được sử dụng như một đặc điểm để phân biệt các hình ảnh với nhau Trong một khía cạnh khác, để nâng cao giá trị của các local patch tương đồng nghiên cứu này đề xuất một cơ chế xử lý hai chiều như sau:

A p B q m n knn m n knn i j score score score score

Trong đó α là một tham số kiểm soát

4.3.2 Tính toán khoảng cách giữa hai ảnh

Khoảng cách giữa hai hình ảnh có thể được tính như sau:

Kết luận

Với những phân tích ở trên, ứng với mỗi patch của đối tượng chưa định danh ta xây dựng được một tập mô tả khoảng cách từ nó đến các patch của tập ảnh tham khảo cùng dòng với nó

Từ tập khoảng cách trên, ta tiến hành tìm kiếm K liền kề với nó, với K = Nr/2

Sau đó áp dụng công thức 4.13 để xác định khoảng cách giữa hai ảnh cần nhận dạng.

ĐÁNH GIÁ KẾT QUẢ

Cơ sở dữ liệu sử dụng

Đề tài này sử dụng cơ sở dữ liệu [ViPER] để làm cơ sở dữ liệu mô phỏng, đây là cơ sở dữ liệu được sử dụng phổ biến để kiểm tra kết quả của các phương pháp tái nhận dạng đối tượng

Trong cơ sở dữ liệu này chứa đựng hình ảnh của các đối tượng thu được từ các camera A và camera B, mỗi đối tượng được đại diện bởi hai hình ảnh thu được như (Hình 5.1)

Hình 5.1: Hai ảnh thu được của cùng một đối tượng với hai góc nhìn khác nhau

Hai hình ảnh này có góc nhìn và độ sáng khác nhau, nên rất thích hợp cho thì nghiệm trong đề tài này Trong cơ sở dữ liệu này chứa 632 cặp hình, một hình thu được từ camera A và một ảnh khác thu được từ camera B Các ảnh này đều có kích thước 124×48 pixel Các hình ảnh thu được từ camera A có góc nhìn từ 0 0 đến 90 0 , còn camera B có góc nhìn từ 90 0 đến 180 0

Cách thức thí nghiệm

Theo như cách thức được đề suất trong [13], Trong đề tài này tôi thực hiện thí nghiệm như sau: lấy tùy ý 316 cặp ảnh dùng cho mục đích huấn luyện và kiểm tra

Trong thì nghiệm này các hình ảnh ở camera A được sử dụng như là một tập hợp các đối tượng cần được nhận dạng, còn các ảnh ở camera B được sử dụng như là một tập các đối tượng đã được định danh Độ chính xác của bài toán nhận dạng phụ thuộc vào cấu trúc của tập hợp A và B

Nếu A và B càng chứa nhiều thông tin đặc trưng riêng cho từng đối tượng để so sánh thì độ chính xác càng cao, và dĩ nhiên đi kèm với đó, độ phức tạp cũng sẽ tăng lên

Tất cả các kết quả được biểu diễn bằng đường cong CMC (Cumulative Matching Characteristic) Đường cong CMC trình bày tỉ lệ nhận dạng đúng theo thang điểm và nó thể hiện kỳ vọng của việc nhận dạng đúng theo nhóm ứng cử viên đầu.

Kết quả thí nghiệm

Trong phần này, nhóm thực hiện phương pháp đề xuất trên cơ sở dữ liệu từ CAM1 và CAM2 (xem CAM1 là tập A, CAM2 là tập B) đã được tách bằng tay Đồng thời mô tả kết quả thí nghiệm của phương pháp mà nhóm đề xuất trên đường cong CMC

 Trường hợp không sử dụng mặt nạ: Đối với các phương pháp nhận dạng sử dụng KNN, ta có kết quả thí nghiệm được mô tả trên CMC như sau (Hình 5.2):

Hình 5.2: Kết quả mô phỏng trên đường cong CMC với Rank từ 1 đến 316 với KNN

Với phương pháp nhận dạng theo KNN ở Rank = 1 có tỉ lệ nhận dạng là 24.68%, Rank = 5 có tỉ lệ nhận dạng là 47.47%, Rank = 10 có tỉ lệ nhận dạng là 61.08%, Rank

= 20 có tỉ lệ nhận dạng là 72.15%, Rank = 30 có tỉ lệ nhận dạng là 81.65% Đối với các phương pháp nhận dạng sử dụng OCSVM, ta có kết quả thí nghiệm được mô tả trên CMC như sau (Hình 5.3):

Hình 5.3: Kết quả mô phỏng trên đường cong CMC với Rank từ 1 đến 316 với

Với phương pháp nhận dạng theo OSVM ở Rank = 1 có tỉ lệ nhận dạng là 26.27%, Rank = 5 có tỉ lệ nhận dạng là 51.27%, Rank = 10 có tỉ lệ nhận dạng là 62.03%, Rank = 20 có tỉ lệ nhận dạng là 75.32%, Rank = 30 có tỉ lệ nhận dạng là 80.38%

 Trường hợp có sử dụng mặt nạ: Đối với các phương pháp nhận dạng sử dụng KNN, ta có kết quả thí nghiệm được mô tả trên CMC như sau (Hình 5.4):

Hình 5.4: Kết quả mô phỏng trên đường cong CMC với Rank từ 1 đến 316 với

KNN có kết hợp mặt nạ

Với phương pháp nhận dạng theo KNN có kết hợp mặt nạ ảnh ở Rank = 1 có tỉ lệ nhận dạng là 25.95%, Rank = 5 có tỉ lệ nhận dạng là 50.00%, Rank = 10 có tỉ lệ nhận dạng là 62.34%, Rank = 20 có tỉ lệ nhận dạng là 75.95%, Rank = 30 có tỉ lệ nhận dạng là 81.96% Đối với các phương pháp nhận dạng sử dụng OSVM, ta có kết quả thí nghiệm được mô tả trên CMC như sau (Hình 5.5):

Hình 5.5: Kết quả mô phỏng trên đường cong CMC với Rank từ 1 đến 316 với OSVM có kết hợp mặt nạ

Với phương pháp nhận dạng theo OSVM có kết hợp với mặt nạ ảnh ở Rank = 1 có tỉ lệ nhận dạng là 27.53%, Rank = 5 có tỉ lệ nhận dạng là 48.42%, Rank = 10 có tỉ lệ nhận dạng là 63.92%, Rank = 20 có tỉ lệ nhận dạng là 76.27%, Rank = 30 có tỉ lệ nhận dạng là 83.23%

Hình 5.6 kết quả so sánh CMC của SDC_KNN và SDC_OCSM [32] và SDC_KNN_mask và SDC_OCSM_mask

Hình 5.6: Đồ thị biểu diễn tỉ lệ nhận dạng trên đường cong CMC

Bảng 5.1 so sánh kết quả phương pháp nhận dạng mà đề tài đưa ra với các phương pháp đã được công bố khác: SDALF [10], LMNN[29], PCCA[26], SDC_knn [32], SDC_OCSVM [32], và phương pháp cải tiến của [32] có kết hợp mặt nạ ảnh là SDC_knn_mask và SDC_OCSVM_mask

Bảng 5.1: So sánh kết quả nhận dạng với các phương pháp khác

Tiêu đề	Tái Nhận Dạng Người Trong Hệ Thống Nhiều Camera Quan Sát
Tác giả	Trần Thanh Toàn
Người hướng dẫn	TS. Hồ Phước Tiến, TS. Chế Viết Nhật Anh
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Kỹ thuật Điện tử
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2015
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	66
Dung lượng	1,27 MB