3. Ý nghĩa khoa học và thực tiễn của đề tài
2.1. Phương pháp phát hiện mặt người sử dụng HOG
Phương pháp phát hiện mặt người sử dụng HOG và cách tiếp cận SVM hiện là một trong các phương pháp phát hiện mặt người phổ biến và thành công nhất hiện nay.
Các đặc trưng HOG [5] ban đầu được thiết kế để phát hiện người (human detection) trong dữ liệu ảnh nhưng sau đó được mở rộng và được sử dụng rộng rãi cho các bài toán phát hiện đối tượng nói chung (object detection). Phương pháp HOG dựa trên việc đếm số lần xuất hiện của các hướng đạo hàm (gradient orientation) trong các vùng cục bộ của ảnh.
HOG là một dạng của mô tả đặc trưng. Mô tả đặc trưng có ý nghĩa trong việc tổng quát hóa đối tượng theo một cách khác diễn tả khác để đối tượng tương đồng (trong trường hợp này là mặt người) để có thể có các mô tả đặc trưng gần nhất với nó nhất dù ở trong các điều kiện khác nhau. Với các mô tả đặc trưng công việc phân loại trở nên dễ dàng hơn vì khi đó việc xem xét sự tương đồng của các đối tượng được dựa trên việc tính toán khoảng cách giữa các mô tả đặc trưng, thường được biểu diễn dưới dạng các vector đa chiều.
Bản chất của phương pháp HOG là các thông tin về hình dáng và vẻ bề ngoài của các đối tượng cục bộ trong ảnh có thể được mô tả bằng cách sử dụng thông tin về sự phân bố của các cường độ gradient (intensity gradients) hoặc của các hướng biên (edge directions). Các toán tử HOG được cài đặt bằng cách chia nhỏ một bức ảnh thành các vùng con được gọi là các tế bào (cells) và với mỗi cell đó một histogram về các hướng của gradients sẽ được tính cho các điểm nằm trong cell. Ghép các histogram này lại ta sẽ có một biểu diễn cho bức ảnh ban đầu. Để tăng cường hiệu năng nhận dạng, các histogram cục bộ có thể được chuẩn hóa về độ tương phản bằng cách tính một ngưỡng cường độ trong một vùng lớn hơn của ảnh, gọi là các khối (blocks) và sử dụng giá trị ngưỡng đó để chuẩn hóa tất cả các hình ảnh trong các cell trong khối. Kết quả của bước chuẩn hóa này là vector đặc trưng sẽ có tính bất biến cao hơn đối với các thay đổi về điều kiện ánh sáng.
Phương pháp phát hiện mặt người HOG có thể coi là một phương pháp tương đối đơn giản so với các phương pháp khác. Một trong những nguyên nhân chính của sự đơn giản này là phương pháp đã sử dụng đặc trưng toàn cục để mô tả mặt người chứ không thu thập các đặc trưng cục bộ. Nói một cách đơn giản hơn, mỗi một mặt người trong ảnh sẽ được đại diện bởi một vector đặc trưng.
Phương pháp này sử dụng một cửa sổ phát hiện dạng trượt với kích thước 64x128 di chuyển qua toàn bộ bức ảnh.
Hình 2.2: Minh họa các mẫu cửa sổ tìm kiếm kích thước 64x128
Tại mỗi cửa sổ này, Một mô tả HOG sẽ được tính toán cho cửa sổ tương ứng bằng cách tạo ra các ô kích thước 8x8 trong cửa sổ tìm kiếm. Trong mỗi ô, các
vector gradient cho từng điểm ảnh sẽ được tính toán, vậy nên chúng ta sẽ có 64 vector cho 1 ô kích thước 8x8.
Hình 2.3: Minh họa ô kích thước 8x8 trong cửa sổ tìm kiếm
64 vector này sẽ được đặt vào 9 bin histogram (Khoảng của histogram chạy từ 0-180 và mỗi bin sẽ ứng với 1 vùng giá trị 20 độ). Với mỗi vector gradient, sự đóng góp vào histogram chính là độ lớn của vector. Độ lớn này sẽ được phân chia vào 2 bin gần nhất. Ví dụ 1 vector có góc là 85 độ thì ¼ độ lớn của nó sẽ được thêm vào bin 70 và ¾ độ lớn sẽ được thêm vào bin 90.
Hình 2.4: Minh họa cho HOG
Bước tiếp theo để tính toán vector đặc trưng là chuẩn hóa biểu đồ. Chúng ta có thể nhân 1 lượng bất biến vào các giá trị của điểm ảnh. Điều này có thể dẫn tới việc gia tăng độ tương phản do các điểm ảnh sáng sẽ sáng hơn nhiều trong khi điểm ảnh tối chỉ sáng lên 1 chút.
Hình 2.5: Minh họa cho việc cộng thêm và nhân thêm vào giá trị của từng điểm ảnh
Ngoài ra điều này còn làm gia tăng độ lớn của vector gradient một lượng bằng với lượng chúng ta nhân vào từng điểm ảnh nhưng khi đem chia vector đó cho độ lớn của nó thì kết quả không đổi so với trước khi nhân. Từ đó có thể thấy kết quả của vector gradient chia cho độ lớn của nó bất biến khi thay đổi điền kiện tương phản. Chia vector cho độ lớn của nó có thể quy về chuẩn hóa vector tới độ dài đơn vị vì vector kết quả có độ lớn bằng 1. Chuẩn hóa vector không ảnh hưởng đến hướng mà chỉ ảnh hưởng đến độ lớn.
Hình 2.6: Minh họa cho sự thay đổi giá trị các vector gradient khi có sự thay đổi về ánh sáng
Giá trị của từng bin trong histogram được dựa trên độ lớn của các vector gradient trong ô 8x8. Nếu mỗi ô được nhân với 1,5 chúng ta sẽ có độ lớn của mỗi vector sẽ được nhân lên 1,5. Điều này có nghĩa độ lớn các bin cũng sẽ được nhân lên 1,5. Thông qua chuẩn hóa chúng ta có thể có được sự bất biến trong cách thay đổi ánh sáng này.
Chúng ta thay vì chuẩn hóa từng histogram riêng biệt của từng ô, các ô này trước tiên sẽ được nhóm vào các khối và chuẩn hóa dựa trên tât cả histogram trong khối đó. Các khối ở đây có kích thước 2x2 ô và có 50% bị chồng lấp (Có nghĩa 2 khối có các vùng chung). Việc chuẩn hóa khối này được thực hiện bởi sự móc nối các histogram trong 4 ô của khối vào 1 vector có 36 thành phần (4 biểu đồ x 9 bin). Chia vector này cho độ lớn của chúng để thực hiện chuẩn hóa. Ảnh hưởng của sự chồng lấp các khối là mỗi ô được xuất nhiện nhiều lần trong bộ miêu tả cuối cùng, nhưng được chuẩn hóa bởi tập khác nhau các ô lân cận.
Hình 2.7: Hình ảnh minh họa cho sự gộp các ô để tạo nên các khối có sự chồng lấp.
Cửa sổ kích thước 64x128 được chia làm 7x15 khối, mỗi khối chứa 4 ô với 9 bin cho từng ô nên sẽ có 36 giá trị cho từng khối. Điều này mang tới kích thước cuối cùng của vector là 7 x 15 x 4 x 9 = 3780 giá trị.
Vector đặc trưng này sau đó sẽ được huấn luyện SVM (để phân biệt đây là người hay không phải người). Để phát hiện người với các tỷ lệ khác nhau, hình ảnh sẽ được tạo các mẫu phụ với các kích thước khác nhau để sau đó từng mẫu phụ sẽ được tìm kiếm.
HOG là đặc trưng được dùng nhiều trong lĩnh vực phát hiện đối tượng. Kỹ thuật này được đề xuất bởi Bill Triggs và Navel Dalal vào năm 2005 tại viện nghiên cứu INRIA.
Ý tưởng chính trong đặc trưng HOG là hình dạng và trạng thái của vật có thể được đặc trưng bằng sự phân bố về gradient và hướng của cạnh. Đặc trưng này được phát triển dựa trên SIFT, đặc trưng HOG được tính trên cả một vùng. Do sự biến thiên màu sắc trong vùng là khác nhau, kết quả là mỗi vùng sẽ cho ta một vector đặc trưng của nó. Vì vậy để có được đặc trưng của toàn bộ cửa sổ (window) ta phải kết hợp nhiều vùng liên tiếp lại với nhau.
Đặc trưng HOG có một số biến thể thường gặp như: R-HOG, R2-HOG, C- HOG [6]. Các đặc trưng này khác nhau ở cách phân bố và hình dạng của các ô như trong hình
Hình 2.8: R-HOG và C-HOG [7]
R-HOG: mỗi ô có hình dạng là hình chữ nhật
C-HOG: mỗi ô có dạng hình tròn