Như đã giới thiệu ở chương đầu của khóa luận. Trong phạm vi nghiêu cứu của khóa luận này, bài toán đề ra sẽ là nhận diện các các đối tượng là các đồ vật thiết bị điện, điện tử trong gia đình trong ảnh số thu được từ camera giám sát.
3.2.1.1 Các đặc điểm và phương pháp đề xuất
Từ các nghiên cứu thực tế và các cơ sở lý thuyết đã có, bài toán đặt ra là nhận diện đối tượng trong ảnh số thu được từ camera, sau đó ảnh này sẽ được truyền trực tiếp tới PPC. Do đó, chúng ta cần phải có một thuật toán nhận diện đồ vật chính xác, và được biệt là thời gian xử lý nhanh để giảm thiểu tối đa độ trễ giữa hình ảnh thật và hình ảnh được truyền tới người dùng. Vậy với bài toán này chúng tôi đã chọn cách tiếp cận theo hướng sẽ đánh dấu các thiết bị, đồ vật cần nhận diện bằng những kí hiệu đặc biệt, để từ đó kết hợp với một bộ luật tương ứng để xác định được chính xác vị trí của đồ vật trong ảnh. Về cơ bản, các kí hiệu đánh dấu sẽ được xây dựng từ sự kết hợp giữa các màu cơ bản theo một quy luật nhất định, quy luật này sẽ khác nhau với các kí hiệu khác nhau, nhằm đảm bảo ta có thể nhận được nhiều đối tượng khác nhau trong cùng một hình.Với cách tiếp cận này, chúng ta cố một số khó khăn gặp phải như sau:
(1) Do cấu tạo của các thiết bị phần cứng (camera, màn hình máy tính...) ảnh màu luôn được biểu diễn dưới dạng lưới các điểm ảnh (pixel) mà mỗi điểm ảnh lại được biểu diễn bởi 3 thành phần màu cơ bản đó là đỏ-xanh lá cây- xanh lam (RGB:
Red- Green - Blue). Đây là cách biểu diễn phù hợp với máy tính tuy nhiên nó lại không thực sự phù hợp với mắt của con người. Người dùng thường khó tưởng tượng được một chút đỏ cộng một chút xanh thì ra màu gì.
(2) Cũng từ cách biểu diễn như trên, với một ví dụ đơn giản, có 2 điểm ảnh có cùng màu đỏ song độ sáng khác nhau, mắt người nhìn có thể đưa ra nhận xét luôn là 2 điểm đó cùng màu tuy nhiên với 2 thành phần RGB thì máy tính sẽ cho 2 điểm đó hoàn toàn khác nhau không có điểm chung gì cả. Đặc biệt là hình ảnh được thu từ camera nên khả năng bức ảnh thay đổi độ sáng vì các yếu tố tự nhiên con người là rất cao.
(3) Việc sử dụng camera để chụp ảnh còn cho ta những sai số về màu sắc nhất định. Trong thực tế bên ngoài nó là màu đỏ nhưng sau khi camera chụp lại nó không còn thực sự là màu đỏ nữa. Điều này là do cấu tạo phần cứng của camera, mỗi một camera khác nhau lại làm cho màu sắc thay đổi theo những chiều hướng khác nhau., điều này ảnh hưởng không nhở đến kết quả nhận diện.
(4) Màu sắc thường thay đổi khi ghi lại bằng camera và khả năng xuất hiện các vùng màu giống trong khung hình cũng dễ xảy ra. Điều này sẽ gây ra nhiều sai số trong quá trình nhận diện.
Để giải quyết một số vấn đề được để cập trên, chúng tôi xin đề xuất hướng giải quyết như sau:
Để giải quyết vấn đề 1) và 2), ta nên sử dụng không gian màu HSV thay vì không gian màu RGB vì một số ưu điểm của nó như sau:
o Thành phần dự liệu về màu sắc của điểm ảnh được tập trung vào giá trị H chứ không còn phụ thuộc vào cả 3 thành phần RGB nên các giá trị và sự so sánh về màu sẽ chính xác hơn.
o Thành phần dự liệu về độ sáng cũng được tập trung vào giá trị V nên khi so sánh ta có thẻ loại đi được phần nào sự ảnh hưởng của việc độ sáng của ảnh thay đối, sai khác do cái yếu tố tự nhiên hay con người gây ra trong quá trình ghi lại hình ảnh của camera.
Để giải quyết vấn đề 3) đòi hỏi chúng ta phải thực hiện những tính toán thực tế trên thiết bị để qua đó tìm ra sự sai khác giữa sự màu sắc thực tế và màu sắc sau khi thu được từ camera, hay nói cách khác chúng ta sẽ có những màu chuẩn trong thực tế
mà tìm phổ của màu này sau khi được ghi lại bằng camera. Và việc nhận diện sẽ được thực hiện dựa trên phổ màu này.
Để giải quyết vấn đề 4) ta cần có những kí hiệu đánh dấu đặc biệt, xác suất có kí hiệu giống như thế là thấp. Tuy nhiên vẫn cần đảm bảo tính đơn giản, dễ làm nên có một cách tương đối tốt là sử dụng kí hiệu đánh dấu là các hình có sự kết hợp bởi các màu khác nhau theo một quy luật nhất định. Khi đó việc nhận diện không chỉ sử dụng màu và còn sử dụng mối quan hệ giữa các cùng màu trong vật được đánh dấu.
3.2.1.2 Thuật toán đề xuất
Từ những nhận xét trên, chúng tôi xin đưa ra mô hình thuật toán nhận diện đối tượng trong ảnh số như sau:
Hình 3.2: Mô hinh thuật toán nhận diện đối tượng trong ảnh số
Các thành phần trong mô hình trên:
CONVERT TO HSV: mô đun tính toán và chuyển dự liệu của ảnh từ không gian màu RGB sang không gian màu HSV.
HSV IMAGE: ảnh được biểu diễn bới hệ màu HSV.
COLOR HISTOGRAMS: phổ của những màu mẫu ứng với camera sử dụng.
TARGET OBJECT: màu đại diện cho đối tượng cần nhận diện.
TARGET RULES: luật kết hợp giữa các màu trong kí hiệu đánh dấu.
COLOR OBJECT DETECTION: mô đun nhận diện đối tượng sử dụng bộ luật
dựa trên màu đặc trưng của nó .
OUTPUT IMAGE: Ảnh sau khi được xử lý, đã xác định được vị trí của đồi tượng cần nhận diện.
Mô tả chi tiết các bước của thuật toán như sau:
Bước 1:
Input: RGB IMAGE Output: HSV IMAGE
Mô tả: Ảnh đưa vào dưới dạng RGB sẽ được chuyển qua thành dạng HSV, theo đó tại mỗi điểm ảnh sẽ có 3 thành phần dữ liệu đó là chỉ số H là chỉ số về màu (từ 0 tới 180 tương ứng với các màu từ đỏ tới tím), S là độ xám (từ 0 tới 255 tương ứng với 0 tới 100%), V là độ sáng (cũng từ 0 tới 255 tương ứng với từ đen tới trắng).
Bước 2:
Input: HSV IMAGE, TARGET COLOR, TARGET RULES, COLOR HISTOGRAMS
Output: OUTPUT IMAGE
Mô tả: Tại bước này, chương trình sẽ dựa vào đối tượng cần tìm (TARGET OBJECT) cùng bộ luật tương ứng với đối tượng đó (TARGET RULES) kết hợp với phổ màu thực tế của camera (COLOR HISTOGRAMS) để tìm ra chính xác bị trí của đối tượng.
Một số bộ luật được đề xuất:
Cách 1: Các kí hiệu đánh dấu sẽ là một hình vuông kết hợp bởi 4 hình vuông nhỏ với các màu sắc khác nhau được sắp xếp có thứ tự(ví dụ: hình 3.3 a)
(a) (b)
Hình 3.3: Một mẫu kí hiệu đánh dấu
Theo đó nhiệm vụ của chúng ta sẽ là tìm ra tọa độ của các điểm nằm trong vùng kí hiệu trên. Việc tìm kiếm sẽ tập trung tìm kiếm vào điểm O là điểm ở chính giữa vùng kí hiệu này. Việc tìm kiếm sẽ được thực hiện theo phương pháp sau:
Ta sẽ duyệt từng điểm trên ảnh, tại mỗi điểm ta sẽ kiểm tra 4 điểm xung quanh nó theo thứ tự sẽ nằm về 4 góc theo phương của các đường phân giác của các góc ở tâm (ví dụ điểm O có 4 điểm xung quanh là P1, P2, P3, P4 trên hình 11 b). Điều kiện kiểm tra 4 điểm này sẽ là chúng phải thuộc 4 màu theo thứ tự đã quy định trước(ví dụ như trong hình 11b, ta phải kiểm tra P1 có là màu đỏ không, P2 có là màu vàng không, P3 có là màu xanh lam không, P4 có là màu xanh rêu không?). Nếu cả 4 điểm đều thỏa mãn điều kiện thì điểm được duyệt được xác nhận là điểm cần tìm kiếm. Tuy nhiên có thể thấy là khi ảnh được chụp bằng camera thì hình ảnh đa phần sẽ không được nét, các điểm gần nhau sẽ thường có độ nhòe nên màu của chúng gần giống nhau, vì thế ta sẽ không kiểm tra 4 điểm ngay sát điểm xét mà sẽ tìm 4 điềm cùng cách điểm cần sét 1 khoảng. Ngoài ra, từ việc kiểm tra như trên, dễ thấy nếu điểm được xét thỏa mãn thì rất có thể điểm bên cạnh của điểm này cũng thỏa mãn, do đó cần có một cách nhóm những điểm gần nhau thư thế lại một vùng. Ở khóa luận này, chúng tôi chọn một cách đơn giản là khi tìm thấy một điểm thỏa mãn sẽ khoanh vùng luôn một hình vuông lớn chứa trọn vẹn kí hiệu cũng như đồ vật cần nhận diện, theo đó nếu những điểm tiếp theo vẫn thuộc hình vuông này sẽ bị bỏ qua. Hơn nữa việc kiểm tra xác định màu chính xác theo thứ tự của 4 điểm xung quanh nên dễ dàng thay đổi thứ tự các điểm để ra một kí hiệu mới. Điều này cho phép đánh dấu được nhiều đối tượng.
Đánh giá: với cách này, việc tạo ra các kí hiệu đánh dấu là khá đơn giản, mà vẫn đảm bảo tính đặc biệt của kí hiệu (xác suất có vật tương tự trong thực tế là không cao). Do đó hiệu quả trong việc đánh dấu và nhận diện.
Cách 2: Các kí hiệu đánh dấu sẽ là một hình vuông có màu sắc thay đổi một cách tuyến tính từ trái sang phải, từ trên xuống dưới (ví dụ: hình 3.4)
Hình 3.4: Mộ mẫu kí hiệu đánh dấu khác
Theo đó nhiệm vụ của chúng ta sẽ là tìm ra tọa độ của các điểm nằm trong vùng kí hiệu trên. Việc tìm kiếm sẽ tập trung tìm kiếm vào nằm ở góc phải dưới của vùng kí hiệu này. Việc tìm kiếm sẽ được thực hiện theo phương pháp sau:
Ta cần sử dụng 2 danh sách, 1danh sách lưu các điểm đã xét theo chiều ngang, 1 danh sách lưu các điểm đã xét theo chiều dọc và một hệ số cố định T. Ta sẽ duyệt từng điểm trên ảnh, tại mỗi điểm ta sẽ kiểm tra điểm bên phải của nó có chỉ số màu (H) lớn hơn chỉ số màu của nó không, nếu lớn hơn đưa điểm này vào danh sách thứ nhất nếu không kiểm tra tiếp độ dài của danh sách có lớn hơn hệ số T chưa, nếu lớn hơn ghi lại như một điều kiện cần, nếu nhỏ hơn bỏ qua xóa hết các phần tử trong danh sách thứ nhất, sau đó kiểm tra tiếp điểm bên dưới nó có chỉ số màu lớn hơn nó không, nếu lớn hơn đưa điểm này vào danh sách thứ 2, nếu không kiểm tra tiếp độ dài của danh sách có lớn hơn hệ số T chưa, nếu lớn hơn ghi lại như một điều kiện cần, nếu nhỏ hơn bỏ qua xóa hết các phần tử trong danh sách thứ hai. Việc tìm kiếm kết thúc khi một điểm thỏa mãn cả 2 điều kiện cần, hoặc duyệt qua hết các điểm ảnh. Ý tưởng chính của cách này là dựa trên nhận xét, xác suất để một điểm có màu tăng liên tục theo cả 2 chiều trong một khoảng liên tục là rất nhỏ.
Đánh giá: với cách này việc tìm kiếm có vẻ đơn giản hơn vì chỉ xét 2 điểm bên phải và bên dưới, xong do đặc điểm của ảnh chụp từ camera hay bị nhiễu nên rủi ro do màu bị biến đổi sai là hay xảy ra dẫn đến khả năng nhận diện bị giảm.
Trên thực tế, sau khi có một số nhận xét đánh giá và so sánh, chúng tôi đã chọn cách thứ nhất để áp dụng trong khóa luận này.
3.2.1.3 Đánh giá
Đánh giá sơ bộ về thuật toán: Mặc dù thuật toán đơn giản xong với giả thiết bài toán đã đặt ra là các màu trong được chỉ định trước đồng thời đã có các thực nghiệm để xác định phổ màu của các màu chỉ định nên có thể tìm tương đối chính xác những điểm màu cần tìm. Việc sử dụng màu sắc kết hợp với một quan hệ giữa chúng sẽ giúp việc nhận diện chính xác hơn. Đối với phạm vi của khóa luận này thì thuật toán trên là khá phù hợp.