Mạng phân cấp hướng không gian

Một phần của tài liệu Ứng dụng mạng HTM và mạng ngữ nghĩa để nhận diện đối tượng phức trong ảnh (Trang 54 - 63)

Chúng tôi tạo ra cây phân cấp hướng không gian (Hierarchical Space-based Network - HSBN) để minh họa mô hình bottom-up và top-down phối hợp với nhau trong tập trung thị giác. Mô hình gồm hai thành phần chính. Đầu tiên, những đặc trưng được rút trích từ ảnh ngẫu nhiên được nhận diện. Sau đó, một mạng tri thức được huấn luyện phân cấp thể hiện các kết hợp bộ phận trong không gian thực hiện phán đoán những đặc trưng mới trong tập trung thị giác và điều khiển mắt từ vị trí này đến vị trí khác. Sau đó, sự tập trung chọn lựa những vùng mà thu được nhiều thông tin nhất.

Đối với mỗi đối tượng, nó có một mạng HSBN. Mạng HSBN có dạng cây phân cấp được tạo bởi nhiều tầng như trong Hình 5-13. Những nút lá và các nút trung gian tượng trưng cho các bộ phân đơn mang tính hướng đối tượng và đa bộ phận kết hợp mang tính hướng không gian. Nút đỉnh thể hiện đối tượng nhận dạng. Một nút có hai trạng thái (mở và tắt); trong đó nút lá được nhận dạng bằng HTM-OBN trong khi các nút trung gian là HTM-SBN. Nếu giá trị niềm tin trả về của nút lớn hơn một tham số niềm tin định nghĩa trước BELIEF_THREADS_HOLD thì nút chuyển sang trạng thái mở và truyền tín hiệu kích hoạt này lên nút cha. Nếu nút cha là nút trung gian thì nút cha được kích hoạt nếu mọi nút con liền dưới nó được kích hoạt (trạng thái mở) và chuyển sang chế độ kiểm tra đối tượng bằng HTM-SBN. Nếu nút cha là nút đỉnh thì nó được kích hoạt nếu tồn tại một trong những nút con liền dưới của nó được kích hoạt (như là nút C1 và C2) và việc nhận dạng đối tượng kết thúc. Đối với mỗi nút trung gian, nó có thông tin định vị vị trí (position-allocating information) được định nghĩa trong một bán kính cho trước, thể hiện vị trí tương quan giữa hai kết hợp đa bộ phận trong không gian. Nghĩa là, nếu một bộ phận này được biết thì bộ phận kia được đoán nằm trong vùng bán kính r như Hình 5-14 minh họa.

Chúng tôi sử dụng mạng “Table” để mô tả hoạt động của mạng HSBN. Giả sử rằng A3 và A4 là đầu vào kích hoạt quá trình xử lý HSBN. Chúng được định dạng bằng mạng HTM-SBN tại nút cha B3. Nếu B3 được kích hoạt, trạng thái của nó được truyền lên trên

đến nút C2. Tại bước này, hệ thống chỉ ra rằng nút C2 chỉ được kiểm tra nếu các nút con của B2 được kích hoạt. Bằng việc sử dụng thông tin định vị vị trí tại nút B2, hệ thống có thể xác định A2 trong bán kính định trước r2 từ trọng tâm A3 trong ảnh thật và nhận dạng nó bằng việc sử dụng HTM-OBN. Kế đến, kết hợp không gian của A2 và A3 được nhận dạng tại nút B2 bằng HTM-SBN. Nếu nút B2 được kích hoạt, trạng thái của nó cùng với trạng thái B3 truyền lên C2 và C2 chuyển sang nhận dạng kết hợp không gian của B2 và B3 bằng HTM-SBN. Nếu C2 được kích hoạt, trạng thái của nó sẽ gửi lên nút đỉnh “Table”. Quá trình nhận dạng kết thúc và đối tượng “Table” được nhận dạng chính xác. Bên cạnh đó, mạng HSBN cũng thể hiện rằng còn có một con đường khác để nhận dạng cái bàn là sử dụng đường đi từ C1 đến nút đỉnh.

Nếu nút đỉnh được kích hoạt / không kích hoạt, giá trị niềm tin của mạng HSBN được tính là giá trị trung bình tổng của tất cả niềm tin từ các nút được kích hoạt / tất cả các nút tương ứng. N Node Belief Belief N i i HSBN    1 ) ( (19) Mạng HSBN thể hiện các chức năng sau:

 Hướng đối tượng, tại tầng cuối, xảy ra trước hướng không gian, tại tầng giữa trong tập trung thị giác. Tính hướng đối tượng và hướng không gian được nhận dạng bằng mạng HTM-OBN và HTM-SBN tương ứng.

 Đối với thông tin đi lên (bottom-up), việc nhận dạng các bộ phận hay đa bộ phận thể hiện điều đang tồn tại và đang xảy ra. Đối với thông tin đi xuống (top-down), các bộ phận được phán đoán sẽ tồn tại trong bước kế tiếp.

Tổng quan, mạng HSBN là một mô hình bổ sung tri thức cho mạng HTM để thực hiện tập trung thị giác ở bước sau nhằm giả lập mô hình bottom-up và top-down trong tập trung thị giác. Đây là một sự cải tiến cho mô hình OBN-SBN và SBN-OBN.

Hình 5-12: Mạng HSBN của đối tượng “Table”

Hình 5-13: Vị dụ minh họa thông tin xác định vị trí (P1,P2:r1) tại nút B1

5.4.2 Mô tả kiến trúc hệ thống

Tách bộ phận dựa vào màu

Chuyển ảnh nhị phân và dịch chuyển ảnh xoay trọng tâm

Bộ phận 1 .. Bộ phận K

Tấm ảnh

HTM-OBNs

Chọn ngẫu nhiên RANDOM_PARTS (K<=N) bộ phận đặc trưng mạnh G ia i đ oạ n 1 G ia i đ oạ n 2 G ia i đ oạ n 3 G ia i đ oạ n 4

Phán đoán và nhận dạng đối tượng bằng mạng HSBN tương ứng của mỗi đối tượng

HTM-SBN P1_P2 HTM-SBN P1_P3 HTM-SBN P2_P3 Mạng HSBN của đối tượng HTM-SBN P1_P2_P3 Object

Lấy m đối tượng (m<=4): O1, O2, .., Om HTM-OBN P1 HTM-OBN P2 HTM-OBN P3 Tập ảnh bộ phận 1 .. bộ phận KTập ảnh Computer-

Ứng viên 1..N Ứng viên 1..NTable-

Telephone- Ứng viên 1..N

Bộ phận 1 .. Bộ phận M

Chọn ứng viên tốt nhất cho mỗi đối tượng

Chair- Ứng viên 1..N

Một tấm ảnh được đưa vào mô hình sẽ trãi qua bốn giai đoạn sau:  Giai đoạn 1. Tiền xử lý ảnh

Tấm ảnh đầu vào được tách ra thành nhiều bộ phận khác nhau dựa vào màu. Kế tiếp, chúng tôi chọn lọc ngẫu nhiên một số lượng bộ phận có đặc trưng mạnh (màu đỏ được xem có độ ưu tiên cao nhất; những màu còn lại được chọn ngẫu nhiên) thông qua thông

số RANDOM_PARTS. Cuối cùng, chúng được dịch chuyển bộ phận quanh trọng tâm

trong một bán kính cho trước RADIUS_CENTER.

Chúng tôi chọn RADIUS_CENTER = 2. Vì vậy, số ảnh tạo ra khi xoay quanh trọng tâm là 9 như trong mô hình OBN-SBN hình 5-9.

Giai đoạn 2. Nhận dạng các bộ phận của đối tượng

Chúng tôi nhận dạng các bộ phận của đối tượng dựa trên tập ảnh xoay quanh trọng tâm của chúng tạo ra ở giai đoạn 1. Chúng được đưa qua mạng HTM-OBNs để tìm những ứng viên tốt nhất cho từng đối tượng của hệ thống.

} TS RANDOM_PAR .. 1 }, 9 .. 1 ), ( {max{ ) (OOBNO Segij ji (20)  Giai đoạn 3. Áp dụng mạng HSBN.

Ứng với mỗi đối tượng, chúng tôi sử dụng tất cả ứng viên tốt nhất từ giai đoạn 2 là các nút đầu vào để kích hoạt mạng HSBN tương ứng.

Điều khiển bottom-up: Hệ thống sử dụng các mạng HTM-OBN và HTM-SBN để

nhận dạng các bộ phận đơn hay các kết hợp đa bộ phận tương ứng. Trước khi ảnh được nhận dạng bằng mạng HTM thì nó được dịch chuyển xung quanh trọng tâm trong bán kính RADIUS_CENTER nhằm tìm ứng viên tốt nhất.

Điều khiển top-down: Tại nút lá, các bộ phận được phán đoán bởi HSBN được tạo

ra bằng cách cho tất cả các bộ phận còn lại chưa nhận dạng trong phạm vi bán kính r, lấy từ thông tin định vị vị trí, và được kiểm tra bằng HTM-OBN. Tại nút trung gian, kết hợp đa bộ phận phán đoán bởi HSBN được tạo ra bằng cách kết nối những bộ phận từ các nút con được kích hoạt liền dưới.

Giả sử P là bộ phận được phán đoán tại nút lá, giá trị niềm tin của nút này được tính bởi công thức: } 9 .. 1 )), ( ( max{ )

(NodeBelief OBN P j

Belief P P O j (21)

Giả sử C là kết hợp đa bộ phận tại nút trung gian, giá trị niềm tin của nút được tính bởi công thức: } 9 .. 1 )), ( ( max{ ) (NodeBelief SBN C jBelief C C O j (22)

Chúng tôi sử dụng tham số BELIEF_THREADS_HOLD như là giá trị ngưỡng niềm tin trong hệ thống. Nếu giá trị niềm tin của nút lớn hơn giá trị ngưỡng này, nút sẽ được kích hoạt và truyền trạng thái lên nút cha. Quá trình xử lý bottom-up và top-down được lặp cho đến khi nút đỉnh đạt trạng thái kích hoạt hay không còn nút nào có thể lan truyền niềm tin lên trên.

Cuối cùng, chúng tôi tính giá trị niềm tin trung bình của toàn bộ mạng HSBN bằng công thức (19).

Giai đoạn 4. Nhận dạng đối tượng

Vector vO1O2..O4 là kết quả trả về của giai đoạn 3. Mỗi thành phần của vector là kết quả niềm tin trả về bởi một mạng HSBN của đối tượng tương ứng. Hay nói cách khác, vector thể hiện kết quả của tất cả các đối tượng tham gia trong hệ thống.

 Belief (O1),Belief (O2),..,Belief (O4)

v HSBN HSBN HSBN (23)

Chúng tôi sắp xếp v

theo thứ tự giảm dần dựa vào giá trị niềm tin của mỗi thành phần.

v1 v2 v3 v4

v    (24)

Với tham số TOP_NO_OBJECTS (m), chúng tôi xem N thành phần đầu tiên trong vector là những đối tượng được nhận dạng đúng của một tấm ảnh đầu vào I.

v vm

I

5.4.3 Kết quả thực nghiệm

Xây dựng mạng HSBN

Xây dựng các mạng HSBN của các đối tượng “Table” như Hình 5-13; mạng HSBN của “Computer” như Hình 5-16; mạng HSBN của “Telephone” như Hình 5-17; mạng HSBN của “Chair” như Hình 5-18.

Hình 5-15: Mạng HSBN của đối tượng “Computer”

Hình 5-17: Mạng HSBN của đối tượng “Chair”

Chúng tôi thực hiện thí nghiệm bao gồm nhận dạng một đối tượng và hai đối tượng tách rời nhau. Ảnh kiểm tra có kích thước 128×128.

Ảnh kiểm tra được chọn ngẫu nhiên trong tập ảnh kiểm tra và huấn luyện. Những ảnh này chứa các đối tượng có đầy đủ bộ phận. Các đối tượng này được đặt ở vị trí bất kì trong ảnh.

Bảng 5-3: Danh sách các tham số dùng trong thí nghiệm OBN-HSBN

Tên tham số Giá trị

RADIUS_OBN 2

RADIUS_SBN 2

RANDOM_PARTS 1

BELIEF_THREADS_HOLD 1000

SALIENT_COLOR Red

Thí nghiệm 1: Nhận dạng một đối tượng tại vị trí bất kì trong ảnh

Chair Table Computer Telephone Tập ảnh kiểm tra 93% 97% 100% 100% Tập ảnh huấn luyện 86% 95% 100% 100%

Thí nghiệm 2: Nhận dạng hai đối tượng tách rời nhau Kết hợp đối tượng “Chair” với các đối tượng khác.

Chair

Table Computer Telephone Tập ảnh kiểm tra 55% 83% 85%

Tập ảnh huấn luyện 49% 77% 87%

Kết hợp đối tượng “Table” với các đối tượng khác

Table

Chair Computer Telephone Tập ảnh kiểm tra 52% 83% 67%

Tập ảnh huấn luyện 43% 85% 73%

Kết hợp đối tượng “Computer” với các đối tượng khác

Computer

Chair Table Telephone Tập ảnh kiểm tra 60% 82% 95%

Tập ảnh huấn luyện 72% 85% 93%

Kết hợp đối tượng “Telephone” với các đối tượng khác

Telephone

Chair Table Computer Tập ảnh kiểm tra 71% 75% 87%

Một phần của tài liệu Ứng dụng mạng HTM và mạng ngữ nghĩa để nhận diện đối tượng phức trong ảnh (Trang 54 - 63)