So sánh chức năng các mô hình

Một phần của tài liệu Ứng dụng mạng HTM và mạng ngữ nghĩa để nhận diện đối tượng phức trong ảnh (Trang 65 - 68)

SBN-OBN OBN-SBN OBN-HSBN

Nhận dạng một đối tượng tại trọng tâm ảnh.

Nhận dạng một hoặc nhiều đối tượng tại vị trí bất kì trong ảnh.

Nhận dạng một hoặc nhiều đối tượng tại vị trí bất kì trong ảnh. Nhận dạng các đối tượng trùng lắp trong không gian. Nhận dạng các đối tượng trùng lắp trong không gian.

Yếu tố hướng không

gian giữ vai trò chính.

Yếu tố hướng đối tượng giữ vai trò chính. Xử lý các đối tượng phức thông qua nhận dạng các tổ hợp đặc trưng mạnh có được từ tri thức.

Thời gian xử lý nhanh.

5.8 Kết luận

Chúng tôi đã đề xuất hai mô hình tin học hóa sự tập trung thị giác sử dụng HTM, đó là mô hình OBN-SBN và OBN-HSBN. Cả hai mô hình này cho phép không chỉ nhận dạng một mà nhiều đối tượng đặt tại vị trí bất kì trong ảnh. Các thí nghiệm và kết quả cho từng mô hình được trình bày cùng với phương pháp đánh giá kết quả so với các mô hình khác.

Đối với mô hình OBN-HSBN, chúng tôi sử dụng mô hình cây không gian phân cấp HSBN để minh họa luồn xử lý thông tin bottom-up và top-down trong tập trung thị giác. Đây là sự cải tiến so với hai mô hình SBN-OBN và OBN-SBN.

Chương 6

Kết luận và hướng phát triển đề tài

6.1 Kết luận

Việc trả lời cho câu hỏi “Làm sao xây dựng một máy tính thông minh?” luôn là đề tài mà các nhà khoa học lĩnh vực trí tuệ nhân tạo hướng tới để nghiên cứu và xây dựng các ứng dụng. Tuy nhiên những chương trình thành công của trí tuệ nhân tạo chỉ hoạt động tốt trong một phạm vi cụ thể được thiết kế sẵn từ trước; chúng không thể tổng quá hóa vấn đề. Thực tế, những ứng dụng như Deep Blue, Medical Expert System, World Block,.. đều quan tâm đến yếu tố hành vi bên ngoài để đánh giá sự thông minh của ứng dụng thay vì tập trung sử dụng yếu tố bên trong (tri thức). Hay nói cách khác, như Alan Turning đề cập “Sự thông minh đồng nghĩa với hành vi”. Điều đó có nghĩa là những kết quả có được từ các ứng dụng có vẻ giống như con người tạo ra nhưng không được tạo bằng cách con người suy nghĩ thông qua hoạt động bộ não.

Một trong những hệ thống được xem là gần gũi với hoạt động bộ não là mạng nơron nhân tạo. Nó hoạt động dựa trên sự mô phỏng của tế bào nơron và được phân bố trên các phân lớp dựa trên các kết quả nghiên cứu của các nhà sinh học và tâm lý học. Tuy nhiên, theo Jeff Hawkins mạng nơron thực sự chưa thể hiện được sự thông minh vì chưa đảm bảo 3 yếu tố, bao gồm (1) thông tin tiếp nhận theo thời gian; (2) yếu tố lan truyền ngược không diễn ra trong quá trình xử lý và (3) không được xây dựng trên cấu trúc phân tầng, việc học không dựa trên rút trích các đặc trưng bất biến và các đặc trưng đã có sẵn của tầng dưới truyền lên.

Từ đó lĩnh vực trí tuệ nhân tạo tổng quan ra đời tập trung nghiên cứu sâu vào sự thông minh của con người. Cụ thể nó tập trung phát triển lý thuyết sự thông minh, mô hình sự thông minh và mô hình tin học hóa sự thông minh.

Trong đề tài luận văn, chúng tôi quan tâm đến lý thuyết về cấu trúc và hoạt động bộ não do Jeff Hawkins đề xuất. Nó có tên gọi là lý thuyết nền tảng trí nhớ phán đoán. Cụ

thể, nó nhấn mạnh yếu tố học đặc trưng bất biến, gom nhóm theo không gian và thời gian, các vùng não liên kết với nhau và có cùng cấu trúc phân cấp vô cùng phức tạp. Một trong những điều quan trọng là Jeff Hawkins dùng yếu tố thời gian như là yếu tố giám sát để huấn luyện và gom nhóm thông tin. Dựa vào đề xuất này, D. George đã xây dựng mô hình trí nhớ phân cấp thời gian (HTM) và phát triển lý thuyết toán để có thể tin học hóa.

HTM là một ý tưởng độc đáo. Nó hứa hẹn tạo ra các ứng dụng thông minh hướng đến hoặc vượt qua khả năng con người trong nhiều tác vụ nhận thức. Dựa vào mạng HTM, Hall và Poplin đã xây dựng mô hình phá kí tự CAPTCHA; Bobier và Wirth thực hiện rút trích nội dung ảnh; Kapuscinski và Wysocki nhận dạng kí tự Ba Lan. Nói chung, những ứng dụng này chỉ dừng lại ở việc sử dụng HTM như một nền tảng để huấn luyện và kiểm thử mà chưa ứng dụng nó trong việc xây dựng các mô hình tin học của các lý thuyết giác quan.

Trong phạm vi luận văn, chúng tôi quan tâm đến những lý thuyết khác liên quan đến hoạt động bộ não nhằm ứng dụng HTM. Cụ thể, chúng tôi tìm hiểu lý thuyết tập trung thị giác máy tính trong nhận diện đối tượng. Sự tập trung thị giác là tiến trình trong nhận thức, nó tập trung một cách có chọn lựa một vùng và bỏ qua những vùng khác. Nó đảm bảo tại một thời điểm chỉ những tín hiệu thông tin đặc trưng được xử lý thay vì phải xử lý tất cả các tín hiệu. Đối với lý thuyết tập trung thị giác, chúng tôi giới thiệu sự tập trung hướng đối tượng và hướng không gian; sự tập trung theo mô hình bottom-up và top-down trong xử lý các tín hiệu và phán đoán thông tin kế tiếp.

Vào năm 2009, các tác giả trong [3] đã xây dựng thành công mô hình tin học hóa lý thuyết tập trung sử dụng mạng HTM. Mô hình sử dụng tính hướng không gian xảy ra trước tính đối tượng. Chúng tôi đặt tên mô hình này là SBN-OBN.

Dựa vào mô hình SBN-OBN, chúng tôi đã đề xuất hai mô hình cải tiến, bao gồm mô hình OBN-SBN và mô hình OBN-HSBN. Cả hai mô hình này đều là mô hình tin học cho sự tập trung thị giác. Cụ thể, mô hình OBN-SBN thể hiện tính hướng đối tượng xảy ra trước tính không gian; và mô hình OBN-HSBN thể hiện mô hình bottom-up và top-down xảy ra đan xen trong sự tập trung thị giác.

Với hướng tiếp cận mới, cả hai mô hình OBN-SBN và OBN-HSBN đều cho phép nhận dạng nhiều đối tượng đặt tại vị trí bất kì trong ảnh. Đây là một cải tiến so với mô hình của các tác giả trong [3] có thể nhận dạng một đối tượng đặt tại trọng tâm của ảnh. Tuy nhiên, nó vẫn còn những hạn chế về mặt xử lý ảnh thật, ảnh co giãn và ảnh trùng lắp.

Một phần của tài liệu Ứng dụng mạng HTM và mạng ngữ nghĩa để nhận diện đối tượng phức trong ảnh (Trang 65 - 68)