Kiến trúc mạng AlexNet [22] được đề xuất trong hệ thống phân loại ảnh tự động như Hình 3.2. AlexNet đưa ra mô tả cụ thể về kiến trúc của mạng AlexNet cũng như cách thức cài đặt và sử dụng các lớp trong mạng để h́n luyện mơ hình với bộ dữ liệu ảnh của ImageNet.
Hình 3.2: Kiến trúc mạng AlexNet
Mạng có cấu trúc tương đối đơn giản nếu so với các mạng CNN hiện đại gần đây, bao gồm 5 lớp Tích chập và 3 lớp kết nối đầy đủ với các lớp giữa là các lớp lấy mẫu và ReLU, được huấn luyện song song trên hai card đồ họa GPU.
Trong Hình 3.3 thể hiện rõ kiến trúc từng lớp của mạng AlexNet, trong đó:
+ Đầu vào: Ảnh với kích thước n * n = 224 x 224 x 3 (3 là con số tương ứng với 3 màu đỏ, xanh lục, xanh lam trong hệ màu RGB thông thường)
+ Số bộ lọc: 96
+ Kích thước bộ lọc (f * f): 11 x 11 x 3 + Bước trượt (s): 4
+ Đầu ra: (224/4) x (224/4) x 96 = 55 x 55 x 96, chia đều cho hai GPU
Sau thao tác tích chập này, sẽ nhận được bản đồ đặc trưng có kích thước 55 x 55 x 96, trong đó 96 là số lượng bản đồ đặc trưng bằng với số bộ lọc được sử dụng. Sau đó, hàm kích hoạt ReLu được thực hiện trong mỗi bản đồ đặc trưng.
- Lớp chuyển tiếp sang lớp 2 (Lấy mẫu tối đa): + Đầu vào: 55 x 55 x 96 + Đầu ra: (55/2) x (55/2) x 96 = 27 x 27 x 96 - Lớp 2 (Tích chập): + Đầu vào: 27 x 27 x 96 + Số bộ lọc: 256 + Kích thước bộ lọc: 5 x 5 x 48
+ Đầu ra: 27 x 27 x 256, chia đều cho hai GPU
- Lớp 3, 4, 5: Tương tự như với lớp 1 và lớp 2 với các kích thước bộ lọc lần lượt là 3 x 3 x 256, 3 x 3 x 384 và 3 x 3 x 384. Tồn bộ các lớp tính tốn này đều được chia đều cho hai GPU để tăng tốc độ xử lý. Đầu ra cuối cùng qua lớp tích chập thứ 5 là dữ liệu với kích thước 13 x 13 x 128, dữ liệu này sau khi đi qua một lớp lẫy mẫu tối đa cuối cùng sẽ được dùng làm đầu vào cho các lớp sau đó là các lớp kết nối đầy đủ.
- Lớp 6 (Kết nối đầy đủ):
+ Đầu vào: 6 x 6 x 256 + Số nơ-ron: 4096
- Lớp 7 (Kết nối đầy đủ): Tương tự lớp 6.
- Lớp 8 (Kết nối đầy đủ): Lớp cuối cùng trong mạng AlexNet này có 1000 nơ-ron,
tương ứng với 1000 lớp khác nhau mà bộ h́n luyện cần nhận dạng. Ta có thể nhìn rõ hơn kiến trúc mạng AlexNet ở dạng phẳng như trong Hình 3.3.
Hình 3.3: Kiến trúc mạng AlexNet ở dạng phẳng
Các lớp tích chập sẽ trích xuất đặc trưng các thơng tin hữu ích trong các bức ảnh. Lớp 1 và lớp 2 kết nối với nhau qua một lớp Max Pooling ở giữa. Tương tự như vậy giữa lớp 2 và lớp 3. Lớp 3, lớp 4 và lớp 5 kết nối trực tiếp với nhau, không thông qua trung gian. Lớp 5 kết nối fully connected layter thứ 1 thông qua một Max pooling, tiếp theo là một fully connected layter thứ 2 nữa. Và đầu ra cuối cùng sử dụng chức năng hàm truyền softmax. Bằng cách này, CNN chuyển đổi từng lớp hình ảnh gốc từ các giá trị pixel chính đến điểm số lớp cuối cùng. Kết quả thu được của lớp 8 (kết nối đầy đủ) là 1 vector đặc trưng (feature vector) thể hiện cho một đối tượng, chính là dữ liệu đầu vào cho lớp đầu ra cuối có số nơ-ron bằng số lượng lớp (nhãn) với hàm truyền Softmax cho phân lớp đối tượng.
Hình 3.4 minh họa kết quả của quá trình này là một hình ảnh đầu vào qua các bộ lọc tích chập và có kết quả đầu ra là phân lớp hình ảnh. Mỗi bộ lọc sẽ có 1 tác dụng chiết xuất đặc trưng khác nhau từ cùng 1 bức ảnh, hoạt động như một bộ phát hiện cho một tính năng cụ thể.
+ Các bộ lọc lớp đầu tiên chủ yếu phát hiện các cấu trúc đơn giản như màu sắc và cạnh.
Bản đồ đặc trưng lớp đầu tiên giữ lại hầu hết thông tin có trong ảnh. Trong kiến trúc CNN, các lớp đầu tiên thường hoạt động như bộ dị cạnh.
Hình 3.4: Minh họa hình ảnh qua các lớp trong kiến trúc AlexNet
+ Khi hình ảnh được đưa sâu hơn vào mạng ở lớp tích chập 3, các bộ lọc phát hiện cấu trúc, hình dạng đơn giản.
+ Nhưng khi hình ảnh tiếp tục đưa vào mạng ở tầng tích chập 5, các bộ lọc xây dựng chồng lên nhau, học cách mã hóa các mẫu phức tạp hơn. Nghĩa là bộ lọc đã phát hiện ra các phần đặc trưng ảnh, mẫu mà nó đang tìm kiếm.
Bản đồ đặc trưng sâu hơn mã hóa các khái niệm cấp cao, các tính năng hữu ích về hình ảnh, chứa nhiều thơng tin hơn về loại hình ảnh.
+ Các lớp được kết nối đầy đủ sẽ học cách sử dụng các tính năng này được tạo ra bởi sự tích chập để phân loại hình ảnh một cách chính xác.
3.3. Mơ hình tìm kiếm theo ngữ nghĩa
Mục tiêu chính là tìm ra hình ảnh hoặc tập hợp hình ảnh đáp ứng tốt nhất nhu cầu thơng tin của người dùng trong bộ sưu tập hình ảnh. Mơ hình kiến trúc tìm kiếm theo ngữ nghĩa được mơ tả như Hình 3.5, nó bao gồm hai thành phần chính:
(1) Phần giao diện người dùng (front end) có hai chức năng chính:
- Giao diện truy vấn: cho phép người dùng nhập câu hỏi, truy vấn.
- Hiển thị câu trả lời, kết quả.
(2) Phần kiến trúc bên trong (back end) gồm ba thành phần chính đó là:
- Phân tích câu hỏi
- Tìm kiếm kết quả cho truy vấn hay câu hỏi
- Tập tài liệu, dữ liệu tìm kiếm/ mạng ngữ nghĩa.
Trong hệ thống này, dùng ontology làm cơ sở cho việc kết hợp ngữ nghĩa và truy vấn SPARQL để tìm kiếm hình ảnh theo ngữ nghĩa. Ontology là một phương thức biểu diễn tri thức chuẩn cho web ngữ nghĩa [6]. Phương thức biểu diễn tri thức này cho hình hóa các khái niệm và quan hệ giữa các khái niệm trong miền tri thức.
Các ontology được xây dựng để cung cấp cách biểu diễn hình ảnh theo cách thức ngữ nghĩa, tổ chức thơng tin web theo cách có cấu trúc, được chia sẻ nội dung hình ảnh. Ontology được biểu diễn dưới dạng RDF và chúng dựa trên tiêu chuẩn dữ liệu và kho dữ liệu kiến thức hiện có. Do đó, hình ảnh được trình bày theo cách máy dễ hiểu, điều này dẫn đến nhiệm vụ truy x́t hình ảnh được đơn giản hóa so với các cách tiếp cận trước đó. Hình ảnh được truy xuất bằng cách sử dụng mơ tả nội dung của hình ảnh bằng truy vấn SPARQL.
3.3.1. Các chú thích cho hình ảnh
Chú thích hình ảnh là q trình liên kết hình ảnh khơng xác định với lớp được đặt tên. Đó là ánh xạ hình ảnh chưa biết tới một trong số các lớp đã biết. Hình 3.6 cho thấy việc chú thích một hình ảnh bằng cách sử dụng protégé. Sau đó, hình ảnh kế thừa các thuộc tính của lớp và chú thích của lớp được chỉ định của nó. Cách tiếp cận của tác giả dựa trên ý tưởng về chú thích hình ảnh bằng cách sử dụng các ontology.
Hình 3.6: Chú thích một hình ảnh
Hình 3.7 cho thấy chú thích hình ảnh hoa hồng trong cấu trúc bản thể học. Các nhãn được sử dụng để biểu thị thơng tin bổ sung như các tính năng cấp cao và mối quan hệ giữa các dữ liệu trong hình ảnh.
3.3.2. Phát triển Ontology
Mơ hình Ontology được xây dựng để cung cấp giải thích ngữ nghĩa được chia sẻ nội dung hình ảnh. Hình ảnh được kết nối với lớp tương ứng của nó trong ontology bằng thuộc tính xác nhận.
Dựa vào CSDL ảnh thu thập của hệ thống để xây dựng ontolgy cho một miền tri thức (domain ontology) của các chủ đề ảnh để mô tả các khái niệm, các mối quan hệ ngữ nghĩa giữa chúng.
Trong nghiên cứu này đã xây dựng một domain ontology bao gồm 15 khái niệm liên quan đến chủ đề của các ảnh trong CSDL thu thập tương ứng với lớp dữ liệu ảnh được phân lớp dựa trên kiến trúc mạng AlexNet. Domain onotlogy này có thể được mở rộng tương ứng với tập dữ liệu ảnh trong CSDL.
Hình ảnh được kết nối với lớp tương ứng của nó trong ontology bằng thuộc tính xác nhận. Theo đó mọi lớp khác đều có thể được tạo, ở đây tác giả chia toàn bộ mọi thứ thành hai lớp con chính. Đó là Living_Thing và Nonliving_Thing.
Trong mục Living_Thing, tác giả đã phân loại tất cả các sinh vật sống như động vật (animal) và thực vật (plant) thành các lớp con riêng biệt. Và từ đó, động vật lại được phân loại thành ăn cỏ (herbivore), ăn thịt (carnivore), v.v.,
Những khái niệm Cat, Dog, Lion đều là lớp con của lớp động vật ăn thịt (carnivore). Các khái niệm Car, Bus, Plane là lớp con của lớp phương tiện (vehicle) và các khái niệm Sunflower, Rose, LiLy là lớp con của lớp hoa (Flower).
Hình 3.8 hiển thị 15 chủ đề ảnh trong cơ sở dữ liệu ảnh được phân lớp tương ứng với các đỉnh là các khái niệm và các cạnh biểu diễn mối quan hệ giữa các khái niệm.
Hình 3.8: Domain ontology của hệ thống
3.3.3. Ontology hình ảnh
Ontology hình ảnh có hai thành phần, đó là cấu trúc phân cấp lớp của một miền và mô tả văn bản của miền. Văn bản được chia thành mô tả văn bản (từ khóa) và mơ tả văn bản trực quan (dữ liệu số cho các đặc trưng). Điều này được sử dụng để lưu giữ tất cả thông tin cần thiết về các hình ảnh trong cơ sở dữ liệu bản thể học.
PROTÉGÉ [24] được sử dụng để xây dựng một hệ thống phân cấp ontology hồn chỉnh và có thể đại diện cho mối quan hệ kết nối chính xác với cấu trúc đã tạo đó và cũng có thể tải lên hình ảnh với các mơ tả phức tạp của chúng và ánh xạ nó tới các lớp trong hệ thống phân cấp. Việc biểu diễn và truy xuất hình ảnh được thực hiện theo ba bước.
- Bước đầu tiên là tạo các lớp trong bản thể học (ontology) và hoàn thành mối
quan hệ với hệ thống phân cấp đó.
- Bước thứ hai là tải lên hình ảnh với mơ tả đầy đủ của nó về hình ảnh đại diện. - Bước thứ ba là truy xuất hình ảnh bằng truy vấn SPARQL.
Image Ontology được xây dựng bằng cách sử dụng Class, Properties và instance. Hệ thống phân cấp lớp danh từ của hình ảnh cũng là các thể hiện của các lớp lá đại diện cho hình ảnh. Các mơ tả chung được sắp xếp cho phân cấp lớp (thuộc tính kiểu dữ liệu). Thuộc tính đối tượng được sử dụng để kết nối các thể hiện của lớp ngữ nghĩa với các thể hiện từ các lớp chứa mơ tả. Hình ảnh được chú thích cho nhiều hơn một lớp bằng cách sử dụng thuộc tính xác nhận. Các thuộc tính chung khác được thêm vào các lớp khi cần thiết (Chẳng hạn như chim có hai chân).
Protégé được sử dụng để tạo các lớp (class), thuộc tính (properties), cá thể (instance) và ánh xạ hình ảnh tới các lớp liên quan của nó. Các mã RDF / XML được tạo tự động bởi protégé. Bên trong các mã đại diện cho đồ thị RDF. Meta của một hình ảnh được thêm vào.
Một lớp riêng biệt được tạo cho dữ liệu meta về các tính năng cấp thấp của hình ảnh. Chúng được sử dụng để truy cập các khái niệm chung của một hình ảnh. Các biểu mẫu được sử dụng để thiết kế nhãn hoặc khung. Khi một phiên bản mới được tạo, các nhãn này giữ hình ảnh và thơng tin chú thích của nó.
Thơng tin tường thuật cấp cao của mơ tả hình ảnh từ nguồn thơng tin bên ngồi được thu thập và đóng gói thành các lớp và cá thể. Trong việc tạo ra các loại xác nhận riêng biệt để mọi hình ảnh liên quan đến một lớp cụ thể sẽ được hiển thị mà khơng bị thiếu.
Hình 3.9 hiển thị ảnh chụp màn hình của giao diện chú thích để biểu thị thơng tin bổ sung về hình ảnh. Trong trường hợp này, là đang chú thích hình ảnh đại diện cho một con Voi trong rừng.
Hình cũng cho thấy các khe để biểu thị thơng tin bổ sung về hình ảnh. Chúng được thêm vào bằng các thuộc tính là Người tạo, Chủ đề, Vị trí và Thời gian với kiểu dữ liệu. Bốn yếu tố được liên kết với các cây con trong bản thể luận.
Hình 3.9: Liên kết hình ảnh với các ontology trong protégé
Hình 3.9 mơ tả ảnh và các giá trị của nó được chú thích cho một hoặc nhiều lớp bằng cách sử dụng các vị trí và nhãn. Việc lập chỉ mục hình ảnh ngữ nghĩa được thực hiện bằng cách chú thích hình ảnh vào lớp. Hình ảnh có cùng thể loại được dễ dàng xác định và truy xuất bằng cách sử dụng các tính năng.
3.3.4. Truy xuất hình ảnh ngữ nghĩa (SIR-Semantic Image Retrieval)
Cơng cụ truy vấn lấy thông tin đầu vào từ người dùng qua giao diện với nội dung đầu vào mà người dùng muốn tìm kiếm. Người dùng có thể cung cấp đầu vào theo hai cách.
1) Đầu vào văn bản: Phương pháp đầu tiên cung cấp đầu vào cho SIR là dựa trên
văn bản. Tìm kiếm theo ngữ nghĩa khác với tìm kiếm dựa trên từ khóa thơng thường. Tìm kiếm ngữ nghĩa bao gồm việc xây dựng một công cụ truy vấn nhận yêu cầu bằng ngôn ngữ truy vấn bản thể học (chẳng hạn như SPARQL), thực thi chúng trên cấu trúc bản thể học và trả về các bộ giá trị thỏa mãn các điều kiện trong truy vấn.
Hình 3.10: Mơ hình từ khóa tìm kiếm với ngữ nghĩa
Animal Mạng nơ-ron tích chập (CNN) Carnivore Dog SPARQL Label Lion, Cat, Carnivore Herbivore
Lion Cat Zebra Monke
y Return
Predict Build
Ngôn ngữ truy vấn SPARQL đã được W3C (World Wide Web Consortium) chấp nhận như một phương tiện để truy vấn các ontology được xây dựng bằng cách sử dụng RDF và đã được mở rộng để hỗ trợ định dạng OWL. SPARQL là một ngơn ngữ truy vấn RDF có thể truy xuất và thao tác dữ liệu được lưu trữ ở định dạng RDF.
Trong cách tiếp cận này, người dùng được yêu cầu nhập văn bản có chứa thơng tin về thứ mà họ muốn tìm kiếm, để thực hiện tìm kiếm theo ngữ nghĩa thì bước đầu tiên là xây dựng câu truy vấn SPARQL thích hợp từ các từ khóa tìm kiếm và thực hiện câu truy vấn trên domain ontology. Sau đó, các từ khóa được sử dụng để tìm kiếm các ảnh đã được chỉ mục trong hệ thống.
Hình 3.10 minh họa thao tác kết quả tìm kiếm bằng cách sử dụng CNN để tìm ra nhãn của ảnh truy vấn của người dùng. Sau đó từ khóa mơ tả nhãn của ảnh sẽ dùng để xây dựng câu truy vấn SPARQL, để tìm và trả về thêm các từ khóa có liên hệ về ngữ nghĩa trong domain-ontology.
2) Đầu vào hình ảnh: Phương pháp thứ hai để cung cấp đầu vào cho SIR là dựa
trên hình ảnh.
Trong cách tiếp cận này, người dùng được yêu cầu cung cấp hình ảnh của đối tượng mà họ muốn tìm kiếm. Hình ảnh đầu vào có thể chứa một đối tượng hoặc nhiều đối tượng. Cách tiếp cận này là khả thi khi người dùng muốn tìm kiếm các đối tượng / hình ảnh liên quan tương tự như đối tượng / hình ảnh mà họ có. Hơn nữa, phương pháp này cung cấp tính linh hoạt trong phương thức nhập, vì nó mang lại chiều hướng mới cho việc tìm kiếm. Sau khi nhận đầu vào từ người dùng, công cụ truy vấn đã xây dựng truy vấn cho đầu vào. Khi cơ sở tri thức dựa trên Ontology được sử dụng, truy vấn được xây dựng bằng ngôn ngữ SPARQL.
Các đối tượng trong hình ảnh được phát hiện bằng cách sử dụng trích xuất đặc trưng trong mạng nơ-ron tích chập với mơ hình áp dụng là kiến trúc mạng AlexNet, các đặc trưng này được chuyển đổi thành các khái niệm bản thể luận cấp cao; mơ tả hình ảnh nếu được người dùng cung cấp trong tìm kiếm cũng được chuyển đổi thành các khái niệm
bản thể học, sau khi hoàn thành bước này, truy vấn SPARQL được tạo bằng các tham số này.
3.4. Kết luận
Trong chương này, tác giả đề xuất kiến trúc cho hệ thống với một mơ hình phân