Kiến trúc mạng AlexNet ở dạng phẳng

Các lớp tích chập sẽ trích xuất đặc trưng các thơng tin hữu ích trong các bức ảnh. Lớp 1 và lớp 2 kết nối với nhau qua một lớp Max Pooling ở giữa. Tương tự như vậy giữa lớp 2 và lớp 3. Lớp 3, lớp 4 và lớp 5 kết nối trực tiếp với nhau, không thông qua trung gian. Lớp 5 kết nối fully connected layter thứ 1 thông qua một Max pooling, tiếp theo là một fully connected layter thứ 2 nữa. Và đầu ra cuối cùng sử dụng chức năng hàm truyền softmax. Bằng cách này, CNN chuyển đổi từng lớp hình ảnh gốc từ các giá trị pixel chính đến điểm số lớp cuối cùng. Kết quả thu được của lớp 8 (kết nối đầy đủ) là 1 vector đặc trưng (feature vector) thể hiện cho một đối tượng, chính là dữ liệu đầu vào cho lớp đầu ra cuối có số nơ-ron bằng số lượng lớp (nhãn) với hàm truyền Softmax cho phân lớp đối tượng.

Hình 3.4 minh họa kết quả của quá trình này là một hình ảnh đầu vào qua các bộ lọc tích chập và có kết quả đầu ra là phân lớp hình ảnh. Mỗi bộ lọc sẽ có 1 tác dụng chiết xuất đặc trưng khác nhau từ cùng 1 bức ảnh, hoạt động như một bộ phát hiện cho một tính năng cụ thể.

+ Các bộ lọc lớp đầu tiên chủ yếu phát hiện các cấu trúc đơn giản như màu sắc và cạnh.

Bản đồ đặc trưng lớp đầu tiên giữ lại hầu hết thơng tin có trong ảnh. Trong kiến trúc CNN, các lớp đầu tiên thường hoạt động như bộ dò cạnh.

Hình 3.4: Minh họa hình ảnh qua các lớp trong kiến trúc AlexNet

+ Khi hình ảnh được đưa sâu hơn vào mạng ở lớp tích chập 3, các bộ lọc phát hiện cấu trúc, hình dạng đơn giản.

+ Nhưng khi hình ảnh tiếp tục đưa vào mạng ở tầng tích chập 5, các bộ lọc xây dựng chồng lên nhau, học cách mã hóa các mẫu phức tạp hơn. Nghĩa là bộ lọc đã phát hiện ra các phần đặc trưng ảnh, mẫu mà nó đang tìm kiếm.

Bản đồ đặc trưng sâu hơn mã hóa các khái niệm cấp cao, các tính năng hữu ích về hình ảnh, chứa nhiều thơng tin hơn về loại hình ảnh.

+ Các lớp được kết nối đầy đủ sẽ học cách sử dụng các tính năng này được tạo ra bởi sự tích chập để phân loại hình ảnh một cách chính xác.

3.3. Mơ hình tìm kiếm theo ngữ nghĩa

Mục tiêu chính là tìm ra hình ảnh hoặc tập hợp hình ảnh đáp ứng tốt nhất nhu cầu thông tin của người dùng trong bộ sưu tập hình ảnh. Mơ hình kiến trúc tìm kiếm theo ngữ nghĩa được mơ tả như Hình 3.5, nó bao gồm hai thành phần chính:

(1) Phần giao diện người dùng (front end) có hai chức năng chính:

- Giao diện truy vấn: cho phép người dùng nhập câu hỏi, truy vấn.

- Hiển thị câu trả lời, kết quả.

(2) Phần kiến trúc bên trong (back end) gồm ba thành phần chính đó là:

- Phân tích câu hỏi

- Tìm kiếm kết quả cho truy vấn hay câu hỏi

- Tập tài liệu, dữ liệu tìm kiếm/ mạng ngữ nghĩa.

Trong hệ thống này, dùng ontology làm cơ sở cho việc kết hợp ngữ nghĩa và truy vấn SPARQL để tìm kiếm hình ảnh theo ngữ nghĩa. Ontology là một phương thức biểu diễn tri thức chuẩn cho web ngữ nghĩa [6]. Phương thức biểu diễn tri thức này cho hình hóa các khái niệm và quan hệ giữa các khái niệm trong miền tri thức.

Các ontology được xây dựng để cung cấp cách biểu diễn hình ảnh theo cách thức ngữ nghĩa, tổ chức thơng tin web theo cách có cấu trúc, được chia sẻ nội dung hình ảnh. Ontology được biểu diễn dưới dạng RDF và chúng dựa trên tiêu chuẩn dữ liệu và kho dữ liệu kiến thức hiện có. Do đó, hình ảnh được trình bày theo cách máy dễ hiểu, điều này dẫn đến nhiệm vụ truy x́t hình ảnh được đơn giản hóa so với các cách tiếp cận trước đó. Hình ảnh được truy xuất bằng cách sử dụng mơ tả nội dung của hình ảnh bằng truy vấn SPARQL.

3.3.1. Các chú thích cho hình ảnh

Chú thích hình ảnh là q trình liên kết hình ảnh khơng xác định với lớp được đặt tên. Đó là ánh xạ hình ảnh chưa biết tới một trong số các lớp đã biết. Hình 3.6 cho thấy việc chú thích một hình ảnh bằng cách sử dụng protégé. Sau đó, hình ảnh kế thừa các thuộc tính của lớp và chú thích của lớp được chỉ định của nó. Cách tiếp cận của tác giả dựa trên ý tưởng về chú thích hình ảnh bằng cách sử dụng các ontology.

Hình 3.6: Chú thích một hình ảnh

Hình 3.7 cho thấy chú thích hình ảnh hoa hồng trong cấu trúc bản thể học. Các nhãn được sử dụng để biểu thị thơng tin bổ sung như các tính năng cấp cao và mối quan hệ giữa các dữ liệu trong hình ảnh.

3.3.2. Phát triển Ontology

Mơ hình Ontology được xây dựng để cung cấp giải thích ngữ nghĩa được chia sẻ nội dung hình ảnh. Hình ảnh được kết nối với lớp tương ứng của nó trong ontology bằng thuộc tính xác nhận.

Dựa vào CSDL ảnh thu thập của hệ thống để xây dựng ontolgy cho một miền tri thức (domain ontology) của các chủ đề ảnh để mô tả các khái niệm, các mối quan hệ ngữ nghĩa giữa chúng.

Trong nghiên cứu này đã xây dựng một domain ontology bao gồm 15 khái niệm liên quan đến chủ đề của các ảnh trong CSDL thu thập tương ứng với lớp dữ liệu ảnh được phân lớp dựa trên kiến trúc mạng AlexNet. Domain onotlogy này có thể được mở rộng tương ứng với tập dữ liệu ảnh trong CSDL.

Hình ảnh được kết nối với lớp tương ứng của nó trong ontology bằng thuộc tính xác nhận. Theo đó mọi lớp khác đều có thể được tạo, ở đây tác giả chia tồn bộ mọi thứ thành hai lớp con chính. Đó là Living_Thing và Nonliving_Thing.

Trong mục Living_Thing, tác giả đã phân loại tất cả các sinh vật sống như động vật (animal) và thực vật (plant) thành các lớp con riêng biệt. Và từ đó, động vật lại được phân loại thành ăn cỏ (herbivore), ăn thịt (carnivore), v.v.,

Những khái niệm Cat, Dog, Lion đều là lớp con của lớp động vật ăn thịt (carnivore). Các khái niệm Car, Bus, Plane là lớp con của lớp phương tiện (vehicle) và các khái niệm Sunflower, Rose, LiLy là lớp con của lớp hoa (Flower).

Hình 3.8 hiển thị 15 chủ đề ảnh trong cơ sở dữ liệu ảnh được phân lớp tương ứng với các đỉnh là các khái niệm và các cạnh biểu diễn mối quan hệ giữa các khái niệm.

Hình 3.8: Domain ontology của hệ thống

3.3.3. Ontology hình ảnh

Ontology hình ảnh có hai thành phần, đó là cấu trúc phân cấp lớp của một miền và mô tả văn bản của miền. Văn bản được chia thành mơ tả văn bản (từ khóa) và mơ tả văn bản trực quan (dữ liệu số cho các đặc trưng). Điều này được sử dụng để lưu giữ tất cả thơng tin cần thiết về các hình ảnh trong cơ sở dữ liệu bản thể học.

PROTÉGÉ [24] được sử dụng để xây dựng một hệ thống phân cấp ontology hồn chỉnh và có thể đại diện cho mối quan hệ kết nối chính xác với cấu trúc đã tạo đó và cũng có thể tải lên hình ảnh với các mô tả phức tạp của chúng và ánh xạ nó tới các lớp trong hệ thống phân cấp. Việc biểu diễn và truy xuất hình ảnh được thực hiện theo ba bước.

- Bước đầu tiên là tạo các lớp trong bản thể học (ontology) và hoàn thành mối

quan hệ với hệ thống phân cấp đó.

- Bước thứ hai là tải lên hình ảnh với mơ tả đầy đủ của nó về hình ảnh đại diện. - Bước thứ ba là truy xuất hình ảnh bằng truy vấn SPARQL.

Image Ontology được xây dựng bằng cách sử dụng Class, Properties và instance. Hệ thống phân cấp lớp danh từ của hình ảnh cũng là các thể hiện của các lớp lá đại diện cho hình ảnh. Các mơ tả chung được sắp xếp cho phân cấp lớp (thuộc tính kiểu dữ liệu). Thuộc tính đối tượng được sử dụng để kết nối các thể hiện của lớp ngữ nghĩa với các thể hiện từ các lớp chứa mơ tả. Hình ảnh được chú thích cho nhiều hơn một lớp bằng cách sử dụng thuộc tính xác nhận. Các thuộc tính chung khác được thêm vào các lớp khi cần thiết (Chẳng hạn như chim có hai chân).

Protégé được sử dụng để tạo các lớp (class), thuộc tính (properties), cá thể (instance) và ánh xạ hình ảnh tới các lớp liên quan của nó. Các mã RDF / XML được tạo tự động bởi protégé. Bên trong các mã đại diện cho đồ thị RDF. Meta của một hình ảnh được thêm vào.

Một lớp riêng biệt được tạo cho dữ liệu meta về các tính năng cấp thấp của hình ảnh. Chúng được sử dụng để truy cập các khái niệm chung của một hình ảnh. Các biểu mẫu được sử dụng để thiết kế nhãn hoặc khung. Khi một phiên bản mới được tạo, các nhãn này giữ hình ảnh và thơng tin chú thích của nó.

Thơng tin tường thuật cấp cao của mơ tả hình ảnh từ nguồn thơng tin bên ngồi được thu thập và đóng gói thành các lớp và cá thể. Trong việc tạo ra các loại xác nhận riêng biệt để mọi hình ảnh liên quan đến một lớp cụ thể sẽ được hiển thị mà khơng bị thiếu.

Hình 3.9 hiển thị ảnh chụp màn hình của giao diện chú thích để biểu thị thơng tin bổ sung về hình ảnh. Trong trường hợp này, là đang chú thích hình ảnh đại diện cho một con Voi trong rừng.

Hình cũng cho thấy các khe để biểu thị thơng tin bổ sung về hình ảnh. Chúng được thêm vào bằng các thuộc tính là Người tạo, Chủ đề, Vị trí và Thời gian với kiểu dữ liệu. Bốn yếu tố được liên kết với các cây con trong bản thể luận.

Hình 3.9: Liên kết hình ảnh với các ontology trong protégé

Hình 3.9 mơ tả ảnh và các giá trị của nó được chú thích cho một hoặc nhiều lớp bằng cách sử dụng các vị trí và nhãn. Việc lập chỉ mục hình ảnh ngữ nghĩa được thực hiện bằng cách chú thích hình ảnh vào lớp. Hình ảnh có cùng thể loại được dễ dàng xác định và truy xuất bằng cách sử dụng các tính năng.

3.3.4. Truy xuất hình ảnh ngữ nghĩa (SIR-Semantic Image Retrieval)

Công cụ truy vấn lấy thông tin đầu vào từ người dùng qua giao diện với nội dung đầu vào mà người dùng muốn tìm kiếm. Người dùng có thể cung cấp đầu vào theo hai cách.

1) Đầu vào văn bản: Phương pháp đầu tiên cung cấp đầu vào cho SIR là dựa trên

văn bản. Tìm kiếm theo ngữ nghĩa khác với tìm kiếm dựa trên từ khóa thơng thường. Tìm kiếm ngữ nghĩa bao gồm việc xây dựng một công cụ truy vấn nhận yêu cầu bằng ngôn ngữ truy vấn bản thể học (chẳng hạn như SPARQL), thực thi chúng trên cấu trúc bản thể học và trả về các bộ giá trị thỏa mãn các điều kiện trong truy vấn.

Hình 3.10: Mơ hình từ khóa tìm kiếm với ngữ nghĩa

Animal Mạng nơ-ron tích chập (CNN) Carnivore Dog SPARQL Label Lion, Cat, Carnivore Herbivore

Lion Cat Zebra Monke

y Return

Predict Build

Ngôn ngữ truy vấn SPARQL đã được W3C (World Wide Web Consortium) chấp nhận như một phương tiện để truy vấn các ontology được xây dựng bằng cách sử dụng RDF và đã được mở rộng để hỗ trợ định dạng OWL. SPARQL là một ngôn ngữ truy vấn RDF có thể truy xuất và thao tác dữ liệu được lưu trữ ở định dạng RDF.

Trong cách tiếp cận này, người dùng được yêu cầu nhập văn bản có chứa thơng tin về thứ mà họ muốn tìm kiếm, để thực hiện tìm kiếm theo ngữ nghĩa thì bước đầu tiên là xây dựng câu truy vấn SPARQL thích hợp từ các từ khóa tìm kiếm và thực hiện câu truy vấn trên domain ontology. Sau đó, các từ khóa được sử dụng để tìm kiếm các ảnh đã được chỉ mục trong hệ thống.

Hình 3.10 minh họa thao tác kết quả tìm kiếm bằng cách sử dụng CNN để tìm ra nhãn của ảnh truy vấn của người dùng. Sau đó từ khóa mơ tả nhãn của ảnh sẽ dùng để xây dựng câu truy vấn SPARQL, để tìm và trả về thêm các từ khóa có liên hệ về ngữ nghĩa trong domain-ontology.

2) Đầu vào hình ảnh: Phương pháp thứ hai để cung cấp đầu vào cho SIR là dựa

trên hình ảnh.

Trong cách tiếp cận này, người dùng được yêu cầu cung cấp hình ảnh của đối tượng mà họ muốn tìm kiếm. Hình ảnh đầu vào có thể chứa một đối tượng hoặc nhiều đối tượng. Cách tiếp cận này là khả thi khi người dùng muốn tìm kiếm các đối tượng / hình ảnh liên quan tương tự như đối tượng / hình ảnh mà họ có. Hơn nữa, phương pháp này cung cấp tính linh hoạt trong phương thức nhập, vì nó mang lại chiều hướng mới cho việc tìm kiếm. Sau khi nhận đầu vào từ người dùng, công cụ truy vấn đã xây dựng truy vấn cho đầu vào. Khi cơ sở tri thức dựa trên Ontology được sử dụng, truy vấn được xây dựng bằng ngôn ngữ SPARQL.

Các đối tượng trong hình ảnh được phát hiện bằng cách sử dụng trích xuất đặc trưng trong mạng nơ-ron tích chập với mơ hình áp dụng là kiến trúc mạng AlexNet, các đặc trưng này được chuyển đổi thành các khái niệm bản thể luận cấp cao; mô tả hình ảnh nếu được người dùng cung cấp trong tìm kiếm cũng được chuyển đổi thành các khái niệm

bản thể học, sau khi hoàn thành bước này, truy vấn SPARQL được tạo bằng các tham số này.

3.4. Kết luận

Trong chương này, tác giả đề xuất kiến trúc cho hệ thống với một mơ hình phân lớp dữ liệu hình ảnh dựa trên CNN và mơ hình truy vấn ảnh. Trong đó, kiến trúc mạng AlexNet được áp dụng để phân lớp dữ liệu hình ành theo hướng tiếp cận ngữ nghĩa với kỹ thuật ontology. Ngôn ngữ truy vấn SPARQL được sử dụng để truy xuất dữ liệu hình ảnh phù hợp nhất với từ khố hoặc ảnh đầu vào mà người sử dụng mong muốn.

CHƯƠNG 4

KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Môi trường và các công cụ sử dụng cho thực nghiệm

Thực nghiệm được thực hiện trên 2 máy tính có cấu hình như sau: - Thành phần Cấu hình

CPU: Intel Core i9-9900K [Turbo 5.00 GHz] 8 Cores, 16 Threads, 16MB, FCLGA1151 RAM: PC4 Kingmax Zeus 32G/3000

MAIN: Z390 CHIPSET INTEL

HDD: Seagate 1TB

SSD: Dato 120GB

VGA: RTX-2080/8GB/DDR6/256 BIT

- Ngơn ngữ lập trình, các thư viện và phần mềm hỗ trợ học sâu được sử dụng trong thực nghiệm là Python, Tensoflow, Karas, Protégé, OWL và Sparql.

4.2. Tập dữ liệu thực nghiệm

Tập dữ liệu thực nghiệm trong nghiên cứu này là ImageNet [25], một tập dữ liệu rất nổi tiếng trong lĩnh vực thị giác máy tính. Từ năm 2010, tập dữ liệu ảnh ImageNet được sử dụng để tổ chức cuộc thi thường niên ILSVRC (ImageNet Large Scale Visual Recognition Challenge) [26].

Tập dữ liệu ImageNet có khoảng 15 triệu hình ảnh có độ phân giải cao đã được gán nhãn thuộc khoảng 22.000 danh mục. ILSVRC sử dụng một tập hợp con của ImageNet với khoảng 1.000 hình ảnh trong mỗi 1.000 danh mục (trung bình mỗi nhãn có khoảng 1,2 ngàn hình ảnh), tổng cộng có khoảng 1,2 triệu hình ảnh đào tạo, 50.000 hình ảnh xác nhận (validation) và 150.000 hình ảnh thử nghiệm (tập validation và tập test đều có 1.000 nhãn thuộc tập train).

Có tất cả 11.850 ảnh được thu thập từ tập dữ liệu và trên internet, bao gồm 15 chủ đề là: Cat, Dog, Peacok, LiLy, Car, Mountain, Sea, Sunflower, Plane, Rose, Lion, Zebras, Bus, Monkey và People.

Đầu vào của mạng AlexNet là một bức ảnh RGB có kích thước 224x224 pixel. Do đó, các ảnh được điều chỉnh lại theo cùng độ phân giải là 224x224.

4.3. Xây dựng mơ hình phân loại ảnh cho hệ thớng tìm kiếm

Mơ hình giải quyết bài tốn phân lớp một bức ảnh vào 1 lớp trong 15 chủ đề khác nhau (Cat, Dog, Peacok, … ). Đầu ra của mơ hình là một vector có 1.000 phần tử. Phần tử thứ i của vector đại diện cho xác suất bức ảnh thuộc về lớp thứ i. Do đó, tổng của các phần tử trong vector là 1.

Phân loại hình ảnh bằng mạng AlexNet với sự hỗ trợ thư viện nguồn mở TensorFlow là một nền tảng mã nguồn mở end-to-end dành cho học máy giúp đào tạo

Kiến trúc mạng AlexNet ở dạng phẳng

Mơ hình bộ não người

Mạng nơ-ron thông thường