Kiến trúc mạng AlexNet ở dạng phẳng

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập (Trang 57)

Các lớp tích chập sẽ trích xuất đặc trưng các thơng tin hữu ích trong các bức ảnh. Lớp 1 và lớp 2 kết nối với nhau qua một lớp Max Pooling ở giữa. Tương tự như vậy giữa lớp 2 và lớp 3. Lớp 3, lớp 4 và lớp 5 kết nối trực tiếp với nhau, không thông qua trung gian. Lớp 5 kết nối fully connected layter thứ 1 thông qua một Max pooling, tiếp theo là một fully connected layter thứ 2 nữa. Và đầu ra cuối cùng sử dụng chức năng hàm truyền softmax. Bằng cách này, CNN chuyển đổi từng lớp hình ảnh gốc từ các giá trị pixel chính đến điểm số lớp cuối cùng. Kết quả thu được của lớp 8 (kết nối đầy đủ) là 1 vector đặc trưng (feature vector) thể hiện cho một đối tượng, chính là dữ liệu đầu vào cho lớp đầu ra cuối có số nơ-ron bằng số lượng lớp (nhãn) với hàm truyền Softmax cho phân lớp đối tượng.

Hình 3.4 minh họa kết quả của quá trình này là một hình ảnh đầu vào qua các bộ lọc tích chập và có kết quả đầu ra là phân lớp hình ảnh. Mỗi bộ lọc sẽ có 1 tác dụng chiết xuất đặc trưng khác nhau từ cùng 1 bức ảnh, hoạt động như một bộ phát hiện cho một tính năng cụ thể.

+ Các bộ lọc lớp đầu tiên chủ yếu phát hiện các cấu trúc đơn giản như màu sắc và cạnh.

Bản đồ đặc trưng lớp đầu tiên giữ lại hầu hết thơng tin có trong ảnh. Trong kiến trúc CNN, các lớp đầu tiên thường hoạt động như bộ dò cạnh.

Hình 3.4: Minh họa hình ảnh qua các lớp trong kiến trúc AlexNet

+ Khi hình ảnh được đưa sâu hơn vào mạng ở lớp tích chập 3, các bộ lọc phát hiện cấu trúc, hình dạng đơn giản.

+ Nhưng khi hình ảnh tiếp tục đưa vào mạng ở tầng tích chập 5, các bộ lọc xây dựng chồng lên nhau, học cách mã hóa các mẫu phức tạp hơn. Nghĩa là bộ lọc đã phát hiện ra các phần đặc trưng ảnh, mẫu mà nó đang tìm kiếm.

Bản đồ đặc trưng sâu hơn mã hóa các khái niệm cấp cao, các tính năng hữu ích về hình ảnh, chứa nhiều thơng tin hơn về loại hình ảnh.

+ Các lớp được kết nối đầy đủ sẽ học cách sử dụng các tính năng này được tạo ra bởi sự tích chập để phân loại hình ảnh một cách chính xác.

3.3. Mơ hình tìm kiếm theo ngữ nghĩa

Mục tiêu chính là tìm ra hình ảnh hoặc tập hợp hình ảnh đáp ứng tốt nhất nhu cầu thông tin của người dùng trong bộ sưu tập hình ảnh. Mơ hình kiến trúc tìm kiếm theo ngữ nghĩa được mơ tả như Hình 3.5, nó bao gồm hai thành phần chính:

(1) Phần giao diện người dùng (front end) có hai chức năng chính:

- Giao diện truy vấn: cho phép người dùng nhập câu hỏi, truy vấn.

- Hiển thị câu trả lời, kết quả.

(2) Phần kiến trúc bên trong (back end) gồm ba thành phần chính đó là:

- Phân tích câu hỏi

- Tìm kiếm kết quả cho truy vấn hay câu hỏi

- Tập tài liệu, dữ liệu tìm kiếm/ mạng ngữ nghĩa.

Trong hệ thống này, dùng ontology làm cơ sở cho việc kết hợp ngữ nghĩa và truy vấn SPARQL để tìm kiếm hình ảnh theo ngữ nghĩa. Ontology là một phương thức biểu diễn tri thức chuẩn cho web ngữ nghĩa [6]. Phương thức biểu diễn tri thức này cho hình hóa các khái niệm và quan hệ giữa các khái niệm trong miền tri thức.

Các ontology được xây dựng để cung cấp cách biểu diễn hình ảnh theo cách thức ngữ nghĩa, tổ chức thơng tin web theo cách có cấu trúc, được chia sẻ nội dung hình ảnh. Ontology được biểu diễn dưới dạng RDF và chúng dựa trên tiêu chuẩn dữ liệu và kho dữ liệu kiến thức hiện có. Do đó, hình ảnh được trình bày theo cách máy dễ hiểu, điều này dẫn đến nhiệm vụ truy x́t hình ảnh được đơn giản hóa so với các cách tiếp cận trước đó. Hình ảnh được truy xuất bằng cách sử dụng mơ tả nội dung của hình ảnh bằng truy vấn SPARQL.

3.3.1. Các chú thích cho hình ảnh

Chú thích hình ảnh là q trình liên kết hình ảnh khơng xác định với lớp được đặt tên. Đó là ánh xạ hình ảnh chưa biết tới một trong số các lớp đã biết. Hình 3.6 cho thấy việc chú thích một hình ảnh bằng cách sử dụng protégé. Sau đó, hình ảnh kế thừa các thuộc tính của lớp và chú thích của lớp được chỉ định của nó. Cách tiếp cận của tác giả dựa trên ý tưởng về chú thích hình ảnh bằng cách sử dụng các ontology.

Hình 3.6: Chú thích một hình ảnh

Hình 3.7 cho thấy chú thích hình ảnh hoa hồng trong cấu trúc bản thể học. Các nhãn được sử dụng để biểu thị thơng tin bổ sung như các tính năng cấp cao và mối quan hệ giữa các dữ liệu trong hình ảnh.

3.3.2. Phát triển Ontology

Mơ hình Ontology được xây dựng để cung cấp giải thích ngữ nghĩa được chia sẻ nội dung hình ảnh. Hình ảnh được kết nối với lớp tương ứng của nó trong ontology bằng thuộc tính xác nhận.

Dựa vào CSDL ảnh thu thập của hệ thống để xây dựng ontolgy cho một miền tri thức (domain ontology) của các chủ đề ảnh để mô tả các khái niệm, các mối quan hệ ngữ nghĩa giữa chúng.

Trong nghiên cứu này đã xây dựng một domain ontology bao gồm 15 khái niệm liên quan đến chủ đề của các ảnh trong CSDL thu thập tương ứng với lớp dữ liệu ảnh được phân lớp dựa trên kiến trúc mạng AlexNet. Domain onotlogy này có thể được mở rộng tương ứng với tập dữ liệu ảnh trong CSDL.

Hình ảnh được kết nối với lớp tương ứng của nó trong ontology bằng thuộc tính xác nhận. Theo đó mọi lớp khác đều có thể được tạo, ở đây tác giả chia tồn bộ mọi thứ thành hai lớp con chính. Đó là Living_Thing và Nonliving_Thing.

Trong mục Living_Thing, tác giả đã phân loại tất cả các sinh vật sống như động vật (animal) và thực vật (plant) thành các lớp con riêng biệt. Và từ đó, động vật lại được phân loại thành ăn cỏ (herbivore), ăn thịt (carnivore), v.v.,

Những khái niệm Cat, Dog, Lion đều là lớp con của lớp động vật ăn thịt (carnivore). Các khái niệm Car, Bus, Plane là lớp con của lớp phương tiện (vehicle) và các khái niệm Sunflower, Rose, LiLy là lớp con của lớp hoa (Flower).

Hình 3.8 hiển thị 15 chủ đề ảnh trong cơ sở dữ liệu ảnh được phân lớp tương ứng với các đỉnh là các khái niệm và các cạnh biểu diễn mối quan hệ giữa các khái niệm.

Hình 3.8: Domain ontology của hệ thống

3.3.3. Ontology hình ảnh

Ontology hình ảnh có hai thành phần, đó là cấu trúc phân cấp lớp của một miền và mô tả văn bản của miền. Văn bản được chia thành mơ tả văn bản (từ khóa) và mơ tả văn bản trực quan (dữ liệu số cho các đặc trưng). Điều này được sử dụng để lưu giữ tất cả thơng tin cần thiết về các hình ảnh trong cơ sở dữ liệu bản thể học.

PROTÉGÉ [24] được sử dụng để xây dựng một hệ thống phân cấp ontology hồn chỉnh và có thể đại diện cho mối quan hệ kết nối chính xác với cấu trúc đã tạo đó và cũng có thể tải lên hình ảnh với các mô tả phức tạp của chúng và ánh xạ nó tới các lớp trong hệ thống phân cấp. Việc biểu diễn và truy xuất hình ảnh được thực hiện theo ba bước.

- Bước đầu tiên là tạo các lớp trong bản thể học (ontology) và hoàn thành mối

quan hệ với hệ thống phân cấp đó.

- Bước thứ hai là tải lên hình ảnh với mơ tả đầy đủ của nó về hình ảnh đại diện. - Bước thứ ba là truy xuất hình ảnh bằng truy vấn SPARQL.

Image Ontology được xây dựng bằng cách sử dụng Class, Properties và instance. Hệ thống phân cấp lớp danh từ của hình ảnh cũng là các thể hiện của các lớp lá đại diện cho hình ảnh. Các mơ tả chung được sắp xếp cho phân cấp lớp (thuộc tính kiểu dữ liệu). Thuộc tính đối tượng được sử dụng để kết nối các thể hiện của lớp ngữ nghĩa với các thể hiện từ các lớp chứa mơ tả. Hình ảnh được chú thích cho nhiều hơn một lớp bằng cách sử dụng thuộc tính xác nhận. Các thuộc tính chung khác được thêm vào các lớp khi cần thiết (Chẳng hạn như chim có hai chân).

Protégé được sử dụng để tạo các lớp (class), thuộc tính (properties), cá thể (instance) và ánh xạ hình ảnh tới các lớp liên quan của nó. Các mã RDF / XML được tạo tự động bởi protégé. Bên trong các mã đại diện cho đồ thị RDF. Meta của một hình ảnh được thêm vào.

Một lớp riêng biệt được tạo cho dữ liệu meta về các tính năng cấp thấp của hình ảnh. Chúng được sử dụng để truy cập các khái niệm chung của một hình ảnh. Các biểu mẫu được sử dụng để thiết kế nhãn hoặc khung. Khi một phiên bản mới được tạo, các nhãn này giữ hình ảnh và thơng tin chú thích của nó.

Thơng tin tường thuật cấp cao của mơ tả hình ảnh từ nguồn thơng tin bên ngồi được thu thập và đóng gói thành các lớp và cá thể. Trong việc tạo ra các loại xác nhận riêng biệt để mọi hình ảnh liên quan đến một lớp cụ thể sẽ được hiển thị mà khơng bị thiếu.

Hình 3.9 hiển thị ảnh chụp màn hình của giao diện chú thích để biểu thị thơng tin bổ sung về hình ảnh. Trong trường hợp này, là đang chú thích hình ảnh đại diện cho một con Voi trong rừng.

Hình cũng cho thấy các khe để biểu thị thơng tin bổ sung về hình ảnh. Chúng được thêm vào bằng các thuộc tính là Người tạo, Chủ đề, Vị trí và Thời gian với kiểu dữ liệu. Bốn yếu tố được liên kết với các cây con trong bản thể luận.

Hình 3.9: Liên kết hình ảnh với các ontology trong protégé

Hình 3.9 mơ tả ảnh và các giá trị của nó được chú thích cho một hoặc nhiều lớp bằng cách sử dụng các vị trí và nhãn. Việc lập chỉ mục hình ảnh ngữ nghĩa được thực hiện bằng cách chú thích hình ảnh vào lớp. Hình ảnh có cùng thể loại được dễ dàng xác định và truy xuất bằng cách sử dụng các tính năng.

3.3.4. Truy xuất hình ảnh ngữ nghĩa (SIR-Semantic Image Retrieval)

Công cụ truy vấn lấy thông tin đầu vào từ người dùng qua giao diện với nội dung đầu vào mà người dùng muốn tìm kiếm. Người dùng có thể cung cấp đầu vào theo hai cách.

1) Đầu vào văn bản: Phương pháp đầu tiên cung cấp đầu vào cho SIR là dựa trên

văn bản. Tìm kiếm theo ngữ nghĩa khác với tìm kiếm dựa trên từ khóa thơng thường. Tìm kiếm ngữ nghĩa bao gồm việc xây dựng một công cụ truy vấn nhận yêu cầu bằng ngôn ngữ truy vấn bản thể học (chẳng hạn như SPARQL), thực thi chúng trên cấu trúc bản thể học và trả về các bộ giá trị thỏa mãn các điều kiện trong truy vấn.

Hình 3.10: Mơ hình từ khóa tìm kiếm với ngữ nghĩa

Animal Mạng nơ-ron tích chập (CNN) Carnivore Dog SPARQL Label Lion, Cat, Carnivore Herbivore

Lion Cat Zebra Monke

y Return

Predict Build

Ngôn ngữ truy vấn SPARQL đã được W3C (World Wide Web Consortium) chấp nhận như một phương tiện để truy vấn các ontology được xây dựng bằng cách sử dụng RDF và đã được mở rộng để hỗ trợ định dạng OWL. SPARQL là một ngôn ngữ truy vấn RDF có thể truy xuất và thao tác dữ liệu được lưu trữ ở định dạng RDF.

Trong cách tiếp cận này, người dùng được yêu cầu nhập văn bản có chứa thơng tin về thứ mà họ muốn tìm kiếm, để thực hiện tìm kiếm theo ngữ nghĩa thì bước đầu tiên là xây dựng câu truy vấn SPARQL thích hợp từ các từ khóa tìm kiếm và thực hiện câu truy vấn trên domain ontology. Sau đó, các từ khóa được sử dụng để tìm kiếm các ảnh đã được chỉ mục trong hệ thống.

Hình 3.10 minh họa thao tác kết quả tìm kiếm bằng cách sử dụng CNN để tìm ra nhãn của ảnh truy vấn của người dùng. Sau đó từ khóa mơ tả nhãn của ảnh sẽ dùng để xây dựng câu truy vấn SPARQL, để tìm và trả về thêm các từ khóa có liên hệ về ngữ nghĩa trong domain-ontology.

2) Đầu vào hình ảnh: Phương pháp thứ hai để cung cấp đầu vào cho SIR là dựa

trên hình ảnh.

Trong cách tiếp cận này, người dùng được yêu cầu cung cấp hình ảnh của đối tượng mà họ muốn tìm kiếm. Hình ảnh đầu vào có thể chứa một đối tượng hoặc nhiều đối tượng. Cách tiếp cận này là khả thi khi người dùng muốn tìm kiếm các đối tượng / hình ảnh liên quan tương tự như đối tượng / hình ảnh mà họ có. Hơn nữa, phương pháp này cung cấp tính linh hoạt trong phương thức nhập, vì nó mang lại chiều hướng mới cho việc tìm kiếm. Sau khi nhận đầu vào từ người dùng, công cụ truy vấn đã xây dựng truy vấn cho đầu vào. Khi cơ sở tri thức dựa trên Ontology được sử dụng, truy vấn được xây dựng bằng ngôn ngữ SPARQL.

Các đối tượng trong hình ảnh được phát hiện bằng cách sử dụng trích xuất đặc trưng trong mạng nơ-ron tích chập với mơ hình áp dụng là kiến trúc mạng AlexNet, các đặc trưng này được chuyển đổi thành các khái niệm bản thể luận cấp cao; mô tả hình ảnh nếu được người dùng cung cấp trong tìm kiếm cũng được chuyển đổi thành các khái niệm

bản thể học, sau khi hoàn thành bước này, truy vấn SPARQL được tạo bằng các tham số này.

3.4. Kết luận

Trong chương này, tác giả đề xuất kiến trúc cho hệ thống với một mơ hình phân lớp dữ liệu hình ảnh dựa trên CNN và mơ hình truy vấn ảnh. Trong đó, kiến trúc mạng AlexNet được áp dụng để phân lớp dữ liệu hình ành theo hướng tiếp cận ngữ nghĩa với kỹ thuật ontology. Ngôn ngữ truy vấn SPARQL được sử dụng để truy xuất dữ liệu hình ảnh phù hợp nhất với từ khố hoặc ảnh đầu vào mà người sử dụng mong muốn.

CHƯƠNG 4

KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Môi trường và các công cụ sử dụng cho thực nghiệm

Thực nghiệm được thực hiện trên 2 máy tính có cấu hình như sau: - Thành phần Cấu hình

CPU: Intel Core i9-9900K [Turbo 5.00 GHz] 8 Cores, 16 Threads, 16MB, FCLGA1151 RAM: PC4 Kingmax Zeus 32G/3000

MAIN: Z390 CHIPSET INTEL

HDD: Seagate 1TB

SSD: Dato 120GB

VGA: RTX-2080/8GB/DDR6/256 BIT

- Ngơn ngữ lập trình, các thư viện và phần mềm hỗ trợ học sâu được sử dụng trong thực nghiệm là Python, Tensoflow, Karas, Protégé, OWL và Sparql.

4.2. Tập dữ liệu thực nghiệm

Tập dữ liệu thực nghiệm trong nghiên cứu này là ImageNet [25], một tập dữ liệu rất nổi tiếng trong lĩnh vực thị giác máy tính. Từ năm 2010, tập dữ liệu ảnh ImageNet được sử dụng để tổ chức cuộc thi thường niên ILSVRC (ImageNet Large Scale Visual Recognition Challenge) [26].

Tập dữ liệu ImageNet có khoảng 15 triệu hình ảnh có độ phân giải cao đã được gán nhãn thuộc khoảng 22.000 danh mục. ILSVRC sử dụng một tập hợp con của ImageNet với khoảng 1.000 hình ảnh trong mỗi 1.000 danh mục (trung bình mỗi nhãn có khoảng 1,2 ngàn hình ảnh), tổng cộng có khoảng 1,2 triệu hình ảnh đào tạo, 50.000 hình ảnh xác nhận (validation) và 150.000 hình ảnh thử nghiệm (tập validation và tập test đều có 1.000 nhãn thuộc tập train).

Có tất cả 11.850 ảnh được thu thập từ tập dữ liệu và trên internet, bao gồm 15 chủ đề là: Cat, Dog, Peacok, LiLy, Car, Mountain, Sea, Sunflower, Plane, Rose, Lion, Zebras, Bus, Monkey và People.

Đầu vào của mạng AlexNet là một bức ảnh RGB có kích thước 224x224 pixel. Do đó, các ảnh được điều chỉnh lại theo cùng độ phân giải là 224x224.

4.3. Xây dựng mơ hình phân loại ảnh cho hệ thớng tìm kiếm

Mơ hình giải quyết bài tốn phân lớp một bức ảnh vào 1 lớp trong 15 chủ đề khác nhau (Cat, Dog, Peacok, … ). Đầu ra của mơ hình là một vector có 1.000 phần tử. Phần tử thứ i của vector đại diện cho xác suất bức ảnh thuộc về lớp thứ i. Do đó, tổng của các phần tử trong vector là 1.

Phân loại hình ảnh bằng mạng AlexNet với sự hỗ trợ thư viện nguồn mở TensorFlow là một nền tảng mã nguồn mở end-to-end dành cho học máy giúp đào tạo

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập (Trang 57)

Tải bản đầy đủ (PDF)

(85 trang)