Mơ hình từ khóa tìm kiếm với ngữ nghĩa

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập (Trang 66 - 70)

Animal Mạng nơ-ron tích chập (CNN) Carnivore Dog SPARQL Label Lion, Cat, Carnivore Herbivore

Lion Cat Zebra Monke

y Return

Predict Build

Ngôn ngữ truy vấn SPARQL đã được W3C (World Wide Web Consortium) chấp nhận như một phương tiện để truy vấn các ontology được xây dựng bằng cách sử dụng RDF và đã được mở rộng để hỗ trợ định dạng OWL. SPARQL là một ngôn ngữ truy vấn RDF có thể truy xuất và thao tác dữ liệu được lưu trữ ở định dạng RDF.

Trong cách tiếp cận này, người dùng được yêu cầu nhập văn bản có chứa thơng tin về thứ mà họ muốn tìm kiếm, để thực hiện tìm kiếm theo ngữ nghĩa thì bước đầu tiên là xây dựng câu truy vấn SPARQL thích hợp từ các từ khóa tìm kiếm và thực hiện câu truy vấn trên domain ontology. Sau đó, các từ khóa được sử dụng để tìm kiếm các ảnh đã được chỉ mục trong hệ thống.

Hình 3.10 minh họa thao tác kết quả tìm kiếm bằng cách sử dụng CNN để tìm ra nhãn của ảnh truy vấn của người dùng. Sau đó từ khóa mơ tả nhãn của ảnh sẽ dùng để xây dựng câu truy vấn SPARQL, để tìm và trả về thêm các từ khóa có liên hệ về ngữ nghĩa trong domain-ontology.

2) Đầu vào hình ảnh: Phương pháp thứ hai để cung cấp đầu vào cho SIR là dựa

trên hình ảnh.

Trong cách tiếp cận này, người dùng được yêu cầu cung cấp hình ảnh của đối tượng mà họ muốn tìm kiếm. Hình ảnh đầu vào có thể chứa một đối tượng hoặc nhiều đối tượng. Cách tiếp cận này là khả thi khi người dùng muốn tìm kiếm các đối tượng / hình ảnh liên quan tương tự như đối tượng / hình ảnh mà họ có. Hơn nữa, phương pháp này cung cấp tính linh hoạt trong phương thức nhập, vì nó mang lại chiều hướng mới cho việc tìm kiếm. Sau khi nhận đầu vào từ người dùng, công cụ truy vấn đã xây dựng truy vấn cho đầu vào. Khi cơ sở tri thức dựa trên Ontology được sử dụng, truy vấn được xây dựng bằng ngôn ngữ SPARQL.

Các đối tượng trong hình ảnh được phát hiện bằng cách sử dụng trích xuất đặc trưng trong mạng nơ-ron tích chập với mơ hình áp dụng là kiến trúc mạng AlexNet, các đặc trưng này được chuyển đổi thành các khái niệm bản thể luận cấp cao; mơ tả hình ảnh nếu được người dùng cung cấp trong tìm kiếm cũng được chuyển đổi thành các khái niệm

bản thể học, sau khi hoàn thành bước này, truy vấn SPARQL được tạo bằng các tham số này.

3.4. Kết luận

Trong chương này, tác giả đề xuất kiến trúc cho hệ thống với một mơ hình phân lớp dữ liệu hình ảnh dựa trên CNN và mơ hình truy vấn ảnh. Trong đó, kiến trúc mạng AlexNet được áp dụng để phân lớp dữ liệu hình ành theo hướng tiếp cận ngữ nghĩa với kỹ thuật ontology. Ngôn ngữ truy vấn SPARQL được sử dụng để truy xuất dữ liệu hình ảnh phù hợp nhất với từ khoá hoặc ảnh đầu vào mà người sử dụng mong muốn.

CHƯƠNG 4

KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Môi trường và các công cụ sử dụng cho thực nghiệm

Thực nghiệm được thực hiện trên 2 máy tính có cấu hình như sau: - Thành phần Cấu hình

CPU: Intel Core i9-9900K [Turbo 5.00 GHz] 8 Cores, 16 Threads, 16MB, FCLGA1151 RAM: PC4 Kingmax Zeus 32G/3000

MAIN: Z390 CHIPSET INTEL

HDD: Seagate 1TB

SSD: Dato 120GB

VGA: RTX-2080/8GB/DDR6/256 BIT

- Ngơn ngữ lập trình, các thư viện và phần mềm hỗ trợ học sâu được sử dụng trong thực nghiệm là Python, Tensoflow, Karas, Protégé, OWL và Sparql.

4.2. Tập dữ liệu thực nghiệm

Tập dữ liệu thực nghiệm trong nghiên cứu này là ImageNet [25], một tập dữ liệu rất nổi tiếng trong lĩnh vực thị giác máy tính. Từ năm 2010, tập dữ liệu ảnh ImageNet được sử dụng để tổ chức cuộc thi thường niên ILSVRC (ImageNet Large Scale Visual Recognition Challenge) [26].

Tập dữ liệu ImageNet có khoảng 15 triệu hình ảnh có độ phân giải cao đã được gán nhãn thuộc khoảng 22.000 danh mục. ILSVRC sử dụng một tập hợp con của ImageNet với khoảng 1.000 hình ảnh trong mỗi 1.000 danh mục (trung bình mỗi nhãn có khoảng 1,2 ngàn hình ảnh), tổng cộng có khoảng 1,2 triệu hình ảnh đào tạo, 50.000 hình ảnh xác nhận (validation) và 150.000 hình ảnh thử nghiệm (tập validation và tập test đều có 1.000 nhãn thuộc tập train).

Có tất cả 11.850 ảnh được thu thập từ tập dữ liệu và trên internet, bao gồm 15 chủ đề là: Cat, Dog, Peacok, LiLy, Car, Mountain, Sea, Sunflower, Plane, Rose, Lion, Zebras, Bus, Monkey và People.

Đầu vào của mạng AlexNet là một bức ảnh RGB có kích thước 224x224 pixel. Do đó, các ảnh được điều chỉnh lại theo cùng độ phân giải là 224x224.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập (Trang 66 - 70)

Tải bản đầy đủ (PDF)

(85 trang)