Tiểu kết chương 2

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quan (Trang 47)

Trong chương này, luận văn tập trung trình bày phương pháp phương pháp tra cứu ảnh với phản hồi liên quan sử dụng phân cụm gia tăng. Phương pháp sử dụng một phương pháp phân cụm gia tăng lên tập ảnh mà người dùng chọn để hình thành lên truy vấn ở lần lặp sau, và ưu điểm của phương pháp phân cụm gia tăng là ở lần lặp tra cứu sau các ảnh phản hồi sẽ được phân vào các cụm mà không phải thực hiện phân cụm lại. Phương pháp tra cứu được các ảnh đa dạng mà không phải đưa vào một truy vấn phức tạp, bên cạnh đó thời gian tra cứu nhanh.

CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM 3.1. Giới thiệu bài toán tra cứu ảnh dựa vào nội dung

Tra cứu ảnh dựa vào nội dung là phương pháp giúp con người tiếp cận tập dữ liệu ảnh lớn một cách có hiệu quả nhất, từ đó cung cấp nhiều thông tin cho người dùng hơn là văn bản. Tuy nhiên, bước chuyển từ tra cứu văn bản với mô tả ảnh sang sử dụng một ảnh truy vấn bộc lộ nhiều hạn chế bởi vì việc sử dụng một ảnh truy vấn không thể biểu diễn được toàn bộ nhu cầu của người dùng. Một trong những cách khắc phục hạn chế này là sử dụng đa truy vấn, nhu cầu của người dùng sẽ được biểu diễn bởi nhiều ảnh truy vấn đầu vào. Từ đó thông tin được cung cấp tốt hơn cho hệ thống CBIR, giúp đa dạng hơn kết quả trả về đối với truy vấn khởi tạo, làm đầu vào cho pha phản hồi liên quan.

Phản hồi liên quan được sử dụng để học thông tin từ người dùng sau truy vấn khởi tạo, các phương pháp phân cụm được sử dụng để giảm độ phức tạp tính toán thông qua gom nhóm các ảnh tương tự nhau về mặt ngữ nghĩa. Trọng tâm cụm được sử dụng làm đầu vào cho pha tra cứu kế tiếp. Việc này lặp lại đến khi nào đạt được mong muốn của người dùng.

Đối với các phương pháp phân cụm truyền thống, độ phức tạp tính toán tăng tỉ lệ thuận với số lượng tập ảnh phản hồi từ người dùng. Phân cụm gia tăng được đề xuất nhằm hạn chế việc này, giúp tốc độ xử lý của các hệ thống CBIR tăng lên mà không làm giảm chất lượng tra cứu ảnh dựa vào nội dung.

Chiến lược tra cứu được chúng tôi đề xuất sử dụng trong luận văn này là kết hợp tính đa dạng trong tra cứu ảnh sử dụng đa truy vấn và học thông tin từ người dùng thông qua phản hồi liên quan với phân cụm gia tăng LDA. Hình 3.1 cho thấy mô hình tổng quát của hệ thống.

Hình 3.1. Mô hình tổng quát của hệ thống

Trong đó, n ảnh truy vấn đầu vào Q1 đến Qn được cung cấp cho hệ thống, sử dụng cùng phương pháp trích rút đặc trưng đối với tập cơ sở dữ liệu nhận được n vec-tơ đặc trưng, là truy vấn khởi tạo cho máy tìm kiếm CBIR. Với mỗi truy vấn đầu vào nhận được một tập kết quả trả về, các tập này sau đó được gộp lại để được một tập kết quả SMerge duy nhất.

Thông tin phản hồi từ người dùng hay các ảnh liên quan ngữ nghĩa được cung cấp. Hệ thống sử dụng phân cụm LDA phân tập phản hồi thành m cụm, huấn luyện LDA cho mỗi cụm và cung cấp lại đầu vào mới cho máy tìm kiếm là đại diện của mỗi cụm.

Ở lần lặp thứ hai, hệ thống không phân cụm lại mà sử dụng gia tăng cụm LDA đã được huấn luyện để gán nhãn cho các ảnh mới phản hồi.

Quá trình phản hồi này có thể lặp lại nhiều lần cho đến khi đạt được mong muốn từ người dùng.

3.2. Môi trường thực nghiệm.

Trong khuôn khổ luận văn, luận văn không đề cập đến hiệu năng của các phương pháp trích rút đặc trưng, vì vậy, tập đặc trưng ảnh được xem là sẵn có cho pha tra cứu tiếp theo.

3.2.1. Cơ sở dữ liệu ảnh.

Cơ sở dữ liệu ảnh được sưu tầm là tập con của tập Corel được sử dụng rộng rãi trong cộng đồng nghiên cứu lĩnh vực tra cứu ảnh dựa vào nội dung. Tập ảnh này gồm 3400 ảnh đã được phân lớp theo ngữ nghĩa từ phía người dùng. Tập này gồm 34 loại, mỗi loại có 100 ảnh, cụ thể được cung cấp trong bảng 3.1. Tất cả các ảnh trong tập ảnh này có tính chất là đều chứa đối tượng tiền cảnh nổi bật. Cỡ của các ảnh có max(chiều rộng, chiều cao)=384 và min(chiều rộng, chiều cao)=256.

Bảng 3.1. Bảng phân bố tập ảnh Corel STT LỚP ẢNH SỐ LƯỢNG GHI CHÚ 1 290 100 2 700 100 3 750 100 4 770 100 5 840 100 6 1040 100 7 1050 100 8 1070 100 9 1080 100 10 1090 100 11 1100 100 12 1120 100 13 1340 100 14 1350 100 15 1680 100 16 2680 100 17 2890 100 18 3260 100 19 3510 100

20 3540 100 21 3910 100 22 4150 100 23 4470 100 24 4580 100 25 4990 100 26 5210 100 27 5350 100 28 5530 100 29 5810 100 30 5910 100 31 6440 100 32 6550 100 33 6610 100 34 6840 100 3.2.2. Vec-tơ đặc trưng

Các đặc trưng được chia làm hai loại là: các đặc trưng màu và các đặc trưng kết cấu (xem Bảng 3.2 ở dưới).

Bảng 3.2. Các loại đặc trưng.

Các loại đặc trưng Tên đặc trưng Độ dài

Loại đặc trưng màu

Lược đồ màu ColorHsvHistogram64 64 Mô men màu ColorLuvMoment123 9

Gắn kết màu ColorHsvCoherence64 128 Loại đặc trưng

kết cấu

Kết cấu Tamura CoarsnessVector 10 Directionality 8 Kết cấu Wavelet WaveletTwtTexture 104

3.2.3. Tập tin cậy nền

Tập tin cậy nền Corel được sử dụng rộng rãi trong đánh giá CBIR, do đó luận văn cũng sử dụng phân loại Corel làm tin cậy nền, tức là luận văn xem tất cả các ảnh trong cùng loại Corel là liên quan. Tập tin cậy nền này gồm 4 cột (có tiêu đề: ID ảnh truy vấn, Truy vấn khởi tạo Q0, ID ảnh và Sự liên quan) và gồm 3400 dòng (mỗi dòng là một véc tơ đặc trưng).

3.2.4. Cấu hình đề xuất thiết bị chạy thực nghiệm

Để đảm bảo hệ thống vận hành thông suốt, luận văn cũng đề xuất cấu hình tối thiểu đối với thiết bị chạy thực nghiệm. Bảng 3.3 cung cấp chi tiết thông tin cấu hình tối thiểu của thiết bị chạy thực nghiệm.

Bảng 3.3. Bảng cấu hình đề xuất thiết bị chạy thực nghiệm.

STT Loại TB Chủng loại Số lượng

1 CHIP Intel Core i3 1

2 RAM 4Gb DDRIII 1

3 HDD 500Gb HDD 1

4 VGA Intel HD Graphic 1

5 SCREEN 1

6 OS Windows 8 x64 1

7 Matlab Matlab 2016a x64 1

3.3. Đánh giá kết quả thực nghiệm.

3.3.1. Chiến lược mô phỏng phản hồi liên quan.

Để bắt chước hành vi của con người, luận văn thực hiện mô phỏng phản hồi liên quan trong thử nghiệm. Đầu tiên, 05 ảnh truy vấn khởi tạo sẽ cung cấp cho đầu vào tra cứu. Thông qua máy tìm kiếm phân hạng tập ảnh cơ sở dữ liệu đối với mỗi ảnh truy vấn được 05 tập kết quả. 05 kết quả này sau đó được gộp lại thành một tập kết quả trả về duy nhất.

Tiếp theo chúng tôi mô phỏng tương tác người dùng bằng việc chọn các ảnh liên quan (positive) từ kết quả tra cứu khởi tạo dựa vào tập tin cậy nền (ground truth), những ảnh còn lại là những ảnh không liên quan (negative) trong 100 ảnh đầu tiên của tập kết quả. Lý do lựa chọn 100 ảnh đầu tiên là bởi vì thông thường người dùng chỉ xem trong từ 2 đến 3 màn hình (Mỗi màn hình có khoảng 50 ảnh)

để phản hồi. Các ảnh phản hồi liên quan sau đó được phân cụm thành M cụm, huấn luyện LDA được thực hiện trên các cụm. Hệ thống tính toán các điểm truy vấn tối ưu với từng cụm, làm đầu vào cho máy tìm kiếm lần thứ hai. Các kết quả phân hạng tập ảnh cơ sở dữ liệu được kết hợp lại. Mô phỏng tương tác người dùng lại một lần nữa được sử dụng trên tập kết quả mới nhằm lấy ra các ảnh liên quan thông qua tập tin cậy nền. Tuy nhiên, các ảnh được bổ sung thêm vào các cụm trong tập dữ liệu huấn luyện trước đó thông qua phân cụm gia tăng. Lặp lại quá trình tra cứu một lần nữa để lấy kết quả đánh giá.

Chiến lược này được sử dụng để mô phỏng người dùng thực tế trong thực nghiệm của chúng tôi.

3.3.2. Kết quả đánh giá.

Áp dụng chiến lược mô phỏng phản hồi liên quan được đề cập trong phần 3.3.1 của luận văn này với tập 3400 ảnh Corel và 2 lần mô phỏng phản hồi. Luận văn sử dụng 3400 ảnh này lần lượt mỗi 05 ảnh trong một nhóm chính là đa truy vấn để thực hiện đánh giá đối với hệ thống.

Trong thực nghiệm luận văn chạy lần lượt với 3400 truy vấn, mỗi truy vấn thực nghiệm 3 lần với số cụm khác nhau lần lượt là 2, 4 và 6 cụm để xem xét hiệu quả khi số cụm tăng lên trên hệ thống. Các kết quả thực nghiệm được chỉ ra trong Hình 3.2. Trục ngang chỉ ra số cụm (cụ thể là 2, 4 và 6 cụm). Trục đứng chỉ ra độ chính xác. Các kết quả, độ chính xác trung bình của 3400 truy vấn, được thể hiện bằng số liệu trong Bảng 3.4 và bằng đồ thị trong Hình 3.2 ở dưới.

Độ chính xác là tỉ số giữa số các ảnh liên quan với ảnh truy vấn trong tập kết quả trả về trên tổng số các ảnh trả về. Độ chính xác của phương pháp là trung bình độ chính xác đối với 3400 ảnh truy vấn.

Bảng 3.4. Bảng kết quả của các phương pháp

Hình 3.2. Biểu đồ so sánh kết quả thực nghiệm

Luận văn có thể đưa ra các kết luận từ Hình 3.2. Độ chính xác của hệ thống tra cứu ảnh sử dụng đa truy vấn đạt 23.13%, tốt hơn so với phương pháp tra cứu truyền thống đạt 20.33%. Khi kết hợp sử dụng phản hồi liên quan với phân cụm gia tăng, ở lần lặp thứ 1 độ chính xác dạt 28.14 đối với 2 cụm, 29.43 với 4 cụm và 30.32 với 6 cụm; ở lần lặp thứ 2 độ chính xác đạt 31.73% với 2 cụm, 33.5% với 4 cụm và 36.14% với 6 cụm. Điều này khẳng định rằng độ chính xác của hệ thống tăng lên sau mỗi lần lặp phản hồi và tăng hơn khi số lượng cụm tăng.

Truyền thống Đa truy vấn Lần 1 Lần 2 2 cụm 20.33 23.13 28.14 31.73 4 cụm 20.33 23.13 29.43 33.5 6 cụm 20.33 23.13 30.32 36.14 20 22 24 26 28 30 32 34 36 38 ĐỘ CHÍN H XÁC

Biểu đồ so sánh kết quả thực nghiệm

Truyền thống Đa truy vấn 2 cụm 4 cụm 6 cụm Lần 1 Lần 2 Lần 1 Lần 2 Lần 1 Lần 2 Độ chính xác 20.33 23.13 28.14 31.73 29.43 33.50 30.32 36.14

3.4. Giao diện hệ thống

Hình 3.3. Giao diện chính của hệ thống.

Hình 3.3 cung cấp giao diện chính của hệ thống. Hệ thống được xây dựng tuần tự theo các bước của mô hình hệ thống cụ thể:

Bước 1: Chọn tập dữ liệu ảnh / đặc trưng.

Bước 2: Chọn truy vấn khởi tạo (Có thể chọn một hay nhiều truy vấn) Bước 3: Tra cứu khởi tạo (với pha tra cứu) và phản hồi lần 1 (sau khi tra cứu) Bước 4: Huấn luyện bằng cách chọn số lượng cụm và sử dụng phân cụm LDA bước huấn luyện. Thông tin cụm của dữ liệu huấn luyện được hiển thị trong mục Danh sách cụm.

Bước 5: Tra cứu đối với dữ liệu huấn luyện và sử dụng phân cụm LDAvới thông tin sau tra cứu. Thông tin sau phân cụm thích gia tăng được cập nhật vào dữ liệu huấn luyện, hiển thị trong mục Danh sách cụm.

Thanh trạng thái cho biết tình trạng hoạt động của các tiến trình trong hệ thống.

Hình 3.4. Chọn tập dữ liệu ảnh / đặc trưng

Tập dữ liệu đặc trưng đã được trích rút tương ứng với hệ thống tra cứu và được lưu trong file dataset1.mat. Khi dữ liệu đã được đọc thành công, các công cụ sẽ được kích hoạt cho phép người dùng sử dụng.

Hình 3.5. Chọn ảnh truy vấn khởi tạo.

Người dùng chọn ảnh truy vấn từ tập đặc trưng. Hình 3.5 các ảnh truy vấn được chọn là 84003, 84004 và 84008 thuộc lớp 840.

Người dùng tiến hành tra cứu với truy vấn khởi tạo, tập kết quả trả về được hiển thị với tên và ảnh đại diện của lớp tương ứng trong tập ảnh Corel. Ảnh tương tự ngữ nghĩa với ảnh truy vấn là hình ảnh được khoanh màu đỏ. Hình 3.6 cung cấp kết quả tra cứu đối với truy vấn khởi tạo hay phương pháp tra cứu truyền thống.

Mô phỏng chiến lược phản hồi liên quan thông qua tập tin cậy nền, các ảnh tương tự ngữ nghĩa với ảnh truy vấn khởi tạo được đưa vào huấn luyện. Trên Hình 3.7 số lượng ảnh phản hồi là 25/100 ảnh đối với truy vấn 84003, 84004, 84008. Người dùng chọn số lượng cụm, tiến hành phân cụm tập huấn luyện. Kết quả phân cụm được hiển thị trong thanh “Danh sách cụm”. Hình 3.7 cung cấp kết quả phân cụm tập huấn luyện của ảnh truy vấn 84003, 84004, 84008.

Hình 3.7. Kết quả phân cụm tập huấn luyện.

Sau khi phân cụm dữ liệu huấn luyện, có thể tiến hành tra cứu với dữ liệu huấn luyện.

Hình 3.9. Kết quả tra cứu phản hồi liên quan.

Hình 3.9 cung cấp kết quả tra cứu với 4 truy vấn tối ưu tương ứng với 4 cụm của tập dữ liệu huấn luyện. Áp dụng chiến lược mô phỏng phản hồi với tập kết quả trên với phương pháp phân cụm gia tăng nhận được kết quả như Hình 3.10.

Hình 3.10. Kết quả phân cụm gia tăng.

Hình 3.11. Kết quả tra cứu sau khi sử dụng phân cụm gia tăng.

3.5. Tiểu kết chương 3.

Trong chương 3, luận văn đã phân tích thiết kế hệ thống và xây dựng theo mô hình tra cứu được đề xuất ở chương 2, đồng thời xây dựng tập ảnh thử nghiệm cho hệ thống. Một phương pháp đánh giá kết quả hệ thống và so sánh với một số hệ thống tra cứu khác tương tự cũng được trình bày trong chương này. Theo đó, hiệu quả tra cứu của hệ thống theo mô hình đề xuất cho hiệu quả tra cứu tốt hơn trên cùng một tập dữ liệu thử nghiệm. Đáp ứng được mục tiêu đặt ra ban đầu là nâng cao chất lượng tra cứu ảnh.

KẾT LUẬN

Các hệ thống tra cứu ảnh truyền thống có những hạn chế về độ chính xác thấp là do gặp vấn đề về khoảng cách ngữ nghĩa giữa mô tả ảnh bởi đặc trưng mức thấp và ngữ nghĩa của ảnh được cho người dùng. Để giải quyết hạn chế này có nhiều cách tiếp cận khác nhau và phản hồi liên quan là một cách tiếp cận hiệu quả.

Các phương pháp theo cách tiếp cận phản hồi liên quan thường dựa vào tập ảnh phản hồi từ người dùng để tính toán lại ảnh truy vấn ảnh ở lần lặp sau. Quá trình lặp đi lặp lại cho đến khi người dùng thỏa mãn. Tuy nhiên, các phương pháp tra cứu ảnh sử dụng phản hồi liên quan hiện nay thường phân cụm lại tập ảnh phản hồi tại mỗi lần lặp dẫn đến tốn nhiều thời gian tra cứu.

Để khắc phục hạn chế ở trên, cách tiếp cận đa điểm được đề xuất để có thế lấy được các ảnh liên quan ngữ nghĩa nằm rải rác trong không gian đặc trưng. Với cách tiếp cận này, chúng ta sẽ phân cụm các mẫu phản hồi của người dùng ở lần phản hồi đầu tiên bởi thuật toán phân cụm gia tăng LDA, ở các lần lặp sau ta sẽ gia tăng cụm chứ không thực hiện phân cụm lại tập mẫu phản hồi nữa.

Luận văn đã thực hiện được các công việc sau:

- Tìm hiểu được tổng quan về tra cứu ảnh dựa vào nội dung.

- Tìm hiểu về phương pháp tra cứu ảnh với phản hồi liên quan sử dụng phân cụm gia tăng.

- Tìm hiểu kỹ thuật phân tích phân biệt tuyến tính (LDA).

- Xây dựng hệ thống tra cứu ảnh thử nghiệm sử dụng cụm gia tăng với phản hồi liên quan.

Một số vấn đề cần được nghiên cứu tiếp trong tương lai:

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quan (Trang 47)

Tải bản đầy đủ (PDF)

(62 trang)