1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số của hàm khoảng cách

10 1 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 10
Dung lượng 909,29 KB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ …… ….***………… ĐÀO THỊ THÚY QUỲNH NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH DỰA VÀO NỘI DUNG SỬ DỤNG KỸ THUẬT ĐIỀU CHỈNH TRỌNG SỐ CỦA HÀM KHOẢNG CÁCH Chuyên ngành: Khoa học máy tính Mã số: 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN Hà Nội – 2019 Cơng trình đƣợc hồn thành tại: Học viện Khoa học Công nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Ngƣời hƣớng dẫn khoa học 1: PGS.TS Ngô Quốc Tạo Ngƣời hƣớng dẫn khoa học 2: PGS.TS Nguyễn Hữu Quỳnh Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … , ngày … tháng … năm … Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết luận án Cơ sở liệu ảnh ngày trở nên phổ biến lĩnh vực ứng dụng khác viễn thám, phòng chống tội phạm, y học,… Sự tiến triển kỹ thuật thu, truyền lưu trữ ảnh cho phép xây dựng sở liệu ảnh lớn Các nhân tố thúc đẩy quan tâm nghiên cứu phương pháp khai thác hiệu sở liệu ảnh Các kỹ thuật tra cứu ảnh dựa vào văn mô tả ảnh tốn nhiều thời gian, chi phí cao phụ thuộc vào cảm nhận chủ quan chuyên viên kỹ thuật Hơn nữa, hệ thống dựa vào từ khoá khó thay đổi sau Để khắc phục khó khăn này, tra cứu ảnh dựa vào nội dung (Content-based image retrieval-CBIR) đời vào đầu năm 90 Ý tưởng cách tiếp cận sử dụng kỹ thuật trích rút đặc trưng trực quan cách tự động mô tả nội dung từ ảnh đặc trưng màu sắc, kết cấu, hình dạng làm số ảnh Có nhiều hệ thống tra cứu ảnh dựa vào nội dung đề xuất Tuy nhiên, nhiều thực nghiệm hệ thống CBIR nội dung mức thấp thường thất bại mô tả khái niệm ngữ nghĩa mức cao ý nghĩ người dùng Do đó, hiệu hệ thống CBIR cịn xa so với kỳ vọng người dùng Do đó, luận án chọn đề tài “Nâng cao độ xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách” để góp phần giải vấn đề đặt Mục tiêu luận án Luận án nghiên cứu đề xuất số phương pháp tra cứu ảnh nhằm nâng cao độ xác tra cứu Các phương pháp hướng tới giải vấn đề giảm khoảng cách ngữ nghĩa đặc trưng mức thấp khái niệm mức cao ảnh Các đóng góp luận án Đề xuất phương pháp SRIR (Semantic–Related Image Retrieval method) phương pháp AWEIGHT (An efficient image retrieval method using adaptive weights) Bố cục luận án Luận án bố cục thành ba chương Chương giới thiệu tổng quan tra cứu ảnh dựa vào nội dung Chương trình bày phương pháp tra cứu ảnh liên quan ngữ nghĩa tác giả đề xuất, có tên SRIR Chương trình bày phương pháp tra cứu ảnh sử dụng trọng số thích nghi tác giả đề xuất, có tên AWEIGHT Cuối cùng, luận án đưa số kết luận định hướng nghiên cứu tương lai Chƣơng TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG 1.1 Giới thiệu Các dạng nguồn đa phương tiện khác tăng lên nhanh chóng, chẳng hạn liệu trực quan điện thoại thông minh, ứng dụng 2D/3D, nội dung web, Do đó, nhu cầu dịch vụ ảnh trở nên quan trọng hết Tuy nhiên, phương tiện trực quan yêu cầu lượng xử lý lưu trữ đáng kể, cần có phương pháp hiệu để đánh số, lưu trữ, phân tích tra cứu thơng tin trực quan từ sở liệu ảnh Do đó, tra cứu ảnh nhanh, xác hiệu cho loại tập ảnh trở thành nhiệm vụ thách thức 1.1.1 Tra cứu ảnh dựa vào văn Cách tiếp cận ban đầu cho tra cứu ảnh dựa vào văn bản, ảnh đánh số từ khóa, chủ đề mã phân loại Các từ khóa, chủ đề mã phân loại sử dụng trình tra cứu Tuy nhiên, với sở liệu ảnh lớn, khó khăn phải đối mặt cách tiếp cận tra cứu dựa vào văn ngày trở nên nghiêm trọng trình tốn nhiều nhân lực thời gian Để khắc phục vấn đề này, nội dung ảnh (gồm mầu, kết cấu hình dạng) trích rút tự động từ thân ảnh sử dụng cho tra cứu ảnh 1.1.2 Tra cứu ảnh dựa vào nội dung Trong tra cứu ảnh dựa vào nội dung, ảnh tra cứu thơng qua đặc trưng mức thấp (tức màu, hình dạng, kết cấu) sử dụng đặc trưng ngữ nghĩa mức cao hay đặc trưng ngữ nghĩa Hình 1.1 Minh họa khoảng cách ngữ nghĩa Kiến trúc hệ thống tra cứu ảnh dựa vào đặc trưng thị giác Hình 1.2 Tập ảnh Trích rút đặc trưng Cơ sở liệu đặc trưng Độ tương tự Kết tra cứu Sắp xếp Ảnh truy vấn Trích rút đặc trưng Đầu Véc tơ đặc trưng Hình 1.2 Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung Hình 1.3 chế hoạt động phản hồi liên quan CBIR Khi có kết tra cứu khởi tạo, người dùng chọn ảnh liên quan danh sách kết để làm mẫu có nhãn (dương hay âm) Dựa tập mẫu huấn luyện này, thuật toán máy học thực để điều chỉnh tham số Dựa tham số vừa học, tra cứu ảnh thực Quá trình tra cứu lặp lại người dùng thỏa mãn Hình 1.3: Sơ đồ phản hồi liên quan 1.1.3 Một số nghiên cứu tra cứu ảnh dựa vào nội dung Một số phương pháp tra cứu ảnh dựa vào nội dung đưa ra, chẳng hạn: VisualSeek, SIMPLicity, Blobwworld, WebSeek, Image Rover… 1.2.Trích rút đặc trƣng, 1.2.1 Đặc trƣng màu Đặc trưng màu sử dụng hiệu cho tra cứu ảnh màu sở liệu ảnh Các mơ tả màu trích rút so sánh thuận lợi, đặc trưng màu thích hợp cho tra cứu ảnh dựa vào đặc trưng trực quan 1.2.2 Đặc trƣng kết cấu Kết cấu ảnh đặc trưng ảnh quan trọng để mô tả thuộc tính bề mặt đối tượng mối quan hệ với vùng xung quanh 1.2.3 Đặc trƣng hình Đặc trưng hình dạng ảnh mang thơng tin ngữ nghĩa phân thành hai loại: dựa đường bao dựa vùng 1.2.4 Thông tin không gian Thông tin không gian biểu thị vị trí khơng gian tuyệt đối vị trí khơng gian tương đối vùng Các vùng đối tượng với đặc trưng màu tương tự phân biệt tốt việc tận dụng thông tin không gian 1.3 Đo khoảng cách Việc lựa chọn xác định loại độ đo khoảng cách mà sử dụng để so sánh độ tương tự cặp ảnh phụ thuộc vào cấu trúc véc tơ đặc trưng mô tả chúng Một số độ đo tương tự sử dụng phổ biến nhất: Khoảng cách Minkowski, Mahalanobis, Cosine, Hamming, Earth Mover … 1.4 Phân cụm Tiếp nối q trình biểu diễn trích rút đặc trưng, phương pháp phân cụm nhằm nhóm mơ tả ảnh thành cụm khác với ngữ nghĩa khác Các phương pháp phân cụm phổ biến như: K-means, GMM (Gaussian mixture models) phân cụm mờ (chẳng hạn fuzzy c-means), MPCK-mean… 1.5 Giảm khoảng cách ngữ nghĩa Có nhiều cách tiếp cận để giảm khoảng cách ngữ nghĩa tra cứu ảnh dựa vào nội dung Luận án lựa chọn theo hướng tiếp cận học máy để đưa đề xuất giảm khoảng cách 1.6 Đánh giá hiệu Để đánh giá ứng dụng tra cứu ảnh, sở liệu ảnh tập truy vấn yêu cầu Các truy vấn thực để thu kết tra cứu Sau đó, phương pháp đánh giá hiệu sử dụng để so sánh kết tra cứu với ảnh liên quan đến ảnh truy vấn sở liệu 1.7 Kết luận Chƣơng định hƣớng nghiên cứu Trong chương này, luận án trình bày đặc trưng mức thấp ảnh, cấu trúc hệ thống tra cứu ảnh dựa vào đặc trưng mức thấp phân tích số phương pháp tra cứu ảnh dựa vào đặc trưng mức thấp Bên cạnh đó, luận án trình bày số phương pháp giảm khoảng cách ngữ nghĩa theo cách tiếp cận phản hồi liên quan Một số kỹ thuật tra cứu ảnh với ngữ nghĩa mức cao phân tích Ở thời điểm nay, đề xuất thuật toán hiệu cho CBIR, số vấn đề cần phải giải Vấn đề giảm gánh nặng cho người dùng, tức không yêu cầu người dùng phải cung cấp đồng thời nhiều ảnh truy vấn đa dạng Vấn đề thứ hai ảnh liên quan ngữ nghĩa không thuộc cụm mà nằm rải rác khơng gian đặc trưng Do để tăng độ xác, cần thiết phải có cách thức lấy ảnh nằm rải rác không gian đặc trưng Vấn đề thứ ba vùng chứa điểm truy vấn tối ưu khác khác Do đó, để nâng cao độ xác, cần khai thác thông tin địa phương vùng Trong luận án này, tác giả tập trung vào vấn đề nâng cao độ xác tra cứu ảnh theo hướng tiếp cận giảm khoảng cách ngữ nghĩa Thứ nhất, luận án đề xuất phương pháp tra cứu ảnh liên quan ngữ nghĩa để thu tập ảnh kết có đa dạng nằm rải rác tồn khơng gian đặc trưng mà khơng yêu cầu người dùng tạo truy vấn phức tạp [CT5] Thứ hai, luận án đề xuất phương pháp tra cứu ảnh sử dụng trọng số thích nghi Thay sử dụng chung trọng số cho cụm chứa ảnh truy vấn tối ưu, phương pháp xác định trọng số cho cụm cụ thể [CT6] Chƣơng PHƢƠNG PHÁP TRA CỨU ẢNH LIÊN QUAN NGỮ NGHĨA 2.1 Giới thiệu Các cách tiếp cận CBIR giả thiết rằng, khơng gian đó, vị trí ảnh liên quan gần với ảnh truy vấn Giả thiết phù hợp với toán mà người dùng muốn tìm ảnh có đặc trưng mức thấp, chẳng hạn: tìm bơng hồng màu đỏ Tuy nhiên, với tốn mà người dùng đặt u cầu tìm ảnh có đặc trưng mức thấp khác ngữ nghĩa, chẳng hạn: tìm tất hồng (bao gồm hoa hồng màu đỏ, màu vàng, màu trắng) sở liệu ảnh, giả thiết khơng phù hợp Chương chương sau luận án đề xuất phương pháp giải tốn tìm ảnh có đặc trưng mức thấp khác ngữ nghĩa (tức chủ đề) Sự tương tự ảnh mà người nhận thức (các ảnh liên quan mặt ngữ nghĩa) lại khác với tương tự chúng không gian đặc trưng Tức là, ảnh liên quan mặt ngữ nghĩa nằm phân tán tồn khơng gian đặc trưng nằm rải rác số cụm cụm Trong trường hợp này, cách tiếp cận phản hồi liên quan truyền thống [2,29,61,74] không làm việc tốt (do họ sử dụng cách tiếp cận điểm truy vấn) Thực phản hồi liên quan đề cập đến việc tính tốn nhiều điểm truy vấn không gian đặc trưng thay đổi hàm khoảng cách Các phương pháp trình bày theo cách tiếp cận phản hồi liên quan với truy vấn tách rời có ưu điểm cho kết ảnh liên quan ngữ nghĩa nằm rải rác tồn khơng gian đặc trưng Tuy nhiên, phương pháp có hạn chế: (1) Yêu cầu người dùng phải cung cấp đồng thời ảnh truy vấn đa dạng, chẳng hạn, để truy vấn chủ đề hoa hồng, người dùng phải cung cấp ảnh hoa hồng đỏ, hoa hồng vàng, hoa hồng trắng, làm truy vấn Nếu điều kiện không thỏa mãn, kết tra cứu khởi tạo ảnh nằm vùng không bao gồm ảnh liên quan nằm vùng khác Nếu người dùng cung cấp cho hệ thống ảnh truy vấn ảnh hoa hồng màu vàng, kết tra cứu khởi tạo trả ảnh hoa hồng màu vàng mà bỏ qua ảnh hoa hồng màu trắng màu đỏ Lý việc hệ thống tra cứu ảnh truyền thống, ảnh có véc tơ đặc trưng mức thấp tương tự nằm gần (hay cụm đặc trưng mức thấp) Trên danh sách kết khởi tạo gồm có bơng hồng màu vàng, người dùng chọn hồng màu vàng Hệ thống dựa vào phản hồi hồng màu vàng để tiếp tục tra cứu Các pha tra cứu dịch chuyển đến vùng màu vàng Kết hệ thống thu bơng hồng màu vàng Vì vậy, vùng hoa hồng màu đỏ trắng bị bỏ qua, độ xác hệ thống bị giới hạn cho dù pha tra cứu sau có ưu việt đến đâu (2) Số lần truy vấn cho lần lặp phụ thuộc vào số ảnh liên quan người dùng cung cấp, có hai khả không thuận lợi xảy ra: Khả thứ nhất, người dùng chọn ảnh phản hồi (ít số cụm không gian đặc trưng) Trong khả này, độ xác hệ thống khơng đảm bảo theo lý thuyết phân cụm, nhiều truy vấn phủ nhiều cụm Khả thứ hai người dùng chọn nhiều ảnh phản hồi Khả làm tăng gánh nặng cho pha gộp danh sách kết (mỗi truy vấn có danh sách kết quả) Ngồi ra, q nhiều truy vấn khơng cải tiến nhiều độ xác hệ thống (thực nghiệm [49] độ xác tăng nhanh từ đến truy vấn tăng chậm số truy vấn từ đến 20) Chẳng hạn, sở liệu Corel với chủ đề hoa hồng, ảnh truy vấn hoa hồng nằm rải rác cụm (mỗi cụm tương ứng với màu hoa hồng) (3) Sử dụng trọng số truy vấn ngang nhau, tức là, độ quan trọng truy vấn cho dù truy vấn có lân cận khác (4) Các đặc trưng có trọng số cho dù thành phần đặc trưng có độ quan trọng khác Những hạn chế nguyên nhân dẫn đến độ xác hệ thống tra cứu chưa cao Trên sở phân tích hạn chế phương pháp có, luận án đề xuất phương pháp tra cứu ảnh liên quan ngữ nghĩa Phương pháp đề xuất có ưu điểm là: (1) Chỉ sử dụng truy vấn để tạo kết tra cứu khởi tạo đa dạng, gồm ảnh nằm vùng khác (giảm gánh nặng cho người dùng việc chọn nhiều ảnh truy vấn) (2) Phân cụm ảnh liên quan với thời gian thấp (3) Xác định độ quan trọng ngữ nghĩa truy vấn (4) Xác định độ quan trọng theo đặc trưng Bốn ưu điểm thể phương pháp công bố [CT5, CT6] 2.2 Sơ đồ phƣơng pháp đề xuất Trên sở phân tích mục 2.1 trên, luận án đề xuất sơ đồ phương pháp Hình 2.5 Ảnh truy vấn Các biểu diễn Kết Véc tơ đặc trưng Độ tương tự Tập ảnh Phản hồi tra cứu Các điểm truy vấn Tập phản hồi Phân cụm gia tăng Độ quan trọng truy vấn Tính tốn Độ quan trọng đặc trưng Các cụm Tính tốn Truy vấn Cơ sở liệu đặc trưng Sắp xếp Đại diện cụm Hình 2.5 Cấu trúc phƣơng pháp đề xuất Phần luận án trình bày chi tiết phương pháp đề xuất Phần cần có số định nghĩa, luận án đưa số định nghĩa Định nghĩa 2.1 (Tập đặc trƣng) Một tập đặc trưng F gồm có N đặc trưng, gồm m thành phần, thành phần giá trị thực (2.1) Định nghĩa 2.2 (Không gian đặc trƣng) Một không gian đặc trưng FS gồm m chiều, chiều tương ứng với thành phần thực đặc trưng t (t=1 N) thuộc tập đặc trưng F, điểm pt (t=1 N) không gian FS tương ứng với đặc trưng F (2.2) Định nghĩa 2.3 (Không gian đặc trƣng thứ i) Một không gian đặc trưng thứ i, ký hiệu , không gian đặc trưng gồm n chiều, điểm không gian ký hiệu (t=1 N) có n tọa độ (2.3) Định nghĩa 2.4 (Đo khoảng cách hai điểm không gian đặc trƣng FSi) Đo khoảng cách hai điểm (k,l=1 N) kl ,được ký ), độ đo khoảng cách hiệu ( Ý tƣởng phƣơng pháp đề xuất khơng đặt ảnh (bao gồm ảnh sở liệu ảnh truy vấn) không gian đặc trưng mà đặt nhiều không gian đặc trưng (trong ngữ cảnh chương này, luận án ánh xạ biểu diễn ảnh vào không gian đặc trưng tương ứng), sau thực tra cứu việc truy vấn không gian đặc trưng nhập kết tương ứng với không gian đặc trưng thành kết cuối Lý mà phương pháp luận án lấy ảnh nằm rải rác không gian đặc trưng màu gốc ảnh chuyển biểu diễn xám Theo biểu diễn này, đặc trưng hình dạng kết cấu khơng bị át màu Một ảnh hoa hồng (biểu diễn xám) ánh xạ thành điểm không gian

Ngày đăng: 10/07/2023, 14:39

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN