Nghiên cứu phương pháp tra cứu ảnh dựa trên nội dung và xây dựng hệ thống tra cứu cây thuốc (tt)

29 32 0
Nghiên cứu phương pháp tra cứu ảnh dựa trên nội dung và xây dựng hệ thống tra cứu cây thuốc (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN HUY HOÀNG NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH DỰA TRÊN NỘI DUNG VÀ XÂY DỰNG HỆ THỐNG TRA CỨU CÂY THUỐC Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2013 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: ……………………………… (Ghi rõ học hàm, học vị) Phản biện 1: ……………………………………………… Phản biện 2: …………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỤC LỤC MỞ ĐẦU CHƯƠNG .7 TỔNG QUAN VỀ TRA CỨU ẢNH DỰA TRÊN NỘI DUNG (CONTENT-BASED IMAGE RETRIEVAL CBIR) 1.1 Giới thiệu truy vấn ảnh dựa nội dung 1.2 Mơ hình xử lý 1.3 Các thành phần hệ thống CBIR .9 1.4 Các chức hệ thống CBIR 10 1.5 Một số hệ thống tra cứu ảnh dựa nội 10 1.5.1 Hệ thống QBIC(Query By Image Content)10 1.5.2 Hệ thống Virage 10 1.5.3 Hệ thống RetrievalWare 10 1.5.4 Hệ thống VisualSeek WebSeek 10 1.5.5 Hệ thống Photobook 10 CHƯƠNG 11 PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG ẢNH 11 2.1 Trích chọn đặc trưng ảnh dựa màu sắc 11 2.1.1 Lược đồ màu (Histogram) 11 2.1.2 Vector liên kết màu (Color Coherence Vector) 12 2.2 Trích chọn đặc trưng ảnh dựa kết cấu 12 2.2.1 Ma trận đồng (Co-occurence Matrix) 13 2.2.2 Phép biến đổi Wavelet 13 2.2.3 Các đặc trưng lọc Gabor 14 2.2.4 Các đặc trưng biến đổi sóng 14 2.3 Trích chọn đặc trưng ảnh dựa hình dạng 15 2.3.1 Trích chọn đặc trưng theo biên 15 2.3.1.1 Lược đồ hệ số góc 15 2.3.1.2 Vector liên kết hệ số góc (Edge Direction Coherence Vector) 16 2.3.2 Trích chọn đặc trưng theo vùng 17 2.4 Trích chọn sử dụng điểm bật 17 2.4.1 Đặc trưng cục bất biến (SIFT) 17 2.4.2 SURF 19 CHƯƠNG 20 CÀI ĐẶT THỬ NGHIỆM VÀ ỨNG DỤNG 20 3.1 Cài đặt thử nghiệm 20 3.1.1 Môi trường phát triển, sở liệu 20 3.1.2 Phương pháp thực nghiệm 21 3.1.2.1 Lựa chọn mẫu thử nghiệm 21 3.1.2.2 Phương pháp đánh giá 21 3.1.3 Thử nghiệm kết 22 3.1.3.1 Tìm kiếm theo lược đồ màu 22 3.1.3.2 Tìm kiếm theo lược đồ hệ số góc 22 3.1.3.3 Tìm kiếm theo vector liên kết màu 22 3.1.3.4 Tìm kiếm theo AutoCorrelogram 22 3.1.3.5 Tìm kiếm theo đặc trưng cục bất biến (SIFT) 22 3.1.3.6 Tìm kiếm với SURF 22 3.1.4 Kết thực nghiệm đánh giá 22 3.2 Ứng dụng tra cứu thuốc 24 3.2.1 Phân tích yêu cầu 24 3.2.2 Chức ứng dụng 24 3.2.3 Đánh giá ứng dụng 25 KẾT LUẬN 26 MỞ ĐẦU Cùng với phát triển cơng nghệ, có nhiều phương pháp nghiên cứu để truy vấn thơng tin dựa vào hình ảnh Tuy nhiên, phương pháp nhiều người quan tâm nghiên cứu phương pháp “Tra cứu ảnh dựa theo nội dung” (Content Based Image Retrieval - CBIR) Ý tưởng phương pháp trích chọn đặc điểm dựa vào nội dung trực quan ảnh màu sắc, kết cấu, hình dạng bố cục không gian ảnh để làm sở cho việc tra cứu, xếp, tổ chức sở liệu ảnh Tra cứu ảnh dựa hình dạng sử dụng đặc trưng hình dạng ảnh mục tiêu để tìm kiếm, khía cạnh quan trọng tra cứu ảnh dựa nội dung Hiện có nhiều hệ thống cho phép tra cứu thơng tin dựa hình ảnh như Google Image Swirl, Bing, Tiltomo, Tineye, Pixolution…Các hệ thống đưa kết tìm kiếm tốt dựa ảnh mẫu Tuy nhiên, hạn chế hệ thống tồn nhập nhằng liệu, thông tin chưa cô đọng theo chủ đề xác định, với toán đặt thuốc Với mục đích cuối xây dựng hệ thống tra cứu thuốc dựa hình ảnh Cho phép người Việt Nam nhận biết sử dụng hiệu thuốc Việt Nam thơng qua hình ảnh Luận văn sâu vào nhiệm vụ sau: - Nội dung + Nghiên cứu đánh giá kỹ thuật tra cứu ảnh theo nội dung + Tìm hiểu cách thức nhận biết thuốc thông thường sống qua lá, hoa, thân hay rễ…để từ giới hạn đối tượng làm mẫu truy vấn + Đề xuất sử dụng số kỹ thuật khác đưa so sánh với hệ thống ảnh trước + Từ đưa phương pháp cải tiến khắc phục hạn chế + Thử nghiệm chương trình tra cứu ảnh theo nội dung thơng qua mơ hình truy vấn đề xuất kết đạt độ xác, tốc độ xử lý… - Yêu cầu cần giải + Tìm hiểu kiến thức kỹ thuật xử lý ảnh + Đưa phạm vi đối tượng thực để làm mẫu nhận dạng lá, cây, hoa, hay tất + Xây dựng tập mẫu ảnh dựa đối tượng lựa chọn + Tham khảo mã nguồn mở xử lý ảnh cho trình cài đặt + Nghiên cứu tra cứu ảnh theo nội dung phương pháp trích chọn đặc trưng dựa tài liệu nghiên cứu trước Từ triển khai cài đặt thuật toán tra cứu + Thực nghiệm dựa xây dựng đánh giá kết nghiên cứu + Xây dựng hệ thống tra cứu ảnh dựa thực nghiệm đánh giá có CHƯƠNG TỔNG QUAN VỀ TRA CỨU ẢNH DỰA TRÊN NỘI DUNG (CONTENT-BASED IMAGE RETRIEVAL - CBIR) Chương luận văn giới thiệu tổng quan phương pháp “Tra cứu ảnh dựa theo nội dung - CBIR” bao gồm khái niệm, mục đích, mơ hình, thành phần, chức số hệ thống tra cứu ảnh dự nội dung 1.1 Giới thiệu truy vấn ảnh dựa nội dung Tra cứu ảnh dựa theo nội dung (CBIR) có nguồn gốc từ năm 1992 Tra cứu ảnh theo nội dung tra cứu thông tin trực quan (VIR - Visual Information Retrieval) Các yếu tố trực quan màu sắc, kết cấu, hình dạng bố cục khơng gian trực tiếp liên quan đến khía cạnh cảm nhận nội dung ảnh, với khái niệm mức cao ý nghĩa đối tượng, khung cảnh ảnh, dùng manh mối cho tìm kiếm hình ảnh với nội dung tương tự từ sở liệu 1.2 Mơ hình xử lý Để xây dựng hệ thống truy vấn ảnh, cần giải vấn đề sau • Rút trích đặc trưng ảnh (Feature Exaction) • Xác định độ đo tương đồng hai ảnh (Similarity Measure) • Lập mục cho CSDL ảnh (Image Indexing) Từ xây dựng nên thành phần cho hệ thống truy vấn ảnh: Hệ thống truy vấn ảnh với sở tri thức 13 Cấu trúc vân 2.2.1 Ma trận đồng (Co-occurence Matrix) Ma trận đồng ma trận lưu trữ số lần xuất cặp điểm ảnh vùng xét Các cặp điểm tính theo quy luật cho trước Ví dụ với ảnh f sau: 1100 ൥ ݂ ൌ 1 0 ൩ ta có ma trận đồng P(1,0) với 0022 402 P(1,0)= ൥ 2 ൩ 002 2.2.2 Phép biến đổi Wavelet Vân thu từ biến đối wavelet hầu hết nghiên cứu công nhận đặc trưng vân tốt cho việc phân đoạn ảnh 14 Thuật tốn tính đặc trưng vân theo biến đổi Wavelet: • Tính biến đổi Wavelet tồn ảnh • Ứng với vùng cần tính, ta tính thành phần ứng với miền HL, LH HH • Khi áp dụng biến đổi wavelet mức sâu hơn, ta có tương ứng 3xV thành phần ứng với V chiều sâu biến đổi Wavelet 2.2.3 Các đặc trưng lọc Gabor Lọc Gabor sử dụng rộng rãi để trích rút đặc trưng ảnh, đặc biệt đặc trưng kết cấu Nó tối ưu mặt cực tiểu hố khơng chắn chung miền không gian miền tần số, thường sử dụng hướng tỷ lệ biên điều hướng phát đường Có nhiều cách tiếp cận đề xuất để mô tả kết cấu ảnh dựa lọc Gabor 2.2.4 Các đặc trưng biến đổi sóng Tương tự với lọc Gabor, biến đổi sóng cung cấp cách tiếp cận đa độ phân giải phân tích kết cấu phân lớp Các biến đổi sóng phân rã tín hiệu 15 với họ hàm sở ߰௠௡ ሺ‫ݔ‬ሻ thu thông qua dịch chuyển co giãn sóng ߰ሺ‫ݔ‬ሻ ଵ ߰ሺ‫ݔ‬ሻ ൌ 2ିଶ ߰ሺ2ି௠ ‫ ݔ‬െ ݊ሻ Hơn nữa, theo so sánh đặc trưng biến đổi sóng khác nhau, chọn riêng lọc sóng khơng then chốt cho phân tích kết cấu 2.3 Trích chọn đặc trưng ảnh dựa hình dạng 2.3.1 Trích chọn đặc trưng theo biên 2.3.1.1 Lược đồ hệ số góc Lược đồ gồm 73 phần tử đó:72 phần tử đầu chứa số điểm ảnh có hệ số gốc từ – 355 độ, hệ số góc cách độ Phần tử cuối chứa số phần tử không nằm biên cạnh Ảnh minh họa lược đồ hệ số góc 16 Đường biên ảnh 2.3.1.2 Vector liên kết hệ số góc (Edge Direction Coherence Vector) Là lược đồ tinh chế lược đồ hệ số góc, chia chứa (bin) thành nhóm điển ảnh: Nhóm điểm liên kết hệ số góc (coherent pixels) nhóm điểm khơng liên kết hệ số góc (non-coherence pixels) Một pixel ô chứa (bin) gọi điểm liên kết hệ số góc (coherent) thụơc vùng gồm điểm thuộc cạnh có hệ số góc tương tự với kích thướt lớn (thường vào khoảng 0.1% kích thước ảnh) Ảnh minh họa vector liên kết hệ số góc 17 Ảnh minh họa liên kết biên cạnh 2.3.2 Trích chọn đặc trưng theo vùng Ảnh gồm tập hợp vùng hay gọi đoạn Đây đặc trưng đặc biệt ảnh Với đặc trưng vùng giúp cho giải vấn đề lớn cản trở bước phát triển việc truy tìm ảnh dựa vào nội dung liệu nhập mô gần gũi với suy nghĩ người ảnh tìm mang nội dung ngữ nghĩa khác so với ảnh truy vấn 2.4 Trích chọn sử dụng điểm bật Phương pháp dựa điểm bật, điểm bất biến với thay đổi ảnh xoay, co giãn, che lấp phần… Có phương pháp tiêu biểu SIFT SURF 2.4.1 Đặc trưng cục bất biến (SIFT) 18 SIFT viết tắt cụm từ Scale-Invariant Invariant Feature Transform thuật toán ổi tiếng ti dùng để phát mô tả đặc trưng ưng c ảnh số Thuật tốn cơng bố bởii David Lowe vào v năm 1999[19] Hai hình nhận củ cảnh SIFT Giống nhiều thuật toán xử lý ảnh, SIFT l thuật toán phức tạp, phải trải qua nhiều bướ ớc xử lý sử dụng nhiều kiến thức toán học Sau ssẽ bước thuật tốn: Xây dựng khơng gian scale Xác đinh vị trí điểm đặc trưng Thêm hướng cho điểm đặc trưng Mô tả điểm đặc trưng 19 2.4.2 SURF SURF (Speeded Up Robust Features) giới thiệu lần vào năm 2006 nhóm nhà nghiên cứu bao gồm Herbert Bay, Tinne Tuytelaars Luc Van Gool Cách tiếp cận phương pháp tương đối giống với SIFT SURF sử dụng khơng gian scale để tìm điểm đặc trưng, đặc trưng mơ tả dạng vector có kèm thêm hướng Hai phần thuật tốn “phát hiện” (detection) “mô tả” (description) Phát : Việc phát đặc trưng dựa không gian scale sử dụng ma trận Hessian, nhiên để đơn giản cho việc tính tốn người ta sử dụng xấp xỉ ma trận Mô tả : Việc mô tả đặc trưng sử dụng đặc trưng Haar Wavelet Một lần Integral Images lại sử dụng để tăng tốc độ tính tốn Mỗi điểm đặc trưng thêm hướng dùng để nhận dạng ảnh bị xoay.Mô tả điểm đặc trưng thể dạng vector gồm 64 thành phần 20 CHƯƠNG CÀI ĐẶT THỬ NGHIỆM VÀ ỨNG DỤNG Trong chương này, luận văn cài đặt số thuật tốn trích chọn dựa đặc trưng ảnh, từ đưa đánh giá kỹ thuật Chọn kỹ thuật tối ưu để xây dựng hệ thống tra cứu thuốc 3.1 Cài đặt thử nghiệm 3.1.1 Môi trường phát triển, sở liệu Chương trình thiết kế Visual Studio 2010, ngôn ngữ C# (C Sharp) CSDL SQL Server 2008 Chương trình có sử dụng số thư viện hỗ trợ xử lý ảnh EmguCV.dll, AForge.dll số thư viện hỗ trợ khác tham khảo qua internet Dữ liệu mẫu từ chương trình 21 3.1.2 Phương pháp thực nghiệm 3.1.2.1 Lựa chọn mẫu thử nghiệm Hiệu hoạt động hệ thống đánh giá cách chạy thử nghiệm sở liệu hình ảnh có Em sử dụng cách thức chọn mẫu thử nghiệm chính: - Lấy ngẫu nhiên mẫu ảnh có CSDL để tra cứu - Chỉ định mẫu cố định để tra cứu 3.1.2.2 Phương pháp đánh giá Sử dụng top-N, tỷ lệ loại xác xuất vị trí N từ kết trả Em sử dụng tỷ lệ nằm giới hạn top-10 top-15 Ngồi cịn đại lượng đánh giá khác bao gồm: Độ xác = Số ảnh tìm / Số ảnh tìm được, Độ trung thực = Số ảnh tìm / Tổng số ảnh thực có CSDL Thời gian tính tốn trung bình Để trực quan em có sử dụng thêm biểu đồ thời gian biểu đồ độ xác trung bình (xác suất số lần xuất kết top-N với 10 lần thử nghiệm) 22 3.1.3 Thử nghiệm kết Chương trình tiến hành thử nghiệm lấy số liệu với trường hợp cụ thể bao gồm: 3.1.3.1 Tìm kiếm theo lược đồ màu 3.1.3.2 Tìm kiếm theo lược đồ hệ số góc 3.1.3.3 Tìm kiếm theo vector liên kết màu 3.1.3.4 Tìm kiếm theo AutoCorrelogram 3.1.3.5 Tìm kiếm theo đặc trưng cục bất biến (SIFT) 3.1.3.6 Tìm kiếm với SURF 3.1.4 Kết thực nghiệm đánh giá Từ kết kết thử nghiệm cho thấy kết trích chọn dựa màu sắc tốt nhất, kết cấu hình dạng, hiệu suất hệ thống tăng lên kết hợp số phương pháp lại với Phương pháp truy vấn dựa màu sắc chiếm ưu thể Cả thời gian tính tốn số lượng kết xác, có độ tương đồng cao 23 3500 3000 Lược đồ màu 2500 Lược đồ HSG 2000 Vector LK màu 1500 Auto Cologram 1000 SIFT 500 SURF 20 50 100 150 200 250 500 Thời gian xử lý trung bình phương pháp 100 90 80 70 60 50 40 30 20 10 Lược đồ màu Lược đồ HSG Vector LK màu Auto Cologram SIFT 10 20 30 40 50 60 70 80 90 100 SURF Độ xác phương pháp 24 3.2 Ứng dụng tra cứu thuốc 3.2.1 Phân tích yêu cầu 3.2.2 Chức ứng dụng Dữ liệu chương trình: Tìm kiếm: Cho phép người dùng tìm kiếm thơng tin thuốc có CSDL • Tìm kiếm văn • Tìm kiếm ảnh • Xem thông tin chi tiết ảnh (lược đồ màu, kích thước…), thơng tin chi tiết Hình 3.4: Chức tìm kiếm thuốc Thống kê Hệ thống Trợ giúp 25 3.2.3 Đánh giá ứng dụng Ứng dụng tra cứu thuốc dựa hình ảnh đạt số yêu cầu việc tra cứu: - Cài đặt dễ dàng tương thích - Giao diện đơn giản, dễ tùy biến cấu hình - Đáp ứng chức yếu ứng dụng tra cứu bao gồm: cập nhật thông tin, quản lý thông tin, tra cứu, thống kê… - Hỗ trợ nhiều tùy chọn tra cứu khác - Xem thông tin ảnh tiện lợi: lược đồ màu, lọc, hệ màu… Bên cạnh điều thực được, số hạn chế mà ứng dụng tồn tại: - Nguồn liệu hạn chế chưa phong phú - Chưa cung cấp công cụ tương tác người dùng hệ thống: công cụ đánh giá, phản hồi - Chưa thể tự động cập nhật mẫu tra cứu vào hệ thống - Các phương pháp cài đặt chưa thật tối ưu để cải thiện tốc độ xử lý 26 KẾT LUẬN Truy vấn ảnh dựa nội dung (CBIR) đến lĩnh vực nghiên cứu đáng quan tâm có nhiều phương pháp cách tiếp cận khác Cùng với nhiều ứng dụng hữu ích phát triển Như ứng dụng nhằm ngăn ngừa tội phạm, hệ thống tìm kiếm vân tay, hệ thống nhận dạng khuôn mặt hay ứng dụng qn đội: tìm kiếm có máy bay hình rada hay khơng, có máy bay loại nào; hệ thống hỗ trợ quản lý đăng ký logo (xác định xem logo muốn đăng ký hồn tồn hay có logo tương tự đăng ký trước đó)… Tính khoa học luận văn thể qua phương pháp truy vấn ảnh dùng kết hợp kỹ thuật xử lý trích chọn nội dung ảnh Đầu vào toán ảnh cần truy vấn, qua kỹ thuật xử lý, trích chọn, đánh giá để đưa kết ảnh tương đồng Xây dựng hệ thống tra cứu thuốc, đồng thời tính khả thi hệ thống so với hệ thống khác qua kết thực nghiệm Giá trị thực tiễn luận văn chứng minh qua ứng dụng tra cứu thuốc Việt Nam 27 Tuy nhiên, luận văn cịn hạn chế định: cần hồn thiện ứng dụng tra cứu thuốc tìm hiểu thêm phương pháp tối ưu Kết hợp phương pháp với cách linh động hiệu Tìm giải pháp tối ưu tốt để nâng cao hiệu ứng dụng tra cứu Hiện ứng dụng phát triển Desktop, mong muốn có ứng dụng web cho phép tra cứu qua mạng, đâu người dùng có thơng tin thuốc mà quan tâm Tạo thân thiện, tiện lợi cho người sử dụng hệ thống hướng phát triển luận văn muốn hướng đến ... ? ?Tra cứu ảnh dựa theo nội dung - CBIR” bao gồm khái niệm, mục đích, mơ hình, thành phần, chức số hệ thống tra cứu ảnh dự nội dung 1.1 Giới thiệu truy vấn ảnh dựa nội dung Tra cứu ảnh dựa theo nội. .. tra cứu ảnh theo nội dung phương pháp trích chọn đặc trưng dựa tài liệu nghiên cứu trước Từ triển khai cài đặt thuật toán tra cứu + Thực nghiệm dựa xây dựng đánh giá kết nghiên cứu + Xây dựng hệ. .. cần thiết hệ thống dựa phản hồi từ người sử dụng hình ảnh tra cứu 1.5 Một số hệ thống tra cứu ảnh dựa nội 1.5.1 Hệ thống QBIC (Query By Image Content) 1.5.2 Hệ thống Virage 1.5.3 Hệ thống RetrievalWare

Ngày đăng: 19/03/2021, 17:45

Tài liệu cùng người dùng

Tài liệu liên quan