1. Trang chủ
  2. » Luận Văn - Báo Cáo

TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN

40 632 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 1,21 MB

Nội dung

TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN Cơ sở dữ liệu hình ảnh lớn được sử dụng ngày càng tăng trong các ứng dụng thuộc các lĩnh vực như giải trí, kinh doanh, nghệ thuật, kỹ thuật, và khoa học (Tanaka và Uehara, 2004). Trong số các thuộc tính của hình ảnh (ví dụ như hình dạng, màu sắc, và kết cấu), hình dạng đặc biệt quan trọng vì con người thường có thể nhận ra các đối tượng dựa trên cơ sở hình dạng (Zhang và Lu, 2004). Vì vậy, việc phân tích hình dạng đã được chú trọng nghiên cứu rất nhiều trong ba thập kỷ qua. Hầu hết các nghiên cứu tập trung vào việc lập chỉ mục, gom cụm, và phân loại.

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HỒ CHÍ MINH KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH  ĐỀ CƯƠNG LUẬN VĂN TỐT NGHIỆP ĐỀ TÀI TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN Hướng dẫn : PGS. Dương Tuấn Anh TS. Nguyễn Thanh Bình Thực hiện : Nguyễn Thị Thiên Thanh Mã số HV : 00707183 – 2010 – MỤC LỤC CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1 1.1 . Tìm kiếm hình dạng bất thường: 1 1.2 . Dữ liệu chuỗi thời gian: 2 1.3. Mục tiêu và phạm vi: 2 1.4. Cấu trúc đề cương luận văn: 3 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH LIÊN QUAN 4 2.1. Các phương pháp tìm biên ảnh: 4 Một số phương pháp phát hiện biên trực tiếp: 5 Phương pháp Gradient 5 Phương pháp Laplace 7 2.2. Các phương pháp biểu diễn hình dạng: 8 2.3. Độ đo khoảng cách: 11 2.4. Các phương pháp xấp xỉ tuyến tính từng đoạn: 15 2.5. Các phương pháp rời rạc hóa: 17 2.6. Thuật toán tìm kiếm sự bất thường của hình dạng: 19 CHƯƠNG 3: HỆ THỐNG TÌM KIẾM HÌNH DẠNG BẤT ĐỒNG BỘ 22 3.1. Đặt vấn đề: 22 3.2. Hướng giải quyết: 22 3.3. Kiến trúc hệ thống: 23 3.4. Chuyển đổi dữ liệu hình ảnh sang dữ liệu chuỗi thời gian: 24 3.5. Cách đánh giá độ đo khoảng cách: 25 3.6. Bảng băm tìm kiếm (Locality-Sensitive Hashing): 25 3.7. Giải thuật tìm kiếm: 27 CHƯƠNG 4: NỘI DUNG NGHIÊN CỨU 30 4.1. Tổng kết: 30 4.2. Phương pháp đánh giá: 30 4.3. Các công việc chính cần thực hiện: 31 4.4. Mục tiêu kết quả cần đạt được: 31 KẾ HOẠCH LÀM VIỆC 32 TÀI LIỆU THAM KHẢO 33 DANH MỤC HÌNH Hình 1.1: Một mẫu từ một bộ dữ liệu của 1.301 hình ảnh của các sinh vật biển và bất thường thứ nhất được tìm thấy trong dữ liệu này là một con sao biển (nguồn [1]) 1 Hình 1.2: Một tập con của 32.028 hình ảnh của cánh ruồi giấm và những bất thường đầu tiên được tìm thấy trong dữ liệu này là một cánh bị hư hỏng (nguồn [1]) 2 Hình 2.1: Các phương pháp biểu diễn hình dạng (nguồn [5]) 8 Hình 2.2: Hàm số theo góc tích lũy (nguồn [2]) 9 Hình 2.3: Biểu diễn chuỗi dữ liệu thời gian theo công thức diện tích (nguồn [2]) 10 Hình 2.4: Biểu diễn chuỗi dữ liệu thời gian theo vùng tam giác (nguồn [2]) 11 Hình 2.5: Tính khoảng cách theo Euclid (nguồn [3]) 12 Hình 2.6: Tính khoảng cách theo DTW (nguồn [3]) 13 Hình 2.7: Minh họa cách tính khoảng cách theo DWT 14 Hình 2.8: Minh họa phương pháp mã hóa SAX 18 Hình 2.9: Một ví dụ của thuật toán brute force (nguồn [1]) 20 Hình 2.10: Một ví dụ của việc áp dụng từ bỏ sớm cho thuật toán brute force (nguồn [1]) 21 Hình 3.1: Kiến trúc hệ thống 24 Hình 3.2: Từ SAX khác nhau do hình dạng bị quay (nguồn [1]) 26 Hình 3.3: Bảng băm sử dụng LSH (nguồn [1]) 27 Hình 3.4: Mô tả quá trình ước tính độ tương tự (nguồn [1]) 28 DANH MỤC BẢNG Bảng 2.1: Bảng kết quả so sánh các phương pháp biểu diễn hình dạng (nguồn [2]) 11 Bảng 2.2: Tìm kiếm sự bất thường bằng giải thuật Brute Force 19 Bảng 2.3: Giải thuật Brute Force cải tiến 21 Bảng 3.1: Giải thuật ước tính thứ tự tối ưu 28 Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn Trang 1 CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 . Tìm kiếm hình dạng bất thường: Cơ sở dữ liệu hình ảnh lớn được sử dụng ngày càng tăng trong các ứng dụng thuộc các lĩnh vực như giải trí, kinh doanh, nghệ thuật, kỹ thuật, và khoa học (Tanaka và Uehara, 2004). Trong số các thuộc tính của hình ảnh (ví dụ như hình dạng, màu sắc, và kết cấu), hình dạng đặc biệt quan trọng vì con người thường có thể nhận ra các đối tượng dựa trên cơ sở hình dạng (Zhang và Lu, 2004). Vì vậy, việc phân tích hình dạng đã được chú trọng nghiên cứu rất nhiều trong ba thập kỷ qua. Hầu hết các nghiên cứu tập trung vào việc lập chỉ mục, gom cụm, và phân loại. Luận văn này sẽ nghiên cứu và đề xuất phương pháp tìm kiếm các hình dạng ít tương tự nhất đối với tất cả các hình dạng khác trong một tập dữ liệu. Hình dạng này được gọi là bất thường (discord). Hình 1.1 biểu diễn trực quan một hình dạng bất thường được tìm thấy trong một bộ dữ liệu hình ảnh của 1.301 loài sinh vật biển. Trong khi hầu hết các sinh vật được đại diện một số lần trong tập dữ liệu, sao biển chỉ xuất hiện một lần, và do đó nó được xem như là hình dạng khác thường. Hình 1.1: Một mẫu từ một bộ dữ liệu của 1.301 hình ảnh của các sinh vật biển và bất thường thứ nhất được tìm thấy trong dữ liệu này là một con sao biển (nguồn [1]) Một ví dụ trong khai thác dữ liệu y khoa: Ruồi giấm là một trong những sinh vật nghiên cứu nhiều nhất trong sinh học, đặc biệt là trong di truyền học. Hình 1.2 cho thấy một tập hợp các hình ảnh cánh của ruồi giấm được thu thập cho một thí nghiệm đột biến được thực hiện tại Florida State University (nhóm Zimmerman, 2000.) và sự bất thường. Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn Trang 2 Hình 1.2: Một tập con của 32.028 hình ảnh của cánh ruồi giấm và những bất thường đầu tiên được tìm thấy trong dữ liệu này là một cánh bị hư hỏng (nguồn [1]) 1.2 . Dữ liệu chuỗi thời gian: Dữ liệu có yếu tố thời gian là sự quan sát tuần tự theo thời gian. Dữ liệu này có thể là 2 chiều hay nhiều chiều nhưng phải có 1 chiều là thời gian. Có rất nhiều loại dữ liệu khác nhau có yếu tố thời gian và thông thường đây là những dữ liệu rất lớn (very large database). Theo khảo sát từ 4000 hình ngẫu nhiên trên các tờ báo xuất bản giai đoạn 1974 – 1989 thì 75% là các hình biểu diễn dữ liệu chuỗi thời gian. Đặt biệt, trong thời đại hiện nay, thông tin là rất quan trọng. Tuy nhiên, dữ liệu thì quá lớn nên cần phải sử dụng công cụ máy tính để tìm được những thông tin từ nguồn dữ liệu đó. Chính vì vậy những nghiên cứu và ứng dụng dữ liệu chuỗi thời gian là những lĩnh vực rất rộng lớn và cần thiết của khoa học máy tính và các ngành khoa học khác. Trong phạm vi nghiên cứu của đề tài này, ta quan tâm đến dữ liệu chuỗi thời gian được biểu diễn bằng một chuỗi các số thực X = 1 2 n x x x . Trong đó i x là giá trị đo ở thời điểm thứ i. 1.3. Mục tiêu và phạm vi: Mục tiêu của luận văn là sẽ nghiên cứu và đề xuất phương pháp tìm kiếm các hình dạng bất thường trong một tập dữ liệu lớn. Khi đó hệ thống cho phép người dùng đưa vào một tập Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn Trang 3 hình ảnh bitmap. Hệ thống sẽ tự động trích xuất hình dạng của các hình ảnh này và cho phép người sử dụng đưa các hình dạng này vào cơ sở dữ liệu. Kết quả trả về là những hình dạng được cho là bất thường so với tập hình dạng trong cơ sở dữ liệu đó. Đề tài sẽ sử dụng đường biên của hình dạng như là thuộc tính để mô tả hình dạng. Hệ thống sẽ phải xử lý dữ liệu đầu vào là tập hình ảnh. Giới hạn của đề tài là sẽ không nghiên cứu nhiều đến việc nhiễu trong trích xuất đường biên và hình dạng quá đặc biệt như bị khuyết lỗ hoàn toàn ở bên trong hình dạng. 1.4. Cấu trúc đề cương luận văn: Tổ chức của các phần còn lại của luận văn theo cấu trúc sau đây: Chương 2 sẽ giới thiệu một số lý thuyết nền tảng và các nghiên cứu liên quan mà chúng ta sẽ sử dụng trong luận văn. Trước hết đó là các phương pháp xử lý ảnh, biểu diễn hình dạng sẽ được sử dụng để tiền xử lý và đưa dữ liệu thô vào cơ sở dữ liệu. Sau đó là định nghĩa và cách tính độ đo khoảng cách hay còn gọi là độ đo tương tự. Cuối cùng là một số lý thuyết về việc ký hiệu hóa chuỗi dữ liệu thời gian. Chương 3 trình bày về hệ thống tìm kiếm hình dạng bất thường trong tập dữ liệu lớn. Đầu tiên là đặt vấn đề và hướng giải quyết. Cấu trúc của hệ thống được mô tả bằng biểu đồ khối và cách giải quyết từng khối sẽ được nêu chi tiết ngay sau đó. Cuối cùng là trình bày cụ thể các phương pháp, thuật toán chính được lựa chọn áp dụng vào hệ thống. Chương 4 trình bày việc tổng kết lại các vấn đề và nội dung đã nghiên cứu trong giai đoạn thực hiện đề cương và đề xuất phương pháp đánh giá thực nghiệm trong giai đoạn thực hiện luận văn. Từ những điều đó, chúng ta có thể đưa ra danh sách những công việc cần thực hiện và mục tiêu kết quả cần đạt được trong giai đoạn luận văn sắp tới. Cuối cùng là bảng phân bố thời gian thực hiện và mục lục. Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn Trang 4 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH LIÊN QUAN Trong đề tài này để giải quyết bài toán tìm kiếm hình dạng bất thường trong một tập cơ sở dữ liệu lớn chúng ta cần sử dụng một số vấn đề lý thuyết và các công trình liên quan. Chương này sẽ trình bày những điểm cơ bản của các lý thuyết và công trình liên quan đó.\ Trước hết, trong giai đoạn tiền xử lý chúng ta cần phải sử dụng biên ảnh như là thuộc tính duy nhất biểu diễn một hình dạng. Vì vậy vấn đề cần được quan tâm trước tiên là tìm biên ảnh của hình dạng. Có nhiều phương pháp tìm biên ảnh. Nội dung và điểm yếu, điểm lợi của các phương pháp này sẽ được trình bày ở phần 2.1. 2.1. Các phương pháp tìm biên ảnh: Biên là vấn đề quan trọng trong việc trích chọn đặc điểm nhằm tiến tới việc nhận dạng ảnh (nguồn [18]). Cho đến nay chưa có định nghĩa chính xác về biên, trong mỗi ứng dụng người ta đưa ra các độ đo khác nhau về biên, một trong các độ đo đó là độ đo về sự thay đổi đột ngột về cấp xám. Ví dụ: Đối với ảnh đen trắng, một điểm được gọi là điểm biên nếu nó là điểm đen có ít nhất một điểm trắng bên cạnh. Tập hợp các điểm biên tạo nên biên hay đường bao của đối tượng. Xuất phát từ cơ sở này người ta thường sử dụng hai phương pháp phát hiện biên cơ bản: Phát hiện biên trực tiếp: Phương pháp này làm nổi biên dựa vào sự biến thiên mức xám của ảnh. Kỹ thuật chủ yếu dùng để phát hiện biên ở đây là dựa vào sự biến đổi cấp xám theo hướng. Cách tiếp cận theo đạo hàm bậc nhất của ảnh dựa trên kỹ thuật Gradient, nếu lấy đạo hàm bậc hai của ảnh ta có kỹ thuật Laplace. Kỹ thuật phát hiện biên Gradient: Theo định nghĩa gradient là một véctơ có các thành phần biểu thị tốc độ thay đổi giá trị của điểm ảnh. Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn Trang 5 Kỹ thuật phát hiện biên Laplace: Các phương pháp đánh giá gradient ở trên làm việc khá tốt khi mà độ sáng thay đổi rõ nét. Khi mức xám thay đổi chậm, miền chuyển tiếp trãi rộng, phương pháp cho hiệu quả hơn đó là phương pháp sử dụng đạo hàm bậc hai Laplace. Phát hiện biên gián tiếp: Nếu bằng cách nào đó ta phân được ảnh thành các vùng thì ranh giới giữa các vùng đó gọi là biên. Kỹ thuật dò biên và phân vùng ảnh là hai bài toán đối ngẫu nhau vì dò biên để thực hiện phân lớp đối tượng. Khi chúng ta phân lớp xong nghĩa là chúng ta đã phân vùng được ảnh và ngược lại, khi đã phân vùng được ảnh tức là ảnh đã được phân lớp, do đó có thể phát hiện được biên. Phương pháp phát hiện biên trực tiếp tỏ ra khá hiệu quả và ít chịu ảnh hưởng của nhiễu, song nếu sự biến thiên độ sáng không đột ngột, phương pháp tỏ ra kém hiệu quả. Phương pháp phát hiện biên gián tiếp tuy khó cài đặt, song lại áp dụng khá tốt trong trường hợp này. Một số phương pháp phát hiện biên trực tiếp: Phương pháp Gradient Phương pháp Gradient (nguồn [18], không rõ tác giả) là phương pháp dò biên cục bộ dựa vào cực đại của đạo hàm. Theo định nghĩa, gradient là một véctơ có các thành phần biểu thị tốc độ thay đổi giá trị của điểm ảnh theo hai hướng x và y . các thành phần của gradient được tính bởi: df(x,y) f(x+dx,y) – f(x,y) dx = fx  dx df(x,y) f(x,y+dy) – f(x,y) dy = fy  dy với dx là khoảng cách giữa các điểm theo hướng x ( khoảng cách tính bằng số điểm) và tương tự với dy. Trong thực tế ta thường cho dx = dy = 1 Trong phương pháp Gradient, người ta chia thành 2 kỹ thuật (do dùng 2 toán tử khác nhau): kỹ thuật Gradient và kỹ thuật la bàn. Kỹ thuật Gradient dùng toán tử Gradient lấy đạo hàm theo hai hướng; còn kỹ thuật la bàn lấy đạo hàm theo 8 hướng chính: Bắc, Nam, Đông , Tây và Đông Bắc, Tây Bắc, Đông Nam, Tây Nam. Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn Trang 6 Kỹ thuật Gradient: Kỹ thuật này (nguồn [18] , không rõ tác giả) sử dụng một cặp mặt nạ H 1 và H 2 trực giao ( theo 2 hướng vuông góc). Nếu định nghĩa g 1 ,g 2 là gradient tương ứng theo 2 hướng x và y, thì biên độ của gradient, ký hiệu là g tại điểm (m,n) được tính theo công thức: A 0 = g(m,n) =  g² 1 (m,n) + g 2 2 (m,n) (2.1)  r (m,n) = tan -1 g 2 (m,n)/ g 1 (m,n) (2.2) Chú ý: để giảm tính toán, công thức 2.2 được tính gần đúng bởi: A 0 = | g 1 (m,n) | + | g 2 (m,n) | Các toán tử đạo hàm được áp dụng là khá nhiều. Ở đây ta chỉ xét một số toán tử tiêu biểu: toán tử Robert, Sobel, Prewitt… Mặt nạ Robert: Đây là toán tử do Robert đề xuất vào năm 1965. Nó áp dụng trực tiếp của các công thức đạo hàm tại điểm (x,y). với mỗi điểm ảnh I(x,y) của I, đạo hàm theo x, theo y được ký hiệu tương ứng bởi g x , g y được tính: g x = I(x +1,y) – I(x,y) g y =I(x,y+1) – I(x,y) điều này tương đương với việc chập ảnh với 2 mặt nạ H 1 và H 2 : 0 1 -1 0 H 1 = -1 0 H 2 = 0 -1 Ta gọi H 1 , H 2 là mặt nạ Robert. Cần lưu ý rằng, tuy ta nói rằng lấy đạo hàm của ảnh nhưng thực ra chỉ là mô phỏng và xấp xỉ đạo hàm bằng kỹ thuật nhân chập do ảnh số là tín hiệu rời rạc. Mặt nạ Sobel: được Duda và Hart đề xuất năm 1973 (nguồn [18]) -1 0 1 1 2 1 -2 0 2 0 0 0 H1 = -1 0 1 H2 = -1 - 2 -1 Ngang (hướng x) Dọc(hướng y) Mặt nạ Prewitt: được prewitt đề xuất năm 1973 (nguồn [18]) H 1 = -1 0 1 H 2 = -1 - 2 -1 [...]... tìm kiếm hình dạng bất thường Vấn đề này sẽ được giải quyết và trình bày cụ thể ở phần 3.6 và 3.7 Trang 22 Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn 3.3 Kiến trúc hệ thống: Trang 23 Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn Hình 3.1: Kiến trúc hệ thống Input của hệ thống: các file hình ảnh bitmap (các file có định dạng JPEG, IMG, PNG ) Output của hệ thống: các hình ảnh. .. nó đến hình dạng tương tự nhất Hình dạng có giá trị đó lớn nhất là bất thường Mã giả của thuật toán này như sau: Bảng 2.2: Tìm kiếm sự bất thường bằng giải thuật Brute Force Trang 19 Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn Ví dụ sau cho phép chúng ta quan sát "dấu vết" của thuật toán brute force trên một tập dữ liệu đơn giản của sáu sinh vật biển Bất thường đầu tiên xảy ra là con sao... 2 chuỗi dữ liệu thời gian Q và C (cùng độ dài n), Dist(Q, C) = Dist(C, Q) Hình dạng bất thường: Với một tập các hình dạng S, hình D là hình bất thường của S nếu D có khoảng cách lớn nhất đến hình dạng tương tự nhất của nó Điều đó có nghĩa là, tất cả các hình dạng C trong S, hình dạng tương ứng gần nhất MC của C và hình dạng tương ứng gần nhất MD của D, Dist(D, MD)> Dist(C, MC) Hình dạng bất thường thứ... cách này, hình dạng tương tự (kể cả với hướng quay khác nhau) có nhiều khả năng được sắp xếp với nhau với cùng một giá trị LSH Ví dụ hai hình ảnh tương tự trong hình 3.3 Sử dụng băm bất biến đối với xoay, hình ảnh A ánh xạ tới B {aa, đ} và hình ảnh B được ánh xạ tới {aa, dc, cd} Chúng có chung giá trị LSH giá trị là "aa" Trang 26 Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn Hình 3.3: Bảng... ở phần 3.4  Tìm kiếm hình dạng bất thường thực hiện việc tìm kiếm tất cả các hình dạng bất thường trong tập dữ liệu đang xét Việc này được thực hiện qua 2 bước sau:  Xây dựng bảng băm: trước tiên chúng ta dùng phương pháp PAA và SAX để thu giảm số chiều và rời rạc hóa Sau đó xây dựng bảng băm để hỗ trợ cho việc phát hiện từ bỏ sớm  Tìm kiếm theo heuricstic: tìm kiếm các hình dạng bất thường dựa trên... để hiện thực các khối chức năng này 3.1 Đặt vấn đề: Hệ thống tìm kiếm hình dạng bất thường được xây dựng nhằm mục đích cho phép người dùng upload hình ảnh bitmap và hệ thống trích xuất hình dạng và đưa vào cơ sở dữ liệu Cuối cùng là hệ thống tự so sánh và đưa ra các hình dạng bất thường trong tập dữ liệu mà người dùng đưa vào Một vấn đề lớn được đề cập là độ phức tạp tính toán khi so sánh Nếu đơn giản... nhanh trên cơ sở dữ liệu chuỗi thời gian với kích thước lớn lên đến hàng terabyte 2.6 Thuật toán tìm kiếm sự bất thường của hình dạng: Thuật toán này được Koegh đề xuất vào năm 2006 (nguồn [1]) Cho một tập hình dạng S có kích thước là m, thuật toán brute force để tìm kiếm sự bất thường rất đơn giản và rõ ràng Chúng ta chỉ cần lấy mỗi chuỗi dữ liệu thời gian và tìm khoảng cách từ nó đến hình dạng tương... (2.9) Hình 2.3: Biểu diễn chuỗi dữ liệu thời gian theo công thức diện tích (nguồn [2]) Biểu diễn vùng tam giác (Triangle-area representation): (nguồn [2]) Các giá trị diện tích vùng tam giác (TAR) được tính bằng diện tích đại số của hình tam giác được hình thành bởi 3 điểm trên ranh giới hình là (2.10) Trang 10 Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn Hình 2.4: Biểu diễn chuỗi dữ liệu. .. trên đường biên, nếu điểm nào Trang 24 Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn trong 8 điểm liền kề có độ màu tương đương điểm đang xét thì nó thuộc đường biên đang tìm kiếm Cứ tiếp tục lan ra chúng ta sẽ có đường biên hoàn chỉnh Từ đường biên này chọn phương pháp diện tích vùng tam giác để chuyển dữ liệu hình ảnh thành dữ liệu chuỗi thời gian Sở dĩ ta chọn phương pháp này vì theo bảng... các dữ liệu sinh vật biển, chúng ta chỉ cần tính toán khoảng cách giữa 12 cặp hình dạng Hình 2.10: Một ví dụ của việc áp dụng từ bỏ sớm cho thuật toán brute force (nguồn [1]) Sau khi áp dụng tối ưu hóa này, ta có giải thuật Brute Force được cải tiến như sau: Bảng 2.3: Giải thuật Brute Force cải tiến Trang 21 Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn CHƯƠNG 3: HỆ THỐNG TÌM KIẾM HÌNH DẠNG . Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn Trang 1 CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 . Tìm kiếm hình dạng bất thường: Cơ sở dữ liệu hình ảnh lớn được sử dụng ngày càng tăng trong. pháp tìm kiếm các hình dạng bất thường trong một tập dữ liệu lớn. Khi đó hệ thống cho phép người dùng đưa vào một tập Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn Trang 3 hình. và sự bất thường. Tìm kiếm hình dạng bất thường trong tập cơ sở dữ liệu lớn Trang 2 Hình 1.2: Một tập con của 32.028 hình ảnh của cánh ruồi giấm và những bất thường đầu tiên được tìm thấy

Ngày đăng: 03/08/2014, 11:02

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Li Wei, Eamonn Keogh, Xiaopeng Xi, Melissa Yoder, Efficiently Finding Unusual Shapes in Large Image Databases, ICDM, 2006 Sách, tạp chí
Tiêu đề: Efficiently Finding Unusual Shapes in Large Image Databases
[2] Yang Mingqiang, Kpalma Kidiyo, Ronsin Joseph, A survey of shape feature extraction techniques, Pattern Recognition, Peng-Yeng Yin (Ed.), 2008 Sách, tạp chí
Tiêu đề: A survey of shape feature extraction techniques
[3] Keogh E., 2006, A Tutorial on Indexing and Mining Time Series Data, Proceedings of the 32 th International Conference on Very Large Databases, VLDB2006, Seoul, Korea Sách, tạp chí
Tiêu đề: A Tutorial on Indexing and Mining Time Series Data
[4] Dương Tuấn Anh, Tổng quan về tìm kiếm tương tự trên dữ liệu chuỗi thời gian, Kỷ yếu Hội Nghị Khoa học Công Nghệ lần thứ 11, Đại học Bách Khoa, Phân ban Khoa học & Kỹ Thuật Máy Tính, 21-23 Tháng 10-2009, pp. 96-101 Sách, tạp chí
Tiêu đề: Tổng quan về tìm kiếm tương tự trên dữ liệu chuỗi thời gian
[5] Dengsheng Zhang and Guojun Lu, A Comparative Study of Fourier Descriptors for Shape Representation and Retrieva, ACCV2002, 2002 Sách, tạp chí
Tiêu đề: A Comparative Study of Fourier Descriptors for Shape Representation and Retrieva
[6] D. Goldin, D. Gunopulos and H. Mannila, Finding similar time series, Proceedings of the 1st European Symposium on Principles of Data Miningand Knowledge Discovery (PKDD'97), June 24-27, 1997, pp. 88-100 Sách, tạp chí
Tiêu đề: Finding similar time series
[7] D. Rafiei and A.O. Mendelzon, Efficient retrieval of similar time sequences using dft, Proceedings of the 5th International Conference on Foundations of Data Organization and Algorithms (FODO 1998), November 12-13, 1998, pp. 249-257 Sách, tạp chí
Tiêu đề: Efficient retrieval of similar time sequences using dft
[8] K. Chan and W. Fu, Efficient time series matching by wavelet, Proceedings of the 15th IEEE International Conference on Data Engineering (ICDE1999), March 23-26, 1999, pp. 126-133 Sách, tạp chí
Tiêu đề: Efficient time series matching by wavelet
[9] E. Keogh, K. Chakrabarti, M. Pazzani and S. Mehrotra, Locally adaptive dimensionality reduction for indexing large time series databases, Proceedings of the Sách, tạp chí
Tiêu đề: Locally adaptive dimensionality reduction for indexing large time series databases
[10] J. Lin, E. Keogh, S. Lonardi, and B. Chiu, A Symbolic Representation of Time Series, with Implications for Streaming Algorithms, Proceedings of 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discover (DMKD 2003), June 13, 2003, pp. 2-11 Sách, tạp chí
Tiêu đề: A Symbolic Representation of Time Series, with Implications for Streaming Algorithms
[12] Perng, C., Wang, H., Zhang, S. R., and Parker, D.S., 2000, A New Model for Similarity-based Pattern Querying in Time Series Databases, Proc. 16 th Int. Conf. on Data Engineering (ICDE), pp. 23-32 Sách, tạp chí
Tiêu đề: A New Model for Similarity-based Pattern Querying in Time Series Databases
[13] Keogh, E., Chakrabarti, K., Pazzani,M. and Mehrotra, S., 2001, Dimensionality reduction for fast similarity search in large time series databases, Journal of Knowledge and Information Systems, Vol. 3, No. 3, 2000, pp. 263-286 Sách, tạp chí
Tiêu đề: Dimensionality reduction for fast similarity search in large time series databases
[14] Fu, T.C., Chung, F.L., Luk, R. and Ng, C. M., 2004, Financial Time Series Indexing Based on Low Resolution Clustering, Proceedings of the 4th IEEE International Conference on Data Mining (ICDM'04) Workshop on Temporal Data Mining:Algorithms, Theory and Applications, November 1, pp. 5-14 Sách, tạp chí
Tiêu đề: Financial Time Series Indexing Based on Low Resolution Clustering
[16] Lin J., Keogh, E., Lonardi, S., and Chiu, B., 2003, A Symbolic Representation of Time Series, with Implications for Streaming Algorithms, In Proceedings of 8th ACM Sách, tạp chí
Tiêu đề: A Symbolic Representation of Time Series, with Implications for Streaming Algorithms
[17] Lkhagva B., Suzuki, Y. and Kawagoe, K., 2006, New Time Series Data Representation ESAX for Financial Applications, In Proceedings of the International Special Workshop on Databases for Next-Generation Researchers (SWOD 2006) in conjunction with International Conference on Data Engineering, ICDE 2006, Georgia, USA, pp. 17-22 Sách, tạp chí
Tiêu đề: New Time Series Data Representation ESAX for Financial Applications
[18] Joannis Pitas, Digital Image Processing Algorithms and Applications, Prentice Hall, New York, 1992 Sách, tạp chí
Tiêu đề: Digital Image Processing Algorithms and Applications
[19] R.C. Gonzalez and R.E. Woods, Digital Image Processing. Addison- Wessley, 2nd edition, 2002. ISBN 0-130-94650 Sách, tạp chí
Tiêu đề: Digital Image Processing
[20] Canny, J., A Computational Approach to Edge Detection, IEEE Trans. Pattern Analysis and Machine Intelligence, 8:679-714, November 1986 Sách, tạp chí
Tiêu đề: A Computational Approach to Edge Detection
[21] Maar, D., Hildreth E., Theory of edge detection,Proceedings Royal Soc. London, vol. 07, 187-217,1980 Sách, tạp chí
Tiêu đề: Theory of edge detection,Proceedings Royal Soc. London
[22] .B. Ahmad and T.S. Choi , Local Threshold and Boolean Function Based dge Detection, IEEE Transactions on Consumer Electronics, Vol. 45, No 3, August 1996 Sách, tạp chí
Tiêu đề: Local Threshold and Boolean Function Based dge Detection

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Một mẫu từ một bộ dữ liệu của 1.301 hình ảnh của các sinh vật biển và bất thường thứ  nhất được tìm thấy trong dữ liệu này là một con sao biển (nguồn [1]) - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
Hình 1.1 Một mẫu từ một bộ dữ liệu của 1.301 hình ảnh của các sinh vật biển và bất thường thứ nhất được tìm thấy trong dữ liệu này là một con sao biển (nguồn [1]) (Trang 5)
Hình  1.2: Một tập con của 32.028 hình ảnh của cánh ruồi giấm và những bất thường đầu tiên được  tìm thấy trong dữ liệu này là một cánh bị hư hỏng (nguồn [1]) - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
nh 1.2: Một tập con của 32.028 hình ảnh của cánh ruồi giấm và những bất thường đầu tiên được tìm thấy trong dữ liệu này là một cánh bị hư hỏng (nguồn [1]) (Trang 6)
Hình  2.1: Các phương pháp biểu diễn hình dạng (nguồn [5]) - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
nh 2.1: Các phương pháp biểu diễn hình dạng (nguồn [5]) (Trang 12)
Hình  2.2: Hàm số theo góc tích lũy (nguồn [2]) - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
nh 2.2: Hàm số theo góc tích lũy (nguồn [2]) (Trang 13)
Bảng 2.1: Bảng kết quả so sánh các phương pháp biểu diễn hình dạng (nguồn [2]) - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
Bảng 2.1 Bảng kết quả so sánh các phương pháp biểu diễn hình dạng (nguồn [2]) (Trang 15)
Hình  2.5: Tính khoảng cách theo Euclid (nguồn [3]) - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
nh 2.5: Tính khoảng cách theo Euclid (nguồn [3]) (Trang 16)
Hình  2.6: Tính khoảng cách theo DTW (nguồn [3]) - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
nh 2.6: Tính khoảng cách theo DTW (nguồn [3]) (Trang 17)
Hình  2.7: Minh họa cách tính khoảng cách theo DWT - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
nh 2.7: Minh họa cách tính khoảng cách theo DWT (Trang 18)
Hình  2.8: Minh họa phương pháp mã hóa SAX - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
nh 2.8: Minh họa phương pháp mã hóa SAX (Trang 22)
Hình  2.9: Một ví dụ của thuật toán brute force (nguồn [1]) - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
nh 2.9: Một ví dụ của thuật toán brute force (nguồn [1]) (Trang 24)
Bảng 2.3: Giải thuật Brute Force cải tiến - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
Bảng 2.3 Giải thuật Brute Force cải tiến (Trang 25)
Hình  2.10: Một ví dụ của việc áp dụng từ bỏ sớm cho thuật toán brute force (nguồn [1]) - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
nh 2.10: Một ví dụ của việc áp dụng từ bỏ sớm cho thuật toán brute force (nguồn [1]) (Trang 25)
Hình 3.2: Từ SAX khác nhau do hình dạng bị quay (nguồn [1]) - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
Hình 3.2 Từ SAX khác nhau do hình dạng bị quay (nguồn [1]) (Trang 30)
Hình 3.3: Bảng băm sử dụng LSH (nguồn [1]) - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
Hình 3.3 Bảng băm sử dụng LSH (nguồn [1]) (Trang 31)
Bảng 3.1: Giải thuật ước tính thứ tự tối ưu - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
Bảng 3.1 Giải thuật ước tính thứ tự tối ưu (Trang 32)
Hình 3.4: Mô tả quá trình ước tính độ tương tự (nguồn [1]) - TÌM KIẾM HÌNH DẠNG BẤT THƯỜNG  TRONG TẬP CƠ SỞ DỮ LIỆU HÌNH ẢNH LỚN
Hình 3.4 Mô tả quá trình ước tính độ tương tự (nguồn [1]) (Trang 32)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w