Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
2,98 MB
Nội dung
ĐẠI HỌC THÁI NGUN ĐẠI HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG Nguyễn Đình Sinh NGHIÊN CỨU MỘT SỐ KỸ THUẬT PHÂN CỤM TRONG TRA CỨU LOGO Chun ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC 1. PGS.TS: ĐỖ NĂNG TỒN Thái Ngun - 2013 Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/ MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii DANH MỤC CÁC HÌNH iii LỜI MỞ ĐẦU 1 Chƣơng 1: KHÁI QT VỀ PHÂN CỤM VÀ BÀI TỐN TRA CỨU LOGO 3 1.1 Phân cụm dữ liệu 3 1.1.1 Khái niệm và mục tiêu của phân cụm dữ liệu 3 1.1.2 Các ứng dụng của phân cụm dữ liệu 6 1.1.3 Các u cầu của phân cụm 7 1.1.4 Những kỹ thuật tiếp cận trong phân cụm dữ liệu 9 1.1.4.1 Phƣơng pháp phân cụm phân hoạch 9 1.1.4.2 Phƣơng pháp phân cụm phân cấp 11 1.1.4.3 Phƣơng pháp phân cụm dựa trên mật độ 12 1.1.4.4 Phƣơng pháp phân cụm dựa trên lƣới 13 1.1.4.5 Phƣơng pháp phân cụm dựa trên mơ hình 14 1.1.4.6 Phƣơng pháp phân cụm có dữ liệu ràng buộc 15 1.2 Bài tốn tra cứu Logo 16 1.2.1 Định nghĩa Logo 16 1.2.2 Đặc trƣng của Logo và ảnh Logo 17 1.2.2 Đặc trƣng của Logo và ảnh Logo 17 1.2.2.1 Một số đặc trƣng cơ bản của ảnh số 17 1.2.2.2 Tra cứu thơng tin và thơng tin trực quan 19 1.2.3 Đặc trƣng của logo 22 Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/ Chƣơng 2: MỘT SỐ KỸ THUẬT PHÂN CỤM TRONG TRA CỨU LOGO 25 2.1 Thuật tốn K- Means 25 2.2 Thuật tốn Seed-Kmeans 30 2.3 Thuật tốn IsoData 31 2.4 Thuật tốn CURE 32 2.5 Thuật tốn DBSCAN 35 2.6 Thuật tốn STING 37 Chƣơng 3: CHƢƠNG TRÌNH THỬ NGHIỆM 39 3.1. Bài tốn 39 3.1.1 Phân tích về lơgơ 39 3.1.2 Đánh giá độ tƣơng tự về lơgơ 40 3.2. Phân tích, lựa chọn kỹ thuật tra cứu 41 3.2.1. Thuật tốn K – Mean trong phân cụm ảnh 44 3.2.2 Một số thuật tốn sử dụng trong chƣơng trình 46 3.3 Chƣơng trình 48 3.3.1 Hƣớng dẫn sử dụng chƣơng trình . 48 3.3.2 Chƣơng trình và một số kết quả đạt đƣợc 48 KẾT LUẬN 53 TÀI LIỆU THAM KHẢO 55 PHỤ LỤC - ẢNH LƠGƠ TRONG CƠ SỞ DỮ LIỆU 57 Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/ i LỜI CẢM ƠN Em xin chân thành cảm ơn PGS. TS Đỗ Năng Tồn đã tận tình hƣớng dẫn khoa học, giúp đỡ em hồn thành tốt luận văn tốt nghiệp này. Em cũng xin gửi lời cảm ơn tới các thầy, cơ giáo đã dạy dỗ, và trun đạt kiến thức cho em trong suốt q trình học tập và nghiên cứu. Học viên NGUYỄN ĐÌNH SINH Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/ ii LỜI CAM ĐOAN Tơi xin cam đoan tồn bộ nội dung trong Luận văn hồn tồn theo đúng nội dung đề cƣơng cũng nhƣ nội dung mà cán bộ hƣớng dẫn giao cho. Nội dung của Luận văn, các phần trích lục các tài liệu là hồn tồn chính xác. Nếu có sai sót tơi hồn tồn chịu trách nhiệm. Thái Ngun, Ngày 20 tháng 09 năm 2013 Học viên NGUYỄN ĐÌNH SINH Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/ iii DANH MỤC CÁC HÌNH Hình 1.1- Mơ tả tập dữ liệu vay nợ được phân thành 3 cụm. 4 Hình 1.2: Các chiến lược phân cụm phân cấp 12 Hình 1.3. Một số hình dạng khám phá bởi phân cụm dựa trên mật độ 13 Hình 2.1: Các thiết lập để xác định các ranh giới các cụm ban đầu 25 Hình 2.2: Tính tốn trọng tâm của các cụm mới 26 Hình 2.3: Ví dụ về một số hình dạng cụm dữ liệu được khám phá bởi K-means 29 Hình 2.4: Khái qt thuật tốn CURE 32 Hình 2.5: Các cụm dữ liệu được khám phá bởi CURE 33 Hình 2.6. Ví dụ thực hiện phân cụm bằng thuật tốn CURE 34 Hình 2.7. a) Mật độ trực tiếp, b) Đến được mật độ, c) Mật độ liên thơng 36 Hình 3.1 Mơ hình hệ thống tra cứu ảnh 41 Hình 3.2: Sơ đồ thuật tốn K – Mean trong phân cụm ảnh 44 Hình 3.3. Phân cụm ảnh 45 Hình 3.4- Sơ đồ thuật tốn dò biên Canny 46 Hình 3.5- Hàm xấp xỉ Gaussian rời rạc với 4.1 (cửa sổ W kích cỡ 5x5) 46 Hình 3.6 - Cặp mặt lạ tính tốn gradient 47 Hình 3.7 - Màn hình lựa chọn các tham số cho chương trình 49 Hình 3.8- Màn hình lựa chọn menu mở file ảnh lơgơ đưa vào tra cứu 49 Hình 3.9- Màn hình hiển thị ảnh lơgơ đưa vào cùng histogram màu và hình dạng 50 Hình 3.10- Lựa chọn menu Image Retrieval -> By Color (tra cứu theo màu sắc) 50 Hình 3.11- Màn hình hiển thị kết quả 10 ảnh lơgơ gần giống nhất theo màu sắc 51 Hình 3.12- Lựa chọn menu Image Retrieval -> By Shape để tra cứu theo hình dạng 51 Hình 3.13- Màn hình hiển thị kết quả 10 ảnh lơgơ gần giống nhất theo hình dạng 52 Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/ iv Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/ 1 LỜI MỞ ĐẦU Những năm gần đây, ảnh số và việc xử lý ảnh số ngày càng nhận đƣợc sự quan tâm của nhiều ngƣời, một phần do các thiết bị thu nhận ảnh số ngày càng trở nên thơng dụng với mọi ngƣời, cùng với nó là các thiết bị lƣu trữ ngày càng đƣợc cải thiện về dung lƣợng và giá thành nên việc lƣu trữ ảnh ngày càng thơng dụng hơn, chất lƣợng ảnh tốt hơn, thời gian lƣu trữ lâu hơn, Mặt khác, với sự phát triển mạnh mẽ của cơng nghệ thơng tin, đặc biệt là sự phát triển của Internet làm cho số lƣợng ảnh số đƣợc lƣu trữ và trao đổi qua Internet là rất lớn. Do đó bài tốn thực tế đặt ra là cần phải có phƣơng pháp tổ chức CSDL ảnh phù hợp, phục vụ cho q trình tìm kiếm và tra cứu ảnh nhanh hơn và có độ chính xác cao hơn. Việc tìm kiếm một bức ảnh thỏa mãn tiêu chí tìm kiếm trong vơ số các bức ảnh thuộc đủ loại chủ đề và định dạng khác nhau là rất khó khăn, và khi số lƣợng ảnh trong CSDL còn ít, việc nhận diện một bức ảnh hay việc so sánh sự giống và khác nhau giữa nhiều bức ảnh có thể thực hiện đƣợc bằng mắt thƣờng, tuy nhiên khi số lƣợng ảnh rất lớn thì việc so sánh này rất khó khăn, và do đó cần có các phƣơng pháp hiệu quả và phù hợp hơn. Sự phát triển mạnh mẽ của cơng nghệ ảnh số làm số lƣợng ảnh lƣu trữ trên web tăng lên một cách nhanh chóng. Để tìm kiếm bức ảnh theo mong muốn là rất khó khăn. Hơn thế nữa việc xã hội hóa và hội nhập kinh tế diễn ra rất mạnh mẽ. Đã có thêm rất nhiều các cơng ty mới xuất hiện tại nƣớc ta. (Các cơng ty trong nƣớc, liên doanh và nƣớc ngồi). Với mỗi cơng ty đƣợc thành lập thì đều có Logo riêng của cơng ty đó, Logo đó phải đƣợc thiết kế bởi các nhà thiết kế và đăng ký bản quyền với Cục bản quyền tác giả. Nhƣng việc để biết đƣợc Logo đó đã có hay chƣa và đã đƣợc đăng ký hay chƣa là rất khó khăn. Kỹ thuật tra cứu ảnh đƣợc nhiều ngƣời quan tâm nghiên cứu hiện nay là kỹ thuật Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/ 2 " Tra cứu ảnh dựa theo nội dung”. Kỹ thuật này cho phép trích rút các đặc trƣng dựa vào nội dung trực quan của bản thân ảnh nhƣ màu sắc, kết cấu, hình dạng, bố cục khơng gian của ảnh, để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức CSDL ảnh. Việc biểu diễn và trích rút đặc trƣng để nhận dạng đƣợc bức ảnh mong muốn là rất quan trọng và nhiều hƣớng nghiên cứu khác nhau đã đƣợc triển khai. Tuy nhiên, khi CSDL ảnh lớn thì việc tìm kiếm ảnh một cách tuần tự sẽ tốn rất nhiều thời gian. Để tăng tốc hệ thống tra cứu ảnh dựa vào nội dung, cần có một số kỹ thuật tra cứu ảnh nhanh. Thực tế đòi hỏi thời gian tìm kiếm khơng đƣợc tăng tuyến tính đối với số các ảnh trong CSDL. Có rất nhiều kỹ thuật đƣợc sử dụng trong tra cứu ảnh và Logo. Một trong các kỹ thuật đó là các kỹ thuật phân cụm. Nó có thể giúp ngƣời sử dụng tìm kiếm nhanh và chính xác một Logo đã có. Vì vậy tơi chọn đề tài: ”Nghiên cứu một số kỹ thuật phân cụm trong tra cứu Logo”. Luận văn đƣợc trình bầy trong 3 chƣơng và phụ lục: Chương 1: Khái qt về phân cụm và bài tốn tra cứu Logo. Chương 2: Một số kỹ thuật phân cụm trong tra cứu Logo. Chương 3: Chương trình thử nghiệm. Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/ 3 Chương 1: KHÁI QT VỀ PHÂN CỤM VÀ BÀI TỐN TRA CỨU LOGO 1.1 Phân cụm dữ liệu 1.1.1 Khái niệm và mục tiêu của phân cụm dữ liệu Mục đích chính của phân cụm dữ liệu (PCDL) nhằm khám phá cấu trúc của mỗi dữ liệu để thành lập các nhóm dữ liệu từ tập dữ liệu lớn, theo đó nó cho phép ngƣời ta đi sâu vào phân tích và nghiên cứu cho từng cụm dữ liệu này nhằm khám phá và tìm kiếm các thơng tin tiềm ẩn, hữu ích phục vụ cho việc ra quyết định. Ví dụ “Nhóm các khách hàng trong cơ sở dữ liệu (CSDL) ngân hàng có vốn các đầu tƣ vào bất động sản cao” Nhƣ vậy, PCDL là một phƣơng pháp xử lý thơng tin quan trọng và phổ biển, nó nhằm khám phá mối liên hệ giữa các mẫu dữ liệu bằng cách tổ chức chúng thành các cụm. Ta có thể khái qt hóa khái niệm PCDL: PCDL là một kĩ thuật trong khai phá dữ liệu (KPDL), nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên, tiềm ẩn, quan trọng trong tập dữ liệu lớn từ đó cung cấp thơng tin, tri thức hữu ích cho việc ra quyết định. Nhƣ vậy, PCDL là q trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm “tƣơng tự” với nhau và các phần tử trong các cụm khác nhau sẽ “phi tƣơng tự” với nhau. Số các cụm dữ liệu đƣợc phân ở đây có thể đƣợc xác định trƣớc theo kinh nghiệm hoặc có thể đƣợc tự động xác định của phƣơng pháp phân cụm Trong PCDL khái niệm hai hoặc nhiều đối tƣợng cùng đƣợc xếp vào một cụm nếu chúng có chung một định nghĩa về khái niệm hoặc chúng xấp xỉ với các khái niệm mơ tả cho trƣớc Trong học máy, PCDL đƣợc xem là vấn đề học khơng có giám sát, vì nó phải giải quyết vấn đề tìm một cấu trúc trong tập hợp dữ liệu chƣa biết trƣớc các thơng tin về lớp hay các thơng tin về tập huấn luyện. Trong nhiều trƣờng hợp, nếu phân lớp Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/ [...]... Sau đây là minh họa chiến lƣợc phân cụm phân cấp Bottom up và Top down: Hình 1.2: Các chiến lược phân cụm phân cấp Trong thực tế áp dụng, có nhiều trƣờng hợp ngƣời ta kết hợp cả hai phƣơng pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu đƣợc của phƣơng pháp phân cấp có thể cải tiến thơng qua bƣớc phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phƣơng pháp PCDL... sự phân cụm trong khơng gian đa chiều và các biến thể của các phƣơng pháp khác 1.1.4 Những kỹ thuật tiếp cận trong phân cụm dữ liệu Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực tế Các kỹ thuật phân cụm đều hƣớng tới hai mục tiêu chung: chất lƣợng của các cụm khám phá đƣợc và tốc độ thực hiện của thuật tốn Tuy nhiên có thể phân loại thành từng loại cơ bản dựa trên phân. .. những u cầu đáng chú ý này, nghiên cứu của ta về phân tích phân cụm diễn ra nhƣ sau: Đầu tiên, ta nghiên cứu các kiểu dữ liệu khác và cách chúng có thể gây ảnh hƣởng tới các phƣơng pháp phân cụm Thứ hai, ta đƣa ra một cách phân loại chúng trong các phƣơng pháp phân cụm Sau đó, ta nghiên cứu chi tiết mỗi phƣơng pháp phân cụm, bao gồm các phƣơng pháp phân hoạch, các phƣơng pháp phân cấp, các phƣơng pháp... đƣợc thoả mãn trong q trình phân cụm Để PCDL khơng gian hiệu quả hơn, các nghiên cứu bổ sung cần đƣợc thực hiện để cung cấp cho ngƣời dùng khả năng kết hợp các ràng buộc trong thuật tốn phân cụm Hiện nay các phƣơng pháp phân cụm trên đã và đang phát triển và áp dụng nhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghiên cứu đƣợc phát triển trên cơ sở các phƣơng pháp đó nhƣ: - Phân cụm thống kê:... khái niệm phân tích hệ thống, nhánh nghiên cứu này sử dụng các độ đo tƣơng tự để phân hoạch các đối tƣợng, nhƣng chỉ áp dụng cho các dữ liệu có thuộc tính số - Phân cụm khái niệm: Các kỹ thuật phân cụm đƣợc phát triển áp dụng cho dữ liệu hạng mục, chúng phân cụm các đối tƣợng theo các khái niệm mà chúng xử lý - Phân cụm mờ: Thơng thƣờng mỗi phƣơng pháp PCDL phân một tập dữ liệu ban đầu thành các cụm dữ... mẽ, bền bỉ, đầy sức sống, kinh sợ, · Cam : Là màu phối hợp giữa màu đỏ và vàng, chỉ điềm lành đƣợc hƣởng cuộc sống n vui, nhiều quyền hành Ngƣời thiết kế logo có thể chọn màu sắc tƣơng hợp, tƣơng sinh với triết lý âm dƣơng, ngũ hành Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/ 25 Chương 2: MỘT SỐ KỸ THUẬT PHÂN CỤM TRONG TRA CỨU LOGO 2.1 Thuật tốn K- Means Thuật tốn phân cụm K-means do MacQueen... thì PCDL là một bƣớc trong phân lớp dữ liệu, PCDL sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm dữ liệu Trong KPDL, ngƣời ta có thể nghiên cứu các phƣơng pháp phân tích cụm có hiệu quả và hiệu suất cao trong CSDL lớn Những mục tiêu trƣớc tiên của nghiên cứu là tập trung vào khả năng mở rộng của các phƣơng pháp phân cụm, tính hiệu quả của các phƣơng pháp phân cụm với các... liệu Phân cụm dữ liệu là một cơng cụ quan trọng trong một số ứng dụng Sau đây là một số ứng dụng của nó: • Giảm dữ liệu: Giả sử ta có một lƣợng lớn dữ liệu (N) Phân cụm sẽ nhóm các dữ liệu này thành m cụm dữ liệu dễ nhận thấy và m . chính xác một Logo đã có. Vì vậy tơi chọn đề tài: Nghiên cứu một số kỹ thuật phân cụm trong tra cứu Logo . Luận văn đƣợc trình bầy trong 3 chƣơng và phụ lục: Chương 1: Khái qt về phân cụm và. đƣợc tăng tuyến tính đối với số các ảnh trong CSDL. Có rất nhiều kỹ thuật đƣợc sử dụng trong tra cứu ảnh và Logo. Một trong các kỹ thuật đó là các kỹ thuật phân cụm. Nó có thể giúp ngƣời sử. pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu đƣợc của phƣơng pháp phân cấp có thể cải tiến thơng qua bƣớc phân cụm phân hoạch. Phân cụm phân hoạch và phân cụm phân cấp