1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân cụm dữ liệu cho nhận dạng ảnh sử dụng mạng nơron

79 615 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 79
Dung lượng 1,28 MB

Nội dung

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÙI ĐỨC VIỆT PHÂN CỤM DỮ LIỆU CHO NHẬN DẠNG ẢNH SỬ DỤNG MẠNG NƠRON LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, NĂM 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 LỜI CẢM ƠN Trƣớc tiên em gửi lời cảm ơn chân thành sâu sắc tới các thầy cô giáo ở Viện Công nghệ thông tin Việt Nam, các thầy cô trong trƣờng Đại học Công nghệ thông tin & Truyền thông - Đại học Thái Nguyên đã tận tình truyền đạt, giảng dạy cho em những kiến thức, kinh nghiện quý báu trong suốt thời gian qua. Đặc biệt em xin gửi lời cảm ơn đến PGS.TS Lê Bá Dũng đã tận tình giúp đỡ, trực tiếp chỉ bảo em trong suốt thời gian làm luận văn. Trong thời gian làm việc với Thầy, em không những tiếp thu thên nhiều kiến thức bổ ích mà còn học đƣợc tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu quả. Đây là những điều rất cần thiết cho em trong quá trình học tập và công tác. Sau cùng xin gửi lời cảm ơn chân thành tới gia đình, bạn bè đã động viên, đóng góp ý kiến và giúp đỡ trong quá trình học tâp, nghiên cứu và hoàn thành đề tài này. Thái Nguyên, tháng 10 năm 2012 Học viên Bùi Đức Việt Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 MỤC LỤC MỤC LỤC 3 DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT 6 DANH MỤC CÁC HÌNH VẼ 7 LỜI NÓI ĐẦU 9 CHƢƠNG 1. GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU 11 1.1. Khái niệm khai phá dữ liệu 11 1.2. Kiến trúc của một hệ thống khai phá dữ liệu 11 1.3 Các giai đoạn của quá trình khai phá 13 1.4. Các phƣơng pháp khai phá dữ liệu 14 1.5. Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu 16 1.6. Các ứng dụng của khai phá dữ liệu 17 1.7. Các thách thức và khó khăn trong khai phá dữ liệu 17 1.8 Mạng nơron cho khai phá dữ liệu 18 CHƢƠNG 2. TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 20 2.1. Khái niệm và mục tiêu của phân cụm dữ liệu 20 2.1.1. Khái niệm về phân cụm dữ liệu 20 2.1.1.1. Mục tiêu của phân cụm dữ liệu 20 2.1.1.2. Các yêu cầu đối với kỹ thuật phân cụm dữ liệu 21 2.1.1.3. Các kiểu dữ liệu và các thuộc tính trong phân cụm 23 2.2.Một số thuật toán trong phân cụm dữ liệu 25 2.2.1. Các thuật toán trong phân cụm phân hoạch 25 2.2.2. Các thuật toán trong phân cụm phân cấp 31 2.2.3.Các thuật toán phân cụm dựa trên mật độ 33 2.2.4.Phân cụm dựa trên lƣới 34 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4 2.2.5.Phân cụm dựa trên mô hình 35 2.2.6. Phân cụm có dữ liệu ràng buộc 36 2.3. Phân cụm cụm mờ 37 2.3.1. Tổng quan về phân cụm mờ 37 2.3.2. Các thuật toán phân cụm mờ 38 CHƢƠNG 3: ỨNG DỤNG MẠNG NƠRON KOHONEN CHO PHÂN CỤM DỮ LIỆU 42 3.1. Giới thiệu chung về mạng nơron 42 3.1.2. Mô hình Nơron sinh học 42 3.1.3. Mô hình Nơron nhân tạo 44 3.1.4. Mô hình Mạng Nơron nhân tạo 46 3.1.5. Đặc trƣng của Mạng Nơron 50 3.1.6. Phân loại mạng 51 3.2.3. Thuật toán của mạng SOM 59 3.2.4. Một vài biến thể của giải thuật SOM 65 3.2.5. Một số ứng dụng của SOM 66 CHƢƠNG 4: CÀI ĐẶT CHƢƠNG TRÌNH THỬ NGHIỆM 67 4.1 Giới thiệu 67 4.2 Mạng Nơron SOM cho phân cụm ảnh 68 Thiết kế mạng 68 Thuật toán học mạng 68 4.2 Giới thiệu môi trƣờng cài đặt 70 4.3 Giới thiệu giao diện chƣơng trình 70 4.3.1 Thử nghiệm 1 70 4.3.2 Thử nghiệm 2 73 4.4 Hạn chế của giải thuật SOM khi áp dụng phân cụm màu trên ảnh 74 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 77 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 5 TÀI LIỆU THAM KHẢO 77 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 6 DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT CSDL Cơ sở dữ liệu PCDL Phân cụm dữ liệu KPDL Khai phá dữ liệu BNU Phần tử nơron chiến thắng MLP MultiLayer Perception BAM Bidirectional Associative Memory SOM Self Organizing Map VQ Vector Quantization LVQ Learning Vector Quantization MST Minimal Spanning Tree Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 7 DANH MỤC CÁC HÌNH VẼ Trang Hình 1.1: Kiến trúc một hệ thống khai phá dữ liệu Hình 1.2: Quá trình khai phá dữ liệu Hình 2.1 : Biểu đồ các dạng dữ liệu Hình 2.2: biểu đồ quy mô dữ liệu Hình 2.3: Cấu trúc phân cấp Hình 2.4: Các cách mà cụm có thể đƣa ra Hình 2.5: Thiết lập để xác định danh giới các cụm ban đầu Hình 2.6: Tính toán trọng tâm các cụm mới Hình 2.7: Khái quát thuật toán Cure Hình 2.8: Các cụm dữ liệu đƣợc khám phá bởi thuật toán Cure Hình 2.9: Hình dạng các cụm đƣợc tạo bởi thuật toán DBSCAN Hình 3.1: Mô hình nơron sinh học Hình 3.2: Mô hình nơron nhân tạo cơ bản Hình 3.2: Mô hình mạng nơron 3 lớp Hình 3.3: Mô hình học giám sát Hình 3.4: Mô hình học không giám sát Hình 3.5: Mô hình mạng perceptron một lớp Hình 3.6: Mô hình Mạng perceptron nhiều lớp Hình 3.7: Mô hình mạng hồi quy một lớp Hình 3.8: Cấu trúc của mạng Hopfield Hình 3.9: Cấu trúc của mạng BAM Hình 3.10: Mô hình Mạng Nơron Kohonen Hình 3.11: Mô hình Mạng Nơron Kohonen thông thƣờng Hình 3.12: Phần tử nơron chiến thắng BMU 11 12 22 22 27 28 30 31 36 37 38 49 53 52 55 55 58 58 59 60 60 63 65 66 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 8 Hình 3.13: Các vùng lân cận Hình 4.1: Giao diện chƣơng trình Hình 4.2: Khởi tạo mạng ngẫu nhiên Hình 4.3: Xác định BMU Hình 4.4: Kết quả gom cụm Hình 4.5: Giao diện chọn ảnh để phân cụm Hình 4.6: Kết quả sau khi phân cụm 67 69 70 70 71 71 72 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 9 LỜI NÓI ĐẦU Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội nhiều năm qua cũng đồng nghĩa với lƣợng dữ liệu đã đƣợc các cơ quan thu thập và lƣu trữ ngày một tích lũy nhiều lên. Nếu cho rằng, điện tử và truyền thông chính là bản chất của khoa học điện tử thì dữ liệu, thông tin, tri thức là tiêu điểm của một lĩnh vực mới để nghiên cứu và ứng dụng, đó là khám phá tri thức và khai phá dữ liệu. Thông thƣờng, chúng ta coi dữ liệu là một chuỗi các bits, hoặc các số và các ký hiệu hay các đối tƣợng với một ý nghĩa nào đó khi gửi cho một chƣơng trình dƣới một dạng nhất định. Các bít thƣờng đƣợc sử dụng để đo thông tin, và xem nó nhƣ là dữ liệu đã loại bỏ phần tử dƣ thừa, lặp lại và rút gọn tới mức tối thiểu để đặc trƣng một cách cơ bản cho dữ liệu. Tri thức đƣợc xem nhƣ là những thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng đã đƣợc nhận thức, khám phá hoặc nghiên cứu. Nói cách khác, tri thức có thể đƣợc coi là dữ liệu ở mức độ cao của sự trừu tƣợng và tổng quát. Khám phá tri thức hay phát hiện tri thức trong CSDL là quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: phân tích, tổng hợp, hợp thức, khả ích và có thể hiểu đƣợc. Khai phá dữ liệu là một bƣớc trong quá trình khám phá tri thức, gồm các thuật toán khai thác dữ liệu chuyên dùng dƣới một số quy định về hiệu quả tính toán chấp nhận đƣợc để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Nói cách khác, mục tiêu của khai phá dữ liệu là tìm kiếm các mẫu hoặc các mô hình tồn tại trong CSDL nhƣng ẩn trong khối lƣợng lớn dữ liệu. Phân cụm dữ liệu (PCDL) là quá trình nhóm một tập các đối tƣợng tƣơng tự nhau trong tập dữ liệu vào các cụm sao cho các đối tƣợng thuộc cùng một cụm là tƣơng đồng còn các đối tƣợng thuộc các cụm khác nhau sẽ không tƣơng đồng. Phân cụm dữ Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 liệu là một ví dụ của phƣơng pháp học không có thầy. Không giống nhƣ phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trƣớc các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ… Hiện nay, các phƣơng pháp phân cụm trên đã và đang đƣợc phát triển và áp dụng nhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghiên cứu đƣợc phát triển trên cơ sở của các phƣơng pháp đó nhƣ: Phân cụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánh nghiên cứu này sử dụng các độ đo tƣơng tự để phân hoạch các đối tƣợng, nhƣng chúng chỉ áp dụng cho các dữ liệu có thuộc tính số. Phân cụm khái niệm: Kỹ thuật này đƣợc phát triển áp dụng cho dữ liệu hạng mục, chúng phân cụm các đối tƣợng theo các khái niệm mà chúng xử lí. Phân cụm mờ: Sử đụng kỹ thuật mờ để PCDL. Các thuật toán thuộc loại này chỉ ra lƣợc đồ phân cụm thích hợp với tất cả các hoạt động đời sống hàng ngày, chúng chỉ xử các dữ liệu không chắc chắn. Luận văn gồm có 4 chƣơng: Chương 1: Giới thiệu về khai phá dữ liệu Chương 2: Tổng quan về phân cụm dữ liệu Chương 3: Ứng dụng mạng Nơron Kohonen cho phân cụm dữ liệu Chương 4: cài đặt thử nghiệm Luận văn đã trình bày một số vấn đề về phân cụm - một trong những kỹ thuật cơ bản để khai phá dữ liệu và ứng dụng phân cụm cho nhận dạng ảnh sử dụng mạng nơron. Đây là hƣớng nghiên cứu có triển vọng chỉ ra những sơ lƣợc trong việc hiểu và khai thác CSDL khổng lồ, khám phá thông tin hữu ích ẩn trong dữ liệu; hiểu đƣợc ý nghĩa thực tế của dữ liệu và ứng dụng vào bài toán cụ thể. [...]... khi phân lớp dữ liệu là học bằng ví dụ … Ngoài ra, phân cụm dữ liệu còn có thể đƣợc sử dụng nhƣ một bƣớc tiền xử lý cho các thuật toán khai phá dữ liệu khác nhƣ là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm .Phân cụm dữ liệu đang là vấn đề mở và khó vì ngƣời ta cần phải đi giải quyết nhiều vấn đề cơ bản về dữ liệu để nó phù hợp với nhiều dạng dữ liệu khác nhau nhƣ dữ liệu. .. chung của thuật toán trong phân cụm phân cụm phân hoạch: phân một tập dữ liệu có n phần tử cho trƣớc thành k nhóm dữ liệu sao cho mỗi phần tử dữ liệu chỉ thuộc về một nhóm dữ liệu và mỗi nhóm dữ liệu có tối thiểu một phần tử dữ liệu Thuật toán phân cụm phân hoạch tối ƣu cục bộ là sử dụng chiến lƣợc ăn tham để tìm kiếm nghiệm Dƣới đây là một số thuật toán đƣợc sử dụng rộng rãi: Thuật toán K-Means: Ý... Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 20 CHƢƠNG 2 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 2.1 Khái niệm và mục tiêu của phân cụm dữ liệu 2.1.1 Khái niệm về phân cụm dữ liệu Phân cụm dữ liệu là quá trình nhóm một tập các đối tƣợng tƣơng tự nhau trong tập dữ liệu vào các cụm sao cho các đối tƣợng thuộc cùng một cụm là tƣơng đồng, còn các đối tƣợng thuộc các cụm khác nhau sẽ không tƣơng đồng Phân. .. không tƣơng đồng Phân cụm dữ liệu là một kỹ thuật trong Khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn quan trọng trong tập dữ liệu lớn từ đó cung cấp thông tin tri thức hữu ích cho việc ra quyết định Không giống nhƣ phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trƣớc các mẫu dữ liệu huấn luyện Vì thế, có thể coi phân cụm dữ liệu là một cách học... Evaluation)  Phân tích sự phát triển và độ lệch (Evolution and deviation analyst)  Phƣơng pháp tìm kiếm (Search method) Trong số các phƣơng pháp khai phá dữ liệu trên, có 3 phƣơng pháp đƣợc sử dụng nhiều đó là: Luật kết hợp, Phân lớp dữ liệu và Phân cụm dữ liệu Phân lớp dữ liệu: Khái niệm phân lớp dữ liệu đƣợc Han và Kamber đƣa ra năm 2000 Phân lớp dữ liệu là xây dựng một mô hình mà có thể phân các đối... Dựa vào những kiểu dữ liệu mà kỹ thuật khai phá áp dụng, có thể chia dữ liệu thành các loại khác nhau: + Cơ sở dữ liệu quan hệ: Đến nay hầu nhƣ dữ liệu đƣợc lƣu trữ dƣới dạng cơ sở dữ liệu quan hệ Cơ sở dữ liệu quan hệ có cấu trúc cao, dữ liệu đƣợc mô tả bởi một tập các thuộc tính và lƣu trong bảng Khai phá dữ liệu trên cơ sở dữ liệu quan hệ chủ yếu tập trung khai phá mẫu + Cơ sở dữ liệu giao tác: là... nghiêng lớn Phân cụm ràng buộc: Nhiều ứng dụng thực tế có thể cần thực hiện phân cụm dƣới các loại ràng buộc khác nhau Một nhiệm vụ đặt ra là đi tìm những nhóm dữ liệu có trạng thái phân cụm tốt và thỏa mãn các ràng buộc Dễ hiểu và dễ sử dụng: Ngƣời sử dụng có thể chờ đợi những kết quả phân cụm dễ hiểu, dễ lý giải và dễ sử dụng Nghĩa là, sự phân cụm có thể cần đƣợc giải thích ý nghĩa và ứng dụng rõ ràng... phân là một trƣờng hợp đặc biệt của dữ liệu rời rạc Quy mô dữ liệu chỉ ra tầm quan trọng tƣơng đối của các con số, cũng là một vấn đề quan trọng trong phân cụm dữ liệu Vì vậy dữ liệu đƣợc chia thành các kiểu nhƣ sau: Hình 2.1 : Biểu đồ các dạng dữ liệu Hình 2.2: biểu đồ quy mô dữ liệu Bao gồm các kiểu dữ liệu: + Dữ liệu dựa trên kích thƣớc miền: Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn... các đối tƣợng dữ liệu khuyết thiếu thông tin về môt số thuộc tính… hoặc dữ liệu hỗn hợp đang ngày càng tăng trong các hệ quản trị dữ liệu 2.1.1.1 Mục tiêu của phân cụm dữ liệu Mục tiêu của phân cụm dữ liệu là xác định đƣợc bản chất nhóm trong tập dữ liệu chƣa có nhãn Nó có thể là không có tiêu chuẩn tuyệt đối “tốt” mà có thể không phụ thuộc vào kết quả phân cụm Vì vậy, nó đòi hỏi ngƣời sử dụng phải cung... thuật toán phân cụm dựa trên lƣới là CLIQUE có khả năng áp dụng tốt với dữ liệu đa chiều, nhƣng lại nhạy cảm với thứ tự của dữ liệu vào Độ phức tạp của nó là O(n) 2.2.5 .Phân cụm dựa trên mô hình Phƣơng pháp này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô hình sao cho khớp với dữ liệu một cách tốt nhất.Chúng có thể sử dụng chiến lƣợc phân cụm phân hoạch hoặc chiến lƣợc phân cụm phân cấp, . PHÂN CỤM DỮ LIỆU 2.1. Khái niệm và mục tiêu của phân cụm dữ liệu 2.1.1. Khái niệm về phân cụm dữ liệu Phân cụm dữ liệu là quá trình nhóm một tập các đối tƣợng tƣơng tự nhau trong tập dữ liệu. kết hợp, Phân lớp dữ liệu và Phân cụm dữ liệu. Phân lớp dữ liệu: Khái niệm phân lớp dữ liệu đƣợc Han và Kamber đƣa ra năm 2000. Phân lớp dữ liệu là xây dựng một mô hình mà có thể phân các. CHƢƠNG 2. TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 20 2.1. Khái niệm và mục tiêu của phân cụm dữ liệu 20 2.1.1. Khái niệm về phân cụm dữ liệu 20 2.1.1.1. Mục tiêu của phân cụm dữ liệu 20 2.1.1.2. Các

Ngày đăng: 08/11/2014, 21:50

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w