Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 58 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
58
Dung lượng
1,1 MB
Nội dung
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG TRẦN THỊ YẾN PHÂN CỤM DỮ LIỆU TRỪ MỜ VÀ ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS. TS LÊ BÁ DŨNG Thái Nguyên - 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến PGS.TS Lê Bá Dũng, ngƣời đã tận tình hƣớng dẫn, chỉ bảo, giúp đỡ em trong suốt quá trình làm luận văn. Em cũng xin đƣợc bày tỏ lòng biết ơn tới các thầy đã tham gia giảng dạy và chia sẻ những kinh nghiệm quý báu cho tập thể lớp nói chung và cá nhân em nói riêng. Tôi xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp đã luôn ủng hộ, động viên và giúp đỡ để tôi có thể hoàn thành tốt luận văn. Tôi cũng xin gửi lời cảm ơn tới Ban giám hiệu trƣờng Đại học Khoa học, Ban chủ nhiệm Khoa Toán-Tin đã tạo điều kiện thuận lợi cho tôi tham gia khóa học và hoàn thành luận văn. Một lần nữa, xin chân thành cảm ơn. Thái Nguyên, tháng 09 năm 2012 Học viên Trần Thị Yến Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan luận văn là kết quả của sự tìm hiểu, nghiên cứu các tài liệu một cách nghiêm túc dƣới sự hƣớng dẫn của PGS. TS Lê Bá Dũng. Nội dung luận văn đƣợc phát triển từ ý tƣởng, sự sáng tạo của bản thân và kết quả có đƣợc hoàn toàn trung thực. Học viên Trần Thị Yến Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN iii MỤC LỤC iv DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC BẢNG BIỂU, HÌNH ẢNH vii MỞ ĐẦU 1 Chƣơng 1. 2 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 2 1.1. Khái niệm và mục tiêu của phân cụm dữ liệu 2 1.2. Các ứng dụng của phân cụm dữ liệu 4 1.3. Các yêu cầu của phân cụm dữ liệu 4 1.4. Các kỹ thuật tiếp cận và một số thuật toán cơ bản trong phân cụm dữ liệu 6 1.4.1. Các phương pháp phân cụm phân hoạch - Partitioning Methods 6 1.4.2. Phương pháp phân cụm phân cấp - Hierarchical Methods 9 1.4.3. Phương pháp phân cụm dựa trên mật độ - Density-Based Methods 12 1.4.4. Phương pháp phân cụm dựa trên lưới - Grid-Based Methods 14 1.4.5. Phương pháp phân cụm dựa trên mô hình - Model-Based Clustering Methods15 1.4.6 Phương pháp phân cụm có dữ liệu ràng buộc 17 Chƣơng 2. 19 PHƢƠNG PHÁP PHÂN CỤM TRỪ MỜ 19 2.1. Phân cụm mờ và thuật toán phân cụm mờ 19 2.1.1. Tổng quan về phân cụm mờ 19 2.1.2. Thuật toán phân cụm C-Means mờ (FCM) 21 2.2. Thuật toán phân cụm trừ (SC - Subtractive Clustering) 25 2.3. Thuật toán phân cụm trừ mờ (FSC – Fuzzy Subtractive Clustering) 28 Chƣơng 3 31 ỨNG DỤNG PHƢƠNG PHÁP PHÂN CỤM TRỪ MỜ 31 3.1. Ứng dụng thuật toán SC cho xây dựng hệ luật 31 3.1.1 Trích xuất luật với tính toán xấp xỉ hàm 31 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.1.2 Hệ thống suy diễn mờ (FIS) cho bài toán nút giao thông vùng ngoại ô 33 3.2 Ứng dụng thuật toán FSC vào phân đoạn ảnh 37 3.2.1 Phân đoạn ảnh 37 3.2.2. Phân đoạn ảnh sử dụng thuật toán phân cụm trừ mờ FSC 39 3.2.3 Thử nghiệm với thuật toán phân cụm trừ 40 3.2.4 Thử nghiệm với thuật toán phân cụm trừ mờ 42 3.2.5 Thử nghiệm thuật toán phân SC và FSC trên cùng một ảnh 43 PHỤ LỤC 46 KẾT LUẬN 49 DANH MỤC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 50 TÀI LIỆU THAM KHẢO 51 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC TỪ VIẾT TẮT CURE Clustering Using Representatives DBSCAN Density based Spatial Clutering of Application with Noise DENCLUE Clustering Based on Density Distribution Functions EM Expectation Maximization FCM Fuzzy C-Means FSC Fuzzy Subtractive Clustering OPTICS Ordering Points to Identify the Clustering Structure SC Subtractive Clustering Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC BẢNG BIỂU, HÌNH ẢNH Hình 2.1: Hai nhóm dữ liệu của phân cụm trừ mờ Hình 3.1: Biểu đồ dữ liệu vào và dữ liệu ra Hình 3.2: Kết quả sau khi phân cụm Hình 3.3: Hàm thành viên tƣơng ứng với biến vào số ô tô sở hữu Hình 3.4: Hàm thành viên tƣơng ứng với biến vào số lƣợng việc làm Hình 3.5: Hàm thành viên tƣơng ứng với biến vào thu nhập trung bình Hình 3.6: Ảnh ban đầu của thuật toán phân cụm trừ Hình 3.7: Ảnh kết quả của thuật toán phân cụm trừ Hình 3.8: Ảnh ban đầu của thuật toán phân cụm trừ mờ Hình 3.9: Ảnh kết quả của thuật toán phân cụm trừ mờ Hình 3.10: Ảnh đầu vào cho cả 2 thuật toán Hình 3.11: Ảnh kết quả của thuật toán SC với 122 cụm Hình 3.12: Ảnh kết quả của thuật toán FSC với 18 cụm Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Ngày nay, khai phá dữ liệu (Datamining) đã trở thành một trong những xu hƣớng nghiên cứu phổ biến trong lĩnh vực học máy và công nghệ tri thức. Nhiều thành tựu nghiên cứu của Datamining đã đƣợc áp dụng trong thực tế. Datamining có nhiều hƣớng quan trọng và một trong các hƣớng đó là phân cụm dữ liệu (Data Clustering). Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm "tƣơng tự" (similar) với nhau và các phần tử trong các cụm khác nhau sẽ "phi tƣơng tự" (dissimilar) với nhau. Phân cụm dữ liệu là một phƣơng pháp học không giám sát. Hiện nay, các phƣơng pháp phân cụm đã và đang đƣợc phát triển và áp dụng nhiều trong các lĩnh vực khác nhau, bao gồm: nhận dạng, phân tích dữ liệu, nghiên cứu thị trƣờng, xử lý ảnh,… Các thuật toán phân cụm cũng rất đa dạng nhƣ K- means, Pam, C-means, C-means mờ, thuật toán phân cụm trừ,… Để tăng tính ổn định và chính xác của kết quả phân cụm, ngày càng có các tiếp cận mới. Một trong những cách tiếp cận đang đƣợc nghiên cứu đó là ứng dụng lý thuyết mờ vào bài toán phân cụm dữ liệu. Luận văn này trình bày phân cụm dữ liệu, một cách tiếp cận mới về phân cụm dữ liệu là thuật toán phân cụm trừ mờ và ứng dụng vào bài toán cụ thể. Luận văn bao gồm các nội dung chính sau: Chương 1: Tổng quan về phân cụm dữ liệu Chương 2: Phƣơng pháp phân cụm trừ mờ Chương 3: Ứng dụng phƣơng pháp phân cụm trừ mờ Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chƣơng 1. TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1. Khái niệm và mục tiêu của phân cụm dữ liệu Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu, là quá trình phân chia một tập dữ liệu ban đầu thành các cụm sao cho các phần tử trong một cụm “tƣơng tự” với nhau và các phần tử trong các cụm khác nhau sẽ “phi tƣơng tự” với nhau. Số các cụm dữ liệu đƣợc phân ở đây có thể đƣợc xác định trƣớc theo kinh nghiệm hoặc có thể đƣợc tự động xác định theo phƣơng pháp phân cụm. Trong học máy, phân cụm dữ liệu đƣợc xem là vấn đề học không có giám sát, vì nó phải giải quyết vấn đề tìm một cấu trúc trong tập hợp dữ liệu chƣa biết trƣớc các thông tin về cụm hay các thông tin về tập huấn luyện. Trong nhiều trƣờng hợp, nếu phân lớp đƣợc xem là vấn đề học có giám sát thì phân cụm dữ liệu là một bƣớc trong phân lớp dữ liệu, phân cụm dữ liệu sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm dữ liệu. Phân cụm có ý nghĩa rất quan trọng trong hoạt động của con ngƣời. Ngay từ lúc bé, con ngƣời đã học cách làm thế nào để phân biệt giữa mèo và chó, giữa động vật và thực vật và liên tục đƣa vào sơ đồ phân loại trong tiềm thức của mình. Phân cụm đƣợc sử dụng rộng rãi trong nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích dữ liệu, xử lý ảnh, nghiên cứu thị trƣờng Với tƣ cách là một chức năng khai phá dữ liệu, phân cụm có thể đƣợc sử dụng nhƣ một công cụ độc lập chuẩn để quan sát đặc trƣng của mỗi cụm thu đƣợc bên trong sự phân bố của dữ liệu và tập trung vào một tập riêng biệt của các cụm để giúp cho việc phân tích đạt kết quả. Một vấn đề thƣờng gặp trong phân cụm là hầu hết các dữ liệu cần cho phân cụm đều có chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ, vì vậy cần phải xây dựng chiến lƣợc cho bƣớc tiền xử lý dữ liệu nhằm khắc phục hoặc loại bỏ nhiễu trƣớc khi chuyển sang giai đoạn phân tích cụm dữ liệu. Nhiễu ở đây đƣợc hiểu là các đối tƣợng dữ liệu không chính xác, không tƣờng minh Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn hoặc là các đối tƣợng dữ liệu khuyết thiếu thông tin về một số thuộc tính Một trong các kỹ thuật xử lý nhiễu phổ biến là việc thay thế giá trị các thuộc tính của đối tƣợng nhiễu bằng giá trị thuộc tính tƣơng ứng. Ngoài ra, dò tìm phần tử ngoại lai cũng là một trong những hƣớng nghiên cứu quan trọng trong phân cụm, chức năng của nó là xác định một nhóm nhỏ các đối tƣợng dữ liệu khác thƣờng so với các dữ liệu trong cơ sở dữ liệu, tức là các đối tƣợng dữ liệu không tuân theo các hành vi hoặc mô hình dữ liệu nhằm tránh sự ảnh hƣởng của chúng tới quá trình và kết quả của phân cụm. Tóm lại, phân cụm dữ liệu cần phải giải quyết các vần đề cơ bản nhƣ sau: - Biểu diễn dữ liệu, - Xây dựng hàm tính độ tƣợng tự, - Xây dựng các tiêu chuẩn phân cụm, - Xây dựng mô hình cho cấu trúc cụm dữ liệu, - Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo, - Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm. Theo các nghiên cứu cho thấy thì hiện nay chƣa có một phƣơng pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc dữ liệu. Hơn nữa, các phƣơng pháp phân cụm cần có cách thức biểu diễn cấu trúc của các dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có tƣơng ứng một thuật toán phân cụm phù hợp. Vì vậy phân cụm dữ liệu vẫn đang là một vấn đề khó và mở, vì phải giải quyết nhiều vấn đề cơ bản một cách trọn vẹn và phù hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với dữ liệu hỗn hợp đang ngày càng tăng trong các hệ quản trị dữ liệu và đây cũng là một trong những thách thức lớn trong lĩnh vực khai phá dữ liệu. Mục tiêu của phân cụm là xác định đƣợc bản chất của các cụm dữ liệu trong tập dữ liệu chƣa có nhãn, theo đó cho phép đi sâu vào phân tích và nghiên cứu cho từng cụm dữ liệu này nhằm khám phá và tìm kiếm các thông tin tiềm ẩn, hữu ích phục vụ cho việc ra quyết định. Tuy nhiên, không có tiêu chí nào đƣợc xem là tốt [...]... hóa hàm mục tiêu mờ bằng cách đƣa ra trọng số mũ để xây dựng thuật toán phân cụm mờ và đƣợc chứng minh độ hội tụ của các thuật toán là cực tiểu cục bộ Các thuật toán trong phân cụm mờ: - Thuật toán C-means mờ là thuật toán phân cụm mờ tƣơng ứng của thuật toán K-means, hai thuật toán này cùng sử dụng chung một chiến lƣợc phân cụm dữ liệu Thuật toán C-means mờ hay còn gọi tắt là thuật toán FCM (Fuzzy C-means)... thống, nhánh nghiên cứu này sử dụng các độ đo tƣơng tự để phân hoạch các đối tƣợng, nhƣng chỉ áp dụng cho các dữ liệu có thuộc tính số - Phân cụm khái niệm: Các kỹ thuật phân cụm đƣợc phát triển áp dụng cho dữ liệu hạng mục, chúng phân cụm các đối tƣợng theo các khái niệm mà chúng xử lý - Phân cụm mờ: Thông thƣờng mỗi phƣơng pháp phân cụm dữ liệu phân một tập dữ liệu ban đầu thành các cụm dữ liệu có... để đánh giá hiệu quả của phân cụm, điều này phụ thuộc vào mục đích của phân cụm, và đòi hỏi ngƣời sử dụng phải cung cấp tiêu chí này 1.2 Các ứng dụng của phân cụm dữ liệu Phân cụm dữ liệu đƣợc ứng dụng trong nhiều lĩnh vực nhƣ: - Thương mại: Phân cụm dữ liệu có thể giúp các thƣơng nhân tìm ra các nhóm khách hàng quan trọng có đặc trƣng tƣơng đồng nhau và đặc tả họ từ các mẫu mua bán trong cơ sở dữ liệu. .. toán phân cụm trừ và phân cụm trừ mờ Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chƣơng 2 PHƢƠNG PHÁP PHÂN CỤM TRỪ MỜ (Fuzzy Substractive Clustering) 2.1 Phân cụm mờ và thuật toán phân cụm mờ 2.1.1 Tổng quan về phân cụm mờ Trong cuộc sống, chúng ta đã gặp rất nhiều ứng dụng của bài toán phân cụm Chẳng hạn nhƣ trong ngành bƣu điện, hàng ngày bƣu điện phải phân loại thƣ... các cụm dữ liệu có hình thù bất kỳ Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào: Do các giá trị đầu vào thƣờng ảnh hƣởng rất lớn đến thuật toán phân cụm và rất phức tạp để xác định các giá trị vào thích hợp đối với các cơ sở dữ liệu lớn Ít nhạy cảm với thứ tự của dữ liệu vào: Cùng một tập dữ liệu, khi đƣa vào xử lý cho thuật toán phân cụm dữ liệu với các thứ tự vào của các đối tƣợng dữ. .. tự vào của các đối tƣợng dữ liệu ở các lần thực hiện khác nhau thì không ảnh hƣởng lớn đến kết quả phân cụm Khả năng thích nghi với dữ liệu nhiễu cao: Hầu hết các dữ liệu phân cụm trong khai phá dữ liệu đều chứa đựng các dữ liệu lỗi, dữ liệu không đầy đủ, dữ liệu rác Thuật toán phân cụm không những hiệu quả đối với các dữ liệu nhiễu mà còn tránh dẫn đến chất lƣợng phân cụm thấp do nhạy cảm với nhiễu... liệu vào k phân vùng, mỗi phân vùng thể hiện một cụm dữ liệu và thỏa mãn: mỗi cụm phải chứa ít nhất một phần tử dữ liệu và mỗi phần tử dữ liệu chỉ thuộc vào một cụm Để đƣa ra đƣợc k phân mảnh, một phƣơng pháp phân mảnh tạo ra một phân mảnh khởi tạo, sau đó sử dụng kỹ thuật lặp để cải thiện phân mảnh bằng cách di chuyển các phần tử dữ liệu từ cụm này sang cụm khác Tiêu chuẩn tổng quát của quá trình phân. .. mountain thì phân cụm trừ tính toán đơn giản và tốc độ tính toán cải thiện hơn rất nhiều Vì giải thuật mountain đƣa ra một không gian lƣới, và đánh giá khả năng trở thành tâm cụm của các điểm lƣới dựa vào khoảng cách tới các điểm dữ liệu thực; còn thuật toán phân cụm trừ đánh giá khả năng trở thành tâm cụm của các điểm dữ liệu thực dựa vào mật độ các điểm lân cận Tuy nhiên, thuật toán phân cụm trừ lại phải... đối tƣợng dữ liệu thuộc về nhiều các cụm khác nhau, do đó mô hình này không mô tả đƣợc dữ liệu thực Vì vậy ngƣời ta đã áp dụng lý thuyết về tập mờ trong phân cụm Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn dữ liệu để giải quyết cho trƣờng hợp này Cách thức kết hợp này đƣợc gọi là phân cụm mờ Phân cụm mờ là phƣơng pháp phân cụm dữ liệu mà cho phép mỗi điểm dữ liệu thuộc... làm tâm cụm khởi tạo Tính toán khoảng cách giữa đối tƣợng dữ liệu và mỗi tâm cụm để tìm kiếm phần tử nào là tƣơng tự (khoảng cách gần nhất) và thêm vào cụm đó Tính lại tâm cụm cho mỗi cụm (giá trị trung bình của các đối tƣợng dữ liệu trong cụm) và lặp lại quá trình cho đến khi mỗi các đối tƣợng dữ liệu là một bộ phận của cụm nào đó và không đổi Mục đích của thuật toán K-means là sinh k cụm dữ liệu {C1, . dụng lý thuyết mờ vào bài toán phân cụm dữ liệu. Luận văn này trình bày phân cụm dữ liệu, một cách tiếp cận mới về phân cụm dữ liệu là thuật toán phân cụm trừ mờ và ứng dụng vào bài toán cụ. PHƢƠNG PHÁP PHÂN CỤM TRỪ MỜ 19 2.1. Phân cụm mờ và thuật toán phân cụm mờ 19 2.1.1. Tổng quan về phân cụm mờ 19 2.1.2. Thuật toán phân cụm C-Means mờ (FCM) 21 2.2. Thuật toán phân cụm trừ (SC. QUAN VỀ PHÂN CỤM DỮ LIỆU 2 1.1. Khái niệm và mục tiêu của phân cụm dữ liệu 2 1.2. Các ứng dụng của phân cụm dữ liệu 4 1.3. Các yêu cầu của phân cụm dữ liệu 4 1.4. Các kỹ thuật tiếp cận và một