Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 82 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
82
Dung lượng
1,61 MB
Nội dung
BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LÊ ĐỨC QUANG CÁC PHƯƠNG PHÁP PHÂN CỤM MỜ Chuyên ngành: Công nghệ thơng tin LUẬN VĂN THẠC SỸ KHOA HỌC CƠNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS TRẦN ĐÌNH KHANG Hà Nội, năm 2014 Mục lục DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT MỞ ĐẦU CHƯƠNG I: CƠ SỞ LÝ THUYẾT .8 1.1 Phân cụm liệu .8 1.1.1 Giới thiệu khai phá liệu: 1.1.2 Bài toán phân cụm liệu .11 1.1.2.1 Khái niệm phân cụm liệu: 11 1.1.2.2 Ứng dụng phân cụm liệu 14 1.1.2.3 Các phương pháp phân cụm liệu 14 1.2 Phân cụm mờ 26 1.2.1 Giới thiệu phân cụm mờ 26 1.2.2 Các phương pháp phân cụm mờ 28 1.2.1.1 Thuật toán FCM mở rộng FCM 28 1.2.3.2 Thuật toán Diffuzzy[6]: 36 1.2.3.3 Self -Organizing Map[7][8]: 39 1.3.3.4 Fuzzy ART [9][10]: 44 CHƯƠNG II: PHƯƠNG PHÁP PHÂN CỤM MỜ CẢI TIẾN 50 2.1 Giới thiệu 50 2.1.1 Yêu cầu toán: 50 2.1.2 Giới thiệu phương pháp phân cụm mờ cải tiến: .51 2.1.3 Các bước phương pháp 51 2.2 Phân cụm multi-prototype .52 2.3 Phát cụm cứng cụm mềm: 56 2.4 Gom cụm cứng tương đồng .58 2.5 Gán độ thuộc cho điểm liệu: .60 CHƯƠNG III: THỬ NGHIỆM VÀ ỨNG DỤNG PHƯƠNG PHÁP PHÂN CỤM MỜ CẢI TIẾN 63 3.1 Thử nghiệm với liệu nhân tạo: .63 3.3 Nhận xét: 67 3.4 Ứng dụng: 70 KẾT LUẬN 78 DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Ý nghĩa KDD Knowledge Discovery from Data PAM Partitioning Around Medoids CLARA Clustering for Large Application CLARANS Clustering Large Application based up on Randomized Search BIRCH Balance Iterative Reducing and Clustering Using Hỉearchiles DBSCAN Density Based Spatial Clustering of Application with Noise STING Statistical Information Grid EM Expectation-Maximization FCM Fuzzy C-Means FGK Fuzzy Gustafson-Kessel FCV Fuzzy C-varieties E-FCM Extend Fuzzy C-Means E-FGK Extend Gustafson - Kessel SOM Self-Organizing Map BMU Best matching unit FKCN Fuzzy Kohonen Clustering Network ART Adaptive Resonance Theory DANH MỤC HÌNH VẼ Hinh 1: Khai phá liệu bước trinh khai phá tri thức [1] Hinh 2: Các cụm xác định giải thuật K-means [1] 15 Hinh 3: TÍch tụ phân cấp phân cụm phân cấp [1] 17 Hinh 4: Cấu trúc CF .20 Hinh 5: Các cụm có hinh dạng phát DBSCAN 22 Hinh 6: Cấu trúc phân cấp phân cụm STING 24 Hinh 7: Các cụm tim EM 26 Hinh 8: Kohonen Feature Map với đầu vào chiều mạng nơ-ron hai chiều 41 Hinh 9: Các quốc gia lưới SOM dựa số tinh trạng đói nghèo (thống kê WorldBank 1992) nguồn:http://www.cis.hut.fi/research/som-research/worldmap.html 41 Hinh 10: Các chu kỳ học ART .44 Hinh 11: Mạng học cạnh tranh 46 Hinh 12: Các cụm có kích thước khác .54 Hinh 13: Các cụm có mật độ khác .54 Hinh 14: liệu chứa nhiễu .55 Hinh 15: cụm có hinh dạng .55 Hinh 16: Trước điều chỉnh 56 Hinh 17: Sau điều chỉnh K-mean 56 Hinh 18: Kết sau xác định vùng liệu cứng vùng liệu mờ 58 Hinh 19: Các cụm cứng xác định dựa tham số r minPts .58 Hinh 20: Sự gom cụm dựa khoảng cách cụm 60 Hinh 21: Kết gom cụm với r=10%, minPts=5 60 Hinh 22: Kết phân cụm với r=2.5% .62 Hinh 23: FCM với k=2 .64 Hinh 24 E-FCM với k=2 64 Hinh 25: DBSCAN với eps=10% minPts=5 64 Hinh 26: Phương pháp cải tiến với r=12% minPts=5 64 Hinh 27: FCM với k=2 .65 Hinh 28: Phương pháp với minPts=5 r=2.5% 65 Hinh 29: FCM với k=2 .66 Hinh 30: Phương pháp với minPts=20, r=2.5% 66 Hinh 31: r=5%, minPts=5 69 Hinh 32: r=7.5%, minPts=5 69 Hinh 33: r=5%, minPts=2 69 Hinh 34: r=5%, minPts=7 69 Hinh 35: Các thành phần Hansense .71 Hinh 36: Các giá trị đo lúc 17h-19h (ngày 27/8/2013) 73 Hinh 37: Các giá trị đo lúc 9h-11h (ngày 27/8/2013) 73 Hinh 38: Các điểm liệu trước gom cụm 74 Hinh 39: Các điểm dư liệu sau gom cụm .74 Hinh 40: Các cụm lõi (hinh vuông màu lớn) cụm mờ (hinh tam giác nhỏ) 75 Hinh 41: Các cụm liệu tạo liệu đo từ 1/4 - 1/6/2013 vào lúc 9h-19h 76 Hinh 42: Độ ô nhiễm vùng biểu thị ô lục giác màu 77 MỞ ĐẦU Với phát triển xã hội thông tin, nhu cầu xử lý liệu để lấy thông tin hữu ích cấp thiết, đặc biệt bối cảnh nay, công nghệ thông tin áp dụng hầu khắp ngành lĩnh vực đời sống Việc kết tinh tri thức từ lượng liệu lớn công việc khai phá liệu, bước tiến trình đó, phân cụm liệu đóng vai trị quan trọng Phân cụm liệu giúp phát nhóm liệu tương đồng, từ làm sở cho nhiều hướng xử lý liệu khác nhận dạng mẫu, phát mối quan hệ thuộc tính, đánh giá phân bố liệu, Đã có nhiều cơng trình nghiên cứu phân cụm liệu suốt thời gian dài từ thập kỷ 30-40, theo hướng khác nhằm giải toán phân cụm Mỗi phương pháp phân cụm có ưu nhược điểm riêng, phù hợp với lớp tốn khác Trong đó, phương pháp phân cụm mờ nghiên cứu phát triển nhằm giải tốn phân cụm mà ranh giới cụm không rõ ràng, liệu thuộc cụm với bậc thành viên khác mối quan hệ tương đồng liệu Khởi đầu từ nghiên cứu Bedek với phương pháp Fuzzy C-Mean tiếng, phân cụm mờ có nhiều phương pháp tiếp cận cải tiến theo hướng khác Luận văn nhằm mục đích tìm hiểu làm sáng tỏ số phương pháp phân cụm mờ điển hình nhằm cung cấp nhìn bao quát phân cụm mờ, sau nghiên cứu phát triển phương pháp cải tiến áp dụng cho tốn cụ thể Phương pháp nghiên cứu tìm hiểu phân tích phương pháp phân cụm mờ có hướng khác nhau, từ phát điểm mạnh điểm yếu phương pháp, qua đề xuất giải pháp mang tính tổng hợp để giải vấn đề phân cụm Phương pháp cải tiến đem thử nghiệm áp dụng vào số toán cụ thể nhằm minh chứng đặc điểm phương pháp Bố cục luận văn trình bày sau: - Chương 1: Cơ sở lý thuyết khai phá liệu, phân cụm phân cụm mờ - Chương 2: Trình bày phương pháp phân cụm mờ cải tiến - Chương 3: Trình bày thử nghiệm, đánh giá phương pháp phân cụm mờ cải tiến áp dụng vào hệ thống thực tế Tác giả xin chân thành cảm ơn quý thầy cô Viện Công nghệ thông tin, Đại học Bách khoa đồng nghiệp trường Đại học Xây dựng có giúp đỡ chun mơn sư động viên suốt trình thực luận văn Đặc biệt, tác giả xin chân thành cảm ơn PGS.TS Trần Đình Khang, người thầy tận tình hướng dẫn, giúp đỡ ý kiến quý báu để tác giả hoàn thành luận văn Hà Nội, tháng năm 2014 Lê Đức Quang CHƯƠNG I: CƠ SỞ LÝ THUYẾT 1.1 Phân cụm liệu 1.1.1 Giới thiệu khai phá liệu: Ta liệt kê số khái niệm khai phá liệu sau: “Khai phá liệu q trình trích xuất khai phá tri thức từ lượng lớn liệu” Jiawei Han, Micheline Kamber, Data Mining:Concept and Technique 2nd (2006) “Khai phá liệu, khoa học máy tính, q trình khám phá hình mẫu hữu ích mối quan hệ lượng lớn liệu” Encyclopedia Britanica Thông qua số phát biểu trên, ta hiểu khai phá liệu coi q trình nhằm khai thác thơng tin có mức trừu tượng cao hơn, tổng quát từ lượng lớn liệu Vậy phải khai phá liệu ? Ngày nay, nhờ phát triển công nghệ mà lượng liệu sinh từ hoạt động kinh doanh, sản xuất, nghiên cứu khoa học hoạt động giao tiếp người thơng qua máy tính điện tử tăng lên nhanh chóng Đặc biệt vài năm trở lại đây, nhờ phát triển mạng xã hội thiết bị di động dẫn tới bùng nổ liệu người dùng cung cấp Người ta ước tính năm 2013 tổng liệu mạng World Wide Web đạt khoảng Zettabytes Tuy nhiên liệu dạng thơ, cần phải có q trình xử lý, phân tích trích xuất đưa thơng tin hữu ích, dễ hiểu cho người dùng, cơng việc khai phá liệu Theo Han-Kamber, khai phá liệu khâu quan trọng trình khám phá tri thức (Knowledge Discovery from Data hay gọi KDD) Quá trình gồm bước : ➢ Làm liệu (Data cleaning): Loại bỏ liệu nhiễu khơng phù hợp ➢ Tích hợp liệu (Data intergration): kết hợp liệu từ nhiều nguồn ➢ Lựa chọn liệu (Data Selection): liệu liên quan đến tác vụ phân tích thu thập từ sở liệu ➢ Biến đối liệu (Data transformation) : liệu biến đổi hợp dạng thích hợp với phương pháp khai phá ➢ Khai phá liệu (Data mining) : tiến trình quan trọng nhất, phương pháp thơng minh áp dụng để trích xuất hình mẫu liệu từ tập liệu ➢ Đánh giá mẫu (Pattern Evalution): nhận dạng mẫu có giá trị biểu diễn tri thức dựa phép đo độ giá trị ➢ Biểu diễn tri thức (Knowledge presentation): tri thức hiển thị cho người dùng nhờ phương pháp biểu diễn trực quan hóa Hinh 1: Khai phá liệu bước trình khai phá tri thức [1] Sử dụng liệu thử nghiệm so sánh thời gian thực phân cụm giải thuật bao gồm: FCM, E-FCM, E-FGK phương pháp cải tiến Kết thu sau: Tên phương pháp Thời gian chạy FCM 30 ms E-FCM 1682 ms E-FGK 36050 ms Phương pháp cải tiến 5190 ms Như vậy, thời gian chạy phương pháp cải tiến chậm so với FCM EFCM nhanh đáng kể so vớ E-FGK Điều dễ hiểu FCM phương pháp phân cụm mờ có tốc độ thực thi nhanh nhất, độ phức tạp tuyến tính Các phương pháp E-FGK E-FCM phương pháp cải tiến từ FCM, nhiên E-FGK sử dụng nhiều phép tính tốn phức tạp nên có tốc độ thực thi chậm Phương pháp cải tiến có nhiều pha xử lý sử dụng phép tính tốn học đơn giản nên có tốc độ thực thi tốt 3.3 Nhận xét: Phương pháp phân cụm mờ cải tiến mà tác giả giới thiệu thực chất phương pháp tổng hợp từ phương pháp phân loại biết Nó sử dụng giải thuật cạnh tranh k-means để phát cụm con, sau sử dụng tư tưởng DBSCAN để liên kết cụm lại dựa cách tính khoảng cách phân cụm phân cấp Cuối cùng, nguyên tắc tính bậc thành viên phương pháp phân cụm mờ FCM hay Diffuzy sử dụng để tính độ thuộc cho tồn tập liệu Điểm bật phương pháp cho phép phát cụm có hình dạng tùy ý dạng điểm lõi điểm mờ Hiện nay, khơng có nhiều phương pháp phân cụm mờ tiếp cận theo hướng Ví dụ phương pháp giới thiệu [14] sử dụng FGK để phát cụm con, sau 67 sử dụng khoảng cách Bhattacharya để gom cụm gần lại Phương pháp phát cụm mờ có hình dạng tùy ý có nhược điếm giống FCM E-FCM, nghĩa phải cho trước số cụm k, khơng phát điểm hồn tồn thuộc cụm Một phương pháp khác phát cụm mờ có hình dạng tùy ý bao gồm điểm “cứng” điểm “mềm” Diffuzy Mặc dù có hiệu phân cụm tốt Diffuzy lại có chi phí tính tốn lớn, thích hợp với liệu nhỏ Phương pháp phân cụm mờ cải tiến sử dụng hai tham số số điểm tối thiểu cụm bán kính cụm Cách chọn hai tham số có ảnh hưởng lớn đến kết phân cụm Cụ thể, tăng số điểm lân cận tối thiểu cụm con, vùng liệu địi hỏi phải có mật độ dày coi cụm lõi, điều làm tăng số điểm mờ giảm số điểm lõi Ngược lại, giảm số điểm lân cận tối thiểu cụm con, khả cụm trở thành cụm lõi tăng lên làm tăng số điểm lõi giảm số điểm mờ Đối với bán kính cụm, việc tăng hay giảm bán kính cụm có ý nghĩa phát vùng liệu lõi có mật độ thưa hay dày Hơn nữa, việc điều chỉnh bán kính cụm làm ảnh hưởng đến khả gom cụng cứng gần nhau, bán kính lớn cụm có khả gom lại thành cụm So sánh hai hình 29 30 ta thấy điểm lõi mở rộng tăng bán kính cụm, dẫn tới số cụm phát thay đổi theo trình gom cụm Ở hỉnh 31 32 ta lại thấy xu hướng ngược lại tăng minPts, điểm lõi bị giảm tăng minPts Như ta thấy rằng, để chọn cặp tham số phù hợp cần phải đặc điểm liệu Nhìn chung, để phát cụm có dạng vệt hay đường giảm minPts tăng bán kính để tăng khả gom cụm Cịn với cụm dạng khổi ta điều chỉnh bán kính cụm minPts để phát vùng liệu có mật độ mong muốn 68 Hinh 31: r=5%, minPts=5 Hinh 32: r=7.5%, minPts=5 Hinh 33: r=5%, minPts=2 Hinh 34: r=5%, minPts=7 Xét độ phức tạp thời gian tính tốn, phương pháp phân cụm mờ cải tiến có tốc độ thực thi tốt có chi phí tính tốn thấp Ở bước phát cụm con, ban đầu giải thuật cạnh tranh phân cụm điểm liệu theo kiểu tăng cường Với điểm liệu xét, ta phải tính độ tương đồng điểm với cụm có 69 dựa khoảng cách điểm với tâm cụm Trong trường hợp tồi nhất, điểm liệu xét tạo cụm số lần phải tính khoảng cách điểm liệu n(n+1)/2 Sau giải thuật k-mean bước có độ phức tạp O(kdln) với k số cụm con, l số bước lặp, m số điểm liệu,d số chiều liệu Với số cụm trường hợp tồi n, số bước lặp l nhỏ kmean hiệu chỉnh lại số điểm chưa xác, ta có độ phức tạp bước O(n2 ) Với bước phân chia cụm rõ cụm mờ, số lần so sánh tương đương với số cụm nên có độ phức tạp tối đa O(n) Với bước gom cụm, độ phức tạp O( n2 ) trường hợp tồi phải tính khoảng cách cặp cụm Với bước mờ hóa, độ phức tạp O(n2 ) phải tính khoảng cách điểm mờ tâm cụm cứng Tóm lại, độ phức tạp phương pháp phân cụm mờ cải tiến trường hợp tồi O( n2 ) cho pha, nhiên sử dụng phép tính tốn có chi phí thấp, số cụm tìm thường nhỏ nhiều so với số điểm liệu nên tốc độ tính tốn phương pháp tốt Dựa kết thử nghiệm, phương pháp phân cụm mờ cải tiến có hiệu tốt với tốn phân cụm địi hỏi tốc độ xử lý nhanh, số chiều không lớn, cụm tìm có hình dạng tùy ý xử lý ảnh, xử lý liệu không gian Giới hạn phương pháp chỗ sử dụng khoảng cách Eclipse nên có hiệu thấp với liệu nhiều chiều, áp dụng cho thuộc tính kiểu số Hơn nữa, việc xác định tham số cho phương pháp không đơn giản, cần vào liệu cần xử lý để cố định tham số, cịn tham số điều chỉnh đề có hiệu phân cụm tốt 3.4 Ứng dụng: Sau đây, tác giả trình bày áp dụng phương pháp phân cụm cải tiến vào ứng dụng thực tế Ứng dụng hệ thống thu thập, xử lý hiển thị liệu đo nhiễm khơng khí đồ trực tuyến Phương pháp phân cụm cải tiến tiến hành bước hiển thị liệu nhằm gom liệu thành cụm tương đồng 70 mặt địa lý giá trị, giúp việc hiển thị dễ hiểu cho người dùng mang tính tổng quát Trước hết, Han-sense[15] hệ thống thu thập xử lý liệu nhiễm khơng khí Hà Nội Hệ thống bao gồm thành phần chính: ● Mạng lưới cảm biến khơng dây: có nhiệm vụ thu thập liệu đo ô nhiễm tuyến phố Các cảm biến di chuyển liên tục, sau khoảng thời gian định (khoảng 10s) lại ghi lại giá trị đo gồm độ đo ô nhiễm khơng khí (khí CO), tọa độ vị trí đo thời gian đo Các giá trị đo ghi vào thẻ nhớ truyền cho trung tâm xử lý ● Trung tâm xử lý: Thu nhận giá trị đo truyền từ cảm biến, loại bỏ giá trị lỗi, chuyển đổi đơn vị đo, tinh chỉnh giá trị đo lưu trữ vào sở liệu Hinh 35: Các thành phần Hansense ● Website hiển thị: hiển thị giá trị đo dạng trực quan đồ trực tuyến, giúp người dùng quan sát tình trạng nhiễm khơng khí khu vực khảo sát Dữ liệu thu gom từ cảm biến, qua trình tiền xử lý có dạng tuple gồm thơng tin vị trí, thời gian giá trị đo Các liệu có đặc điểm sau: 71 • Các điểm liệu phân bố không theo không gian thời gian: hai vùng có số lượng liệu khác khung đo ngược lại, số lượng liệu vùng theo khung khác • Các giá trị bất thường xuất độ ổn định sensor điều kiện ngoại cảnh Trong đó, yêu cầu việc hiển thị ô nhiễm vùng phải độc lập với mật độ liệu đo Ví dụ, vùng có diện tích 100 m2, khoảng 9h-11h ta có giá trị đo, khoảng 17h-19h ta có 20 giá trị đo, lấy độ đo ô nhiễm trung bình vùng theo tất 25 giá trị đo khơng xác ảnh hưởng khung 17h-19h lớn có nhiều liệu Yêu cầu loại bỏ điểm liệu bất thường Đó điểm liệu có giá trị nằm khoảng cho phép khác xa với giá trị đo xung quanh khung Cuối việc hiển thị liệu phải mang tính khái quát Người dùng quan tâm độ đo ô nhiễm vùng định tuyến phố, ngã tư mà không cần biết giá trị đo cụ thể điểm liệu Các yêu cầu đáp ứng nhờ sử dụng phương pháp phân cụm mờ cải tiến nêu phần Cụ thể, ta hình dung trình xử lý liệu nhờ phương pháp phân cụm mờ cải tiến sau: Bước 1: phân chia liệu theo khung thời gian: liệu đo chia thành khung thời gian đo khác ngày giá trị nhiễm có biến đổi lớn đo khung khác 72 Hinh 36: Các giá trị đo lúc 17h-19h (ngày 27/8/2013) Hinh 37: Các giá trị đo lúc 9h-11h (ngày 27/8/2013) Bước 2: phát cụm liệu đo khung thời gian: phương pháp phát cụm giải thuật phân cụm mờ cải tiến, điểm liệu gần không gian giá trị gom lại với theo bán kính cho trước Sau đó, tâm cụm đại diện cho toàn giá trị liệu cụm Như vậy, bước ta không giảm bớt lượng liệu cần hiển thị mà quan trọng hơn, loại bỏ ảnh hưởng vấn đề mật độ liệu Thật vậy, đặc điểm việc phát cụm khoảng cách điểm cụm giới hạn bán kính cho trước, cụm tìm thấy có mật độ khác chúng đại diện cho vùng đo tương đối Như vậy, kết thu tâm cụm nằm rải vùng đo 73 Hinh 38: Các điểm liệu trước gom cụm Hinh 39: Các điểm dư liệu sau gom cụm Bước 3: phân chia cụm lõi cụm mờ Dễ thấy cụm mờ điểm liệu “thiểu số”, có giá trị đo khác với điểm xung quanh Nếu chọn tham số phù hợp, ta quy việc tìm cụm mờ thành việc phát giá trị bất thường để loại bỏ không hiển thị Việc loại bỏ giá trị bất thường 74 quan trọng, điểm mang giá trị bất thường có giá trị lớn nhiều lần so với điểm liệu khác xung quanh nó, nên gây tác động lớn tới kết thống kê hiển thị Mặt khác, giá trị bất thường không dễ xác định khoảng giá trị đo xê dịch phạm vi lớn, ví dụ vùng nhiễm có nồng độ khí CO lớn 20 lần so với vùng khơng nhiễm Do đó, liệu vùng gom cụm lại, điểm bất thường thiểu số dễ dàng bị phát Ở hình dưới, điểm hình tam giác tâm cụm mờ, có giá trị chênh lệch lớn so với tâm cụm rõ xung quanh (biểu thị thang màu): Hinh 40: Các cụm lõi (hình vng màu lớn) cụm mờ (hình tam giác nhỏ) 75 Hinh 41: Các cụm liệu tạo liệu đo từ 1/4 - 1/6/2013 vào lúc 9h-19h Bước 4: gom cụm lõi: cụm lõi gom lại dựa khoảng cách chúng Nếu coi cụm lõi vùng đo nhỏ việc gom cụm tạo thành vùng đo lớn có hình dạng có giá trị đo gần Để đơn giản cho việc hiển thị, liệu cụm có giá trị giá trị trung bình tâm cụm lõi cụm Bước 5: hiển thị: tâm cụm lõi coi điểm liệu tổng hợp, trình bày đồ trực tuyến Quá trình hiển thị sau: vùng đồ hiển thị chia thành mạng lưới ô lục giác, giá trị ô lục giác giá trị tâm ô lục giác Giá trị tâm ô lục giác nội suy từ điểm liệu xung quanh 76 Hinh 42: Độ ô nhiễm vùng biểu thị ô lục giác màu Như vậy, tác dụng phương pháp phân cụm mờ cải tiến thể qua ba chức chính: - Xác định điểm liệu mang tính đại diện cho vùng lấy liệu thời điểm - Loại bỏ điểm liệu bất thường vùng lấy liệu: nhiều sensor đo giá trị vùng thời điểm, ta cần tìm giá trị tin cậy số liệu đo Việc phân cụm mờ giúp xác định điểm liệu tương đương vùng, từ cho giá trị tin cậy cho vùng Kết điểm liệu bất thường bị phát loại bỏ - Đồng giá trị vùng liệu gần nhau: Khi liên kết cụm liệu lại thành cụm lớn lấy giá trị đại diện cho cụm lớn đó, ta phát vùng nhiễm với hình dạng tùy ý hiển thị cách dễ hiểu với người dùng 77 KẾT LUẬN Phân cụm liệu lĩnh vực nghiên cứu rộng lớn, bao gồm trăm giải thuật khác Các khái niệm cụm liệu chưa thống mà phụ thuộc vào lớp tốn cụ thể Do đó, có nhiều phương pháp mơ hình phân cụm phát triển để giải khía cạnh khác tốn phân cụm Trong đó, phương pháp phân cụm mờ nghiên cứu nhằm đáp ứng cho tốn địi hỏi cụm liệu phát có biên giới khơng rõ ràng, liệu thuộc cụm phần, thuộc cụm phần Ở ý nghĩa đó, coi phân cụm mờ mở rộng phân cụm cứng Có nhiều phương pháp phân cụm mờ phát triển cải tiến từ phương pháp phân cụm cứng FCM, hay từ kết hợp lý thuyết từ lĩnh vực khác mạng nơ ron khuếch tán đồ thị Luận văn cố gắng trình bày sơ lược phương pháp phân cụm phổ biến, đặc biệt phương pháp phân cụm mờ, có phân tích khái niệm, hoạt động ưu nhược điểm phương pháp Sau đó, luận văn đề xuất phương pháp phân cụm cải tiến tổng hợp từ số phương pháp phân cụm có nhằm giải lớp toán phân cụm mờ, phân cụm mờ với cụm có hình dạng tùy ý Ưu điểm phương pháp cải tiến có tốc độ thực thi tốt với phép toán đơn giản, hiệu tốt với liệu có số chiều nhỏ thích hợp với liệu dạng không gian Phương pháp phân cụm cài đặt so sánh với số phương pháp phân cụm khác để minh chứng đặc điểm kết phân cụm Đồng thời, phương pháp phân cụm cải tiến thử nghiệm áp dụng thực tế hệ thống thu thập, xử lý hiển thị liệu ô nhiễm khơng khí Hà Nội Tuy nhiên, hạn chế thời gian nguồn tài liệu, nội dung đề tài đề cập tới số giải thuật phổ biến, chưa thể bao quát hết hướng nghiên cứu giải thuật phân cụm mờ Phương pháp đưa tương đối đơn giản cần bổ sung hoàn thiện thêm Do vậy, luận văn chắn 78 cịn nhiều thiếu sót, tác mong nhận ý kiên đóng góp phản hồi để hoàn thiện hiểu biết 79 TÀI LIỆU THAM KHẢO [1] Jiawei Han, Micheline Kamber, Data Mining:Concept and Technique nd (2006) [2] James C Bezdek, Robert Ehrlich,William Full FCM: THE FUZZY c-MEANS CLUSTERING ALGORITHM [3]R Babuˇska, Improved Covariance Estimation for Gustafson-Kessel Clustering [4] M.-S YANG, A Survey of Fuzzy Clustering [5] Uzay Kaymak, Magne Setnes, Extended Fuzzy Clustering Algorithms, 2000 [6] Ornella Cominetti, Anastasios Matzavinos, Sandhya Samarasinghe,Don Kulasiri, Sijia Liu, Philip K Maini, and Radek Erban, DifFUZZY: A fuzzy clustering algorithm for complex data sets [7] Juha Vesanto and Esa Alhonemi, Clusterign of Self-Organizing Maps, IEEE TRANSACTIONS ON NEURAL NETWORKS, VOL 11, NO 3, MAY 2000 [8]Tsao, Eric Chen-Kuo, James C Bezdek, and Nikhil R Pal "Fuzzy Kohonen clustering networks." Pattern recognition 27.5 (1994): 757-764 [9] Frank, Thomas, K-F Kraiss, and Torsten Kuhlen "Comparative analysis of fuzzy ART and ART-2A network clustering performance."Neural Networks, IEEE Transactions on 9.3 (1998): 544-559 [10]Carpenter, Gail A., Stephen Grossberg, and David B Rosen "Fuzzy ART: Fast stable learning and categorization of analog patterns by an adaptive resonance system." Neural networks 4.6 (1991): 759-771 [11] Eng Yeow Cheu, Chee Keong Kwoh, Zonglin Zhou,On the Two-level Hybrid Clustering Algorithm [12]Su, Mu-chun, and Yi-chun Liu "A new approach to clustering data with arbitrary shapes." pattern recognition 38.11 (2005): 1887-1901 [13]Manhua Liu,∗, XudongJiang, AlexC.Kot, A multi-prototype clustering algorithm 2009 [14]Baghshah, Mahdieh Soleymani, and Saeed Bagheri Shouraki "A fuzzy clustering algorithm for finding arbitrary shaped clusters." Computer Systtems and Applications, 2008 AICCSA 2008 IEEE/ACS International Conference on IEEE, 2008 [15]Hoang, Dang Hai, Thorsten Strufe, Quang Duc Le, Phong Thanh Bui, Thieu Nga Pham, Nguyet Thi Thai, Thuy Duong Le, and Immanuel Schweizer "Processing and visualizing traffic pollution data in Hanoi City from a wireless sensor network." In Local Computer Networks Workshops (LCN Workshops), 2013 IEEE 38th Conference on, pp 4855 IEEE, 2013 [16] Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, From Data Mining to Knowledge Discovery in Databases,, American Association for Artificial Intelligence (1996), 37-54 [17]A.Baradhi, P.Blonda, A survey of fuzzy clustering algorithms for pattern recognitiion, tr-98-038, 1998, International computer science institute 80 PHỤ LỤC 81 ... dy(i,j) dz(i,j) Việc phân cụm nơ-ron SOM áp dụng phương pháp phân cụm biết phân cụm phân cấp, phân cụm phân hoạch hay phương pháp phân cụm mờ Nhược điểm phương pháp thân SOM phương pháp dạng heurestic,... Dựa kết phân cụm, ta chia phương pháp phân cụm thành 26 hai loại: phân cụm rõ (phân cụm cứng) phân cụm mờ (phân cụm mềm) Trong phân cụm rõ, đối tượng liệu thuộc cụm liệu Điều có nghĩa cụm có ranh... liệu 14 1.1.2.3 Các phương pháp phân cụm liệu 14 1.2 Phân cụm mờ 26 1.2.1 Giới thiệu phân cụm mờ 26 1.2.2 Các phương pháp phân cụm mờ 28 1.2.1.1 Thuật