Tập thô và bài toán phân cụm

1 Tập thô và bài toán phân cụm NXB H. : ĐHCN, 2014 Số trang 68 tr. + Vũ Thị Bích Thảo Đại học Công nghệ Luận văn ThS ngành: Hệ thống thông tin; Mã số: 60480104 Người hướng dẫn: PGS.TS Hoàng Xuân Huấn Năm bảo vệ: 2014 Keywords: Cơ sở dữ liệu; Hệ thống thông tin; Phân cụm dữ liệu; Tập thô Content Phân cụm dữ liệu là một kỹ thuật quan trọng trong công nghệ tri thức, nó được ứng dụng rộng rãi và đa dạng trong các ngành khoa học như sinh học, tâm lý học, y học, ngành marketing, thị giác máy tính, và điều kiển học v.v. Phân cụm dữ liệu tổ chức dữ liệu bằng cách nhóm các đối tượng có độ tương đồng cao vào một cụm, các đối tượng thuộc các cụm khác nhau có độ tương đồng thấp hơn so với các đối tượng trong cùng một cụm. Tùy theo đặc điểm cấu trúc của tập dữ liệu và mục đích sử dụng, có các phương pháp giải quyết khác nhau như: Phân cụm dựa vào hàm mục tiêu, phân cụm phân cấp, phân cụm dựa vào mật độ và phân cụm dựa vào lưới. Thông thường, thông tin về thế giới xung quanh là không chính xác, không đầy đủ, không chắc chắn hoặc chồng chéo. Đó cũng là vấn đề gặp phải khi phân cụm dữ liệu. Phân cụm được chia làm hai loại phân cụm là phân cụm cứng và phân cụm mềm. Trong phân cụm cứng đối tượng được phân thành các cụm khác nhau, mỗi đối tượng thuộc về chính xác một cụm, ngược lại ở phân cụm mềm các đối tượng có thể thuộc về nhiều hơn một cụm và mỗi đối tượng có độ thuộc với cụm. Cụ thể trong luận văn, tôi sẽ nghiên cứu các thuật toán phân cụm trong cả hai loại phân cụm này: Phân cụm thô (phân cụm cứng) và phân cụm mờ (phân cụm mềm). Ngoài ra tôi cũng nghiên cứu thêm về 2 thuật toán kết hợp từ hai loại phân cụm trên là phân cụm thô mờ và phân cụm bóng. Năm 1965, giáo sư Lotfi A. Zadeh (Đại học California ở Berkeley) đề xuất lý thuyết tập mờ (fuzzy set), là phần mở rộng của lý thuyết tập hợp truyền thống. Ý tưởng chính của lý thuyết tập mờ là các phần tử của tập có độ thuộc trong khoảng [0,1] thay vì giá trị nhị phân. Nó là công cụ mô hình hóa sự không chắc chắn, không rõ ràng trong hệ thống phức tạp. Trong phân cụm mờ, thuật toán thường được sử dụng nhất là Fuzzy C-Means (FCM) được đề xuất vào năm 1973 bởi J.C Dunn và được cải tiến lại bởi Bezděk vào năm 1981. FCM thường được sử dụng để xử lý trường hợp các cụm chồng chéo nhau, tức là một số đối tượng có thể thuộc về nhiều hơn một cụm. Trong đó, mỗi một đối tượng có độ thuộc khác nhau đối với các cụm, chứ không hoàn toàn chỉ thuộc về một cụm được biểu diễn qua ma trận phân hoạch. FCM sử dụng giá trị trung bình (mean) độ thuộc của các đối tượng trong ma trận phân hoạch làm tâm cụm. Các bước trong thuật toán là quá trình thực hiện cập nhật các đối tượng của cụm và ma trận phân hoạch. Thuật toán chi tiết sẽ được trình bày cụ thể trong luận văn. Đến năm 1982, Zdzislaw Pawlak đề xuất ra lý thuyết tập thô với mục đích là để phân loại thông tin và tri thức không chính xác hoặc không đầy đủ. Khái niệm cơ bản của lý thuyết tập thô là xấp xỉ trên và xấp xỉ dưới của một tập dữ liệu. Xấp xỉ dưới bao gồm những đối tượng chắc chắn thuộc về cụm, trong khi xấp xỉ trên bao gồm những đối tượng có thể được phân lớp là thành viên 2 không chắc chắn của cụm. Mỗi tập được xác định thông qua xấp xỉ trên và xấp xỉ dưới được gọi là tập thô. Trong khuôn khổ luận văn, tôi tìm hiểu và trình bày cụ thể thuật toán Rough C-Means (RCM). Thuật toán RCM được Lingras và West đề xuất năm 2004 [4]. Trong đó, mỗi cụm có vùng xấp xỉ trên và vùng xấp xỉ dưới của riêng mình. Việc xác định cụm phụ thuộc vào hai vùng xấp xỉ, không phải tất cả các đối tượng như trong FCM. Cụ thể, nếu như FCM xác định cụm dựa vào độ thuộc của đối tượng vào cụm thì RCM lựa chọn cụm bằng cách so sánh khoảng cách từ đối tượng tới tâm cụm so với một ngưỡng mà người dùng tự chọn. Tất cả các đối tượng được chia vào ba vùng, cụ thể là, vùng lõi (Core level), vùng biên (Boundary level) và vùng loại trừ (Exclusion level). Các đối tượng nằm ở vùng lõi chắc chắn thuộc về cụm. Các đối tượng ở vùng biên có thể thuộc về cụm. Các đối tượng khác thuộc phạm vi vùng loại trừ không thuộc cụm. Ngoài ra, trong luận văn tôi trình bày chi tiết hai thuật toán nữa là phân cụm thô-mờ, phân cụm bóng tương ứng là Rough Fuzzy C-Means (RFCM) và Shadowed C –Means (SCM). RFCM là thuật toán kết hợp từ FCM và RCM, trong đó cách xác định cụm của RFCM giống như RCM là dựa vào hai vùng xấp xỉ trên và xấp xỉ dưới. Tuy nhiên cách xác định các vùng xấp xỉ này không dựa vào khoảng cách từ các đối tượng tới tâm mà dựa vào độ thuộc của phần tử đối với cụm giống như FCM. Thuật toán này giúp cho việc phân cụm mạnh hơn so với hai thuật toán phân cụm trước. Đối với SCM, các đối tượng cũng được chia vào ba vùng tương tự như trong RCM nhưng tên gọi và cách xác định mỗi vùng là khác nhau. Ba vùng lõi, vùng biên và vùng loại trừ trong lý thuyết tập thô tương ứng với ba giá trị logic 0,1, và [0,1] trong tập bóng, cụ thể, lõi (Core), loại trừ (Exclusion), bóng (shadow). Ngoài ra, SCM tạo ra sự khác biệt với FCM là nó tăng độ thuộc của một số phần tử tới 1 và giảm độ thuộc của một số phần tử khác về 0 để làm tăng sự tương phản của các phần tử nhằm làm giảm sự chồng chéo không chắc chắn như ở trong FCM. Theo khía cạnh này, tập bóng có thể được coi là cầu nối giữa tập mờ và thô. Hiện nay phân cụm ảnh là một vấn đề đang nhận được nhiều sự quan tâm từ các nhà nghiên cứu. Mục đích là để đơn giản hóa hoặc làm nổi bật một số đối tượng nhằm dễ dàng hơn trong việc phân tích hình ảnh. Để phân cụm ảnh, phải chuyển các điểm màu của ảnh sang hệ màu xám với giá trị từ 0 đến 255 sau đó áp dụng thuật toán phân cụm. Trước đây, FCM được sử dụng nhiều trong phân cụm ảnh và nó được ứng dụng trong nhiều lĩnh vực khác nhau như phân tích hình ảnh y tế, phát hiện các đối tượng,… Trong cuốn luận văn này, tôi đã nghiên cứu và áp dụng RCM cho phân cụm ảnh, từ đó so sánh sự khác biệt so với phân cụm ảnh sử dụng FCM. Luận văn của tôi được chia làm 4 chương với nội dung như sau: Chương 1: Tổng quan về phân cụm dữ liệu. Giới thiệu về phân cụm dữ liệu và các phương pháp phân cụm với mỗi phương pháp trình bày một thuật toán tương ứng. Chương 2: Lý thuyết tập thô. Trình bày tổng quan về lý thuyết tập thô bao gồm hệ thông tin, hệ quyết định, tính không phân biệt được và xấp xỉ tập hợp. Chương 3: Tập thô và bài toán phân cụm. Giới thiệu các thuật toán phân cụm: Phân cụm thô, phân cụm mờ, phân cụm thô-mờ, phân cụm bóng, các bước phân cụm và công thức chi tiết của từng thuật toán. Chương 4: Ứng dụng RCM trong phân cụm ảnh. Xây dựng phân cụm ảnh bằng RCM, đưa ra kết quả phân cụm, đánh giá và so sánh với phân cụm ảnh bằng FCM. References [1] Anil K. Jain,Richard C. Dubes, Algorithms for Clustering Data, 1988 [2] J.C. Bezdek, Pattern Recognition With Fuzzy Objective Function Algorithms, Kluwer Academic Publishers, Norwell, MA, USA, 1981 [3] Z.Pawlak, Rough sets, International Journal of Information and Computer 3 Science 11 (1982) [4] P.Lingras, C.West, Interval set clustering of web users with rough k-means, Journal of Intelligent Information System 23 (2004) [5] S.Mitra, H.Banka, W.Pedrycz, Rough-fuzzy collaborative clustering, IEEE Transaction on System, Man, and Cybernetics (Part B) (2006) [6] P.Maji, S.K.Pal, Rough set based generalized fuzzy c-means algorithm and quantitative indices, IEEE Transaction on Systems, Man, and Cybernetics (2007) [7] W.Pedrycz, Shadowed sets: representing and processing fuzzy sets IEEE Transactions on Systems, Man, and Cybernetics (Part B) (1998) [8] S.Mitra, W.Pedrycz, B.Barman, Shadowed c-means: intergrating fuzzy and rough clustering, Pattern Recognition 43 (2010) [9] Z.Pawlak, Rough Sets, Theoretical Aspects of Reasoning about Data, Kluwer Academic, Dordrech, 1991 [10] W.Predycz, Shadowed sets: representing and processing fuzzy sets, IEEE Transactions on Systems, Man, and Cybernetics-Part B: Cybernetics 28 (1998) [11] P.Maji, S.K.Pal, Rough-Fuzzy C-Means Algorithm, Fundamental Informaticae 80, (2007) 475-496 [12] Juraj Horvath, Image Segmentation Using Fuzzy C-Means, IEEE International Conference on Computational Cybernetics ICCC, 2004 [13] Yang, Huang, Imgage segmentation by Fuzzy C-Means clustering algorithms, Computing and Informatics, Vol. 26, 2007, 17–31 . Tập thô và bài toán phân cụm. Giới thiệu các thuật toán phân cụm: Phân cụm thô, phân cụm mờ, phân cụm thô- mờ, phân cụm bóng, các bước phân cụm và công thức chi tiết của từng thuật toán. Chương. cụm này: Phân cụm thô (phân cụm cứng) và phân cụm mờ (phân cụm mềm). Ngoài ra tôi cũng nghiên cứu thêm về 2 thuật toán kết hợp từ hai loại phân cụm trên là phân cụm thô mờ và phân cụm bóng cụm. Tùy theo đặc điểm cấu trúc của tập dữ liệu và mục đích sử dụng, có các phương pháp giải quyết khác nhau như: Phân cụm dựa vào hàm mục tiêu, phân cụm phân cấp, phân cụm dựa vào mật độ và

Định dạng
Số trang	3
Dung lượng	101,82 KB