Tiếp cận mờ trong phân cụm dữ liệu

Phương pháp phân cụm dữ liệu truyền thống PCDL rõ chia một tập dữ liệu ban đầu thành các cụm dữ liệu và mỗi đối tượng chỉ thuộc về một cụm.. Nhưng trong thực tế ranh giới giữa các cụm th

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN TRUNG ĐỨC

TIẾP CẬN MỜ TRONG PHÂN CỤM DỮ LIỆU

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội, 2013

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN TRUNG ĐỨC

TIẾP CẬN MỜ TRONG PHÂN CỤM DỮ LIỆU

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60 48 05

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hoàng Xuân Huấn

Hà Nội, 2013

Trang 3

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT 3

DANH MỤC CÁC HÌNH VẼ 4

DANH MỤC CÁC BẢNG BIỂU 6

MỞ ĐẦU 7

CHƯƠNG I: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 9

1.1 Phân cụm dữ liệu là gì 9

1.2 Thế nào là phân cụm tốt 10

1.3 Các ứng dụng của phân cụm dữ liệu 11

1.4 Các phương pháp phân cụm dữ liệu thông thường 13

1.4.1 Phương pháp phân cụm phân hoạch 13

1.4.2 Phương pháp phân cụm phân cấp 14

1.4.3 Phương pháp phân cụm dựa trên mật độ 16

1.4.4 Phương pháp phân cụm dựa trên lưới 17

1.5 Một số chủ đề liên quan 19

CHƯƠNG II: PHÂN CỤM DỮ LIỆU MỜ 20

2.1 Một số khái niệm cơ sở của lý thuyết tập mờ 20

2.1.1 Khái niệm về tập mờ 20

2.1.2 Các dạng hàm liên thuộc của tập mờ 22

2.1.3 Các thông số đặc trưng cho tập mờ 23

2.2 Phân cụm rõ – phân cụm mờ 24

2.2.1 Phân cụm rõ 24

2.2.2 Phân cụm mờ 24

2.3 Một số thuật toán phân cụm dữ liệu mờ 27

2.3.1 Thuật toán phân cụm C-means mờ 27

2.3.2 Thuật toán Gustafson-Kessel 30

CHƯƠNG III: SỐ CỤM VÀ CHỈ SỐ ĐÁNH GIÁ 33

3.1 Vấn đề ước lượng số cụm 33

3.2 Quá trình ước lượng số cụm tối ưu 34

3.3 Một số chỉ số đánh giá điển hình cho phân cụm mờ 35

3.3.1 Chỉ số hệ số phân hoạch và entropy phân hoạch 35

3.3.2 Chỉ số MPC 36

3.3.3 Chỉ số XB 36

Trang 4

3.3.4 Chỉ số K 37

3.3.5 Chỉ số PCAES 38

3.3.6 Chỉ số CO 39

CHƯƠNG IV: MỘT CHỈ SỐ ĐÁNH GIÁ SỐ CỤM MỚI CHO PHÂN CỤM MỜ 41

4.1 Nhận xét 41

4.2 Chỉ số đánh giá mới 42

4.3 Kết quả thực nghiệm 43

4.3.1 Các tập dữ liệu 43

4.3.2 Các kết quả thu được 45

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 58

TÀI LIỆU THAM KHẢO 59

Trang 5

DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT

DBSCAN Density – Based Spatial Clustering of Applications with Noise FCM Fuzzy c-means

STING STatistical INformation Grid approach

UPGMA Un-weighted Pair-Group Method using Arithmetic averages 𝜀FCM 𝜀-Insensitive Fuzzy C-means

Trang 6

DANH MỤC CÁC HÌNH VẼ

Hình 1.1: Mô phỏng vấn đề phân cụm dữ liệu 9

Hình 1.2: Các bước của quá trình phân cụm dữ liệu 10

Hình 1.3: Tiêu chuẩn phân cụm 11

Hình 1.4: Phân cụm tập S = {a, b, c, d, e} theo phương pháp “dưới lên” 15

Hình 1.5: Hai cụm được tìm bởi thuật toán DBSCAN 17

Hình 1.6: Hai cụm dữ liệu có thể tìm được nhờ DBSCAN 17

Hình 1.7: Ba tầng liên tiếp nhau của cấu trúc STING 18

Hình 2.1: Biểu diễn tập nhiệt độ “NÓNG” 21

Hình 2.2: Biểu diễn các tập mờ “Trẻ ”, “Trung niên”, “Già” 22

Hình 2.3: Đồ thị hàm liên thuộc hình tam giác 23

Hình 2.4: Đồ thị hàm liên thuộc hình thang 23

Hình 2.5: Độ cao, miền xác định, miền tin cậy của tập mờ 24

Hình 2.6: Tập dữ liệu “butterfly” 25

Hình 2.7: Kết quả phân cụm rõ tập dữ liệu butterfly 26

Hình 2.8: Hai cụm mờ của tập dữ liệu butterfly 26

Hình 2.9: Các chuẩn khoảng cách khác nhau sử dụng trong phân cụm mờ 30

Hình 2.10: Kết quả phân cụm tập dữ liệu các cụm khác nhau về hình dáng bởi thuật toán FCM và GK 32

Hình 3.1: Phân cụm tập dữ liệu với số lượng cụm khác nhau 33

Hình 3.2: (a) Tập dữ liệu gồm 3 cụm, (b) kết quả phân cụm bởi thuật toán FCM với số cụm là 4 34

Hình 3.3: Quá trình ước lượng số cụm tối ưu 35

Hình 3.4: Kết quả phân cụm và giá trị chỉ số PCAES với các số cụm khác nhau 39

Hình 4.1: Hai cụm A, B có cùng số phần tử, phân phối giống nhau nhưng kích thước, mất độ khác nhau 41

Hình 4.2: Ba cụm A, B, C với tâm cụm biểu thị là hình chữ nhật nhỏ 42

Hình 4.3: Mô tả các tập dữ liệu nhân tạo 45

Hình 4.4: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Sep_8 46

Hình 4.5: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Over_5 47

Hình 4.6: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Over_3 49

Hình 4.7: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Over_4 51

Hình 4.8: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Difzd_3 51

Hình 4.9: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Difz_3 52

Trang 7

Hình 4.10: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Iris 53 Hình 4.11: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Seeds 54 Hình 4.12: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Pima Indians Diabetes 56

Trang 8

DANH MỤC CÁC BẢNG BIỂU

Bảng 1: Giá trị hàm liên thuộc của tập dữ liệu Butterfly bởi thuật toán k-means và

c-means mờ 27

Bảng 2: Mô tả các tập dữ liệu nhân tạo 44

Bảng 3: Giá trị của các chỉ số với tập dữ liệu Sep_8 45

Bảng 4: Giá trị của các chỉ số với tập dữ liệu Over_5 46

Bảng 7: Giá trị của các chỉ số với tập dữ liệu Difzd_3 51

Bảng 8: Giá trị của các chỉ số với tập dữ liệu Difz_3 52

Bảng 9: Giá trị của các chỉ số với tập dữ liệu Iris 53

Bảng 10: Giá trị của các chỉ số với tập dữ liệu Seeds 54

Bảng 11: Giá trị của các chỉ số với tập dữ liệu Pima Indians Diabetes 55 Bảng 12: Giá trị số lượng cụm tối ưu 𝑐 ∗ mà các chỉ số xác định cho các tập dữ liệu 56

Trang 9

MỞ ĐẦU

Phân cụm dữ liệu là bài toán thuộc vào lĩnh vực học máy không giám sát và đang được ứng dụng rộng rãi để khai thác thông tin từ dữ liệu Nó có nhiệm vụ tổ chức một tập các đối tượng dữ liệu thành các cụm sao cho những đối tượng trong cùng một cụm thì “tương tự” nhau trong khi các đối tượng trong các cụm khác nhau thì “kém tương tự” nhau

Phương pháp phân cụm dữ liệu truyền thống (PCDL rõ) chia một tập dữ liệu ban đầu thành các cụm dữ liệu và mỗi đối tượng chỉ thuộc về một cụm Nhưng trong thực

tế ranh giới giữa các cụm thường không rõ ràng, một đối tượng dữ liệu có thể thuộc về nhiều cụm khác nhau, do đó phương pháp này không mô tả được dữ liệu thực Để tăng hiệu quả và tính chính xác cho kết quả phân cụm, người ta đã áp dụng lý thuyết tập mờ vào việc phân cụm dữ liệu xây dựng lên phương pháp phân cụm dữ liệu mờ

Hiện nay, phân cụm dữ liệu mờ vẫn là bài toán đang được nhiều người quan tâm nghiên cứu và ứng dụng thành công trong nhiều lĩnh vực: nghiên cứu thị trường, nhận dạng, xử lý ảnh, tìm kiếm thông tin… Các thuật toán phân cụm mờ rất đa dạng như: C-means mờ (FCM), Gustafson-Kessel (GK), Gath-Geva (GG), Fuzzy Possibilistic C-Means (FPCM), 𝜀-Insensitive Fuzzy C-means (𝜀FCM), Tuy nhiên, trong các thuật toán, thường yêu cầu người dùng xác định trước số lượng cụm Số cụm là một tham số quan trọng và ảnh hưởng nhiều tới kết quả của quá trình phân cụm, ứng với số lượng cụm khác nhau sẽ cho ra các kết quả phân cụm khác nhau, thật khó khăn để quyết định kết quả phân cụm nào là tốt nhất hay số lượng cụm tối ưu là gì?

Luận văn này trình bày khảo cứu của tác giả về tiếp cận phân cụm mờ Đặc biệt, đi sâu vào kỹ thuật đánh giá, ước lượng số cụm nhờ hàm chỉ số Trên cơ sở đó,

đề xuất một chỉ số đánh giá số cụm mới nhờ kết hợp ưu điểm của chỉ độ nén (compactness) trong [8,16] và độ chồng nhau (overlap) trong [17,29] Ưu điểm nổi trội của chỉ số mới thể hiện qua kết quả thực nghiệm trên nhiều bộ dữ liệu thực và nhân tạo khi so sánh với các chỉ số điển hình hiện có

Ngoài phần kết luận, cấu trúc nội dung của luận văn bao gồm 4 chương:

Chương 1: Tổng quan về phân cụm dữ liệu

Chương 1 tập trung trình bày tổng quan về PCDL, đây là một hướng tiếp cận trong Data Mining Trong đó đi sâu phân tích chi tiết các vấn đề cơ bản: khái niệm PCDL và ý nghĩa của nó trong thực tiễn; trình bày một số phương pháp PCDL và giải thuật điển hình của mỗi phương pháp phân cụm

Chương 2: Phân cụm dữ liệu mờ

Để làm rõ hơn kỹ thuật PCDL mờ, chương 2 trình bày một số khái niệm cơ bản của lý thuyết tập mờ; phân tích kỹ thuật phân cụm rõ và phân cụm mờ, trình bày hai

Trang 10

thuật toán phân cụm mờ điển hình: C-means mờ (viết tắt là FCM) và mở rộng của nó

là thuật toán Gustafson-Kessel (viết tắt là GK)

Chương 3: Số cụm và chỉ số đánh giá

Trong chương 3, luận văn đặc tả vấn đề ước lượng số cụm trong bài toán phân cụm Phân tích một số hàm chỉ số thông dụng để đánh giá chất lượng phân hoạch được tạo ra bởi các thuật toán phân cụm mờ, nhờ đó xác định số cụm tối ưu cho tập dữ liệu được xét

Chương 4: Một chỉ số đánh giá số cụm mới cho phân cụm mờ

Chương 4, luận văn đề xuất một chỉ số đánh giá số cụm mới nhờ kết hợp độ nén

và độ chồng nhau của các cụm Tiến hành thực nghiệm trên nhiều bộ dữ liệu nhân tạo

và bộ dữ liệu thực đã cho thấy ưu điểm nổi trội của chỉ số mới so với các chỉ số điển hình hiện có trong quá trình tìm kiếm số cụm tối ưu cho một tập dữ liệu

Trang 11

CHƯƠNG I TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU

1.1 Phân cụm dữ liệu là gì

Một trong những bài toán quan trọng trong lĩnh vực khai phá dữ liệu (data mining) là bài toán phân cụm Ở một mức cơ bản, ta có thể định nghĩa phân cụm dữ liệu như sau: [13]

Phân cụm dữ liệu (PCDL) là quá trình phân chia một tập dữ liệu ban đầu thành

các cụm dữ liệu sao các phần tử trong cùng một cụm thì “tương tự” nhau và các phần

tử trong các cụm khác nhau thì “kém tương tự” nhau

Số các cụm dữ liệu được phân ở đây có thể được xác định trước hoặc có thể được

tự động xác định theo phương pháp phân cụm

Hình 1.1: Mô phỏng vấn đề phân cụm dữ liệu

Trong học máy, PCDL được xem là vấn đề học không có giám sát (unsupervised learning), vì nó phải giải quyết vấn đề tìm một cấu trúc trong tập hợp dữ liệu chưa biết trước các thông tin về cụm hay các thông tin về tập huấn luyện mà chỉ đơn thuần dựa vào tính tương đồng của các đối tượng dữ liệu Trong nhiều trường hợp, nếu phân lớp được xem là vấn đề học có giám sát thì PCDL là một bước trong phân lớp dữ liệu, nó

sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm dữ liệu [2,6,13]

Với một tập dữ liệu, quá trình phân cụm có thể cho ra nhiều kết quả khác nhau tùy thuộc vào tiêu chí cụ thể được sử dụng để phân cụm Các bước cơ bản của quá trình phân cụm được thể hiện trong hình 1.2 và được tóm tắt như sau:[15,19]

Lựa chọn đặc trưng (Feature selection): các đặc trưng phải được lựa chọn một

cách hợp lý để có thể “mã hóa” nhiều thông tin nhất liên quan đến nhiệm vụ mà chúng

ta quan tâm Mục tiêu chính là giảm thiểu dư thừa thông tin giữa các đặc trưng Do đó, tiền xử lý dữ liệu là một nhiệm vụ quan trọng trước khi tiến hành các bước sau

Trang 12

Lựa chọn thuật toán phân cụm (clustering algorithm selection): cần lựa chọn một

sơ đồ thuật toán riêng biệt nhằm làm sáng tỏ cấu trúc của tập dữ liệu

Đánh giá kết quả phân cụm (validation of results): Khi đã có kết quả phân cụm

thì ta phải kiểm tra tính đúng đắn của nó Với cùng một tập dữ liệu, những cách tiếp cận khác nhau thường dẫn tới các kết quả phân cụm khác nhau và ngay cả cùng một thuật toán với các tham số đầu vào khác nhau cũng cho ra các kết quả khác nhau Vì vậy, các tiêu chuẩn và tiêu chí để đánh giá kết quả phân cụm là rất quan trọng Nó cung cấp cho người dùng mức độ tin cậy của các kết quả mà thuật toán phân cụm thực hiện

Giải thích kết quả (interpretation of results): Mục tiêu cuối cùng của việc phân

cụm là cung cấp cho người sử dụng những hiểu biết ý nghĩa từ dữ liệu gốc Các chuyên gia phải giải thích những phân vùng dữ liệu thu được Trong nhiều trường hợp, các chuyên gia trong các lĩnh vực ứng dụng phải tích hợp các kết quả phân cụm với các bằng chứng thực nghiệm khác và phân tích để rút ra những kết luận đúng

Hình 1.2: Các bước của quá trình phân cụm dữ liệu

Một phương pháp phân cụm tốt sẽ sinh ra các cụm có chất lượng cao, trong đó:

- Mức độ tương tự giữa các đối tượng trong cùng một cụm là cao;

- Mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là thấp

Dữ liệu thô

Dữ liệu cho

xử lý

Kết quả phân cụm

Các cụm cuối cùng

Tri thức Lựa chọn

đặc trưng

Thuật toán phân cụm

Đánh giá cụm

Giải thích kết quả

Trang 13

Hình 1.3: Tiêu chuẩn phân cụm

Chất lượng của kết quả phân cụm phụ thuộc vào cả độ đo tương tự được sử dụng

và cách thức thực hiện

Chất lượng của phương pháp phân cụm cũng được đánh giá bởi khả năng phát hiện các mẫu tiềm ẩn (hidden patterns)

Các yêu cầu của phân cụm trong khai phá dữ liệu:[6,13]

Việc xây dựng và lựa chọn một thuật toán phân cụm là bước then chốt cho việc giải quyết vấn đề phân cụm, sự lựa chọn này phụ thuộc vào đặc tính dữ liệu cần phân cụm, mục đích của ứng dụng thực tế hoặc xác định độ ưu tiên giữa chất lượng của các cụm hay tốc độ thực hiện thuật toán,

Hầu hết các nghiên cứu và phát triển thuật toán PCDL đều nhằm thỏa mãn các yêu cầu cơ bản sau:

- Có tính mở rộng ;

- Thích nghi với các kiểu dữ liệu khác nhau;

- Khám phá ra các cụm với hình dạng bất kỳ;

- Tối thiểu lượng tri thức cần cho xác định các tham số vào;

- Thích nghi với dữ liệu nhiễu;

- Ít nhạy cảm với các tham số đầu vào;

- Có khả năng phân cụm với dữ liều có số chiều cao;

- Dễ hiểu, cài đặt và khả dụng

1.3 Các ứng dụng của phân cụm dữ liệu

Phân cụm dữ liệu là một trong những công cụ chính được ứng dụng trong nhiều lĩnh vực Một số ứng dụng của phân cụm [2,5,19] như:

Xử lý dữ liệu lớn: việc khám phá tri thức trong các cơ sở dữ liệu thường phải xử

lý khối lượng dữ liệu rất lớn, nhiều khi ngay cả các thuật toán với độ phức tạp tính toán là đa thức cũng không dùng được Do đó, việc phân và xử lý theo các cụm là một giải pháp hữu hiệu

Tạo giả thuyết: phân tích cụm được sử dụng để suy ra một số giả thuyết liên quan

đến dữ liệu Ví dụ: dựa trên tuổi tác và thời điểm mua hàng, chúng ta có thể tìm thấy

Cực tiểu hóa khoảng

cách bên trong cụm

Cực đại hóa khoảng cách giữa các cụm

Trang 14

trong một cơ sở dữ liệu bán lẻ có hai nhóm khách hàng quan trọng Sau đó, chúng ta

có thể suy ra một số giả thuyết cho dữ liệu là: "những người trẻ tuổi đi mua sắm vào buổi tối", "người già đi mua sắm vào buổi sáng"

Kiểm định giả thuyết: Trong trường hợp này, phân tích cụm được sử dụng cho

việc xác minh tính hợp lệ của một giả thuyết cụ thể Ví dụ, chúng ta xem xét giả thuyết

như sau: "Những người trẻ tuổi đi mua sắm vào buổi tối" Một cách để xác minh điều

này là áp dụng phân tích cụm cho một tập đại diện các cửa hàng Giả sử rằng mỗi cửa hàng được đặc trưng bởi các chi tiết của khách hàng (tuổi tác, công việc, …) và thời

điểm giao dịch Nếu sau khi áp dụng phân tích cụm, một cụm tương ứng với "những người trẻ mua sắm vào buổi tối" được tạo thành thì giả thuyết ban đầu đã được chứng

minh là hợp lệ

Cụ thể, các kỹ thuật phân cụm dữ liệu đã được áp dụng cho một số ứng dụng điển hình trong các lĩnh vực sau:

Thương mại: Trong thương mại, phân cụm dữ liệu có thể giúp các nhà tiếp thị

khám phá ra các nhóm khách hàng quan trọng có các đặc trưng tương đồng nhau và đặc tả họ từ các mẫu mua bán trong cơ sở dữ liệu khách hàng

Sinh học: Trong sinh học, phân cụm dữ liệu được sử dụng để xác định các loài

sinh vật, phân loại Gen với chức năng tương đồng và thu được những hiểu biết bên trong những cấu trúc của quần thể

Phân tích dữ liệu không gian: Do một lượng lớn dữ liệu không gian có thể thu

được từ các hình ảnh vệ tinh, thiết bị y tế, hệ thống thông tin địa lý (GIS), cơ sở dữ liệu hình ảnh thăm dò,… làm cho người dùng tốn kém và khó khăn để kiểm tra các dữ liệu không gian một cách cụ thể Phân cụm dữ liệu có thể giúp người dùng tự động phân tích và xử lý các dữ liệu không gian Nó được sử dụng để nhận dạng, trích xuất các đặc tính hoặc các mẫu dữ liệu quan tâm có thể tồn tại trong cơ sở dữ liệu không gian lớn

Khai phá Web (Web mining): phân cụm dữ liệu có thể khám phá các nhóm tài

liệu quan trọng, có nhiều ý nghĩa trong môi trường web Các lớp tài liệu này hỗ trợ trong việc phát hiện ra thông tin Trong tìm kiếm tương tự (similar search), nếu trước

đó các trang web đã phân cụm, thì khi lọc các kết quả, ta chỉ tập trung vào các trang Web nằm trong cụm có liên quan nhiều đến câu truy vấn Như vậy, chất lượng của kết quả tìm kiếm sẽ tốt hơn Trong phân cụm phân cấp, có thể tạo ra một hệ thống cây phân cấp các chủ đề của các trang Web, làm cho người đọc có thể tìm các trang Web theo chủ đề người đó quan tâm một cách nhanh chóng Phân cụm cũng có thể ứng dụng vào việc nhóm các kết quả trả về của một máy tình kiếm thành các nhóm có chủ

đề và như vậy người dùng có thể tìm đến các trang Web thuộc chủ đề quan tâm một cách nhanh chóng mà không phải duyệt qua toàn bộ danh sách kết quả trả về của máy tìm kiếm

Trang 15

1.4 Các phương pháp phân cụm dữ liệu thông thường

Có nhiều thuật toán phân cụm nhưng để đưa ra một sự phân loại rõ ràng các phương pháp phân cụm là khó khăn bởi vì các loại này có thể chồng nhau (overlap)

Do đó, một phương pháp có thể có những đặc tính của một số loại khác nhau Tuy nhiên, các phương pháp phân cụm có thể được phân loại tương đối làm 4 loại cơ bản:[2,14]

- Phương pháp phân cụm phân hoạch (Partition Data Clustering);

- Phương pháp phân cụm phân cấp (Hierarchical Data Clustering);

- Phương pháp phân cụm dựa trên mật độ (Density Based Data Clustering);

- Phương pháp phân cụm dựa trên lưới (Grid Based Data Clustering)

Trong đó, hai phương pháp phân cấp và phân hoạch là thông dụng hơn

1.4.1 Phương pháp phân cụm phân hoạch

Trong các phương pháp phân hoạch, với số lượng cụm đã định, người ta lần lượt phân các đối tượng dữ liệu vào các cụm, sau đó thực hiện lặp quá trình điều chỉnh để cực tiểu hàm mục tiêu được chọn Thông dụng nhất là thuật toán k-mean và các biến thể của nó Trong các thuật toán này, số lượng cụm k thường được xác định

trước hoặc đặt dưới dạng tham số Với tập dữ liệu D gồm n đối tượng trong không gian s chiều, các đối tượng được phân thành c cụm sao cho tổng bình phương độ lệch

của mỗi mẫu tới tâm của nó là nhỏ nhất Sau đây là thuật toán k-means, thuật toán điển hình của phương pháp này

Thuật toán k-means

Thuật toán k-means (MacQueue, 1967) chia tập dữ liệu D cho trước thành c cụm

{𝑐1, 𝑐2, … , 𝑐𝑐}, sao cho tổng bình phương khoảng cách của mỗi đối tượng dữ liệu tới tâm cụm chứa nó đạt cực tiểu Như vậy, hàm mục tiêu của thuật toán này là:

𝐸 = 𝑥 − 𝑣𝑖 2

𝑥∈𝑐 𝑖

𝑐

Trong đó: 𝑣𝑖 là tâm của cụm 𝑐𝑖 tương ứng

Thuật toán này thực hiện như sau:

Bước 0: Xác định trước số lượng cụm c và điều kiện dừng;

Bước 1: Khởi tạo ngẫu nhiên c điểm 𝑣𝑖 𝑖=1𝑐 làm các tâm cụm;

Bước 2: Lặp khi điều kiện dừng chưa thỏa mãn:

2.1 Phân hoạch D thành c cụm bằng cách gán mỗi đối tượng vào cụm mà nó

gần tâm nhất;

2.2 Tính lại các tâm theo các đối tượng đã được phân hoạch ở bước 2.1 Điều kiện dừng của thuật toán thường chọn từ các điều kiện sau:

Trang 16

- Số lần lặp t = 𝑡𝑚𝑎𝑥 , trong đó 𝑡𝑚𝑎𝑥 là số cho trước;

- Giá trị của hàm E nhỏ hơn một ngưỡng nào đó (đảm bảo chất lượng của các cụm đủ tốt, hay nó đã chạy được đủ số vòng lặp cần thiết);

- Tới khi các cụm không đổi

Khi tập dữ liệu không quá lớn thì người ta dùng điều kiện dừng 3

Nếu tập dữ liệu D gồm n mẫu với số thuộc tính là s, phân thành c cụm và số lần lặp ở bước 2 là t thì độ phức tạp của thuật toán chỉ là O(tnsc) [26] nên rất thích hợp khi

tập D gồm lượng dữ liệu lớn

1.4.2 Phương pháp phân cụm phân cấp

Quá trình thực hiện phân cụm theo phương pháp này được mô tả bởi một đồ thị

có cấu trúc cây, vì vậy nó còn được gọi là phương pháp phân cụm cây Trong đó, tập

dữ liệu được sắp xếp thành một cấu trúc có dạng hình cây gọi là cây phân cụm Cây này có thể được xây dựng nhờ kỹ thuật đệ quy theo hai phương pháp tổng quát: phương pháp dưới lên (bottom up) và phương pháp trên xuống (top down)

Các thuật toán theo phương pháp dưới lên còn gọi là các thuật toán trộn Ban đầu, người ta khởi tạo mỗi đối tượng làm một cụm và dùng thủ tục đệ quy để trộn hai cụm gần nhất với nhau trong mỗi bước để có kết quả chia cụm mới Thủ tục đệ quy kết thúc ta có tập duy nhất là toàn bộ dữ liệu Các thuật toán phân biệt với nhau ở tiêu chuẩn đánh giá hai cụm nào là gần nhất dựa trên khoảng cách các cụm chọn trước

Quy tắc để chọn các cụm trộn này được gọi là quy tắc liên kết Quá trình thực hiện

thuật toán được biểu diễn thành cây và quyết định phân dữ liệu thành bao nhiêu cụm

sẽ do người dùng quyết định Người dùng cũng dựa trên cây này để nhận được kết quả phân cụm

Cụ thể, với cách tính khoảng cách để chọn cặp cụm trộn với nhau cho trước, các thuật toán trộn bao gồm các bước sau:

1 Khởi tạo mỗi phần tử làm một cụm 𝑐𝑖 = 𝑥𝑖 , c = n

2 Khi c ≠ 1 thực hiện lặp:

2.1 Chọn hai cụm gần nhất 𝑐𝑖 và 𝑐𝑗 theo quy tắc đã chọn

2.2 Trộn 𝑐𝑖 và 𝑐𝑗 thành 𝑐𝑖𝑗 = 𝑐𝑖 ∪ 𝑐𝑗 // còn c-1 cụm

2.3 c ← c-1

Phương pháp trên xuống còn gọi là phương pháp tách, được thực hiện theo trình

tự ngược với phương pháp trộn Trong mỗi bước người ta chọn một cụm để tách thành cụm con theo quy tắc đánh giá và tách cụm cho trước Phương pháp này phức tạp và lâu hơn phương pháp dưới lên và thường chỉ được áp dụng khi người ta có thêm thông tin về phân bố cụm để có phương pháp tách phù hợp Ta không đi sâu vào phương

pháp này

Ví dụ:

Trang 17

Trong ví dụ này, ta giải thiết đã có quy tắc liên kết và không bàn cụ thể tới cách chọn cụm trộn Quá trình thực hiện phương pháp “dưới lên” phân cụm tập dữ liệu S = {a, b, c, d, e} được mô tả trong hình 1.4 cụ thể như sau:

Bước 0: Mỗi đối tượng dữ liệu được gán cho mỗi cụm, như vậy các cụm ban đầu

là: {a},{b},{c},{d},{e}

Bước 1: {a} và {b} là được gộp vào thành một cụm lớn hơn là {a,b} và các cụm

thu được là: {a,b},{c},{d},{e}

Bước 2: Gộp cụm {d},{e} thành {d,e}, các cụm thu được là {a,b},{c},{d,e} Bước 3: Gộp cụm {c} với {d,e} thành {c,d,e}, các cụm thu được là {a,b}, {c,d,e} Bước 4: Gộp cụm hai cụm {c,d,e} với {a,b} thành {a,b,c,d,e}

và trộn hai cụm có khoảng cách nhỏ nhất trong mỗi bước

Với mêtric trong không gian đặc trưng xác định bởi một chuẩn đã có, sau đây là một số quy tắc liên kết thông dụng

a) Liên kết đơn

Ký hiệu là NN (Nearest Neighbour) Trong quy tắc này, khoảng cách giữa hai cụm được xác định nhờ khoảng cách nhỏ nhất giữa hai mẫu (đối tượng) tương ứng với hai cụm:

Trang 18

𝑑 𝑐𝑖, 𝑐𝑗 = 𝑚𝑎𝑥 𝑥 − 𝑦 : 𝑥 ∈ 𝑐𝑖, 𝑦 ∈ 𝑐𝑗 (1.2b)

c) Liên kết trung bình giữa các nhóm

Ký hiệu là UPGMA (Un-Weighted Pair-Group Method using Arithmetic averages) Như tên gọi của nó, khoảng cách 𝑑 𝑐𝑖, 𝑐𝑗 là trung bình của khoảng cách giữa các cặp đối tượng thuộc hai cụm tương ứng:

𝑑 𝑐𝑖, 𝑐𝑗 = 1

𝑛𝑖𝑛𝑗 𝑥∈𝑐𝑖 𝑦∈𝑐𝑗 𝑥 − 𝑦 (1.2c) Trong đó: 𝑛𝑖 và 𝑛𝑗 là số phần tử của các cụm 𝑐𝑖, 𝑐𝑗 tương ứng

Một số thuật toán phân cụm phân cấp điển hình như CURE, BIRCH, AGNES…

1.4.3 Phương pháp phân cụm dựa trên mật độ

Hầu hết các phương pháp phân hoạch truyền thống đều phân cụm chỉ dựa trên khoảng cách giữa các đối tượng Chúng chủ yếu tìm ra các giới hạn cụm có dạng hình cầu và rất khó để tìm ra các cụm có hình dạng ngẫu nhiên Phương pháp phân cụm dựa vào mật độ xem các cụm như là các vùng có mật độ các đối tượng lớn trong không gian dữ liệu Các phương pháp dựa vào mật độ có thể sử dụng để loại bỏ nhiễu và phát hiện ra các cụm có hình dạng tự nhiên

Thuật toán dựa vào mật độ đầu tiên là thuật toán DBSCAN (Ester et al, 1996), thuật toán này xem xét mật độ theo lân cận của mỗi đối tượng, nếu số lượng các đối tượng trong khoảng cách 𝜀 của một đối tượng lớn hơn ngưỡng MinPts thì đối tượng đó được xem là nằm trong một cụm Bởi vì các cụm tìm được phụ thuộc vào tham số 𝜀 và MinPts, nên thuật toán DBSCAN cần dựa vào người sử dụng để lựa chọn tập tham số tốt Để tránh được vấn đề này, năm 1999 Ankerst đề xuất phương pháp sắp xếp các cụm gọi là OPTICS (Ordering Point To Identify the Clustering Structure) OPTICS tính toán việc sắp xếp các cụm có tham số để phân cụm tự động Nhược điểm của các thuật toán theo hướng này là có độ phức tạp lớn nên không dùng được cho khối lượng

dữ liệu lớn Thuật toán DBSCAN giúp ta hiểu được cách tiếp cận này

Thuật toán DBSCAN (Density – Based Spatial Clustering of Applications with Noise)

Thuật toan DBSCAN nhóm các vùng có mật độ đủ cao vào trong một cụm và thác triển dựa trên các đối tượng lõi để có các cụm với hình dạng tự nhiên trong các tập không gian đặc trưng Thuật toán yêu cầu xác định trước hai tham số đầu vào là 𝜀

và Minpts Phân cụm dữ liệu theo thuật toán DBSCAN áp dụng các luật sau đây:

- Các đối tượng nằm trong hình cầu bán kính 𝜀 (𝜀–lân cận) của một đối tượng

được gọi là 𝜀–láng giềng của đối tượng đó Đối tượng có ít nhất là Minpts đối tượng khác là 𝜀–láng giềng thì được gọi là đối tượng nhân

- Một đối tượng có thể nằm trong một cụm khi và chỉ khi nó nằm trong 𝜀–lân

cận của một đối tượng nhân thuộc cụm đó

Trang 19

- Một đối tượng lõi o là 𝜀–láng giềng của một đối tượng nhân p thì o thuộc cùng cụm với p

- Hai cụm có giao khác rỗng thì nhập thành một cụm

- Một đối tượng không là nhân r và không là 𝜀–láng giềng của một đối tượng

nhân nào thì được xem là phần tử ngoại lai hay là đối tượng nhiễu

Để lập nên các cụm, DBSCAN kiểm tra 𝜀–láng giềng của mỗi đối tượng trong cơ

sở dữ liệu Nếu 𝜀–láng giềng của một điểm p chứa nhiều hơn Minpts, một cụm mới với p là đối tượng nhân được tạo ra Các cụm này được mở rộng nhờ liên kết các cụm con tạo nên cụm chứa nó Những phần tử ngoại lai không được phân cụm, nếu cần thiết thì sau khi phân cụm cụm con hình thành bởi các đối tượng nhân, ta phát triển được thành các cụm có hình dạng phong phú

Ví dụ:

Hình 1.5 minh họa một trường hợp với 𝜀 là bán kính của hình tròn và Minpts = 3, tập dữ liệu gồm hai cụm và các phần tử ngoại lai rải rác Các đối tượng {o, p, q, r} là nhân còn s không là đối tượng nhân nhưng nó thuộc cụm vì là 𝜀–láng giềng của một đối tượng là nhân

Hình 1.5: Hai cụm được tìm bởi thuật toán DBSCAN

Hình 1.6 minh họa một ví dụ về tập dữ liệu gồm hai cụm được nhận biết nhờ phương pháp này mà không dùng phương pháp phân hoạch được

Hình 1.6: Hai cụm dữ liệu có thể tìm được nhờ DBSCAN

1.4.4 Phương pháp phân cụm dựa trên lưới

Khi dữ liệu thuộc không gian có số chiều lớn, không trực quan hóa được thì việc xác định các tham số 𝜀 và Minpts cho các phương pháp phân cụm dựa vào mật độ rất khó khăn, hơn nữa với số lượng dữ liệu lớn thì mất nhiều thời gian chạy Để nâng cao hiệu quả của phân cụm, một cách tiếp cận là phân chia miền không gian đặc trưng

Trang 20

chứa dữ liệu thành một số hữu hạn các ô tạo nên dạng hình lưới và sử dụng các đặc trưng thống kê để phân tích các dữ liệu trong mỗi ô và quyết định tách hay nhập chúng Ta làm quen với thuật toán STING để hiểu cách tiếp cận này

Thuật toán STING (A STatistical INformation Grid approach)

STING do W Wang và các cộng sự (1997) đề xuất, phương pháp này tổ chức miền không gian chứa dữ liệu thành lưới hình hộp đa mức để phân tích cụm theo thống

kê phân cấp trên từng ô Ban đầu ta chia miền dữ liệu thành các ô hình chữ nhật (hoặc hình hộp khi không gian có số chiều cao) với chiều dài các cạnh ở mức 1 Việc phân tích thông tin dựa trên các đặc điểm thống kê của tập dữ liệu trong mỗi ô như:

- Count: số đối tượng trong ô;

- M: vectơ trung bình của dữ liệu trong ô;

- S: độ lệch chuẩn của mọi giá trị thuộc tính trong ô;

- Min: giá trị cực tiểu của các thuộc tính trong ô;

- Max: giá trị cực đại của các thuộc tính trong ô;

- Distribution: kiểu phân phối của các giá trị thuộc tính trong ô

Việc phân tích này giúp ta quyết định có chia ô đang xét ở mức mịn hơn không hay là đã đủ để phân cụm trong từng ô hoặc kết hợp với các cụm ở ô liền kề Cách phân chia ô như vậy tạo ra một cấu trúc phân cấp: mỗi ô ở mức cao được phân chia thành một số ô ở mức thấp hơn trong bước tiếp theo

Hình 1.7 mô tả 3 mức lưới liên tiếp nhau trong cấu trúc STING, mỗi ô ở mức trên được phân thành bốn ô ở mức tiếp theo Các tham số thống kê ở mức cao khi chưa xác định được sẽ được tính toán từ các tham số trong các ô ở mức thấp hơn Kiểu phân

bố ở ô mức cao được tính toán dựa trên các kiểu phân bố ở các ô tương ứng ở mức thấp Nếu các phân bố ở mức thấp không cho biết phân bố mức cao thì phân bố ở ô mức cao sẽ là không xác định (được đặt là none)

Hình 1.7: Ba tầng liên tiếp nhau của cấu trúc STING

Việc phân tích thống kê thực hiện phân cấp theo các ô từ tầng trên Tầng này bao gồm một số lượng nhỏ các ô Với mỗi ô trong tầng, tính khoảng chắc chắn mà các ô trong đó sẽ trở thành một cụm để quyết định Các ô không chắc chắn sẽ phân chia tiếp hoặc loại bỏ Tiến trình này được lặp lại cho đến khi tính chất cụm của dữ liệu trong

Trang 21

mỗi ô xác định rõ Việc phân cụm sẽ hoàn tất khi xác định được quan hệ cụm giữa dữ liệu trong các ô

1.5 Một số chủ đề liên quan

Các thuật toán PCDL đề cập trong chương 1 đều áp dụng phương pháp chung là chia một tập dữ liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và mỗi đối tượng chỉ thuộc về một cụm (phương pháp PCDL rõ) Phương pháp này chỉ phù hợp với việc khám phá ra các cụm có mật độ cao và rời nhau, với đường biên giữa các cụm được xác định tốt

Tuy nhiên, trong thực tế, bài toán phân cụm là bài toán thiết lập không đúng đắn, ranh giới giữa các cụm thường không được xác thực một cách rõ ràng, nghĩa là một đối tượng dữ liệu có thể thuộc vào nhiều hơn một cụm Một cách giải quyết tính nhập

nhằng này là dùng tiếp cận mờ

Hơn nữa, kết quả phân cụm có tính chất bất định rất cao và có hai vấn đề khó khi thực hiện thuật toán:[2]

1 Làm thế nào để ước lượng được số cụm?

2 Làm sao để đánh giá chất lượng kết quả phân cụm?

Đến nay vẫn chưa có giải pháp trọn vẹn cho các câu hỏi đó Tuy vậy, tùy theo từng hoàn cảnh mà chúng ta có thể sử dụng những kỹ thuật phù hợp như:

- Giảm chiều dữ liệu và trực quan hóa;

- Đánh giá cụm

Những vấn đề trên sẽ được trình bày rõ hơn ở chương 2, 3 và 4 của luận văn

Trang 22

CHƯƠNG II PHÂN CỤM DỮ LIỆU MỜ

Phương pháp PCDL truyền thống (PCDL rõ) chia một tập dữ liệu ban đầu thành các cụm dữ liệu, trong đó mỗi đối tượng chỉ được thuộc về một cụm Tuy nhiên, trong thực tế, một đối tượng dữ liệu có thể thuộc về nhiều cụm khác nhau Ví dụ: trong phân cụm tài liệu, một tài liệu có xu hướng có nhiều hơn một chủ đề (một tài liệu có thể chứa thông tin về xe ô tô, đua ô tô và các công ty ô tô) Đối với những dữ liệu loại này các kỹ thuật PCDL rõ làm việc có hiệu quả không cao và không mô tả được cấu trúc tự

nhiên của tập dữ liệu Để giải quyết vấn đề này, người ta đã áp dụng lý thuyết tập mờ

vào việc PCDL Cách thức kết hợp này được gọi là kỹ thuật PCDL mờ (hay gọi tắt là phân cụm mờ) [6,14]

2.1 Một số khái niệm cơ sở của lý thuyết tập mờ

nó bằng một khái niệm toán học, được gọi là tập mờ, như là một sự khái quát trực tiếp của khái niệm tập kinh điển (tập cổ điển).[1]

2.1.1.1 Tập kinh điển

Khái niệm tập hợp được hình thành trên nền tảng lôgic và được định nghĩa như là

sự sắp xếp chung các đối tượng có cùng tính chất, được gọi là phần tử của tập hợp đó Cho một tập hợp A, một phần tử x thuộc A được ký hiệu: x ∈ A Thông thường

ta dùng hai cách để biểu diễn tập hợp cổ điển đó là:

- Liệt kê các phần tử của tập hợp, ví dụ A = {xe đạp, xe máy, xe ca, xe tải};

- Biểu diễn tập hợp thông qua tính chất tổng quát của các phần tử, ví dụ: tập các

Trang 23

Ví dụ:

Nếu nhiệt độ trên 35 độ C thì nóng, ngược lại là không nóng Hình bên dưới minh họa tập hợp “NÓNG” gồm tất cả các nhiệt độ từ 35 độ C trở lên

NÓNG = {x ∈ R| x ≥ 35}

Hình 2.1: Biểu diễn tập nhiệt độ “NÓNG”

Từ hình vẽ (2.1) ta thấy logic cổ điển không thể hiện được sự khác biệt giữa các thành viên trong cùng một tập hợp Giữa hai nhiệt độ 45o

C và 55oC, logic này không thể hiện được nhiệt độ nào nóng hơn nhiệt độ nào

Ngoài ra, logic này còn có một nhược điểm khác quan trọng hơn đó là nó không thể biểu diễn được các dữ kiện mang tính mơ hồ, không chính xác mà trong thực tế lại

có rất nhiều phát biểu bằng ngôn ngữ tự nhiên ở dạng này, chẳng hạn như:

- Lan thì khá cao ⇒ như vậy Lan có thuộc tập hợp những người cao hay

không?

- Nam thì rất cao ⇒ như thế nào là rất cao?

Vì vậy, không thể dùng logic cổ điển để suy luận và sinh ra tri thức trong môi

trường “mờ” như vậy

2.1.1.2 Định nghĩa tập mờ

Trong khái niệm tập hợp kinh điển hàm phụ thuộc 𝜇𝐴 𝑥 của tập A, chỉ có một trong hai giá trị là “1” nếu x ∈ A hoặc “0” nếu x ∉ A

Cách biểu diễn hàm phụ thuộc như trên sẽ không phù hợp với những tập được

mô tả “mờ” Ví dụ khi xét tập B là tập những người trẻ Trong trường hợp này không

có ranh giới rõ ràng để khẳng định một ai đó có thuộc B hay không Ranh giới đó là

mờ Ta chỉ có thể nói một người nào đó thuộc B ở mức độ bao nhiêu phần trăm Để trả lời câu hỏi này, ta phải coi hàm phụ thuộc 𝜇𝐵 𝑥 có giá trị trong đoạn từ 0 đến 1 tức là: 0 ≤ 𝜇𝐵 𝑥 ≤ 1

Trang 24

Từ phân tích trên ta có định nghĩa: Tập mờ B xác định trên tập cổ điển X là một tập hợp mà mỗi phần tử của nó được biểu diễn bởi một cặp giá trị 𝑥, 𝜇𝐵 𝑥 Trong

đó x ∈ X và 𝜇𝐵 𝑥 là ánh xạ xác định bởi:

μ B : X→ [0, 1]

Ánh xạ μB được gọi là hàm liên thuộc (hay còn gọi là hàm thành viên) của tập

mờ B và 𝜇𝐵 𝑥 được gọi là độ thuộc của phần tử x vào tập mờ B

Độ thuộc của phần tử càng lớn thì mức độ phần tử đó thuộc về tập đã cho càng lớn Khi độ thuộc bằng 0 thì phần tử đó hoàn toàn không thuộc về tập đã cho, ngược lại, khi độ thuộc bằng 1 thì phần tử đó sẽ thuộc tập hợp đã cho với xác suất 100%

Ví dụ:

Cho các tập mờ: “Trẻ ”, “Trung niên”, “Già”:

Hình 2.2: Biểu diễn các tập mờ “Trẻ ”, “Trung niên”, “Già”

Từ hình 2.2, nhận thấy nếu cho biết tuổi của một người, ta có thể xác định mức

độ người đó thuộc về lớp người trẻ, trung niên hay già Chẳng hạn như:

- An 23 tuổi → 𝜇Tr ẻ(An) = 1, 𝜇Trungni ên(An) = 0, 𝜇Gi à(An) = 0;

- Nam 35 tuổi → 𝜇Tr ẻ(Nam) = 0.4, 𝜇Trungni ên(Nam) = 0.6, 𝜇Gi à(Nam) = 0

2.1.2 Các dạng hàm liên thuộc của tập mờ

Có rất nhiều cách khác nhau để biểu diễn hàm liên thuộc của tập mờ

- Hàm liên thuộc hình tam giác;

- Hàm liên thuộc hình thang;

- Hàm liên thuộc dạng Gauss;

- Hàm liên thuộc dạng Sign;

- Hàm liên thuộc Sigmoidal;

Trang 25

Hàm tam giác (triangle):

Hàm tam giác (xem hình 2.3) được xác định theo công thức:

Triangle(x,a,b,c) =

𝑥−𝑎 𝑏−𝑎 𝑎 ≤ 𝑥 ≤ 𝑏

𝑐−𝑥 𝑐−𝑏 𝑏 ≤ 𝑥 ≤ 𝑐

𝑑−𝑥 𝑑−𝑐 𝑐 ≤ 𝑥 ≤ 𝑑

(2.3)

2.1.3 Các thông số đặc trưng cho tập mờ

Các thông số đặc trưng cho tập mờ là độ cao, miền xác định và miền tin cậy

Độ cao của một tập mờ B (định nghĩa trên cơ sở M) là giá trị lớn nhất trong các

giá trị của hàm liên thuộc:

Miền xác định của tập mờ B (định nghĩa trên cơ sở M) được ký hiệu bởi S là tập

con của tập M có giá trị hàm liên thuộc khác không:

𝑆 = 𝑥 ∈ 𝑀| 𝜇𝐵 𝑥 > 0 (2.5)

Miền tin cậy của tập mờ B (định nghĩa trên cơ sở M) được ký hiệu bởi T, là tập

con của M có giá trị hàm liên thuộc bằng 1:

Trang 26

Hình 2.5: Độ cao, miền xác định, miền tin cậy của tập mờ

2.2 Phân cụm rõ – phân cụm mờ

2.2.1 Phân cụm rõ

Phương pháp phân cụm rõ dựa trên lý thuyết tập hợp cổ điển, trong đó phân mỗi đối tượng dữ liệu thuộc vào chính xác một cụm.[23]

Mục tiêu của quá trình phân cụm là phân chia tập dữ liệu X gồm n đối tượng

X={𝑥1, 𝑥2, … 𝑥𝑛}⊂ 𝑅𝑆 thành c cụm Trong phân hoạch rõ tập X có thể được xác định

như là một họ các tập con {𝐶𝑖│1 ≤ 𝑖 ≤ 𝑐} thỏa mãn:

𝑅𝑐𝑥𝑛 là không gian của tất cả các ma trận thực cấp cxn

Một số thuật toán phân cụm rõ có thể kể đến như: thuật toán means, Medoids, CURE, DBSCAN, STING

K-2.2.2 Phân cụm mờ

Khác với phân cụm rõ, trong phân cụm mờ, một đối tượng dữ liệu có thể thuộc

về nhiều cụm tương ứng với các mức độ liên thuộc khác nhau, đặc trưng cho mức độ

mà đối tượng dữ liệu đó thuộc về các cụm Bằng cách này, chúng ta có thể khám phá

ra các cụm dữ liệu phức tạp theo cách mềm dẻo từ một tập dữ liệu đã cho

H

𝜇𝐵 𝑥

Miền tin cậy Miền xác định

Trang 27

Cho tập dữ liệu X gồm n đối tượng X={𝑥1, 𝑥2, … , 𝑥𝑛}⊂ 𝑅𝑆 tổ chức thành c cụm

thể hiện qua các hàm liên thuộc 𝑢𝑖𝑗 mô tả mức độ đối tượng dữ liệu 𝑥𝑗 thuộc về cụm i [12,14,17], với mọi 𝑥𝑗 ∈ X:

- Mức độ liên thuộc nhận giá trị giữa 0 và 1 (Công thức 2.11a) Đối tượng dữ liệu gần trung tâm cụm có mức độ thuộc cao hơn so với những đối tượng nằm ở gần biên của cụm

 Đối tượng 𝑥𝑗 càng xa tâm cụm i thì giá trị hàm liên thuộc 𝑢𝑖𝑗 càng dần

Trang 28

Phân cụm những điểm dữ liệu trên bằng phương pháp phân cụm rõ (thuật toán means), kết quả thu được hai cụm hiển thị ở hình (2.7) Phương pháp này không mô tả được cấu trúc tự nhiên của tập dữ liệu Với điểm dữ liệu (4, 3.5) nằm ở giữa có khả năng thuộc về cả 2 cụm là như nhau Phương pháp phân cụm rõ đánh dấu điểm này thuộc về cụm A với độ thuộc bằng 1

k-Hơn nữa, phân cụm rõ không thể hiện được sự khác biệt giữa các điểm dữ liệu trong cùng một cụm, những điểm dữ liệu nằm ở gần trung tâm cụm với những điểm nằm gần biên của một cụm Cả hai loại điểm này sẽ được gán đầy đủ vào cụm mà chúng tương đồng nhất Trong phân cụm mờ, mỗi điểm dữ liệu được mô tả bởi một giá trị liên thuộc tùy thuộc vào sự gần gũi của chúng đến các trung tâm cụm chỉ ra mức độ thuộc của chúng tới cụm đó

Hình 2.7 : Kết quả phân cụm rõ tập dữ liệu butterfly

Bảng 1 trình diễn giá trị hàm liên thuộc của tập dữ liệu trên bởi 2 phương pháp phân cụm rõ (thuật toán k-means) và mờ (thuật toán c-means mờ) Với phương pháp phân cụm mờ, điểm dữ liệu (4, 3.5) có giá trị mức độ liên thuộc về hai cụm A và B đều

là 0.5, phản ánh đúng đắn vị trí nằm giữa hai cụm (xem hình 2.8)

Hình 2.8:Hai cụm mờ của tập dữ liệu butterfly

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6

0.5 0.5

Trang 29

Bảng 1: Giá trị hàm liên thuộc của tập dữ liệu Butterfly bởi thuật toán k-means và means mờ

c-Dữ liệu

Phân cụm rõ Thuật toán k-means

Phân cụm mờ Thuật toán C-means mờ

0.0547 0.0226 0.0547 0.0161 0.0024 0.0161 0.1242 0.5000 0.8759 0.9839 0.9976 0.9839 0.9453 0.9774 0.9453

2.3 Một số thuật toán phân cụm dữ liệu mờ

Các thuật toán áp dụng kỹ thuật phân cụm mờ đã được phát triển mạnh mẽ và ứng dụng rộng rãi trong thực tế Các thuật toán phân cụm mờ rất đa dạng như C-means

mờ (Fuzzy C-means, FCM), Fuzzy Possibilistic C-Means (FPCM), Gustafson-Kessel (GK), Gath-Geva (GG), 𝜀-Insensitive Fuzzy C-means (𝜀FCM), Phần nội dung dưới đây, luận văn sẽ đi khảo cứu thuật toán C-means mờ (FCM) và mở rộng của nó là

thuật toán Gustafson-Kessel (GK)

2.3.1 Thuật toán phân cụm C-means mờ

Trong các phương pháp phân cụm mờ, C-means mờ (Fuzzy C-means viết tắt là FCM) là thuật toán quen biết và ứng dụng rộng rãi nhất [11,16,17] Thuật toán FCM được đề xuất bởi Dunn (1974) và được phát triển bởi Bezdek (1981) Kỹ thuật này

phân hoạch một tập n đối tượng dữ liệu X={𝑥1, 𝑥2, … , 𝑥𝑛}⊂ 𝑅𝑠 thành c cụm mờ nhằm

tối thiểu hóa sự sai khác trong mỗi cụm được đo bởi hàm mục tiêu sau:

Hàm mục tiêu

Hàm mục tiêu của thuật toán FCM được Bezdek định nghĩa như sau: [10]

𝐽𝑚(𝑈, 𝑉) = 𝑐𝑖=1 𝑛𝑗 =1𝑢𝑖𝑗𝑚𝑑𝑖𝑗𝐴2 (2.13)

Trang 30

Trong đó:

- {𝑥1, 𝑥2, …, 𝑥𝑛}⊂ 𝑅𝑠 là n đối tượng dữ liệu trong không gian 𝑅𝑠;

- c là số cụm, 2 ≤ c < n;

- m là tham số mờ, m ∈ [1,∞);

- U=[𝑢𝑖𝑗] là ma trận phân hoạch mờ cấp cxn, U ∈ 𝑀𝑓𝑐;

- V là tập trung tâm cụm của c cụm, V={𝑣1, 𝑣2, …, 𝑣𝑐}⊂ 𝑅𝑠;

- 𝑑𝑖𝑗𝐴2 = 𝑥𝑗 − 𝑣𝑖

𝐴

2

là khuôn mẫu để đo khoảng cách giữa đối tượng dữ liệu

𝑥𝑗 tới trung tâm cụm 𝑣𝑖

Áp dụng phương pháp nhân tử Lagrange (Lagrange multiplier), Bezdek chứng

minh được rằng: để các phân hoạch mờ của X được tối ưu thì hàm mục tiêu theo công

thức (2.13) phải đạt giá trị tối thiểu với các điều kiện sau đây: [11]

Với m > 1, nếu 𝑥𝑗 ≠ 𝑣𝑖 với mọi j và i thì hàm tiêu chuẩn mờ đạt giá trị tối thiểu

𝑘=1

, (1≤j≤n, 1≤i≤c) (2.15)

Các điều kiện ở hai công thức (2.14), (2.15) là cần thiết để nhằm tối thiểu hóa

hàm mục tiêu mờ J m bằng một chuỗi các phép lặp đi lặp lại cho đến khi sự thay đổi tối

đa trong 𝑢𝑖𝑗 đạt đến một giá trị nhỏ hơn ngưỡng kết thúc 𝜀 cho trước

Thuật toán FCM

Thuật toán FCM tối ưu hóa việc phân hoạch lặp đi lặp lại Nó cải thiện U và V trong mỗi lần lặp và chấm dứt khi nó đạt được điều kiện ổn định

Input: Số cụm c và tham số mờ m, tiêu chuẩn dừng 𝜀

Output: c cụm dữ liệu sao cho hàm mục tiêu (2.13) đạt giá trị tối thiểu

Trang 31

End

Với n đối tượng dữ liệu, mỗi đối tượng được mô tả bởi s thuộc tính, c là số cụm

và t là số lần lặp, độ phức tạp của thuật toán FCM là O(tns𝑐2) [26]

Các tham số của thuật toán FCM

Trước khi thực hiện thuật toán FCM người dùng phải khởi tạo trước các tham số:

số cụm, tham số mờ, tiêu chuẩn dừng, chuẩn khoảng cách.[11,23]

Số cụm c: Thuật toán FCM cần xác định số cụm cố định từ trước Số cụm là tham

số quan trọng nhất theo nghĩa các tham số còn lại ít ảnh hưởng tới kết quả của quá trình phân cụm Tuy nhiên, trong nhiều trường hợp ta không thể biết trước được số lượng cụm như thế nào là cho chất lượng tốt nhất Giải pháp để tìm số cụm tối ưu sẽ được trình bày cụ thể ở chương 3 và 4 của luận văn

Tham số mờ m: tham số mờ ảnh hưởng tới độ mờ của phân hoạch Khi m → 1 thì phân hoạch trở nên “rõ” hơn Ngược lại, khi m →∞ thì phân hoạch trở thành hoàn toàn

mờ (𝑢𝑖𝑗 = 1/c) Vì vậy, việc tăng giá trị của m làm giảm độ thuộc của đối tượng vào

tập mờ Chưa có quy tắc nào nhằm lựa chọn tham số m đảm bảo việc phân cụm hiệu quả, thông thường người ta chọn m = 2

Tiêu chuẩn dừng: thuật toán FCM dừng khi 𝑚𝑎𝑥𝑖,𝑗 𝑢𝑖𝑗(𝑡) − 𝑢𝑖𝑗(𝑡−1) ≤ 𝜀, tiêu

chuẩn dừng 𝜀 là một hằng số bé cho trước nhận giá trị giữa 0 và 1 Việc chọn 𝜀 phải cân đối giữa thời gian chạy và tính chính xác

Chuẩn khoảng cách: Một trong các nhân tố ảnh hưởng tới kết quả phân cụm là

vấn đề chọn phép đo độ phi tương tự Thực vậy, tính toán bậc thành viên 𝑢𝑖𝑗 phụ thuộc vào định nghĩa của phép đo khoảng cách 𝑑𝑖𝑗𝐴 trên không gian R s Bình phương khoảng cách giữa vectơ mẫu 𝑥𝑗 và trung tâm cụm thứ i được định nghĩa như sau:

𝑑𝑖𝑗𝐴2 = 𝑥𝑗 − 𝑣𝑖

𝐴

2

= 𝑥𝑗 − 𝑣𝑖 𝑇𝐴 𝑥𝑗 − 𝑣𝑖 , 1 ≤ i ≤ c; 1 ≤ j ≤ n (2.16)

Trong đó: A là ma trận đối xứng xác định dương

Hình dáng các cụm phụ thuộc vào việc lựa chọn ma trận A Trong thực tế, chỉ có một số ít các chuẩn sau thường được dùng [11,23], trong đó chuẩn khoảng cách Euclidean là thông dụng hơn cả

- Nếu A = I, I là ma trận đơn vị, 𝑑𝑖𝑗𝐴 ~ khoảng cách Euclidean (Euclidean norm) Hình dáng các cụm sẽ có dạng hình cầu

- Nếu A = 𝑅−1, R là ma trận hiệp phương sai của X, 𝑑𝑖𝑗𝐴 ~ khoảng cách Mahalanobis (Mahalanobis norm)

- Nếu A = D, D là ma trận đường chéo, trong đó các phần tử nằm trên đường chéo là giá trị riêng của ma trận R Khi đó, 𝑑𝑖𝑗𝐴 ~ khoảng cách Diagonal (Diagonal norm)

Định dạng
Số trang	62
Dung lượng	2,02 MB