1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means

43 651 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 43
Dung lượng 1,29 MB

Nội dung

Gom cụm dữ liệu là một kỹ thuật trong Data Mining nhằm tìm kiếm, phát hiện các cụm,các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn để từ đó cung cấp thông tin,tri th

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHÓA LUẬN

KHAI THÁC DỮ LIỆU (DATA MINING)

ĐỀ TÀI

TÌM HIỂU GOM CỤM DỮ LIỆU

VÀ THUẬT TOÁN K-MEANS

Học viên : Nguyễn Tấn

Mã số: CH1101038

Lớp : Cao học – Khóa 6 GVHD: GS.TS Đỗ Phúc

Trang 2

MỤC LỤC

Trang

Chương I: GOM CỤM DỮ LIỆU

1) Khái niệm gom cụm dữ liệu

2) Vai trò của gom cụm dữ liệu

3) Mục đích của gom cụm dữ liệu

4) Ứng dụng của gom cụm dữ liệu

5 5 6 6 6

1) Biến trị khoảng

2) Biến nhị phân đối xứng

3) Biến nhị phân bất đối xứng

1) Các phương pháp phân hoạch

2) Các phương pháp phân cấp

3) Các phương pháp dựa trên mật độ

4) Các phương pháp dựa trên mô hình

5) Các phương pháp dựa trên lưới

14 15 17 22 22

1) Giới thiệu thuật toán

2) Thuật toán K-means

3) Ưu điểm và khuyết điểm của thuật toán

4) Các biến thể và cải tiến của thuật toán K-means

26 26 30 31

1) Giới thiệu chương trình

2) Thiết kế và cài đặt chương trình

3) Giao diện và tính năng

4) Cách sử dụng chương trình

5) Đánh giá nhận xét

34 34 37 38 40

Trang 3

Tài liệu tham khảo 43

Trang 4

LỜI MỞ ĐẦU

Ngày nay, cùng với sự phát triển mạnh mẽ của công nghệ phần cứng và truyềnthông, các hệ thống dữ liệu phục vụ cho các lĩnh vực kinh tế - xã hội cũng khôngngừng tăng lên, lượng dữ liệu được tạo ra ngày càng lớn Sự phong phú về dữ liệu,thông tin cùng với khả năng kịp thời khai thác chúng đã mang đến những năng suất vàchất lượng mới cho công tác quản lý, hoạt động kinh doanh, … Nhu cầu khám phá trithức mới thực sự bùng nổ, theo đó, hàng loạt các lĩnh vực nghiên cứu về tổ chức cáckho dữ liệu và kho thông tin, các hệ trợ giúp quyết định, các thuật toán nhận dạngmẫu và phân lớp mẫu, … và đặc biệt là khai phá dữ liệu (Data Mining) ra đời

Từ đó, khai thác dữ liệu đã trở thành một trong những hướng nghiên cứu phổ biếntrong lĩnh vực khoa học máy tính và công nghệ tri thức Nhiều kết quả nghiên cứu, ứngdụng của khai thác dữ liệu trong các lĩnh vực khoa học, kinh tế, xã hội Khai thác dữliệu bao hàm nhiều hướng nghiên cứu quan trọng, một trong số đó là gom cụm dữ liệu(Data Clustering) Gom cụm dữ liệu là quá trình tìm kiếm và phát hiện ra các cụm hoặccác mẫu dữ liệu tự nhiên trong cơ sở dữ liệu lớn Các kỹ thuật chính được áp dụngtrong gom cụm dữ liệu phần lớn được kế thừa từ lĩnh vực thống liệu cho việc giải quyếtcác vấn đề ở các lĩnh vực như tài chính, thông tin địa lý, sinh học, nhận dạng ảnh, …

Cùng với những kiến thức đã được cung cấp trong môn học khai thác dữ liệu

(Data Mining), em đã chọn đề tài “Tìm hiểu Gom cụm dữ liệu và thuật toán

K-means” làm nội dung nghiên cứu Để hoàn thành khóa luận này, em xin chân thành

cảm ơn thầy GS.TS.Đỗ Phúc, người đã chỉ dẫn tận tình, cung cấp thông tin, tư liệu

cũng như những bài giảng có giá trị để giúp em hoàn thành đề tài

Đây là đề tài không mới nhưng với thời lượng cũng như việc đầu tư nghiên cứucòn nhiều hạn chế nên chỉ mang tính chất một bài khóa luận môn học, chỉ tìm hiểu ởmức độ khái quát vấn đề Do đó không thể nào tránh được những thiếu sót và hạnchế Kính mong sự thông cảm và chia sẻ của thầy

Thành phố Hồ Chí Minh, tháng 11 năm 2012

Trang 5

CHƯƠNG I: GOM CỤM DỮ LIỆU

1) KHÁI NIỆM GOM CỤM DỮ LIỆU

Gom cụm dữ liệu (data clustering) là hình thức học không giám sát (unsupervisedlearning), trong đó các mẫu học chưa được dán nhãn

Gom cụm dữ liệu là một kỹ thuật trong Data Mining nhằm tìm kiếm, phát hiện các cụm,các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn để từ đó cung cấp thông tin,tri thức trong việc ra quyết định

Gom cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệuthỏa mãn các điều kiện:

Giải quyết các vấn đề tìm kiếm, phát hiện các cụm, các mẫu dữ liệu trong một tập hợpban đầu các dữ liệu không có nhãn

A: là một tập các điểm dữ liệu trước khi gom cụm B: là các tập điểm dữ liệu sau khi gom cụm

 Ci : cụm thứ i

2) VAI TRÒ CỦA GOM CỤM DỮ LIỆU

Gom cụm dữ liệu đóng vai trò quan trọng trong các ngành khoa học :

Trang 6

- Tổng kết

- Nén

- Tìm kiếm kết quả gần nhất

3) MỤC ĐÍCH CỦA GOM CỤM DỮ LIỆU

Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm dữ liệu Các thuật toánphân cụm (Clustering Algorithms ) đều sinh ra các cụm (cluster) Tuy nhiên, không có tiêu chí nàođược xem là tốt nhất để đánh giá hiệu quả của phân cụm, điều này phụ thuộc vào mục đích củaphân cụm như: data reduction, natural cluster, useful cluster, outlier detection

4) ỨNG DỤNG CỦA GOM CỤM DỮ LIỆU

- Xem xét phân bố dữ liệu

- Tiền xử lý cho các thuật toán khác

- Khám phá thói quen và nhu cầu của khách hàng để có phương pháp tiếp thị thích hợp

- Phân loại đất theo công năng hoặc thực tế sử dụng để có chính sách quy hoạch phùhợp

- Phân loại nhà theo vị trí, giá trị, …

- Phân loại khách hàng để có chính sách bảo hiểm hợp lý

- Phân loại bệnh nhân

- Phân nhóm động vật và thực vật dựa vào các thuộc tính của chúng

- Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả

- Phân loại tài liệu, phân loại người dùng web

* Một phương pháp gom cụm tốt nếu đạt được các tính chất sau:

- Có độ tương tự cao trong cùng cụm (intra-class)

- Có độ tương tự thấp giữa các cụm (inter-class)

- Có khả năng phát hiện các mẫu ẩn

Trang 7

- Có khả năng làm việc hiệu quả với lượng dữ liệu lớn (scalability).

- Có khả năng làm việc với nhiều loại dữ liệu khác nhau

- Có khả năng khám phá ra các cụm có phân bố theo các dạng khác nhau

- Yêu cầu tối thiểu tri thức lĩnh vực nhằm xác định các tham biến nhập

- Có khả năng làm việc với nhiễu và mẫu cá biệt

- Không bị ảnh hưởng bởi thứ tự nhập của dữ liệu

- Làm việc tốt trên cơ sở dữ liệu có số chiều cao

- Chấp nhận các ràng buộc do người dùng chỉ định

- Có thể hiểu và sử dụng được kết quả gom cụm

* Các kỹ thuật gom cụm:

Trang 8

CHƯƠNG II: ĐỘ ĐO KHOẢNG CÁCH

Để đánh giá độ tương tự giữa các điểm dữ liệu cần có một độ đo khoảng cách được địnhnghĩa trong không gian dữ liệu đang xét Không có một độ đo nào có thể dùng chung cho mọitrường hợp Tùy theo mục tiêu khảo sát và bản chất dữ liệu người dùng phải chọn độ đo khoảngcách phù hợp với ứng dụng đang triển khai

Gọi K là không gian dữ liệu, x, y, z là các điểm dữ liệu tùy ý trong K Độ đo d là hàm số d:

K x K  R thỏa:

Giá trị của độ đo d(x,y) càng nhỏ thì x và y càng gần nhau (càng tương tự nhau)

Trong cơ sở dữ liệu có thể có nhiều kiểu thuộc tính khác nhau Một điểm dữ liệu được đặctrưng bằng nhiều thuộc tính có kiểu cơ sở Để xây dựng được một độ đo tốt, có thể áp dụng cho

dữ liệu tổng quát, ta cần phải xây dựng được độ đo tốt cho các kiểu cơ sở Các kiểu cơ sở gồm trịkhoảng (interval-valued), nhị phân đối xứng (symmetric binary), nhị phân bất đối xứng(asymmetric), định danh (nominal), thứ tự (ordinal), tỷ lệ khoảng (ratio-scaled)

1) BIẾN TRỊ KHOẢNG

Các biến trị khoảng là độ đo liên tục của các đại lượng tuyến tính đơn giản như trọng lượng,chiều cao, nhiệt độ, tuổi, …Các đơn vị đó ảnh hưởng rất nhiều đến kết quả gom cụm Do đó tùyvào lĩnh vực ứng dụng và tiêu chí của phương pháp tiếp cận mà chuẩn hóa dữ liệu

1.1) Phương pháp chuẩn hóa các độ đo

Tính sai số tuyệt đối trung bình:

Sf = n x fmf + x fmf + + xnfmf 

1

2 1

Với mf là giá trị trung bình của các xif , i=1 n

n

x x

x

f

+++

Trang 9

Tính độ đo chuẩn (z-score)

S m

x z

f

f if if

i

b Khoảng cách Euclide là khoảng cách Minkowski khi q = 2

Khoảng cách Euclide chính là khoảng cách hình học trong không gian n chiều

x x x

x x

j i

d( , )= 1− 12+ 2− 22+ + − 2

c Khoảng cách Manhattan là khoảng cách Minkowski khi q = 1

x x x

x x

j i

x x w x

x w x

x

j i

Khoảng cách có trọng là sự cải tiến của khoảng cách Minkowski, trong đó có tính đến ảnhhưởng của từng thuộc tính đến khoảng cách giữa hai đối tượng Thuộc tính có trọng số w cànglớn thì ảnh hưởng càng nhiều đến khoảng cách d Việc chọn trọng số tùy thuộc vào ứng dụng

và mục tiêu cụ thể

2) BIẾN NHỊ PHÂN ĐỐI XỨNG

Biến nhị phân là biến chỉ có 2 trạng thái là 0 hoặc 1 Biến nhị phân là đối xứng nếu cả haitrạng thái là tương đương (về mặt ý nghĩa của ứng dụng) Có nghĩa là không có xu hướng thiên

vị trạng thái 1

Độ tương tự dựa trên biến nhị phân bất đối xứng thì được gọi là tương tự bất biến

Bảng sự kiện (contingency table) cho biến nhị phân (cả đối xứng và bất đối xứng):

Trang 10

Đối tượng j

Đối tượng i

10

c b j

i d

+++

+

=

),(

3) BIẾN NHỊ PHÂN BẤT ĐỐI XỨNG

Biến nhị phân là bất đối xứng nếu có một trạng thái có ý nghĩa quan trọng hơn (thườngđược mã là 1) Lúc này thường có xu hướng thiên vị trạng thái ưu tiên đó Ví dụ trong các chẩnđoán y khoa, người ta thường ưu tiên một hướng kết luận hơn hướng kia Do đó những trạngthái chưa rõ ràng (như triệu chứng bệnh chưa rõ ràng) thì cũng có thể kết luận là 1 để ưu tiêncho bước chẩn đoán chuyên sâu hoặc cách ly theo dõi Hệ số Jaccard cho biến nhị phân bất đốixứng:

c b a

c b j i d

++

+

=

),(

Ví dụ tính khoảng cách cho biến nhị phân:

2 N (No): hoàn toàn không có triệu chứng

3 P (Part): triệu chứng không rõ ràng hoặc ítPhái là biến nhị phân đối xứng còn các thuộc tính còn lại là biến nhị phân bất đối xứng

Trang 11

Gán trị 1 cho Y và P, 0 cho N, ta có:

102

1

+++

111

1

+++

211

2

+++

),(Trong đó m là số thuộc tính có giá trị trùng khớp giữa hai đối tượng i và j, p là tổng

số thuộc tính

b Đưa biến định danh về biến nhị phân bằng cách thay mỗi trạng thái định danh bằngmột biến nhị phân mới Ví dụ biến màu sắc (đỏ, vàng, xanh, lục) có thể chuyển thành biến nhịphân: đỏ (có/không), vàng (có/không), xanh (có/không), lục (có/không)

b Ánh xạ hạng của từng biến vào [0,1] bằng cách thay thế đối tượng i trong biến fbởi:

Trang 12

c Tính độ phân biết theo các phương pháp đã biến đổi với biến trị khoảng zif

Ví dụ: Biến thứ tự huy chương (vàng, bạc, đồng, không)

b Ánh xạ hạng của từng biến vào [0,1] bằng cách thay thế đối tượng i trongbiến f bởi:

6) BIẾN TỶ LỆ THEO KHOẢNG

Biến tỷ lệ khoảng là độ đo dương trên các tỷ lệ phi tuyến Ví dụ: các đại lượng biểu

Trong đa số trường hợp thì không thể áp dụng trực tiếp phương pháp độ đo cho cácbiến trị khoảng cho loại biến này vì có thể gây sai số lớn

Trang 13

Phương pháp tốt hơn là tiền xử lý bằng cách chuyển sang logarit yif = log(xif) sau đómới áp dụng trực tiếp phương pháp độ đo cho các biến trị khoảng hoặc thứ tự.

j i

1

1

)(

)()()

,(

δ δ

 δij ( f)= 0 khi xifhoặc xjf không tồn tại hoặc xif= xjf = 0

a Đối với các biến trị khoảng hoặc thứ tự:

b Đối với các biến nhị phân hoặc định danh:

 dij(f) = 0 khi xif= xjf = 0

Trang 14

CHƯƠNG III: CÁC PHƯƠNG PHÁP GOM CỤM

Dựa trên cách tiếp cận và thuật toán sử dụng, người ta phân các thuật toán gom cụmtheo các phương pháp chính sau:

Có thể dùng ma trận dữ liệu để mô hình hóa bài toán gom cụm Ma trận biểu diễn khônggian dữ liệu gồm n đối tượng theo p thuộc tính Ma trận này biểu diễn mối quan hệ đối tượngtheo thuộc tính:

n

ip if

i

p f

x x

x

x x

x

x x

1 1

)2,()1,(

0)2,3()1,3(

0)1,2(0

n d n d

d d

với d(i,j) là khoảng cách giữa đối tượng i và đối tượng j

1) CÁC PHƯƠNG PHÁP PHÂN HOẠCH

Đây là các phương pháp tạo phân hoạch cơ sở dữ liệu D có n đối tượng k cụm sao cho:i) Mỗi cụm chứa ít nhất một đối tượng

ii) Mỗi đối tượng thuộc về một cụm duy nhấtiii) K là số cụm đã được cho trước

Trang 15

Đây là các tiêu chuẩn chung của các phương pháp phân hoạch truyền thống Gần đâyxuất hiện nhiều phương pháp phân hoạch dựa trên lý thuyết tập mờ thì tiêu chuẩn (ii) là khôngquan trọng mà thay vào đó là mức độ thuộc về (membership) của đối tượng vào cụm, mức độnày có thể có giá trị liên tục từ o đến 1 Các phương pháp tiếp cận phân hoạch:

năng phân hoạch khác nhau Đây là con số quá lớn nếu n là khá lớn do đó hầu nhưkhông thể thực hiện được

 Các phương pháp heuristic:

o K-means (MacQueen’67): mỗi cụm được đại diện bằng trọng tâm của cụm

o K-medoids (Kaufman & Rouseau’87) còn được gọi là PAM (partition aroundmedoids): mỗi cụm được đại diện bởi một đối tượng cụm

2) CÁC PHƯƠNG PHÁP PHÂN CẤP

Đây là các phương pháp tạo phân cấp cụm (hierarchical classtering) chứ không tạo phânhoạch các đối tượng Phương pháp này không cần phải xác định số cụm từ đầu Số cụm sẽ dokhoảng cách giữa các cụm hoặc điều kiện dừng quyết định Tiêu chuẩn gom cụm thường đượcxác định bằng ma trận khoảng cách Phân cấp cụm thường được biểu diễn dưới dạng đồ thịdạng cây các cụm (dendogram) Lá của cây biểu diễn đối tượng riêng lẻ, nút trong biểu diễncác cụm

Các phương pháp tiếp cận để gom cụm phân cấp gồm:

Sơ đồ hai phương pháp tiếp cận phân cấp ( Gộp: AGNES – Tách: DIANA )

Trang 16

 Gộp:

a Xuất phát mỗi đối tượng và tạo một cụm chứa nó

b Nếu hai cụm đủ gần nhau (dưới một ngưỡng nào đấy) sẽ được gộp lại thànhmột cụm duy nhất

c Lặp lại bước 2 cho đến khi chỉ còn một cụm duy nhất là toàn bộ không gian

 Tách:

a Xuất phát từ một cụm duy nhất là toàn bộ không gian

b Chọn cụm có độ phân biệt cao nhất (ma trận phân biệt có phần tử lớn nhấthoặc trị trung bình lớn nhất) để tách đôi Bước này sẽ áp dụng các phươngpháp phân hoạch đối với cụm đã chọn

c Lặp lại bước 2 đến khi mỗi đối tượng thuộc một cụm hoặc đạt điều kiện dừng(đủ số cụm cần thiết hoặc khoảng cách giữa các cụm đạt ngưỡng đủ nhỏ).Các khoảng cách giữa các cụm thường được dùng là:

Khoảng cách nhỏ nhất: Khoảng cách này còn được gọi là khoảng cách liên kết đơn

(single link) hoặc khoảng cách người láng giềng gần nhất Đây là loại khoảng cáchphù hợp để phát hiện các cụm có dạng chuỗi hơn là dạng khối

d(Ci.Cj) = min x∈Ci, y∈Cj {d(x,y)}

Khoảng cách lớn nhất: Khoảng cách này còn được gọi là khoảng cách liên kết hoàn

toàn (complete link) hoặc khoảng cách người láng giềng xa nhất Đây là loại khoảngcách phù hợp để phát hiện các cụm có dạng khối hơn là dạng chuỗi

d(Ci.Cj) = max x∈Ci, y∈Cj {d(x,y)}

Khoảng cách trung bình

d(Ci.Cj) = avg x∈Ci, y∈Cj {d(x,y)}

Khoảng cách trọng tâm: Khoảng cách giữa hai trọng tâm của hai cụm được chọn

làm khoảng cách của hai cụm đó Khoảng cách phù hợp để phát hiện các cụm có dạngkhối và tốc độ tính toán nhanh do chỉ quan tâm đến trọng tâm nên giảm khối lượngtính toán

3) CÁC PHƯƠNG PHÁP DỰA TRÊN MẬT ĐỘ

Trang 17

Các ký hiệu và khái niệm:

a p, q, o là các điểm dữ liệu bất kỳ (các đối tượng)

b Với Eps dương cho trước, tập hợp Neps(p) = {q| d(q,p) ≤ Eps} được gọi là lân cậnbán kính Eps của p

c p được gọi là điểm hạt nhân nếu thỏa

|Neps(p)| ≥ min Ptstrong đó min Pts: số nguyên dương cho trước min Pts là ngưỡng tối thiểu để coimột điểm là trù mật Từ đây khi nói một điểm là hạt nhân thì ta hiểu là nó gắn vớimột bán kính và một ngưỡng trù mật nhất định

d p được gọi là điểm biên nếu nó không phải là điểm nhân

e q được gọi là đi tới được trực tiếp theo mật độ từ p nếu p là một điểm nhân và qthuộc lân cận của p

sao cho pi liên thông mật độ trực tiếp từ pi+1

g p va q được gọi là có kết nối theo mật độ nếu tồn tại điểm o sao cho cả p va q đềuliên thông mật độ từ o

min Pts=3Eps = 1cm

p là một điểm hạt nhân với bán kính Eps 1cm và ngưỡng trù mật là min Pts là 3 Khoảngcách được dùng là khoảng cách Euclide trong không gian hình họ hai chiều, q là một điểmliên thông mật độ trực tiếp từ p

q là một điểm liên thông mật độ từ p

Nguyễn Tấn – CH1101038 17

p q

p

q

o

Trang 18

p và q là hai điểm có kết nối mật độ

Ý tưởng của các thuật toán dựa trên mật độ: Một cụm là một tập hợp tối đại các điểm cókết nối mật độ

Thuật toán DBSCAN có các bước sau:

a Chọn một điểm p bất kỳ thuộc không gian dữ liệu D

b Tìm tập P gồm tất cả các điểm liên thông mật độ từ p với ngưỡng bán kính Eps vàngưỡng mật độ min Pts

c Nếu p là một điểm hạt nhân thì:

- P chính là một cụm cần tìm

- D = D \ P (loại P ra khỏi D)

d Quay lại bước 1 cho đến khi tất cả các điểm trong D đều đã được xét

e Các điểm đã xét nhưng không thuộc cụm nào thì chính là các mẫu cá biệt

Ưu điểm của DBSCAN là tìm được các cụm có hình dạng bất kỳ co nhiễu hoặc mẫu cá biệtgây ra

Khuyết điểm của DBSCAN là khó chọn được các ngưỡng Eps và min Pts tốt Do đó kết quảgom cụm không tốt khi mật độ trong các cụm tự nhiên là chênh lệch nhau nhiều Một điểm yếunữa là không phù hợp cho yêu cầu phân cấp cụm mà chỉ đáp ứng nhu cầu phân hoạch

Bán kính lân cận và ngưỡng trù mật là các tham số quyết định đến kết quả gom cụm Để cókết quả gom cụm tốt ta có thể thử với một số bộ tham số và chọn ra kết quả tối ưu Để tạo câyphân cấp cụm thì có thể áp dụng chiến lược phân giải tằng dần như sau:

a Đầu tiên chọn bán kính lân cận và ngưỡng trù mật thô (Eps lớn và min Pts nhỏ)

Trang 19

b Chọn cụm có độ phân biệt lớn nhất (thông qua ma trận phân biệt của cụm hoặc mộttiêu chí đánh giá tùy thuộc nhu cầu ứng dụng) Cụm được chọn ở bước này sẽ tạothành một nút của cây phân cấp.

c Phân hoạch cụm được chọn bằng thuật toán DBSCAN

d Nếu tất cả các cụm tạo được đều có độ phân biệt nội tại đủ thấp hoặc đã đạt được

số cụm cần thiết thì dừng Các cụm còn lại tại thời điểm kết thúc thuật toán tạothành các nút lá của cây phân cấp

e Giảm bán kính lân cận và tăng ngưỡng trù mật Mức độ điều chỉnh tùy thuộc bảnchất dữ liệu và nhu cầu gom cụm

f Quay lại bước 2

Đặc điểm của phương pháp tạo cây phân cấp cụm dựa trên thuật toán DBSCAN có thể tạocây đa phân

Các thuật toán khác theo hướng tiếp cận dựa trên mật độ như: OPTICS, DENCLUE

* Thuật toán OPTICS:

Thuật toán này là mở rộng của DBSCAN, tuy nhiên nó cải tiến bằng cách giảm bớt cáctham số đầu vào Thuật toán này không phân cụm các điểm dữ liệu mà thực hiện tính toán và sắpxếp trên các điểm dữ liệu theo thứ tự tăng dần nhằm tự động PCDL và phân tích cụm tương táchơn là đưa ra phân cụm một tập dữ liệu rõ ràng Đây là thứ tự mô tả cấu trúc phân dữ liệu cụmdựa trên mật độ của dữ liệu, nó chứa thông tin tương ứng với phân cụm dựa trên mật độ từ mộtdãy các tham số được thiết lập và tạo thứ tự của các đối tượng trong CSDL, đồng thời lưu trữkhoản cách lõi và khoảng cách liên lạc phù hợp của mỗi đối tượng Hơn nữa, thuật toán được đềxuất rút ra các cụm dựa trên thứ tự thông tin Như vậy thông tin đủ cho trích ra tất cả các cụm

tự

Việc sắp xếp thứ tự được xác định bởi hai thuộc tính riêng của các điểm dữ liệu đó làkhoảng cách nhân và khoảng cách liên lạc Các phép đo này chính là kích thước mà có liên quanđến quá trình của thuật toán DBSCAN, tuy nhiên, chúng được sử dụng để xác định thứ tự của cácđiểm dữ liệu đã được xắp xếp Thứ tự dựa tren cơ sở các điểm dữ liệu mà có khoảng cách nhânnhỏ nhất và tăng dần độ lớn Điều duy nhất về phương pháp này là người sử dụng không phải xác

Trang 20

tham số đầu vào như ε và MinPts, nhưng nó vẫn cho phép người sử dụng tùy ý lựa chon các giátrị tham số mà sẽ dãn đến khám phá các cụm chấp nhận được.

Các thiết lập tham số thường dựa theo kinh nghiệm tập hợp và khó xác định, đặc biệt là với cáctập dữ liệu đa chiều Tuy nhiên, nó cũng có độ phức tạp thời gian thực hiện như DBSCAN

bởi vì có cấu trúc tương đương với DBSCAN : O(nlogn)- n là kích thước của tập dữ liệu Thứ tựcụm của tập dữ liệu có thể được biểu diễn bằng đồ thị, và được minh họa trong hình sau, có thể

* Thuật toán DENCLUE:

DENCLUDE đưa ra cách tiếp cận khác với các thuật toán phân cụm dựa trên mật độtrước đó, cách tiếp cận này xem xét mô hình được sử dụng một công thức toán để mô tả mỗiđiểm dữ liệu sẽ ảnh hưởng trong mô hình như thế nào được gọi là hàm ảnh hưởng có thể xemnhư một hàm mà mô tả ảnh hưởng của điểm dữ liệu với các đối tượng làng giếng của nó Ví dụ vềhàm ảnh hưởng là các hàm parabolic, hàm sóng ngang, hoặc hàm Gaussian

Như vậy , DENCLUDE là phương pháp dựa trên một tập các hàm phân phố mật độ vàđược xây dựng ý tưởng chính như sau :

- Ảnh hưởng của mỗi điểm dữ liệu có thể là hình thức được mô hình sử dụng mộthàm tính toán, được gọi là hàm ảnh hưởng, mô tả tác động của điểm dữ liệu với các đối tượngláng giềng của nó

- Mật độ toàn cục của không gian dữ liệu được mô hình phân tích như là tổng cáchàm ảnh hưởng của tất cả các điểm dữ liệu

- Các cụm có thể xác định chính xác bởi việc xác định mật độ cao (densityattractors), trong đó mật độ cao là các điểm cực đại hàm mật độ toàn cục

Sử dụng các cells lưới không chỉ giữ thông tin về các cells lưới mà thực tế nó còn chứađựng cả các điểm dữ liệu Nó quản lý các cells trong một cấu trúc truy cập dựa trên cây, và nhưvậy nó nhanh hơn so với một số các thuật toán có ảnh hưởng, như DBSCAN Tuy nhiên, phươngpháp này đòi hỏi chọn lựa kỹ lưỡng tham biến mật độ và ngưỡng nhiễu, việc chọn lựa tham số làquan trọng ảnh hưởng tới chất lượng của các kết quả phân cụm

Định nghĩa : Cho x, y là hai đối tượng trong không gian d chiều ký hiệu là Fd Hàm ảnh

d y B

Trang 21

kỳ; cơ bản là xác định khoảng cách của hai vecto d(x, y) trong không gian d chiều, ví dụ nhưkhoảng cách Euclide Hàm khoảng cách có tính chất phản xạ và đối xứng Ví dụ về

hàm ảnh hưởng như sau :

),(

y x d

y x d

của tất ả các điểm dữ liệu Cho n là các đối tượng dữ liệu được mô tả bởi một tập vecto

(Hàm mật độ được thành lập dựa trên ảnh hưởng Gauss được xác định như sau :

4) CÁC PHƯƠNG PHÁP DỰA TRÊN MÔ HÌNH

Ngày đăng: 09/04/2015, 22:50

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w