1. Trang chủ
  2. » Luận Văn - Báo Cáo

MỘT SỐ PHƯƠNG PHÁP GOM CỤM DỮ LIỆU -THUẬT TOÁN K-MEANS

26 2,4K 7

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 536,54 KB

Nội dung

1.2 Các loại dữ liệu trong gom cụm - Trong phân cụm, các đối tượng dữ liệu thường được diễn tả dưới dạng cácđặc tính hay còn gọi là thuộc tính Khái niệm “các kiểu dữ liệu” và “cáckiểu t

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

TIỂU LUẬN MÔN KHAI THÁC DỮ LIỆU

MỘT SỐ PHƯƠNG PHÁP GOM CỤM DỮ LIỆU

-THUẬT TOÁN K-MEANS

Giảng viên hướng dẫn : PGS.TS Đỗ PhúcHọc viên thực hiện : Nguyễn Thị Ngọc Diễm

Tp Hồ Chí Minh, tháng 11 năm 2012

Trang 2

Mục lục

Trang 3

Chương 1: TỔNG QUAN VỀ GOM CỤM DỮ LIỆU

1.1.2. Mục tiêu

- Mục đích của gom cụm là tìm ra bản chất bên trong các nhóm của dữ liệu.Các thuật toán gom cụm đều sinh ra các cụm Tuy nhiên, không có tiêu chínào là được xem là tốt nhất để đánh hiệu của của phân tích gom cụm, điềunày phụ thuộc vào mục đích của gom cụm như: giảm kích thước dữ liệu,khám phá thông tin hữu ích, phát hiện giá trị ngoại lai

1.1.3. Ứng dụng

- Gom cụm dữ liệu là một công cụ thiết yếu của khai phá dữ liệu, khai phá dữliệu là quá trình khám phá và phân tích một khối lượng lớn dữ liệu để lấyđược các thông tin hữu ích Gom cụm dữ liệu cũng là một vấn đề cơ bảntrong nhận dạng mẫu (pattern recognition)

- Nhìn chung, thông tin hữu dụng có thể được khám phá từ một khối lượnglớn dữ liệu thông qua phương tiện tự động hay bán tự Trong khai phá dữliệu gián tiếp, không có biến nào được chọn ra như một biến đích, và mụctiêu là để khám phá ra một vài mối quan hệ giữa tất cả các biến Trong khi

đó đối với khai phá dữ liệu gián tiếp một vài biến lại được chọn ra như cácbiến đích Gom cụm dữ liệu là khai phá dữ liệu gián tiếp, bởi vì trong khaiphá dữ liệu, ta không đảm bảo chắc chắn chính xác cụm dữ liệu mà chúng

ta đang tìm kiếm, đóng vai trò gì trong việc hình thành các cụm dữ liệu đó,

và nó làm như thế nào

Trang 4

- Vấn đề gom cụm dữ liệu đã được quan tâm một cách rộng rãi, mặc dù chưa

có định nghĩa đồng bộ về gom cụm dữ liệu và có thể sẽ không bao giờ làmột và đi đến thống nhất Nói một cách đại khái là: Gom cụm dữ liệu, cónghĩa là ta cho một tập dữ liệu và một phương pháp tương tự, chúng tanhóm dữ liệu lại chẳng hạn như điểm dữ liệu trong cùng một nhóm giốngnhau và điểm dữ liệu trong các nhóm khác nhau về sự không đồng dạng

Rõ ràng là vấn đề này được bắt gặp trong nhiều ứng dụng, chẳng hạn nhưkhai phá văn bản, biểu diễn gen, phân loại khách hàng, xử lý ảnh

1.1.1.Marketing

- Xác định các nhóm khách hàng (khách hàng tiềm năng, khách hàng giá trị,phân loại và dự đoán hành vi khách hàng) sử dụng sản phẩm hay dịch vụcủa công ty để giúp công ty có chiến lược kinh doanh hiệu quả hơn Ví dụ:Trong nghiên cứu thị trường, gom cụm dữ liệu được sử dụng để phân đoạnthị trường và xác định mục tiêu thị trường (Chrisoppher, 1969; Saunders,

1980, Frank and Green, 1968) Trong phân đoạn thị trường, gom cụm dữliệu thường được dùng để phân chia thị trường thành những cụm mang ýnghĩa, chẳng han như chia ra đối tượng nam giới từ 21-30 tuổi và nam giớingoài 51 tuổi, đối tượng nam giới ngoài 51 tuổi thường không có khuynhhướng mua các sản phẩm mới

1.1.2.Phân đoạn ảnh

- Phân đoạn ảnh là việc phân tích mức xám hay màu của ảnh thành các látđồng nhất (Comaniciu and Meer, 2002) Trong phân đoạn ảnh, gom cụm dữliệu thường được sử dụng để phát hiện biên của đối tượng trong ảnh

1.1.3.Sinh học

- Phận nhóm động vật và thực vật dựa vào các thuộc tính của chúng

1.1.4.Trong y tế sức khỏe tâm lý

- Phân cụm dữ liệu áp dụng trong nhiều lĩnh vực sức khỏe tâm lý, bao gồm

cả việc thúc đẩy và duy trì sức khỏe, cải thiện cho hệ thống chăm sóc sứckhỏe, và công tác phòng chống bệnh tật và người khuyết tật (Clatworthy etal., 2005) Trong sự phát triển hệ thống chăm sóc sức khỏe, phân cụm dữliệu được sử dụng để xác định các nhóm của người dân mà có thể được

Trang 5

y tế, nhóm phân tích được sử dụng để lựa chọn nhắm mục tiêu vào nhóm sẽ

có khả năng đem lại lợi ích cho sức khỏe cụ thể từ các chiến dịch quảng bá

và tạo điều kiện thuận lợi cho sự phát triển của quảng cáo Ngoài ra, gomcụm dữ liệu được sử dụng để xác định các nhóm dân cư bị rủi ro do pháttriển y tế và các điều kiện những người có nguy cơ nghèo

1.2 Các loại dữ liệu trong gom cụm

- Trong phân cụm, các đối tượng dữ liệu thường được diễn tả dưới dạng cácđặc tính hay còn gọi là thuộc tính ( Khái niệm “các kiểu dữ liệu” và “cáckiểu thuộc tính dữ liệu“ được xem là tương đương với nhau) Các thuộctính này là các tham số để giải quyết vấn đề phân cụm và sự lựa chọn chúng

có tác động đáng kể đến kết quả phân cụm Phân loại các kiểu thuộc tínhkhác nhau là vấn đề cần giải quyết đối với hầu hết các tập dữ liệu nhằmcung cấp các phương tiện thuận lợi để nhận dạng sự khác nhau của cácphần tử dữ liệu Các thuật toán phân cụm thường sử dụng một trong hai cấutrúc dữ liệu sau:

Trang 6

o Ma trận dữ liệu (Data matrix, object-by-variable structure): là

mảng n hàng, p cột, trong đó p là số thuộc tính của mỗi đối tượng.Mỗi hàng biểu diễn một đối tượng, các phần tử trong mỗi hàng chỉ

giá trị thuộc tính tương ứng của đối tượng đó Mảng được cho nhưsau:

o Ma trận phi tương tự (Dissimilarity matrix, object-by-object structure): là mảng n hàng, n cột Phần tử d(i,j) chứa khoảng cách

hay độ khác biệt giữa các đối tượng i và đối tượng j, d(i,j) là một sốkhông âm, trong đó nếu d(i,j) xấp xỉ 0 thì hai đối tượng i và j là khá

"gần" nhau, nếu d(i,j) càng lớn thì hai đối tượng i, j khá khác nhau

Do d(i,j) = d(j,i) = 0 nên ta có thể biểu diễn ma trận phi tương tự nhưsau:

- Phần lớn các thuật toán phân cụm sử dụng cấu trúc ma trận phi tương tự

Do vậy, nếu dữ liệu cần phân cụm được tổ chức dưới dạng ma trận dữ liệu

Trang 7

thì cần biến đổi về dạng ma trận phi tương tự trước khi tiến hành phân cụm.

Có hai đặc trưng để phân loại: kích thước miền và hệ đo

Cho một CSDL D chứa n đối tượng trong không gian k chiều; x, y, z là cácđối tượng thuộc D:

Trong đó với là các đặc trưng hoặc thuộc tính tương ứng của các đối

tượng x, y, z Như vậy sẽ có các kiểu dữ liệu sau:

1.2.1. Biến trị khoảng

- Một thành phần quan trọng trong thuật toán phân cụm là phép đo khoảngcách giữa hai điểm dữ liệu Nếu thành phần của vectơ thể hiện dữ liệuthuộc trong cùng một đơn vị giống nhau thì nó tồn tại khoảng cáchEuclidean có thể xác định được nhóm dữ liệu tương tự Tuy nhiên, khôngphải lúc nào khoảng cách Euclidean cũng cho kết quả chính xác

- Tuy nhiên chú ý rằng đây không phải vấn đề đồ thị: vấn đề phát sinh từcông thức toán học được sử dụng để kết hợp khoảng cách giữa các thànhphần đơn đặc tính dữ liệu vectơ vào trong một độ đo khoảng duy nhất mà

có thể được sử dụng cho mục đích gom cụm: các công thức khác nhau dẫntới những cụm khác nhau

- Các thuật toán cần có các phép đo khoảng cách hoặc độ tương tự giữa haiđối tượng để thực hiện gom cụm Kiến thức miền phải được sử dụng để đểtrình bày rõ ràng phép đo khoảng thích hợp cho mỗi ứng dụng Hiện nay,phép đo có nhiều mức độ khác nhau tùy theo từng trường hợp

- Khoảng cách Minkowski được định nghĩa như sau:

Trong đó x, y là hai đối tượng với n là số lượng thuộc tính, và là kíchthước của dữ liệu

Trang 8

o distance (i,j) = distance (j,i)

o distance (i,j) <= distance (i,h) + distance (h,j)

1.2.2. Biến khoảng tỉ lệ

- Có nhiều cách khác nhau để tính độ tương tự giữa các thuộc tính tỉ lệ Mộttrong những số đó là sử dụng công thức tính logarit cho mỗi thuộc tính , ví dụ , đóng vai trò như thuộc tính khoảng Phép biến đổi logarit này thíchhợp trong trường hợp các giá trị của thuộc tính là số mũ

- Trong thực tế, khi tính độ tương tự dữ liệu, chỉ xem xét một phần các thuộctính đặc trưng đối với các kiểu dữ liệu hoặc là đánh trọng số cho tất cả cácthuộc tính dữ liệu Trong một số trường hợp, loại bỏ đơn vị đo củacác thuộctính dữ liệu bằng cách chuẩn hóa chúng, hoặc gán trọng số cho mỗi thuộctính giá trị trung bình, độ lệch chuẩn Các trọng số này có thể sử dụng trongcác độ đo khoảng cách trên, ví dụ với mỗi thuộc tính dữ liệu đã được gántrọng số tương ứng wi (1 ≤ i ≤ k), độ tương đồng dữ liệu được xác địnhnhư sau:

- Có thể chuyển đổi giữa các mô hình cho các kiểu dữ liệu trên, ví dụ như dữliệu kiểu hạng mục có thể chuyển đổi thành dữ liệu nhị phân hoặc ngượclại Giải pháp này rất tốn kém về chi phí tính toán, do vậy, cần phải cânnhắc khi áp dụng cách thức này

- Tóm lại, tùy từng trường hợp dữ liệu cụ thể mà có thể sử dụng các mô hìnhtính độ tương tự khác nhau Việc xác định độ tương đồng dữ liệu thích hợp,chính xác đảm bảo khách quan là rất quan trọng, góp phần xây dựng thuậttoán gom cụm dữ liệu có hiệu quả cao trong việc đsảm bảo chất lượng cũngnhư chi phí tính toán

1.2.3. Biến nhị phân

Trang 9

- Cho các biến danh nghĩa, “phép đo khoảng cách” là 0 nếu các trường hợp

có cùng giá trị danh nghĩa, và 1 nếu các trường hợp có các giá trị danhnghĩa khác nhau, hoặc với độ đo tương tự 1 (nếu các trường hợp có cùnggiá trị danh nghĩa) và 0 (nếu không giống nhau)

- Do đó nếu xem xét p biến định danh, có thể đánh giá độ tương tự của cáctrường hợp bằng số các biến mà có giá trị giống nhau Nói chung địnhnghĩa với một biến nhị phân mới từ mỗi biến danh nghĩa, bằng việc nhómcác nhãn danh nghĩa thành hai lớp, một nhãn là 1, nhãn khác là 0 Xây dựng

và xem xét bảng ngẫu nhiên các sự kiện có thể xảy ra và định nghĩa cácthuộc tính của đối tượng i, j bằng các biến số nhị phân 0 và 1 Ví dụ ta cóbảng tham số sau:

o a là tổng số các thuộc tính có giá trị 1 trong hai đối tượng i, j

o b là tổng số các thuộc tính có giá trị 1 trong i và giá trị 0 trong j

o c là tổng số các thuộc tính có giá trị 0 trong i và giá trị 1 trong jx

o d là tổng số các thuộc tính có giá trị 0trong hai đối tượng i, j

o p là tổng tất cả các thuộc tính của hai đối tượng i, j

- Giá trị đối xứng: Một thuộc tính nhị phân là đối xứng nếu kết quả là cả haiđều quan trọng

- Giá trị bất đối xứng: Một thuộc tính nhị phân là không đối xứng nếu các kếtquả của các trạng thái không quan trọng

- Các phép đo độ tương tự của các trường hợp với dữ liệu thuộc tính nhị phânđược thực hiện bằng các cách sau:

o Hệ số đối sánh đơn giản: cả hai đối tượng có vai trò như nhau,nghĩa là chúng đối xứng và có cùng trọng số

Trang 10

o Hệ số Jaccard (không đối xứng): Tham số này loại bỏ các đối sánh0-0.

- Thuộc tính thứ tự có 2 loại: rời rạc và liên tục

o Thuộc tính thứ tự rời rạc là thuộc tính danh nghĩa với các giá trịđược sắp xếp một cách có ý ngshĩa

o Thuộc tính thứ tự liên tục là dữ liệu liên tục trên quy mô không rõ

Ví dụ: thứ tự của bảng xếp hạng trong một môn thể thao (vàng, bạc,đồng) là quan trọng hơn giá trị của họ Được sử dụng để ghi lại cácđánh giá chủ quan của các đặc tính nhất định mà không thể đo lườngmột cách khách quan

- Phép đo độ phi tương tự giữa các đối tượng dữ liệu với thuộc tính thứ tự được thựchiện như sau: Giả sử i là thuộc tính thứ tự có giá trị ( là kích thước miền giá trị):

Trang 11

o Các trạng thái được sắp xếp thứ tự như nhau: [1…], có thể thay thếmỗi giá trị của thuộc tính bằng giá trị cùng loại với Ví dụ: Gold,Silver, Bronze với thứ tự 1, 2, 3.

o Mỗi thuộc tính có thứ tự có các miền giá trị khác nhau, vì vậy phảichuyển đổi chúng về cùng miền giá trị [0, 1] bằng cách thực hiệnphép biến đổi sau cho mỗi thuộc tính:

Trong đó là cấp bậc của đối tượng thứ i trong biến thứ tự thứ

o Sử dụng công thức tính độ phi tương tự của thuộc tính khoảng đốivới các giá trị , đây cũng chính là độ phi tương tự của thuộc tính cóthứ tự

1.2.5. Biến định danh

- Dạng biến định danh là mở rộng của biến nhị phân nhưng có thể có nhiềuhơn 2 trạng thái Ví dụ: Color là một thuộc tính có 4 giá trị: yellow, green,red, blue

- Giả sử ta gọi M là số lượng các giá trị của thuộc tính Độ đo phi tương tựgiữa hai đối tượng i và j được định nghĩa như sau:

1.2.6. Biến có kiểu hỗn hợp

- Cơ sở dữ liệu có thể chứa cả sáu loại biến

Yellow Green Red Blue

Trang 12

- Có thể dùng công thức được gán trọng để kết hợp các hiệu quả:

Trong đó:

o

o Đóng góp của biến f vào khoảng cách :

 Nếu f là biến kiểu nhị phân hay định danh:

 Nếu F là biến dạng khoảng thì ta sẽ dùng khoảng cách đượcchuẩn hóa

 Nếu f là thứ tụ hay tỉ số đưusọc tỉ lệ theo:

• Tính hạng

• Xử lý theo tỉ lệ khoảsng

Chương 2: CÁC PHƯƠNG PHÁP GOM CỤM DỮ LIỆU

2.1 Phương pháp dựa trên phân hoạch

- Thuật toán phân hoạch là một thuật toán phân cụm có từ rất lâu và khá phổ biến trước khi xuất hiện lĩnh vực khai phá dữ liệu Phân cụm không thứ bậchoặc phân cụm theo phân hoạch (nonhierarchy or partition clustering) chia

cơ sở dữ liệu bằng cách xác định trước các đối tượng đại diện (đối tượngnhân) của các cụm Kế tiếp mỗi đối tượng dữ liệu sẽ được đưa vào cụm màkhoảng cách từ đối tượng dữ liệu đến đối tượng đại diện của cụm là nhỏnhất Sau mỗi bước thì đối tượng đại diện của mỗi cụm có thể được xácđịnh lại dựa vào các đối tượng dữ liệu thuộc cụm đó Mặc dù biểu diễn cáccụm dữ liệu khác nhau, tuy nhiên các thuật toán đều có cách tiếp cận chungkhi tính toán các giải pháp

- Ý tưởng của phương pháp phân hoạch như sau:

o Cho tập D gồm n đối tượng, và một tham số đầu vào k được xácđịnh bởi người dùng Thuật toán phân hoạch sẽ chọn k đối tượng đạidiện cho k cụm (k đối tượng đại diện có thể được chọn ngẫu nhiênhoặc theo một tiêu chuẩn của người sử dụng) Với một đối tượng dữ

Trang 13

đó, đối tượng đại diện của mỗi cụm sẽ được tính lại dựa vào nhữngđiểm dữ liệu thuộc cụm đó Thông thường thì đối tượng đại diệnđược xác định sao cho khoảng cách từ đối tượng đại diện đến điểm

xa nhất là nhỏ nhất có thể được

- Mô hình thuật toán gom cụm phân hoạch

Đầu vào: Số cụm k và CSDL D gồm n đối tượng

Đầu ra: tập các cụm

là tập các đối tượng đại diện của k cụm ở lần phân hoạch thứ i

Partition(D, k);

1. Chọn ngẫu nhiên k tâm bất kỳ Đặt i= 0

2. Với mỗi điểm dữ liệu thì tìm đối tượng đại diện gần nhất và đưa

- Nhược điểm của phương pháp này là đòi hỏi phải đưa vào tham số k vàkhông xử lý trên bộ dữ liệu thuộc cụm có hình dạng phức tạp hoặc mật độphân bố dày đặc Ngoài ra, nếu cơ sở dữ liệu có nhiễu hoặc có đối tượng dữliệu quá xa tâm (outline) thì phương pháp gom cụm phân hoạch cùng không

áp dụng được vì trong các trường hợp đó, các đối tượng dữ liệu nhiễu hoặccác đối tượng dữ liệu xa tâm (outline) sẽ làm tâm của cụm bị lệch đi Do

đó, không đưa ra được các cụm chính xác Thêm vào đó, thuật toán có độphức tạp tính toán lớn khi cần xác định kết quả tối ưu

- Các thuật toán trong phương pháp phân hoạch: K-MEANS, PAM(Partitioning Around Medoids), CLARA (Clustering LARge Application),CLARANS (Clustering Large Applications based upon RANdomizedSearch)

Trang 14

2.2 Phương pháp phân cấp

- Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệuđang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc

có dạng hình cây, cây phân cấp này được xây dựng theokỹ thuật đệ quy Kỹ

thuật này có 2 cách tiếp cận đó là:

o Tiếp cận hội tụ, thường được gọi là tiếp cận Bottom –Up

o Tiếp cận phân chia nhóm, thường được gọi là tiếp cận Top –Down

a. Tiếp cận bottom-up

- Bắt đầu với mỗi đối tượng thành lập một cụm riêng biệt Sau đó tiếnhành hợp hoặc nhóm các đối tượng theo một vài tiêu chí đó nhưkhoảng cách giữa trung tâm của 2 nhóm Thuật toán kết thúc khi tất

cả các nhóm được hợp thành một nhóm (nút gốc của cây) hoặc thỏamãn điều kiện dừng Từ cây mới tạo được, đưa ra các cụm bằng cáchchọn tập các đối tượng tại các nút thoả mãn điều kiện dừng

b. Tiếp cận top-down

- Xuất phát từ gốc là một cụm với tất cả các đối tượng trong mộtcơ sở

dữ liệu Tại mỗi bước lặp thì cụm được phân chia thành cụm nhỏhơn theo tiêu chí nào đó Việc phân chia dừng khi mỗi đối tượng làmột cụm hoặc thỏa mãn điều kiện dừng (kết thúc) Điều kiện kếtthúc là điều kiện để xác định một tập các đối tượng tại mỗi nút cóphải là một cụm hay không Điều kiện kết thúc được đưa vào từngười sử dụng

Ngày đăng: 09/04/2015, 22:45

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w