Phân cụm và các thành phần trong phân cụm dữ liệu- 123docz.net

Phân cụm dữ liệu là quá trình áp dụng các phƣơng pháp, thuật toán để tổ chức dữ liệu thành các nhóm có những đặc điểm tƣơng tự nhau. Một cụm là một tập hợp dữ liệu mà các phần tử tƣơng tự nhau trong cùng một cụm và các phần tử không tƣơng tự sẽ thuộc một cụm khác. Phân tích cụm đƣợc sử dụng để đƣa ra những số liệu thống kê nhằm xác định những đặc điểm khác nhau giữa các cụm.

Mẫu đại diện: Đề cập đến số lớp, số mẫu có sẵn và số lƣợng, chủng loại, quy mô của các tính năng có sẵn cho các thuật toán phân cụm. Lựa chọn đặc trƣng là quá trình xác định các đặc trƣng ban đầu của tập hợp con để sử dụng trong phân cụm. Trích chọn đặc trƣng là việc sử dụng một hoặc nhiều biến đổi từ đặc trƣng đầu vào để tạo ra đặc trƣng mới nổi bật. Những kĩ thuật này

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

có thể đƣợc sử dụng để có một tập hợp các đặc trƣng đƣợc sử dụng trong phân cụm dữ liệu.

Mẫu lân cận: Thƣờng đƣợc đo bằng một hàm khoảng cách thực hiện trên từng cặp mẫu. Có nhiều phƣơng pháp đo khoảng cách đƣợc áp dụng trong phân cụm dữ liệu trong đó phổ biến nhất là phƣơng pháp đo khoảng cách Euclide. Các bƣớc nhóm dữ liệu có thể đƣợc thực hiện bằng nhiều cách khác nhau. Các cụm đầu ra có thể phân vùng dữ liệu thành các nhóm hoặc mỗi một mẫu có thể biến đổi các thành viên trong cụm đầu ra.

Trừu tƣợng hóa dữ liệu: Là quá trình rút ra một đại diện đơn và nhỏ gọn của một tập dữ liệu. Trong phân cụm dữ liệu trừu tƣợng hóa dữ liệu là mô tả nhỏ gọn mỗi cụm thƣờng mô tả các cụm nguyên mẫu hoặc các mẫu đại diện trọng tâm. Đánh giá tính đúng đắn là mục tiêu và đƣợc thực hiện để xác định đầu ra có ý nghĩa hay không.

1.4.2 Phương pháp phân cụm phân cấp

Cấu trúc phân cụm phân cấp xây dựng trên một hệ thống phân cấp cụm. Các cụm chứa các nút cụm con. Các cụm ngang hàng đƣợc phân chia thành các điểm cùng cụm cha. Cách tiếp cận này cho phép tìm hiểu chi tiết dữ liệu ở các cấp độ khác nhau. Phƣơng pháp phân cụm đƣợc chia làm hai loại [6]: Phân cụm phân cấp tích tụ Bottom – Up và phân cụm phân cấp chia nhóm Top-Down. Phân cụm phân cấp tích tụ khởi đầu với một điểm cụm và kết hợp đệ quy với 2 hoặc nhiều cụm thích hợp nhất. Một cụm chia tách bắt đầu với một cụm của tất cả các điểm dữ liệu và đệ quy chia tách các cụm thích hợp nhất. Quá trình này tiếp tục cho đến khi đạt đƣợc một tiêu chí dừng lại đƣợc. Phân cụm phân cấp dựa trên kết quả thống kê kết quả liên kết trong cụm.

1.4.3 Phương pháp phân cụm phân hoạch

Phân cụm phân hoạch phân chia dữ liệu thành các tập số. Kiểm tra tất cả các hệ thống tập hợp con có thể là tính toán không khả thi. Di chuyển lặp đi

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

lặp lại các điểm trong cụm. Sau khi các cụm đƣợc xây dựng phƣơng pháp phân cụm phân hoạch sẽ xem xét lại các cụm để cải thiện các cụm tốt hơn. Với dữ liệu thích hợp sẽ đem lại hiệu quả cao trong phân cụm.

1.4.4 Phương pháp phân cụm dựa trên mật độ

Một tập mở trong không gian Euclide có thể đƣợc chia thành một tập hợp các thành phần kết nối. Việc thực hiện ý tƣởng này cho phân vùng của một tập hợp hữu hạn các điểm đòi hỏi phải có khái niệm về kết nối, mật độ, ranh giới. Chúng liên quan đến điểm lân cận gần nhất. Một cụm quy định nhƣ là một thành phần kết nối dày đặc, phát triển ở bất kỳ hƣớng nào mà mật độ cao nhất. Dựa trên các thuật toán mật độ có khả năng phát hiện các cụm với hình dạng bất kỳ điều này giúp loại bỏ các giá trị ngoại lai hoặc nhiễu.

1.4.5 Phân cụm dữ liệu dựa trên lưới

Phƣơng pháp phân cụm dựa trên lƣới đã đƣợc sử dụng trong một số nhiệm vụ khai thác dữ liệu của cơ sở dữ liệu lớn. Trong phân cụm dữ liệu dựa trên lƣới, không gian đặc trƣng đƣợc chia thành một số hữu hạn các ô hình chữ nhật hình thành lên lƣới. Trên cấu trúc của lƣới quá trình phân cụm đƣợc thực hiện. Quá trình đa phân tích thay đổi kích thƣớc của ô hình chữ nhật có thể hình thành lên lƣới. Trong không gian đa chiều d, lƣới có dạng một hình lập phƣơng với kích thƣớc d tƣơng ứng với các ô. Trong cấu trúc lƣới phân cấp kích thƣớc ô có thể đƣợc giảm để đạt đƣợc một cấu trúc ô chính xác hơn. Cấu trúc phân cấp có thể đƣợc chia thành nhiều cấp độ giải quyết. Mỗi ô ở mức độ cao hơn k sẽ đƣợc phân chia thành các ô có cấp độ thấp hơn k+1. Các ô ở mức độ thấp k+1 sẽ đƣợc hình thành bởi việc chia tách các ô k vào các ô nhỏ hơn.

1.4.6 Phân cụm dữ liệu dựa trên sự ràng buộc

Trong phân cụm dữ liệu để có những hiểu biết về những trƣờng hợp nên hay không nên gom cụm lại với nhau ngƣời ta có thể áp dụng phƣơng pháp

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

phân cụm dựa trên những ràng buộc. Phân cụm ràng buộc dựa trên sự thay đổi của thuật toán K-mean dựa vào tính toán những liên kết bắt buộc giữa hai điểm trong cùng một cụm và hạn chế những liên kết không thể thực hiện đƣợc giữa hai điểm trong một cụm. Những yêu cầu đó là bắt buộc trong khi phân cụm dữ liệu. Khi các ràng buộc không đƣợc đáp ứng các liên kết ràng buộc đƣợc gán bằng 0. Phân cụm ràng buộc dựa trên các liên kết liên quan nhƣng sự khác biệt đến từ phân cụm bán giám sát khi có một số nhãn đƣợc biết trƣớc.

1.5 Kết luận chƣơng 1

Chƣơng 1 của luận văn giới thiệu về mạng nơron sinh học bao gồm cấu trúc của mạng nơron sinh học và nguyên lý hoạt động của nơron sinh học. Về nơron nhân tạo giới thiệu cấu trúc của một nơron nhân tạo, mô hình của mạng nơron nhân tạo, trình bày một số mạng nơron nhân tạo .

Quy tắc học của mạng nơron, trình bày 3 luật học cơ bản của mạng nơron bao gồm: Học có giám sát, học không giám sát và học tăng cƣờng.

Trong chƣơng 1 đã nêu lên một số phƣơng pháp phân cụm đƣợc sử dụng rộng rãi trong phân cụm dữ liệu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Chƣơng 2: PHÂN CỤM DỮ LIỆU SỬ DỤNG MẠNG SOM

2.1 Thuật toán phân cụm dữ liệu

Phân cụm dữ liệu là một lĩnh vực quan trọng trong khai phá dữ liệu. Với sự ra đời của nhiều thuật toán phân cụm và đƣợc sử dụng trong nhiều ứng dụng : Xử lý hình ảnh, sinh học dùng máy điện toán, truyền thông di động, kinh tế. Vấn đề chính với các thuật toán phân cụm dữ liệu mà nó không thể đƣợc chuẩn hóa. Thuật toán phát triển có thể cho kết quả tốt nhất với một loại tập hợp dữ liệu, nhƣng có thể thất bại hoặc cho kết quả kém với các dữ liệu của các loại khác. Mặc dù đã có nhiều nỗ lực để tiêu chuẩn hóa các thuật toán có thể thực hiện tốt trong tất cả các trƣờng hợp tình huống tuy nhiên vẫn chƣa đạt đƣợc kết quả nhƣ mong muốn. Nhiều thuật toán phân nhóm đã đƣợc đề xuất. Mỗi thuật toán có giá trị riêng và điểm yếu riêng và không thể làm việc cho tất cả các tình huống thực tế. Phân cụm là quá trình phân vùng dữ liệu đƣợc thiết lập thành các nhóm dựa trên những đặc điểm tƣơng tự nhau. Đây là vấn đề quan trọng trong học không giám sát. Nó thực hiện công việc với cấu trúc tìm kiếm trong một bộ dữ liệu không đƣợc dán nhãn. Để thực hiện tốt các thuật toán phân cụm thì cần phải có những điều kiện[3]:

- Khả năng mở rộng - dữ liệu phải đƣợc mở rộng nếu không sẽ đƣa ra kết quả sai

- Thuật toán phân cụm phải có khả năng giải quyết với các loại thuộc tính khác nhau.

- Thuật toán phân cụm phải tìm ra các cụm dữ liệu với những hình dạng khác nhau.

- Thuật toán phân cụm không bị ảnh hƣởng bởi nhiễu và giá trị ngoại lệ. - Kết quả thu đƣợc có thể giải thích đƣợc và có thể sử dụng để hiểu biết tối đa các thông số đầu vào.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

2.2 Thuật toán phân cụm tuyến tính không giám sát

2.2.1 Thuật toán phân cụm K-mean

K-mean là một trong các thuật toán học không giám sát để thực hiện phân cụm dữ liệu. Thủ tục đơn giản và dễ dàng để phân loại dữ liệu đƣợc thiết lập thông qua số lƣợng nhất định các cụm (giả sử k cụm). Xác định trung tâm của mỗi cụm. Trung tâm của mỗi cụm phải đƣợc đặt ở những vị trí chính xác vì đặt ở những vị trí khác nhau sẽ đƣa ra kết quả khác nhau. Vị trí đặt các trung tâm ở những vị trí càng xa nhau càng tốt. Bƣớc tiếp theo là lấy mỗi điểm thuộc một tập hợp dữ liệu đƣa ra và liên kết đến trung tâm gần nhất. Khi không có điểm chờ xử lý bƣớc đầu tiên đƣợc hoàn thành và một nhóm đầu tiên đƣợc thực hiện. Tại thời điểm này chúng ta cần phải tính toán lại trọng tâm k mới nhƣ là trọng tâm của các cụm kết quả từ bƣớc trƣớc. Sau khi có những trọng tâm k một ràng buộc mới có thể đƣợc thực hiện giữa tập hợp điểm dữ liệu và trung tâm mới gần nhất. Tạo ra một vòng lặp kết quả của vòng lặp này có thể nhận thấy rằng các trung tâm k thay đổi vị trí của chúng cho đến khi các trung tâm không có bất kì di chuyển nào. Thuật toán này nhằm mục đích giảm thiểu hàm mục tiêu nhƣ là hàm bình phƣơng sai số:

i 2 C C i j i 1 j 1 f (v) ( x v )     (2.1) Trong đó: i j x v : là khoảng cách Euclide Ci: Số điểm dữ liệu trong cụm thứ i C: Số lƣợng các trung tâm cụm

Các bước thực hiện thuật toán K-mean

Cho X={x1,x2…xn} là tập hợp các điểm dữ liệu, V={v1,v2,v3…vn} là tập các trung tâm.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Bƣớc 2: Tính khoảng cách giữa các điểm với trung tâm cụm.

Bƣớc 3: Gán các điểm dữ liệu đến trung tâm cụm có khoảng cách tối thiểu của tất cả các trung tâm cụm.

Bƣớc 4: Tính toán lại các trung tâm cụm mới bằng công thức:

i C i i j 1 i 1 v x c    (2.2)

Trong đó: ci đại diện cho số lƣợng các điểm dữ liệu trong cụm thứ i.

Bƣớc 5: Tính toán lại khoảng cách giữa mỗi điểm dữ liệu và các trung tâm cụm mới thu đƣợc.

Bƣớc 6: Nếu không có điểm dữ liệu đƣợc gán lại khi dừng thì lặp lại bƣớc 3

Ưu điểm của thuật toán K-mean:

- Thuật toán thực hiện cho ra kết quả nhanh chóng, mạnh mẽ và dễ hiểu - Độ phức tạp của thuật toán O(tknd) trong đó n là các đối tƣợng, k là các cụm, d kích thƣớc của từng đối tƣợng t là số lần lặp thông thƣờng k,d,t<<n.

- Cho kết quả tốt nhất với tập dữ liệu riêng biệt hoặc tách rời nhau.

Nhược điểm của thuật toán K-mean:

- Thuật toán yêu cầu biết trƣớc số lƣợng trung tâm cụm.

- Nếu có nhiều hơn 2 bộ dữ liệu chồng chéo nhau thì thuật toán khó phân cụm.

- Dữ liệu đại diện cho mẫu của tọa độ đề các và tọa độ cực sẽ cho kết quả khác nhau.

- Lựa chọn ngẫu nhiên trung tâm các cụm có thể dẫn tới kết quả không tối ƣu.

- Không thể xử lý nhiễu và dữ liệu ngoại lai.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

2.2.2 Thuật toán phân cụm mờ C-mean

Thuật toán làm việc bằng cách gán cho mỗi điểm dữ liệu với một trung tâm cụm dựa trên cơ sở khoảng cách giữa các điểm dữ liệu với trung tâm các cụm. Dữ liệu gần trung tâm của cụm nào sẽ là thành viên của cụm đó. Tổng các thành viên của từng điểm dữ liệu xấp xỉ bằng 1. Sau khi từng thành viên lặp đi lặp lại và các trung tâm cụm đƣợc cập nhật theo công thức:

ij 2 1 m c ij k 1 ik 1 d d μ           (2.3)     n m ij i i 1 n j m ij i 1 x v μ μ       j 1, 2,3...c (2.4) Trong đó: n: là số lƣợng các điểm dữ liệu. vj : Trung tâm cụm thứ j m: là chỉ số mập mờ m[1, ] c: số lƣợng các trung tâm cụm ij

μ : đại diện cho các thành viên dữ liệu thứ i đến trung tâm cụm thứ j. dij : khoảng cách Euclide giữa các dữ liệu thứ i và trung tâm cụm thứ j Mục tiêu chính của thuật toán phân cụm mờ C-mean là để giảm thiểu:

n c  m 2 i, j i j i 1 j 1 j(u, v) μ x v     (2.5) Trong đó xi vj : khoảng cách Euclide giữa các dữ liệu thứ i và trung tâm cụm thứ j.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Cho X={x1,x2…xn} là tập hợp các điểm dữ liệu, V={v1,v2,v3…vn} là tập các trung tâm.

Bƣớc 1: Chọn ngẫu nhiên trung tâm cụm c.

Bƣớc 2: Tính toán các thành viên mờ μijbằng công thức:

ij 2 1 m c ij k 1 ik 1 d d μ           (2.6)

Bƣớc 3: Tính toán các trung tâm mờ sử dụng công thức:

    n m ij i i 1 n j m ij i 1 x v μ μ       j 1, 2,3...c (2.7) Bƣớc 4: Lặp lại bƣớc 2 và bƣớc 3 cho đến khi giá trị j đạt min hoặc

k 1 k

u  u β. Trong đó k là các bƣớc lặp, β là tiêu chuẩn kết thúc trong khoảng [0,1],U  μij n*clà ma trận thành viên mờ, j là hàm mục tiêu.

Ưu điểm của thuật toán phân cụm mờ C-mean:

Cho kết quả tốt hơn đối tập dữ liệu chồng chéo so với thuật toán K- mean. Không giống nhƣ thuật toán K-mean dữ liệu thuộc về trung tâm một cụm trong thuật toán C-mean dữ liệu đƣợc gán cho trung tâm mỗi cụm bằng kết quả của điểm dữ liệu có thể thuộc về nhiều hơn trung tâm một cụm.

Nhược điểm của thuật toán C-mean

Số lƣợng các cụm đƣợc đặc tả tiên nghiệm rõ

Với giá trị thấp hơn β chúng ta có đƣợc kết quả tốt hơn nhƣng số vòng lặp nhiều hơn.

Trọng số cơ bản không đồng đều khi sử dụng phƣơng pháp đo khoảng cách Euclide

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

2.2.3 Thuật toán phân cụm phân cấp

Thuật toán phân cụm phân cấp gồm có 2 loại: Thuật toán phân cụm theo thứ bậc trên xuống (Agglomerative Hierarchical). Thuật toán phân cụm theo thứ bậc từ dƣới lên (Divisive Hierarchical). Hai thuật toán này trình tự làm việc ngƣợc nhau. Thuật toán phân cụm phân cấp. Thuật toán này hoạt động bằng cách nhóm dữ liệu từng cặp một trên cơ sở các biện pháp khoảng cách gần nhất của khoảng cách giữa các điểm dữ liệu tất cả các cặp. Một lần nữa khoảng cách giữa các điểm dữ liệu đƣợc tính toán lại. Khi các nhóm đã đƣợc