Phân cụm phân cấp Top-down và Bottom-up

Một phần của tài liệu Nghiên cứu ứng dụng khai phá dữ liệu phân cụm trong phân đoạn khách hàng tại NH nông nghiệp và phát triển nông thôn trực ninh nam định khoá luận tốt nghiệp 334 (Trang 44 - 46)

Thuật toán HAC là một thuật toán phân cụm Top- down được sử dụng rất rộng

rãi và được tích hợp vào các ứng dụng thu nhập thông tin. HAC yêu cầu định nghĩa hàm khoảng cách- hay độ tương tự giữa các cụm sau đó ở mỗi bước sẽ phân chia thành các cụm nhỏ hơn từ các cụm lớn.

❖Ưu điểm:

- Đơn giản, dễ thực hiện.

❖Nhược điểm:

- Các cụm được phân chia một lần, không thể quay lại quyết định đó, cho dù việc phân chia khơng phải là thích hợp ở mức đó.

- Độ phức tạp lớn, thời gian thực hiện lâu - Không áp dụng được với cơ sở dữ liệu lớn.

Thuật toán K-Means: Thuật toán k-means xếp vào lớp thuật toán phân cụm

phẳng, ý tưởng chính của thuật tốn là biểu diễn một cụm bằng trọng tâm nằm trong cụm đó. Thuật tốn thực hiện bằng cách tối thiểu hóa tổng bình phương khoảng cách từ dữ liệu đến tâm của cụm tương ứng. Việc quyết định phân một đối tượng dữ liệu vào một cụm là dựa vào độ tương đồng của đối tượng đó với trọng tậm của các cụm. Thuật tốn K-means là thuật toán đơn giản, dễ hiểu, dễ sử dụng nên được sử dụng trong nhiều lĩnh vực.

- Ưu điểm:

o Có khả năng mở rộng, có thể dễ dàng sửa đổi với những dữ liệu mới. o Bảo đảm hội tụ sau 1 số bước lặp hữu hạn.

o Ln có K cụm dữ liệu

o Ln có ít nhất 1 điểm dữ liệu trong 1 cụm dữ liệu.

phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định

o Mọi thành viên của 1 cụm là gần với chính cụm đó hơn bất cứ 1 cụm nào

khác. - Nhược điểm:

o Khó khăn trong việc xác định các trọng tâm cụm ban đầu

+ Chọn ngẫu nhiên các trung tâm cụm lúc khởi tạo

+ Độ hội tụ của thuật toán phụ thuộc vào việc khởi tạo các vector trung tâm cụm

o Khó để chọn ra được số lượng cụm tối ưu ngay từ đầu, mà phải qua nhiều lần thử để tìm ra được số lượng cụm tối ưu.

o Rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu.

o Không phải lúc nào mỗi đối tượng cũng chỉ thuộc về 1 cụm, chỉ phù hợp

với đường biên giữa các cụm rõ.

So sánh thuật toán K-Means với các thuật toán cịn lại tiêu biểu là thuật tốn HAC và lý do sử dụng thuật toán K-Means giải quyết bài toán phân đoạn khách hàng: Thuật toán HAC mặc dù đơn giản nhưng thường gặp khó khăn khi ra các

quyết định tới hạn cho việc lựa chọn của phân chia một cách chính xác. Quyết định như vậy gọi là tới hạn bởi một khi một nhóm các đối tượng được phân chia, xử lý tại bước tiếp theo sẽ làm việc trên trên các cụm mới sinh ra. Nó sẽ khơng bao giờ huỷ những việc đã làm trước đó và cũng khơng thực hiện chuyển đổi đối tượng giữa các cụm. Do vậy phân chia nếu khơng đủ sáng suốt ở mỗi bước thì có thể dẫn tới chất lượng các cụm sẽ kém. Hơn nữa, phương pháp này khả năng mở rộng không được tốt nên quyết định phân chia cần kiểm định và đánh giá một số lượng tốt các đối tượng hay các cụm. Thuật toán K-Means cũng là thuật tốn phân tích phân cụm đơn giản, độ chính xác hợp lí, tính mở rộng cao, thời gian thực hiện ít nên áp dụng phù hợp đối với tập dữ liệu lớn như dữ liệu về khách hàng vay vốn tại ngân hàng. Đầu vào cũng như đầu ra của thuật toán đáp ứng việc giải quyết bài toán phân đoạn khách hàng ở mức độ chính xác cần thiết,hợp lý, chấp nhận được. Cũng vì là thuật tốn đơn giản nên phù họrp với việc bước đầu nghiên cứu, tìm hiểu và tiếp cận với khai phá dữ liệu nói chung và các phương pháp phân cụm dữ liệu nói riêng.

2.2.2.Thuật tốn phân cụm K-Means

Thuật toán này dựa trên độ đo khoảng cách của các đối tượng dữ liệu đến phần tử là trung tâm của cụm chứa nó.

Thuật tốn k-means lấy tham số đầu vào là k và phân chia một tập n đối tượng vào trong k cụm để cho kết quả độ tương đồng trong cụm là cao trong khi độ tương đồng ngoài cụm là thấp. Độ tương đồng cụm được đo khi đánh giá giá trị trung bình của các đối tượng trong cụm, nó có thể được quan sát như là “trọng tâm” của cụm.

Giải thuật xử lý như sau: trước tiên nó lựa chọn ngẫu nhiên k đối tượng, mỗi đối tượng đại diện cho một trung bình cụm hay tâm cụm. Đối với những đối tượng còn lại, mỗi đối tượng sẽ được ấn định vào một cụm mà nó giống nhất dựa trên khoảng

X: tuổi Y: Thu nhập (tr) A 30 8 B 40 5 C 50 10 D 25 7

phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định

cách giữa đối tượng và trung bình cụm. Sau đó sẽ tính lại trung bình cụm mới cho mỗi cụm. Xử lý này sẽ được lặp lại cho tới khi hàm tiêu chuẩn hội tụ. Bình phương sai số thường dùng làm hàm tiêu chuẩn hội tụ, định nghĩa như sau : E= Σ Σ. ʌ- - 2 với x là điểm trong không gian đại diện cho đối tượng cho trước, mi là trung bình cụm Ci (cà x và mi đều là đa chiều). Tiêu chuẩn này cố gắng cho kết quả k cụm càng đặc, càng riêng biệt càng tốt.

Một phần của tài liệu Nghiên cứu ứng dụng khai phá dữ liệu phân cụm trong phân đoạn khách hàng tại NH nông nghiệp và phát triển nông thôn trực ninh nam định khoá luận tốt nghiệp 334 (Trang 44 - 46)