Sau đây là các yêu cầu đặc trưng của phân cụm: Tính mở rộng: nhiều thuật toán khai phá dữ liệu làm việc tốt trên những tập dữ liệu chứa ít đối tượng; tuy nhiên, một cơ sở dữ liệu lớn t
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 3MỤC LỤC
MỞ ĐẦU 6
Chương 1 Khái quát về phân cụm 3
1.1 Khái quát về bài toán phân cụm dữ liệu 3
1.2 Một số phương pháp phân cụm điển hình 4
1.2.1 Các phương pháp phân vùng 4
1.2.2 Các phương pháp phân cấp 10
1.2.3 Phương pháp phân cụm dựa trên mật độ 15
Chương 2 Phương pháp phân cụm tích lũy 19
2.1 Giới thiệu phương pháp phân cụm tích lũy 19
2.2 Sự kết hợp bầu cử đa số của các thuật toán phân cụm 20
2.3 Một số thuật toán phân cụm tích lũy 21
2.3.1 Phân cụm tích lũy dựa trên K-Means 22
2.3.2 Phân cụm tích lũy dựa trên lan truyền quan hệ 25
Chương 3 Mô hình khai phá dữ liệu dịch vụ khách hàng Ngân hàng quân đội 32
3.1 Một số mô hình khai phá dữ liệu ngân hàng 32
3.2 Hệ thống dịch vụ Ngân hàng quân đội 47
3.2.1 Hệ thống các dịch vụ 47
3.2.2 Hệ thống dữ liệu 48
3.3 Một mô hình phân cụm tích lũy dữ liệu khách hàng tại Ngân hàng quân đội 50
Chương 4 Thực nghiệm và đánh giá 52
4.1 Mục đích xây dựng và vai trò của ứng dụng 52
4.2 Mô hình thực nghiệm 52
4.2.1 Dữ liệu thực nghiệm 52
4.2.2 Công cụ thực nghiệm 57
4.3 Thực nghiệm và đánh giá 59
4.3.1 Môi trường thực nghiệm 59
4.3.2 Mô tả quy trình thực nghiệm 61
4.3.3 Kết quả thực nghiệm và đánh giá nhận xét 62
Trang 4KẾT LUẬN 71 TÀI LIỆU THAM KHẢO 72
Trang 5THUẬT NGỮ VÀ TỪ VIẾT TẮT
STT Từ viết tắt Giải thích
tuyến
khách hàng
Trang 6DANH MỤC HÌNH VẼ
Hình 1.1: Một phần nhỏ của dữ liệu khách hàng về các vị trí khách hàng trong một thành
phố, chỉ ra ba phân cụm dữ liệu, Mỗi trung tâm phân cụm được đánh dấu „+‟ [1] 3
Hình 1.2: Quá trình phân cụm tập điểm thành 3 cụm theo k-means [1] 6
Hình 1.3 trường hợp của hàm chi phí cho phân cụm k-medoid [1] 8
Hình 1.4: Quá trình phân cụm tập điểm thành 3 cụm theo k- medoids [1] 9
Hình 1.5: phân cụm phân cấp dạng tích lũy và phân chia trên các đối tượng dữ liệu {a,b,c,d,e} [1] 11
Hình 1.6: Một cây cấu trúc CF [1] 12
Hình 1.7: Phương pháp Chameleon 15
Hình 1.8 Phạm vi mật độ và sự liên kết mật độ trong phân cụm dựa trên mật độ [1] 16
Hình 1.9: Phân cụm dựa trên phương pháp mật độ [1] 18
Hình 2.1: Bổ xung sự phụ thuộc của thuật toán k-means trên sự khởi tạo trung tâm cụm, k=2 (a)- vùng dữ liệu có được với việc chạy thuật toán k -means đơn (b)- kết quả có được khi sử dụng phương thức đề xuất với số lần lặp là 10 23
Hình 2.2: Các cụm tạo ra bởi k-means (k=14) và các thuật toán voting-k-means 24
Hình 2.3: Kết quả phân cụm cho một số phương pháp áp dụng cho tập dữ liệu kích thước 2000 là tổ hợp của 2 vòng xoắn (a) k-means, k=45 2000 (b) PAP (=) (c) PAP (=4) 30
Chương 3 Mô hình khai phá dữ liệu dịch vụ khách hàng Ngân hàng quân đội 32
Hình 3.1: Việc sử dụng kĩ thuật khai phá dữ liệu là một thách thức to lớn đối với ngành tài chính Nguồn dữ liệu to lớn của công ty có thể được sử dụng thông qua khai phá dữ liệu cho những lĩnh vực ngành nghề khác[5] 35
Hình 3.2: Sử dụng kĩ thuật khai phá dữ liệu đối cho rủi ro khách hàng, công cụ tài chính, danh mục đầu từ đối thị trường và với phương pháp đánh giá rủi ro tín dụng [5] 39
Hình 3.3: Sự quản lý danh mục công cụ là cơ sở đối với mọi thông tin, không những là rủi ro, kịch bản và các mức độ tín dụng dự đoán, mà còn là các tin tức và tài nguyên thông tin khác.[5] 44
Hình 3.4: Những người kinh doanh kiểm tra mối quan hệ giữa thông tin liên quan và giá trị của tài sản ngành tài chính, và các mức độ an toàn mua hoặc bán khi họ phát hiện giá lên hay xuống [5] 45
Trang 7Hình 3.5 Mô hình tính toán dữ liệu phương pháp phân cụm tích lũy dựa trên k-means 51
Hình 4.1: Giao diện ứng dụng cài đặt thuật toán phân cụm tích lũy dựa trên phương pháp k-means 58
Hình 4.2: Mô hình ứng dụng cài đặt 61
Hình 4.3: Giao diện thực nghiệm theo phương án 1 63
Hình 4.4: Giao diện đồ họa thể hiện hai cụm theo phương án thực nghiệm 1 64
Hình 4.5: Thay đổi tham số đầu vào liên quan đến quá trình thực nghiệm 65
Hình 4.6: Giao diện đồ họa thể hiện khi thay đổi tham số thực nghiệm 66
Hình 4.7: (a) Phân cụm theo Phương pháp k-means; (b) Phân cụm theo Phương pháp Phân cụm tích lũy dựa trên Phương pháp k-means 67
Hình 4.8: Thực nghiệm theo phương án 2 69
Trang 8MỞ ĐẦU
Những năm gần đây, ngành công nghệ thông tin chuyên nghiên cứu về các thuật toán và phương pháp sử dụng trong lĩnh vực khai phá dữ liệu đã có những bước tiến mới song song cùng với sự phát triển của ngành tin học nói chung Đã có nhiều thuật toán mới được đưa ra nhằm trích rút thông tin, phân loại dự đoán đặc điểm của dữ liệu từ tập
dữ liệu có trước Đây là điều rất quan trọng đối với một xã hội phát triển trong đó đòi hỏi nhu cầu hiệu quả trong hoạt động
Trong vài năm trở lại đây, nhu cầu dự đoán hành vi khách hàng của các Ngân hàng đang tăng cao Ngân hàng Quân đội (MB) cũng không nằm ngoài xu hướng trên Mục đích của các Ngân hàng là làm thế nào để biết được rằng một khách hàng sẽ có khả năng cao là sử dụng một dịch vụ cụ thể của mình Để giải quyết bài toán trên, phương pháp khai phá dữ liệu, dùng những thông tin có từ trước về tập khách hàng cũ để dự đoán hành vi của khách hàng mới Tuy nhiên, vấn đề là phải áp dụng phương pháp nào
để đảm bảo rằng công việc dự đoán là có hiệu quả nhất
Một trong những phương pháp hiện đại được đưa ra trong năm vừa rồi là phương pháp phân cụm tích lũy dựa trên một số phương pháp truyền thống Nguyên tắc chung của phương pháp là áp dụng lặp lại nhiều lần đối với việc phân cụm để tạo ra nhiều cụm
đã được phân cụm, rồi dựa trên các thông tin này để xây dựng lại các cụm Công việc này sẽ đảm bảo rằng việc phân cụm là chính xác
Luận văn tập trung tìm hiểu phương pháp phân cụm tích lũy, phân tích nghiệp vụ của Ngân hàng Quân đội và tập dữ liệu khách hàng, đồng thời qua đó nêu ra cách áp dụng và xây dựng cài đặt ứng dụng dựa trên thuật toán phân cụm tích lũy dựa trên phương pháp k-means để dự đoán hành vi khách hàng mới
Nội dung của bản luận văn gồm có phần mở đầu, bốn chương và phần kết luận Chương 1 Luận văn trình bày khái niệm phân cụm, các phương pháp phân cụm điển hình, xem xét các điểm mạnh, điểm yếu của từng phương pháp này
Chương 2 Luận văn trình bày một phương pháp phân cụm mới được đưa ra là phân cụm tích lũy Phương pháp phân cụm tích lũy dựa trên phương pháp k-means được
khảo sát sâu nhằm áp dụng vào bài toán ứng dụng
Chương 3 Chương này, luận văn sẽ phân tích mô hình hoạt động kinh doanh của Ngân hàng Quân đội (MB) và xem xét cách thức áp dụng khai phá dữ liệu trong Ngân hàng này
Trang 9Chương 4 Trong chương 3 luận văn đã phân tích thực trạng hoạt động kinh doanh cũng như việc lưu trữ dữ liệu của Ngân hàng Quân đội và nhu cầu cần thiết phải có một chương trình để có khả năng khai thác dữ liệu khách hàng đã có nhằm mục đích quảng
bá hình ảnh và dịch vụ của Ngân hàng Quân đội, nhằm duy trì khách hàng đã có và có thêm khách hàng mới Trong chương này sẽ tiến hành xây dựng ứng dụng nhằm phục vụ cho mục tiêu khai phá dữ liệu đã đề ra, đồng thời xây dựng và thực hiện các phương án thực nghiệm kết quả của ứng dụng
Luận văn này được thực hiện dưới sự hướng dẫn khoa học của TS Hà Quang
Thụy và được hỗ trợ một phần từ Đề tài QG.10-38 Tôi xin chân thành cảm ơn sâu sắc tới Thầy đã chỉ dẫn tận tình giúp tôi có thể hoàn thành bản luận văn này Tôi xin chân thành cảm ơn các thầy giáo và các bạn trong bộ môn Các Hệ thống Thông tin đã có những góp ý hữu ích trong quá trình thực hiện bản luận văn Tôi cũng vô cùng cảm ơn sự
giúp đỡ và động viên khích lệ của người thân trong gia đình tôi, bạn bè và các đồng
nghiệp trong Ngân hàng MB trong suốt quá trình thực hiện luận văn
Trang 10Chương 1 Khái quát về phân cụm
1.1 Khái quát về bài toán phân cụm dữ liệu
Không giống sự phân loại và sự dự đoán dùng để phân tích lớp đối tượng, phân loại theo lớp, sự phân cụm phân tích đối tượng dữ liệu mà không tham chiếu đến các lớp
đã được phân loại trước [1] Nói chung, các lớp đã phân loại trước không xuất hiện trong
dữ liệu có sẵn Sự phân cụm có thể được sử dụng để tạo ra các lớp Bài toán phân cụm có thể được phát biểu như sau: Cho một tập các đối tượng cho trước, yêu cầu phân các đối tượng trên thành các cụm sao cho các đối tượng trong cùng một nhóm là tương đối giống nhau, các đối tượng trong các nhóm khác nhau là rất khác nhau Nói cách khác, các đối tượng được phân cụm dựa trên nguyên lý của sự cực đại hóa sự giống nhau trong lớp và tối thiểu hóa sự giống nhau giữa các lớp Mỗi cụm được hình thành có thể được xem như một lớp của các đối tượng, mà từ đó có thể tạo ra các luật
Ví dụ, phân cụm có thể thực hiện trên dữ liệu khách hàng để nhận ra những tập khách hàng đồng nhất Những cụm này có thể biểu diễn các nhóm đích riêng biệt cho việc quảng cáo Hình 1.1 chỉ ra cụm 2-D của khách hàng ở trong một thành phố Ba cụm của điểm dữ liệu rất rõ ràng
Hình 1.1: Một phần nhỏ của dữ liệu khách hàng về các vị trí khách hàng trong một thành phố, chỉ ra ba phân cụm dữ liệu, Mỗi trung tâm phân cụm được đánh dấu ‘+’ [1]
Phân cụm là một lĩnh vực nghiên cứu đầy thách thức, trong đó, các ứng dụng tiềm năng của nó đưa ra những đòi hỏi riêng Sau đây là các yêu cầu đặc trưng của phân cụm:
Tính mở rộng: nhiều thuật toán khai phá dữ liệu làm việc tốt trên những tập dữ liệu chứa ít đối tượng; tuy nhiên, một cơ sở dữ liệu lớn thường chứa hàng triệu đối tượng, đòi hỏi những thuật toán có khả năng mở rộng cao
Khả năng khám phá các phân cụm với các hình dạng ngẫu nhiên: nhiều thuật toán phân cụm xác định các cụm dựa trên đại lượng khoảng cách Euclidean hoặc Manhattan Những thuật toán dựa trên đại lượng khoảng cách này thường tìm
Trang 11được các cụm hình cầu với kích thước và mật độ tương tự nhau Tuy nhiên, một cụm có thể có bất kì hình dạng nào khác Cần phải phát triển một thuật toán phát hiện cụm với hình dạng khác nhau
Các yêu cầu tối thiểu cho tri thức miền để xác định các tham số đầu vào: nhiều thuật toán đòi hỏi người dùng phải đưa tham số đầu vào (ví dụ như số cụm) Kết quả phân cụm có thể là rất nhậy cảm đối với tham số đầu vào Các tham số đầu vào thường khó xác định, đặc biệt là đối với các đối tượng nhiều chiều
Khả năng làm việc với dữ liệu nhiễu: hầu hết dữ liệu trên thế giới chứa những thành phần bên ngoài hoặc dữ liệu bị thiếu hụt, bị lỗi, một số thuật toán nhạy cảm với những loại dữ liệu trên dẫn tới việc phân cụm nghèo nàn
Khả năng phân cụm tăng dần và không nhạy cảm với trình tự bản ghi đầu vào: một số thuật toán phân cụm không thể kết hợp dữ liệu thêm mới (nghĩa là, dữ liệu cập nhật) vào trong các cấu trúc phân cụm đang tồn tại, và do đó phải xác định một sự phân cụm mới từ đầu Một số thuật toán phân cụm nhạy cảm với trình tự
dữ liệu đầu vào Điều này quan trọng đối với các thuật toán phân cụm tăng dần và thuật toán không nhạy cảm với thứ tự đầu vào
Số chiều lớn: một cơ sở dữ liệu hoặc kho dữ liệu có thể chứa một số chiều hoặc các thuộc tính Nhiều thuật toán phân cụm dùng tốt cho dữ liệu ít chiều, bao gồm chỉ hai hoặc ba chiều Mắt con người dùng tốt cho việc đánh giá lên đến ba chiều Tìm kiếm các phân cụm của các đối tượng dữ liệu trong không gian nhiều chiều là một thách thức
Sự phân cụm dựa trên ràng buộc: các ứng dụng trong thế giới thực có thể cần sự phân cụm dưa trên nhiều loại ràng buộc khác nhau Gỉa sử rằng công việc của bạn
là tìm ra vị trí lựa chọn để đặt máy ATM, để quyết định việc này, bạn phải phân cụm và xem xét vị trí, đường cao tốc, kiểu của khách hàng trên cụm…
Tính thông dịch và hữu dụng: người dùng mong muốn kết quả phân cụm được thông dịch, hiểu và sử dụng được Đó là, phân cụm cần được kết hợp với sự thông dịch ngữ nghĩa và các ứng dụng Điều quan trọng là nghiên cứu làm thế nào một mục đích ứng dụng có thể tác động lên sự lựa chọn của các đặc tính phân cụm và các phương pháp
1.2 Một số phương pháp phân cụm điển hình
1.2.1 Các phương pháp phân vùng
Cho một cơ sở dữ liệu của n đối tượng hoặc dòng dữ liệu, một phương pháp phân cụm tạo ra k cụm của dữ liệu, trong đó mỗi vùng biểu diễn một cụm, và k n Phương
Trang 12pháp này phân chia dữ liệu vào k nhóm, đáp ứng những yêu cầu sau: (1) mỗi nhóm phải chứa ít nhất một đối tượng và, (2) mỗi đối tượng phải thuộc duy nhất một nhóm [1] Chú
ý rằng yêu cầu thứ hai có thể bỏ qua trong một số kĩ thuật được miêu tả ở phần dưới
Đưa ra k là số lượng cụm để xây dựng, một phương thức phân cụm cần khởi tạo cụm Sau đó sử dụng một kĩ thuật định vị trí lặp lại để cố gắng tăng sự cụm bằng cách rời các đối tượng từ một nhóm tới một nhóm khác Tiêu chuẩn chung của một sự phân cụm tốt là các đối tượng trong cùng vùng là gần giống hoặc liên quan đến những đối tượng khác, trong khi các đối tượng của các cụm khác nhau lại rất khác nhau Có rất nhiều kiểu tiêu chuẩn dành cho việc đánh giá chất lượng cụm
Để có được sự tối ưu toàn diện trong cụm dựa trên sự phân cụm sẽ đòi hỏi số lượng cực lớn của mọi sự phân cụm có thể Thay vào đó, hầu hết các ứng dụng chấp nhận một trong hai phương pháp heuristic phổ biến: thuật toán k-means, nơi mỗi cụm được biểu diễn bởi giá trị trung bình của các giá trị trong cụm; và thuật toán k-medoids, trong đó mỗi cụm được biểu diễn bởi một trong các đối tượng gần trung tâm của cụm Các phương thức cụm heuristic này làm việc tốt khi tìm kiếm các cụm hình cầu trong cơ
sở dữ liệu nhỏ hoặc trung bình Khi tìm kiếm các cụm với hình dạng phức tạp và cho tập
dữ liệu lớn, các phương pháp phân cụm trên cần phải mở rộng
Phương pháp k-means
Thuật toán k-means có tham số đầu vào k, và phân một tập n đối tượng thành k cụm sao cho các đối tượng trong một cụm là tương đối giống nhau còn các đối tượng giữa các cụm lại có sự khác biệt khá rõ [1] Sự giống nhau trong cụm được đánh giá theo giá trị trung bình của các đối tượng trong đoạn, còn có thể được xem như là “trung tâm của trọng lực” của cụm
Thuật toán xử lý như sau: Đầu tiên, nó ngẫu nhiên lựa chọn k các đối tượng mà mỗi đối tượng đại diện cho một trung bình hay trung tâm phân đoạn Đối với mỗi đối tượng còn lại, một đối tượng được gán cho một cụm mà giống nó nhất, dựa trên khoảng cách giữa đối tượng và trung bình của đoạn Nó sau đó sẽ tính trung bình mới cho mỗi
đoạn Xử lý này được lặp lại tới tận khi hàm tiêu chuẩn hội tụ Thường hàm hội tụ sau
Trang 13Thuật toán k means:
Đầu vào: Số cụm k, và một cơ sở dữ liệu chứa n đối tượng
Đầu ra: Một tập k cụm với trọng tâm của mỗi cụm
3 Cho đến khi giá trị hàm mục tiêu không thay đổi
Thuật toán cố gắng xác định k cụm mà tối thiểu hóa hàm mục tiêu đưa ra Phương thức này có khả năng mở rộng và hoạt động hiệu quả trong khi xử lý các tập dữ liệu lớn bởi vì độ phức tạp tính toán của thuật toán là O (knt), trong đó n là tổng số đối tượng, k
là số cụm, và t là số lần lặp lại, thông thường k<<n và t<<n Phương thức thường kết thúc ở một sự tối thiểu cục bộ
sự phân phối dữ liệu
Làm thế nào thay đổi thuật toán để làm giảm bớt sự nhạy cảm như vậy? Thay cho việc lấy giá trị trung bình của các đối tượng trong một phân cụm như điểm tham chiếu, chúng ta có thể lấy những đối tượng thực để biểu diễn phân cụm, sử dụng một đối tượng biểu diễn một phân cụm Mỗi đối tượng đang tồn tại được phân cụm với đối tượng biểu
Trang 14diễn mà giống nó nhất Phương pháp phân cụm được thực hiện dựa trên nguyên lý tối thiểu tổng của sự khác biệt giữa mỗi đối tượng và điểm tham chiếu của nó Đó là, một chuẩn lỗi-tuyệt đối (absolute-error criterion) được dùng như sau:
j k
j
o p
1
Trong đó E là tổng lỗi tuyệt đối của mọi đối tượng trong tập dữ liệu; p là điểm trong không gian biểu diễn một đối tượng đưa ra trong phân cụm C j; và oj là đối tượng biểu diễn của C j Nói chung, trạng thái lặp đến tận khi mỗi đối tượng biểu diễn thực sự
là medoid, hoặc đối tượng nằm ở trung tâm
Xem xét trạng thái phân cụm k-medoid Các đối tượng biểu diễn khởi tạo (hoặc hạt giống) được chọn ngẫu nhiên.Việc thay thế các đối tượng biểu diễn bởi đối tượng không biểu diễn còn lại sẽ được thực hiện nếu chất lượng của kết quả phân cụm được cải tiến Chất lượng này được đánh giá bằng cách sử dụng một hàm chi phí để đo lường sự khác nhau trung bình giữa một đối tượng và đối tượng biểu diễn trong phân cụm của nó
Để xác định một đối tượng không biểu diễn orandom là sự thay thế tốt của đối tượng biểu diễn oj hiện tại cần kiểm tra 4 trường hợp sau đối với mỗi đối tượng không biểu diễn p Xem mô tả trong hình 1.4
Trường hợp 1: p hiện tại thuộc đối tượng biểu diễn oj Nếu oj bị thay bằng
orandom và p gần với một trong những đối tượng biểu diễn khác oi, với ij thì gán p thuộc oi
Trường hợp 2: p hiện tại thuộc đối tượng biểu diễn oj Nếu oj bị thay bằng
orandom và p gần nhất với orandom thì gán p thuộc orandom
Trường hơp 3: Nếu p hiện tại thuộc đối tượng biểu diễn oi (ij) Nếu oj bị thay bằng orandom như một đối tượng biểu diễn và p gần nhất với oi, thì để nguyên không thay đổi
Trường hợp 4: hiện tại p thuộc đối tượng biểu diễn oi (ij) Nếu oj được thay bằng orandom và p gần orandom nhất, p được gán thuộc orandom
Trang 15Hình 1.3 trường hợp của hàm chi phí cho phân cụm k-medoid [1]
Hàm chi phí tính được tính dựa trên sự khác nhau trong giá trị lỗi-tuyệt đối nếu một đối tượng biểu diễn hiện tại được thay bằng một đối tượng không biểu diễn Giả sử ban đầu cụm được biểu diễn bởi oj có tổng giá trị lỗi tuyệt đối là E 1, sau đó cụm được biểu diễn lại bởi giá trị orandom có tổng giá trị lỗi tuyệt đối là E2 Khi đó tổng chi phí chuyển đổi là|E 1 - E 2| Nếu tổng chi phí là âm, thì oj được thay thế hoặc đổi chỗ với
orandom
Nếu tổng chi phí dương, đối tượng biểu diễn hiện tại oj được chấp nhận, và không
có thay đổi trong việc lặp
Thuật toán PAM (Partitioning Around Medoid) được chỉ ra bên dưới Thuật toán thực hiện phân n đối tượng làm k cụm, độ phức tạp là O(k(n-k)2) Đối với các giá trị lớn của n và k, sự tính toán như vậy rất tốn chi phí
Thuật toán k-medoid PAM, một trạng thái k-modoid cho cụm dựa trên medoid hoặc các đối tượng trung tâm
Đầu vào: Số phân cụm k, tập dữ liệu D chứa n đối tượng
Đầu ra: Một tập k phân cụm
Thủ tục
1 Chọn ngẫu nhiên k (oj (j = 1 k)) đối tượng trong D như các đối tượng biểu diễn khởi tạo hoặc điểm hạt giống
2 Lặp lại
Trang 162.1 Gán mỗi đối tượng còn lại cho phân cụm với đối tượng biểu diễn gần nhất
2.2 Lựa chọn ngẫu nhiên một đối tượng không biểu diễn, o random 2.3 Tính tổng chi phí, S = Ej-E random , của việc hoán chuyển đối tượng biểu diễn, o j với o random
2.4 Nếu S<0 thì hoán đổi o j và o ramdon để hình thành tập mới k đối tượng biểu diễn
3 Tới tận khi không có sự thay đổi thì kết thúc
Phương thức k-medoid đáng tin cậy hơn k-trung bình bởi vì một medoid bị tác động bởi các nhân tố bên ngoài hoặc các giá trị rất lớn ít hơn k trung bình
Hình 1.4: Quá trình phân cụm tập điểm thành 3 cụm theo k- medoids [1]
Phương pháp phân cụm trong cơ sở dữ liệu lớn CLARANS
Phương pháp k-medoid chỉ thích hợp với việc sử dụng cho tập dữ liệu nhỏ Trong
cơ sở dữ liệu lớn, người ta sử dụng một phương pháp dựa trên mẫu, gọi là CLARA (Clustering Large Application)
Ý tưởng của phương pháp này là thay cho việc dùng toàn bộ tập dữ liệu trong sự phân cụm, một phần nhỏ của dữ liệu được chọn như đại diện cho tập dữ liệu Các medoid được chọn từ tập dữ liệu này sử dụng PAM Nếu mẫu được chọn theo cách ngẫu nhiên, nó gần như đại diện cho tập dữ liệu gốc Các đối tượng biểu diễn được chọn sẽ giống như trong toàn bộ cơ sở dữ liệu CLARA dùng nhiều mẫu trong tập dữ liệu, sử dụng PAM trên mỗi mẫu và trả lại phân cụm tốt nhất của nó CLARA có thể làm việc với tập dữ liệu lớn hơn PAM Độ phức tạp của mỗi vòng lặp là O(ks2+k(n-k)), trong dó s
là kích thước mẫu, k là số phân cụm, và n là tổng số đối tượng
Trang 17Độ chính xác của thuật toán CLARA phụ thuộc vào kích thước mẫu Chú ý rằng PAM tìm kiếm k điểm trung tâm trong tập dữ liệu đưa ra, trong khi đó CLARA tìm kiếm
k điểm trung tâm trong tập mẫu được lựa chọn CLARA không thể tìm được sự phân cụm chính xác nhất nếu không tìm được tập mẫu đại diện chính xác Ví dụ, Oi là điểm trung tâm tốt nhất của một trong k cụm nhưng lại không được lựa chọn trong mẫu, CLARA sẽ không bao giờ tìm được cách phân cụm một cách chính xác
Để cải tiến chất lượng của CLARA, một thuật toán phân cụm khác là CLARANS (Clustering Large Applications based upon RANdomized Search) được phát triển và giới thiệu bởi (Ng và Han 1994) CLARANS cũng sử dụng thuật toán k-medoids áp dụng PAM kết hợp với kỹ thuật lấy mẫu Tuy nhiên, không giống như CLARA, CLARANS không giới hạn các mẫu trong mỗi lần lặp Trong khi CLARA cố định các mẫu tại tất cả các bước trong quá trình phân cụm, CLARANS lấy ra các mẫu ngẫu nhiên trong từng bước
1.2.2 Các phương pháp phân cấp
Phương pháp phân cấp là sự phân chia các đối tượng dữ liệu đưa ra theo các cấp Phương pháp phân cấp có thể được thực hiện theo các cách tích tụ hoặc phân rã (agglomerative or divisive) Hướng tích tụ (agglomerative), còn gọi là hướng từ dưới lên (bottom up) bắt đầu với mỗi đối tượng tạo thành một nhóm riêng rẽ Nó hòa nhập các đối tượng hoặc nhóm bên cạnh (gần nhau) thành một, tới tận khi mọi nhóm được hòa nhập thành một (mức cao nhất của sự phân cấp), hoặc đến tận khi bắt gặp điều kiện kết thúc Hướng phân rã (divisive), còn gọi là từ trên xuống (top down), bắt đầu với mọi đối tượng trong cùng cụm Trong mỗi vòng lặp, một đoạn được phân chia thành những đoạn nhỏ hơn, tới tận khi mỗi đối tượng tương ứng một đoạn, hoặc tận khi gặp điều kiện kết thúc
Phương pháp phân cấp có nhược điểm là một khi một bước (hòa nhập hoặc phân chia) được thực hiện, nó có thể không bao giờ thay đổi Sự cứng nhắc này là chìa khóa đối với sự thành công của nó bởi vì nó dẫn đến chi phí tính toán nhỏ mà không lo lắng về một số sự tổ hợp của các lựa chọn khác nhau, đồng thời cũng là vấn đề chính bởi vì nó không thể sửa các quyết định sai
Phân cụm phân cấp dạng tích lũy và phân chia (agglomerative and divisive hierarchical Clustering)
Phân cụm phân cấp dạng tích lũy: chiến lược từ dưới lên này bắt đầu bằng việc
đặt mỗi đối tượng trong phân cụm của riêng nó và hòa nhập các phân cụm nhỏ thành những phân cụm lớn hơn đến tận khi mọi đối tượng trong một phân cụm đơn hoặc đến khi điều kiện kết thúc được thỏa mãn Hầu hết các phương thức phân cụm phân cấp thuộc loại này
Trang 18Phân cụm phân cấp phân chia: chiến lược này hướng từ trên xuống ngược với
chiến lược phân cụm tích lũy dần Nó phân chia cụm thành những cụm nhỏ hơn đến khi mỗi đối tượng tạo thành một cụm hoặc bắt gặp điều kiện kết thúc
Hình 1.5: phân cụm phân cấp dạng tích lũy và phân chia trên các đối tượng dữ liệu {a,b,c,d,e}
[1]
Trong cả hai loại phân cụm phân cấp này, người dùng có thể xác định số cụm mong muốn và điêu kiện kết thúc Bốn độ đo khoảng cách sử dụng rộng rãi giữa các cụm
được chỉ ra bên dưới, trong đó |p-p‟| là khoảng cách giữa hai đối tượng hoặc điểm p và
p’, và m i là trung bình của cụm C i và n i là số đối tượng trong C i
Khi thuật toán sử dụng khoảng cách nhỏ nhất d min (C i ,C j ) để đo khoảng cách giữa
các phân cụm, nó được gọi là k-nearest neighbor Khi thuật toán sử dụng khoảng cách xa
nhất d max (C i ,C j ), thuật toán được gọi là thuật toán phân cụm farthest-neighbor
Phương pháp BIRCH (Balanced iterative Reducing and Clustering Using Hierarchies)
BIRCH được thiết kế dành cho việc phân cụm lượng lớn dữ liệu số bằng cách tích hợp phân cụm phân cấp (ở trạng thái khởi đầu phân cụm vi mô) và các phương pháp phân cụm khác như phân cụm lặp (ở trạng thái sau phân cụm vĩ mô) Nó vượt qua hai sự
Trang 19khó khăn của phương thức phân cụm tích lũy: (1) tính mở rộng và (2) khả năng không thể quay lại bước trước
BIRCH đưa ra hai khái niệm: đặc tính phân cụm và cây đặc tính phân cụm (CF tree), được sử dụng để tổng kết các sự thể hiện phân cụm Những cấu trúc này giúp phương thức phân cụm đạt được tốc độ tốt và khả năng mở rộng trong cơ sở dữ liệu lớn, hơn nữa làm tăng tính hiệu quả của phân cụm tăng dần và tính linh động của đối tượng đầu vào
Hãy xem xét sâu hơn các cấu trúc nhắc đến ở trên Xem xét n đối tượng dữ liệu hoặc điểm có d chiều trong một cụm, chúng ta có thể xác định trung tâm x0, bán kính R,
và đường kính D của cụm như sau:
Trong đó R là khoảng cách trung bình từ các đối tượng thành viên tới trung tâm,
và D là khoảng cách trung bình giữa các cặp trong cụm Cả R và D phản ánh tính gần gũi của cụm xung quanh trung tâm Một đặc tính phân cụm (CF) là một vector 3 chiều tổng hợp thông tin về các cụm của đối tượng Xem xét n đối tượng hoặc điểm có d chiều trong một phân cụm, {xi}, thì CF của cụm được định nghĩa là:
} ,
Trang 20BIRCH áp dụng một kĩ thuật nhiều pha: Thực hiện quét một lần tập dữ liệu tạo ra một phân cụm tốt ban đầu, và các lần quét sau đó được dùng để cải tiến chất lượng Hai pha chính là:
Pha 1: BIRCH quét cơ sở dữ liệu để xây dựng một cây CF bộ nhớ ban đầu, có thể được xem như là một sự nén đa cấp của dữ liệu để cố gắng bảo vệ cấu trúc phân cụm có sẵn của dữ liệu
Pha 2: BIRCH áp dụng một thuật toán phân cụm để phân cụm các node lá của cây CF, cố gắng loại bỏ các phân cụm thừa và nhóm các phân cụm thành một phân cụm lớn hơn
CF có 2 tham số: tham số nhánh (branching factor) B và ngưỡng T B quy định số con lớn nhất mà một nút không phải nút lá có thể có, và T xác định đường kính lớn nhất của một phân cụm con
Ở bước 1, khi một đối tượng được thêm vào một cụm, nếu đường kính của cụm này lớn hơn giá trị ngưỡng thì các cụm sẽ bị phân chia lại Sau quá trình phân chia cụm lại ta được một tập các cụm mới Ở bước 2, có thể áp dụng một thuật toán phân cụm bất
kì nào để thực hiện việc phân tách hoặc hợp nhất các cụm lại
Thuật toán BIRCH có độ phức tạp tính toán là O (n), trong đó n là số lượng đối tượng được phân cụm
Phương pháp ROCK (Robust clustering using links)
ROCK là một thuật toán phân cụm phân cấp quan tâm đến khái niệm links (số
lượng hàng xóm chung của hai đối tượng) cho dữ liệu với các thuộc tính phân loại Các thuật toán phân cụm truyền thống cho dữ liệu phân cụm với thuộc tính Boolean và phân loại sử dụng các hàm khoảng cách Tuy nhiên, thí nghiệm chỉ ra rằng các độ đo khoảng cách như vậy không thể dẫn đến các phân cụm chất lượng cao khi phân cụm dữ liệu phân loại Hơn nữa, hầu hết các thuật toán phân cụm chỉ đánh giá sự giống nhau giữa các điểm khi phân cụm Đó là, ở mỗi bước, các điểm giống nhau nhất được hòa nhập vào trong một cụm duy nhất, hướng “cục bộ” này có thể dẫn tới lỗi Ví dụ, hai phân cụm tách biệt
có thể có ít điểm hoặc các thành phần bên ngoài gần nhau, và do đó, dựa trên sự giống nhau giữa các điểm để tạo các quyết định phân cụm có thể dẫn đến việc hai phân cụm bị hòa nhập ROCK quan tâm đến hướng toàn cục hơn để phân cụm bằng việc xem xét quan hệ láng riềng của các cặp điểm riêng rẽ Nếu hai điểm giống nhau có cùng quan hệ hàng xóm, chúng có thể thuộc cùng cụm do đó có thể được hòa nhập
Hình thức hơn nữa, hai điểm, p i và p j , là hàng xóm nếu sim (p i , pj), trong đó sim là một hàm thể hiện sự giống nhau và là một ngưỡng do người dùng xác định
Trang 21Chúng ta có thể chọn sim là một độ đo dạng khoảng cách hoặc thậm chí không phải độ
do dạng khoảng cách mà được chuẩn hóa để những giá trị của nó nằm trong khoảng 0 và
1, với những giá trị lớn hơn chỉ ra rằng những điểm này là giống nhau hơn Số lượng links giữa pi và pj được xác định như số lượng hàng xóm giữa pi và pj Nếu số lượng links giữa hai điểm lớn, có khả năng cao là hai điểm đó cùng thuộc cụm Bằng việc xem xét các điểm dữ liệu có quan hệ hàng xóm giữa cặp điểm riêng rẽ, ROCK đáng tin cậy hơn các phương pháp phân cụm chuẩn chỉ tập trung vào sự giống nhau của các điểm
Phương pháp Chameleon
Chameleon là một thuật toán phân cụm phân cấp sử dụng mô hình động để xác định sự giống nhau giữa các cặp cụm [1] Nó dựa trên việc xem xét điểm yếu hai thuật toán phân cụm phân cấp là ROCK và CURE ROCK liên quan đến lược đồ nhấn mạnh
sự tương tác cụm trong khi bỏ qua thông tin liên quan sự giống nhau cụm CURE xem xét sự giống nhau cụm và bỏ qua tính tương tác cụm Trong Chameleon, sự giống nhau cụm được đánh giá dựa trên việc các đối tượng trong cụm kết nối với nhau thế nào và quan hệ gần gũi của các cụm Do đó, hai cụm được hòa nhập nếu quan hệ tương tác giữa chúng cao và chúng gần nhau Do đó, Chameleon không dựa trên mô hình tĩnh và phụ thuộc người dùng và có thể điều chỉnh tự động đối với các đặc tính bên trong của các cụm được hòa nhập Tiến trình hòa nhập làm tăng khả năng khám phá của các phân cụm
tự nhiên và áp dụng các kiểu của dữ liệu cũng như một hàm thể hiện sự giống nhau có thể được xác định
Chameleon làm việc thế nào? Hướng chính của Chameleon được đưa ra hình 1.7 Chameleon sử dụng hướng đồ thị k-nearest neighbor để xây dựng một đồ thị thưa, trong
đó mỗi đỉnh của đồ thị biểu diễn một đối tượng dữ liệu, và tồn tại một cạnh giữa hai đỉnh (hai đối tượng) nếu một đối tượng thuộc tập k đối tượng giống nhất của đối tượng còn lại Cạnh này được đánh trọng số để phản ánh sự giống nhau giữa các đối tượng Chameleon sử dụng một thuật toán cụm đồ thị để cụm đồ thị k nearest neighbor thành một số lượng lớn của các phân cụm nhỏ Nó sau đó sử dụng thuật toán phân cụm phân cấp dạng tích lũy để hòa nhập các phân cụm con dựa trên sự giống nhau của chúng Để xác định các cặp phân cụm con giống nhau nhất, nó tính đến cả sự tương tác kết nối cũng như tính gần gũi của các cụm
Trang 22Hình 1.7: Phương pháp Chameleon
Thuật toán cụm đồ thị cụm đồ thị k-nearest neighbor để tối thiểu hóa sự giảm bớt cạnh Đó là, một phân cụm C được phân cụm thành hai phân cụm nhỏ Ci và Cj ,để tối thiểu hóa trọng số các cạnh mà C được phân chia thành Ci và Cj Sự giảm bớt cạnh được chỉ ra bằng EC(Ci,Cj) và lượng giá tính kết nối tương tác giữa các phân cụm Ci và Cj
Chameleon xác định tính giống nhau giữa hai cụm Ci và Cj dựa vào hai tham số tính kết nối tương tác quan hệ RI(Ci , Cj) và tính gần gũi RC(Ci, Cj)
Trong đó SEC {Ci,Cj}là giá trị trung bình trọng số của các cạnh nối các đỉnh trong
Ci và các đỉnh trong Cj, và
i C SEC (hoặcSEC Cj) là giá trị trung bình của các cạnh cụm Ci(hoặc Cj)
1.2.3 Phương pháp phân cụm dựa trên mật độ
Hầu hết các phương pháp phân cụm các đối tượng dựa trên khoảng các giữa các đối tượng Những phương pháp như vậy có thể chỉ tìm thấy các cụm dạng hình cầu và gặp khó khăn khi tìm kiếm các cụm có hình dạng bất kì Các phương pháp cụm được
phát triển dựa trên khái niệm mật độ Ý tưởng chung là tiếp tục làm gia tăng cụm đưa ra
dựa vào mật độ (số lượng đối tượng hoặc các điểm dữ liệu) trong “khoảng” vượt ra ngoài ngưỡng, nghĩa là, đối với mỗi điểm dữ liệu trong một cụm được đưa ra, hàng xóm (neighbourhood) trong một bán kính đưa ra phải chứa ít nhất một số tối thiểu các điểm Phương pháp như vậy có thể được sử dụng để lọc ra các nhiễu, và khám phá các cụm có
Trang 23Ý tưởng chính của phân cụm dựa trên mật độ là đối với mỗi đối tượng thuộc nhóm vùng lân cận trong bán kính được gọi là -hàng xóm của đối tượng (-neighborhood) có chứa ít nhất MinPts đối tượng
Nếu -hàng xóm của một đối tượng chứa ít nhất một số tối thiểu MinPts các đối tượng, thì đối tượng đó gọi là đối tượng trung tâm (core object)
Xem xét một tập các đối tượng D, chúng ta nói rằng một đối tượng p thuộc trong phạm vi mật độ trực tiếp của đối tượng q nếu p nằm trong -hàng xóm của đối tượng q và q là đối tượng trung tâm
Một đối tượng p nằm trong phạm vi mật độ của đối tượng q đối với và MinPts trong một tập các đối tượng D, nếu có một chuỗi các đối tượng p1,…,
pn trong đó p1=q và pn=p và pi+1 nằm trong phạm vi mật độ trực tiếp của pi đối với và MinPts, với 1in, piD
Một đối tượng p nằm trong phạm vi mật độ liên kết của đối tượng q đối với
và MinPts trong một tập các đối tượng D, nếu có một đối tượng o D mà cả
p và q đều nằm trong phạm vi mật độ của o với và MinPts
Hình 1.8 Phạm vi mật độ và sự liên kết mật độ trong phân cụm dựa trên mật độ [1]
Trong hình trên, các điểm m, p, o là đối tượng trung tâm bởi vi mỗi đối tượng trong phạm vi đều có ít nhất ba đối tượng khác
q nằm trong phạm vi trực tiếp của m, m nằm trong phạm vi trực tiếp của p và ngược lại
Trang 24 q nằm trong phạm vi gián tiếp của p, tuy nhiên p không nằm trong phạm vi của q vì q không phải là đối tượng trung tâm
o, r và s đều có liên kết mật độ
Một phân cụm dựa trên mật độ là một tập các đối tượng có liên kết mật độ được làm tối đa hóa đối với phạm vi liên kết mật độ Những đối tượng không thuộc cụm nào xem như là nhiễu
DBSCAN sẽ tìm trong các cụm bằng cách kiểm tra -hàng xóm cho mỗi điểm trong cơ sở dữ liệu Nếu -hàng xóm của một điểm p chứa nhiều hơn MinPts điểm, một cụm mới với p là đối tượng trung tâm được tạo DBSCAN tập hợp các đối tượng trong phạm vi mật độ trực tiếp cho những đối tượng trung tâm, có thể thực hiện việc hòa nhập một số ít cụm trong phạm vi mật độ Tiến trình kết thúc khi không có điểm mới nào có thể thêm vào bất kì cụm nào
Phương pháp DENCLUE (Density Based Clustering)
DENCLUE là một phương pháp phân cụm dựa trên một tập các hàm phương pháp mật độ Phương pháp được xây dựng trên những ý tưởng sau: (1) sự tác động của mỗi điểm dữ liệu có thể được mô hình hóa hình thức sử dụng một hàm toán học, gọi là hàm tác động (ingluence function), mô tả tác động của một điểm dữ liệu nằm trong quan
hệ hàng xóm của nó; (2) toàn thể mật độ của không gian dữ liệu có thể được mô hình hóa như tổng của hàm tác động cho tất cả các điểm dữ liệu; và (3) các phân cụm có thể được xác định bằng cách xác định các density attractor, trong đó các density attractor là các cực đại cục bộ của toàn bộ hàm mật độ
Giả sử x và y là các đối tượng hoặc điểm trong F d, một không gian đầu vào d chiều Hàm tác động của điểm dữ liệu y trên x là một hàm, f B y :F d R0, được định nghĩa như sau:
),()(x f x y
f B y B
Hàm này phản ánh tác động của y lên x Theo nguyên tắc, hàm tác động có thể là một hàm ngẫu nhiên mà có thể được xác định bởi khoảng cách giữa hai điểm trong một quan hệ hàng xóm Hàm khoảng cách d(x,y), nên là tương phản và đối xứng, như là hàm khoảng cách Euclid Nó được sử dụng để tính toán một hàm dạng:
Trang 25hoặc dùng để tính hàm tác động Gaussian
Hàm mật độ ở một đối tượng hoặc một điểm xFd được định nghĩa như một tổng của các hàm tác động của mọi điểm dữ liệu Đó là, tổng tác động lên x của tất cả mọi điểm dữ liệu Xem xét n đối tượng điểm, D={x1… xn} d
Hình 1.9: Phân cụm dựa trên phương pháp mật độ [1]
Trang 26Chương 2 Phương pháp phân cụm tích lũy
2.1 Giới thiệu phương pháp phân cụm tích lũy
Trong khai phá dữ liệu, kỹ thuật phân cụm dữ liệu rất quan trọng, tuy nhiên việc phân cụm dữ liệu một cách chính xác và hiệu quả gặp nhiều khó khăn Các kỹ thuật phân cụm dữ liệu đòi hỏi định nghĩa được độ đo sự tương tự giữa các mẫu, điều đó là rất khó nếu chúng ta không có sự hiểu biết trước về hình thù cụm Đã có nhiều thuật toán phân cụm được đưa ra, từ các phương pháp dựa trên mô hình, các phương pháp dựa trên đánh giá mật độ không có tham số, phân cụm trung tâm và phân cụm square-error, phương pháp dựa trên nguyên lý đồ họa, đến các hướng theo lỗi kinh nghiệm và theo hướng lai Tất cả chúng đều có khái niệm về tổ chức dữ liệu và các đặc điểm phân cụm Tuy vậy, không thuật toán riêng lẻ nào đáp ứng mọi kiểu hình dạng cụm và cấu trúc Mỗi thuật toán có cách tiếp cận dữ liệu riêng, xử lý hiệu quả đối với một vài loại hình thù cụm nhất định; khi xem xét tập dữ liệu cấu trúc lai, các cụm dữ liệu không thống nhất được tạo ra bằng các thuật toán phân cụm khác nhau Hiện tượng này là do sự phụ thuộc vào sự khởi tạo, như là thuật toán k-means, hoặc bằng sự lựa chọn đặc biệt của một số tham số thiết
kế (như là số lượng cụm, hoặc giá trị của một số ngưỡng dùng cho sự phân chia cụm) [2] Ý tưởng kết hợp kết quả phân cụm của các thuật toán khác nhau để tạo ra 1 kết quả phân cụm thống nhất ra đời, đó chính là phương pháp phân cụm tích lũy
Khi xem xét một tập dữ liệu ngẫu nhiên, không có cấu trúc tham số, thống kê hoặc hình học, các thuật toán phân cụm khác nhau nhìn chung sẽ tạo ra các cụm dữ liệu khác nhau Thực chất, cũng có thể có được một số cụm bằng cách sử dụng một thuật toán phân cụm đơn có sự phụ thuộc vào sự khởi tạo hoặc lựa chọn giá trị của một số tham số thiết kế Phần này tập trung vào vấn đề tìm kiếm các cụm thống nhất khi thực hiện phân cụm dữ liệu, đề xuất sự kết hợp các kết quả của sự phân cụm thực hiện trong lược đồ bầu cử chính (marjority voting scheme) Sự kết hợp các kết quả của sự phân cụm được thực hiện bằng cách chuyển đổi các vùng dữ liệu trong một ma trận mẫu kết hợp, dùng để ánh xạ những sự kết hợp chặt chẽ Ma trận này được sử dụng để trích rút các cụm thống nhất bên dưới Phương pháp luận đề xuất được sử dụng dựa trên phương pháp
phân cụm k-means, và đưa ra một thuật toán phân cụm mới – voting-k-means [2] Các ví
dụ, sử dụng cả dữ liệu mô phỏng và dữ liệu thật, chỉ ra làm thế nào lược đồ kết hợp bầu
cử chính điều khiển một cách đồng bộ vấn đề lựa chọn số lượng các cụm, và sự phụ thuộc vào sự khởi tạo Hơn thế nữa, các cụm kết quả không bị ràng buộc có dạng hình cầu
Tóm lại, ý tưởng của phân cụm tích lũy là kết hợp kết quả của nhiều cách phân cụm (theo nhiều thuật toán khác nhau hoặc theo cùng một thuật toán với các tham số
Trang 27khởi tạo khác nhau) để nhận được kết quả phân cụm thống nhất Để thực hiện được thường thực hiện theo chiến thuật “Phân chia và kết hợp” (Split -and -merge)
- Phân chia: Thực hiện phân chia các mẫu vào các cụm bằng cách áp dụng các thuật toán phân cụm đơn, thực hiện bước này nhiều lần với nhiều thuật toán khác nhau hoặc với cùng một thuật toán nhưng với nhiều sự khởi tạo khác nhau
- Kết hợp: Kết hợp các kết quả nhận được tại bước phân chia để nhận được các cụm thống nhất bằng cách sử dụng một ma trận kết hợp để ánh xạ các kết quả phân chia, sau đó so sánh giá trị của các phần tử với một ngưỡng chính xác t mong muốn để đưa ra kết quả thống nhất
Trong phần này luận văn tập trung vào việc tìm các cụm thống nhất trong một tập cụm dữ liệu Sự hợp lý của hướng nghiên cứu là để đánh giá sự kết hợp giữa cặp mẫu bởi
số lần chúng cùng xuất hiện trong một cụm từ tập cụm dữ liệu tạo ra bởi việc chạy độc lập các thuật toán phân cụm, và đưa ra ma trận xuất hiện đồng thời như là dẫn chứng cung cấp việc đánh giá mức độ giống nhau dùng để xây dựng các cụm thống nhất sử dụng một thuật toán giống cây bao trùm tối thiểu Tính hợp lệ của lược đồ bầu cử đa số được kiểm tra trong ngữ cảnh của sự phân cụm dựa trên k-means
2.2 Sự kết hợp bầu cử đa số của các thuật toán phân cụm
Trong sự phân tích dữ liệu ngoại suy, các thuật toán phân cụm khác nhau thông thường sẽ tạo ra các kết quả khác nhau, không có thủ tục tối ưu chung Khi xem xét một tập dữ liệu, và không có thông tin biết trước, làm sao có thể quyết định thuật toán phân cụm nào sẽ thực hiện tốt hơn? Thay cho lựa chọn một thuật toán/ phương pháp đặc biệt, trong phần này chúng ta xem xét ý tưởng việc kết hợp các kết quả phân loại của chúng:
do mỗi phương pháp có sức mạnh và điểm yếu khác nhau, nếu chúng kết hợp với nhau
sẽ tạo nên ảnh hưởng to lớn Với ý tưởng một framework chung, không phải bất kì kỹ thuật phân cụm đặc biệt nào, một luật bầu cử đa số được đề xuất và chấp nhận
Ý tưởng của bầu cử đa số là sự đánh giá của một nhóm thì tốt hơn là những cá thể [3] Khái niệm này đã được khám phá trong các bộ phân lớp kết hợp để tạo ra các kết quả nhận dạng chính xác Trong phần này chúng ta mở rộng khái niệm này đối với sự kết hợp của các cụm dữ liệu tạo ra bởi toàn bộ các thuật toán phân cụm Giả định ban đầu là các mẫu hàng xóm trong một cụm “tự nhiên” gần như được xếp trong một nhóm bởi thuật toán phân cụm Bằng cách xem xét các cụm của dữ liệu tạo ra bởi sự phân cụm khác nhau, các cặp mẫu được bầu cử cho sự kết hợp trong mỗi lần chạy độc lập Các kết quả của phương pháp phân cụm được ánh xạ trong một không gian trung gian: một ma trận của sự kết hợp, trong đó mỗi ô (i,j) biểu diễn số lần cặp mẫu đưa ra được xếp trong
Trang 28trong cùng một cụm Mỗi sự xuất hiện trong cùng một cụm tương ứng với một sự bầu
cử Sự phân chia các giá trị ma trận này cho số lần thí nghiệm sự phân cụm đưa ra một
sự bầu cử mang tính chuẩn hóa Cuối cùng, thực hiện việc so sánh các giá trị trong ma trận với ngưỡng cố định 0.5 để tìm kiếm các mẫu thuộc cùng một cụm Bảng 1 chỉ ra phương pháp luận đề xuất
Bảng 1.1 Xây dựng các vùng dữ liệu thống nhất sử dụng một lược đồ bầu cử đa số
Đầu vào: N mẫu; tập hợp phân cụm E của R chiều
Đầu ra: Các cụm dữ liệu
Khởi tạo: Thiết lập ma trận kết hợp, co_assoc là ma trận null N x N
Các bước:
1 Tạo ra những sự cụm dữ liệu và cập nhật ma trận kết hợp:
Lặp với i=1 cho tới R thực hiện
1.1 Chạy phương thức phân cụm thứ i trong tập hợp E và tạo ra sự cụm dữ liệu P 1.2 Cập nhật ma trận kết hợp như sau: Đối với cặp mẫu (i,j) trong cùng cụm trong tập P đặt co_assoc(i,j)=co_assoc(i,j) +
R
1
2 Xây dựng các cụm thống nhất bằng việc đưa vào ngưỡng trên co_assoc
2.1 Tìm các sự kết hợp bầu cử: Đối với mỗi cặp mẫu (i,j), nếu co_assoc(i,j)>0.5 kết hợp các mẫu trong cùng cụm; nếu các mẫu thuộc các cụm phân biệt trước đó, kết hợp các cụm này lại
2.2 Đối với mỗi mẫu còn lại không thuộc trong một cụm, hình thành một cụm đối tượng riêng
sự hòa trộn của nhiều kiểu bộ phân loại
2.3 Một số thuật toán phân cụm tích lũy
Trang 292.3.1 Phân cụm tích lũy dựa trên K-Means
Trong phần này chúng ta tổng hợp phương pháp luận trước trong ngữ cảnh của phân cụm k-means Kết quả thuật toán phân cụm được tổng kết trong bảng 2, và từ đây trở đi sẽ được gọi là voting-k-means Nó đưa ra tổ hợp các vùng phân cụm bằng cách khởi tạo ngẫu nhiên các trung tâm cụm và biểu diễn mẫu ngẫu nhiên [4]
Bảng 1.2 Tính số lượng các cụm và cấu trúc dựa trên voting k-means
Thuật toán Voting-K-Means
Đầu vào: N mẫu;
K_max: Số lượng khởi tạo phân cụm lớn nhất
K_min: Số lượng khởi tạo phân cụm nhỏ nhất
R: Số lần lặp
t : giá trị ngưỡng
Đầu ra: Các cụm dữ liệu
Khởi tạo: Thiết lập ma trận kết hợp co_assoc với phần tử có giá trị rỗng kích thước
NxN
Các bước:
1 Thực hiện R lần:
1.1 Lựa chọn k là giá trị ngẫu nhiên trong khoảng [k_min, k_max]
1.2 Lựa chọn ngẫu nhiên k trung tâm cụm từ N mẫu dữ liệu
1.3 Chạy thuật toán k-means với dữ liệu khởi tạo ở trên nhận được một sự phân vùng P (Một cách phân cụm)
1.4 Cập nhật lại ma trận kết hợp co_assoc: đối với mỗi một cặp mẫu (i,j) thuộc cùng một cụm, cập nhật co_assoc(i,j) = co_assoc(i,j) +1/R
2 Tìm ra các cụm trong ma trận kết hợp co-association sử dụng phương pháp SL (Single Link)
2.1 Tìm các cụm: Đối với mỗi cặp mẫu (i,j) mà co_assoc(i,j)>t, kết hợp các mẫu vào trong cùng một cụm; nếu i, j thuộc 2 cụm phân biệt trước đó thì hòa nhập 2 cụm đó thành một
2.2 Đối với mỗi mẫu còn lại không thuộc trong một cụm, hình thành một cụm đối
Trang 30tượng riêng
Biết trước số lượng của các cụm
Một trong những khó khăn với thuật toán k-means là sự phụ thuộc của các vùng tạo ra dựa trên sự khởi tạo Điều đó được chỉ ra trong hình 1 biểu diễn hai vùng tạo ra bởi thuật toán k-means (tương ứng với những sự khởi tạo cụm khác nhau) trên một tập
dữ liệu của 1000 mẫu đưa ra từ sự trộn lẫn của hai sự phân phối Gaussian với hiệp phương sai đơn vị và khoảng cách Mahalanobis giữa các phương thức là bằng 7 Các cụm dữ liệu không đầy đủ, như là chỉ ra trên hình 1(a), có thể có được khi số lượng đúng của các cụm được biết trước
Hình 2.1: Bổ xung sự phụ thuộc của thuật toán k-means trên sự khởi tạo trung tâm cụm, k=2 (a)- vùng dữ liệu có được với việc chạy thuật toán k -means đơn (b)- kết quả có được khi sử
dụng phương thức đề xuất với số lần lặp là 10
Số lượng cụm không biết trước
Số lượng đúng của cụm thường không biết trước và phải xác định thông qua tập dữ liệu huấn luyện Dựa trên thuật toán k-means, một số kĩ thuật thông minh và tối ưu đã được đề xuất để chọn số lượng các lớp Hơn nữa, dễ thấy rằng thuật toán k-means, dựa trên một tiêu chí sai số bình phương tối thiểu (minimum square error), xác định các cụm hình siêu cầu, trải ra xung quanh các vector nguyên mẫu biểu diễn các trung tâm cụm Các kĩ thuật cho lựa chọn số lượng cụm tùy theo tiêu chí tối ưu xác định một số tối ưu các cụm trung tâm dựa trên dữ liệu Khi dữ liệu biểu diễn các cụm với các hình dạng
Trang 31khác nhau, kiểu phân tích này không được thỏa mãn Trong phần này chúng ta đề xuất sử dụng một lược đồ bầu cử kết hợp với thuật toán k-means để xác định cả hai vấn đề: lựa chọn số lượng các cụm; phát hiện các cụm hình dạng ngẫu nhiên
Ý tưởng cơ bản bao gồm hai phần: nếu một số lớn k, của các cụm được lựa chọn, bằng cách lựa chọn ngẫu nhiên các trung tâm cụm khởi tạo và trình tự của sự biểu diễn mẫu, thuật toán k-means sẽ phân chia dữ liệu huấn luyện thành k tập con nhỏ phản ánh các vùng mật độ cao; nếu k lớn so với số lượng cụm thực tế, mỗi cụm thực tế được phân chia thành những cụm nhỏ hơn, các mẫu quan hệ gần gũi có khả năng cao được phân chia trong cùng cụm; Bằng cách đánh giá trung bình toàn bộ sự kết hợp của các cặp mẫu tạo ra qua việc chạy thuật toán k-means R lần, nó được kì vọng có được khả năng cao của những sự bầu cử trên các cặp mẫu, cấu trúc các cụm đúng đắn được khôi phục bằng cách xác định ngưỡng ma trận kết hợp, như đề xuất trước đó Phương thức được đề xuất
để áp dụng thuật toán mô tả trong bảng 2 bằng cách thiết lập k là giá trị lớn bằng N , N
là số lượng mẫu trong tập huấn luyên
(a) K-means – lặp 1 (b) Voting-K-means-lặp 4 (c) Voting-K-means lặp 10
Hình 2.2: Các cụm tạo ra bởi k-means (k=14) và các thuật toán voting-k-means
Phương thức được chỉ ra trên hình 2 dựa trên 200 mẫu dữ liệu 2 chiều, tạo ngẫu nhiên từ sự trộn lẫn của hai sự phân phối Gaussian: hiệp phương sai đơn vị, khoảng cách Mahalanobis giữa các phương thức bằng 10 Hình 1.10(a) chỉ ra một cụm dữ liệu tạo ra bởi thuật toán k-means (k=14); những sự khởi tạo phân biệt tạo ra tạo ra các cụm dữ liệu
Trang 32khác nhau Tính đến những sự kết hợp mẫu lâu dài cùng với những sự chạy riêng rẽ của thuật toán k-means, thuật toán voting-k-means cải tiến đối với một vùng bền vững của
dữ liệu với hai cụm (xem hình 2(b) và 2(c)
Cải tiến thuật toán voting k-means
Một yếu điểm của thuật toán voting k-means vẫn mắc phải là việc cố định giá trị k xác định số lượng các cụm trong thuật toán Việc cố định k sẽ làm ảnh hưởng tới kết quả của thuật toán, làm cho thuật toán không còn chính xác, vì không phải luôn luôn lựa chọn được chính xác số lượng cụm của tập dữ liệu Để khác phục nhược điểm này, một giải pháp được đề xuất là lựa chọn một khoảng các giá trị cụm có thể có của tập dữ liệu, sau đó bằng cách lặp lại và sử dụng phương pháp bầu cử sẽ tìm ra chính xác số lượng cụm của tập dữ liệu Bằng cách như vậy sẽ đảm bảo tốt hơn khi xác định duy nhất giá trị
k của tập dữ liệu, đảm bảo rằng khả năng phân cụm chính xác sẽ cao hơn rất nhiều
2.3.2 Phân cụm tích lũy dựa trên lan truyền quan hệ
AP (Affinity Propagation) là một thuật toán có hiệu năng cao hơn hướng phân cụm truyền thống như thuật toán k-means Thuật toán gọi là voting-PAP (voting partion affinity propagation) là một phương pháp cho việc phân cụm sử dụng tích lũy bằng chứng dựa trên AP Các cụm kết quả có được bằng voting-PAP không ràng buộc với hình dạng siêu cầu [12] Voting-PAP bao gồm 3 phần: Partion Affinity propagation (PAP), cây bao phủ tối thiểu đa gốc yếu (relaxed multi-root minimum spanning tree) và bầu cử đa số PAP là một phương pháp có thể tạo ra tập mẫu khác nhau dựa trên AP Cây bao phủ tối thiểu yếu là một thuật toán gán điểm dữ liệu có hiệu năng tốt hơn luật gán gần nhất Bầu cử đa số là một lược đồ sử dụng để tìm một kết quả phân cụm thống nhất của các vùng khác nhau dựa trên ý tưởng của sự tích lũy bằng chứng Chúng ta cũng bàn làm thế nào tìm một ngưỡng thích hợp tương ứng với một vùng thống nhất ý tưởng xấp
xỉ trong bài báo này
Lan truyền quan hệ (Affinity Propagation – AP) là một thuật toán phân cụm mạnh dựa trên message passing So sánh với các phương pháp phân cụm thông thường như k-means, AP không cố định số lượng của cụm trước mà nó tìm kiếm để xác định số cụm bằng một trong những đối tượng của nó, gọi là mẫu, thay cho trung tâm hình học ảo AP điều khiển số lượng của các cụm được xác định bằng các tham số gọi là preferences Tuy nhiên, kết quả phân cụm lý tưởng không phải luôn luôn đạt được bằng cách thay đổi preferences trong AP, mặc dù một số cụm tốt với các cụm khác nhau có thể có được bằng những tham số thích hợp
Nếu có nhiều cụm hơn quan niệm, mỗi cụm về thực chất sẽ bị phân chia thành một số cụm nhỏ Theo nguyên tắc, sự phân chia này có thể là ngẫu nhiên và các điểm dữ
Trang 33liệu có quan hệ gần gũi có khả năng được đưa cùng vào một cụm Dựa trên nhận định này, một phương pháp sử dụng tích lũy bằng chứng xuyên suốt lược đồ bầu cử đa số với thuật toán k-means được đề xuất trong [3] để đạt được một kết quả phân cụm của một số lượng thích hợp của các cụm hình dạng ngẫu nhiên Tuy nhiên, không dễ để chọn được giá trị k để đạt được hiệu quả cao
Nếu một số lượng sự phân chia tốt với sự ngẫu nhiên có thể đạt được bằng cách chạy AP sau một số xác định lần, và chúng ta sử dụng lược đồ bầu cử trên những sự phân chia này, thì một kết quả phân cụm lý tưởng xấp xỉ có thể đạt được
Thuật toán gọi là lan truyền quan hệ cụm bầu cử (voting – PAP) bao gồm 3 phần: Đầu tiên, một phương thức, gọi là lan truyền quan hệ vùng (PAP), được đề xuất để tạo ra các tập mẫu khác nhau dựa trên AP Thứ hai, một thuật toán gán điểm dữ liệu gọi là MST đa gốc yếu được cài đặt để gán các điểm dữ liệu còn lại vào các mẫu bước trên, làm giảm thiểu lỗi hơn so với luật gán gần nhất Cuối cùng, các kết quả phân cụm khác nhau được kết nối sử dụng tích lũy bằng chứng và một cách để tìm một ngưỡng thích hợp để đạt được một vùng thống nhất lý tưởng xấp xỉ được bàn tới [12]
Lan truyền quan hệ (Affinity propagation-AP)
Lan truyền quan hệ (AP) [1] có thể được xem như một phương pháp tìm kiếm cực tiểu của một hàm năng lượng
N
i s i c i c
E
1 ( , ) )
Mỗi nhãn c i chỉ ra bản sao (exemplar) của điểm dữ liệu i, trong khi s(i,ci) là sự
giống nhau giữa điểm dữ liệu i và bản sao ci
Đối với c i =i, s(i,c i ) là tham số đầu vào (input preference) cho điểm dữ liệu i chỉ ra làm
thế nào một điểm dữ liệu i có thể là exemplar Trong hầu hết các trường hợp, cấu trúc thống kê và hình học của tập dữ liệu không biết do đó để hợp lý có thể thiết lập các tham
số giống nhau Giá trị chia sẻ này càng lớn, số lượng cụm càng lớn Trong nội dung luận văn, các tham số (preferences) được thiết lập cùng giá trị nếu không nói gì đến
Tiến trình của AP có thể được xem như một tiến trình giao tiếp thông điệp với hai loại thông điệp chuyển đổi giữa các điểm dữ liệu, đặt tên là sẵn sàng và đáp ứng (responsibility and availability) Thuật toán được phát biểu bên dưới:
Thuật toán 1: lan truyền quan hệ
Đầu vào: ma trận xấp xỉ của N điểm dữ liệu, SNxN trong đó đường chéo của ma trận là các tham số (preferences)
Trang 34Đầu ra: phân cụm các điểm dữ liệu
Khởi tạo: thiết lập ma trận sẵn sàng ANxN là 0
Các bước:
1 Cập nhật mọi đáp ứng r(i,k):
r(i,k) s(i,k) –
k k t s
kmax ' ' {a(i,k') + s(i,k')} (2)
2 Cập nhật mọi biến sẵn sàng a(i,k):
a(i,k) min{0,r(k,k) +
{ , } ' 's i i k i
max{0,r(i',k)}} (3)
a(k,k)
{ , } ' 's i i k i
max{0,r(i’,k)} (4)
3.Kết nối mọi biến sẵn sàng và các đáp ứng để quan sát các quyết định mẫu: các điểm
dữ liệu k này với a(k,k) + r(k,k)>0 là các mẫu được xác định
4 Nếu các quyết định tạo ra ở bước 3 không thay đổi trong một số lần xác định của
sự lặp lại hoặc một số xác định của sự lặp lại đạt được, đến bước 5 Ngược lại, trở lại bước 1
5 Gán những điểm dữ liệu khác thành các mẫu sử dụng luật gán gần nhất, để gán mỗi điểm dữ liệu tới một mẫu là nó giống nhất
Tích lũy bằng chứng dựa trên AP
Kết quả của phân cụm lý tưởng không thể luôn đạt được từ AP bằng việc đơn giản điều chỉnh giá trị tham số (preference value) khi ràng buộc cố định mỗi mẫu phải tham chiếu đến chính nó bắt buộc các cụm xuất
Ana L.N Fred đề xuất ý tưởng của tích lũy bằng chứng và kết hợp lược đồ bầu cử
đa số với k-means để đạt được kết quả phân cụm thống nhất hình dạng ngẫu nhiên Tuy nhiên, giá trị k rất khó khăn để chọn trong 3 Nếu k quá nhỏ, sự gán sai có thể xảy ra đối với tập dữ liệu không thông thường Ngược lại, khả năng của có được một mẫu khởi đầu tốt bằng việc thiết lập ngẫu nhiên sẽ giam xuống
Lan truyền quan hệ vùng (PAP)
Từ biểu thức (2), (3), (4), chúng ta có thể thấy rằng trong mỗi vòng lặp của AP,
việc cập nhật của mỗi đáp ứng r(i,k) có tính đến các tính sẵn sàng và sự giống giữa i và
mọi điểm dữ liệu khác, trong khi sự cập nhật của sự sẵn sàng a(i,k) cũng có một quan hệ với các đáp ứng giữa k và mọi điểm dữ liệu khác Do đó, đưa ra tập sự giống nhau, kết quả phân cụm đạt được bằng AP là giống nhau với tham số đầu vào giống nhau
Trang 35Tuy nhiên, ma trận tính sẵn sàng khởi tạo cũng là một nhân tố sẽ dẫn đến xác điịnh tập mẫu khác nhau Phương pháp sau được đề xuất để tạo ra tập mẫu khác nhau bằng cách thay đổi ma trận sẵn sàng khởi đầu của AP:
Thuật toán 2 Lan truyền quan hệ vùng
Đầu vào: Ma trận tương tự SNxN của N điểm dữ liệu trong đó đường chéo của ma trận là các tham số (preferences);
Số lượng các khối con: k
Đầu ra: mẫu của mỗi điểm dữ liệu
Các bước:
1 Tạo ra một sự hoán vị ngẫu nhiên perm của 1 tới N Thực hiện hoán vị SNxN theo
sự hoán vị trước đó và có S'NxN theo kiểu:
3 Sử dụng ma trận nhỏ S’ 11 , S’ 22 ,…, S’ kk như đầu vào của AP, và chạy chúng theo thứ
tự trên Sau đó chúng ta lấy được k ma trận sẵn sàng A’ 11 , A’ 22 , …, A’ kk
4 Kết nối A’ 11 , A’ 22 , …, A’ kk để xây dựng ma trận sẵn sàng khởi tạo của cả tập dữ liệu:
Trang 36Tất cả các thành phần cònl ại của ma trận A’ đều là 0
5 Chạy AP sử dụng A’ như ma trận sẵn sàng khởi tạo để có được tập mẫu I’
6 Khôi phục I’
I(i) = perm(I’(i)) (8)
7 Gán các điểm dữ liệu còn lại vào các mẫu
Một sự hoán vị ngẫu nhiên sẽ dẫn đến sự phân cụm đa dạng của tập dữ liệu do đó tạo ra các ma trận sẵn sàng và các tập mẫu khác nhau N là giới hạn trên của số lượng các cụm của một tập dữ liệu của kích thước N bởi luật ngón tay cái, do đó có trung bình
ít nhất hai điểm dữ liệu của mỗi cụm trong mỗi tập con
Số lượng cụm tạo ra bởi PAP hầu hết giống như thuật toán AP ban đầu
MST đa gốc yếu
Các kết quả thí nghiệm chỉ ra rằng khi giá trị tham số (preference value) được thiết lập là một nữa của trung bình của sự giống nhau đầu vào, số lượng các mẫu xác định bởi AP sẽ luôn bằng hoặc lớn hơn N Thậm chí với giá trị này như tham số chia
sẻ (shared preference), một số sự gán sai, mặc dù ít hơn kết quả của k-means, có thể vẫn xảy ra sử dụng luật gán gần nhất
Tính đến cả vấn đề gán sai và sự cần thiết của tính ngẫu nhiên, chúng ta đưa ra thuật toán gán sau dựa trên thuật toán cây bao trùm tối thiểu của Prim
Thuật toán 3 MST đa gốc yếu
Đầu vào: tập mẫu: I;
Ma trận tương tự: SNxN;
Hệ số: (>0)
Đầu ra: Mẫu của mỗi điểm dữ liệu
Khởi tạo: thiết lập remain là N
Thiết lập exemNum là kích thước của I;
thiết lập ma trận mẫu-khoảng cách deNx2:
de(i,2)=
k
k i
s( , )) max(
de(i,1)=s(i,de(i,2)) (10)
Các bước:
Trang 371 Lặp lại khi remain>0:
1.1 Thiết lập assignNum là giá trị max(1,min(remain,exemNum x )) (11)
1.2 Lựa chọn P các điểm dữ liệu assignNum lớn nhất
1.3 Cập nhật de theo các luật sau:
Nếu de(i,1) -Inf và max(s(i,k)) > de(i,1)
de(i,2) = de(
k
k i
s( , )), 2 ) max(
1.4 Cập nhật remain thành remain – assignNum
Khi rất lớn, thuật toán này giống như luật gán gần nhất Ngược lại, khi rất nhỏ, nó lại giống thuật toán MST đa gốc
Hình 1 chỉ ra kết quả của k-means với k= N (hình 1(a)), PAP với luật gán gần nhất (hình 1(b)) và PAP với thuật toán MST đa gốc yếu (hình 1(c)) Có nhiều kết nối giữa hai vòng xoắn của kết quả phân cụm k-means Tuy nhiên, chỉ có một liên kết như vậy trong kết quả của PAP với phương pháp vừa đề xuất bên trên
Hình 2.3: Kết quả phân cụm cho một số phương pháp áp dụng cho tập dữ liệu kích thước 2000 là tổ hợp của 2 vòng xoắn (a) k-means, k=45 2000 (b) PAP ( =) (c) PAP
Trang 38định, delta, ví dụ 0.1 So sánh các vùng với vùng trước bằng chỉ số thống nhất
vùng [3], pc_idx(P1,P2), P1 là vùng với ngưỡng t-delta, P2 là vùng với ngưỡng t
Bắt đầu từ ngưỡng delta Lần đầu tiên pc_idx xuống dưới 1.0 chỉ ra một ngưỡng
thích hợp tương ứng với một kết quả phân cụm thống nhất xấp xỉ lý tưởng
Trang 39Chương 3 Mô hình khai phá dữ liệu dịch vụ khách hàng Ngân hàng quân đội
Trong chương trước chúng ta đã tìm hiểu những khái niệm về khai phá dữ liệu cũng như một số kĩ thuật khai phá dữ liệu thường được sử dụng, cũng như những lĩnh vực mà khai phá dữ liệu có thể áp dụng được Trong chương này, chúng ta sẽ phân tích
mô hình hoạt động kinh doanh của Ngân hàng Quân đội (MB) và xem xét cách thức áp dụng khai phá dữ liệu trong Ngân hàng này
3.1 Một số mô hình khai phá dữ liệu ngân hàng
Công nghiệp Ngân hàng trên thế giới đã trải qua những sự thay đổi to lớn Với sự phát triển hiện tại, sự đáp ứng ngày càng lớn và sự sử dụng của ngân hàng “điện tử”, việc kiểm soát dữ liệu giao dịch đã trở nên dễ dàng hơn và, một cách đồng bộ, khối lượng của
dữ liệu như vậy đã tăng lên đáng kể Nó vượt ra ngoài khả năng của con người để phân tích khối lượng lớn của dữ liệu ban đầu và chuyển đổi hiệu quả dữ liệu thành dạng tri thức có ích cho tổ chức Khối lượng lớn của dữ liệu mà các Ngân hàng đã thu thập được trong nhiều năm có thể tác động lớn tới sự thành công của những nỗ lực khai phá dữ liệu bằng cách sử dụng khai phá dữ liệu để phân tích các mẫu và các hướng, các nhà quản lý ngân hàng có thể dự đoán, với độ chính xác ngày càng cao, bao nhiêu khách hàng sẽ phản ứng lại đối với sự thay đổi trong tỉ giá mới, những khách hàng nào sẽ chấp nhận dùng sản phẩm mới, khách hàng nào sẽ tiềm ẩn rủi ro với khoản cho vay, và làm thế nào
để tạo các quan hệ khách hàng tốt hơn
Công nghiệp ngân hàng đang nhận thấy tầm quan trọng của thông tin đã có về khách hàng của họ, Không nghi ngờ gì, nó có một lượng lớn thông tin khách hàng, bao gồm nhân khẩu học của khách hàng, dữ liệu giao dịch, mẫu sử dụng thẻ tín dụng, v.v…
Và bởi vì lĩnh vực ngân hàng nằm trong công nghiệp dịch vụ, việc duy trì quan hệ khách hàng là điều rất quan trọng Để làm điều đó, các ngân hàng cần đầu tư tài nguyên của họ
để hiểu biết tốt hơn các khách hàng tiềm năng và đang có của họ Bằng cách sử dụng các công cụ khai phá dữ liệu phù hợp, các ngân hàng có thể cung cấp những sản phẩm và dịch vụ phù hợp với khách hàng
Khi sự cạnh tranh trở nên mạnh mẽ khốc liệt trên toàn cầu, các Ngân hàng đã phải chiến đấu sáng tạo hơn và phản ứng nhanh nhạy hơn để có được và duy trì sự chia sẻ thị trường Những ngân hàng vẫn dựa trên các kĩ thuật dịch vụ khách hàng phản ứng và quảng cáo rộng rãi truyền thống bị kết tội là nguyên nhân thất bại hoặc bị thu hẹp lại Các ngân hàng của tương lai sẽ sử dụng sự lượng giá, tri thức và không phải các nguồn tài nguyên tài chính, bởi sự thúc đẩy của chúng cho sự tồn tại và sự quan tâm thích thú Một điều đáng ngạc nhiên là, hầu hết những tri thức này đang ở trong hệ thông ngân