Quy trình thực nghiệm đảm bảo rằng việc tiến hành thực nghiệm vừa tuân theo các bước của quy trình thực nghiệm chung cho việc phân cụm, lại phù hợp với phương pháp phân cụm tích lũy. Các phương án thực nghiệm gồm:
Phương án 1: Thực nghiệm tính chính xác của việc phân cụm theo phương pháp tích lũy
Đối với phương án này, việc thực nghiệm được tiến hành như sau: Chuẩn bị sẵn mẫu gồm 300 bản ghi dữ liệu khách hàng, sao cho đảm bảo (một cách tương đối) rằng chúng thuộc hai cụm khác nhau. Sau đó, thực hiện các bước chuẩn hóa dữ liệu để có được những thuộc tính phù hợp với việc chạy thuật toán phân cụm.
Thực hiện việc chạy thuật toán phân cụm tích lũy cho 301 bản ghi dữ liệu khách hàng này và xem xét kết quả của đầu ra của quá trình phân cụm. Nếu:
- Kết quả đầu ra là 2 cụm với số lượng bản ghi khách hàng thuộc mỗi cụm là xấp xỉ giống như kết quả đã biết trước, có thể khẳng định tính đúng đắn của thuật toán phân cụm tích lũy.
- Kết quả đầu ra là số cụm khác 2 hoặc số lượng bản ghi khách hàng của mỗi cụm là khác nhiều so với kết quả đã biết trước, dễ thấy việc cài đặt thuật toán phân cụm chưa đạt yêu cầu.
Phương án 2: Thực nghiệm so sánh độ chính xác của Phương pháp Phân cụm tích lũy dựa trên k-means với phương pháp k-means.
Để so sánh việc cài đặt thực nghiệm phương pháp Phân cụm tích lũy dựa trên k- trung bình với phương pháp k-trung bình, trong nội dung luận văn này đã thực hiện cài đặt thêm thuật toán k-trung bình để chạy nhằm so sánh kết quả của hai phương pháp. Theo lý thuyết đã trình bày ở trên thì phương pháp Phân cụm tích lũy dựa trên k-trung bình tốt hơn phương pháp k-trung bình ở những điểm sau:
- Khả năng lựa chọn tham số đầu vào k (số lượng cụm) của Phương pháp Phân cụm tích lũy không bị cố định như phương pháp k-trung bình, và thông thường số lượng cụm kết quả không bị phụ thuộc vào số lượng cụm đầu vào.
- Khả năng phân cụm chính xác hơn do Phương pháp Phân cụm tích lũy sử dụng kết quả của những lần phân cụm đơn lẻ để láy làm cơ sở tính toán lại cụm ban đầu. Phương pháp này làm cho việc xây dựng lại cụm tự nhiên có độ chính xác cao.
Phương án 3: Thực nghiệm dự đoán kết quả của một bản ghi khách hàng mới. Phương án này chính là mục đích của luận văn: đưa ra kết quả dự đoán cho một bản ghi khách hàng mới để Ngân hàng có thể từ đó đánh giá được nhu cầu và có những chính sách hợp lý đối với khách hàng, từ đó tăng hiệu quả của công việc và đồng thời giảm thiểu chi phí cho hoạt động của Ngân hàng.
Đối với phương án này, cần chuẩn bị một tập dữ liệu khách hàng 300 bản ghi đã biết trước kết quả sử dụng dịch vụ. Sau đó, đưa vào thông tin bản ghi khách hàng cần dự đoán, thực hiện chạy ứng dụng để đưa ra kết quả đầu ra dự đoán khách hàng thuộc tập (cụm) nào. Từ kết quả đầu ra, có thể dễ dàng nhận thấy xu hướng tiềm năng của khách hàng này.