Chuyển đổi và tinh chỉnh dữ liệu

Một phần của tài liệu Ứng dụng một số thuật toán phân cụm phân tích dữ liệu ngân hàng (Trang 76 - 78)

a. Chuyển đổi dữ liệu

Đầu vào: File dữ liệu cần phân cụm (MS Database SQL ..)

Đầu ra: 02 text file

- 01 file chứa các thuộc tính để thực hiện thuật toán phân cụm.

- 01 file chứa dữ liệu của các trƣờng đã chọn. Mỗi một dòng trong file dữ liệu đƣợc chuyển thành một dòng trong Text file, các thuộc tính trên mỗi dòng ngăn cách nhau bởi dấu &.

Giao diện:

b. Tinh chỉnh dữ liệu

Đầu vào:

02 text file của module chuyển đổi dữ liệu.

Đầu ra:

02 text file thoả mãn các điều kiện sau:

- Tên các thuộc tính đƣợc thay thế bởi tên kiểu dữ liệu dùng cho các thuật toán phân cụm (4.1.1).

- Dữ liệu sẽ đƣợc chuyển sang dạng Log nếu chọn option chuyển sang dạng Log khi thực hiện module.

- Nếu lựa chọn option loại bỏ dữ liệu khuyết thiếu, các dòng không đủ dữ kiện sẽ bị lọc trƣớc khi thực hiện thuật toán.

Giao diện:

Module thực hiện chương trình: Phụ lục 1.

4.2.3 Thuật toán K-means

Đầu vào:

Đầu vào của thuật toán là file dữ liệu dạng Text, file chứa định dạng thuộc tính phân cụm và các tham số.

- Cách tính ma trận khoảng cách: một trong ba cách đƣợc phân tích tại 4.1.3.

- Cách tính trung bình: sẽ có hai cách tính trung bình cụm + Trung bình của các giá trị các phần tử (means)

+ Tìm phần tử có tổng khoảng cách đến các phần tử còn lại của cụm là nhỏ nhất (medians).

- Số lần chạy tối đa: số lần thử để cho kết quả phân cụm tốt nhất. - Sử dụng trọng số hay không: khi sử dụng trọng số, các thuộc tính sẽ

đƣợc tính thêm hệ số của trọng số.

- Chọn tâm cụm: chƣơng trình có thể chọn ngẫu nhiên hoặc ngƣời sử dụng nhập các giá trị tâm cụm.

Đầu ra:

Text file chứa dữ liệu đƣợc phân cụm, mỗi dòng của file chứa hai giá trị - Số dòng của file dữ liệu

- Số thứ tự của cụm mà dữ liệu đƣợc phân vào

Giao diện:

Một phần của tài liệu Ứng dụng một số thuật toán phân cụm phân tích dữ liệu ngân hàng (Trang 76 - 78)