Với cấu trúc dữ liệu đã phân tích ở trên, ta thấy mỗi thông tin được lưu trữ trong các file dữ liệu khác nhau, nhằm phục vụ cho các yêu cầu khác nhau đo dó ta cần phải tổng hợp các thông tin cần thiết lại để phục vụ cho quá trình khai phá. Thuật toán sử dụng là thuật toán khai phá dữ liệu mờ.
+ Sơ đồ xử lý:
Hình 4.2 Trình tự xử lý trong ứng dụng thử nghiệm
Dưới đây là cấu trúc của file sau khi đã trích chọn các thuộc tính thích hợp từ file dữ liệu liên quan.
TRƢỜNG MÔ TẢ ĐỘ LỚN GHI CHÚ
ACTYPE Kiểu tài khoản 1A Kiểu tài khoản tiền gửi: „S‟ = Tiết kiệm
„D‟ = Tiền gửi thông thường DDCTYP Kiểu tiền tệ 4A „VND‟: Tiền nội tệ
„USD‟: Tiền USD „EUR‟: Tiền EUR
CLASS Lớp khách hàng 1A „A‟: DNNN TRUNG UONG „B‟: DNNN DIA PHUONG „C‟: CTY CO PHAN NHA NUOC „D‟: CTY CO PHAN KHAC „E‟: CTY TNHH TU NHAN „F‟: DOANH NGHIEP TU NHAN „G‟: DN CO VDT NUOC NGOAI „H‟: KINH TE TAP THE „I‟: KINH TE CA THE „L‟: NH NUOC NGOAI TAI VN „M‟: TC T.CHINH O N.NGOAI „N‟: DN LIEN DOANH VOI NN „O‟: THANH PHAN KHAC „Q‟: CTY N.NGOAI TAI VN „R‟: NH CO PHAN VIET NAM „S‟: TC TAI CHINH VIETNAM „W‟: CTY TNHH NHA NUOC DDMONTH Thời điểm khách hàng
gửi tiền (theo tháng)
7,0 1.. 12 DDAMT Số tiền khách hàng gửi 17,2
RATE Lãi suất tính theo năm 11,9
CSDL giao dịch CSDL được làm sạch CSDL mờ Khai phá dữ liệu Các luật kết hợp mờ
Sau khi tham khảo ý kiến của các chuyên gia trong lĩnh vực tài chính ngân hàng và nghiên cứu phân tích kỹ dữ liệu của hệ thống, tôi xin đề xuất phương pháp rời rạc hoá dữ liệu và các hàm thuộc được sử dụng để mờ hoá các thuộc tính:
TRƢỜNG HÀM THUỘC GHI CHÚ ACTYPE + Trường F_1 0 nếu ACTYPE=‟D‟ F= 1 nếu ACTYPE=‟S‟ Tên trường: F_1
Kiểu tài khoản tiền gửi: „S‟ = Tiết kiệm
„D‟ = Tiền gửi thông thường
DDMONTH + Trường F_2 (Quý 1) 1 nếu 1 <=X =< 3 F= 0 ngược lại + Trường F_3 (Quý 2) 1 nếu 4 <=X =< 6 F= 0 ngược lại + Trường F_4 (Quý 3) 1 nếu 7 <=X =< 9 F= 0 ngược lại + Trường F_5 (Quý 4) 1 nếu 10 <=X =< 12 F= 0 ngược lại
Do đặc thù hoạt động kinh doanh thường gằn liền với dữ liệu khoảng thời gian, thông thường là hàng quý nên giá trị DDMONTH ở đây được rời rạc hoá thành 4 thuộc tính là F_2, F_3, F_4, F_5 tương ứng với quý 1, quý 2, quý 3, quý 4 của năm dữ liệu
DDCTYP
+ Trường F_6 (Tiền nội tệ)
1 nếu DDCTYP=‟VND‟ F=
0 ngược lại + Trường F_7 (Tiền USD)
1 nếu DDCTYP=‟USD‟ F=
0 ngược lại + Trường F_8 (Tiền EUR)
1 nếu DDCTYP=‟EUR‟ F=
0 ngược lại
BIDV hiện nay nhận tiền gửi của các cá nhân và tổ chức với 3 loại tiền tệ là VND, USD ,EUR vì vậy thuộc tính này sẽ được rời rạc hoá thành 3 thuộc tính F_6,F_7,F_8 tương ứng.
TRƢỜNG HÀM THUỘC GHI CHÚ
1 nếu CLASS=‟A‟ F=
0 ngược lại
+ Trường F_10 ( Doanh nghiệp nhà nước tại địa phương)
1 nếu CLASS=‟B‟ F=
0 ngược lại
+ Trường F_11 ( Công ty Cổ phần của nhà nước) 1 nếu CLASS=‟C‟ F= 0 ngược lại + Trường F_12 ( Công ty cổ phần khác) 1 nếu CLASS=‟D‟ F= 0 ngược lại
+ Trường F_13 ( Công ty trách nhiệm hữu hạn tư nhân)
1 nếu CLASS=‟E‟ F=
0 ngược lại
+ Trường F_14 (Doanh nghiệp tư nhân) 1 nếu CLASS=‟F‟ F=
0 ngược lại
+ Trường F_15 ( Doanh nghiệp có vốn đầu tư nước ngoài)
1 nếu CLASS=‟G‟ F= 0 ngược lại + Trường F_16( Kinh tế tập thể) 1 nếu CLASS=‟H‟ F= 0 ngược lại + Trường F_17 ( Kinh tế cá thể) 1 nếu CLASS=‟I‟ F= 0 ngược lại 17 thành phần khách nhau, số lượng thành phần cũng không quá nhiều nên ta rời rạc hoá thành 17 thuộc tính khác nhau tương ứng từ F_9 đến F_25
TRƢỜNG HÀM THUỘC GHI CHÚ
+ Trường F_18 ( Ngân hàng nước ngoài tại Việt Nam)
1 nếu CLASS=‟L‟ F=
0 ngược lại
+ Trường F_19( Tổ chức tài chính ở nước ngoài)
1 nếu CLASS=‟M‟ F=
0 ngược lại
+ Trường F_20 ( Doanh nghiệp liên doanh với nước ngoài)
1 nếu CLASS=‟N‟ F= 0 ngược lại + Trường F_21 ( thành phần khác) 1 nếu CLASS=‟O‟ F= 0 ngược lại
+ Trường F_22 ( Công ty nước ngoài tại Việt Nam)
1 nếu CLASS=‟Q‟ F=
0 ngược lại
+ Trường F_23 ( Ngân hàng cổ phần Việt Nam)
1 nếu CLASS=‟R‟ F=
0 ngược lại
+ Trường F_24 ( Tổ chức tài chính Việt Nam)
1 nếu CLASS=‟S‟ F=
0 ngược lại
+ Trường F_25 ( công ty trách nhiệm hữu hạn nhà nước)
1 nếu CLASS=‟W‟ F=
TRƢỜNG HÀM THUỘC GHI CHÚ DDAMT (đơn vị: triệu) + F_26 (KH_THUONG) 1 nếu X < 10 F = (X-10)/(50-10) nếu 10<=X<=50 0 nếu X>50 + F_27 (KH_TIEMNANG) 0 nếu X <40 (X-40)/(60-40) nếu 40<=X<60 F = 1 nếu 60<=X<80 (X-80)/(100-80) nếu 80<=X<=100 0 nếu X>100 + F_28(KH_VIP) 0 nếu X < 90 F = (X-90)/(150-90) nếu 90<=X<150 1 nếu X>=150
Ta rời rạc hoá số liệu tiền gửi thành 3 thuộc tính mờ là KH_THUONG, KH_TIEMNANG, KH_VIP với các hàm thuộc F tương ứng và trường trong cơ sở dữ liệu mờ là F_26,F_27,F_28
+ Dữ liệu giao dịch tiền gửi của BIDV ban đầu được trích chọn từ CSDL:
+ Dữ liệu giao dịch tiền gửi của BIDV sau khi đã được rời rạc và mờ hoá sẽ có dạng như sau: