hơn 60, từ 20 đến 25, từ 26 đến 35, từ 36 đến 55,
Tuổi KH
Hình 47. Danh sách các thói quen sử dụng thẻ
Dựa vào báo cáo tín dụng ta thấy các mục đích thanh toán của khách hàng.
Ta sẽ phân nhóm thói quen của khách hàng bằng cách mã hóa thêm các cột liệu rằng khách hàng CÓ hay KHÔNG phát sinh các mục đích giao dịch này. Làm tương tự như cách trên với các đoạn code ví dụ như sau:
Other Transportation:
MCC == "4789" || MCC == "4457" || MCC == "4121" || MCC == "4468" || MCC == "4411" || MCC == "4111" || MCC == "4131" || MCC == "4784" || MCC == "4225" || MCC == "4011" || MCC == "4214" || MCC == "4411" || MCC == "4214" || MCC == "4112" || MCC == "4215"? "CO": "KHONG".
Hình 48. Đưa dữ liệu vào SQL Server 2012
Đẩy dữ liệu từ Oracle vào SQL Server để lưu trữ và tăng hiệu suất xử lý.
Sau khi tiền xử lý và trích lọc dữ liệu ta được tập hợp các thông tin về khách hàng. Dữ liệu thu thập được bao gồm 1213 bản ghi được lưu trữ dưới dạng file SQL Server 2012 được đẩy từ Oracle sau quá trình được SSIS xử lý như sau:
7 THOI_GIAN_CON G_TAC_PHAN_NH OM
Nominal Dưới 1 năm, từ 1 đến 5 năm, từ 5 đến 10 năm, từ 10 đến 15 năm, trên 15 năm
Thời gian công tác
TRINH_DO_HOC_ VAN
Nominal Dưới tú tài, tú tài, cao đẳng, đại học
Trình độ học vấn
^9 SALARY Numeric 12000000 (Triệu đồng) Lương 10 TINH_TRANG_HO
N_NHAN
Numeric Độc thân, có gia đình, đã ly dị
Tình trạng hôn nhân
lĩ NOI_CU_TRU Nominal Đi thuê, ở nhờ, thuộc sở hữu
Nơi cư trú
12 THOI_GIAN_CU_T RU_PHAM_NHOM
Nominal Dưới 5 năm, từ 5 đến 15 năm, từ 15 đến 25 năm, từ 25 đến 35 năm, từ 35 đến 45 năm, trên 45 năm
Thời gian cư trú
13 SO_NGUOI_SONG _PHU_THUOC
Numeric 1, 2, 3, 4 SÔ người sông phụ thuộc (Không có lương) 14 PHUONG_TIEN_T
HONG_TIN
Nominal Sử dụng điện thoại, không sử dụng điện thoại Phương tiện thông tin 15 PHUONG_TIEN_DI _LAI Nominal Xe gắn máy 2 bánh, phương tiện giao thông công cộng, ô tô con, phương tiện đi lại khác
Phương tiện đi lại
17 TONG_TS_KH_PH AN_NHOM
Numeric Dưới 400 triệu, từ 400 đến 600 triệu, từ 600 đến 800 triệu, trên 800 triệu.
Tổng TS KH
18 THE_CHAP Nominal Có, không Tuôi phân nhóm
19 THOI_GIAN_LAM_ VIEC
Numeric 8, 9, 10 (Đơn vị: Giờ) Lương phân nhóm
20 RUI_RO_NGHE_N GHIEP
Nominal Thấp, trung bình, cao Tổng tài sản phân nhóm lĩ TY_LE_CHI_TIEU_
THU_NHAP
Numeric 56 (Đơn vị: %) Tổng tiên thanh toán sao kê 22 CO_PHAT_SINH_G
D_HAY_KHONG
Nominal Có, không Có phát sinh GD hay không
13 THANH_TOAN_CH AM
Nominal Có, không Có thanh toán chậm hay không 24 DUNG_DE_DI_LAI Nominal Có, không Có dùng thẻ để
thanh toán tiên đi lại hay không 15 THANH_TOAN_TI
EN_NHA_HANG
Nominal Có, không Có dùng thẻ để thanh toán tiên nhà hàng hay không
26 DUNG_DE_THUE_ PHONG
Nominal Có, không Có dùng thẻ để thanh toán tiên thuê phòng hay không
tác hay không ~28 THUC_HIEN_RUT_
TIEN_MAT
Nominal Có, không Có thực hiện rút tiền mặt từ thẻ tín dụng hay không 29 THANH_TOAN_TI
EN_MAY_BAY
Nominal Có, không Có thực hiện thanh toán tiền máy bay không 30 CAC_KHOAN_TH
ANH_TOAN_DAC_ BIET
Nominal Có, không Có thực hiện thanh toán các khoản đặc biệt không
^31 THANH_TOAN_TI EN_THU_TIN
Nominal Có, không Có thực hiện thanh toán tiền thư tín không 32 THANH_TOAN_TI
EN_MUA_GIOI
Nominal Có, không Có thực hiện thanh toán tiền mua giới không ^33 THANH_TOAN_TI
EN_THUE_XE
Nominal Có, không Có thực hiện thanh toán tiền thuê xe không 34 THANH_TOAN_TI
EN_BACH_HOA
Nominal Có, không Có thực hiện thanh toán tiền bách hóa không ^35 THANH_TOAN_TI
EN_GIAO_DUC
Nominal Có, không Có thực hiện thanh toán tiền giáo dục không 37 THANH_TOAN_TI Nominal Có, không Có thực hiện
“38 THANH_TOAN_CH O_NHA_NUOC
Nominal Có, không Có thực hiện thanh toán tiền nhà nước không 39 THANH_TOAN_Y_
TE
Nominal Có, không Có thực hiện thanh toán tiền y tế không
40 THANH_TOAN_TR UNG_TAM_THUO NG_MAI
Nominal Có, không Có thực hiện thanh toán tiền trung tâm thương mại không ^41 THANH_TOAN_TI
EN_XANG_DAU
Nominal Có, không Có thực hiện thanh toán tiền xăng dầu không 42 THANH_TOAN_TU
_VAN_TAI_CHINH
Nominal Có, không Có thực hiện thanh toán tiền tư vấn tài chính không
“43 THANH_TOAN_TI EN_SIEU_THI
Nominal Có, không Có thực hiện thanh toán tiền siêu thị không 44 THANH_TOAN_TI
EN_BAN_LE
Nominal Có, không Có thực hiện thanh toán tiền bán lẻ không ^45 THANH_TOAN_TI
EN_VIEN_THONG
Nominal Có, không Có thực hiện thanh toán tiền viễn thông không
Bảng 10. Bảng dữ liệu khách hàng phục vụ cho khai phá luật kết hợp
Khaiphá dữ liệu phân tích hành vi khách hàng
Ta đẩy khôi dữ liệu vào SQL Server Analysis Service để tiến hành khai phá. Tạo data source, data source view, cube và tạo mô hình.
Hình 50. Màn hình chọn giải thuật
Ta chọn CRDACCT_NBR làm khóa chính, dữ liệu đầu vào là các thuộc tính còn lại. Biến dự đoán Predictable ta để chính là các hành vi thanh toán của khách hàng.
Hình 52. Chọn kiểu dữ liệu cho mô hình
Content Type: Chọn nội dung dữ liệu là kiểu liên tục (Continuous) hay rời rạc (Discrete). Data type (Kiểu dữ liệu) ta thiết lập mặc định.
Hình 53. Thiết lập tập dữ liệu tranning và dữ liệu testing
Percentage of data for testing: Phần trăm dữ liệu được dành cho việc test. Maximum number of cases in testing data set: Số trường hợp test case tối đa Chọn dữ liệu để test mô hình. Dữ liệu để xây dựng (training) và kiểm tra (testing) mô hình có thể dùng chung 1 data set và thông thường dữ liệu để test model là 30%. Neu dữ liệu để test model trong 1 data set khác hoặc muốn dùng 100% dữ liệu để training model thì để testing data bằng 0. Ở đây ta chọn 30% dữ liệu test và 70% dữ liệu huấn luyện.
MUC-DICH SO- Airlines "164 All Other ,40 Auto Related r5 Car rental r25 Department Stores F79 Education "18 Entertainment F25 Government r3 Health Care r58 Lodging r226 1
Mail order ri99
Mega Retail ri7
Oil Companies ri4
Other T ransportation r360
6
Professional/ Financial Services 486
Restaurant F1863
Retail F748
Supermarkets F284
Telecomminication *151
Travel Related F2986
Hình 54. Thiết lập các tham số của mô hình
Thiết lập các tham số của mô hình như sau:
MAXIMUM_ITEMSET_COUNT: Chỉ định số lượng tối đa các luật có thể tạo ra.
Nếu không có số nào được chỉ định, thuật toán sẽ tạo ra tất cả các tập hợp có thể có. Ở đây ta thiết lập mặc định để tất cả các luật có thể có sẽ sinh ra.
MAXIMUM_ITEMSET_SIZE: Số lượng các tập mục tối đa (k-itemset) trong mỗi
luật. Chỉ định số lượng mục tối đa được phép trong một mục. Đặt giá trị này thành 0 xác định rằng không có giới hạn về kích thước số lượng mục trong một luật. Ví dụ: luật thanh toán tiền giải trí = không, thanh toán tiền mua giới = không -> thanh toán tiền thuê xe = không có itemset size là 2. Ta thiết lập mặc định là itemset=3 để các luật sinh ra có độ chính xác cao nhất.
MAXIMUM_SUPPORT: Quy định độ hỗ trợ tối đa. Vì ta cần độ hộ trợ càng cao
càng tốt nên ta thiết lập mặc định.
MlNlMUM_IMPORTANCE: Thiết lập độ quan trọng tối thiểu.
MINIMUM_ITEMSET_SIZE: Số lượng các tập mục tối thiểu.
MINIMUM_PROBABILITY: Quy định độ tin cậy tối thiểu.
MINIMUM_SUPPORT: Quy định độ hỗ trợ tối thiểu.
Hình 55. Bảng hành vi tiêu dùng của khách hàng
Như ta thấy ở trên, hành vi tiêu dùng của khách hàng được chia làm 22 nhóm khác nhau. Như vậy, giả sử số lượng các tài khoản phát sinh các mục đích giao dịch trên là bằng nhau thì mỗi mục đích giao dịch sẽ chiếm 4,5%.
Trong các mục đích thanh toán, ta thấy dùng thẻ để đi lại chiếm số lượng các tài khoản phát sinh thanh toán nhiều nhất và các khoản thanh toán đặc biệt chiếm số lượng các tài khoản phát sinh thanh toán ở mức giữa.
Kết quả là có 11,9% số tài khoản phát sinh giao dịch dùng thẻ để đi lại. Có 2,1% số tài khoản phát sinh giao dịch dùng các khoản thanh toán đặc biệt.
Từ đó ta có thể có những đề xuất độ hỗ trợ min_sup= 50% lượng phần trăm số tài khoản phát sinh giao dịch của mục đích thanh toán trung bình tức là min_sup = 1%.
Độ tin cậy min_conf được lựa chọn là 0,9. Việc đặt hai thông số này là yếu tố quyết định liên quan rất to lớn đến các luật được sinh ra. Độ tin cậy tối thiểu là 0,9 là mức tương đối
lớn để đảm bảo tính chính xác của luật. Độ hỗ trợ 1% là phù hợp đôi với dữ liệu đặt ra không quá lớn cũng không quá bé nhằm không bỏ sót và tránh trường hợp sinh ra quá nhiều luật vô nghĩa.
3.3.5 Đọc và diễn giải kết quả
Mimmum probaMty: Minimum rnportaπce;
9 0 Λ £
Server ■ InraIhriO ThAHH TOAN Y TE = CO, THANH ro⅛H TJEN SEU THl = co -⅜ THAHH TQAN TEN NHA HANG = co
ST (Ctrl+;) P
2 S
g Ubloolbox w ∙f ×LUATKETHOPKHAIP...H2.dmm [Design] 5 ThistoalwirKiowcanonIybeused
⅛ by a SQL Server Integration Services
ɑ package document. MnngModeI:
KHAIPHALUATKETHOP
Rules ' Remsets I Dependency I Show Ionq name
LAL KHUAH I HANH 1 UAH LhAL Bit I = LU. UUNU I Ht Lht Ul LAl = LU - CAC KHOAH THANH TOAH OAC BlET = co, GlOI TINH = HAM ’> THAlel TOAH TlEN NHA HANG = co
CAC KHOANTHANH TOAN OAC BlET = co. ThOl GtAN LAM VlEC = 8 -> ThANH TOAN TlEN NHA HANG = co
CAC KHOAN THANH TOAN OAC ElET = co, DUNG THE BOOK TOuR = co -> THANH TOAH TENNHAHANG■ co CAC KHOAN THANH TOAtI DAC BET = co, NOl CU TRU ≡ DITHUE -■> THANH TOAN TEN NHA HANG = co THANH TOAN Y TE - co. CRDACCT PDT NBR ■ ?5 -» THANH TOAN TEN NHA HANG ■ co THANH TOAN Y TE = co THANH TOAN TEN MAY BAY = co -> THANH TOAN TEN NHA HANG = co
CAC KHOAN THANH TOAH DAC BET = co. TUOl PHAN NHOM = TU M OEN 35 -> THANH TOAN TEN HHA HANG = co
CAC KHOAN THANH TOAN DAC BET = co PHUOHG TEN THOHG TIN = KHONG SU DUNG DEH THOAI ->
THAHH TOAN TEN NHA HANG = co
CAC KHOAN THANH TOAH DAC BET = co THAHH TOAN TEN NHA HANG = co -> DUNG THE THUE PHOHG = co
CAC KHOAN THANH TOAH DAC BET = co, VUNG = THANH THI -≈ OUNG THE THUE PHONG = CO CAC KHOAN THANH TOAH DAC BET = co DUNG THE DE Dl IAI = co -> DUNG THE THUE PHONG = co
CAC KHOAN THANH TOAH DAC BET = co, THANH TOAN TU VAN TAI CHlNH = KHONG -> DUNG THE THUE
a DataSources β DLJLlEUKHAtPHAKHOALU/
a Data Source Views d» DUUEUKHAIPHAKHOALU/ φ DLJUEUKHAIPHAKHOALU/ a Dimensions L× DLJUEUKHAIPHALUATKETI a Mining Structures 2* KHAIPHALUATKETHOPdrY 2∣LUATKETHOPKHAIPHAHAI a Roles a Assemblies a Miscellaneous
Show output from: Build A□α Hiningbtructure LuAiKtinurKHAihTIAHAriHVXKHe Sending deployment script to the server... Deploy complete — O errors, 0 warnings --- Deploy: 1 succeeded, 0 failed, 0 skipped
Solution Explore! Class View Deployment Progress - KHAL..
Deployment Progress Properties
Error Ust Output
≥Ξ
I Ready
Hình 57. Các luật được sinh ra
Ta sẽ lấy các luật đảm bảo các tiêu chí như sau: Min_conf >=90%, Min_importance >=30% và min_supp>=1%, cụ thể danh sách các luật như sau:
1. CAC KHOAN THANH TOAN DAC BIET = CO, DUNG THE DE DI LAI = CO -> THANH TOAN TIEN NHA HANG = CO. Conf (1), importance (0,631), sup (20). 2. CAC KHOAN THANH TOAN DAC BIET = CO, GIOI TINH = NAM -> THANH
TOAN TIEN NHA HANG = CO. Conf (1), importance (0,621), sup (16)
3. CAC KHOAN THANH TOAN DAC BIET = CO, THOI GIAN LAM VIEC = 8 -> THANH TOAN TIEN NHA HANG = CO. Conf (1), importance (0,621), sup (16) 4. CAC KHOAN THANH TOAN DAC BIET = CO, TINH TRANG HON NHAN = DOC THAN -> THANH TOAN TIEN NHA HANG = CO. Conf (1), importance (0,621), sup (16).________________ _______________________________ _ __
5. THANH TOAN Y TE = CO, THANH TOAN TIEN SIEU THI = CO -> THANH TOAN TIEN NHA HANG = CO. Conf (1), importance (0,631). sup (16).
6. CAC KHOAN THANH TOAN DAC BIET = CO, DUNG THE BOOKTOUR = CO -> THANH TOAN TIEN NHA HANG = CO. Conf (1), importance (0,631). sup (16). 7. CAC KHOAN THANH TOAN DAC BIET = CO, NOI CU TRU = DI THUE ->
THANH TOAN TIEN NHA HANG = CO. Conf (1), importance (0,615). sup (14). 8. THANH TOAN Y TE = CO, CRDACCT PDT NBR = 95 -> THANH TOAN TIEN
9. THANH TOAN Y TE = CO, THANH TOAN TIEN MAY BAY = CO -> THANH TOAN TIEN NHA HANG = CO. Conf (1), importance (0,612). sup (13).
10. CAC KHOAN THANH TOAN DAC BIET = CO, TUOI PHAN NHOM = TU 26 DEN 35 -> THANH TOAN TIEN NHA HANG = CO. Conf (1), importance (0,615). sup (12).
11. CAC KHOAN THANH TOAN DAC BIET = CO, PHUONG TIEN THONG TIN = KHONG SU DUNG DIEN THOAI -> THANH TOAN TIEN NHA HANG = CO. Conf
(1), importance (0,615). sup (12).
12. CAC KHOAN THANH TOAN DAC BIET = CO, THANH TOAN TIEN NHA HANG
= CO -> DUNG THE THUE PHONG = CO. Conf (1), importance (0,436). sup (25). 13. CAC KHOAN THANH TOAN DAC BIET = CO, VUNG = THANH THI -> DUNG
THE THUE PHONG = CO. Conf (1), importance (0,433). sup (23).
14. CAC KHOAN THANH TOAN DAC BIET = CO, DUNG THE DE DI LAI = CO -> DUNG THE THUE PHONG = CO. Conf (1), importance (0,429). sup (20).
15. CAC KHOAN THANH TOAN DAC BIET = CO, THANH TOANTU VAN TAI CHINH = KHONG -> DUNG THE THUE PHONG = CO. Conf (1), importance (0,427).
sup (19).
16. CAC KHOANTHANH TOAN DAC BIET = CO, GIOI TINH = NAM -> DUNG THE THUE PHONG = CO. Conf (1), importance (0,422). sup (16).
17. CAC KHOAN THANH TOAN DAC BIET = CO, THOI GIAN LAM VIEC = 8 -> DUNG THE THUE PHONG = CO. Conf (1), importance (0,422). sup (16).
18. CAC KHOAN THANH TOAN DAC BIET = CO, TINH TRANG HON NHAN = DOC THAN -> DUNG THE THUE PHONG = CO. Conf (1), importance (0,422). sup (16).___________________________________ _____________ ____________ __
19. CAC KHOAN THANH TOAN DAC BIET = CO, DUNG THE BOOK TOUR = CO -
> DUNG THE THUE PHONG = CO. Conf (1), importance (0,419). sup (15). 20. CAC KHOAN THANH TOAN DAC BIET = CO, CRDACCT PDT NBR = 96 ->
DUNG THE THUE PHONG = CO. Conf (1), importance (0,419). sup (15). 21. CAC KHOAN THANH TOAN DAC BIET = CO, NθI CU TRU = DI THUE ->
DUNG THE THUE PHONG = CO. Conf (1), importance (0,417). sup (14).
22. CAC KHOAN THANH TOAN DAC BIET = CO, THANH TOANCHAM = KHONG -> DUNG THE THUE PHONG = CO. Conf (1), importance (0,419). sup (15). 23. CAC KHOAN THANH TOAN DAC BIET = CO, TUOI PHAN NHOM = TU 26
DEN
35 -> DUNG THE THUE PHONG = CO. Conf (1), importance (0,412). sup (12). 24. CAC KHOAN THANH TOAN DAC BIET = CO, PHUONG TIEN THONG TIN =
KHONG SU DUNG DIEN THOAI -> DUNG THE THUE PHONG = CO. Conf (1), importance (0,412). sup (12).
nhau sinh ra các luật sau. Tương tự, các luật sinh ra có support từ 12 đến 16 và có độ quan trọng từ 0.412 tới 0.436 và có cùng kết quả là DUNG THE THUE PHONG = CO.
Ta tiến hành gộp các luật với nhau một cách phù hợp sinh ra các luật sau:
+ Luật mới 1: CAC KHOAN THANH TOAN DAC BIET = CO, DUNG THE DE DI
LAI = CO, GIOI TINH = NAM, THOI GIAN LAM VIEC = 8, TINH TRANG HON NHAN = DOC THAN, NOI CU TRU = DI THUE, TUOI PHAN NHOM = TU 26 DEN 35, PHUONG TIEN THONG TIN = KHONG SU DUNG DIEN THOAI-> THANH TOAN TIEN NHA HANG = CO.
+ Luật mới 2: THANH TOAN Y TE = CO, THANH TOAN TIEN SIEU THI = CO,
CRDACCT PDT NBR = 95, THANH TOAN TIEN MAY BAY = CO -> THANH TOAN TIEN NHA HANG = CO.
+ Luật mới 3: CAC KHOAN THANH TOAN DAC BIET = CO, THANH TOAN
TIEN NHA HANG = CO, VUNG = THANH THI, DUNG THE DE DI LAI = CO, GIOI TINH = NAM, THOI GIAN LAM VIEC = 8, TINH TRANG HON NHAN = DOC THAN, DUNG THE BOOK TOUR = CO, CRDACCT PDT NBR = 96, NOI CU TRU = DI THUE, TUOI PHAN NHOM = TU 26 DEN 35, PHUONG TIEN THONG TIN = KHONG SU DUNG DIEN THOAI-> DUNG THE THUE PHONG = CO.
Đọc hiểu quy luật
5. THANH TOAN Y TE = CO, THANH TOAN TIEN SIEU THI = CO -> THANH TOAN TIEN NHA HANG = CO. Conf (1), importance (0,631). sup (16).
Tần suất xuất hiện đồng thời của khách hàng dùng thẻ thanh toán y tế và thanh toán tiền siêu thị là 16 hay số lượng khách hàng dùng thẻ thanh toán cho hai mục đích này là 16