CHƯƠNG 2 : CƠ SỞ LÝ LUẬN
B. PHÂN TÍCH DỮ LIỆU BIG DATA
4.2. Thông tin giao dịch khách hàng
4.2.3. Phân tích mơ hình gian lận Fraud trong kinh doanh
Việc phân tích mơ hình Fraud là dựa vào các nghiên cứu (Hunt & Krivanek, 1966). Sẽ có ba bước được triển khai trong phân tích. Thứ nhất, phân tích sự gian lận dựa trên hồ sơ đề xuất ban đầu tham gia dịch vụ tại ngân hàng SCB như được nêu ở chương trước đó. Thứ hai, phân tích sự gian lận để tìm ra lỗi của việc đánh giá hồ sơ ban đầu của khách hàng tham gia dịch vụ và đối chiếu với lịch sử tham gia giao dịch của khách hàng. Khách hàng được đưa vào phân tích là khách hàng hiện đang tham gia giao dịch tại SCB và có thời gian tham gia dịch vụ trên 12 tháng. Thứ ba là bước kết hợp kết quả dự báo của bước 1 và bước 2, trên cơ sở đó đề xuất tập khách hàng thuộc nhóm có gian lận trong bước 1 và bước 2.
a. Phân tích mơ hình fraud dựa vào hồ sơ từ ban đầu
Các thơng tin được chọn phục vụ cho mơ hình Fraud gồm các thơng tin được nêu trong bảng 4.9. Trong đó, RANK_HOSO được xem là trường mục tiêu (target field), trường này là kết quả của việc xếp hạng hồ sơ sau khi được thẩm định. Sau đó, trường này sẽ được dự báo dựa trên các thông tin ban đầu hồ sơ được xét duyệt của 5,232 khách hàng. Thông tin của từng trường với thang đo như được nêu trong bảng. Thuật toán ứng dụng để dự báo hành vi gian lận Fraud là phương pháp C5.0 thông qua phần mềm IBM SPSS MOLDER. Loại thẻ sử dụng THU NHẬP (đồng/tháng) Số khách hàng Percent(%) VP 347,487,790 327 9% VV 215,864,954 243 7% OTHER 171,826,314 370 10% MG 131,383,244 426 12% VG 87,944,515 855 24% VC 64,843,408 787 22% VA 33,580,597 120 3% MS 19,629,088 399 11% TOTAL 3,527 100%
Bảng 4.2: Thông tin các trường trong mơ hình
STT Tên các trường Định nghĩa trường Giá trị đo lường
1. RANK_HOSO Hồ sơ được xếp loại từ
ban đầu
Trường mục tiêu (target field):
TỐT/HIGH (68,0%); TRUNG BÌNH/AVERAGE (24,3%); THẤP (7,7%)
2. NETINCOME Thu nhập sau thuế Triệu đồng/tháng: Min= 5 triệu
đồng; Max = 44.1 tỷ đồng; Trung bình = 119,9 triệu đồng
3. TAISAN Tài sản nhà ở Nhà sở hữu (78,4%; Ở cùng cha mẹ
(16,0%); Nhà thuê (5,6%)
4. LOAI_HOSO Hồ sơ khách hàng Khách hàng mới (43,5%); Khách
hàng cũ (22,3%); Khách hàng phát hành mới (17,9%); Khách hàng gia hạn/đánh giá lại (16,3%)
5. QUANHE_CONGDONG Qua hệ cộng đồng Có uy tín (49,1%); Bình thường
(13,7%); Unknown/khơng biết
(37,3%)
6. HOC_VAN Học vấn Đại học (68,0%); Trung cấp
(11,5%); Thạc sĩ (6,9%); Cao đẳng (6,5%); Cao đẳng (5,9%); Tiến sĩ (1.3%); Khơng có thơng tin (5,9%).
7. VITRI_CONGTAC Chức vụ công việc Nhân viên văn phịng (24,48%);
Cơng nhân (26,06%); Giám đốc (24,52%); Quản lý cấp trung (22,795); Hưu (0.145)
8. GIA_CANH Gia cảnh Thịnh vượng (41,7%); Bình thường
(21,5%); Không rõ (36,8%)
Kết quả dự báo như chỉ ra ở biểu đồ 4.9 cho thấy thu nhập sau thuế (NETINCOME) được xem có tầm quan trọng lớn nhất trong xếp loại hồ sơ, kế đến là giá trị tài sản nhà ở của khách hàng, phần kế cịn lại là nhóm khách hàng thuộc nhóm khách hàng cũ hoặc mới, quan hệ cộng đồng, học vấn, vị trí cơng tác và gia cảnh.
Mơ hình được dự báo giữa trên nhóm đào tạo Training (60% số quan sát) và nhóm kiểm định (Testing) (40% số quan sát). Kết quả giữa hai nhóm cho thấy khơng có sự khác biệt về tỷ lệ chính xác (Correct) trên 78%. Điều này cho thấy phương pháp được chấp nhận để bước tiếp theo xác định nhóm gian lận.
Biểu đồ 4.9: Kết quả từ thuật toán C5.0
Biểu đồ 4.10: Đánh giá mơ hình dựa trên nhóm Training/Đào tạo và Testing/Kiểm định
Như đã trình bày trước đó, trường mục tiêu là RANK_HOSO có ba nhóm và kết quả dự báo từ C5.0 sẽ cho trường mục tiêu dự báo là $C_RANK_HOSO. So sánh giữa hồ sơ được đánh giá ban đầu và sau khi dự báo, kết quả như được chỉ ra ở biểu đồ 4.11. Có 3 nhóm như được nêu trong biểu đồ 4.11. Mỗi nhóm có định nghĩa như sau:
(1) F1_F- : là nhóm gian lận được xác định bởi hồ sơ ban đầu được đánh giá cao (HIGH), nhưng sau khi dự báo hồ sơ này được thuật toán xếp loại lại hồ sơ thuộc nhóm thấp (LOW) hoặc nhóm trung bình (AVER). Tương tự, hồ sơ ban đầu được đánh giá mức trung bình (AVER) nhưng kết quả thuật tốn cho rằng nhóm hồ hơ này thuộc vào nhóm thấp (LOW). Trong trường hợp này, kết quả thống kê từ dự báo chỉ ra Nhóm gian lận F- chiếm 2,4%.
(2) F1_F+ : là nhóm gian lận được xác định bởi hồ sơ ban đầu được đánh giá thấp (LOW) nhưng sau khi dự báo hồ sơ này được thuật tốn xếp hồ sơ thuộc vào nhóm trung bình (AVER) hoặc nhóm cao (HIGH). Tương tự hồ sơ ban đầu được xếp hạng mức trung bình (AVER) nhưng được thuật cho kết quả dự báo nhóm này thuộc nhóm đánh giá hồ sơ thấp (HIGH). Trong trường hợp này, kết quả thống kê từ dự báo Nhóm gian lận F+ chiếm tỷ lệ 19,3%.
(3) F1_F0 : là nhóm khơng gian lận, hồ sơ ban đầu được xếp loại như thế nào, sẽ cho kết quả dự báo như thế đó. Điển hình, ban đầu hồ sơ được xếp loại cao (HIGH) sau khi dự báo cũng cho kết quả cao (HIGH), tương tự ban đầu được xếp loại thấp (LOW) sau dự báo cho kết quả thấp (LOW). Trường hợp này, kết quả thống kê từ dự báo Nhóm này chiếm tỷ lệ 78,3%.
Như vậy kết quả cho thơng điệp có sự gian lận trong đánh giá hồ sơ chiếm 21,7% (bao gồm F1_F- và F1_F+). Điều này có thể là do chủ đích của người tham gia trực tiếp thẩm định hồ sơ khi thực hiện xếp loại. Việc xác định lại nhân viên hoặc ai tham gia trực tiếp thẩm định hồ sơ là khơng khó, vì hệ thống có ghi nhận từng nhân viên trong trách nhiệm thẩm định. Hoặc chúng ta có thể xem lại đặc điểm nhận khẩu học nằm trong nhóm có nguy cơ gian lận.
Biểu đồ 4.11: Kết quả gian lận xét trên hồ sơ gốc ban đầu
Kết quả Fraud_B1 Tần suất Tỷ lệ
F1_F- 84 2.4%
F1_F+ 681 19.3%
F1_F0 2758 78.3%
Nguồn: Kết quả phân tích
b. Phân tích mơ hình Fraud dựa vào lịch sử tham gia giao dịch.
Tương tự như mơ hình gian lận Fraud ở bước 1, mơ hình Fraud bước 2 hướng đến xác định gian lận sau khi khách hàng đã có hành vi giao dịch trên 12 tháng tại ngân hàng. Trường hợp này, RANK_HOSO cũng được xem là trường mục tiêu (target field), các trường hỗ trợ cho dự báo bao gồm lịch sử giao dịch: Số dư bình quân trong 12 tháng, Thời gian giao dịch gần nhất (R), tần suất giao dịch (F), giá trị giao dịch (M), lịch sử giao dịch của ngân hàng SCB so với các giao dịch với ngân hàng khác trong cùng thời gian nghiên cứu. Như ở bảng 4.3, lịch sử giao dịch của khách hàng đối với SCB so với các ngân hàng khác (đối thủ) thông tin như sau: (i) Không sử dụng dịch vụ ngân hàng SCB trước đó (DV NH SCB) trước đó (3,2%); (ii) Sử dụng dịch vụ ngân hàng SCB (DV NH SCB) (66,9%); (iii) Sử dụng DV NH SCB < NH khác (1.1%); (iv) Sử dụng DV NH SCB = NH khác (11.2%); (v) Sử dụng DV NH SCB > NH khác (17.6%). Tương tự, thuật toán ứng dụng để dự báo hành vi gian lận Fraud là phương pháp C5.0 thông qua phần mềm IBM SPSS MOLDER.
Bảng 4.3: Thông tin các trường trong mơ hình theo hành vi giao dịch
STT Tên các trường Định nghĩa trường Giá trị đo lường
1. RANK_HOSO Hồ sơ được xếp loại từ
ban đầu
Trường mục tiêu (target field):
TỐT/HIGH (68,0%); TRUNG BÌNH/AVERAGE (24,3%); THẤP (7,7%)
2. DU_NO_BQ Dư nợ của khách hàng Triệu đồng/tháng: Min= 5 triệu đồng;
Max = 44.1 tỷ đồng; Trung bình = 119,9 triệu đồng
3. RECENCY Thời gian giao dịch gần
nhất
Thứ bậc: 1= rất xa; 2 = xa; 3= vừa phải; 4=gần; 5 = rất gần
4. FREQUENCY Tần suất giao dịch Thứ bậc: 1= Rất ít; 2 = ít; 3 = vừa
phải; 4= thường xuyên; 5 = Rất thường xuyên
5. MONETARY Giá trị/Số dư giao dịch Thứ bậc: 1 = rất thấp; 2 = thấp; 3 =
vừa phải; 4 = cao; 5= rất cao
6. SUDUNG_NHKHAC Thông tin khách hàng sử
dụng dịch vụ ngân hàng SCB và ngân hàng khác. - Khơng sử dụng DV NH SCB trước đó = 3,2% - Sử dụng DV NH SCB = 66,9% - Sử dụng DV NH SCB < NH khác = 1.1% - Sử dụng DV NH SCB = NH khác = 11.2% - Sử dụng DV NH SCB > NH khác = 17,6%
Kết quả cho thấy thời gian giao dịch gần nhất (RECENCY) có tầm quan trọng lớn nhất trong mơ hình, kế đó là số dư nợ bình qn (DU_NO_BQ) trong thời gian giao dịch, tần suất giao dịch (FREQUENCY), có sử dụng dịch vụ ngân hàng SCB và ngân hàng khác (SUDUNG_NHKHAC) (biểu đồ 4.12).
Biểu đồ 4.12: Kết quả từ thuật toán C5.0 của bước 2
Tương tự thuật toán ở bước 1, RANK_HOSO là trường mục tiêu sẽ cho ra kết quả dự báo của ba nhóm như ở biểu đồ 13, và kết quả dự báo từ C5.0 sẽ cho trường mục tiêu dự báo là $C_RANK_HOSO. So sánh giữa hồ sơ được đánh giá ban đầu và sau khi dự báo, kết quả như được chỉ ra ở biểu đồ 4.13. Mỗi nhóm có định nghĩa như sau:
(1) F2_F- : là nhóm gian lận được xác định bởi hồ sơ ban đầu được đánh giá cao (HIGH), nhưng sau khi dự báo dựa vào lịch sử giao dịch thông tin hồ sơ dự báo được thuật tốn xếp nhóm đánh giá thấp (LOW) hoặc nhóm trung bình (AVER). Tương tự, hồ sơ ban đầu được đánh giá mức trung bình (AVER) nhưng kết quả thuật tốn cho rằng nhóm hồ hơ này thuộc vào nhóm thấp (LOW). Như vậy theo trường hợp trên, kết quả dự báo cho thấy nhóm F2_F- là nhóm gian lận của lịch sử so với hồ sơ ban đầu chiếm 2,2%.
(2) F2_F+ : là nhóm gian lận được xác định bởi hồ sơ ban đầu được đánh giá thấp (LOW) nhưng sau khi dự báo dựa vào lịch sử giao dịch của khách hàng, nhóm này được xếp vào nhóm trung bình (AVER) hoặc nhóm cao (HIGH). Tương tự áp dụng trường hợp hồ sơ ban đầu được xếp hạng mức trung bình (AVER) nhưng được thuật tốn cho kết quả dự báo nhóm này thuộc nhóm đánh giá cao (HIGH) sau khi dự báo dựa vào lịch sử giao dịch của khách hàng. Theo kết quả trên dự báo, nhóm F2_F+ là nhóm gian lận được đánh giá ban đầu thấp, nhưng kết quả cho ra nhóm được đánh giá cao chiếm 26,9%.
(3) F2_F0 : là nhóm khơng có gian lận, hồ sơ ban đầu được xếp loại như thế nào, sau quá trình lịch sử giao dịch cho kết quả dự báo như thế đó. Ví dụ ban đầu hồ sơ của khách hàng được xếp loại tốt (HIGH), sau q trình giao dịch, nhóm khách hàng được cũng được thuật tốn dự báo thuộc nhóm có hành vi tốt (HIGH), tương tự áp dụng cho trường hợp nhóm trung bình (AVER) và nhóm hồ sơ khơng tốt (LOW). Kết quả dự báo của trường hợp F2_F0 chiếm tỷ lệ 70,9%, đây là nhóm khơng có gian lận.
Như vậy kết quả cho thơng điệp có sự gian lận trong đánh giá hồ sơ chiếm 29,1% (bao gồm của F2_F- và F2_F+). Điều này có thể là do chủ đích của người tham gia trực tiếp trong hồ sơ, hoặc do nhân viên trực tiếp thẩm định. Việc xác định lại nhân viên hoặc ai tham gia trực tiếp trong đánh giá hồ sơ là khơng khó, vì hệ thống có ghi nhận. Hoặc chúng ta có thể xem lại đặc điểm nhân khẩu học nằm trong nhóm có nguy cơ gian lận.
Biểu đồ 4.13: Kết quả gian lận xét trên hồ sơ gốc ban đầu
Nguồn: Kết quả phân tích
Kết quả Fraud_B2 Tần suất Tỷ lệ
F2_F- 77 2.2%
F2_F+ 948 26.9%
F2_F0 2,498 70.9%
c. Kết quả mơ hình gian lận kết hợp từ mơ hình bước 1 và bước 2
Như kết quả mô hinh Fraud của bước 1 dựa vào hồ sơ gốc và các thông tin cá nhân của khách hàng tham gia giao dịch kết hợp với bước 2 được dự báo dựa vào hồ sơ được đánh giá ban đầu được dựa báo dựa vào lịch sử giao dịch sau 12 tháng tham gia. Kết quả kết hợp mơ hình cho kết quả gian lận và không gian lận được xếp hạn như ở bảng 4.4.
Bảng 4.4: Kết quả gian lận xét từ 2 mơ hình gian lận
Kết hợp Kết quả gian lận Nhận định
F1_F0 kết hợp với F2_F0 Khơng có gian lận +++
F1_F0 kết hợp với F2_F- Có gian lận + F1_F0 kết hợp với F2_F+ Có gian lận + F1_F- kết hợp với F2_F+ Có gian lận ++ F1_F- kết hợp với F2_F- Có gian lận +++ F1_F+ kết hợp với F2_F+ Có gian lận +++ F1_F+ kết hợp với F2_F- Có gian lận ++ F1_F- kết hợp với F2_F0 Có gian lận + F1_F+ kết hợp với F2_F0 Có gian lận +
Dựa trên định nghĩa gian lận như nêu ở biểu đồ 4.14. Kết quả gian lận sau cùng được minh họa ở bảng 4.5. Theo bảng dấu +++ tức chỉ mức độ gian lận rất cao. Nhóm có ++ và dấu + chỉ mức độ gian lận thấp hơn. Theo kết quả thống kê, nhóm khách hàng được xác định khơng có biểu hiện sự gian lận chiếm 64% khách hàng, nhóm này có độ tin cậy cao vì kết quả được dựa vào kết hợp từ bước 1&2. Trên cơ sở kết quả này sẽ là một thông điệp vô cùng quan trọng giúp cho ngân hàng có định hướng cụ thể trong thực hiện giải pháp khắc phục. Chẳng hạn, xuất ra tập khách hàng được xếp vào nhóm có gian lận, ngân hàng sẽ lần được các hành vi của khách hàng, cũng như xác định được nhân viên nào đã trực tiếp quản lý và thẩm định hồ sơ trên đó.
Biểu đồ 4.14: Kết quả Gian lận được xác định từ kết hợp hai mơ hình