- NGHIÊN CỨU - TRAO Đổl ONG DỤNG HUNG MÚP HÌI ọin TỌNG GOAN nạng cao TRONG BÃI TỐN CHAM súc KHÁCH HÁNG củ NGlN HANG ThS NGUYỄN VĂN SƠN Khoa Co' bán, Học viện Kỹ thuật mật mã ThS VŨ DUY HIÊN Khoa Hệ thịng thơng tin qn lý, Học viện Ngân hàng ThS NGUYỄN VÁN TRUNG Trung tâm CNTT, Học viện Ngân hàng ^^7rong năm gần đáy, nhiều nhà khoa học nghiên cứu, mơ hình hóa toán chuỗi thời gian thực tế lĩnh vực tài chính, ngân hàng ứng dụng kỹ thuật học máy để giải chúng Trong đó, kỹ thuật hồi quy tuyến tính sử dụng phổ biến bời tính đơn giản, dễ dàng cài đặt thời gian thực thi ngắn Tuy nhiên, giả định mối quan hệ tuyến tính hạn chế ứng dụng hồi quy nhiều vấn đề kinh doanh kinh tế phi tuyến tính chất Để cải thiện chất lượng mơ hình hồi quy tuyến tính, chúng tơi đề xuất thuật tốn chia khoảng liệu phù hợp để áp dụng kỹ thuật hổi quy tuyến tính đoạn Thuật tốn phân chia dựa vào kiểm định phán phối nhằm đảm bảo liệu khoảng chia không bị đặc tính phân phối giả định ban đầu Các thí nghiệm thực hai liệu bao gồm liệu tự sinh liệu thực mô tả số lượng gọi đến trung tâm chăm sóc khách hàng ngân hàng Israel Kết thực nghiệm rằng, độ lỗi ước lượng sử dụng hàm tuyến tính đoạn nhỏ ước lượng sử dụng hàm tuyến tính với mức độ cải thiện đáng kể Bên cạnh đó, mơ hình kết thực nghiệm sử dụng để dự đoán số lượng gọi tới trung tám chăm sóc khách hàng ngân hàng phục vụ cho việc chuẩn bị nguồn lực phù hợp ■I I Giới thiệu hóa tốn chuỗi thời gian thực sánh kỹ thuật phân tích đa biệt thức Hoạt động ngành Tài - tế lĩnh vực tài chính, ngân hàng (Multivariate Discriminant Analysis), hổi Ngân hàng đóng vai trị quan trọng ứng dụng kỹ thuật học máy để quy Logarit (Logarithmic Regression) việc thiết lập ổn định tài giải chúng Điển hình Tanaka mạng nd-ron nhân tạo cho toán dự quốc gia Hổn nữa, toàn câu et al (2016), Alessi Detken (2018) đoán phá sản Tuy nhiên, kỹ thuật hóa tiến cơng nghệ tạo sử dụng thuật toán Rừng Ngẫu Nhiên phải đối mặt với nhiều thách thị trường cạnh tranh cao cho (Random Forest) để cải thiện chất lượng thức thực tế phụ thuộc vào ngân hàng Do đó, người mị hình cảnh báo sớm khả tính sẵn sàng chất lượng liệu, cài định ngành cần công phá sản ngân hàng Slavici cộng đặt phức tạp thời gian thực thi cao cụ phân tích liệu lớn, dự đốn, dự (2016) sử dụng mạng nd-ron Trong nhiều tài liệu nghiên cứu khác, báo thơng tin để đưa nhân tạo (Artificial Neural Network) để kỹ thuật thống kê sử định xác Trong năm gẩn dự báo tình trạng khó khăn tài dụng phổ biến để dự đốn thơng tin liên đây, nhiều nhà nghiên cứu mơ hình Đơng Âu Inam cộng (2018) so quan đến hoạt động ngân hàng CHUYỀN ĐỂ CÔNG NGHỆ VA NGÁN HANG số I sổ I THÁNG 7/2021 o NGHIÊN CỨU - TRAO Đổl hổi quy tuyến tính Các nhà kinh tế đé phù hợp với mơ hàm tuyến tính đoạn cho nhà phân tích kinh doanh từ lâu giả trước liệu số lượng gọi định mối quan hệ tuyến tính hình phi tuyến tính, việc áp dụng kỹ thuật chuyển đổi thành dạng tuyến tính nhiêu biến số kinh doanh kinh tế Ví làm một vài sóc khách hàng ngân hàng dụ đơn giản thấy kinh tế học đặc tính liệu Do đó, để Israel Thí nghiệm ràng, thuật Keynes (Blinder, 2021), nơi tiêu dùng đạt ước lượng tốt mà khơng tốn hổi quy sử dụng hàm tuyến tính biểu thị dạng hàm tuyến làm tăng độ phức tạp mơ hình, đoạn thu kết tốt tính thu nhập Trong tài chính, mơ số nhà khoa học sử dụng liệu chúng tơi Đơng hình định giá tài sản vốn (CAPM) thể hàm tuyến tính đoạn (Piecewise- thời, kết mơ hình sử lợi tức kỳ vọng tài linear fuction) Brown cộng dụng để dự đoán số lượng gọi tới sản đảm bảo dạng hàm tuyến (2005), Alizadeh cộng (2008) tính lợi tức thị trường vượt tài Bên cạnh đó, mơ hình đêu giả trung tâm chăm sóc khách hàng ngân hàng phục vụ cho việc chuẩn bị sản phi rủi ro Hơn nữa, kỹ thuật định liệu thu thập có phân phối nguồn lực phù hợp khách hàng tới trung tâm chăm hổi quy tài quốc tế biết Vé mặt lý thuyết, số sử dụng để đánh giá mức độ ảnh trình ngẫu nhiên thực tế hưởng kinh tế cách phân tích luồng tiền lịch sử liệu tỷ giá chứng minh có đặc tính phân phối cụ thể Ví dụ, số lượng gọi đến hối đoái (Madura, 2015) Giả định mối quan hệ tuyến tính hạn chế trung tâm chăm sốc khách hàng ngân hàng thời điểm tuân ứng dụng hổi quy nhiều vấn theo phân phối Poisson, tỷ giá đông đê kinh doanh kinh tế phi tuyến tiền quốc gia (khác với đơ-la tính (về mặt chất) Trong trường hợp vậy, sô' dạng mô Mỹ) so với đồng đô-la Mỹ tuân theo phân phối chuẩn Tuy nhiên, thực hình phi tuyến tính đường cong tế, trình thu thập liệu Trong đó, {Xị}/ véc-tơ đẩu tuyến tính áp dụng Tuy cách chia khoảng liệu để ước lượng vào có thời điểm xuất tị {yjf nhiên, hồi quy tuyến tính cho hàm tuyến tính đoạn, liệu thu phản hôi người giám sát Giả hữu ích nhiều trường hợp, ví khơng thực có tính chất sử véc-td đẩu vào xuất ngẫu dụ việc xác định xu hướng liệu phân phối giả định Ví dụ, phân nhiên độc lập theo phân phối P(x) tính đơn giản, dễ cài đặt thời phối liệu số lượng gọi đến Từ đó, phản hổi người giám sát gian thực thi ngắn (Abu Bakar cộng trung tâm chăm sóc khách hàng nhận ngẫu nhiên từ phân phối có sự, 2009) Wu Li (2017) ngân hàng thời điểm phụ điều kiện P(y I x) Trong trường hợp này, rằng, nhà quản lý gặp nhiều khó tơn phân phối xác suất đơng khăn việc áp dụng mơ hình thuộc vào cách làm tròn đơn vị thời gian (làm tròn đến phút, giờ, ) phi tuyến tính phức tạp chúng Trong viết này, đóng góp chưa biết Mục đích máy học so với mơ hình tuyến tính Để đơn chúng tơi sau: II Phát biểu toán ChoG làbộsinh véc-tơxtrong mộtquá trình chuỗi thời gian, Xe/c /T' quan sát độc lập có phân phối chưa biết (nhưng cố định) Mỗi véc-tơ X có thời điểm quan sát t(a < t < b) Một máy học (Learning Machine) quan sát cặp: Mi)> (x2,y2), , (xn,yn) thời P(x,y) phân phối xác suất dự đoán giá trị gần phản hổi người giám sát y, giản hóa vấn để này, nhiều nghiên (i) Đê xuất quy trình học tập đối cứu thực chuyển đổi số với liệu chuỗi thời gian hữu hạn cho mơ hình phi tuyến tính thành dạng tốn hồi quy tuyến tính đoạn; tuyến tính gần Phép biến đổi (ii) Đề xuất thuật toán phân chia logarit mơ hình phi tuyến tính thành dạng tuyến tính khơng phải ý liệu Trong thuật toán này, phân phối giả định kiểm định tưởng lạ tài liệu nghiên cứu, quy trình chế chuyển khoảng liệu nhằm đảm bảo việc chia khoảng liệu không làm ta cân tối thiểu mát đổi, minh họa Benoit (2011), đặc tính phân phối liệu; sát phản hổi máy học Rusov cộng (2017), Ogwang (iii) Thực nghiệm dựa 02 đầu vào định thông qua hàm (2021) Tuy nhiên, vấn liệu bao gổm: Dữ liệu ngẫu nhiên sinh rủi ro: R= f(y-f(x,a))2 dP(x,y) Q CHUYÊN ĐÉ CƠNG NGHỆ VÀ NGĂN HÀNG sơ' I só I THÁNG 7/2021 vectơ đẩu vào Xị tạo sinh G Hàm xấp xỉ chọn từ không gian hàm giả thuyết Fcho trước: F = {f(x,a)Ịf E L2(P),a eA} Để chọn hàm hổi quy tốt nhất, chúng khác biệt phản hôi người giám NGHIÊN cứu-TRAOĐỒI Theo Vapnik (1995), toán tối đoạn, cụ thể là, hàm tuyến tính hợp “overfitting” Với khoảng chia lớn, thiểu hàm rủi ro quy đoạn dựa liệu chia khoảng mơ hình bị “underfitting” ta tốn tối thiểu hàm rủi ro thực nghiệm: theo thời gian quan sát Đối với cố gắng mô tả liệu phức tạp khoảng liệu, thực mơ hình tuyến tính đơn giản phương pháp kiểm định phân phối Do đó, với liệu hữu hạn, thuật Giả sử không gian hàm giả thuyết nhằm đảm bảo liệu sau chia toán phân chia tốt cân đảm bảo tối cố định không gian hàm khoảng tuân theo phân phối đa số điểm chia liệu tuyến tính nhằm làm giảm độ phức giả thiết ban đầu khoảng chia phải tuân theo tạp mơ hình (nghĩa thuộc tính III Thuật tốn phân phối giả định Việc đảm bảo đặc số chiêu liệu đạt giá Chúng giả sử ràng liệu huấn trị nhỏ hơn, theo Vapnik, 1995) Nếu luyện lưu trữ khoảng không khái qt hóa mơ hình với liệu thu thập có xu hướng chơng lên Pk=[u^,uJ,k=1,m liệu chưa thu thập Hình hàm phi tuyến, toán đặt làm chia mơ tả quy trình đề xuất hàm giảm độ lỗi mơ hình học a=u0,uru2, ,um=b Với khoảng tuyến tính đoạn dựa liệu không gian hàm giả thuyết cố chia nhỏ, hàm tuyến tính dễ hữu hạn định Trong viết này, đé dàng khớp với liệu huấn luyện Việc phân chia khoảng liệu xuất phương pháp ước lượng làm tăng xác suất xảy trường thực liên tục khoảng Remp = ị- «))2 Hình 1: Q trình hồi quy tuyến tính đoạn dựa liệu hữu hạn c ~ " X chia điểm tính phân phối liệu nhằm tăng khả Thuật tốn 1: Thuật tốn hồi quy tuyến tính đoạn với phương pháp chia khoảng liệu có kiểm định phân phối Bướcl: Khởi tạo: er = 00; D = {a, b); i = ũ; BUđc 2: Gán u = a; V = b; Bước 3: Nếu i > maxiterations: Cho n quan sát Khởi tạo m = Đi đến Bưđc 7; BUdc4: Chọn ngẫu nhiên te (u, v); Bưđc 5: Phân chia dử liệu: Sinh m > m Chia m khoảng liệu s1 = {xi|x,e[u,t]}; s2={xi|xje[t,v]}; Biíổc 6: Kiểm định phân phối cho 02 liệu thuộc tặp SpS2: Nếu Sj,$2 tuân theo phân phối giá định: ej= Độ lỗi cùa ưđc lượng hàm tuyến tinh đoạn [u, t]; e2= ĐÕ lối cùa ưđc lượng hàm tuyến tính đoạn [t, V]; Có Nếu e1+e2 < er\ D = D u{t}; Hồi quy đoạn Quay lại Bước vôi er = ej + e2, u = u, V = t; Gán m = m Quay lại Bước với er = eỵ + e2, u = t, V = v; Ngược lại i++; Quay lại BƯỚC 2; Ngược lại: i++: Quay lại Bưđc 2; Bưâc 7: Sấp xép lại điểm chia thuộc D theo thứ tư tỉng dán; V > Bước 8: Ưđc lượng hàm tuyến tính tửng đoạn với điếm chia thuộc D-, CHUYÊN ĐÉ CỒNG NGHỆ VA NGÀN HÀNG số I sổ I THÁNG 7/2021 NGHIÊN CỨU - TRAO Đổl Hình 2: Mơ tả thuật tốn hồi quy tuyến tính đoạn cách chia khoang liệu liệu tuân theo phân phối giả định lỗi tập liệu xác thực không tăng (chưa xảy ra) Chi tiết r Fí> Phân chia b a Điêm phân chia sinh ngẫu nhiên thuật tốn mơ tả Thuật toán Trong Thuật toán 1, danh sách điểm phân chia lưu tập ữ Kiểm định phân phối Phân chia Điểm phân chia sinh ngẫu nhiên a Tại lần lặp, điểm chia sinh ngấu nhiên khoảng (u,v) Nếu điểm chia tạo thành hai tập Kiểm định phân phối liệu tuân theo phân phối giả định tiếp tục quay lại Bước với khoảng xem xét bước này, sử dụng Kiểm định phân phối _4 _ „ _ a _ _ _ ạ. -1 Ù ù h Phân chia k Kiểm định phân phối a , , ọ Điêm phân chia sinh ngầu nhiên Kiểm định phân phoi , , |=> Kết phân tz> Hồi quy tuyến chia liệu tính đoạn Kiềm định phân phối , b So sánh chât lượng giải pháp n phép kiểm định phân phối phổ biến Kolmogorov-Smirnov Test LogTest Thủ tục lặp lại gặp giới hạn số lần thực thi Quá trình thực thi thuật tốn mơ tả trực quan Hình IV Thực nghiệm Trong viết này, sử dụng 02 liệu để thử nghiệm mô tả sau: - Dữ liệu ngẫu nhiên sinh hàm tuyến tính đoạn: 13 —1 + 7, 36 0