1. Trang chủ
  2. » Thể loại khác

Kỹ thuật khai thác dữ liệu trong lĩnh vực tài chính, ngân hàng

8 0 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 8
Dung lượng 264,71 KB

Nội dung

Kỹ thuật khai thác liệu lĩnh vực tài chính, ngân hàng Tóm tắt: Gian lận người dùng giao dịch với ngân hàng có th ể xảy trộm cắp gian lận thẻ tín dụng, chia sẻ tài khoản ngân hàng với người lạ qua Internet/điện thoại, bao gồm thư rác, gian lận bảo hiểm, kế toán dẫn đến thiệt hại tài cho c ả ngân hàng khách hàng Vì vậy, việc phát loại gian lận quan trọng Bài viết đề cập đến việc phân tích kỹ thuật khai thác liệu để phát khắc phục gian lận lĩnh vực tài - ngân hàng Mở đầu Gian lận tài m ối quan tâm xã hội, hậu gây cho nhiều đối tượng, từ cá nhân đến Chính phủ, tổ chức cơng ty thương mại tài Ngày nay, s ự phát triển công nghệ giúp cho giao dịch ngân hàng ngày đơn gi ản tiện lợi Tuy nhiên, gian lận lĩnh vực ngân hàng gia tăng giao d ịch trở thành phương thức tốn rộng rãi, từ nhiều giải pháp phần mềm ngăn ngừa gian lận nghiên cứu, phát triển Để tìm chứng gian lận liệu, có th ể sử dụng thuật toán học máy, học sâu Kỹ thuật khai thác liệu phương pháp đáng ý, sử dụng phổ biến để phát lừa đảo lĩnh vực ngân hàng, giúp mở rộng phân tích tồn b ộ thơng tin Giải pháp thực kết hợp tất điểm mạnh an toàn máy chủ xác thực với tính logic, độ xác hệ thống phát gian lận để hạn chế rủi ro giúp khách hàng hài lòng v ề dịch vụ Kỹ thuật khai phá liệu mối quan hệ, liên kết thông tin tiến hành tìm kiếm tất thuộc tính liệu kiểm tra Có hai quy trình mà thơng qua đó, mơ hình gian l ận phát nhờ trợ giúp khai thác liệu: (i) Ngân hàng tiếp cận kho tài liệu khác chứa thông tin giao dịch triển khai mã khai thác liệu để xác định gian lận (có thể tham khảo mẫu với tệp thơng tin cách thức gian lận diễn ra, sau xác định mức độ nguy hại); (ii) Việc xác định hình thức gian lận thực thông tin cá nhân c ngân hàng Khai thác liệu khơng yếu tố tạo điều kiện cho hệ thống ngân hàng có khách hàng mới, mà cịn giữ chân khách hàng Sự tiếp cận ý khách hàng vấn đề quan trọng doanh nghiệp nào, đặc biệt lĩnh vực tài ngân hàng Nếu nhân viên ngân hàng không cho khách hàng nh ận biết thông tin đầy đủ tin cậy, họ tìm kiếm ngân hàng khác thay th ế Khai thác liệu sử dụng tạo điều kiện thuận lợi để hấp dẫn khách hàng cho tất dịch vụ vi ệc tìm kiếm khám phá mơ hình giữ chân người dùng cũ cách cung cấp tùy chỉnh theo yêu cầu Khai thác liệu quản lý rủi ro sử dụng hệ thống nhân viên muốn tìm hiểu khách hàng mà h ọ giao dịch có đáng tin c ậy hay khơng Cung c ấp thẻ tín dụng tài khoản cho khách hàng m ới, mở thêm hạn mức tín dụng cho vay định nguy hiểm khó khăn ngành Ngân hàng họ khơng có thơng tin xác th ực chi tiết Khai thác liệu sử dụng để giảm thiểu nguy rủi ro cách lọc khách hàng thu ộc danh sách đen (n ợ xấu, trốn thuế, khai khống tài sản ), kiểm tra giao dịch người dùng để tính tốn khách hàng tiềm năng, xác định khoản vay cho phép, xếp hạng tín dụng Kỹ thuật khai thác liệu sử dụng để phát gian lận ngành Ngân hàng Có nhiều kỹ thuật khai thác liệu hầu hết sử dụng dự án phân tích khai thác liệu Trong số kỹ thuật phát triển bao gồm phân loại, phân cụm, liên kết, dự đoán mẫu 2.1 Phân loại Phân loại kỹ thuật khai thác điển hình, giúp lấy thơng tin quan trọng liệu Cách tiếp cận phân loại dựa mạng thần kinh nhân tạo Phân loại liên quan đến phương pháp h ọc máy, liệu đào tạo phân tích cách thuật toán khai phá liệu Độ xác quy tắc phân loại xác định cách xác thực thông tin Các b ộ liệu sử dụng cho nguyên tắc độ xác phân loại phù hợp theo yêu cầu, bao gồm hồ sơ đầy đủ hoạt động gian lận hợp lệ Thuật tốn đào tạo q trình phân loại sử dụng từ thơng tin l ọc trước để tìm tập hợp tham số cần thiết phân biệt xác Các tham số sau mã hóa thành mơ hình phân loại mẫu, chúng tiếp tục bổ sung đào tạo thêm có liệu cập nhật Có nhiều loại mơ hình phân loại như: - Phân loại theo định (Decision tree): Trong lĩnh v ực máy học, định kiểu mơ hình dự báo (Predictive model), nghĩa ánh xạ từ quan sát vật/hiện tượng tới kết luận giá trị mục tiêu vật/hiện tượng Mỗi nút (Internal node) tương ứng với biến; đường nối với nút thể giá trị cụ thể cho biến Mỗi nút đại diện cho giá trị dự đoán biến mục tiêu, cho trước giá trị biến biểu diễn đường từ nút gốc tới nút Cây định phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật Các thuộc tính đối tượng thuộc kiểu liệu khác nh ị phân (Binary), định danh (Nominal), thứ tự (Ordinal), số lượng (Quantitative), thuộc tính phân lớp phải có kiểu liệu nhị phân thứ tự Tóm lại, cho liệu đối tượng gồm thuộc tính với lớp (classes) nó, định sinh luật để dự đoán lớp liệu chưa biết - Phân loại Naive Bayes: Naive Bayes m ột thuật toán phân loại cho vấn đề nhị phân (hai lớp) đa lớp Kỹ thuật dễ hiểu mô tả giá trị đầu vào nhị phân phân loại Thuật toán Naive Bayes tính xác suất cho yếu tố, sau chọn kết với xác suất cao - Mạng thần kinh nhân tạo (Neural Network): Là chu ỗi thuật tốn đưa để hỗ trợ tìm kiếm mối quan hệ tập hợp liệu dựa vào việc bắt chước cách thức hoạt động từ não người Mạng thần kinh nhân tạo có khả thích ứng với thay đổi từ đầu vào Do vậy, đưa kết cách tốt mà không cần phải thiết kế lại tiêu chí đầu Trong lĩnh vực tài chính, mạng thần kinh nhân tạo hỗ trợ cho trình phát triển quy trình như: Giao d ịch thuật tốn, dự báo chuỗi thời gian, phân loại chứng khốn, mơ hình rủi ro tín dụng, xây dựng báo độc quyền công cụ phát sinh giá - Máy Vector hỗ trợ (Support Vector Machine - SVM): Là khái niệm thống kê khoa h ọc máy tính cho m ột tập hợp phương pháp học có giám sát liên quan đến để phân loại phân tích hồi quy SVM dạng chuẩn nhận liệu vào phân loại chúng vào hai l ớp khác Do đó, SVM thuật tốn phân loại nhị phân Với ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng mơ hình SVM để phân loại ví dụ khác vào hai thể loại Một mơ hình SVM cách biểu diễn điểm không gian l ựa chọn ranh giới hai thể loại cho khoảng cách từ ví dụ luyện tập tới ranh giới xa Các ví dụ biểu diễn khơng gian đư ợc thuật tốn dự đoán thuộc hai thể loại tùy vào ví dụ nằm phía ranh giới - Phân loại dựa liên kết (Classification Based on Associations CBA): Là nhánh khai phá d ữ liệu sử dụng phương pháp khám phá quy tắc kết hợp toán phân loại 2.2 Phân cụm Việc xác định loại đối tượng khó phân biệt thường gọi phân cụm Trong trình phân c ụm, tất giao dịch ngân hàng khác nhóm lại thành cụm Có thể nói phương pháp xử lý trước để phân loại lựa chọn tập thuộc tính sử dụng phân cụm Từ thông tin này, ngân hàng có th ể thuận lợi để bán chéo sản phẩm, thay tập trung vào dịch vụ cụ thể Các nhân viên ngân hàng thư ờng trang bị hồ sơ khách hàng cung cấp khai thác liệu để giúp họ dễ dàng biết sản phẩm dịch vụ áp dụng phù hợp cho người dùng Các phương pháp phân c ụm thường dùng là: - Phương pháp phân vùng (Partitioning methods): Trong phương pháp sở liệu chứa nhiều đối tượng xây dựng phân vùng liệu người dùng định phân vùng đại diện cho cụm vùng cụ thể Có nhiều thuật tốn theo phương pháp này, ph ổ biến K-Mean, PAM (K-Mediods), thuật toán CLARA (Clustering Large Applications), - Phương pháp phân c ấp (Hierarchical methods): Yêu c ầu xác định trước thước đo khác biệt cụm (không giao nhau), dựa khác biệt cặp hai cụm Theo phương pháp này, chúng t ạo biểu diễn phân cấp c ụm cấp hệ thống tạo cách hợp cụm cấp độ thấp bên dư ới Ở cấp thấp nhất, cụm chứa quan sát Ở cấp cao nhất, có cụm chứa tất liệu - Phương pháp dựa mật độ (Density based methods): K ỹ thuật này đề cập đến phương pháp học không giám sát nh ằm xác định cụm phân biệt phân phối liệu, dựa ý tưởng cụm khơng gian liệu vùng có mật độ điểm cao ngăn cách với cụm khác vùng liền kề có mật độ điểm thấp - Các phương pháp dựa lưới (Grid-based methods): K ỹ thuật phân cụm dựa lưới thích hợp với liệu nhiều chiều, dựa cấu trúc liệu lưới để phân cụm, phương pháp chủ yếu tập trung áp dụng cho lớp liệu không gian Mục tiêu lượng hóa liệu thành tạo thành cấu trúc liệu lưới Sau đó, thao tác phân c ụm cần làm việc với đối tượng ô lưới đối tượng liệu Cách tiếp cận dựa lưới không di chuy ển đối tượng ô mà xây dựng nhiều mức phân cấp nhóm đối tượng ô - Các phương pháp dựa mơ hình (Model-based methods): Phương pháp cố gắng khám phá phép xấp xỉ tốt tham số mơ hình cho khớp với liệu cách tốt Chúng sử dụng chiến lược phân cụm phân hoạch phân cụm phân cấp, dựa cấu trúc mơ hình mà chúng giả định tập liệu cách chúng hiệu chỉnh mơ hình để nhận dạng phân hoạch 2.3 Dự đoán Kỹ thuật giúp xác định mối quan hệ biến phụ thuộc độc lập, sử dụng để phân tích hồi quy Kỹ thuật phân tích sử dụng ngân hàng ch ủ yếu để xác định dự đoán gian lận, mối đe dọa hệ thống tài Tài sản coi biến độc lập đối tượng lừa đảo biến phụ thuộc Sau đó, s liệu khai thác từ lịch sử trước đây, đường cong hồi quy phù hợp vẽ để dự đoán gian lận cố gắng thực Trong khai thác liệu, biến phản hồi cần dự đoán trước tiên biến độc lập xác định rõ Tuy nhiên th ực tế dường khơng th ể dự đốn thứ cách dễ dàng, nên tùy trường hợp để phân tích, ước lượng tính xác suất dự đốn Có nhiều loại phương pháp hồi quy khác đư ợc sử dụng như: - Hồi quy tuyến tính (Linear Regression): Là m ột phương pháp th ống kê để hồi quy liệu với biến phụ thuộc có giá trị liên tục bi ến độc lập có hai giá tr ị liên tục gián đoạn Nó sử dụng cho trư ờng hợp muốn dự đốn số lượng liên tục Ví dụ, dự đốn lượng khách hàng giao dịch với ngân hàng quầy tiếp dân, dự đoán thời gian người dùng trang web ngân hàng web ngân hàng khác - Hồi quy tuyến tính đa biến (Multivariate Linear Regression): H ồi quy đa biến phần mở rộng hồi quy tuyến tính, sử dụng muốn dự đoán giá trị biến dựa giá trị hai nhiều biến khác Biến muốn dự đoán gọi biến phụ thuộc (hoặc đôi khi, biến kết quả, mục tiêu biến tiêu chí) Các biến sử dụng để dự đoán giá trị biến phụ thuộc gọi biến độc lập Hồi quy đa biến cho phép bạn xác định mức độ đóng góp nhiều, ít, khơng đóng góp c nhân tố vào thay đổi biến phụ thuộc Ví dụ: Thu nhập, địa điểm sinh sống số thành viên gia đình ảnh hưởng đến chi tiêu biến độc lập là: Thu nhập, địa điểm, số thành viên biến phụ thuộc chi tiêu - Hồi quy phi tuyến (Non-Linear Regression): Trong th ống kê, hồi quy phi tuyến tính dạng phân tích hồi quy liệu quan sát mơ hình hóa hàm kết hợp phi tuyến tính tham số mơ hình phụ thuộc vào hay nhiều biến độc lập Dữ liệu khớp phương pháp xấp xỉ liên tiếp (xấp xỉ nối tiếp) - Hồi quy phi tuyến đa biến (Multivariate Non -Linear Regression): Tương tự kỹ thuật hồi quy phi tuyến số lượng biến lớn 02 2.4 Quy tắc kết hợp Trong kỹ thuật khai phá liệu sử dụng quy tắc kết hợp, trọng tâm tìm tập hợp biến nhị phân phổ biến sở liệu giao dịch xác định nhóm có liên quan với với biến mục tiêu Trong kỹ thuật khai thác liệu này, câu lệnh if/then (nếu/thì) sử dụng, giúp tìm mối liên hệ biến độc lập sở liệu so sánh vùng lưu trữ liệu khác Ví d ụ: Nếu khách mở tài khoản, 80% khả họ đăng ký Internet Banking Quy t ắc kết hợp sử dụng số loại sau: - Quy tắc kết hợp đa cấp (Multilevel association rule): Các quy t ắc tạo từ thông tin khai thác mức độ phản ánh khác Các q uy tắc kết hợp đa cấp khai thác cách hiệu cách sử dụng tiến trình hệ thống chắn có hỗ trợ Các quy tắc cấp độ cao tăng thêm khả phán đốn t ốt - Quy tắc kết hợp đa chiều (Multidimensional associat ion rule): Luật liên quan đến phần tử/thuộc tính nhiều chiều - Quy tắc kết hợp định lượng (Quantitative association rule): Bao g ồm tập hợp thuộc tính số phân loại 2.5 Các mẫu (Sequential Patterns) Kỹ thuật chủ đề khai phá liệu liên quan đến việc tìm kiếm mẫu có liên quan v ề mặt thống kê liệu giá trị phân phối theo trình tự Các giá trị rời rạc khai thác theo chuỗi thời gian có liên quan chặt chẽ với Khai phá m ẫu trường hợp đặc biệt khai thác liệu có cấu trúc Kỹ thuật bao gồm xây dựng sở liệu mục hiệu cho thơng tin trình tự, trích xuất mẫu thường xuyên xảy ra, so sánh trình t ự để tìm giống khơi ph ục trình tự bị thiếu Kỹ thuật sử dụng để tìm thấy mẫu tương tự mẫu đồng giao d ịch thời điểm, giúp xác định hành vi người dùng Với đa dạng sản phẩm thói quen khách hàng, giới thiệu dịch vụ chiến lược quan trọng Các ngân hàng tăng lợi nhuận, giảm chi phí cách quản lý hợp lý việc phân bổ loại hình sản phẩm Kết luận Kỹ thuật khai thác liệu đóng vai trị quan trọng việc thay đổi định lĩnh vực tài - ngân hàng Từ sở khác nhau, họ tổng hợp thông tin lưu trữ dạng phù hợp để việc khai thác liệu thực Trong lĩnh vực ngân hàng, k ỹ thuật khai thác liệu giúp ích nhiều việc nhắm mục tiêu, hấp dẫn người dùng mới, phát hiện, can thiệp xử lý gian lận thời gian thực, cung cấp hàng hóa chủ lực theo giai đoạn, quản lý rủi ro, phân tích khách hàng Khai thác liệu hoạt động để cung cấp cho ngân hàng bảo mật, an toàn thông tin, nâng cao tùy ch ọn, đưa định vào th ời điểm xác Nó tìm n ạp mẫu quan trọng từ liệu lớn (Big Data) giúp c ải thiện chất lượng sở liệu, góp phần quan trọng quy trình chuyển đổi số cho ngành tài - ngân hàng Tài liệu tham khảo: “Data Mining Techniques and its Applications in Banking Sector” Dr K Chitra, B Subashini - International Journal of Emerging Technology and Advanced Engineering “Data Mining Techniques and Their Implementation in Blood Bank Sector” Ankit Bhardwaj, Arvind Ssharma, V K Shrivastava/International Journal of Engineering Research and Applications “Real-time Fraud Detection In The Banking Sector Using Data Mining Techniques/Algorithms” S N John Department of Electrical and Information Engineering Covenant University, Ota, Ogun State, Nigeria ... tín dụng Kỹ thuật khai thác liệu sử dụng để phát gian lận ngành Ngân hàng Có nhiều kỹ thuật khai thác liệu hầu hết sử dụng dự án phân tích khai thác liệu Trong số kỹ thuật phát triển bao gồm... Các ngân hàng tăng lợi nhuận, giảm chi phí cách quản lý hợp lý việc phân bổ loại hình sản phẩm Kết luận Kỹ thuật khai thác liệu đóng vai trò quan trọng việc thay đổi định lĩnh vực tài - ngân hàng. .. khác nhau, họ tổng hợp thông tin lưu trữ dạng phù hợp để việc khai thác liệu thực Trong lĩnh vực ngân hàng, k ỹ thuật khai thác liệu giúp ích nhiều việc nhắm mục tiêu, hấp dẫn người dùng mới,

Ngày đăng: 01/01/2023, 05:30

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w