Hệ thống hỗ trợ giảm thiểu rủi ro do gian lận đến từ các giao dịch của khách hàng

24 154 2
Hệ thống hỗ trợ giảm thiểu rủi ro do gian lận đến từ các giao dịch của khách hàng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI oOo BÁO CÁO MƠN HỌC Mơn: Hệ hỗ trợ định Đề tài Hệ thống hỗ trợ giảm thiểu rủi ro gian lận đến từ giao dịch khách hàng Giảng viên hướng dẫn: T.S Lê Chí Ngọc Sinh viên thực hiện: Vũ Duy Khánh MSSV: 20173535 Hà Nội, 2020 Lời nói đầu Việc giảm thiểu rủi ro gian lận đến từ giao dịch khách hàng (bài toán thương mại điện tử) vấn đề quan tâm doanh nghiệp tính quan trọng Các giải pháp trước không giải tất vấn đề xung quanh (như việc giảm tỷ lệ gian lận thẻ tín dụng khoản bồi hồn (chargeback) phát sinh từ CNP), lại khơng thể giải thời gian thực (do thời gian để kiểm tra, thắt chặt tham số cho bảo mật, ) Hơn phương pháp khiến lượng lớn giao dịch hợp lệ không thông qua (bị từ chối) lại để hổng giao dịch gian lận (do kỹ gian lận ngày tinh vi đại hơn), khiến cho doanh nghiệp bị tổn thất lớn Với nhiều vấn đề thiết mà em chọn đề tài để thực Bài báo cáo em trình bày theo bốn chương: Chương 1: Đặt vấn đề Chương 2: Giải pháp Chương 3: Phân tích thiết kế hệ thống Chương 4: Kết luận Em xin chân thành cảm ơn thầy Lê Chí Ngọc – Viện Tốn ứng dụng Tin học, trường Đại học Bách Khoa Hà Nội tận tình dạy, hướng dẫn, truyền đạt kiến thức bổ ích suốt q trình học lớp thời gian thực đề tài Do nhiều hạn chế kiến thức nên báo cáo tránh khỏi số sai sót Vì vậy, em mong nhận góp ý, đánh giá thầy bạn để báo cáo em hoàn thiện Em xin chân thành cảm ơn! Chương 1: Đặt vấn đề Ngày nay, với phát triển internet thương mại điện tử ngày lớn mạnh Theo thống kê, Thương mại điện tử bán lẻ toàn giới đạt 2.9 nghìn tỷ USD, đó, 2.5 nghìn tỷ theo hình thức B2B 0.39 nghìn tỷ cho hình thức giao dịch B2C Đến năm 2018 có khoảng 1.8 tỷ người toán giới mua hàng trực tuyến Doanh số thương mại điện tử giới đạt gần 3.46 nghìn tỷ USD năm 2019 Con số tăng 17.9% so với năm 2018 Thật dễ dàng để giảm thiểu rủi ro đến từ gian lận, làm điều mà khơng làm giảm doanh thu cho doanh nghiệp lại khơng đơn giản Các mối đe dọa gian lận ln ln phát triển kẻ xấu ngày đại hóa kỹ thuật gian lận Card not present (CNP) transaction: sử dụng phổ biến cho khoản toán (giao dịch) thực qua internet CNP nguyên nhân phổ biến cho vấn đề gian lận thẻ tín dụng (Credit Card Fraud) khó để xác minh chủ thẻ thực cho phép mua hàng hay thực giao dịch Giảm tỷ lệ gian lận thẻ tín dụng khoản bồi hoàn (chargeback) phát sinh từ CNP Cách tiếp cận phổ biến để chống gian lận trước thắt chặt tham số bảo mật cho giao dịch (Bảo mật tốt = Ít gian lận hơn) Nhược điểm lớn phương pháp giảm thành cơng trường hợp gian lận Tuy nhiên điều khiến lượng lớn giao dịch hợp pháp bị từ chối, dẫn đến việc giảm thiểu doanh thu đáng kể cho doanh nghiệp Đánh giá giao dịch không theo thời gian thực, dẫn đến việc số lượng giao dịch hợp pháp phê duyệt giảm đáng kể Các vấn đề cần phải giải là: Cải thiện độ xác: phát gian lận khơng xác thường cho phép giao dịch xấu thông qua từ chối giao dịch hợp lệ Giảm thiểu chi phí: ngăn chặn khoản bồi hồn (chargeback) dựa gian lận ngừng lãng phí thời gian tài nguyên cho việc khắc phục Giải vấn đề card – not – present (CNP) transaction Với trách nhiệm gian lận không giao dịch CNP chấp nhận, định bảo vệ theo thời gian thực khơng có khoản bồi hồn phí bồi hồn, nhà quản lý tập trung vào vấn đề quan trọng điều hành doanh nghiệp Chính nhiều vấn đề cần giải trên, doanh nghiệp hoạt động thương mại điện tử đặt yêu cầu hệ thống có khả phân tích lượng liệu lớn đến từ giới thực nhằm xác định hành vi nhóm khách hàng có khả gian lận cao để có biện pháp thắt chặt bảo mật điều chỉnh lại hệ thống giao dịch để giảm thiểu rủi ro đến từ gian lận, ngăn chặn khoản bồi hồn (chargeback) CNP ngừng lãng phí thời gian tài nguyên cho việc khắc phục Chương 2: Giải pháp Trong chương này, em trình bày giải pháp cho toán dự báo xác suất gian lận đến từ giao dịch khách hàng việc sử dụng thuật toán Machine Learing (LightGBM, XGBoost, CatBoost, ), LightGBM đạt kết tốt trình bày 2.1 Tổng quan liệu sử dụng Dữ liệu đến từ giao dịch thương mại điện tử giới thực Vesta Corporation (công ty dịch vụ toán hàng đầu giới) chứa loạt thông tin từ loại thiết bị thực giao dịch đến thông tin sản phẩm Bộ liệu bao gồm liệu giao dịch ̣(Transaction Data) liệu danh tính (Identity Data) • Train Transaction Shape: (590540, 394) • Train Identity Shape: (144233, 41) • Test Transaction Shape: (506691, 393) • Test Identity Shape: (141907, 41) 2.1.1 Transaction Data • Có chứa số tiền giao dịch (USD), mua hàng dịch vụ tặng quà khác, ví dụ bạn đặt vé cho người khác, • TransactionDT: Timedelta từ mốc thời gian tham chiếu định (không phải dấu thời gian thực tế) • TransactionAmt: số tiền toán giao dịch USD Một số số tiền giao dịch có ba chữ số sau dấu thập phân Dường có liên kết đến ba vị trí thập phân trường addr1 addr2 trống Có thể giao dịch nước ngồi Ví dụ, 75.887 hàng 12 kết việc nhân lượng ngoại tệ với tỷ giá hối đối (exchange rate) • Address Feature: (addr1 & addr2): Cả hai địa dành cho người mua (trong addr1: dạng vùng tốn; addr2: quốc gia tốn) • Distance Feature: (dist1 & dist2): "khoảng cách” (khơng giới hạn) địa tốn, địa gửi thư, mã zip, địa IP, khu vực điện thoại, • ProductCD: Mã sản phẩm (sản phẩm cho giao dịch) Sản phẩm không cần thiết phải 'sản phẩm' thực (giống mặt hàng thêm vào giỏ hàng) Nó loại dịch vụ • Card Feature: (card1 - card6): thơng tin thẻ tốn, chẳng hạn như: loại thẻ, ngân hàng phát hành, quốc gia, • P_ and (R ) emaildomain: tên miền email người mua/giao dịch người nhận Các giao dịch định không cần người nhận R_emaildomain null • C1 – C14: đếm (counting), chẳng hạn có địa tìm thấy có liên quan đến thẻ tốn, Ý nghĩa thực tế che dấu • D1 – D15: Timedelta, chẳng hạn ngày giao dịch trước đó, • M1 – M9: trùng khớp (True/False), chẳng hạn tên thẻ địa chỉ, • Vxxx: Vesta thiết kế tính phong phú, bao gồm xếp hạng, đếm mối quan hệ thực thể khác Ví dụ, có lần thẻ toán liên kết với IP email địa xuất khoảng thời gian 24 giờ, • Tất tính Vesta có nguồn gốc số Một số số chúng số lượng đơn đặt hàng cụm, khoảng thời gian điều kiện, giá trị hữu hạn có thứ tự (hoặc xếp hạng) • Categorical Features: ProductCD ; card1 - card6; addr1, addr2; P_emaildomain R_emaildomain; M1 - M9 2.1.2 Identity Data • Các trường liệu danh tính (identity) bao gồm: thơng tin nhận dạng – thông tin kết nối mạng (IP, ISP, Proxy, ) chữ ký số (UA / Browser /OS, ) có liên quan đến giao dịch • Chúng thu thập hệ thống chống gian lận đối tác bảo mật kỹ thuật số Vesta • id_01 – id_11 tính số để nhận dạng, thu thập Vesta đối tác bảo mật xếp hạng thiết bị (Device), xếp hạng IP_Domain, xếp hạng Proxy, • Tên trường che dấu không cung cấp để bảo vệ quyền riêng tư thỏa thuận hợp đồng Ngồi ra, cịn có thơng tin ghi dấu vân tay hành vi thời gian đăng nhập tài khoản / không đăng nhập bao lâu, Tất điều giải thích đối tác bảo mật T & C • Categorical Featutes: Device_Type; Device_Info; id_12 - id_38 2.1.3 Labeling logic (Cách gán nhãn gian lận - fraud) Logic ghi nhãn Vesta xác định khoản bồi hoàn báo cáo thẻ giao dịch gian lận (isFraud = 1) giao dịch sau với tài khoản người dùng, địa email địa tốn liên kết trực tiếp với thuộc tính lừa đảo Ở báo cáo tìm thấy sau 120 ngày, sau Vesta xác định giao dịch hợp pháp (isFraud = 0) Tuy nhiên, hoạt động gian lận giới thực khơng báo cáo, ví dụ: chủ thẻ khơng biết quên báo cáo kịp thời vượt thời gian yêu cầu, v.v Trong trường hợp vậy, gian lận cho dán nhãn hợp pháp, (Vesta) chúng Vì vậy, họ nghĩ chúng trường hợp bất thường phần khơng đáng kể Đó tình phức tạp - thông thường chúng bị gắn cờ lừa đảo (gian lận) Nhưng lúc bạn nghĩ đến trường hợp - địa toán bị phát gian lận giao dịch trước Thẻ tín dụng liên quan đến bị đánh cắp Nhưng chủ thẻ thực nạn nhân, họ không đưa vào danh sách đen mãi sử dụng thẻ hợp pháp khác cho giao dịch tương lai Có nhiều trường hợp khác khơng thể giải thích tất 2.2 Thuật tốn Chương trình sử dụng thuật tốn LightGBM (Light Gradient Boosting Model) Trước tiên, ta trình bày Gradient Boosting Model: Hình 1: Ensemble Learning (Boosting & Bagging) Gradient Boosting thuật toán học kết hợp (ensemble learning) sử dụng toán hồi quy phân lớp, cách tạo kết hợp mô hình dự đốn yếu (weak learner), mơ hình sau xây dựng dựa sai số mô hình trước đó, sau ta mơ hình cuối có độ xác cao Hình 2: Minh họa Boosting Model Hình 3: So sánh Bagging & Boosting Thuật tốn tổng qt nhóm mơ hình học yếu dựa (tree weak model), ta xét với toán hồi quy (regression): Hình 4: General algorithm with regression tree weak models Cách thức Gradient Boosting Model hoạt động: tạo (trồng) phụ thuộc lẫn (sequentially and dependently), sau đào tạo dựa thơng tin từ trước khơng liên quan đến việc lấy mẫu có hồn lại (boostrap) giống bagging (random forest) Boosting có tham số điều chỉnh (tuning parameters): • Số lượng B, khơng giống bagging (random forest), boosting gặp phải tượng overfiting B lớn (mặc dù việc xảy overfiting có xu hướng xảy chậm, có) Chúng ta xử dụng cross – validation để lựa chọn B • Tham số co ngót (shrinkage parameter ) lambda, số dương có giá trị nhỏ (0.001, 0.01, 0.05, 0.1, ) Giá trị lambda nhỏ để đạt hiệu suất (performance) tốt, mơ hình cần giá trị B lớn • Giá trị phân tách d (splits in each tree): điều khiển phức tạp việc kết hợp tăng cường (boosted ensemble) Hình 5: Gradient Boosting Algorithm Tiếp theo, ta trình bày LightGBM • LightGBM thuật toán Gradient Boosting, thuộc họ thuật toán học tập dựa (tree based learning algorithms) XGBoost, CatBoost, Các ưu điểm LightGBM so với thuật tốn Gradient Boosting khác: • Tốc độ đào tạo nhanh hiệu cao • Sử dụng nhớ thấp • Độ xác tốt • Hỗ trợ tính tốn song song GPU • Có khả xử lý liệu lớn Các thuật tốn dựa (tree base model) trước (điển hình XGBoost) sử dụng cách xây dựng theo chiều sâu (level (depth) – wise tree growth) Hình 6: Most decision tree learning algorithms grow trees by level (depth) – wise Trong LightGBM sử dụng cách tiếp cận khơn ngoan thơng minh hơn, xây dựng định theo (grows trees leaf-wise (best – first)) Việc xây dựng leaf node ưu tiên leaf node có gini index tốt (có xu hướng giảm thiểu hàm mát tốt nhất) Hình 7: LightGBM grows trees leaf-wise (best – first) 2.3 Cross – Validation Hình 8: Cross Validation Sử dụng KFold Cross – Validation (k = 5), tức ta chia tập training thành tập (khơng có phần tử chung) có kích thước gần Tại lần kiểm thử, gọi run, số tập lấy làm validation dataset Mơ hình xây dựng (training) dựa vào hợp tập lại Mơ hình cuối xác định dựa trung bình train error validation error Hình 9: KFold Cross – Validation (k = 5) 2.4 Kết mơ hình Dựa ROC curve, ta mơ hình có hiệu hay khơng Một mơ hình hiệu có FPR (False Positive Rate) thấp TPR (True Positive Rate) cao, tức tồn điểm ROC curve gần với điểm có toạ độ (0, 1) đồ thị (góc bên trái) Curve gần mơ hình hiệu Có thơng số dùng để đánh sử dụng gọi Area Under the Curve hay AUC Đại lượng diện tích nằm ROC curve màu cam Giá trị số dương nhỏ Giá trị lớn mơ hình tốt Mơ hình LightGBM đạt auc – score 0.9557 sau công việc cross – validation, đạt auc – score 0.93737 tập test (kết tốt) Hình 10: LightGBM roc curve by Fold Tham số sử dụng cho mơ hình sử dụng Bayesian Optimization để tìm kiếm tham số tốt nhất: lgb_params = { 'num_leaves': 333, 'min_child_weight': 0.03454472573214212, 'feature_fraction': 0.3797454081646243, 'bagging_fraction': 0.4181193142567742, 'min_data_in_leaf': 106, 'objective': 'binary', 'max_depth': -1, 'learning_rate': 0.006883242363721497, "boosting_type": "gbdt", "bagging_seed": 11, "metric": 'auc', "verbosity": -1, 'reg_alpha': 0.3899927210061127, 'reg_lambda': 0.6485237330340494, 'random_state': 47 } Chương 3: Phân tích thiết kế hệ thống 3.1 Tổng quan hệ thống Hình 11: Tổng quan hệ thống 3.2 Biểu đồ phân cấp chức Hình 12: Biểu đồ phân cấp chức Mơ tả chi tiết chức năng: Quản trị hệ thống: nhà quản lý cấp tài khoản để đăng nhập vào hệ thống Nhà quản lý nhập tên đăng nhập mật giao diện để đối chiếu với liệu có sở liệu Cập nhật liệu: cập nhật liệu khách hàng (chưa có thơng tin kho liệu), cập nhật thay đổi đến từ liệu khách hàng có kho liệu Cập nhật số liệu thống kê: đưa thống kê liệu khách hàng hệ thống (sau lần cập nhật nhất) Xử lý liệu: nhà quản lý đưa ID khách hàng muốn kiểm tra xác suất gian lận khách hàng đó, xem thống kê số lượng khách hàng có khả gian lận cao xem biểu đồ thống kê phân tích hành vi nhóm người để qua định việc thắt chặt việc bảo mật dựa giao dịch qua internet (các thiết bị, brower_ID, OS_ID) Kiểm nghiệm mơ hình: Khi liệu cập nhật vào kho liệu mơ hình tối ưu hóa lại cho đạt kết tốt 3.3 Biểu đồ mức ngữ cảnh Hình 13: Biểu đồ mức ngữ cảnh 3.4 Biểu đồ luồng liệu mức đỉnh Hình 14: Biểu đồ luồng liệu mức đỉnh 3.5 Các công nghệ sử dụng 3.5.1 Front-end a) HTML HTML chữ viết tắt Hypertext Markup Language, giúp người dùng tạo cấu trúc thành phần trang web ứng dụng, phân chia đoạn văn, heading, links, blockquotes HTML tạo Tim Berners-Lee, nhà vật lý học trung tâm nghiên cứu CERN Thụy Sĩ Hiện nay, HTML trở thành chuẩn Internet tổ chức W3C (World Wide Web Consortium) vận hành phát triển b) CSS CSS chữ viết tắt Cascading Style Sheets, ngơn ngữ sử dụng để tìm định dạng lại phần tử tạo ngôn ngữ đánh dấu (ví dụ HTML) CSS thường sử dụng với HTML JavaScript hầu hết trang web để tạo giao diện người dùng cho ứng dụng web giao diện người dùng cho nhiều ứng dụng di động c) Bootstrap Bootstrap framework cho phép thiết kế website reponsive nhanh dễ dàng Bootstrap bao gồm HTML templates, CSS templates Javascript tao có sẵn như: typography, forms, buttons, tables, navigation, modals, image carousels nhiều thứ khác Trong bootstrap có thêm plugin Javascript Giúp cho việc thiết kế reponsive bạn dễ dàng nhanh chóng 3.5.2 Back-end Back-end hệ thống lập trình ngơn ngữ Python sử dụng framework Flask Python ngơn ngữ lập trình hướng đối tương bậc cao, dùng để phát triển website nhiều ứng dụng khác Python phát triển Guido van Rossum án mã nguồn mở Flask web frameworks, thuộc loại micro-framework xây dựng ngơn ngữ lập trình Python Flask cho phép bạn xây dựng ứng dụng web từ đơn giản tới phức tạp Nó xây dựng api nhỏ, ứng dụng web chẳng hạn trang web, blog, trang wiki website dựa theo thời gian hay chí trang web thương mại Flask cung cấp cho bạn công cụ, thư viện công nghệ hỗ trợ bạn làm cơng việc Flask micro-framework Điều có nghĩa Flask mơi trường độc lập, sử dụng thư viện khác bên Do vậy, Flask có ưu điểm nhẹ, có lỗi bị phụ thuộc dễ dàng phát xử lý lỗi bảo mật 3.6 Giao diện hệ thống Hình 15: Giao diện trang chủ Hình 16: Cập nhật liệu danh tính (Identity Data) Hình 17: Cập nhật liệu giao dịch (Transaction Data) Hình 18: Mơ hình phân tích: Thống kê số liệu xác suất gian lận khách hàng Hình 19: Thống kê Brower id 31 theo xác suất gian lận khách hàng Hình 20: Thống kê device name theo xác suất gian lận khách hàng Hình 21: Thống kê OS id 30 theo xác suất gian lận khách hàng Hình 22: Giao diện dự đoán xác suất khả gian lận khách hàng Chương 4: Kết luận Báo cáo trình bày thiết kế hệ thống hỗ trợ giảm thiểu rủi ro gian lận đến từ giao dịch khách hàng Bằng việc sử dụng kỹ thuật Machine Learning đại, hệ thống cung cấp cho nhà quản lý nhìn tổng quát hiệu độ tin cậy cao nhóm khách hàng có khả gian lận cao, qua định phù hợp (dựa việc nghiên cứu hành vi nhóm người này) việc tăng cường hệ thống bảo mật giao dịch qua internet (các thiết bị, brower_ID, OS_ID) Một điều cần lưu ý rằng, hệ thống giúp nhà quản lý định, khơng thể thay hồn tồn vai trò người Vai trò người trình định tối quan trọng Tài liệu tham khảo: Gradient boosting performs gradient descent Terence Parr and Jeremy Howard https://explained.ai/gradient-boosting/descent.html Cross-validation: evaluating estimator performance https://scikitlearn.org/stable/modules/cross_validation.html Efraim Turban; Jay E Aronson; Ting-Peng Liang Decision Support Systems and Intelligent Systems, 2014 LightGBM Parameter https://github.com/microsoft/LightGBM/blob/master/docs/Parameters.rst LightGBM’s documentation https://lightgbm.readthedocs.io/en/latest/ ... thống hỗ trợ giảm thiểu rủi ro gian lận đến từ giao dịch khách hàng Bằng việc sử dụng kỹ thuật Machine Learning đại, hệ thống cung cấp cho nhà quản lý nhìn tổng quát hiệu độ tin cậy cao nhóm khách. .. gian lận khách hàng Hình 21: Thống kê OS id 30 theo xác suất gian lận khách hàng Hình 22: Giao diện dự đoán xác suất khả gian lận khách hàng Chương 4: Kết luận Báo cáo trình bày thiết kế hệ thống. .. lớn giao dịch hợp pháp bị từ chối, dẫn đến việc giảm thiểu doanh thu đáng kể cho doanh nghiệp Đánh giá giao dịch không theo thời gian thực, dẫn đến việc số lượng giao dịch hợp pháp phê duyệt giảm

Ngày đăng: 29/07/2020, 19:23

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan