Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 109 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
109
Dung lượng
3,69 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM NGUYỄN PHI HÙNG KHÓA LUẬN TỐT NGHIỆP NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN GIAN LẬN GIAO DỊCH THỜI GIAN THỰC Research And Building System For Real-Time Transaction Fraud Detection KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM TP HỒ CHÍ MINH, 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA CƠNG NGHỆ PHẦN MỀM NGUYỄN PHI HÙNG – 17520068 KHĨA LUẬN TỐT NGHIỆP NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN GIAN LẬN GIAO DỊCH THỜI GIAN THỰC Research And Building System For Real-Time Transaction Fraud Detection KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS HỒNG TRUNG DŨNG TS HUỲNH NGỌC TÍN TP HỒ CHÍ MINH, 2021 THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số …………………… ngày ………………… Hiệu trưởng Trường Đại học Công nghệ Thông tin … - Chủ tịch … - Thư ký … - Uỷ viên ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA TRƯỜNG ĐẠI HỌC VIỆT NAM CÔNG NGHỆ THÔNG TIN Độc Lập - Tự Do - Hạnh Phúc TP HCM, ngày … tháng … năm 2021 NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN) Tên khóa luận: NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN GIAN LẬN GIAO DỊCH THỜI GIAN THỰC Cán hướng dẫn/phản biện: Nhóm SV thực hiện: Nguyễn Phi Hùng TS Hồng Trung Dũng 17520068 TS Huỳnh Ngọc Tín Đánh giá Khóa luận Về báo cáo: Số trang Số bảng số liệu Số tài liệu tham khảo 86 Số chương Số hình vẽ 26 12 Sản phẩm Một số nhận xét hình thức báo cáo: ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… Về nội dung nghiên cứu: ……… ……… ……… ……… ……… ……… ……… ……… ………… ……… ……… ……… ……… ……… ……… ……… ……… ………… Về chương trình ứng dụng: ……… ……… ……… ……… ……… ……… ……… ……… ………… ……… ……… ……… ……… ……… ……… ……… ……… ………… Về thái độ làm việc sinh viên: ……… ……… ……… ……… ……… ……… ……… ……… ………… ……… ……… ……… ……… ……… ……… ……… ……… ………… Đánh giá chung: ……… ……… ……… ……… ……… ……… ……… ……… ………… ……… ……… ……… ……… ……… ……… ……… ……… ………… Điểm sinh viên: Nguyễn Phi Hùng: …… /10 Người nhận xét (Ký tên ghi rõ họ tên) TS Huỳnh Ngọc Tín ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA TRƯỜNG ĐẠI HỌC VIỆT NAM CÔNG NGHỆ THÔNG TIN Độc Lập - Tự Do - Hạnh Phúc TP HCM, ngày … tháng … năm 2021 NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ PHẢN BIỆN) Tên khóa luận: NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN GIAN LẬN GIAO DỊCH THỜI GIAN THỰC Cán hướng dẫn/phản biện: Nhóm SV thực hiện: Nguyễn Phi Hùng TS Hồng Trung Dũng 17520068 TS Huỳnh Ngọc Tín Đánh giá Khóa luận Về báo cáo: Số trang Số bảng số liệu Số tài liệu tham khảo 86 Số chương Số hình vẽ 26 12 Sản phẩm Một số nhận xét hình thức báo cáo: ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… Về nội dung nghiên cứu: ……… ……… ……… ……… ……… ……… ……… ……… ………… ……… ……… ……… ……… ……… ……… ……… ……… ………… Về chương trình ứng dụng: ……… ……… ……… ……… ……… ……… ……… ……… ………… ……… ……… ……… ……… ……… ……… ……… ……… ………… Về thái độ làm việc sinh viên: ……… ……… ……… ……… ……… ……… ……… ……… ………… ……… ……… ……… ……… ……… ……… ……… ……… ………… Đánh giá chung: ……… ……… ……… ……… ……… ……… ……… ……… ………… ……… ……… ……… ……… ……… ……… ……… ……… ………… Điểm sinh viên: Nguyễn Phi Hùng: …… /10 Người nhận xét (Ký tên ghi rõ họ tên) ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA TRƯỜNG ĐẠI HỌC VIỆT NAM CÔNG NGHỆ THÔNG TIN Độc Lập - Tự Do - Hạnh Phúc ĐỀ CƯƠNG CHI TIẾT TÊN ĐỀ TÀI: Nghiên cứu xây dựng hệ thống phát gian lận giao dịch thời gian thực TÊN ĐỀ TÀI TIẾNG ANH: Research And Building System For Real-Time Transaction Fraud Detection Cán hướng dẫn: TS.Hồng Trung Dũng, TS.Huỳnh Ngọc Tín Thời gian thực hiện: Từ ngày 8/03/2021 đến ngày 13/06/2021 Sinh viên thực hiện: Nguyễn Phi Hùng - 17520068 Nội dung đề tài: - Đặt vấn đề: Hiện nay, vấn đề gian lận giao dịch xảy nhiều lĩnh vực ngân hàng trực tuyến, thương mại điện tử hay ví điện tử Những vấn đề khơng gây tổn thất mặt doanh thu mà để lại hậu lớn, ảnh hưởng đến độ tin cậy, uy tín doanh nghiệp Tuy nhiên, việc phát gian lận thách thức Với phát triển nhanh chóng hình thức giao dịch trực tuyến nói chung hay thương mại điện tử, tốn điện tử nói riêng, vấn nạn gian lận giao dịch trực tuyến ngày trở nên cộm So với hình thức giao dịch truyền thống, giao dịch trực tuyến phải đối mặt với khối lượng chuyển tiền lớn đáng kể Giải tốn giúp doanh nghiệp tiết kiệm thời gian nguồn lực, đồng thời tăng trải nghiệm người dùng độ tin cậy, uy tín doanh nghiệp - Thách thức: Để giải vấn đề cần phải thu thập phân tích liệu giao dịch với khối lượng lớn, địi hỏi phải có sở liệu mạnh mẽ để lưu trữ quản lý ngoại tuyến, trực tuyến Ngồi ra, phải cần hệ thống máy tính phân tán quy mơ lớn để chạy thuật tốn đáp ứng yêu cầu độ trễ việc giao dịch, dự đốn Mơ hình máy học phải cập nhật đủ thông minh tổng quát để phát hình thức gian lận Trước đây, phương pháp dựa quy tắc nghiên cứu rộng rãi nhiều năm cho vấn đề phát gian lận Tuy nhiên, hình thức gian lận thay đổi nhanh chóng theo thời gian, nên làm giảm đáng kể hiệu quy tắc Mặt khác, hầu hết phương pháp trước khó nắm bắt dạng gian lận phức tạp giao dịch trực tuyến - Mục tiêu: - Thiết kế luồng thu thập, xử lý lưu trữ liệu lớn từ nhiều nguồn với cấu trúc liệu phức tạp - Đề xuất phương pháp trích xuất, lưu trữ tính tốn đặc trưng liệu khối lượng liệu lớn - Nghiên cứu xây dựng hệ thống phát giao dịch gian lận tích hợp máy học có khả huấn luyện liệu quy mơ lớn thời gian thực - Kết mong đợi: - Xây dựng hoàn thiện hệ thống phát giao dịch gian lận thời gian thực - Tích hợp với hệ thống giao dịch Ví điện tử MoMo để chạy thử nghiệm - Phạm vi: Nghiên cứu triển khai, đánh giá hệ thống giao dịch Ví điện tử MoMo - Đối tượng áp dụng: Tất khách hàng sử dụng Ví điện tử MoMo Kế hoạch thực hiện: Thời gian Kế hoạch thực Phân công 8/03/2021 - - Phân tích nghiên cứu nhu cầu tốn Nguyễn Phi 21/03/2021 Hùng - Tìm hiểu tham khảo số hệ thống lớn có chủ đề liên quan tới tốn - Tìm hiểu nguồn liệu phù hợp cho toán - Nghiên cứu cách thu tập liệu ngoại tuyến trực tuyến - Tìm hiểu cách triển khai hệ thống dự đốn thời gian thực - Tìm hiểu độ đo để đánh giá hệ thống sau hoàn thành 22/03/2021 11/04/2021 - Nghiên cứu thiết kế kiến trúc cho hệ thống - Nghiên cứu thiết kế sở liệu lưu trữ liệu lớn ngoại tuyến trực tuyến Nguyễn Phi Hùng - Xây dựng luồng thu thập, xử lý liệu ngoại tuyến trực tuyến - Xây dựng luồng trích xuất, lưu trữ tính tốn đặc trưng liệu từ nguồn liệu ngoại tuyến trực tuyến - Chuẩn bị báo cáo tiến độ KLTN kỳ 12/04/2021 - - Đưa phương pháp cải tiến, tối ưu Nguyễn Phi 2/05/2021 hoá mặt hệ thống Hùng - Tích hợp hệ thống với mơ hình học máy để dự đốn theo liệu ngoại tuyến trực tuyến - Đề xuất phương án dự phịng hệ Ghi ứng dụng lập Máy ảo cung cấp mức độ bảo mật thơng tin ứng dụng khơng thể truy cập tự ứng dụng khác Ảo hóa cho phép sử dụng tốt tài nguyên máy chủ vật lý cho phép khả scale-up tốt ứng dụng thêm cập nhật dễ dàng, giảm chi phí phần cứng Với ảo hóa, hệ thống có tập hợp tài nguyên vật lý dạng cụm máy ảo sẵn dùng Mỗi Máy ảo máy tính chạy tất thành phần, bao gồm hệ điều hành riêng nó, bên phần cứng ảo hóa - Triển khai ứng dụng container: Các container tương tự Máy ảo, chúng có tính lập để chia sẻ hệ điều hành ứng dụng Do đó, container coi nhẹ Tương tự Máy ảo, container có hệ thống tệp, CPU, nhớ… Khi chúng tách rời khỏi sở hạ tầng bên dưới, chúng linh hoạt điện toán đám mây phân phối hệ điều hành Kiến trúc Kubernetes: Triển khai ứng dụng container cách tốt để đóng gói chạy ứng dụng thời đại nay, cách mà Kubernetes áp dụng Trong môi trường Production, điều quan trọng cần quản lý container chạy nhiều ứng dụng đảm bảo khơng có khoảng thời gian không khả dụng Kubernetes cung cấp cho nhà phát triển cách để triển khai hệ phân tán lớn cách mạnh mẽ Nó đảm nhiệm việc scale-up, quản lý ứng dụng tự động cung cấp nhiều mẫu triển khai cho ứng dụng với nhu cầu khác Kubernetes cung cấp số ưu điểm bật, bao gồm: Cân tải phân phối lưu lượng mạng, Điều phối nhớ, Kiểm soát phiên bản, Đóng gói tự động, Tự phục hồi, Quản lý cấu hình bảo mật 72 Trong Kubernetes, nút (node) thể máy vật lý máy ảo với vai trò định Một tập hợp máy máy chủ sử dụng mạng chia sẻ để giao tiếp với gọi cụm (cluster) Mỗi máy chủ cụm Kubernetes có vai trị Có thể có hai vai trị: - Control plane: Đưa hầu hết định cần thiết hoạt động não toàn cụm Đây máy chủ nhóm máy chủ dự án lớn Control Plane cụm Kubernetes bao gồm thành phần: + kube-api-server: Nó hoạt động lối vào Control Plane Kubernetes, chịu trách nhiệm xác thực xử lý yêu cầu gửi thư viện máy khách + etcd: Đây kho lưu trữ key-value phân tán hoạt động nguồn trung thực cụm bạn Nó lưu trữ liệu cấu hình thơng tin trạng thái cụm + kube-controller-manager: Các điều khiển Kubernetes chịu trách nhiệm kiểm soát trạng thái cụm + kube-scheduler: Giao nhiệm vụ cho nút định xem xét tài nguyên sẵn có yêu cầu nhiệm vụ gọi lập lịch 73 + cloud-controller-manager: Trong mơi trường điện tốn đám mây, thành phần cho phép bạn kết nối cụm với API (AWS/GCP) nhà cung cấp service đám mây - Node: Chịu trách nhiệm việc chạy khối lượng công việc Các máy chủ thường quản lý vi mô Control Plane thực tác vụ khác theo dẫn cung cấp Node cụm Kubernetes bao gồm thành phần: + kubelet: Service hoạt động cổng Control Plane nút cụm Mọi dẫn từ Control Plane nút, qua service Nó tương tác với etcd để cập nhật trạng thái + kube-proxy: Service nhỏ chạy máy chủ nút trì quy tắc mạng chúng Bất kỳ yêu cầu mạng đến service bên cụm bạn, qua service - Container Runtime: Kubernetes công cụ điều phối container chạy ứng dụng container Để triển khai Kubernetes cách dễ dàng, Skaffold cơng cụ dịng lệnh giúp tiết kiệm thời gian cho nhà phát triển cách tự động hóa hầu 74 hết quy trình phát triển từ nguồn đến triển khai theo cách scale-up Nó hỗ trợ nguyên chiến lược xây dựng hình ảnh triển khai ứng dụng phổ biến nhất, làm cho tương thích với nhiều loại dự án có từ trước Skaffold hoạt động hồn tồn phía máy khách, khơng có thành phần bắt buộc cụm bạn, làm cho siêu nhẹ hiệu suất cao Bằng cách quan tâm đến nhiệm vụ vận hành phát triển lặp lặp lại, Skaffold loại bỏ gánh nặng lớn từ nhà phát triển ứng dụng cải thiện đáng kể suất Khái niệm 9: Quy trình tổng hợp, tính tốn liệu Quy trình tổng hợp liệu: thành phần thiết yếu để quản lý liệu thời đại khối lượng liệu ngày lớn Trong hệ thống lớn, việc tổng hợp liệu từ lâu áp dụng để lấy liệu xử lý, phân tích phát mẫu bất thường Việc giúp doanh nghiệp nhanh chóng đem kế hoạch chiến lược phù hợp, nhằm tiết kiệm khơng gian lưu trữ, để giảm chi phí, nguồn lực tránh rủi ro không cần thiết Trong hệ thống cần tính tốn thời gian thực, tính đắn phép tính phụ thuộc vào logic thời gian hồn thành phép tính Việc tổng hợp định dạng liệu nơi lưu trữ, giúp thời gian truy xuất tính tốn tối ưu Trong toán phát gian lận giao dịch thời gian thực, liệu cần giữ trại thái hay nói cách khác luôn cập nhật Trạng thái môi trường Production phải biểu diễn dạng liệu hệ thống Nhiều hệ thống quản lý liệu tổng hợp áp dụng sở liệu quan hệ quan hệ Kho liệu làm nơi lưu trữ liệu tập trung hay cịn gọi q trình xử lý batching Quá trình tổng hợp bắt đầu việc tải liệu từ nhiều nguồn khác nhau, nguồn thơng qua q trình ETL, q trình trích xuất, xác thực chuẩn hóa liệu thơ trước tổng hợp Do đó, q trình ETL xem việc chuẩn bị liệu thô tồn q trình Trong kho lưu trữ liệu tập trung, liệu tổng hợp truy xuất truy vấn máy khách hay kích hoạt tới 75 từ sở liệu Q trình tổng hợp lập kế hoạch định kỳ phát hành có chủ đích để làm chế độ xem cụ thể hóa có chứa liệu tổng hợp Để cải thiện hiệu suất chất lượng liệu, trình tổng hợp liệu cịn thực tổng hợp liệu trực tuyến hay tổng hợp liệu streaming, cho phép liệu luôn cập nhật Dữ liệu quy trình tổng hợp trực tuyến thường lưu trữ Cơ sở liệu khơng có quan hệ, cung cấp tổng hợp tập trung cho pipeline liệu liên tục Thông thường, liệu streaming đẩy vào nơi lưu trữ liên tục, tần số cao Các hàm tổng hợp xác định người dùng áp dụng cửa sổ pipeline xử lý liệu Trong quy trình tổng hợp liệu trực tuyến, tổng hợp liệu liên kết với tham số "thời gian chờ", cho biết thời hạn tính tốn hàm Một hàm trả kết trước hết thời gian chờ, trường hợp liệu thô bị thiếu bị chậm trễ nhằm cung cấp phản hồi kịp thời cho ứng dụng thời gian thực Cơ chế làm giảm tải liệu hệ thống bị tải Dữ liệu tổng hợp truy xuất liên tục với yêu cầu phản hồi nhanh Để cung cấp liệu lịch sử, liệu tổng hợp giữ lại khoảng thời gian xác định Nhiều quy trình tổng hợp chạy đồng thời, thực tổng hợp pipeline liệu Cơ sở liệu quan hệ Kho liệu liên quan đến trình tổng hợp liệu này, chia sẻ, cập nhật quy trình nhằm tạo quán liệu tính tốn Tính tốn liệu: q trình biến đổi liệu thô thành liệu tổng hợp, liệu tính tốn có nhiều giá trị để khai thác tiết kiệm không gian lưu trữ so với liệu thô Dữ liệu tổng hợp thu thập từ nhiều nguồn nhiều kiểu định dạng khác Chính đặc điểm mà việc tính tốn liệu gặp nhiều khó khăn phải xử lý tính tốn nhiều liệu định dạng khác Một quy trình tổng hợp phải có hàm tổng hợp để tính tốn kết từ liệu thô Một hàm tổng hợp thể cách tính tốn, cho kết thể rõ đặc tính tập hợp liệu thơ tính Một số hàm tổng hợp bản: - COUNT: đếm số lượng tập hợp 76 - FIRST: lấy phần tử đầu tập hợp - LAST: lấy phần tử cuối tập hợp - MIN: trả giá trị tối thiểu tập hợp - MAX: trả giá trị tối đa tập hợp - SUM: tính tổng tập hợp - AVERAGE: tính giá trị trung bình tập hợp Mục đích việc tính tốn liệu để chuẩn bị tập liệu đầu vào phù hợp tương thích với yêu cầu thuật toán máy học Đồng thời việc giúp cải thiện hiệu suất mơ hình máy học cách đáng kể 77 Phụ lục 2: Bản báo UIT-RBDML: HỆ THỐNG XỬ LÝ VÀ LƯU TRỮ DỮ LIỆU LỚN VỚI THỜI GIAN THỰC CHO DỊCH VỤ MÁY HỌC, Hội nghị khoa học Trẻ & nghiên cứu sinh UIT 2021 78 79 80 81 82 83 84 85 86 ... Nghiên cứu xây dựng hệ thống phát giao dịch gian lận tích hợp máy học có khả huấn luyện liệu quy mô lớn thời gian thực - Kết mong đợi: - Xây dựng hoàn thiện hệ thống phát giao dịch gian lận thời. .. (CỦA CÁN BỘ HƯỚNG DẪN) Tên khóa luận: NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN GIAN LẬN GIAO DỊCH THỜI GIAN THỰC Cán hướng dẫn/phản biện: Nhóm SV thực hiện: Nguyễn Phi Hùng TS Hồng Trung Dũng... TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM NGUYỄN PHI HÙNG – 17520068 KHÓA LUẬN TỐT NGHIỆP NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN GIAN LẬN GIAO DỊCH THỜI GIAN THỰC Research And