1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp

100 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 100
Dung lượng 2,35 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC & KỸ THUẬT MÁY TÍNH ——————– * ——————— LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC PHÁT HIỆN DỮ LIỆU NGOẠI LAI BẰNG MƠ HÌNH SVM MỘT LỚP Hội đồng : KHMT Giảng viên hướng dẫn : TS Lê Hồng Trang Giảng viên phản biện : TS Võ Thị Ngọc Châu Sinh viên thực : Bùi Thanh Thắng (1713215) Nguyễn Quang Vương (1714037) TP Hồ Chí Minh, Tháng 08/2021 ĐẠI HỌC QUỐC GIA TP.HCM -TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA: KH & KT Máy tính _ BỘ MƠN: HTTT CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN ÁN TỐT NGHIỆP Chú ý: Sinh viên phải dán tờ vào trang thuyết trình HỌ VÀ TÊN: Bùi Thanh Thắng MSSV: 1713215 HỌ VÀ TÊN: Nguyễn Quang Vương MSSV: 1714037 HỌ VÀ TÊN: _ MSSV: _ NGÀNH: Khoa học máy tính _ LỚP: Đầu đề luận án: Phát liệu ngoại lai mơ hình SVM lớp _ Nhiệm vụ (yêu cầu nội dung số liệu ban đầu): - Tổng quan toán phân lớp lớp và ứng dụng phát bất thường _ - Tiếp cận SVM, biến thể cho tốn phân lớp lớp _ - Cải thiện mơ hình với tốn xử lý liệu nhiều chiều, sử dụng mơ hình Autoencoder _ - Hiện thực, thực nghiệm đánh giá kết _ - Phát triển ứng dụng phát ngoại lai _ Ngày giao nhiệm vụ luận án: 01/03/2021 Ngày hoàn thành nhiệm vụ: 28/06/2021 Họ tên giảng viên hướng dẫn: TS Lê Hồng Trang Phần hướng dẫn: Toàn 1) 2) 3) Nội dung yêu cầu LVTN thông qua Bộ môn Ngày 15 tháng 08 năm 2021 CHỦ NHIỆM BỘ MƠN GIẢNG VIÊN HƯỚNG DẪN CHÍNH (Ký ghi rõ họ tên) (Ký ghi rõ họ tên) PGS TS Trần Minh Quang TS Lê Hồng Trang PHẦN DÀNH CHO KHOA, BỘ MÔN: Người duyệt (chấm sơ bộ): Đơn vị: _ Ngày bảo vệ: _ Điểm tổng kết: _ Nơi lưu trữ luận án: _ TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KH & KT MÁY TÍNH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc -Ngày tháng 08 năm 2021 PHIẾU CHẤM BẢO VỆ LVTN (Dành cho người hướng dẫn/phản biện) Họ tên SV: Bùi Thanh Thắng Nguyễn Quang Vương MSSV: 1713215 1714037 Ngành (chuyên ngành): KHMT Đề tài: Phát liệu ngoại lai bằng mơ hình SVM lớp Họ tên người hướng dẫn: Lê Hồng Trang Tổng quát thuyết minh: Số trang: 95 Số chương: Số bảng số liệu: 16 Số hình vẽ: 42 Số tài liệu tham khảo: 17 Phần mềm tính tốn: Hiện vật (sản phẩm) Tổng quát vẽ: - Số vẽ: Bản A1: Bản A2: Khổ khác: - Số vẽ vẽ tay Số vẽ máy tính: Những ưu điểm LVTN: -! Luận văn nghiên cứu toán phát ngoại lai sử dụng mơ hình SVM lớp Nhóm tìm hiểu mơ hình SVM, tập trung cho biến thể phân lớp lớp SVDD OCSVM -! Nghiên cứu mơ hình cải tiến khó khăn SVM làm việc với liệu nhiều chiều việc đề xuất kết hợp với mơ hình mã hố tự động sâu (deep autoencoder) để lấy đặc trưng không gian ẩn (latent space) Điều giúp cải thiện hiệu mơ hình -! Các mơ hình mơ tả, phân tích rõ ràng, thực -! Thực nghiệm thực cẩn thận với nhiều mơ hình với nhiều thơng số mơ hình, nhiều tập liệu (4 tập) Các kết so sánh đánh giá -! Nhóm thực demo cho hệ thống phát liệu ngoại lai Đây công việc không nằm yêu cầu người hướng dẫn đưa kế hoạch cho luận văn Những thiếu sót LVTN: -! Kết với tập liệu ảnh ung thư cải thiện so với ~86% Đề nghị: Được bảo vệ R Bổ sung thêm để bảo vệ o Câu hỏi SV phải trả lời trước Hội đồng: a 10 Đánh giá chung (bằng chữ: giỏi, khá, TB): Giỏi Không bảo vệ o Điểm: 10/10 Ký tên (ghi rõ họ tên) TS Lê Hồng Trang C ÒA XÃ H -T -H -Ngày 07 tháng 08 2021 KHOA KH & KT MÁY TÍNH PHI ph H tên SV: Bùi Thanh Th MSSV: 1713215, 1714037 Ngành (chuyên ngành): Khoa H ài: Phát hi ình SVM m H ph T S 95 S S ài li Hi Võ Th nh: : 16 17 : mơ hình phát hi T -S -S B S S ình v 41 Ph website minh h B S Kh ên máy tính: Nh - N : sinh viên tìm hi trình bày ình phát hi ên SVM (support vector machine) m SVDD (support vector data description) OCSVM (one-class support vector machine) T sinh viên k ùng Autoencoder tích ch di t ình AESVDD d ên cơng trình [17] hàm m h biên c biên m K ên mammography, MNIST, paysim cho th biên c biên m Mơ hình giao d - C - S : lu : mơ hình phát hi Nh - website minh h a LVTN: N qu - , trình bày m : thi cho ph ì AESVDD biên c ý cách thi ùng cho tốn phát hi S Autoencoder, thi hi ìb biên m Sinh ày khơng ph : ph ì (ngo DATA” B k l tr Các câu h a Gi ì AESVDD biên m ên c b Gi hình Autoencoder khác nhau? Gi c Gi d Các gi ì m AESVDD có th g cho k ì nêu lí b Gi 8.8/10.0 (hai sinh viên) Ký tên (ghi rõ h Võ Th ên) Lời cam đoan Chúng xin cam đoan số liệu kết nghiên cứu đề tài luận văn tự tìm hiểu phân tích cách trung thực khách quan Các kết sử dụng luận văn chưa sử dụng luận án bảo vệ học vị Mọi giúp dỡ cho việc thực đề tài luận văn cảm ơn đầy đủ Các tài liệu trích dẫn liên quan liệt kê rõ ràng xác từ nguồn đáng tin cậy hợp với quy định trích dẫn Nhóm sinh viên thực đề tài xiii Lời cảm ơn Để hoàn thành đề tài luận văn tốt nghiệp này, nhóm sinh viên thực đề tài nhận hỗ trợ từ nhiều phía Đầu tiên quan trọng nhất, nhóm xin gửi lời cảm ơn chân thành đến giảng viên hướng dẫn trực tiếp nhóm, Tiến sĩ Lê Hồng Trang Nhóm vơ biết ơn tận tình dạy dỗ, giúp đỡ q thầy khoa Khoa học & Kỹ thuật Máy tính nói riêng trường Đại học Bách khoa TP Hồ Chí Minh nói chung Những kiến thức nhận từ quý thầy vơ q giá bổ ích, hỗ trợ lớn cho nhóm để hồn thành đề tài luận văn tốt nghiệp Nhóm gửi lời cảm ơn đến gia đình, người thân, bạn bè, người quan tâm, động viên, giúp đỡ thể chất lẫn tinh thần để nhóm có đủ nghị lực, sức khỏe hoàn thành tốt đề tài luận văn tốt nghiệp đại học Với lòng biết ơn chân thành, nhóm xin gửi lời chúc sức khỏe, lời biết ơn lời chúc tốt đẹp đến quý thầy cô Khoa Khoa học Kỹ thuật Máy tính - Trường Đại Học Bách Khoa Đại Học Quốc Gia Thành phố Hồ Chí Minh Nhóm sinh viên thực đề tài xv 4.5 Tập liệu Paysim Quay lại với giá trị thông tin Giá trị xác định sau: IV = (%of non − events − %of events) ∗ W OE Sau tính tốn giá trị IV đặc trưng, thực đối chiếu với bảng quy tắc đánh giá tương ứng với ngưỡng giá trị IV Bảng 4.11 Giá trị thơng tin Mức độ dự đốn 0.3 Sức mạnh dự đoán mạnh Bảng 4.11: Quy tắc xử lý ngưỡng giá trị IV Sau khái quát qua số khái niệm IV, WOE trên, quay trở lại việc tiền xử lý tập liệu Paysim Như trình bày Mục [4.9], tập Paysim có 11 đặc trưng gồm: step, type, amount, nameOrig, oldbalanceOrg, newbalanceOrig, nameDest, oldbalanceDest, isFlaggedFraud, newbalanceDest, isFraud Giá trị isFraud lớp nhãn tập, với giá trị đại diện cho giao dịch bình thường, đại diện cho giao dịch bất thường Với giá trị contamination-rate 0.129% làm cho tập liệu cân mức cao Như trình bày, tập liệu trình khảo sát tháng, đặc trưng step đại diện cho yếu tố thời gian Những rõ ràng, với giá trị nằm đoạn từ [1,743] không phản ánh thông tin hữu dụng Do đó, chúng tơi khai thác yếu tố step Từ đặc trưng step, thực mở rộng thêm bảy đặc trưng đó, ba đặc trưng hour, day, weekday encode trực tiếp từ giá trị step Cụ thể sau: hour- đại diện cho khung theo chu kỳ 24 h thời điểm giao dịch, giá trị thuộc đoạn [0, 23] day- đại diện cho khung ngày theo chu kỳ 31 ngày thời điểm giao dịch, giá trị thuộc đoạn [1, 31] weekday- đại diện cho khung ngày tuần theo chu kỳ tuần bảy ngày thời điểm giao dịch, giá trị thuộc đoạn [1, 7] 64 4.5 Tập liệu Paysim Một điều đặc biệt đây, hour weekday không phản ánh chu kỳ thời gian tự nhiên, nên tạo thêm bốn đặc trưng theo phép biến đổi sin,cos cho hour weekday Tóm lại, bảy đặc trưng thêm bao gồm: hour, day, weekday, sin_hour, cos_hour, sin_weekday, cos_weekday Đối với đặc trưng type, tập gồm năm danh mục khác nhau, định sử dụng One Hot Encoding đây, mà năm đặc trưng tiếp tục thêm vào tập liệu: type_CASH_IN, type_CASH_OUT, type_TRANSFER, type_PAYMENT, type_DEBIT Ngồi ra, chúng tơi áp dụng LabelEncoder hai đặc trưng nameOrig nameDest Sau tiến hành xử lý liệu, mở rộng đặc trưng, tập liệu Paysim gồm có 23 đặc trưng 11 đặc trưng gốc, 12 đặc trưng mở rộng Chúng tơi tiến hành phân tích đặc trưng, tính tốn giá trị IV cho đặc trưng để phục vụ cho trình lựa chọn đặc trưng cuối cùng, trước thực trình huấn luyện mơ hình Kết tính tốn giá trị IV biểu diễn Bảng 4.12 4.13 Sức mạnh dự đoán mạnh feature nameDest oldbalanceOrg newbalanceOrig type_TRANSFER amount IV 3.21 2.09 1.01 0.99 0.88 feature type sin_hour day step IV 0.79 0.45 0.31 0.30 Bảng 4.12: Các đặc trưng có giá trị IV có sức mạnh dự đốn mạnh Vừa phải feature hour oldbalanceDest cos_hour type_PAYMENT type_CASH_OUT IV 0.22 0.18 0.18 0.14 0.09 Yếu feature type_CASH_IN cos_weekday weekday sin_weekday nameOrig IV 0.05 0.05 0.05 0.03 0.02 Vô dụng feature newbalanceDest type_DEBIT isFlaggedFraud IV 0.00 0.00 0.00 Bảng 4.13: Các đặc trưng có giá trị IV có sức mạnh dự đốn vừa phải, yếu, vơ dụng 65 4.5 Tập liệu Paysim 4.5.3 Thiết lập liệu để huấn luyện mơ hình Dựa vào bảng số liệu giá trị VI Mục [4.5.2], định chọn chín đặc trưng Bảng 4.12 để thực q trình huấn luyện mơ hình Chúng tơi thực chia tập liệu thành tập liệu nhỏ cho trình huấn luyện với tỷ lệ huấn luyện/kiểm thử/kiểm chứng (train/test/validate) 0.6/0.2/0.2 Chúng tiến hành thiết lập thử nghiệm Bảng 4.14 Set up setup1 setup2 setup3 Kích thước 100000 1000000 6362620 Tập huấn luyện Tập kiểm chứng Tập kiểm thử 60000 20000 20000 600000 200000 200000 3817572 1272524 1272524 Bảng 4.14: Kích thước setup cho trình huấn luyện kiểm thử 4.5.4 Thiết lập mơ hình Chúng tơi tiến hành thực nghiệm tập liệu với SVDD/OCSVM Autoencoder SVDD Đối với SVDD/OCSVM, kernel Gaussian sử dụng, siêu tham số khởi tạo γ = auto, ν = 0.05 Kiến trúc mạng sử dụng AESVDD Hình 4.21 Chúng tơi sử dụng thuật toán tối ưu Adam Với siêu tham số đầu vào gồm: learning rate η = 0.001, chạy qua 100 epochs với batch size 128, weight decay λ = 0.001 Đối với hàm mục tiêu biên mềm, giá trị ν = 0.05 Tỷ lệ huấn luyện/kiểm thử/kiểm chứng (train/test/validate) 0.6/0.2/0.2 Hình 4.21: Kiến trúc mạng AESVDD cho tập Paysim 66 4.5 Tập liệu Paysim 4.5.5 Kết Sau thực nghiệm với setup OCSVM/SVDD với AESVDD, chúng tơi có kết Bảng 4.15 Set up Kích thước setup1 100000 setup2 1000000 setup3 6362620 OCSVM/SVDD 0.9139 0.8683 0.8533 AESVDD cứng 0.9344 0.8711 0.8612 biên AESVDD mềm 0.9212 0.8593 0.8372 biên Bảng 4.15: AUCs cho setup tập Paysim Set up Kích thước setup1 100000 setup2 1000000 setup3 6362620 OCSVM/SVDD 238.8 2642.5 189367 AESVDD cứng 34.26 412.16 3583.4 biên AESVDD mềm 46.82 520.85 3787.6 biên Bảng 4.16: Thời gian huấn luyện (giây) cho setup tập Paysim (a) Dữ liệu PCA chiều trước apply Autoencoder SVDD (b) Dữ liệu PCA chiều sau apply Autoencoder SVDD Hình 4.22: Trực quan hóa biến đổi liệu trình huấn luyện AESVDD Nhận xét Dựa vào kết thực nghiệm trên, đưa số nhận xét sau: thứ thời gian huấn luyện, AESVDD cho kết tốt hẳn, thời gian huấn luyện giảm nhiều so với việc sử dụng OCSVM/SVDD, rõ ràng điều giúp 67 4.5 Tập liệu Paysim cải thiện nhiều khía cạnh thời gian huấn luyện thực tế Đối với kết AUCs, setup3 setup4 AESVDD có thơng số khơng tốt OCSVM/SVDD Chúng tơi đưa số ngun nhân kết có phần không tốt Thứ nhất, việc lựa chọn siêu tham số mang tính chủ quan Thứ hai, việc tiền xử lý liệu chưa đạt tối ưu Chúng cố gắng tối ưu hai điều để đạt kết tốt 68 ỨNG DỤNG PHÁT HIỆN DỮ LIỆU NGOẠI LAI 5.1 Ứng dụng phát giao dịch gian lận thị trường tài 5.1.1 Giới thiệu mơ hình Có thể nói rằng, đầu năm 2010, phần lớn ngân hàng áp dụng hệ thống phát ngoại lai vào việc phát gian lận, lừa đảo cách tự động Trong đó, theo nghiên cứu tổ chức AI Oppotunity Landscape, khoảng 26% quỹ đầu tư mạo hiểm ngành công nghiệp ngân hàng dành trọng đầu tư vào hệ thống, ứng dụng phát gian lận, nhiều lĩnh vực khác lúc Số liệu để thấy rằng, tiềm việc áp dụng AI vào thực tiễn diễn mạnh mẽ Trước tiên, tổng quan việc vận dụng học máy vào việc phát gian lận ngân hàng sâu vào case study cụ thể việc phát giao dịch khơng qn, khơng xác tài khoản nguồn tài khoản đích thực giao dịch Khi ngân hàng sử dụng mơ hình phát gian lận hệ thống xem công cụ để xử lý liệu, mà giao dịch ngày Những giải pháp cho việc phát ngăn chặn thường phổ biến so với việc dự đoán phân tích tập liệu Loại ứng dụng yêu cầu mơ hình học máy huấn luyện với loại liệu dạng dịng (streaming) mang tính liên tục (hay cịn gọi online learning) Ứng dụng thơng báo cho giao dịch viên trường hợp có bất thường giao dịch Giao dịch viên xem xét cảnh báo, thực 69 5.1 Ứng dụng phát giao dịch gian lận thị trường tài kiểm tra để xác thực lại thông tin giao dịch 5.1.2 Kiến trúc hệ thống Hình 5.1: Kiến trúc hệ thống ứng dụng web Ứng dụng phát gian lận xây dựng ứng dụng web dựa kiến trúc MVC (Model - View - Control) cổ điển kết hợp với mơ hình phát giao dịch ngoại lai Nói kiến trúc MVC Hình 5.2 Kiến trúc MVC kiến trúc vô phổ biến ưa chuộng việc xây dựng ứng dụng web MVC đại diện cho mơ hình (Model), khung nhìn (View), điều khiển (Controller) Chúng giới thiệu thành phần bên kiến trúc Hình 5.2: Kiến trúc MVC 70 5.1 Ứng dụng phát giao dịch gian lận thị trường tài Mơ hình (Model) Làm việc với liệu ứng dụng Chịu trách nhiệm quản lý liệu, luận lý quy tắc ứng dụng Khung nhìn (View) Xử lý phía giao diện(User Interface) cho người dùng xem (html, css, js) Chịu trách nhiệm đính kèm kích hoạt kiện từ phía người dùng Và việc xử lý kiện điều khiển đảm nhiệm Bộ điều khiển (Controller) Xử lý kiện kích hoạt từ phía người dùng hoạt động cầu nối trung gian khung nhìn mơ hình Cung cấp nhiều hàm chức dựa kiện kích hoạt, giao tiếp với mơ hình để thực việc đọc cập nhật liệu, sau trả liệu về, để khung nhìn hiển thị chúng lên cho người dùng xem Hình 5.3: Cơ chế hoạt động kiến trúc MVC Áp dụng kiến trúc MVC vào ứng dụng cụ thể sau: 71 5.1 Ứng dụng phát giao dịch gian lận thị trường tài Mơ hình (Model): Đây phần trung gian chịu trách nhiệm xử lý phần khung nhìn xử lý liệu tầng (back-end) Khung nhìn (View): chịu trách nhiệm hiển thị giao diện cho phía người dùng Bộ điều khiển (Controller): Thực việc xử lý luận lý phía tầng Giả sử, giao dịch gửi từ phía khách hàng, giao dịch xử lý lưu xuống sở liệu Sau trả cho phía khách hàng phản hồi (response) Mơ hình AI (AI Model): AI core luận văn, nhóm xây dựng đưa vào sử dụng thực tế Hệ thống nhận vào giao dịch dự đoán xem giao dịch có gian lận khơng! 5.1.3 Cơng nghệ sử dụng Ngơn ngữ lập trình Hệ thống thực dựa hai ngôn ngữ lập trình chính: Máy chủ (Server): Chúng tơi sử dụng Python Java Python sử dụng cho việc huấn luyện mơ hình AI Trong đó, Java ngơn ngữ hỗ trợ mạnh khía cạnh máy chủ (Server) cho hệ thống Vì lý này, mà định sử dụng hai ngôn ngữ Giao diện: Framework mã nguồn mở Angular Đây framework kỹ thuật, mã nguồn mở, sử dụng để xây dựng ứng dụng trang (single page application) Các lập trình viên sử dụng để tạo menu động cho trang web HTML Framework sản phẩm trí tuệ kỹ sư Google Và sử dụng vô rộng rãi công nghiệp phần mềm Frameworks Angular Javascript framework Google phát triển để xây dựng ứng dụng trang (single page application) JavaScript, HTMLvà TypeScript Angular cung cấp tính tích hợp cho hoạt hình (animation), dịch vụ http có tính tự động điền (auto-complete), chuyển đường 72 5.1 Ứng dụng phát giao dịch gian lận thị trường tài (navigation), cơng cụ (toolbar), Code viết TypeScript, biên dịch thành JavaScript hiển thị tương tự trình duyệt Spring boot - Spring Data Spring Boot dự án phát triển JAVA hệ sinh thái Spring framework Nó giúp cho lập trình viên đơn giản hóa q trình lập trình ứng dụng với Spring, tập trung vào việc phát triển business cho ứng dụng Hệ sinh thái Spring vô đa dạng, sử dụng Spring Data Spring Core để hỗ trợ việc xây dựng ứng dụng web cách dễ dàng, đơn giản nhanh Cơ sở liệu MongoDB sở liệu hướng tài liệu (document), dạng sở liệu NoSQL Vì thế, MongoDB tránh cấu trúc bảng sở liệu quan hệ, để thích ứng với tài liệu JSON có lượt đồ linh hoạt gọi BSON MongoDB sử dụng lưu trữ liệu dạng Document JSON nên tập hợp (collection) có kích cỡ document khác Các liệu lưu trữ document kiểu JSON nên truy vấn nhanh 5.1.4 Một số giao diện ứng dụng Màn hình gồm thơng tin mơ tả ứng dụng, thông tin thành viên xây dựng ứng dụng Hình 5.4: Giao diện hình trang chủ 73 5.1 Ứng dụng phát giao dịch gian lận thị trường tài Giao diện Hình 5.5 hình PREDICTION, gồm thơng tin tập giao dịch chuẩn bị dự đoán Sau nhấn nút "PREDICT", hệ thống thực xử lý tập giao dịch đưa kết bên với biểu đồ thể tỷ lệ giao dịch bình thường bất thường Hình 5.5: Giao diện hình PREDICTION Sau dự đốn, người dùng xem lại kết dự đốn hình HISTORY PREDICTION có giao diện Hình 5.6 Hình 5.6: Giao diện hình HISTORY PREDICTION 74 TỔNG KẾT 6.1 Kết đạt Trong trình tìm hiểu nghiên cứu, nhóm thu số kết sau: Tìm hiểu tốn phát ngoại lai tảng giải thuật SVM toán phát ngoại lai Bước hướng tiếp cận truyền thống, nhóm có tham khảo, kết hợp sử dụng mạng nơ-ron mơ hình, nhằm tăng thời gian huấn luyện hiệu suất mơ hình Nhóm thực mơ tốn ngữ cảnh thực tế Với kết đạt trên, cịn nhiều vấn đề hạn chế, song, nhóm hoàn thành nhiệm vụ mục tiêu đề 6.2 Thách thức khó khăn Trong q trình thực luận văn này, nhóm gặp số hạn chế sau: Mơ hình tập trung vào case-study cụ thể, tính tái sử dụng chưa cao phải thực chỉnh sửa để phù hợp với loại đối tượng liệu Tập liệu cố định, chưa thử nghiệm nhiều với tập liệu thô khác 75 6.3 Cải tiến tương lai Quá trình huấn luyện cịn gặp đơi chút khó khăn tài ngun máy tính có phần hạn chế 6.3 Cải tiến tương lai Một vài hướng cải tiến đề xuất hướng đến tương lai: Tổng quát mơ hình để làm việc tốt nhiều tập liệu case study khác Xây dựng mơ hình mang tính thực tiễn cao hơn, cụ thể tính mở rộng tính tin cậy 76 Tài liệu tham khảo Tài liệu Internet [1] https://developers.google.com/machine-learning/crash-course/classification/ roc-and-auc - lần truy cập cuối 01/07/2021 [2] https://machinelearningcoban.com/ - lần truy cập cuối 01/07/2021 [3] https : / / forum machinelearningcoban com / uploads / default / original / 2X/6/672bf803c933af17deca2fceccad6cfd7f77480b.png - lần truy cập cuối 01/07/2021 [4] https://towardsdatascience.com/applied-deep-learning-part-3-autoencoders1c083af4d798 - lần truy cập cuối 01/07/2021 [5] https : / / www kaggle com / ealaxi / paysim1 / tasks - lần truy cập cuối 01/07/2021 [6] https://www.altexsoft.com/whitepapers/fraud- detection- how- machinelearning-systems-help-reveal-scams-in-fintech-healthcare-and-ecommerce/ lần truy cập cuối 01/07/2021 [7] https://www.analyticsvidhya.com/blog/2020/08/types-of-categorical-dataencoding/ - lần truy cập cuối 01/07/2021 Bài báo tham khảo [8] Mennatallah Amer, Markus Goldstein and Slim Abdennadher “Enhancing One-Class Support Vector Machines for Unsupervised Anomaly Detection” in: ODD ’13 (2013), pages 8–15 77 Bài báo tham khảo [9] Dor Bank, Noam Koenigstein and Raja Giryes “Autoencoders” in: (march 2020) [10] Shehroz S Khan and Michael G Madden “A Survey of Recent Trends in One Class Classification” in: Artificial Intelligence and Cognitive Science - 20th Irish Conference, AICS 2009, Dublin, Ireland, August 19-21, 2009, Revised Selected Papers (August 2009) [11] Shehroz S Khan and Michael G Madden “One-class classification: taxonomy of study and review of techniques” in: Published online by Cambridge University Press (24 January 2014) [12] Kun-Lun Li andothers “Improving one-class SVM for anomaly detection” in: (2003), 3077–3081 Vol.5 [13] David M.J.Tax and Robert P.W.Duin “Support Vector Data Description” in: Pattern Recognition Group, Faculty of Applied Sciences, Delft University of Technology, Lorentzweg 1, 2628 CJ Delft, The Netherlands (January 2004) [14] Larry M Manevitz and Malik Yousef “One-Class SVMs for Document Classification” in: Journal of Machine Learning Research (2001) 139-154 (2001) [15] Minh-Nghia Nguyen and Ngo Anh Vien “Scalable and Interpretable Oneclass SVMs with Deep Learning and Random Fourier features” in: ArXiv abs/1804.04888 (2018) [16] Pramuditha Perera, Poojan Oza and Vishal Patel “One-Class Classification: A Survey” in: (january 2021) [17] Lukas Ruff andothers “Deep One-Class Classification” in: 80 (2018), pages 4393–4402 78 ... thiệu toán phát liệu ngoại lai Phát ngoại lai, hay gọi phát bất thường, phát tính mới, trình phát trường hợp liệu sai lệch đáng kể so với phần lớn trường hợp liệu lại tập liệu Phát ngoại lai lĩnh... điểm liệu tích cực điểm ngoại lai (hoặc điểm liệu khơng điển hình) SVM lớp sử dụng tham số ν để xác định cân tỷ lệ điểm liệu coi lớp tích cực với lớp tiêu cực Sự khác biệt SVM hai lớp SVM lớp. .. KHMT Đề tài: Phát liệu ngoại lai bằng mô hình SVM lớp Họ tên người hướng dẫn: Lê Hồng Trang Tổng quát thuyết minh: Số trang: 95 Số chương: Số bảng số liệu: 16 Số hình vẽ: 42 Số tài liệu tham khảo:

Ngày đăng: 06/06/2022, 18:30

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Bài toán phân loại một lớp - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 1.1 Bài toán phân loại một lớp (Trang 27)
Hình 1.2: Mạng nơ-ron đơn giản [6] - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 1.2 Mạng nơ-ron đơn giản [6] (Trang 31)
Hình 2.1: Hai lớp dữ liệu tuyến tính - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 2.1 Hai lớp dữ liệu tuyến tính (Trang 34)
Hình 2.2: Margin càng lớn sẽ đem lại bộ phân chia càng tốt - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 2.2 Margin càng lớn sẽ đem lại bộ phân chia càng tốt (Trang 36)
Hình 2.3: Nghiệm của bộ phân loại tuyến tính sử dụng hard-margin SVM - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 2.3 Nghiệm của bộ phân loại tuyến tính sử dụng hard-margin SVM (Trang 39)
Hình 2.4: Hai lớp dữ liệu gần tuyến tính - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 2.4 Hai lớp dữ liệu gần tuyến tính (Trang 40)
Hình 2.5: Giới thiệu các biến slack - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 2.5 Giới thiệu các biến slack (Trang 41)
Hình 2.6: So sánh multi-class và OCC - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 2.6 So sánh multi-class và OCC (Trang 47)
2.2. Biến thể Support Vector Machine cho bài toán phân loại một lớp - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
2.2. Biến thể Support Vector Machine cho bài toán phân loại một lớp (Trang 50)
Hình 2.8: Ý tưởng tiếp cận của OCSVM[14] - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 2.8 Ý tưởng tiếp cận của OCSVM[14] (Trang 52)
Hình 2.9: Minh họa kernel OCSVM: Biến đổi không gian đặc trưng X sang F[14] - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 2.9 Minh họa kernel OCSVM: Biến đổi không gian đặc trưng X sang F[14] (Trang 55)
Hình 3.1: Kiến trúc của Autoencoder[4] - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 3.1 Kiến trúc của Autoencoder[4] (Trang 61)
Hình 4.3: Trực quan hóa tập dữ liệu Banana trên không gian hai chiều - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 4.3 Trực quan hóa tập dữ liệu Banana trên không gian hai chiều (Trang 70)
4.2. Tập dữ liệu Banana - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
4.2. Tập dữ liệu Banana (Trang 71)
Hình 4.4: ROC Curve cho từng loại kernel SVDD trên tập Banana - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 4.4 ROC Curve cho từng loại kernel SVDD trên tập Banana (Trang 71)
Bảng 4.4: Kết quả thực nghiệm với OCSVM trên tập banana - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Bảng 4.4 Kết quả thực nghiệm với OCSVM trên tập banana (Trang 72)
Bảng bên dưới là tổng hợp kết quả sau khi thực nghiệm trên tập dữ liệu banana. - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Bảng b ên dưới là tổng hợp kết quả sau khi thực nghiệm trên tập dữ liệu banana (Trang 73)
Một thời điể mở vị trí thấp dựa vào bộ mô tả hình dạng - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
t thời điể mở vị trí thấp dựa vào bộ mô tả hình dạng (Trang 74)
Hình 4.8: ROC Curve của mỗi phương pháp trên tập Mammography - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 4.8 ROC Curve của mỗi phương pháp trên tập Mammography (Trang 76)
Hình 4.9: Tập dữ liệu MNIST - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 4.9 Tập dữ liệu MNIST (Trang 77)
Kiến trúc mạng được sử dụng trong AESVDD như Hình 4.10. Chúng tôi sẽ sử dụng thuật toán tối ưuAdam - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
i ến trúc mạng được sử dụng trong AESVDD như Hình 4.10. Chúng tôi sẽ sử dụng thuật toán tối ưuAdam (Trang 78)
Bảng 4.11: Quy tắc xử lý ngưỡng giá trị IV - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Bảng 4.11 Quy tắc xử lý ngưỡng giá trị IV (Trang 86)
Bảng 4.13: Các đặc trưng có giá trị IV có sức mạnh dự đoán vừa phải, yếu, vô dụng - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Bảng 4.13 Các đặc trưng có giá trị IV có sức mạnh dự đoán vừa phải, yếu, vô dụng (Trang 87)
Bảng 4.12: Các đặc trưng có giá trị IV có sức mạnh dự đoán mạnh - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Bảng 4.12 Các đặc trưng có giá trị IV có sức mạnh dự đoán mạnh (Trang 87)
4.5.3 Thiết lập dữ liệu để huấn luyện mô hình - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
4.5.3 Thiết lập dữ liệu để huấn luyện mô hình (Trang 88)
Bảng 4.16: Thời gian huấn luyện (giây) cho mỗi setup trên tập Paysim - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Bảng 4.16 Thời gian huấn luyện (giây) cho mỗi setup trên tập Paysim (Trang 89)
Bảng 4.15: AUCs cho mỗi setup trên tập Paysim - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Bảng 4.15 AUCs cho mỗi setup trên tập Paysim (Trang 89)
Hình 5.1: Kiến trúc hệ thống ứng dụng web - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
Hình 5.1 Kiến trúc hệ thống ứng dụng web (Trang 92)
Màn hình chính gồm thông tin mô tả về ứng dụng, thông tin thành viên xây dựng ứng dụng. - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
n hình chính gồm thông tin mô tả về ứng dụng, thông tin thành viên xây dựng ứng dụng (Trang 95)
Giao diện trong Hình 5.5 là màn hình PREDICTION, gồm thông tin những tập giao dịch chuẩn bị được dự đoán - Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp
iao diện trong Hình 5.5 là màn hình PREDICTION, gồm thông tin những tập giao dịch chuẩn bị được dự đoán (Trang 96)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN