NGHIÊN CỨU PHÁT HIỆN GIAN LẬN TRONG VIỄN THÔNG SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU

19 737 2
NGHIÊN CỨU PHÁT HIỆN GIAN LẬN TRONG VIỄN THÔNG SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - NGUYỄN MINH THU NGHIÊN CỨU PHÁT HIỆN GIAN LẬN TRONG VIỄN THÔNG SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU CHUYÊN NGÀNH : TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH Mã số: 60.48.15 Người hướng dẫn khoa học: PGS.TS Trần Đình Quế TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2011 MỞ ĐẦU Ngành công nghiệp viễn thông ngành kinh tế quan trọng quốc gia Trong năm vừa qua ngành công nghiệp viễn thông nước ta có bước phát triển nhanh chóng, nay, viễn thông Việt Nam "sánh vai" với nước phát triển giới công nghệ, mật độ điện thoại, giá cước trở thành ngành phát triển nhanh động [1] Cùng với phát triển công nghệ loại hình dịch vụ gian lận viễn thông gia tăng kể năm nguồn chủ yếu gây thất thoát doanh thu cho ngành công nghiệp viễn thông Gian lận xuất nhiều lĩnh vực viễn thông, từ gian lận giao dịch Internet, gian lận với dịch vụ thoại VoIP hay gian lận dịch vụ thoại thông thường, gian lận dịch vụ giá trị gia tăng… [6] Theo Hiệp hội Truyền thông kiểm soát gian lận (the Communications Fraud Control Association) Khảo sát tổn thất gian lận toàn cầu năm 2009, Gian lận toàn giới ước tính khoảng 72 tỷ-80 tỷ hàng năm (khoảng 4,5% doanh thu viễn thông)[7].Việc phát gian lận viễn thông chủ đề quan tâm nghiên cứu phát triển ứng dụng mạnh mẽ Phát gian lận hiểu xác định gian lận cách nhanh xảy Hiện phương pháp phát gian lận hoàn hảo kĩ thuật gian lận luôn đổi phương pháp phát gian lận biết đến kẻ gian lận sửa chiến lược thử kiểu gian lận [4] Thị trường viễn thông Việt nam phát triển mạnh với nhiều nhà cung cấp, chạy đua tranh giành thị trường thống lĩnh thị trường nhà cung cấp cho đời nhiều chương trình khuyến mại gói cước khuyến mại khác Doanh thu dịch vụ thoại chia sẻ cho doanh thu loại hình dịch vụ giá trị gia tăng, dịch vụ nội dung… Cũng từ gian lận viễn thông lại có nhiều hội để thực hành vi mình, từ kiểu gian lận truyền thống đến kiểu gian lận lợi dụng chương trình khuyến mại để trục lợi ngày tinh vi Phát gian lận nhanh chóng kịp thời trở thành nhiệm vụ vô quan trọng cấp bách nhà cung cấp dịch vụ viễn thông Các phương pháp phát gian lận doanh nghiệp viễn thông Việt nam chủ yếu dựa báo cáo thống kê, so sánh Việc phát theo cách có nhiều hạn chế, theo dõi khía cạnh nhỏ hành vi gian lận Hơn việc phát thường chậm khả xử lý diện rộng khó khăn Khai phá liệu dự đoán "một phát triển mang tính cách mạng thập kỷ tới", theo tạp chí công nghệ trực tuyến ZDNet News (ngày 08 tháng hai 2001) Khai phá liệu ứng dụng nhiều ngành công nghiệp Các công ty viễn thông công ty thẻ tín dụng hai số công ty hành đầu việc áp dụng khai thác liệu để phát gian lận sử dụng dịch vụ họ Các công ty bảo hiểm thị trường chứng khoán quan tâm việc áp dụng công nghệ để giảm gian lận [8] Từ lý xu hướng công nghệ Luận văn chọn đề tài “Nghiên cứu phát gian lận viễn thông dựa kỹ thuật khai phá liệu” Mục tiêu nghiên cứu: Tìm hiểu vấn đề gian lận viễn thông, loại gian lận, phương pháp phát gian lận sâu vào nghiên cứu phương pháp sử dụng kĩ thuật khai phá liệu để phát hành vi gian lận cách tự động dựa dấu hiệu bất thường so với liệu khứ Đối tượng phạm vi nghiên cứu đề tài  Các loại gian lận số phương pháp phát gian lận  Kĩ thuật Khai phá liệu  Nghiên cứu toán cụ thể với dịch vụ thoại di động kĩ thuật khai phá liệu thông tin chi tiết gọi sử dụng thuật toán K-Means để phát hành vi gian lận Phương pháp nghiên cứu  Nghiên cứu thực tiễn công tác phòng chống kinh doanh gian lận mạng thông tin di động MobiFone  Nghiên cứu tài liệu, báo nước có liên quan đến sử dụng kĩ thuật khai phá liệu để phát gian lận mạng viễn thông  Sau tiến hành cài đặt thử nghiệm 5 Bố cục đề tài: Căn mục tiêu yêu cầu nghiên cứu, đề tài xây dựng gồm phần sau: Phần mở đầu: Giới thiệu chung đề tài Chương 1: Tổng quan gian lận viễn thông phòng chống gian lận viễn thông Chương 2: Kiến thức khai phá liệu Chương 3: Bài toán Kết luận Hướng nghiên cứu Tài liệu tham khảo Chương TỔNG QUAN VỀ GIAN LẬN VIỄN THÔNG VÀ PHÒNG CHỐNG GIAN LẬN TRONG MẠNG VIỄN THÔNG Chương giới thiệu chung gian lận viễn thông, phòng chống gian lận mạng viễn thông Trong chương giới thiệu chi tiết số loại gian lận viễn thông phổ biến nhất, phân loại phương pháp phòng chống giân lận, tình hình gian lận viễn thông phòng chống gian lận viễn thông giới Việt Nam 1.1 1.1.1 GIAN LẬN VIỄN THÔNG Định nghĩa gian lận viễn thông Phần giới thiệu định nghĩa khác gian lận viễn thông phân biệt khái niệm gian lận viễn thông với khái niệm nợ khó đòi (bad debt) Gian lận viễn thông hành vi ăn trộm dịch vụ viễn thông sử dụng dịch vụ viễn thông để tạo thành hình thức gian lận khác [10] Một cách tổng quát gian lận định nghĩa là: “Bất kỳ hành vi sử dụng mạng nhà cung cấp dịch vụ mà ý định toán” Không có ý định toán không toán hoàn toàn, có toán toán không chi phí cần phải trả khác phải toán cho phần chi phí phát sinh [9] Sự khác biệt nợ khó đòi gian lận định nghĩa là: "Gian lận nợ khó đòi người sử dụng mạng không thực toán cho dịch vụ sử dụng Gian lận bao gồm dối trá, ý định trả tiền có liên quan Nợ khó đòi đơn giản người bình thường tiền để chi trả cho dịch vụ sử dụng "[8] 1.1.2 Lịch sử gian lận viễn thông Giới thiệu lịch sử gian lận viễn thông hình thức gian lân qua giai đoạn phát triển mạng viễn thông Gian lận viễn thông xuất từ cuối năm 1980 Từ hình thức gian lận thay đổi định dang “Tumbling” mạng tương tự, đến hình thức gian lận chép thuê bao GSM Và loại hình dịch vụ, công nghệ phát triển mạng phát triển hình thức loại gian lận ngày gia tăng Hiện 3G thị trường cho kẻ gian lận hướng tới Các loai hình gian lận ngày phong phú, đa đạng, phương pháp phát gian lận phải đổi chi phí cho phòng chống phát gian lận ngày tốn 1.1.3 Các loại gian lận viễn thông Phần giới thiệu loại gian lận viễn thông phổ biến:  Gian lận thuê bao (Subscription Fraud)  Gian lận chép gọi  Gian lận dịch vụ giá cao  Gian lận sử dụng mạng khách  Gian lận với dịch vụ trả trước  Gian lận với thuê bao cố định 1.1.4 Tình hình gian lận viễn thông Phần mô tả tình hình gian lận viễn thông giới Việt Nam 8 Theo báo cáo CFCA (Communications Fraud Control Association) tóm tắt thất thoát Gian lận toàn giới năm 2009 năm gian lận toàn giới gây thất thoát khoảng 72 đến 80 tỷ đô la Mỹ, xấp xỉ 4.5% doanh thu viễn thông Ba loại gian lận gây thất thoát lớn nhất:  Gian lận thuê bao/Ăn trộm định danh: 22 tỷ $  Các hệ thống Voice Mail/PBX: 15 tỷ $  Gian lận dịch vụ giá cao: 4.5 tỷ $ Trong báo cáo đưa thông tin quốc gia có tình hình gian lận nghiêm trọng nhất: Cuba, Philippines, Liechtenstein, India, United Kingdom 1.2 PHÒNG CHỐNG VÀ PHÁT HIỆN GIAN LẬN TRONG MẠNG VIỄN THÔNG 1.2.1 Định nghĩa Phòng chống gian lận biện pháp tránh gian lận xuất từ đầu Ngược lại phát gian lận xác định gian lận nhanh gian lận xảy 1.2.2 Tình hình phòng chống phát gian lận viễn thông Nội dung trình bày tình hình phòng chống phát gian lận viễn thông giới nói chung Việt Nam nói riêng Hiện công tác phòng chống, phát gian lận quốc gia giới đầu tư nghiên cứu mạnh mẽ nhiều nước đưa chiến lược cho việc phòng chống, phát gian lận Tuy nhiên phần lớn tập trung cho việc Phát gian lận mạng di động điển hình dự án Châu Âu ASPeCT (Advance Security for Personal Communications Technologies) (Shawe-Taylor, Howker & Burge, 1999; Shawe-Taylor et al., 2000; Burge & Shawe-Taylor, 2001) Công cụ phát gian lận ASPeCT sử dụng hệ thống dựa luật (rule) để xác định số loại gian lận mạng nơron để giải ngữ cảnh hay thể bất thường Tại Việt nam công tác phòng chống phát gian lận lưu tâm nhiên chưa nhiều Một số nhà mạng nhỏ EVNTelecom,Sfone việc kiểm soát gian lận Với nhà mạng lớn VMS, Viettel công tác dừng lại mức báo cáo thống kê so sánh hay dựa dấu hiệu sử dụng bất thường để phát gian lận 1.2.3 Phương pháp phát gian lận Nội dung đề cập đến số kỹ thuật sử dụng phát gian lận như: mô hình thống kê, học máy, khai phá liệu Phân biệt hai phương pháp phát gian lận có giám sát giám sát Các phương pháp có giám sát phương pháp mà mẫu hành vi gian lận bình thường sử dụng để xây dựng mô hình cho phép hệ thống gán quan sát tới hai lớp Các phương pháp không giám sát đơn giản tìm kiếm những quan sát mà không giống so với chuẩn 1.3 Kết luận chương Chương mở đầu giới thiệu kiến thức gian lận viễn thông, loại gian lận viễn thông, phương pháp phòng chống gian lận tình hình phòng chống gian lận viễn thông giới Việt nam Cùng với gia tăng loại hình dịch vụ gian lận ngày gia tăng Phát gian lận phòng chống gian lận trở thành nhiệm vụ hàng đầu nhà cung cấp dịch vụ viễn thông Trong chương ta tìm 10 hiểu chung kĩ thuật khai phá liệu sâu tìm hiểu kĩ thuật phân cụm cho phát gian lận viễn thông Chương KIẾN THỨC VỀ KHAI PHÁ DỮ LIỆU Chương giới thiệu tổng quan kĩ thuật khai phá liệu , phương pháp tiếp cận, qui trình khai phá liệu sâu tìm hiểu kỹ thuật phân cụm liệu; phân cụm liệu sử dụng thuật toán K_Means 2.1 2.1.1 KIẾN THỨC CHUNG VỀ KHAI PHÁ DỮ LIỆU Giới thiệu chung Giới thiệu vai trò, xu hướng phát triển, ứng dụng khai phá liệu Khai thác liệu dự đoán "một phát triển mang tính cách mạng thập kỷ " 2.1.2 Định nghĩa khai phá liệu Nội dung trình bày định nghĩa khai phá liệu Khai phá liệu trình tìm kiếm thông tin (tri thức) có ích, tiềm ẩn mang tính dự đoán khối sở liệu lớn 2.1.3 Quá trình khai phá liệu Phần trình bày bước trình khai phá liệu chuẩn: Xác định nhiệm vụ, xác định liệu liên quan, thu thâp liệu, mô hình hóa Đánh giá 2.1.4 Các hướng tiếp cận kỹ thuật áp dụng Mô tả hướng tiếp cận khai phá liệu: phân lớp, phân cụm, khai phá luật… 11 2.1.5 Phương pháp khai phá liệu Giới thiệu chung phương pháp khai phá liệu: Phân nhóm, phân cụm, luật kết hợp, mạng nơron, định, giải thuật di truyền… 2.1.6 Lựa chọn giải thuật khai phá Trình bày tiêu chuẩn việc định sử dụng phương pháp khai phá liệu vào trường hợp hiệu 2.2 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 2.2.1 Khái niệm phân cụm liệu Trình bày định nghĩa phân cụm liệu Phân cụm liệu trình nhóm tập đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng, đối tượng thuộc cụm khác không tương đồng [11] 2.2.2 Các kĩ thuật tiếp cận phân cụm liệu Phần trình bày kiến thức chung kỹ thuật phân cụm liệu:  Phân cụm phân cấp (Hierarchical clustering algorithm )  Phân cụm phân hoạch (Partition clustering algorithm )  Phân cụm dựa quang phổ (Spectral clustering algorithm)  Phân cụm dựa lưới (Grid based clustering algorithm )  Phân loại dựa mật độ (Density based clustering algorithm) 2.3 THUẬT TOÁN K_MEANS CHO PHÂN CỤM DỮ LIỆU Phần giới thiệu mô tả thuật toán K-Means ứng dụng thuật toán K_Means 12 2.3.1 Giới thiệu chung Phần giới thiệu chung thuật toán, phát biểu thuật toán 2.3.2 Khoảng cách Euclidean Nội dung trình bày khái niệm khoảng cách Euclidean, tính khoảng cách Euclidean từ điểm đến phần tử trung tâm cụm 2.3.3 Phần tử trung tâm Phần giới thiệu cách tính phần tử trung tâm cụm 2.3.4 Thuật toán Phần nội dung trình bày bước thực thuật toán 2.3.5 Ứng dụng Phần trình bày ứng dụng kỹ thuật phân cụm nói chung ứng dụng thuật toán K-Means nói riêng 2.4 Kết luận chương Chương giới thiệu kiến thức khai phá liệu sâu tìm hiểu kĩ thuật phân cụm, thuật toán KMeans phân cụm liệu Dưới tìm hiểu ứng dụng KMeans để phát gian lận viễn thông 13 Chương BÀI TOÁN Chương giới thiệu toán, phạm vi yêu cầu cài đặt thuật toán KMeams cho toán Chương giới thiệu cách phân tích kết phân cụm để kiểm tra dấu hiệu gian lận thuê bao 3.1 GIỚI THIỆU 3.1.1 Lý chọn phạm vi toán Phần trình bày lý chọn phạm vi toán xét luận văn Trong luận văn xét phạm vi toán dịch vụ giá cao dịch vụ giá trị gia tăng Các dịch vụ giá cao mạng viễn thông thường quan tâm như:  Dịch vụ 1900  Dịch vụ 108  Dịch vụ Nội dung (CP) Xem xét trường sở liệu gồm có thông tin như:  Số 1900  Số tiền tiêu dùng dịch vụ 1900  Số SMS thường  Số tiền tiêu dùng dịch vụ SMS thường  Số tin sử dụng dịch vụ CP  Số tiền sử dụng dịch vụ CP  Số 108 14  Số tiền sử dụng dịch vụ 108  Số thoại thường  Số tiền sử dụng dịch vụ thoại thường Trong phạm vi luận văn xét tới hai dịch vụ là: + Dịch vụ 1900 + Dịch vụ CP 3.1.2 Phát biểu toán Nội dung phát biểu toán Cho sở liệu thuê bao sử dụng dịch vụ 1900, dịch vụ giá trị gia tăng Mỗi ghi gồm có thông tin :  Số thuê bao  Số 1900  Số tiền sử dụng dịch vụ 1900  Số tin nhắn sử dụng dịch vụ GTGT  Số tiền sử dụng dịch vụ GTGT Phân cụm thuê bao sử dụng dịch vụ thành k nhóm (K nhập từ bàn phím).Phân tích kết phân cụm cho thấy dấu hiệu hành vi sử dụng gian lận người sử dụng 3.2 3.2.1 MÔ TẢ PHƯƠNG PHÁP Tiến trình phát gian lận sử dụng khai phá liệu Trong phần giới thiệu bước trình phát gian lận sử dụng kỹ thuật khai phá liệu 3.2.2 Cài đặt chương trình Trong phần giới thiệu mô tả chung lớp cài đặt chương trình ngôn ngữ JAVA, sở liệu Oracle 9i 15 Nội dung giới thiệu số giao diện kết cài đặt chạy chương trình 3.2.3 Phân tích kêt cài đặt Nội dung trình bày cách phân tích kết cài đặt cho kết luận dấu hiệu gian lận hành vi sử dụng dịch khách hàng 3.3 MÃ CÀI ĐẶT Phần phần mã cài đặt lớp 3.4 ĐÁNH GIÁ KẾT QUẢ CÀI ĐẶT Phần đánh giá ưu nhược điểm thuật toán xét với kết cài đặt thuật toán 3.5 Kết luận chương Chương mô tả toán, cài đặt thuật toán K-Means nguồn sở liêụ thực tế phân tích sử dụng kết cài đặt cho việc phát gian lận với hành vi sử dụng dịch vụ giá trị giá cao khách hàng 16 KẾT LUẬN Đề tài đạt số kết sau:  Nghiên cứu vấn đề gian lận viễn thông, phòng chống gian lận viễn thông, tìm hiểu tình hình phòng chống gian lận viễn thông giới Việt Nam Qua trình nghiên cứu tìm hiểu Luận văn thấy gian lận viên thông tượng phổ biến Công tác phòng chống gian lận viễn thông vấn đề cần lưu tâm hàng đầu nhà cung cấp dịch vụ trở thành chủ đề nghiên cứu phát triển ứng dụng mạnh mẽ giới Tại Việt nam Công tác phòng chống kinh doanh gian lận viễn thông quan tâm nghiên cứu nhiên chưa nhiều, chủ yếu dựa báo cáo thống kê so sánh để phát gian lận…  Tìm hiểu phương pháp phát gian lận: Hiện có nhiều phương pháp phát gian lận, kỹ thuật thường sử dụng như: học máy, khai phá liệu, … hay dựa mô hình thống kê như: sử dụng luật Bayesian, tiểu sử người sử dụng… Trong phạm vi nghiên cứu Luận văn sâu tìm hiểu phương pháp phát gian lận giám sát sử dụng kỹ thuật khai phá liệu  Khai phá liệu kĩ thuật ứng ứng dụng rộng rãi nhiều lĩnh vực nói chung phát gian lận nói riêng Luận văn tìm hiểu kiến thức chung khai phá liệu sâu vào tìm hiểu kĩ thuật phân cụm, thuật toán sử dụng nhiều phân cụm liệu K-Means 17  Luận văn tiến hành cài đặt thuật toán K-Means để phát gian lận viễn thông dựa việc khảo sát nguồn liệu tiêu dùng dịch vụ giá cao 1900 từ nguồn liệu thực tế Mobifone  Dựa kết cài đặt phân cụm, Luận văn thực phân tích kết bước đầu phát dấu hiệu gian lận với toán tiêu dùng dịch vụ giá cao Với nội dung kết đạt Luận văn cho thấy sử dụng khai phá liệu phát gian lận hướng mới, có triển vọng tiếp tục nghiên cứu để áp dụng vào thực tế HƯỚNG NGHIÊN CỨU TIẾP THEO  Triển khai, áp dụng phương pháp phát gian lận nghiên cứu vào thực tế: mạng Mobifone…, góp phần tích cực công tác phòng chống kinh doanh gian lận VMS nói riêng Việt nam nói chung  Nghiên cứu thuật toán phương pháp khác để phân tích kết phân cụm: Thuật toán liên quan đến sử dụng tiểu sử hành vi người sử dụng…  So sánh thuật toán, phương pháp khác nhau,tìm phương pháp hiệu cho việc phát gian lận viên thông để sử dụng vào thực tế 18 TÀI LIỆU THAM KHẢO [1] http://vef.vn/2011-01-22-vien-thong-viet-nam-da-sanh-vainhung-nguoi-khong-lo, truy nhập ngày 10/5/2011 [2] P Burge, J Shawe-Taylor, C Cooke, Y Moreau, B Preneel, C Stoermann (2002), Fraud Detection and management in mobile telecommunications networks [3] Gary M Weiss (2004), Data mining in Telecommunications [4] Constantinos S Hilas, John N Sahalo (2009), User Profiling for Fraud Detection in Telecommunication Networks [5] Clifton Phua, Vincent Lee, Kate Smith& Ross GayLer (2010) , A Comprehensive Survey of Data Mining-based Fraud Detection Research [6] http://www.dinkla.net/fraud/types.html, truy nhập ngày 10/5/2011 [7] CFCA (2009), Global Fraud Loss survey 2009 [8] Bülent Kuşaksızoğlu (2006), Fraud detection in mobile network using data mining [9] Peter Hoath (2008), Fraud Overview [10] http://www.wantagh.li/spin/telecommunications_fraud.pdf, truy nhập ngày 10/5/2011 [11] http://churmura.com/technology/computerscience/clustering-in-data-mining/31592/, truy nhập ngày 10/6/2011 [12] K Ravichandra Rao (2003), Data mining and clustering techniques 19 [13] http://www.anderson.ucla.edu/faculty/jason.frand/teacher/tec hnologies/palace/datamining.htm, truy nhập ngày 10/6/2011 [14] http://www.ijecbs.com/January2011/N6Jan2011.pdf, truy nhập ngày 15/6/2011 [15] http://www.resample.com/xlminer/help/HClst/HClst_intro.ht m, truy nhập ngày 15/6/2011 [16] http://scialert.net/fulltext/?doi=itj.2011.478.484&org=11, truy nhập ngày 10/6/2011 [17] Francis R.bach & Michaeld I.Jordan (2003), Leaning Spectral Clustering [18] http://www.crisp-dm.org/, truy nhập ngày 15/6/2011 [19] http://home.dei.polimi.it/matteucc/Clustering/tutorial_ html/index html, truy nhập ngày 10/6/2011 [20] http://en.wikipedia.org/wiki/K-means_clustering , truy nhập ngày 15/6/2011 [21] R J Bolton and D J Hand, “Statistical fraud detection: a review,” Statistical Science, vol.17, no.3, pp 235–255, 2002 [...]... kê như: sử dụng luật Bayesian, tiểu sử người sử dụng Trong phạm vi nghiên cứu Luận văn đi sâu tìm hiểu phương pháp phát hiện gian lận không có giám sát sử dụng kỹ thuật khai phá dữ liệu  Khai phá dữ liệu là một trong những kĩ thuật đã được ứng ứng dụng rộng rãi trong nhiều lĩnh vực nói chung và trong phát hiện gian lận nói riêng Luận văn đã tìm hiểu những kiến thức chung nhất về khai phá dữ liệu và... GTGT  Số tiền sử dụng dịch vụ GTGT Phân cụm thuê bao sử dụng dịch vụ trên thành k nhóm (K nhập từ bàn phím).Phân tích kết quả phân cụm sẽ cho thấy được dấu hiệu hành vi sử dụng gian lận của người sử dụng 3.2 3.2.1 MÔ TẢ PHƯƠNG PHÁP Tiến trình phát hiện gian lận sử dụng khai phá dữ liệu Trong phần này sẽ giới thiệu các bước trong quá trình phát hiện gian lận sử dụng kỹ thuật khai phá dữ liệu 3.2.2 Cài... ứng dụng mạnh mẽ hiện nay trên thế giới Tại Việt nam Công tác phòng chống kinh doanh gian lận trong viễn thông đã được quan tâm nghiên cứu tuy nhiên chưa nhiều, chủ yếu dựa trên các báo cáo thống kê so sánh để phát hiện gian lận  Tìm hiểu các phương pháp phát hiện gian lận: Hiện nay có nhiều phương pháp phát hiện gian lận, các kỹ thuật thường được sử dụng như: học máy, khai phá dữ liệu, … hay dựa... gian lận với bài toán tiêu dùng các dịch vụ giá cao Với những nội dung và kết quả đạt được Luận văn cũng cho thấy rằng sử dụng khai phá dữ liệu trong phát hiện gian lận là một hướng mới, có triển vọng và có thể tiếp tục nghiên cứu để áp dụng vào thực tế HƯỚNG NGHIÊN CỨU TIẾP THEO  Triển khai, áp dụng phương pháp phát hiện gian lận đã được nghiên cứu vào thực tế: mạng Mobifone…, góp phần tích cực trong. .. Phương pháp khai phá dữ liệu Giới thiệu chung về các phương pháp khai phá dữ liệu: Phân nhóm, phân cụm, luật kết hợp, mạng nơron, cây quyết định, giải thuật di truyền… 2.1.6 Lựa chọn giải thuật khai phá Trình bày tiêu chuẩn nào trong việc quyết định sử dụng phương pháp khai phá dữ liệu nào vào trong trường hợp nào thì hiệu quả 2.2 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 2.2.1 Khái niệm về phân cụm dữ liệu Trình... gian lận viễn thông, tìm hiểu tình hình phòng chống gian lận viễn thông trên thế giới và Việt Nam Qua quá trình nghiên cứu tìm hiểu Luận văn thấy rằng gian lận viên thông hiện nay là một hiện tượng rất phổ biến Công tác phòng chống gian lận trong viễn thông là một trong các vấn đề cần lưu tâm hàng đầu của các nhà cung cấp dịch vụ hiện nay và đã trở thành chủ đề được nghiên cứu và phát triển ứng dụng. .. phòng chống kinh doanh gian lận tại VMS nói riêng và Việt nam nói chung  Nghiên cứu các thuật toán và các phương pháp khác nhau để phân tích kết quả phân cụm: Thuật toán liên quan đến sử dụng tiểu sử hành vi người sử dụng  So sánh các thuật toán, phương pháp khác nhau,tìm ra phương pháp hiệu quả nhất cho việc phát hiện gian lận trong viên thông để có thể sử dụng vào thực tế 18 TÀI LIỆU THAM KHẢO [1]... kĩ thuật phân cụm, và thuật toán được sử dụng nhiều trong phân cụm dữ liệu là K-Means 17  Luận văn cũng đã tiến hành cài đặt thuật toán K-Means để phát hiện gian lận trong viễn thông dựa trên việc khảo sát các nguồn dữ liệu tiêu dùng các dịch vụ giá cao 1900 từ nguồn dữ liệu thực tế của Mobifone  Dựa trên kết quả cài đặt và phân cụm, Luận văn cũng thực hiện phân tích kết quả và bước đầu phát hiện. .. của thuật toán xét với kết quả cài đặt của thuật toán 3.5 Kết luận chương Chương đã mô tả bài toán, cài đặt thuật toán K-Means trên nguồn cơ sở dữ liêụ thực tế và đã phân tích sử dụng kết quả cài đặt cho việc phát hiện gian lận với hành vi sử dụng dịch vụ giá trị giá cao của khách hàng 16 KẾT LUẬN Đề tài đã đạt được một số kết quả chính như sau:  Nghiên cứu vấn đề gian lận viễn thông, phòng chống gian. .. 2.3.4 Thuật toán Phần nội dung này trình bày các bước thực hiện của thuật toán 2.3.5 Ứng dụng Phần này trình bày ứng dụng của kỹ thuật phân cụm nói chung và ứng dụng của thuật toán K-Means nói riêng 2.4 Kết luận chương Chương 2 đã giới thiệu những kiến thức cơ bản nhất về khai phá dữ liệu và đi sâu tìm hiểu về kĩ thuật phân cụm, thuật toán KMeans trong phân cụm dữ liệu Dưới đây sẽ tìm hiểu ứng dụng ... algorithm) 2.3 THU T TOÁN K_MEANS CHO PHÂN CỤM DỮ LIỆU Phần giới thiệu mô tả thu t toán K-Means ứng dụng thu t toán K_Means 12 2.3.1 Giới thiệu chung Phần giới thiệu chung thu t toán, phát biểu thu t... vào cụm cho đối tượng thu c cụm tương đồng, đối tượng thu c cụm khác không tương đồng [11] 2.2.2 Các kĩ thu t tiếp cận phân cụm liệu Phần trình bày kiến thức chung kỹ thu t phân cụm liệu: ... tính phần tử trung tâm cụm 2.3.4 Thu t toán Phần nội dung trình bày bước thực thu t toán 2.3.5 Ứng dụng Phần trình bày ứng dụng kỹ thu t phân cụm nói chung ứng dụng thu t toán K-Means nói riêng 2.4

Ngày đăng: 22/03/2016, 03:37

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan