1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN CỨU PHÁT HIỆN GIAN LẬN TRONG VIỄN THÔNG SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU

19 738 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 281,28 KB

Nội dung

công ty hành đầu trong việc áp dụng khai thác dữ liệu để phát hiện gian lận sử dụng dịch vụ của họ.. Mục tiêu nghiên cứu: Tìm hiểu vấn đề gian lận trong viễn thông, các loại gian lận, c

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

NGUYỄN MINH THU

NGHIÊN CỨU PHÁT HIỆN GIAN LẬN

TRONG VIỄN THÔNG SỬ DỤNG KỸ THUẬT

KHAI PHÁ DỮ LIỆU

CHUYÊN NGÀNH : TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH

Mã số: 60.48.15

Người hướng dẫn khoa học: PGS.TS Trần Đình Quế

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2011

Trang 2

MỞ ĐẦU

Ngành công nghiệp viễn thông là một ngành kinh tế quan trọng của các quốc gia Trong những năm vừa qua ngành công nghiệp viễn thông nước ta đã có những bước phát triển nhanh chóng, cho đến nay, viễn thông Việt Nam đã có thể "sánh vai" với các nước phát triển trên thế giới cả về công nghệ, mật độ điện thoại, giá cước và

đã trở thành một trong những ngành phát triển nhanh và năng động

nhất [1] Cùng với sự phát triển của công nghệ và các loại hình dịch

vụ thì gian lận viễn thông cũng gia tăng đang kể mỗi năm và là nguồn chủ yếu gây thất thoát doanh thu cho ngành công nghiệp viễn thông Gian lận xuất hiện trong nhiều lĩnh vực của viễn thông, từ gian lận ở các giao dịch Internet, gian lận với các dịch vụ thoại VoIP hay gian lận trên dịch vụ thoại thông thường, rồi gian lận trong các

dịch vụ giá trị gia tăng… [6]

Theo Hiệp hội Truyền thông kiểm soát gian lận (the Communications Fraud Control Association) Khảo sát tổn thất gian lận toàn cầu năm 2009, Gian lận trên toàn thế giới được ước tính là khoảng 72 tỷ-80 tỷ hàng năm (khoảng 4,5% doanh thu viễn thông)[7] Việc phát hiện gian lận viễn thông đã là chủ đề quan tâm nghiên cứu và phát triển ứng dụng mạnh mẽ hiện nay Phát hiện gian lận được hiểu là xác định gian lận một cách nhanh nhất khi nó xảy

ra Hiện nay không có phương pháp phát hiện gian lận nào là hoàn

Trang 3

hảo bởi các kĩ thuật gian lận luôn luôn được đổi mới và khi phương pháp phát hiện gian lận được biết đến thì những kẻ gian lận sẽ sửa những chiến lược và thử một kiểu gian lận mới [4]

Thị trường viễn thông Việt nam đã và đang phát triển mạnh với nhiều nhà cung cấp, các cuộc chạy đua tranh giành thị trường và thống lĩnh thị trường của các nhà cung cấp cho ra đời nhiều chương trình khuyến mại và các gói cước khuyến mại khác nhau Doanh thu dịch vụ thoại dần dần được chia sẻ cho doanh thu của các loại hình dịch vụ giá trị gia tăng, các dịch vụ nội dung… Cũng từ đây gian lận viễn thông lại có nhiều cơ hội để thực hiện hành vi của mình, từ các kiểu gian lận truyền thống đến các kiểu gian lận lợi dụng chương trình khuyến mại để trục lợi ngày càng tinh vi hơn Phát hiện gian lận nhanh chóng và kịp thời trở thành một nhiệm vụ vô cùng quan trọng

và cấp bách của các nhà cung cấp dịch vụ viễn thông

Các phương pháp phát hiện gian lận trong các doanh nghiệp viễn thông tại Việt nam hiện nay chủ yếu dựa trên các báo cáo thống kê,

so sánh Việc phát hiện theo cách này có nhiều hạn chế, chỉ có thể theo dõi được một khía cạnh rất nhỏ của các hành vi gian lận Hơn nữa việc phát hiện thường chậm và khả năng xử lý trên diện rộng là rất khó khăn

Khai phá dữ liệu được dự đoán là "một trong những phát triển mang tính cách mạng nhất trong những thập kỷ tới", theo tạp chí công nghệ trực tuyến ZDNet News (ngày 08 tháng hai 2001) Khai phá dữ liệu có thể được ứng dụng trong nhiều ngành công nghiệp Các công ty viễn thông và các công ty thẻ tín dụng là hai trong số các

Trang 4

công ty hành đầu trong việc áp dụng khai thác dữ liệu để phát hiện gian lận sử dụng dịch vụ của họ Các công ty bảo hiểm và thị trường chứng khoán cũng quan tâm trong việc áp dụng công nghệ này để giảm gian lận [8]

Từ những lý do và xu hướng công nghệ trên Luận văn chọn đề tài

“Nghiên cứu phát hiện gian lận trong viễn thông dựa trên kỹ thuật khai phá dữ liệu”

Mục tiêu nghiên cứu:

Tìm hiểu vấn đề gian lận trong viễn thông, các loại gian lận, các phương pháp phát hiện gian lận và đi sâu vào nghiên cứu phương pháp sử dụng kĩ thuật khai phá dữ liệu để phát hiện các hành vi gian lận một cách tự động dựa trên dấu hiệu bất thường so với dữ liệu quá khứ

Đối tượng và phạm vi nghiên cứu của đề tài

 Các loại gian lận và một số phương pháp phát hiện gian lận

 Kĩ thuật Khai phá dữ liệu

 Nghiên cứu bài toán cụ thể với dịch vụ thoại di động và kĩ thuật khai phá dữ liệu trên thông tin chi tiết cuộc gọi sử dụng thuật toán K-Means để phát hiện hành vi gian lận

Phương pháp nghiên cứu

 Nghiên cứu thực tiễn công tác phòng chống kinh doanh gian lận trên mạng thông tin di động MobiFone

 Nghiên cứu các tài liệu, bài báo trong và ngoài nước có liên quan đến sử dụng kĩ thuật khai phá dữ liệu để phát hiện gian lận trong mạng viễn thông

 Sau đó tiến hành cài đặt và thử nghiệm

Trang 5

Bố cục của đề tài: Căn cứ mục tiêu và yêu cầu nghiên cứu, đề tài được xây dựng gồm các phần sau:

Phần mở đầu: Giới thiệu chung về đề tài

Chương 1: Tổng quan về gian lận viễn thông và phòng chống gian lận viễn thông

Chương 2: Kiến thức về khai phá dữ liệu

Chương 3: Bài toán

Kết luận

Hướng nghiên cứu tiếp theo

Tài liệu tham khảo

Trang 6

Chương 1

TỔNG QUAN VỀ GIAN LẬN VIỄN THÔNG VÀ PHÒNG CHỐNG GIAN LẬN TRONG MẠNG VIỄN THÔNG

Chương 1 giới thiệu chung về gian lận viễn thông, và phòng chống gian lận trong mạng viễn thông Trong chương này cũng sẽ giới thiệu chi tiết một số loại gian lận viễn thông phổ biến nhất, phân loại các phương pháp phòng chống giân lận, cũng như tình hình gian lận viễn thông và phòng chống gian lận viễn thông trên thế giới và Việt Nam hiện nay

1.1 GIAN LẬN VIỄN THÔNG

1.1.1 Định nghĩa gian lận viễn thông

Phần này giới thiệu những định nghĩa khác nhau về gian lận viễn thông và phân biệt khái niệm gian lận viễn thông với khái niệm

nợ khó đòi (bad debt)

Gian lận viễn thông là hành vi ăn trộm dịch vụ viễn thông hoặc sử dụng các dịch vụ viễn thông để tạo thành các hình thức gian lận khác [10]

Một cách tổng quát nhất gian lận có thể được định nghĩa là:

“Bất kỳ hành vi nào sử dụng mạng của nhà cung cấp dịch vụ mà không có ý định thanh toán” Không có ý định thanh toán ở đây có thể là không thanh toán hoàn toàn, hoặc có thanh toán nhưng thanh toán không đúng chi phí cần phải trả hay là một ai đó khác sẽ phải thanh toán cho phần chi phí phát sinh [9]

Sự khác biệt giữa nợ khó đòi và gian lận có thể được định nghĩa là: "Gian lận và nợ khó đòi đều là những người sử dụng mạng

Trang 7

không thực hiện thanh toán cho dịch vụ sử dụng Gian lận luôn bao gồm một sự dối trá, và không có ý định trả tiền có liên quan Nợ khó đòi chỉ đơn giản là những người bình thường không có tiền để chi trả cho các dịch vụ sử dụng "[8]

1.1.2 Lịch sử gian lận viễn thông

Giới thiệu lịch sử gian lận viễn thông và các hình thức gian lân qua từng giai đoạn phát triển của mạng viễn thông

Gian lận viễn thông xuất hiện từ cuối năm 1980 Từ những hình thức gian lận thay đổi định dang “Tumbling” trong các mạng tương

tự, đến các hình thức gian lận sao chép thuê bao trong GSM Và khi loại hình dịch vụ, công nghệ phát triển mạng phát triển thì các hình thức và loại gian lận ngày càng gia tăng Hiện nay 3G là thị trường mới cho các kẻ gian lận hướng tới Các loai hình gian lận ngày càng phong phú, đa đạng, các phương pháp phát hiện gian lận cũng phải đổi mới và chi phí cho phòng chống và phát hiện gian lận ngày càng tốn kém

1.1.3 Các loại gian lận viễn thông

Phần này giới thiệu các loại gian lận viễn thông phổ biến:

 Gian lận thuê bao (Subscription Fraud)

 Gian lận sao chép cuộc gọi

 Gian lận dịch vụ giá cao

 Gian lận sử dụng mạng khách

 Gian lận với dịch vụ trả trước

 Gian lận với thuê bao cố định

1.1.4 Tình hình gian lận viễn thông

Phần này mô tả tình hình gian lận viễn thông trên thế giới và tại Việt Nam

Trang 8

Theo báo cáo của CFCA (Communications Fraud Control Association) trong tóm tắt thất thoát Gian lận toàn thế giới năm

2009 thì mỗi năm gian lận toàn thế giới gây thất thoát khoảng 72 đến

80 tỷ đô la Mỹ, xấp xỉ bằng 4.5% doanh thu viễn thông Ba loại gian lận gây thất thoát lớn nhất:

 Gian lận thuê bao/Ăn trộm định danh: 22 tỷ $

 Các hệ thống Voice Mail/PBX: 15 tỷ $

 Gian lận các dịch vụ giá cao: 4.5 tỷ $

Trong báo cáo cũng đưa ra thông tin 5 quốc gia có tình hình gian lận nghiêm trọng nhất: Cuba, Philippines, Liechtenstein, India, United Kingdom

1.2 PHÒNG CHỐNG VÀ PHÁT HIỆN GIAN LẬN TRONG MẠNG VIỄN THÔNG

1.2.1 Định nghĩa

Phòng chống gian lận là các biện pháp tránh gian lận xuất hiện ngay từ đầu Ngược lại phát hiện gian lận là xác định gian lận nhanh nhất có thể khi gian lận đã xảy ra

1.2.2 Tình hình phòng chống và phát hiện gian lận viễn thông

Nội dung này trình bày tình hình phòng chống và phát hiện gian lận viễn thông trên thế giới nói chung và tại Việt Nam nói riêng Hiện nay công tác phòng chống, phát hiện gian lận đã được các quốc gia trên thế giới đầu tư nghiên cứu mạnh mẽ nhiều nước đã đưa

ra cả chiến lược cho việc phòng chống, phát hiện gian lận Tuy nhiên phần lớn vẫn là tập trung cho việc Phát hiện gian lận trong mạng di động điển hình là dự án tại Châu Âu ASPeCT (Advance Security for Personal Communications Technologies) (Shawe-Taylor, Howker & Burge, 1999; Shawe-Taylor et al., 2000; Burge & Shawe-Taylor,

Trang 9

2001) Công cụ phát hiện gian lận ASPeCT sử dụng hệ thống dựa trên các luật (rule) để xác định một số loại gian lận và mạng nơron để giải quyết những ngữ cảnh hay thể hiện bất thường

Tại Việt nam công tác phòng chống và phát hiện gian lận đã được lưu tâm tuy nhiên chưa nhiều Một số nhà mạng nhỏ như EVNTelecom,Sfone hầu như không có việc kiểm soát gian lận Với những nhà mạng lớn như VMS, Viettel thì công tác này chỉ dừng lại

ở mức báo cáo thống kê so sánh hay dựa trên những dấu hiệu sử

dụng bất thường để phát hiện gian lận

1.2.3 Phương pháp phát hiện gian lận

Nội dung này đề cập đến một số kỹ thuật sử dụng trong phát hiện gian lận như: mô hình thống kê, học máy, khai phá dữ liệu Phân biệt hai phương pháp phát hiện gian lận có giám sát và không

có giám sát

Các phương pháp có giám sát là những phương pháp mà các mẫu của cả hành vi gian lận và bình thường được sử dụng để xây dựng các mô hình cho phép hệ thống có thể gán những quan sát mới tới một trong hai lớp đó

Các phương pháp không giám sát chỉ đơn giản là tìm kiếm những những quan sát mà không giống so với chuẩn

1.3 Kết luận chương

Chương mở đầu đã giới thiệu những kiến thức cơ bản nhất về gian lận viễn thông, các loại gian lận viễn thông, các phương pháp phòng chống gian lận và tình hình phòng chống gian lận viễn thông trên thế giới và Việt nam hiện nay Cùng với sự gia tăng của các loại hình dịch vụ thì gian lận cũng ngày càng gia tăng Phát hiện gian lận

và phòng chống gian lận trở thành nhiệm vụ hàng đầu của các nhà cung cấp dịch vụ viễn thông Trong các chương tiếp theo ta sẽ đi tìm

Trang 10

hiểu chung về kĩ thuật khai phá dữ liệu và đi sâu tìm hiểu kĩ thuật phân cụm cho phát hiện gian lận trong viễn thông

Chương 2

KIẾN THỨC VỀ KHAI PHÁ DỮ LIỆU

Chương này sẽ giới thiệu tổng quan về kĩ thuật khai phá dữ liệu , các phương pháp tiếp cận, qui trình khai phá dữ liệu và đi sâu tìm hiểu kỹ thuật phân cụm dữ liệu; phân cụm dữ liệu sử dụng thuật toán K_Means

2.1 KIẾN THỨC CHUNG VỀ KHAI PHÁ DỮ LIỆU

2.1.1 Giới thiệu chung

Giới thiệu về vai trò, xu hướng phát triển, ứng dụng của khai phá dữ liệu Khai thác dữ liệu được dự đoán là "một trong những phát triển mang tính cách mạng nhất của thập kỷ tiếp theo "

2.1.2 Định nghĩa khai phá dữ liệu

Nội dung này trình bày định nghĩa về khai phá dữ liệu Khai phá dữ liệu là quá trình tìm kiếm những thông tin (tri thức) có ích, tiềm ẩn và mang tính dự đoán trong các khối cơ sở dữ liệu lớn

2.1.3 Quá trình khai phá dữ liệu

Phần này trình bày các bước của quá trình khai phá dữ liệu chuẩn: Xác định nhiệm vụ, xác định dữ liệu liên quan, thu thâp dữ liệu, mô hình hóa và Đánh giá

2.1.4 Các hướng tiếp cận và kỹ thuật áp dụng

Mô tả các hướng tiếp cận trong khai phá dữ liệu: phân lớp, phân cụm, khai phá các luật…

Trang 11

2.1.5 Phương pháp khai phá dữ liệu

Giới thiệu chung về các phương pháp khai phá dữ liệu: Phân nhóm, phân cụm, luật kết hợp, mạng nơron, cây quyết định, giải thuật di truyền…

2.1.6 Lựa chọn giải thuật khai phá

Trình bày tiêu chuẩn nào trong việc quyết định sử dụng phương pháp khai phá dữ liệu nào vào trong trường hợp nào thì hiệu quả

2.2 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU

2.2.1 Khái niệm về phân cụm dữ liệu

Trình bày định nghĩa về phân cụm dữ liệu Phân cụm dữ liệu

là quá trình nhóm một tập các đối tượng tương tự nhau trong tập

dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng, còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng [11]

2.2.2 Các kĩ thuật tiếp cận trong phân cụm dữ liệu

Phần này trình bày kiến thức chung nhất về các kỹ thuật trong phân cụm dữ liệu:

 Phân cụm phân cấp (Hierarchical clustering algorithm )

 Phân cụm phân hoạch (Partition clustering algorithm )

 Phân cụm dựa trên quang phổ (Spectral clustering algorithm)

 Phân cụm dựa trên lưới (Grid based clustering algorithm )

 Phân loại dựa trên mật độ (Density based clustering algorithm)

2.3 THUẬT TOÁN K_MEANS CHO PHÂN CỤM DỮ LIỆU

Phần này giới thiệu và mô tả thuật toán K-Means và các ứng dụng của thuật toán K_Means

Trang 12

2.3.1 Giới thiệu chung

Phần này giới thiệu chung về thuật toán, phát biểu thuật toán

2.3.2 Khoảng cách Euclidean

Nội dung trình bày khái niệm khoảng cách Euclidean, các tính khoảng cách Euclidean từ các điểm đến các phần tử trung tâm của các cụm

2.3.3 Phần tử trung tâm

Phần này giới thiệu về cách tính phần tử trung tâm của mỗi cụm

2.3.4 Thuật toán

Phần nội dung này trình bày các bước thực hiện của thuật toán

2.3.5 Ứng dụng

Phần này trình bày ứng dụng của kỹ thuật phân cụm nói chung

và ứng dụng của thuật toán K-Means nói riêng

2.4 Kết luận chương

Chương 2 đã giới thiệu những kiến thức cơ bản nhất về khai phá dữ liệu và đi sâu tìm hiểu về kĩ thuật phân cụm, thuật toán Means trong phân cụm dữ liệu Dưới đây sẽ tìm hiểu ứng dụng K-Means để phát hiện gian lận trong viễn thông

Trang 13

Chương 3

BÀI TOÁN

Chương 3 sẽ giới thiệu về bài toán, phạm vi yêu cầu và cài đặt thuật toán KMeams cho bài toán Chương cũng giới thiệu cách phân tích kết quả phân cụm để kiểm tra dấu hiệu gian lận của thuê bao

3.1 GIỚI THIỆU

3.1.1 Lý do chọn và phạm vi bài toán

Phần này trình bày lý do chọn và phạm vi bài toán xét trong luận văn Trong luận văn này xét phạm vi bài toán dịch vụ giá cao và các dịch vụ giá trị gia tăng

Các dịch vụ giá cao trong mạng viễn thông chúng ta thường quan tâm như:

 Dịch vụ 1900

 Dịch vụ 108

 Dịch vụ Nội dung (CP)

Xem xét các trường trong cơ sở dữ liệu gồm có những thông tin như:

 Số cuộc 1900

 Số tiền tiêu dùng dịch vụ 1900

 Số cuộc SMS thường

 Số tiền tiêu dùng dịch vụ SMS thường

 Số tin sử dụng dịch vụ của CP

 Số tiền sử dụng dịch vụ của CP

 Số cuộc 108

Ngày đăng: 22/03/2016, 03:37

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[3] Gary M. Weiss (2004), Data mining in Telecommunications [4] Constantinos S. Hilas, John N. Sahalo (2009), UserProfiling for Fraud Detection in Telecommunication Networks Sách, tạp chí
Tiêu đề: Data mining in Telecommunications " [4] Constantinos S. Hilas, John N. Sahalo (2009)," User
Tác giả: Gary M. Weiss (2004), Data mining in Telecommunications [4] Constantinos S. Hilas, John N. Sahalo
Năm: 2009
[21] R. J. Bolton and D. J Hand, “Statistical fraud detection: a review,” Statistical Science, vol.17, no.3, pp. 235–255, 2002 Sách, tạp chí
Tiêu đề: Statistical fraud detection: a review,” "Statistical Science
[2] P Burge, J Shawe-Taylor, C Cooke, Y Moreau, B Preneel, C Stoermann (2002), Fraud Detection and management in mobile telecommunications networks Khác
[5] Clifton Phua, Vincent Lee, Kate Smith& Ross GayLer (2010) , A Comprehensive Survey of Data Mining-based Fraud Detection Research Khác
[7] CFCA (2009), Global Fraud Loss survey 2009 Khác
[8] Bülent Kuşaksızoğlu (2006), Fraud detection in mobile network using data mining Khác
[12] K. Ravichandra Rao (2003), Data mining and clustering techniques Khác
[17] Francis R.bach & Michaeld I.Jordan (2003), Leaning Spectral Clustering Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w