1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu và xây dựng phương pháp phát hiện gian lận thẻ sử dụng các kỹ thuật khai phá dữ liệu

83 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu và xây dựng phương pháp phát hiện gian lận thẻ sử dụng các kỹ thuật khai phá dữ liệu
Tác giả Đặng Thị Mỹ Hạnh
Người hướng dẫn TS. Ngô Thanh Hùng
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ cao học
Năm xuất bản 2016
Thành phố Hồ Chí Minh
Định dạng
Số trang 83
Dung lượng 44,99 MB

Nội dung

Bên cạnh đó còn có tồn tại các phương thức lừa đảo như: làm giả thẻ, cấu kếtvới các đơn vị chấp nhận thẻ dé thanh toán khống; sử dụng thông tin thé trộm cắp.được dé thanh toán hàng hóa,

Trang 1

_ ĐẠI HỌC Quoc GIA TP HCM

TRUONG DAI HOC CONG NGHE THONG TIN

TDK CR

Dang Thi My Hanh

NGHIEN CUU VA XAY DUNG PHUONG PHAP PHAT HIEN GIAN LAN THE SU DUNG

CAC KY THUAT KHAI PHA DU LIEU

LUẬN VAN THẠC SĨ CAO HỌCNGÀNH KHOA HỌC MÁY TÍNH

Mã số: 60.48.01.01

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS Ngô Thanh Hùng

TP HO CHÍ MINH - NĂM 2016

Trang 2

LỜI CẢM ƠN

Trong quá trình học tập và làm luận văn tốt nghiệp cao học, được sự giúp

đỡ của quý thay, cô giáo trường Đại học Công nghệ thông tin, đặc biệt là thay

TS Ngô Thanh Hùng, sự góp ý của các nhà khoa học, các nhà quản lý, bạn

bẻ, đồng nghiệp và cùng sự nỗ lực của bản thân Đến nay, tác giả đã hoàn

thành luận văn thạc sĩ với đê tài luận văn: “Nghién cứu và xây dựng phương pháp phát hiện gian lận thẻ sử dụng các kỹ thuật khai phá dữ liệu” chuyên ngành Khoa học máy tính.

Các kết quả đạt được là những đóng góp nhỏ về mặt khoa học cũng nhưthực tiễn trong việc phòng chống gian lận thẻ tín dụng Tuy nhiên, trongkhuôn khổ luận văn, do điều kiện thời gian và trình độ có hạn nên không thétránh khỏi những thiếu sót Tác giả rất mong nhận được những lời chỉ bảo vàgóp ý của quý thầy, cô giáo

Tác giả bày tỏ lòng biết ơn sâu sắc tới thay TS Ngô Thanh Hùng đãhướng dẫn, chỉ bảo tận tình và cung cấp các kiến thức khoa học cần thiết trongquá trình thực hiện luận văn Xin chân thành cảm ơn quý thầy, cô giáo thuộcKhoa Khoa học máy tính, phòng Đào tạo Sau Đại học trường Đại học Côngnghệ thông tin đã tạo mọi điều kiện thuận lợi cho tác giả hoàn thành tốt luậnvăn thạc sĩ của mình.

Tac giả chân thành cảm ơn các cán bộ công tác tại Cục C50 - Cục Phongchống tội phạm sử dụng công nghệ cao Bộ Công an cùng các cán bộ công táctại trường ĐHCSND, đã tạo điều kiện cung cấp các tài liệu liên quan và giúp

đỡ tác giả hoàn thành luận văn.

Hồ Chí Minh, ngày 26 tháng 10 năm 2016

Học viên

Đặng Thị Mỹ Hạnh

0

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai

công bố trong bắt kỳ công trình nào khác

Học viên

Đặng Thị Mỹ Hạnh

Trang 4

Chương 1 TÔNG QUAN VỀ GIAN LẬN VÀ BIỆN PHÁP PHÒNG

CHÓNG GIAN LẬN TRONG CÁC GIAO DỊCH THẺ

1.1 Tìm hiểu các hình thức gian lận thẻ

1.1.1 Khái niệm thẻ thanh toán

1.1.2 Phân loại thẻ thanh toán

1.1.3 Ưu điểm khi sử dụng thẻ thanh toán

1.1.4 Các hình thức gian lận thẻ

1.2 Các phương pháp phòng chồng gian lận thẻ

1.2.1 Một số biện pháp nghiệp vi

1.2.2 Tổng quan các nghiên cứu phát hiện gian lận

1.2.3 Một số vấn đề trong nghiên cứu phát hiện gian lận thẻ

Chương 2 CÁC PHƯƠNG PHÁP PHÁT HIỆN GIAN LẬN THẺ

2.1 Cây quyết định - Decision Tree

2.2 Random Forest

2.3 Mang Bayes

2.4 Ky thuat phat hién di thuong - Anomaly Detection enChuong 3 XAY DUNG PHUONG PHAP PHAT HIEN GIAN LAN THE3.1 Phat biểu bai toán

3.2 Giải pháp sử dụng hệ chuyên gia

3.3 Giải pháp sử dụng kỹ thuật khai phá dữ liệu

Trang 5

Chương 4 XÂY DỰNG HỆ THÓNG PHÁT HIỆN GIAN LẬN

4.1 Thiết kế mô hình dữ liệu hướng đồ thị cho dữ liệu giao dịch trực tuyến 584.2 Thiết kế mô hình biéu diễn luật nghỉ vấn

4.3 Độ tin cậy của giao dịch

4.4 Xây dựng luật nghỉ vấn phát hiệ

4.5 Xây dựng hệ thống phát hiện gian lận thẻ

KET LUẬN VÀ KIÊN NGHỊ

TÀI LIỆU THAM KHẢO

PHỤ LỤC

Trang 6

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TÁT

TTKDTM: Thanh toán không dùng tiền mặt

DVCNT: Đơn vị chấp nhận thẻ

NHNN: Ngân hàng nhà nước

ATM: Automatic Seller Machine - Máy bán hàng tự động

POS: Point Of Sale - Điểm bán hàng

PIN: Personal Identification Number - Số ¡nh danh cá nhân

OTP: One Transaction Password - Mật khẩu giao dịch một lần

CNP: Card Not Present - Giao dịch không cần thẻ

BIN: Bank Identification Number - Số định danh ngân hàng

EDC: Electronic Data Capture

SVM: Support Vector Machine - Máy học hỗ trợ vecto

TT: Information Technology - Công nghệ thông tin

RE: Random Forest - Rừng ngẫu nhiên

OOB: Out of bag

Trang 7

DANH MỤC CÁC BẢNG

Số hiệu bang Tên bảng Trang

21 Một sô thuật toán sử dụng trong Datamining 32 2.2 Bộ dit liệu huân luyện cho bài toán “Chơi tennis” 4I 3.1 Vi dụ về việc tính toán trường tông hợp 50

3.2 Vi dụ vê việc tính toán trường có định ky 51

31 Các nghiên cứu vé các kỹ thuật khác nhau trong gian lận 65

the tin dung

Trang 8

DANH MỤC CÁC HÌNH VE, DO THỊ

S6 hiệu hình Tên hình Trang

21 Mã giả của thuật toán C4.5 34

22 Minh họa về rừng ngẫu nhiên 38

23 'Ví dụ vê mau dị thường 44

24 ‘Vi dụ về mau dữ liệu nguôn của kỹ thuật phát hiện dị thường 44

25 Vi dụ vê bản chat dữ liệu nguôn 45 2.6 Vi dụ vé dị thường theo hoàn cảnh 46

27 Vi dụ về day dị thường 46

28 Ma trận lớp dự đoán va lớp thực tê 47 2o Mô hình phát hiện xâm nhập mạng sử dụng kỹ thuật phát hiện m

dị thường 3.1 “Thuật toán xây dựng 3 trường mới cho tập dữ liệu giao dịch 54

32 TIÊN xử lý dữ liệu trong Weka: loại bỏ các trường không cân 55

thiet

33 Tiên xử ly dữ liệu trong Weka: thay đôi kiêu dữ liệu từ 56

Numeric sang Nomial 3.4 Kết quả sau khi tiên hành tiên xử lý dữ liệu trong Weka 56

41 Lich sử giao dịch trực tuyến của tập mau dữ liệu 58

42 Mô hình giao dịch trực tuyên dựa vào cơ sở dữ liệu đô thị 60

43 Mã giả của độ tin cậy đôi với một giao dịch 64

44 Mã gia đôi với các luật kiêm thử 65

45 Sơ đô thiệt kê hệ thông 65

46 Hệ quản trị cơ sở dữ liệu Neo4j 66

47 Danh sách thẻ tín dụng trong hệ thông 66

48 Lich sử giao dich va trạng thái gian lận của các giao dịch đôi 67

với từng thẻ tín dụng

49 Kiém tra giao dich 67

Trang 9

MỞ DAU

Với những tác động mạnh mẽ của sự tiến bộ khoa học công nghệ, đặc biệt làlĩnh vực Internet và World Wide Web, nhiều năm gần đây tốc độ phát triển củaMarketing Online, E-commerce và phương thức thanh toán trực tuyến đã trở nên vôcùng phổ biến và ngày càng gia tăng Theo cùng những tiện ích mang lại từ thẻ thìthời gian gần đây tội phạm về thẻ cũng có chiều hướng gia tăng, dẫn đến việc matmát hàng tỷ đô mỗi năm trên toàn cầu, đồng thời ảnh hưởng đến uy tín và thươnghiệu của các tổ chức kinh doanh lẫn ngân hàng Trong số các hành vi gian lận tàichính trên Internet, gian lận thẻ tín dụng là hành vi tồn tại từ lâu đời, phổ biến, nguyhiểm nhất do mức độ sử dụng rộng rãi và tính tiện lợi của nó cung cấp cho kháchhàng Các rủi ro trong hoạt động thẻ ngày càng đa dạng và phức tạp như lấy cắpthông tin làm thẻ giả, bay thẻ, bay tiền, đảo ngược giao dịch

Với việc các giao dịch gian lận ngày càng xuất hiện nhiều hơn và tỉnh vi hơn,giả mạo giống với những giao dịch hợp pháp hơn, các mô hình và kỹ thuật kiểm trađơn giản hiện tại chưa đủ hiệu quả và thông minh đê phát hiện các giao dịch bat

thường Vì vậy, việc xây dựng các hệ thông cảnh báo rủi ro tinh vi hơn để đảm bao

các giao dịch thẻ được thực hiện một cách an toàn là cần thiết Do đó an ninh thẻhiện nay đang là thách thức với các ngân hàng và tô chức kinh doanh dịch vụ thanhtoán thẻ, đây là van dé thực tiễn thu hút sự quan tâm của nhiều nhà nghiên cứu và

các công ty bảo mật Bên cạnh đó, việc xây dựng hệ thống phát hiện gian lận sẽ góp

phần hạn chế tình hình gia tăng tội phạm sử dụng công nghệ cao hiện nay, đặc biệt

là tội phạm trong lĩnh vực thanh toán thẻ.

Theo báo cáo của Cục Cảnh sát phòng, chống tội phạm sử dụng công nghệ cao(C50) - Bộ Công an về tình hình, phương thức thủ đoạn hoạt động của tội phạmtrong lĩnh vực thanh toán thẻ hiện nay nỗi lên một số vấn dé lớn như:

Trong những tháng cuối năm 2014 và đầu năm 2015, loại tội phạm sử dụngthiết bị skimming nhỏ, mỏng gắn vào phía trong của khe cắm thẻ hoặc làm giả thiết

bị anti - skimming rồi lắp bên ngoài thiết bị anti - skimming của cây ATM có những

biểu hiện hoạt động mạnh trở lại tại các thành phố, khu du lịch từ miền trung trở

vào như Huế, Hội An, Nha Trang, Đà Lạt, Bình Thuận, Ninh Thuận, TP Hồ ChíMinh Các đối tượng phạm tội này thường có quốc tịch các nước Đông Âu như

Trang 10

Bungari, Rumani, Nga

Thời gian qua C50 đã điều tra xác minh, làm rõ nhiều vụ các đối tượng lợi

dung sơ hở của người dùng dé lấy cắp thông tin thẻ, như: đối tượng Tran Văn Tuấn,

sinh năm 1989, quê Quảng Nam là nhân viên siêu thị Big C Đà Nẵng đã sử dụng

điện thoại lưu các thông tin trên hai mặt thẻ thanh toán của khách hàng Sau đó đôi

tượng này sử dụng thông tin có được đặt mua hàng trực tuyến tại một siêu thị điệnmáy trị giá hàng chục triệu đồng, yêu cầu chuyên hàng tới một địa chỉ bất kỳ đã

được đối tượng chọn từ trước và sử dụng tên giả dé nhận hang Đối tượng Nguyễn

Minh Khoa, sinh năm 1993, thường trú quận 1, Tp Hồ Chí Minh là nhân viên phục

vụ nhà hàng Thiên Phúc (đường Lý Tự Trọng, Q.1, Tp HCM), đã lợi dụng việc

máy POS - Point of Sale được bố trí ở xa vị trí của khách hàng sử dụng dịch vụ, đểchụp lại hai mặt trước và sau các thẻ tín dụng của khách Sau đó dùng các thông tinthẻ trộm cắp này dé nạp tiền vào tài khoản game và bán lại các tài khoản game này

để lấy tiền tiêu xài

Ngoài ra, trong tình hình hiện nay, công tác bảo mật tại các doanh nghiệp hoạt

động trong lĩnh vực thương mại điện tử, thanh toán trực tuyến còn phụ thuộc vàonăng lực tài chính cũng như trình độ của người làm công tác bảo mật nên vẫn tồn tạinhiều vấn đề mà tội phạm có thể lợi dụng để hoạt động với thủ đoạn như: kháchhàng khi dùng thẻ tín dụng mua hàng qua mạng sẽ phải điền thông tin thẻ của mìnhvào mục thanh toán đơn hàng Sau đó, thông tin thẻ tín dụng sẽ được lưu vào hệthống cơ sở dữ liệu của website Các đối tượng hacker sẽ tim lỗ hỗng của cácwebsite bán hàng trực tuyến có bảo mật yếu và tiến hành tan công đề đánh cắp co

sở dir liệu, trong đó bao gồm cả thông tin thé của khách hàng

Từ tháng 11/2014 đến 04/2015 cơ quan công an đã phát hiện bắt giữ nhiều vụ

sử dụng thẻ giả để rút tiền, trong đó nổi bật là vụ: ngày 15/11/2014, C50 phối hợp

Công an TP HCM, nhân viên bảo vệ siêu thị điện máy Nguyễn Kim và Ngân hàng

HSBC bắt quả tang đối tượng Ivan Slavov Rusev (37 tuổi, quốc tịch Bulgaria) dang

sử dụng thẻ giả rút tiền, trên người đối tượng này có 30 triệu đồng và 17 thẻ ATM

khác nhau Ngày 16/02/2015, bắt quả tang 02 đối tượng người Thỏ Nhĩ Ky là Cicek

Hakan va Igdi Emrah đang sử dụng thẻ giả dé rút tiền, khám xét trên người và nơi ở

của các đối tượng thu được rất nhiều thẻ ATM giả Ngày 16/08/2014, C50 phối hop

Trang 11

với ngân hàng BIDV, nhân viên siêu thị điện máy (dienmay.com) để bắt một nhóm

đối tượng dùng thẻ giả để mua hàng Nhóm đối tượng gồm: Cao Trí Hiền, NguyễnMinh Hiếu, Nguyễn Khôi Nguyên, Vũ Hoàng Ánh, Thái Y Đạt; nhóm này đã góptiền mua thiết bị đọc, in thẻ MSR606, mua các thông tin thẻ với giá 6.75USD/Ithông tin thẻ Sau đó làm giả dé thanh toán tiền taxi, mua thẻ game, thẻ điện thoạitại các đơn vị chấp nhận thẻ (như siêu thị điện máy), thanh toán tiền khách sạn,

thanh toán tiền ăn uống, cafe, xem phim, rút tiền tại các điểm chấp nhận thẻ, Ngoài

ra, các đối tượng còn móc nồi với các lái xe taxi Vinasun quẹt khống và lấy tiền sau

đó ăn chia với lái xe Theo kết quả điều tra, số tiền ma các đối tượng này chiếm đoạt

đã lên đến hàng trăm triệu đồng

Bên cạnh đó còn có tồn tại các phương thức lừa đảo như: làm giả thẻ, cấu kếtvới các đơn vị chấp nhận thẻ dé thanh toán khống; sử dụng thông tin thé trộm cắp.được dé thanh toán hàng hóa, dịch vụ trực tuyến hoặc nạp tiền vào tài khoản game;mua bán, làm giả giấy tờ tùy thân đề mở tài khoản; thuê người mở thẻ, mua bán thẻ

giả chọn đề tài “Nghiên cứu và xây dựng phương pháp phát hiện gian lận thẻ sử:

dụng các kỹ thuật khai phá dit liệu '' làm đề tài luận văn thạc sĩ

Trước hiện trạng gian lận thẻ đang ngày một tỉnh vi, khó đề phòng hơn và với

tần số xuất hiện ngày càng tăng, với việc phát triển thương mại điện tử và thanhtoán trực tuyến ngày càng trở nên phô biến hơn thì việc phát triển các kỹ thuật ngăn

chặn, các hệ thống phát hiện gian lận là một yêu cầu cấp thiết Đề tài sẽ nghiên cứu

và xây dựng phương pháp phát hiện gian lận thẻ nhằm áp dụng cho các ngân hàng

Trang 12

cũng như các điểm bán hàng chấp nhận thanh toán thẻ (đơn vị chấp nhận thẻ) ở Việt

Nam Đề tài có ý nghĩa thực tiễn lớn, góp phần giảm thiểu các rủi ro do gian lận thẻ

mang lại cho người sử dụng, các đơn vị chấp nhận thẻ và các ngân hàng, góp phần

hạn chế sự gia tăng tội phạm trong lĩnh vực này Thông qua đó giúp tăng độ tin cậycủa người dân vào các hình thức thanh toán điện tử, từ đó thúc đây thói quen thanhtoán điện tử, giúp nền kinh tế phát trién nhanh chóng

Về mặt khoa học, dé tài góp phần quan trọng trong việc nghiên cứu cácphương pháp phát hiện gian lận thẻ đã được đề xuất trong và ngoài nước, đồng thời

đề xuất thử nghiệm một phương pháp theo hướng tích hợp một số kỹ thuật khai phá

dữ liệu Đây là một đóng góp đáng ké trong lĩnh vực nghiên cứu này ở Việt Nam.Việc nghiên cứu sử dụng các phương pháp khai phá đữ liệu mới như RandomForest, và áp dụng các kỹ thuật phân tán đề có thể làm việc trên lượng dữ liệu lớn,cùng với việc nghiên cứu để xây dựng giải thuật phù hợp với các quy định của luậtpháp Việt Nam sẽ đem lại tính mới cho đề tài

Đề tài sẽ tập trung tìm hiểu các hình thức gian lận thẻ, các đặc điểm của mỗihình thức cũng như các biện pháp nghiệp vụ phát hiện gian lận của các ngân hàng,của các tô chức tài chính, các đơn vị chấp nhận thẻ, các quy định của Việt Nam cóliên quan; nghiên cứu các kỹ thuật phát hiện gian lận thẻ, nhằm nắm bắt được các

ưu, nhược điểm của các kỹ thuật Đề đạt được mục tiêu là nghiên cứu và xây dựngphương pháp phát hiện gian lận thẻ sử dụng các kỹ thuật khai phá dữ liệu, đề xuấtphương pháp phát hiện gian lận thẻ bằng cách tích hợp một số kỹ thuật khai phá dữliệu Đề tài chỉ tập trung vào gian lận thẻ tín dụng hoặc thẻ ghi nợ trong các giaodịch và thanh toán trực tuyến dùng thông tin của thẻ

Đề tài nghiên cứu sẽ được chia làm 04 chương:

Chương 1 Tổng quan về gian lận và biện pháp phòng chống gian lận trong

các giao dịch thẻ

Chương 2 Các phương pháp phát hiện gian lận thẻ

Chương 3 Xây dựng phương pháp phát hiện gian lận thẻ

Chương 4 Thiết kế hệ thông phát hiện gian lận thẻ

10

Trang 13

Chương 1 TONG QUAN VE GIAN LAN VÀBIỆN PHÁP PHÒNG CHÓNG GIAN LẬN TRONG CÁC GIAO DỊCH THẺ

1.1 TÌM HIẾU CÁC HÌNH THỨC GIAN LAN THẺ

1.1.1 Khái niệm thẻ thanh toán

Việc sử dụng tiền mặt dé thanh toán dang trở thành van dé cản trở sự pháttriển của thương mại điện tử nói riêng và của cả nền kinh tế nói chung Về phíaquản lý nhà nước, thanh toán bằng tiền mặt có những bat lợi như: tăng chi phí xã

hội cho các hoạt động thanh toán (in, vận chuyền, bảo quản, kiểm đếm, ); khó

kiêm soát, phát hiện được tham nhũng; rửa tiền, trốn thuế, vấn nạn tiền giả Vì vậy

các chính phủ đã khuyến khích và dần luật hóa việc TTKDTM Các hình thức thanh

toán không dùng tiền mặt như thanh toán trực tuyến, thanh toán chuyển khoản,thanh toán quẹt thẻ, thanh toán bằng ví điện tử, là hình thức thanh toán tríchchuyền vốn trên tài khoản từ tài khoản của người phải trả sang tài khoản của ngườithụ hưởng, hoặc bằng cách bù trừ lẫn nhau thông qua vai trò trung gian của ngânhàng và các tô chức tài chính khác Không chỉ có vai trò đối với các cơ quan quản

lý nền kinh tế, TTKDTM còn có vai trò to lớn đối với người tiêu dùng vì tạo điềukiện cho quá trình thanh toán được tiến hành nhanh chóng, không phụ thuộc vàothời gian, khoảng cách địa lý, từ đó góp phần thúc đây và lưu thông hàng hóa [7]

Ngày 22/11/2012, nhà nước Việt Nam đã ra nghị định số 101/2012/NĐ-CP về

việc TTKDTM nhằm quy định về hoạt động này, bao gồm: mở và sử dụng tàikhoản thanh toán; dịch vụ thanh toán không dùng tiền mặt; dịch vụ trung gian thanhtoán; tổ chức, quản lý và giám sát các hệ thống thanh toán Sau đó, ngân hàng Nhànước Việt Nam đã ban hành Thông tư số 46/2014/TT - NHNN, ngày 31/12/2014 về

việc hướng dẫn về dịch vụ thanh toán không dùng tiền mặt

TTKDTM còn có thé được hiểu là cách thức thanh toán trong đó không có sự

xuất hiện của tiền mặt mà việc thanh toán được thực hiện bằng cách trích chuyền

trên các tài khoản của các chủ thể liên quan đến số tiền phải thanh toán HoặcTTKDTM là phương thức thanh toán không trực tiếp dùng tiền mặt mà dựa vào các

chứng từ hợp pháp như giấy nhờ thu, giấy ủy nhiệm chi, séc dé trích chuyển vốn

tiền tệ từ tài khoản của tổ chức, đơn vị, cá nhân này sang tài khoản của tổ chức, đơn

in

Trang 14

vị, cá nhân khác thông qua hệ thống ngân hàng.

Thẻ thanh toán (thẻ chỉ trả) có thé hiéu là một phương tiện thanh toán tiền mua

hàng hoá, dịch vụ hoặc có thể được dùng để rút tiền mặt tại các ngân hàng đại lý

hoặc các máy rút tiền tự động Hoặc là một loại thẻ giao dịch tài chính được pháthành bởi ngân hàng, các tô chức tài chính hay các công ty Cũng có thể hiểu là mộtphương tiện TTKDTM mà người chủ thẻ có thé sử dụng dé rút tiền mặt hoặc thanhtoán tiền mua hàng hoá, dịch vụ tại các điểm chấp nhận thanh toán bằng thẻ Cụ thểhơn thẻ thanh toán là phương thức ghi số những số tiền cần thanh toán thông quamáy đọc thẻ phối hợp với hệ thông mang máy tính kết nối giữa ngân hang/t6 chứctài chính với các điểm thanh toán Nó cho phép thực hiện thanh toán nhanh chóng,thuận lợi và an toàn đối với các thành phần tham gia thanh toán Tóm lại tính chấtcủa thẻ thanh toán là một phương thức thanh toán mà người sở hữu thẻ có thé ding

để thanh toán tiền mua hàng hoá dịch vụ hay rút tiền mặt tự động thông qua máyđọc thẻ hay các máy rút tiền tự động

1.1.2 Phân loại thẻ thanh toán

Thẻ thanh toán có thé được phân loại theo công nghệ sản xuất, theo chủ théphát hành, theo tính chất thanh toán của thẻ, theo phạm vi lãnh thô

1.1.2.1 Theo công nghệ sản xuất

Có 3 loại thẻ thanh toán theo công nghệ sản xuất, bao gồm:

Thứ nhất, thẻ khắc chữ nồi (Embossing Card) là loại thẻ dựa trên công nghệ

khắc chữ nồi Hiện nay, trên thị trường không còn sử dụng loại thẻ này nữa vì kỹ

thuật quá thô sơ dé bị giả mạo.

Thứ hai, thẻ băng từ (Magnetic Stripe) là loại thẻ dựa trên kỹ thuật thư tín vớihai băng từ chứa thông tin đằng sau mặt thẻ Thẻ này đã được sử dụng phổ biếntrong 20 năm qua, nhưng đã bộc lộ một số nhược điểm: do thông tin ghi trên thẻkhông tự mã hoá được, thẻ chỉ mang thông tin cố định, không gian chứa dữ liệu ít,không áp dụng được kỹ thuật mã hoá, bảo mật thông tin.

Thứ ba, thẻ thông minh (Smart Card) là loại thẻ thế hệ mới nhất của thẻ thanhtoán, thẻ có cấu trúc hoàn toàn như một máy vi tính trong đó ngoài những thông tin

về mã thẻ, số tiền còn có thêm những thông tin của cá nhân chủ thẻ như địa chỉ, số

điện thoại, nhóm máu, bệnh mãn tinh

12

Trang 15

1.1.2.2 Theo tính chất thanh toán của thé

Theo tính chất thanh toán của thẻ, thì thẻ thanh toán được chia làm 3 loại sau:

Thứ nhất, thẻ tín dụng (Credit Card) là loại thẻ được sử dụng phổ biến nhất,

theo đó người chủ thẻ được phép sử dụng một hạn mức tín dụng không phải trả lãi

để mua sắm hang hoá, dịch vụ tại những cơ sở kinh doanh, khách sạn, sân bay, chấp nhận loại thẻ này Gọi đây là thẻ tín dụng vì chủ thẻ được ứng trước một hạnmức tiêu dùng mà không phải trả tiền ngay, chỉ thanh toán sau một kỳ hạn nhất

định Cũng từ đặc điểm trên mà người ta còn gọi thẻ tín dụng là thẻ ghi nợ hoãn

hiệu (Delayed Debit Card) hay chậm trả.

Thứ hai, thẻ ghi ng (Debit Card) đây là loại thẻ có quan hệ trực tiếp và gắnliền với tài khoản tiền gửi Loại thẻ này khi đợc sử dụng dé mua hàng hoá hay dich

vụ, giá trị những giao dịch sẽ được khấu trừ ngay lập tức vào tài khoản của chủ thẻthông qua những thiết bị điện tử đặt tại cửa hàng, khách sạn đồng thời chuyểnngân ngay lập tức vào tài khoản của cửa hàng, khách sạn Thẻ ghi nợ còn được sửdụng để rút tiền mặt tại máy rút tiền tự động Thẻ ghi nợ không có hạn mức tín dụng

vì nó phụ thuộc vào số dư hiện hữu trên tài khoản của chủ thẻ Có hai loại thẻ ghỉ

nợ cơ bản:

- Thẻ online: là loại thẻ mà giá trị những giao dịch được khấu trừ ngay lập tức

vào tài khoản chủ thẻ.

- Thẻ offline: là loại thẻ mà giá trị những giao dịch được khấu trừ vào tàikhoản chủ thẻ sau đó vài ngày.

Thứ ba, thẻ rút tiền mặt (Cash Card) là loại thẻ rút tiền mặt tại các máy rút tiền

tự động hoặc ngân hàng Với chức năng chuyên biệt chỉ dùng đê rút tiền, yêu cầuđặt ra đối với loại thẻ này là chủ thẻ phải ký quỹ tiền gửi vào tài khoản ngân hang

hoặc chủ thẻ được cấp tín dụng thấu chỉ mới được sử dụng Thẻ này có hai loại:

- Loại 1: chỉ rút tiền tại những máy tự động của ngân hàng phát hành

- Loại 2: được sử dụng để rút tiền không chỉ ở ngân hàng phát hành mà còn

được sử dụng dé rút tiền ở các ngân hàng cùng tham gia tô chức thanh toán vớingân hàng phát hành thẻ hoặc ở những POS như nhà hàng, siêu thị

1.1.2.3 Theo phạm vi lãnh thổ

Nếu phân loại theo phạm vi lãnh thể thì có thể chia làm 02 loại thẻ dưới đây:

13

Trang 16

Thứ nhất, thẻ trong nước là thẻ được giới hạn trong phạm vi một quốc gia, do

vậy đồng tiền giao dịch phải là đồng bản tệ của nước đó

Thứ hai, thẻ quốc tế đây là loại thẻ được chấp nhận trên toàn thé giới, sử dụng

các ngoại tệ mạnh dé thanh toán

1.1.2.4 Theo chú thé phát hành

Sẽ có 02 loại thẻ thanh toán nếu như được chia theo chủ thé phát hành:

Thứ nhất, thẻ do ngân hàng phát hành (Bank Card) là loại thẻ do ngân hàngphát hành giúp cho khách hàng sử dụng một số tiền do ngân hàng cấp tín dụng

Thứ hai, thẻ do tổ chức phi ngân hàng phát hành: là loại thẻ du lịch và giải trícủa các tập đoàn kinh doanh lớn hoặc các công ty xăng dầu lớn, các cửa hiệu lớn phát hành như Diner's Club, Amex

1.1.3 Ưu điểm khi sử dụng thé thanh toán

Không thể phủ nhận những ưu điểm khi sử dụng thẻ thanh toán thay cho việcdùng tiền mặt Từ khi ra đời cho đến nay, hình thức thanh toán qua thẻ đã khẳngđịnh được vai trò của mình trong việc đáp ứng nhu cầu giao dịch ngày càng khắtkhe của khách hàng, tạo niềm tin, uy tín với khách hàng, đáp ứng yêu cầu phát triểncủa hệ thống ngân hàng, thúc đây phát triển thương mại cũng như nền kinh tế củađất nước và phù hợp với xu thế toàn cầu trong công cuộc hội nhập kinh tế quốc tế

Thứ nhất, thẻ thanh toán cho phép khách hàng tiếp cận với số dư trong tai

khoản của mình thông qua hệ thống kết nối trực tuyến dé thanh toán hàng hóa, dịch

vụ tại các đơn vị chấp nhận thẻ hoặc thực hiện các giao dịch liên quan tới tài khoảntại các máy ATM Hiện nay, các tổ chức đã chủ động kết nói hệ thống ATM vớinhau tạo nên một mạng ATM khu vực Hiện nay tất cả các máy ATM của tất cả cácngân hàng đã kết nói với nhau, cho phép khách hàng có thé rút tiền ở bat cứ máy

ATM nào Việc ra đời phương thức thanh toán điện tử là nhằm giảm áp lực việc lưu

thông tiền mặt trên thị trường Với phương thức thanh toán điện tử, các giao dịch

được giải quyết qua hệ thống ngân hàng thông qua hình thức chuyển khoản, qua đó

giúp mọi người tiết kiệm được về thời gian, chỉ phí đi lại Trước kia, các dịch vụngân hàng chủ yếu được giao dịch trực tiếp tại ngân hàng Sau khi thẻ thanh toán ra

đời, các hoạt động ngân hàng truyền thống được chuyển hoá dần thành chức năng

của thẻ Theo số liệu thống kê, cả nước có khoảng 20 ngân hàng phát hành thẻ;

14

Trang 17

14.000 điểm chấp nhận thẻ và 3,5 triệu thẻ thanh toán Tốc độ phát triển nhanh

trong một thời gian ngắn của thị trường thẻ tại Việt Nam kèm theo sự phô cập ngày

càng rộng rãi của mạng internet dự kiến sẽ góp phần làm giảm tối đa lượng tiền mặt

trong lưu thông.

Thứ hai, hình thức này còn có thêm ưu điểm là giúp cho hoạt động của ngânhàng phù hợp với thông lệ quốc tế và có điều kiện đề các ngân hàng thương mại mởchỉ nhánh hoạt động ở các nước phát triển, qua đó day mạnh việc thu hút vốn dau tưnước ngoài Đồng thời, thanh toán qua thẻ sẽ làm giảm tỷ trọng tiền mặt trong lưuthông, do đó giúp kiềm chế lạm phát và các tiêu cực trong xã hội

Thứ ba, thẻ ghi nợ cũng là một cách thanh toán ít rủi ro hơn so với việc thanh

toán bằng tiền mặt trực tiếp, do tài khoản bị mã khoá và chỉ có thể tiếp cận tàikhoản này nếu nhập đúng mã số pin, bằng cách nhập mã số cá nhân (PIN - PersonalIdentification Number), chủ thẻ có thể tiếp cận tài khoản cá nhân của mình tại ngânhàng mọi nơi, mọi lúc, 24/24 mỗi ngày và 7 ngày trong tuần ATM đã cung cấp cho

khách hàng sử dụng thẻ khả năng giao dịch ngoài giờ làm việc, ngoài ngân hàng và khả năng tự phục vụ.

Thứ tư, thẻ thanh toán có thé kết hợp nhiều dich vụ trong đời sống hàng ngàycủa người dân liên quan tới tài chính và hình thức thanh toán tiện dụng Ngày nay,các hộ gia đình có thể thanh toán tiền điện, tiền nước, chỉ phí sinh hoạt, mua sắm,

qua thẻ thanh toán mà không cần tới các cửa hàng, các điểm thu cước Các doanh

nghiệp có thé trả lương cho các nhân viên mà không cần đưa trực tiếp, trả lương qua

thẻ thanh toán giúp minh bạch hoá thu nhập cá nhân của các nhân viên Các trường

đại học có thé thu học phí thông qua hệ thống ngân hàng đăng kí mà không cần trựctiếp tới trường để nộp, giúp phụ huynh kiểm soát được hành vi của con em học xa

1.1.4 Các hình thức gian lận thẻ

Tuy mang lại nhiều tiện ích khi sử dụng thẻ để thanh toán thay cho tiền mặt

nhưng việc thanh toán bằng thẻ cũng tiềm ẩn những rủi ro cho các bên giao dịch

cũng như ngân hàng phát hành thẻ Rủi ro này chủ yếu đến từ các hình thức gian lậnthẻ Các hình thức gian lận thẻ chủ yếu là giao dịch bằng thẻ đánh cắp hoặc bằng

thẻ làm giả với những thông tin đánh cắp được từ thẻ thật, hoặc thanh toán trực

tuyến với thông tin đánh cấp được từ thẻ thật Mỗi hình thức gian lận có những đặc

l5

Trang 18

điểm riêng Hiểu được những đặc điểm đặc trưng của các hình thức gian lận sẽ gópphần giúp cho việc ngăn ngừa gian lận qua thẻ được chủ động và hiệu quả hơn Do

giới hạn của đề tài nên tác giả tập trung vào nghiên cứu các hình thức gian lận thẻ

tín dụng hoặc gian lận thẻ ghi nợ.

Theo tài liệu Credit card fraud and detection techniquers: a review [25], có các

hình thức gian lận thẻ tín dụng sau đây:

1.1.4.1 Bankruptcy fraud - gian lận phá sản (việc sử dung thẻ tín dụng

mà chủ thẻ không có khả năng thanh toán)

Gian lận phá sản là việc sử dụng thẻ tín dụng trong khi chủ thẻ biết rằng trongthẻ không còn tiền và ngân hàng phải đòi nợ bằng cách gửi hóa đơn đến địa chỉ của

họ Do giới hạn về phạm vi nghiên cứu của đề tài nên tác giả sẽ không nghiên cứuđặc điểm của hình thức này

1.1.4.2 Theft fraud/counterfeid fraud - gian lận bằng thẻ đánh cắp/thẻ gia maoGian lận bằng thẻ đánh cắp là hình thức sử dụng thẻ không phải thuộc quyền

sở hữu của bản thân Tội phạm sẽ trộm thẻ của bắt kỳ ai và dùng nhiều lần trước khithẻ đó bị khóa Chủ thẻ phát hiện và liên hệ với ngân hàng càng sớm thì ngân hàng

sẽ nhanh chóng dừng hoạt động của thẻ bị đánh cắp

Gian lận bằng thẻ giả mạo (thẻ được làm giả từ những thông tin đánh cắp được

từ thẻ thật) là hình thức sử dụng thẻ từ xa hay hiểu cách khác là chỉ có chỉ tiết của

thẻ được sử dụng (cụ thê là số thẻ và mã thẻ) Tội phạm sẽ sử dụng hai thông tin

này dé giao dịch qua trang web - nơi không cần phải sử dụng chữ ký điện tử và thẻ

vật lý.

Gian lận thẻ tín dụng là một sự đe doa đáng kể đến việc kinh doanh hàng hóahoặc các dịch vụ khác thông qua Internet Những nhà kinh doanh trực tuyến gặp rủi

ro khi yêu cầu khách hàng thanh toán bằng thẻ tín dụng Trong trường hợp này,

những kẻ gian lận sử dụng đữ liệu của thẻ tín dụng đánh cấp được hoặc thẻ giả và

kết quả là nhà kinh doanh bị mat tiền, được gọi là Charge — backs (người bán hang

hoàn lại số tiền vào tài khoản thẻ tín dụng hoặc thẻ ghi nợ của người mua) Khi đó,ngân hàng sẽ có một danh sách khách hàng sử dụng thẻ tín dụng vượt quá giới hạn

trong một ngày Đối với danh sách đó, những khách hàng này sẽ được liên lạc để

thông báo tình trạng trên và nếu như họ không điều chỉnh lại hoạt động của thẻ thì

16

Trang 19

thẻ sẽ bị khóa Ngân hàng sẽ yêu cầu cơ quan an ninh cung cấp những báo cáo về

những khách hàng đã từng phạm tội, hay báo cáo về những giao dịch đáng ngờ

Những giao dịch có tính gian lận theo hình thức này sẽ rất khó đề phát hiện và

xác định Tuy nhiên, một lượng lớn các giao dịch qua ATM thuộc diện tình nghi vàđược yêu cầu liên hệ với khách hàng Việc mua một lượng hàng hóa với số lượngnhiều bất thường, việc chỉ trả không bình thường so với mọi khi sẽ được cảnh báođến khách hàng Những giao dịch gian lận sẽ được ngăn chặn khi chúng xảy ratrong khoảng thời gian rất ngắn Và một khi thẻ đã được xác nhận có nghỉ vấn thìthẻ sẽ bị khóa.

1.1.4.3 Application fraud - gian lận bằng những thông tin đánh cắp được

từ thé thật

Gian lận bằng những thông tin đánh cắp được từ thẻ thật được phát hiện khimột cá nhân nào đó cung cấp thông tin sai lệch về thẻ tín dụng Theo một địnhnghĩa khác về gian lận bằng những thông tin đánh cắp được từ thẻ thật, thì đây làmột hành động thuộc về nhận dạng tội phạm, xảy ra khi mẫu khai gồm những thongtin có vẻ hợp lý nhưng là giả mạo, hoặc thông tin là thật nhưng đó là những thôngtin đã bị đánh cắp

Để phát hiện gian lận kiểu này, cần cài đặt cho hệ thống phát hiện được nhữngthông tin khả nghỉ Và hệ thống cần phải phân biệt hai trường hợp: trường hợp thứ

nhất, khi những thông tin đến từ một cá nhân với những thông tin của thé tín dụng

hoàn toàn trùng khớp nhau thì đó gọi là bình thường; trường hợp thứ hai, khi nhữngthông tin đến từ những cá nhân khác nhau nhưng lại tương tự nhau gọi là phát hiện

có nghỉ vấn gian lận

Trong hầu hết các ngân hàng, dé được cung cấp một thẻ tín dụng, khách hàng

cần phải điền đầy đủ những thông tin theo mẫu có sẵn Bên cạnh những thông tin xã

hội thông thường thì mẫu khai còn chứa những thông tin trên giấy chứng minh nhân

dân (số chứng minh nhân dân, họ tên, ngày tháng năm sinh), thông tin về địa điểm

(địa chỉ nhà, mã vùng, thành phố, đất nước, địa chi e-mail, số điện thoại cô định, sốđiện thoại đi động), thông tin mật như mật khẩu và thông tin thêm như giới tính hay

tình trạng hôn nhân Tắt cả những thông tin này sẽ được dùng dé so khớp thông tin

Để xác định được trường hợp thứ nhất thì kỹ thuật thông dụng được cài đặt là

17

Trang 20

Cross - matching, kỹ thuật này phổ biến hơn phương pháp thống kê Ví dụ, những

câu truy van don giản sẽ đưa ra kết quả nhanh chóng dé xác định thông tin về địa

điêm như “tên và ngày sinh và mã vùng và địa chỉ” hoặc “tên và địa chỉ và địa chỉ

e-mail và giới tính” Với những câu truy vấn này những cá nhân nào có nhiều hơnmột thẻ sẽ được xác nhận Tuy các câu truy vấn đơn giản nhưng sẽ loại bỏ đượcnhững trường hợp lặp trong hệ thống Khách hàng có thé điền lại thông tin địa chỉmới hoặc thay đổi một trong số những thông tin đã khai

Để xác định trường hợp thứ hai, đối tượng sẽ được phát hiện bởi việc cố ýđiền sai thông tin trong mẫu khai Cross - matching có cơ chế làm việc như sau: mỗikhi có một đối tượng nào đó thành công trong việc gian lận, chúng sẽ thử lặp lạihành vi đó với những nạn nhân khác; và khi đó Cross - matching sẽ phát hiện đượctội phạm Vì vậy, một vài khách hàng đã tiền hành gửi những thông tin chỉ tiết vàokho dữ liệu của ngân hàng trung tâm, hệ thống này sẽ có các thuật toán kết hợp đểxác định những đặc tính chung nhất Nhiều luật kết hợp sẽ được sử dụng và cónhiều trường hợp không đúng sẽ được tìm thấy

Có 3 cấp độ rủi ro đối với hành vi gian lận kiểu này:

- Cấp độ 1: rủi ro cao - đây là nhóm gồm các đối tượng với địa chỉ, mã vùnggiống nhau và ít nhất có một thẻ hoạt động tối thiểu là 10 lần

- Cấp độ 2: rủi ro trung bình - đây là nhóm gồm các đối tượng với địa chỉ, mãvùng giống nhau và ít nhất có một thẻ hoạt động từ 5 đến dưới 10 lần

- Cấp độ 3: rủi ro thấp - đây là nhóm gồm các đối tượng với địa chỉ, mã vùnggiống nhau và ít nhất có một thẻ hoạt động từ 2 đến dưới 5 lần

1.1.4.4 Behavioral fraud - Gian lận hành vi

Gian lận hành vi được thực hiện trực tuyến khi họ mua bất ky hàng hóa nào

bằng cách đồng ý với những thông tin trên thẻ của bắt kỳ thẻ tin dụng nào mà không

cần biết chủ thẻ Gian lận hành vi xảy ra khi chỉ tiết của những thẻ hợp pháp có

được một cách gian lận và hàng hóa giao dịch chủ yếu là điện thoại hoặc giao dịch

thương mại điện tử, những giao dịch này chỉ có những chỉ tiết của thẻ được yêu cầu

Gian lận hành vi có thể bị phát hiện bằng việc thực hiện đối chiếu số lần thẻ

được dùng dé gian lận so với số lần khách hang sử dụng thông thường Đối với quy

trình này, việc sử dụng tỉ số đối chiếu này để ngăn chặn gian lận cũng tương tự với

18

Trang 21

việc sử dụng lợi nhuận hay khả năng chỉ trả hoặc mức thu nhập cá nhân Kết quả

của quy trình này sẽ là danh sách khách hàng thật và đối tượng gian lận Những đốitượng gian lận chuyên nghiệp sẽ tạo ra những thông tin trông có vẻ như thật Vìvậy, một vai tỉ số cho việc ngăn chặn gian lận là không đáng giá vì không thé phânbiệt được thông tin thật và thông tin gian lận Mặt khác, nếu sử dụng tỉ số cho việckiểm tra gian lận, có sử dụng thêm những mô hình tỉ số khác nhau cho việc kiểm tra

rủi ro tín dụng thì sẽ có hiệu quả hơn.

Để xây dựng một phiếu tỉ số, điều quan trong cần phải xác định hồ sơ củanhững khách hàng thuộc diện nghỉ vấn gian lận gồm tần suất sử dụng thẻ, loại hanghóa thường xuyên giao dịch, hình thức giao dịch, hồ sơ bán lẻ, số tiền sử dụng, lịch

sử số dư và sự chỉ trả, việc giao dịch nước ngoài, việc giao dịch theo ngày, tháng,

hoặc theo mùa.

Bên cạnh các hình thức gian lận đã được nêu ở trên, nếu phân chia gian lận thẻtín dụng theo hình thức thanh toán thì gian lận thẻ tín dụng có hai dạng: thứ nhất làgian lận offline, hình thức này đối tượng sẽ sử dụng thẻ đánh cắp được tại các ngânhàng hoặc bất kỳ nơi nào chấp nhận thẻ hoặc các máy ATM Thứ hai là gian lậnonline, hình thức này đối tượng sẽ sử dụng thẻ để thanh toán trực tuyến qua mạng,điện thoại, mua sắm trên các website, hoặc nơi không cần chữ ký của chủ thẻ

1.2 CÁC PHƯƠNG PHÁP PHÒNG CHÓNG GIAN LẬN THẺ

1.2.1 Một số biện pháp nghiệp vụ

Dé phòng chống gian lận thẻ (Card Fraud Prevention) trong các giao dịch trựctuyến, không cần thẻ vật lý (gian lận kiểu Card Not Present), các ngân hàng pháthành thẻ đã sử dụng thêm một trong các hình thức OTP (One-time Password) [36].Trong hình thức này password này sẽ được tạo ngẫu nhiên trên hệ thống máy chủcủa ngân hàng cho mỗi một giao dịch và gửi đến người dùng qua SMS hoặc email

đã đăng ký trước với ngân hàng (thường là gửi qua SMS) Chủ thẻ sẽ sử dụng

password này trong quá trình thanh toán để xác minh với ngân hàng rằng họ đã

chấp nhận thanh toán cho giao dịch này Bằng cách kết hợp thêm OTP, việc xácthực chủ thẻ được thực hiện hai lần, lần đầu là chủ thẻ phải cung cấp các thông tin

khác nhau của thẻ và lần thứ hai là cung cấp OTP Phương pháp này làm cho việc

gian lận kiểu gian lận không trực tiếp sử dụng thẻ (CNP - card not present) trở nên

19

Trang 22

rất khó khăn Phương pháp này còn được gọi là phương pháp xác thực hai lớp (Two

Factor Authentication) Đối với các giao dịch cần sự tồn tại vật lý của thẻ, việc xácthực chủ thẻ được thực hiện thông qua mã PIN Bên cạnh đó cũng có những quyđịnh nghiêm ngặt về nghiệp vụ tại các điểm chấp nhận thẻ như phải có camera quaylại các giao dịch, các nhân viên giao dịch (nếu có) phải thực hiện so sánh đối chiếunhận dạng chủ thẻ với các tờ khác, được cấp bởi các cơ quan Nhà nước, nhưchứng minh nhân dân, hộ chiếu, lưu giữ các chứng từ về giao dịch và cả nhữngchứng từ về chủ thẻ (như bản sao chứng minh nhân dân) Tại các điểm chấp nhậnthanh toán thẻ, chủ thẻ còn được yêu cầu ký tên lên hóa đơn và chữ ký này đượcnhân viên đối chiếu với chữ ký mà chủ thẻ đã đăng ký với ngân hàng phát hành thẻ(Nghị định 35/2007/NĐ-CP về giao dịch điện tử trong hoạt động ngân hàng; Quyếtđịnh số 371/1999/QĐ-NHNNI về quy chế phát hành, sử dụng, thanh toán thẻ ngânhàng; Quyết định số 20/2007/QD-NHNN về quy chế phát hành, thanh toán, sử dung

và cung cấp dịch vụ hỗ trợ hoạt động ngân hàng)

Tình trạng gian lận thẻ ở Việt Nam ngày một gia tăng và gây tôn thất lớn, nhất

là giả mạo thẻ quốc tế, đến nỗi ngày 25/12/2014, Ngân hàng Nhà nước Việt Nam đã

có văn bản số 9626/NHNN-TT gửi NHNN chỉ nhánh tỉnh, thành phó và các tổ chứccung ứng dịch vụ thanh toán thẻ thực hiện phòng, chống việc thanh toán thẻ quốc tếgiả mạo [32] Trước tình hình tội phạm thẻ gia tăng như trên, để phòng ngừa và

giảm thiêu những thiệt hại có thể xảy ra cho ngân hàng cũng như khách hàng, các

ngân hàng cần rà soát lại quy trình, chính sách quản lý rủi ro trong từng khâu; có sựđầu tư hợp lý cho các giải pháp công nghệ hiện đại, hệ thống phòng ngừa, quản lýrủi ro Bên cạnh đó, cần có sự hỗ trợ, hợp tác từ các chủ thé tham gia hoạt động thẻ:đơn vị chấp nhận thẻ, chủ thẻ Cụ thể như sau:

tạo các DVCNT mới thành lập và thường xuyên đào tạo lại đối với toàn bộ các

DVCNT trên toàn hệ thống, đặc biệt là các ĐVCNT có độ rủi ro cao, là đối tượng

20

Trang 23

nhắm tới của bọn tội phạm như: cửa hàng vàng bạc đá quý, đồng hồ, cửa hàng điện

thoại, điện tử

- Thường xuyên kiểm tra, giám sát hoạt động của DVNCT nhằm đảm bảoĐVCNT thực hiện đúng quy trình chấp nhận thanh toán thẻ, hạn chế chấp nhậnthanh toán thẻ không hợp lệ, thẻ giả Thường xuyên xem xét, kiểm tra nhằm pháthiện sớm các dấu hiệu vi phạm của DVCNT như: loại hình, ngành nghề kinh doanh,doanh thu bắt thường, quy mô hoạt động Thường xuyên cập nhật tình hình rủi ro vàcác mánh khoé mới của bọn tội phạm đến các ĐVCNT nhằm nâng cao tỉnh thầncảnh giác và hạn chế được gian lận Thường xuyên rà soát hoạt động của các ATM(đặc biệt là đối với các ATM dé trong hộp)

- Xây dựng các chương trình quản lý rủi ro trong nội bộ, đăng ký các chương.trình xác thực chứng từ đối với giao dịch không xuất trình thẻ (Verified by Visahoặc Master Card Secure Code).

- Sử dụng ATM với đầu đọc thẻ có các chức năng an ninh nâng cao ngăn chặngian lận skimming hoặc đầu tư trang bị các thiết bị phòng chống ATM Skimming

- Theo dõi các dữ liệu về tình trang lỗi của đầu đọc thẻ dé sớm nhận danghành vi gian lận thường xuyên; kiểm tra các máy ATM để phát hiện các thiết bị lạđược gắn trên, hoặc xung quanh ATM

- Điều tra các máy ATM có lượng rút tiền mặt lớn bat thường so với các giao

dịch hàng ngày (cần phải tính đến trường hợp đó có phải vào kỳ nghỉ lễ hay nghỉ

cuối tuần).

- Cập nhật thông tin từ các hệ thống cảnh báo rủi ro của các tổ chức thẻ quốc

tế Cảnh báo, thông tin, nâng cao hiểu biết cho chủ thẻ, có ý thức dé ý và phát hiệncác thiết bị lạ được gắn trên, hoặc xung quanh ATM như cung cấp tài liệu hướng

dẫn về bảo mật và an toàn cho khách hàng; đưa các thông tin cảnh báo về an ninh

giao dịch trên màn hình ATM, hoá đơn khách hàng của ATM, đồng thời nâng cao

hiểu biết của khách hàng về vị trí các bộ phận chủ yếu của ATM như đầu đọc thẻ,

bàn phím nhập PIN, màn hình để tránh sử dụng các thiết bị giả gắn Vào máy

- Trang bị camera tại ATM và giám sát các camera 24/7 dé phát hiện các hành

vi phá hoại.

- Đối với các ATM đã bị hư hỏng, phải khắc phục sự cố đảm bảo đạt theo các

Trang 24

quy định về an toàn kỹ thuật của ATM, không đưa vào vận hành các ATM chỉ

được sửa chữa tạm thời.

- Trong quá trình thẩm định hồ sơ cần lưu ý các trường hợp sau:

+ Chủ thẻ khai báo địa chỉ nhà/công ty không rõ ràng, tên công ty, số điệnthoại không chính xác hoặc trì hoãn việc cung cấp các thông tin hoặc gửi hồ sơ pháthành không đây đủ

+ Chủ thẻ chính không có mối n hệ trực tiếp với chủ thẻ phụ

+ Thông tin tài chính mà chủ thẻ cung cấp không tồn tại, hay không chính xác.1.2.1.2 Tại đơn vị chấp nhận thẻ

- Thực hiện đúng quy trình chấp nhận thanh toán thẻ đối với từng loại hìnhgiao dịch (giao dịch sales, rút tiền mặt, giao dịch key-in, giao dịch Moto )

- Áp dụng các phương pháp phát hiện thẻ giả: kiểm tra can thận các yếu tổ antoàn của thẻ, gọi điện về ngân hàng thanh toán kiểm tra số BIN (Bank Identification

Number) của ngân hàng phát hành thẻ

- Kiểm tra chứng minh nhân dân/hộ chiếu của chủ thẻ dé xác thực chủ thẻ (đốivới các giao dịch rút tiền mặt, giao dich tại DVCNT loại hình du lịch và giải trí -T&E - Travel & Entertainment, vàng bạc, đá quý )

- Chú ý thái độ đáng ngờ của chủ thẻ khi thực hiện giao dịch.

- Liên hệ với ngân hàng ngay khi phát hiện chủ thẻ/thẻ/giao dịch khả nghỉ.

- Tuyệt đối không bán/cung cấp thông tin thẻ/chủ thẻ/giao dịch thẻ cho bên

thứ ba Không thực hiện các giao dịch mà đơn vị không đăng ký cung cấp hàng hóa,

- Nên chú ý nhân viên thu ngân để phòng trường hợp thẻ của cá nhân bị quẹt

qua một thiết bị điện tử khác bất thường, hoặc tại máy chấp nhận thẻ có gắn thêmmột loại thiết bị lạ

- Không nên vứt hoá đơn giao dịch thẻ một cách bừa bãi ngay sau khi thực hiện giao dịch.

Trang 25

- Cần chú ý đến mức độ đáng tin cậy và uy tín của các trang web cung cấp

hàng hoá dịch vụ, không nên cung cấp thông tin cá nhân một cách thiếu thận trong

khi truy cập vào những trang web mà minh không hiểu rõ

- Không nên tin tưởng vào một website lạ nào đó chi bởi vì website đó tuyên

bố là an toàn, hầu hết các trang web đen đều có gắng đưa ra các thủ đoạn trấn ankhách hàng đề nhằm đánh cắp dữ liệu thẻ

- Không tiết lộ số CVV2/CVC2/CAV2 (3 chữ số nhỏ in nghiêng, nằm ở mặtsau của thẻ, bên cạnh dai chữ ký và dưới dải từ) cho bat kỳ ai dé tránh rủi ro thongtin thẻ bị lợi dụng để thực hiện giao dịch qua mạng

- Nên đăng ky sử dụng dich vụ biến động số du qua SMS để thuận tiện theođõi các giao dịch được thực hiện từ số thẻ của mình

- Theo dõi xem có thiết bị lạ nào gắn vào khe đọc thẻ hoặc có nhiều cameracùng gắn tại một máy ATM Nếu thấy bề mặt ATM có lắp thêm các thiết bị khácthường, ngừng giao dịch và báo ngay cho ngân hàng.

- Khi nhập mật khâu nên có găng dùng tay che chắn và giữ khoảng cách an

toàn với những người xung quanh ATM.

- Không nên rút tiền tại các ATM vắng người qua lại, nhất là vào lúc trời tối

- Không nên dùng mat khẩu ATM là số điện thoại hoặc số chứng minh nhân

é đảm bảo an toàn

dân, không nên dùng cố định số mật khâu ATM, thay đổi

- Nên sử dụng dịch vụ SMS Banking (nếu có) dé nhận được thông báo về số

dư tài khoản qua tin nhắn SMS ngay khi có phát sinh giao dịch Bằng cách này,khách hàng có thé phát hiện những giao dịch nghỉ ngờ dé kịp thời ngăn chặn

- Không nên cung cấp thông tin thẻ cho những nguồn không an toàn, hoặcnhững người không quen biết Nên thường xuyên đổi mật khẩu, theo dõi tình trạng

tài khoản để kiểm kê và phát hiện những dấu hiệu giao dịch khả nghỉ nếu có

- Khi giao dịch mà bị nuốt thẻ, nên kiểm tra kỹ tình trạng của thẻ (xem thẻ có

bị nuốt thực sự hay không, hay chỉ bị kẹt mà không bị nuốt hẳn vào trong) Hãy liên

lạc ngay với ngân hàng hoặc công ty phát hành thẻ để được trợ giúp trong nhữngtrường hợp khan cap

- Nếu một người nào đó làm bạn mất tập trung tại máy ATM, hãy hoàn tất

việc bạn đang làm và lấy thẻ của bạn trước khi nói chuyện với họ Không nên nhận

Trang 26

các sự “giúp đỡ” của người lạ khi thực hiện các giao dịch với ATM.

- Thông báo ngay cho ngân hàng khi phát hiện ATM bi phá hoại Không thực

hiện các giao dịch rút tiền khi thấy ATM đã bị phá hoại

1.2.2 Tổng quan các nghiên cứu phát hiện gian lận

Bên cạnh những biện pháp phòng ngừa gian lận thẻ tín dụng như trên, cũng

cần phải có những giải pháp công nghệ hiện đại, những hệ thống phòng ngừa, quản

lý rủi ro trong quá trình giao dịch bằng thẻ Chính vì vậy việc nghiên cứu, xây dựngphương pháp để phát hiện gian lận trong giao dịch thẻ nhằm kịp thời ngăn chặn cácgian lận này, giảm rủi ro cho các bên trong giao dịch, tăng uy tín của ngân hàngphát hành nói riêng, thương mại điện tử nói chung là một van đề có tính cấp thiết

Ngoài việc tăng cường các biện pháp phòng chống, các ngân hàng cũng trang

bị các phần mềm phát hiện gian lận (Card Fraud Detection), thường là các phầnmềm thương mại Khi các phần mềm này phát hiện các giao dịch nghi ngờ, đội ngũnhân viên xử lý sẽ nhanh chóng liên hệ với chủ thẻ dé xác minh, giải quyết van dé,

thường là liên hệ thông qua điện thoại.

Phần mềm Antifraud chống gian lận thẻ là một chương trình cung cấp miễnphí danh sách các địa chỉ email forwarding, webmail, một số đoạn mã cho phép tựđộng kiểm tra và so sánh địa chỉ email của người mua hàng qua mạng với danh sách

“Red flag” Danh sách này được cập nhật thường xuyên Chương trình còn lưu lại địa chỉ IP của máy tính đặt hàng Nhờ đó cho phép phát hiện các giao dịch đáng ngờ

và cập nhật danh sách red flag của các địa chỉ email, địa chỉ IP gian lận [2].

Phần mềm IVS của CyberSource chống gian lận thẻ cho phép phát hiện tựđộng các giao dịch nghỉ ngờ gian lận Phần mềm được xây dựng dựa trên các kỹthuật trí tuệ nhân tạo, hoạt động dựa trên sự phân tích các thông tin đặc trưng của

giao dịch như thời gian đặt hàng, địa chỉ IP, vị trí địa lý, nơi giao hàng và nhiều yếu

tố khác Chương trình sẽ kiểm tra dữ liệu, phân tích sự tương quan, phân tích độđáng ngờ của các giao dịch, so sánh với các mẫu đã từng được xác định là gian lận

Tw đó đưa ra các khuyến nghị dựa trên mức độ đáng ngờ của giao dịch [11].

Nhiều công trình nghiên cứu về gian lận thẻ đã được thực hiện và công bố từ

những thập niên cuối của thế kỷ 20, như:

Salvatore và các cộng sự đề xuất giải pháp kết hợp các máy phân lớp cơ sở bởi

Trang 27

các tác nhân máy học dựa trên siêu dữ liệu (Java agent for meta-learning) Mỗi máy

phân lớp cơ sở hoạt động theo một thuật toán phân lớp nào đó và được sử dụng tại

một ngân hàng nào đó Nhờ các tác nhân máy học dựa trên siêu dữ liệu mà hệ thống

phát hiện gian lận liên kết giữa các ngân hàng có thể sử dụng các kết quả học đượctại mỗi ngân hàng để tăng cường hiệu quả phát hiện gian lận của cả hệ thống trongkhi vẫn giữ được bí mật về thuật toán phân lớp của các máy phân lớp cơ sở mà cácngân hang sử dụng cũng như dir liệu mà các ngân hàng dùng đề huấn luyện Trong

dự án này, các tác giả đã sử dụng tập dữ liệu với 500.000 mẫu tin về các giao dịchvới 20% mẫu tin là giao dịch gian lận do tổ chức liên doanh về công nghệ dịch vụtài chính - Financial Services Technology Consortium cung cấp Mỗi mẫu tin có 30trường và dài khoảng 137 bytes Nhóm tác giả đã thử nghiệm với các tổ hợp giải

thuật cho máy phân lớp cơ sở - giải thuật cho máy học dựa trên siêu dữ liệu khác

nhau từ 4 thuật toán là ID3, CART, RIPPER, Bayes và thấy rằng giải thuật cho máyhọc phân lớp cơ sở tốt nhất là RIPPER và CART, giải thuật cho máy học dựa trênsiêu liên kết là Bayes [28]

Aleskerov và các cộng sự đã đề xuất sử dụng kỹ thuật máy học dựa trên mangnơrôn dé phát hiện gian lận thẻ và xây dựng thành công ứng dụng CardWatch dựatrên phương pháp này Đáng chú ý là nhóm tác giả chỉ kiểm chứng kỹ thuật đề xuấttrên tập dữ liệu được sinh một cách nhân tạo [12].

Bentley đã đề xuất sử dụng giải thuật đi truyền với logic mờ và phân giao dịchthành 2 lớp: giao dịch nghi ngờ và giao dịch không bị nghỉ ngờ Thuật toán đượckiểm nghiệm trên tập dữ liệu của một ngân hàng địa phương với 4000 mẫu tin vềgiao dịch, mỗi mẫu tin chứa 96 trường nhưng thuật toán chỉ sử dụng 62 trường [15]

Năm 2011, Sandeep và các cộng sự đã đề xuất một mô hình lai giữa bộ lọcdựa trên hệ luật (rule-based), bộ cộng bằng chứng Dempster-Shafer và máy họcBayesian Trong đó đầu tiên giao dịch được đưa qua bộ lọc dựa trên hệ luật để xácđịnh mức độ nghi ngờ của nó dựa trên sự khác biệt với các mẫu giao dịch bìnhthường, sau đó kết quả được đưa qua bộ cộng bằng chứng Dempster-Shafer dé xácđịnh độ tin cậy ban dau cho giao dịch Nếu độ tin cậy này dưới ngưỡng thì giao dịch

sẽ được kiểm tra một lần nữa qua máy học Bayesian bằng cách so sánh nó với các

giao dịch gian lận hoặc giao dịch bình thường đã được học trước đó [29].

Trang 28

Hetvi và các cộng sự năm 2013 đã đề xuất sử dụng giải thuật mạng nơrôn lan

truyền ngược dé khai phá dữ liệu về gian lận trong mua bán trực tuyến Nhóm tác

giả dé xuất sử dụng cả những thông tin chỉ tiết về sản phẩm, giá trị sản phẩm, loại

sản pham, trong hóa đơn mua hàng đề biết đúc kết thành những đặc điểm tronghành vi mua bán của chủ thẻ Nhờ đó phát hiện được giao dịch bất thường [19]

Năm 2013, John Akhilomen đã để xuất sử dụng các kỹ thuật khai phá dữ liệu

để phát hiện gian lận thẻ Trong bài báo tác giả đã mô tả về các kỹ thuật gian lậnqua thương mại điện tử bằng thẻ tín dụng như: tạo số thẻ và ngày hết hạn theo thuậttoán được một số ngân hàng sử dụng (Luhn) từ đó làm ra thông tin thẻ hợp lệ và sửdụng dé thanh toán; sử dụng các chương trình xâm nhập và theo đõi máy tinh dé lấythông tin thẻ tín dụng và sau đó sử dụng thông tin này dé mua bán trực tuyến; đánhcắp thông tin thẻ bằng cách gắn các chip theo dõi tại các máy ATM; theo dõi máytính người dùng và máy chủ bán hang dé nắm bắt các thói quen mua bán của người

sử dụng, sau đó giả giống trang mua bán mà người sử dụng hay vào, gửi thông tingiảm giá, lừa khách hàng thực hiện mua bán, nhập thông tin về thé và chúng cóđược thông tin thẻ; mua các thông tin về thẻ trên mạng và sử dụng; trộm thẻ vật lý, Tác giả đã dé xuất giải thuật phát hiện khác thường bằng mạng nơrôn, áp dụng cơchế học có giám sát và phân loại giao dịch thành 3 loại: hợp lệ, nghi ngờ và khônghợp lệ (hay gian lận) Trong quá trình nay, đầu tiên sẽ phát hiện điểm bat thườngcủa giao dịch so với giao dịch của chủ thẻ trong quá khứ, nếu không phát hiện bắtthường thì gán “hợp lệ” Nếu có thì so sánh tiếp với các giao dịch gian lận trong quákhứ, nếu có tương tự thi gan “gian lận”, nếu không thi gan là “nghỉ ngờ” Thông tinđược sử dụng để huấn luyện là: địa chỉ các website mà chủ thẻ thường thực hiện

mua bán trực tuyến, loại hàng hóa thường mua bán trực tuyến, giá trị hàng hóa, vị

trí địa lý của các giao dịch trước, địa chỉ giao hàng, email hoặc điện thoại sử dụng cho liên lạc Vì vị trí giao dịch được xác định thông qua máy tính truy cập nên được

thé hiện qua địa chi IP, tuy nhiên IP có thé giả mạo bằng proxy-server, do đó nếu có

phát hiện proxy server thì giao dịch được đánh dấu là “nghi ngờ” [20]

Nhiều bài báo thực hiện tổng quan các kỹ thuật đã được sử dụng trong các giảipháp phát hiện gian lận thẻ nói riêng và gian lận thương mại nói chung Clifton và

các cộng sự [16] năm 2010 đã liệt kê các đối tượng thực hiện gian lận, các loại và

Trang 29

phân lớp lĩnh vực phát hiện gian lận từng được nghiên cứu, dữ liệu và phân bố của

dữ liệu được sử dụng, các cách đánh giá hiệu năng của giải pháp Tiếp đó các tác

giả cũng đã tổng kết các dạng máy học đã từng được sử dụng cho nghiên cứu về

phát hiện gian lận như:

- Kết hợp một số mô hình học có giám sát;

- Lai giữa mô hình học có giám sát và học không giám sát;

~ Mô hình học có giám sát ảo (semi-supervised);

- Mô hình học không giám sát đơn lẻ hoặc bội (kết hợp nhiều mô hình học

không giám sát) với nhau.

Adnan năm 2012 đã tổng quan các nghiên cứu, trong đó đã mô tả các kỹ thuậtđược sử dụng trong phát hiện gian lận thẻ trong các giao dịch có thẻ vật lý (offline) hoặc không có thẻ vật lý (online) như: mạng nơrôn (Neural Networks), khai pháluật kết hợp (Rule Induction), hệ chuyên gia (Expert System), lập luận theo tìnhhuống tương tự (Case-based Reasoning), giải thuật di truyền (Genetic Algorithms),lập trình quy nap (Inductive logic programming), hồi quy (Regression) Tác giảcũng đã có bảng tổng hợp các ưu và nhược điềm của từng kỹ thuật Tiếp đó, tác giả

đã trình bày các yếu tố ảnh hưởng đến hiệu quả của các kỹ thuật cũng như các độ đothể hiện hiệu quả của các kỹ thuật thường được sử dụng [11]

Trong bài tổng quan của Krishna các tác giả [22] vào năm 2012 còn đề cập

đến một số kỹ thuật khác như: kết hợp lý thuyết Dempster-Shafer với máy học

Bayesian; kỹ thuật lai giữa giải thuật BLAST và SSAHA; mô hình Markov ẩn;mạng norôn kiểu Bayes; giải thuật miễn dịch nhân tạo (Artificial Immune System);giải thuật k láng giéng gần nhất; giải thuật SVM (Support Vector Machine); giảithuật cây quyết định; hệ thống dựa trên logic mờ

1.2.3 Một số vấn đề trong nghiên cứu phát hiện gian lận thẻ

Qua tổng quan các công trình nghiên cứu, có thé thay hầu như tat cả các kỹ

thuật khai phá dữ liệu đều đã được áp dụng, thử nghiệm Các phương án kết hợp

nhiều kỹ thuật trong một hệ thống cũng đã được nghiên cứu Tuy nhiên cũng có ýkiến cho rằng các thuật toán phức tạp chưa chắc đã tốt hơn một giải pháp đơn giản

như máy học Bayes Một số nghiên cứu còn chú ý đến việc thiết kế một hệ thống

học phân tán nhằm kết nối tri thức từ các hệ thống đơn lẻ Mặc dù vậy, vẫn còn các

Trang 30

thách thức đối với ệc phát triển các hệ hồng phát hiện gian lận thẻ như:

- Khó tiếp cận với các dữ liệu giao dịch thẻ của ngân hàng, nhất là với các

giao dịch có gian lận Có nhiều nguyên nhân khác nhau nhưng có thể nêu hai

nguyên nhân chính là: vấn đề bảo mật dữ liệu của hệ thống và vấn dé uy tín củangân hàng Chính vì vậy nếu không có sự hợp tác chặt chẽ với ngân hàng thì khôngthé có được dữ liệu giao dich that và nếu có được dữ liệu giao dich thật thì cũngkhông thể chia sẻ một cách dễ dàng Một số nghiên cứu đã sử dụng tập dữ liệu phátsinh nhân tạo dé kiểm thử;

- Cũng vì không thé chia sẻ các tập dữ liệu kiểm thử nên hau hết các giải thuật

đề xuất không thể so sánh hiệu quả được;

- Việc kết nối giữa các hệ thống phát hiện gian lận của các ngân hàng khácnhau để trao đổi các trì thức khai thác được từ từng hệ thống riêng rẽ cũng gặpnhiều khó khăn Mặc dù việc kết nối rõ ràng sẽ làm tăng hiệu quả phát hiện gian lậnrat dang kể;

- Tội phạm gian lận thẻ vẫn không ngừng thay đổi các hành vi, thủ đoạn,phương pháp, do đó việc thích nghỉ với những thay đổi này đề duy trì hiệu quả của

hệ thống phát hiện gian lận cũng là một thách thức

Trong bối cảnh phát triển của hệ thống ngân hàng, của việc sử dụng thẻ trongthanh toán và thanh toán trực tuyến, một số ngân hàng ở Việt Nam với đội ngũ IT

của mình cũng đã và đang tự nghiên cứu phát triển hoặc cải tiến các phần mềm phát

hiện gian lận Tuy nhiên do tính bảo mật và nhạy cảm cao nên các ngân hàng ít đềcập đến việc họ sử dụng các phần mềm gì, nghiên cứu và áp dụng các kỹ thuật gì(nếu có) để phát hiện gian lận cũng ít được công bó Nhiều ngân hàng thì không đềcập đến việc họ có trang bị hệ thống phát hiện gian lận thẻ hay không Trong khi đó,

các điểm bán hàng chấp nhận thẻ lại chưa được chuẩn bị trước các hình thức gian

lận thẻ này và do đó nhiều doanh nghiệp đã trở thành nạn nhân của gian lận thẻ

Từ những vấn đề còn tổn tại nêu trên, đề tài sẽ tập trung nghiên cứu các kỹ

thuật đã được đề xuất phát hiện gian lận thẻ, nhằm nắm bắt được các ưu, nhượcđiểm của các kỹ thuật Nắm được các thông tin mà các kỹ thuật này sử dụng đề phát

hiện gian lận Từ đó, đề xuất phương pháp phát hiện gian lận thẻ sử dụng các kỹ

thuật khai phá dữ liệu và thiết kế hệ thống phát hiện gian lận thẻ

28

Trang 31

Chương 2 CÁC PHƯƠNG PHÁP PHÁT HIỆN GIAN LẬN THẺ

2.1 CÂY QUYET ĐỊNH - DECISION TREE

2.1.1 Giới thiệu về cây quyết định

- Cây quyết định (Decision Tree) là một cây phân cấp có cau trúc được dùng

đề phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng (ngoạitrừ thuộc tính phân lớp - Category Attribute) có thể thuộc các kiểu dữ liệu khác

nhau (Binary, Nominal, Ordinal, Quantitative Values) trong khi đó thuộc tinh phân

lớp phải có kiểu dữ liệu là Binary hoặc Ordinal

- Cây quyết định sẽ sinh ra các luật dé dự đoán lớp của các đối tượng nếu nhưđược cung cấp đữ liệu về thuộc tính của chúng

- Cây quyết định là một phương pháp phân lớp rất hiệu quả và dễ hiểu

- Ưu điểm:

+ Cây quyết định dé hiéu

+ Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết.+ Cây quyết định có thé xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị

là tên thê loại Cây quyết định là một mô hình hộp trắng

+ Có thể thầm định mô hình bằng các kiểm tra thống kê

+ Cây quyết định có thê xử lí một lượng lớn dữ liệu trong một khoảng thờigian ngắn

+ Khả năng sinh ra các quy tắc hiểu được:

Cây quyết định có khả năng sinh ra các quy tắc có thé chuyền đổi được sangdang tiéng Anh, hoặc các câu lệnh SQL Day là ưu điểm nổi bat của kỹ thuật này

Thậm chí với những tập dữ liệu lớn khiến cho hình dáng cây quyết định lớn

và phức tạp, việc di theo bat cứ đường nào trên cây là dễ dang theo nghĩa phổ biến

và rõ ràng Do vậy sự giải thích cho bat cứ một sự phân lớp hay dự đoán nào đều

tương đối minh bạch

+ Khả năng thực thi trong những lĩnh vực hướng quy tắc:

Điều này có vẻ hiển nhiên, nhưng quy tắc quy nạp nói chung và cây quyết

định nói riêng là lựa chọn hoàn hảo cho những lĩnh vực thực sự là các quy tắc

Rất nhiều lĩnh vực từ di truyền tới các quá trình công nghiệp thực sự chứa

Trang 32

các quy tắc ấn, không rõ rang do khá phức tap và tối nghĩa bởi những dữ liệu nhiễu.

Cây quyết định là một sự lựa chọn tự nhiên khi chúng ta nghi ngờ sự tồn tại của các

quy tắc an, không rõ ràng

+ Dễ dàng tính toán trong khi phân lớp Cây quyết định có thé chứa nhiềuđịnh dạng, nhưng trong thực tẾ, các thuật toán sử dụng để tạo ra cây quyết địnhthường tạo ra những cây với số phân nhánh thấp và các kiểm thử đơn giản tại từngnút Những kiểm thử điền hình là: so sánh số, xem xét phần tử của một tập hợp, vàcác phép nối đơn giản Khi thực thi trên máy tính, những kiểm thử này chuyềnthành các phép toán logic và số nguyên - những toán hạng thực thi nhanh và không.đất Đây là một ưu điểm quan trọng bởi trong môi trường thương mại, các mô hình

dự đoán thường được sử dụng dé phân lớp hàng triệu thậm trí hàng tỉ bản ghi

+ Khả năng xử lý với cả thuộc tính liên tục và thuộc tính rời rạc:

Cây quyết định xử lý “tốt” như nhau với thuộc tính liên tục và thuộc tính rờirạc Tuy rằng với thuộc tính liên tục cần nhiều tài nguyên tính toán hơn Nhữngthuộc tính rời rạc đã từng gây ra những vấn đề với mạng nơron và các kỹ thuậtthống kê lại thực sự dé dàng thao tác với các tiêu chuẩn phân chia trên cây quyết

định: mỗi nhánh tương ứng với từng phân tách tập dữ liệu theo giá trị của thuộc tính

được chọn để phát triển tại nút đó

Các thuộc tính liên tục cũng dễ dàng phân chia bằng việc chọn ra một số gọi

là ngưỡng trong tập các giá trị đã sắp xếp của thuộc tinh đó Sau khi chọn được

ngưỡng tốt nhất, tập dữ liệu phân chia theo việc kiểm thử nhị phân của ngưỡng đó

+ Thể hiện rõ ràng những thuộc tính tốt nhất Các thuật toán xây dựng câyquyết định đưa ra những thuộc tính dùng để phân chia tốt nhất tập dữ liệu huấnluyện bắt đầu từ nút gốc của cây Từ đó có thẻ thấy những thuộc tính nào là quan

trọng nhất cho việc dự đoán hay phân lớp

- Khuyết điểm:

+ Hiệu quả của việc phân lớp của cây quyết định phụ thuộc rất lớn vào tập dữ

liệu huấn luyện

+ Có rất nhiều thuật toán phân lớp như ID3, J48, C4.5, CART (Classification

and Regression Tree), Việc chọn thuật toán nao dé có hiệu quả phân lớp cao tùy

thuộc vào rất nhiều yếu tó, trong đó cấu trúc dữ liệu ảnh hưởng rất lớn đến kết quả

30

Trang 33

của các thuật toán Chẳng hạn như thuật toán ID3 và CART cho hiệu quả phân lớp.rất cao đối với các trường dữ liệu số trong khi đó các thuật toán như J48, C4.5 có

hiệu quả hơn đối với các dữ liệu ordinal, binary, nominal

+ Cây quyết định không thích hợp lắm với những bài toán với mục tiêu là dựđoán giá trị của thuộc tính liên tục như thu nhập, huyết áp hay lãi suất ngân hàng, Cây quyết định cũng khó giải quyết với những dữ liệu thời gian liên tục nếu không

bỏ ra nhiều công sức cho việc đặt ra sự biểu diễn dữ liệu theo các mẫu liên tục

+ Dễ xảy ra lỗi khi có quá nhiều lớp:

Một số cây quyết định chỉ thao tác với những lớp giá trị nhị phân dạng yes/nohay accept/reject Số khác lại có thể chỉ định các bản ghi vào một số lớp bat kỳ,nhưng dé xảy ra lỗi khi số mẫu huan luyện ứng với một lớp là nhỏ

Điều này xảy ra càng nhanh hơn với cây mà có nhiều tang hay có nhiều

nhánh trên một nút.

+ Chỉ phí tính toán đắt dé dao tạo Cây quyết định có rất nhiều nút bên trong

trước khi đi đến lá cuối cùng Tại từng node, cần tính một độ đo (hay tiêu chuẩnphân chia) trên từng thuộc tính, với thuộc tính liên tục phải thêm thao tác sắp xếp lạitập dữ liệu theo thứ tự giá trị của thuộc tính đó Sau đó mới có thể chọn được mộtthuộc tính phát triên và tương ứng là một phân chia tốt nhất Một vài thuật toán sửdụng tổ hợp các thuộc tính kết hợp với nhau có trọng số đề phát triển cây quyết

định Quá trình cắt cụt cây cũng “đất” vì nhiều cây con ứng cử phải được tạo ra và

so sánh.

+ Trong lĩnh vực nghiên cứu về khai phá dữ liệu nói chung cũng như trongnghiên cứu về các thuật toán phân lớp nói riêng, vấn đề xử lý dữ liệu lớn ngày càngtrở thành van dé cấp thiết và đóng vai trò chủ đạo trong việc giải quyết các bài toán

thực tế Phần lớn các thuật toán phân lớp đã phát triển chỉ có thể giải quyết với một

số lượng dữ liệu có hạn cũng như với một độ phức tạp dữ liệu có giới hạn Trong

khi đó đữ liệu thu được ngày càng trở nên đa dang phong phú nhờ sự phát triển

mạnh mẽ của khoa học.

31

Trang 34

2.1.2 Các thuật toán về cây quyết định

Bảng 2.1 Một số thuật toán sử dụng trong Datamining

Tinh toán Diversity | Bài Gini Index | Uncertainity

Index info-gain coefficient

Decision Tree with

Constructs | Top-Down eersion concepts o

bo 8 using a based on pruning

Cat tia on cost- 4

sien single pass MDL based on

? algorithm principle thresholds

cuối cùng được đưa ra sau khi đã duyệt qua tat cả những thuộc tính liên quan trước

đó tuân theo những luật, ràng buộc được nêu ra).

- Một cây quyết định “tốt” là cây có mỗi nút lá tương ứng với một thuộc tính

mà thuộc tính đó có giá trị ý nghĩa tốt nhất trong toàn bộ những thuộc tính chưađược duyệt (tính từ nút gốc cho đến nút hiện tại) Tức là, muốn dự đoán giá trị củathuộc tính bằng cách dựa vào số lượng những nghỉ vấn nhỏ nhất trên tổng số những

32

Trang 35

nghỉ vấn trung bình (mức độ tin cậy và chính xác càng cao thì sẽ được chọn).

- Ưu điểm của thuật toán ID3

+ Sử dụng thuật toán tìm kiếm leo đổi dựa trên giá trị Gain để tìm kiếm các

thuộc tính trong toàn bộ cây quyết định

+ Đầu ra chỉ là một kết quả duy nhất

+ Không bao giờ gặp hiện tượng quay lui, có tính hội tụ cao.

+ Sử dụng dữ liệu huấn luyện ở từng bước, trái ngược với những thuật giảiphát triển mở rộng cây quyết định (có thé hạn chế được kích thước cây)

+ Sử dụng các thuộc tính tĩnh: hạn chế tối đa lỗi cho những bản ghi dữ liệuriêng lẻ, có thê ảnh hưởng tới toàn bộ dự án

+ Kiểm soát được dữ liệu rác, dữ liệu tạp bên ngoài bằng cách giảm bớt yêucầu tiêu chuẩn cho việc chấp nhận những dữ liệu chưa hoàn chỉnh

- Xây dựng Cây quyết định:

+ Cây được thiết lập từ trên xuống dưới (phương pháp top-down)

+ Các mẫu huắn luyện nằm ở gốc của cây

+ Chọn một thuộc tính để phân chia thành các nhánh Thuộc tính được chọndựa trên độ đo thống kê hoặc độ đo heuristic (giá trị Entropy, Info-Gain) Với từng

thuộc tính, giá trị Gain nào thấp nhất trong tập các thuộc tính chưa được xét thì sẽ

được chọn đưa vào cây ở bước đó Ta có thể hiểu cách lựa chọn đó chính là nhằm

mục đích tạo ra một cây nhỏ nhất có thể, giá trị Gain càng nhỏ có nghĩa là thuộc

tính đó có lợi nhất cho quá trình phân lớp

+ Tiếp tục lặp lại việc xây dựng cây quyết định cho các nhánh

+ Điều kiện dừng:

Tất cả các mẫu rơi vào một nút thuộc về cùng một nút lá

Không còn thuộc tính nào có thé dùng dé phân chia mẫu nữa

Không còn lại mẫu nào tại nút.

- Những khuyết điểm của thuật toán ID3:

+ Chỉ thích hợp với mô hình có lượng dữ liệu ít, rời rạc.

+ Không thích ứng được với những tập dữ liệu tạp vì dễ phát sinh lỗi.

+ Không hiệu quả khi xuất hiện những dữ liệu không mong muốn

+ Cây quyết định khi được xây dựng vẫn còn có thé lớn, rườm rà, chưa được

33

Trang 36

tối ưu ở mức tối đa có thé.

2.1.2.2 Thuật toán C4.5 (J48)

- Thuật toán C4.5 là thuật toán phân lớp dữ liệu dựa trên cây quyết định hiệu

quả và phổ biến trong những ứng dụng khai phá cơ sở dữ liệu có kích thước nhỏ

- C4.5 sử dụng cơ chế lưu trữ dữ liệu thường trú trong bộ nhớ, chính đặc điểm

này làm C4.5 chỉ thích hợp với những cơ sở dữ liệu nhỏ, và cơ chế sắp xếp lại dữliệu tại mỗi node trong quá trình phát triển cây quyết định

- C4.5 còn chứa một kỹ thuật cho phép biểu diễn lại cây quyết định dưới dạngmột danh sách sắp thứ tự các luật if-then (một dạng quy tắc phân lớp dễ hiểu) Kỹ

thuật này cho phép làm giảm bớt kích thước tập luật và đơn giản hóa các luật mà độ

chính xác so với nhánh tương ứng cây quyết định là tương đương

- Tư tưởng phát triển cây quyết định của C4.5 là phương pháp HUNT - chiếnlược phát triển theo độ sâu

~ Mã giả của thuật toán C4.5:

Trang 37

- Điểm khác biệt của C4.5 so với các thuật toán khác là cơ chế chọn thuộc tính

đề kiểm tra tại mỗi nút, cơ chế xử lý với những giá trị thiếu, tránh việc tràn dữ liệu,

ước lượng độ chính xác và cơ chế cắt tỉa cây

- Ưu điểm của C4.5

+ C4.5 có cơ chế riêng trong xử lý những giá trị thiếu

Giá trị thiếu của thuộc tính là hiện tượng phổ biến trong dữ liệu, có thé do lỗikhi nhập các bản ghi vào cơ sở dữ liệu, cũng có thể do giá trị thuộc tính đó đượcđánh giá là không cần thiết đối với trường hợp cụ thể

Trong quá trình xây dựng cây từ tập dữ liệu đào tạo S, B là tập kiểm thử dựatrên thuộc tính A; với các giá trị đầu ra là bị, bạ, , by Tập So là tập con các trườnghợp trong S mà có giá trị thuộc tính A, không biết và S¡ biểu diễn các trường hợpvới đầu ra là b; trong tập kiểm thử B Khi đó độ do Information Gain của tập kiểmthử B giảm vì chúng ta không học được gì từ các trường hợp trong So.

|S—So|

Is]

G(S,B) = G (S So, B) (2.1)

Tương ứng với G(S, B), P(S, B) cũng thay đôi,

|So| |Sol t sil |Sil

P(@,B)=- i ( )- i= 1 e( ) 2.2) SBS Ygy 98 Isp)” 2=1 js} 198 Us| “

Hai thay đổi này làm giảm giá trị của tập kiểm thử liên quan đến thuộc tính có

tỉ lệ giá trị thiếu cao Nếu tập kiểm thử B được chọn, C4.5 không tạo một nhánhriêng trên cây quyết định cho Sp Thay vào đó, thuật toán có cơ chế phân chia cáctrường hợp trong Sp về vác tập con S; là tập con mà có giá trị thuộc tính kiểm thửxác định theo trong số ISj/ IS - Sol

+ Tránh “quá vừa” dữ liệu

“Quá vừa” đữ liệu là một khó khăn đáng kể đối với học bằng cây quyết định

và những phương pháp học khác Quá vừa dữ liệu là hiện tượng: nếu không có các

trường hợp xung đột (là những trường hợp mà giá trị cho mọi thuộc tính là giống

nhau nhưng giá trị của lớp lại khác nhau) thì cây quyết định sẽ phân lớp chính xáctoàn bộ các trường hợp trong tập dữ liệu đào tạo Đôi khi dữ liệu huấn luyện lạichứa những đặc tính cụ thể, nên khi áp dụng cây quyết định đó cho những tập dữliệu khác thì độ chính xác không còn cao như trước.

35

Trang 38

+ Chuyền đổi từ cây quyết định sang luật

Việc chuyên đổi từ cây quyết định sang luật dạng if-then tạo ra những quy tắc

phân lớp dé hiéu, dé áp dụng Các mô hình phân lớp biểu diễn các khái niệm dưới

dang các luật sản xuất đã được chứng minh là hữu ích trong nhiều lĩnh vực khácnhau, với các đòi hỏi về cả độ chính xác và tính hiểu được của mô hình phân lớp.Dang output tập luật sản xuất là sự lựa chọn “khôn ngoan” Tuy nhiên, tài nguyên

tính toán dùng cho việc tạo ra tập luật từ tập dữ liệu đào tạo có kích thước lớn và

nhiều giá trị sai là vô cùng lớn Khăng định này sẽ được chứng minh qua kết quả

thực nghiệm trên mô hình phân lớp C4.5.

+ C4.5 là một thuật toán hiệu qua cho những tập dữ liệu vừa và nhỏ.

C4.5 có cơ chế sinh cây quyết định hiệu quả va chặt chẽ bằng việc sử dụng độ

đo lựa chọn thuộc tính tốt nhất là Information Gain Các cơ chế xử lý với giá trị lỗi,thiếu và chống “qua vừa” dir liệu của C4.5 cùng với cơ chế cắt tỉa cây đã tạo nênsức mạnh của C4.5 Thêm vào đó, mô hình phân lớp C4.5 còn có phần chuyền đổi

từ cây quyết định sang luật dạng if-then, làm tăng độ chính xác và tính dễ hiểu củakết quả phân lớp Đây là tiện ích rất có ý nghĩa đói với người sử dụng

- Nhược điểm của C4.5 (và CART)

Sử dụng luật bình chọn số đông Thời điểm xây dựng cây quyết định, nếu nút

lá có chứa các phan tử dữ liệu của các lớp không thuần nhát, việc gán nhãn cho nút

14 được tính cho nhãn của lớp có số lượng phan tử lớn nhất chứa trong nút lá Xét ví

dụ, nút lá có chứa 14 phan tử trong đó lớp hình vuông có 9 phan tử và lớp hình tròn

có 5 phần tử Nút lá sẽ được gán nhãn là hình vuông do số phần tử lớp hình vuông.nhiều hơn hình tròn Chiến lược gán nhãn này làm cho luật quyết định không đượcchính xác Khi phân lớp, phần tử nào rơi vào nút lá đều được gán nhãn của nút lá

Vi vậy, phan tử p, q được gán nhãn là vuông Hiệu quả phân lớp không cao (phần tử

p có thể sai)

Mục tiêu của đề tài là sẽ phân loại được giao dịch nào là gian lận, giao dịch

nào là an toàn Như vậy, bài toán phát hiện gian lận thẻ chính là bài toán phân lớpgiao dịch: gian lận và an toàn Cây quyết định là một phương pháp phân lớp hiệu

quả và dễ hiểu Với đặc điểm sinh ra các luật để dự đoán lớp của các đối tượng nếu

như được cung cấp dữ liệu về thuộc tính của chúng Vì vậy, tác giả sẽ tiền hành thu

36

Trang 39

thập dữ liệu về các giao dịch thanh toán bằng thẻ với các thuộc tính giao dịch như:

ngày tháng giao dịch, họ tên giao dịch, số tiền giao dịch, dia chi IP thanh toán,

Sau đó, sẽ sử dụng thuật toán J4.8 để phân lớp giao dịch, vì thuật toán này rất hiệu

quả và phô biến trong ứng dụng khai phá dữ liệu có kích vừa và nhỏ Bên cạnh đó,thuật toán J4.8 còn chứa một kỹ thuật cho phép biểu diễn lại cây quyết định dướidạng một danh sách sắp thứ tự các luật IF - THEN (một dạng quy tắc phân lớp dễhiểu) Ngoài ra, thuật toán J4.8 còn có thé khắc phục lỗi phổ biến trong dữ liệu đó làlỗi thiếu giá trị Với những ưu điểm của cây quyết định và đặc điểm của dữ liệu giaodich thẻ, tác giả chọn thuật toán J4.8 dé giải quyết mục tiêu của dé tài

2.2 RANDOM FOREST

2.2.1 Giới thiệu

Random forest là một thuật toán đặc biệt dựa trên kỹ thuật lắp ghép Về mặtbản chất thuật toán RF được xây dựng dựa trên nên tảng thuật toán phân lớp CART

sử dụng kỹ thuật có tên gọi là bagging Kỹ thuật này cho phép lựa chọn một nhóm

nhỏ các thuộc tính tại mỗi nút của cây đề phân chia cho mức tiếp theo của cây phânlớp Bằng cách chia nhỏ không gian tìm kiếm thành các cây nhỏ hơn như vậy chophép thuật toán có thẻ phân loại một cách rất nhanh chóng cho dù không gian thuộctính rất lớn Các tham số đầu vào của thuật toán khá đơn giản bao gồm số các thuộctính được chọn trong mỗi lần phân chia Giá trị mặc định của tham số này là căn bậchai của p với q là số lượng các thuộc tính Tương tự như thuật toán CART, RE vẫn

sử dụng công thức Gini là công thức tính toán việc phân chia cây Số lượng câyđược tạo ra là không hạn chế và cũng không sử dụng bat kỳ kỹ thuật dé hạn chế mởrộng cây Chúng ta phải lựa chọn tham số cho biết số lượng cây (n tree) sẽ đượcsinh ra sao cho đảm bảo rằng sẽ mỗi một thuộc tính sẽ được kiểm tra một vài lần

Thuật toán sử dụng kỹ thuật OOB (out-of -bag) để xây dựng tập huấn luyện và

phương pháp kiểm tra trên nó

Rừng ngẫu nhiên gồm một tổ hợp các cây quyết định không cắt nhánh Mỗi

cây quyết định được xây dựng bởi thuật toán CART trên tập mẫu bootstrap (laymẫu ngẫu nhiên có hoàn lại) từ tập dữ liệu ban đầu Tai mỗi nút, một phân hoạch tốt

nhất được thực hiện dựa trên thông tin trong một không gian con các thuộc tính

được chọn ngẫu nhiên từ không gian thuộc tính ban đầu RF tổng hợp kết quả dự

37

Trang 40

đoán của các cây quyết định làm kết quả cuối cùng.

Rừng ngẫu nhiên (được mô tả trong hình 2.2) tạo ra một tập hợp các cây quyết

định không cắt nhánh, mỗi cây được xây dựng trên tập mẫu bootstrap, tại mỗi nút

phân hoạch tốt nhất được thực hiện từ việc chọn ngẫu nhiên một tập con các thuộc

tính.

Tạp đỡ liệu học LS

Hình 2.2 Minh họa về rừng ngẫu nhiên, [4]

2.2.2 Thuật toán RE

Về cơ bản thuật toán Random Forest (RF) — rừng ngẫu nhiên dựa trên kỹ thuật

cây quyết định Ý tưởng của RF chúng ta có thể liên tưởng tới việc bau cử theo

nguyên tắc phổ thông đầu phiếu Nếu sử dụng một cây quyết định chăng khác nàoviệc bầu cử mà chỉ có 1 người bỏ phiếu Việc sinh các cây quyết định từ một mẫu

dữ liệu nhằm đa dang hoá các “phiếu bầu” (giống như việc mọi thành phan, tang

lớp, giai cấp đều được đi bỏ phiếu) cho kết luận Việc áp dung các kỹ thuật sinh racác mẫu dữ liệu hay việc lựa chọn rẽ nhánh ngẫu nhiên sẽ tạo ra các cây “dị tật”trong rừng (giống việc cho phép công dân không can phân biệt trình độ học van, sức

khỏe đi bầu cử) Càng nhiều loại hình, càng nhiều phiếu bầu sẽ cung cấp chochúng ta cái nhìn đa chiều, chỉ tiết hơn và do đó kết luận sẽ có tính chính xác, gần

với thực tế hơn

Định nghĩa: Một RF là bộ phân loại gồm một tập các bộ phân loại có cấu hình

cây {h(x, Ox), k=l, } trong đó {Ox} là các vectơ ngẫu nhiên, độc lập, có cùng phân

phân bồ xác suất, mỗi cây bầu cử một phiếu cho lớp phổ biến nhất tại đầu vào x

38

Ngày đăng: 08/11/2024, 17:32

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN