Bên cạnh đó còn có tồn tại các phương thức lừa đảo như: làm giả thẻ, cấu kếtvới các đơn vị chấp nhận thẻ dé thanh toán khống; sử dụng thông tin thé trộm cắp.được dé thanh toán hàng hóa,
Trang 1_ ĐẠI HỌC Quoc GIA TP HCM
TRUONG DAI HOC CONG NGHE THONG TIN
TDK CR
Dang Thi My Hanh
NGHIEN CUU VA XAY DUNG PHUONG PHAP PHAT HIEN GIAN LAN THE SU DUNG
CAC KY THUAT KHAI PHA DU LIEU
LUẬN VAN THẠC SĨ CAO HỌCNGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS Ngô Thanh Hùng
TP HO CHÍ MINH - NĂM 2016
Trang 2LỜI CẢM ƠN
Trong quá trình học tập và làm luận văn tốt nghiệp cao học, được sự giúp
đỡ của quý thay, cô giáo trường Đại học Công nghệ thông tin, đặc biệt là thay
TS Ngô Thanh Hùng, sự góp ý của các nhà khoa học, các nhà quản lý, bạn
bẻ, đồng nghiệp và cùng sự nỗ lực của bản thân Đến nay, tác giả đã hoàn
thành luận văn thạc sĩ với đê tài luận văn: “Nghién cứu và xây dựng phương pháp phát hiện gian lận thẻ sử dụng các kỹ thuật khai phá dữ liệu” chuyên ngành Khoa học máy tính.
Các kết quả đạt được là những đóng góp nhỏ về mặt khoa học cũng nhưthực tiễn trong việc phòng chống gian lận thẻ tín dụng Tuy nhiên, trongkhuôn khổ luận văn, do điều kiện thời gian và trình độ có hạn nên không thétránh khỏi những thiếu sót Tác giả rất mong nhận được những lời chỉ bảo vàgóp ý của quý thầy, cô giáo
Tác giả bày tỏ lòng biết ơn sâu sắc tới thay TS Ngô Thanh Hùng đãhướng dẫn, chỉ bảo tận tình và cung cấp các kiến thức khoa học cần thiết trongquá trình thực hiện luận văn Xin chân thành cảm ơn quý thầy, cô giáo thuộcKhoa Khoa học máy tính, phòng Đào tạo Sau Đại học trường Đại học Côngnghệ thông tin đã tạo mọi điều kiện thuận lợi cho tác giả hoàn thành tốt luậnvăn thạc sĩ của mình.
Tac giả chân thành cảm ơn các cán bộ công tác tại Cục C50 - Cục Phongchống tội phạm sử dụng công nghệ cao Bộ Công an cùng các cán bộ công táctại trường ĐHCSND, đã tạo điều kiện cung cấp các tài liệu liên quan và giúp
đỡ tác giả hoàn thành luận văn.
Hồ Chí Minh, ngày 26 tháng 10 năm 2016
Học viên
Đặng Thị Mỹ Hạnh
0
Trang 3LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bắt kỳ công trình nào khác
Học viên
Đặng Thị Mỹ Hạnh
Trang 4Chương 1 TÔNG QUAN VỀ GIAN LẬN VÀ BIỆN PHÁP PHÒNG
CHÓNG GIAN LẬN TRONG CÁC GIAO DỊCH THẺ
1.1 Tìm hiểu các hình thức gian lận thẻ
1.1.1 Khái niệm thẻ thanh toán
1.1.2 Phân loại thẻ thanh toán
1.1.3 Ưu điểm khi sử dụng thẻ thanh toán
1.1.4 Các hình thức gian lận thẻ
1.2 Các phương pháp phòng chồng gian lận thẻ
1.2.1 Một số biện pháp nghiệp vi
1.2.2 Tổng quan các nghiên cứu phát hiện gian lận
1.2.3 Một số vấn đề trong nghiên cứu phát hiện gian lận thẻ
Chương 2 CÁC PHƯƠNG PHÁP PHÁT HIỆN GIAN LẬN THẺ
2.1 Cây quyết định - Decision Tree
2.2 Random Forest
2.3 Mang Bayes
2.4 Ky thuat phat hién di thuong - Anomaly Detection enChuong 3 XAY DUNG PHUONG PHAP PHAT HIEN GIAN LAN THE3.1 Phat biểu bai toán
3.2 Giải pháp sử dụng hệ chuyên gia
3.3 Giải pháp sử dụng kỹ thuật khai phá dữ liệu
Trang 5Chương 4 XÂY DỰNG HỆ THÓNG PHÁT HIỆN GIAN LẬN
4.1 Thiết kế mô hình dữ liệu hướng đồ thị cho dữ liệu giao dịch trực tuyến 584.2 Thiết kế mô hình biéu diễn luật nghỉ vấn
4.3 Độ tin cậy của giao dịch
4.4 Xây dựng luật nghỉ vấn phát hiệ
4.5 Xây dựng hệ thống phát hiện gian lận thẻ
KET LUẬN VÀ KIÊN NGHỊ
TÀI LIỆU THAM KHẢO
PHỤ LỤC
Trang 6DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TÁT
TTKDTM: Thanh toán không dùng tiền mặt
DVCNT: Đơn vị chấp nhận thẻ
NHNN: Ngân hàng nhà nước
ATM: Automatic Seller Machine - Máy bán hàng tự động
POS: Point Of Sale - Điểm bán hàng
PIN: Personal Identification Number - Số ¡nh danh cá nhân
OTP: One Transaction Password - Mật khẩu giao dịch một lần
CNP: Card Not Present - Giao dịch không cần thẻ
BIN: Bank Identification Number - Số định danh ngân hàng
EDC: Electronic Data Capture
SVM: Support Vector Machine - Máy học hỗ trợ vecto
TT: Information Technology - Công nghệ thông tin
RE: Random Forest - Rừng ngẫu nhiên
OOB: Out of bag
Trang 7DANH MỤC CÁC BẢNG
Số hiệu bang Tên bảng Trang
21 Một sô thuật toán sử dụng trong Datamining 32 2.2 Bộ dit liệu huân luyện cho bài toán “Chơi tennis” 4I 3.1 Vi dụ về việc tính toán trường tông hợp 50
3.2 Vi dụ vê việc tính toán trường có định ky 51
31 Các nghiên cứu vé các kỹ thuật khác nhau trong gian lận 65
the tin dung
Trang 8DANH MỤC CÁC HÌNH VE, DO THỊ
S6 hiệu hình Tên hình Trang
21 Mã giả của thuật toán C4.5 34
22 Minh họa về rừng ngẫu nhiên 38
23 'Ví dụ vê mau dị thường 44
24 ‘Vi dụ về mau dữ liệu nguôn của kỹ thuật phát hiện dị thường 44
25 Vi dụ vê bản chat dữ liệu nguôn 45 2.6 Vi dụ vé dị thường theo hoàn cảnh 46
27 Vi dụ về day dị thường 46
28 Ma trận lớp dự đoán va lớp thực tê 47 2o Mô hình phát hiện xâm nhập mạng sử dụng kỹ thuật phát hiện m
dị thường 3.1 “Thuật toán xây dựng 3 trường mới cho tập dữ liệu giao dịch 54
32 TIÊN xử lý dữ liệu trong Weka: loại bỏ các trường không cân 55
thiet
33 Tiên xử ly dữ liệu trong Weka: thay đôi kiêu dữ liệu từ 56
Numeric sang Nomial 3.4 Kết quả sau khi tiên hành tiên xử lý dữ liệu trong Weka 56
41 Lich sử giao dịch trực tuyến của tập mau dữ liệu 58
42 Mô hình giao dịch trực tuyên dựa vào cơ sở dữ liệu đô thị 60
43 Mã giả của độ tin cậy đôi với một giao dịch 64
44 Mã gia đôi với các luật kiêm thử 65
45 Sơ đô thiệt kê hệ thông 65
46 Hệ quản trị cơ sở dữ liệu Neo4j 66
47 Danh sách thẻ tín dụng trong hệ thông 66
48 Lich sử giao dich va trạng thái gian lận của các giao dịch đôi 67
với từng thẻ tín dụng
49 Kiém tra giao dich 67
Trang 9MỞ DAU
Với những tác động mạnh mẽ của sự tiến bộ khoa học công nghệ, đặc biệt làlĩnh vực Internet và World Wide Web, nhiều năm gần đây tốc độ phát triển củaMarketing Online, E-commerce và phương thức thanh toán trực tuyến đã trở nên vôcùng phổ biến và ngày càng gia tăng Theo cùng những tiện ích mang lại từ thẻ thìthời gian gần đây tội phạm về thẻ cũng có chiều hướng gia tăng, dẫn đến việc matmát hàng tỷ đô mỗi năm trên toàn cầu, đồng thời ảnh hưởng đến uy tín và thươnghiệu của các tổ chức kinh doanh lẫn ngân hàng Trong số các hành vi gian lận tàichính trên Internet, gian lận thẻ tín dụng là hành vi tồn tại từ lâu đời, phổ biến, nguyhiểm nhất do mức độ sử dụng rộng rãi và tính tiện lợi của nó cung cấp cho kháchhàng Các rủi ro trong hoạt động thẻ ngày càng đa dạng và phức tạp như lấy cắpthông tin làm thẻ giả, bay thẻ, bay tiền, đảo ngược giao dịch
Với việc các giao dịch gian lận ngày càng xuất hiện nhiều hơn và tỉnh vi hơn,giả mạo giống với những giao dịch hợp pháp hơn, các mô hình và kỹ thuật kiểm trađơn giản hiện tại chưa đủ hiệu quả và thông minh đê phát hiện các giao dịch bat
thường Vì vậy, việc xây dựng các hệ thông cảnh báo rủi ro tinh vi hơn để đảm bao
các giao dịch thẻ được thực hiện một cách an toàn là cần thiết Do đó an ninh thẻhiện nay đang là thách thức với các ngân hàng và tô chức kinh doanh dịch vụ thanhtoán thẻ, đây là van dé thực tiễn thu hút sự quan tâm của nhiều nhà nghiên cứu và
các công ty bảo mật Bên cạnh đó, việc xây dựng hệ thống phát hiện gian lận sẽ góp
phần hạn chế tình hình gia tăng tội phạm sử dụng công nghệ cao hiện nay, đặc biệt
là tội phạm trong lĩnh vực thanh toán thẻ.
Theo báo cáo của Cục Cảnh sát phòng, chống tội phạm sử dụng công nghệ cao(C50) - Bộ Công an về tình hình, phương thức thủ đoạn hoạt động của tội phạmtrong lĩnh vực thanh toán thẻ hiện nay nỗi lên một số vấn dé lớn như:
Trong những tháng cuối năm 2014 và đầu năm 2015, loại tội phạm sử dụngthiết bị skimming nhỏ, mỏng gắn vào phía trong của khe cắm thẻ hoặc làm giả thiết
bị anti - skimming rồi lắp bên ngoài thiết bị anti - skimming của cây ATM có những
biểu hiện hoạt động mạnh trở lại tại các thành phố, khu du lịch từ miền trung trở
vào như Huế, Hội An, Nha Trang, Đà Lạt, Bình Thuận, Ninh Thuận, TP Hồ ChíMinh Các đối tượng phạm tội này thường có quốc tịch các nước Đông Âu như
Trang 10Bungari, Rumani, Nga
Thời gian qua C50 đã điều tra xác minh, làm rõ nhiều vụ các đối tượng lợi
dung sơ hở của người dùng dé lấy cắp thông tin thẻ, như: đối tượng Tran Văn Tuấn,
sinh năm 1989, quê Quảng Nam là nhân viên siêu thị Big C Đà Nẵng đã sử dụng
điện thoại lưu các thông tin trên hai mặt thẻ thanh toán của khách hàng Sau đó đôi
tượng này sử dụng thông tin có được đặt mua hàng trực tuyến tại một siêu thị điệnmáy trị giá hàng chục triệu đồng, yêu cầu chuyên hàng tới một địa chỉ bất kỳ đã
được đối tượng chọn từ trước và sử dụng tên giả dé nhận hang Đối tượng Nguyễn
Minh Khoa, sinh năm 1993, thường trú quận 1, Tp Hồ Chí Minh là nhân viên phục
vụ nhà hàng Thiên Phúc (đường Lý Tự Trọng, Q.1, Tp HCM), đã lợi dụng việc
máy POS - Point of Sale được bố trí ở xa vị trí của khách hàng sử dụng dịch vụ, đểchụp lại hai mặt trước và sau các thẻ tín dụng của khách Sau đó dùng các thông tinthẻ trộm cắp này dé nạp tiền vào tài khoản game và bán lại các tài khoản game này
để lấy tiền tiêu xài
Ngoài ra, trong tình hình hiện nay, công tác bảo mật tại các doanh nghiệp hoạt
động trong lĩnh vực thương mại điện tử, thanh toán trực tuyến còn phụ thuộc vàonăng lực tài chính cũng như trình độ của người làm công tác bảo mật nên vẫn tồn tạinhiều vấn đề mà tội phạm có thể lợi dụng để hoạt động với thủ đoạn như: kháchhàng khi dùng thẻ tín dụng mua hàng qua mạng sẽ phải điền thông tin thẻ của mìnhvào mục thanh toán đơn hàng Sau đó, thông tin thẻ tín dụng sẽ được lưu vào hệthống cơ sở dữ liệu của website Các đối tượng hacker sẽ tim lỗ hỗng của cácwebsite bán hàng trực tuyến có bảo mật yếu và tiến hành tan công đề đánh cắp co
sở dir liệu, trong đó bao gồm cả thông tin thé của khách hàng
Từ tháng 11/2014 đến 04/2015 cơ quan công an đã phát hiện bắt giữ nhiều vụ
sử dụng thẻ giả để rút tiền, trong đó nổi bật là vụ: ngày 15/11/2014, C50 phối hợp
Công an TP HCM, nhân viên bảo vệ siêu thị điện máy Nguyễn Kim và Ngân hàng
HSBC bắt quả tang đối tượng Ivan Slavov Rusev (37 tuổi, quốc tịch Bulgaria) dang
sử dụng thẻ giả rút tiền, trên người đối tượng này có 30 triệu đồng và 17 thẻ ATM
khác nhau Ngày 16/02/2015, bắt quả tang 02 đối tượng người Thỏ Nhĩ Ky là Cicek
Hakan va Igdi Emrah đang sử dụng thẻ giả dé rút tiền, khám xét trên người và nơi ở
của các đối tượng thu được rất nhiều thẻ ATM giả Ngày 16/08/2014, C50 phối hop
Trang 11với ngân hàng BIDV, nhân viên siêu thị điện máy (dienmay.com) để bắt một nhóm
đối tượng dùng thẻ giả để mua hàng Nhóm đối tượng gồm: Cao Trí Hiền, NguyễnMinh Hiếu, Nguyễn Khôi Nguyên, Vũ Hoàng Ánh, Thái Y Đạt; nhóm này đã góptiền mua thiết bị đọc, in thẻ MSR606, mua các thông tin thẻ với giá 6.75USD/Ithông tin thẻ Sau đó làm giả dé thanh toán tiền taxi, mua thẻ game, thẻ điện thoạitại các đơn vị chấp nhận thẻ (như siêu thị điện máy), thanh toán tiền khách sạn,
thanh toán tiền ăn uống, cafe, xem phim, rút tiền tại các điểm chấp nhận thẻ, Ngoài
ra, các đối tượng còn móc nồi với các lái xe taxi Vinasun quẹt khống và lấy tiền sau
đó ăn chia với lái xe Theo kết quả điều tra, số tiền ma các đối tượng này chiếm đoạt
đã lên đến hàng trăm triệu đồng
Bên cạnh đó còn có tồn tại các phương thức lừa đảo như: làm giả thẻ, cấu kếtvới các đơn vị chấp nhận thẻ dé thanh toán khống; sử dụng thông tin thé trộm cắp.được dé thanh toán hàng hóa, dịch vụ trực tuyến hoặc nạp tiền vào tài khoản game;mua bán, làm giả giấy tờ tùy thân đề mở tài khoản; thuê người mở thẻ, mua bán thẻ
giả chọn đề tài “Nghiên cứu và xây dựng phương pháp phát hiện gian lận thẻ sử:
dụng các kỹ thuật khai phá dit liệu '' làm đề tài luận văn thạc sĩ
Trước hiện trạng gian lận thẻ đang ngày một tỉnh vi, khó đề phòng hơn và với
tần số xuất hiện ngày càng tăng, với việc phát triển thương mại điện tử và thanhtoán trực tuyến ngày càng trở nên phô biến hơn thì việc phát triển các kỹ thuật ngăn
chặn, các hệ thống phát hiện gian lận là một yêu cầu cấp thiết Đề tài sẽ nghiên cứu
và xây dựng phương pháp phát hiện gian lận thẻ nhằm áp dụng cho các ngân hàng
Trang 12cũng như các điểm bán hàng chấp nhận thanh toán thẻ (đơn vị chấp nhận thẻ) ở Việt
Nam Đề tài có ý nghĩa thực tiễn lớn, góp phần giảm thiểu các rủi ro do gian lận thẻ
mang lại cho người sử dụng, các đơn vị chấp nhận thẻ và các ngân hàng, góp phần
hạn chế sự gia tăng tội phạm trong lĩnh vực này Thông qua đó giúp tăng độ tin cậycủa người dân vào các hình thức thanh toán điện tử, từ đó thúc đây thói quen thanhtoán điện tử, giúp nền kinh tế phát trién nhanh chóng
Về mặt khoa học, dé tài góp phần quan trọng trong việc nghiên cứu cácphương pháp phát hiện gian lận thẻ đã được đề xuất trong và ngoài nước, đồng thời
đề xuất thử nghiệm một phương pháp theo hướng tích hợp một số kỹ thuật khai phá
dữ liệu Đây là một đóng góp đáng ké trong lĩnh vực nghiên cứu này ở Việt Nam.Việc nghiên cứu sử dụng các phương pháp khai phá đữ liệu mới như RandomForest, và áp dụng các kỹ thuật phân tán đề có thể làm việc trên lượng dữ liệu lớn,cùng với việc nghiên cứu để xây dựng giải thuật phù hợp với các quy định của luậtpháp Việt Nam sẽ đem lại tính mới cho đề tài
Đề tài sẽ tập trung tìm hiểu các hình thức gian lận thẻ, các đặc điểm của mỗihình thức cũng như các biện pháp nghiệp vụ phát hiện gian lận của các ngân hàng,của các tô chức tài chính, các đơn vị chấp nhận thẻ, các quy định của Việt Nam cóliên quan; nghiên cứu các kỹ thuật phát hiện gian lận thẻ, nhằm nắm bắt được các
ưu, nhược điểm của các kỹ thuật Đề đạt được mục tiêu là nghiên cứu và xây dựngphương pháp phát hiện gian lận thẻ sử dụng các kỹ thuật khai phá dữ liệu, đề xuấtphương pháp phát hiện gian lận thẻ bằng cách tích hợp một số kỹ thuật khai phá dữliệu Đề tài chỉ tập trung vào gian lận thẻ tín dụng hoặc thẻ ghi nợ trong các giaodịch và thanh toán trực tuyến dùng thông tin của thẻ
Đề tài nghiên cứu sẽ được chia làm 04 chương:
Chương 1 Tổng quan về gian lận và biện pháp phòng chống gian lận trong
các giao dịch thẻ
Chương 2 Các phương pháp phát hiện gian lận thẻ
Chương 3 Xây dựng phương pháp phát hiện gian lận thẻ
Chương 4 Thiết kế hệ thông phát hiện gian lận thẻ
10
Trang 13Chương 1 TONG QUAN VE GIAN LAN VÀBIỆN PHÁP PHÒNG CHÓNG GIAN LẬN TRONG CÁC GIAO DỊCH THẺ
1.1 TÌM HIẾU CÁC HÌNH THỨC GIAN LAN THẺ
1.1.1 Khái niệm thẻ thanh toán
Việc sử dụng tiền mặt dé thanh toán dang trở thành van dé cản trở sự pháttriển của thương mại điện tử nói riêng và của cả nền kinh tế nói chung Về phíaquản lý nhà nước, thanh toán bằng tiền mặt có những bat lợi như: tăng chi phí xã
hội cho các hoạt động thanh toán (in, vận chuyền, bảo quản, kiểm đếm, ); khó
kiêm soát, phát hiện được tham nhũng; rửa tiền, trốn thuế, vấn nạn tiền giả Vì vậy
các chính phủ đã khuyến khích và dần luật hóa việc TTKDTM Các hình thức thanh
toán không dùng tiền mặt như thanh toán trực tuyến, thanh toán chuyển khoản,thanh toán quẹt thẻ, thanh toán bằng ví điện tử, là hình thức thanh toán tríchchuyền vốn trên tài khoản từ tài khoản của người phải trả sang tài khoản của ngườithụ hưởng, hoặc bằng cách bù trừ lẫn nhau thông qua vai trò trung gian của ngânhàng và các tô chức tài chính khác Không chỉ có vai trò đối với các cơ quan quản
lý nền kinh tế, TTKDTM còn có vai trò to lớn đối với người tiêu dùng vì tạo điềukiện cho quá trình thanh toán được tiến hành nhanh chóng, không phụ thuộc vàothời gian, khoảng cách địa lý, từ đó góp phần thúc đây và lưu thông hàng hóa [7]
Ngày 22/11/2012, nhà nước Việt Nam đã ra nghị định số 101/2012/NĐ-CP về
việc TTKDTM nhằm quy định về hoạt động này, bao gồm: mở và sử dụng tàikhoản thanh toán; dịch vụ thanh toán không dùng tiền mặt; dịch vụ trung gian thanhtoán; tổ chức, quản lý và giám sát các hệ thống thanh toán Sau đó, ngân hàng Nhànước Việt Nam đã ban hành Thông tư số 46/2014/TT - NHNN, ngày 31/12/2014 về
việc hướng dẫn về dịch vụ thanh toán không dùng tiền mặt
TTKDTM còn có thé được hiểu là cách thức thanh toán trong đó không có sự
xuất hiện của tiền mặt mà việc thanh toán được thực hiện bằng cách trích chuyền
trên các tài khoản của các chủ thể liên quan đến số tiền phải thanh toán HoặcTTKDTM là phương thức thanh toán không trực tiếp dùng tiền mặt mà dựa vào các
chứng từ hợp pháp như giấy nhờ thu, giấy ủy nhiệm chi, séc dé trích chuyển vốn
tiền tệ từ tài khoản của tổ chức, đơn vị, cá nhân này sang tài khoản của tổ chức, đơn
in
Trang 14vị, cá nhân khác thông qua hệ thống ngân hàng.
Thẻ thanh toán (thẻ chỉ trả) có thé hiéu là một phương tiện thanh toán tiền mua
hàng hoá, dịch vụ hoặc có thể được dùng để rút tiền mặt tại các ngân hàng đại lý
hoặc các máy rút tiền tự động Hoặc là một loại thẻ giao dịch tài chính được pháthành bởi ngân hàng, các tô chức tài chính hay các công ty Cũng có thể hiểu là mộtphương tiện TTKDTM mà người chủ thẻ có thé sử dụng dé rút tiền mặt hoặc thanhtoán tiền mua hàng hoá, dịch vụ tại các điểm chấp nhận thanh toán bằng thẻ Cụ thểhơn thẻ thanh toán là phương thức ghi số những số tiền cần thanh toán thông quamáy đọc thẻ phối hợp với hệ thông mang máy tính kết nối giữa ngân hang/t6 chứctài chính với các điểm thanh toán Nó cho phép thực hiện thanh toán nhanh chóng,thuận lợi và an toàn đối với các thành phần tham gia thanh toán Tóm lại tính chấtcủa thẻ thanh toán là một phương thức thanh toán mà người sở hữu thẻ có thé ding
để thanh toán tiền mua hàng hoá dịch vụ hay rút tiền mặt tự động thông qua máyđọc thẻ hay các máy rút tiền tự động
1.1.2 Phân loại thẻ thanh toán
Thẻ thanh toán có thé được phân loại theo công nghệ sản xuất, theo chủ théphát hành, theo tính chất thanh toán của thẻ, theo phạm vi lãnh thô
1.1.2.1 Theo công nghệ sản xuất
Có 3 loại thẻ thanh toán theo công nghệ sản xuất, bao gồm:
Thứ nhất, thẻ khắc chữ nồi (Embossing Card) là loại thẻ dựa trên công nghệ
khắc chữ nồi Hiện nay, trên thị trường không còn sử dụng loại thẻ này nữa vì kỹ
thuật quá thô sơ dé bị giả mạo.
Thứ hai, thẻ băng từ (Magnetic Stripe) là loại thẻ dựa trên kỹ thuật thư tín vớihai băng từ chứa thông tin đằng sau mặt thẻ Thẻ này đã được sử dụng phổ biếntrong 20 năm qua, nhưng đã bộc lộ một số nhược điểm: do thông tin ghi trên thẻkhông tự mã hoá được, thẻ chỉ mang thông tin cố định, không gian chứa dữ liệu ít,không áp dụng được kỹ thuật mã hoá, bảo mật thông tin.
Thứ ba, thẻ thông minh (Smart Card) là loại thẻ thế hệ mới nhất của thẻ thanhtoán, thẻ có cấu trúc hoàn toàn như một máy vi tính trong đó ngoài những thông tin
về mã thẻ, số tiền còn có thêm những thông tin của cá nhân chủ thẻ như địa chỉ, số
điện thoại, nhóm máu, bệnh mãn tinh
12
Trang 151.1.2.2 Theo tính chất thanh toán của thé
Theo tính chất thanh toán của thẻ, thì thẻ thanh toán được chia làm 3 loại sau:
Thứ nhất, thẻ tín dụng (Credit Card) là loại thẻ được sử dụng phổ biến nhất,
theo đó người chủ thẻ được phép sử dụng một hạn mức tín dụng không phải trả lãi
để mua sắm hang hoá, dịch vụ tại những cơ sở kinh doanh, khách sạn, sân bay, chấp nhận loại thẻ này Gọi đây là thẻ tín dụng vì chủ thẻ được ứng trước một hạnmức tiêu dùng mà không phải trả tiền ngay, chỉ thanh toán sau một kỳ hạn nhất
định Cũng từ đặc điểm trên mà người ta còn gọi thẻ tín dụng là thẻ ghi nợ hoãn
hiệu (Delayed Debit Card) hay chậm trả.
Thứ hai, thẻ ghi ng (Debit Card) đây là loại thẻ có quan hệ trực tiếp và gắnliền với tài khoản tiền gửi Loại thẻ này khi đợc sử dụng dé mua hàng hoá hay dich
vụ, giá trị những giao dịch sẽ được khấu trừ ngay lập tức vào tài khoản của chủ thẻthông qua những thiết bị điện tử đặt tại cửa hàng, khách sạn đồng thời chuyểnngân ngay lập tức vào tài khoản của cửa hàng, khách sạn Thẻ ghi nợ còn được sửdụng để rút tiền mặt tại máy rút tiền tự động Thẻ ghi nợ không có hạn mức tín dụng
vì nó phụ thuộc vào số dư hiện hữu trên tài khoản của chủ thẻ Có hai loại thẻ ghỉ
nợ cơ bản:
- Thẻ online: là loại thẻ mà giá trị những giao dịch được khấu trừ ngay lập tức
vào tài khoản chủ thẻ.
- Thẻ offline: là loại thẻ mà giá trị những giao dịch được khấu trừ vào tàikhoản chủ thẻ sau đó vài ngày.
Thứ ba, thẻ rút tiền mặt (Cash Card) là loại thẻ rút tiền mặt tại các máy rút tiền
tự động hoặc ngân hàng Với chức năng chuyên biệt chỉ dùng đê rút tiền, yêu cầuđặt ra đối với loại thẻ này là chủ thẻ phải ký quỹ tiền gửi vào tài khoản ngân hang
hoặc chủ thẻ được cấp tín dụng thấu chỉ mới được sử dụng Thẻ này có hai loại:
- Loại 1: chỉ rút tiền tại những máy tự động của ngân hàng phát hành
- Loại 2: được sử dụng để rút tiền không chỉ ở ngân hàng phát hành mà còn
được sử dụng dé rút tiền ở các ngân hàng cùng tham gia tô chức thanh toán vớingân hàng phát hành thẻ hoặc ở những POS như nhà hàng, siêu thị
1.1.2.3 Theo phạm vi lãnh thổ
Nếu phân loại theo phạm vi lãnh thể thì có thể chia làm 02 loại thẻ dưới đây:
13
Trang 16Thứ nhất, thẻ trong nước là thẻ được giới hạn trong phạm vi một quốc gia, do
vậy đồng tiền giao dịch phải là đồng bản tệ của nước đó
Thứ hai, thẻ quốc tế đây là loại thẻ được chấp nhận trên toàn thé giới, sử dụng
các ngoại tệ mạnh dé thanh toán
1.1.2.4 Theo chú thé phát hành
Sẽ có 02 loại thẻ thanh toán nếu như được chia theo chủ thé phát hành:
Thứ nhất, thẻ do ngân hàng phát hành (Bank Card) là loại thẻ do ngân hàngphát hành giúp cho khách hàng sử dụng một số tiền do ngân hàng cấp tín dụng
Thứ hai, thẻ do tổ chức phi ngân hàng phát hành: là loại thẻ du lịch và giải trícủa các tập đoàn kinh doanh lớn hoặc các công ty xăng dầu lớn, các cửa hiệu lớn phát hành như Diner's Club, Amex
1.1.3 Ưu điểm khi sử dụng thé thanh toán
Không thể phủ nhận những ưu điểm khi sử dụng thẻ thanh toán thay cho việcdùng tiền mặt Từ khi ra đời cho đến nay, hình thức thanh toán qua thẻ đã khẳngđịnh được vai trò của mình trong việc đáp ứng nhu cầu giao dịch ngày càng khắtkhe của khách hàng, tạo niềm tin, uy tín với khách hàng, đáp ứng yêu cầu phát triểncủa hệ thống ngân hàng, thúc đây phát triển thương mại cũng như nền kinh tế củađất nước và phù hợp với xu thế toàn cầu trong công cuộc hội nhập kinh tế quốc tế
Thứ nhất, thẻ thanh toán cho phép khách hàng tiếp cận với số dư trong tai
khoản của mình thông qua hệ thống kết nối trực tuyến dé thanh toán hàng hóa, dịch
vụ tại các đơn vị chấp nhận thẻ hoặc thực hiện các giao dịch liên quan tới tài khoảntại các máy ATM Hiện nay, các tổ chức đã chủ động kết nói hệ thống ATM vớinhau tạo nên một mạng ATM khu vực Hiện nay tất cả các máy ATM của tất cả cácngân hàng đã kết nói với nhau, cho phép khách hàng có thé rút tiền ở bat cứ máy
ATM nào Việc ra đời phương thức thanh toán điện tử là nhằm giảm áp lực việc lưu
thông tiền mặt trên thị trường Với phương thức thanh toán điện tử, các giao dịch
được giải quyết qua hệ thống ngân hàng thông qua hình thức chuyển khoản, qua đó
giúp mọi người tiết kiệm được về thời gian, chỉ phí đi lại Trước kia, các dịch vụngân hàng chủ yếu được giao dịch trực tiếp tại ngân hàng Sau khi thẻ thanh toán ra
đời, các hoạt động ngân hàng truyền thống được chuyển hoá dần thành chức năng
của thẻ Theo số liệu thống kê, cả nước có khoảng 20 ngân hàng phát hành thẻ;
14
Trang 1714.000 điểm chấp nhận thẻ và 3,5 triệu thẻ thanh toán Tốc độ phát triển nhanh
trong một thời gian ngắn của thị trường thẻ tại Việt Nam kèm theo sự phô cập ngày
càng rộng rãi của mạng internet dự kiến sẽ góp phần làm giảm tối đa lượng tiền mặt
trong lưu thông.
Thứ hai, hình thức này còn có thêm ưu điểm là giúp cho hoạt động của ngânhàng phù hợp với thông lệ quốc tế và có điều kiện đề các ngân hàng thương mại mởchỉ nhánh hoạt động ở các nước phát triển, qua đó day mạnh việc thu hút vốn dau tưnước ngoài Đồng thời, thanh toán qua thẻ sẽ làm giảm tỷ trọng tiền mặt trong lưuthông, do đó giúp kiềm chế lạm phát và các tiêu cực trong xã hội
Thứ ba, thẻ ghi nợ cũng là một cách thanh toán ít rủi ro hơn so với việc thanh
toán bằng tiền mặt trực tiếp, do tài khoản bị mã khoá và chỉ có thể tiếp cận tàikhoản này nếu nhập đúng mã số pin, bằng cách nhập mã số cá nhân (PIN - PersonalIdentification Number), chủ thẻ có thể tiếp cận tài khoản cá nhân của mình tại ngânhàng mọi nơi, mọi lúc, 24/24 mỗi ngày và 7 ngày trong tuần ATM đã cung cấp cho
khách hàng sử dụng thẻ khả năng giao dịch ngoài giờ làm việc, ngoài ngân hàng và khả năng tự phục vụ.
Thứ tư, thẻ thanh toán có thé kết hợp nhiều dich vụ trong đời sống hàng ngàycủa người dân liên quan tới tài chính và hình thức thanh toán tiện dụng Ngày nay,các hộ gia đình có thể thanh toán tiền điện, tiền nước, chỉ phí sinh hoạt, mua sắm,
qua thẻ thanh toán mà không cần tới các cửa hàng, các điểm thu cước Các doanh
nghiệp có thé trả lương cho các nhân viên mà không cần đưa trực tiếp, trả lương qua
thẻ thanh toán giúp minh bạch hoá thu nhập cá nhân của các nhân viên Các trường
đại học có thé thu học phí thông qua hệ thống ngân hàng đăng kí mà không cần trựctiếp tới trường để nộp, giúp phụ huynh kiểm soát được hành vi của con em học xa
1.1.4 Các hình thức gian lận thẻ
Tuy mang lại nhiều tiện ích khi sử dụng thẻ để thanh toán thay cho tiền mặt
nhưng việc thanh toán bằng thẻ cũng tiềm ẩn những rủi ro cho các bên giao dịch
cũng như ngân hàng phát hành thẻ Rủi ro này chủ yếu đến từ các hình thức gian lậnthẻ Các hình thức gian lận thẻ chủ yếu là giao dịch bằng thẻ đánh cắp hoặc bằng
thẻ làm giả với những thông tin đánh cắp được từ thẻ thật, hoặc thanh toán trực
tuyến với thông tin đánh cấp được từ thẻ thật Mỗi hình thức gian lận có những đặc
l5
Trang 18điểm riêng Hiểu được những đặc điểm đặc trưng của các hình thức gian lận sẽ gópphần giúp cho việc ngăn ngừa gian lận qua thẻ được chủ động và hiệu quả hơn Do
giới hạn của đề tài nên tác giả tập trung vào nghiên cứu các hình thức gian lận thẻ
tín dụng hoặc gian lận thẻ ghi nợ.
Theo tài liệu Credit card fraud and detection techniquers: a review [25], có các
hình thức gian lận thẻ tín dụng sau đây:
1.1.4.1 Bankruptcy fraud - gian lận phá sản (việc sử dung thẻ tín dụng
mà chủ thẻ không có khả năng thanh toán)
Gian lận phá sản là việc sử dụng thẻ tín dụng trong khi chủ thẻ biết rằng trongthẻ không còn tiền và ngân hàng phải đòi nợ bằng cách gửi hóa đơn đến địa chỉ của
họ Do giới hạn về phạm vi nghiên cứu của đề tài nên tác giả sẽ không nghiên cứuđặc điểm của hình thức này
1.1.4.2 Theft fraud/counterfeid fraud - gian lận bằng thẻ đánh cắp/thẻ gia maoGian lận bằng thẻ đánh cắp là hình thức sử dụng thẻ không phải thuộc quyền
sở hữu của bản thân Tội phạm sẽ trộm thẻ của bắt kỳ ai và dùng nhiều lần trước khithẻ đó bị khóa Chủ thẻ phát hiện và liên hệ với ngân hàng càng sớm thì ngân hàng
sẽ nhanh chóng dừng hoạt động của thẻ bị đánh cắp
Gian lận bằng thẻ giả mạo (thẻ được làm giả từ những thông tin đánh cắp được
từ thẻ thật) là hình thức sử dụng thẻ từ xa hay hiểu cách khác là chỉ có chỉ tiết của
thẻ được sử dụng (cụ thê là số thẻ và mã thẻ) Tội phạm sẽ sử dụng hai thông tin
này dé giao dịch qua trang web - nơi không cần phải sử dụng chữ ký điện tử và thẻ
vật lý.
Gian lận thẻ tín dụng là một sự đe doa đáng kể đến việc kinh doanh hàng hóahoặc các dịch vụ khác thông qua Internet Những nhà kinh doanh trực tuyến gặp rủi
ro khi yêu cầu khách hàng thanh toán bằng thẻ tín dụng Trong trường hợp này,
những kẻ gian lận sử dụng đữ liệu của thẻ tín dụng đánh cấp được hoặc thẻ giả và
kết quả là nhà kinh doanh bị mat tiền, được gọi là Charge — backs (người bán hang
hoàn lại số tiền vào tài khoản thẻ tín dụng hoặc thẻ ghi nợ của người mua) Khi đó,ngân hàng sẽ có một danh sách khách hàng sử dụng thẻ tín dụng vượt quá giới hạn
trong một ngày Đối với danh sách đó, những khách hàng này sẽ được liên lạc để
thông báo tình trạng trên và nếu như họ không điều chỉnh lại hoạt động của thẻ thì
16
Trang 19thẻ sẽ bị khóa Ngân hàng sẽ yêu cầu cơ quan an ninh cung cấp những báo cáo về
những khách hàng đã từng phạm tội, hay báo cáo về những giao dịch đáng ngờ
Những giao dịch có tính gian lận theo hình thức này sẽ rất khó đề phát hiện và
xác định Tuy nhiên, một lượng lớn các giao dịch qua ATM thuộc diện tình nghi vàđược yêu cầu liên hệ với khách hàng Việc mua một lượng hàng hóa với số lượngnhiều bất thường, việc chỉ trả không bình thường so với mọi khi sẽ được cảnh báođến khách hàng Những giao dịch gian lận sẽ được ngăn chặn khi chúng xảy ratrong khoảng thời gian rất ngắn Và một khi thẻ đã được xác nhận có nghỉ vấn thìthẻ sẽ bị khóa.
1.1.4.3 Application fraud - gian lận bằng những thông tin đánh cắp được
từ thé thật
Gian lận bằng những thông tin đánh cắp được từ thẻ thật được phát hiện khimột cá nhân nào đó cung cấp thông tin sai lệch về thẻ tín dụng Theo một địnhnghĩa khác về gian lận bằng những thông tin đánh cắp được từ thẻ thật, thì đây làmột hành động thuộc về nhận dạng tội phạm, xảy ra khi mẫu khai gồm những thongtin có vẻ hợp lý nhưng là giả mạo, hoặc thông tin là thật nhưng đó là những thôngtin đã bị đánh cắp
Để phát hiện gian lận kiểu này, cần cài đặt cho hệ thống phát hiện được nhữngthông tin khả nghỉ Và hệ thống cần phải phân biệt hai trường hợp: trường hợp thứ
nhất, khi những thông tin đến từ một cá nhân với những thông tin của thé tín dụng
hoàn toàn trùng khớp nhau thì đó gọi là bình thường; trường hợp thứ hai, khi nhữngthông tin đến từ những cá nhân khác nhau nhưng lại tương tự nhau gọi là phát hiện
có nghỉ vấn gian lận
Trong hầu hết các ngân hàng, dé được cung cấp một thẻ tín dụng, khách hàng
cần phải điền đầy đủ những thông tin theo mẫu có sẵn Bên cạnh những thông tin xã
hội thông thường thì mẫu khai còn chứa những thông tin trên giấy chứng minh nhân
dân (số chứng minh nhân dân, họ tên, ngày tháng năm sinh), thông tin về địa điểm
(địa chỉ nhà, mã vùng, thành phố, đất nước, địa chi e-mail, số điện thoại cô định, sốđiện thoại đi động), thông tin mật như mật khẩu và thông tin thêm như giới tính hay
tình trạng hôn nhân Tắt cả những thông tin này sẽ được dùng dé so khớp thông tin
Để xác định được trường hợp thứ nhất thì kỹ thuật thông dụng được cài đặt là
17
Trang 20Cross - matching, kỹ thuật này phổ biến hơn phương pháp thống kê Ví dụ, những
câu truy van don giản sẽ đưa ra kết quả nhanh chóng dé xác định thông tin về địa
điêm như “tên và ngày sinh và mã vùng và địa chỉ” hoặc “tên và địa chỉ và địa chỉ
e-mail và giới tính” Với những câu truy vấn này những cá nhân nào có nhiều hơnmột thẻ sẽ được xác nhận Tuy các câu truy vấn đơn giản nhưng sẽ loại bỏ đượcnhững trường hợp lặp trong hệ thống Khách hàng có thé điền lại thông tin địa chỉmới hoặc thay đổi một trong số những thông tin đã khai
Để xác định trường hợp thứ hai, đối tượng sẽ được phát hiện bởi việc cố ýđiền sai thông tin trong mẫu khai Cross - matching có cơ chế làm việc như sau: mỗikhi có một đối tượng nào đó thành công trong việc gian lận, chúng sẽ thử lặp lạihành vi đó với những nạn nhân khác; và khi đó Cross - matching sẽ phát hiện đượctội phạm Vì vậy, một vài khách hàng đã tiền hành gửi những thông tin chỉ tiết vàokho dữ liệu của ngân hàng trung tâm, hệ thống này sẽ có các thuật toán kết hợp đểxác định những đặc tính chung nhất Nhiều luật kết hợp sẽ được sử dụng và cónhiều trường hợp không đúng sẽ được tìm thấy
Có 3 cấp độ rủi ro đối với hành vi gian lận kiểu này:
- Cấp độ 1: rủi ro cao - đây là nhóm gồm các đối tượng với địa chỉ, mã vùnggiống nhau và ít nhất có một thẻ hoạt động tối thiểu là 10 lần
- Cấp độ 2: rủi ro trung bình - đây là nhóm gồm các đối tượng với địa chỉ, mãvùng giống nhau và ít nhất có một thẻ hoạt động từ 5 đến dưới 10 lần
- Cấp độ 3: rủi ro thấp - đây là nhóm gồm các đối tượng với địa chỉ, mã vùnggiống nhau và ít nhất có một thẻ hoạt động từ 2 đến dưới 5 lần
1.1.4.4 Behavioral fraud - Gian lận hành vi
Gian lận hành vi được thực hiện trực tuyến khi họ mua bất ky hàng hóa nào
bằng cách đồng ý với những thông tin trên thẻ của bắt kỳ thẻ tin dụng nào mà không
cần biết chủ thẻ Gian lận hành vi xảy ra khi chỉ tiết của những thẻ hợp pháp có
được một cách gian lận và hàng hóa giao dịch chủ yếu là điện thoại hoặc giao dịch
thương mại điện tử, những giao dịch này chỉ có những chỉ tiết của thẻ được yêu cầu
Gian lận hành vi có thể bị phát hiện bằng việc thực hiện đối chiếu số lần thẻ
được dùng dé gian lận so với số lần khách hang sử dụng thông thường Đối với quy
trình này, việc sử dụng tỉ số đối chiếu này để ngăn chặn gian lận cũng tương tự với
18
Trang 21việc sử dụng lợi nhuận hay khả năng chỉ trả hoặc mức thu nhập cá nhân Kết quả
của quy trình này sẽ là danh sách khách hàng thật và đối tượng gian lận Những đốitượng gian lận chuyên nghiệp sẽ tạo ra những thông tin trông có vẻ như thật Vìvậy, một vai tỉ số cho việc ngăn chặn gian lận là không đáng giá vì không thé phânbiệt được thông tin thật và thông tin gian lận Mặt khác, nếu sử dụng tỉ số cho việckiểm tra gian lận, có sử dụng thêm những mô hình tỉ số khác nhau cho việc kiểm tra
rủi ro tín dụng thì sẽ có hiệu quả hơn.
Để xây dựng một phiếu tỉ số, điều quan trong cần phải xác định hồ sơ củanhững khách hàng thuộc diện nghỉ vấn gian lận gồm tần suất sử dụng thẻ, loại hanghóa thường xuyên giao dịch, hình thức giao dịch, hồ sơ bán lẻ, số tiền sử dụng, lịch
sử số dư và sự chỉ trả, việc giao dịch nước ngoài, việc giao dịch theo ngày, tháng,
hoặc theo mùa.
Bên cạnh các hình thức gian lận đã được nêu ở trên, nếu phân chia gian lận thẻtín dụng theo hình thức thanh toán thì gian lận thẻ tín dụng có hai dạng: thứ nhất làgian lận offline, hình thức này đối tượng sẽ sử dụng thẻ đánh cắp được tại các ngânhàng hoặc bất kỳ nơi nào chấp nhận thẻ hoặc các máy ATM Thứ hai là gian lậnonline, hình thức này đối tượng sẽ sử dụng thẻ để thanh toán trực tuyến qua mạng,điện thoại, mua sắm trên các website, hoặc nơi không cần chữ ký của chủ thẻ
1.2 CÁC PHƯƠNG PHÁP PHÒNG CHÓNG GIAN LẬN THẺ
1.2.1 Một số biện pháp nghiệp vụ
Dé phòng chống gian lận thẻ (Card Fraud Prevention) trong các giao dịch trựctuyến, không cần thẻ vật lý (gian lận kiểu Card Not Present), các ngân hàng pháthành thẻ đã sử dụng thêm một trong các hình thức OTP (One-time Password) [36].Trong hình thức này password này sẽ được tạo ngẫu nhiên trên hệ thống máy chủcủa ngân hàng cho mỗi một giao dịch và gửi đến người dùng qua SMS hoặc email
đã đăng ký trước với ngân hàng (thường là gửi qua SMS) Chủ thẻ sẽ sử dụng
password này trong quá trình thanh toán để xác minh với ngân hàng rằng họ đã
chấp nhận thanh toán cho giao dịch này Bằng cách kết hợp thêm OTP, việc xácthực chủ thẻ được thực hiện hai lần, lần đầu là chủ thẻ phải cung cấp các thông tin
khác nhau của thẻ và lần thứ hai là cung cấp OTP Phương pháp này làm cho việc
gian lận kiểu gian lận không trực tiếp sử dụng thẻ (CNP - card not present) trở nên
19
Trang 22rất khó khăn Phương pháp này còn được gọi là phương pháp xác thực hai lớp (Two
Factor Authentication) Đối với các giao dịch cần sự tồn tại vật lý của thẻ, việc xácthực chủ thẻ được thực hiện thông qua mã PIN Bên cạnh đó cũng có những quyđịnh nghiêm ngặt về nghiệp vụ tại các điểm chấp nhận thẻ như phải có camera quaylại các giao dịch, các nhân viên giao dịch (nếu có) phải thực hiện so sánh đối chiếunhận dạng chủ thẻ với các tờ khác, được cấp bởi các cơ quan Nhà nước, nhưchứng minh nhân dân, hộ chiếu, lưu giữ các chứng từ về giao dịch và cả nhữngchứng từ về chủ thẻ (như bản sao chứng minh nhân dân) Tại các điểm chấp nhậnthanh toán thẻ, chủ thẻ còn được yêu cầu ký tên lên hóa đơn và chữ ký này đượcnhân viên đối chiếu với chữ ký mà chủ thẻ đã đăng ký với ngân hàng phát hành thẻ(Nghị định 35/2007/NĐ-CP về giao dịch điện tử trong hoạt động ngân hàng; Quyếtđịnh số 371/1999/QĐ-NHNNI về quy chế phát hành, sử dụng, thanh toán thẻ ngânhàng; Quyết định số 20/2007/QD-NHNN về quy chế phát hành, thanh toán, sử dung
và cung cấp dịch vụ hỗ trợ hoạt động ngân hàng)
Tình trạng gian lận thẻ ở Việt Nam ngày một gia tăng và gây tôn thất lớn, nhất
là giả mạo thẻ quốc tế, đến nỗi ngày 25/12/2014, Ngân hàng Nhà nước Việt Nam đã
có văn bản số 9626/NHNN-TT gửi NHNN chỉ nhánh tỉnh, thành phó và các tổ chứccung ứng dịch vụ thanh toán thẻ thực hiện phòng, chống việc thanh toán thẻ quốc tếgiả mạo [32] Trước tình hình tội phạm thẻ gia tăng như trên, để phòng ngừa và
giảm thiêu những thiệt hại có thể xảy ra cho ngân hàng cũng như khách hàng, các
ngân hàng cần rà soát lại quy trình, chính sách quản lý rủi ro trong từng khâu; có sựđầu tư hợp lý cho các giải pháp công nghệ hiện đại, hệ thống phòng ngừa, quản lýrủi ro Bên cạnh đó, cần có sự hỗ trợ, hợp tác từ các chủ thé tham gia hoạt động thẻ:đơn vị chấp nhận thẻ, chủ thẻ Cụ thể như sau:
tạo các DVCNT mới thành lập và thường xuyên đào tạo lại đối với toàn bộ các
DVCNT trên toàn hệ thống, đặc biệt là các ĐVCNT có độ rủi ro cao, là đối tượng
20
Trang 23nhắm tới của bọn tội phạm như: cửa hàng vàng bạc đá quý, đồng hồ, cửa hàng điện
thoại, điện tử
- Thường xuyên kiểm tra, giám sát hoạt động của DVNCT nhằm đảm bảoĐVCNT thực hiện đúng quy trình chấp nhận thanh toán thẻ, hạn chế chấp nhậnthanh toán thẻ không hợp lệ, thẻ giả Thường xuyên xem xét, kiểm tra nhằm pháthiện sớm các dấu hiệu vi phạm của DVCNT như: loại hình, ngành nghề kinh doanh,doanh thu bắt thường, quy mô hoạt động Thường xuyên cập nhật tình hình rủi ro vàcác mánh khoé mới của bọn tội phạm đến các ĐVCNT nhằm nâng cao tỉnh thầncảnh giác và hạn chế được gian lận Thường xuyên rà soát hoạt động của các ATM(đặc biệt là đối với các ATM dé trong hộp)
- Xây dựng các chương trình quản lý rủi ro trong nội bộ, đăng ký các chương.trình xác thực chứng từ đối với giao dịch không xuất trình thẻ (Verified by Visahoặc Master Card Secure Code).
- Sử dụng ATM với đầu đọc thẻ có các chức năng an ninh nâng cao ngăn chặngian lận skimming hoặc đầu tư trang bị các thiết bị phòng chống ATM Skimming
- Theo dõi các dữ liệu về tình trang lỗi của đầu đọc thẻ dé sớm nhận danghành vi gian lận thường xuyên; kiểm tra các máy ATM để phát hiện các thiết bị lạđược gắn trên, hoặc xung quanh ATM
- Điều tra các máy ATM có lượng rút tiền mặt lớn bat thường so với các giao
dịch hàng ngày (cần phải tính đến trường hợp đó có phải vào kỳ nghỉ lễ hay nghỉ
cuối tuần).
- Cập nhật thông tin từ các hệ thống cảnh báo rủi ro của các tổ chức thẻ quốc
tế Cảnh báo, thông tin, nâng cao hiểu biết cho chủ thẻ, có ý thức dé ý và phát hiệncác thiết bị lạ được gắn trên, hoặc xung quanh ATM như cung cấp tài liệu hướng
dẫn về bảo mật và an toàn cho khách hàng; đưa các thông tin cảnh báo về an ninh
giao dịch trên màn hình ATM, hoá đơn khách hàng của ATM, đồng thời nâng cao
hiểu biết của khách hàng về vị trí các bộ phận chủ yếu của ATM như đầu đọc thẻ,
bàn phím nhập PIN, màn hình để tránh sử dụng các thiết bị giả gắn Vào máy
- Trang bị camera tại ATM và giám sát các camera 24/7 dé phát hiện các hành
vi phá hoại.
- Đối với các ATM đã bị hư hỏng, phải khắc phục sự cố đảm bảo đạt theo các
Trang 24quy định về an toàn kỹ thuật của ATM, không đưa vào vận hành các ATM chỉ
được sửa chữa tạm thời.
- Trong quá trình thẩm định hồ sơ cần lưu ý các trường hợp sau:
+ Chủ thẻ khai báo địa chỉ nhà/công ty không rõ ràng, tên công ty, số điệnthoại không chính xác hoặc trì hoãn việc cung cấp các thông tin hoặc gửi hồ sơ pháthành không đây đủ
+ Chủ thẻ chính không có mối n hệ trực tiếp với chủ thẻ phụ
+ Thông tin tài chính mà chủ thẻ cung cấp không tồn tại, hay không chính xác.1.2.1.2 Tại đơn vị chấp nhận thẻ
- Thực hiện đúng quy trình chấp nhận thanh toán thẻ đối với từng loại hìnhgiao dịch (giao dịch sales, rút tiền mặt, giao dịch key-in, giao dịch Moto )
- Áp dụng các phương pháp phát hiện thẻ giả: kiểm tra can thận các yếu tổ antoàn của thẻ, gọi điện về ngân hàng thanh toán kiểm tra số BIN (Bank Identification
Number) của ngân hàng phát hành thẻ
- Kiểm tra chứng minh nhân dân/hộ chiếu của chủ thẻ dé xác thực chủ thẻ (đốivới các giao dịch rút tiền mặt, giao dich tại DVCNT loại hình du lịch và giải trí -T&E - Travel & Entertainment, vàng bạc, đá quý )
- Chú ý thái độ đáng ngờ của chủ thẻ khi thực hiện giao dịch.
- Liên hệ với ngân hàng ngay khi phát hiện chủ thẻ/thẻ/giao dịch khả nghỉ.
- Tuyệt đối không bán/cung cấp thông tin thẻ/chủ thẻ/giao dịch thẻ cho bên
thứ ba Không thực hiện các giao dịch mà đơn vị không đăng ký cung cấp hàng hóa,
- Nên chú ý nhân viên thu ngân để phòng trường hợp thẻ của cá nhân bị quẹt
qua một thiết bị điện tử khác bất thường, hoặc tại máy chấp nhận thẻ có gắn thêmmột loại thiết bị lạ
- Không nên vứt hoá đơn giao dịch thẻ một cách bừa bãi ngay sau khi thực hiện giao dịch.
Trang 25- Cần chú ý đến mức độ đáng tin cậy và uy tín của các trang web cung cấp
hàng hoá dịch vụ, không nên cung cấp thông tin cá nhân một cách thiếu thận trong
khi truy cập vào những trang web mà minh không hiểu rõ
- Không nên tin tưởng vào một website lạ nào đó chi bởi vì website đó tuyên
bố là an toàn, hầu hết các trang web đen đều có gắng đưa ra các thủ đoạn trấn ankhách hàng đề nhằm đánh cắp dữ liệu thẻ
- Không tiết lộ số CVV2/CVC2/CAV2 (3 chữ số nhỏ in nghiêng, nằm ở mặtsau của thẻ, bên cạnh dai chữ ký và dưới dải từ) cho bat kỳ ai dé tránh rủi ro thongtin thẻ bị lợi dụng để thực hiện giao dịch qua mạng
- Nên đăng ky sử dụng dich vụ biến động số du qua SMS để thuận tiện theođõi các giao dịch được thực hiện từ số thẻ của mình
- Theo dõi xem có thiết bị lạ nào gắn vào khe đọc thẻ hoặc có nhiều cameracùng gắn tại một máy ATM Nếu thấy bề mặt ATM có lắp thêm các thiết bị khácthường, ngừng giao dịch và báo ngay cho ngân hàng.
- Khi nhập mật khâu nên có găng dùng tay che chắn và giữ khoảng cách an
toàn với những người xung quanh ATM.
- Không nên rút tiền tại các ATM vắng người qua lại, nhất là vào lúc trời tối
- Không nên dùng mat khẩu ATM là số điện thoại hoặc số chứng minh nhân
é đảm bảo an toàn
dân, không nên dùng cố định số mật khâu ATM, thay đổi
- Nên sử dụng dịch vụ SMS Banking (nếu có) dé nhận được thông báo về số
dư tài khoản qua tin nhắn SMS ngay khi có phát sinh giao dịch Bằng cách này,khách hàng có thé phát hiện những giao dịch nghỉ ngờ dé kịp thời ngăn chặn
- Không nên cung cấp thông tin thẻ cho những nguồn không an toàn, hoặcnhững người không quen biết Nên thường xuyên đổi mật khẩu, theo dõi tình trạng
tài khoản để kiểm kê và phát hiện những dấu hiệu giao dịch khả nghỉ nếu có
- Khi giao dịch mà bị nuốt thẻ, nên kiểm tra kỹ tình trạng của thẻ (xem thẻ có
bị nuốt thực sự hay không, hay chỉ bị kẹt mà không bị nuốt hẳn vào trong) Hãy liên
lạc ngay với ngân hàng hoặc công ty phát hành thẻ để được trợ giúp trong nhữngtrường hợp khan cap
- Nếu một người nào đó làm bạn mất tập trung tại máy ATM, hãy hoàn tất
việc bạn đang làm và lấy thẻ của bạn trước khi nói chuyện với họ Không nên nhận
Trang 26các sự “giúp đỡ” của người lạ khi thực hiện các giao dịch với ATM.
- Thông báo ngay cho ngân hàng khi phát hiện ATM bi phá hoại Không thực
hiện các giao dịch rút tiền khi thấy ATM đã bị phá hoại
1.2.2 Tổng quan các nghiên cứu phát hiện gian lận
Bên cạnh những biện pháp phòng ngừa gian lận thẻ tín dụng như trên, cũng
cần phải có những giải pháp công nghệ hiện đại, những hệ thống phòng ngừa, quản
lý rủi ro trong quá trình giao dịch bằng thẻ Chính vì vậy việc nghiên cứu, xây dựngphương pháp để phát hiện gian lận trong giao dịch thẻ nhằm kịp thời ngăn chặn cácgian lận này, giảm rủi ro cho các bên trong giao dịch, tăng uy tín của ngân hàngphát hành nói riêng, thương mại điện tử nói chung là một van đề có tính cấp thiết
Ngoài việc tăng cường các biện pháp phòng chống, các ngân hàng cũng trang
bị các phần mềm phát hiện gian lận (Card Fraud Detection), thường là các phầnmềm thương mại Khi các phần mềm này phát hiện các giao dịch nghi ngờ, đội ngũnhân viên xử lý sẽ nhanh chóng liên hệ với chủ thẻ dé xác minh, giải quyết van dé,
thường là liên hệ thông qua điện thoại.
Phần mềm Antifraud chống gian lận thẻ là một chương trình cung cấp miễnphí danh sách các địa chỉ email forwarding, webmail, một số đoạn mã cho phép tựđộng kiểm tra và so sánh địa chỉ email của người mua hàng qua mạng với danh sách
“Red flag” Danh sách này được cập nhật thường xuyên Chương trình còn lưu lại địa chỉ IP của máy tính đặt hàng Nhờ đó cho phép phát hiện các giao dịch đáng ngờ
và cập nhật danh sách red flag của các địa chỉ email, địa chỉ IP gian lận [2].
Phần mềm IVS của CyberSource chống gian lận thẻ cho phép phát hiện tựđộng các giao dịch nghỉ ngờ gian lận Phần mềm được xây dựng dựa trên các kỹthuật trí tuệ nhân tạo, hoạt động dựa trên sự phân tích các thông tin đặc trưng của
giao dịch như thời gian đặt hàng, địa chỉ IP, vị trí địa lý, nơi giao hàng và nhiều yếu
tố khác Chương trình sẽ kiểm tra dữ liệu, phân tích sự tương quan, phân tích độđáng ngờ của các giao dịch, so sánh với các mẫu đã từng được xác định là gian lận
Tw đó đưa ra các khuyến nghị dựa trên mức độ đáng ngờ của giao dịch [11].
Nhiều công trình nghiên cứu về gian lận thẻ đã được thực hiện và công bố từ
những thập niên cuối của thế kỷ 20, như:
Salvatore và các cộng sự đề xuất giải pháp kết hợp các máy phân lớp cơ sở bởi
Trang 27các tác nhân máy học dựa trên siêu dữ liệu (Java agent for meta-learning) Mỗi máy
phân lớp cơ sở hoạt động theo một thuật toán phân lớp nào đó và được sử dụng tại
một ngân hàng nào đó Nhờ các tác nhân máy học dựa trên siêu dữ liệu mà hệ thống
phát hiện gian lận liên kết giữa các ngân hàng có thể sử dụng các kết quả học đượctại mỗi ngân hàng để tăng cường hiệu quả phát hiện gian lận của cả hệ thống trongkhi vẫn giữ được bí mật về thuật toán phân lớp của các máy phân lớp cơ sở mà cácngân hang sử dụng cũng như dir liệu mà các ngân hàng dùng đề huấn luyện Trong
dự án này, các tác giả đã sử dụng tập dữ liệu với 500.000 mẫu tin về các giao dịchvới 20% mẫu tin là giao dịch gian lận do tổ chức liên doanh về công nghệ dịch vụtài chính - Financial Services Technology Consortium cung cấp Mỗi mẫu tin có 30trường và dài khoảng 137 bytes Nhóm tác giả đã thử nghiệm với các tổ hợp giải
thuật cho máy phân lớp cơ sở - giải thuật cho máy học dựa trên siêu dữ liệu khác
nhau từ 4 thuật toán là ID3, CART, RIPPER, Bayes và thấy rằng giải thuật cho máyhọc phân lớp cơ sở tốt nhất là RIPPER và CART, giải thuật cho máy học dựa trênsiêu liên kết là Bayes [28]
Aleskerov và các cộng sự đã đề xuất sử dụng kỹ thuật máy học dựa trên mangnơrôn dé phát hiện gian lận thẻ và xây dựng thành công ứng dụng CardWatch dựatrên phương pháp này Đáng chú ý là nhóm tác giả chỉ kiểm chứng kỹ thuật đề xuấttrên tập dữ liệu được sinh một cách nhân tạo [12].
Bentley đã đề xuất sử dụng giải thuật đi truyền với logic mờ và phân giao dịchthành 2 lớp: giao dịch nghi ngờ và giao dịch không bị nghỉ ngờ Thuật toán đượckiểm nghiệm trên tập dữ liệu của một ngân hàng địa phương với 4000 mẫu tin vềgiao dịch, mỗi mẫu tin chứa 96 trường nhưng thuật toán chỉ sử dụng 62 trường [15]
Năm 2011, Sandeep và các cộng sự đã đề xuất một mô hình lai giữa bộ lọcdựa trên hệ luật (rule-based), bộ cộng bằng chứng Dempster-Shafer và máy họcBayesian Trong đó đầu tiên giao dịch được đưa qua bộ lọc dựa trên hệ luật để xácđịnh mức độ nghi ngờ của nó dựa trên sự khác biệt với các mẫu giao dịch bìnhthường, sau đó kết quả được đưa qua bộ cộng bằng chứng Dempster-Shafer dé xácđịnh độ tin cậy ban dau cho giao dịch Nếu độ tin cậy này dưới ngưỡng thì giao dịch
sẽ được kiểm tra một lần nữa qua máy học Bayesian bằng cách so sánh nó với các
giao dịch gian lận hoặc giao dịch bình thường đã được học trước đó [29].
Trang 28Hetvi và các cộng sự năm 2013 đã đề xuất sử dụng giải thuật mạng nơrôn lan
truyền ngược dé khai phá dữ liệu về gian lận trong mua bán trực tuyến Nhóm tác
giả dé xuất sử dụng cả những thông tin chỉ tiết về sản phẩm, giá trị sản phẩm, loại
sản pham, trong hóa đơn mua hàng đề biết đúc kết thành những đặc điểm tronghành vi mua bán của chủ thẻ Nhờ đó phát hiện được giao dịch bất thường [19]
Năm 2013, John Akhilomen đã để xuất sử dụng các kỹ thuật khai phá dữ liệu
để phát hiện gian lận thẻ Trong bài báo tác giả đã mô tả về các kỹ thuật gian lậnqua thương mại điện tử bằng thẻ tín dụng như: tạo số thẻ và ngày hết hạn theo thuậttoán được một số ngân hàng sử dụng (Luhn) từ đó làm ra thông tin thẻ hợp lệ và sửdụng dé thanh toán; sử dụng các chương trình xâm nhập và theo đõi máy tinh dé lấythông tin thẻ tín dụng và sau đó sử dụng thông tin này dé mua bán trực tuyến; đánhcắp thông tin thẻ bằng cách gắn các chip theo dõi tại các máy ATM; theo dõi máytính người dùng và máy chủ bán hang dé nắm bắt các thói quen mua bán của người
sử dụng, sau đó giả giống trang mua bán mà người sử dụng hay vào, gửi thông tingiảm giá, lừa khách hàng thực hiện mua bán, nhập thông tin về thé và chúng cóđược thông tin thẻ; mua các thông tin về thẻ trên mạng và sử dụng; trộm thẻ vật lý, Tác giả đã dé xuất giải thuật phát hiện khác thường bằng mạng nơrôn, áp dụng cơchế học có giám sát và phân loại giao dịch thành 3 loại: hợp lệ, nghi ngờ và khônghợp lệ (hay gian lận) Trong quá trình nay, đầu tiên sẽ phát hiện điểm bat thườngcủa giao dịch so với giao dịch của chủ thẻ trong quá khứ, nếu không phát hiện bắtthường thì gán “hợp lệ” Nếu có thì so sánh tiếp với các giao dịch gian lận trong quákhứ, nếu có tương tự thi gan “gian lận”, nếu không thi gan là “nghỉ ngờ” Thông tinđược sử dụng để huấn luyện là: địa chỉ các website mà chủ thẻ thường thực hiện
mua bán trực tuyến, loại hàng hóa thường mua bán trực tuyến, giá trị hàng hóa, vị
trí địa lý của các giao dịch trước, địa chỉ giao hàng, email hoặc điện thoại sử dụng cho liên lạc Vì vị trí giao dịch được xác định thông qua máy tính truy cập nên được
thé hiện qua địa chi IP, tuy nhiên IP có thé giả mạo bằng proxy-server, do đó nếu có
phát hiện proxy server thì giao dịch được đánh dấu là “nghi ngờ” [20]
Nhiều bài báo thực hiện tổng quan các kỹ thuật đã được sử dụng trong các giảipháp phát hiện gian lận thẻ nói riêng và gian lận thương mại nói chung Clifton và
các cộng sự [16] năm 2010 đã liệt kê các đối tượng thực hiện gian lận, các loại và
Trang 29phân lớp lĩnh vực phát hiện gian lận từng được nghiên cứu, dữ liệu và phân bố của
dữ liệu được sử dụng, các cách đánh giá hiệu năng của giải pháp Tiếp đó các tác
giả cũng đã tổng kết các dạng máy học đã từng được sử dụng cho nghiên cứu về
phát hiện gian lận như:
- Kết hợp một số mô hình học có giám sát;
- Lai giữa mô hình học có giám sát và học không giám sát;
~ Mô hình học có giám sát ảo (semi-supervised);
- Mô hình học không giám sát đơn lẻ hoặc bội (kết hợp nhiều mô hình học
không giám sát) với nhau.
Adnan năm 2012 đã tổng quan các nghiên cứu, trong đó đã mô tả các kỹ thuậtđược sử dụng trong phát hiện gian lận thẻ trong các giao dịch có thẻ vật lý (offline) hoặc không có thẻ vật lý (online) như: mạng nơrôn (Neural Networks), khai pháluật kết hợp (Rule Induction), hệ chuyên gia (Expert System), lập luận theo tìnhhuống tương tự (Case-based Reasoning), giải thuật di truyền (Genetic Algorithms),lập trình quy nap (Inductive logic programming), hồi quy (Regression) Tác giảcũng đã có bảng tổng hợp các ưu và nhược điềm của từng kỹ thuật Tiếp đó, tác giả
đã trình bày các yếu tố ảnh hưởng đến hiệu quả của các kỹ thuật cũng như các độ đothể hiện hiệu quả của các kỹ thuật thường được sử dụng [11]
Trong bài tổng quan của Krishna các tác giả [22] vào năm 2012 còn đề cập
đến một số kỹ thuật khác như: kết hợp lý thuyết Dempster-Shafer với máy học
Bayesian; kỹ thuật lai giữa giải thuật BLAST và SSAHA; mô hình Markov ẩn;mạng norôn kiểu Bayes; giải thuật miễn dịch nhân tạo (Artificial Immune System);giải thuật k láng giéng gần nhất; giải thuật SVM (Support Vector Machine); giảithuật cây quyết định; hệ thống dựa trên logic mờ
1.2.3 Một số vấn đề trong nghiên cứu phát hiện gian lận thẻ
Qua tổng quan các công trình nghiên cứu, có thé thay hầu như tat cả các kỹ
thuật khai phá dữ liệu đều đã được áp dụng, thử nghiệm Các phương án kết hợp
nhiều kỹ thuật trong một hệ thống cũng đã được nghiên cứu Tuy nhiên cũng có ýkiến cho rằng các thuật toán phức tạp chưa chắc đã tốt hơn một giải pháp đơn giản
như máy học Bayes Một số nghiên cứu còn chú ý đến việc thiết kế một hệ thống
học phân tán nhằm kết nối tri thức từ các hệ thống đơn lẻ Mặc dù vậy, vẫn còn các
Trang 30thách thức đối với ệc phát triển các hệ hồng phát hiện gian lận thẻ như:
- Khó tiếp cận với các dữ liệu giao dịch thẻ của ngân hàng, nhất là với các
giao dịch có gian lận Có nhiều nguyên nhân khác nhau nhưng có thể nêu hai
nguyên nhân chính là: vấn đề bảo mật dữ liệu của hệ thống và vấn dé uy tín củangân hàng Chính vì vậy nếu không có sự hợp tác chặt chẽ với ngân hàng thì khôngthé có được dữ liệu giao dich that và nếu có được dữ liệu giao dich thật thì cũngkhông thể chia sẻ một cách dễ dàng Một số nghiên cứu đã sử dụng tập dữ liệu phátsinh nhân tạo dé kiểm thử;
- Cũng vì không thé chia sẻ các tập dữ liệu kiểm thử nên hau hết các giải thuật
đề xuất không thể so sánh hiệu quả được;
- Việc kết nối giữa các hệ thống phát hiện gian lận của các ngân hàng khácnhau để trao đổi các trì thức khai thác được từ từng hệ thống riêng rẽ cũng gặpnhiều khó khăn Mặc dù việc kết nối rõ ràng sẽ làm tăng hiệu quả phát hiện gian lậnrat dang kể;
- Tội phạm gian lận thẻ vẫn không ngừng thay đổi các hành vi, thủ đoạn,phương pháp, do đó việc thích nghỉ với những thay đổi này đề duy trì hiệu quả của
hệ thống phát hiện gian lận cũng là một thách thức
Trong bối cảnh phát triển của hệ thống ngân hàng, của việc sử dụng thẻ trongthanh toán và thanh toán trực tuyến, một số ngân hàng ở Việt Nam với đội ngũ IT
của mình cũng đã và đang tự nghiên cứu phát triển hoặc cải tiến các phần mềm phát
hiện gian lận Tuy nhiên do tính bảo mật và nhạy cảm cao nên các ngân hàng ít đềcập đến việc họ sử dụng các phần mềm gì, nghiên cứu và áp dụng các kỹ thuật gì(nếu có) để phát hiện gian lận cũng ít được công bó Nhiều ngân hàng thì không đềcập đến việc họ có trang bị hệ thống phát hiện gian lận thẻ hay không Trong khi đó,
các điểm bán hàng chấp nhận thẻ lại chưa được chuẩn bị trước các hình thức gian
lận thẻ này và do đó nhiều doanh nghiệp đã trở thành nạn nhân của gian lận thẻ
Từ những vấn đề còn tổn tại nêu trên, đề tài sẽ tập trung nghiên cứu các kỹ
thuật đã được đề xuất phát hiện gian lận thẻ, nhằm nắm bắt được các ưu, nhượcđiểm của các kỹ thuật Nắm được các thông tin mà các kỹ thuật này sử dụng đề phát
hiện gian lận Từ đó, đề xuất phương pháp phát hiện gian lận thẻ sử dụng các kỹ
thuật khai phá dữ liệu và thiết kế hệ thống phát hiện gian lận thẻ
28
Trang 31Chương 2 CÁC PHƯƠNG PHÁP PHÁT HIỆN GIAN LẬN THẺ
2.1 CÂY QUYET ĐỊNH - DECISION TREE
2.1.1 Giới thiệu về cây quyết định
- Cây quyết định (Decision Tree) là một cây phân cấp có cau trúc được dùng
đề phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng (ngoạitrừ thuộc tính phân lớp - Category Attribute) có thể thuộc các kiểu dữ liệu khác
nhau (Binary, Nominal, Ordinal, Quantitative Values) trong khi đó thuộc tinh phân
lớp phải có kiểu dữ liệu là Binary hoặc Ordinal
- Cây quyết định sẽ sinh ra các luật dé dự đoán lớp của các đối tượng nếu nhưđược cung cấp đữ liệu về thuộc tính của chúng
- Cây quyết định là một phương pháp phân lớp rất hiệu quả và dễ hiểu
- Ưu điểm:
+ Cây quyết định dé hiéu
+ Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết.+ Cây quyết định có thé xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị
là tên thê loại Cây quyết định là một mô hình hộp trắng
+ Có thể thầm định mô hình bằng các kiểm tra thống kê
+ Cây quyết định có thê xử lí một lượng lớn dữ liệu trong một khoảng thờigian ngắn
+ Khả năng sinh ra các quy tắc hiểu được:
Cây quyết định có khả năng sinh ra các quy tắc có thé chuyền đổi được sangdang tiéng Anh, hoặc các câu lệnh SQL Day là ưu điểm nổi bat của kỹ thuật này
Thậm chí với những tập dữ liệu lớn khiến cho hình dáng cây quyết định lớn
và phức tạp, việc di theo bat cứ đường nào trên cây là dễ dang theo nghĩa phổ biến
và rõ ràng Do vậy sự giải thích cho bat cứ một sự phân lớp hay dự đoán nào đều
tương đối minh bạch
+ Khả năng thực thi trong những lĩnh vực hướng quy tắc:
Điều này có vẻ hiển nhiên, nhưng quy tắc quy nạp nói chung và cây quyết
định nói riêng là lựa chọn hoàn hảo cho những lĩnh vực thực sự là các quy tắc
Rất nhiều lĩnh vực từ di truyền tới các quá trình công nghiệp thực sự chứa
Trang 32các quy tắc ấn, không rõ rang do khá phức tap và tối nghĩa bởi những dữ liệu nhiễu.
Cây quyết định là một sự lựa chọn tự nhiên khi chúng ta nghi ngờ sự tồn tại của các
quy tắc an, không rõ ràng
+ Dễ dàng tính toán trong khi phân lớp Cây quyết định có thé chứa nhiềuđịnh dạng, nhưng trong thực tẾ, các thuật toán sử dụng để tạo ra cây quyết địnhthường tạo ra những cây với số phân nhánh thấp và các kiểm thử đơn giản tại từngnút Những kiểm thử điền hình là: so sánh số, xem xét phần tử của một tập hợp, vàcác phép nối đơn giản Khi thực thi trên máy tính, những kiểm thử này chuyềnthành các phép toán logic và số nguyên - những toán hạng thực thi nhanh và không.đất Đây là một ưu điểm quan trọng bởi trong môi trường thương mại, các mô hình
dự đoán thường được sử dụng dé phân lớp hàng triệu thậm trí hàng tỉ bản ghi
+ Khả năng xử lý với cả thuộc tính liên tục và thuộc tính rời rạc:
Cây quyết định xử lý “tốt” như nhau với thuộc tính liên tục và thuộc tính rờirạc Tuy rằng với thuộc tính liên tục cần nhiều tài nguyên tính toán hơn Nhữngthuộc tính rời rạc đã từng gây ra những vấn đề với mạng nơron và các kỹ thuậtthống kê lại thực sự dé dàng thao tác với các tiêu chuẩn phân chia trên cây quyết
định: mỗi nhánh tương ứng với từng phân tách tập dữ liệu theo giá trị của thuộc tính
được chọn để phát triển tại nút đó
Các thuộc tính liên tục cũng dễ dàng phân chia bằng việc chọn ra một số gọi
là ngưỡng trong tập các giá trị đã sắp xếp của thuộc tinh đó Sau khi chọn được
ngưỡng tốt nhất, tập dữ liệu phân chia theo việc kiểm thử nhị phân của ngưỡng đó
+ Thể hiện rõ ràng những thuộc tính tốt nhất Các thuật toán xây dựng câyquyết định đưa ra những thuộc tính dùng để phân chia tốt nhất tập dữ liệu huấnluyện bắt đầu từ nút gốc của cây Từ đó có thẻ thấy những thuộc tính nào là quan
trọng nhất cho việc dự đoán hay phân lớp
- Khuyết điểm:
+ Hiệu quả của việc phân lớp của cây quyết định phụ thuộc rất lớn vào tập dữ
liệu huấn luyện
+ Có rất nhiều thuật toán phân lớp như ID3, J48, C4.5, CART (Classification
and Regression Tree), Việc chọn thuật toán nao dé có hiệu quả phân lớp cao tùy
thuộc vào rất nhiều yếu tó, trong đó cấu trúc dữ liệu ảnh hưởng rất lớn đến kết quả
30
Trang 33của các thuật toán Chẳng hạn như thuật toán ID3 và CART cho hiệu quả phân lớp.rất cao đối với các trường dữ liệu số trong khi đó các thuật toán như J48, C4.5 có
hiệu quả hơn đối với các dữ liệu ordinal, binary, nominal
+ Cây quyết định không thích hợp lắm với những bài toán với mục tiêu là dựđoán giá trị của thuộc tính liên tục như thu nhập, huyết áp hay lãi suất ngân hàng, Cây quyết định cũng khó giải quyết với những dữ liệu thời gian liên tục nếu không
bỏ ra nhiều công sức cho việc đặt ra sự biểu diễn dữ liệu theo các mẫu liên tục
+ Dễ xảy ra lỗi khi có quá nhiều lớp:
Một số cây quyết định chỉ thao tác với những lớp giá trị nhị phân dạng yes/nohay accept/reject Số khác lại có thể chỉ định các bản ghi vào một số lớp bat kỳ,nhưng dé xảy ra lỗi khi số mẫu huan luyện ứng với một lớp là nhỏ
Điều này xảy ra càng nhanh hơn với cây mà có nhiều tang hay có nhiều
nhánh trên một nút.
+ Chỉ phí tính toán đắt dé dao tạo Cây quyết định có rất nhiều nút bên trong
trước khi đi đến lá cuối cùng Tại từng node, cần tính một độ đo (hay tiêu chuẩnphân chia) trên từng thuộc tính, với thuộc tính liên tục phải thêm thao tác sắp xếp lạitập dữ liệu theo thứ tự giá trị của thuộc tính đó Sau đó mới có thể chọn được mộtthuộc tính phát triên và tương ứng là một phân chia tốt nhất Một vài thuật toán sửdụng tổ hợp các thuộc tính kết hợp với nhau có trọng số đề phát triển cây quyết
định Quá trình cắt cụt cây cũng “đất” vì nhiều cây con ứng cử phải được tạo ra và
so sánh.
+ Trong lĩnh vực nghiên cứu về khai phá dữ liệu nói chung cũng như trongnghiên cứu về các thuật toán phân lớp nói riêng, vấn đề xử lý dữ liệu lớn ngày càngtrở thành van dé cấp thiết và đóng vai trò chủ đạo trong việc giải quyết các bài toán
thực tế Phần lớn các thuật toán phân lớp đã phát triển chỉ có thể giải quyết với một
số lượng dữ liệu có hạn cũng như với một độ phức tạp dữ liệu có giới hạn Trong
khi đó đữ liệu thu được ngày càng trở nên đa dang phong phú nhờ sự phát triển
mạnh mẽ của khoa học.
31
Trang 342.1.2 Các thuật toán về cây quyết định
Bảng 2.1 Một số thuật toán sử dụng trong Datamining
Tinh toán Diversity | Bài Gini Index | Uncertainity
Index info-gain coefficient
Decision Tree with
Constructs | Top-Down eersion concepts o
bo 8 using a based on pruning
Cat tia on cost- 4
sien single pass MDL based on
? algorithm principle thresholds
cuối cùng được đưa ra sau khi đã duyệt qua tat cả những thuộc tính liên quan trước
đó tuân theo những luật, ràng buộc được nêu ra).
- Một cây quyết định “tốt” là cây có mỗi nút lá tương ứng với một thuộc tính
mà thuộc tính đó có giá trị ý nghĩa tốt nhất trong toàn bộ những thuộc tính chưađược duyệt (tính từ nút gốc cho đến nút hiện tại) Tức là, muốn dự đoán giá trị củathuộc tính bằng cách dựa vào số lượng những nghỉ vấn nhỏ nhất trên tổng số những
32
Trang 35nghỉ vấn trung bình (mức độ tin cậy và chính xác càng cao thì sẽ được chọn).
- Ưu điểm của thuật toán ID3
+ Sử dụng thuật toán tìm kiếm leo đổi dựa trên giá trị Gain để tìm kiếm các
thuộc tính trong toàn bộ cây quyết định
+ Đầu ra chỉ là một kết quả duy nhất
+ Không bao giờ gặp hiện tượng quay lui, có tính hội tụ cao.
+ Sử dụng dữ liệu huấn luyện ở từng bước, trái ngược với những thuật giảiphát triển mở rộng cây quyết định (có thé hạn chế được kích thước cây)
+ Sử dụng các thuộc tính tĩnh: hạn chế tối đa lỗi cho những bản ghi dữ liệuriêng lẻ, có thê ảnh hưởng tới toàn bộ dự án
+ Kiểm soát được dữ liệu rác, dữ liệu tạp bên ngoài bằng cách giảm bớt yêucầu tiêu chuẩn cho việc chấp nhận những dữ liệu chưa hoàn chỉnh
- Xây dựng Cây quyết định:
+ Cây được thiết lập từ trên xuống dưới (phương pháp top-down)
+ Các mẫu huắn luyện nằm ở gốc của cây
+ Chọn một thuộc tính để phân chia thành các nhánh Thuộc tính được chọndựa trên độ đo thống kê hoặc độ đo heuristic (giá trị Entropy, Info-Gain) Với từng
thuộc tính, giá trị Gain nào thấp nhất trong tập các thuộc tính chưa được xét thì sẽ
được chọn đưa vào cây ở bước đó Ta có thể hiểu cách lựa chọn đó chính là nhằm
mục đích tạo ra một cây nhỏ nhất có thể, giá trị Gain càng nhỏ có nghĩa là thuộc
tính đó có lợi nhất cho quá trình phân lớp
+ Tiếp tục lặp lại việc xây dựng cây quyết định cho các nhánh
+ Điều kiện dừng:
Tất cả các mẫu rơi vào một nút thuộc về cùng một nút lá
Không còn thuộc tính nào có thé dùng dé phân chia mẫu nữa
Không còn lại mẫu nào tại nút.
- Những khuyết điểm của thuật toán ID3:
+ Chỉ thích hợp với mô hình có lượng dữ liệu ít, rời rạc.
+ Không thích ứng được với những tập dữ liệu tạp vì dễ phát sinh lỗi.
+ Không hiệu quả khi xuất hiện những dữ liệu không mong muốn
+ Cây quyết định khi được xây dựng vẫn còn có thé lớn, rườm rà, chưa được
33
Trang 36tối ưu ở mức tối đa có thé.
2.1.2.2 Thuật toán C4.5 (J48)
- Thuật toán C4.5 là thuật toán phân lớp dữ liệu dựa trên cây quyết định hiệu
quả và phổ biến trong những ứng dụng khai phá cơ sở dữ liệu có kích thước nhỏ
- C4.5 sử dụng cơ chế lưu trữ dữ liệu thường trú trong bộ nhớ, chính đặc điểm
này làm C4.5 chỉ thích hợp với những cơ sở dữ liệu nhỏ, và cơ chế sắp xếp lại dữliệu tại mỗi node trong quá trình phát triển cây quyết định
- C4.5 còn chứa một kỹ thuật cho phép biểu diễn lại cây quyết định dưới dạngmột danh sách sắp thứ tự các luật if-then (một dạng quy tắc phân lớp dễ hiểu) Kỹ
thuật này cho phép làm giảm bớt kích thước tập luật và đơn giản hóa các luật mà độ
chính xác so với nhánh tương ứng cây quyết định là tương đương
- Tư tưởng phát triển cây quyết định của C4.5 là phương pháp HUNT - chiếnlược phát triển theo độ sâu
~ Mã giả của thuật toán C4.5:
Trang 37- Điểm khác biệt của C4.5 so với các thuật toán khác là cơ chế chọn thuộc tính
đề kiểm tra tại mỗi nút, cơ chế xử lý với những giá trị thiếu, tránh việc tràn dữ liệu,
ước lượng độ chính xác và cơ chế cắt tỉa cây
- Ưu điểm của C4.5
+ C4.5 có cơ chế riêng trong xử lý những giá trị thiếu
Giá trị thiếu của thuộc tính là hiện tượng phổ biến trong dữ liệu, có thé do lỗikhi nhập các bản ghi vào cơ sở dữ liệu, cũng có thể do giá trị thuộc tính đó đượcđánh giá là không cần thiết đối với trường hợp cụ thể
Trong quá trình xây dựng cây từ tập dữ liệu đào tạo S, B là tập kiểm thử dựatrên thuộc tính A; với các giá trị đầu ra là bị, bạ, , by Tập So là tập con các trườnghợp trong S mà có giá trị thuộc tính A, không biết và S¡ biểu diễn các trường hợpvới đầu ra là b; trong tập kiểm thử B Khi đó độ do Information Gain của tập kiểmthử B giảm vì chúng ta không học được gì từ các trường hợp trong So.
|S—So|
Is]
G(S,B) = G (S So, B) (2.1)
Tương ứng với G(S, B), P(S, B) cũng thay đôi,
|So| |Sol t sil |Sil
P(@,B)=- i ( )- i= 1 e( ) 2.2) SBS Ygy 98 Isp)” 2=1 js} 198 Us| “
Hai thay đổi này làm giảm giá trị của tập kiểm thử liên quan đến thuộc tính có
tỉ lệ giá trị thiếu cao Nếu tập kiểm thử B được chọn, C4.5 không tạo một nhánhriêng trên cây quyết định cho Sp Thay vào đó, thuật toán có cơ chế phân chia cáctrường hợp trong Sp về vác tập con S; là tập con mà có giá trị thuộc tính kiểm thửxác định theo trong số ISj/ IS - Sol
+ Tránh “quá vừa” dữ liệu
“Quá vừa” đữ liệu là một khó khăn đáng kể đối với học bằng cây quyết định
và những phương pháp học khác Quá vừa dữ liệu là hiện tượng: nếu không có các
trường hợp xung đột (là những trường hợp mà giá trị cho mọi thuộc tính là giống
nhau nhưng giá trị của lớp lại khác nhau) thì cây quyết định sẽ phân lớp chính xáctoàn bộ các trường hợp trong tập dữ liệu đào tạo Đôi khi dữ liệu huấn luyện lạichứa những đặc tính cụ thể, nên khi áp dụng cây quyết định đó cho những tập dữliệu khác thì độ chính xác không còn cao như trước.
35
Trang 38+ Chuyền đổi từ cây quyết định sang luật
Việc chuyên đổi từ cây quyết định sang luật dạng if-then tạo ra những quy tắc
phân lớp dé hiéu, dé áp dụng Các mô hình phân lớp biểu diễn các khái niệm dưới
dang các luật sản xuất đã được chứng minh là hữu ích trong nhiều lĩnh vực khácnhau, với các đòi hỏi về cả độ chính xác và tính hiểu được của mô hình phân lớp.Dang output tập luật sản xuất là sự lựa chọn “khôn ngoan” Tuy nhiên, tài nguyên
tính toán dùng cho việc tạo ra tập luật từ tập dữ liệu đào tạo có kích thước lớn và
nhiều giá trị sai là vô cùng lớn Khăng định này sẽ được chứng minh qua kết quả
thực nghiệm trên mô hình phân lớp C4.5.
+ C4.5 là một thuật toán hiệu qua cho những tập dữ liệu vừa và nhỏ.
C4.5 có cơ chế sinh cây quyết định hiệu quả va chặt chẽ bằng việc sử dụng độ
đo lựa chọn thuộc tính tốt nhất là Information Gain Các cơ chế xử lý với giá trị lỗi,thiếu và chống “qua vừa” dir liệu của C4.5 cùng với cơ chế cắt tỉa cây đã tạo nênsức mạnh của C4.5 Thêm vào đó, mô hình phân lớp C4.5 còn có phần chuyền đổi
từ cây quyết định sang luật dạng if-then, làm tăng độ chính xác và tính dễ hiểu củakết quả phân lớp Đây là tiện ích rất có ý nghĩa đói với người sử dụng
- Nhược điểm của C4.5 (và CART)
Sử dụng luật bình chọn số đông Thời điểm xây dựng cây quyết định, nếu nút
lá có chứa các phan tử dữ liệu của các lớp không thuần nhát, việc gán nhãn cho nút
14 được tính cho nhãn của lớp có số lượng phan tử lớn nhất chứa trong nút lá Xét ví
dụ, nút lá có chứa 14 phan tử trong đó lớp hình vuông có 9 phan tử và lớp hình tròn
có 5 phần tử Nút lá sẽ được gán nhãn là hình vuông do số phần tử lớp hình vuông.nhiều hơn hình tròn Chiến lược gán nhãn này làm cho luật quyết định không đượcchính xác Khi phân lớp, phần tử nào rơi vào nút lá đều được gán nhãn của nút lá
Vi vậy, phan tử p, q được gán nhãn là vuông Hiệu quả phân lớp không cao (phần tử
p có thể sai)
Mục tiêu của đề tài là sẽ phân loại được giao dịch nào là gian lận, giao dịch
nào là an toàn Như vậy, bài toán phát hiện gian lận thẻ chính là bài toán phân lớpgiao dịch: gian lận và an toàn Cây quyết định là một phương pháp phân lớp hiệu
quả và dễ hiểu Với đặc điểm sinh ra các luật để dự đoán lớp của các đối tượng nếu
như được cung cấp dữ liệu về thuộc tính của chúng Vì vậy, tác giả sẽ tiền hành thu
36
Trang 39thập dữ liệu về các giao dịch thanh toán bằng thẻ với các thuộc tính giao dịch như:
ngày tháng giao dịch, họ tên giao dịch, số tiền giao dịch, dia chi IP thanh toán,
Sau đó, sẽ sử dụng thuật toán J4.8 để phân lớp giao dịch, vì thuật toán này rất hiệu
quả và phô biến trong ứng dụng khai phá dữ liệu có kích vừa và nhỏ Bên cạnh đó,thuật toán J4.8 còn chứa một kỹ thuật cho phép biểu diễn lại cây quyết định dướidạng một danh sách sắp thứ tự các luật IF - THEN (một dạng quy tắc phân lớp dễhiểu) Ngoài ra, thuật toán J4.8 còn có thé khắc phục lỗi phổ biến trong dữ liệu đó làlỗi thiếu giá trị Với những ưu điểm của cây quyết định và đặc điểm của dữ liệu giaodich thẻ, tác giả chọn thuật toán J4.8 dé giải quyết mục tiêu của dé tài
2.2 RANDOM FOREST
2.2.1 Giới thiệu
Random forest là một thuật toán đặc biệt dựa trên kỹ thuật lắp ghép Về mặtbản chất thuật toán RF được xây dựng dựa trên nên tảng thuật toán phân lớp CART
sử dụng kỹ thuật có tên gọi là bagging Kỹ thuật này cho phép lựa chọn một nhóm
nhỏ các thuộc tính tại mỗi nút của cây đề phân chia cho mức tiếp theo của cây phânlớp Bằng cách chia nhỏ không gian tìm kiếm thành các cây nhỏ hơn như vậy chophép thuật toán có thẻ phân loại một cách rất nhanh chóng cho dù không gian thuộctính rất lớn Các tham số đầu vào của thuật toán khá đơn giản bao gồm số các thuộctính được chọn trong mỗi lần phân chia Giá trị mặc định của tham số này là căn bậchai của p với q là số lượng các thuộc tính Tương tự như thuật toán CART, RE vẫn
sử dụng công thức Gini là công thức tính toán việc phân chia cây Số lượng câyđược tạo ra là không hạn chế và cũng không sử dụng bat kỳ kỹ thuật dé hạn chế mởrộng cây Chúng ta phải lựa chọn tham số cho biết số lượng cây (n tree) sẽ đượcsinh ra sao cho đảm bảo rằng sẽ mỗi một thuộc tính sẽ được kiểm tra một vài lần
Thuật toán sử dụng kỹ thuật OOB (out-of -bag) để xây dựng tập huấn luyện và
phương pháp kiểm tra trên nó
Rừng ngẫu nhiên gồm một tổ hợp các cây quyết định không cắt nhánh Mỗi
cây quyết định được xây dựng bởi thuật toán CART trên tập mẫu bootstrap (laymẫu ngẫu nhiên có hoàn lại) từ tập dữ liệu ban đầu Tai mỗi nút, một phân hoạch tốt
nhất được thực hiện dựa trên thông tin trong một không gian con các thuộc tính
được chọn ngẫu nhiên từ không gian thuộc tính ban đầu RF tổng hợp kết quả dự
37
Trang 40đoán của các cây quyết định làm kết quả cuối cùng.
Rừng ngẫu nhiên (được mô tả trong hình 2.2) tạo ra một tập hợp các cây quyết
định không cắt nhánh, mỗi cây được xây dựng trên tập mẫu bootstrap, tại mỗi nút
phân hoạch tốt nhất được thực hiện từ việc chọn ngẫu nhiên một tập con các thuộc
tính.
Tạp đỡ liệu học LS
Hình 2.2 Minh họa về rừng ngẫu nhiên, [4]
2.2.2 Thuật toán RE
Về cơ bản thuật toán Random Forest (RF) — rừng ngẫu nhiên dựa trên kỹ thuật
cây quyết định Ý tưởng của RF chúng ta có thể liên tưởng tới việc bau cử theo
nguyên tắc phổ thông đầu phiếu Nếu sử dụng một cây quyết định chăng khác nàoviệc bầu cử mà chỉ có 1 người bỏ phiếu Việc sinh các cây quyết định từ một mẫu
dữ liệu nhằm đa dang hoá các “phiếu bầu” (giống như việc mọi thành phan, tang
lớp, giai cấp đều được đi bỏ phiếu) cho kết luận Việc áp dung các kỹ thuật sinh racác mẫu dữ liệu hay việc lựa chọn rẽ nhánh ngẫu nhiên sẽ tạo ra các cây “dị tật”trong rừng (giống việc cho phép công dân không can phân biệt trình độ học van, sức
khỏe đi bầu cử) Càng nhiều loại hình, càng nhiều phiếu bầu sẽ cung cấp chochúng ta cái nhìn đa chiều, chỉ tiết hơn và do đó kết luận sẽ có tính chính xác, gần
với thực tế hơn
Định nghĩa: Một RF là bộ phân loại gồm một tập các bộ phân loại có cấu hình
cây {h(x, Ox), k=l, } trong đó {Ox} là các vectơ ngẫu nhiên, độc lập, có cùng phân
phân bồ xác suất, mỗi cây bầu cử một phiếu cho lớp phổ biến nhất tại đầu vào x
38