Việc ứng dụng khai phá dữ liệu vào các lĩnh vực kinh tế tài chính ngày càng đóng vai trò quan trọng. Ngân hàng là một lĩnh vực có lượng thông tin lưu trữ khổng lồ và chứa đựng nhiều thông tin tiềm
Trang 1ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀO NHẬN DẠNG CÁC GIAO DỊCH
RỬA TIỀN TRONG NGÂN HÀNG
Cao Đăng Khoa
Trường Đại học Công Nghệ Thông Tin, DHQG-HCM
TÓM TẮT: Việc ứng dụng khai phá dữ liệu vào các lĩnh vực kinh tế tài chính ngày càng đóng
vai trò quan trọng Ngân hàng là một lĩnh vực có lượng thông tin lưu trữ khổng lồ và chứa đựng nhiều thông tin tiềm ẩn quý giá Phát hiện các giao dịch rửa tiền trong các giao dịch chuyển tiền là một trong những thông tin quý giá có thể khai thác từ nguồn dữ liệu đó Bài báo này sẽ tìm hiểu các hướng tiếp cận bài toán phát hiện rửa tiền và giới thiệu hướng tiếp cận gom cụm dữ liệu (một kỹ thuật của phương pháp khai phá dữ liệu) đối với dữ liệu giao dịch chuyển tiền của ngân hàng Bài báo này so sánh mức độ tối ưu của các thuật toán và đề xuất dùng thuật toán CLOPE vào bài toán phát hiện rửa tiền ở Việt Nam.
Từ khóa: Khai phá dữ liệu, rửa tiền, giao dịch chuyển tiền.
1 GIỚI THIỆU
Năm 2006, Ngân hàng Thế giới (World Bank) đã
đưa ra cảnh báo: Việt Nam đang trở thành mục tiêu
của hoạt động rửa tiền vì hệ thống thanh tra, giám
sát, hệ thống kế toán và tìm hiểu khách hàng của các
ngân hàng còn kém phát triển; mức độ sử dụng tiền
mặt và các luồng chuyển tiền không chính thức khá
lớn khiến cho việc kiểm soát các giao dịch, thanh
toán trở nên khó khăn[11] Trong các bước của một
quy trình rửa tiền phổ biến thì ngân hàng đóng một
vai trò quan trọng trong việc hợp thức hóa lượng tiền
bẩn Do đó, việc có một cơ chế tự động để trợ giúp
trong việc nhận dạng các giao dịch có dấu hiệu rửa
tiền là yêu cầu cấp thiết cho bài toán chống rửa tiền
của toàn thế giới nói chung và của Việt Nam nói
riêng Bài viết này sẽ đi vào tìm hiểu các mô hình
chống rửa tiền đã có, ứng dụng các kiến thức về các
công cụ rút trích tri thức từ dữ liệu nhằm kết hợp tốc
độ xử lý của máy vi tính với khả năng phân tích của
con người hình thành một hệ thống hữu hiệu để nhận
dạng các giao dịch rửa tiền Do mức độ tinh vi của các hoạt động rửa tiền và lượng dữ liệu giao dịch khổng lồ đang gia tăng hằng ngày của ngân hàng, thì giải pháp cho bài toán nhận dạng giao dịch rửa tiền cần phải đáp ứng được sự cân bằng giữa tính chính xác và thời gian xử lý Chính vì nguyên nhân trên
mà việc lựa chọn thuật toán phù hợp với dữ liệu cũng là một mấu chốt quan trọng để ứng dụng giải pháp đó vào thực tế, trong các phần tiếp theo bài viết
sẽ đề xuất thuật toán CLOPE sẽ được sử dụng cho trường hợp dữ liệu giao dịch chuyển tiền Mục tiêu cuối cùng của bài viết là đưa ra một hướng tiếp cận hoàn chỉnh từ phương pháp thực hiện, dữ liệu và thuật toán phù hợp cho bài toán nhận dạng rửa tiền đối với trường hợp các ngân hàng ở Việt Nam
2 CƠ SỞ LÝ THUYẾT 2.1 Các hướng tiếp cận với dữ liệu
Theo kết quả tham khảo từ nghiên cứu của thạc sĩ Linard Moll về các mô hình tiếp cận với dữ
Trang 2liệu tùy thuộc vào thông tin lưu trữ của ngân hàng
thì có 4 hướng tiếp cận như sau:
a Tiếp cận có giám sát trên dữ liệu đã gán nhãn
(Supervised approaches on labeled data) : Phương
pháp tiếp cận này yêu cầu phải có sẵn một tập dữ
liệu huấn luyện (training data) đã được đánh giá và
gán nhãn Sau đó ứng dụng một trong các kỹ thuật:
khai phá dữ liệu, hệ chuyên gia (expert system), mô
hình thống kê v.v… trên tập dữ liệu huấn luyện [3]
Hướng tiếp cận này phù hợp với các ngân hàng có
kinh nghiệm về chống rửa tiền tốt
b Tiếp cận hỗn hợp với dữ liệu đã gán nhãn
(Hybrid approaches with labeled data) : Đối với
hướng tiếp cận dữ liệu này thì yêu cầu về mặt dữ
liệu tương tự như hướng tiếp cận “Supervised
approaches on labeled data” điểm khác nhau là ở
hướng tiếp cận này yêu cầu sử dụng kết hợp nhiều
phương pháp khác nhau để tăng mức độ chính xác
cho phương pháp [3] Hướng tiếp cận này không
những yêu cầu ngân hàng phải có kinh nghiệm
chống rửa tiền tốt mà còn yêu cầu mức độ đầu tư
cho hệ thống chống rửa tiền phải cao
c Tiếp cận nửa giám sát dựa trên dữ liệu có gán
nhãn hợp lệ (Semi-supervised approached with only
legal (nonfraud) data): Phương pháp tiếp cận này có
điểm đặc biệt là tập huấn luyện chỉ bao gồm các giao
dịch hợp lệ [3] Các giao dịch mới thêm vào sẽ được
đánh giá là bị nghi ngờ nếu hành vi của giao dịch đó
không phù hợp với tập huấn luyện Hướng tiếp cận
này chủ yếu dành cho các ngân hàng đang bước đầu
tiếp cận với việc chống rửa tiền và chưa có kinh
nghiệm nhiều trong việc phân loại các hình thức rửa
tiền khác nhau
d Tiếp cận không giám sát (Unsupervised
approaches): Phương pháp tiếp cận này dành cho
trường hợp không có tập huấn luyện [3] Đặc biệt
thích hợp cho các ngân hàng chưa từng áp dụng qua
bất kỳ phương pháp chống rửa tiền nào
Theo khảo sát tại một ngân hàng lớn tại Việt
Nam thì các mô hình yêu cầu có tập huấn luyện
không phù hợp với tình hình của Việt Nam do các ngân hàng ở Việt Nam chưa có tập dữ liệu huấn luyện Do đó có thể đề xuất hướng “tiếp cận không giám sát” để giải quyết bài toán nhận dạng rửa tiền ở Việt Nam
2.2 Khảo sát các quy trình rửa tiền 2.2.1 Tổng quan về rửa tiền
Theo nghị định số 74/2005/NĐ-CP về phòng, chống rửa tiền của chính phủ Việt Nam thì rửa tiền
được định nghĩa như sau: “Rửa tiền là hành vi của
cá nhân, tổ chức tìm cách hợp pháp hoá tiền, tài sản
do phạm tội mà có thông qua các hoạt động cụ thể sau đây:
a) Tham gia trực tiếp hoặc gián tiếp vào một giao dịch liên quan đến tiền, tài sản do phạm tội mà có;
b) Thu nhận, chiếm giữ, chuyển dịch, chuyển đổi, chuyển nhượng, vận chuyển, sử dụng, vận chuyển qua biên giới tiền, tài sản do phạm tội mà có;
c) Đầu tư vào một dự án, một công trình, góp vốn vào một doanh nghiệp hoặc tìm cách khác che đậy, nguỵ trang hoặc cản trở việc xác minh nguồn gốc, bản chất thật sự hoặc vị trí, quá trình di chuyển hoặc quyền sở hữu đối với tiền, tài sản do phạm tội
mà có”[11]
Việc rửa tiền thường được tiến hành theo một chu trình, cơ bản bao gồm 3 giai đoạn: phân phối, dàn trải, hội nhập
- Giai đoạn phân phối (placement): Phân phối nguồn tiền từ các hoạt động phi pháp vào các ngân hàng có quy chế lỏng lẻo Thông thường lượng tiền
sẽ được phân chia nhỏ hơn mức cảnh báo của ngân hàng [11]
- Giai đoạn dàn trải (layering): Trong giai đoạn này tiền bẩn sẽ được luân chuyển qua nhiều ngân hàng hoặc qua nhiều tài khoản khác nhau Thực chất đây là quy trình tạo ra một chuỗi các giao dịch nhằm mục đích che đậy các nguồn tiền từ các
Trang 3hoạt động phi pháp và làm cho chúng ngày càng xa
nguồn gốc ban đầu [11]
- Giai đoạn hội nhập (integration): Tiền được
đầu tư vào những hoạt động kinh doanh hợp pháp
[14]
2.2.2 Quy trình rửa tiền tổng quát
Hình 1: Quy trình rửa tiền tổng quát
Mức độ tinh vi của hành vi rửa tiền phụ thuộc
vào chuỗi quy trình được thực hiện để cắt đứt mối
liên hệ giữa lượng tiền bẩn và nguồn gốc ban đầu
của nó Điều này gây khó khăn cho các biện pháp
nhận dạng rửa tiền trong bước này Tuy nhiên theo
nhận định của bài viết này thì đây là giai đoạn mấu
chốt để thiết lập các hệ thống nhận dạng rửa tiền tự
động Theo khảo sát tại một ngân hàng lớn tại Việt
Nam thì từ các quy trình phổ biến của việc rửa tiền
tại giai đoạn layering trên thực tế, có thể phân chia
nhỏ thành các quy trình cơ bản hơn Điểm đặc biệt
cuả các quy trình cơ bản này là nó mang tính chất
đặc trưng cho một số ít các giao dịch đáng ngờ
Các tài khoản thực hiện chuỗi giao dịch có điểm
tương đồng với các quy trình cơ bản này sẽ được
liệt kê vào nhóm các giao dịch đáng ngờ Điều này
khiến cho việc lần theo mối quan hệ giữa các tài
khoản thực hiện giao dịch đáng ngờ sẽ dễ dàng
hơn và nhanh hơn Các quy trình cơ bản có cấu trúc như sau:
Hình 2: Các quy trình rửa tiền căn bản
Vấn đề của bài toán chống rửa tiền sau khi phân tích cho tới thời điểm này của bài viết là bài toán xác định các tài khoản mang tính chất nghi ngờ rửa tiền thay vì tìm kiếm các giao dịch rửa tiền một cách trực tiếp Phương pháp này có ưu điểm là giới hạn quy mô tìm kiếm các giao dịch rửa tiền trên các tài khoản có dấu hiệu đáng ngờ
2.3 Mô hình dữ liệu học
Dữ liệu chuyển tiền của ngân hàng khảo sát lưu trữ bao gồm các thuộc tính cần thiết sau: Tài khoản người gửi
Tài khoản người nhận
Số tiền giao dịch Loại tiền giao dịch Thời gian giao dịch Các thuộc tính trên cho thấy thông tin chi tiết của từng giao dịch chuyển tiền Khi xét tại một thời điểm có thể vẽ được sơ đồ thể hiện mối quan
hệ giữa các tài khoản
Tài khoản A
Tài khoản B
Số tiền
Hình 3: Đồ thị hóa giao dịch chuyển tiền
Tuy nhiên để xét xem tài khoản có thuộc dạng đáng nghi ngờ hay không phải kiểm tra thông
Trang 4tin tổng hợp từ các giao dịch của tài khoản đó
trong một khoản thời gian Do đó bài viết này đề
xuất một tập dữ liệu mới sẽ được thống kê từ tập
dữ liệu chuyển tiền Tập dữ liệu mới này sẽ thể
hiện được hành vi đặc trưng của tài khoản trong
khoảng thời gian xác định trước Tập dữ liệu mới
có các thuộc tính như sau :
Bảng 1: danh sách thuộc tính mới
Danh sách thuộc tính Ý nghĩa thuộc tính
Tài khoản Tài khoản giao dịch
Tổng tiển gửi Tổng lượng tiền gửi đi
Tổng tiền nhận Tổng lượng tiền nhận
Số lần gửi Số lần gửi tiền của tài
khoản
Số lần nhận Số lần nhận tiền của tài
khoản
Số quan hệ nhận tiền Số lượng tài khoản gửi
tiền vào tài khoản này
Số quan hệ gửi tiền Số lượng tài khoản nhận
tiền từ tài khoản này
| R_S | | tổng thu – tổng nhận |
Từ các thuộc tính trên có thể thấy rằng từ
giao dịch chuyển tiền của từng cặp tài khoản đã
chuyển thành thông tin dữ liệu giao dịch của từng
tài khoản Dữ liệu giao dịch thể hiện sự đặc trưng
về hành vi ứng với từng tài khoản Phần tiếp theo
bài viết sẽ trình bày thuật toán phù hợp cho loại dữ
liệu giao dịch trên
2.4 Giới thiệu thuật toán CLOPE
Thuật toán CLOPE được phát triển bởi tập
thể tác giả Yiling Yang, Xudong Guan, Jinyuan
You Đây là thuật toán cho kỹ thuật gom cụm, và
đối tượng gom cụm của thuật toán này là các biến
định danh (giá trị kiểu chuỗi) Ý tưởng của thuật
toán xuất phát từ nhận thức rằng việc gom nhóm
các đối tượng dữ liệu kiểu định danh ngày càng
phổ biến Ngoài ra việc ứng dụng khai phá dữ liệu
vào các đối tượng dữ liệu trên thực tế gặp nhiều
khó khăn vì dữ liệu trên thực tế thường đa chiều
(chứa nhiều thông tin thuộc tính khác nhau) Các tác giả của thuật toán CLOPE đã chỉ ra gom cụm hướng tiếp cận theo khoảng cách giữa các đối tượng không phù hợp với dữ liệu về tài chính [2] hay cụ thể trong trường hợp của bài toán rửa tiền
là dữ liệu về giao dịch Mặt khác thuật toán định nghĩa một hàm tiêu chuẩn toàn cục (global citerion function) để làm tiêu chuẩn đánh giá mức độ tối ưu của phương pháp gom cụm Có thể hiểu một cách đơn giản rằng mỗi thuật toán gom cụm đều đưa ra một hàm tiêu chuẩn Các phương pháp gom cụm
sẽ tối ưu hóa dựa trên hàm tiêu chuẩn này Hàm tiêu chuẩn được chia làm 2 loại: hàm tiêu chuẩn cục bộ (local criterion function) và hàm tiêu chuẩn toàn cục (global criterion function) Hàm tiêu chuẩn toàn cục quy định mức độ tối ưu cho toàn
bộ phương pháp gom cụm trong khi đó hàm tiêu chuẩn cục bộ sẽ quy định mức độ tương tự giữa các đối tượng trong cùng một cụm Do đó việc tính toán đối với các hàm tiêu chuẩn toàn cục sẽ nhanh hơn đối với việc tính toán đối với hàm tiêu chuẩn cục bộ Việc sử dụng hàm tiêu chuẩn toàn cục làm tiêu chuẩn đánh giá mức độ tối ưu cũng cho thấy rằng thuật toán CLOPE phù hợp với các dữ liệu đa chiều và có số lượng lớn Thuật toán CLOPE mô hình hóa các cụm thành các biểu đồ histogram có ý nghĩa như sau:
Hình 4: Biểu đồ hóa cụm dữ liệu theo CLOPE
- Trục hoành (X) là các phần tử D(C)
- Trục tung (Y) tần suất xuất hiện của các phần
tử D(C) trong cụm C
C
Y
3 2 1
Trang 5Cho:
- S(C): số lượng phần tử trong cụm C
- W(C): số lượng phần tử nằm trên trục hoành
- Occ(i,C) : tần suất xuất hiện của phần tử thứ i
trong cụm C
- Chiều cao H(C): được tính bằng S(C)/W(C)
Hàm tiêu chuẩn của thuật toán CLOPE :
r : Repulsion là một số thực (r > 0) Trong
trường hợp các tham số S(Ci), |Ci|, W(Ci), đã biết trước và không thay đổi thì có thể khẳng định r càng lớn thì mức độ trùng lặp của dữ liệu trong cùng một cụm càng cao hay nói cách khác lợi nhuận (Profit) của phương pháp gom cụm càng cao Ngược lại r càng nhỏ thì các dữ liệu trùng lặp nhau có thể bị phân chia vào các cụm khác nhau Tuy nhiên trên thực tế, quá trình gom cụm của thuật toán sẽ phải chia các đối tượng vào các cụm sao cho ứng với r cho trước phương pháp gom cụm phải có lợi nhuận cao nhất Điều này còn chứng tỏ rằng phương pháp phân hoạch thành nhiều cụm hơn không chắc chắn sẽ tôi ưu hơn.[2]
Bắt đầu
Chỉ số r (Repulsion)
Tính mức độ tối ưu (hàm tiêu chuẩn với tham sô r) của phương pháp gom cụm khi thêm đối tượng vào một cụm
Tạo cụm mới chứa đối tượng
Tìm thấy
cụm phù hợp
Thêm đối tượng vào cụm sao cho mức độ tối ưu là cao nhất
Không còn đối tượng di chuyển cụm Kết thúc
Sai
Đúng
Hình 5 Sơ đồ luồng xử lý của thuật toán CLOP
3 HIỆN THỰC HỆ THỐNG
Trang 6Phần này sẽ trình bày về cấu trúc và các bước
xử lý của hệ thống nhận dạng rửa tiền đã được tác
giả bài viết đề cập Hệ thống nhận dạng giao dịch
rửa tiền khi ứng dụng khai phá dữ liệu sẽ bao gồm
4 bước chính sau đây:
1) Chuyển đổi dữ liệu:
Ở công đoạn này các dữ liệu chuyển tiền của từng cặp tài khoản sẽ được thống kê thành dữ liệu giao dịch của từng tài khoản (thể hiện hành vi của tài khoản).Tâp dữ liệu sau khi chuyển đổi sẽ có số lượng dữ liệu [n,2n] với n là số lượng dữ liệu
chuyển tiền
2) Phân hoạch miền dữ liệu:
Công đoạn này sẽ phân chia các dữ liệu kiểu
số thành từng phân đoạn mang ý nghĩa nhất định
Ví dụ: chuyển đổi các giá trị tổng tiền giao dịch
nằm trong khoảng 1.000.000.000 VND đến
10.000.000.000 VND thành giá trị kiểu chuỗi có
dạng như sau : [1.0000.000.000 =>
10.000.000.000] mang ý nghĩa là “giao dịch với
lượng tiền lớn” (việc chuyển đổi dữ liệu không
những không làm mất đi tính chất của dữ liệu mà
còn làm rõ ý nghĩa của từng loại dữ liệu).[1]
3) Gom cụm và đánh giá cụm:
Ở công đoạn này dữ liệu sẽ được gom thành
các cụm tùy thuộc vào mức độ tối ưu của phương
pháp gom cụm, các đối tượng thuộc cùng một cụm
sẽ có những hành vi giao dịch tương tự nhau
Để đánh giá xem cụm có chứa các tài khoản
có hành vi đáng ngờ không, thì cần phải cung cấp
một số các tiêu chí đánh giá cụm Qua khảo sát tại
ngân hàng X bài viết này cung cấp các tiêu chí để
đánh giá cụm như sau:
Trường hợp 1: Nghi ngờ gửi tiền xoay
vòng : Trị tuyệt đối của tổng lượng tiền giao dịch
của một tài khoản ( |tổng nhận - tổng gửi| ) - thuộc
tính R_S - càng nhỏ (giá trị tiến về 0) Đối với
trường hợp gửi tiền xoay vòng lượng tiền sẽ luân
chuyển qua các tài khoản và cuối cùng sẽ trở về tài
khoản gốc, do đó các tài khoản tham gia vào quy
trình này đều có điểm chung là thực hiện cả giao
dịch gửi tiền và nhận tiền với số tiền tương đương
nên khi thống kê R_S sẽ rất nhỏ Không thể dùng
trường hợp cố định là R_S = 0 vì trong một vài
trường hợp phức tạp tài khoản tham gia rửa tiền có
thể thực hiện giao dịch đổi sang ngoại tệ khác và lợi dụng giá trị chênh lệch của loại tiền vào thời điểm khác nhau để làm thay đổi giá trị của R_S Theo thông tin từ ngân hàng thì giao dịch đổi tiền không được lưu vào CSDL
Trường hợp 2: Nghi ngờ phân tán tiền: Dựa
vào các thuộc tính :
- SỐ LẦN GỬI : Số lần gửi tiền đặc biệt nhiều hơn so với các tài khoản khác
- SỐ QUAN HỆ GỬI TIỀN: Số lượng tài khoản nhận tiền từ tài khoản này nhiều hơn
so với các tài khoản khác
- TỔNG TIỀN GỬI: Tổng tiền gửi lớn, (vượt qua mức cảnh báo của ngân hàng) tuy nhiên
số tiền gửi từng lần lại nhỏ hoặc vừa
Trường hợp này tương đối phức tạp lại tùy thuộc vào quy mô của đường dây rửa tiền và tình hình kinh tế hiện tại Chính nhờ sự phức tạp này
mà kỹ thuật gom cụm lại càng phát huy điểm mạnh của mình Đó là không quan tâm quy mô rửa tiền lớn hay nhỏ mà chỉ quan tâm đến hành vi giống nhau của các giao dịch Để xác định tài khoản đang xét có bị nghi ngờ hay không sẽ phụ thuộc vào phân khúc dữ liệu của người dùng định ra và xác định giá trị rơi vào phân khúc nào thì bị "nghi ngờ"
Trường hợp 3: Nghi ngờ thu gom tiền: Dựa
vào các thuộc tính sau
- SỐ LẦN NHẬN: Số lần nhận tiền đặc biệt nhiều hơn so với các tài khoản khác
- SỐ QUAN HỆ NHẬN TIỀN : Số lượng tài khoản khác nhau gửi tiền vào tài khoản này nhiều hơn so với các tài khoản khác
Trang 7- TỔNG TIỀN NHẬN : Tổng tiền nhận lớn,
(vượt qua mức cảnh báo của ngân hàng) tuy
nhiên số tiền nhận từng đợt lại nhỏ hoặc vừa
Tương tự như trường hợp gửi tiền phân tán
nhưng áp dụng cho trường hợp giao dịch nhận tiền
từ nhiều tài khoản khác nhau
Nhận xét qua 3 tập tiêu chí dùng để đánh giá
cụm như trên có thể nhận ra rằng chỉ có trường
hợp tiền xoay vòng chứa các tài khoản có hành vi
tương tự nhau Đối với trường hợp phân tán và thu
gom tiền thì các tài khoản tham gia vào một trong hai quy trình này thuộc 2 nhóm có hành vi trái ngược nhau
Do đó kết quả gom cụm của 2 trường hợp này sẽ hình thành 1 cụm chứa các tài khoản có hành vi đặc biệt (nhận tiền từ nhiều nguồn hay phân tán tiền đi nhiều nguồn) hình 3.1 Khi tiến hành kiểm tra mối quan hệ giữa các tài khoản đáng ngờ phải kiểm tra trên toàn bộ tập dữ liệu
Hình 6: Phân tán và gom tụ tiền
4) Kiểm tra quan hệ giữa các tài khoản
thuộc cụm có dấu hiệu đáng ngờ:
Sau khi xác định các cụm có dấu hiệu đáng
ngờ, cần phải xác định mối quan hệ của các tài
khoản thuộc cụm để xác minh xem những tài
khoản nào tham gia vào giao đường dây rửa tiền
và các giao dịch rữa tiền được thực hiện như thế
nào Bài viết này đề xuất sử dụng kết hợp một hệ
quản trị CSDL với cấu trúc n-tree để lần theo vết các quan hệ của tài khoản đang xét
4 KẾT QUẢ THỰC NGHIỆM
Tác giả bài viết này đã tiến hành thực nghiệm trên 8020 dòng dữ liệu chuyển tiền do ngân hàng
X cung cấp Sau khi chuyển đổi thành dữ liệu giao dịch trở thành 12.350 dòng Tác giả bài viết đã thêm vào 25 dòng dữ liệu chuyển tiền giả lập các trường hợp rửa tiền như sau:
Trang 8Hình 7: Các trường hợp rửa tiền được giả lập Bảng 2: Kết quả thực nghiệm
Xoay vòng
Tổng : 13 đối tượng / 13 Tổng: 13 đối tượng / 389
Phân tán tiền
Cụm 2 1 đối tượng/3039 Cum 3 2 đối tượng/1091
Tổng: 6 đối tượng/ 1805 Tổng: 6 đối tượng/ 8520
Thu gom tiền
Cụm 2 1 đối tượng/3039 Cụm 16 1 đối tượng/159
Tổng cộng: 6 đôi tượng/ 1297 Tổng cộng: 6 đối tượng / 6622
5 KẾT LUẬN
Qua khảo sát và dựa vào những yêu cầu của
ngân hàng nơi cung cấp dữ liệu cho thấy bài toán
rửa tiền đang chiếm được nhiều sự quan tâm trong nên kinh tế của nước ta
Bài viết cung cấp một hướng tiếp cận bài toán nhận dang các giao dịch rửa tiền theo hướng
Trang 9dữ liệu và kết hợp với khai phá dữ liệu, thuật toán
CLOPE được áp dụng trong bài viết khá phù hợp
với trường hợp dữ liệu đưa ra Tuy nhiên để hiệu
quả hơn trong việc phát hiện các giao dịch rữa tiền
cần phải có sự tham gia phân tích của người dủng
để cung cấp tiêu chí đánh giá cụm và phân hoạch
miền dữ liệu Do đó chưa thể nói bài viết cung cấp một cơ chế hoàn toàn tự động Kết quả của hệ thống có thể dùng làm dữ liệu đầu vào cho các hệ thống tự động phân loại và đánh giá dữ liệu đã gắn nhãn như đã trình bày trong 3 hướng tiếp cận đầu
6 TÀI LIỆU THAM KHẢO
[1] PGS.TS.Đỗ Phúc, 2008, Giáo trình KHAI THÁC DỮ LIỆU Data Mining, Nhà xuất bản Đại Học Quốc Gia TP HCM
[2] Tập thể tác giả Yiling Yang-Xudong Guan-Jinyuan You, 2002, CLOPE: A Fast and Effective
Clustering Algorithm for Transactional Data, Shanghai Jiao Tong University
[3] Linard Moll from Switzerland, 9/2009, Master Thesis : Anti Money Laundering under real world conditions - Findingrelevantpatterns,Universitys of Zurich, , pp 4-15
[4] Ths.Vũ Lan Phương, 2006, NGHIÊN CỨU VÀ CÀI ĐẶT MỘT SỐ GIẢI THUẬT PHÂN CỤM, PHÂN LỚP, Đại Học Bách Khoa Hà Nội
[5] Kenneth H Rosen,2000, sách giáo khoa: Toán học rời rạc ứng dụng trong tin học, NXB Khoa Học Và
Kỹ Thuật, người dịch : Phạm Văn Thiều, Đặng Hữu Thịnh
[6] Nhóm tác giả Nhien-An Le-Khac, Sammer Markos, M-Tahar Kechadi, 2009, A Heuristics Approach for Fast Detecting Suspicious Money Laundering Cases in an Investment Bank
[7] Nhóm tác giả Ankita Vimal, Satyanarayana R Valluri, Kamalakar Karlapalem,, 2008, An Experiment with Distance Measures for Clustering
[8] Nhóm tác giả Surachai, Wiwattanacharoenchai, Anongnart Srivihok, Data Mining of Electronic Banking in Thailand: Usage Behavior Analysis by Using K-Means Algorithm
[9] Webpage : Wikipedia – searching about transaction database,
http://en.wikipedia.org/wiki/Database_transaction
[10] Webpage : Tìm hiểu về các hình thức rửa tiền, http://www.vnecon.vn/showthread.php/3764-R
%E1%BB%ADa-ti%E1%BB%81n-l%C3%A0-g%C3%AC-C%C3%A1c-h%C3%ACnh-th%E1%BB
%A9c-r%E1%BB%ADa-ti%E1%BB%81n-hi%E1%BB%87n-nay
[11]Webpage : Phòng chống rửa tiền ở Việt Nam 3/2009
http://www.hids.hochiminhcity.gov.vn/Noisan/32009/mach3.htm