Ứng dụng khai phá dữ liệu vào nhận dạng các giao dịch rửa tiền trong ngân hàng

Việc ứng dụng khai phá dữ liệu vào các lĩnh vực kinh tế tài chính ngày càng đóng vai trò quan trọng. Ngân hàng là một lĩnh vực có lượng thông tin lưu trữ khổng lồ và chứa đựng nhiều thông tin tiềm

Trang 1

ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀO NHẬN DẠNG CÁC GIAO DỊCH

RỬA TIỀN TRONG NGÂN HÀNG

Cao Đăng Khoa

Trường Đại học Công Nghệ Thông Tin, DHQG-HCM

TÓM TẮT: Việc ứng dụng khai phá dữ liệu vào các lĩnh vực kinh tế tài chính ngày càng đóng

vai trò quan trọng Ngân hàng là một lĩnh vực có lượng thông tin lưu trữ khổng lồ và chứa đựng nhiều thông tin tiềm ẩn quý giá Phát hiện các giao dịch rửa tiền trong các giao dịch chuyển tiền là một trong những thông tin quý giá có thể khai thác từ nguồn dữ liệu đó Bài báo này sẽ tìm hiểu các hướng tiếp cận bài toán phát hiện rửa tiền và giới thiệu hướng tiếp cận gom cụm dữ liệu (một kỹ thuật của phương pháp khai phá dữ liệu) đối với dữ liệu giao dịch chuyển tiền của ngân hàng Bài báo này so sánh mức độ tối ưu của các thuật toán và đề xuất dùng thuật toán CLOPE vào bài toán phát hiện rửa tiền ở Việt Nam.

Từ khóa: Khai phá dữ liệu, rửa tiền, giao dịch chuyển tiền.

1 GIỚI THIỆU

Năm 2006, Ngân hàng Thế giới (World Bank) đã

đưa ra cảnh báo: Việt Nam đang trở thành mục tiêu

của hoạt động rửa tiền vì hệ thống thanh tra, giám

sát, hệ thống kế toán và tìm hiểu khách hàng của các

ngân hàng còn kém phát triển; mức độ sử dụng tiền

mặt và các luồng chuyển tiền không chính thức khá

lớn khiến cho việc kiểm soát các giao dịch, thanh

toán trở nên khó khăn[11] Trong các bước của một

quy trình rửa tiền phổ biến thì ngân hàng đóng một

vai trò quan trọng trong việc hợp thức hóa lượng tiền

bẩn Do đó, việc có một cơ chế tự động để trợ giúp

trong việc nhận dạng các giao dịch có dấu hiệu rửa

tiền là yêu cầu cấp thiết cho bài toán chống rửa tiền

của toàn thế giới nói chung và của Việt Nam nói

riêng Bài viết này sẽ đi vào tìm hiểu các mô hình

chống rửa tiền đã có, ứng dụng các kiến thức về các

công cụ rút trích tri thức từ dữ liệu nhằm kết hợp tốc

độ xử lý của máy vi tính với khả năng phân tích của

con người hình thành một hệ thống hữu hiệu để nhận

dạng các giao dịch rửa tiền Do mức độ tinh vi của các hoạt động rửa tiền và lượng dữ liệu giao dịch khổng lồ đang gia tăng hằng ngày của ngân hàng, thì giải pháp cho bài toán nhận dạng giao dịch rửa tiền cần phải đáp ứng được sự cân bằng giữa tính chính xác và thời gian xử lý Chính vì nguyên nhân trên

mà việc lựa chọn thuật toán phù hợp với dữ liệu cũng là một mấu chốt quan trọng để ứng dụng giải pháp đó vào thực tế, trong các phần tiếp theo bài viết

sẽ đề xuất thuật toán CLOPE sẽ được sử dụng cho trường hợp dữ liệu giao dịch chuyển tiền Mục tiêu cuối cùng của bài viết là đưa ra một hướng tiếp cận hoàn chỉnh từ phương pháp thực hiện, dữ liệu và thuật toán phù hợp cho bài toán nhận dạng rửa tiền đối với trường hợp các ngân hàng ở Việt Nam

2 CƠ SỞ LÝ THUYẾT 2.1 Các hướng tiếp cận với dữ liệu

Theo kết quả tham khảo từ nghiên cứu của thạc sĩ Linard Moll về các mô hình tiếp cận với dữ

Trang 2

liệu tùy thuộc vào thông tin lưu trữ của ngân hàng

thì có 4 hướng tiếp cận như sau:

a Tiếp cận có giám sát trên dữ liệu đã gán nhãn

(Supervised approaches on labeled data) : Phương

pháp tiếp cận này yêu cầu phải có sẵn một tập dữ

liệu huấn luyện (training data) đã được đánh giá và

gán nhãn Sau đó ứng dụng một trong các kỹ thuật:

khai phá dữ liệu, hệ chuyên gia (expert system), mô

hình thống kê v.v… trên tập dữ liệu huấn luyện [3]

Hướng tiếp cận này phù hợp với các ngân hàng có

kinh nghiệm về chống rửa tiền tốt

b Tiếp cận hỗn hợp với dữ liệu đã gán nhãn

(Hybrid approaches with labeled data) : Đối với

hướng tiếp cận dữ liệu này thì yêu cầu về mặt dữ

liệu tương tự như hướng tiếp cận “Supervised

approaches on labeled data” điểm khác nhau là ở

hướng tiếp cận này yêu cầu sử dụng kết hợp nhiều

phương pháp khác nhau để tăng mức độ chính xác

cho phương pháp [3] Hướng tiếp cận này không

những yêu cầu ngân hàng phải có kinh nghiệm

chống rửa tiền tốt mà còn yêu cầu mức độ đầu tư

cho hệ thống chống rửa tiền phải cao

c Tiếp cận nửa giám sát dựa trên dữ liệu có gán

nhãn hợp lệ (Semi-supervised approached with only

legal (nonfraud) data): Phương pháp tiếp cận này có

điểm đặc biệt là tập huấn luyện chỉ bao gồm các giao

dịch hợp lệ [3] Các giao dịch mới thêm vào sẽ được

đánh giá là bị nghi ngờ nếu hành vi của giao dịch đó

không phù hợp với tập huấn luyện Hướng tiếp cận

này chủ yếu dành cho các ngân hàng đang bước đầu

tiếp cận với việc chống rửa tiền và chưa có kinh

nghiệm nhiều trong việc phân loại các hình thức rửa

tiền khác nhau

d Tiếp cận không giám sát (Unsupervised

approaches): Phương pháp tiếp cận này dành cho

trường hợp không có tập huấn luyện [3] Đặc biệt

thích hợp cho các ngân hàng chưa từng áp dụng qua

bất kỳ phương pháp chống rửa tiền nào

Theo khảo sát tại một ngân hàng lớn tại Việt

Nam thì các mô hình yêu cầu có tập huấn luyện

không phù hợp với tình hình của Việt Nam do các ngân hàng ở Việt Nam chưa có tập dữ liệu huấn luyện Do đó có thể đề xuất hướng “tiếp cận không giám sát” để giải quyết bài toán nhận dạng rửa tiền ở Việt Nam

2.2 Khảo sát các quy trình rửa tiền 2.2.1 Tổng quan về rửa tiền

Theo nghị định số 74/2005/NĐ-CP về phòng, chống rửa tiền của chính phủ Việt Nam thì rửa tiền

được định nghĩa như sau: “Rửa tiền là hành vi của

cá nhân, tổ chức tìm cách hợp pháp hoá tiền, tài sản

do phạm tội mà có thông qua các hoạt động cụ thể sau đây:

a) Tham gia trực tiếp hoặc gián tiếp vào một giao dịch liên quan đến tiền, tài sản do phạm tội mà có;

b) Thu nhận, chiếm giữ, chuyển dịch, chuyển đổi, chuyển nhượng, vận chuyển, sử dụng, vận chuyển qua biên giới tiền, tài sản do phạm tội mà có;

c) Đầu tư vào một dự án, một công trình, góp vốn vào một doanh nghiệp hoặc tìm cách khác che đậy, nguỵ trang hoặc cản trở việc xác minh nguồn gốc, bản chất thật sự hoặc vị trí, quá trình di chuyển hoặc quyền sở hữu đối với tiền, tài sản do phạm tội

mà có”[11]

Việc rửa tiền thường được tiến hành theo một chu trình, cơ bản bao gồm 3 giai đoạn: phân phối, dàn trải, hội nhập

- Giai đoạn phân phối (placement): Phân phối nguồn tiền từ các hoạt động phi pháp vào các ngân hàng có quy chế lỏng lẻo Thông thường lượng tiền

sẽ được phân chia nhỏ hơn mức cảnh báo của ngân hàng [11]

- Giai đoạn dàn trải (layering): Trong giai đoạn này tiền bẩn sẽ được luân chuyển qua nhiều ngân hàng hoặc qua nhiều tài khoản khác nhau Thực chất đây là quy trình tạo ra một chuỗi các giao dịch nhằm mục đích che đậy các nguồn tiền từ các

Trang 3

hoạt động phi pháp và làm cho chúng ngày càng xa

nguồn gốc ban đầu [11]

- Giai đoạn hội nhập (integration): Tiền được

đầu tư vào những hoạt động kinh doanh hợp pháp

[14]

2.2.2 Quy trình rửa tiền tổng quát

Hình 1: Quy trình rửa tiền tổng quát

Mức độ tinh vi của hành vi rửa tiền phụ thuộc

vào chuỗi quy trình được thực hiện để cắt đứt mối

liên hệ giữa lượng tiền bẩn và nguồn gốc ban đầu

của nó Điều này gây khó khăn cho các biện pháp

nhận dạng rửa tiền trong bước này Tuy nhiên theo

nhận định của bài viết này thì đây là giai đoạn mấu

chốt để thiết lập các hệ thống nhận dạng rửa tiền tự

động Theo khảo sát tại một ngân hàng lớn tại Việt

Nam thì từ các quy trình phổ biến của việc rửa tiền

tại giai đoạn layering trên thực tế, có thể phân chia

nhỏ thành các quy trình cơ bản hơn Điểm đặc biệt

cuả các quy trình cơ bản này là nó mang tính chất

đặc trưng cho một số ít các giao dịch đáng ngờ

Các tài khoản thực hiện chuỗi giao dịch có điểm

tương đồng với các quy trình cơ bản này sẽ được

liệt kê vào nhóm các giao dịch đáng ngờ Điều này

khiến cho việc lần theo mối quan hệ giữa các tài

khoản thực hiện giao dịch đáng ngờ sẽ dễ dàng

hơn và nhanh hơn Các quy trình cơ bản có cấu trúc như sau:

Hình 2: Các quy trình rửa tiền căn bản

Vấn đề của bài toán chống rửa tiền sau khi phân tích cho tới thời điểm này của bài viết là bài toán xác định các tài khoản mang tính chất nghi ngờ rửa tiền thay vì tìm kiếm các giao dịch rửa tiền một cách trực tiếp Phương pháp này có ưu điểm là giới hạn quy mô tìm kiếm các giao dịch rửa tiền trên các tài khoản có dấu hiệu đáng ngờ

2.3 Mô hình dữ liệu học

Dữ liệu chuyển tiền của ngân hàng khảo sát lưu trữ bao gồm các thuộc tính cần thiết sau: Tài khoản người gửi

Tài khoản người nhận

Số tiền giao dịch Loại tiền giao dịch Thời gian giao dịch Các thuộc tính trên cho thấy thông tin chi tiết của từng giao dịch chuyển tiền Khi xét tại một thời điểm có thể vẽ được sơ đồ thể hiện mối quan

hệ giữa các tài khoản

Tài khoản A

Tài khoản B

Số tiền

Hình 3: Đồ thị hóa giao dịch chuyển tiền

Tuy nhiên để xét xem tài khoản có thuộc dạng đáng nghi ngờ hay không phải kiểm tra thông

Trang 4

tin tổng hợp từ các giao dịch của tài khoản đó

trong một khoản thời gian Do đó bài viết này đề

xuất một tập dữ liệu mới sẽ được thống kê từ tập

dữ liệu chuyển tiền Tập dữ liệu mới này sẽ thể

hiện được hành vi đặc trưng của tài khoản trong

khoảng thời gian xác định trước Tập dữ liệu mới

có các thuộc tính như sau :

Bảng 1: danh sách thuộc tính mới

Danh sách thuộc tính Ý nghĩa thuộc tính

Tài khoản Tài khoản giao dịch

Tổng tiển gửi Tổng lượng tiền gửi đi

Tổng tiền nhận Tổng lượng tiền nhận

Số lần gửi Số lần gửi tiền của tài

khoản

Số lần nhận Số lần nhận tiền của tài

khoản

Số quan hệ nhận tiền Số lượng tài khoản gửi

tiền vào tài khoản này

Số quan hệ gửi tiền Số lượng tài khoản nhận

tiền từ tài khoản này

| R_S | | tổng thu – tổng nhận |

Từ các thuộc tính trên có thể thấy rằng từ

giao dịch chuyển tiền của từng cặp tài khoản đã

chuyển thành thông tin dữ liệu giao dịch của từng

tài khoản Dữ liệu giao dịch thể hiện sự đặc trưng

về hành vi ứng với từng tài khoản Phần tiếp theo

bài viết sẽ trình bày thuật toán phù hợp cho loại dữ

liệu giao dịch trên

2.4 Giới thiệu thuật toán CLOPE

Thuật toán CLOPE được phát triển bởi tập

thể tác giả Yiling Yang, Xudong Guan, Jinyuan

You Đây là thuật toán cho kỹ thuật gom cụm, và

đối tượng gom cụm của thuật toán này là các biến

định danh (giá trị kiểu chuỗi) Ý tưởng của thuật

toán xuất phát từ nhận thức rằng việc gom nhóm

các đối tượng dữ liệu kiểu định danh ngày càng

phổ biến Ngoài ra việc ứng dụng khai phá dữ liệu

vào các đối tượng dữ liệu trên thực tế gặp nhiều

khó khăn vì dữ liệu trên thực tế thường đa chiều

(chứa nhiều thông tin thuộc tính khác nhau) Các tác giả của thuật toán CLOPE đã chỉ ra gom cụm hướng tiếp cận theo khoảng cách giữa các đối tượng không phù hợp với dữ liệu về tài chính [2] hay cụ thể trong trường hợp của bài toán rửa tiền

là dữ liệu về giao dịch Mặt khác thuật toán định nghĩa một hàm tiêu chuẩn toàn cục (global citerion function) để làm tiêu chuẩn đánh giá mức độ tối ưu của phương pháp gom cụm Có thể hiểu một cách đơn giản rằng mỗi thuật toán gom cụm đều đưa ra một hàm tiêu chuẩn Các phương pháp gom cụm

sẽ tối ưu hóa dựa trên hàm tiêu chuẩn này Hàm tiêu chuẩn được chia làm 2 loại: hàm tiêu chuẩn cục bộ (local criterion function) và hàm tiêu chuẩn toàn cục (global criterion function) Hàm tiêu chuẩn toàn cục quy định mức độ tối ưu cho toàn

bộ phương pháp gom cụm trong khi đó hàm tiêu chuẩn cục bộ sẽ quy định mức độ tương tự giữa các đối tượng trong cùng một cụm Do đó việc tính toán đối với các hàm tiêu chuẩn toàn cục sẽ nhanh hơn đối với việc tính toán đối với hàm tiêu chuẩn cục bộ Việc sử dụng hàm tiêu chuẩn toàn cục làm tiêu chuẩn đánh giá mức độ tối ưu cũng cho thấy rằng thuật toán CLOPE phù hợp với các dữ liệu đa chiều và có số lượng lớn Thuật toán CLOPE mô hình hóa các cụm thành các biểu đồ histogram có ý nghĩa như sau:

Hình 4: Biểu đồ hóa cụm dữ liệu theo CLOPE

- Trục hoành (X) là các phần tử  D(C)

- Trục tung (Y) tần suất xuất hiện của các phần

tử  D(C) trong cụm C

C

Y

3 2 1

Trang 5

Cho:

- S(C): số lượng phần tử trong cụm C

- W(C): số lượng phần tử nằm trên trục hoành

- Occ(i,C) : tần suất xuất hiện của phần tử thứ i

trong cụm C

- Chiều cao H(C): được tính bằng S(C)/W(C)

Hàm tiêu chuẩn của thuật toán CLOPE :

r : Repulsion là một số thực (r > 0) Trong

trường hợp các tham số S(Ci), |Ci|, W(Ci), đã biết trước và không thay đổi thì có thể khẳng định r càng lớn thì mức độ trùng lặp của dữ liệu trong cùng một cụm càng cao hay nói cách khác lợi nhuận (Profit) của phương pháp gom cụm càng cao Ngược lại r càng nhỏ thì các dữ liệu trùng lặp nhau có thể bị phân chia vào các cụm khác nhau Tuy nhiên trên thực tế, quá trình gom cụm của thuật toán sẽ phải chia các đối tượng vào các cụm sao cho ứng với r cho trước phương pháp gom cụm phải có lợi nhuận cao nhất Điều này còn chứng tỏ rằng phương pháp phân hoạch thành nhiều cụm hơn không chắc chắn sẽ tôi ưu hơn.[2]

Bắt đầu

Chỉ số r (Repulsion)

Tính mức độ tối ưu (hàm tiêu chuẩn với tham sô r) của phương pháp gom cụm khi thêm đối tượng vào một cụm

Tạo cụm mới chứa đối tượng

Tìm thấy

cụm phù hợp

Thêm đối tượng vào cụm sao cho mức độ tối ưu là cao nhất

Không còn đối tượng di chuyển cụm Kết thúc

Sai

Đúng

Hình 5 Sơ đồ luồng xử lý của thuật toán CLOP

3 HIỆN THỰC HỆ THỐNG

Trang 6

Phần này sẽ trình bày về cấu trúc và các bước

xử lý của hệ thống nhận dạng rửa tiền đã được tác

giả bài viết đề cập Hệ thống nhận dạng giao dịch

rửa tiền khi ứng dụng khai phá dữ liệu sẽ bao gồm

4 bước chính sau đây:

1) Chuyển đổi dữ liệu:

Ở công đoạn này các dữ liệu chuyển tiền của từng cặp tài khoản sẽ được thống kê thành dữ liệu giao dịch của từng tài khoản (thể hiện hành vi của tài khoản).Tâp dữ liệu sau khi chuyển đổi sẽ có số lượng dữ liệu  [n,2n] với n là số lượng dữ liệu

chuyển tiền

2) Phân hoạch miền dữ liệu:

Công đoạn này sẽ phân chia các dữ liệu kiểu

số thành từng phân đoạn mang ý nghĩa nhất định

Ví dụ: chuyển đổi các giá trị tổng tiền giao dịch

nằm trong khoảng 1.000.000.000 VND đến

10.000.000.000 VND thành giá trị kiểu chuỗi có

dạng như sau : [1.0000.000.000 =>

10.000.000.000] mang ý nghĩa là “giao dịch với

lượng tiền lớn” (việc chuyển đổi dữ liệu không

những không làm mất đi tính chất của dữ liệu mà

còn làm rõ ý nghĩa của từng loại dữ liệu).[1]

3) Gom cụm và đánh giá cụm:

Ở công đoạn này dữ liệu sẽ được gom thành

các cụm tùy thuộc vào mức độ tối ưu của phương

pháp gom cụm, các đối tượng thuộc cùng một cụm

sẽ có những hành vi giao dịch tương tự nhau

Để đánh giá xem cụm có chứa các tài khoản

có hành vi đáng ngờ không, thì cần phải cung cấp

một số các tiêu chí đánh giá cụm Qua khảo sát tại

ngân hàng X bài viết này cung cấp các tiêu chí để

đánh giá cụm như sau:

Trường hợp 1: Nghi ngờ gửi tiền xoay

vòng : Trị tuyệt đối của tổng lượng tiền giao dịch

của một tài khoản ( |tổng nhận - tổng gửi| ) - thuộc

tính R_S - càng nhỏ (giá trị tiến về 0) Đối với

trường hợp gửi tiền xoay vòng lượng tiền sẽ luân

chuyển qua các tài khoản và cuối cùng sẽ trở về tài

khoản gốc, do đó các tài khoản tham gia vào quy

trình này đều có điểm chung là thực hiện cả giao

dịch gửi tiền và nhận tiền với số tiền tương đương

nên khi thống kê R_S sẽ rất nhỏ Không thể dùng

trường hợp cố định là R_S = 0 vì trong một vài

trường hợp phức tạp tài khoản tham gia rửa tiền có

thể thực hiện giao dịch đổi sang ngoại tệ khác và lợi dụng giá trị chênh lệch của loại tiền vào thời điểm khác nhau để làm thay đổi giá trị của R_S Theo thông tin từ ngân hàng thì giao dịch đổi tiền không được lưu vào CSDL

Trường hợp 2: Nghi ngờ phân tán tiền: Dựa

vào các thuộc tính :

- SỐ LẦN GỬI : Số lần gửi tiền đặc biệt nhiều hơn so với các tài khoản khác

- SỐ QUAN HỆ GỬI TIỀN: Số lượng tài khoản nhận tiền từ tài khoản này nhiều hơn

so với các tài khoản khác

- TỔNG TIỀN GỬI: Tổng tiền gửi lớn, (vượt qua mức cảnh báo của ngân hàng) tuy nhiên

số tiền gửi từng lần lại nhỏ hoặc vừa

Trường hợp này tương đối phức tạp lại tùy thuộc vào quy mô của đường dây rửa tiền và tình hình kinh tế hiện tại Chính nhờ sự phức tạp này

mà kỹ thuật gom cụm lại càng phát huy điểm mạnh của mình Đó là không quan tâm quy mô rửa tiền lớn hay nhỏ mà chỉ quan tâm đến hành vi giống nhau của các giao dịch Để xác định tài khoản đang xét có bị nghi ngờ hay không sẽ phụ thuộc vào phân khúc dữ liệu của người dùng định ra và xác định giá trị rơi vào phân khúc nào thì bị "nghi ngờ"

Trường hợp 3: Nghi ngờ thu gom tiền: Dựa

vào các thuộc tính sau

- SỐ LẦN NHẬN: Số lần nhận tiền đặc biệt nhiều hơn so với các tài khoản khác

- SỐ QUAN HỆ NHẬN TIỀN : Số lượng tài khoản khác nhau gửi tiền vào tài khoản này nhiều hơn so với các tài khoản khác

Trang 7

- TỔNG TIỀN NHẬN : Tổng tiền nhận lớn,

(vượt qua mức cảnh báo của ngân hàng) tuy

nhiên số tiền nhận từng đợt lại nhỏ hoặc vừa

Tương tự như trường hợp gửi tiền phân tán

nhưng áp dụng cho trường hợp giao dịch nhận tiền

từ nhiều tài khoản khác nhau

Nhận xét qua 3 tập tiêu chí dùng để đánh giá

cụm như trên có thể nhận ra rằng chỉ có trường

hợp tiền xoay vòng chứa các tài khoản có hành vi

tương tự nhau Đối với trường hợp phân tán và thu

gom tiền thì các tài khoản tham gia vào một trong hai quy trình này thuộc 2 nhóm có hành vi trái ngược nhau

Do đó kết quả gom cụm của 2 trường hợp này sẽ hình thành 1 cụm chứa các tài khoản có hành vi đặc biệt (nhận tiền từ nhiều nguồn hay phân tán tiền đi nhiều nguồn) hình 3.1 Khi tiến hành kiểm tra mối quan hệ giữa các tài khoản đáng ngờ phải kiểm tra trên toàn bộ tập dữ liệu

Hình 6: Phân tán và gom tụ tiền

4) Kiểm tra quan hệ giữa các tài khoản

thuộc cụm có dấu hiệu đáng ngờ:

Sau khi xác định các cụm có dấu hiệu đáng

ngờ, cần phải xác định mối quan hệ của các tài

khoản thuộc cụm để xác minh xem những tài

khoản nào tham gia vào giao đường dây rửa tiền

và các giao dịch rữa tiền được thực hiện như thế

nào Bài viết này đề xuất sử dụng kết hợp một hệ

quản trị CSDL với cấu trúc n-tree để lần theo vết các quan hệ của tài khoản đang xét

4 KẾT QUẢ THỰC NGHIỆM

Tác giả bài viết này đã tiến hành thực nghiệm trên 8020 dòng dữ liệu chuyển tiền do ngân hàng

X cung cấp Sau khi chuyển đổi thành dữ liệu giao dịch trở thành 12.350 dòng Tác giả bài viết đã thêm vào 25 dòng dữ liệu chuyển tiền giả lập các trường hợp rửa tiền như sau:

Trang 8

Hình 7: Các trường hợp rửa tiền được giả lập Bảng 2: Kết quả thực nghiệm

Xoay vòng

Tổng : 13 đối tượng / 13 Tổng: 13 đối tượng / 389

Phân tán tiền

Cụm 2 1 đối tượng/3039 Cum 3 2 đối tượng/1091

Tổng: 6 đối tượng/ 1805 Tổng: 6 đối tượng/ 8520

Thu gom tiền

Cụm 2 1 đối tượng/3039 Cụm 16 1 đối tượng/159

Tổng cộng: 6 đôi tượng/ 1297 Tổng cộng: 6 đối tượng / 6622

5 KẾT LUẬN

Qua khảo sát và dựa vào những yêu cầu của

ngân hàng nơi cung cấp dữ liệu cho thấy bài toán

rửa tiền đang chiếm được nhiều sự quan tâm trong nên kinh tế của nước ta

Bài viết cung cấp một hướng tiếp cận bài toán nhận dang các giao dịch rửa tiền theo hướng

Trang 9

dữ liệu và kết hợp với khai phá dữ liệu, thuật toán

CLOPE được áp dụng trong bài viết khá phù hợp

với trường hợp dữ liệu đưa ra Tuy nhiên để hiệu

quả hơn trong việc phát hiện các giao dịch rữa tiền

cần phải có sự tham gia phân tích của người dủng

để cung cấp tiêu chí đánh giá cụm và phân hoạch

miền dữ liệu Do đó chưa thể nói bài viết cung cấp một cơ chế hoàn toàn tự động Kết quả của hệ thống có thể dùng làm dữ liệu đầu vào cho các hệ thống tự động phân loại và đánh giá dữ liệu đã gắn nhãn như đã trình bày trong 3 hướng tiếp cận đầu

6 TÀI LIỆU THAM KHẢO

[1] PGS.TS.Đỗ Phúc, 2008, Giáo trình KHAI THÁC DỮ LIỆU Data Mining, Nhà xuất bản Đại Học Quốc Gia TP HCM

[2] Tập thể tác giả Yiling Yang-Xudong Guan-Jinyuan You, 2002, CLOPE: A Fast and Effective

Clustering Algorithm for Transactional Data, Shanghai Jiao Tong University

[3] Linard Moll from Switzerland, 9/2009, Master Thesis : Anti Money Laundering under real world conditions - Findingrelevantpatterns,Universitys of Zurich, , pp 4-15

[4] Ths.Vũ Lan Phương, 2006, NGHIÊN CỨU VÀ CÀI ĐẶT MỘT SỐ GIẢI THUẬT PHÂN CỤM, PHÂN LỚP, Đại Học Bách Khoa Hà Nội

[5] Kenneth H Rosen,2000, sách giáo khoa: Toán học rời rạc ứng dụng trong tin học, NXB Khoa Học Và

Kỹ Thuật, người dịch : Phạm Văn Thiều, Đặng Hữu Thịnh

[6] Nhóm tác giả Nhien-An Le-Khac, Sammer Markos, M-Tahar Kechadi, 2009, A Heuristics Approach for Fast Detecting Suspicious Money Laundering Cases in an Investment Bank

[7] Nhóm tác giả Ankita Vimal, Satyanarayana R Valluri, Kamalakar Karlapalem,, 2008, An Experiment with Distance Measures for Clustering

[8] Nhóm tác giả Surachai, Wiwattanacharoenchai, Anongnart Srivihok, Data Mining of Electronic Banking in Thailand: Usage Behavior Analysis by Using K-Means Algorithm

[9] Webpage : Wikipedia – searching about transaction database,

http://en.wikipedia.org/wiki/Database_transaction

[10] Webpage : Tìm hiểu về các hình thức rửa tiền, http://www.vnecon.vn/showthread.php/3764-R

%E1%BB%ADa-ti%E1%BB%81n-l%C3%A0-g%C3%AC-C%C3%A1c-h%C3%ACnh-th%E1%BB

%A9c-r%E1%BB%ADa-ti%E1%BB%81n-hi%E1%BB%87n-nay

[11]Webpage : Phòng chống rửa tiền ở Việt Nam 3/2009

http://www.hids.hochiminhcity.gov.vn/Noisan/32009/mach3.htm

Tiêu đề	Ứng Dụng Khai Phá Dữ Liệu Vào Nhận Dạng Các Giao Dịch Rửa Tiền Trong Ngân Hàng
Tác giả	Cao Đăng Khoa
Trường học	Trường Đại Học Công Nghệ Thông Tin
Thể loại	bài báo

Định dạng
Số trang	9
Dung lượng	648,63 KB

Tài liệu tham khảo	Loại	Chi tiết
[9] Webpage : Wikipedia – searching about transaction database, http://en.wikipedia.org/wiki/Database_transaction	Link
[10] Webpage : Tìm hiểu về các hình thức rửa tiền, http://www.vnecon.vn/showthread.php/3764-R%E1%BB%ADa-ti%E1%BB%81n-l%C3%A0-g%C3%AC-C%C3%A1c-h%C3%ACnh-th%E1%BB%A9c-r%E1%BB%ADa-ti%E1%BB%81n-hi%E1%BB%87n-nay	Link
[1] PGS.TS.Đỗ Phúc, 2008, Giáo trình KHAI THÁC DỮ LIỆU Data Mining, Nhà xuất bản Đại Học Quốc Gia TP HCM	Khác
[2] Tập thể tác giả Yiling Yang-Xudong Guan-Jinyuan You, 2002, CLOPE: A Fast and Effective Clustering Algorithm for Transactional Data, Shanghai Jiao Tong University	Khác
[3] Linard Moll from Switzerland, 9/2009, Master Thesis : Anti Money Laundering under real world conditions - Findingrelevantpatterns,Universitys of Zurich, , pp 4-15	Khác
[4] Ths.Vũ Lan Phương, 2006, NGHIÊN CỨU VÀ CÀI ĐẶT MỘT SỐ GIẢI THUẬT PHÂN CỤM, PHÂN LỚP, Đại Học Bách Khoa Hà Nội	Khác
[5] Kenneth H. Rosen,2000, sách giáo khoa: Toán học rời rạc ứng dụng trong tin học, NXB Khoa Học Và Kỹ Thuật, người dịch : Phạm Văn Thiều, Đặng Hữu Thịnh	Khác
[6] Nhóm tác giả Nhien-An Le-Khac, Sammer Markos, M-Tahar Kechadi, 2009, A Heuristics Approach for Fast Detecting Suspicious Money Laundering Cases in an Investment Bank	Khác
[7] Nhóm tác giả Ankita Vimal, Satyanarayana R Valluri, Kamalakar Karlapalem,, 2008, An Experiment with Distance Measures for Clustering	Khác
[8] Nhóm tác giả Surachai, Wiwattanacharoenchai, Anongnart Srivihok, Data Mining of Electronic Banking in Thailand: Usage Behavior Analysis by Using K-Means Algorithm	Khác