Phát hiên sai lêch •

Một phần của tài liệu Khoá luận tốt nghiệp ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng TMCP ngoại thương chi nhánh việt trì (Trang 38 - 39)

Phát hiện sai lệch được định nghĩa như là nhiệm vụ tìm các bản ghi dữ liệu bất thường trong các tập dữ liệu lớn. Các bản ghi này được gọi là các bản ghi ngoại lệ. Làm thế nào để định nghĩa chính xác "bất thường" là chủ đề tranh luận học thuật và cũng có thể phụ thuộc vào lĩnh vực áp dụng phát hiện sai lệch. Ở một mức chung, phát hiện sai lệch nhằm để tìm các bản ghi dữ liệu có các đặc tính không tuân theo sự phân bố thống kê của đa số các bản ghi dữ liệu. Tùy thuộc vào lĩnh vực của ứng dụng, các sai lệch có thể là:

+ Dữ liệu không đúng (ví dụ, nếu một người có tuổi là 300, đây có lẽ là do nhập không đúng vào cơ sở dữ liệu).

+ Hành vi bất thường của các quá trình phía dưới (ví dụ, các giao dịch thẻ tín dụng không thực hiện theo các quy trình thông thường).

Do đó, có thể sử dụng việc phát hiện sai lệch cho các nhiệm vụ khác nhau. Nếu bạn giả định rằng dữ liệu của bạn có chứa dữ liệu không đúng, thì bạn có thể áp dụng việc phát hiện sai lệch để làm sạch dữ liệu, vì thế hãy tìm kiếm các mục nhập không đúng ừong cơ sở dữ liệu của bạn. Trong trường hợp thứ hai, dữ liệu đúng, nhưng cho biết rằng một số các quy trình được phản ánh trong các dữ liệu cho thấy có hành vi bất thường. Cùng với việc làm sạch dữ liệu, ứng dụng phát hiện sai lệch chính thứ hai có thể được sử dụng để phát hiện gian lận. Như đã chỉ ra ở trên, hành vi bất thường không nhất thiết là gian lận. Ví dụ, nó cũng có thể cho

biết các quá trình mới đang nổi lên, tức là "các khách hàng cao tuổi thực hiện quá nhiều các cuộc đấu giá trực tuyến". Việc phát hiện từ rất sớm các các quá trình đang nổi lên như vậy, cho phép các công ty cung cấp rất sớm các sản phẩm hay dịch vụ mới, tạo cho họ một lợi thế quan trọng so với đối thủ cạnh tranh. Một ứng dụng tương tự có thể có trong lĩnh vực tài chính. Việc phát hiện sai lệch được sử dụng để tìm các khoản đầu tư đầy hứa hẹn không phù hợp với các quá trình thông thường và vì thế cho đến nay vẫn chưa được công nhận. Trong mọi trường hợp, một nhà phân tích về con người phải kiểm ứa các các bản ghi ngoại lệ để xem liệu các giá trị số liệu không đúng hay không hoặc liệu có phải thực hiện một số hành động để ừánh gian lận hoặc để tận dụng một số cơ hội cho đến nay vẫn chưa được công nhận không.

Một phần của tài liệu Khoá luận tốt nghiệp ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng TMCP ngoại thương chi nhánh việt trì (Trang 38 - 39)