Ứng dụng phát hiện phần tử ngoại lai

Một phần của tài liệu luận văn thuật toán phát hiện phần tử ngoại lai và ứng dụn (Trang 23 - 28)

CHƯƠNG 1. PHẦN TỬ NGOẠI LAI VÀ ỨNG DỤNG TRONG

1.4 Ứng dụng phát hiện phần tử ngoại lai

Phát hiện xâm nhập dùng để phát hiện các hoạt động nguy hiểm (phá vỡ thâm nhập và các hình thức khác của máy tính) trong một hệ thống máy tính liên quan từ một vấn đề bảo mật. Khác với hệ thống hành vi bình thường, phát

hiện xâm nhập áp dụng các kỹ thuật phát hiện ngoại lai. Các thách thức chính cho việc phát hiện ngoại lai là:

+ Khối lượng dữ liệu lớn: Điều này đòi các kỹ thuật hiệu quả tính toán.

+ Truyền dữ liệu: Điều này đòi hỏi phân tích trực tuyến.

+ Tỷ lệ báo động sai: Tỷ lệ phần trăm nhỏ nhất của báo động sai trong số hàng triệu đối tượng dữ liệu có thể làm cho là quá sức đối với một nhà phân tích.

+ Được gán nhãn dữ liệu thường không có sẵn cho xâm nhập: Đây sẽ ưu tiên cho ban giám sát và phát hiện ngoại lai không có giám sát kỹ thuật. Hệ thống phát hiện xâm nhập đã được phân loại vào máy chủ dựa và mạng dựa trên hệ thống phát hiện xâm nhập.

1.4.2 Phát hiện gian lận

Gian lận liên quan đến hoạt động tội phạm xảy ra trong các tổ chức thương mại, các tổ chức như ngân hàng, các công ty thẻ tín dụng, cơ quan bảo hiểm, các công ty điện thoại di động, thị trường chứng khoán , … Người sử dụng độc hại có thể là khách hàng thực tế của tổ chức hoặc phải dùng đến hành vi trộm cắp danh tính (giả làm khách hàng). Các hoạt động phát hiện nhằm mục đích phát hiện tiêu thụ trái phép các nguồn tài nguyên được cung cấp bởi tổ chức để ngăn chặn thiệt hại kinh tế. Một cách tiếp cận chung để phát hiện ngoại lai ở đây sẽ liên quan duy trì một cấu hình sử dụng cho từng khách hàng và theo dõi các cấu hình để phát hiện bất kỳ sai lệch được gọi là hoạt động giám sát. Một số ứng dụng cụ thể của phát hiện gian lận:

- Phát hiện thẻ tín dụng gian lận: Kỹ thuật phát hiện ngoại lai được áp dụng để phát hiện gian lận đối với thẻ tín dụng. Điều này cũng tương tự như việc phát hiện gian lận bảo hiểm. Cách sử dụng gian lận của thẻ tín dụng: Kết hợp với các vụ trộm cắp thẻ tín dụng. Các hồ sơ dữ liệu được xác định trên một số phương diện như nhận diện người sử dụng, đã dành số tiền, thời gian

giữa các lần liên tiếp sử dụng thẻ… Các gian lận thường được phản ánh trong hồ sơ giao dịch (giá trị ngoại lai điểm) và tương ứng với thanh toán cao, tốc độ cao, mua các mặt hàng không bao giờ mua bởi người sử dụng trước,… sẵn có của ghi nhãn là không có vấn đề vì các công ty tín dụng có đầy đủ dữ liệu có sẵn. Hơn nữa, dữ liệu rơi vào sự khác biệt dựa vào người sử dụng thẻ tín dụng. Vì thế các kỹ thuật trên thường được sử dụng trong lĩnh vực này. Phát hiện trực tuyến lừa đảo ngay sau khi giao dịch gian lận xảy ra là một thách thức trong việc phát hiện thẻ tín dụng trái phép hiện nay.

1.4.3 Phát hiện bảo hiểm yêu cầu bồi thường gian lận

Một vấn đề quan trọng trong ngành công nghiệp bảo hiểm là các hành vi gian lận: ví dụ xe hơi gian lận bảo hiểm. Các cá nhân và tổ chức bên yêu sách và các nhà cung cấp yêu cầu bồi thường hệ thống xử lý cho các tuyên bố trái phép và bất hợp pháp. Các dữ liệu trong lĩnh vực này để phát hiện gian lận đến từ các văn bản trình của các bên tranh chấp.

Các kỹ thuật trích xuất các tính năng khác nhau (cả phân loại cũng như liên tục) từ các tài liệu này. Thông thường , điều chỉnh các yêu cầu và điều tra đánh giá những tuyên bố cho gian lận. Những điều tra bằng tay trường hợp được sử dụng như trường hợp dán nhãn của giám sát và kỹ thuật giám sát cho gian lận bảo hiểm phát hiện. Phát hiện bảo hiểm bồi thường gian lận là khá thường xuyên xử lý như một vấn đề giám sát hoạt động chung, kỹ thuật dựa trên mạng lưới thần kinh cũng đã được áp dụng để xác định yêu cầu bảo hiểm bất thường.

1.4.4 Ứng dụng trong y tế công cộng

Các dữ liệu thường bao gồm hồ sơ bệnh nhân mà có thể có các loại khác nhau của các tính năng như tuổi của bệnh nhân, nhóm máu, trọng lượng.

Dữ liệu cũng có thể có thời gian cũng như không gian. Dữ liệu có thể có giá trị ngoại lai do một số lý do như tình trạng bệnh nhân bất thường hoặc thiết bị

đo đạc lỗi hoặc lỗi ghi âm. Hầu hết các ngoại lai hiện tại kỹ thuật phát hiện trong này nhằm mục đích phát hiện tại hồ sơ bất thường (ngoại lai điểm).

Thông thường các dữ liệu được dán nhãn thuộc về bệnh nhân khỏe mạnh, do đó hầu hết các kỹ thuật áp dụng giám sát tiếp cận. Một hình thức khác của dữ liệu xử lý bởi ngoại lai kỹ thuật phát hiện trong lĩnh vực này là dữ liệu chuỗi thời gian, chẳng hạn như điện tâm đồ (ECG) và điện não đồ (EEG). Kỹ thuật phát hiện ngoại lai đã được áp dụng để phát hiện giá trị ngoại lai trong dữ liệu như vậy. Một số kỹ thuật cũng có tập trung vào việc phát hiện dịch bệnh ở một khu vực cụ thể. Vì vậy việc phát hiện ngoại lai là rất quan trọng vấn đề trong lĩnh vực này và đòi hỏi mức độ cao và chính xác. Các khía cạnh thách thức nhất của việc phát hiện ngoại lai là vấn đề trong lĩnh vực này là chi phí phân loại một ngoại lai như bình thường có thể rất cao.

1.4.5 Phát hiện thiệt hại công nghiệp

Các nhà máy công nghiệp bị thiệt hại do liên tục sử dụng và hao mòn thông thường, thiệt hại như vậy cần phải được phát hiện sớm để ngăn chặn sự leo thang hơn nữa và gây tổn thất dẫn đến thiệt hại. Các dữ liệu trong phạm vi này thường là cảm biến dữ liệu được ghi bằng các cảm biến khác nhau và thu thập cho phân tích.

Ví dụ: Phát hiện lỗi trong đơn vị cơ khí và thành phần như động cơ, tua bin, dầu chảy trong đường ống, ... Các vết nứt trong dầm, thủng trong khung máy bay, dữ liệu không lường trước được sử dụng cho lỗi phát hiện ở các nhà máy cơ khí…

1.4.6 Xử lý hình ảnh

Phát hiện ngoại lai ở đây nhằm phát hiện những thay đổi trong một hình ảnh theo thời gian (phát hiện chuyển động) hoặc trong các khu vực mà xuất hiện bất thường trên hình ảnh tĩnh. Tên miền này bao gồm các hình ảnh vệ tinh, công nhận chữ số, quang phổ, hình ảnh X quang vú, và giám sát

video... Các yếu tố được gây ra bởi chuyển động hoặc chèn đối tượng hoặc thiết bị lỗi. Các dữ liệu có không gian cũng như đặc điểm thời gian. Mỗi điểm dữ liệu có một vài các thuộc tính liên tục như màu sắc, kết cấu , …Các giá trị ngoại lai thú vị là những điểm hoặc bất thường hoặc khu vực trong ảnh (điểm và sự chênh lệch theo ngữ cảnh). Một trong những thách thức quan trọng trong lĩnh vực này là kích thước lớn của đầu vào. Thách thức lớn khi giao dịch với dữ liệu video, và các kỹ thuật phát hiện trực tuyến là cần thiết.

1.4.7 Mạng cảm biến

Mạng cảm biến gần đây đã trở thành một chủ đề quan trọng nghiên cứu từ góc độ phân tích dữ liệu, kể từ các dữ liệu thu thập được từ các cảm biến không dây khác nhau có một số đặc điểm độc đáo. Ngoại lai trong dữ liệu đó thu thập hoặc có thể bao hàm một hoặc nhiều cảm biến bị lỗi (Các ứng dụng cảm biến phát hiện lỗi), hoặc các cảm biến sự kiện phát hiện (ứng dụng phát hiện xâm nhập) là thú vị cho các nhà phân tích . Một mạng lưới cảm biến duy nhất có thể bao gồm một hỗn hợp của cảm biến thu thập các loại dữ liệu khác nhau : Chẳng hạn như nhị phân, rời rạc, liên tục, âm thanh, video… dữ liệu được tạo ra trong một chế độ trực tuyến và thu thập dữ liệu thường chứa tiếng ồn và mất giá trị do hạn chế áp đặt bởi triển khai môi trường và kênh truyền thông. Điều này đặt ra một tập hợp các thách thức duy nhất. Các luồng dữ liệu các cuộc gọi cho kỹ thuật phát hiện bên ngoài để hoạt động trong một cách tiếp cận trực tuyến. Các nguồn tài nguyên nghiêm trọng hạn chế gọi cho kỹ thuật phát hiện trọng lượng nhẹ. Các dữ liệu thu thập được trong một thời gian phân phối cuộc gọi, phương pháp khai thác dữ liệu để phân tích các dữ liệu. Cuối cùng sự hiện diện của tiếng ồn trong dữ liệu cảm biến làm cho phát hiện ngoại lai khó khăn hơn, vì nó có đến bây giờ phân biệt giữa giá trị ngoại lai thú vị và giá trị mong muốn (tiếng ồn / giá trị bị mất)

Một phần của tài liệu luận văn thuật toán phát hiện phần tử ngoại lai và ứng dụn (Trang 23 - 28)

Tải bản đầy đủ (PDF)

(75 trang)