Bài toán phân loại một lớp và một số ứng dụng

Một phần của tài liệu Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp (Trang 26 - 30)

liệu bình thường. Chính vì vậy mà rất khó, nếu khơng muốn nói là khơng thể để thu thập tập dữ liệu ngoại lai để dán nhãn. Sự thiếu cân bằng trong tập dữ liệu gây ra rất nhiều khó khăn cho quá trình huấn luyện.

Sự đa dạng về các loại bất thường: Có ba loại bất thường đã được khám

phá bao gồm điểm dữ liệu bất thường đơn lẻ, dữ liệu bất thường có điều kiện và dữ liệu bất thường theo nhóm.

Thách thức

Phát hiện các dị thường phức tạp: Hầu hết các phương pháp hiện tại

chỉ áp dụng với điểm dữ liệu bất thường riêng lẻ, không thể sử dụng cho dữ liệu bất thường có điều kiện và bất thường theo nhóm vì chúng thể hiện hành vi hồn tồn khác với các điểm bất thường riêng lẻ. Ngoài ra, các phương pháp hiện tại chủ yếu tập trung vào việc phát hiện các điểm bất thường từ các nguồn dữ liệu đơn lẻ, trong khi nhiều ứng dụng yêu cầu phát hiện các điểm bất thường với nhiều nguồn dữ liệu khơng đồng nhất, ví dụ: dữ liệu đa chiều, dữ liệu đồ thị, hình ảnh, văn bản và âm thanh. Một thách thức chính là một số điểm bất thường chỉ có thể được phát hiện khi xem xét hai hoặc nhiều nguồn dữ liệu.

Áp dụng với dữ liệu nhiều chiều: Mơ hình phát hiện ngoại lai có thể

làm việc tốt với dữ liệu có số chiều nhỏ. Nhưng với tập dữ liệu có số chiều lớn, mơ hình gặp khó khăn trong việc phát hiện. Số chiều lớn của tập dữ liệu đã và đang là một thách thức mang tính lâu dài.

1.3 Bài tốn phân loại một lớp và một số ứng dụng

1.3.1 Khái niệm

Mơ hình phân loại nhiều lớp truyền thống nhằm phân loại một đối tượng dữ liệu chưa biết vào một lớp trong danh sách hữu hạn các lớp được xác định trước (trường hợp đơn giản nhất là phân loại nhị phân). Một vấn đề nảy sinh khi đối tượng dữ liệu chưa xác định khơng thuộc bất kỳ lớp nào trong số đó. Giả sử rằng

1.3. Bài toán phân loại một lớp và một số ứng dụng

chúng ta có một tập dữ liệu huấn luyện bao gồm lớp trái cây và rau quả, bất kỳ bộ phân loại nhị phân nào cũng có thể được áp dụng để giải quyết bài toán phân loại này một cách dễ dàng nếu một đối tượng thử nghiệm không xác định (thuộc miền trái cây và rau quả, ví dụ như đào hoặc cà chua) được đưa ra để phân loại. Tuy nhiên nếu đối tượng dữ liệu thử nghiệm đến từ một miền hồn tồn khác (ví dụ: phở trong miền món ăn), những bộ phân loại này sẽ ln phân loại phở là trái cây hoặc rau quả, đây là một kết quả sai trong cả hai trường hợp. Đôi khi nhiệm vụ phân loại không chỉ là phân loại một đối tượng thử nghiệm vào các danh mục các lớp được xác định trước mà cịn xác định xem nó có thuộc một lớp cụ thể hay khơng. Trong ví dụ trên, một quả đào thuộc nhóm hoa quả cịn phở thì khơng.

Đối với bài toán phân loại một lớp, một trong các lớp (gọi là lớp tích cực hoặc lớp mục tiêu) được đặc trưng bởi các dữ liệu trong tập dữ liệu huấn luyện, trong khi lớp còn lại (lớp phủ định hoặc lớp ngoại lai) có rất ít dữ liệu thực tế hoặc chúng không tạo thành mẫu đại diện thống kê về khái niệm phủ định. Tổng thể bài tốn được minh họa như Hình 1.1.

Hình 1.1: Bài tốn phân loại một lớp

Để nhận thấy tầm quan trọng của bài toán phân loại một lớp, chúng ta hãy xem xét một số tình huống. Ví dụ, một tình huống có thể xảy ra khi chúng ta

1.3. Bài toán phân loại một lớp và một số ứng dụng

muốn theo dõi các lỗi có thể xảy ra trong các hệ thống máy. Chúng ta cần một bộ phân loại có khả năng phát hiện khi máy có hoạt động bất thường hoặc bị lỗi. Các phép đo về hoạt động bình thường của máy (dữ liệu huấn luyện lớp tích cực) chúng ta có thể dễ dàng thu thập một cách đầy đủ và chi tiết. Tuy nhiên, dữ liệu về các hoạt động lỗi hoặc bất thường của máy chúng ta lại không thể thu thập một cách đầy đủ được, và hơn hết chúng ta không thể dự kiến hết tồn bộ các lỗi có thể xảy trong tương lai. Hơn nữa, chúng ta không thể chờ để thu thập dữ liệu về các lỗi hoặc bất thường của máy một cách thụ động vì tốn kém chi phí và khơng đảm bảo an tồn lao động. Một ví dụ khác là chẩn đốn bệnh tự động. Tương đối dễ dàng để tổng hợp dữ liệu dương tính nhưng dữ liệu âm tính có thể khó lấy vì những bệnh nhân khác trong cơ sở dữ liệu khơng thể được coi là trường hợp âm tính nếu họ chưa từng được xét nghiệm và những thử nghiệm như vậy có thể tốn kém. Ngồi ra, nếu căn bệnh này là hiếm gặp, rất khó để thu thập các mẫu dương tính cho đến khi một nhóm đủ lớn đã mắc bệnh đó, đây là một cách tiếp cận khơng thỏa đáng.

Bài toán phân loại một lớp (OCC) là một loại bài tốn phân loại đặc biệt nhằm mục đích xây dựng các mơ hình phân loại khi lớp phủ định vắng mặt, được lấy mẫu kém hoặc không được xác định rõ, chính vì lẽ đó trong tập huấn luyện chỉ có (hoặc hầu hết) các điểm dữ liệu của một lớp (lớp đa số). Nhiệm vụ trong phân loại một lớp là tạo ra một mơ hình của một tập hợp các điểm dữ liệu mục tiêu và dự đoán xem một điểm dữ liệu thử nghiệm có tương đồng với lớp đa số hay khơng. Điểm khác biệt với lớp đa số được gọi là ngoại lai (outlier).

1.3.2 Ứng dụng thực tiễn

Các hướng tiếp cận với bài toán OCC đã được nhiều cơng trình khoa học nghiên cứu phát triển và có các ứng dụng trong các lĩnh vực khác nhau bao gồm phát hiện bất thường, phát hiện gian lận, phát hiện lỗi máy, phát hiện thư rác,...

1.3.3 Điểm khác biệt với bài toán phân loại đa lớp

Trong bài toán phân loại nhiều lớp thơng thường, dữ liệu từ hai (hoặc nhiều) lớp có sẵn và đường ranh giới phân chia được quyết định bởi sự hiện diện của các đối tượng dữ liệu từ mỗi lớp. Hầu hết các bộ phân loại thông thường đều giả định

1.3. Bài toán phân loại một lớp và một số ứng dụng

rằng trong tập huấn luyện các lớp dữ liệu đươc lấy mẫu một cách cân bằng, do đó chúng khơng hoạt động hoặc hoạt động khơng đạt hiệu quả hoặc thậm chí sai lệch khi bất kỳ lớp nào bị lấy mẫu thiếu nghiêm trọng hoặc hoàn toàn vắng mặt. Juszczak[11] định nghĩa bộ phân loại một lớp là bộ mơ tả lớp có thể học các miền bị hạn chế trong không gian mẫu đa chiều chủ yếu chỉ sử dụng một tập hợp các ví dụ tích cực.

Theo quan sát của Tax [13], các vấn đề gặp phải trong các bài tốn phân loại thơng thường, chẳng hạn như ước tính sai số phân loại, đo độ phức tạp của một giải pháp, sai số về chiều, tổng quát của phương pháp phân loại cũng xuất hiện trong OCC và đơi khi cịn trở nên nổi bật hơn. Như đã nêu trước đó, trong các bài toán OCC hoặc các đối tượng dữ liệu phủ định khơng có hoặc có sẵn với số lượng hạn chế, vì vậy chỉ có thể xác định một bên của ranh giới phân loại bằng cách chỉ sử dụng dữ liệu tích cực (hoặc một số phủ định). Do đó, các bộ phân loại tiêu chuẩn thông thường không thể được áp dụng trực tiếp cho các bài toán OCC. Điều này làm cho bài tốn phân loại một lớp khó hơn bài tốn phân loại hai lớp thông thường. Nhiệm vụ trong OCC là xác định ranh giới phân loại xung quanh lớp tích cực, sao cho nó chấp nhận càng nhiều đối tượng càng tốt từ lớp tích cực, đồng thời giảm thiểu cơ hội chấp nhận các đối tượng ngoại lệ. Trong OCC, vì chỉ có thể xác định được một mặt của ranh giới, nên rất khó để quyết định trên cơ sở chỉ một lớp mà ranh giới sẽ khớp với từng hướng xung quanh dữ liệu. Việc quyết định các tính năng nào nên được sử dụng để tìm ra sự phân tách tốt nhất giữa các đối tượng lớp tích cực và ngoại lệ cũng khó hơn.

1.3.4 Thách thức và khó khăn

Như những gì đã trình bày ở trên, các phương pháp tiếp cận này cịn nhiều hạn chế trong đó có thể kể đến sự phân bố của dữ liệu, các đối tượng trong khu vực mật độ thấp thường sẽ bị dán nhãn ngoại lai mặc dù chúng là đối tượng hợp lệ. Ngồi ra vì đặc thù của bài tốn, tập dữ liệu cho việc huấn luyện thường yêu cầu nghiêm ngặt và đầy đủ hơn so với các loại bài tốn phân loại thơng thường.

Một phần của tài liệu Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp (Trang 26 - 30)