Mạng nơ-ron đơn giản

5 ỨNG DỤNG PHÁT HIỆN DỮ LIỆU NGOẠI LAI

1.2 Mạng nơ-ron đơn giản

Mạng nơ-ron sâu hoạt động như mạng nơ-ron nhưng số lớp ẩn là nhiều hơn một. Với mơ hình này, độ chính xác có thể tăng lên và hiển nhiên là mơ hình cần một tài ngun lớn cho việc tính tốn cũng như thời gian xử lý.

Support Vector Machine

Support Vector Machine là giải thuật học có giám sát rất phổ biến về độ sử dụng rộng rãi của nó. Giải thuật được sử dụng trong bài toán phân loại hai lớp. Cụ thể về cơ sở lý thuyết của giải thuật sẽ được trình bày ở dưới. Và đây cũng chính là hướng tiếp cận được áp dụng trực tiếp trong đề tài này.

2 MƠ HÌNH SVM CHO BÀI

TỐN PHÂN LOẠI MỘT LỚP

Trong chương này, chúng tơi giới thiệu lý thuyết về thuật tốn SVM, hai hướng tiếp cận đối với bài tốn AD đó là SVDD và OCSVM để từ đó đưa ra một số thảo luận và đánh giá.

2.1 Tổng quan về Support Vector Machine 2.1.1 Giới thiệu

Support Vector Machine (SVM) là phương pháp phân loại dữ liệu có giám sát, được Vapnik và các cộng sự giới thiệu lần đầu tiên vào năm 1995. SVM ban đầu chỉ thực hiện việc phân loại nhị phân nhưng sau này được Vapnik phát triển lên thành phương pháp có thể phân dữ liệu ra nhiều lớp khác nhau và được ứng dụng rất hiệu quả trong thực tế cho đến ngày nay như: nhận dạng chữ viết tay, nhận dạng giọng nói, phân tích gen,...

Cơ sở tốn học của phương pháp phân loại SVM là dựa trên nền tảng lý thuyết thống kê và lý thuyết không gian vector. Sử dụng các hàm tuyến tính trong khơng gian vector để phân biệt khơng gian đặc trưng của tập huấn luyện.

Tiếp theo chúng ta sẽ đi sâu vào phần nền tảng lý thuyết cũng như các biến thể của phương pháp. Đây là một phần cực kỳ quan trọng trong việc giúp người đọc có cái nhìn tổng quan khi đọc về bài tốn phân loại một lớp.

2.1. Tổng quan về Support Vector Machine

2.1.2 Hard-margin SVMÝ tưởng Ý tưởng

Hard-margin SVM là trường hợp đơn giản nhất của SVM, tương tự như mơ hình phân loại nhị phân, trong trường hợp tập dữ liệu mẫu ban đầu được phân thành hai tập dữ liệu riêng biệt hoàn toàn.

Xét một tập huấn luyện S gồm một mẫu như sau:S= {(x1,y1),(x2,y2), ...,(xN,yN)} với vector xi∈Rd thể hiện đầu vào của một điểm dữ liệu và yi là nhãn của điểm dữ liệu, d là số chiều và N là số điểm dữ liệu. Giả sử rằng nhãn yi ∈ {1,−1}.

Mục tiêu của việc phân loại là tìm ra một hàm phi tuyến f :X ∈Rd→R, tức là tìm hàm f(x) sao cho f(xi) =yi,∀(xi,yi)∈S. Chúng ta quy ước f(xi)>0 được gán cho giá trị mục tiêu yi = +1 thuộc tậpS+, được biểu diễn trên Hình 2.1

bằng những chấm màu đỏ, ngược lại nếu f(xi)<0 thì được giá trị yi =−1, được biểu diễn trên Hình 2.1 bằng những chấm đen.

Một số tiếp cận phổ biến hiện nay

Giới thiệu các biến slack