5. Bố cục của luận án
2.7. Phát hiện VĐBT sử dụng hàm nhân phi tuyến hồi quy
2.7.1. Phương pháp huấn luyện
Cho X là véc-tơ ngẫu nhiên từ một tập hợp được tham số hĩa, muốn tìm sao cho
( | ) là cực đại. Yêu cầu này được gọi là ước tính tối đa khả năng Maximum Likelihood (ML)
cho . Để ước tính , hàm hợp lý log (log likelihood function) được định nghĩa là:
( ) = ( | )
(2.16)
Thuật tốn tối đa hố kỳ vọng (EM) là một thủ tục lặp để tối đa hĩa ( ). Giả sử rằng sau lần lặp thứ n ước tính hiện tại cho được đưa ra bởi . Vì mục tiêu là để tối đa hĩa ( ), muốn tính tốn một ước tính cập nhật thì:
( ) > L( )
(2.17)
Tương tự, muốn tối đa hĩa sự khác biệt: ( ) - L( ) = lnP( | ) - lnP( | )
(2.18)
Các biến ẩn cĩ thể được giới thiệu hồn tồn như một thủ thuật để ước tính khả năng tối đa . Trong trường hợp này, giả sử rằng việc biết rõ các biến ẩn sẽ làm cho việc tối đa hĩa hàm dễ dàng hơn, cĩ nghĩa là biểu diễn các véc-tơ ẩn ngẫu nhiên bởi Z được thể hiện bởi z. Tổng xác suất ( | ) cĩ thể được viết theo các biến ẩn z như sau:
( | ) = ∑ ( | , ) ( | )
(2.19)
Cơng thức 2.18 cĩ thể được viết lại như sau: ( ) − ( ) = ∑ ( | , ) ( | ) − ( | )
(2.20)
Lưu ý rằng biểu thức này liên quan đến logarit của một tổng, nĩ đã được chứng minh rằng:
∑ =1 ≥ ∑ =1 ( )
cho hằng số ≥ 0 với ∑ =1 = 1 . Kết quả này cĩ thể được áp dụng cho cơng thức 2.20 liên quan đến logarit của tổng đối với các hằng số được xác định. Cần xem xét để tính tốn ( | , ), vì ( | , ) là một thước đo xác suất, chúng ta cĩ ( | , ) ≥ 0và ∑ ( | , ) = 1 theo yêu cầu.
Sau đĩ bắt đầu với cơng thức 2.20 hằng số ( | , ) được tính tốn: ( ) − ( ) = ∑ ( | , ) ( | ) − ( | )
= ∑(|,)(|).( ( | , ) ) − ( | ) ( | , ) (| ,)(|) = ∑ ( | , )( ( | , ) )− ( | ) (| ,)(|) ≥∑ ( | , ) ( ( | , ) )− ( | ) ( | , ) ( | ) = ∑ ( | , ) ( ( | , ) ( | )) = ( | )
Chúng ta cĩ thể viết lại tương đương: ( ) ≥ ( ) + ( | )
(2.21)
(2.22) và để thuận tiện cho xác định: ( | ) = ( ) + ( | ), mối quan hệ trong cơng
thức 2.22 cĩ thể được thể hiện một cách rõ ràng như sau: ( ) ≥ ( | ).
Bây giờ sẽ cĩ một hàm ( | ) được giới hạn trên bởi hàm ( ). Ngồi ra, cĩ thể quan sát:
( | ) = ( ) + ( | ) = ( ) + ∑ ( | , ) ( | , ) ( | ) ( | , ) ( | ) = ( ) + ∑ ( | , ) ( , | ) ( , | ) = ( ) + ∑ ( | , ) 1 = ( ) (2.23)
Hình 2.8. Biểu diễn đồ họa một lần lặp của thuật tốn EM
Mục tiêu của NCS là chọn một giá trị sao cho ( ) cực đại. Do hàm ( | ) bị giới hạn ở trên bởi hàm ( ) và giá trị của các hàm
( | ) và ( ) bằng với ước tính hiện tại cho = , vì vậy bất kỳ làm tăng ( | ) sẽ lần lượt tăng ( ). Để đạt được sự gia tăng lớn nhất cĩ thể về
giá trị của ( ), thuật tốn EM được gọi để lựa chọn sao cho ( | ) cực đại. NCS biểu thị giá trị được cập nhật này là +1. Quá trình này được minh họa trong hình 2.8, hàm l( θ|θn) bị giới hạn trên bởi hàm L( θ), các hàm cĩ kết quả θ = θn, thuật tốn EM chọn θn+1 làm giá trị của θ mà l( θ|θn) là cực đại, vì L( θ) ≥ l(θ|θn) tăng l(θ|θn) đảm bảo rằng giá trị của hàm L( θ) được tăng lên ở mỗi bước.
Do đĩ, ta cĩ: +1 ={ ( | )}
={ ( ) + ∑ ( | , ) ( | , ) ( | ) }
+1 ( | ) ( | , )
Bây giờ, giảm các hằng số w.r.t.
= {∑ ( | , ) ( | , ) ( | )} ( , , ) ( , ) = {∑ ( | , ) ( , ) ( ) }
={ | , { ( , | )}}
Trong cơng thức 2.24 trình bày khá rõ rằng các bước tối đa hố kỳ vọng. Do đĩ, thuật tốn EM bao gồm việc lặp lại:
1. E-step: Xác định kỳ vọng cĩ điều kiện | , { ( , | )}
2. M-step: Tối đa hĩa biểu diễn liên quan đến
Đến bước này, vấn đề đơn giản là thực hiện tối đa hĩa ( ) thì cĩ thể tối đa hĩa ( | ). Tuy nhiên thực tế là ( | ) tính đến dữ liệu khơng được quan sát hoặc bị thiếu dữ liệu Z, thuật tốn EM sẽ giúp chúng ta thực hiện trong trường hợp cần ước tính các dữ liệu Z. Ngồi ra, như đã đề cập trước đĩ, sẽ là thuận lợi hơn khi đưa ra các biến ẩn để tối đa hĩa ( | ), điều này được đơn giản hĩa nhờ kiến thức về các biến ẩn (so với việc phải tối đa hĩa trực tiếp ( )).
Các tính chất hội tụ của thuật tốn EM được đề xuất bởi McLachlan và Krishnan [14]. Trong phần này NCS xem xét sự hội tụ chung của thuật tốn. Vì +1 là ước tính cho tối đa hĩa sự khác biệt ( | ). Bắt đầu với ước tính hiện tại cho , đĩ là , NCS đã cĩ ( | ) = 0. Vì +1 được chọn để tối đa hĩa ( | ) và sau đĩ lại cĩ ( +1| ) ≥ ( | ) = 0, do đĩ đối với mỗi lần lặp, khả năng L( ) là khơng thay đổi.
Khi thuật tốn đạt đến một điểm cố định cho một vài , giá trị tối đa hĩa ( ). Vì L và l bằng nhau tại nếu
L và l cĩ khả năng khác nhau tại thì phải là một điểm dừng của L. Điểm dừng là khơng cần thiết, tuy nhiên nĩ lại là
cực đại cục bộ. Trong [14] cho thấy rằng cĩ thể cho các thuật tốn hội tụ đến cực tiểu địa phương hoặc điểm yên trong trường hợp bất thường.
Trong thuật tốn EM mơ tả ở trên, +1 được chọn làm giá trị với ( | ) cực đại hĩa. Trong khi điều này đảm bảo sự gia tăng lớn nhất trong ( ), tuy nhiên
nĩ cĩ thể làm nhẹ bớt yêu cầu tối đa hĩa một trong những ( | ) sao cho ( +1| ) ≥ ( | ). Với cách tiếp cận này, chỉ đơn giản là tăng và khơng nhất thiết phải tối đa hĩa ( +1| ) được gọi là thuật tốn tối đa hĩa kỳ vọng tổng quát (GEM) và thường hữu ích trong trường hợp việc tối đa hĩa là khĩ khăn. Sự hội tụ của thuật tốn GEM cĩ thể được lập luận như trên.
Sau khi chuyển đổi n dấu vết huấn luyện thành một tập hợp các véc-tơ đặc trưng x1, ..., xn, NCS huấn luyện một SVM một lớp dựa trên dữ liệu bình thường, ý
tưởng là tìm một khu vực hình cầu chứa hầu hết các dữ liệu bình thường sao cho bán kính R tương ứng cĩ thể là nhỏ nhất:
2 + ∑ =1
. . ‖ − ‖2 ≤ 2 + ≥ 0
(2.25) ở đây, các biến được sử dụng để cho phép một số điểm dữ liệu nằm bên ngồi hình cầu và tham số C>= 0 điều khiển sự cân bằng giữa số lượng của hình cầu và số lỗi. Sử dụng biểu diễn kép của hàm Lagrange, hàm mục tiêu tương đương với:
∑ =1 ( , ) − ∑ , =1 ( , )
s.t. 0 ≤≤ , ∑ =1 = 1
Hình 2.9. SVM một lớp
Bài tốn trên cĩ thể được giải quyết bằng cách sử dụng các kỹ thuật tối ưu hĩa tiêu chuẩn [15]. Để xác định xem dữ liệu thử nghiệm cĩ nằm trong hình cầu hay khơng, khoảng cách tới tâm của hình cầu phải được tính tốn. Nếu khoảng cách này nhỏ hơn bán kính R, thì dữ liệu thử nghiệm được coi là bình thường.
Thơng thường, dữ liệu huấn luyện khơng được phân phối theo hình cầu trong khơng gian đầu vào. Do đĩ, các điểm dữ liệu ban đầu được ánh xạ vào một khơng gian đặc trưng để cĩ thể thu được mơ tả dữ liệu tốt hơn, thay vì yêu cầu một hàm ánh xạ rõ ràng từ khơng gian đầu vào đến khơng gian đặc trưng. Giải pháp cĩ thể thực hiện được bằng cách thay thế tất cả các kết quả bên trong (.,.) trong cơng thức 2.26 bởi một hàm hạt nhân k(.,.):
∑ ( , )−∑ ( , ) (2.27)
Trong trường hợp này, do các đặc tính phi tuyến và nhiễu của các cảm biến, ranh giới phân biệt của trình phân loại SVM một lớp cĩ thể khá phức tạp. Do đĩ, NCS sử dụng một hạt nhân RBF cho SVM một lớp như sau:
( , ) = ( − 2‖ − ‖2 (2.28)
1
ở đây w1 là một yếu tố mở rộng kiểm sốt độ rộng của hàm hạt nhân.
Hình 2.10. Thủ tục thích nghi lặp lại
Một hạn chế lớn của việc sử dụng SVM một lớp để phát hiện bất thường là khĩ khăn trong việc chọn độ nhạy đủ lớn để mang lại tỷ lệ false negative và false positive thấp. Hình 2.9 minh họa hai ranh giới quyết định của một SVM một lớp được xây dựng trên giá trị của các điểm đặc trưng được thể thiện theo 2 chiều. Trong hình 2.9 một ranh giới quyết định rộng được biểu thị bằng đường cong đứt nét sẽ dẫn đến cĩ quá nhiều kết quả false negatives; trong khi ranh giới quyết định thu hẹp được biểu thị bằng đường cong liền nét dẫn đến cĩ quá nhiều kết quả false positives.
Lấy kết quả của SVM một lớp làm đầu vào, giai đoạn thứ hai của cách tiếp cận được đề xuất của NCS là tạo ra các mơ hình VĐBT từ mơ hình vận động bình thường. Các mơ hình này được sử dụng để phát hiện VĐBT.