Phân tích khác biệt tuyến tính đƣợc chính quy hóa- 123docz.net

Khi dung lƣợng mẫu của dữ liệu huấn luyện lớn hơn số thuộc tính , nhƣng về độ lớn giống nhƣ : , sai số cộng dồn khi ƣớc lƣợng rất nhiều

phần tử của ma trận hiệp phƣơng sai sẽ làm tăng tỉ số lỗi của LDA [1]. Phân tích khác biệt tuyến tính đƣợc chính quy hóa (Regularized Linear Discriminant Analysis, viết tắt là regularized LDA) là phƣơng pháp đƣợc đƣa ra để giải quyết vấn đề này. Regularized LDA thay thế ma trận hiệp phƣơng sai ̂ trong mô hình LDA thực nghiệm bởi

̃ ̂

trong đó, [ ] là tham số chính quy đƣợc tùy chỉnh trong đoạn [ ] và giá trị riêng trung bình đƣợc tính bằng tổng các phần tử trên đƣờng chéo của ma trận hiệp phƣơng sai ̂ chia cho số chiều : ̂ .

Tham số có thể đƣợc xác định bằng công thức đƣợc đƣa ra bởi Schäfer và Strimmer hoặc xác nhận chéo cho mẫu dữ liệu huấn luyện, tham khảo[8]. Khi

đó, xác định trên đoạn [ ] và giá trị AUC (Area Under the Curve) đƣợc ƣớc tính bởi cho mẫu dữ liệu huấn luyện [8].

2.6. Phân tích khác biệt tuyến tính đa bƣớc (Multi-step LDA) [1][8]

Huy và Giang, “Đầu tiên tất cả các thuộc tính đƣợc phân chia thành các

nhóm con và phân tích khác biệt tuyến tính của Fisher (LDA) đƣợc sử dụng tính điểm cho mỗi nhóm thuộc tính. Tiếp theo LDA đƣợc áp dụng cho các nhóm con của các điểm vừa thu đƣợc. Quá trình này đƣợc lặp lại cho đến khi còn lại một điểm duy nhất, điểm này đƣợc sử dụng cho phân loại. Bằng cách này chúng tôi tránh phải ƣớc lƣợng ma trận hiệp phƣơng sai số chiều lớn. Chúng tôi gọi phƣơng pháp trên là phân tích khác biệt tuyến tính đa bƣớc (multi-step LDA)” [1].

“Phƣơng pháp này áp dụng LDA trong vài bƣớc thay cho áp dụng nó một lần cho tất cả các thuộc tính” [1]. Đầu tiên, chúng ta sẽ trình bày phân tích khác biệt tuyến tính hai bƣớc (two-step LDA). Chia tất cả thuộc tính của một vectơ biểu diễn thành các nhóm con

[ ] ,

mỗi nhóm con đƣợc biểu diễn bởi vectơ biểu diễn , với ̅̅̅̅̅ và . Trong bƣớc thứ nhất, áp dụng phƣơng pháp LDA để tính điểm cho mỗi nhóm con của các thuộc tính.

̂ ∑ ̂ ∑ ̂ ̂ ̂ ̂ ∑( ̂ ) ( ̂ ) ̂ ̂ ̂

Hàm LDA cho bƣớc đầu tiên

̂ ( ) ( ̂ ) ̂ ( ̂ ̂ ) Sau bƣớc thứ nhất, ta có điểm mới ̂

̂ [ ̂ ( )] [ ̂ ̂ ̂ ( )] .

Đến bƣớc thứ hai, tiếp tục áp dụng LDA đối với điểm ̂, để tìm hàm phân biệt two-step LDA. Điểm này dùng cho phân loại của two-step LDA. Vectơ trung bình ̂ và ma trận hiệp phƣơng sai ̂ của điểm ̂ đƣợc cho bởi

̂ ( ̂ ̂ ) ̂ ̂ ( ̂ ̂ ). Hàm phân biệt của two-step LDA đƣợc cho bởi

̂ [ ̂ ̂ ̂ ( )] ̂ ̂ ̂ ( ̂ ̂ ̂ ( )). trong đó, hàm ̂ là hàm LDA.

Multi-step LDA sẽ thực hiện lặp lại từng bƣớc trong two-step LDA nêu ở trên. Quá trình lặp lại chỉ dừng lại khi còn một điểm (score) duy nhất và điểm này đƣợc sử dụng cho việc phân loại tất cả các thuộc tính. Trong báo cáo, tại mỗi bƣớc multi-step LDA chia tất cả các thuộc tính thành những nhóm con liên tiếp và rời nhau, các nhóm con đều có cùng số phần tử . Số phần tử của các nhóm con ở mỗi bƣớc đƣợc xác định là phần tử thứ của vectơ . Vectơ đƣợc gọi là kiểu của multi-step LDA [1].

Phân tích khác biệt tuyến tính đƣợc chính quy hóa (Regularized LDA) [8]

Phân loại dữ liệu điện não đồ