Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 72 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
72
Dung lượng
1,81 MB
Nội dung
Nhận dạng dựa thống kê LÝ THUYẾT NHẬN DẠNG CHƯƠNG – PHẦN I NHẮC LẠI KIẾN THỨC XÁC SUẤT Biên soạn: TS Ngô Hữu Phúc Bộ môn: Khoa học máy tính Học viện kỹ thuật quân Email: ngohuuphuc76@gmail.com Thơng tin chung Thơng tin nhóm môn học: TT Họ tên giáo viên Học hàm Học vị Đơn vị công tác (Bộ môn) Ngô Hữu Phúc GVC TS BM Khoa học máy tính Trần Nguyên Ngọc GVC TS BM Khoa học máy tính Nguyễn Việt Hùng GV TS BM Khoa học máy tính Thời gian, địa điểm làm việc: Bộ môn Khoa học máy tính Tầng 2, nhà A1 Địa liên hệ: Bộ mơn Khoa học máy tính, khoa Cơng nghệ thông tin Điện thoại, email: 069-515-329, ngohuuphuc76.mta@gmail.com TTNT - Học viện Kỹ thuật Quân Cấu trúc môn học Chương 0: Giới thiệu môn học Chương 1: Giới thiệu nhận dạng mẫu Chương 2: Nhận dạng mẫu dựa thống kê học Chương 3: Ước lượng hàm mật độ xác suất Chương 4: Sự phân lớp dựa láng giềng gần Chương 5: Phân loại tuyến tính Chương 6: Phân loại phi tuyến Chương 7: Mạng Neuron nhân tạo Thực hành: Giới thiệu số ứng dụng thực tế TTNT - Học viện Kỹ thuật Quân Bài 3: Nhận dạng mẫu dựa thống kê học Chương Tiết: 1-3; Tuần thứ: Mục đích, yêu cầu: Nắm kiến thức xác suất Xây dựng module tính tốn dựa xác suất Hình thức tổ chức dạy học: Lý thuyết Thời gian: tiết Địa điểm: Giảng đường Phịng Đào tạo phân cơng Nội dung chính: (Slides) TTNT - Học viện Kỹ thuật Quân TỔNG QUAN Sự tính tốn khơng chắn thành phần quan trọng việc định (ví dụ, phân lớp lý thuyết nhận dạng) Lý thuyết xác suất chế thích hợp phục vụ cho tính tốn khơng chắn Ví dụ: "Nếu cá đánh bắt biển Đại Tây Dương, nhiều khả cá hồi so với cá mú (see-bass) Nhận dạng dựa thống kê ĐỊNH NGHĨA Phép Một phép thử cho kết trước Kết thử ngẫu nhiên: quả: Đầu phép thử ngẫu nhiên Khơng Tập tất kết (vd: {1,2,3,4,5,6}) Sự gian mẫu: kiện: Tập không gian mẫu (vd: tập số lẻ không gian mẫu trên: {1,3,5}) Nhận dạng dựa thống kê CÁCH XÂY DỰNG Xác suất kiện a định nghĩa: 𝑁 𝑎 𝑃 𝑎 = lim 𝑛→∞ 𝑛 N(a) số kiện a xẩy n phép thử Theo định nghĩa Laplacian: giả sử tất kết nằm khơng gian mẫu có khả Nhận dạng dựa thống kê TIÊN ĐỀ CỦA XÁC SUẤT A1 A2 ≤ P(A) ≤ A3 A4 P S = S không gian mẫu Nếu A1 , A2 , … , An kiện loại trừ lẫn P Ai ∩ Aj = , ta có: P A1 ∪ A2 ∪ ⋯ ∪ An = n i=1 P Ai Lưu ý: viết: P Ai ∩ Aj dạng P Ai , Aj Nhận dạng dựa thống kê XÁC SUẤT TIÊN NGHIỆM Xác suất tiên nghiệm xác suất kiện khơng có buộc trước Ví dụ: P(thi đỗ)=0.1 có nghĩa: trường hợp khơng có thêm thơng tin khác có 10% thi đỗ Nhận dạng dựa thống kê XÁC SUẤT CĨ ĐIỀU KIỆN Xác suất có điều kiện xác suất kiện có thêm thơng tin buộc Ví dụ: P(thi đỗ | học sinh giỏi) = 0.8 có nghĩa: xác suất để học sinh thi đỗ biết học sinh giỏi 80% Nhận dạng dựa thống kê 10 3.3 PHÂN BỐ CHUẨN (1/4) Mơ hình đầy đủ phân bố chuẩn nhiều biến dùng nhiều ứng dụng Phân bố chuẩn cho hàm biến: N , x 2 ~ p ( x) exp 2 đó, μ : giá trị kỳ vọng (trung bình) σ2 : phương sai (σ: độ lệch chuẩn) Toán học chứng minh: phân bố nhiều biến cố độc lập xấp xỉ phân bố chuẩn Nhận dạng dựa thống kê 18 3.3 PHÂN BỐ CHUẨN (2/4) Phân bố chuẩn Gaussian cho hàm nhiều biến: N μ, T 1 ~ p( x) exp x x 1/ l/2 2 đó, μ=E[x]=ʃxp(x)dx vector trung bình, Σ ma trận lxl hiệp phương sai định nghĩa: E[x x ] T giá trị kỳ vọng vector hay ma trận xác định riêng phần: gọi 𝜇𝑘 thành phần thứ k 𝜇 , 𝛿𝑘𝑚 thành phần thứ km Σ ta có: Nhận dạng dựa thống kê k Exk km E[xk k xm m ] 19 3.3 PHÂN BỐ CHUẨN (3/4) Trong công thức trên, Σ đối xứng xác định dương Các thành phần khác δkm hiệp phương sai xk xm Nếu xk Thành phần đường chéo δkk phương sai xk xm độc lập σkm =0 Từ khái niệm phân bố chuẩn xây dựng phân lớp Bayesian!!! Nhận dạng dựa thống kê 20 3.3 PHÂN BỐ CHUẨN (4/4) Để đơn giản hóa, sử dụng hàm phân biệt logarit: g i x ln px | wi Pwi ln px | wi ln Pwi 1 l T 1 x i i x i ln 2 ln i ln Pwi 2 gij x gi x g j x Chú ý, mặt định Công thức dùng cho việc phân lớp Nhận dạng dựa thống kê 21 3.3.1 HIỆP PHƯƠNG SAI BẰNG NHAU (1/3) Giả sử, tất thành phần ma trận hiệp phương sai nhau: Σi = Σ với i Khi đó, (−l/2)ln2π (−1/2)ln | Σi | số Hơn nữa, ta có: x i T 1 x i x T x 2 i x iT 1 i 1 1 T Như vậy, có dạng tuyến tính hàm phân biệt: g i x wiT x wi wi 1 i T 1 wi i i ln Pwi vậy, mặt định siêu mặt Nhận dạng dựa thống kê 22 3.3.1 HIỆP PHƯƠNG SAI BẰNG NHAU (2/3) Xem xét số dạng đặc biệt: Σ = σ2I: Hàm phân biệt: g i x Mặt định: 2 iT x wi g ij x wT x x0 w i j Pwi i j x0 i j ln Pw j i j Như vậy, mặt qua x0 vng góc với μi-μj Với trường hợp xác suất tiên nghiệm nhau, phân lớp có khoảng cách xác định: Nhận dạng dựa thống kê d E x i 23 VÍ DỤ VỚI TRƯỜNG HỢP Σ = Σ2I Nhận dạng dựa thống kê 24 3.3.1 HIỆP PHƯƠNG SAI BẰNG NHAU (3/3) Trường hợp Σ khơng có dạng đường chéo Mặt định: g ij x wT x x0 w 1 i j Pwi i j x0 i j ln Pw j i j 1 đó: x 1 1 x x T 1/ dạng chuẩn Mahalanobis x Như vậy, mặt qua x0 vuông góc với 𝚺 −𝟏 (𝛍𝐢 khoảng cách sử dụng là: d M x i T 1 x i Nhận dạng dựa thống kê 1/ − 𝛍𝐣) Và 25 VÍ DỤ VỀ TRƯỜNG HỢP NON-DIAGONAL Σ Nhận dạng dựa thống kê 26 3.4 LỖI BIÊN VÀ ĐO SỰ PHÂN BIỆT Đo phân biệt việc đo phân tách lớp Có thể sử dụng để chọn tập đặc trưng Có thể sử dụng nhiều cách đo khác Kullback- Leibler, Chernoff – Bhattacharyya,… Nhận dạng dựa thống kê 27 3.4.1 KHOẢNG CÁCH KULLBACK-LEIBLER Gọi p1(x) p2(x) phân bố Khoảng cách K-L xác định: p1 x d KL p1 x , p2 x p1 x ln dx p2 x KL đo khoảng cách phân bố KC p1(x)= p2(x) KC tính đối xứng, tính lại bằng: d12 d KL p1 x , p2 x d KL p2 x , p1 x Nhận dạng dựa thống kê 28 KHOẢNG CÁCH KULLBACK-LEIBLER (CONT) Với phân bố Gaussian N(μi,Σi) N(μj,Σj) d ij trace{ i1 j j1 i 2 I } T i j i1 j1 i j Trong trường hợp chiều: j i2 2 d ij i j 1 i j i j Nhận dạng dựa thống kê 29 3.4.2 BIÊN CHERNOFF VÀ BHATTACHARYYA Cực tiểu hóa sai số phân lớp Bayesian cho lớp xác định: Perror Pwi | x , Pw j | x dx Tích phân khó tính Để xác định biên sử dụng bất đằng thức sau: min{a, b} a sb1s for a, b 0; s Như vậy, biên Chernoff xác định: Perror Pw Pw px | w px | w 1 s s i Nhận dạng dựa thống kê j 1 s s i j dx 30 3.4.2 BIÊN CHERNOFF VÀ BHATTACHARYYA (CONT) Với phân bố Gaussian, ta có: Perror Pwi Pw j e s đó: k (s) ln Nhận dạng dựa thống kê 1 s k s s1 s j i T s i (1 s) j 1 j i s s i (1 s ) j i j s 1 s 31 3.4.2 BIÊN CHERNOFF VÀ BHATTACHARYYA (T) Nếu s=1/2, ta có biên Bhattacharyya Perror với P( wi ) P( w j )e T i j k (1 / 2) j i i j ln Nhận dạng dựa thống kê 1 j k 1/ i i j 32 ... thuật Quân Bài 3: Nhận dạng mẫu dựa thống kê học Chương Tiết: 1 -3; Tuần thứ: Mục đích, yêu cầu: Nắm kiến thức xác suất Xây dựng module tính tốn dựa xác suất Hình thức tổ chức dạy học: Lý thuyết Thời... = Var X ; Cov Y, Y = Var Y Với trường hợp nhiều biến: Nhận dạng dựa thống kê 40 Nhận dạng dựa thống kê LÝ THUYẾT NHẬN DẠNG CHƯƠNG 3: NHẬN DẠNG MẪU DỰA TRÊN THỐNG KÊ Biên soạn: TS Ngô Hữu Phúc... TỔNG XÁC SUẤT – HÀM MẬT ĐỘ XÁC SUẤT Hàm tổng xác suất - Probability mass function: hàm cho biết xác suất biến ngẫu nhiên rời rạc X với giá trị