giáo trinh thống kê máy tính

Giáo trình THỐNG KÊ MÁY TÍNH Khoa Công nghệ thông tin, Trường ĐHKHTN Tp.HCM 1 NGUYỄN ĐÌNH THÚC – VŨ HẢI QUÂN VĂN CHÍ NAM – ĐẶNG HẢI VÂN – LÊ PHONG Giáo trình THỐNG KÊ MÁY TÍNH Phiên bản 0.10 NHÀ XUẤT BẢN KHOA HỌC VÀ KỸ THUẬT 2009 2 Lời nói đầu Đây là lời nói đầu của giáo trình này. Giáo trình THỐNG KÊ MÁY TÍNH Khoa Công nghệ thông tin, Trường ĐHKHTN Tp.HCM 3 Mục lục Lời nói đầu 2 Mục lục 3 Chương 1 LÝ THUYẾT RA QUYẾT ĐỊNH BAYES 5 I. ĐỊNH LÝ BAYES 6 II. LÝ THUYẾT RA QUYẾT ĐỊNH BAYES 7 II.1 Trường hợp đơn giản 8 II.2 Trường hợp tổng quát 9 III. Phân lớp bằng biệt hàm (Discriminant function) 14 III.1 Biệt hàm và Vùng ra quyết định 14 III.1.1 Biệt hàm 14 III.1.2 Vùng ra quyết định 16 III.2 Phân phối chuẩn 16 III.3 Biệt hàm cho phân phối chuẩn 20 III.3.1 Trường hợp 1: 2 i σ = Σ I 20 III.3.2 Trường hợp 2: i = Σ Σ 27 III.3.3 Trường hợp 3: i Σ bất kỳ 29 IV. MỘT SỐ VẤN ĐỀ MỞ RỘNG 35 IV.1 Lý thuyết ra quyết định Bayes cho trường hợp đặc trưng rời rạc 35 IV.2 Đặc trưng bị thiếu và biến dạng bởi nhiễu 39 IV.2.1 Đặc trưng bị thiếu 40 IV.2.2 Đặc trưng bị biến dạng bởi nhiễu 41 IV.3 Lý thuyết ra quyết định kết hợp Bayes và Ngữ cảnh 42 4 V. KẾT LUẬN 43 VI. BÀI TẬP 44 Giáo trình THỐNG KÊ MÁY TÍNH Khoa Công nghệ thông tin, Trường ĐHKHTN Tp.HCM 5 Chương LÝ THUYẾT RA QUYẾT ĐỊNH BAYES Một trong những phương pháp giải quyết bài toán phân lớp mẫu (Pattern Classification) là lý thuyết ra quyết định Bayes (Bayes decision theory) – nền tảng cho hướng tiếp cận thống kê. Trong hướng tiếp cận thống kê này, các độ đo xác suất được sử dụng nhằm đưa ra quyết định mẫu đang xét thuộc lớp nào. Lấy một ví dụ về phân loại trái cây như sau. Trong một dây chuyền phân loại trái cây, một đầu người ta đưa vào một thùng trái cây với hai loại quả: táo và lê. Với mỗi quả, hệ thống phải phân loại quả đó là táo hay là lê để cho ra hai cổng khác nhau và mang đi đóng gói. Giả sử như nhắm mắt bốc đại một quả trong thùng thì khả năng để có được quả táo là 0.8 (P(táo) = 0.8), khả năng có được quả lê là 0.2 (P(lê) = 0.2). Khi đó, với bất kỳ quả nào đưa vào, nếu ta đều phân loại là táo thì khả năng đúng sẽ là 0.8 và khả năng sai sẽ là 0.2 (tức là trung bình với 100 quả, ta phân loại đúng 80 quả, phân loại sai 20 quả). Rõ ràng là cách làm này chỉ dựa trên một thông tin đã được biết trước mà không dựa trên bất kỳ thông tin nào của đối tượng đang được xét. Bây giờ, giả sử như P(táo) = P(lê) = 0.5. Lúc này việc phân loại như trên không có bất kỳ hiệu quả nào hết. Để ý một chút ta thấy màu của quả táo thường đỏ hoặc xanh và màu của quả lê thường vàng; điều đó có nghĩa là khả năng một quả có màu vàng là lê sẽ cao hơn nếu nó là táo. Khi đó, nếu phân loại dựa trên màu thì khả năng phân loại đúng sẽ được nâng cao. Như vậy, ta có thêm một cơ sở để phân loại: màu. Ta gọi màu là một đặc trưng để phân loại. Phần II : THỐNG KÊ ỨNG DỤNG Chương 7: Ứng dụng 6 Xét trường hợp xấu hơn: vẫn có một số quả táo có màu vàng. Đặc trưng màu khó có thể giúp ích để phân loại những quả này. Vì vậy cần phải có thêm một đặc trưng khác. Để ý lần nữa, ta quan sát thấy rằng với những quả táo, phần gần cuống thường phình to hơn so với đầu bên kia, trong khi với những quả lê thì ngược lại. Các thông tin đó được chứa đựng trong đặc trưng đường viền. Như vậy, ta đã có thêm một đặc trưng. Ví dụ trên đây cho thấy việc áp dụng hết sức đơn giản nhưng có phần cảm tính. Để làm rõ hơn (đặc biệt là cơ sở toán học), các phần tiếp theo của chương này sẽ trình bày chi tiết lý thuyết ra quyết định Bayes cũng như một số cách áp dụng. Mục đích của chương Sinh viên sau khi học xong chương này cần phải • nắm được định lý Bayes, các luật ra quyết định dựa trên lý thuyết ra quyết định Bayes và phương pháp xây dựng hệ phân loại bằng biệt hàm. • có thể viết một chương trình đơn giản để xây dựng một hệ phân loại (ví dụ phân loại táo lê bằng đặc trưng màu). I. ĐỊNH LÝ BAYES Xét trong một tập các đối tượng chỉ gồm c lớp 1 2 , , , c ω ω ω . Gọi ( ) , 1 i P i c ω = là xác suất phân bố của các lớp này trong tập các đối tượng đó. Xác suất này được gọi là xác suất tiền định (priori probability) vì nó cho biết khả năng một đối tượng thuộc về một lớp nào đó mà không dựa trên bất kỳ thông tin mô tả nào của đối tượng. Giả sử để phân loại đối tượng, ta sử dụng vector đặc trưng x 1 (ở đây, tạm xét x liên tục trên d ℜ , việc x rời rạc sẽ được bàn ở Phần 5). Khi 1 x bao gồm 1 d ≥ đặc trưng (ví dụ như cường độ sáng, độ dài đường viền,…), với mỗi đặc trưng được thể hiện bởi một số thực; vì vậy, x là một vector trong không gian thực d-chiều. Để cho thuận tiện, x cũng được gọi là đặc trưng với lưu ý: vector được ký hiệu x , số thực được ký hiệu x Giáo trình THỐNG KÊ MÁY TÍNH Khoa Công nghệ thông tin, Trường ĐHKHTN Tp.HCM 7 đó, khả năng để một đối tượng thuộc lớp i ω có đặc trưng x được cho bởi hàm mật độ xác suất có điều kiện ( ) | i p ω x . Hàm này được gọi là hàm likelihood. Khả năng để một đối tượng có đặc trưng x thuộc lớp i ω được cho bởi hàm xác suất ( ) | i P ω x . Xác suất này được gọi là xác su ất hậu định (posteriori probability) vì nó cho biết khả năng một đối tượng thuộc về lớp nào dựa trên các đặc trưng của chính đối tượng đó. Xác suất này được tính như sau ( | ) ( ) ( | ) ( ) i i i p P P p ω ω ω = x x x (1) trong đó 1 ( ) ( | ) ( ) c i i i p p P ω ω = = ∑ x x (2) Công thức trên được gọi là định lý Bayes. Phần mẫu số ( ) p x chỉ mang ý nghĩa là đảm bảo cho tổng xác suất hậu định bằng 1. Vì vậy, đôi khi người ta chỉ viết ( | ) ( | ) ( ) i i i P p P ω ω ω ∝ x x (3) Định lý Bayes đơn giản nhưng có ý nghĩa to lớn. Thực vậy, xác suất hậu định gần như là không thể có được theo theo cách thống kê mẫu thông thường, trong khi với ( ) | i p ω x và ( ) i P ω thì hoàn toàn có thể. II. LÝ THUYẾT RA QUYẾT ĐỊNH BAYES Dựa trên định lý Bayes, ta đã có được xác suất hậu định ( ) | i P ω x . Về mặt cảm tính, ta nhận thấy nếu , 1 maxarg ( | ) i j i i c P ω ω ω = = x thì nên phân đối tượng đang xét vào lớp j ω . Trong phần này sẽ phân tích xem liệu nhận xét đó có đúng không và cơ sở toán học của nó là gì. Phần II : THỐNG KÊ ỨNG DỤNG Chương 7: Ứng dụng 8 II.1 Trường hợp đơn giản Hình 1 R1, R2 lần lượt là vùng đối tượng được phân lớp 1 2 , ω ω . Vùng R1 tương ứng với khi ( ) ( ) 1 2 | | P P ω ω > x x và ngược lại. Trong trường hợp này, để cho đơn giản, ta chỉ xét với hai lớp 1 2 , ω ω với luật ra quyết định như sau Luật 1: chọn 1 ω nếu ( ) ( ) 1 2 | | P P ω ω > x x , ngược lại thì chọn 2 ω Luật này chính là nhận xét đã nêu ra ở trên. Để đánh giá xem luật này có ý nghĩa thế nào, chúng ta xem thử tác động của nó lên trung bình xác suất lỗi (average probability of error) ( ) ( , ) ( | ) ( ) all all P error P error d P error p d = = ∫ ∫ x x x x x x x (4) trong đó ( | ) P error x được gọi là xác suất lỗi (probability of error) khi đưa ra quyết định và được tính bởi 1 2 2 1 ( | ) if we decide ( | ) ( | ) if we decide P P error P ω ω ω ω  =   x x x (5) Áp dụng Luật 1 chúng ta có Giáo trình THỐNG KÊ MÁY TÍNH Khoa Công nghệ thông tin, Trường ĐHKHTN Tp.HCM 9 { } 1 2 ( | ) min ( | ), ( | ) P error P P ω ω = x x x (6) thay vào (4) { } 1 2 ( ) ( | ) ( ) min ( | ), ( | ) ( ) all all P error P error p d P P p d ω ω = = ∫ ∫ x x x x x x x x x (7) Như vậy, rõ ràng là với Luật 1, chúng ta sẽ đạt được cực tiểu trung bình xác suất lỗi. Hình 1 cho thấy một ví dụ về việc áp dụng Luật 1. II.2 Trường hợp tổng quát Trong trường hợp tổng quát, ta sẽ mở rộng vấn đề xa hơn như sau • Số lớp là bất kỳ, nghĩa là có 2 c ≥ lớp 1 2 , , , c ω ω ω , • Mở rộng việc phân loại thành a hành động (action) 1 2 , , , a α α α . Phân loại là trường hợp đặc biệt của hành động: có a c = hành động, hành động i α phân đối tượng đang xét vào lớp i ω , • Sử dụng hàm tiêu tốn (loss function) (.) λ để giúp tổng quát hóa cho xác suất lỗi, ví dụ như trong trường hợp đánh trọng số khác nhau cho việc phân loại sai vào các lớp khác nhau. ( ) | i j λ α ω thể hiện cái giá phải trả khi thực hiện hành động i α trong trường hợp đối tượng thuộc lớp j ω . Khi đó, tổng quát hóa xác suất lỗi bằng hàm rủi ro có điều kiện (conditional risk) như sau 1 ( | ) ( | ) ( | ) c i i j j j R P α λ α ω ω = = ∑ x x (8) Phần II : THỐNG KÊ ỨNG DỤNG Chương 7: Ứng dụng 10 Đẳng thức (8) cho thấy hàm rủi ro có điều kiện ( | ) i R α x thể hiện cái giá phải trả khi thực hiện hành động i α trong trường hợp đối tượng đang xét có đặc trưng x . Dựa trên hàm rủi ro có điều kiện, xác suất lỗi trung bình được tổng quát hóa bằng rủi ro toàn bộ (overall risk) ( ( ) | ) ( ) all R R p d α = ∫ x x x x x (9) trong đó ( ) α x là hàm ra quyết định nhận 1 trong a giá trị hành động 1 2 , , , a α α α đối với mỗi x . Mục tiêu là phải đưa ra được ( ) α x để cực tiểu hóa rủi to toàn bộ. Xét luật sau Luật 2: chọn , 1 ( ) arg min ( | ) i i i a R α α α = = x x Với cách chọn ( ) α x như Luật 2, rõ ràng rủi ro có điều kiện đạt giá trị cực tiểu, dẫn tới là rủi ro toàn bộ R cũng đạt giá trị cực tiểu * R - giá trị cực tiểu này được gọi là rủi ro Bayes. Bây giờ, xét hai trường hợp đặc biệt hành động phân loại; có nghĩa là có a c = hành động, hành động i α phân đối tượng đang xét vào lớp i ω . Số lớp bất kỳ với hàm tiêu tốn đối xứng (symmetrical loss function) 0 ( | ) , 1 1 i j i j i j c i j λ α ω =  = =  ≠  (10) Hàm tiêu tốn này mang ý nghĩa: sẽ không phải trả giá nếu phân đối tượng đang xét vào đúng lớp của nó; ngược lại, nếu phân sai thì mọi phân lớp sai sẽ chịu trả giá ngang nhau. Khi này, thay (10) vào (8) được hàm rủi ro có điều kiện [...]... tư ng, h phân l p như trên ư c xem như m t m ng tính c bi t hàm và ch n l p tương ng v i giá tr cao nh t như trong Hình 3 Giáo trình TH NG KÊ MÁY TÍNH Khoa Công ngh thông tin, Trư ng HKHTN Tp.HCM Hình 3 Mô hình m ng cho h phân l p ư c bi u di n b ng các discriminant function Như v y, áp d ng lý thuy t ra quy t nh Bayes, ta nh n th y • trong trư ng h p tính chi phí b ng xác su t l i trung bình, theo... (ω1 x) = = 2 3= 5 − 2x p( x) 5 − 2x 6 1 1 p ( x | ω2 ) P(ω2 ) 1 P (ω2 x) = = 2 3 = 5 − 2x 5 − 2x p( x) 6 T (15) (16) ó tính ư c các r i ro có i u ki n R (α1 x) = λ (α1 | ω1 ) P (ω1 | x) + λ (α1 | ω2 ) P (ω2 | x) = 0 4 − 2x 1 1 + 1 = 5 − 2x 5 − 2x 5 − 2x (17) Giáo trình TH NG KÊ MÁY TÍNH Khoa Công ngh thông tin, Trư ng HKHTN Tp.HCM R (α 2 x) = λ (α 2 | ω1 ) P (ω1 | x) + λ (α 2 | ω2 ) P(ω2 | x) = 1 4... i nhau v m t th ng kê và m i c trưng ơn có cùng phương sai σ 2 Vì v y, ta suy ra ư c Σi = σ 2 d , d 1 ln 2π − ln Σi 2 2 bi t hàm ơn gi n như sau Suy ra − Σi−1 = 1 σ2 u là h ng s I (34) i v i m i gi Do ó có (x − µ i )T (x − µ i ) + ln P (ωi ) 2σ 2 (35)  xT x − 2µT x + µT µ i  + ln P (ωi ) i i  2σ 2  (36) g i ( x) = − Phân tích ra ta ư c g i ( x) = − 1 Giáo trình TH NG KÊ MÁY TÍNH Khoa Công ngh... (minimum distance classifier) Giáo trình TH NG KÊ MÁY TÍNH Khoa Công ngh thông tin, Trư ng HKHTN Tp.HCM Hình 7 Trư ng h p hai hi p phương sai c a hai phân ph i b ng nhau và t l v i ma tr n I Lúc này các phân ph i ư c bi u di n dư i d ng hình c u trong không gian d-chi u và ư ng biên là m t hyperplane c a d-1 chi u vuông góc v i ư ng n i 2 trung bình Ph n II : TH NG KÊ Chương 7: NG D NG ng d ng Hình... Ph n II : TH NG KÊ Chương 7: NG D NG ng d ng Hình 9 Trư ng h p P (ω1 ) = P (ω2 ) = 0.5 , i m phân bi t 2 vùng ra quy t nh là x0 = 6 b ng n m ngay chính gi a 2 trung bình c a 2 likelihood Hình 10 Trư ng h p P (ω1 ) = 0.9, P (ω2 ) = 0.1 , i m phân bi t 2 vùng ra quy t nh n m x1 6.55 , ch ch v phía i m trung bình c a likelihood c a l p có xác su t ti n nh nh hơn Giáo trình TH NG KÊ MÁY TÍNH Khoa Công... làm 2 bên không liên thông Giáo trình TH NG KÊ MÁY TÍNH Khoa Công ngh thông tin, Trư ng HKHTN Tp.HCM Hình 13 cho m t s ví d v trư ng h p 2-chi u Hình 14 cho m t s ví d v trư ng h p 3-chi u Hình 15 cho ví d v trư ng h p có nhi u hơn hai l p trong không gian 2-chi u Hình 13 Trư ng h p các hi p phương sai khác nhau và b t kỳ trong không gian 2-chi u v i 2 l p Ph n II : TH NG KÊ Chương 7: NG D NG ng d... ng l n các bi n ng u nhiên nh và c l p s d n t i phân ph i chu n n ký t vi t tay – u có th M t khác, vì nhi u m u – t cá, qu ư c xem như là m u bi n d ng b i m t s lư ng l n các ti n trình Giáo trình TH NG KÊ MÁY TÍNH Khoa Công ngh thông tin, Trư ng HKHTN Tp.HCM ng u nhiên nên phân ph i chu n là m t mô hình t t cho phân ph i xác su t th c s Chính vì t m quan tr ng c a phân ph i chu n nên ph n này s... không b ng nhau Biên ra quy t không còn i qua trung i m o n n i 2 trung bình n a nh Ví d : Xét m t ví d ơn gi n sau Ta c n xây d ng h phân l p v i 2 l p ω1 , ω2 , c trưng x v i likelihood sau Giáo trình TH NG KÊ MÁY TÍNH Khoa Công ngh thông tin, Trư ng HKHTN Tp.HCM 1  1  exp − ( x − 4) 2  2π  2  1  1  p ( x ω2 ) = N (8,1) = exp − ( x − 8) 2  2π  2  p ( x ω1 ) = N (4,1) = (44) T (37) ư c 2 bi... µ) p (x)dx   (30) Tương t như phân ph i chu n ơn bi n, phân ph i chu n a bi n ư c c trưng b i kỳ v ng µ và hi p phương sai Σ , và do ó ôi khi ngư i ta vi t ng n g n là p (x) ∼ N (µ, Σ) Giáo trình TH NG KÊ MÁY TÍNH Khoa Công ngh thông tin, Trư ng HKHTN Tp.HCM T Xét x = [ x1 , x2 , , xd ] thì t ng th (29) ư c µ = [µ1 , µ2 , , µd ]T ng th (30) ư c Σ là ma tr n có d dòng v i µi = E[ xi ], i = 1 d T... và N u P (ωi ) ≠ P (ω j ) : khi ó i m x0 s d i ra xa kh i vùng quy t nh có xác su t ti n nh l n hơn i u ó cho th y vùng có xác su t ti n nh l n hơn s ư c m r ng hơn Hình 11 cho m t s ví d Giáo trình TH NG KÊ MÁY TÍNH Khoa Công ngh thông tin, Trư ng HKHTN Tp.HCM Hình 11 Trư ng h p hi p phương sai là b t kỳ nhưng b ng nhau v i m i phân ph i III.3.3 Trư ng h p 3: Σi b t kỳ ây là trư ng h p t ng quát: . Giáo trình THỐNG KÊ MÁY TÍNH Khoa Công nghệ thông tin, Trường ĐHKHTN Tp.HCM 1 NGUYỄN ĐÌNH THÚC – VŨ HẢI QUÂN VĂN CHÍ NAM – ĐẶNG HẢI VÂN – LÊ PHONG Giáo trình THỐNG KÊ MÁY TÍNH. XUẤT BẢN KHOA HỌC VÀ KỸ THUẬT 2009 2 Lời nói đầu Đây là lời nói đầu của giáo trình này. Giáo trình THỐNG KÊ MÁY TÍNH Khoa Công nghệ thông tin, Trường ĐHKHTN Tp.HCM 3 Mục lục Lời nói. quyết định và được tính bởi 1 2 2 1 ( | ) if we decide ( | ) ( | ) if we decide P P error P ω ω ω ω  =   x x x (5) Áp dụng Luật 1 chúng ta có Giáo trình THỐNG KÊ MÁY TÍNH Khoa Công nghệ

Định dạng
Số trang	58
Dung lượng	0,93 MB