Bài toán phân loại và phân biệt

TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN BỘ MƠN TỐN  LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC BÀI TOÁN PHÂN LOẠI VÀ PHÂN BIỆT GIÁO VIÊN HƯỚNG DẪN SINH VIÊN THỰC HIỆN ThS VÕ VĂN TÀI TRẦN THỊ NGỌC MAI NGÀNH:TOÁN ỨNG DỤNG-K32 (BỘ MƠN TỐN – KHOA KHTN) CẦN THƠ - 05/2010 LỜI CẢM ƠN - Em xin chân thành cám ơn Thầy Võ Văn Tài trực tiếp hướng dẫn, tận tình giúp đỡ, tạo điều kiện thuận lợi, động viên hỗ trợ em suốt thời gian thực đề tài Em vô biết ơn quý Thầy Cô Khoa Khoa học tự nhiên trường Đại học Cần Thơ đặc biệt Thầy Cơ Bộ mơn tốn giảng dạy, dìu dắt em suốt thời gian theo học trường Đại học Cần Thơ Cám ơn bạn lớp Toán ứng dụng K32 động viên, giúp đỡ trình học tập thực đề tài Cuối xin bày tỏ lòng biết ơn đặc biệt đến gia đình, người ln bên cạnh, giúp đỡ, động viên tạo điều kiện thuận lợi cho em vượt qua khó khăn trình học tập thực luận văn tốt nghiệp Mặc dù cố gắng hết sức, trình độ cịn hạn chế, luận văn khơng tránh khỏi sai sót Kính mong góp ý q Thầy Cơ bạn để luận văn hồn thiện Cần Thơ, tháng năm 2010 Trần Thị Ngọc Mai MỤC LỤC Chương PHƯƠNG PHÁP THỐNG KÊ THỨ TỰ VÀ PHƯƠNG PHÁP FISHER 1.1 Phương pháp thống kê thứ tự 1.1.1 Thuật toán 1.1.2 Ví dụ 1.2 Phương pháp Fisher 10 1.2.1 Phương pháp 10 1.2.2 Ví dụ 13 Chương PHƯƠNG PHÁP BAYES 16 2.1 Hàm mật độ xác suất … 16 2.1.1 Định nghĩa 16 2.1.2 Phân phối chuẩn 16 2.1.3 Ước lượng hàm mật độ xác suất 17 2.2 Tính gần tích phân … 21 2.2.1 Phương pháp truyền thống … 21 2.2.2 Phương pháp Monte Carlo … 22 2.3 Phân loại phân biệt cho hai tổng thể … 24 2.3.1 Nguyên tắc phân loại … 24 2.3.2 Sai số Bayes … 27 2.4 Phân loại phân biệt cho nhiều tổng thể … 28 2.4.1 Nguyên tắc phân loại … 28 2.4.2 Sai số Bayes … 28 2.5 Ví dụ … 30 2.5.1 Trường hợp … 30 2.5.2 Trường hợp … 32 Chương PHƯƠNG PHÁP HÀM CỰC ĐẠI 37 3.1 Giới thiệu … 37 3.2 Hàm cực đại toán phân loại phân biệt … 37 3.2.1 Nguyên tắc phân loại phần tử … 37 3.2.2 Vấn đề xác định hàm cực đại hàm mật độ xác suất … .38 3.2.3 Sai số Bayes phương pháp hàm cực đại… 43 3.3 Sử dụng phần mềm toán học toán phân loại phân biệt… .45 3.3.1 Chương trình tính tích phân… 45 3.3.2 Chương trình phân loại phần tử mới… 47 3.3.3 Chương trình tìm hàm cực đại tính sai số Bayes… 48 KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 54 DANH MỤC CÁC HÌNH STT TÊN HÌNH Hình 3.1 Hình 3.2 N ỘI DUNG TRANG Đồ thị bảy hàm mật độ xác suất chiều, f max ( x ) gmax ( x ) 51 Đồ thị ba hàm mật độ xác suất hai chiều 53 DANH MỤC CÁC BẢNG NỘI DUNG TRANG STT TÊN BẢNG Bảng 1.1 Dữ liệu hoa Iris Versicolor Iris Viginica Bảng 1.2 Bảng phân phối tần số biến x Bảng 1.3 Bảng phân phối tần số x với 4.5 ≤ x1 ≤ 5.1 Bảng 1.4 Bảng phân phối tần số x với 4.5 ≤ x1 ≤ 5.1 1.5 ≤ x2 ≤ 1.9 Bảng 1.5 Bảng phân phối tần số x với 4.5 ≤ x1 ≤ 5.1, 1.5 ≤ x2 ≤ 1.9 x < 3.1 Bảng 2.1 Các hàm hạt nhân phổ biến 20 Bảng 2.5a Bảng kích thước chi tiết nhỏ 30 Bảng 2.5b Bảng kích thước chi tiết lớn 30 Bảng 2.5c Bảng tính dựa vào biến x1 cho mẫu 34 10 Bảng 2.5d Bảng tính dựa vào biến x1 cho mẫu 34 11 Bảng 2.5e Bảng tính dựa vào biến x cho mẫu 35 12 Bảng 2.5f Bảng tính dựa vào biến x cho mẫu 35 PHẦN MỞ ĐẦU Giới thiệu toán phân loại phân biệt Khi liệu đến từ nhiều nhóm khác nhau, người ta có nhu cầu phân biệt chúng theo nguồn gốc ban đầu, để có phần tử xếp vào nhóm thích hợp Đây nhiệm vụ toán phân loại phân biệt Cụ thể hai toán đặt sau: Bài toán phân biệt : Từ tập hợp gồm phần tử mà ta biết rõ phần tử đến từ tổng thể số k tổng thể, dựa biến quan sát từ phần tử cần tìm quy luật để phân chia chúng k tổng thể ban đầu Bài toán phân loại: Với k tổng thể cho phần tử có biến quan sát biết, cần tìm quy luật tối ưu để xếp vào tổng thể thích hợp số k tổng thể biết trước Thơng thường tìm biểu thức giải tích cụ thể cho tốn phân biệt giải tốn phân loại trường hợp hai toán đặt giải trọn vẹn Trong luận văn này, tổng kết phương pháp để giải toán phân loại phân biệt Hiện có bốn phương pháp để giải hai tốn này: phương pháp thống kê thứ tự, phương pháp Fisher, phương pháp Bayes phương pháp hàm cực đại Trong phương pháp lấy ví dụ cụ thể để minh họa Bài toán phân loại phân biệt ứng dụng nhiều thực tế Đã có nhiều cơng trình khoa học cơng bố sử dụng tốn phân loại phân biệt lĩnh vực ngân hàng, bảo hiểm, công nghệ thông tin, … Những ứng dụng ngày trở nên đa dạng phong phú Sơ lược phát triển tính ứng dụng toán phân loại phân biệt Bài toán phân loại phân biệt lần đưa Fisher (1936) giải cho trường hợp hai tổng thể với hàm phân biệt tuyến tính Fisher Hàm phân biệt thiết lập ma trận hiệp phương sai hai tổng thể Năm 1948, Rao mở rộng cho trường hợp nhiều hai tổng thể, sở giả thiết ma trận hiệp phương sai tổng thể Một phương pháp khác, phương pháp thống kê thứ tự Kendall (1973) đề nghị Nhưng phương pháp mang tính chất thủ cơng, phức tạp mà thực tế gần thực Một số khía cạnh liên quan toán phân loại phân biệt chưa đề cập 1970 mà máy tính chưa phát triển Webb (2002), tổng kết kết đạt toán phân loại phân biệt Dựa vào phương pháp Bayes hàm phân biệt tuyến tính, hàm phân biệt bậc hai thiết lập để giải toán phân loại phân biệt Ở xác suất sai lầm phân loại phân biệt xem xét Phương pháp Bayes xem có nhiều ưu điểm giải u cầu đặt tốn: Tìm thuật tốn, đồng thời đưa biểu thức tính sai số phân loại phân biệt Tuy nhiên vấn đề giải mang tính chất lý thuyết, việc tính tốn thực tế chưa có tiến đáng kể tính chất phức tạp tiêu chuẩn, hay tính tích phân,… Việc phân loại phân biệt đặc biệt việc tính xác suất sai lầm cụ thể thực có giả thiết ma trận hiệp phương sai nhau, v ề tính chuẩn liệu xem xét cho trường hợp hai tổng thể Năm 2008 sử dụng hàm cực đại hàm mật độ xác suất, nhóm tác giả Phạm Gia Thụ, Turkan, Võ Văn Tài đưa phương pháp mới, phương pháp cực giải toán phân loại phân biệt Phương pháp hàm cực đại tạo thuận lợi lớn, đặc biệt mặt tính tốn để giải tốn phân loại phân biệt Cấu trúc luận văn Luận văn gồm phần: phần mở đầu, phần nội dung, phần kết luận tài liệu tham khảo Phần nội dung luận văn gồm chương, chương có ví dụ áp dụng Chương Phương pháp thống kê thứ tự phương pháp Fisher : Giới thiệu phương pháp phân loại áp dụng từ tổng thể nhiều tổng thể ví dụ áp dụng cho hai phương pháp Chương Phương pháp Bayes: Là phương pháp có nhi ều ưu điểm tốn phân loại phân biệt Được xây dựng sở liệu chuẩn không chuẩn, với giả thiết ma trận phương sai tổng thể không Dựa xác suất tiên nghiệm hàm mật độ xác suất đưa hàm phân biệt Phương pháp xác định xác suất sai lầm tối thiểu phân loại Chương Phương pháp hàm cực đại : Trong chương dựa vào hàm cực đại thiết lập cơng cụ cho toán phân loại phân biệt, nêu mệnh đề liên quan f max ( x ) g max ( x ) vấn đề quan tâm toán, chứng minh đơn giản, hiệu việc tính tốn, cách trình bày minh họa so với phương pháp truyền thống toán phân loại phân biệt 10 Chương PHƯƠNG PHÁP THỐNG KÊ THỨ TỰ VÀ PHƯƠNG PHÁP FISHER 1.1 PHƯƠNG PHÁP THỐNG KÊ THỨ TỰ Đây xem phương pháp phân biệt sơ khai cho tổng thể w1 w2 Phương pháp lần trình bày đầy đủ Kendall (1973) Mặt dù có nhiều hạn chế phương pháp áp dụng để giải việc phân loại chổ 1.1.1 Thuật toán Thuật toán cho phương pháp với véc tơ quan sát dùng ểđ phân loại x = ( x1 , x2 , , xn ) cụ thể sau: Bước 1: Xét biến quan sát x , tìm giá trị cụ thể x từ định phần tử thuộc w1 mà không thuộc w2 ngược lại thuộc hai Chẳng hạn ta tìm giá trị x x 10 x 11 cho: Nếu phần tử có x < x 10 xếp vào w1 Nếu phần tử có x > x 11 xếp vào w2 Nếu phần tử có x 10 ≤ x ≤ x 11 chưa xác định thuộc tổng thể Bước 2: Tiếp tục làm bước với biến x cho phần tử chưa biết xếp vào tổng thể bước 1, tiếp tục làm với biến biến cuối x n Khi đến biến cuối cùng, phần tử chưa biết xếp vào tổng thể đó, phần tử với biến quan sát mắc phải sai lầm phân loại 47 Khi khơng quan tâm đến xác suất tiên nghiệm hàm phân biệt d ij( q ) ( x ) (3.11) (3.12) trở thành [ ] [ ] −1 −1 −1 −1 d ij ( x ) = − x T (Σ i ) − (Σ j ) x + µ iT (Σ i ) − µ Tj (Σ j ) x − k d ij ( x ) = (µ i − µ j )(Σ ) x − −1 (µ i − µ j )T (Σ )−1 (µ i + µ j ) Trong trường hợp k > 2, việc xác định biểu thức giải tích cụ thể f max (x) (q) g max ( x ) cho hàm mật độ xác suất phức tạp Ngay xem xét cho hàm mật độ xác suất chuẩn chiều vấn đề không đơn giản Tuy nhiên sử dụng phần mềm toán học Maple, Mattlab,… bước đầu giải khó khăn (xem chương trình 4.2) 3.2.3 Sai số Bayes phương pháp hàm cực đại a) Xét hai tổng thể với hàm mật độ xác suất f i ( x ), i = 1, Khi không quan tâm đến sác suất tiên nghiệm sai số Bayes cho toán phân loại phân biệt xác định công thức Pe1, = − ∫ f max ( x )dx R (3.13) n a1) Khi hai tổng thể có phân phối chuẩn chiều N ( µ i , σ i2 ) , i = 1, với hàm mật độ xác suất cho (3.3) Giả sử µ1 < µ Nếu σ = σ Pe1, = − x1 ∫ f1 ( x)dx − +∞ −∞  x − µ1   x1 − µ    − Φ σ σ     ∫ f ( x)dx =Φ x1 Nếu σ ≠ σ , giả sử σ < σ Pe1, = − x2 +∞ x3 −∞ x3 x2 ∫ f ( x)dx − ∫ f ( x)dx − ∫ f1 ( x)dx  x − µ1   x − µ1   x − µ2   x − µ2    − Φ  + Φ  − Φ = Φ σ σ σ σ 2 1         Đặc biệt µ1 = µ = µ Nếu σ = σ Pe1, = Nếu σ ≠ σ 48 Pe1, = − x4 +∞ x5 −∞ x5 x4 ∫ f ( x)dx − ∫ f ( x)dx − ∫ f1 ( x)dx x −µ x −µ x −µ x −µ   − Φ  + Φ  − Φ = Φ  σ1   σ1   σ2   σ2  Trong Φ ( x) = 2π x −t ∫e /2 dt x1 , x2 , x3 , x4 , x5 xác định (3.4), −∞ (3.5), (3.6) (3.7) a2) Khi hai t thể có hàm mật độ xác suất phân phối chuẩn n chiều N (µ1 ,Σ ) N (µ ,Σ ) cho (2.1) i) Giả sử Σ = Σ = Σ Đặt: U = X T Σ −1 (µ1 − µ ) − (µ1 − µ )T Σ −1 (µ1 − µ ) Theo Anderson (1984) X có phân phối chuẩn N (µ1 , Σ ) U có phân phối 1  T chuẩn N  θ ,θ  với θ = ( μ1 − μ2 ) Σ −1 ( μ1 − μ2 ) Tương tự X có phân phối 2    chuẩn N (µ , Σ ) U có phân phối chuẩn N  − θ ,θ  Khi khơng   quan tâm đến xác suất tiên nghiệm sai số Bayes xác định Pe1, = τ + δ với τ= θ 2π +∞ ∫ ( ) 2  exp − x + 12 θ dx = 2π  2θ  +∞   ất sai exp − x dx xác su   θ /2 ∫ lầm phân loại vào tổng thể thứ nhất, δ= θ 2π ( )  2 ∫ exp − 2θ x − 12 θ dx = 2π −∞ −θ / ∫ −∞   exp − x dx xác suất sai   lầm phân loại vào tổng thể thứ hai ii) Khi Σ1 ≠ Σ việc tìm biểu thức giải tích cho τ δ phức tạp gần khơng có ý nghĩa cho việc tính toán cụ thể b) Xét k tổng thể với hàm mật độ xác suất f i ( x ) xác suất tiên nghiệm qi , i = 1, 2, …, k Đặt (q ) = (q1 , q , , q k ) , giả sử max {ql fl ( x )} = q j f j R nj , 1≤l ≤ k sai số Bayes cho toán phân loại phân biệt xác định sau: 49 k (q) Pe1,2, , k = ∑ ∫ j =1 R n \ R n j = = q j f j ( x )dx    q f ( x ) d x max q f x d x − { l l ( )}  ∑ j j ∫ ∫ 1≤l ≤ k n n   j =1 R Rj  k k k f ( x )dx − ∑ ∫ max {ql fl ( x )} dx ∫ ∑q j j 1≤l ≤ k = R n j =j R nj = − ∫ max {ql fl ( x )} dx Rn = 1− 1≤l ≤ k ∫g R max ( x ) dx n Như sai số Bayes tính thơng qua hàm cực đại g max ( x ) công thức đơn giản sau: Pe1(,q2), ,k = − ∫ g max ( x )dx (3.14) Rn Sai số Bayes với xác suất tiên nghiệm qi = k) Pe1(,12/, , k = 1− k f max ( x )dx k R∫ (3.15) n Việc sử dụng (3.14) để tính sai số Bayes có thuận lợi lớn, đặc biệt việc sử dụng phần mềm toán học để lập trình 3.3 SỬ DỤNG PHẦN MỀM TỐN HỌC TRONG BÀI TỐN PHÂN LOẠI VÀ PHÂN BIỆT 3.3.1 Chương trình tính tích phân Thuận lợi lớn tích phân Monte Carlo dễ dàng viết chương trình cho việc tính tốn phần mềm với tích phân bội có biên phức tạp Sau ta xem xét cụ thể thuật tốn tính I = ∫ f ( x, y)dxdy R phương pháp Monte Carlo dùng luận văn Bước 1: Chọn số điểm ngẫu nhiên cần lấy trục Xác định khối hình chữ nhật có kích thước [a,b] x [c,d] x [h,k] chứa miền W = {( x, y ) : f ( x, y ) ≤ 0} Đặt V = (b − a )(d − c)(k − h) 50 Bước 2: Trên trục 0x, 0y, 0z, lấy n điểm ngẫu nhiên xi ∈ [a, b] , yi ∈ [c, d ] z i ∈ [h, k ] , i = 1, 2, …, n Bước 3: Gán giá trị ban đầu cho số điểm ( xi , yi ) thuộc miền W: p = Kiểm tra điểm ngẫu nhiên có thuộc miền W khơng: Nếu thuộc W ( z i ≤ f ( xi , yi ) ) gán p = p + Bước 4: Lặp lại bước sau n x n lần, xuất kết tích phân I = V.p n.n Thuật toán dễ dàng thay đổi biểu thức tính tích phân có số chiều nhiều Sau hai chương trình cụ thể tính tích phân hàm cực đại hàm mật độ xác suất, hàm mật độ xác suất có phân phối hai chiều viết phần mềm Maple Chương trình 1.2: Tính gần ∫ f max ( x, y)dxdy R với f max ( x, y ) cực đại n hàm mật độ xác suất hai chiều: f max ( x, y ) = max{ f1 ( x, y ), f ( x, y ), , f n ( x, y )}dx dy Mcint:=proc(L::list(algebraic)) local n,u,v,i,j,t,l,g,B,H,a,b,c,d,e,f,rf,MM,LN,hits,estimate,Data; n:=nops(L); H:=seq(unapply(L[p],x,y),p=1 n-7); MM:=1000*L[n]; rf:=rand(0 MM); hits:=0; a:=L[n-5]-L[n-6]; b:=L[n-3]-L[n-4]; c:=L[n-1]-L[n-2]; for i to L[n]*L[n] d:=evalf(L[n-6]+a*rf()/MM); e:=evalf(L[n-4]+b*rf()/MM); g:=evalf(L[n-2]+c*rf()/MM); B:=seq(evalf(H[p](d,e)),p=1 n-7); LN:=max(B); if g < LN then hits:=hits +1; fi; od; 51 estimate:= evalf(a*b*c*hits/(L[n]*L[n])); end: Để thực việc tính tích phân ta dùng lệnh sau Mcint(f , f , …, f n, a,b,c,d,h,k,n); 3.3.2 Chương trình phân loại phần tử Cơ sở để phân loại phần tử nguyên tắc (3.1) Dựa vào nguyên tắc này, ta có thuật toán đơn giản để phân loại phần tử với biến quan sát x cho k tổng thể với hàm mật độ xác suất f i ( x ) , i = 1, 2, …, k sau: a) Thuật toán Bước 1: Nhập hàm mật độ xác suất phần tử cần phân biệt x Bước 2: Tính giá trị hàm mật độ xác suất vị trí x Bước 3: Tìm hàm số f j ( x ) cho max{ f i ( x )} = f j ( x ) , i = 1, 2, …, k Khi i ta xuất kết f j ( x ) , nghĩa phần tử xếp vào tổng thể thứ j Sử dụng thuật toán với phần mềm tốn viết chương trình cụ thể Sau chúng tơi minh họa chương trình viết phần mềm Maple phân loại phần tử tổng thể có hàm mật độ xác suất phân phối chiều b) Chương trình Phanloai:=proc(L::list(algebraic)) local n,u,v,i,d,j,t,l,B,H;n:=nops(L); H:={seq(unapply(L[p],x,y),p=1 n-2)}; u:=L[n-1];v:=L[n]; for i from to n-2 d[i]:=evalf(H[i](u,v)); od; B:=d[1];t:=H[1](x); l:=f[1];[l=t]; for j from to n-1 if B g l ( x lm ) loại bỏ x lm , ngược lại giữ x lm Sắp xếp nghiệm giữ lại theo thứ tự từ nhỏ đến lớn, ta có tập nghiệm B = {x1 , x2 , , xh } 53 (q) Bước 3: Cho i = 1, 2, , k ; j = 1, 2, , h , hàm g max ( x) xácđịnh sau: Nếu max{g1 ( x1 − ε ), g ( x1 − ε ), , g k ( x1 − ε )} = g i ( x1 − ε ) kết luận (q) g max ( x) = g i ( x) x ∈ (− ∞, x1 ) , Nếu max{g1 ( x j + ε ), g ( x j + ε ), , g k ( x j + ε )} = g i ( x j + ε ) , (q) j = 1, 2, , h − , kết luận g max ( x) = g i ( x) x ∈ ( xi , xi +1 ) Nếu max{g1 ( xh − ε ), g ( xh − ε ), , g k ( xh − ε )} = g i ( xh − ε ) kết luận (q) ( x) = g i ( x) x ∈ ( xh , + ∞ ) g max Trong ε , ε số dương không lớn, cho việc tính giá trị hàm số xl − ε xh − ε thuận lợi Ta chọn ε = ε = ε , ε số dương cho xi + ε < xi +1 Trong lập trình chúng tơi chọn ε = xi + xi +1 Bước 4: Tính sai số Bayes công thức (3.14) (q) Chú ý 1: Muốn tìm g max ( x) ta dừng lại bước thứ 3, muốn tìm f max ( x) ta thay g i (x) f i ( x), i = 1, 2, , k thuật tốn Chương trình saisobayes:=proc(L::list(algebraic)) local e,i,j,k,r,s,t,m,n,p,kq,A,C,D,E,F,G,H,S,S1; n:=nops(L); H:={seq(unapply(L[p],x),p=1 n)}; A:={seq(H[p],p=1 n)}; S1:={solve(H[1](x)–H[2](x)=0,x)}; if nop(H)=2 and nop(S1) = then e:=S1–0.001; if evalf(H[1](f))>evalf(H[1](f)) then p[x]:=piecewise(x việc viết chương trình phần mềm tốn học để tìm hàm cực đại vơ phức tạp Hiện với hàm số cụ thể cho (q) trước ta xác định hàm g max ( x ) Tuy nhiên sử sụng phương pháp tính tích phân Monte Carlo, với chương trình tính sai số Bayes tốn phân loại phân biệt Ví dụ 3.2 Cho tổng thể w1 , w2 w3 có phân phối chuẩn chiều với tham số cụ thể sau:  0.706 − 0.251  2  0.792 − 0.298 , µ1 =   , Σ =  Σ1 =    − 0.251 0.507   2 − 0.298 0.507  57  4  0.397 µ =  , Σ =  − 0.200  4 − 0.200  4 , µ3 =    0.706   4 f2 f1 f3 Hình 3.2: Đồ thị ba hàm mật độ xác suất hai chiều Hàm cực đại hàm mật độ xác suất xác định cụ thể sau:  f1 ( x, y ) ( x, y ) ∈ R1  f max ( x, y ) =  f ( x, y ) ( x, y ) ∈ R2  f ( x, y ) ( x, y ) ∉ ( R ∪ R )  Trong R1 = {(h1 − y < ∪ h2 − y > 0) ∩ (h3 − y > ∩ h4 − y < 0)} , R2 = {(h1 − y > ∩ h2 − y < 0) ∩ ( h5 − y > ∩ h6 − y < 0)}, h1 = −0.0421x − 1.0956 + 1.2787.10 −10 9.5067.1018 x − 9.54027.1019 x + 2.61776.10 21 h2 = −0.0421x − 1.0956 − 1.2787.10 −10 9.5067.1018 x − 9.54027.1019 x + 2.61776.10 21 h3 = −0.7292 x + 52.2358 + 6.8626.10 −10 2.5348.1018 x − 9.5629.1018 x + 4.7005.10 21 h4 = −0.7292 x + 52.2358 − 6.8626.10 −10 2.5348.1018 x − 9.5629.1018 x + 4.7005.10 21 h5 = −0.1500 x + 7.2805 + 1.0778.10 −10 1.2354.10 20 x − 3.5745.10 20 x + 6.2027.10 20 h6 = −0.1500 x + 7.2805 − 1.0778.10 −10 1.2354.10 20 x − 3.5745.10 20 x + 6.2027.10 20 3.5 Có phần tử z =   cần xếp vào tổng thể thích hợp nhất? 4.0 58 Ta có f max ( z ) = f ( z ) Như phần tử z phải xếp vào tổng thể thứ ba Với chuơng trình 1.2, kết xuất ra: f ( x, y ) = ( 0.87676 exp − 0.81445( x − 4) − 0.97257( x − 4)( y − 4) − 1.29064( y − 4) π ) Sai số Bayes tính theo chương trình 3: Pe1(,12/,33) = 0.35 KẾT LUẬN Luận văn tổng kết tất phương pháp phân loại phân biệt Phương pháp thống kê thứ tự phương pháp Fisher thực cho liệu rời rạc Phương pháp Bayes phương pháp hàm cực đại thực dựa sở biết hàm mật độ xác suất biến quan sát Với phát triển tin học, đặc biệt 59 phần mềm toán học, việc ước lượng hàm mật độ tương đối xác phương pháp dựa hàm mật độ mang tính ứng dụng thực tế cao Qua nghiên cứu phương pháp phân loại phân biệt trình bày trên, có nhận xét sau: Phương pháp thống kê thứ tự : Đây xem phương pháp phân loại phân biệt sơ khai Nó mang tính chất thủ cơng, giản đơn, việc thực phức tạp khơng tính xác suất sai lầm Tuy nhiên phương pháp ứng dụng cục nhiều thuật toán phức tạp để giải vấn đề phân loại chỗ Phương pháp Fisher: Phương pháp áp dụng cho tổng thể nhiều tổn g thể dựa số liệu rời rạc Phương pháp có ý nghĩa thực tế thuật toán đơn giản Hạn chế phương pháp phải thực sở ma trận hiệp phương sai tổng thể khơng tính xác suất sai lầm việc thực Phương pháp Bayes: Phương pháp xây dựng cho liệu chuẩn không chuẩn, với giả thiết ma trận hiệp phương sai tổng thể không Dựa xác suất tiên nghiệm hàm mật độ xác suất để đưa hàm phân biệt Về mặt lý thuyết, biết hàm mật độ xác suất phương pháp xem giải trọn vẹn toán phân loại phân biệt đưa thuật tốn tính xác suất sai lầm trường hợp khác Nhưng thực tế tính tốn, việc giải cịn gặp nhiều khó khăn việc xác định hàm mật độ xác suất, xác suất tiên nghiệm, đặc biệt việc tính tích phân Ngay phân loại phân biệt cho hai tổng thể không gian nhiều chiều giải không đơn giản Hiện biểu thức tường minh cho hàm phân biệt sai số xác định cho trường hợp đơn giản mà Phương pháp hàm cực đại : Phương pháp tương đương với phương pháp Bayes việc hàm phân biệt thực toán phân loại phần tử Tuy nhiên phương pháp đem ại l thuận lợi lớn cách trình bày có hiệu việc tính tốn Với chương trình viết phương pháp giải trọn vẹn toán phân loại xác định xác suất sai lầm phân loại 60 TÀI LIỆU THAM KHẢO A Tiếng Việt [1] Trần Văn Lý, Định lý Bayes tập mở, Luận văn thạc sĩ toán học, 2004 61 [2] Võ Văn Tài, Phạm gia Thụ, Tô Anh Dũng, sai số Bayes khoảng cách hai hàm mật độ xác suất phân loại hai tổng thể, tạp chí phát triển khoa học công nghệ, Đại học Quốc gia TPHCM, 11(6), tr 23-37,2008 [3] Võ Văn Tài, Phạm Gia Thụ, Tô Anh Dũng, Ước lượng Bayes cho tỷ lệ trộn phân loại nhận dạng hai tổng thể, Tạp chí phát triển khoa học cơng nghệ, Đại học Quốc gia TPHCM, 11(1), tr 21 – 30, 2008 [4] Tô Cẩm Tú, Nguyễn Huy Hồng, Phân tích số liệu nhiều chiều, NXB Khoa học Kỹ thuật, Hà Nội, 2003 B Tiếng Anh [5] Fukunaga (1990), Introduction to statistical pattern recognition, 2nd Ed., Academic Press, New York [6] T Pham – Gia, T.Turkan, N and Tai, Vo Van, the maximum function in statistical discrimination analysis, commun Instat – Simulation computation 37(2), PP 320336, 2008 [7] Webb, A., Statistical parttern recognition, nd Ed., John Wiley and Sons, New York, 2002 ... triển tính ứng dụng toán phân loại phân biệt Bài toán phân loại phân biệt lần đưa Fisher (1936) giải cho trường hợp hai tổng thể với hàm phân biệt tuyến tính Fisher Hàm phân biệt thiết lập ma trận... quan tốn phân loại phân biệt chưa đề cập 1970 mà máy tính chưa phát triển Webb (2002), tổng kết kết đạt toán phân loại phân biệt Dựa vào phương pháp Bayes hàm phân biệt tuyến tính, hàm phân biệt. .. thiệu toán phân loại phân biệt Khi liệu đến từ nhiều nhóm khác nhau, người ta có nhu cầu phân biệt chúng theo nguồn gốc ban đầu, để có phần tử xếp vào nhóm thích hợp Đây nhiệm vụ toán phân loại phân

Định dạng
Số trang	61
Dung lượng	842,58 KB