Sử dụng hàm cực đại trong phân tích nhận dạng thống kê cho nhiều tổng thể nhiều chiều

25 415 0
Sử dụng hàm cực đại trong phân tích nhận dạng thống kê cho nhiều tổng thể nhiều chiều

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN *** VÕ VĂN TÀI SỬ DỤNG HÀM CỰC ĐẠI TRONG PHÂN TÍCH NHẬN DẠNG THỐNG KÊ CHO NHIỀU TỔNG THỂ NHIỀU CHIỀU Chuyên ngành : Lý thuyết xác suất thống kê toán học Mã số : 62 46 15 01 LUẬN ÁN TIẾN SĨ TOÁN HỌC HƯỚNG DẪN KHOA HỌC: GS.TS PHẠM GIA THỤ TS TÔ ANH DŨNG Thành Phố Hồ Chí Minh - 2010 1 TỔNG QUAN CỦA LUẬN ÁN 1.1 Giới thiệu vấn đề nghiên cứu luận án Xuất phát từ đòi hỏi cần phải giải thực tế, toán nhận dạng đời Bài toán nhận dạng phát triển theo hai hướng chính: Nhận dạng giám sát nhận dạng khơng giám sát Trong tốn nhận dạng giám sát, biết rõ ràng tách biệt k tổng thể, dựa vào tìm quy luật phân loại phần tử vào k tổng thể biết trước Thông thường trước người ta tìm quy luật để phân biệt k tổng thể ban đầu, nhiên hai vấn đề giải độc lập Nhận dạng nói chung nhận dạng giám sát nói riêng gồm nhiều lĩnh vực khác Tuy nhiên luận án này, phần đầu giải vấn đề quan trọng đặt thống kê hình thức hai tốn: tốn phân biệt toán phân loại Bài toán phân biệt: Từ tập hợp gồm phần tử mà ta biết rõ phần tử đến từ tổng thể số k tổng thể, dựa biến quan sát từ phần tử cần tìm quy luật để phân chia chúng k tổng thể ban đầu Bài toán phân loại: Với k tổng thể cho phần tử có biến quan sát biết, cần tìm quy luật tối ưu để xếp vào tổng thể thích hợp số k tổng thể biết trước 2 Thông thường tìm biểu thức giải tích cụ thể cho tốn phân biệt giải toán phân loại trường hợp hai toán đặt giải trọn vẹn Khi khơng tìm quy luật cho tốn phân biệt, sử dụng hàm cực đại, giải tốn phân loại Đó đóng góp trình bày luận án Trong nhận dạng không giám sát, gọi phân tích chùm, khơng có dự kiến trước phân nhóm Tập liệu đến từ tổng thể, cần phân chia phần tử tập hợp thành nhóm với mức độ khác nhau, cho phần tử nhóm gần theo tiêu chí phần tử khác nhóm gần Việc xác định nhóm phân chia tùy thuộc vào tập liệu có tùy thuộc vào chủ quan người thực Phân tích chùm xem mở rộng toán phân loại phân biệt Với tốn phân tích chùm, luận án xét phần tử hàm mật độ xác suất Hiện có nhiều nhà tốn học quan tâm đến toán này, nhiên cách giải nhiều khía cạnh chưa trọn vẹn Luận án góp phần giải số khía cạnh chưa trọn vẹn Cụ thể, sử dụng hàm cực đại luận án đưa công cụ thuận lợi hiệu để giải toán phân loại phân biệt tạo tiến quan trọng mặt tính tốn Hàm cực đại sử dụng để giải toán chùm hàm mật độ xác suất Một số khái niệm kết lý thuyết thiết lập luận án liên quan đến toán phân biệt, phân loại phân tích chùm hàm mật độ xác suất 1.2 Các kết liên quan đến luận án Bài toán phân loại phân biệt lần đưa Fisher (1936) giải cho trường hợp hai tổng thể với hàm phân biệt tuyến tính Fisher Hàm phân biệt thiết lập ma trận hiệp phương sai hai tổng thể Năm 1948, Rao mở rộng cho trường hợp nhiều hai tổng thể, sở giả thiết ma trận hiệp phương sai tổng thể Một phương pháp khác, phương pháp thống kê thứ tự Kendall (1975) đề nghị Nhưng phương pháp mang tính chất thủ cơng, phức tạp mà thực tế gần thực Một số khía cạnh liên quan toán phân loại phân biệt chưa đề cập 1970 mà máy tính chưa phát triển Andrews (1972), Chen (1973), Young Calvert (1974), Hand (1981), Devijer Kittler (1982), Fukunaga (1990), McLachlan (1992), Webb (2002), tổng kết kết đạt toán phân loại phân biệt Dựa vào phương pháp Bayes họ đưa tiêu chuẩn khác để phân loại phân biệt như: Tiêu chuẩn phần tử kế cận gần nhất, tiêu chuẩn độ rủi ro phân loại, tiêu chuẩn Neyman-Pearson, tiêu chuẩn minimax, Ở xác suất sai lầm phân loại phân biệt xem xét Phương pháp Bayes với tiêu chuẩn nêu xem có nhiều ưu điểm giải yêu cầu đặt toán: Tìm thuật tốn, đồng thời đưa biểu thức tính sai số phân loại phân biệt Tuy nhiên vấn đề giải mang tính chất lý thuyết, việc tính tốn thực tế chưa có tiến đáng kể tính chất phức tạp tiêu chuẩn, hay tính tích phân,… Việc phân loại phân biệt đặc biệt việc tính xác suất sai lầm cụ thể thực có giả thiết ma trận hiệp phương sai nhau, tính chuẩn liệu xem xét cho trường hợp hai tổng thể Trong nỗ lực xét vấn đề liên quan, nhóm tác giả PhamGia, T Turkkan, N.và Bekker, A (2006) có đóng góp quan trọng việc xác định xác suất tiên nghiệm, tỷ lệ trộn hai tổng thể sai số Bayes phân biệt hai tổng thể Tuy nhiên việc phân loại phân biệt, việc tính sai số Bayes cho nhiều tổng thể, nhiều chiều chưa đề cập 5 Trong toán phân tích chùm, dựa vào định nghĩa khoảng cách hai phần tử hai nhóm liệu rời rạc Sibson (1973), Defays (1977), Rohlf (1982), …đã đưa hai thuật toán cụ thể cho việc xây dựng chùm Các thuật toán xây dựng chùm với phần tử rời rạc Hạn chế chung phương pháp đánh giá mức độ “gần” “xa” phần tử chùm giửa chùm với đơn dựa vào định nghĩa khoảng cách truyền thống mà không dựa vào phân bố liệu nên đôi lúc tạo nghịch lý cho kết phân tích chùm: Phần tử phải xếp vào chùm lại xếp vào chùm kia, hay ngược lại Ở Việt Nam chưa có nhà tốn học nghiên cứu sâu vấn đề Một số tác giả quan tâm đến khía cạnh ứng dụng 1.3 Bố cục luận án Luận án gồm có phần mở đầu, phần nội dung, phần kết luận với phụ lục, danh mục cơng trình tác giả tài liệu tham khảo Phần nội dung gồm chương: chương phần kiến thức sở, chương 2, 3, phần luận án trình bày đóng góp cho tốn phân loại, phân biệt phân tích chùm Phần phụ lục trình bày tính tốn chi tiết nêu kết phần nội dung 6 NỘI DUNG CỦA LUẬN ÁN 2.1 Khoảng cách L1 hàm mật độ xác suất Xét khoảng cách  f1 ( x), f ( x), , f k ( x), k hàm mật độ xác suất k  Khi k = có nhiều loại khoảng cách khác sử dụng khoảng cách Chernoff, khoảng cách Divergence, khoảng cách Lp,… Khi k > có khái niệm đưa để đánh giá mức độ tương đồng hàm số,đó affinity Matusita (1967), affinity Toussaint (1972),… Thông thường nhà toán học quan tâm đến khoảng cách Lp, đặc biệt L2 Luận án quan tâm đến khoảng cách L1 nó xem gần gũi tự nhiên đại lượng khoảng cách Khoảng cách L1 hai hàm mật độ xác suất định nghĩa sau: f1 , f   f  x   f  x  dx Rn Khi có nhiều hai hàm mật độ xác suất, khoảng cách L1 chúng thật chưa định nghĩa Luận án đưa công thức đánh giá mức độ gần hàm mật độ xác suất mà xem khoảng cách L1 Định nghĩa 1: Đặt f max ( x )  max f1 ( x ), f ( x ), , f k ( x ) g max ( x )  maxg1 ( x ), g ( x ), , g k ( x ), với k  3, g i ( x )  qi f i ( x ) , qi xác suất tiên nghiệm tổng thể thứ k i, qi  (0,1),  qi  Khi khoảng cách k hàm {fi(x)} i 1 {gi(x)} định nghĩa sau: f , f , , f k   f  x dx  max Rn g1 , g , , g k   g max ( x )dx  Rn k Khoảng cách L1 phép đo khác có mối quan hệ sau: Khi k = f1 , f f1 , f = 2(1- 1, ) ,   f max  x dx  Pe1,2   f max  x dx   f  x dx , Rn Rn Rn  f max ( x)dx  LNN  f1 , f   f max ( x )dx  LNN , Rn Rn   f max ( x )dx  D B ( f , f )  f , f   f max ( x )dx    D B ( f , f ) Rn  Rn Trong 1, hệ số chồng lấp f1 ( x ) f ( x ) , L NN sai lầm tiêu chuẩn phân loại phần tử gần nhất, DB ( f1 , f ) khoảng cách Bhattacharrya Khi k > Định lý Ta có mối quan hệ khoảng cách L1 k hàm g i ( x)với affinity Toussaint  f i (x ) sau: a) g1 , g , , g k b) g1 , g , , g k 1  k  1  1   q  j DT ( f1 , f , , f k ) ( )   j  k k 1  j 1      k  1  (  ,1  )       qi q j DT ( f i , f j )  k  i 1   i j  k Trong ( )  (α1 ,α , ,α k ),  ,  j  (0,1),   j  , j 1 DT ( f1 , f , , f k )  khoảng cách Toussaint Định lý Khoảng cách L1 k hàm {g1 , g , g k } có biên sau: a) max{q i }   g1 , g , , g k k b) max g i , g j i j  1  1 , k  minq   g , g , , g k i k   g i , g j k i j với i, từ kết a) b) định lý k Nhận xét: Khi qi  ta có biên cho khoảng cách L1 k hàm mật độ xác suất sau: i)  f1 , f , , f k ii) max i j  k  1, k   f , f  i j f1 , f , , f k   f i , f j k i j 1  iii) max f i , f j i j  f , f , , f k    fi , f j i j Kết iii) kết mà Glick (1973) đưa 2.2 Sử dụng hàm cực đại phân loại phân biệt Cho đến có ba phương pháp để giải tốn phân loại phân biệt: Phương pháp thống kê thứ tự, phương pháp Fisher phương pháp Bayes Phương pháp Bayes có nhiều ưu điểm nhất, nhiên việc áp dụng cịn gặp nhiều khó khăn, đặc biệt việc tính tốn Luận án dựa phương pháp Bayes, với công cụ hàm cực đại giải hiệu toán phân loại phân biệt Các kết phần trình bày [1] [3] 2.2.1 Bài tốn phân loại Mục đích toán phân loại nhận biết phần tử xếp vào tổng thể số k tổng thể cho wi , i  1, 2, , k , k  , cho có xác suất sai lầm nhỏ Giả sử hàm cực đại định nghĩa xác định điểm Rn, với k tổng thể có hàm mật độ xác suất f i (x ) k xác suất tiên nghiệm qi  (0,1) ,  qi  , dựa vào hàm cực đại i 1 nguyên tắc phân loại phần tử có biến quan sát x sau: Nếu g max ( x )  q j f j ( x ) xếp phần tử vào w j 10 Trong (q )  (q1 , q , , q k ) , g i ( x )  qi f i ( x ) Nguyên tắc vừa đơn giản vừa tổng quát, đặc biệt hiệu tính tốn so với ngun tắc có Nguyên tắc tương đương với nguyên tắc Bayes việc xác định miền khác cho mục đích phân loại phương pháp Bayes giống việc xác định miền khác định nghĩa g max ( x ) Khi ta không quan tâm đến xác suất tiên nghiệm xác suất tiên nghiệm cho tổng thể nguyên tắc trở thành: Nếu f max ( x )  f j ( x ) xếp phần tử x vào w j Dựa vào ngun tắc việc tính tốn để phân loại phần tử luận án thực theo hướng: Khảo sát hàm cực đại hai hàm mật độ xác suất biểu thức cụ thể chúng có phân phối thơng dụng phân phối mũ, phân phối Beta phân phối chuẩn; viết chương trình tìm hàm cực đại nhiều hai hàm mật độ xác suất chiều; viết chương trình phân loại phân loại phần tử tất trường hợp Các chương trình viết phần mềm Maple Có thể nói biết hàm mật độ xác suất dựa vào nguyên tắc đưa toán phân loại giải trọn vẹn 11 2.2.2 Bài tốn phân biệt Khi tìm hàm cực đại hàm mật độ xác suất {fi(x)} hàm cực đại hàm {gi(x)} giải tốn phân biệt Bởi biên nơi hàm cực đại nhận miền khác hàm phân biệt Luận án khảo sát hàm phân biệt trường hợp chiều nhiều chiều Trong trường hợp chiều, biên cho tổng thể điểm Các điểm cụ thể cho tổng thể có biến quan sát chiều thông dụng phân phối mũ, phân phối Beta phân phối chuẩn Trong trường hợp nhiều chiều tổng thể có biến quan sát chuẩn, hàm phân biệt cụ thể tuyến tính bậc hai tùy theo ma trận hiệp phương sai tổng thể khác Khi khơng có phân phối chuẩn hàm phân biệt cho trường hợp cụ thể 2.2.3 Sai số Bayes Một vấn đề quan trọng việc giải tốn phân loại phân biệt tính xác suất sai lầm Sai lầm phương pháp Bayes gọi sai số Bayes Sai số Bayes chứng minh xác suất sai lầm nhỏ toán phân loại phân biệt Sử dụng hàm cực đại, luận án đưa 12 công thức tính sai số Bayes đơn giản thuận lợi cho k tổng thể có hàm mật độ xác suất fi(x), xác suất tiên nghiệm (q) =(q1, q2,…, qk) sau: Pe1(,q2), , k    g max ( x )dx Rn Luận án khảo sát việc tính sai số Bayes theo hướng:Tìm biểu thức giải tích cụ thể cho sai số Bayes phân loại phân biệt hai tổng thể có biến quan sát chiều; viết chương trình tính sai số Bayes phần mềm Maple phân loại phân biệt nhiều hai tổng thể Chương trình viết dựa việc tính nguyên hàm hàm cực đại trường hợp chiều dựa việc tính tích phân phương pháp Monte Carlo trường hợp nhiều chiều Ngoài ra, luận án thiết lập hàm mật độ xác suất cho sai số Bayes qua tổng hai thành phần sai số giả sử chúng độc lập có phân phối khoảng  0,  phân loại phân biệt hai    4 tổng thể: Định lý Gọi X1 X2 hai thành phần sai số Bayes, Y sai số Bayes, Y  X  X Giả sử X1 X2 đại  1 lượng ngẫu nhiên độc lập  0,  có hàm mật độ xác suất  4 13 f1 ( x) f ( x) , hàm mật độ xác suất Y là:  y   f1 (t ) f ( y  t )dt  y     1  g ( y )    f1 (t ) f ( y  t )dt  y  y    y  (0, )   Hàm mật độ g(y) thiết lập biểu thức giả tích cụ thể xét hai thành phần sai số có phân phối thơng dụng khoảng  0,  phân phối mũ, Beta chuẩn    4 2.2.4 Mối quan hệ đại lượng toán phân loại phân biệt i) Trong phân loại phân biệt hai tổng thể ta có mối quan hệ sau: Pe1,   f R n max ( x )dx   f max ( x )dx  f1 , f Rn Pe1(,q2)  λ1(,q2)    g max ( x )dx   g max ( x ) dx  g , g Rn Rn ii) Trong phân loại phân biệt nhiều hai tổng thể mối quan hệ thể qua định lý sau: 14 Định lý Chúng ta có mối quan hệ g1 , g , , g k với sai số Bayes hệ số chồng lấp {gi(x)} sau: a) g1 , g , , g k b) g1 , g , , g k 1  1  1  Pe1(,q2), , k , k  k   k 1   (,qj)   (,qj),l     1 (,qj), , k  i i i k i  j i  j l  Hệ quả: a ) f1 , f , , f k b) f , f , , f k 1 k)  k   kPe1(,12/, ,k , k   k  k  11     f i , f j  2   i , j ,l   ( 1) k 1 1, 2, ,k i  j l Định lý Chúng ta có kết sau sai số Bayes quan tâm đến xác suất tiên nghiệm (q )  (q1 , q , , q k ) a) Pe1(,q2), ,k = k  (i,qj)   (i ,qj),l     1 (i ,qj), , k i j i  j l  1 b)  k    g i  g j   Pe1(,q2), ,k  k i j  1  max g i , g j i j  c)  Pe1(,q2), ,k  1 maxqi  i k d) Pe1(,12/, ,1)1  k k A k) Pe1(,12/, , k  k 1 k 1  minq  i i 15 2.2.5 Ví dụ Minh họa việc sử dụng hàm cực đại giải toán phân loại phân biệt, luận án xét nhiều ví dụ trường hợp: mơ hình chuẩn mơ hình khơng chuẩn Với mơ hình khơng chuẩn xét toán phân loại phân biệt cho hai tổng thể với biến quan sát Beta hai chiều Với mô hình chuẩn xét liệu rời rạc hoa Iris gồm loại: Setosa, Versicolor Virginica Bốn biến sử dụng là: chiều dài chiều rộng cánh hoa, chiều dài chiều rộng đài hoa Mỗi loại lấy 50 phần tử rời rạc, sau ước lượng hàm mật độ xác suất cho loại phương pháp tham số phi tham số (phương pháp hàm hạt nhân dạng chuẩn) Thực phân loại phân biệt cho tổng thể tổng thể với hai biến bốn biến, trường hợp ma trận hiệp phương sai tổng thể khơng Trong ví dụ việc tính tốn gồm cơng việc sau: Tìm hàm phân biệt, đưa nguyên tắc phân loại, tính sai số Bayes, vẽ hình minh họa trường hợp chiều hai chiều Nhận xét: Khi sử dụng nhiều biến, ma trận hiệp phương sai khác toán phân loại, phân biệt tốt sai số Bayes nhỏ Trong phân loại hai tổng thể với bốn 16 biến có ma trận hiệp phương sai giống ta có kết giống Kendall thực 2.3 Chùm hàm mật độ xác suất 2.3.1 Giới thiệu Khi có nhiều liệu, người ta có nhu cầu phân chia liệu thành nhóm với phần tử “gần” theo dấu hiệu đó, từ tốn phân tích chùm đời Phân tích chùm dạng tổng quát tốn phân loại phân biệt Có nhiều ứng dụng lĩnh vực khác tốn phân tích chùm: y học, kinh tế, kỹ thuật, xã hội, … lĩnh vực nào, nơi mà việc nhóm phần tử lại với địi hỏi Hiện có hai phương pháp chủ yếu để xây dựng chùm cho phần tử rời rạc Hạn chế chung hai phương pháp đánh giá mức độ gần phần tử chùm mức độ xa chùm với dựa vào khoảng cách truyền thống mà không ý đến phân phối liệu cho, nên tiêu chuẩn đánh giá số trường hợp xem chưa hợp lý Chùm hàm mật độ xác suất, nơi hàm mật độ xác suất mô tả tổng thể chủ đề chưa nghiên cứu, số tác Matusita (1967), Toussaint 17 (1972),… đưa định nghĩa khoảng cách hai hàm mật độ xác suất nhiều hai hàm mật độ xác suất để sử dụng cho mục đích Hàm cực đại sử dụng tạo công cụ hiệu thuận lợi cho toán phân loại phân biệt Trong phần tiếp tục sử dụng hàm cực xây dựng thuật toán cho chùm hàm mật độ xác suất Với phát triển tin học thống kê gần đây, việc ước lượng hàm mật độ xác suất tương đối xác khơng q phức tạp, phương pháp chúng tơi nêu phần để tạo nhiều nhóm hàm mật độ xác suất vào tập tương tự bắt đầu với việc ước lượng hàm mật độ xác suất từ liệu rời rạc, có khả áp dụng thực tế Nội dung phần trình bày [4] 2.3.2 Độ rộng chùm Độ rộng chùm khái niệm đưa luận án Nó đo mức độ gần phần tử chùm mức độ xa chùm thực tốn phân tích chùm hàm mật độ xác suất Định nghĩa Cho  f1 , f , , f k , k hàm mật độ xác suất Rn: k  định nghĩa độ rộng chùm 18  f1 , f , , f k  sau: w f1 , f , , f k   f1 , f , , f k   f max ( x)dx  Rn Khi k = độ rộng chùm định nghĩa: w f1 , f   f1 , f   f max  x dx  R n Định nghĩa Cho g , ( g1 , g , , g n ), ( f1 , f , , f m ) hàm mật độ xác suất, định nghĩa độ rộng chùm g ,  f1 , f , , f m  wg   f1 , f , , f m  độ rộng chùm  f1 , f , , f m , g1 , g , , g n  w f1 , f , , f m  g1 , g , , g n  Độ rộng chùm định nghĩa thông qua khoảng cách L1 hàm mật độ xác suất, từ kết có khoảng cách L1 có kết sau độ rộng chùm:  1  1 i) w f , f     f max ( x)dx  Pe1,     f max ( x)dx   f ( x)dx   2 n   Rn   R Rn    λ1, k) ii ) w f1 , f , , f k   k   kPe1(,12/, ,k , k  ,  k iii) w f1 , f , , f k  = k  11     w f i f j  +   i j 19  i, j ,l   (1) k 1 1,2, , k i  j l iv) maxw f i , f j   w f1 , f , , f k    w f i , f j  i j i j Sau ta xét mối quan hệ độ rộng hai chùm khác phần tử, độ rộng hai chùm phần hợp chúng Định lý 6: Cho f1 , f , , f k , f k 1 hàm mật độ xác suất k  tổng thể Chúng ta có kết quả: a) w f1 , f , , f k 1   w f1 , f , , f k     h1 ( x ), f k 1 ( x )dx Rn Trong h1 ( x )  max f1 ( x ), f ( x ), , f k ( x ), k  b) w f1 , f 2, , f k   w f1 , f , , f n   w f n1 , f n 2, , f k    A Trong n, k  3, n  k A   min{k1 ( x ), k ( x )}dx với Rn k1 ( x )  max{ f1 ( x ), f ( x ), , f n ( x )} k ( x )  max{ f n 1 ( x ), f n ( x ), , f k ( x )} 2.3.3 Ba phương pháp xây dựng chùm Dựa vào tiêu chuẩn độ rộng chùm, luận án thiết lập phương pháp xây dựng chùm: Phương pháp thứ bậc, phương pháp không thứ bậc phương pháp dựa vào độ rộng chùm Mỗi phương pháp đưa thuật toán cụ thể Kết 20 phương pháp thứ bậc thành lập phân loại Kết phương pháp không thứ bậc thành lập số lượng chùm cụ thể cho trước cho phần tử chùm có độ rộng đến chùm thuộc nhỏ so với tất chùm khác Phương pháp cuối xây dựng chùm với độ động cho trước ban đầu 2.3.4 Ví dụ Minh họa kiểm chứng cho ba phương pháp xây dựng chùm nêu, luận án xem xét ví dụ Ví dụ giả sử biết hàm mật độ xác suất có phân phối chuẩn chiều với độ lệch chuẩn trung bình khác Phân tích chùm theo ba phương pháp trên, kết cụ thể phân loại, số lượng chùm cụ thể Kết ba phương pháp phù hợp với phù hợp với nhận xét ban đầu chùm từ hình vẽ Ví dụ xây dựng chùm từ liệu rời rạc Dữ liệu chọn liệu thực điểm thi môn xác suất thống kê nhóm sinh viên trường đại học Moncton- Canada năm 2008 Mỗi nhóm sinh viên chọn 20 phần tử Ước lượng hàm mật độ xác suất cho nhóm phương pháp hàm hạt nhân, sau thành lập phân loại Kết thu phù hợp với nhận xét ban đầu từ số liệu từ hình vẽ Nhận xét: Trong ví dụ sử dụng khoảng cách city-block tạo bất hợp lý, phần tử đáng lẻ phải xếp vào chùm 21 lại xếp vào chùm Nếu sử dụng khoảng cách Euclide kết phân tích chùm khơng có khác biệt so với tiêu chuẩn độ rộng chùm ta chọn độ lệch chuẩn Tuy nhiên ví dụ kết phân tích chùm khác sử dụng khoảng cách Euclide tiêu chuẩn độ rộng chùm ta có ma trận hiệp phương sai hàm mật độ xác suất khác Độ rộng chùm đánh giá mức độ gần phần tử chùm mức độ xa chùm khơng dựa vào trung bình mà cịn dựa vào phân bố liệu nên nói chặc chẽ tiêu chuẩn khoảng cách KẾT LUẬN Sử dụng hàm cực đại luận án giải hai toán liên kết nhau: Bài toán phân loại, phân biệt tốn phân tích chùm hàm mật độ xác suất Những kết đóng góp luận án sau: A Về mặt lý thuyết A.1 Thông qua hàm cực đại đưa định nghĩa xem khoảng cách L1 nhiều hai hai hàm mật độ xác suất  f i (x ) g i ( x ) với g i ( x )  qi f i ( x ), qi  (0,1), 22 k  qi  1, k  Từ khảo sát số kết liên i 1 quan đến khoảng cách đại lượng khác toán phân loại phân biệt: i) Mối quan hệ g1 , g hai xác suất sai lầm phương pháp Bayes giả sử chúng đại lượng ngẫu nhiên có phân phối thông dụng (0, 1/4) ii) Mối quan hệ khoảng cách g1 , g , , g k Toussaint f1 , f , , f k 1 affinity affinity Matusita, cận cận cho khoảng cách nêu mối quan hệ chúng với số lượng phần tử khác A.2.Sử dụng hàm cực đưa nguyên tắc phân loại phần tử mới, đồng thời tính sai số Bayes cho tốn quan tâm đến xác suất tiên nghiệm Nguyên tắc chứng minh tính hiệu thuận lợi lớn mặt tính tốn, đặc biệt cho trường hợp nhiều tổng thể nhiều chiều Dựa vào hàm cực đại, mối quan hệ khoảng cách L1 với sai số Bayes, hệ số chồng lấp hàm mật độ xác suất với cấp độ khác 23 thiết lập Cận trên, cận cho sai số Bayes mối quan hệ chúng với đưa A.3 Dựa vào hàm cực đại luận án xây dựng khái niệm độ rộng chùm Độ rộng chùm sử dụng làm tiêu chuẩn để giải toán chùm hàm mật độ xác suất Tiêu chuẩn với định lý thiết lập đánh giá mức độ “gần” phần tử chùm mức độ “xa” chùm có ý đến phân bố liệu cho Ở nêu phương pháp xây dựng chùm: Phương pháp thứ bậc, phương pháp không thứ bậc phương pháp xây dựng chùm có độ rộng cho trước với thuật toán cụ thể B Về mặt tính tốn B.1 Viết chương trình tìm hàm cực đại, tính sai số Bayes khoảng cách L1 nhiều hàm mật độ xác suất chúng có phân phối chiều Chương trình phân loại phần tử cho nhiều tổng thể nhiều chiều xây dựng Khi tổng thể có phân phối nhiều chiều, sử dụng tích phân Monte – Carlo viết chương trình tính sai số Bayes cho nhiều tổng thể, nghĩa giải khó khăn tính tốn trước toán phân loại phân biệt Những chương trình tính độ rộng chùm trường hợp 24 khác Các chương trình viết phần mềm Maple đưa vào thư viện chương trình để người khác sử dụng B.2 Kiểm chứng kết lý thuyết liệu cụ thể Dữ liệu kiểm chứng cho toán phân loại phân biệt liệu tiếng Fisher hoa Iris, liệu chuẩn nhiều nhà toán học quan tâm Dữ liệu minh họa toán phân tích chùm liệu hàm mật độ xác suất biết liệu thực điểm thi môn xác suất thống kê sinh viên trường đại học Moncton – Canada năm 2008 ... tốn phân biệt Bởi biên nơi hàm cực đại nhận miền khác hàm phân biệt Luận án khảo sát hàm phân biệt trường hợp chiều nhiều chiều Trong trường hợp chiều, biên cho tổng thể điểm Các điểm cụ thể cho. .. hai hàm mật độ xác suất nhiều hai hàm mật độ xác suất để sử dụng cho mục đích Hàm cực đại sử dụng tạo công cụ hiệu thuận lợi cho toán phân loại phân biệt Trong phần tiếp tục sử dụng hàm cực xây... tìm hàm cực đại, tính sai số Bayes khoảng cách L1 nhiều hàm mật độ xác suất chúng có phân phối chiều Chương trình phân loại phần tử cho nhiều tổng thể nhiều chiều xây dựng Khi tổng thể có phân

Ngày đăng: 27/08/2015, 19:06

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan