Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 132 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
132
Dung lượng
4,45 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN *** VÕ VĂN TÀI SỬ DỤNG HÀM CỰC ĐẠI TRONG PHÂN TÍCH NHẬN DẠNG THỐNG KÊ CHO NHIỀU TỔNG THỂ NHIỀU CHIỀU Chuyên ngành : Lý thuyết xác suất thống kê toán học Mã số : 62 46 15 01 LUẬN ÁN TIẾN SĨ TOÁN HỌC HƯỚNG DẪN KHOA HỌC: GS.TS PHẠM GIA THỤ TS TÔ ANH DŨNG Thành Phố Hồ Chí Minh - 2010 PHẦN MỞ ĐẦU GIỚI THIỆU BÀI TOÁN PHÂN BIỆT VÀ PHÂN LOẠI TRONG BÀI TOÁN NHẬN DẠNG Xuất phát từ đòi hỏi cần phải giải thực tế, toán nhận dạng đời Bài toán nhận dạng phát triển theo hai hướng chính: Nhận dạng giám sát nhận dạng không giám sát Trong toán nhận dạng giám sát, biết rõ ràng tách biệt k tổng thể, dựa vào tìm quy luật phân loại phần tử vào k tổng thể biết trước Thơng thường trước người ta tìm quy luật để phân biệt k tổng thể ban đầu, nhiên hai vấn đề giải độc lập Nhận dạng nói chung nhận dạng giám sát nói riêng gồm nhiều lĩnh vực khác Tuy nhiên luận án này, phần đầu giải vấn đề quan trọng đặt thống kê hình thức hai tốn: tốn phân biệt toán phân loại Bài toán phân biệt: Từ tập hợp gồm phần tử mà ta biết rõ phần tử đến từ tổng thể số k tổng thể, dựa biến quan sát từ phần tử cần tìm quy luật để phân chia chúng k tổng thể ban đầu (Trong luận án tổng thể hiểu tập phần tử phạm vi khảo sát có chung đặc tính đó) Bài tốn phân loại: Với k tổng thể cho phần tử có biến quan sát biết, cần tìm quy luật tối ưu để xếp vào tổng thể thích hợp số k tổng thể biết trước Thơng thường tìm biểu thức giải tích cụ thể cho tốn phân biệt giải toán phân loại trường hợp hai toán đặt giải trọn vẹn Khi khơng tìm hàm phân biệt, sử dụng hàm cực đại, giải tốn phân loại Trong nhận dạng không giám sát, gọi phân tích chùm, khơng có dự kiến trước phân nhóm Tập liệu đến từ tổng thể, cần phân chia phần tử tập hợp thành nhóm với mức độ khác nhau, cho phần tử nhóm gần theo tiêu chí phần tử khác nhóm gần Việc xác định nhóm phân chia tùy thuộc vào tập liệu có tùy thuộc vào chủ quan người thực Phân tích chùm xem mở rộng toán phân loại phân biệt Với tốn phân tích chùm, luận án xét phần tử hàm mật độ xác suất Trong luận án, hàm cực đại sử dụng toán phân biệt, toán phân loại tốn phân tích chùm Các tốn đặt vốn xuất phát từ yêu cầu phát triển kinh tế xã hội ứng dụng nhiều lĩnh vực kinh tế học, sinh học, xã hội học,… Đã có nhiều kết ứng dụng thực tế cơng bố, tổng kết khía cạnh khác toán (xem [1], [4], [22], [25], [35], [57]) Trước phát triển nhanh chóng khoa học kỹ thuật kinh tế xã hội, nhu cầu phân loại, phân biệt, phân tích chùm liệu địi hỏi cấp thiết hơn, vấn đề đặt luận án thiết thực Hiện có nhiều nhà tốn học quan tâm đến toán này, nhiên cách giải nhiều khía cạnh chưa trọn vẹn Luận án góp phần giải số khía cạnh chưa trọn vẹn CÁC KẾT QUẢ TRONG VÀ NGỒI NƯỚC LIÊN QUAN ĐẾN LUẬN ÁN Bài toán phân loại phân biệt lần đưa Fisher (1936) giải cho trường hợp hai tổng thể với hàm phân biệt tuyến tính Fisher Hàm phân biệt thiết lập ma trận hiệp phương sai hai tổng thể Năm 1948, Rao mở rộng cho trường hợp nhiều hai tổng thể, sở giả thiết ma trận hiệp phương sai tổng thể Một phương pháp khác, phương pháp thống kê Kendall (1973) đề nghị Nhưng phương pháp mang tính chất thủ cơng, phức tạp mà thực tế gần thực Một số khía cạnh liên quan tốn phân loại phân biệt chưa đề cập 1970 mà máy tính chưa phát triển Andrews (1972), Chen (1973), Young Calvert (1974), Tou Gonzales (1974), Hand (1981), Devijer Kittler (1982), Fukunaga (1990), McLachlan (1992), Webb (2002), tổng kết kết đạt toán phân loại phân biệt, (xem [5], [8], [12], [18], [27], [35], [53], [57], [58] Dựa vào phương pháp Bayes họ đưa tiêu chuẩn khác để phân loại phân biệt như: Tiêu chuẩn phần tử kế cận gần nhất, tiêu chuẩn độ rủi ro phân loại, tiêu chuẩn Neyman-Pearson, tiêu chuẩn Minimax,… Hàm phân biệt tuyến tính, hàm phân biệt bậc hai nêu từ tiêu chuẩn Ở xác suất sai lầm phân loại phân biệt xem xét Phương pháp Bayes với tiêu chuẩn nêu xem có nhiều ưu điểm giải u cầu đặt tốn: Tìm thuật tốn, đồng thời đưa biểu thức tính sai số phân loại phân biệt Tuy nhiên vấn đề giải mang tính chất lý thuyết, việc tính tốn thực tế chưa có tiến đáng kể tính chất phức tạp tiêu chuẩn, hay tính tích phân,… Việc phân loại phân biệt đặc biệt việc tính xác suất sai lầm cụ thể thực có giả thiết ma trận hiệp phương sai nhau, tính chuẩn liệu xem xét cho trường hợp hai tổng thể Trong nỗ lực xét vấn đề liên quan, nhóm tác giả Pham-Gia, T Turkkan, N (2006), PhamGia, T.,Turkkan, N Bekker, A (2006) (xem [40], [41]) có đóng góp quan trọng việc xác định xác suất tiên nghiệm, tỷ lệ trộn hai tổng thể sai số Bayes phân biệt hai tổng thể Tuy nhiên việc phân loại phân biệt, việc tính sai số Bayes cho nhiều tổng thể, nhiều chiều chưa đề cập Trong tốn phân tích chùm, dựa vào định nghĩa khoảng cách hai phần tử hai nhóm liệu rời rạc Sibson (1973), Defays (1977), Rohlf (1982), … (xem [11], [44], [47]) đưa hai thuật toán cụ thể cho việc xây dựng chùm Các thuật toán xây dựng chùm với phần tử rời rạc Hạn chế chung phương pháp đánh giá mức độ “gần” “xa” phần tử chùm giửa chùm với đơn dựa vào định nghĩa khoảng cách truyền thống mà không dựa vào phân bố liệu nên đôi lúc tạo nghịch lý cho kết phân tích chùm: Phần tử phải xếp vào chùm lại xếp vào chùm kia, hay ngược lại Ở Việt Nam chưa có nhà tốn học nghiên cứu sâu vấn đề Một số tác Vương Qưân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu, Trần Minh Ngọc, Lê Hồng Phương, Tô Cẩm Tú, (xem [1],[4]) quan tâm đến khía cạnh ứng dụng ĐÓNG GÓP CỦA LUẬN ÁN Trên sở phân tích hạn chế cịn tồn tại, dựa vào phương pháp Bayes với hàm cực đại, đưa công cụ để giải số vấn đề cịn hạn chế tốn phân loại, phân biệt, tốn phân tích chùm hàm mật độ xác suất Cụ thể luận án đóng góp vấn đề sau: Sử dụng hàm cực đại, dựa theo Glick (1973) đưa định nghĩa xem khoảng cách L1 nhiều hai hàm mật độ xác suất Định nghĩa tảng giải tốn đặt Ở đây, chúng tơi đưa mối quan hệ khoảng cách với độ đo khác với đại lượng liên quan toán phân loại, phân biệt Hàm cực đại áp dụng để đưa nguyên tắc phân loại phần tử trường hợp: chiều, nhiều chiều cho hai tổng thể nhiều hai tổng thể Chúng viết thành công chương trình phần mềm Maple để giải trọn vẹn toán phân loại Khi xác định hàm cực đại miền cụ thể tốn phân biệt giải hồn tồn toán phân loại Với trường hợp chiều, luận án đưa biểu thức giải tích cụ thể Các điểm phân biệt trường hợp chiều hàm phân biệt trường hợp chuẩn nhiều chiều nêu cụ thể luận án Sai số Bayes vấn đề đặc biệt quan tâm toán phân loại phân biệt Ở sai số Bayes tính thông qua nguyên hàm hàm cực đại Chúng trình bày nhiều kết lý thuyết cận cho sai số Bayes Sai số Bayes tính biểu thức giải tích kết số nhờ việc tính gần tích phân phương pháp Monte Carlo với chương trình viết Ngoài sai số Bayes, số kết lý thuyết liên quan đến khoảng cách L1 hệ số chồng lấp hàm mật độ xác suất thiết lập Mối quan hệ đại lượng nêu với sai số Bayes khảo sát Thông qua hàm cực đại, luận án đưa tiêu chuẩn “độ rộng chùm” để thực tốn phân tích chùm tổng thể hàm mật độ xác suất Ba thuật toán xây dựng chùm hàm mật độ xác suất thiết lập Độ rộng chùm đánh giá mức độ gần phần tử chùm, mức độ cách xa chùm có ý đến phân bố liệu nên xem hợp lý so với tiêu chuẩn khoảng cách sử dụng để xây dựng chùm Có thể nói hàm cực đại tạo công cụ thuận lợi, hiệu để giải toán phân loại, phân biệt phân tích chùm hàm mật độ xác suất Sự thuận lợi hiệu thể rõ rệt việc tính tốn Như luận án khơng đóng góp kết lý thuyết mà cịn đóng góp phương diện tính tốn cho toán Sơ đồ trang trình bày cơng việc thực luận án SƠ ĐỒ ĐÓNG GÓP CỦA LUẬN ÁN (IN MÀU) BỐ CỤC CỦA LUẬN ÁN Bố cục luận án gồm: phần mở đầu, phần nội dung, phần kết luận với phụ lục, danh mục cơng trình tác giả tài liệu tham khảo Ngoài chương phần kiến thức sở, chương 2, 3, phần luận án trình bày đóng góp cho tốn phân loại, phân biệt phân tích chùm Phần mở đầu: Giới thiệu toán, kết nước liên quan đến luận án đóng góp luận án Phần nội dung: Chương 1: Kiến thức sở Chương nêu kiến thức sử dụng luận án: kiến thức khoảng cách, phân phối nhiều chiều, phương pháp ước lượng hàm mật độ xác suất, tính gần tích phân, đặc biệt phương pháp Monte – Carlo Chương 2: Bài toán phân loại phân biệt Chương trình bày tóm tắt phương pháp để giải toán phân loại phân biệt: Phương pháp thống kê tuần tự, phương pháp Fisher phương pháp Bayes Ở có nhận xét thuận lợi, khó khăn mối quan hệ phương pháp này, phương hướng nghiên cứu liên quan đến hai tốn nêu thống kê, máy tính, trí tuệ nhân tạo kỹ thuật Đóng góp luận án chương tìm hàm mật độ xác suất cho sai số Bayes qua tổng hai thành phần sai số xét cho số hàm mật độ xác suất thông dụng Chương 3: Khoảng cách hàm mật độ xác suất Chương tổng kết định nghĩa khoảng cách hàm mật độ xác suất, từ dựa hàm cực đại đưa định nghĩa xem khoảng cách L1 nhiều hai hàm mật độ xác suất k g i ( x ) q i f i ( x ) , qi (0,1) , qi k i 1 f i (x ) g i (x ) với Khi k = 2, mối quan hệ khoảng cách f1 , f g1 , g với hàm cực đại chúng, hệ số chồng lấp, sai số Bayes toán phân loại phân biệt thiết lập Khi k > 2, đưa mối quan hệ khoảng cách L1: f1 , f , , f k g , g , , g k với affinity Toussaint Đặc biệt biên cho khoảng cách thông qua số lượng hàm mật độ xác suất, xác suất tiên nghiệm, hàm cực đại f i ( x ), g i ( x ) khoảng cách L1 hàm mật độ xác suất Chương 4: Sử dụng hàm cực đại toán phân loại phân biệt Trong chương dựa vào hàm cực đại đưa qui tắc thuận lợi để phân loại phần tử mới, viết chương trình cụ thể dựa qui tắc để giải mặt tính tốn tốn phân loại cho nhiều tổng thể nhiều chiều Ở khảo sát hàm cực đại của hàm mật độ xác suất hàm phân biệt tổng thể Hàm cực đại hai hàm mật độ xác suất thông dụng: Phân phối chuẩn, phân phối mũ, phân phối Beta tìm chi tiết Đặc biệt chúng tơi viết chương trình tìm hàm cực đại hàm mật độ xác suất chiều phần mềm Maple, đưa vào thư viện phần mềm để người khác sử dụng Hàm phân biệt tuyến tính bậc hai hàm mật độ xác suất có phân phối chuẩn xét Qua hàm cực đại hàm mật độ xác suất, cơng thức tính sai số Bayes cho trường hợp hai tổng thể nhiều tổng thể thiết lập Với cơng thức nêu, chương trình phần mềm Maple để tính sai số Bayes cho tốn phân loại phân biệt nhiều tổng thể có phân phối chiều viết Chương trình tính sai số Bayes xây dựng cho nhiều tổng thể nhiều chiều sử dụng việc tính gần tích phân phương pháp Monte- Carlo Với trường hợp hai tổng thể đưa biểu thức cụ thể mối quan hệ sai số Bayes, hàm cực đại f max ( x ) max f1 ( x), f ( x ) khoảng cách f1 , f hệ sai số Bayes với xác suất tiên mối quan nghiệm ( q ) ( q1 , q ) , g max ( x ) maxg1 ( x ), g ( x ) g1 , g Khi có nhiều hai tổng thể, chúng tơi nhận kết quan trọng sau mối quan hệ đại lượng toán phân loại phân biệt: - Mối quan hệ g1 , g , , g k sai số Bayes Pe1(,q ), ,k ( (q ) ( q1 , q , , q k ) xác suất tiên nghiệm tổng thể) với hệ số chồng lấp cấp độ khác (i ,qj), , l hàm số g i ( x) Hệ i j l kết mối quan hệ với f1 , f , , f k Pe1, 2, ,k i , j , ,l i j l ( ( - Biên cho sai số Bayes Pe1,q2), ,k , mối quan hệ Pe1,q2), ,k với hệ số chồng ( k ( k) lấp, Pe1,12/, ,1)1 với Pe1,12/, ,k k Một ví dụ với liệu chuẩn hoa Iris xem xét với trường hợp khác để minh họa cho vấn đề nêu Trong trường hợp liệu không chuẩn xét hàm mật độ xác suất Beta hai chiều Chương 5: Giải tích chùm tổng thể hàm mật độ xác suất Dựa vào hàm cực đại, chương đưa tiêu chuẩn “độ rộng chùm” thống cho hai hàm mật độ xác suất nhiều hai hàm mật độ xác suất để xây dựng chùm hàm mật độ xác suất Ở xây dựng ba phương pháp chùm: Phương pháp thứ bậc, phương pháp không thứ bậc phương pháp xây dựng chùm với độ rộng chùm cho trước Một định lý mối quan hệ hai độ rộng chùm khác phần tử độ rộng hợp hai chùm thiết lập Dựa vào định lý đánh giá mức độ gần phần tử chùm mức độ cách xa chùm Cũng phần này, hai ví dụ cụ thể xét: biết hàm mật độ xác suất từ liệu rời rạc thực tế, để minh họa cho ba phương pháp xây dựng chùm đưa Trong ví dụ có so sánh cách thành lập chùm theo phương pháp cũ 111 Nhóm 3: Khoa học xã hội luật Nhóm 4: Sư phạm trung học Nhóm 5: Kinh tế quản trị kinh doanh Nhóm 6: Khoa học quản lý Nhóm 7: Khoa học xác Mỗi nhóm ta lấy mẫu gồm 20 sinh viên Dữ liệu cụ thể cho bảng sau: Bảng 5.2: Điểm thi mơn xác suất thống kê sinh viên bảy nhóm Trường ĐH Moncton-Canada năm 2008 Phần Tử 10 11 12 13 14 15 16 17 18 19 20 Nhóm X Y Nhóm X Y Nhóm X Y Nhóm X Y Nhóm X Y 55.9 56.4 79.9 80.2 64.3 56.5 60.3 81.2 81.5 67.6 52.4 59.3 78.1 74.9 56.7 56.3 83.9 56.1 58.5 76.1 58.4 56.9 51.6 52.8 Nhóm X Y Nhóm X Y 51.7 84.2 63.9 62.9 72.7 72.9 76.0 85.7 86.1 61.0 86.4 63.9 66.9 76.3 74.4 70.5 87.6 79.2 67.2 53.6 89.4 61.5 64.9 76.8 72.2 67.1 86.5 87.8 84.8 67.4 57.0 83.2 60.6 63.3 82.2 78.9 76.4 83.6 93.5 83.4 64.4 54.9 84.7 66.1 60.8 81.0 69.0 72.8 83.0 77.5 81.3 79.2 67.2 57.6 86.9 59.9 65.3 73.9 75.7 66.9 87.2 82.7 58.9 81.0 74.1 65.8 53.6 86.9 62.7 65.3 72.2 77.3 69.9 84.0 89.2 58.0 79.4 81.6 67.3 59.7 89.0 62.8 59.9 82.3 72.2 75.3 83.8 87.8 60.9 58.3 83.7 86.3 67.3 47.9 87.5 67.5 59.1 79.5 72.4 70.9 89.0 91.0 54.8 58.3 77.3 83.1 68.7 59.4 86.7 63.5 64.0 76.8 72.1 68.3 85.0 78.5 59.7 60.3 78.1 73.6 65.6 55.2 89.0 62.9 68.9 77.0 76.7 66.9 85.4 82.5 56.0 60.9 81.0 86.5 73.7 53.7 87.9 61.6 65.6 74.3 73.4 75.0 82.8 74.6 59.0 62.8 78.4 78.2 68.1 59.8 88.8 67.0 65.5 78.6 73.5 76.1 86.6 85.4 54.6 56.1 81.7 79.5 64.0 57.8 86.5 64.0 67.3 79.4 74.4 67.8 84.6 91.7 55.6 67.8 84.2 80.6 65.0 52.1 86.4 66.3 64.6 81.2 75.6 71.8 82.0 81.8 54.2 60.5 87.0 84.5 67.8 52.4 85.8 60.5 66.2 77.3 75.7 74.0 85.3 84.0 53.8 70.4 81.9 77.1 65.8 58.8 85.7 63.8 66.5 74.6 70.3 68.9 87.7 80.1 54.4 58.4 79.5 75.9 72.7 57.3 88.3 68.1 67.4 71.6 75.8 75.9 84.4 84.6 54.5 61.8 76.7 78.8 66.2 55.0 87.1 64.7 66.8 69.3 73.5 68.5 82.3 89.8 55.1 62.1 80.8 82.4 67.7 53.3 85.6 58.4 64.8 78.8 74.5 68.1 85.5 92.0 Mục tiêu thành lập phân loại nhóm sinh viên dựa theo hai biến X Y để từ có sở giảm bớt phân nhóm tổ chức dạy cho sinh viên Tập điểm rời rạc tổng thể với liệu cho hình vẽ 112 Hình 5.4: Điểm thi bảy nhóm sinh viên bảng 5.2 trục 0xy Từ hình 5.4 thấy nhóm 1, tách rời nhóm khác nhóm 2, nhóm có phần tử thuộc vùng chung Hàm mật độ chiều ước lượng cho dạng: n x xi y y j f ( x, y ) , K nhx h y i1 hx hy Trong đó, n số phần tử nhóm, K ( z1 , z ) hàm hạt nhân Chúng chọn hàm hạt nhân chuẩn: K z1 , z z z2 exp 2 hx, hy gọi tham số trơn Giá trị tối ưu tham số trơn thảo luận tác giả khác trình bày chương Ở 113 sử dụng kết cho việc tính hx hy (1.13) Bảy hàm mật độ xác suất ước lượng cho hình 5.5 Hình 5.5: Đồ thị hàm mật độ xác suất hai chiều ước lượng phương pháp hàm hạt nhân cho bảy nhóm sinh viên Sử dụng thuật tốn cho hàm mật độ xác suất vừa ước lượng, thành lập phân loại cho hình 5.6 Việc tính tích phân g max ( x)dx R tính khoảng cách phương pháp Monte – Carlo n để 114 5.916 (S6) 3.095 (S5) 2.009 (S4) 1.196 (S3) 0.993 (S2) 0.860 (S1) f4 f2 f7 f5 f6 f1 f3 Hình 5.6: Cây phân loại cho bảy hàm mật độ xác suất hai chiều ước lượng phương pháp hàm hạt nhân Kết phân loại phù hợp với nhận định ban đầu việc phân tích chùm liệu Ví dụ 5.3 Xây dựng chùm theo phương pháp K-trung bình K – trung bình phương pháp xây dựng chùm không thứ bậc đơn giản phổ biến đưa MacQueen (1967) Nguyên tắc chung phương pháp phân chia n phần tử ban đầu thành k chùm cách ngẫu nhiên, sau xếp lại phần tử vào chùm cho khoảng cách từ phần tử đến chùm chứa nhỏ so với khoảng cách từ đến chùm khác Khoảng cách sử dụng khoảng Euclide trọng tâm chùm Ở áp dụng phương pháp – trung bình cho ví dụ để so sánh với phương pháp mà chúng tơi đề nghị 115 Trong ví dụ 5.1 ta thay hàm mật độ xác suất chuẩn trung bình Phân chia phần tử chùm cách ngẫu nhiên: f1 , f , { f , f } , f , f , f Áp dụng phương pháp – trung bình, kết phân tích chùm sau: f1 , f , { f , f , f } , f , f Kết chứng minh bảng tính cuối sau: Bảng 5.3: Bình phương khoảng cách Euclide từ trung bình chùm cuối đến trung bình tổng thể chiều f14(0.65) f257(4.77) f36(8.55) f1(0.3) 0.1225 19.9809 68.0625 f2(4.0) 11.2225 0.5929 20.7025 f3(9.1) 71.4025 18.7489 0.3025 f4(1.0) 0.1225 14.2129 57.0025 f5(5.5) 23.5225 0.5929 9.3025 f6(8) 54.0225 10.4329 0.3025 f7(4.8) 17.2225 0.5929 14.0625 Kết giống ví dụ 5.1.c, phương sai hàm mật độ xác suất chuẩn giống Nếu phương sai khác nhau, phương pháp – trung bình cho kết giống (vì phương sai không ảnh hưởng đến khoảng cách), phương pháp chúng tơi dẫn đến kết khác phương sai yếu tố quan trọng tính khoảng cách theo phương pháp cực đại Điều thể hợp lý đánh giá mức độ gần tổng thể Trong ví dụ 5.2, sử dụng trung bình để biểu diễn cho nhóm, áp dụng phương pháp – trung bình chia nhóm thành chùm ngẫu nhiên w2 , w5 , w7 , w1 , w6 , w3 , w4 cuối dẫn đến chùm w2 , w5 , w6 , w7 , w1 , w3 , w4 Trong khoảng cách trọng tâm từ nhóm chùm đến chùm nhỏ so với khoảng cách đến trọng tâm chùm khác Cụ thể ta có bảng sau (Tính tốn chi tiết phụ lục 3.3a) Bảng 5.4: Bình phương khoảng cách Euclide từ trọng tâm ba chùm cuối đến trọng tâm nhóm hai chiều w4 w13 w2576 w1 981.68 w3 446.88 38.41 w2 322.02 870.68 751.90 23.52 598.22 38.42 w4 0.00 675.87 335.33 w5 661.02 370.05 w6 225.14 341.20 w7 465.35 1297.19 130.60 53.46 124.60 116 Kết khác kết ví dụ 5.2: w2 , w5 , w7 , w1 , w6 , w3 , w4 Nếu chọn K = 1, có kết phân loại giống sử dụng phương pháp thứ bậc xây dựng chùm cho liệu rời rạc (Tính tốn chi tiết phụ lục 3.3b) 591.15 (S6) 335.33 (S5) 256.83 (S4) 153.65 (S3) 114.64 (S2) 42.51 (S1) f4 f2 f7 f5 f6 f1 f3 Hình 5.7: Sơ đồ sử dụng phương pháp 1– trung bình Ta thấy Hình 5.7 khác hình 5.6 Lý sử dụng khoảng cách Euclide phương pháp K – trung bình có trung bình liệu xem xét Trong khoảng cách cực đại ước lượng hàm mật độ xác suất từ liệu cho nhóm trung bình độ lệch chuẩn đưa vào việc xem xét khoảng cách Vì phương pháp đưa khắc phục tiêu chuẩn lỏng lẻo đánh giá mức độ gần nhóm theo phương pháp K–trung bình 5.5 KẾT LUẬN Chúng tơi xây dựng thuật tốn chùm, phần tử hàm mật độ xác suất (Nếu số liệu rời rạc ta cần ước lượng hàm mật độ xác suất chúng) Các thuật toán kiểm chứng thơng qua ví dụ số phần tử hàm mật độ xác suất có phối chuẩn chiều biết 117 cho liệu rời rạc thực hai chiều Công cụ để xây dựng chùm độ rộng chùm, mà định nghĩa từ hàm cực đại Hàm cực đại xác định dễ dàng cho hàm mật độ xác suất chiều dựa vào chương trình mà chúng tơi viết phần mềm Maple, nhiên phức tạp trường hợp khác Sử dụng việc tính gần tích phân phương pháp Monte Carlo với phần mềm tốn học viết chương trình tính độ rộng chùm trường hợp nhiều chiều Độ rộng chùm cho ta biết mức độ “gần” phần tử chùm, “xa” hai chùm Ứng dụng thực tế theo phương pháp lĩnh vực khác nghiên cứu thời gian tới 118 KẾT LUẬN Luận án khảo sát toán phân loại phân biệt cho hai tổng thể nhiều hai tổng thể trường hợp chiều, nhiều chiều mở rộng tốn phân tích chùm hàm mật độ xác suất Khi giải toán theo hướng thống kê ứng dụng, sử dụng hàm cực đại khoảng cách hai nhiều hai hàm mật độ xác suất làm tảng Nội dung luận án hồn tồn khơng trùng lập với luận án cơng bố trước Những đóng góp luận án sau: Về mặt lý thuyết 1.1 Thông qua hàm cực đại, dựa Glick (1973) đưa định nghĩa xem khoảng cách L1 nhiều hai hai hàm mật độ xác suất f i (x ) g i (x ) k với g i ( x ) qi f i ( x ), qi (0,1), qi 1, k Từ khảo sát i 1 số kết liên quan đến khoảng cách đại lượng khác liên quan đến toán phân loại phân biệt: i) Mối quan hệ g1 , g hai xác suất sai lầm phương pháp Bayes giả sử chúng đại lượng ngẫu nhiên có phân phối thơng dụng (0, 1/4) ii) Mối quan hệ khoảng cách g1 , g , , g k f1 , f , , f k 1 affinity Toussaint affinity Matusita, biên cho khoảng cách nêu mối quan hệ chúng với số lượng phần tử khác 1.2 Sử dụng hàm cực đưa nguyên tắc phân loại phần tử mới, đồng thời tính sai số Bayes cho tốn quan tâm đến xác suất tiên nghiệm Nguyên tắc chứng minh tính hiệu thuận lợi lớn mặt tính tốn, đặc biệt cho trường hợp nhiều tổng thể nhiều chiều 119 Dựa vào hàm cực đại, mối quan hệ khoảng cách L1 với sai số Bayes, hệ số chồng lấp hàm mật độ xác suất với cấp độ khác thiết lập Cận trên, cận cho sai số Bayes mối quan hệ chúng với đưa 1.3 Dựa vào hàm cực đại luận án xây dựng khái niệm độ rộng chùm Độ rộng chùm sử dụng làm tiêu chuẩn để giải toán chùm hàm mật độ xác suất Tiêu chuẩn với định lý thiết lập đánh giá mức độ “gần” phần tử chùm “xa” chùm có ý đến phân bố liệu cho Ở nêu phương pháp xây dựng chùm: Phương pháp thứ bậc, phương pháp không thứ bậc phương pháp xây dựng chùm có độ rộng cho trước với thuật toán cụ thể Về mặt tính tốn 2.1 Viết chương trình tìm hàm cực đại, tính sai số Bayes khoảng cách L1 nhiều hàm mật độ xác suất chúng có phân phối chiều Chương trình phân loại phần tử cho nhiều tổng thể nhiều chiều xây dựng Khi tổng thể có phân phối nhiều chiều, sử dụng tính gần tích phân phương pháp Monte – Carlo viết chương trình tính sai số Bayes cho nhiều tổng thể, nghĩa giải khó khăn tính tốn trước tốn phân loại phân biệt Những chương trình tính độ rộng chùm trường hợp khác Các chương trình viết phần mềm Maple đưa vào thư viện chương trình để người khác sử dụng 2.2 Kiểm chứng kết lý thuyết liệu cụ thể Dữ liệu kiểm chứng cho toán phân loại phân biệt liệu tiếng Fisher hoa Iris, liệu chuẩn nhiều nhà toán học quan tâm Dữ liệu minh họa tốn phân tích chùm liệu hàm mật độ xác suất biết liệu thực tế điểm thi môn xác suất thống kê sinh viên trường đại học Moncton – Canada năm 2008 120 Hướng phát triển Qua việc giải tốn đặt chúng tơi định hướng cho nghiên cứu sau: 3.1 Xây dựng biểu thức giải tích hàm phân biệt, sai số Bayes cho nhiều tổng thể có phân phối khác chưa khảo sát luận án 3.2 Xây dựng chương trình hồn chỉnh lúc thực chức năng: Ước lượng hàm mật độ xác suất, đưa hàm phân biệt, phân loại phần tử mới, tính sai số Bayes, thực tốn phân tích chùm có liệu quan sát số liệu rời rạc 3.3 Nghiên cứu ứng dụng kết vào lĩnh vực cụ thể 139 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Vương Quân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu, Trần Minh Ngọc, Lê Hồng Phương (2006), “Phương pháp thống kê xây dựng mơ hình định mức tín nhiệm khách hàng thể nhân” , Tạp chí ứng dụng tốn học, 4(2), tr – 16 [2] Võ Văn Tài, Phạm Gia Thụ, Tô Anh Dũng (2008), "Sai số Bayes khoảng cách hai hàm mật độ xác suất phân loại hai tổng thể", Tạp chí phát triển khoa học công nghệ, Đại học Quốc gia TPHCM, 11(6), tr 23 – 37 [3] Võ Văn Tài, Phạm Gia Thụ, Tô Anh Dũng (2008), "Ước lượng Bayes cho tỷ lệ trộn phân loại nhận dạng hai tổng thể", Tạp chí phát triển khoa học cơng nghệ, Đại học Quốc gia TPHCM, 11(1), tr 21 – 30 [4] Tô Cẩm Tú, Nguyễn Huy Hồng (2003), Phân tích số liệu nhiều chiều, NXB Khoa học Kỹ thuật, Hà Nội Tiếng Anh [5] Andrews, H.C (1972), Introduction to mathematical techniques in pattern recognition, Wiley, New York [6] Anderson, T.W (1984), An introduction to multivariate statistical analysis, Wiley, New York [7] Ben Bassat, M (1982), "Use of distance measure, imformation meaure and error bounds in feature evalution", Handbook of Statistics, North Holland Co., vol 2, pp.773–791 [8] Chen, C.H (1973), Statistical pattern recognition, Hayden, Washington DC [9] Chen, C.H (1976) "On information and distance measures, error bounds and feature selection", Information Sciences 10, pp.159–173 [10] Chow, C.K and Liu, C.N (1968) " Approximating discrete probability distributions with dependence trees", IEEE Transactions on information theory 14(3), pp.462 – 467 [11] Defays, D (1977), "An efficient algorithm for a complete link method”, Computer Journal, 20(4), pp.364–366 [12] Devijver P.A and Kittler, J.(1982) Pattern recognition, a statistical 140 approach, Prentice Hall, London [13] Devroye, L., Gyorfi, L and Lugosi, G., (1996), A probabilistic theory of pattern recognition, Springer, New York [14] Dubes, R.C (1987), "How many clusters are the best ? – an experiment", Pattern Recognition, 20(6), pp.645–663 [15] Duin, R.P.W (1976), "On the choice of smoothing parameters for Parzen estimators of probability density functions", IEEE Transactions on computers 25, pp 1175 – 1179 [16] Fisher, R.A (1936), "The statistical utilization of multiple measurements", Annals of Eugenics 7, pp.376–386 [17] Flury, B and Riedwyl, H (1988), Mutivariate statistics, Chapman and Hall, New York [18] Fukunaga, K (1990), Introduction to statistical pattern recognition, 2nd Ed., Academic Press, New York [19] Ghosh, A.K., Chaudhuri, P and Sengupta, D (2006), "Classification using kernel density estimates: Multiscale analysis and visualization", Technometrics 48(1), pp.120–132 [20] Glick, N (1973), "Separation and probability of correct classification among two or more distributions", Annals Inst Stat Math 25, pp.373–382 [21] Glick, N (1972), "Sample – based classification procedures derived from density estimators", Journ Amer Stat Assoc 67, pp.116–122 [22] Gonzalez, R.C.,Woods, R.E and Eddins, S.L.(2004), Digital image processing with Matllab, Prentice–Hall, New York [23] Gower, J.C A (1971), "General coefficent of similarity and some of its properties", Biometrics 27, pp.857–874 [24] Inman, H.F and Bradley, E.L (1989), "The overlapping coefficient as a measure of agreement between probability distributions and point estimation of the overlap of two normal densities", Commun in Stat – theory methods 18(10), pp.3851–3872 [25] Johnson and Wichern (1998), Applied multivariate statistical analysis, 4th ed., Prentice – Hall, Mc Millan, London [26] Jones, M.C and Sheather, S.J (1991), "Using non – stochatic terms 141 in kernel based estimation of integrated squared density derivaties", Statistics and probability letters 11, pp 511 – 514 [27] Hand, D.J (1981), Discriminant and classification, Wiley, New York [28] Hand, D.J (1982), Kernel discriminant analysis, Research studies press, Letchworth [29] Kendall, M., Stewart, A and Ord, S (1973), The advanced theory of statistics, Vol 3, 4th ed., Mc Millan, London [30] Kittler, J (1982), Pattern recognition, a statistical approach, Prentice Hall, London [31] Lissack T.S.V.I and Fu K.S., (1976), Error estimation in pattern recognition, IEEE Trans Info Theory 22, pp.34–45 [32] Mardia, K.V., Kent, J.T and Bibby, J.M (1979), Multivariate Academic Press, New York analysis, [33] Martinez, W.L and Martinez, A.R., (2008), Computational statistics handbook with Matlab, Chapman & Hall/CRC, Boca Raton [34] Matusita, K (1967), "On the notion of affinity of several distributions and some of its applications", Ann Inst Statist Math 19, pp.181–192 [35] McLachlan, G.J and Basford, K.E (1988), Mixture Models: Inference and applications to clustering, Marcel Dekker, New York [36] Milligan G.W.and Cooper, M.C., (1985), "An examination of procedures for determining the number of clusters in a data set", Psychometrika, 50(2), pp.159–179 [37] Naiman, D.Q and Wynn, H.P (1992), "Inclusion – Exclusion – Bonferroni identities and inequalities for duscrete tube – Like problems via Euler characteristics", Annals of Stat 20, pp.43–76 [38] Pal, N.R and Bezdek, J.C, (1995), "On cluster validity for the fuzzy – means model", IEEE Transactions on fuzzy sytems 3(3), pp.370–379 [39] Parzen, E (1962), "On estimation of a probability density function and mode ", Annals of Mathematical statiststics 33, pp 1065 – 1076 [40] Pham–Gia, T and Turkkan, N (2006), "Baysian analysis in the L1– norm of the mixing proportion using discriminant analysis", Metrika 64(1), pp.1–22 [41] Pham – Gia, T., Turkkan, N and Bekker, A., (2006), "Bounds for the Bayes 142 error in classification: A Bayesian approach using discriminant analysis", Statistical Methods and Applications 16, pp - 26 [42] Pham–Gia, T Turkkan, N and Tai, Vovan., (2008), "The maximum function in statistical discrimination analysis",Commun in Stat–Simulation computation 37(2), pp 320 – 336 [43] Rencher, A (1988), Multivariate statistical Inference and applications, John Wiley & Son, New York [44] Rohlf F.J., (1982), "Single – link clustering algorithms", in P.R Krishnaiah and L.N Kanal, eds, Handbook of Statistics, North Holland, Amsterdam, vol.2, pp 267–284 [45] Scott, David W (1992), Mutivariate density estimation: theory, practice and visualization, John Wiley & Son, New York [46] Silverman, B.W (1986), Density estimation, Chapman and Hall, London [47] Sibson, R., "Slink: an optimally efficient algorithm for the single – link cluster method", Computer Journal 16(1), pp 30–34 [48] Sutradhar, B.C (1990), "Discrimination of observations into one of t – populations", Biometrics 46, pp.827–835 [49] Tai, Vovan, Pham–Gia, T., (2009), "Clustering probability Journal of Applied statistics (đã đượcnhận đăng 8/2009) two distributions", [50] Tanizaki, H (2004), Computational methods in statistics and econometrics, John Wiley & Son, New York [51] Titterington, D.M (1980), "A comparative study of kernel base density estimates for categorical data", Technometrics 22 (2), pp 259 – 268 [52] Thabane, L.and Drekic, S (2004), "Discrimination between two generalized multivariate modified Bessel populations", Intern Journ of Stat Sciences 3, pp.209–219 [53] Tou, J.T and Gonzales, R.C (1974), Pattern recognition principles, AddisonWesley, New York [54] Toussaint G.T (1972), "Some inequalities between distance feature evaluation", I.E.E.E Trans Comput 21, pp.409–410 measures for [55] Ward, J.H (1963), " Hierarchical groping to optimise an objective function" Journal of the American Statistical Association 58, pp.236–244 143 [56] Williams,W.T.,Lance, G.N, Dale M.B and Clifford, H.T (1971),"Controversy concerning the criteria for taxonomic strategies", Computer Journal 14, pp.162–165 [57] Webb, A (2002), Statistical pattern recognition, 2nd Ed., John Wiley & Sons, New York [58] Young, T.Y and Calvert, T.W (1974), Classification, estimation and pattern recognition, Elselvier, New York ... độ đo khác với đại lượng liên quan toán phân loại, phân biệt Hàm cực đại áp dụng để đưa nguyên tắc phân loại phần tử trường hợp: chiều, nhiều chiều cho hai tổng thể nhiều hai tổng thể Chúng viết... tỷ lệ trộn hai tổng thể sai số Bayes phân biệt hai tổng thể Tuy nhiên việc phân loại phân biệt, việc tính sai số Bayes cho nhiều tổng thể, nhiều chiều chưa đề cập Trong tốn phân tích chùm, dựa... thể nhiều chiều Ở khảo sát hàm cực đại của hàm mật độ xác suất hàm phân biệt tổng thể Hàm cực đại hai hàm mật độ xác suất thông dụng: Phân phối chuẩn, phân phối mũ, phân phối Beta tìm chi tiết