Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 65 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
65
Dung lượng
0,97 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN HUỲNH THỊ NGỌC LOAN PHÂN TÍCH NHẬN DẠNG VỚI MỘT SỐ HỮU HẠN QUẦN THỂ Chuyên ngành: Lý Thuyết Xác Suất Và Thống Kê Toán Học Mã số: 60. 46. 15 LUẬN VĂN THẠC SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. Nguyễn Bác Văn THÀNH PHỐ HỒ CHÍ MINH – 2011 LỜI CẢM ƠN Lời đầu tiên, tôi xin trân trọng kính gởi đến Thầy Nguyễn Bác Văn, người đã tận tình giảng dạy, giúp đỡ và hướng dẫn tôi trong suốt quá trình thực hiện luận văn này, lòng biết ơn chân thành và sâu sắc nhất. Xin bày tỏ lòng biết ơn đối với Quý Thầy, Cô trong và ngoài Trường Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh đã tận tình giảng dạy, truyền đạt kiến thức trong suốt thời gian tôi học tập tại trường. Xin trân trọng cảm ơn Quý Thầy, Cô thuộc Phòng Sau Đại học và Khoa Toán Tin học Trường Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh đã tạo mọi điều kiện thuận lợi cho tôi về thủ tục hành chính trong toàn khóa học. Xin chân thành cảm ơn Ban Giám Hiệu Trường TCKT&NV Nam Sài Gòn đã tạo điều kiện thuận lợi mọi mặt để tôi có thể yên tâm học tập và làm việc. Xin chân thành cảm ơn tập thể giáo viên khoa Khoa Học Tự Nhiên Trường TCKT&NV Nam Sài Gòn; Các bạn học viên lớp Cao học Xác Suất Thống Kê khóa 18 đã luôn động viên và nhiệt tình giúp đỡ tôi trong suốt quá trình học. Sau cùng, xin gởi đến gia đình tôi tất cả những tình cảm yêu thương, lòng biết ơn, nơi đã cho tôi niềm tin và sức mạnh để tôi học tập và hoàn thành luận văn này. Vì kiến thức bản thân còn nhiều hạn chế nên luận văn khó tránh khỏi những thiếu sót, rất mong được sự chỉ bảo của Quý Thầy, Cô và sự góp ý chân thành của các bạn đồng nghiệp. TP.HCM, ngày 15 tháng 6 năm 2011 Huỳnh Thị Ngọc Loan MỞ ĐẦU Xét một biến ngẫu nhiên X xác định trên một quần thể X có thể lấy ngay là không gian giá trị của biến ngẫu nhiên X. Nhưng phân phối của X trên X lại chưa biết. Chỉ biết rằng phân phối đó có thể là một trong g phân phối P 1 , . . . , P g trên X. Bây giờ ta có một quan trắc thống kê x về X, x ∈ X. Bài toán đặt ra là, từ dữ liệu x hãy phán đoán xem phân phối chưa biết của X là phân phối nào trong số P 1 , , P g . Phán đoán về phân phối chưa biết của X gọi là nhận dạng thống kê, cũng gọi là phân tích phân biệt. Bài toán nhận dạng lần đầu tiên được đưa ra bởi Fisher (1936) giải quyết cho trường hợp hai quần thể với hàm phân biệt tuyến tính Fisher. Hàm phân biệt này chỉ được thiết lập khi ma trận hiệp phương sai của hai quần thể bằng nhau. Năm 1948, Rao đã mở rộng cho trường hợp nhiều hơn hai quần thể, và cũng trên cơ sở giả thiết ma trận hiệp phương sai của các quần thể bằng nhau. Đến năm 1975, Kendall đưa ra phương pháp thống kê thứ tự, nhưng đây chỉ là phương pháp mang tính chất thủ công, rất phức tạp và hầu như không thể thực hiện được trong thực tế. Nhờ sự hỗ trợ của máy tính, Andrews (1972) [4], Chen Kittler (1973) [8], Devijer và Kittler (1982) [11], Fukunaga (1990) [19], đã tổng kết những 3 4 kết quả đạt được của bài toán nhận dạng, đồng thời mở ra nhiều hướng nghiên cứu mới cho bài toán nhận dạng. Họ đã dùng phương pháp Bayes đưa ra nhiều tiêu chuẩn nhận dạng mới như tiêu chuẩn về phần tử lân cận gần nhất, tiêu chuẩn về độ mạo hiểm trong phân loại, tiêu chuẩn Neyman-Pearson. . Hàm phân biệt tuyến tính, hàm phân biệt bậc hai đã được nêu ra từ các tiêu chuẩn này. Ở đây xác suất sai lầm trong nhận dạng đã được xem xét. Phương pháp Bayes gán cho mỗi phân phối có thể lựa chọn P 1 , . . . , P g một xác suất tiên nghiệm q 1 , . . . , q g (q 1 + ···+ q g = 1). Từ đó tìm ra xác suất hậu nghiệm với điều kiện dữ liệu là x, để rút ra phương pháp phán đoán phân phối chưa biết của X. Đây là phương pháp giải quyết được yêu cầu của bài toán đồng thời tính được xác suất sai lầm của phân loại. Bởi những ưu điểm vượt trội của phương pháp Bayes, luận văn này trình bày cơ sở lý luận và một ứng dụng quan trọng của việc dùng phương pháp Bayes để giải bài toán nhận dạng. Mục lục 1 KIẾN THỨC CHUẨN BỊ 5 1.1 Một số khái niệm cơ bản về biến ngẫu nhiên . . . . . . . 5 1.1.1 Biến ngẫu nhiên . . . . . . . . . . . . . . . . . . . 5 1.1.2 Phân phối giá trị của một biến ngẫu nhiên trên một quần thể . . . . . . . . . . . . . . . . . . . . 6 1.1.3 Quan trắc giá trị của một biến ngẫu nhiên . . . . 7 1.1.4 Không gian xác suất của một họ biến ngẫu nhiên 8 1.2 Độ đo và tích phân, lấy điều kiện . . . . . . . . . . . . . 9 1.2.1 Những khái niệm về độ đo và tích phân . . . . . . 9 1.2.2 Những khái niệm về lấy điều kiện . . . . . . . . . 13 1.3 Mô hình thống kê Bayes . . . . . . . . . . . . . . . . . . 20 1.3.1 Mô hình thống kê Bayes . . . . . . . . . . . . . . 20 1.3.2 Phân phối hậu nghiệm . . . . . . . . . . . . . . . 21 1.4 Vài kết quả cơ bản dùng trong bài toán nhận dạng . . . 23 2 BÀI TOÁN NHẬN DẠNG 27 2.1 Đặt bài toán nhận dạng . . . . . . . . . . . . . . . . . . 27 2.2 Phương pháp cổ điển của Fisher . . . . . . . . . . . . . . 28 1 2 2.3 Nhận dạng thống kê theo quan điểm Bayes . . . . . . . 28 2.3.1 Sai lầm trong phán đoán . . . . . . . . . . . . . 29 2.3.2 Tổn thất khi phân loại . . . . . . . . . . . . . . 34 3 ỨNG DỤNG 37 3.1 Mô hình toán học của dự báo . . . . . . . . . . . . . . . 37 3.2 Phân tích phân biệt có tham số . . . . . . . . . . . . . . 39 3.2.1 Biểu thức các giá trị mẫu của các tham cấp một và cấp hai . . . . . . . . . . . . . . . . . . . . . . 40 3.2.2 Biểu thị ma trận tương quan theo ma trận hiệp phương sai . . . . . . . . . . . . . . . . . . . . . . 42 3.3 Thực hành sơ đồ có tham số . . . . . . . . . . . . . . . . 46 3.4 Thông tin tiên nghiệm trong vectơ dấu hiệu . . . . . . . 47 3.5 Kiểm định giả thiết các ma trận hiệp phương sai bằng nhau 51 3.6 Kiểm định tính độc lập của các dấu hiệu . . . . . . . . . 52 3.7 Phân tích phân biệt phi tham số . . . . . . . . . . . . . . 53 3.7.1 Phương pháp điểm gần nhất . . . . . . . . . . . . 54 3.7.2 Phương pháp Fix-Hodges . . . . . . . . . . . . . 55 3.7.3 Phương pháp khoảng cách trung bình . . . . . . 56 3.7.4 Phương pháp đại diện . . . . . . . . . . . . . . . 57 3.7.5 Biến đổi các dấu hiệu trước khi phân tích . . . . 57 3.8 Thực hiện sơ đồ phi tham số . . . . . . . . . . . . . . . . 60 Chương 1 KIẾN THỨC CHUẨN BỊ Trong chương này, chúng tôi sẽ trình bày một số phương tiện toán cơ bản làm công cụ khi giải bài toán nhận dạng (hay bài toán phân biệt). 1.1 Một số khái niệm cơ bản về biến ngẫu nhiên 1.1.1 Biến ngẫu nhiên Định nghĩa 1.1.1 (Biến ngẫu nhiên) Biến ngẫu nhiên X là một hàm đo được xác định trên một không gian xác suất (Ω, A, P ) vào một không gian đo được (X, B) nào đó, không gian đo được này gọi là không gian giá trị của biến ngẫu nhiên X. X : Ω → X ω → X(ω) X −1 (B) ⊂ A 5 6 Đặc biệt, biến số ngẫu nhiên X là ánh xạ đo được X : (Ω, A) → (R 1 , B 1 ) ω → X(ω) X −1 (B 1 ) ⊂ A 1.1.2 Phân phối giá trị của một biến ngẫu nhiên trên một quần thể Xét một quần thể Ω gồm những phần tử (hay cá thể) ω. Biến ngẫu nhiên ξ là một đặc trưng của cá thể. Mỗi cá thể ω mang một giá trị của đặc trưng ξ, các giá trị này thuộc tập X, tập các giá trị có thể của ξ. Vậy ξ đúng là ánh xạ ξ : Ω → X. Trường hợp quần thể Ω hữu hạn, có N phần tử. Phân phối giá trị của ξ trên quần thể Ω diễn tả như sau: S là tập con bất kỳ của X, tỷ số số cá thể có đặc trưng ξ∈S số tất cả các cá thể = {ω:ξ(ω)∈S} N được viết là P (ξ ∈ S). Lúc này, Ω hữu hạn, ta đã dùng một độ đo cơ sở đồng đều trên Ω, tức ta không phân biệt giữa các cá thể, mỗi cá thể ω đều có độ đo 1 N . Trường hợp quần thể Ω vô hạn. Ta phải lấy bộ phận hữu hạn Ω N (có N cá thể) của Ω, lập phân phối P N (ξ ∈ S) của ξ trên Ω N như trên, rồi cho N tăng vô hạn, giới hạn của P N (ξ ∈ S) sẽ cho biết phân phối giá trị của ξ trên quần thể vô hạn Ω. Chẳng hạn, khi nói tầm cao ξ của một tập thanh niên là gần chuẩn (nói đúng là xấp xỉ chuẩn) ta hiểu là {ω:ξ(ω)∈S} Ω ≈ Φ(S), với Φ là phân phối chuẩn. Ở đây Ω là tập các thanh niên, ω là một thanh niên cụ thể. 7 1.1.3 Quan trắc giá trị của một biến ngẫu nhiên Trường hợp quần thể Ω hữu hạn Quan trắc giá trị của biến ngẫu nhiên ξ xác định trên Ω tức là rút ngẫu nhiên một cá thể ω từ Ω, ghi giá trị ξ 1 của đặc trưng ξ ứng với cá thể đó. Rút ngẫu nhiên, tức đảm bảo mọi cá thể được rút với cùng khả năng (là 1 N ). Giá trị quan trắc ξ 1 là biến ngẫu nhiên, vì cá thể ω được rút ngẫu nhiên. Ta tính phân phối của ξ 1 . Lấy tập bất kỳ S ⊂ X ( tập giá trị của ξ), gọi {ω : ξ(ω) ∈ S} = {ω 1 , , ω s }. Lúc đó Xác suất (ξ 1 ∈ S) = xác suất [cá thể được rút ω thuộc {ω : ξ(ω) ∈ S}] = xác suất [(ω = ω 1 ) ∪ ∪(ω = ω s )] = s. 1 N = {ω : ξ(ω) ∈ S} Ω = P(ξ ∈ S). Vậy quan trắc ξ 1 có cùng phân phối như ξ. n lần quan trắc là n phép thử lặp, mỗi phép thử là một lần rút ngẫu nhiên một cá thể từ Ω. Các phép thử "lặp", tức điều kiện của mỗi phép thử phải như nhau, muốn vậy các phép thử trước không được ảnh hưởng đến phép thử sau, tức các phép thử phải độc lập, vậy kết quả của các phép thử độc lập đó là các quan trắc ξ 1 , , ξ n , phải là n biến ngẫu nhiên độc lập. Phân phối của mỗi ξ i cũng như ξ 1 , vì điều kiện của phép thử thứ i như phép thử thứ 1. 8 Trường hợp quần thể Ω vô hạn Quan trắc về ξ vẫn là phép thử rút ngẫu nhiên một cá thể ω . Nhưng rút ngẫu nhiên ω bây giờ hiểu là xác suất (ω ∈ A) = P A, với P là một độ đo xác suất có sẵn trên (Ω, A). Nếu cá thể ω được rút, thì quan trắc ξ 1 chính là ξ(ω ), quan trắc ξ 1 cùng phân phối như ξ, vì phân phối của ξ(ω) được định nghĩa từ độ đo cơ sở P trên (Ω, A), mà ω và ω có cùng phân phối P, nên ξ 1 = ξ(ω ) và ξ(ω) có cùng phân phối. n quan trắc là ξ(ω 1 ), , ξ(ω n ), với ω i là cá thể được rút lần thứ i từ Ω theo luật cơ sở P, chúng cùng phân phối vì ω 1 , , ω n có cùng phân phối P, chúng độc lập vì các phép thử lặp nên phải độc lập, thành thử ω 1 , , ω n độc lập. Vậy quan trắc về một biến ngẫu nhiên là một biến ngẫu nhiên có cùng phân phối như biến ngẫu nhiên ban đầu và n lần quan trắc về một biến ngẫu nhiên lại cho n biến ngẫu nhiên độc lập và cùng phân phối . 1.1.4 Không gian xác suất của một họ biến ngẫu nhiên Để xét các biến ngẫu nhiên khác nhau trong cùng một hiện tượng, ta coi chúng là những hàm trên một không gian xác suất cơ sở chung (Ω, A, P ). Nhưng sau khi đã xác định họ tất cả các biến ngẫu nhiên phải xét, e.g (X u , u ∈ U) = X, ta sẽ dùng không gian giá trị của X là X, một σ - đại số thích hợp B trong X và phân phối xác suất P X của biến X. Lúc đó (X, B, P X ) gọi là không gian xác suất mẫu của họ X. Chẳng hạn, nghiên cứu tầm cao X của thanh niên trên một quần thể, ta có thể không dùng không gian Ω gồm các cá thể người của quần thể, mà dùng không gian [...]... bày các vấn đề lý thuyết chung cho bài toán nhận dạng, cũng gọi phân tích phân biệt 2.1 Đặt bài toán nhận dạng Xét một biến ngẫu nhiên X xác định trên một quần thể X có thể lấy ngay là không gian giá trị của biến ngẫu nhiên X Nhưng phân phối của X trên X lại chưa biết Chỉ biết rằng phân phối đó có thể là một trong g phân phối P1 , , Pg trên X Bây giờ ta có một quan trắc thống kê x về X, x ∈ X Bài toán... trên R) và giả sử X f dµ tồn tại Thì hàm ϕ(A) = A f dµ với A ∈ A là 11 hàm tập σ− cộng tính trên A, tích phân này được gọi là tích phân bất định của f Định lý 1.2.1 (định lý Radon-Nicodym) Nếu trên σ− đại số A của không gian đo (X, A,µ), độ đo µ và hàm tập σ−cộng tính ϕ là σ− hữu hạn và ϕ µ thì ϕ là tích phân bất định của một hàm đo được hữu hạn f xác định sai khác µ− tương đương trên (X, A,µ), tức... tập con của không gian X bằng cách cho ứng với mỗi tập A ∈ C một số hữu hạn hay vô hạn ϕ(A), tức là, ϕ : C → [−∞; +∞], với [−∞; +∞] = (−∞; +∞) ∪ {−∞} ∪ {+∞}, khoảng (−∞; +∞) là đường thẳng thực R, tập {−∞} chỉ chứa số vô hạn âm −∞ và tập {+∞} chỉ chứa số vô hạn dương +∞ Định nghĩa 1.2.2 Hàm tập ϕ được gọi là σ− cộng tính nếu thỏa đẳng thức ϕ(∪Aj ) = ϕ(Aj ) với mỗi lớp đếm được các tập rời nhau Aj ∈... và nhiều hơn hai quần thể dựa trên số liệu rời rạc Đây là phương pháp có ý nghĩa thực tế bởi thuật toán đơn giản Hạn chế của phương pháp này là phải thực hiện trên cơ sở ma trận hiệp phương sai của các quần thể bằng nhau và không tính được xác suất sai lầm của phân loại 2.3 Nhận dạng thống kê theo quan điểm Bayes Phương pháp Bayes gán cho mỗi phân phối có thể lựa chọn P1 , , Pg một xác suất tiên... ta sẽ nhận dạng phân phối của X là phần tử w trong P, tức là khi: qw (x) = max{qw (x), w ∈ P} 31 ta nhận dạng w là phân phối của X, điều này theo (1.24) tương đương với ta xem w = wk khi qk fk (x) = maxj=1, ,g {qj fj (x)}, tức ta sẽ nhận dạng wk là phân phối của X Đặc biệt, khi q1 = = qg = g 1 g qk = 1) thì ( bởi k=1 ¯ P (E) = xác suất phân loại đúng 1 = maxj=1, ,g {fj (x)}dµ g X Lúc đó, sai số Bayes... bị cho X và P những σ−đại số, gọi P X là phân phối biên duyên của X trên X P W là phân phối biên duyên của W trên P Lúc đó, áp dụng 1.2.7 (ii) trang 18, giả sử P X σ− hữu hạn trên X; giả sử P W ν, µ, µ là một độ đo ν là một độ đo σ− hữu hạn trên P, ta gọi f (x) = dP X dµ (x) fw (x) = (hàm mật độ biên duyên của X), dP X|W =w (x) dµ (hàm mật độ có điều kiện của X với điều kiện phân phối đã cho là w ∈ P)... 1 , P X là phân phối của tầm cao trên (R1 , B 1 ), lúc này với phần tử x ∈ X, ta có X(x) = x 1.2 Độ đo và tích phân, lấy điều kiện 1.2.1 Những khái niệm về độ đo và tích phân Xét không gian đo (X, A,µ) là bộ ba trong đó X là một tập tùy ý, A là một σ− đại số các tập con của X, µ là độ đo định nghĩa trên A Đạo hàm Radon - Nicodym Định nghĩa 1.2.1 Hàm tập ϕ là hàm số được định nghĩa trên một lớp không... xem phân phối chưa biết của X là phân phối nào trong số P1 , , Pg Phán đoán về phân phối chưa biết của X gọi là nhận dạng thống kê 27 28 2.2 Phương pháp cổ điển của Fisher Phương pháp này lần đầu tiên được đưa ra bởi Fisher (1936) khi tiến hành phân loại hoa Iris dựa trên số liệu về kích thước bên ngoài của hoa và được ứng dụng trong nhiều lĩnh vực khác nhau Phương pháp này áp dụng cho hai quần thể. .. lên Xi , i = 1, , n Tích của các σ− đại số Ai , i = 1, , n, kí hiệu n i=1 Ai hay A1 ⊗ ⊗ An , là σ− đại số bé nhất trên E sao cho tất cả các ánh xạ tọa độ Xi đo được Đưa vào mỗi không gian đo (Xi , Ai ) một độ đo µi , i = 1, , n Giả sử các µi hữu hạn hay σ− hữu hạn Khi đó tồn tại duy nhất độ đo tích µ trên Ai ∈ Ai n i=1 Ai sao cho µ(A1 × × An ) = µ(A1 ) µ(An ) với (i = 1, , n) Ký... µ2 ) với µ1 , µ2 là hai độ đo σ− hữu hạn, (Y, Z) là biến ngẫu nhiên nhận giá trị trong (Y ×Z, E ⊗F) Với phân phối P (Y,Z) của bộ (Y, Z) trên E⊗F, ta chọn (Y × Z, E ⊗ F, P (Y,Z) ) làm không gian xác suất cơ sở Xét phân phối biên duyên P Z của Z trên (Z, F) và phân phối xác suất có điều kiện P Y |Z=z của Y khi đã biết Z = z trên (Y, E) Định lý 1.2.7 (i) Nếu P (Y,Z) có mật độ f (y, z) đối với độ đo tích . TỰ NHIÊN HUỲNH THỊ NGỌC LOAN PHÂN TÍCH NHẬN DẠNG VỚI MỘT SỐ HỮU HẠN QUẦN THỂ Chuyên ngành: Lý Thuyết Xác Suất Và Thống Kê Toán Học Mã số: 60. 46. 15 LUẬN VĂN THẠC SĨ TOÁN. X. Trường hợp quần thể Ω hữu hạn, có N phần tử. Phân phối giá trị của ξ trên quần thể Ω diễn tả như sau: S là tập con bất kỳ của X, tỷ số số cá thể có đặc trưng ξ∈S số tất cả các cá thể = {ω:ξ(ω)∈S} N được. này, Ω hữu hạn, ta đã dùng một độ đo cơ sở đồng đều trên Ω, tức ta không phân biệt giữa các cá thể, mỗi cá thể ω đều có độ đo 1 N . Trường hợp quần thể Ω vô hạn. Ta phải lấy bộ phận hữu hạn Ω N (có