sử dụng hàm cực đại vào bài toán phân biệt và phân chùm

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP.HCM Nguyễn Thị Hải Yến SỬ DỤNG HÀM CỰC ĐẠI VÀO BÀI TOÁN PHÂN BIỆT VÀ PHÂN CHÙM LUẬN VĂN THẠC SĨ TOÁN HỌC Thành phố Hồ Chí Minh – 2012 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP.HCM Nguyễn Thị Hải Yến SỬ DỤNG HÀM CỰC ĐẠI VÀO BÀI TOÁN PHÂN BIỆT VÀ PHÂN CHÙM Chuyên ngành: Toán giải tích Mã số: 60 46 01 LUẬN VĂN THẠC SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC GS TS ĐẶNG ĐỨC TRỌNG Thành phố Hồ Chí Minh – 2012 LỜI CẢM ƠN Để hoàn thành khóa học Thạc sĩ, em GS TS Đặng Đức Trọng, giáo viên hướng dẫn, giao cho đề tài liên quan đến hai lĩnh vực Toán giải tích Xác suất - thống kê Là học viên chuyên ngành Toán Giải tích, có kiến thức Xác suất thống kê hạn chế, đề tài thứ mẻ thử thách với em Thầy dành nhiều thời gian, hướng dẫn em phương pháp nghiên cứu khoa học, nhiệt tình trao đổi, thảo luận vấn đề em chưa rõ Điều động lực to lớn giúp em hoàn thành đề tài Em thực biết ơn thầy cách sâu sắc Em cảm ơn nhiều hai thầy: TS Chu Đức Khánh TS Đinh Ngọc Thanh Hai thầy giúp đỡ, dẫn chúng em cách nhiệt tình nghiên cứu khoa học Em xin cảm ơn ThS Nguyễn Văn Phong, bạn Dương Thanh Phong, anh chị “nhóm seminar”, trao đổi với em đề tài Em xin chân thành cảm ơn thầy Khoa Toán – tin trường Đại học Sư phạm TPHCM, tận tình giảng dạy chúng em, thầy cô Phòng Sau đại học tạo điều kiện cho chúng em hai năm học Cao học vừa qua Em xin chân thành cảm ơn thầy Ban giám hiệu, thầy cô Bộ môn Toán anh chị đồng nghiệp trường Dự bị đại học TPHCM tạo điều kiện, động viên suốt trình em vừa học, vừa tham gia giảng dạy trường Cảm ơn em Phan Lê Anh Nhật hướng dẫn, giúp đỡ chị số phần lập trình luận văn Em cảm ơn anh chị lớp Toán giải tích K20, bạn học Cao học Toán chuyên ngành khác khóa 20, bạn học viên Cao học khóa 20 – phòng 408E Kí túc xá Đại học Sư phạm, kề vai sát cánh hai năm học qua Mình cảm ơn bạn chung phòng, bạn bè, người thân hỏi han, động viên để hoàn thành khóa học luận văn Con xin gửi ngàn lời cảm ơn đến bố mẹ gia đình – người đã, yêu thương, lo lắng, bên đường đời Là người, sinh ra, nuôi nấng, dạy bảo, yêu thương, quan tâm, giúp đỡ từ nhiều người - tất cho thấy thật may mắn phải biết phấn đấu nỗ lực, trân trọng điều tốt đẹp Một lần nữa, xin cảm ơn tất người nhiều! Nguyễn Thị Hải Yến DANH MỤC DỊCH MỘT SỐ THUẬT NGỮ TIẾNG ANH Population: tổng thể Observation: quan sát Procedure: cách thức Prior probability: xác suất tiên nghiệm Posterior probability: xác suất hậu nghiệm Admissible: chấp nhận Discriminant: phân biệt Cluster: phân chùm Criterion: tiêu chuẩn Likelihood ratio: tỉ số hợp lý Misclassification: phân loại sai Cost of misclassification: giá phân loại sai Expected cost of misclassification (ECM): kỳ vọng giá phân loại sai Maximum likelihood: hợp lý cực đại Asymptotic expansion: mở rộng tiệm cận Overlapping coefficient: hệ số chồng lấp MỤC LỤC LỜI CẢM ƠN DANH MỤC DỊCH MỘT SỐ THUẬT NGỮ PHẦN MỞ ĐẦU CHƯƠNG KIẾN THỨC CHUẨN BỊ 0.1 Lý thuyết độ đo, tích phân xác suất 0.2 Xác suất có điều kiện 0.3 Định lý Bayes 13 CHƯƠNG I QUÁ TRÌNH PHÂN LOẠI BAYES, SAI SỐ BAYES 16 1.1 Bài toán thực tế 16 1.2 Phân loại phần tử vào hai tổng thể 18 1.3 Phân loại phần tử vào m tổng thể, m > 28 1.4 Phân loại phần tử vào hai tổng thể có phân phối chuẩn nhiều chiều CHƯƠNG II HÀM CỰC ĐẠI VÀ KHOẢNG CÁCH L1 48 2.1 Khoảng cách hàm mật độ xác suất 48 2.2 Khoảng cách L1 hàm mật độ 49 CHƯƠNG III BÀI TOÁN PHÂN BIỆT 56 3.1 Xác định hàm cực đại hàm mật độ xác suất 56 3.2 Phương pháp hàm cực đại 58 3.3 Sai số Bayes phương pháp hàm cực đại 60 3.4 Thuật toán, chương trình tính toán 65 CHƯƠNG IV BÀI TOÁN PHÂN CHÙM 71 4.1 Định nghĩa độ rộng chùm 71 4.2 Tính chất định lý độ rộng chùm 72 4.3 Một số thuật toán phân chùm 75 KẾT LUẬN TÀI LIỆU THAM KHẢO 34 PHẦN MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Bài toán phân biệt (Bài toán phân tích khác biệt) Cho tập liệu hai hay nhiều nhóm đối tượng (người, vật…) xác định trước Bài toán phân biệt toán phân loại đối tượng vào nhóm cho, dựa việc đo lường thuộc tính (đặc trưng) mô tả đối tượng Nói rõ hơn, phân biệt (discriminant) hiểu tách biệt nhóm dựa độ đo thuộc tính đối tượng nhóm từ xác định quy tắc để phân loại đối tượng vào nhóm Giải thích theo ý nghĩa hình học là: Dựa phép đo thuộc tính, ta có tương ứng đối tượng ω với vector x không gian  p Quy tắc phân biệt tách không gian  p thành tập hợp Ri , i ∈1, p cho x ∈ R j ω phân loại vào nhóm thứ j Biểu diễn phân loại hình vẽ thể đường mặt để tách biệt hai hay nhiều nhóm với Bài toán phân chùm Cho tập liệu phần tử đến từ nhóm Cũng dựa phép đo thuộc tính phần tử này, phân chia chúng thành cluster (chùm) Khái niệm cluster hiểu nhóm có tương đồng (same group), nghĩa phần tử cluster tương đồng (“gần” nhau) theo thuộc tính phần tử khác biệt (“ít gần” hơn) phân vào cluster khác Việc phân chia phụ thuộc vào “khoảng cách” để đo mức độ tương đồng (“gần”, “xa”) phần tử theo thuộc tính chọn kỹ thuật (hay thuật toán) phân chùm Các toán ứng dụng quan trọng thống kê Chúng đặt xuất phát từ yêu cầu phát triển kinh tế xã hội ứng dụng nhiều lĩnh vực kinh tế học, sinh học, y học, xã hội học… Các kết nghiên cứu toán không nhiều Trong đề tài này, hàm cực đại sử dụng quy tắc phân loại toán phân biệt “khoảng cách” toán phân chùm Dựa luận án tiến sĩ [1] hai báo [2], [3], nghiên cứu, tìm hiểu đề tài “SỬ DỤNG HÀM CỰC ĐẠI VÀO BÀI TOÁN PHÂN BIỆT VÀ PHÂN CHÙM” BỐ CỤC CỦA LUẬN VĂN Chương - Kiến thức chuẩn bị Chương trình bày kiến thức sử dụng luận văn: Lý thuyết độ đo, tích phân theo độ đo, xác suất; Xác suất có điều kiện; Định lý Bayes Chương - Quá trình phân loại Bayes, sai số Bayes Đầu tiên, để minh họa cho toán phân biệt, chương đưa toán thực tế toán phân loại cá Lý thuyết chương trình bày nội dung: Phân loại phần tử vào hai tổng thể, phân loại phần tử vào n (n > 2) tổng thể với điều kiện biết xác suất tiên nghiệm tổng thể, với điều kiện chưa cho trước xác suất tiên nghiệm tổng thể Với nội dung, trình bày khái niệm: cách phân loại Bayes, sai số Bayes quy tắc phân loại để giải toán Bayes Phần cuối chương áp dụng lý thuyết phân loại để phân loại phần tử vào tổng thể có phân phối chuẩn nhiều chiều Chương - Hàm cực đại khoảng cách L1 Chương trình bày khái niệm khoảng cách hàm mật độ xác suất, từ dựa hàm cực đại đưa định nghĩa khoảng cách L1 hàm mật độ xác suất { fi ( x)} hàm { gi ( x)} có dạng gi ( x) = qi fi ( x) với qi ∈ (0,1) , k ∑q i =1 i = ; định nghĩa hệ số chồng lấp hàm { fi ( x)} , { gi ( x)} Chương trình bày mối quan hệ khoảng cách L1 hàm mật độ xác suất { fi ( x)} , hàm { gi ( x)} , với hệ số chồng lấp chúng; biên khoảng cách L1 hàm mật độ xác suất { fi ( x)} , hàm { gi ( x)} thông qua số lượng hàm mật độ, xác suất tiên nghiệm khoảng cách L1 hai hàm mật độ Chương - Bài toán phân biệt Dựa vào hàm cực đại, lý thuyết phân loại chương I, trình bày quy tắc phân loại phần tử gọi Phương pháp hàm cực đại Chương trình bày công thức tính sai số Bayes, trình bày mối liên hệ sai số Bayes với hệ số chồng lấp, biên sai số Bayes thông qua số lượng hàm mật độ, xác suất tiên nghiêm Phần cuối chương này, trình bày thuật toán chương trình phân loại phần tử mới, tìm hàm cực đại tính sai số Bayes Trong chương trình, áp dụng cho hàm mật độ xác suất phân phối chuẩn chiều Chương - Bài toán phân chùm Chương đưa khái niệm độ rộng chùm để xem “khoảng cách” phân tích chùm Chúng trình bày số định lý mối quan hệ hai độ rộng chùm khác phần tử độ rộng hợp hai chùm, để đánh giá mức độ “gần nhau” phần tử chùm mức độ “xa nhau” chùm Dựa “khoảng cách” độ rộng chùm, phần cuối chương trình bày ba thuật toán cho ba phương pháp phân chùm khác nhau: phương pháp phân cấp, phương pháp không phân cấp phương pháp xây dựng chùm với độ rộng chùm cho trước CHƯƠNG KIẾN THỨC CHUẨN BỊ 0.1 Lý thuyết độ đo, tích phân xác suất 0.1.1 Một số khái niệm độ đo Định nghĩa 0.1.1.1 Cho  tập tập không gian mẫu Ω  gọi σ - đại số thỏa điều kiện sau: i ∅ ∈  , ii Nếu A∈  Ac ∈  , với Ac phần bù A, iii Nếu Ai ∈  , i = 1, 2, ∞  A ∈ i i =1 Khi đó, ( Ω,  ) gọi không gian đo Các phần tử  gọi tập đo mà xác suất thống kê ta thường gọi biến cố Định nghĩa 0.1.1.2 Cho A ⊂ Ω, A ≠ Ω ,  = {∅, Ω, A, Ac } σ - đại số nhỏ chứa A Ta ký hiệu σ ({ A}) , hay ta gọi σ - đại số sinh A Tổng quát, σ - đại số nhỏ chứa  ,  họ tập Ω , ký hiệu σ ( ) gọi σ - đại số sinh  Đặc biệt,  σ đại số σ ( ) =  Định nghĩa 0.1.1.3 Cho Ω = ,  họ tất khoảng mở hữu hạn R  = σ (  ) gọi σ - đại số Borel Các phần tử thuộc  gọi tập Borel Chứng minh rằng, tất khoảng (hữu hạn vô hạn), tập đóng, tập mở tập Borel Định nghĩa 0.1.1.4 Giả sử ( Ω,  ) không gian đo, hàm tập hợp ν xác định  gọi độ đo, thoả mãn tính chất sau i ≤ v( A) ≤ ∞ với A∈  , Tương tự muốn tìm f max ( x) ta thay gi ( x) fi ( x), i = 1, 2, , k thuật toán Chương trình phân loại phần tử phương pháp hàm cực đại dayham={'x^2', '2*x+1', 'exp(x)', '1/sqrt(2*pi)*exp(-x^2/2)'}, a=2 for i=1:length(dayham) D(i)=subs(dayham(i),a); end test=D(1); count=1; for i=1:length(dayham) if D(i) > test test=D(i); count=i; end; end; fprintf('gia tri lon nhat la %d cua ham f thu %d \n', test, count) Chương trình tìm hàm cực đại sai số Bayes clear; clc; %xoa man hinh dayham1 = {'1/(2.1*sqrt(2*pi))*exp(-1/(2*2.1^2)*(x-4)^2)', '1/(1.3*sqrt(2*pi))*exp(-1/(2*1.3^2)*(x-3.5)^2)', '1/(0.5*sqrt(2*pi))*exp(1/(2*0.5^2)*(x-1.2)^2)'}; xstn = {'1/3', '1/3', '1/3'}; dayham2 = strcat(xstn,'*','(',dayham1,')'); k = length(dayham1); count = 0; KQ = [NaN]; %Chon day nghiem thoa man for i = 1:(k-1) for j = (i+1):k b = solve(strcat(dayham2(i),'-',dayham2(j))); b = double(b); a = b(imag(b)==0); if ~isempty(a) for r = 1:k D(r) = subs(dayham2(r),a(1)); end; D = double(D); D(k+1) = NaN; t = 1; while (D(i) >= D(t)) && (t = D(t)) && (t [...]... mỗi cách phân loại R  ( R1 , R2 ) , ta chia  p làm 2 miền R1 và R2 Nếu x  T (w )  R1 , thì ta phân loại ω vào tổng thể Ω1 Nếu x  T (w )  R2 , thì ta phân loại ω vào tổng thể Ω 2 Trong quá trình phân loại, có thể xảy ra trường hợp: phân loại ω vào Ω 2 trong khi nó thực sự thuộc vào Ω1 , hoặc ngược lại, phân loại ω vào Ω1 trong khi nó thực sự thuộc vào Ω 2 Ta gọi hai trường hợp đó là phân loại... nghĩa 0.2.3.3 Cho Y là hàm đo được từ ,  , P  vào  ,   Kỳ vọng có điều kiện của (hàm đo được) X với điều kiện (hàm đo được) Y được định nghĩa E  X | Y   E  X | s Y  Định lý 0.2.3.1 Cho Y là hàm đo được từ ,   vào  ,   và Z là một hàm từ ,   vào  k Khi đó Z là hàm đo được từ , s Y  vào   k ,  k  khi và chỉ khi có một hàm h đo được từ  ,   vào   k ,  k  mà... Ta xác định biên phân loại để phân chia không gian cần xét thành hai miền: một miền để phân loại cá hồi, một miền là cá trích Nhìn vào hình 3, nếu vector x = ( x1 , x2 )T thuộc miền bên trái thì ta phân loại nó vào nhóm cá hồi và ngược lại 1.2 Phân loại một phần tử vào một trong hai tổng thể 1.2.1 Quá trình phân loại Bayes, sai số Bayes Bài toán tổng quát Xét không gian mẫu Ω Giả sử Ω1 , Ω 2 ⊂ Ω sao... giữa hai loại cá Hình 2 Phân loại sai Trong quá trình phân loại như vậy, có hai khả năng phân loại sai là phân loại sai cá hồi vào loại cá trích và ngược lại Với mỗi trường hợp phân loại sai, ta có khái niệm “giá của phân loại sai” tương ứng Mục đích của bài toán phân loại là xây dựng một quy tắc phân loại sao cho tổng giá phân loại sai là nhỏ nhất có thể Thông thường giá của phân loại sai trong các... rằng, f + (ω ) và f − (ω ) là các hàm Borel không âm, và (ω ) f + (ω ) + f − (ω ) = f (ω ) f + (ω ) − f − (ω ) và f= Định nghĩa 0.1.2.1d Giả sử f là hàm Borel, ta nói rằng tích phân chỉ nếu ít nhất một trong hai tích phân ∫ f dv và ∫ f dv + − ∫ fdv tồn tại nếu và là hữu hạn Khi đó = ∫ fdv ∫ f dv − ∫ f dv + − Định nghĩa 0.1.2.2 A là tập đo được và I A là hàm chỉ của A Khi đó, tích phân trên A được... thể sử dụng “chiều dài” như là một thuộc tính để phân loại giữa hai loại cá Thông qua việc xét chiều dài của các loại cá này trên nhiều mẫu thử, ta sẽ xác định một biên của phân loại ( hay giá trị phân biệt) l* để phân loại cá Nếu một con cá có chiều dài l lớn hơn biên của phân loại l*, ta sẽ phân loại nó vào loại cá hồi và ngược lại Hình 1 Để cho việc phân loại chính xác hơn, tương tự, người ta lại... Với phần tử ω cho trước, ta cực tiểu hóa xác suất phân loại sai bằng cách phân loại ω vào tổng thể có xác suất (có điều kiện) lớn hơn Xác suất có điều kiện của một phần tử ω cho trước, thuộc tổng thể Ωi , i = 1, 2 q f ( x) P (Ω i | x ) = i i q1 f1 ( x) + q2 f 2 ( x) Nếu P (1 | x)  P(2 | x) thì ta phân loại ω vào tổng thể 1 Nếu P (1 | x)  P(2 | x) thì ta phân loại ω vào tổng thể 2 Nếu P (1... gọn lại fi ( x) , là hàm mật độ xác suất có điều kiện của X trên mỗi lớp Bi , P ( Bi ) là xác suất tiên nghiệm của Bi CHƯƠNG I QUÁ TRÌNH PHÂN LOẠI BAYES, SAI SỐ BAYES 1.1 Bài toán thực tế Bài toán (tài liệu [9]) Một nhà máy đóng gói muốn tự động hóa quá trình phân loại cá trên một băng chuyền theo từng loại cá Giả sử trên băng chuyền chỉ có hai loại cá: cá trích và cá hồi Ta có thể phân loại hai loại... 1, 2 , và cho f là một hàm Borel 2 trên ∏ (Ω ,  ) i i thỏa tích phân của f theo độ đo v1 × v2 tồn tại Khi đó, i=1 g (ω2 ) = ∫ f (ω1 , ω2 )dv1 tồn tại hầu khắp nơi v2 và xác định một hàm Borel trên Ω 2 mà Ω1 tích phân của nó theo độ đo v2 tồn tại và ∫ Ω1×Ω2   f (ω1 , ω2 )dv1 × dv2 = ∫Ω2  ∫Ω1 f (ω1 , ω2 )dv1  dv2 Định lý 0.1.2.2 (Định lý đổi biến) Cho f là một hàm đo được từ ( Ω,  , v ) vào (... đo được từ ( Ω,  ) vào ( Λ,  ) Khi đó f còn được gọi là phần tử ngẫu nhiên trên ( Ω,  ) nhận giá trị trong ( Λ,  ) Đặc biệt, khi ( Λ,  ) ≡ (,  ) , X là hàm đo được từ (Ω,  ) vào (,  ) thì X được gọi biến ngẫu nhiên , P ) Hàm tập Định nghĩa 0.1.3.4 Cho X là biến ngẫu nhiên xác định trên ( Ω,  P  X −1 được gọi là phân phối của X , được ký hiệu là PX Khi đó, hàm phân phối (c.d.f) của ... GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP.HCM Nguyễn Thị Hải Yến SỬ DỤNG HÀM CỰC ĐẠI VÀO BÀI TOÁN PHÂN BIỆT VÀ PHÂN CHÙM Chuyên ngành: Toán giải tích Mã số: 60 46 01 LUẬN VĂN THẠC SĨ TOÁN HỌC... phân biệt “khoảng cách” toán phân chùm Dựa luận án tiến sĩ [1] hai báo [2], [3], nghiên cứu, tìm hiểu đề tài “SỬ DỤNG HÀM CỰC ĐẠI VÀO BÀI TOÁN PHÂN BIỆT VÀ PHÂN CHÙM” BỐ CỤC CỦA LUẬN VĂN Chương... cách hàm mật độ xác suất 48 2.2 Khoảng cách L1 hàm mật độ 49 CHƯƠNG III BÀI TOÁN PHÂN BIỆT 56 3.1 Xác định hàm cực đại hàm mật độ xác suất 56 3.2 Phương pháp hàm cực đại

Định dạng
Số trang	90
Dung lượng	798,1 KB