Đề tài Phân tích chùm mờ và không mờ các phần tử rời rạc

63 640 0
Đề tài Phân tích chùm mờ và không mờ các phần tử rời rạc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

PHẦN MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Phân tích chùm việc nhóm phần tử tập hợp cho thành chùm cho phần tử chùm tương tự theo dấu hiệu Khi chùm xây dựng, phần tử chùm có tương tự nhiều so với phần tử chùm khác Có nhiều ứng dụng y học, kinh tế, kỹ thuật, xã hội,… Trong phân tích chùm truyền thống (không mờ), nhà khoa học nghiên cứu phương pháp phân tích chùm thứ bậc không thứ bậc với tiêu chuẩn đánh giá khác khoảng cách hay độ rộng chùm Tuy nhiên phương pháp phân tích chùm không mờ đòi phần tử phải thuộc không thuộc chùm cách rõ ràng, điều không thực hợp lý thực tế có nhiều phần tử nằm vị trí “nhạy cảm” đan xen chùm Nghiên cứu chùm có kèm theo xác suất gọi phân tích chùm mờ Phương pháp khắc phục nhược điểm phương pháp phân tích chùm không mờ tập liệu có phần tử nằm gần biên giới chùm Mặc dù quan tâm nhiều, tài liệu phân tích chùm trình bày rời rạc, ứng dụng thực tế xét cho trường hợp riêng biệt so sánh đối chiếu Với mong muốn tổng hợp phương pháp xây dựng chùm mờ không mờ cho phần tử rời rạc làm sở để nghiên cứu lý thuyết vấn đề này, đặc biệt vấn đề tính toán cho số liệu thực tế lớn để áp dụng cho nhiều lĩnh vực khác em chọn đề tài Phân tích chùm mờ không mờ phần tử rời rạc TỔNG QUAN VỀ PHÂN TÍCH CHÙM Khái niệm phân tích chùm Chùm coi đối tượng (phần tử, điểm) đối tượng dần tới đối tượng trung tâm chum thánh viên chùm khác không tương tự Hay nói ngắn ta thực cực đại hóa tương tự đối tượng chum, cực tiểu hóa đối tượng khác chum Trong ý nghĩa, chum xem “mật độ cao khu vực” không gian đa chiều Quá trình nhốm đối tượng vào chùm gọi việc xếp nhóm (clastering) Clastering đề cập tới vấn đề quang trọng nghiêm cứu không giám sát ( unsperviced learning) – thông tin nhãn lớp đối tượng Hay nói cách khác, công việc “ xử lí để tổ chức đối tượng vào nhóm mà đó, phần tử nhóm giống theo nghĩa đó” Phân tích chùm lớp kĩ thuật sử dụng để phân loại đối tượng trường hợp thành nhóm đối tượng gọi chùm Phân tích chùm gọi phân tích phân loại phân loại số Phân tích chùm liệu lĩnh vực nghiên cứu đầy thách thức công việc đặc yêu cầu đặc thù sau đây: Tính khả mở: Nhiều thuật toán phân tích chùm hoạt động tốt nhựng tập liệu nhỏ-bao gồm vài tram đối tượng liệu Tuy nhiên, sở liệu lớn bao gồm hàng triệu, hàng tỉ đối tượng xếp nhóm tập liệu lớn dẫn tới kết Các thuật toán có tính khả mở cao cần thiết Khả phát nhóm có hình dạng bất kì: thuật toán phải tìm nhóm có hình dạng bất kì, bao gồm hình có kẻ hở, lõm lồng Thích nghi với kiểu liệu khác nhau: thuật toán áp dụng hiệu cho việc phân chùm với điều kiện liệu khác như: liệu số, nhị phân,…và thích nghi với kiểu liệu hỗn hợp liệu đơn Khả làm việc với liệu chứa nhiễu: chế phân chum thích ứng với nhiều điểm nhiễu Không nhạy cảm với thứ tự liệu đầu vào: tức kết phân chum độc lập với liệu input Giảm thiểu yêu cầu với tham số đầu vào: liệu không cần phải có kiến thức tiên nhiệm Xử lí liệu đa chiều: tức thuộc tính liệu lớn Có thể phân chum sở ràng buộc: ứng dụng thực tế cần phân chum điều kiện rang buộc, Chẳng hạn công việc bạn chọn vị trí dể đặt máy ATM thành phố,… Đây thử thách phân tích chum dựa vào toán thực tế lĩnh vực đời sống, tìm cách phân tích chum tốt liệu đầu vào mà tôn trọng rang buộc ban đầu Tính hiểu được, tiện lợi khả dụng: Người dùng mong nhận phân chùm hiểu tiện lợi Có số thuật toán thực so sánh với kết thực tế không khớp, không hợp lí Vậy kết thực tế vấn đề quan trọng thuật toán, Điều quang trọng nghiên cứu thực tế chi phối đặc trưng Phương pháp phân nhóm Một số ứng dụng phân tích chùm Phân tích chùm có nhiều tên gọi khac như: phân tích Q, phân tích phân loại, phân tích kĩ thuật định lượng,… Có nhiều tên gọi khác phương pháp phân tích chùm ứng dụng nhiều lĩnh vực khác Phân tích chùm sử dụng rộng rãi có đóng góp quan trọng mặt đời song xã hội Các ứng dụng bao gồm: Trong thương mại: Phân tích chùm giúp khám phá khách hang quang trọng có đặc trưng tương đồng đặc tả sở mua bán từ liệu khách hàng Từ nâng cao lợi nhuận, cải thiện thu nhập Trong sinh học: phương pháp hữu dụng để phát loài sinh vật , phân loại gen với chức tương đồng thu thập cấu trúc mẫu Trong phân tích liệu không gian: Do đồ sộ liệu không gian hình ảnh thủ từ hình ảnh chụp dduocj từ vệ tinh, thiết bị khoa học hay hệ thống thông tin địa lí(GÍ),… làm cho người dùng khó kiểm tra liệu không gian cách chi tiết rõ ràng Phương pháp phân tích chùm trợ giúp nguoief dùng tự động phân tích xử lí dự liệu không gian nhận dạng chiết xuất đặc tính liệu quan tâm tồn trông sở liệu không gian Trong web mining: Phân tích chùm khám phá nhóm tài liệu quan trọng có ý nghĩa theo tiêu chí đặc Tương lai web mining ngày phát triển với sụ phát triển internet Trong địa lí: Phân lớp động vật thực vật đưa đặc trung chúng Trong qui hoạch đô thị: Nhận dạng nhóm nhà theo kiểu vị trí địa lí,… Nhằm cung cấp thông tin cho qui hoạch đô thị Trong nghiên cứu trái đất: Phân tích chùm để theo dõi trận động đất nhằm cung cấp thông tin cho nhận dạng vùng nguy hiểm Trong nén liệu: Tìm nhóm thể đồng từ hổ trợ nén liệu Chương I: PHÂN TÍCH CHÙM KHÔNG MỜ 1.1 GIỚI THIỆU Theo Jain Dubes (1988), Kaufman Rousseeuw (1990), Sharma (1996) Everitt et al (2001), phân tích chùm phương pháp thống kê đa biến nhằm nhóm tập đối tượng lại thành chùm theo đặc điểm định trước Chùm coi nhóm liệu, phần tử chùm có tương tự theo nghĩa Khi có nhiều liệu, người ta muốn chia liệu thành nhiều nhóm cho đối tượng nhóm gần so với đối tượng nhóm khác Từ yêu cầu toán phân tích chùm đời Chúng ta hiểu phân tích chùm việc nhóm phần tử liệu ban đầu thành chùm cho phần tử chùm tương tự theo dấu hiệu Khi chùm xây dựng, phần tử chùm có tương tự nhiều so với phần tử chùm khác Bài toán phân tích chùm hướng phát triển quan trọng nhận dạng thống kê, thường gọi nhận dạng không giám sát Phần tử phân tích chùm phần tử rời rạc hàm mật độ xác suất Đối với phần tử rời rạc, việc xác định tương tự phần tử chủ yếu dựa vào khoảng cách phần tử đó, phần tử có khoảng cách nhỏ so với phần tử khác gần xếp chùm Hiện có hai phương pháp chủ yếu để xây dựng chùm cho phần tử rời rạc: phương pháp thứ bậc phương pháp không thứ bậc Trong khoảng cách hai phần L1 tử sử dụng chủ yếu khoảng cách Euclide khoảng cách Trong khoảng cách hai tập hợp sử dụng khoảng cách min, khoảng cách max, khoảng cách trung bình khoảng cách Ward Các phần mềm thống kê Matlab, Maple, … có gói sử dụng cho toán phân tích chùm phần tử rời rạc với tiêu chuẩn đánh giá khoảng cách vừa nêu Phân tích chùm sử dụng Tryon (1939) với số ý tưởng đơn giản ban đầu Các ý tưởng phát triển thành thuật toán phân tích chùm cụ thể Sibson (1973), Defays (1977) Rohlf (1982) Các thuật toán dựa tiêu chuẩn khoảng cách phần tử rời rạc Nhiều tác giả phát triển thuật toán cách thay đổi khoảng cách khác Webb (2002) tổng kết đầy đủ toán phân tích chùm liệu rời rạc Phân tích chùm ứng dụng phổ biến nhiều lĩnh vực: sinh học, y học, kinh tế, xã hội… Hartigan (1975) cung cấp bảng tóm tắt tương đối đa dạng đầy đủ nghiên cứu thực tế toán phân tích chùm Chẳng hạn như, y học phân tích chùm giúp phân loại bệnh có dấu hiệu gần Trong khoa học khí tượng, phân tích chùm phát triển rộng rãi từ năm 1990 Trong khảo cổ học, phân tích chùm dùng để phân loại công cụ đá Eshref Shevki Wendell Bell (1955) sử dụng phân tích chùm điều tra liệu dân số Nhóm tác giả Piotr Kulczycki, Malgorzata Charytanowicz, Piotr A Kowalski, Szymon Lukasik (2011) dùng phân tích chùm để phân loại hạt giống ngũ cốc phục vụ cho sản xuất hỗ trợ chiến lược tiếp thị điều hành điện thoại di động cho nhà cung cấp mạng điện thoại di động Ở Việt Nam, chưa tìm thấy đóng góp đáng kể mặt lý thuyết cho toán phân tích chùm, việc áp dụng số nhà toán học, tin học quan tâm lĩnh vực khai phá liệu 1.2 TIÊU CHUẨN XÂY DỰNG CHÙM CÁC PHẦN TỬ RỜI RẠC 1.2.1 Khoảng cách hai phần tử rời rạc Khoảng cách đại lượng dùng để đánh giá tương tự chùm liệu phân tích phần tử rời rạc Khoảng cách hai phần tử metric, nghĩa d ( x, y ) d ( x, y ) khoảng cách hai phần tử x y phải thỏa điều kiện sau đây: x = y ∀ x, y ≥ i) d(x,y) Dấu xảy , ii) d(x,y) = d(y,x), ≥ iii) d(x,y) + d(y,z) d(x,z) Theo điều kiện trên, ta định nghĩa khoảng cách phần tử x y (x, y) theo nhiều cách khác Thông thường loại khoảng cách sau sử dụng phổ biến: Khoảng cách Euclide:  n 2 d e ( x, y ) =  ∑ ( xi − yi )   i =1  (1.1) n d cb ( x, y ) = ∑ xi − yi Khoảng cách city- block: Khoảng cách Chebyshev: i =1 (1.2) d ch ( x, y ) = max xi − yi i  n m d m ( x, y ) =  ∑ xi − yi   i =1  (1.3) m Khoảng cách Minkowski với bậc m: (1.4) Nhận xét: i) Khoảng cách Euclide khoảng cách thường sử dụng trong toán học, mô tả độ dài đoạn thẳng nối hai điểm x y ii) Khoảng cách city-block mô tả tổng độ dài (tổng khoảng cách Euclide) n đoạn gấp khúc nối hai điểm x, y thuộc không gian n chiều Mỗi đoạn n đoạn song song với trục tương ứng n trục chọn làm hệ quy chiếu iii) Khoảng cách Chebyshev mô tả đoạn thẳng có độ dài lớn n đoạn gấp khúc đề cập khoảng cách city- block Đây khoảng cách tổng quát nhất, với m khác nhau, khoảng cách Minkowski bậc m tương ứng với loại khoảng cách khác Với m =1, d m ( x, y ) = dcb ( x, y ) , với m = 2, d m ( x, y ) = d e ( x , y ) , độ lớn → ∞ d m ( x, y ) = dch ( x, y ) khoảng cách giảm m tăng, m , Hình vẽ sau minh họa khoảng cách phổ biến hai điểm x(1;2) y(2;4) Khoang cach Euclide mo ta dai doan thang y(2;4) Khoang cach Chebyshev mo ta dai duongt gap khuc lon nha x(1;2) Khoang cach city-block mo ta dai doan gap khuc -1 -2 -2 -1 Hình 1.1: Các loại khoảng cách hai phần tử x y Như thấy, khoảng cách Euclide mô tả đoạn thẳng nối điểm x y khoảng cách city-block mô tả đoạn gấp khúc nối x y, chúng song song với ¡ trục hoành trục tung hệ tọa độ Tương tự vậy, x, y thuộc không gian khoảng cách city-block mô tả đoạn thẳng song song với Ox, Oy, Oz Hình khoảng cách Chebyshev mô tả đoạn thẳng dài hai đường gấp khúc 1.2.2 Khoảng cách hai tập phần tử rời rạc Cho A, B hai nhóm, nhóm gồm nhiều phần tử rời rạc khác Gọi D(A;B) khoảng cách hai nhóm A B, d(x,y) khoảng cách phần tử x phần tử y( x ∈ A; y ∈ B ) Thông thường ta sử dụng định nghĩa sau cho D(A;B): Khoảng cách min: Dmin ( A; B ) = d ( x, y ) x∈A y∈B Dmax ( A; B ) = max d ( x, y ) Khoảng cách max: x∈A y∈B (1.5) (1.6) Davg ( A; B ) = nA nB Khoảng cách trung bình: ∑ d ( x, y ) x∈A y∈B (1.7) nA , nB Với Nhận xét: số phần tử nhóm A nhóm B i) Việc tính khoảng cách hai nhóm liệu không phụ thuộc vào việc chọn loại khoảng cách giũa hai nhóm mà phụ thuộc vào loại khoảng cách hai phần tử, có nhiều kết khác tùy vào loại khoảng cách chọn Cho đến nay, người ta chưa chứng minh sử dụng khoảng cách tối ưu Trong thực tế loại khoảng cách phổ biến nêu thường sử dụng nhiều ii) Khi hai nhóm A B nhập lại thành nhóm (A+B) việc tính khoảng cách từ nhóm (A+B) đến nhóm C thực theo công thức Tuy nhiên, ta áp dụng công thức sau việc tính toán thuận tiện   Dmin ( A + B , C ) = { Dmin ( A, C ) , Dmin ( B, C ) } = min d ( x, z ) , d ( y , z )  x∈A y∈B  z∈C  z∈C (1.8)   Dmax ( A + B, C ) = max { Dmax ( A, C ) , Dmax ( B, C ) } = max max d ( x, z ) , max d ( y , z )  x∈A y∈B  z∈C  z∈C (1.9) Davg ( A + B, C ) = nA nB Davg ( A, C ) + Davg ( B, C ) n A + nB n A + nB (1.10) Ngoài khoảng cách thông dụng trên, Ward (1963) đưa công thức tính khoảng cách trường hợp biểu thức: n +n n +n nC DWard ( A + B, C ) = A C D ( A, C ) + B C D ( B, C ) − D ( A, B ) nA + nB + nC nA + nB + nC nA + nB + nC (1.11)  5   A = a1 = ( −4; ) , a2 = ( −2; ) , a3 =  −3; ÷, a4 = ( −3;3)  2     1   B = b1 = ( −3; −1) , b2 =  −2; − ÷, b3 = ( −1; −1)         C = c1 = ( 1; ) , c2 =  1; ÷    Trong n A nB , , nC số phần tử nhóm A, B C Ví dụ 1.1 Cho Tính: a) b) Dmin , Dmax , Davg Dmin , Dmax , Davg A B A+C B Giải Trước tiên ta chọn khoảng cách Euclide làm khoảng cách hai phần tử Khoảng cách nhóm tính sau: Dmin ( A, B ) = { d e ( a1 , b1 ) , d e ( a1 , b2 ) d e ( a4 , b3 ) } a) d e ( a2 , b2 ) = = Tương tự Dmax ( A, B ) = max { d e ( a1 , b1 ) , d e ( a1 , b2 ) d e ( a4 , b3 ) } = Davg ( A, B ) = b) = 2.5 d e ( a4 , b3 ) = ≈ 4.4721 nA nB ∑ d ( x, y ) ≈ 3.5197 x∈ A y∈B Dmin ( A + C , B ) = { Dmin ( A, B ) , Dmin ( C , B ) }  41   , =  2  = d ( a2 , b2 ) = Dmax ( A + C , B ) = max { Dmax ( A, B ) , Dmax ( C , B ) } = Davg ( A + C , B ) = { } max 5, = = d ( c1 , b1 ) nC nA Davg ( A, B ) + Davg ( C , B ) nA + nC nA + nC 3.5197 + 4.0058 ≈ 3.6817 6 = Ta mô tả hình học ví dụ sau: Y Dmax(A,B) Nhom A+C Nhom A Nhom C Dmin(A,B) Dmin(A+C,B) X O -1 Dmax(A+C,B) Nhom B -2 -3 -6 -5 -4 -3 -2 -1 Y Nhom A Nhom C X O -1 -3 -6 Nhom B -2 -5 -4 -3 -2 -1 Hình 1.2: Khoảng cách nhóm Davg ( A, B ) nét trung bình khoảng cách thể đoạn thẳng liền Davg ( A+C,B ) trung bình khoảng cách thể đoạn thẳng liền nét không liền nét Chú ý: i) Trước tính khoảng cách biến liệu kiểu số cần ý vấn đề chuẩn hóa liệu cho chúng thang đo liệu Tình thực tế nảy sinh có nhiều liệu thang đo khác Ví dụ liệu có thuộc tính như: cân nặng, chiều cao, lương,… liệu kiểu số rõ ràng thang đo chúng khác (cân tính theo kg, chiều cao tính theo cm hay m, lương tính theo đơn vị đồng, ) Nếu sử dụng trực tiếp khoảng cách tập liệu số chưa chuẩn hoá dễ gây sai lệch độ đo Ví dụ khoảng cách trọng lượng hai người 10 kg coi lớn (cách xa nhau), khoảng cách lương 100 000 coi nhỏ (đối với vật giá tại) Nhưng số 100 000 lại lớn so với 10 Do liệu cần chuẩn hoá “thang bậc” để không ảnh hưởng đến phân tích chùm ii) Có nhiều loại liệu khác thực toán phân tích chùm Thông thường ta có loại liệu phổ biến liệu kiểu số, nhị phân, định giá, thứ tự,… 1.3 XÂY DỰNG CHÙM CÁC PHẦN TỬ RỜI RẠC 1.3.1 Phương pháp thứ bậc Một phương pháp phổ biến phân tích chùm phương pháp thứ bậc Kết phương pháp tạo dãy chùm, số chùm chứa lớp bên nó, đến lượt lớp lại chứa bên lớp nhỏ Cấu trúc chùm minh họa đồ thị hai chiều gọi sơ đồ (sơ đồ nhánh phân tích chùm) Cây phân tích chùm minh họa cho việc hợp chia nhỏ chùm thực cách phân nhóm, hiển thị theo chiều dọc chiều ngang 10 for j=1:9 lech(i,j)=abs(Umoi(i,j)-U(i,j)); if lech(i,j)>chuan chuan=lech(i,j); end end end chuan; end Umoi chuan Trong cửa sổ Matlab, ta có kết quả: Umoi = Columns through 0.9384 0.8869 0.8869 0.7390 0.0000 0.0347 0.0234 0.0468 0.0897 0.0897 0.2263 1.0000 0.2263 0.0897 0.0148 0.0234 0.0234 0.0347 0.0000 0.7390 0.8869 Columns through 0.0234 0.0148 0.0897 0.0468 0.8869 0.9384 chuan = 3.2513e-005 Kết cho ta thấy rõ ma trận phân vùng phần tử vào chùm chuẩn thuật toán vòng lặp cuối Ở phương pháp thứ bậc phần tử rời rạc, ta sử dụng chương trình 2.2 để tính xác suất kết hợp phần tử vào chùm vòng lặp, thuật toán kết thúc tất phần tử kết hợp thành chùm CHƯƠNG III :TIÊU CHUẨN XÂY DỰNG CHÙM CÁC HÀM MẬT ĐỘ XÁC SUẤT 3.1GIỚI THIỆU Khi làm việc với tập liệu lớn, đến từ nhiều nguồn khác nhau, người ta có nhu cầu phân chia chúng thành nhóm với phần tử “gần” theo dấu hiệu chọn lựa, từ toán phân tích chùm đời Phân tích chùm việc nhóm phần tử tập hợp cho thành chùm cho phần tử chùm tương tự theo dấu hiệu chọn lựa Khi chùm xây dựng, phần tử chùm có tương tự nhiều so với phần tử chùm khác Có nhiều ứng dụng cụ thể lĩnh vực khác toán phân tích chùm: y học, sinh học, kinh tế, kỹ thuật, 49 xã hội,…và lĩnh vực nơi việc nhóm phần tử lại với đòi hỏi Một số tác Sibson (1973), Defays (1977), Rohlf (1982),…đã đưa thuật toán cụ thể cho liệu rời rạc Fukunaga (1990), Webb (2002) tổng kết phương pháp liên quan đến phân tích chùm Nhưng vấn đề phân tích chùm xét cho liệu rời rạc với tiêu chuẩn đánh giá “gần” “xa” khoảng cách truyền thống mà không dựa vào phân bố liệu Do đó, số trường hợp tạo nghịch lý: phần tử lý phải xếp vào chùm lại xếp vào chùm Năm 2010 nhóm tác giả Võ Văn Tài, Phạm Gia Thụ đưa khái niệm độ rộng chùm làm tiêu chuẩn phân tíchchùm hàm mật độ xác suất Độ rộng chùm định nghĩa qua tích phân hàm cực đại hàm mật độ xác suất, đánh giá tương tự phần tử, yếu tố phương sai xem xét Điều thể hợp lý phân tích chùm Tuy nhiên, việc giải toán chùm hàm mật độ xác suất, vấn đề ước lượng hàm mật độ xác suất từ số liệu rời rạc việc tính độ rộng chùm gặp nhiều khó khăn Trong viết có bổ sung kết lý thuyết liên quan đến độ rộng chùm vấn đề tính toán qua chương trình viết phần mềm Matlab Một ví dụ với số liệu thực điểm rèn luyện điểm học tập sinh viên Khoa Khoa học Tự nhiên, Trường Đại học Cần Thơ đưa để kiểm chứng thuật toán, chương trình viết để minh họa cho ứng dụng toán phân tich chùm 3.2 SỰ TƯƠNG TỰ VÀ ĐỘ RỘNG CHÙM CÁC HÀM MẬT ĐỘ XÁC SUẤT 3.2.1 Sự tương tự hàm mật độ xác suất Tiêu chuẩn đánh giá tương tự hai phần tử rời rạc khoảng cách truyền thống Người ta có nhiều định nghĩa khác khoảng cách hai chùm rời rạc, nhiên việc chọn khoảng cách tối ưu để đánh giá tương tự phần tử rời rạc câu hỏi nhiều nhà toán học quan tâm, bỏ ngõ Trong trường hợp hàm mật độ xác suất, tương tự chúng thông thường đánh giá qua khái niệm khoảng cách như: Khoảng cách Chernoff, khoảng cách Bhattacharyya, khoảng cách Divergence,…Khi có nhiều hai hàm mật độ xác suất, nghiên cứu tính tương tự chưa nhà toán học quan tâm nhiều Có hai khái niệm cổ điển đưa trường hợp Đó khái niệm độ đo tách rời Glick (1973) affinity Matusita (1967) Toussaint (1972) Định nghĩa 1: Một hàm đối xứng s gọi độ đo k (k ≥ 2) điểm tách rời cho tập S không gian véc tơ với chuẩn với phần tử a a a S k , , , ∈ S thỏa mãn điều kiện (1) Từ (1) có nhiều định nghĩa cụ thể hàm s Định nghĩa 2: Cho k hàm mật độ xác suất k f , f , , f , ( k ≥ ), ta có định nghĩa affinity sau: i) Affinity Matusita: (2) ii) Affinity Toussaint: (3) 50 Trong Trong trường hợp đặc biệt k affinity Toussaint trở thành affinity Matusita, k = trở thành affinity Hellinger 3.2.2 Độ rộng chùm a) Định nghĩa Định nghĩa 3: Cho k hàm mật độ xác suất , độ rộng chùm định nghĩa sau: (4) Định nghĩa 4: Cho hàm mật độ xác suất,chúng ta định nghĩa độ rộng chùm độ rộng chùm b) Định lý độ rộng chùm Cho hàm mật độ xác suất k +1 tổng thể Chúng ta có kết sau độ rộng chùm: i) (5) Trong ii) (6) Trong n, k ≥ 3, n < k với iii) (7) Chứng minh (5), (6) (7) dài, xin phép không trình bày Nhận xét: i) Kết (6) hiểu sau: tổng độ rộng hai chùm trước ghép – A khoảng cách hay khoảng cách hai chùm Độ rộng chùm phản ánh gần phần tử chùm, khoảng cách phản ánh xa hai chùm Bởi số, nên độ rộng chùm khoảng cách biến thiên theo hướng trái ngược Khi ghép hai chùm thành chùm, cực tiểu tổng độ rộng có nghĩa cực đại khoảng cách hai chùm ii) Độ rộng chùm có mối quan hệ với khái niệm trình bày (1), (2) (3) 3.3 PHƯƠNG PHÁP XÂY DỰNG CHÙM 3.1 Phương pháp thứ bậc a) Bài toán (Bài toán 1) Có n phần tử với biến quan sát biết Chúng ta chia phần tử thành chùm với số lượng giảm dần theo bước Tại bước ta ghép chùm thành chùm có độ rộng chùm nhỏ so với việc ghép chùm khác Ở bước cuối cùng, tất phần tử kết hợp thành chùm Kết thực sử dụng để thành lập phân loại b) Thuật toán (Thuật toán 1) 51 Bước 1: Bắt đầu với n chùm, chùm chứa đối tượng Tính đôi độ rộng chùm hai phần tử Thành lập ma trận đối xứng D độ rộng chùm với j, i =1…n, j ≠ i Bước 2: Trong ma trận D, tìm độ rộng chùm nhỏ hai chùm khác nhau, tức hai chùm có tương tự nhiều Bước 3: Gọi w(u, v) khoảng cách hai chùm U V có tương tự Hợp chùm U V thành chùm (UV) Tính toán lại ma trận độ rộng chùm theo hai bước: i) Xóa dòng cột chứa chùm U V, ii) Thêm dòng cột đại diện cho chùm (UV), tìm độ rộng chùm chùm (UV) với chùm lại Bước 4: Lặp lại bước bước (lặp lại n – lần) đối tượng nhóm lại thành chùm 3.3.2 Phương pháp không thứ bậc a) Bài toán (Bài toán 2) Có n phần tử với biến quan sát biết cần chia phần tử thành k chùm với k cho trước, cho phần tử chùm có độ rộng đến chùm thuộc nhỏ độ rộng đến chùm khác b) Thuật toán (Thuật toán 2) Bước 1: Chia n phần tử thành k chùm cách ngẫu nhiên (số lượng phần tử chùm tùy ý) Bước 2: Tính độ rộng chùm từ phần tử đến tất chùm Nếu độ rộng chùm từ phần tử đến chùm thuộc nhỏ ta giữ phần tử chùm ban đầu Nếu tồn chùm khác mà độ rộng chùm từ phần tử xét đến chùm đo nhỏ ta gán phần tử xét vào chùm này, bỏ phần tử chùm thuộc Nếu phần tử di chuyển đến chùm khác cần phải tính lại giá trị trọng tâm hai chùm có thay đổi Bước 3: Quay lại bước dừng lại ta có k chùm, cho phần tử chùm có khoảng cách đến chùm thuộc nhỏ khoảng cách đến chùm khác 3.4 VẤN ĐỀ TÍNH TOÁN VÀ VÍ DỤ ÁP DỤNG 3.4.1 Vấn đề ước lượng hàm mật độ xác suất từ liệu rời rạc Trong thực tế, liệu có nhu cầu phân tích chùm liệu rời rạc, để phân tích chùm hàm mật độ xác suất có ý nghĩa thật sự, việc phải làm ước lượng hàm mật độ xác suất từ liệu rời rạc Có nhiều phương pháp tham số phi tham số để ước lượng hàm mật độ xác suất Trong viết này, sử dụng phương pháp hàm hạt nhân, phương pháp có nhiều ưu điểm Gọi liệu rời rạc n chiều cần ước hàm mật độ xác suất Hàm mật độ xác suất cần ước lượng theo phương pháp hạt nhân có dạng 52 (8) Trong tham số trơn cho biến thứ hàm hạt nhân biến thứ j Có nhiều bàn luận việc chọn tham số trơn, việc chọn tối ưu Khi chọn tham số trơn nhỏ hàm mật độ ước lượng không trơn, tham số trơn lớn làm giảm tính xác ước lượng Tham số trơn đóng vai trò quan trọng ước lượng Trong viết chọn tham số trơn theo Scott (1992): (9) với j σ độ lệch chuẩn mẫu biến thứ j Theo Webb có nhiều hàm hạt nhân khác đề nghị dạng tam giác, hình chữ nhật, song lượng, Epanechnikov, Ở chọn hàm hạt nhân dạng chuẩn: (10) Sử dụng phần mềm Matlab, viết chương trình ước lượng hàm mật độ xác suất sau: a) Chương trình 1: Ước lượng hàm mật độ xác suất chiều function fa=uocluong(dla); syms x; fa=sym('x'); sa=sym('x'); ha=1.06*std(dla)*(length(dla)^-0.2); sa=0; for i=1:length(dla) sa=sa+1/(2*pi)^.5*exp(-(((x-dla(1,i))/ha)^2/2)); end; sa; fa=(1/ha/length(dla)*sa); Khi cần ước lượng hàm mật độ xác suất tổng thể ta cần sử dụng lệnh: syms x uocluong([dữ liệu cần ước lượng]) b) Chương trình 2: Ước lượng hàm mật độ xác suất hai chiều function f = uocluong2c(dl1,dl2) syms x1 x2 s = sym('s(x1,x2)'); f = sym('f(x1,x2)'); h1 = std(dl1)/(length(dl1))^(1/6); h2 = std(dl2)/(length(dl2))^(1/6); s = 0; for i = 1:length(dl1) s = s + (1/(2*pi)^.5*exp(-(((x1-dl1(1,i))/h1)^2/2)))*(1/(2*pi)^.5*exp(- (((x2dl2(1,i))/h2)^2/2))); end s; f = 1/(length(dl1)*h1*h2)*s; 53 Khi cần ước lượng hàm mật độ xác suất tổng thể ta cần sử dụng lệnh: syms x1 x2 ; uocluong2([chiều thứ nhất],[chiều thứ hai]) 3.4.2 Tính độ rộng chùm Khi có hàm mật độ xác suất, để thực toán phân tích chùm vấn đề quan trọng phải tính độ rộng chùm Giải vấn đề việc không dễ dàng, phải xác định hàm cực đại hàm mật độ xác suất phải tính tích phân Rn hàm cực đại Chương trình tìm biểu thức giải tích cụ thể cho hàm cực đại hàm mật độ xác suất chiều để từ tính độ rộng chùm viết, nhiên trường hợp nhiều chiều chưa giải Trong viết này, tính độ rộng chùm dựa việc tính gần tích phân hàm cực đại phương pháp Moncte- Carlo Sử dụng cách tính gần hàm cực đại hàm mật độ xác suất phương pháp Moncte-Carlo, viết chương trình tính độ rộng chùm hàm mật độ cho trường hợp chiều, nhiều chiều Sau chương trình minh họa cho trường hợp hai chiều với ba tổng thể: Chương trình 3: Tính độ rộng chùm function A =drchumnc(f1,f4) syms x1 x2 tpfmax m f = sym('f(x1,x2)'); f = [f1 f4]; m = 0; %700,900,1100,1600,5000,50,8000 t1 = 4.5+5.5*rand(1,2000); t2 = 3.5+6.5*rand(1,2000);%50 tu cho ft = 0+0.055*rand(1,2000);%chieu cao thi for i =1:2000 c=subs(subs(f,x1,t1(1,i)),x2,t2(1,i)); d=double(c); e=max(d); if ft(1,i)[...]... biết, chùm là một nhóm mà trong đó các phần tử trong chùm có những đặc điểm giống nhau, tương tự nhau hơn so với các phần tử thuộc chùm khác Trong phân tích chùm mờ, mỗi chùm là một tập mờ trên tất cả các phần tử cần phân tích Trong mỗi chùm ta có phần tử đại diện chùm, phần tử này có số chiều cùng với số chiều của các phần tử trong chùm, phần tử đại diện chùm được tính toán trong quá trình phân tích chùm, ... vậy, ở các tập mờ nhiệt độ trung bình và nhiệt độ cao, thì các phần tử thuộc miền nhiệt độ cũng lần lượt thuộc các tập với các xác suất nhất định Phần trên vừa đề cập đến khái niệm tập mờ, phân tích chùm mờ là phương pháp phân tích chùm mà trong đó các phần tử sẽ thuộc các chùm với một xác suất nhất định, như vậy, các chùm tương ứng với các tập mờ trên miền các phần tử cần phân tích Ta lần lượt có các. .. Phương pháp phân tích chùm mờ sẽ khắc phục nhược điểm trên của phân tích chùm truyền thống Phân tích chùm mờ là phương pháp phân tích chùm mà trong đó mỗi phần tử sẽ thuộc đồng thời nhiều chùm khác nhau với các mức độ khác nhau Các mức độ này sẽ được biểu diễn bởi các hệ số cấp bậc thành viên (có thể hiểu như là xác suất mà phần tử thuộc chùm) Do đó, các phần tử thuộc vùng biên giữa các chùm cũng không phụ... mỗi chùm con thuộc chùm mẹ sẽ là bao nhiêu Ý tưởng của phương pháp thứ bậc mờ như sau: Giả sử ta có bộ số liệu N lớn phần tử cần phân tích chùm, ta lần lượt thực hiện các bước sau: - Bước 1: Tính ma trận khoảng cách giữa các phần tử và tìm hai phần tử có khoảng cách nhỏ nhất Thực hiện thuật toán FCM đối với N phần tử và N-1 chùm với chùm khởi tạo gồm N-2 chùm gồm 1 phần tử và 1 chùm gồm 2 phần tử có... 2 và dừng lại khi ta có k chùm, sao cho một phần tử bất kỳ trong chùm có khoảng cách đến chùm nó đang thuộc nhỏ hơn khoảng cách đến các chùm khác Ví dụ 1.4 Với dữ liệu ở ví dụ 1.2 phân tích chùm bằng phương pháp không thứ bậc với k = 2 Sử dụng khoảng cách giữa các phần tử là khoảng cách Euclide, ta tiến hành phân tích chùm bằng phương pháp thứ bậc như sau: 17 - - Chia các phần tử thành 2 chùm một cách... mờ) , mỗi phần tử được phân vào một chùm nhất định và không thuộc các chùm còn lại; điều này chỉ thực sự chính xác khi dữ liệu phân tích có các phần tử được phân chia thành những vùng tương đối riêng biệt Tuy nhiên, dữ liệu thực tế rất đa dạng và có nhiều phần tử nằm ở vị trí biên giữa các chùm; vì vậy nếu phân chia các phần tử này thuộc hoàn toàn một chùm nào đó là tương đối nhạy cảm và có khả năng... của các chùm Nếu khoảng cách từ một phần tử đến trọng tâm của chùm nó đang thuộc là nhỏ nhất thì ta giữ phần tử đó trong chùm ban đầu Nếu tồn tại một chùm khác mà khoảng cách từ phần tử đang xét đến trọng tâm của chùm là nhỏ nhất thì ta gán phần tử đang xét vào chùm này, bỏ phần tử trong chùm nó đang thuộc Nếu phần tử được di chuyển đến chùm khác thì cần phải tính lại giá trị trọng tâm của hai chùm. .. nhiều cách tính phần tử đại diện, nhưng thông thường phần tử đại diện được tính bằng trọng tâm của các phần tử trong chùm 30 2.2.4 Ma trận phân vùng Ta có thể biểu diễn sự phân chia các phần tử vào c chùm khác nhau bằng ma trận U = [ µik ] c× N µik phân vùng Trong đó là hệ số cấp bậc thành viên (có thể hiểu là xác AB ABCD suất) của phần tử thứ k đối với chùm thứ i Trong phân tích chùm không mờ, AB... các cột là các phần tử đại diện cho các chùm, = ( zk - vi ) A ( z k - vi ) T là bình phương khoảng cách từ phần tử đến phần tử đại diện chùm, m ∈ [ 1, ∞ ) là tham số xác định độ mờ của kết quả phân tích chùm Giá trị của hàm (2.4) có thể được xem như độ đo của tổng phương sai từ tất cả phần tử đến các phần tử đại diện chùm, do đó ta cần phải cực tiểu hóa giá trị của hàm mờ cMeans 2.3 XÂY DỰNG CHÙM MỜ... toàn vào một chùm riêng biệt mà sẽ thuộc nhiều chùm với các hệ số cấp bậc thành viên khác nhau Đây là ưu điểm của phương pháp phân tích chùm mờ so với các phương pháp phân tích chùm truyền thống Phân tích chùm mờ được xây dựng dựa trên nền tảng lý thuyết về tập mờ và số mờ của Zadeh (1965) Cho đến nay, tuy có nhiều phương pháp phân tích chùm mờ được đề xuất, nhưng phương pháp được biết đến nhiều nhất và ... Chương II: PHÂN TÍCH CHÙM MỜ 2.1 GIỚI THIỆU Như biết, phân tích chùm truyền thống (không mờ) , phần tử phân vào chùm định không thuộc chùm lại; điều thực xác liệu phân tích có phần tử phân chia... 2.2.3 Chùm phần tử đại diện chùm Như biết, chùm nhóm mà phần tử chùm có đặc điểm giống nhau, tương tự so với phần tử thuộc chùm khác Trong phân tích chùm mờ, chùm tập mờ tất phần tử cần phân tích. .. chùm ta có phần tử đại diện chùm, phần tử có số chiều với số chiều phần tử chùm, phần tử đại diện chùm tính toán trình phân tích chùm, có nhiều cách tính phần tử đại diện, thông thường phần tử

Ngày đăng: 14/04/2016, 14:10

Từ khóa liên quan

Mục lục

  • PHẦN MỞ ĐẦU

    • LÝ DO CHỌN ĐỀ TÀI

    • TỔNG QUAN VỀ PHÂN TÍCH CHÙM

    • Chương I: PHÂN TÍCH CHÙM KHÔNG MỜ

      • 1.1 GIỚI THIỆU

      • 1.2 TIÊU CHUẨN XÂY DỰNG CHÙM CÁC PHẦN TỬ RỜI RẠC

        • 1.2.1 Khoảng cách giữa hai phần tử rời rạc

        • 1.2.2 Khoảng cách giữa hai tập các phần tử rời rạc

        • 1.3 XÂY DỰNG CHÙM CÁC PHẦN TỬ RỜI RẠC

          • 1.3.1 Phương pháp thứ bậc

          • 1.3.2 Phương pháp không thứ bậc

          • 1.4 VẤN ĐỀ TÍNH TOÁN

          • BÀI TOÁN ỨNG DỤNG

          • Chương II: PHÂN TÍCH CHÙM MỜ

            • 2.1 GIỚI THIỆU

            • 2.2 CÁC KHÁI NIỆM LIÊN QUAN ĐẾN PHÂN TÍCH CHÙM MỜ

              • 2.2.1 Tập mờ

              • 2.2.2 Tập dữ liệu

              • 2.2.3 Chùm và phần tử đại diện chùm

              • 2.2.4 Ma trận phân vùng

              • 2.2.5 Hàm mờ c-Means

              • 2.3 XÂY DỰNG CHÙM MỜ

                • 2.3.1 Phương pháp không thứ bậc

                • 2.3.2 Phương pháp thứ bậc

                • Hình 2.3: Cây phân tích chùm mờ 4 phần tử

                • 2.4 VẤN ĐỀ TÍNH TOÁN TRONG PHÂN TÍCH CHÙM MỜ

                • CHƯƠNG III :TIÊU CHUẨN XÂY DỰNG CHÙM CÁC HÀM MẬT ĐỘ XÁC SUẤT

                  • 3.1GIỚI THIỆU

Tài liệu cùng người dùng

Tài liệu liên quan