Đề tài: Phân tích chùm mờ và không mờ các phần tử rời rạc

57 68 0
Đề tài: Phân tích chùm mờ và không mờ các phần tử rời rạc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đề tài Phân tích chùm mờ và không mờ các phần tử rời rạc được thực hiện nhằm mục đích tổng hợp các phương pháp xây dựng chùm mờ và không mờ cho các phần tử rời rạc làm cơ sở để nghiên cứu lý thuyết vấn đề này, đặc biệt vấn đề tính toán cho số liệu thực tế lớn để áp dụng cho nhiều lĩnh vực khác nhau. Hy vọng nội dung đề tài phục vụ hữu ích nhu cầu học tập, làm việc hiệu quả.

PHẦN MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Phân tích chùm là việc nhóm các phần tử trong tập hợp đã cho thành các chùm sao  cho các phần tử trong cùng chùm tương tự nhau theo những dấu hiệu nào đó. Khi chùm  được xây dựng, những phần tử trong cùng một chùm sẽ có sự tương tự nhiều hơn so  với những phần tử của chùm khác Có rất nhiều ứng dụng trong y học, kinh tế, kỹ thuật, xã hội,… Trong phân tích chùm truyền thống (khơng mờ), các nhà khoa học đã nghiên cứu  các phương pháp phân tích chùm thứ bậc và khơng thứ bậc với các tiêu chuẩn đánh giá  khác nhau như khoảng cách hay độ rộng chùm. Tuy nhiên các phương pháp phân tích  chùm khơng mờ đòi một phần tử phải thuộc hoặc khơng thuộc một chùm một cách rõ  ràng, điều này khơng thực sự hợp lý khi trong thực tế có nhiều phần tử nằm ở những  vị trí “nhạy cảm” đan xen giữa các chùm.  Nghiên cứu chùm có kèm theo xác suất gọi là phân tích chùm mờ. Phương pháp  này khắc phục nhược điểm của phương pháp phân tích chùm khơng mờ khi tập dữ  liệu có các phần tử nằm gần biên giới giữa các chùm.  Mặc dù đã được quan tâm nhiều, nhưng các tài liệu về phân tích chùm cũng được  trình bày khá rời rạc, do đó các ứng dụng thực tế cũng chỉ xét cho từng trường hợp  riêng biệt khơng có sự so sánh đối chiếu.  Với mong muốn tổng hợp các phương pháp xây dựng chùm mờ và khơng mờ cho  các phần tử rời rạc làm cơ sở để nghiên cứu lý thuyết vấn đề này, đặc biệt vấn đề  tính tốn cho số liệu thực tế lớn để áp dụng cho nhiều lĩnh vực khác nhau em chọn đề  tài Phân tích chùm mờ và khơng mờ các phần tử rời rạc TỔNG QUAN VỀ PHÂN TÍCH CHÙM Khái niệm phân tích chùm Chùm coi như là một đối tượng (phần tử, điểm). trong đó mỗi đối tượng dần  tới đối tượng trung tâm của một chum và những thánh viên của những chùm khác nhau  thì khơng tương tự nhau. Hay nói ngắn ngọn là ta sẽ thực hiện cực đại hóa sự tương  tự giữa các đối tượng cùng một chum, nhưng cực tiểu hóa các đối tượng khác chum.  Trong ý nghĩa, chum có thể xem như là “mật độ cao khu vực” của một khơng gian đa  chiều Q trình nhốm các đối tượng vào cùng một chùm được gọi là việc xếp nhóm  (clastering). Clastering đề cập tới vấn đề quang trọng nhất là nghiêm cứu khơng giám  sát ( unsperviced learning) – khơng có thơng tin về nhãn lớp của đối tượng. Hay nói  cách khác, đây là cơng việc “ xử lí để tổ chức các đối tượng vào các nhóm mà trong đó,  các phần tử của mỗi nhóm giống nhau theo một nghĩa nào đó”. Phân tích chùm là một  lớp các kĩ thuật được sử dụng để phân loại các đối tượng hoặc các trường hợp thành  các nhóm đối tượng gọi là chùm. Phân tích chùm còn được gọi là phân tích phân loại  hoặc phân loại số Phân tích chùm dữ liệu là một lĩnh vực nghiên cứu đầy thách thức và cơng việc  này ln đặc ra những u cầu đặc thù sau đây: Tính khả mở: Nhiều thuật tốn phân tích chùm hoạt động tốt trên nhựng tập dữ  liệu nhỏ­bao gồm vài tram đối tượng dữ liệu. Tuy nhiên, một cơ sở dữ liệu lớn bao  gồm hàng triệu, hàng tỉ đối tượng. xếp nhóm trên tập dữ liệu lớn có thể dẫn tới kết  quả kém. Các thuật tốn này có tính khả mở cao là rất cần thiết Khả năng phát hiện được các nhóm có hình dạng bất kì: các thuật tốn phải tìm  ra được các nhóm có hình dạng bất kì, bao gồm những hình có kẻ hở, lõm hoặc lồng  Thích nghi với các kiểu dữ liệu khác nhau: thuật tốn có thể áp dụng hiệu quả  cho việc phân chùm với điều kiện dữ liệu khác nhau như: dữ liệu số, nhị phân,…và  thích nghi với các kiểu dữ liệu hỗn hợp của các dữ liệu đơn trên Khả năng làm việc được với các dữ liệu chứa nhiễu: cơ chế phân chum thích  ứng được với nhiều điểm nhiễu Khơng nhạy cảm với thứ tự dữ liệu đầu vào: tức là kết quả phân chum độc lập  với dữ liệu input Giảm thiểu u cầu với tham số đầu vào: dữ liệu khơng cần phải có kiến thức  tiên nhiệm nào  Xử lí được dữ liệu đa chiều: tức là thuộc tính dữ liệu lớn Có thể phân chum trên cơ sở ràng buộc: các ứng dụng thực tế có thể cần phân  chum dưới điều kiện rang buộc, Chẳng hạn cơng việc của bạn là chọn một vị trí dể  đặt máy ATM trong thành phố,… Đây có thể là cả một thử thách của phân tích chum  khi dựa vào bài tốn thực tế các lĩnh vực đời sống, tìm ra cách phân tích chum tốt đối  với dữ liệu đầu vào mà vẫn tơn trọng các rang buộc ban đầu Tính có thể hiểu được, tiện lợi và khả dụng: Người dùng ln mong nhận được  một bộ phân chùm có thể hiểu được và tiện lợi. Có một số thuật tốn khi thực hiện và  so sánh với các kết quả thực tế khơng khớp, khơng hợp lí. Vậy kết quả thực tế là vấn  đề quan trọng của thuật tốn, Điều quang trọng là nghiên cứu thực tế có thể chi phối  các đặc trưng và các Phương pháp phân nhóm Một số ứng dụng của phân tích chùm Phân tích chùm có nhiều tên gọi khac nhau như: phân tích Q, phân tích phân loại,  phân tích bằng kĩ thuật định lượng,… Có nhiều tên gọi khác nhau như vậy là vì  phương pháp phân tích chùm được ứng dụng trong nhiều lĩnh vực khác nhau. Phân tích  chùm đã và đang được sử dụng rộng rãi và có đóng góp quan trọng trong mọi mặt đời  song xã hội. Các ứng dụng chính bao gồm: Trong thương mại: Phân tích chùm có thể giúp khám phá ra các khách hang  quang trọng có các đặc trưng tương đồng nhau và đặc tả trong cơ sở mua bán từ dữ  liệu khách hàng. Từ đó nâng cao lợi nhuận, cải thiện thu nhập Trong sinh học: phương pháp này hữu dụng để phát hiện các lồi sinh vật , phân  loại các gen với các chức năng tương đồng và thu thập được các cấu trúc trong các  mẫu Trong phân tích dữ liệu khơng gian: Do sự đồ sộ của các dữ liệu khơng gian  như các hình ảnh thủ được từ các hình ảnh chụp dduocj từ các vệ tinh, các thiết bị  khoa học hay các hệ thống thơng tin địa lí(GÍ),… làm cho người dùng rất khó kiểm tra  các dữ liệu khơng gian một cách chi tiết rõ ràng. Phương pháp phân tích chùm có thể  trợ giúp nguoief dùng tự động phân tích và xử lí các dự liệu khơng gian như nhận dạng  chiết xuất các đặc tính hoặc các dữ liệu quan tâm có thể tồn tại trơng cơ sở dữ liệu  khơng gian Trong web mining: Phân tích chùm có thể khám phá ra các nhóm tài liệu quan  trọng. có ý nghĩa theo tiêu chí đặc ra. Tương lai của web mining sẽ ngày càng phát  triển cùng với sụ phát triển của internet Trong địa lí: Phân lớp động vật và thực vật và đưa ra đặc trung của chúng Trong qui hoạch đơ thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lí,…  Nhằm cung cấp thơng tin cho qui hoạch đơ thị Trong nghiên cứu trái đất: Phân tích chùm để theo dõi các trận động đất nhằm  cung cấp thơng tin cho nhận dạng các vùng nguy hiểm Trong nén dữ liệu: Tìm ra các nhóm thể hiện đồng nhất từ đó có thể hổ trợ nén  dữ liệu Chương I: PHÂN TÍCH CHÙM KHƠNG MỜ 1.1 GIỚI THIỆU Theo Jain và Dubes (1988), Kaufman và Rousseeuw (1990), Sharma (1996) và  Everitt et al (2001), phân tích chùm là một phương pháp thống kê đa biến nhằm nhóm  một tập các đối tượng lại thành các chùm theo những đặc điểm định trước. Chùm  được coi như là một nhóm dữ liệu, trong đó những phần tử trong cùng một chùm thì có  sự tương tự nhau theo một nghĩa nào đó. Khi có nhiều dữ liệu, người ta muốn chia các  dữ liệu này thành nhiều nhóm sao cho những đối tượng trong cùng nhóm thì gần nhau  hơn so với những đối tượng của nhóm khác. Từ u cầu đó bài tốn phân tích chùm ra  đời. Chúng ta có thể hiểu phân tích chùm là việc nhóm các phần tử trong dữ liệu ban  đầu thành các chùm sao cho các phần tử trong cùng một chùm thì tương tự nhau theo  một dấu hiệu nào đó. Khi chùm được xây dựng, những phần tử trong cùng một chùm  sẽ có sự tương tự nhiều hơn so với những phần tử của chùm khác. Bài tốn phân tích  chùm là một hướng phát triển quan trọng của nhận dạng thống kê, thường được gọi là  nhận dạng khơng được giám sát. Phần tử trong phân tích chùm là những phần tử rời  rạc hoặc các hàm mật độ xác suất. Đối với phần tử rời rạc, việc xác định sự tương tự  của các phần tử chủ yếu dựa vào khoảng cách giữa các phần tử đó, những phần tử có  khoảng cách nhỏ nhất so với những phần tử khác thì gần nhau hơn và được xếp cùng  một chùm.   Hiện tại có hai phương pháp chủ yếu để xây dựng chùm cho các phần tử rời rạc:  phương pháp thứ bậc và phương pháp khơng thứ bậc. Trong đó khoảng cách của hai  phần tử được sử dụng chủ yếu là khoảng cách Euclide và khoảng cách . Trong khi  khoảng cách giữa hai tập hợp được sử dụng là khoảng cách min, khoảng cách max,  khoảng cách trung bình và khoảng cách Ward. Các phần mềm thống kê như Matlab,  Maple, … đều có những gói sử dụng cho bài tốn phân tích chùm các phần tử rời rạc  với các tiêu chuẩn đánh giá là các khoảng cách vừa nêu.    Phân tích chùm được sử dụng đầu tiên bởi Tryon (1939) với một số ý tưởng đơn  giản ban đầu. Các ý tưởng này được phát triển thành các thuật tốn phân tích chùm cụ  thể bởi Sibson (1973), Defays (1977) và Rohlf (1982). Các thuật tốn này dựa trên tiêu  chuẩn khoảng cách giữa các phần tử rời rạc. Nhiều tác giả đã phát triển thuật tốn  này bằng cách thay đổi những khoảng cách khác nhau. Webb (2002) đã tổng kết khá  đầy đủ bài tốn phân tích chùm của các dữ liệu rời rạc.  Phân tích chùm được ứng dụng khá phổ biến trong nhiều lĩnh vực: sinh học, y  học, kinh tế, xã hội…. Hartigan (1975) đã cung cấp một bảng tóm tắt tương đối đa  dạng và đầy đủ những nghiên cứu thực tế của bài tốn phân tích chùm. Chẳng hạn  như, trong y học phân tích chùm giúp phân loại bệnh có những dấu hiệu gần nhau.  Trong khoa học khí tượng, phân tích chùm đã phát triển rộng rãi từ năm 1990  cho đến  nay. Trong khảo cổ học, phân tích chùm dùng để phân loại cơng cụ bằng đá. Eshref  Shevki và Wendell Bell (1955) sử dụng phân tích chùm trong điều tra dữ liệu dân số.  Nhóm tác giả Piotr Kulczycki, Malgorzata Charytanowicz, Piotr A. Kowalski, Szymon  Lukasik (2011) dùng phân tích chùm để phân loại hạt giống ngũ cốc phục vụ cho sản  xuất và hỗ trợ chiến lược tiếp thị điều hành điện thoại di động cho các nhà cung cấp  mạng điện thoại di động Ở Việt Nam, chúng tơi chưa tìm thấy những đóng góp đáng kể về mặt lý thuyết  cho bài tốn phân tích chùm, tuy việc áp dụng đã được một số nhà tốn học, tin học  quan tâm trong lĩnh vực khai phá dữ liệu.  1.2 TIÊU CHUẨN XÂY DỰNG CHÙM CÁC PHẦN TỬ RỜI RẠC 1.2.1 Khoảng cách giữa hai phần tử rời rạc Khoảng cách là đại lượng dùng để đánh giá sự tương tự của các chùm khi dữ  liệu phân tích là các phần tử rời rạc. Khoảng cách giữa hai phần tử là một metric,  nghĩa là nếu là khoảng cách của hai phần tử x và y thì phải thỏa các điều kiện sau đây: i) d(x,y)  0  . Dấu bằng xảy ra khi , ii) d(x,y) = d(y,x), iii) d(x,y) + d(y,z)  d(x,z) Theo 3 điều kiện trên, ta có thể định nghĩa khoảng cách giữa 2 phần tử x và  y (x, y) theo nhiều cách khác nhau. Thơng thường các loại khoảng cách sau được  sử dụng phổ biến: Khoảng cách Euclide:  (1.1) Khoảng cách city­ block:  (1.2) Khoảng cách Chebyshev:  (1.3) Khoảng cách Minkowski với bậc m:  (1.4) Nhận xét: i) Khoảng   cách   Euclide     khoảng   cách   thường     sử   dụng     trong trong tốn học, nó mơ tả độ dài của đoạn thẳng nối hai điểm x và y ii)  Khoảng cách city­block mơ tả tổng độ dài (tổng các khoảng cách Euclide) của   n đoạn gấp khúc nối hai điểm x, y thuộc khơng gian n chiều. Mỗi đoạn trong n đoạn   này sẽ song song với 1 trục tương ứng trong n trục chúng ta chọn làm hệ quy chiếu iii) Khoảng cách Chebyshev mơ tả  đoạn thẳng có độ  dài lớn nhất trong n đoạn   gấp khúc đã được đề cập trong khoảng cách city­ block. Đây là khoảng cách tổng qt   nhất, với những m khác nhau, khoảng cách Minkowski bậc m sẽ  tương  ứng với một   loại khoảng cách khác nhau. Với m =1, , với m = 2, , độ  lớn của khoảng cách càng   giảm khi m càng tăng, khi m,  Hình vẽ sau minh họa 3 khoảng cách phổ biến của hai điểm x(1;2) và  y(2;4) Khoang cach Euclide mo ta dai doan thang y(2;4) Khoang cach Chebyshev mo ta dai duongt gap khuc lon nha x(1;2) Khoang cach city-block mo ta dai doan gap khuc -1 -2 -2 -1 Hình 1.1: Các loại khoảng cách giữa hai phần tử x và y Như đã thấy, khoảng cách Euclide mơ tả đoạn thẳng nối 2 điểm x và y trong khi  khoảng cách city­block mơ tả 2 đoạn gấp  khúc nối x và y, chúng lần lượt song song  với trục hồnh và trục tung của hệ tọa độ. Tương tự như vậy, nếu x, y thuộc khơng  gian  thì khoảng cách city­block sẽ mơ tả  3 đoạn thẳng lần lượt song song với Ox, Oy,   Oz. Hình trên cũng chỉ ra khoảng cách Chebyshev mơ tả đoạn thẳng dài nhất trong hai  đường gấp khúc 1.2.2 Khoảng cách giữa hai tập các phần tử rời rạc Cho A, B là hai nhóm, mỗi nhóm gồm nhiều phần tử rời rạc khác nhau. Gọi  D(A;B) là khoảng cách giữa hai nhóm A và B, d(x,y) là khoảng cách giữa phần tử x và  phần tử   y (). Thơng thường ta sử dụng các định nghĩa sau cho D(A;B): Khoảng cách min:   (1.5) Khoảng cách max:   (1.6) Khoảng cách trung bình:  (1.7) Với  lần lượt là số phần tử của nhóm A và nhóm B Nhận xét:  i) Việc tính khoảng cách giữa hai nhóm dữ  liệu khơng chỉ  phụ  thuộc vào việc   chọn loại khoảng cách giũa hai nhóm mà còn phụ thuộc vào loại khoảng cách   giữa hai phần tử, do đó sẽ  có nhiều kết quả  khác nhau tùy vào loại khoảng   cách     chọn   Cho  đến   nay,   người  ta   chưa   chứng   minh     sử   dụng   khoảng cách nào là tối  ưu. Trong thực tế  các loại khoảng cách phổ  biến đã   được nêu ở trên thường được sử dụng nhiều nhất ii) Khi   hai   nhóm   A     B     nhập   lại   thành     nhóm   (A+B)     việc   tính   khoảng cách từ  nhóm (A+B) đến một nhóm C bất kỳ  cũng có thể  thực hiện   theo những cơng thức trên. Tuy nhiên, ta có thể  áp dụng những cơng thức sau   đây để cho việc tính tốn được thuận tiện hơn   (1.8)    (1.9)   (1.10) Ngồi các khoảng cách thơng dụng trên, Ward (1963) đã đưa ra cơng thức tính  khoảng cách trường hợp này bằng biểu thức: (1.11) Trong đó,, và lần lượt là số phần tử của nhóm A, B và C Ví dụ 1.1. Cho  Tính: a)  giữa A và B b)   giữa A+C và B Giải Trước tiên ta chọn khoảng cách Euclide làm khoảng cách giữa hai phần tử.  Khoảng cách giữa các nhóm được tính như sau: a)               = = 2.5 Tương tự                =  b) =  =              =  Ta có thể mơ tả hình học ví dụ trên như sau: Y Dmax(A,B) Nhom A+C Nhom A Nhom C Dmin(A,B) Dmin(A+C,B) X O -1 Dmax(A+C,B) Nhom B -2 -3 -6 -5 -4 -3 -2 -1 Y Nhom A Nhom C X O -1 Nhom B -2 -3 -6 -5 -4 -3 -2 -1 Hình 1.2: Khoảng cách giữa các nhóm  bằng trung bình các khoảng cách được thể hiện bởi các đoạn thẳng liền nét  bằng trung bình các khoảng cách được thể hiện bởi các đoạn thẳng liền nét và  khơng liền nét Chú ý: i) Trước khi tính khoảng cách đối với các biến dữ liệu kiểu số thì cần chú ý về  vấn đề chuẩn hóa dữ liệu sao cho chúng cùng một thang đo dữ liệu. Tình huống thực  tế nảy sinh là có nhiều dữ liệu nhưng thang đo khác nhau. Ví dụ trong bộ dữ liệu có  các thuộc tính như: cân nặng, chiều cao, lương,… đều là dữ liệu kiểu số nhưng rõ  ràng thang đo của chúng là khác nhau (cân tính theo kg, chiều cao tính theo cm hay m,  lương tính theo đơn vị đồng, ). Nếu sử dụng trực tiếp ngay khoảng cách trên tập dữ  liệu số chưa được chuẩn hố dễ gây sai lệch về độ đo. Ví dụ khoảng cách trọng  lượng giữa hai người là 10 kg được coi là lớn (cách xa nhau), nhưng khoảng cách  lương 100 000 có thể coi là nhỏ (đối với vật giá hiện tại). Nhưng số 100 000 lại là  q lớn so với 10. Do đó các dữ liệu cần được chuẩn hố về cùng một “thang bậc”  để khơng ảnh hưởng đến phân tích chùm ii) Có nhiều loại dữ liệu khác nhau có thể thực hiện bài tốn phân tích chùm.  Thơng thường ta có các loại dữ liệu phổ biến là dữ liệu kiểu số, nhị phân, định giá,  thứ tự,… 1.3 XÂY DỰNG CHÙM CÁC PHẦN TỬ RỜI RẠC 1.3.1 Phương pháp thứ bậc Một trong những phương pháp phổ biến trong cả phân tích chùm là phương pháp  thứ bậc. Kết quả của phương pháp này là tạo ra một dãy các chùm, trong đó một số  chùm có thể chứa các lớp con bên trong nó, và đến lượt các lớp con này lại chứa bên  trong nó các lớp con nhỏ hơn.  Cấu trúc chùm được minh họa bởi một đồ thị hai chiều  được gọi là sơ đồ (sơ đồ nhánh hoặc cây phân tích chùm). Cây phân tích chùm minh  họa cho việc hợp nhất hoặc chia nhỏ các chùm đã  được thực hiện bằng cách phân  nhóm, và có thể hiển thị theo chiều dọc hoặc chiều ngang Hình 1.3: Cây phân tích chùm 3 phần tử A, B, C Thuật tốn phân tích chùm theo phương pháp thứ bậc cụ thể như sau: Bước 1: Bắt đầu với n chùm, mỗi chùm chứa một phần tử. Tính từng đơi khoảng  cách của hai phần tử. Thành lập ma trận đối xứng của các khoảng cách  với  là  khoảng cách giữa hai phần tử i và j,  Bước 2: Trong ma trận khoảng cách E, tìm khoảng cách nhỏ nhất của hai chùm  khác nhau, tức là hai chùm có sự tương tự nhiều nhất Bước 3: Gọi  là khoảng cách giữa hai chùm U và V có sự tương tự nhau nhất.  Hợp nhất hai chùm U và V thành chùm mới. Tính tốn lại ma trận khoảng cách giữa  các chùm mới.  Bước 4: Lặp lại bước 2 và bước 3 cho đến khi các phần tử được nhóm lại thành  một chùm duy nhất.  Ví dụ 1.2. Gọi là số lần bắn trúng trọng tâm của 4 xạ thủ . Sử dụng khoảng cách  giữa các phần tử là khoảng cách Euclide, khoảng cách giữa các tập hợp là khoảng cách  trung bình, ta tiến hành phân tích chùm bằng phương pháp thứ bậc như sau: ­ Ban đầu, xem mỗi phần tử là một chùm, ta có ma trận khoảng cách ban đầu của  các chùm: ­ Hợp nhất hai chùm  A   B  lại thành chùm (AB) tính tốn lại ma trận khoảng  cách: ­ Hợp nhất hai chùm C và D lại thành chùm (CD), tính tốn lại ma trận khoảng  cách: 10 CHƯƠNG III :TIÊU CHUẨN XÂY DỰNG CHÙM CÁC HÀM MẬT ĐỘ  XÁC SUẤT 3.1GIỚI THIỆU Khi làm việc với tập dữ liệu lớn, đến từ nhiều nguồn khác nhau, người ta có  nhu cầu phân chia chúng thành những nhóm với những phần tử “gần” nhau theo một dấu hiệu được chọn lựa, từ đó bài tốn phân tích chùm ra đời. Phân tích chùm là việc nhóm các phần tử trong tập hợp đã cho thành các chùm sao cho các phần tử trong cùng chùm tương tự nhau theo những dấu hiệu được chọn lựa. Khi chùm được xây dựng, những phần tử trong cùng một chùm sẽ có sự tương tự nhiều hơn so với những phần tử của chùm khác. Có rất nhiều ứng dụng cụ thể trong những lĩnh vực khác nhau của bài tốn phân tích chùm: y học, sinh học, kinh tế, kỹ thuật, xã hội,…và trong bất kỳ lĩnh vực nào nơi việc nhóm những phần tử lại với nhau được đòi hỏi. Một số tác giả như Sibson (1973), Defays (1977), Rohlf (1982),…đã đưa ra những thuật tốn cụ thể cho những dữ liệu rời rạc. Fukunaga (1990), Webb (2002) đã tổng kết những phương pháp liên quan đến phân tích chùm. Nhưng vấn đề phân tích chùm cũng chỉ xét cho dữ liệu rời rạc với tiêu chuẩn đánh giá “gần” và “xa” bởi khoảng cách truyền thống mà khơng dựa vào sự phân bố của dữ liệu Do đó, trong một số trường hợp nó tạo ra sự nghịch lý: phần tử đúng lý phải  xếp vào chùm này nhưng lại được xếp vào chùm kia. Năm 2010 nhóm tác giả Võ Văn Tài, Phạm Gia Thụ đã đưa ra khái niệm độ rộng chùm làm tiêu chuẩn phân tíchchùm các hàm mật độ xác suất. Độ rộng chùm được định nghĩa qua tích phân hàm cực đại của các hàm mật độ xác suất, vì vậy khi đánh giá sự tương tự của các phần tử, yếu tố phương sai đã được xem xét. Điều này thể hiện sự hợp lý hơn trong phân tích chùm. Tuy nhiên, trong việc giải quyết bài tốn chùm các hàm mật độ xác suất, vấn đề ước lượng hàm mật độ xác suất từ số liệu rời rạc và việc tính độ rộng chùm vẫn còn gặp nhiều khó khăn. Trong bài viết này chúng tơi có bổ sung kết quả lý thuyết liên quan đến độ rộng chùm và vấn đề tính tốn qua các chương trình được viết trên phần mềm Matlab. Một ví dụ với số liệu thực về điểm rèn luyện và điểm học tập của sinh viên Khoa Khoa học Tự nhiên, Trường Đại học Cần Thơ được đưa ra để kiểm chứng các thuật tốn, các chương trình đã viết và cũng để minh họa cho các ứng dụng của bài tốn phân tich chùm 3.2 SỰ TƯƠNG TỰ VÀ ĐỘ RỘNG CHÙM CÁC HÀM MẬT ĐỘ XÁC SUẤT 3.2.1 Sự tương tự của các hàm mật độ xác suất Tiêu chuẩn đánh giá sự tương tự của hai phần tử rời rạc là khoảng cách truyền thống. Người ta cũng có nhiều định nghĩa khác nhau về khoảng cách của hai chùm rời rạc, tuy nhiên việc chọn khoảng cách nào là tối ưu để đánh giá sự tương tự của 43 các phần tử rời rạc là câu hỏi đã được nhiều nhà tốn học quan tâm, nhưng hiện còn bỏ ngõ. Trong trường hợp 2 hàm mật độ xác suất, sự tương tự của chúng thơng thường cũng được đánh giá qua khái niệm khoảng cách như: Khoảng cách Chernoff, khoảng cách Bhattacharyya, khoảng cách Divergence,…Khi có nhiều hơn hai hàm mật độ xác suất, nghiên cứu về tính tương tự của nó chưa được các nhà tốn học quan tâm nhiều. Có hai khái niệm cổ điển được đưa ra ở trường hợp này. Đó là khái niệm độ đo tách rời của Glick (1973) và affinity của Matusita (1967) cũng như của Toussaint (1972) Định nghĩa 1: Một hàm đối xứng s được gọi là độ đo k (k ≥ 2) điểm tách rời  cho tập S trong khơng gian véc tơ với chuẩn . nếu với mọi phần tử a a a S k , ,  , ∈ S nó thỏa mãn điều kiện          (1) Từ (1) có nhiều định nghĩa cụ thể về hàm s đã được chỉ ra Định nghĩa 2: Cho k hàm mật độ xác suất k f , f , , f 1 2 , ( k ≥ 2 ), ta có các  định nghĩa affinity như sau: i) Affinity của Matusita:                     (2) ii) Affinity của Toussaint:                    (3) Trong đó        Trong trường hợp đặc biệt k    thì affinity của Toussaint trở thành affinity của  Matusita, và khi k = 2 thì nó trở thành affinity của Hellinger 3.2.2 Độ rộng chùm a) Định nghĩa Định nghĩa 3: Cho k hàm mật độ xác suất trên  , độ rộng của chùm  được định nghĩa như sau:                   (4) Định nghĩa 4: Cho     là các hàm mật độ xác suất,chúng ta định nghĩa độ  rộng của chùm  là      và  độ rộng của chùm  là   b) Định lý về độ rộng chùm Cho  là hàm mật độ xác suất của k +1 tổng thể. Chúng ta có các kết quả sau về độ rộng của chùm: i)                (5) Trong đó  ii)                      (6) Trong đó n, k ≥ 3, n 

Ngày đăng: 15/01/2020, 08:27

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan