1. Trang chủ
  2. » Luận Văn - Báo Cáo

bài tập chuyên đề datamining - gom cụm

24 845 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 1,4 MB

Nội dung

Bài tập chuyên đề Datamining_nhóm 2 GVHD: Nguyễn Hương Giang Gom cụm (clustering) Phân tích bằng gom cụm  Phân tích bằng gom cụm là gì ?  Đối tượng tương tự và không tương tự  Các loại dữ liệu trong phân tích bằng gom cụm  Các phương pháp gom cụm chính  Các phương pháp phân cấp  Các phương pháp phân hoạch  Tóm tắt I)Phân tích bằng gom cụm là gì ? Gom cụm nhìn từ góc độ tự nhiên là một việc hết sức bình thường mà chúng ta vẫn làm và thực hiện hàng ngày ví dụ như phân loại học sinh khá, giỏi trong lớp, phân loại đất đai, phân loại tài sản, phân loại sách trong thư viện…  Gom cụm: Gom các đối tượng dữ liệu o Tương tự với một đối tượng khác trong cùng cụm o Không tương tự với các đối tượng trong các cụm khác (Tức là thực hiện gom các đối tượng có cùng tính chất hay có các tính chất gần giống nhau thành nhóm) o Ví dụ: Phân loại học sinh trong một lớp theo điểm số thành 5 nhóm giỏi, khá, trung bình khá, trung bình, yếu. Những học sinh có điểm từ 8-10 phân vào nhóm giỏi, từ 7-8 phân vào nhóm khá, 6-7 phân vào nhóm trung bình khá, 5-6 nhóm TB, 5 trở xuống vào nhóm yếu.  Mục tiêu của gom cụm: Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng.  Ứng dụng của gom cụm: o Kinh doanh: phát hiện ra nhóm khách hàng. Ví dụ Trong tiếp thị mỹ phẩm có thể phân nhóm khách hang ưa chuộng mỹ phẩm Hàn Quốc, nhóm khách hang ưa chuộng Mỹ phẩm pháp… o Sinh học: phân loại động, thực vật, phân loại gen. o Địa lí: nhận ra các vùng đất giống nhau dựa vào CSDL quan sát trên trái đất, phân nhóm nhà,… Bài tập chuyên đề Datamining_nhóm 2 GVHD: Nguyễn Hương Giang o Bảo hiểm: nhận dạng các nhóm công ty có chính sách bảo hiểm mô tô với chi phí đền bù trung bình cao o Hoạch định thành phố: nhận dạng các nhóm nhà cửa theo loại nhà, giá trị và vị trí địa lý. o Một công cụ độc lập để xem xét phân bố dữ liệu o Làm bước tiền xử lý cho các thuật toán khác  Thế nào là gom cụm tốt − Một phương pháp tốt sẽ tạo ra các cụm có chất lượng cao với: o Tương tự cao cho trong lớp (intra-class) o Tương tự thấp giữa các lớp (inter-class) o Tức là những đối tượng cùng một nhóm có sự giống nhau hoặc gần giống nhau càng nhiều thì chất lượng gom cụm sẽ càng cao − Chất lượng của kết quả gom cụm phụ thuộc vào: o Độ đo tương tự sử dụng o Cài đặt độ đo tương tự  Các yêu cầu của gom cụm trong khai phá dữ liệu.  Scalability: Có thể thay đổi kích cỡ.  Khả năng làm việc với các loại thuộc tính khác nhau.  Khám phá ra các cụm có hình dạng bất kì.  Khả năng làm việc với dữ liệu có chứa nhiễu ( outliers)  Tương tự và bất tương tự giữa hai đối tượng (1) − Không có định nghĩa duy nhất về sự tương tự và bất tương tự giữa các đối tượng dữ liệu − Định nghĩa về tương tự và bất tượng tự giữa các đối tượng tùy thuộc vào o Loại dữ liệu khảo sát o Loại tương tự cần thiết − Tương tự /Bất tượng tự giữa đối tượng thường được biểu diễn qua độ đo khoảng cách d(x,y) − Lý tưởng, mọi độ đo khoảng cách phải là một và phải thỏa các điều kiện sau: ),(),(),( 4. ),(),( 3. iff 0),( 2. 0),( 1. zydyxdzxd xydyxd yxyxd yxd +≤ = == ≥ Bài tập chuyên đề Datamining_nhóm 2 GVHD: Nguyễn Hương Giang II)Loại dữ liệu trong phân tích cụm  Các biến khoảng tỉ lệ  Biến nhị phân  Các biến định danh, thứ tự, tỉ lệ  Các biến có kiểu hổn hợp  Các kiểu dữ liệu phức tạp Các biến trị khoảng (1) Định nghĩa: Biến trị khoảng là các phép đo liên tục của các thang đo tuyến tính, thô. Ví dụ: trọng lượng, chiều cao, chiều ngang, chiều dọc, tuổi, nhiệt độ thời tiết.  Một nhóm các độ đo khoảng cách phổ biến cho biến tỉ lệ theo khoảng là khoảng cách Minkowski. )|| |||(|),( 2211 q q jpip q ji q ji xxxxxxjid −++−+−= + Với i = (xi1, xi2, …, xip) và j = (xj1, xj2, …, xjp) là các đối tượng dữ liệu p-chiều và q là số nguên dương  Nếu q = 1, độ đo khoảng cách là Manhattan  Nếu q = 2, độ đo khoảng cách là khoảng cách Euclidean Các biến nhị phân (1)  Biến nhị phân chỉ có hai trạng thái là 0 hay 1  Bảng contingency table cho dữ liệu nhị phân: Subject j Subject i )|| |||(|),( 22 22 2 11 pp j x i x j x i x j x i xjid −++−+−= pdbcasum dcdc baba sum ++ + + 0 1 01 || ||||),( 2211 pp j x i x j x i x j x i xjid −++−+−= Bài tập chuyên đề Datamining_nhóm 2 GVHD: Nguyễn Hương Giang  Hệ số Jaccard coefficient (tương tự không bất biến, nếu biến nhị phân là bất đối xứng): − Biến nhị phân đối xứng và bất đối xứng o Một biến nhị phân là đối xứng nếu đồng thời các trạng thái của nó có tầm quan trọng như nhau và mang cùng một trọng số. Do đó, không có sự ưu tiên khi kết quả đưa ra phải được mã hoá là 0 hoặc 1. Ví dụ thuộc tính giới tính có 2 trạng thái là male và female. Tính tương tự giữa các biến nhị phân đối xứng được gọi là tính tương tự bất biến, trong đó kết quả không thay đổi khi 1 hoặc tất cả các biến nhị phân được mã hoá khác nhau. Với các tính giống nhau bất biến, một hệ số được biết đến nhiều nhất để xác định sự khác nhau giữa đối tượng i và j là hệ số đối sánh đơn giản, được định nghĩa như sau: - Một biến nhị phân là không đối xứng nếu các kết quả của các trạng thái không có tầm quan trọng như nhau. Chẳng hạn kết quả âm tính và dương tính khi khám bệnh. Theo thói quen, chúng ta sẽ mã hoá kết quả quan trọng nhất, thường là kết quả ít xẩy ra bằng 1 (HIV dương tính) và bằng 0 cho kết quả khác (HIV âm tính). Tính tương tự giữa các biến này được gọi là tương tự không bất biến. Với sự tương tự không bất biến, hệ số được biết đến nhiều nhất là hệ số Jaccard trong đó số phép so sánh phủ định coi như không quan trọng và do đó được bỏ qua khi tính toán. cba cb jid ++ + =),( Ví dụ: Bảng hồ sơ bệnh nhân Name(tên) Gender(giớ Fever(ho) Cough(sốt Test-1 Test-2 Test-3 Test-4 dcba cb jid +++ + = ),( Bài tập chuyên đề Datamining_nhóm 2 GVHD: Nguyễn Hương Giang i tính) ) Jack M Y N P N N N Mary F Y N P N P N Jim M Y P N N N N Có 8 thuộc tính Name, Gender, Fever, Cough, Test-1, Test-2, Test-3, Test-4 trong đó:  Gender là thuộc tính nhị phân đối xứng  Các thuộc tính còn lại là nhị phân bất đối xứng Ta gán các trị Y và P bằng 1 và trị N được gán bằng 0. Tính khoảng cách giữa các bệnh nhân dựa vào các bất đối xứng dùng hệ số Jacard ta có bảng giá trị như sau: name Fever Cough Test-1 Test-2 Test-3 Test-4 Jack 1 0 1 0 0 0 Marry 1 0 1 0 1 0 Jim 1 1 0 0 0 0 + Tính d(Jack,Marry): • Bảng dữ liệu dạng nhị phân: Marry Bài tập chuyên đề Datamining_nhóm 2 GVHD: Nguyễn Hương Giang Jack 1 0 sum 1 2 0 2 0 1 3 4 sum 3 3 6 Từ bảng ta có:a=2, b=0, c=1, d=3 D(Jack,Marry): 102 10 ++ + =0.33 + Tính:d(Jack,Jim): Bảng dữ liệu nhị phân: Jim Jack 1 0 sum 1 1 1 2 0 1 3 4 sum 2 4 6 Từ bảng ta có : a=2, b=1, c=2, c=3 Bài tập chuyên đề Datamining_nhóm 2 GVHD: Nguyễn Hương Giang D(jack,jim)= 111 11 ++ + =0.67 + Tính d(jim,marry): Bảng dữ liệu nhị phân: mary Jim 1 0 sum 1 1 1 2 0 2 2 4 sum 3 3 6 từ bảng: a=1, b=1, c=2 d(jim,marry)= 211 21 ++ + =0,75 Như vậy, theo tính toán trên Jim và Marry có khả năng mắc bệnh giống nhau nhiều nhất vì d(jim, marry)=0.75 là lớn nhất. Các biến định danh ( nominal variables) Định nghĩa: Biến định danh là mở rộng của biến nhị phân với nhiều hơn hai trạng thái. Ví dụ: thuộc tính màu sắc: đỏ, vàng, xanh, lục. Có hai phương pháp để tính toán sự tương tự giữa hai đối tượng: • Phương pháp 1: Đối sánh đơn giản với m là số lần đối sáng, p là tổng số các biến p mp jid − =),( • Phương pháp 2: Dùng một số lượng lớn các biến nhị phân. Bài tập chuyên đề Datamining_nhóm 2 GVHD: Nguyễn Hương Giang  Tạo biến nhị phân mới cho từng trạng thái định danh. Các biến thứ tự :có thể là liên tục hay rời rạc  Thứ tự của các trị là quan trọng, ví dụ hạng.  Có thể xử lý như tỉ lệ khoảng như sau: - Thay thế x if bởi hạng của chúng - ánh xạ phạm vi của từng biến vào đoạn [0,1] bằng cách thay thế đối tượng i trong biến thứ f bởi }, ,1{ fif Mr ∈ - Tính sự khác nhau dùng các phương pháp cho biến tỉ lệ theo khoảng 1 1 − − = f if if M r z Các biến thang đo tỉ lệ Định nghĩa: Là các biến có độ đo dương trên thang phi tuyến, xấp xỉ thang đo mũ. Ví dụ: Ae Bt hay Ae -Bt . Các phương pháp tính độ tương tự:  Xử lý chúng như các biến thang đo khoảng  áp dụng các biến đổi logarithmic  Xử lý chúng như dữ liệu thứ tự liên tục  Xử lý chúng theo hạng như thang đo khoảng. Các biến có kiểu hỗn hợp Một cơ sở dữ liệu có thể chứa đồng thời cả sáu loại biến. Khi đó có thể dùng công thức được gán trọng để kết hợp các hiệu quả: ∑ ∑ = = = p f f ij p f f ij f ij d jid 1 )( 1 )()( ),( δ δ với 0= f ij δ nếu x if hoặc x jf missing Bài tập chuyên đề Datamining_nhóm 2 GVHD: Nguyễn Hương Giang hoặc x if =x jf =0 trường hợp khác 1= f ij δ  Đóng góp của biến f vào khoảng cách d(i,j): - Nếu f là biến nhị phân hay định danh: 0 )( = f ij d nếu x if =x jf các trường hợp khác 1 )( = f ij d - Nếu f là dựa trên khoảng cách: dùng khoảng cách được chuẩn hoá. - Nếu f là thứ tự thang đo tỉ số tính các hạng r if và xử lý z if như thang đo khoảng 1 1 − − = f if if M r z Các biến tỉ lệ o Độ đo dương trên thang phi tuyến, xấp xỉ thang đo mũ o Ví dụ Ae Bt hay Ae -Bt o Các phương pháp: xử lý chúng như các biến thang đo khoảng không phải là lựa chọn tốt ! áp dụng biến đổi logarithmic yif = log(xif) xử lý chúng như dữ liệu thứ tự liên tục và xử lý chúng theo hạng như thang đo khoảng Các biến có kiểu hỗn hợp o CSDL Có thể chứa cả sáu loại biến o Có thể dùng công thức được gán trọng để kết hợp các hiệu quả: )( 1 )()( 1 ),( f ij p f f ij f ij p f d jid δ δ = = Σ Σ = 1 otherwise ;0or missing, is or if 0 )( = == = δ (f) ij jfif jfif f ij xx xx δ Bài tập chuyên đề Datamining_nhóm 2 GVHD: Nguyễn Hương Giang Đóng góp của biến f vào khoảng cách d(i,j): - Nếu f là biến nhị phân hay định danh: 0 )( = f ij d nếu x if =x jf các trường hợp khác 1 )( = f ij d - Nếu f là dựa trên khoảng cách: dùng khoảng cách được chuẩn hoá. - Nếu f là thứ tự thang đo tỉ số tính các hạng r if và xử lý z if như thang đo khoảng 1 1 − − = f if if M r z Các kiểu dữ liệu phức tạp Tất cả các đối tượng được xem xét a trong KPDL là không quan hệ => Loại dữ liệu phức tạp Ví dụ về loại dữ liệu như vậy là dữ liệu không gian, dữ liệu đa phương tiện, dữ liệu di truyền, dữ liệu văn bản, dữ liệu chuỗi thời gian, dữ liệu văn bản và dữ liệu được thu gom từ World-Wide Web Các độ đo tương tự và bất tương tự thường hoàn toàn khác nhau ứng với các loại dữ liệu trên III. Các phương pháp gom cụm (clustering) chính yếu  Các phương pháp phân cấp  Các phương pháp dựa trên phân hoạch III.1 Phương pháp phân cấp ( Hierachical methods): Phân cấp: Tạo phân cấp cụm chứ không phải phân hoạch các đối tượng. Khác với phân hoạch, phân cấp không cần số cụm k ở đầu vào và dùng ma trận khoảng cách làm tiêu chuẩn gom cụm. Trong phương pháp phân cấp có thể dùng điều kiện dừng. Ví dụ: số cụm. Cây các cụm Phân cấp cụm thường được biểu diễn dưới dạng cây của các cụm. Trong đó: [...]... hoạch thành tập có k cụm sao cho: - Mỗi cụm chứa ít nhất một đối tượng - Mỗi đối tượng thuộc về một cụm duy nhất - Cho trị k, tìm phân hoạch có k cụm sao cho tối ưu hoá tiêu chuẩn phân hoạch được chọn b Các phương pháp b.1.Phương pháp gom cụm k-mean Input: Số các cụm k cần gom và cơ sở dữ liệu chứa n đối tượng Bài tập chuyên đề Datamining_ nhóm 2 GVHD: Nguyễn Hương Giang Output: k cụm đã được gom Thuật... gom Thuật giải: gồm 4 bước - Bước1: Phân hoạch đối tượng thành k tập con ( cụm) ngẫu nhiên - Bước 2: Tính các tâm ( trung bình của các đối tượng trong cụm) cho từng cụm trong phân hoạch hiện hành - Bước 3: Gán mỗi đối tượng cho cụm tâm gần nhất - Bước 4: Nếu cụm không có sự thay đổi thì dừng, ngược lại quay lại bước 2 Ví dụ về thuật toán k-mean, n=10, k=2 Bài tập chuyên đề Datamining_ nhóm 2 GVHD: Nguyễn... tượng trong cụm( gán đối tượng cho cụm có tâm gần nhất)  Bước 4: Nếu gán tâm mới thì quay lại bước 2, ngược lại thì dừng Bài tập chuyên đề Datamining_ nhóm 2 Ví dụ thuật toán k-medoid, n=10, k=2 GVHD: Nguyễn Hương Giang Bài tập chuyên đề Datamining_ nhóm 2 GVHD: Nguyễn Hương Giang Gán mỗi đối tượng còn lại vào cụm có tâm mới • • Bước 1: Chọn 2 điểm có toạ độ K1 (3,8) và K2(6,4) làm tâm của 2 cụm Bước 2:... 0.35 3.82 0.79 2.82 2.47 2.15 4.65 4.65 6.05 Thuộc cụm 1 Thuộc cụm 2 x x x x x x x x x x Nhận xét: Sau khi thực hiện bước 3 các cụm không có sự thay đổi nên dừng tại đây  Điểm mạnh của phương pháp gom cụm k- means - Hiệu suất tương đối: O(nkt) với n là số đối tượng, k là số cụm, t là số lần lặp Thông thường k, t . pháp gom cụm k-mean Input: Số các cụm k cần gom và cơ sở dữ liệu chứa n đối tượng. Bài tập chuyên đề Datamining_ nhóm 2 GVHD: Nguyễn Hương Giang Output: k cụm đã được gom. Thuật giải: gồm 4 bước -. Bài tập chuyên đề Datamining_ nhóm 2 GVHD: Nguyễn Hương Giang Gom cụm (clustering) Phân tích bằng gom cụm  Phân tích bằng gom cụm là gì ?  Đối tượng tương tự. kiện dừng. Ví dụ: số cụm. Cây các cụm Phân cấp cụm thường được biểu diễn dưới dạng cây của các cụm. Trong đó: Bài tập chuyên đề Datamining_ nhóm 2 GVHD: Nguyễn Hương Giang - Các lá của cây biểu

Ngày đăng: 29/06/2014, 22:07

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w