1. Trang chủ
  2. » Luận Văn - Báo Cáo

Gom cụm dữ liệu và thuật toán K-Means và thuật toán K-Medoids

38 601 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 38
Dung lượng 1,62 MB

Nội dung

Đại Học Quốc Gia TP.HCM Trường Đại Học Công Nghệ Thông Tin BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN ĐỀ TÀI: GVHD: PGS.TS. Đỗ Phúc Người thực hiện: Nguyễn Thị Phương Trang Lớp: CNTT. K6 TP.HCM – 11/2012 Báo cáo chuyên đề Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS. TS. Đỗ Phúc MỤC LỤC Nguyễn Thị Phương Trang – CNTT K6 -2 Báo cáo chuyên đề Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS. TS. Đỗ Phúc Mục lục hình Nguyễn Thị Phương Trang – CNTT K6 -3 Báo cáo chuyên đề Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS. TS. Đỗ Phúc LỜI MỞ ĐẦU  Thế giới con người đang ở trong thời đại thông tin, thời đại mà thông tin có giá trị rất lớn. Trong kinh doanh ai có nhiều thông tin hơn người đó sẽ làm chủ thị trường, trong nghiên cứu ai càng nhiều thông tin thì người đó càng có nhiều cơ hội thành công hơn. Nhu cầu thu thập các thông tin có ích càng ngày càng trở nên bức thiết. Bên cạnh đó, con người lại đối mặt với một thế giới tràn ngập thông tin. Thông tin có ở khắp mọi nơi: internet, phương tiện truyền thông,…và thường có khối lượng khổng lồ, các cơ sở dữ liệu (CSDL) thương mại thường có đến hàng triệu bản ghi. Để thu thập được các thông tin có ích từ các “núi thông tin” như vậy là một vấn đề không đơn giản? Các công cụ truy vấn truyền thống cũ như SQL không giúp ích được nhiều trong vấn đề này, và từ đó ngành khai khoáng dữ liệu đã ra đời như một sự tất yếu. Khai khoáng dữ liệu giúp cung cấp những thông tin chúng ta cần và đồng thời cũng loại bỏ những thông tin không phù hợp. Với núi dữ liệu khổng lồ hiện nay, để người sử dụng có thể tìm kiếm được thông tin thích hợp rất khó, vì vậy cần xây dựng các bộ máy tìm kiếm thông minh để giúp người sử dụng chọn được những thông tin gần giống nhau phục vụ yêu cầu của mình. Có nhiều hướng tiếp cận khác nhau để giải quyết vấn đề này, các hướng này thường chú ý giảm sự nhập nhằng bằng các phương pháp lọc hay thêm các tùy chọn để cắt bớt thông tin và hướng biểu diễn các thông tin trả về bởi các máy tìm kiếm thành từng cụm để cho người dùng có thể dễ dàng tìm được thông tin mà họ cần. Đã có nhiều thuật toán phân cụm tài liệu dựa trên phân cụm ngoại tuyến toàn bộ tập tài liệu. Tuy nhiên việc tập hợp tài liệu của các máy tìm kiếm là quá lớn và luôn thay đổi để có thể phân cụm ngoại tuyến. Do đó, việc phân cụm phải được ứng dụng trên tập các tài liệu nhỏ hơn được trả về từ các truy vấn và thay vì trả về một danh sách rất dài các thông tin gây nhập nhằng cho người sử dụng cần có một phương pháp tổ chức lại các kết quả tìm kiếm một cách hợp lý. Nguyễn Thị Phương Trang – CNTT K6 -4 Báo cáo chuyên đề Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS. TS. Đỗ Phúc Chính vì thế, trong khuôn khổ báo cáo chuyên đề, em xin trình bày sự khái quát về khai phá dữ liệu, và trình bày thuật toán phân cụm dữ liệu K-Means và thuật toán K- Medoids. Em xin chân thành cảm ơn PGS.TS. Đỗ Phúc – Giảng viên môn học Khai phá dữ liệu và kho dữ liệu đã truyền đạt cho em những kiến thức vô cùng quý báu về môn học, cũng như nhiều phương pháp tiếp cận nghiên cứu khoa học bổ ích, và gợi mở cho em nhiều ý tưởng cho quá trình học tập, rèn luyện, phát triển sau này. Bài báo cáo của em gồm các phần chính: I. Trình bày tổng quan về Khai phá dữ liệu và kho dữ liệu. II. Gom cụm dữ liệu và thuật toán K-Means và thuật toán K-Medoids. III. Trình bày ứng dụng mô phỏng thuật toán K-Means. Nguyễn Thị Phương Trang – CNTT K6 -5 Báo cáo chuyên đề Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS. TS. Đỗ Phúc I. Tổng quan về Data mining:  1. Giới thiệu:   !"#$#%&''(#$)%*'+,%- !.#/012'31456 708 9*-2'&!4:1%0%!"#$!"#$4;4+ ''4<#514%=1451%0%>'2'#514'?@' A5>.#514>B1<'?!CD )=%''(' 'E !.(#$:'F==>0 G1H'!IJ'H7> KH7!H747L'40MN8' !"#$*!4: • G1H14+'!"#$>0;4+=>0.**%'?  '@O''F*-4>!"#$6%=>07P% >+G1H!>=>0>!"#$%>+G1H8 • Q!"#$J'H7>!"#$R'R'@6!4H!!SH#!8 TU5%>+'('6%4!.1%5%,;4H708 9!J'H7>10('V • MN8'1%KH7!H7%L'401WHH!"#$X PY>!"#$OH'0- ?%%@#$& %!'>,OH ;4!'%?WKH7!H=7'Z>[H \#!''';4!'2X4>[H;4!"#$OH  .>W'*'?W]^_34!'2'#`4W;4 =('2X%89-4=1%'7!'4;4+0V *'+''*-W-4'? +;401W;40a8 a2'bc1% ;4='R1,'@'O4*'? .;4&''?.F;4*bA >#5141d'L'1e P$'@'#L''O40''%F1&'=>05 54@'%7=>#2'8f @#$2' !"#$1%'>'%A%'a2'@''ghi Nguyễn Thị Phương Trang – CNTT K6 -6 Báo cáo chuyên đề Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS. TS. Đỗ Phúc '=%g 21''#514''845a 'j'=>0 2k'?bA !.121''#5148 2. Ứng dụng của Data mining l#$'Ea*#: • mn@'#514%Y2;40b8 o mn@'%;4+1Xb:o4+''ndH>He;4+1X;4 >'%dpfen@'k%7%1W;4d'!!!H11en 'b8 o mn@'%;4+1XE:aL5>'%n@''8 o m1%''/47*8 • '(#$>' o Q67+d?qH1%14De8 o QrH78 o Q#51414<d'4Ye8 '''$>s4a'?+1'''n4k%''''$4- .tk*-4'30'?+8)?'?=*2' 5'L'>u54@'%*#v7b7k;4&'>OHOw0'? #L5O40% O+F18 h'?a ''4;4+-434W'3+4#514 %bc1H''W4'@'3n@'8'>s4a'?'% &*'?W''-+3-3'(B%>'3 tk;4('4aR1-'n@'  >.12#514'L'1W'3(#$'''HS'H '1Hx!HH&'O"1X!!d11H1e8 a(#$''7%W4'34'3'?'('6: • L ?'#L''O40%%!#vF1:a L ?;4==>0%@'O4*'''?.;4 &'F;4 #514'L'18f @#$F+:! J'H7>1'?2X'!"#$%5%,i;4H 70VJ'H7>#L%''%!"#$145:''.;4 Nguyễn Thị Phương Trang – CNTT K6 -7 Báo cáo chuyên đề Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS. TS. Đỗ Phúc '''i1%''i,'DJ'H7>i=?''!. '? 1W;4*b52X%'?O'O4*y*'8* '+''-4?J'H7>1%2'1%;4=4#514 'E #`W!H!4?!"#$'''#'4'*  #4@6`2*'#`8 • L ?'>#5;4>(% .'70:'$a;4=n@'#514! #5#514>'?&'7bz7U5.1W% 2'O'b'89@#$'7%'?5!+z>'? .1W=4172''`4A?'F'0 H'H#dL 4!+z0>'%e8$! MN1'?#!''';4!'7>['?{172''   V  h  1%  2'  -4  %  MN  i  34          . H'H#%'$'6#%?>'j1% 43y'%'t1%;4i4%n@'% !"#$W!H'EMN'%#%#5144'%1#/ 0'? F;4'%-4%'%'@O'89@#$:>7 6%KH7!H.!1415 #4=>0'E7% >7OH '4.!'M7*>u.!L 4'4.!'T %{14'`'4.M1%'*%5'4.!''? #43. '4.M%`2'' #4=>0%.i14-789%n 'Z1% ;4=a8 )%'''#2'(#$ i''' 1*>'%1%4n4-%'@>H7%'' %'!+O4*D)?'w'''O'b2'''. ;45''04. %/4i''(';4+''@ 1%>s6'EnW'D''04.7W%.E' '@!'>04'34bD9%?'tY2'O'b2'!L Nguyễn Thị Phương Trang – CNTT K6 -8 Báo cáo chuyên đề Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS. TS. Đỗ Phúc ' 'E'''@!'>40i+ %1t'E>'%%12 4'E#D 3. Các bước chính của Data mining a7<''7'!4: • 4    '4z  ?  #5  14  %    #5  14  %    .  >  #5  14 daKH4!He8 • h'''F'04O4*'''(#$n@'#5148 • |"#$''3-n@'@8 • Q0O4*#514###v474<&'#H8 4. Các hướng chính của data mining a2''%'''@: • f+>d''H#H!'e:W-+B2%?R>8 9@#$:?R67+8 • }4>02d!!'41H!e:1%#1474#v(U#>F+8 9@#$:~•^_$5%!W4b044>H#€#='?•^_!., !4W!5"&‚8 • }4>022'(#$-41cL'>#,'!% '@ƒb'(>D • mn1%#Ld'1!!S'ƒH#'e:O0 .2%  51i70'89@#$:n14'H;4.'j%D • „0'%!"#$ !.>s4'Emachine learning 'n ;40bFn888 • mn'$d'14!He:O0''.2HA'$d!.12'ZW'E '$'2'70'e8 • Q'4Yd!H;4H1xH1H!e:FL>14>02 '?W@(L%@8„0'%2'(#$ -41cL'%'@%b'(>=?'?@#L7'8 Nguyễn Thị Phương Trang – CNTT K6 -9 Báo cáo chuyên đề Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS. TS. Đỗ Phúc 5. Một số công nghệ thường áp dụng trong data mining: • f@4ndMS'1H41HK>!e:hn1%=%.'? L,';4%#514734A?!4''>0 ;4+A#514%?>'8 • n;40bdaH'!!HH!e: „,''n;40b1%F2'!"#$ i'',';4 A /418hn1%FO*Oj%$'W4'?b'8f& >''n;40b't'?'4!#74#vFF## ('1%''14If-then8 4 '@.*1%4 '@'? 1*1*8 mF,'#`'n;40b%#LW'n;40b1%* 4;4+7U=?'?1%'2' !.121''4 '@%F 5A'n;40b'?y2' .14,'2'8 • G+4#4-dGHH'M1!e:Qs4%!"#$'';4= .270B',1,'LW>0AA>0?8 • mF)1-3*d)HH!H7H#e:hn1%>s4 n1A7+x#514#LW!L>02'E>H'#! '? .4*#514;4>(8 • )4WR'!4#vdp41H#4'e:Qs47?''#514#LW4WR' )04=A''#514.>W8 Nguyễn Thị Phương Trang – CNTT K6 -10 [...]... Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS TS Đỗ Phúc II Gom cụm dữ liệu 1 Giới thiệu: Gom cụm là hình thức học không giám sát trong đó các mẫu chưa được gán nhãn Mục đích của gom cụm dữ liệu là gom dữ liệu tương tự nhau, thành từng cụm theo một chuẩn nào đó Các dữ liệu trong các cụm khác nhau thì có độ tương tự thấp hơn so với các đối tượng trong cùng một cụm Có nhiều phương pháp gom cụm như:... tượng (hay điểm dữ liệu) thứ i Thuật toán k-means gom cụm toàn bộ các điểm dữ liệu trong U thành k cụm { C1,C2,…,Ck }, sao cho mỗi điểm dữ liệu xi nằm trong một cụm duy nhất Để Nguyễn Thị Phương Trang – CNTT K6 -12- Báo cáo chuyên đề Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS TS Đỗ Phúc biết điểm dữ liệu thuộc cụm nào người ta gán cho nó một mã cụm Các điểm có cùng mã cụm thì ở cùng cụm, trong khi... chính của thuật toán K-means là gán mỗi ứng viên vào cụm có tâm cụm gần nó nhất, Nguyễn Thị Phương Trang – CNTT K6 -11- Báo cáo chuyên đề Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS TS Đỗ Phúc trong đó tâm cụm là giá trị trung bình của tất cả các đối tượng trong cụm Với mục tiêu cải thiện hiệu quả thuật toán, có khá nhiều thuật toán khác như là: thuật toán kmedoids thuật toán CLARANS, thuật toán DBSCAN... xét: Thuật toán k-medoids mạnh hơn thuật toán k-means trong các trường hợp dữ liệu có nhiễu vì k-medoids chịu ảnh hưởng ít hơn của nhiễu và các giá trị chênh lệnh so với giá trị trung bình Tuy nhiên cả hai thuật toán này đều yêu cầu đưa vào số lượng cụm k [2] Nguyễn Thị Phương Trang – CNTT K6 -19- Báo cáo chuyên đề Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS TS Đỗ Phúc III Ứng dụng mô phỏng thuật toán. .. như những hướng ứng dụng, cũng như những công nghệ, thuật toán áp dụng trong Data mining, và đặc biệt, nắm rõ nội dung khai phá dữ liệu ứng dụng trong việc phân cụm dữ liệu Bài báo cáo đã trình bày chi tiết về hai thuật toán K-Means và thuật toán KMedoids, cũng như thực hiện được ứng dụng mô phổng quá trình chia cụm dữ liệu đơn giản dựa vào thuật toán K-Means Báo cáo cũng đề cập đến ứng dụng Google Analytis,... thuật toán gom cụm khác nhau thích hợp với các kiểu khác nhau về tập dữ liệu và các mục tiêu khác nhau Vì vậy thuật toán gom cụm “tốt nhất” để sử dụng tùy thuộc vào ứng dụng Thuật toán K-means là phương pháp được sử dụng nhiều nhất trong hướng tiếp cận phân nhóm phân hoạch (Partitional clustering) Thuật toán này có độ phức tạp thấp O(tkn) với t là số lần lặp, k là số cụm, n là số đối tượng sẽ gom cụm. .. toán k-medoids mạnh hơn thuật toán k-means trong các trường hợp dữ liệu có nhiễu vì k-medoids chịu ảnh hưởng ít hơn của nhiễu và các giá trị chênh lệnh so với giá trị trung bình Tuy nhiên, ứng dụng k-means là phương pháp đơn giản hơn 2 Thuật toán k-means K-means là thuật toán gom cụm theo phương pháp phân hoạch và đã được sử dụng rộng rãi Cho tập các đối tượng, mục tiêu gom cụm hay phân mảnh là chia... nhà, giá trị và vị trí địa lý 3 Thuật toán k-medoids Thuật toán k-medoids hay được gọi là PAM (Partitioning Around Medoids) được Kaufman và Rousseeuw đề xuất 1987, là thuật toán mở rộng của thuật toán k-means, có khả năng xử lý hiệu quả đối với dữ liệu nhiễu hoặc các phần tử ngoại lai.Thay vì sử dụng các trọng tâm như k-means, PAM sử dụng các đối tượng medoid để biểu diễn cho các cụm dữ liệu, một đối... điểm vào K cluster Nguyễn Thị Phương Trang – CNTT K6 Hiệu chỉnh lại trọng tâm của các cluster -13- Gán lại Báo cáo chuyên đề Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS TS Đỗ Phúc Hình 1: Minh họa thuật toán K-Means Điểm mạnh của phương pháp gom cụm k-means • Scalable tương đối trong khi sử lý các tập dữ liệu lớn • Độ phức tạp của thuật toán này là O(tkn) Trong đó n là số mẫu trong Cơ sở dữ liệu, ... này thành nhiều nhóm hay cụm sao cho các đối tượng trong một cụm có khuynh hướng tương tự nhau hơn so với đối tượng khác nhóm Thuật toán K-means phân mảnh dữ liệu cho trước thành k cụm, giá trị k do người dùng xác định Thuật toán dễ thực hiện, thi hành nhanh, dễ thích nghi và phổ biến trong thực tế Đây là một trong những thuật toán kinh điển trong khai thác dữ liệu Thuật toán k-means áp dụng cho các . Gom cụm dữ liệu và thuật toán K-Means và thuật toán K-Medoids. III. Trình bày ứng dụng mô phỏng thuật toán K-Means. Nguyễn Thị Phương Trang – CNTT K6 -5 Báo cáo chuyên đề Khai phá dữ liệu và. phá dữ liệu và kho dữ liệu Giảng viên: PGS. TS. Đỗ Phúc Chính vì thế, trong khuôn khổ báo cáo chuyên đề, em xin trình bày sự khái quát về khai phá dữ liệu, và trình bày thuật toán phân cụm dữ liệu. cáo chuyên đề Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS. TS. Đỗ Phúc MỤC LỤC Nguyễn Thị Phương Trang – CNTT K6 -2 Báo cáo chuyên đề Khai phá dữ liệu và kho dữ liệu Giảng viên: PGS. TS.

Ngày đăng: 10/04/2015, 00:08

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w