2. Cho điểm của cán bộ phản biện
2.8. Phƣơng phỏp phõn hoạch (Partion Methods)
2.8.1. Thuật toỏn K-Means
Cho k là số cụm sau khi phõn hoạch. (1≤ k ≤ n, với n là số điểm( đối tượng) trong khụng gian giữ liệu)
Thuật toỏn k-means gồm 4 bước:
B1. Chọn ngẫu nhiờn k điểm làm trọng tõm ban đầu của k cụm.
B2. Gỏn (hoặc gỏn lại) từng điểm vào cụm cú trọng tõm gần điểm đang xột nhất. Nếu khụng cú phộp gỏn nào thỡ dừng. Vỡ khụng cú phộp gỏn nào cú nghĩa là cỏc cụm đó ổn định và thuật toỏn khụng thể cải thiện làm giảm độ phõn biệt hơn được nữa.
B3. Tớnh lại trọng tõm cho từng cụm. B4. Quay lại bước 2.
Hỡnh 2.10: Vớ dụ về một số hỡnh dạng cụm dữ liệu được khỏm phỏ bởi K-means
Ƣu điểm của phƣơng phỏp gom cụm k-means
- Tương đổi nhanh .Độ phức tạp của thuật toỏn là O(tkn) với t là số lần lặp ( t khỏ nhỏ so với n), k là số cụm cần phõn hoạch, n là số điểm trong khụng gian dữ liệu.
- K-means phự hợp với cỏc cụm cú dạng hỡnh cầu.
Nhƣợc điểm của phƣơng phỏp k-mean
- Khụng đảm bảo đạt được tối ưu toàn cục và kết quả đầu ra phụ thuộc nhiều vào việc chọn k điểm khởi đầu. Do đú cú thể phải chạy lại thuật toỏn với nhiều bộ khởi đầu khỏc nhau để cú được kết quả đủ tốt. Trong thực tế cú thể ỏp dụng thuật giải di truyền để phỏt sinh cỏc bộ khởi đầu.
- Cần phải xỏc định trước số cụm.
- Khú xỏc định số cụm thực sự mà khụng gian dữ liệu cú. Do đú cú thể phải thử với cỏc giỏ trị k khỏc nhau.
- Khú phỏt hiện cỏc loại cụm cú hỡnh dạng phức tạp và nhất là cỏc dạng cụm khụng lồi.
- Khụng thể xử lý nhiễu và mẫu cỏ biệt.
- Chỉ cú thể ỏp dụng khi tớnh được trọng tõm.
2.8.2. Thuật toỏn K-Medoids
Thuật toỏn K-Medoids là cải tiến của thuật toỏn k-means, k-medoids khỏc k-means ở:
- Chiến lược chọ k trọng tõm đầu tiờn.
- Phương phỏp tớnh độ phõn biệt
- Phương phỏp tớnh trọng tam trong cụm
Thuật toỏn K-Medoids được thực hiện qua cỏc bước sau:
B1: Chọn ngẫu nhiờn k điểm Oi ( i=1,…,k) làm trung tõm (medoids) ban đầu của k cụm.
Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng
Phạm Văn Đức-Lớp CT1201 24
B2: Gỏn ( hoặc gỏn lại) từng điểm vào cụm cú trung tõm gần điểm đang xột nhất B3: Với mỗi điểm trung tõm Oi ( i=1,…,k):
B3.1. Lần lượt xột cỏc điểm khụng là trung tõm (non-medoids) x. B3.2. Tớnh S là độ lợi khi hoỏn đổi Oi bởi x. S được xỏc định như sau:
S=Ex – EOi
với EOivà Ex lần lượt là giỏ trị hàm mục tiờu trước và sau khi thay Oi bởi x.
k
E = ∑∑ d(p, Oi)2
i=1
B3.3. Nếu S là õm thỡ thay thế Oi trong bộ k trung tõm bởi x ( chọn trung tõm
mới tốt hơn).
B4. Nếu cú ớt nhất 1 sự thay đổi trong B3 thỡ tiếp tục quay lại B2. Ngược lại thỡ kết thỳc thuật toỏn.
Ƣu điểm thuật toỏn K-medoids
K-medoids làm việc được với nhiễu và biệt lệ.
Nhƣợc điểm thuật toỏn K-medoids
K-medoids chỉ hiệu quả khi tập dữ liệu khụng quỏ lớn vỡ cú độ phức tạp là O(k(n-k)2t). Trong đú:
n là số điểm trong khụng gian dữ liệu, k là số cụm cần phõn hoạch, t là số lần lặp ( t khỏ nhỏ so với n).
2.9. Kết luận chƣơng 2
Trong chương 2 chỳng ta cú 2 vấn đề quan tõm đú là phõn cụm dữ liệu và cỏc giải thuật theo tiếp cận phõn hoạch.
Mục đớch của phõn cụm dữ liệu là gom cỏc dữ liệu tương tự nhau thành những cụm, từ đú cung cấp thụng tin, tri thức hữu ớch cho việc ra quyết định.Phõn cụm dữ liệu là một trong những hướng nghiờn cứu trọng tõm của lĩnh vực khai phỏ dữ liệu khỏm phỏ tri thức.
Ưu điểm cỏc giải thuật theo tiếp cận phõn hoạch là đơn giản, dễ ỏp dụng và hiệu quả đối với cơ sở dữ liệu nhỏ với cỏc cụm đưa ra cú hỡnh dạng lồi. Tuy nhiờn, do cỏc cụm trong phương phỏp phõn hoạch được biểu diễn bởi cỏc tõm của cụm và mỗi một điểm dữ liệu được chia vào một cụm dựa vào khoảng cỏch từ điểm đú tới tõm của cụm. Chớnh vỡ thế phương phỏp phõn hoạch chỉ cú thể đưa ra được cỏc cụm cú hỡnh dạng là đa giỏc lồi mà khụng thể đưa ra được cỏc cụm cú dạng lừm phủ lờn nhau hoặc lồng nhau. Ngoài ra, nếu cơ sở dữ liệu cú nhiễu hoặc cú đối tượng dữ liệu quỏ xa tõm (outline) thỡ phương phỏp phõn cụm phõn hoạch cựng khụng ỏp dụng được vỡ trong cỏc trường hợp đú, cỏc đối tượng dữ liệu nhiễu hoặc cỏc đối tượng dữ liệu xa tõm (outline) sẽ làm tõm của cụm bị lệch đi. Do đú, khụng đưa ra được cỏc cụm chớnh xỏc.
Chƣơng 3: CÀI ĐẶT VÀ THỬ NGHIỆM 3.1. Mụi trƣờng cài đặt
Chương trỡnh được lập trỡnh với ngụn ngữ C# của Visual Studio 2008. Được cài đặt và chạy trờn windown XP SP3.
Input: Đưa vào một bức ảnh định dạng JPEG
Output: Cỏc nhúm (cụm) điểm ảnh, trong đú cỏc điểm ảnh cú cựng màu sẽ được gom vào một nhúm.
3.2. Giới thiệu chƣơng trỡnh ứng dụng
3.2.1. Lƣu đồ thuật toỏn sử dụng trong chƣơng trỡnh
Begin Tỡm Top X color gỏn làm trọng tõm Tớnh d(x,y)= Đưa cỏc điểm về cỏc cụm, cập nhật lại tõm cỏc cụm Tõm mới = Tõm cũ End Yes No
Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng
Phạm Văn Đức-Lớp CT1201 26
Tỡm Top X color gỏn làm trung tõm
Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng
Phạm Văn Đức-Lớp CT1201 28
Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng
Phạm Văn Đức-Lớp CT1201 30
3.2.2. Một số giao diện Giao diện khởi động Giao diện khởi động
Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng
Phạm Văn Đức-Lớp CT1201 32
Quỏ trỡnh xử lý kết thỳc
KẾT LUẬN
Phõn cụm dữ liệu là nhiệm vụ quan trọng trong khai phỏ dữ liệu, thu hỳt sự quan tõm của nhiều nhà nghiờn cứu. Cỏc kỹ thuật phõn cụm đó và đang được ứng dụng thành cụng trong nhiều lĩnh vực khoa học, đời sống xó hội. Hiện nay, do sự phỏt triển khụng ngừng của cụng nghệ thụng tin và truyền thụng, cỏc hệ thống CSDL ngày càng đa dạng, và tăng trưởng nhanh cả về chất lẫn về lượng. Hơn nữa, nhu cầu về khai thỏc cỏc tri thức từ cỏc CSDL này ngày càng lớn. Vỡ vậy, việc nghiờn cứu cỏc mụ hỡnh dữ liệu mới, ỏp dụng cỏc phương phỏp khai phỏ dữ liệu, trong đú cú kỹ thuật phõn cum dữ liệu là việc làm rất cần thiết cú nhiều ý nghĩa.
Trong đồ ỏn này, trước tiờn em đó trỡnh bày những hiểu biết của mỡnh về khai phỏ dữ liệu sau đú là phần nội dung chớnh của đồ ỏn: Bài toỏn phõn cụm dữ liệu và một số giải thuật theo tiếp cận phõn cấp. Ở phần nội dung chớnh em đó trỡnh bày được thế nào là bài toỏn phõn cụm dữ liệu, cỏc cỏch tiếp cận, cỏc ứng dụng, cỏc kiểu dữ liệu cú thể phõn cụm, cỏc độ đo độ tương tự. Đặc biệt, em tập trung đi sõu nghiờn cứu về kỹ thuật phõn cụm dữ liệu phõn cấp và hai thuật toỏn điển hỡnh của kỹ thuật này là K-Means và K-Medoids với cỏch thức tổ chức dữ liệu, thuật toỏn, đỏnh giỏ ưu nhược điểm của mỗi thuật toỏn.
Do thời gian thực hiện hạn chế nờn em mới chỉ tỡm hiểu đựơc một số kỹ thuật cơ bản trong phõn cụm dữ liệu, cài đặt thử nghiệm với thuật toỏn K- means. Nhưng cũn một số cỏc kỹ thuật em vẫn chưa tỡm hiểu, khai thỏc và ứng dụng cho cỏc bài toỏn … Trong thời gian tới em sẽ cố gắng tiếp tục nghiờn cứu, tỡm hiểu thờm một sụ kỹ thuật phõn cụm và nhất là cú thể tỡm hiểu và phỏt triển cỏc kỹ thuật phõn đoạn ảnh để cú thể xử lý với ảnh động.
Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng
Phạm Văn Đức-Lớp CT1201 34
TÀI LIỆU THAM KHẢO
[1] Nguyễn Thị Ngọc, Phõn cụm dữ liệu dựa trờn mật độ, Đồ ỏn tốt nghiệp đại
học Ngành cụng nghệ Thụng tin – ĐHDL Hải Phũng, 2008.
[2] Trần Thị Quỳnh, Thuật toỏn phõn cụm dữ liệu nửa giỏm sỏt và giải thuật di truyền, Đồ ỏn tốt nghiệp đại học Ngành cụng nghệ Thụng tin – ĐHDL Hải Phũng,
2008.
[3] Nguyễn Lõm, Thuật toỏn phõn cụm dữ liệu nửa giỏm sỏt, Đồ ỏn tốt nghiệp đại học Ngành cụng nghệ Thụng tin – ĐHDL Hải Phũng, 2007.
[4] Nguyễn Trung Sơn, Phương phỏp phõn cụm và ứng dụng, Luận văn thạc sĩ
khoa học mỏy tớnh, Khoa cụng nghệ thụng tin trường Đại học Thỏi Nguyờn.
[5] Nguyễn Thị Hướng, Phõn cụm dữ liệu trong dataming, Luận văn tốt nghiệp ngành cụng nghệ thụng tin Đại học sư phạm Hà Nội.
[6] Tian Zhang, Raghu Ramakrishnan, Miron Livny. BIRCH: A New Data Clustering Algorithm and Its Applications. Data Mining and Knowledge Discovery, 1, 141–182 (1997), Kluwer Academic Publishers, 1997
[7] Sudipto Guha, Rajeev Rastogi, Kyuseok Shim, CURE: an efficient clustering algorithm for large databases, Information Systems Vol. 26, No. 1, pp. 35-58, Elsevier Science, 2001.
[8] J.Han, M. Kamber and A.K.H. Tung, Spatial Clustering Methods in Data Mining, Sciences and Engineering Research Council of Canada.