Kết luận chƣơng 2

Một phần của tài liệu Bài toán và một số giải thuật theo tiếp cận phân hoạch (Trang 35 - 45)

2. Cho điểm của cán bộ phản biện

2.9. Kết luận chƣơng 2

Trong chương 2 chỳng ta cú 2 vấn đề quan tõm đú là phõn cụm dữ liệu và cỏc giải thuật theo tiếp cận phõn hoạch.

Mục đớch của phõn cụm dữ liệu là gom cỏc dữ liệu tương tự nhau thành những cụm, từ đú cung cấp thụng tin, tri thức hữu ớch cho việc ra quyết định.Phõn cụm dữ liệu là một trong những hướng nghiờn cứu trọng tõm của lĩnh vực khai phỏ dữ liệu khỏm phỏ tri thức.

Ưu điểm cỏc giải thuật theo tiếp cận phõn hoạch là đơn giản, dễ ỏp dụng và hiệu quả đối với cơ sở dữ liệu nhỏ với cỏc cụm đưa ra cú hỡnh dạng lồi. Tuy nhiờn, do cỏc cụm trong phương phỏp phõn hoạch được biểu diễn bởi cỏc tõm của cụm và mỗi một điểm dữ liệu được chia vào một cụm dựa vào khoảng cỏch từ điểm đú tới tõm của cụm. Chớnh vỡ thế phương phỏp phõn hoạch chỉ cú thể đưa ra được cỏc cụm cú hỡnh dạng là đa giỏc lồi mà khụng thể đưa ra được cỏc cụm cú dạng lừm phủ lờn nhau hoặc lồng nhau. Ngoài ra, nếu cơ sở dữ liệu cú nhiễu hoặc cú đối tượng dữ liệu quỏ xa tõm (outline) thỡ phương phỏp phõn cụm phõn hoạch cựng khụng ỏp dụng được vỡ trong cỏc trường hợp đú, cỏc đối tượng dữ liệu nhiễu hoặc cỏc đối tượng dữ liệu xa tõm (outline) sẽ làm tõm của cụm bị lệch đi. Do đú, khụng đưa ra được cỏc cụm chớnh xỏc.

Chƣơng 3: CÀI ĐẶT VÀ THỬ NGHIỆM 3.1. Mụi trƣờng cài đặt

Chương trỡnh được lập trỡnh với ngụn ngữ C# của Visual Studio 2008. Được cài đặt và chạy trờn windown XP SP3.

Input: Đưa vào một bức ảnh định dạng JPEG

Output: Cỏc nhúm (cụm) điểm ảnh, trong đú cỏc điểm ảnh cú cựng màu sẽ được gom vào một nhúm.

3.2. Giới thiệu chƣơng trỡnh ứng dụng

3.2.1. Lƣu đồ thuật toỏn sử dụng trong chƣơng trỡnh

Begin Tỡm Top X color gỏn làm trọng tõm Tớnh d(x,y)= Đưa cỏc điểm về cỏc cụm, cập nhật lại tõm cỏc cụm Tõm mới = Tõm cũ End Yes No

Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng

Phạm Văn Đức-Lớp CT1201 26

Tỡm Top X color gỏn làm trung tõm

Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng

Phạm Văn Đức-Lớp CT1201 28

Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng

Phạm Văn Đức-Lớp CT1201 30

3.2.2. Một số giao diện Giao diện khởi động Giao diện khởi động

Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng

Phạm Văn Đức-Lớp CT1201 32

Quỏ trỡnh xử lý kết thỳc

KẾT LUẬN

Phõn cụm dữ liệu là nhiệm vụ quan trọng trong khai phỏ dữ liệu, thu hỳt sự quan tõm của nhiều nhà nghiờn cứu. Cỏc kỹ thuật phõn cụm đó và đang được ứng dụng thành cụng trong nhiều lĩnh vực khoa học, đời sống xó hội. Hiện nay, do sự phỏt triển khụng ngừng của cụng nghệ thụng tin và truyền thụng, cỏc hệ thống CSDL ngày càng đa dạng, và tăng trưởng nhanh cả về chất lẫn về lượng. Hơn nữa, nhu cầu về khai thỏc cỏc tri thức từ cỏc CSDL này ngày càng lớn. Vỡ vậy, việc nghiờn cứu cỏc mụ hỡnh dữ liệu mới, ỏp dụng cỏc phương phỏp khai phỏ dữ liệu, trong đú cú kỹ thuật phõn cum dữ liệu là việc làm rất cần thiết cú nhiều ý nghĩa.

Trong đồ ỏn này, trước tiờn em đó trỡnh bày những hiểu biết của mỡnh về khai phỏ dữ liệu sau đú là phần nội dung chớnh của đồ ỏn: Bài toỏn phõn cụm dữ liệu và một số giải thuật theo tiếp cận phõn cấp. Ở phần nội dung chớnh em đó trỡnh bày được thế nào là bài toỏn phõn cụm dữ liệu, cỏc cỏch tiếp cận, cỏc ứng dụng, cỏc kiểu dữ liệu cú thể phõn cụm, cỏc độ đo độ tương tự. Đặc biệt, em tập trung đi sõu nghiờn cứu về kỹ thuật phõn cụm dữ liệu phõn cấp và hai thuật toỏn điển hỡnh của kỹ thuật này là K-Means và K-Medoids với cỏch thức tổ chức dữ liệu, thuật toỏn, đỏnh giỏ ưu nhược điểm của mỗi thuật toỏn.

Do thời gian thực hiện hạn chế nờn em mới chỉ tỡm hiểu đựơc một số kỹ thuật cơ bản trong phõn cụm dữ liệu, cài đặt thử nghiệm với thuật toỏn K- means. Nhưng cũn một số cỏc kỹ thuật em vẫn chưa tỡm hiểu, khai thỏc và ứng dụng cho cỏc bài toỏn … Trong thời gian tới em sẽ cố gắng tiếp tục nghiờn cứu, tỡm hiểu thờm một sụ kỹ thuật phõn cụm và nhất là cú thể tỡm hiểu và phỏt triển cỏc kỹ thuật phõn đoạn ảnh để cú thể xử lý với ảnh động.

Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng

Phạm Văn Đức-Lớp CT1201 34

TÀI LIỆU THAM KHẢO

[1] Nguyễn Thị Ngọc, Phõn cụm dữ liệu dựa trờn mật độ, Đồ ỏn tốt nghiệp đại

học Ngành cụng nghệ Thụng tin – ĐHDL Hải Phũng, 2008.

[2] Trần Thị Quỳnh, Thuật toỏn phõn cụm dữ liệu nửa giỏm sỏt và giải thuật di truyền, Đồ ỏn tốt nghiệp đại học Ngành cụng nghệ Thụng tin – ĐHDL Hải Phũng,

2008.

[3] Nguyễn Lõm, Thuật toỏn phõn cụm dữ liệu nửa giỏm sỏt, Đồ ỏn tốt nghiệp đại học Ngành cụng nghệ Thụng tin – ĐHDL Hải Phũng, 2007.

[4] Nguyễn Trung Sơn, Phương phỏp phõn cụm và ứng dụng, Luận văn thạc sĩ

khoa học mỏy tớnh, Khoa cụng nghệ thụng tin trường Đại học Thỏi Nguyờn.

[5] Nguyễn Thị Hướng, Phõn cụm dữ liệu trong dataming, Luận văn tốt nghiệp ngành cụng nghệ thụng tin Đại học sư phạm Hà Nội.

[6] Tian Zhang, Raghu Ramakrishnan, Miron Livny. BIRCH: A New Data Clustering Algorithm and Its Applications. Data Mining and Knowledge Discovery, 1, 141–182 (1997), Kluwer Academic Publishers, 1997

[7] Sudipto Guha, Rajeev Rastogi, Kyuseok Shim, CURE: an efficient clustering algorithm for large databases, Information Systems Vol. 26, No. 1, pp. 35-58, Elsevier Science, 2001.

[8] J.Han, M. Kamber and A.K.H. Tung, Spatial Clustering Methods in Data Mining, Sciences and Engineering Research Council of Canada.

Một phần của tài liệu Bài toán và một số giải thuật theo tiếp cận phân hoạch (Trang 35 - 45)

Tải bản đầy đủ (PDF)

(45 trang)