1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề án tốt nghiệp: Thuật toán Phân cụm dữ liệu nửa giám sát potx

62 518 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 1,72 MB

Nội dung

Đề án tốt nghiệp Thuật toán Phân cụm dữ liệu nửa giám sát Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát Lưu Tuấn Lâm – CT702 1 LỜI CẢM ƠN Trước hết, em xin chân thành gửi lời cảm ơn sâu sắc đến cô giáo ThS.Nguyễn Thị Xuân Hƣơng , người đã tận tình hướng dẫn và tạo mọi điều kiện cho em trong quá trình làm tốt nghiệp. Em xin chân thành cảm ơn các thầy cô giáo trong khoa Công Nghệ Thông Tin Trường Đại Học Dân Lập Hải Phòng đã quan tâm dạy dỗ và giúp đỡ em trong suốt bốn năm học vừa qua và trong quá trình làm tốt nghiệp. Em xin chân trọng cảm ơn thầy Trần Hữu Nghị - Hiệu trưởng trường Đại Học Dân Lập Hải Phòng đã ủng hộ, động viên, và tạo mọi điều kiện tốt nhất để em có thể hoàn thành 4 năm đại học vừa qua. Cuối cùng em xin gửi lời cảm ơn chân thành tới tất cả những người thân cùng bạn bè đã động viên, giúp đỡ và đóng góp nhiều ý kiến quý báu cho em trong quá trình học tập cũng như khi làm tốt nghiệp. Hải Phòng, tháng7 năm 2007 Sinh viên Lƣu Tuấn Lâm Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát Lưu Tuấn Lâm – CT702 2 MỤC ĐÍCH CỦA ĐỀ TÀI Công việc đọc và tìm hiểu đề tài nhằm những muc đích sau đây:  Tìm hiểu qua về khai phá dữ liệu (Data mining).  Tìm hiểu qua về một số thuật toán phân cụm dữ liệu không giám sát  Trên lền tảng lý thuyết về khai phá dữ liệu và một số thuật toán phân cụm không giám sát tiến tới đi sâu vào tìm hiểu, phân tích, đánh giá một số thuật toán của phương pháp phân cụm dữ liệu nửa giám sát.( Thuật toán Seeded-Kmeans và Constrained-Kmeans)  Xây dựng một chương trình demo, mô phỏng hoạt động của phương pháp phân cụm dữ liệu nửa giám sát. Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát Lưu Tuấn Lâm – CT702 3 GIỚI THIỆU Trong vài thập niên gần đây, cùng với sự thay đổi và phát triển không ngừng của ngành công nghệ thông tin nói chung và trong các ngành công nghệ phần cứng, phân mềm, truyền thông và hệ thống các dữ liệu phục vụ trong các lĩnh vực kinh tế - xã hội nói riêng. Thì việc thu thập thông tin cũng như nhu cầu lưu trữ thông tin càng ngày càng lớn. Bên cạnh đó việc tin học hoá một cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu Cơ sở dữ liệu đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lí , trong đó có nhiều Cơ sở dữ liệu cực lớn cỡ Gigabyte, thậm chí là Terabyte. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kĩ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích. Từ đó, các kĩ thuật Khai phá dữ liệu đã trở thành một lĩnh vực thời sự của nền Công nghệ thông tin thế giới hiện nay. Một vấn đề được đặt ra là phải làm sao trích chọn được những thông tin có ý nghĩa từ tập dữ liệu lớn để từ đó có thể giải quyết được các yêu cầu của thực tế như trợ giúp ra quyết định, dự đoán,… và Khai phá dữ liệu (Data mining) đã ra đời nhằm giải quyết các yêu cầu đó. Khai phá dữ liệu được định nghĩa là: quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các Cơ sở dữ liệu, kho dữ liệu… Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ Cơ sở dữ liệu (knowlegde mining from databases), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredging). Nhiều người coi khai phá dữ liệu và một thuật ngữ thông dụng khác là khám phá tri thức trong Cơ sở dữ liệu(Knowlegde Discovery in Databases – KDD) là như nhau. Tuy nhiên trên thực tế, khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình Khám phá tri thức trong Cơ sở dữ liệu. Ngay từ những ngày đầu khi xuất hiện, Data mining đã trở thành một trong những xu hướng nghiên cứu phổ biến trong lĩnh vực học máy tính và công nghệ tri thức. Nhiều thành tựu nghiên cứu của Data mining đã được áp dụng trong thực tế. Data mining có nhiều hướng quan trọng và một trong các hướng đó là phân cụm dữ liệu (Data Clustering ). Phân cụm dữ liệu là quá trính tìm kiếm để phân ra các cụm dữ liệu, các mẫu dữ liệu từ tập Cơ sở dữ liệu lớn. Phân cụm dữ liệu là một phương pháp học không giám sát. Trong những năm trở lại đây, do phương pháp phân cụm dữ liệu không giám sát còn nhiều nhược điểm vì vậy dựa trên học không giám sát và học có giám sát đã ra đời một phương pháp phân cụm dữ liệu mới đó là phương pháp phân cụm dữ liệu nửa giám sát. Phương pháp phân cụm nửa giám sát không phải là một phương pháp phân cụm hoàn thiện nhưng nó đã phần nào khắc phục được những hạn chế và phát huy ưu điểm của phương pháp phân cụm không giám sát. Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát Lưu Tuấn Lâm – CT702 4 MỤC LỤC LỜI CẢM ƠN 1 MỤC ĐÍCH CỦA ĐỀ TÀI 2 GIỚI THIỆU 3 Chƣơng 1 : TỔNG QUAN VỀ DATA MINING 6 1.1 Giới thiệu về khám phá tri thức 6 1.2 Khai phá dữ liệu và các khái niệm liên quan 7 1.2.1 Khái niệm khai phá dữ liệu 7 1.2.2 Các kỹ thuật tiếp cận trong khai phá cữ liệu 8 Chƣơng 2 : PHÂN CỤM DỮ LIỆU VÀ CÁC TIẾP CẬN 9 2.1 Khái quát về phân cụm dữ liệu 9 2.2 Các kiểu dữ liệu và độ đo tƣơng tự 10 2.3 Những kỹ thuật tiếp cận trong phân cụm dữ liệu 13 2.3.1 Phân cụm phân hoạch 13 2.3.2 Phân cụm dữ liệu phân cấp 13 2.3.3 Phân cụm dữ liệu dựa trên mật độ 14 2.3.4 Phân cụm dữ liệu dựa trên lưới 15 2.3.5 Phân cụm dữ liệu dựa trên mô hình 16 2.3.6 Phân cụm dữ liệu có ràng buộc 16 2.4 Một số ứng dụng của phân cụm dữ liệu 17 Chƣơng 3 : PHÂN CỤM DỮ LIỆU KHÔNG GIÁM SÁT 19 3.1 Phƣơng pháp phân hoạch 19 3.1.1 Thuật toán K-Means 19 3.1.2 Thuật toán K-Medoids 20 3.2 Phƣơng pháp phân cấp 21 3.2.1 Thuật toán CURE 22 3.2.2 Thuật toán BIRCH 23 3.3 Thuật toán k-tâm: 25 3.3.1 Cơ sở toán học của thuật toán k-tâm 25 3.3.2 Các đối tượng có kiểu hỗn hợp 25 3.3.3 Độ đo tương tự 26 3.3.4 Công thức tính khoảng cách giữa hai đối tượng 26 3.3.5 Thuật toán K-Tâm 27 Chƣơng 4 : PHÂN CỤM DỮ LIỆU NỬA GIÁM SÁT 29 4.1 Thuật toán COP-KMeans 29 4.2 Phân cụm nửa giám sát dựa trên tập tập dữ liệu đƣợc dán nhãn 30 4.2.1 Thuật toán Seeded-KMeans 31 4.2.2 Thuật toán Constrained-KMeans 32 4.3 Thuật toán K-Means phân cấp 33 Chƣơng 5 : GIỚI THIỆU VỀ NGÔN NGỮ VB 6.0 37 5.1 Cấu trúc một đề án (Project) 37 5.2 Một số các điều khiển 38 5.3 Mô hình truy cập cơ sở dữ liệu bằng ADO 38 5.4 Trình thiết kế môi trƣờng dữ liệu ( Data Environment ) 40 5.5 Các phƣơng thức của Recordset trong Command 41 Chƣơng 6 : BÀI TOÁN ỨNG DỤNG 43 Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát Lưu Tuấn Lâm – CT702 5 6.1 Bài toán 44 6.2 Các thông tin về các loại bảo hiểm nhân thọ 46 6.3 Cài đặt thuật toán Phân cụm nửa giám sát vời dữ liệu hốn hợp 47 6.4 Các hàm thủ tục chính khi thực hiện thuật toán 48 6.4.1 Hàm khởi tạo tâm từ Tập giống 48 6.4.2 Các hàm tính khoảng cách 49 6.4.3 thuật toán Constrained-Kmeans 51 6.5 Giao diện chƣơng trình 55 KẾT LUẬN 60 Tài liệu tham khảo 61 Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát Lưu Tuấn Lâm – CT702 6 Chương 1 : TỔNG QUAN VỀ DATA MINING 1.1 Giới thiệu về khám phá tri thức Trong vài chục năm gần đây cùng với sự phát triển mạnh mẽ của kỹ thuật công nghệ cũng như nhu cầu lưu trữ thông tin dẫn đến trữ lượng dữ liệu được lưu trữ không ngừng tăng theo. Những cơ sở dữ liệu rất lớn ra đời, có những cơ sở dữ liệu lên đến cỡ Gigabyte và thậm chí cả Terabyte. Nếu bạn có trong tay một kho cơ sở dữ liệu cũng có nghĩa bạn có trong tay một kho tri thức.Nhưng vấn đề đặt ra là làm thế nào bạn có thể trích lọc được những thông tin, tri thức từ một kho dữ liệu với rất nhiều thông tin về các lĩnh vực khác nhau. Để giải quyết vấn đề đó thì kỹ thuật khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases- KDD) đã ra đời.Khám phá tri thức trong cơ sở dữ liệu (KDD) là lĩnh vực liên quan đến các ngành như: xác suất thống kê, học máy, trực quan hóa dữ liệu, tính toán song song,…Trong đó quá trình KDD có thể chia thành các bước thực hiện như sau [1]: Bước 1: Trích chọn dữ liệu: Ở bước này các dữ liệu liên quan trực tiếp đến nhiệm vụ của quá trình KDD sẽ được thu thập từ các nguồn dữ liệu ban đầu. Bước 2: Tiền xử lý dữ liệu: có nhiệm vụ làm sạch, loại bỏ nhiễu, rút gọn và rời rạc hóa dữ liệu. Bước 3: Biến đổi dữ liệu: nhằm chuẩn hóa và làm mịn dữ liệu để chuyển dữ liệu về dạng thuận lợi nhất phục vụ cho việc khai phá. Bước 4: Data mining: dùng các kỹ thuật phân tích để khai thác dữ liệu, trích chọn các mẫu thông tin cần thiết,… Công đoạn này được xem là mất thời gian nhất và cũng là quan trọng nhất trong quá trình KDD. Bước 5: Đánh giá và biểu diễn tri thức: Các thông tin và mối liên hệ giữa chúng vừa khám phá trong công đoạn trước được biểu diễn dưới các dạng trực quan đồng thời được đánh giá theo những tiêu chí nhất định. Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát Lưu Tuấn Lâm – CT702 7 1.2 Khai phá dữ liệu và các khái niệm liên quan Data mning là một công đoạn trong quá trình khám phá tri thức trong cơ sở dữ liệu. Và Data mining cũng là một khâu quan trọng nhất trong quá trình khám phá tri thức trong cơ sở dữ liệu. Nhiệm vụ của Data mining là khai thác thông tin, tri thức có tính tiềm ẩn và hữu ích trong tập Cơ sở dữ liệu lớn nhằm cung cấp thông tin cần thiết cho các lĩnh vực sản xuất, khinh doanh, và nghiên cứu,… Các kết quả nghiên cứu cùng với những ứng dụng thành công của việc khai phá tri thức cho thấy Data mining là một lĩnh vực đầy tiềm năng và bền vững. Data mining đã giả được bài toàn khó đó là làm thế nào để có thể trích lọc được các thông tin, tri thức hữu ích từ một tập Cơ sở dữ liệu lớn. và khẳng định sự ưu việt của mình so với các công cụ phân tích dữu liệu truyền thông. Hiện nay, Data mining đã được ứng dụng ngày càng rộng dãi trong nhiều lĩnh vực như: Thương mại, Tài chính, Điều trị y học, Viễn thông, Tin – Sinh,… Khi đọc đến đây bạn có thể nhầm lẫn rằng hai khái niệm Data mining và khám phá tri thức trong cơ sở dữ liệu (KDD) là như nhau. Nhưng thực ra KDD là mục tiêu của Data mining. Và Data mining là một bước quan trọng và mang tính quyết định của quá trình KDD. 1.2.1 Khái niệm khai phá dữ liệu Do sự phát triển mạnh mẽ của Data mining về phạm vi các lĩnh vực ứng dụng trong thực tế và các phương pháp tìm kiếm lên có rất nhiều khài niệm khác nhau về Data mining. Ở đây em xin nêu ra một định nghĩa gắn gọn và dễ hiểu về Data mining như sau [1]: Data mining là một quá trình tìm kiếm, chắt lọc các chi thức mới, tiềm ẩn, hữu dụng trong tập dữ liệu lớn. Dữ liệu thô Trích chọn dữ liệu Tiền xử lý dữ liệu Biến đổi dữ liệu Data mining Đánh giá và biểu diễn Tri thức Dữ liệu Dữ liệu tiền xử lý Mẫu Hình 1: Quá trình khám phá tri thức trong CSDL Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát Lưu Tuấn Lâm – CT702 8 1.2.2 Các kỹ thuật tiếp cận trong khai phá cữ liệu Các kỹ thuật áp dụng trong Data mining phần lớn được kế thừa từ các lĩnh vực như: Cơ sở dữ liệu (Database), Học máy (Machine learning), Trí tuệ nhân tạo, Xác suất thống kê,… vì vậy ta có hai hướng tiếp cận sau đây: Theo quan điểm của học máy, các kỹ thuật trong Data mining gồm:  Học có giám sát (Supervised learning): Là quá trình gán nhãn lớp cho các đối tượng trong tập dữ liệu dựa trên một bộ các đối tượng huấn luyện và các thông tin về nhãn lớp đã biết.  Học không giám sát (Unsupervised learning): Là quá trình phân chia một tập dữ liệu thành các lớp hay cụm (cluster) dữ liệu tương tự nhau mà chưa biết trước các thông tin về nhãn lớp.  Học nửa giám sát (Semi-Supervised learning): Là quá trình chia một tập dữ liệu thành các lớp con dựa trên một số thông tin bổ trợ cho trước. Theo các lớp bài toán cần giải quyết, các kỹ thuật trong Data mining gồm:  Phân lớp và dự đoán (Classification and Prediction): đưa một đối tượng vào một trong các lớp đã biết trước. Phân lớp và dự đoán còn được gọi là học có giám sát.  Luật kết hợp (Association rules): Là dạng luật biểu diễn tri thức ở dạng khá đơn giản. Một luật kết hợp được mô tả như sau: Nếu a thì b với xác suất p  Phân tích chuỗi theo thời gian: giống như khai phá luật kết hợp nhưng có thêm tính thứ tự và thời gian  Phân cụm (Clustering): Nhóm các đối tượng thành từng cụm dữ liệu. Đây là phương pháp học không giám sát.  Mô tả khái niệm: Mô tả, tổng hợp và tóm tắt khái niệm, ví dụ như tóm tắt văn bản. Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát Lưu Tuấn Lâm – CT702 9 Chương 2 : PHÂN CỤM DỮ LIỆU VÀ CÁC TIẾP CẬN 2.1 Khái quát về phân cụm dữ liệu Phân cụm dữ liệu là một kỹ thuật phát triển mạnh mẽ trong nhiều năm trở lại đây do các ứng dụng và lợi ích to lớn của nó trong các lĩnh vực trong thực tế. Ở một mức cơ bản nhất người ta định nghĩa phân cụm dữ liệu như sau [1]: Phân cụm dữ liệu là một kỹ thuật trong Data mining nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định. Do đó, phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các đối tượng trong một cụm thì “tương tự” nhau và các đối tượng trong các cụm khác nhau thì “phi tương tự” với nhau. Số cụm dữ liệu được xác định bằng kinh nghiệm hoặc bằng một số phương pháp phân cụm. Sau khi xác định các đặc tính của dữ liệu, người ta đi tìm cách thích hợp để xác định "khoảng cách" giữa các đối tượng, hay là phép đo tương tự dữ liệu. Đây chính là các hàm để đo sự giống nhau giữa các cặp đối tượng dữ liệu, thông thường các hàm này hoặc là để tính độ tương tự (Similar) hoặc là tính độ phi tương tự (Dissimilar) giữa các đối tượng dữ liệu. Giá trị của hàm tính độ đo tương tự càng lớn thì sự giống nhau giữa đối tượng càng lớn và ngược lại, còn hàm tính độ phi tương tự tỉ lệ nghịch với hàm tính độ tương tự. Trong quá trình phân cụm dữ liệu thì vấn đề trở ngại lớn nhất đó là nhiễu (noise). Nhiễu xuất hiện do trong quá trình thu thấp thông tin, dữ liệu thiếu chính xác hoặc không đầy đủ. Vì vậy chúng ta cần phải khử nhiễu trong quá trình tiến hành phân cụm dữ liệu. Các bước của một bài toán phân cụm dữ liệu gồm:  Xây dựng hàm tính độ tương tự  Xây dựng các tiêu chuẩn phân cụm  Xây dựng mô hình cho cấu trúc dữ liệu  Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo  Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm [...]... Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát 2.3 Những kỹ thuật tiếp cận trong phân cụm dữ liệu Các kỹ thuật áp dụng để giải quyết vấn đề phân cụm dữ liệu đều hướng tới hai mục tiêu chung : Chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán Hiện nay, các kỹ phân cụm dữ liệu có thể phân loại theo các cách tiếp cận chính sau : 2.3.1 Phân cụm phân. .. cả các đối tượng đều được chèn vào cây CF Lưu Tuấn Lâm – CT702 24 Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát 2 BIRCH chọn một thuật toán phân cụm bất kỳ (như thuật toán phân hoạch) để thực hiện phân cụm cho tất các các nút lá Đánh giá thuật toán BIRCH Ƣu điểm: Nhờ sử dụng cây CF, BIRCH có tốc độ phân cụm nhanh O(N) (vì BIRCH chỉ duyệt toàn bộ dữ liệu một lần) BIRCH... vi tìm hiểu của đề tài này, em xin trình bày hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, làm cơ sở để trình bày một số phương pháp phân cụm nửa giám sát 3.1 Phƣơng pháp phân hoạch Trong phân cụm phân hoạch, bài toán đặt ra như sau:cho X   xi i 1 là tập N N đối tượng dữ liệu ta muốn phân cụm, trong đó xi d Thuật toán phân cụm có nhiệm vụ chia nhỏ tập dữ liệu thành K phân hoạch ( K... toán Phân cụm dữ liệu nửa giám sát Chương 4 : PHÂN CỤM DỮ LIỆU NỬA GIÁM SÁT Phân cụm nửa giám sát là phương pháp sử dụng các thông tin bổ trợ để hướng dẫn cho quá trình phân cụm Các thông tin bổ trợ có thể được cho dưới dạng tập các cặp ràng buộc hoặc một tập nhỏ một số dữ liệu được dán nhãn Công việc xác định những tập ràng buộc hay những tập dữ liệu được dán nhãn được thực hiện bởi người phân cụm. .. lượng của thuật toán KLưu Tuấn Lâm – CT702 33 Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát Means phân cấp, và khi Kmax đạt đến một giá trị nhất định thì số cụm K dự đoán không thay đổi nữa Thuật toán K-Means phân cấp gồm 3 bước chính sau: Bước1 : Chạy thuật toán Seeded-KMeans để khởi ra Kmin cụm ban đầu (Kmin là số cụm giống) Bước 2: Với mỗi cụm trong tập cụm hiện thời... Nếu chọn tập giống tốt có thể thu được một kết quả phân cụm tốt và với một Lưu Tuấn Lâm – CT702 31 Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát thời gian rất ngắn Nếu chọn một tập giống không tốt thì thời gian phân cụm sẽ rất lâu và kết quả phân cụm thu được là không tôt 4.2.2 Thuật toán Constrained-KMeans Thuật toán Constrained-KMeans dùng các cụm giống như những... kết quả cho các phương pháp phân cụm PCDL 2.4 Một số ứng dụng của phân cụm dữ liệu Phân cụm dữ liệu được ứng dụng vào rất nhiều lĩnh vực như thương mại, sinh học, phân tích dữ liệu không gian, lập quy hoạch đô thị, nghiên cứu trái đất, địa lý, Web,… Lưu Tuấn Lâm – CT702 17 Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát Trong thương mại, phân cụm có thể giúp các thương... 4.3 Thuật toán K-Means phân cấp Ba thuật toán phân cụm nửa giám sát: Seeded-KMeans, Constrained-Kmeans, COP-KMeans đạt hiệu quả kém trước bài toán phân cụm mà số lượng cụm chưa được xác định một cách chính xác Chúng ta có thể gặp vấn đề này rất nhiều trong thực tế, ví dụ: bài toán phân cụm một dữ liệu gồm các đối tượng sinh viên trong một lớp: nếu ta phân loại sinh viên theo giới tính thì số cụm cần phân. .. ta phân hoạch tập giống S thành K cụm giống tách rời Sh h1 , K do đó mọi đối tượng xj Sh đều nằm trong cụm X h tương ứng Nhiệm vụ cần giải quyết là từ K cụm giống Sh h1 chúng ta phải phân hoạch tập dữ liệu X thành K phân K hoạch tách rời  X h h1 K Lưu Tuấn Lâm – CT702 30 Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát 4.2.1 Thuật toán Seeded-KMeans Thuật toán. .. trong tập dữ liệu thực Thí dụ như hai khách hàng tuy có cùng các giá trị thuộc tính về sản phẩm đã mua nhưng là khách hàng hoàn toàn khác nhau, họ chỉ phân biệt nhau thông qua chỉ số định danh ID trong Lưu Tuấn Lâm – CT702 25 Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát cơ sở dữ liệu Mô hình dữ liệu hỗn hợp này được sử dụng cho phân cụm dữ liệu của thuật toán k-prototypes . Đề án tốt nghiệp Thuật toán Phân cụm dữ liệu nửa giám sát Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát Lưu Tuấn Lâm – CT702. khai phá dữ liệu và một số thuật toán phân cụm không giám sát tiến tới đi sâu vào tìm hiểu, phân tích, đánh giá một số thuật toán của phương pháp phân cụm dữ liệu nửa giám sát. ( Thuật toán Seeded-Kmeans. 3.3.5 Thuật toán K-Tâm 27 Chƣơng 4 : PHÂN CỤM DỮ LIỆU NỬA GIÁM SÁT 29 4.1 Thuật toán COP-KMeans 29 4.2 Phân cụm nửa giám sát dựa trên tập tập dữ liệu đƣợc dán nhãn 30 4.2.1 Thuật toán Seeded-KMeans

Ngày đăng: 30/07/2014, 15:22

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Trung Thông. Phương pháp phân cụm nửa giám sát [ 2 ] KS. Nguyễn Anh Trung - Trung tâm Công nghệ Thông tin. Ứng dụng các kỹ thuật khai phá dữ liệu vào lĩnh vực viễn thông Sách, tạp chí
Tiêu đề: Phương pháp phân cụm nửa giám sát " [ 2 ] KS. Nguyễn Anh Trung - Trung tâm Công nghệ Thông tin
[4] Hoàng Xuân Huấn, Nguyễn Thị Xuân Hương. Mở rộng thuật toán phân cụm k- mean cho dữ liệu hỗn hợp. Một số vấn đề chọn lọc của công nghệ thông tin, Hải phòng 25-27 tháng 8 năm 2005 Sách, tạp chí
Tiêu đề: Mở rộng thuật toán phân cụm k-mean cho dữ liệu hỗn hợp
[5] Basu, S., Banerjee, A., & Mooney, R. J. (2002). Semi-supervised clustering by seeding. In Proceedings of 19 th International Conference on Machine Learning (ICML-2002), pp. 19–26 Sách, tạp chí
Tiêu đề: Proceedings of 19"th" International Conference on Machine Learning (ICML-2002)
Tác giả: Basu, S., Banerjee, A., & Mooney, R. J
Năm: 2002
[7] Basu Sugato (2004) Semi-supervised Clustering with Limited Background Knowledge. Proceedings of the Ninth AAAI/SIGART Doctoral Consortium, pp. 979- 980, San Jose, CA, July 2004 Sách, tạp chí
Tiêu đề: Proceedings of the Ninth AAAI/SIGART Doctoral Consortium", pp. 979-980
[10] Kantardzic Mehmed, 2003 DATA MINING:Concepts, Models, Methods & Algorithms. Copyright © 2003 by Mehmed Kantardzic. pp 79-120 Sách, tạp chí
Tiêu đề: Copyright © 2003 by Mehmed Kantardzic
[6] Basu, S., Banerjee, A., & Mooney, R. J. (2003). Active semi-supervision for pairwise constrained clustering. Submitted for publication, available athttp://www.cs.utexas.edu/˜sugato/ Link
[8] Blake, C. L., & Merz, C. J. (1998). UCI repository of machine learning databases. http://www.ics.uci.edu/˜mlearn/MLRepository.html Link
[9] Cohn, D., Caruana, R., & McCallum, A. (2000). Semi-supervised clustering with user feedback. Unpublished manuscript. Available athttp://www2.cs.cmu.edu/˜mccallum/ Link
[3] Hoàng Hải Xanh – K9 đại học công nghệ - ĐHQGHN (Luận văn thạc sĩ) Một số kỹ thuật phân cụm dữ liệu trong Data Mining Khác

HÌNH ẢNH LIÊN QUAN

Hình 1: Quá trình khám phá tri thức trong CSDL - Đề án tốt nghiệp: Thuật toán Phân cụm dữ liệu nửa giám sát potx
Hình 1 Quá trình khám phá tri thức trong CSDL (Trang 8)
Hình 2 : Một số hình dạng cụm dữ liệu khám phá đƣợc bởi kỹ thuật PCDL dựa  trên mật độ - Đề án tốt nghiệp: Thuật toán Phân cụm dữ liệu nửa giám sát potx
Hình 2 Một số hình dạng cụm dữ liệu khám phá đƣợc bởi kỹ thuật PCDL dựa trên mật độ (Trang 16)
Hình 3 : Mô hình cấu trúc dữ liệu lưới - Đề án tốt nghiệp: Thuật toán Phân cụm dữ liệu nửa giám sát potx
Hình 3 Mô hình cấu trúc dữ liệu lưới (Trang 17)
Hình 4: Phân cụm phân cấp Top-down và Bottom-up - Đề án tốt nghiệp: Thuật toán Phân cụm dữ liệu nửa giám sát potx
Hình 4 Phân cụm phân cấp Top-down và Bottom-up (Trang 23)
Hình ảnh dưới đây là thí dụ về các dạng và kích thước cụm dữ liệu được khám  phá bởi CURE : - Đề án tốt nghiệp: Thuật toán Phân cụm dữ liệu nửa giám sát potx
nh ảnh dưới đây là thí dụ về các dạng và kích thước cụm dữ liệu được khám phá bởi CURE : (Trang 24)
Hình 4 sau đây mô tả cấu trúc cây CF. - Đề án tốt nghiệp: Thuật toán Phân cụm dữ liệu nửa giám sát potx
Hình 4 sau đây mô tả cấu trúc cây CF (Trang 25)
Hình phân cấp top-down và tiêu chuẩn BIC. - Đề án tốt nghiệp: Thuật toán Phân cụm dữ liệu nửa giám sát potx
Hình ph ân cấp top-down và tiêu chuẩn BIC (Trang 35)
Hình 7: Seeded-KMeans khởi tạo 3      cụm ban đầu - Đề án tốt nghiệp: Thuật toán Phân cụm dữ liệu nửa giám sát potx
Hình 7 Seeded-KMeans khởi tạo 3 cụm ban đầu (Trang 35)
Bảng sau gồm các thuộc tính dùng để đánh giá các mức độ rủi ro: - Đề án tốt nghiệp: Thuật toán Phân cụm dữ liệu nửa giám sát potx
Bảng sau gồm các thuộc tính dùng để đánh giá các mức độ rủi ro: (Trang 46)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w