1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân cum dữ liệu bài toán và một số giải thuật theo tiếp cận phân hoạch

45 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 45
Dung lượng 1,37 MB

Nội dung

Bộ giáo dục đào tạo Tr-ờng đại học dân lập hải phòng -o0o - đồ án tốt nghiệp Ngành công nghệ thông tin Hải Phòng 2013 Bộ giáo dục đào tạo Tr-ờng đại học dân lập hải phòng -o0o - PHÂN CỤM DỮ LIỆU BÀI TOÁN VÀ MỘT SỐ GIẢI THUẬT THEO TIẾP CẬN PHÂN HOẠCH ®å án tốt nghiệp đại học hệ quy Ngành: Công nghệ Thông tin Hải Phòng - 2013 Bộ giáo dục đào tạo Tr-ờng đại học dân lập hải phòng -o0o - PHÂN CỤM DỮ LIỆU BÀI TOÁN VÀ MỘT SỐ GIẢI THUẬT THEO TIẾP CN PHN HOCH đồ án tốt nghiệp đại học hệ quy Ngành: Công nghệ Thông tin Giáo viên h-ớng dÉn: Sinh viªn thùc hiƯn: M· sè sinh viªn: PGS.TS Nguyn Thanh Tựng Phm Vn c 121323 Hải Phòng - 2013 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG CỘNG HÒA Xà HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc -o0o -o0o - NHIỆM VỤ ĐỀ TÀI TỐT NGHIỆP Sinh viªn: Phạm Văn Đức Mã sinh viên: 121323 Líp: CT1201 Ngành: Công nghệ thông tin Tên đề tài: PHN CỤM DỮ LIỆU: Bài toán giải thuật theo tip cn phõn hoch nhiệm vụ đề tài Ni dung yêu cầu cần giải nhiệm vụ đề tài tốt nghiệp a Nội dung: - Thế khai phá liệu khám phá tri thức từ sở liệu - Kỹ thuật phân cụm liệu khai phá liệu, phân loại thuật toán phân cụm lĩnh vực ứng dụng - Một số thuật toán phân cụm theo tiếp cận phân hoạch: Thuật toán KMeans, thuật toán K-Medoids - Xây dựng chương trình demo số thuật tốn phân cụm phân hoạch trình bày b Các yêu cầu cần giải quyết: - Về lý thuyết: Nắm khái niệm, kỹ thuật giải thuật theo tiếp cận phân hoạch Về thực hành: Xây dựng chương trình demo số thuật toán phân cụm phân hoạch trình bày Các số liệu cần thiết để thiết kế, tính tốn Địa điểm thực tập tốt nghip cán h-ớng dẫn đề tài tốt nghiÖp Ngƣời hƣớng dẫn thứ nhất: Họ tên: Nguyễn Thanh Tùng Học hàm, học vị: Phó giáo sư, Tiến sĩ Cơ quan công tác: Nguyên cán nghiên cứu Viện Khoa học Công nghệ Việt Nam Nội dung hướng dẫn: Đề tài tốt nghiệp đ-ợc giao ngày 25 tháng 03 năm 2013 Yêu cầu phải hoàn thành tr-ớc ngày 25 tháng 06 năm 2013 Đà nhận nhiệm vụ: §.T.T.N Sinh viªn Phạm Văn Đức §· nhËn nhiƯm vơ: §.T.T.N C¸n bé h-íng dÉn §.T.T.N PGS.TS Nguyễn Thanh Tùng Hải Phòng, ngày tháng .năm 20 Hiệu tr-ởng GS.TS.NGT Trn Hu Ngh Phần nhận xét tóm tắt cán h-ớng dẫn Tinh thần thái độ sinh viên trình làm đề tài tốt nghiệp: Đánh giá chất l-ợng đề tài tốt nghiệp (so với nội dung yêu cầu ®· ®Ị nhiƯm vơ ®Ị tµi tèt nghiƯp) Cho ®iĨm cđa c¸n bé h-íng dÉn: Ngày .tháng .năm 20 Cán h-ớng dẫn (Ký, ghi rõ họ tên ) Phần nhận xét đánh giá cán chấm phản biện đề tài tốt nghiệp ỏnh giỏ cht lượng đề tài tốt nghiệp mặt thu thập phân tích số liệu ban đầu, sở lý luận chọn phương án tối ưu, cách tính tốn chất lượng thuyết minh vẽ, giá trị lý luận thực tiễn đề tài Cho ®iĨm cđa cán phản biện ( Điểm ghi số ch÷ ) Ngày .tháng .năm 20 Cán chấm phản biện ( Ký, ghi rõ họ tªn ) MỤC LỤC MỤC LỤC DANH MỤC HÌNH MINH HỌA LỜI CẢM ƠN LỜI NÓI ĐẦU Chương 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.2 Quy trình khai phá liệu 1.3 Các kỹ thuật khai phá liệu 1.3.1 Phƣơng pháp suy diễn quy nạp 1.3.2 Cây định luật 1.3.3 Phân nhóm phân đoạn 1.3.4 Phƣơng pháp ứng dụng K-láng giềng gần 1.3.5 Các phƣơng pháp dựa mẫu 1.3.6 Phát luật kết hợp 1.4 Các ứng dụng khai phá liệu 1.5 Một số thách thức đặt cho việc khai phá liệu 1.6 Kết luận chƣơng 10 Chương PHÂN CỤM DỮ LIỆU VÀ CÁC GIẢI THUẬT THEO TIẾP CẬN PHÂN HOẠCH 11 2.1 Phân cụm liệu gì? 11 2.2 Các ứng dụng phân cụm 13 2.3 Các yêu cầu thuật toán phân cụm liệu 13 2.4 Các kiểu liệu phân cụm 14 2.4.1 Kiểu liệu dựa kích thƣớc miền 15 2.4.2 Kiểu liệu dựa hệ đo 15 2.5 Phép đo độ tƣơng tự khoảng cách kiểu liệu 16 2.5.1 Khái niệm tƣơng tự, phi tƣơng tự 16 2.5.2 Thuộc tính khoảng 17 2.5.3 Thuộc tính nhị phân 17 2.5.4 Thuộc tính định danh 18 2.5.5 Thuộc tính có thứ tự 18 2.5.6 Thuộc tính tỉ lệ 19 2.6 Các hƣớng tiếp cận toán phân cụm liệu 19 2.6.1 Các phƣơng pháp phân hoạch 19 2.6.2 Phƣơng pháp phân cấp 20 2.6.3 Các phƣơng pháp dựa mật độ 21 2.6.4 Phân cụm liệu dựa lƣới 22 2.6.5 Phƣơng pháp dựa mơ hình 22 2.7 Các vấn đề gặp phải 22 2.8 Phƣơng pháp phân hoạch (Partion Methods) 22 2.8.1 Thuật toán K-Means 22 2.8.2 Thuật toán K-Medoids 23 2.9 Kết luận chƣơng 24 Chương 3: CÀI ĐẶT VÀ THỬ NGHIỆM 25 3.1 Môi trƣờng cài đặt 25 3.2 Giới thiệu chƣơng trình ứng dụng 25 3.2.1 Lƣu đồ thuật tốn sử dụng chƣơng trình 25 3.2.2 Một số giao diện 31 KẾT LUẬN 35 TÀI LIỆU THAM KHẢO 36 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng Mỗi cụm chứa đối tượng Mỗi đối tượng thuộc cụm k số cụm cho trước Các phƣơng pháp tiếp cận phân hoạch Tối ưu toàn cục vét cạn: với k cho trước có (kn - (k-1) -…- 1) khả phân hoạch khác Đây số lớn n lớn thực Các phương pháp heuristic: o K-means (MacQueen’67): Mỗi cụm đại diện trọng tâm cụm Phương pháp trình bày kỹ phần sau o K-medoids ( kaufman & Rouseau’87) gọi PAM( partition around medoids): Mỗi cụm đại diện đối tượng cụm 2.6.2 Phƣơng pháp phân cấp( Hierachical methods) Đây phương pháp tạo phân cấp cụm (hierarchical clustering) không tạo phân hoạch đối tượng Phương pháp không cần phải xác định số cụm từ đầu Số cụm khoảng cách cụm điều kiện dừng định Tiêu chuẩn phân cụm thường xác định ma trận khoảng cách Phân cấp cụm thường biểu diễn dạng đồ thị dạng cụm (dendogram) Lá biểu diễn đối tượng riêng lẻ, nút biểu diễn cụm Các phƣơng pháp tiếp cận để phân cụm phân cấp gồm Hình 2.9: Hai phƣơng pháp tiếp cận phân cấp Gộp: B1 Xuất phát đối tượng tạo cụm chứa B2 Nếu hai cụm đủ gần (dưới ngưỡng đấy) gộp lại thành cụm B3 Lặp lại B2 dến cụm tồn khơng gian Tách: Phạm Văn Đức-Lớp CT1201 20 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng B1 Xuất phát từ cụm tồn khơng gian B2 Chọn cụm có độ phân biệt cao (ma trận phân biệt có phần tử lớn trị trung bình lớn nhất) để tách đôi Bước áp dụng phương pháp phân hoạch cụm chọn B3 Lặp lại B2 đến đối tượng thuộc cụm đạt điều kiện dừng (đủ số cụm cần thiết khoảng cách cụm đạt ngưỡng đủ nhỏ) Các khoảng cách cụm thƣờng đƣợc dùng là: Khoảng cách nhỏ hay gọi khoảng cách lien kết đơn (single link) hay khoảng cách người láng giềng gần Đây loại khoảng cách phù hợp để phát cụm có dạng chuỗi dạng khối d(Ci,Cj) = minx Ci, y Cj {d(x,y)} Khoảng cách lớn nhất: hay gọi khoảng cách liên kết hoàn toàn (complete link) khoảng cách người láng giềng xa Đây loại khoảng cách phù hợp để phát cụm có dạng khối dạng chuỗi d(Ci,Cj) = maxx Ci, y Cj {d(x,y)} Khoảng cách trung bình: d(Ci,Cj) = avgx Ci, y Cj {d(x,y)} Khoảng cách trọng tâm Khoảng cách hai trọng tâm hai cụm chọn làm khoảng cách hai cụm Khoảng cách phù hợp để phát cụm có dạng khối tốc độ tính tốn nhanh quan tâm đến trọng tâm nên giảm khối lượng tính toán 2.6.3 Các phƣơng pháp dựa mật độ (Density based Methods) Các ký hiệu khái niệm: p, q, o điểm liệu (các đối tượng) Với Eps dương cho trước,tập hợp NEps(p) ={q | d(q,p) ≤Eps } gọi lân cận bán kính Eps p p gọi điểm hạt nhân thỏa mãn |NEps(p)| ≥ Pts Trong Pts: số nguyên dương cho trước, Pts ngưỡng tối thiểu để coi điểm trù mật Từ nói điểm hạt nhân ta hiểu gắn với bán kính ngưỡng trù mật định p gọi điểm biên khơng phải điểm nhân q gọi tới trực mật độ từ p p điểm nhân q thuộc lân cận p pn gọi tới theo mật độ từ p1 tồn dãy điểm pi (i=2,…,n) cho pi liên thông mật độ trực tiếp từ pi+1 p q gọi có kết nối theo mật độ tồn điểm o cho p q liên thông mật độ từ o Phạm Văn Đức-Lớp CT1201 21 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng 2.6.4 Phân cụm liệu dựa lƣới Ý tưởng: dùng cấu trúc liệu dạng lưới với nhiều cấp độ phân giải Những lưới có mật độ cao tạo thành cụm Phương pháp phù hợp với phân tích phân cụm ừng dụng khơng gian (phân loại sao, thiên hà, …) Ngồi cịn có thuật tốn khác thuật tốn STING, WaveCluster, CLIQUE 2.6.5 Phƣơng pháp dựa mơ hình (Gom cụm khái niệm, mạng neural) Đây phương pháp dựa phù hợp liệu mơ hình tốn học Ý tưởng phương pháp là: Dữ liệu phát sinh từ kết hợp phân phối xác xuất ẩn Có hai phương pháp tiếp cận chính: Tiếp cận thống kê (phương pháp COBWEB, CLASSIT, AUTOCLASS) Tiếp cận mạng noron (học cạnh tranh, đồ tự cấu trúc SOM) 2.7 Các vấn đề gặp phải: - Các kỹ thuật phân cụm giải phần yêu cầu toán - Một vấn đề thường gặp phân cụm hầu hết liệu cần cho phân cụm có chứa liệu nhiễu q trình thu thập thiếu xác thiếu đầy đủ, cần phải xây dựng chiến lược cho bước tiền xử lí liệu nhằm khắc phục loại bỏ nhiễu trước chuyển sang giai đoạn phân tích cụm liệu - Việc phân cụm liệu với kích thước số lượng lớn vấn đề khó khăn độ phức tạp thời gian tăng cao - Khả hiệu phương pháp phân cụm phụ thuộc vào định nghĩa "khoảng cách" (khi phân cụm dựa khoảng cách); - Nếu khoảng cách khơng tồn tại, phải "định nghĩa" nó, q trình thực việc không dễ dàng, đặc biệt không gian đa chiều 2.8 Phƣơng pháp phân hoạch (Partion Methods) 2.8.1 Thuật toán K-Means Cho k số cụm sau phân hoạch (1≤ k ≤ n, với n số điểm( đối tượng) không gian giữ liệu) Thuật toán k-means gồm bước: B1 Chọn ngẫu nhiên k điểm làm trọng tâm ban đầu k cụm B2 Gán (hoặc gán lại) điểm vào cụm có trọng tâm gần điểm xét Nếu khơng có phép gán dừng Vì khơng có phép gán có nghĩa cụm ổn định thuật tốn khơng thể cải thiện làm giảm độ phân biệt B3 Tính lại trọng tâm cho cụm B4 Quay lại bước Minh họa thuật toán với k=2 Phạm Văn Đức-Lớp CT1201 22 Đồ án tốt nghiệp Trường ĐHDL Hải Phịng Hình 2.10: Ví dụ số hình dạng cụm liệu khám phá K-means Ƣu điểm phƣơng pháp gom cụm k-means - Tương đổi nhanh Độ phức tạp thuật toán O(tkn) với t số lần lặp ( t nhỏ so với n), k số cụm cần phân hoạch, n số điểm không gian liệu - K-means phù hợp với cụm có dạng hình cầu Nhƣợc điểm phƣơng pháp k-mean - Khơng đảm bảo đạt tối ưu tồn cục kết đầu phụ thuộc nhiều vào việc chọn k điểm khởi đầu Do phải chạy lại thuật toán với nhiều khởi đầu khác để có kết đủ tốt Trong thực tế áp dụng thuật giải di truyền để phát sinh khởi đầu - Cần phải xác định trước số cụm - Khó xác định số cụm thực mà khơng gian liệu có Do phải thử với giá trị k khác - Khó phát loại cụm có hình dạng phức tạp dạng cụm không lồi - Không thể xử lý nhiễu mẫu cá biệt - Chỉ áp dụng tính trọng tâm 2.8.2 Thuật toán K-Medoids Thuật toán K-Medoids cải tiến thuật toán k-means, k-medoids khác k-means ở: - Chiến lược chọ k trọng tâm - Phương pháp tính độ phân biệt - Phương pháp tính trọng tam cụm Thuật toán K-Medoids thực qua bước sau: B1: Chọn ngẫu nhiên k điểm Oi ( i=1,…,k) làm trung tâm (medoids) ban đầu k cụm Phạm Văn Đức-Lớp CT1201 23 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng B2: Gán ( gán lại) điểm vào cụm có trung tâm gần điểm xét B3: Với điểm trung tâm Oi ( i=1,…,k): B3.1 Lần lượt xét điểm không trung tâm (non-medoids) x B3.2 Tính S độ lợi hoán đổi Oi x S xác định sau: S=Ex – EOi với EOi Ex giá trị hàm mục tiêu trước sau thay Oi x k E = ∑ ∑ d(p, Oi)2 i=1 B3.3 Nếu S âm thay Oi k trung tâm x ( chọn trung tâm tốt hơn) B4 Nếu có thay đổi B3 tiếp tục quay lại B2 Ngược lại kết thúc thuật tốn Ƣu điểm thuật toán K-medoids K-medoids làm việc với nhiễu biệt lệ Nhƣợc điểm thuật toán K-medoids K-medoids hiệu tập liệu khơng q lớn có độ phức tạp O(k(n-k)2t) Trong đó: n số điểm không gian liệu, k số cụm cần phân hoạch, t số lần lặp ( t nhỏ so với n) 2.9 Kết luận chƣơng Trong chương có vấn đề quan tâm phân cụm liệu giải thuật theo tiếp cận phân hoạch Mục đích phân cụm liệu gom liệu tương tự thành cụm, từ cung cấp thơng tin, tri thức hữu ích cho việc định.Phân cụm liệu hướng nghiên cứu trọng tâm lĩnh vực khai phá liệu khám phá tri thức Ưu điểm giải thuật theo tiếp cận phân hoạch đơn giản, dễ áp dụng hiệu sở liệu nhỏ với cụm đưa có hình dạng lồi Tuy nhiên, cụm phương pháp phân hoạch biểu diễn tâm cụm điểm liệu chia vào cụm dựa vào khoảng cách từ điểm tới tâm cụm Chính phương pháp phân hoạch đưa cụm có hình dạng đa giác lồi mà khơng thể đưa cụm có dạng lõm phủ lên lồng Ngoài ra, sở liệu có nhiễu có đối tượng liệu xa tâm (outline) phương pháp phân cụm phân hoạch khơng áp dụng trường hợp đó, đối tượng liệu nhiễu đối tượng liệu xa tâm (outline) làm tâm cụm bị lệch Do đó, khơng đưa cụm xác Phạm Văn Đức-Lớp CT1201 24 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng Chƣơng 3: CÀI ĐẶT VÀ THỬ NGHIỆM 3.1 Môi trƣờng cài đặt Chương trình lập trình với ngơn ngữ C# Visual Studio 2008 Được cài đặt chạy windown XP SP3 Input: Đưa vào ảnh định dạng JPEG Output: Các nhóm (cụm) điểm ảnh, điểm ảnh có màu gom vào nhóm 3.2 Giới thiệu chƣơng trình ứng dụng 3.2.1 Lƣu đồ thuật tốn sử dụng chƣơng trình Begin Tìm Top X color gán làm trọng tâm Tính d(x,y)= Đưa điểm cụm, cập nhật lại tâm cụm Tâm = Tâm cũ No Yes End Phạm Văn Đức-Lớp CT1201 25 Đồ án tốt nghiệp Trường ĐHDL Hải Phịng Tìm Top X color gán làm trung tâm Phạm Văn Đức-Lớp CT1201 26 Đồ án tốt nghiệp Trường ĐHDL Hải Phịng Tính khoảng cách phân cụm Phạm Văn Đức-Lớp CT1201 27 Đồ án tốt nghiệp Trường ĐHDL Hải Phịng Tính trọng tâm Phạm Văn Đức-Lớp CT1201 28 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng Kiểm tra hội tụ Phạm Văn Đức-Lớp CT1201 29 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng 3.2.2 Một số giao diện Giao diện khởi động Đƣa liệu vào xử lý Phạm Văn Đức-Lớp CT1201 30 Đồ án tốt nghiệp Trường ĐHDL Hải Phịng Q trình xử lý liệu Phạm Văn Đức-Lớp CT1201 31 Đồ án tốt nghiệp Trường ĐHDL Hải Phịng Q trình xử lý kết thúc Chạy Thuật toán K-Means với hệ HSV Phạm Văn Đức-Lớp CT1201 32 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng KẾT LUẬN Phân cụm liệu nhiệm vụ quan trọng khai phá liệu, thu hút quan tâm nhiều nhà nghiên cứu Các kỹ thuật phân cụm ứng dụng thành công nhiều lĩnh vực khoa học, đời sống xã hội Hiện nay, phát triển không ngừng công nghệ thông tin truyền thông, hệ thống CSDL ngày đa dạng, tăng trưởng nhanh chất lẫn lượng Hơn nữa, nhu cầu khai thác tri thức từ CSDL ngày lớn Vì vậy, việc nghiên cứu mơ hình liệu mới, áp dụng phương pháp khai phá liệu, có kỹ thuật phân cum liệu việc làm cần thiết có nhiều ý nghĩa Trong đồ án này, trước tiên em trình bày hiểu biết khai phá liệu sau phần nội dung đồ án: Bài toán phân cụm liệu số giải thuật theo tiếp cận phân cấp Ở phần nội dung em trình bày toán phân cụm liệu, cách tiếp cận, ứng dụng, kiểu liệu phân cụm, độ đo độ tương tự Đặc biệt, em tập trung sâu nghiên cứu kỹ thuật phân cụm liệu phân cấp hai thuật tốn điển hình kỹ thuật K-Means K-Medoids với cách thức tổ chức liệu, thuật toán, đánh giá ưu nhược điểm thuật toán Do thời gian thực hạn chế nên em tìm hiểu đựơc số kỹ thuật phân cụm liệu, cài đặt thử nghiệm với thuật toán K- means Nhưng số kỹ thuật em chưa tìm hiểu, khai thác ứng dụng cho toán … Trong thời gian tới em cố gắng tiếp tục nghiên cứu, tìm hiểu thêm sơ kỹ thuật phân cụm tìm hiểu phát triển kỹ thuật phân đoạn ảnh để xử lý với ảnh động Tìm hiểu thử nghiệm thuật toán với số ứng dụng thực tế Phạm Văn Đức-Lớp CT1201 33 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng TÀI LIỆU THAM KHẢO [1] Nguyễn Thị Ngọc, Phân cụm liệu dựa mật độ, Đồ án tốt nghiệp đại học Ngành công nghệ Thông tin – ĐHDL Hải Phòng, 2008 [2] Trần Thị Quỳnh, Thuật toán phân cụm liệu nửa giám sát giải thuật di truyền, Đồ án tốt nghiệp đại học Ngành cơng nghệ Thơng tin – ĐHDL Hải Phịng, 2008 [3] Nguyễn Lâm, Thuật toán phân cụm liệu nửa giám sát, Đồ án tốt nghiệp đại học Ngành công nghệ Thơng tin – ĐHDL Hải Phịng, 2007 [4] Nguyễn Trung Sơn, Phương pháp phân cụm ứng dụng, Luận văn thạc sĩ khoa học máy tính, Khoa cơng nghệ thông tin trường Đại học Thái Nguyên [5] Nguyễn Thị Hướng, Phân cụm liệu dataming, Luận văn tốt nghiệp ngành công nghệ thông tin Đại học sư phạm Hà Nội [6] Tian Zhang, Raghu Ramakrishnan, Miron Livny BIRCH: A New Data Clustering Algorithm and Its Applications Data Mining and Knowledge Discovery, 1, 141–182 (1997), Kluwer Academic Publishers, 1997 [7] Sudipto Guha, Rajeev Rastogi, Kyuseok Shim, CURE: an efficient clustering algorithm for large databases, Information Systems Vol 26, No 1, pp 35-58, Elsevier Science, 2001 [8] J.Han, M Kamber and A.K.H Tung, Spatial Clustering Methods in Data Mining, Sciences and Engineering Research Council of Canada Phạm Văn Đức-Lớp CT1201 34 ... liệu khai phá liệu, phân loại thuật toán phân cụm lĩnh vực ứng dụng - Một số thuật toán phân cụm theo tiếp cận phân hoạch: Thuật tốn KMeans, thuật tốn K-Medoids - Xây dựng chương trình demo số. .. sau phần nội dung đồ án: Bài tốn phân cụm liệu số giải thuật theo tiếp cận phân cấp Ở phần nội dung em trình bày toán phân cụm liệu, cách tiếp cận, ứng dụng, kiểu liệu phân cụm, độ đo độ tương... số thuật toán phân cụm phân hoạch trình bày b Các yêu cầu cần giải quyết: - Về lý thuyết: Nắm khái niệm, kỹ thuật giải thuật theo tiếp cận phân hoạch Về thực hành: Xây dựng chương trình demo số

Ngày đăng: 06/04/2021, 18:30

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Thị Ngọc, Phân cụm dữ liệu dựa trên mật độ, Đồ án tốt nghiệp đại học Ngành công nghệ Thông tin – ĐHDL Hải Phòng, 2008 Sách, tạp chí
Tiêu đề: Phân cụm dữ liệu dựa trên mật độ
[2] Trần Thị Quỳnh, Thuật toán phân cụm dữ liệu nửa giám sát và giải thuật di truyền, Đồ án tốt nghiệp đại học Ngành công nghệ Thông tin – ĐHDL Hải Phòng, 2008 Sách, tạp chí
Tiêu đề: Thuật toán phân cụm dữ liệu nửa giám sát và giải thuật di truyền
[3] Nguyễn Lâm, Thuật toán phân cụm dữ liệu nửa giám sát, Đồ án tốt nghiệp đại học Ngành công nghệ Thông tin – ĐHDL Hải Phòng, 2007 Sách, tạp chí
Tiêu đề: Thuật toán phân cụm dữ liệu nửa giám sát
[4] Nguyễn Trung Sơn, Phương pháp phân cụm và ứng dụng, Luận văn thạc sĩ khoa học máy tính, Khoa công nghệ thông tin trường Đại học Thái Nguyên Sách, tạp chí
Tiêu đề: Phương pháp phân cụm và ứng dụng
[5] Nguyễn Thị Hướng, Phân cụm dữ liệu trong dataming, Luận văn tốt nghiệp ngành công nghệ thông tin Đại học sư phạm Hà Nội Sách, tạp chí
Tiêu đề: Phân cụm dữ liệu trong dataming
[6] Tian Zhang, Raghu Ramakrishnan, Miron Livny. BIRCH: A New Data Clustering Algorithm and Its Applications. Data Mining and Knowledge Discovery, 1, 141–182 (1997), Kluwer Academic Publishers, 1997 Khác
[7] Sudipto Guha, Rajeev Rastogi, Kyuseok Shim, CURE: an efficient clustering algorithm for large databases, Information Systems Vol. 26, No. 1, pp. 35-58, Elsevier Science, 2001 Khác
[8] J.Han, M. Kamber and A.K.H. Tung, Spatial Clustering Methods in Data Mining, Sciences and Engineering Research Council of Canada Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w