1. Trang chủ
  2. » Thể loại khác

ĐỒ ÁN TỐT NGHIỆP: Thuật toán Phân cụm dữ liệu nửa giám sát

20 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 564,3 KB

Nội dung

Đồ án tốt nghiệp Thuật toán Phân cụm liệu nửa giám sát Đồ án tốt nghiệp Đại học hệ quy Thuật tốn Phân cụm liệu nửa giám sát MỤC ĐÍCH CỦA ĐỀ TÀI Cơng việc đọc tìm hiểu đề tài nhằm muc đích sau đây: • Tìm hiểu qua khai phá liệu (Data mining) • Tìm hiểu qua số thuật tốn phân cụm liệu khơng giám sát • Trên lền tảng lý thuyết khai phá liệu số thuật tốn phân cụm khơng giám sát tiến tới sâu vào tìm hiểu, phân tích, đánh giá số thuật toán phương pháp phân cụm liệu nửa giám sát.( Thuật tốn Seeded-Kmeans Constrained-Kmeans) • Xây dựng chương trình demo, mơ hoạt động phương pháp phân cụm liệu nửa giám sát Đồ án tốt nghiệp Đại học hệ quy Thuật toán Phân cụm liệu nửa giám sát GIỚI THIỆU Trong vài thập niên gần đây, với thay đổi phát triển không ngừng ngành công nghệ thơng tin nói chung ngành cơng nghệ phần cứng, phân mềm, truyền thông hệ thống liệu phục vụ lĩnh vực kinh tế xã hội nói riêng Thì việc thu thập thơng tin nhu cầu lưu trữ thông tin ngày lớn Bên cạnh việc tin học hố cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu lưu trữ khổng lồ Hàng triệu Cơ sở liệu sử dụng hoạt động sản xuất, kinh doanh, quản lí , có nhiều Cơ sở liệu cực lớn cỡ Gigabyte, chí Terabyte Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kĩ thuật công cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, kĩ thuật Khai phá liệu trở thành lĩnh vực thời Công nghệ thông tin giới Một vấn đề đặt phải trích chọn thơng tin có ý nghĩa từ tập liệu lớn để từ giải yêu cầu thực tế trợ giúp định, dự đoán,… Khai phá liệu (Data mining) đời nhằm giải yêu cầu Khai phá liệu định nghĩa là: q trình trích xuất thơng tin có giá trị tiềm ẩn bên lượng lớn liệu lưu trữ Cơ sở liệu, kho liệu… Hiện nay, thuật ngữ khai phá liệu, người ta cịn dùng số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ Cơ sở liệu (knowlegde mining from databases), trích lọc liệu (knowlegde extraction), phân tích liệu/mẫu (data/pattern analysis), khảo cổ liệu (data archaeology), nạo vét liệu (data dredging) Nhiều người coi khai phá liệu thuật ngữ thông dụng khác khám phá tri thức Cơ sở liệu(Knowlegde Discovery in Databases – KDD) Tuy nhiên thực tế, khai phá liệu bước thiết yếu trình Khám phá tri thức Cơ sở liệu Ngay từ ngày đầu xuất hiện, Data mining trở thành xu hướng nghiên cứu phổ biến lĩnh vực học máy tính cơng nghệ tri thức Nhiều thành tựu nghiên cứu Data mining áp dụng thực tế Data mining có nhiều hướng quan trọng hướng phân cụm liệu (Data Clustering ) Phân cụm liệu q trính tìm kiếm để phân cụm liệu, mẫu liệu từ tập Cơ sở liệu lớn Phân cụm liệu phương pháp học không giám sát Đồ án tốt nghiệp Đại học hệ quy Thuật tốn Phân cụm liệu nửa giám sát Trong năm trở lại đây, phương pháp phân cụm liệu khơng giám sát cịn nhiều nhược điểm dựa học khơng giám sát học có giám sát đời phương pháp phân cụm liệu phương pháp phân cụm liệu nửa giám sát Phương pháp phân cụm nửa giám sát phương pháp phân cụm hoàn thiện phần khắc phục hạn chế phát huy ưu điểm phương pháp phân cụm không giám sát MỤC LỤC LỜI CẢM ƠN Error! Bookmark not defined MỤC ĐÍCH CỦA ĐỀ TÀI GIỚI THIỆU Chương : TỔNG QUAN VỀ DATA MINING 1.1 Giới thiệu khám phá tri thức 1.2 Khai phá liệu khái niệm liên quan 1.2.1 Khái niệm khai phá liệu 1.2.2 Các kỹ thuật tiếp cận khai phá cữ liệu Chương : PHÂN CỤM DỮ LIỆU VÀ CÁC TIẾP CẬN 2.1 Khái quát phân cụm liệu 2.2 Các kiểu liệu độ đo tương tự 2.3 Những kỹ thuật tiếp cận phân cụm liệu 12 2.3.1 Phân cụm phân hoạch 12 2.3.2 Phân cụm liệu phân cấp 13 2.3.3 Phân cụm liệu dựa mật độ 13 2.3.4 Phân cụm liệu dựa lưới 14 2.3.5 Phân cụm liệu dựa mơ hình 15 2.3.6 Phân cụm liệu có ràng buộc 16 2.4 Một số ứng dụng phân cụm liệu 17 Chương : PHÂN CỤM DỮ LIỆU KHÔNG GIÁM SÁT 18 3.1 Phương pháp phân hoạch 18 3.1.1 Thuật toán K-Means 19 3.1.2 Thuật toán K-Medoids 20 3.2 Phương pháp phân cấp 20 3.2.1 Thuật toán CURE 21 3.2.2 Thuật toán BIRCH 23 3.3 Thuật toán k-tâm: 24 3.3.1 Cơ sở toán học thuật toán k-tâm 24 3.3.2 Các đối tượng có kiểu hỗn hợp 25 3.3.3 Độ đo tương tự 25 3.3.4 Cơng thức tính khoảng cách hai đối tượng 25 3.3.5 Thuật toán K-Tâm 26 Chương : PHÂN CỤM DỮ LIỆU NỬA GIÁM SÁT 28 4.1 Thuật toán COP-KMeans 29 Đồ án tốt nghiệp Đại học hệ quy Thuật toán Phân cụm liệu nửa giám sát 4.2 Phân cụm nửa giám sát dựa tập tập liệu dán nhãn 30 4.2.1 Thuật toán Seeded-KMeans 30 4.2.2 Thuật toán Constrained-KMeans 31 4.3 Thuật toán K-Means phân cấp 33 Chương : GIỚI THIỆU VỀ NGÔN NGỮ VB 6.0 36 5.1 Cấu trúc đề án (Project) 37 5.2 Một số điều khiển 37 5.3 Mơ hình truy cập sở liệu ADO 38 5.4 Trình thiết kế mơi trường liệu ( Data Environment ) 40 5.5 Các phương thức Recordset Command 41 Chương : BÀI TOÁN ỨNG DỤNG 42 6.1 Bài toán 44 6.2 Các thông tin loại bảo hiểm nhân thọ 45 6.3 Cài đặt thuật toán Phân cụm nửa giám sát vời liệu hốn hợp 47 6.4 Các hàm thủ tục thực thuật tốn 48 6.4.1 Hàm khởi tạo tâm từ Tập giống 48 6.4.2 Các hàm tính khoảng cách 49 6.4.3 thuật toán Constrained-Kmeans 50 6.5 Giao diện chương trình 55 KẾT LUẬN 60 Tài liệu tham khảo 61 Đồ án tốt nghiệp Đại học hệ quy Thuật toán Phân cụm liệu nửa giám sát Chương : TỔNG QUAN VỀ DATA MINING 1.1 Giới thiệu khám phá tri thức Trong vài chục năm gần với phát triển mạnh mẽ kỹ thuật công nghệ nhu cầu lưu trữ thông tin dẫn đến trữ lượng liệu lưu trữ không ngừng tăng theo Những sở liệu lớn đời, có sở liệu lên đến cỡ Gigabyte chí Terabyte Nếu bạn có tay kho sở liệu có nghĩa bạn có tay kho tri thức.Nhưng vấn đề đặt làm bạn trích lọc thơng tin, tri thức từ kho liệu với nhiều thông tin lĩnh vực khác Để giải vấn đề kỹ thuật khám phá tri thức sở liệu (Knowledge Discovery in Databases- KDD) đời.Khám phá tri thức sở liệu (KDD) lĩnh vực liên quan đến ngành như: xác suất thống kê, học máy, trực quan hóa liệu, tính tốn song song,…Trong q trình KDD chia thành bước thực sau [1]: Bước 1: Trích chọn liệu: Ở bước liệu liên quan trực tiếp đến nhiệm vụ trình KDD thu thập từ nguồn liệu ban đầu Bước 2: Tiền xử lý liệu: có nhiệm vụ làm sạch, loại bỏ nhiễu, rút gọn rời rạc hóa liệu Bước 3: Biến đổi liệu: nhằm chuẩn hóa làm mịn liệu để chuyển liệu dạng thuận lợi phục vụ cho việc khai phá Bước 4: Data mining: dùng kỹ thuật phân tích để khai thác liệu, trích chọn mẫu thơng tin cần thiết,… Cơng đoạn xem thời gian quan trọng trình KDD Bước 5: Đánh giá biểu diễn tri thức: Các thông tin mối liên hệ chúng vừa khám phá công đoạn trước biểu diễn dạng trực quan đồng thời đánh giá theo tiêu chí định Đồ án tốt nghiệp Đại học hệ quy Thuật tốn Phân cụm liệu nửa giám sát Dữ liệu thơ Tri thức Trích chọn liệu Đánh giá biểu diễn Dữ liệu Mẫu Tiền xử lý liệu Dữ liệu tiền xử lý Biến đổi liệu Data mining Hình 1: Quá trình khám phá tri thức CSDL 1.2 Khai phá liệu khái niệm liên quan Data mning công đoạn trình khám phá tri thức sở liệu Và Data mining khâu quan trọng trình khám phá tri thức sở liệu Nhiệm vụ Data mining khai thác thơng tin, tri thức có tính tiềm ẩn hữu ích tập Cơ sở liệu lớn nhằm cung cấp thông tin cần thiết cho lĩnh vực sản xuất, khinh doanh, nghiên cứu,… Các kết nghiên cứu với ứng dụng thành công việc khai phá tri thức cho thấy Data mining lĩnh vực đầy tiềm bền vững Data mining giả tồn khó làm để trích lọc thơng tin, tri thức hữu ích từ tập Cơ sở liệu lớn khẳng định ưu việt so với cơng cụ phân tích dữu liệu truyền thông Hiện nay, Data mining ứng dụng ngày rộng dãi nhiều lĩnh vực như: Thương mại, Tài chính, Điều trị y học, Viễn thơng, Tin – Sinh,… Khi đọc đến bạn nhầm lẫn hai khái niệm Data mining khám phá tri thức sở liệu (KDD) Nhưng thực KDD mục tiêu Data mining Và Data mining bước quan trọng mang tính định q trình KDD Đồ án tốt nghiệp Đại học hệ quy Thuật toán Phân cụm liệu nửa giám sát 1.2.1 Khái niệm khai phá liệu Do phát triển mạnh mẽ Data mining phạm vi lĩnh vực ứng dụng thực tế phương pháp tìm kiếm lên có nhiều khài niệm khác Data mining Ở em xin nêu định nghĩa gắn gọn dễ hiểu Data mining sau [1]: Data mining trình tìm kiếm, chắt lọc chi thức mới, tiềm ẩn, hữu dụng tập liệu lớn 1.2.2 Các kỹ thuật tiếp cận khai phá cữ liệu Các kỹ thuật áp dụng Data mining phần lớn kế thừa từ lĩnh vực như: Cơ sở liệu (Database), Học máy (Machine learning), Trí tuệ nhân tạo, Xác suất thống kê,… ta có hai hướng tiếp cận sau đây: Theo quan điểm học máy, kỹ thuật Data mining gồm: • Học có giám sát (Supervised learning): Là trình gán nhãn lớp cho đối tượng tập liệu dựa đối tượng huấn luyện thông tin nhãn lớp biết • Học khơng giám sát (Unsupervised learning): Là trình phân chia tập liệu thành lớp hay cụm (cluster) liệu tương tự mà chưa biết trước thông tin nhãn lớp • Học nửa giám sát (Semi-Supervised learning): Là trình chia tập liệu thành lớp dựa số thông tin bổ trợ cho trước Theo lớp toán cần giải quyết, kỹ thuật Data mining gồm: • Phân lớp dự đoán (Classification and Prediction): đưa đối tượng vào lớp biết trước Phân lớp dự đốn cịn gọi học có giám sát • Luật kết hợp (Association rules): Là dạng luật biểu diễn tri thức dạng đơn giản Một luật kết hợp mơ tả sau: Nếu a b với xác suất p • Phân tích chuỗi theo thời gian: giống khai phá luật kết hợp có thêm tính thứ tự thời gian • Phân cụm (Clustering): Nhóm đối tượng thành cụm liệu Đây phương pháp học không giám sát Đồ án tốt nghiệp Đại học hệ quy Thuật tốn Phân cụm liệu nửa giám sát • Mơ tả khái niệm: Mơ tả, tổng hợp tóm tắt khái niệm, ví dụ tóm tắt văn Chương : PHÂN CỤM DỮ LIỆU VÀ CÁC TIẾP CẬN 2.1 Khái quát phân cụm liệu Phân cụm liệu kỹ thuật phát triển mạnh mẽ nhiều năm trở lại ứng dụng lợi ích to lớn lĩnh vực thực tế Ở mức người ta định nghĩa phân cụm liệu sau [1]: Phân cụm liệu kỹ thuật Data mining nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn quan trọng tập liệu lớn để từ cung cấp thơng tin, tri thức cho việc định Do đó, phân cụm liệu trình phân chia tập liệu ban đầu thành cụm liệu cho đối tượng cụm “tương tự” đối tượng cụm khác “phi tương tự” với Số cụm liệu xác định kinh nghiệm số phương pháp phân cụm Sau xác định đặc tính liệu, người ta tìm cách thích hợp để xác định "khoảng cách" đối tượng, phép đo tương tự liệu Đây hàm để đo giống cặp đối tượng liệu, thông thường hàm để tính độ tương tự (Similar) tính độ phi tương tự (Dissimilar) đối tượng liệu Giá trị hàm tính độ đo tương tự lớn giống đối tượng lớn ngược lại, cịn hàm tính độ phi tương tự tỉ lệ nghịch với hàm tính độ tương tự Trong trình phân cụm liệu vấn đề trở ngại lớn nhiễu (noise) Nhiễu xuất q trình thu thấp thơng tin, liệu thiếu xác khơng đầy đủ Vì cần phải khử nhiễu trình tiến hành phân cụm liệu Các bước tốn phân cụm liệu gồm: • Xây dựng hàm tính độ tương tự Đồ án tốt nghiệp Đại học hệ quy Thuật tốn Phân cụm liệu nửa giám sát • Xây dựng tiêu chuẩn phân cụm • Xây dựng mơ hình cho cấu trúc liệu • Xây dựng thuật tốn phân cụm xác lập điều kiện khởi tạo • Xây dựng thủ tục biểu diễn đánh giá kết phân cụm 2.2 Các kiểu liệu độ đo tương tự Sau kiểu liệu, ứng với kiểu liệu có hàm tính độ đo tương tự để xác định khoảng cách phân tử kiểu liệu Tất độ đo xác định không gian metric Bất kỳ metric độ đo ngược lại khơng Độ đo tương tự phi tương tự Một tập liệu X khơng gian metric nếu: • với cặp x,y thuộc X xác định số thực d(x,y) theo quy tắc gọi khoảng cách x,y • Quy tắc phải thoả mãn tính chất sau: a) d(x,y) > x ≠ y b) d(x,y) = x = y c) d(x,y) = d(y,x) d) d(x,y) yi ta nói x cách y khoảng xi-yi ứng với thuộc tính thứ i Độ đo phi tương tự x y tính metric khoảng cách sau n Khoảng cách Minkowski: d ( x, y ) = (∑ xi − yi )1/ q , q ∈ N * q i =1 n Khoảng cách Euclide: d ( x, y ) = (∑ xi − yi )1/ , trường i =1 hợp khoảng cách Minkowski với q = 10 Đồ án tốt nghiệp Đại học hệ quy Thuật tốn Phân cụm liệu nửa giám sát n Khoảng cách Mahattan d ( x, y ) = (∑ xi − yi ) , trường hợp i =1 khoảng cách Minkowski với q = • Kiểu thuộc tính định danh (Nominal) Đây dạng tổng quat hoá thuộc tính nhị phân, miền giá trị rời rạc không phân biệt thứ tự Nếu x y hai thuộc tính định danh ta xác định x = y x ≠ y Ví dụ: thuộc tính nơi sinh, quê quán sinh viên sở liệu sinh viên Độ đo phi tương tự hai đối tượng x y xác định qua công thức sau: d ( x, y ) = p−m , m số thuộc tính đối sánh tương ứng trùng p p tổng số thuộc tính • Kiểu thuộc tính thứ tự (Ordinal) Là thuộc tính định danh có tính thứ tự, chúng khơng định lượng Nếu x y hai thuộc tính có thứ tự ta xác định x = y x ≠ y x > y x < y Ví dụ : thuộc tính xếp hạng kết thi đấu đua ôtô Độ đo phi tương tự tính thơng qua bước sau: Gọi f thuộc tính, giá trị f ứng với đối tượng thứ i xif Giả sử f có Mf trạng thái có thứ tự: 1,2,…,Mf Ta thay xif giá trị tương ứng rif ∈ [1,Mf] Vì thuộc tính f có thứ tự có số lượng trạng thái khác nên ta cần làm cho rif thuộc khoảng [0.0,1.0] để thuộc tính có trọng số Do rif thay zif = rif − M f −1 Cuối ta sử dụng công thức tính độ phi tương tự thuộc tính khoảng với zif đại diện cho giá trị thuộc tính f đối tượng thứ i • Kiểu thuộc tính tỷ lệ (Ratio) 11 Đồ án tốt nghiệp Đại học hệ quy Thuật tốn Phân cụm liệu nửa giám sát Đây thuộc tính khoảng xác định cách tương đối so với điểm mốc Ví dụ : thuộc tính chiều cao người, lấy điểm mốc mặt đất chỗ người đứng, chiều cao điểm mốc Có nhiều cách để tính độ tương tự thuộc tính tỉ lệ Một số việc sử dụng cơng thức tính logarit để chuyển thuộc tính tỉ lệ xi dạng thuộc tính khoảng ψi = log(xi) 2.3 Những kỹ thuật tiếp cận phân cụm liệu Các kỹ thuật áp dụng để giải vấn đề phân cụm liệu hướng tới hai mục tiêu chung : Chất lượng cụm khám phá tốc độ thực thuật toán Hiện nay, kỹ phân cụm liệu phân loại theo cách tiếp cận sau : 2.3.1 Phân cụm phân hoạch Phương pháp phân cụm phân hoạch nhằm phân tập liệu có n phần tử cho trước thành k nhóm liệu cho : phần tử liệu thuộc nhóm liệu nhóm liệu có tối thiểu phần tử liệu Các thuật toán phân hoạch liệu có độ phức tạp lớn xác định nghiệm tối ưu toàn cục cho vấn đề PCDL, phải tìm kiếm tất cách phân hoạch Chính vậy, thực tế người ta thường tìm giải pháp tối ưu cục cho vấn đề cách sử dụng hàm tiêu chuẩn để đánh giá chất lượng cụm để hướng dẫn cho trình tìm kiếm phân hoạch liệu Với chiến lược này, thông thường người ta bắt đầu khởi tạo phân hoạch ban đầu cho tập liệu theo phép ngẫu nhiên theo heuristic, liên tục tinh chỉnh thu phân hoạch mong muốn, thoả mãn ràng buộc cho trước Các thuật toán phân cụm phân hoạch cố gắng cải tiến tiêu chuẩn phân cụm, cách tính giá trị đo độ tương tự đối tượng liệu xếp giá trị này, sau thuật tốn lựa chọn giá trị dãy xếp cho hàm tiêu chuẩn đạt giá trị tối thiểu Như vậy, ý tưởng thuật tốn phân cụm phân hoạch tối ưu cục sử dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm Một số thuật tốn phân cụm phân hoạch điển k-means, PAM, CLARA, CLARANS,…sẽ trình bày chi tiết chương sau 12 Đồ án tốt nghiệp Đại học hệ quy Thuật tốn Phân cụm liệu nửa giám sát 2.3.2 Phân cụm liệu phân cấp Phân cụm phân cấp xếp tập liệu cho thành cấu trúc có dạng hình cây, phân cấp xây dựng theo kỹ thuật đệ quy Cây phân cụm xây dựng theo hai phương pháp tổng quát : phương pháp xuống (Top down) phương pháp lên (Bottum up) • Phương pháp “dưới lên” (Bottom up) : Phương pháp bắt đầu với đối tượng khởi tạo tương ứng với cụm riêng biệt, sau tiến hành nhóm đối tượng theo độ đo tương tự (như khoảng cách hai trung tâm hai nhóm), q trình thực tất nhóm hịa nhập vào nhóm (mức cao phân cấp) điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận sử dụng chiến lược ăn tham q trình phân cụm • Phương pháp “trên xuống” (Top Down) : Bắt đầu với trạng thái tất đối tượng xếp cụm Mỗi vịng lặp thành cơng, cụm tách thành cụm nhỏ theo giá trị phép đo độ tương tự đối tượng cụm, điều kiện dừng thỏa mãn Cách tiếp cận sử dụng chiến lược chia để trị q trình phân cụm Một số thuật tốn phân cụm phân cấp điển CURE, BIRCH, …sẽ trình bày chi tiết chương sau Thực tế áp dụng, có nhiều trường hợp người ta kết hợp hai phương pháp phân cụm phân hoạch phương phân cụm phân cấp, nghĩa kết thu phương pháp phân cấp cải tiến thơng quan bước phân cụm phân hoạch Phân cụm phân hoạch phân cụm phân cấp hai phương pháp PCDL cổ điển, có nhiều thuật tốn cải tiến dựa hai phương pháp áp dụng phổ biến Data Mining 2.3.3 Phân cụm liệu dựa mật độ Phương pháp nhóm đối tượng theo hàm mật độ xác định Mật độ định nghĩa số đối tượng lân cận đối tượng liệu theo ngưỡng Trong cách tiếp cận này, cụm liệu xác định tiếp tục phát triển thêm đối tượng liệu miễn số đối tượng lân cận đối tượng phải lớn ngưỡng xác định trước Phương pháp phân cụm dựa vào mật độ đối tượng để xác định cụm liệu phát cụm liệu với hình thù Tuy vậy, việc xác định tham số mật độ thuật 13 Đồ án tốt nghiệp Đại học hệ quy Thuật tốn Phân cụm liệu nửa giám sát tốn khó khăn, tham số lại có tác động lớn đến kết phân cụm liệu Hình minh hoạ cụm liệu với hình thù khác dựa mật độ khám phá từ CSDL khác CSDL CSDL CSDL Hình : Một số hình dạng cụm liệu khám phá kỹ thuật PCDL dựa mật độ Một số thuật toán PCDL dựa mật độ điển DBSCAN, OPTICS, DENCLUE, …sẽ trình bày chi tiết chương 2.3.4 Phân cụm liệu dựa lưới Kỹ thuật phân cụm dựa mật độ khơng thích hợp với liệu nhiều chiều, để giải cho đòi hỏi này, người ta dử dụng phương pháp phân cụm dựa lưới Đây phương pháp dựa cấu trúc liệu lưới để PCDL, phương pháp chủ yếu tập trung áp dụng cho lớp liệu khơng gian Thí dụ liệu biểu diễn dạng cấu trúc hình học đối tượng khơng gian với quan hệ, thuộc tính, hoạt động chúng Mục tiêu phương pháp lượng hố tập liệu thành (Cell), cell tạo thành cấu trúc liệu lưới, sau thao tác PCDL làm việc với đối tượng Cell Cách tiếp cận dựa lưới không di chuyển đối tượng cell mà xây dựng nhiều mức phân cấp nhóm đối tượng cell Trong ngữ cảnh này, phương pháp gần giống với phương pháp phân cụm phân cấp có điều chúng khơng trộn Cell Do cụm không dựa độ đo khoảng cách (hay gọi độ đo tương tự liệu không gian) mà định tham số xác định trước Ưu điểm phương pháp PCDL dựa lưới thời gian xử lý nhanh độc lập với số đối tượng liệu tập liệu ban đầu, thay vào chúng phụ thuộc 14 Đồ án tốt nghiệp Đại học hệ quy Thuật tốn Phân cụm liệu nửa giám sát vào số cell chiều khơng gian lưới Một thí dụ cấu trúc liệu lưới chứa cell khơng gian hình sau : 1st layer Tầng 1st level (top level) could Mức (mức cao ) have chứaonly one Cellcell (i-1)th level Cell mứcAi-1cell cóofthể tương ứng to 4i cells of với 4corresponds cell mức ith level (i-1)th layer Tầng i-1 Tầng i ith layer Hình : Mơ hình cấu trúc liệu lưới Một số thuật toán PCDL dựa cấu trúc lưới điển : STING, WAVECluster, CLIQUE,… 2.3.5 Phân cụm liệu dựa mơ hình Phương pháp cố gắng khám phá phép xấp xỉ tốt tham số mơ hình cho khớp với liệu cách tốt Chúng sử dụng chiến lược phân cụm phân hoạch chiến lược phân cụm phân cấp, dựa cấu trúc mơ hình mà chúng giả định tập liệu cách mà chúng tinh chỉnh mơ hình để nhận dạng phân hoạch Phương pháp PCDL dựa mơ hình cố gắng khớp liệu với mơ hình tốn học, dựa giả định liệu tạo hỗn hợp phân phối xác suất Các thuật tốn phân cụm dựa mơ hình có hai tiếp cận : Mơ hình thống kê Mạng Nơ ron Phương pháp gần giống với phương pháp dựa mật độ, chúng phát triển cụm riêng biệt nhằm cải tiến mô hình xác định trước đó, đơi khơng bắt đầu với số cụm cố định không sử dụng khái niệm mật độ cho cụm 15 Đồ án n tốt nghiệpp Đại học hệệ quyy Thhuật tốn Phhân cụm ữ liệu nửa ggiám sát 2.3.6 Phân cụm m liệu có ó ràng buộcc Sự phát triển t phhân cụm ữ liệu khônng gian CSDL lớ ớn cungg cấp v phân ttích thơng tin t địa lý, tuuy nhiên hầầu hết thuật t nhiều công cụ tiệện lợi cho việc n cung cấấp cách thức cho người dùngg để xác địnnh ràngg buộc trongg toán giới thhực cần phải tho oả mãn tronng trình h PCDL Đểể phân cụm m liệu khhông gian hiệu h hơ ơn, nghiiên cứu bổ sung cần đư ược thực hiiện để cungg cấp cho người dùng khả kết k hợp ràng buộc ttrong thuật toán phân cụm ương pháp vàà đượ ợc phát triểnn áp dụụng nhiều Thực tế, phư L Đến nay, có mộột số nhánh nghiên cứu u pháát triển trênn sở củaa PCDL phươnng pháp tiếp p cận PCDL ttrình bày saau : Phân cụm thốống kê : Dự ựa khái niệm pphân tích thhống kê, nhhánh nghiênn cứu sử s dụng cácc độ đo tươnng tự để phân hoạch cáác đối tượng, chhúng ápp dụng cho c liệu có thuộc tính số Phân cụm kháái niệm : C Các kỹ thuậật phân cụm m pháát triển áp dụng d cho ữ liệu hạng g mục, chúnng phân cụm m đối tư ượng theo khái niệm m mà chúnng xử lý Phân cụm mờ : Sử dụngg kỹ thuật mờ m để PCDL L, đóó đối tư ượng liệệu th huộc vào nhhiều cụm ữ liệu khácc Cácc thuật toán n thuộc loạii raa lược đồ phhân cụm thíích hợp vớii tất hoạtt động đời ssống hàng ngày, n chúngg xử lý liệuu thực khơnng chắắn Thuật to ốn phân cụụm mờ quaan trọng nhhất ( c-m means) thuật toán FCM (Fuzzy Phân cụm mạạng Kohoneen : loại ph hân cụm nàày dựa trênn khái niệm m m nơ ronn Mạng Ko ohnen có tầnng nơ ron vào v ttầng nơ ronn Mỗi nơ ron mạng tầầng vào tươ ơng ứng vớ ới thuộc tính b ghi, nơ ron r vào kếtt nối với tấất nơ ron tầầng Mỗii liên kết đư ược gắn liềền với trọng số nhằm n xác địịnh vị trí củ nơ ron raa tương ứngg Tóm lại, l kỹ thuật PCDL L trình bàyy sử dụụng rộng rããi thự ực tế, nhhưng hầu hết h chúng chhỉ nhằm ápp dụng cho tập liệuu với kiểu thhuộc tính Vì V vậy, việệc PCDL trêên tập lliệu có kiểuu hỗn hợp llà vấn đề đặt Data Mining M tron ng giai đoạạn nayy Phần nội dung t luuận văn trình t bày tóóm lược yêu cầầu llàm tiêu chí cho việc llựa chọn, đánh giá kếtt cho cáác phương pháp p phân cụm c PCDL L Đồ án tốt nghiệp Đại học hệ quy Thuật toán Phân cụm liệu nửa giám sát 2.4 Một số ứng dụng phân cụm liệu Phân cụm liệu ứng dụng vào nhiều lĩnh vực thương mại, sinh học, phân tích liệu không gian, lập quy hoạch đô thị, nghiên cứu trái đất, địa lý, Web,… Trong thương mại, phân cụm giúp thương gia tìm kiếm nhóm khách hàng quan trọng phân loại khách hàng thành nhóm khách hàng để từ có chiến lược kinh doanh hợp lý Trong sinh học, phân cụm dùng để xác định loài sinh vật khám phá kiểu gene quý Trong phân tích liệu khơng gian: Do đồ sộ liệu khơng gian hình ảnh vệ tinh hệ thống thông tin địa lý ,… làm cho người dùng khó khăn phân tích xử lý chúng Phân cụm giúp tự động nhận dạng chiết xuất đặc tính sở liệu không gian Trong lập quy hoạch đô thị, phân cụm giúp cho việc nhận dạng cá nhóm nhà theo kiến trúc vị trí địa lý để lập quy hoạch đô thị hợp lý Trong nghiên cứu trái đất, phân cụm hỗ trợ việc theo dõi biến động trái đất núi lửa, động đất,… để đưa cảnh báo cho 17 Đồ án tốt nghiệp Đại học hệ quy Thuật toán Phân cụm liệu nửa giám sát Chương : PHÂN CỤM DỮ LIỆU KHÔNG GIÁM SÁT Do phát triển không ngừng phương pháp phân cụm liệu lên có nhiều phương pháp phân cụm liệu khác Các thuật toán phân cụm liệu chia thành nhóm sau : • Phương pháp phân hoạch (pratition), • Phương pháp phân cấp (hierarchical), • Phương pháp dựa mật độ (density-based), • Phương pháp dựa lưới (grid-based) • Phương pháp dựa mơ hình (model-based) Trong phạm vi tìm hiểu đề tài này, em xin trình bày hai phương pháp phân cụm phân hoạch phân cụm phân cấp, làm sở để trình bày số phương pháp phân cụm nửa giám sát 3.1 Phương pháp phân hoạch Trong phân cụm phân hoạch, toán đặt sau:cho X = { xi }i =1 tập N N đối tượng liệu ta muốn phân cụm, xi ∈ ℜ d Thuật tốn phân cụm có nhiệm vụ chia nhỏ tập liệu thành K phân hoạch ( K giá trị cho trước) mà phân hoạch đại diện cho cụm Các cụm hình thành sở làm tối ưu giá trị hàm mục tiêu (thường hàm đo độ tương tự) để cho đối tượng cụm tương tự đối tượng cụm khác phi tương tự Có nhiều thuật toán phân cụm phân hoạch : K-Means, K-Medoids, PAM (Partition Around Medoids), CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based on RAndomized Search), CLASA (Clustering Large Applications based on Simulated Annealing).Ở em xin trình bày hai thuật toán K-Means K-Medoids Trong K-Means cụm đại diện 18 Đồ án tốt nghiệp Đại học hệ quy Thuật tốn Phân cụm liệu nửa giám sát giá trị tâm (mean) đối tượng cụm Trong K-Medoids cụm đại diện đối tượng gần tâm cụm 3.1.1 Thuật toán K-Means K-Means lặp lại nhiều lần q trình bố trí lại vị trí đối tượng liệu để phân hoạch tập liệu thành K cụm cực tiểu địa phương giá trị bình phương trung bình khoảng cách các đối tượng tới tâm cụm Cụ thể hơn, với tập liệu X = { xi }i =1 , xi ∈ ℜ d thuật toán K-Means tạo K phân hoạch { X h }h =1 X N K cho {μ h }h =1 đại diện cho K tâm hàm mục tiêu sau: K K Ekmeans = ∑∑ x ∈X || xi − μ h ||2 i h =1 h (1) cực tiểu địa phương Thuật toán: K-Means Input: - Tập đối tượng liệu - Số lượng cụm: K X = { x1 , , xN } , xi ∈ℜd X Output: K phân hoạch tách rời: { h }h =1 K X cho hàm mục tiêu tối ưu Các bước: {μ } Khởi tạo cụm: tâm ban đầu (0) K h h =1 chọn ngẫu nhiên Lặp hội tụ Gán cụm: Gán đối tượng liệu x vào cụm h* (tức tập {X } K ( t +1) h* h =1 (t ) ) với h* = argmin || x − μh || Ước lượng tâm: t ← t+1 μ h(t +1) ← | X h(t +1) | ∑ x∈ X h( t +1) x Đánh giá thuật toán K-Means Ưu điểm: K-Means [1] có độ phức tạp tính tốn nhỏ O(NKt) Nhược điểm: 19

Ngày đăng: 12/10/2021, 08:30

HÌNH ẢNH LIÊN QUAN

Hình 1: Quá trình khám phá tri thức trong CSDL - ĐỒ ÁN TỐT NGHIỆP: Thuật toán Phân cụm dữ liệu nửa giám sát
Hình 1 Quá trình khám phá tri thức trong CSDL (Trang 7)
• Xây dựng mô hình cho cấu trúc dữ liệu - ĐỒ ÁN TỐT NGHIỆP: Thuật toán Phân cụm dữ liệu nửa giám sát
y dựng mô hình cho cấu trúc dữ liệu (Trang 10)
Hình 2: Một số hình dạng cụm dữ liệu khám phá được bởi kỹ thuật PCDL dựa - ĐỒ ÁN TỐT NGHIỆP: Thuật toán Phân cụm dữ liệu nửa giám sát
Hình 2 Một số hình dạng cụm dữ liệu khám phá được bởi kỹ thuật PCDL dựa (Trang 15)
Hình 3: Mô hình cấu trúc dữ liệu lưới - ĐỒ ÁN TỐT NGHIỆP: Thuật toán Phân cụm dữ liệu nửa giám sát
Hình 3 Mô hình cấu trúc dữ liệu lưới (Trang 16)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN