1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một số phương pháp phân cụm dữ liệu

42 24 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 42
Dung lượng 2,31 MB

Nội dung

Một số phương pháp phân cụm liệu ĐHDL Hải Phòng MỤC LỤC MỤC LỤC DANH MỤC HÌNH MINH HỌA LỜI CẢM ƠN CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khám phá tri thức 1.2 Khai phá liệu khái niệm liên quan 1.2.1 Khái niệm khai phá liệu 1.2.2 Các phương pháp khai phá liệu 1.2.3 Các lĩnh vực ứng dụng thực tiễn 1.2.4 Các hướng tiếp cận kỹ thuật áp dụng khai phá liệu CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ CÁC TIẾP CẬN 10 2.1 Khái niệm chung 10 2.2 Các kiểu liệu độ đo tương tự 10 2.2.1 Các kiểu liệu 10 2.2.2 Độ đo tương tự phi tương tự 12 2.3 Các kỹ thuật tiếp cận phân cụm liệu 15 2.3.1 Phương pháp phân cụm phân hoạch 15 2.3.2 Phương pháp phân cụm phân cấp 15 2.3.3 Phương pháp phân cụm dựa mật độ 16 2.3.4 Phương pháp phân cụm dựa lưới 17 2.3.5 Phương pháp phân cụm dựa mơ hình 18 2.3.6 Phương pháp phân cụm có liệu ràng buộc 19 2.4 Các ứng dụng phân cụm liệu 20 CHƯƠNG 3: MỘT SỐ THUẬT TOÁN CƠ BẢN TRONG PHÂN CỤMDỮLIỆU 21 3.1 Các thuật toán phân cụm phân hoạch 21 3.1.1 Thuật toán K-means 21 3.1.2 Thuật toán K-Medoids 23 3.2 Thuật toán phân cụm phân cấp 24 3.3 Thuật toán COP-Kmeans 26 Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng CHƯƠNG 4: ỨNG DỤNG THUẬT TOÁN K-MEANS CHO PHÂN ĐOẠN ẢNH 28 4.1 Tổng quan phân vùng ảnh 28 4.1.1 Phân vùng ảnh theo ngưỡng biên độ 28 4.1.2 Phân vùng ảnh theo miền đồng 29 4.1.3 Phân vùng dựa theo đường biên 31 4.1.4 Phân đoạn dựa theo kết cấu bề mặt 31 4.2 Thuật toán K-means cho phân đoạn ảnh 32 4.2.1 Mô tả toán 32 4.2.2 Các bước thực thuật tốn .33 4.2.2.1 Tìm kiếm Top X color 34 4.2.2.2 Tính khoảng cách phân cụm 36 4.2.2.3 Tính lại trọng tâm cụm 37 4.2.2.4 Kiểm tra hội tụ 38 4.2.3 Kết thực nghiệm 39 4.2.3.1 Môi trường cài đặt 39 4.2.3.2 Một số giao diện 39 KẾT LUẬN 41 TÀI LIỆU THAM KHẢO 42 Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phịng DANH MỤC HÌNH MINH HỌA Hình 1: Quy trình phát tri thức Hình 1: Mơ hình cấu trúc liệu lưới 18 Hình 1: Các cụm liệu khám phá CURE 24 Hình 1: Thuật tốn K-means 34 Hình 2: Tìm kiếm Top X color 35 Hình 3: Phân cụm 36 Hình 4: Tính trọng tâm 37 Hình 5: Kiểm tra hội tụ 38 Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng LỜI CẢM ƠN Trước hết em xin chân thành cảm ơn thầy Ngô Trường Giang giáo viên hướng dẫn em tình làm đồ án Thầy giúp em nhiều cung cấp cho em nhiều tài liệu quan trọng phục vụ cho trình tìm hiểu đề tài “Tìm hiểu số phương pháp phân cụm liệu ứng dụng” Thứ hai, em xin chân thành cảm ơn thầy cô môn công nghệ thông tin bảo em trình học rèn luyện năm học vừa qua Đồng thời em cảm ơn bạn sinh viên lớp CT1002 gắn bó với em trình rèn luyện trường Cuối em xin chân thành cảm ơn ban giám hiệu trường Đại Học Dân Lập Hải Phòng tạo điều kiện cho em có kiến thức, thư viện trường nơi mà sinh viên trường thu thập tài liệu trợ giúp cho giảng lớp Đồng thời thầy cô trường giảng dạy cho sinh viên kinh nghiệm sống Với kiến thức kinh nghiệm giúp cho em cơng việc sống sau Em xin chân thành cảm ơn! Hải Phịng, ngày tháng năm 2019 Sinh viên Vũ Minh Đơng – CT1002 Một số phương pháp phân cụm liệu CHƯƠNG 1: ĐHDL Hải Phòng TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khám phá tri thức Nếu cho điện tử sóng điện tử chất cơng nghệ điện tử truyền thống liệu, thơng tin tri thức tiêu điểm lĩnh vực nghiên cứu ứng dụng phát tri thức (Knowledge Discovery) khai phá liệu (Data Mining) Thông thường coi liệu dãy bit, số ký hiệu, “đối tượng” với ý nghĩa gửi cho chương trình dạng định Chúng ta sử dụng bit để đo lường thơng tin xem liệu lọc bỏ dư thừa, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Chúng ta xem tri thức thơng tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ hiểu ra, phát hiện, học Nói cách khác, tri thức coi liệu có độ trừu tượng tổ chức cao Phát tri thức sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu Còn khai thác liệu bước qui trình phát tri thức gồm có thuật toán khai thác liệu chuyên dùng số qui định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu mơ hình tồn sở liệu bị che khuất hàng núi liệu Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phịng Quy trình phát tri thức: Hình 1: Quy trình phát tri thức Bước thứ nhất: tìm hiểu lĩnh vực ứng dụng hình thành tốn, bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bước thứ hai: thu thập xử lý thơ, cịn gọi tiền xử lý liệu nhằm loại bỏ nhiễu, xử lý việc thiếu liệu, biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian tồn qui trình phát tri thức Bước thứ ba: khai phá liệu, hay nói cách khác trích mẫu mơ hình ẩn liệu Bước thứ tư: hiểu tri thức tìm được, đặc biệt làm sáng tỏ mơ tả dự đốn Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng 1.2 Khai phá liệu khái niệm liên quan Khai phá liệu qui trình phân tích thiết kế để thăm dò lượng cực lớn liệu nhằm phát mẫu thích hợp mối quan hệ mang tính hệ thống biến sau hợp thức hố kết tìm cách áp dụng mẫu phát cho tập liệu Qui trình bao gồm ba giai đoạn bản: thăm dị, xây dựng mơ hình định nghĩa mẫu, hợp thức, kiểm chứng 1.2.1 Khái niệm khai phá liệu Do phát triển mạnh mẽ khai phá liệu (Data mining) phạm vi lĩnh vực ứng dụng thực tế phương pháp tìm kiếm, lên có nhiều khái niệm khác khai phá liệu Trong em xin nêu định nghĩa ngắn gọn sau: Khai phá liệu trình khám phá tri thức tri thức có ích dạng tiềm nguồn liệu có 1.2.2 Các phương pháp khai phá liệu Với hai đích khai phá liệu là: dự đốn (Prediction) mô tả (Description), người ta thường sử dụng phương pháp sau cho khai phá liệu: Phân lớp (Classfication) Hồi qui (Regression) Trực quan hóa (Visualiztion) Phân cụm (Clustering) Tổng hợp (Summarization) Mơ hình ràng buộc (Dependency modeling) Biểu diễn mơ hình (Model Evaluation) Phân tích phát triển độ lệch (Evolution and deviation analyst) Luận kết hợp (Associantion rules ) Phương pháp tìm kiếm (Search Method) Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng 1.2.3 Các lĩnh vực ứng dụng thực tiễn Phân tích liệu hỗ trợ định Phân lớp văn bản, tóm tắt văn bản, phân lớp trang Web phân cụm ảnh màu Chuẩn đoán triệu chứng, phương pháp điều trị y học Tìm kiếm, đối sánh hệ Gene thông tin di truyền sinh học Phân tích tình hình tài chính, thị trường, dự báo giá cổ phiếu tài chính, thị trường chứng khoán Bảo hiểm … 1.2.4 Các hướng tiếp cận kỹ thuật áp dụng khai phá liệu Các kỹ thuật khai phá liệu thường chia thành nhóm chính: Kỹ thuật khai phá liệu mơ tả: có nhiệm vụ mơ tả tính chất đặc tính chung liệu CSDL có Các kỹ thuật gồm có: phân cụm (Clustering), tổng hợp (Summerization), trực quan hóa (Visualiztion), phân tích phát triển độ lệch (Evolution and deviation analyst), luận kết hợp (Associantion rules) Kỹ thuật khai phá liệu dự đốn: có nhiệm vụ đưa dự đoán vào suy diễn liệu thời Các kỹ thuật gồm có: phân lớp (Classification), hồi quy (Regression) Sau em xin giới thiệu phương pháp thông dụng là: phân cụm liệu, phân lớp liệu khai phá luận kết hợp Phân lớp liệu: Mục tiêu phương pháp phân lớp liệu dự đoán nhãn lớp cho mẫu liệu Quá trình phân lớp liệu thường gồm bước: xây dựng mô hình sử dụng mơ hình để phân lớp liệu Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Bước 1: mơ hình xây dựng dựa việc phân tích mẫu liệu sẵn có Mỗi mẫu tương ứng với lớp, định thuộc tính gọi thuộc tính lớp Các mẫu liệu gọi tập liệu huấn luyện (Training dataset) Các nhãn lớp tập liệu huấn luyện phải xác định trước xây dựng mơ hình phương pháp cịn gọi học có thầy (Supervised learning) khác với phân cụm liệu học khơng có thầy (Unsupervised learning) Bước 2: sử dụng mơ hình để phân lớp liệu Trước hết phải tính độ xác mơ hình Nếu độ xác chấp nhận được, mơ hình sử dụng để dự đốn nhãn lớp cho mẫu liệu khác tương lai Phân cụm liệu: Mục tiêu phân cụm liệu nhóm đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc lớp tương đồng đối tượng thuộc cụm khác không tương đồng Trong phương pháp bạn biết kết cụm thu bắt đầu q trình Vì vậy, thơng thường cần có chuyên gia lĩnh vực để đánh giá cụm thu Phân cụm liệu bước tiền xử lý cho thuật toán khai phá liệu khác Khai phá luận kết hợp: Mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu CSDL Mẫu đầu giải thuật khai phá liệu tập luận kết hợp tìm Vũ Minh Đông – CT1002 Một số phương pháp phân cụm liệu CHƯƠNG 2: ĐHDL Hải Phòng PHÂN CỤM DỮ LIỆU VÀ CÁC TIẾP CẬN 2.1 Khái niệm chung Khai phá liệu (Datamining) trình trích xuất thơng tin có giá trị tiềm ẩn bên tập liệu lớn lưu trữ sở liệu, kho liệu Người ta định nghĩa [1]: “Phân cụm liệu kỹ thuật Data Mining, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan trọng tập liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho việc định ” Như phân cụm liệu trình chia tập liệu ban đầu thành cụm liệu cho phần tử cụm “tương tự” (Similar) với phần tử cụm khác “phi tương tự” (Dissimilar) với Số cụm liệu phân xác định trước theo kinh nghiệm tự động xác định 2.2 Các kiểu liệu độ đo tương tự 2.2.1 Các kiểu liệu Cho một sở liệu D chứa n đối tượng không gian k chiều x, y, z đối tượng thuộc D: x = (x 1, x2, …, xk); y = (y1, y2, …, yk); z = (z1, z2, …, zk), xi, yi, zi với i = 1, k đặc trưng thuộc tính tương ứng đối tượng x, y, z a) Phân loại theo kích thước miền Thuộc tính liên tục (Continnuous Attribute): miền giá trị vơ hạn khơng đếm Thuộc tính rời rạc (DiscretteAttribute): miền giá trị tập hữu hạn, đếm Vũ Minh Đông – CT1002 10 Một số phương pháp phân cụm liệu CHƯƠNG 4: ĐHDL Hải Phòng ỨNG DỤNG THUẬT TOÁN K-MEANS CHO PHÂN ĐOẠN ẢNH 4.1 Tổng quan phân vùng ảnh Phân vùng ảnh bước then chốt xử lý ảnh Giai đoạn nhằm phân tích ảnh thành thành phần có tính chất dựa theo biên hay vùng liên thơng Tiêu chuẩn để xác định vùng liên thơng mức xám, mầu hay độ nhám, v v Nếu phân vùng dựa miền liên thông, ta gọi kỹ thuật phân vùng dựa theo miền đồng Nếu ta phân vùng dựa vào biên gọi kỹ thuật phân vùng biên Ngồi ra, cịn có kỹ thuật khác phân vùng dựa vào biên độ, phân vùng theo kết cấu (Texture Segmentation) Mục đích phân tích ảnh để có miêu tả tổng hợp nhiều phần tử khác cấu tạo nên ảnh thơ (brut image) Vì lượng thơng tin chứa ảnh lớn, đa số ứng dụng cần số thông tin đặc trưng đó, cần có q trình giảm lượng thơng tin khổng lồ Q trình bao gồm phân vùng ảnh trích chọn đặc tính chủ yếu Các kỹ thuật dùng cho trình đề cập tới phần sau 4.1.1 Phân vùng ảnh theo ngưỡng biên độ Đặc tính đơn giản có hữu ích ảnh biên độ tính chất vật lý ảnh như: độ phản xạ, độ truyền sáng, màu sắc đáp ứng đa phổ Thí dụ, ảnh X-quang, biên độ mức xám biểu diễn đặc tính bão hịa phần hấp thụ thể làm cho ta có khả phân biệt xương với phần mềm, tế bào lành với tế bào bị nhiễm bệnh, v v Kỹ thuật phân ngưỡng theo biên độ có ích ảnh nhị phân văn in, đồ họa, ảnh màu hay ảnh X-quang Việc chọn ngưỡng kỹ Vũ Minh Đông – CT1002 28 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng thuật bước quan trọng Người ta thường tiến hành theo bước chung sau: Xem xét lược đồ xám ảnh để xác định đỉnh khe Nếu ảnh có dạng rắn lượn (nhiều đỉnh nhiều khe), khe sử dụng để chọn ngưỡng Chọn ngưỡng t cho phần xác định trước toàn số mẫu thấp t Điều chỉnh ngưỡng dựa xem xét lược đồ xám điểm lân cận Chọn ngưỡng xem xét lược đồ xám điểm thỏa tiêu chuẩn chọn Thí dụ với ảnh có độ tương phản thấp, lược đồ điểm có biên độ Laplace g(m, n) lớn giá trị t định trước (sao cho từ 5% đến 10% số điểm ảnh với gradient lớn coi biên) cho phép xác định đặc tính ảnh lưỡng cực tốt ảnh gốc Khi có mơ hình phân lớp xác suất, việc xác định ngưỡng dựa vào tiêu chuẩn nhằm cực tiểu xác suất sai số số tính chất khác theo luật Bayes 4.1.2 Phân vùng ảnh theo miền đồng Kỹ thuật phân vùng ảnh thành miền đồng dựa vào tính chất quan trọng miền Việc lựa chọn tính chất miền xác định tiêu chuẩn phân vùng Ở cần phải xác định rõ tính đồng miền ảnh điểm chủ yếu xác định tính hiệu việc phân vùng Các tiêu chuẩn hay dùng mức xám, màu sắc ảnh màu, kết cấu sợi chuyển động Thí dụ, ứng dụng ảnh hàng không, việc phân vùng theo màu cho phép phân biệt thảm thực vật: cánh đồng màu xanh hay vàng, rừng xanh thẫm, đường màu xám, mái nhà đỏ, v v Vũ Minh Đông – CT1002 29 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Đối với ảnh chuyển động, người ta tiến hành trừ hai ảnh quan sát hai thời điểm khác Trong trường hợp phần ảnh không thay đổi nhận giá trị không, phần thay đổi nhận giá trị dương hay âm tương ứng với thay đổi hay dịch chuyển Các phương pháp thực là: Phương pháp tách tứ phân Phương pháp kiểm tra tính hợp thức tiêu chuẩn cách tổng thể miền lớn ảnh Nếu thỏa mãn tiêu chuẩn việc phân đoạn coi kết thúc Trong trường hợp ngược lại, ta chia miền xét thành bốn miền nhỏ Với miền nhỏ, ta lại áp dụng cách đệ quy phương pháp tất miền thỏa mãn Phương pháp cục hay phân vùng hợp Ý tưởng phương pháp xem xét ảnh từ miền nhỏ hợp chúng lại thỏa mãn tiêu chuẩn miền đồng lớn Ta lại tiếp tục với miền thu hợp Số miền lại cho ta kết phân đoạn Như vậy, miền nhỏ bước xuất phát điểm ảnh Điều quan trọng phương pháp nguyên lý hợp hai vùng Việc hợp hai vùng thực theo nguyên tắc sau: Hai vùng phải đáp ứng tiêu chuẩn, thí dụ màu mức xám Chúng phải kế cận Phương pháp tổng hợp Hai phương pháp vừa xét có số nhược điểm Phương pháp tách tạo nên cấu trúc phân cấp thiết lập mối quan hệ vùng Tuy nhiên thực việc chia chi tiết Vũ Minh Đông – CT1002 30 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Phương pháp hợp cho phép làm giảm số miền liên thông xuống tối thiểu, cấu trúc hàng ngang dàn trải, không cho ta thấy mối quan hệ miền Chính người ta nghĩ đến việc phối hợp hai phương pháp Trước tiên, dùng phương pháp tách để tạo nên tứ phân, phân đoạn theo hướng từ gốc tới Tiếp theo, tiến hành duyệt theo chiều ngược lại hợp vùng có tiêu chuẩn Với phương pháp ta thu miêu tả cấu trúc ảnh với miền liên thơng có kích thước tối đa Các bước bao gồm: Kiểm tra tiêu chuẩn đơng Hợp vùng 4.1.3 Phân vùng dựa theo đường biên Biên đặc trưng quan trọng ảnh Cũng mà nhiều ứng dụng, người ta sử dụng phân đoạn dựa theo biên Việc phân đoạn ảnh dựa vào biên tiến hành qua số bước sau: Phát làm biên Làm mảnh biên Nhị phân hóa đường biên Mơ tả biên 4.1.4 Phân đoạn dựa theo kết cấu bề mặt Kết cấu thuật ngữ phản ánh lặp lại phần tử sợi (texel) Sự lặp lại ngẫu nhiên hay có tính chu kì gần có chu kì Một texel chứa nhiều điểm ảnh Trong phân tích ảnh, kết cấu phân làm hai loại chính: Thống kê Cấu trúc Vũ Minh Đông – CT1002 31 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Khi đối tượng xuất có tính kết cấu cao, việc phân đoạn dựa vào tính kết cấu trở nên quan trọng Nguyên nhân kết cấu sợi thường chứa mật độ cao gờ (edge) làm cho phân đoạn dựa vào biên trở nên hiệu quả, ta loại tính kết cấu Việc phân đoạn dựa vào miền đồng áp dụng cho đặc trưng kết cấu dùng để phân đoạn miền có tính kết cấu 4.2 Thuật toán K-means cho phân đoạn ảnh Tầm quan trọng khó khăn việc gom nhóm đối tượng mang tính tri giác người từ lâu nghiên cứu nhiều lĩnh vực thị giác máy tinh đặc biệt lĩnh vực xử lí ảnh Và phân đoạn ảnh có ứng dụng mạnh mẽ rộng rãi tốn phân tích hiểu ảnh tự động, tốn khó mà đến nhà khoa học chưa giải cách hoàn toàn thấu đáo Làm để phân chia ảnh thành tập Những cách khả thi để làm điều Đó câu hỏi mà người ta đặt từ lâu mong muốn tìm câu trả lời Trong khoảng 30 năm trở lại có nhiều thuật toán đề xuất để giải toán phân đoạn ảnh Các thuật toán hầu hết dựa vào hai thuộc tính quan trọng điểm ảnh so với điểm lân cận nó, là: khác (dissimilarity) giống (similarity) C ác phương pháp dựa giống điểm ảnh gọi phương pháp miền (region-based methods), phương pháp dựa khác điểm ảnh gọi phương pháp biên (boundary-based methods) Trong báo cáo em xin phép trình bày thuật tốn K-means để giải tốn phân đoạn ảnh 4.2.1 Mơ tả tốn Input: Ảnh có kích thước m*n Vũ Minh Đơng – CT1002 32 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Số cụm (k) muốn phân đoạn Output: Ảnh phân thành k đoạn có màu sắc tương đồng 4.2.2 Các bước thực thuật toán Thuận toán dựa vào số lượng cụm mong muốn, trọng tâm cụm mà tính tốn khoảng cách điểm với trọng tâm cụm Sau gán điểm tới cụm mà có khoảng cách tới trọng tâm cụm nhỏ nhất, cập nhật lại trọng tâm cụm Kết thu sau tâm cụm không đổi Lưu đồ tổng quát thuật tốn: Vũ Minh Đơng – CT1002 33 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Begin Tìm Top X color gán làm trọng tâm Tính d(x, y)= n xi yi i Đưa điểm cụm Cập nhật lại tâm cụm No Tâm = Tâm cũ Yes End Hình 1: Thuật tốn K-means 4.2.2.1 Tìm kiếm Top X color Đầu tiên ta so sánh số màu thực tế có ảnh số cụm màu, số màu thực tế nhỏ số cụm màu ta nhận số cụm màu số màu thực tế Tạo danh sách chứa loại màu, sau xếp chúng theo thứ tự giảm dần Lấy X phần tử danh sách Vũ Minh Đông – CT1002 34 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng Đọc ảnh int i = 0; int numColours; colours.Count; No colours.Count < numColours Yes numColours = colours.Count; _topColours = new Color[numColours]; List summaryList = new List; summaryList.AddRange(colours); summaryList.Sort; i < _topColours.Length No Yes _topColours[i] = Color.FromArgb (summaryList[i].Value.Colour.R, summaryList[i].Value.Colour.G, summaryList[i].Value.Colour.B); i ++; Trọng tâm khởi tạo cụm Hình 2: Tìm kiếm Top X color Vũ Minh Đơng – CT1002 35 Một số phương pháp phân cụm liệu ĐHDL Hải Phịng 4.2.2.2 Tính khoảng cách phân cụm Sử dụng thuật tốn Euclide tính khoảng cách màu điểm với tâm cụm Dựa vào khoảng cách đưa điểm vào cụm mà khoảng cách tới tâm cụm nhỏ Trọng tâm Dictionary distances = new Dictionary; KeyValuePair c; Yes c < _currentCluster No float d= (float)Math.Sqrt((double)Math.Pow ((c.Value.CentroidR -pd.Ch1), 2)+ double) Math.Pow((c.Value.CentroidG-pd.Ch2),2)+ (double)Math.Pow((c.Value CentroidBpd.Ch3),2)); distances Add(c Key, new Distance(d)); c ++ ; List list = new List; list AddRange(distances) ; list Sort ; _pixelDataCluster Allocation.Contai nsKey(list[0].Key) Yes ((List)_pixelDataClust erAllocation[list[0].Key]).Add(pd); No List clrList = new List; clrList add(pd); _pixelDataClusterAllocation Add(list[0] Key, clrList); X cụm màu Hình 3: Phân cụm Vũ Minh Đơng – CT1002 36 Một số phương pháp phân cụm liệu ĐHDL Hải Phịng 4.2.2.3 Tính lại trọng tâm cụm Cụm màu KeyValuePair cluster; PixelData clr; No cluster < _currentCluster Trọng tâm List clrList=(List) _pixelDataClusterAllocation[cluster.Key]; float cR=0, cG=0, cB=0; No clr < clrList Yes cR += clr.Ch1; cG += clr.Ch2; cB += clr.Ch3; No clr ++; Yes float count = clrList.Count + 1; cluster.Value.CentroidR = (cluster.Value.CentroidR + cR)/ count ; cluster.Value.CentroidG = (cluster.Value.CentroidG + cG)/ count ; cluster.Value.CentroidB = (cluster.Value.CentroidB + cB)/ count ; cluster ++ ; !_clusterColours ContainsKey(clr Name) Yes _clusterColours.Add(clr.Name, Color.FromArgb((int)cluster.Value CentroidR,(int)cluster.Value.CentroidG, (int)cluster.Value.CentroidB)); Hình 4: Tính trọng tâm Vũ Minh Đông – CT1002 37 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng 4.2.2.4 Kiểm tra hội tụ Để kiểm tra tính hội tụ liệu kiểm tra trọng tâm vừa tính với trọng tâm trước cụm Trọng tâm bool match = true ; cluster ++; No cluster < _currentCluster yes Centroid != _previousClus ter Centroid No yes match = false No ! match yes cluster < _currentCluster No _converged = match; yes _previousCluster Centroid = Centroid ; cluster ++ ; No _converged Hình 5: Kiểm tra hội tụ Vũ Minh Đông – CT1002 38 Một số phương pháp phân cụm liệu ĐHDL Hải Phịng 4.2.3 Kết thực nghiệm 4.2.3.1 Mơi trường cài đặt Chương trình lập trình với ngơn ngữ C#, cài đặt chạy thử nghiệm môi trường hệ điều hành Windows XP 4.2.3.2 Một số giao diện Giao diện khởi động Đưa liệu vào Vũ Minh Đông – CT1002 39 Một số phương pháp phân cụm liệu ĐHDL Hải Phịng Q trình xử lý liệu Kết phân cụm Vũ Minh Đông – CT1002 40 Một số phương pháp phân cụm liệu ĐHDL Hải Phịng KẾT LUẬN Trong q trình nghiên cứu, tìm hiểu hồn thành đề tài đồ án tốt nghiệp “Tìm hiểu số phuơng pháp phân cụm liệu ứng dụng”, em thu nhận thêm kiến thức em nhận thấy phân cụm liệu khai phá liệu lĩnh vực nghiên cứu rộng lớn, nhiều điều mà cần khám phá Trong đề tài em cố gắng tập trung tìm hiểu nghiên cứu tổng quan khai phá liệu, phân cụm liệu số thuật tốn nó, tổng quan phân vùng ảnh Cài đặt thử nghiệm thuật toán k-means với ứng dụng phân đoạn ảnh Do thời gian thực hạn chế nên em tìm hiểu đựơc số kỹ thuật phân cụm liệu, cài đặt thử nghiệm với thuật tốn Kmeans Nhưng cịn số kỹ thuật em chưa tìm hiểu, khai thác ứng dụng cho toán … Trong thời gian tới em cố gắng tiếp tục nghiên cứu, tìm hiểu thêm sơ kỹ thuật phân cụm tìm hiểu phát triển kỹ thuật phân đoạn ảnh để xử lý với ảnh động Sinh viên VŨ MINH ĐÔNG Vũ Minh Đông – CT1002 41 Một số phương pháp phân cụm liệu ĐHDL Hải Phòng TÀI LIỆU THAM KHẢO Tài liệu tham khảo tiếng Việt [1.] Nhập môn xử lý ảnh, Lương Mạnh Bá Nguyễn Thanh Thủy, nhà xuất Khoa học Kỹ thuật, 1999 [2.] Giáo trình xử lý ảnh, Ngô Quốc Tạo, lớp CHCLC – ĐH Công Nghệ ĐHQG Hà Nội năm 2001- 2002 [3.] Bài giảng môn Data Mining, Ngô Quốc Tạo, lớp CHK5 – ĐH Thái Nguyên 2006 – 2008 [4.] Thuật toán phân cụm liệu nửa giám sát, Lưu Tuấn Lâm – Đồ án tốt nghiệp ĐHDL Hải Phòng Tài liệu tham khảo tiếng Anh [5.] Discovering Knowledge in Data: An Introduction to Data Mining, Daniel T Larose, ISBN 0-471-66657-2 CopyrightC 2005 John Wiley & Sons, Inc [6.] In Proc 1996 Int Conf Data Mining and Knowledge Discovery (KDD-96), A Arning, R Agrawal and P Raghavan Alinear method for deviation detection in larger databases, Portland, Oregon, August 1996 [7.] http://www.wikipedia.org Vũ Minh Đông – CT1002 42 ... hai phương pháp phân cụm phân hoạch phương phân cụm phân cấp, nghĩa kết thu phương pháp phân cấp cải tiến thông quan bước phân cụm phân hoạch Phân cụm phân hoạch phân cụm phân cấp hai phương pháp. .. khai phá liệu từ liệu Vũ Minh Đông – CT1002 20 Một số phương pháp phân cụm liệu CHƯƠNG 3: ĐHDL Hải Phòng MỘT SỐ THUẬT TOÁN CƠ BẢN TRONG PHÂN CỤM DỮ LIỆU 3.1 Các thuật toán phân cụm phân hoạch... 2.3.1 Phương pháp phân cụm phân hoạch Phương pháp phân cụm phân hoạch nhằm phân tập liệu có n phần tử cho trước thành k nhóm liệu cho: phần tử liệu thuộc nhóm liệu nhóm liệu có tối thiểu phần tử liệu

Ngày đăng: 29/08/2020, 18:03

HÌNH ẢNH LIÊN QUAN

Hình 1. 1: Quy trình phát hiện tri thức - Một số phương pháp phân cụm dữ liệu
Hình 1. 1: Quy trình phát hiện tri thức (Trang 6)
Hình 2. 1: Mô hình cấu trúc dữ liệu lưới - Một số phương pháp phân cụm dữ liệu
Hình 2. 1: Mô hình cấu trúc dữ liệu lưới (Trang 18)
Hình 4. 1: Thuật toán K-means. - Một số phương pháp phân cụm dữ liệu
Hình 4. 1: Thuật toán K-means (Trang 34)
Hình 4. 2: Tìm kiếm Top X color. - Một số phương pháp phân cụm dữ liệu
Hình 4. 2: Tìm kiếm Top X color (Trang 35)
Hình 4. 3: Phân cụm. - Một số phương pháp phân cụm dữ liệu
Hình 4. 3: Phân cụm (Trang 36)
Hình 4. 4: Tính trọng tâm mới. - Một số phương pháp phân cụm dữ liệu
Hình 4. 4: Tính trọng tâm mới (Trang 37)
Hình 4. 5: Kiểm tra hội tụ. - Một số phương pháp phân cụm dữ liệu
Hình 4. 5: Kiểm tra hội tụ (Trang 38)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w