1. Trang chủ
  2. » Công Nghệ Thông Tin

Nghiên cứu thuật toán gom cụm K-means và cài đặt chương trình Demo (C#)

16 3,5K 27

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 16
Dung lượng 0,95 MB

Nội dung

TRƯỜNG ĐAI HỌC MỎ ĐỊA CHẤTKHOA CÔNG NGHỆ THÔNG TINXỬ LÝ ẢNH SỐĐề Tài: Tìm hiểu thuật toán gom cụm K-means và cài đặt chương trình minh họaMỤC LỤCMỤC LỤC3Giới Thiệu4CHƯƠNG I :PHÂN CỤM DỮ LIỆU5I.GIỚI THIỆU VỀ KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU5II.ỨNG DỤNG5III.CÁC KỸ THUẬT PHÂN CỤM6CHƯƠNG II: THUẬT TOÁN K-MEANS7I.THUẬT TOÁN7II.KHOẢNG CÁCH GIỮA HAI ĐỐI TƯỢNG9III.VÍ DỤ MINH HỌA9III.ĐÁNH GIÁ THUẬT TOÁN12CHƯƠNG IV :DEMO ỨNG DỤNG THUẬT TOÁN K-MEANS14TÀI LIỆU THAM KHẢO15Giới ThiệuNgày nay,cùng với sự phát triển không ngừng của ngành Công Nghệ Thông Tin là sự bùng nổ số lượng lớn của quản lý thông tin ,công việc của tổ chức ,doanh nghiệp và cá nhân Một khuynh hướng kỹ thuật mới ra đời đó là kỹ thuật khai phá dữ liệu và kỹ thuật Data mining (Khai phá dữ liệu).Trong đó các phương pháp khai phá dữ liệu có phương pháp gọi là Clustering (Phân cụm) được ứng dụng rất nhiều trong đời sống.Phân cụm dữ liệu là quá trình tìm kiếm phát hiện ra các cụm hoặc các mẫu dữ liệu tự nhiên trong cơ sở dữ liệu lớn.Các kỹ thuật chính được áp dụng trong phân cụm dữ liệu phần lớn được kế thừa từ lĩnh vực thống kê ,học máy, nhân dạng ,lượng hóa.Đến nay đã có nhiều ứng dụng phân cụm dữ liệu cho việc giải quyết các vấn đề trong lĩnh vực như tài chính,thông tin địa lý ,sinh học ,nhận dạng ảnh. Nhóm chúng em gồm hai thành viên thứ nhất:Vũ Đại Nghĩa và thành viên thứ hai : Lê Viết Trường đã đăng ký đề tài “Tìm hiểu thuật toán gom cụm K-Means” với mục đích vận dụng kiến thức học được để áp dụng vào thực tế trong việc gom cụm dữ liệu . Chúng em xin chân thành cảm ơn cô giáo Ths.Trần Mai Hương đã tận tình giúp đỡ chúng em hoàn thành bài tập lớn môn Xử Lý Ảnh Số.Nghien cuu thuat toan gom cum K-means va cai dat chuong trinh Demo (C#)

Trang 1

- Đây là file doc của đề tài, để xem đầy đủ các file:

thuyết trình.ppt, CVKMeans.sln,CVKMeans.suo, … bạn cần phải tải về, link

download nằm ở cuối trang

- Hình ảnh trong file:

-2012

Trang 2

KHOA CÔNG NGHỆ THÔNG TIN

XỬ LÝ ẢNH SỐ

Đề Tài: Tìm hiểu thuật toán gom cụm

K-means và cài đặt chương trình minh họa.

Trang 3

BẢNG PHÂN CHIA CÔNG VIỆC

VŨ ĐẠI NGHĨA Tìm hiểu thuật toán,code & báo cáo

LÊ VIẾT TRƯỜNG Tìm hiểu thuật toán, code

Trang 4

MỤC LỤC

MỤC LỤC 3

Giới Thiệu 4

CHƯƠNG I :PHÂN CỤM DỮ LIỆU 5

I.GIỚI THIỆU VỀ KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 5

II.ỨNG DỤNG 5

III.CÁC KỸ THUẬT PHÂN CỤM 6

CHƯƠNG II: THUẬT TOÁN K-MEANS 7

I.THUẬT TOÁN 7

II.KHOẢNG CÁCH GIỮA HAI ĐỐI TƯỢNG 9

III.VÍ DỤ MINH HỌA 9

III.ĐÁNH GIÁ THUẬT TOÁN 12

CHƯƠNG IV :DEMO ỨNG DỤNG THUẬT TOÁN K-MEANS 14

TÀI LIỆU THAM KHẢO 15

Trang 5

Giới Thiệu

Ngày nay,cùng với sự phát triển không ngừng của ngành Công Nghệ Thông Tin là sự bùng nổ số lượng lớn của quản lý thông tin ,công việc của tổ chức ,doanh nghiệp và cá nhân

Một khuynh hướng kỹ thuật mới ra đời đó là kỹ thuật khai phá dữ liệu và kỹ thuật Data mining (Khai phá dữ liệu).Trong đó các phương pháp khai phá dữ liệu có phương pháp gọi là Clustering (Phân cụm) được ứng dụng rất nhiều trong đời sống.Phân cụm dữ liệu là quá trình tìm kiếm phát hiện ra các cụm hoặc các mẫu dữ liệu tự nhiên trong cơ sở dữ liệu lớn.Các kỹ thuật chính được áp dụng trong phân cụm dữ liệu phần lớn được kế thừa từ lĩnh vực thống kê ,học máy, nhân dạng ,lượng hóa.Đến nay đã có nhiều ứng dụng phân cụm dữ liệu cho việc giải quyết các vấn đề trong lĩnh vực như tài chính,thông tin địa lý ,sinh học ,nhận dạng ảnh.

Nhóm chúng em gồm hai thành viên thứ nhất:Vũ Đại Nghĩa và thànhviên thứ hai : Lê Viết Trường đã đăng ký đề tài “Tìm hiểu thuật toán

gom cụm K-Means” với mục đích vận dụng kiến thức học được để áp dụng vào thực tế trong việc gom cụm dữ liệu Chúng em xin chân thành cảm ơn cô giáo Ths.Trần Mai Hương đã tận tình giúp đỡ chúng em hoàn thành bài tập lớn môn Xử Lý Ảnh Số.

Trang 6

CHƯƠNG I :PHÂN CỤM DỮ LIỆU

I.GI I THI U V KỸ THU T PHÂN C M TRONG KHAI PHÁ D LI UỚI THIỆU VỀ KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆUỆU VỀ KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆUỀ KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆUỤM TRONG KHAI PHÁ DỮ LIỆUỮ LIỆU ỆU VỀ KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU

Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu ,nó thuộc lớp các phương pháp Unsupervised Learning trong Machine Learning.Có rất nhiều định nghĩa khác nhau về kỹ thuật này ,nhưng về bản chất ta có thể hiểu phân cụm là các quy trình tìm cách nhóm các đối tượng đã cho vào các cụm (cluster) ,sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì không tương tự nhau

Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm dữ liệu Các thuật toán phân cụm (Clustering Algorithms ) đều sinh ra các cụm (cluster) Tuy nhiên ,không có tiêu chí nào được xem là tốt nhất để đánh giá hiệu qủa của phân cụm ,điều này phụ thuộc vào mục đích của phân cụm như :data reduction ,”natural cluster” ,”useful cluster” ,outlier detection

II NG D NG ỨNG DỤNG ỤM TRONG KHAI PHÁ DỮ LIỆU

Kỹ thuật phân cụm có thể áp dụng trong rất nhiều lĩnh vực như: Marketing :Xác định các nhóm khách hàng (khách hàng tiềm năng ,khách hàng giá trị ,phân loại và dự đoán hành vi khách hàng, ) sử dụng sản phẩm của công ty có chiến lược kinh doanh hiệu quả hơn.

Biology :Phân nhóm động vật và thực vật dựa vào các thuộc tính của chúng

Libraries :Theo dõi độc giả ,sách ,dự đoán nhu cầu của độc giả

Trang 7

Insurance,Finance :Phân nhóm các đối tượng sử dụng bảo hiểm và các dịch vụ tài chính ,dự đoán xu hướng của khách hàng ,phát hiện gian lận tài chính

World wide web: Phân loại tài liệu ,phân loại người dùng web

III.CÁC KỸ THU T PHÂN C M ẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆUỤM TRONG KHAI PHÁ DỮ LIỆU

Trang 8

CHƯƠNG II: THUẬT TOÁN K-MEANS

K-Means là thuật toán lặp đơn giản để chia Cơ Sở Dữ Liệu thành k nhóm (k do người dùng chỉ định ).Được phát triển bời nhiều nhà

nghiêm cứu khác nhau ,điển hình là Lloyd (1957,1982),Forgrey (1965) ,Friedman và Rubin (1967) ,McQueen (1967).

I.THU T TOÁNẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU

Thuật toán thao tác trên một tập các vecto d-chiều ,D={xi| i=1…N} trong đó xi € Rd là điểm dữ liệu thứ I Thuật toán bắt đầu bằng cách chọn k điểm làm trọng tâm Kỹ thuật để chọn các điểm hạt giống này là chọn “ngẫu nhiên”.Sau đó thuật toán gọi hai bước sau cho đến khi hội tụ (không còn thay đổi nữa )

o Bước 1: Gán dữ liệu :Mỗi điểm dữ liệu được gán vào nhóm nào gần nhất Đây là việc phân chia dữ liệu

o Bước 2:Tính lại trọng tâm :đại diện của mỗi nhóm được tính lại bằng với trung bình (mean) của các điểm dữ liệu thuộc nhóm Nếu các điểm dữ liệu được tính bởi xác suất (probability

measure/weights) thì đại diện được tính bằng giá trị kỳ vọng (expectation) của dữ liệu.

Trang 9

Ví dụ minh họa

-Vấn đề tối ưu cục bộ

Việc chọn giá trị khởi đầu cho các trọng tâm của K-Means sẽ quyết định đến việc hội tụ “cục bộ” hay “toàn cục” của dữ liệu

Trang 10

Trong đó i=(xi1,xi2,……,xip) và j=( xj1,xj2,……,xjp) là hai đối tượng dữ liệu p-chiều và q là số nguyên dương.

o Nếu q=1 ,d là khoảng cách Manhattan

Trang 13

Không còn thay đổi nữa -> dừng thuật toán tại đây.

III.ĐÁNH GIÁ THU T TOÁNẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU

o Ưu Điểm

1 Độ phức tạp: O(K,N,1) với l: số lần lặp

Trang 14

5 Luôn có ít nhất 1 điểm dữ liệu trong 1 cụm dữ liệu.

6 Các cụm không phân cấp và không bị chồng chéo dữ liệu lên

5 Luôn có ít nhất 1 điểm dữ liệu trong 1 cụm dữ liệu.

6 Các cụm không phân cấp và không bị chồng chéo dữ liệu lên nhau.

7 Mọi thành viên của 1 cụm là gần với chính cụm đó hơn bất cứ 1 cụm nào khác.

Trang 15

CHƯƠNG IV :DEMO ỨNG DỤNG THUẬT TOÁN K-MEANS

Chạy thuật toán K-Means với hệ màu RGB

Chạy Thuật toán K-Means với hệ HSV

Trang 16

TÀI LIỆU THAM KHẢO

 Giáo trình Xử Lý Ảnh Số của Ths.Trần Mai Hương

 Nhập môn xử lý ảnh số Lương Mạnh Bá, Nguyễn Thanh Thủy (ĐHBK)

 Giáo trình xử lý ảnh HV Công Nghệ Bưu Chính Viễn Thông Link download file:

https://drive.google.com/file/d/0B-8O8mvfY4rYZ3J1WS1NUjJxWEU/edit?usp=sharing

Ngày đăng: 27/11/2013, 23:40

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w