1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên Cứu Một Số Phương Pháp Phân Cụm Có Thứ Bậc Và Ứng Dụng Trong Phân Cụm Các Bộ Dữ Liệu Ảnh

27 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Trang 1

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG

Lê Thị Thúy

VÀ UNG DỤNG TRONG PHAN CUM CÁC BO DU LIEU ANH

CHUYEN NGANH: KHOA HOC MAY TINH

MA SO: 60.48.01.01 (Khoa hoc may tinh)

TOM TAT LUAN VAN THAC Si

HA NỘI - 2015

Trang 2

Người hướng dẫn khoa học: c c2 2222222211111 555111111113

(Ghi rõ học hàm, học vị)

Phản biện Ì: - 2000020002020 00200201 21 51c n cv sẽ

Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học viện Công

nghệ Bưu chính Viễn thông

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

Trong những năm gan đây, với sự bùng nổ của khoa hoc kỹ thuat, các thiết bị thu ảnh số như máy ảnh, điện thoại di động trở nên thông dụng mọi người Cùng với đó các thiết bị lưu trữ ảnh càng ngày càng được cải tiễn về dung lượng, chất lượng, thời gian lưu trữ ảnh Bên cạnh đó sự phát triển của mạng Internet càng làm cho sé lượng ảnh được trao đổi và lưu trữ càng lớn hơn và phức tạp hơn Với lượng dit liệu ảnh tăng nhanh chóng như vậy, việc phân chia loại anh trở nên khó khăn va phức tap Van đề này có thé giải quyết băng các phương pháp học máy dé giảm thiểu công sức của con người.

Phân cụm hay phân nhóm (clustering) là một phương pháp hoc máy không giám sat

có thể giúp phân loại, quản lý dữ liệu Phân cụm luôn là một bài toán khó vì sự thiếu thông tin về các nhãn dữ liệu Có rất nhiều cách tiếp cận bài toán phân cụm, trong đó phân

cụm có thứ bậc cho phép người dùng có thể trực quan hóa kết quả và tiến hành các phân

tích sau đó Trong đó các cau trúc cây có thứ bậc là công cụ đơn giản và hiệu quả nhất dé trực quan hóa kết quả Điều này đặc biệt cần thiết cho đữ liệu đa chiều như đữ liệu kiểu

ảnh Do di liệu thường có kích thước lớn, nên nhiều thuật toán trở nên nhạy cảm với các

độ lớn của các chiều dữ liệu Các thuật toán khai phá cần được cải tiến dé tối ưu hóa thời

gian tính toán va chi phí.

Vì vậy, việc nghiên cứu các phương pháp phân nhóm là cần thiết Do vậy, đề tài “Nghiên cứu một số phương pháp phân cụm có thứ bậc và ứng dụng trong phân cụm các bộ dữ liệu ảnh” trong đề tài sẽ giới thiệu một số thuật toán phân cụm đưa ra các mô hình phân cấp (hierarchical structure) hay còn gọi là các cây (tree) Mô hình được sử dụng nhiều nhất là Agglomerative Hierarchical Clustering (AHC), ngoài ra còn một số phương pháp khác như Minimum Spanning Tree, hay những thuật toán mô phỏng dựa vao đặc tính sinh học như AntTree Những thuật toán nay sử dụng các cách tiếp cận khác nhau dé xây dựng mô hình phân cấp.

Luận văn gồm 3 chương có nội dung như sau:

Chương 1 Tổng quan về phân cụm.

Trong đó sẽ giới thiệu về phân cụm, phân cụm phân cấp, các kỹ thuật tiếp cận trong phân cụm, các cách đo độ tương tự, các cách đánh giá kết quả phân cụm.

Trang 4

Chương 2 Một số thuật toán trong phân cụm có thứ bậc

Trong chương 2 luận văn sẽ giới thiệu một số thuật toán phân cụm phân cấp mà tập trung trình bày ba thuật toán phân cụm phân cấp đó là AHC (Agglomerative Hierarchical Clustering), MST (Minimum Spanning Tree), AntTree nhằm giới thiệu các mô hình phân cấp khác nhau.

Chương 3 Xây dựng ứng dụng phân cụm có thứ bậc trong phân cụm bộ dữliệu ảnh.

Dựa các bộ dữ liệu ảnh áp dụng những thuật toán được giới thiệu trong chương 2 dé tiến hành xây dựng những mô hình phân cấp khác nhau, và tiến hành đánh giá, phân tích các kết quả thu được.

Trang 5

CHƯƠNG 1 TONG QUAN VE PHAN CUM

1.1 Giới thiệu chung về phân cum (Data Clustering) 1.1.1 Khái niệm về phân cum dữ liệu

Phân cụm dữ liệu là quá trình nhóm các đối tượng sao cho các đối tượng trong

cùng một nhóm là tương tự nhau (hoặc có liên quan với nhau) và khác (không liên quan)

với các đối tượng trong các nhóm khác [1].

Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các đối tượng trong một cụm “tương tự” (Similar) và các đối tượng trong các cụm khác sẽ “không tương tự” (Dissimilar) với nhau Số cụm dữ liệu được phân ở đây có thé xác định trước dựa theo kinh nghiệm, yêu cầu số cụm cần được xây dựng, hoặc có thể

được tự động xác định qua phương pháp phân cụm đã chọn.

Quan điểm về một cụm có thé nhập nhang, tùy theo từng trường hợp mà chúng ta lựa chọn các tiêu chí phân cụm khác nhau như:

— Dựa vào khoảng cách.

— Dựa vào khái niệm, tính chất.

Phân cụm, một phương pháp học không giám sát, được xem là một vấn đề quan trọng trong khai phá đữ liệu do sự thiếu thông tin về nhãn của lớp dữ liệu Nhiệm vụ

chính là khai phá những tri thức trong dữ liệu.

Phân cum đữ liệu nhắm mục đích chính là khai phá cau trúc của mẫu dữ liệu dé

thành lập các nhóm dữ liệu từ tập dữ liệu lớn, theo đó cho phép người ta đi xâu vào phân

tích và nghiên cứu cho từng cụm dé liệu này nhằm khai phá và tìm kiếm các thông tin tiềm ân, hữu ích phục vụ cho ra quyết định.

Các bước cơ bản trong quá trình phân cụm dữ liệu:

— Lựa chọn đặc trưng: Các đặc trưng phải được lựa chọn một cách thích hợp dé có thê mã hóa nhiều nhất thông tin liên quan đến mục đích công việc.

— Xây dựng ham tính độ tương tự: Lua chọn độ do chỉ ra mức độ tương tự haykhoảng cách giữa các vectơ đặc trưng.

— Xây dựng các tiêu chuẩn phân cụm: Tiêu chuẩn phân cụm có thể được biểu diễn bở hàm chỉ phí hay một vài quy tắc khác.

Trang 6

— Xây dựng thuật toán phân cụm: Xác lập các điều kiện khởi tạo, lựa chọn một sơ đồ thuật toán nhằm xây dựng cấu trúc phân cum của tap dir liệu.

— Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm.

Việc lựa chọn các đặc trưng, độ đo tương tự, tiêu chuẩn phân cụm khác nhau có thé dẫn đến các kết quả phân cụm khác nhau.

Hiện nay vẫn chưa có phương pháp phân cụm tổng quát nào có thé giải quyết trọn ven cho tat cả các dang cấu trúc dữ liệu Với những dang dữ liệu hỗn hợp, đa chiều thì việc phân cụm cảng khó khăn hơn và đây đang là một cách thức trong nghành khai phá dữ

— Tối thiểu lượng tri thức cần cho xác định các tham số đầu vảo.

— Khả năng thích nghi với đữ liệu nhiễu.

— Ít nhạy cảm với thứ tự của các dữ liệu vào.

— Số chiều lớn: Người ta đánh giá việc phân cụm là có chất lượng tốt nếu nó áp dụng được cho đữ liệu có từ 3 chiều trở lên.

— Phân cụm ràng buộc: Một nhiệm vụ đặt ra là đi tìm những nhóm dữ liệu có trạng thái phân cụm tốt và thỏa mãn các ràng buộc.

— Dễ hiểu và dé sử dụng.

1.1.3 Các kỹ thuật tiếp cận trong phân cụm

Những kỹ thuật tiếp cận trong phân cụm đữ liệu Hiện nay, các kỹ thuật phân cụm có thé phân loại theo các phương pháp tiếp cận chính như sau: Phân cụm phân hoạch (Partitioning Methods), phân cụm phân cấp (Hierarchical Methods), phân cụm dựa trên mật độ (Density — Based Methods), phân cụm dựa trên lưới (Grid-Based Methods); phân

cụm dựa trên mô hình phân cum (Model-Based Clustering Methods), phan cụm có dir liệu

ràng buộc (Binding data Clustering Methods) [4].

Trang 7

Bài toán phân cum: Cho trước cơ sở dữ liệu gồm N đối tượng (Xj, X2, Xn) hoặc các bộ dữ liệu, xây dựng phương pháp phân chia dé phân N đối tượng thành k tập dữ liệu con

(k<=N), mỗi tập con biểu diễn một cụm C¡, Cạ, Cn.

a Phan cụm phân hoạch (Partitioning Methods)

Phương pháp phan hoạch là phương pháp phân chia n đối tượng cho trước ra k

nhóm khác nhau Các nhóm tạo ra dựa vào sự phân hoạch các đối tượng Một cách thức

thường được sử dụng nhất đó là dựa vào khoảng cách Các đối tượng trong cùng một nhóm thì có các đặc điểm giống nhau hoặc gần giống nhau, trong khi đó các đối tượng ở các nhóm khác nhau thì có các đặc tính rất khác nhau.

b Phân cụm phân cấp (Hierarchical Methods)

Phương pháp phân cụm phân cấp là phương pháp phân cụm, trong đó các đối tượng được tách (hoặc nhóm) vào các cụm có cấu trúc dạng cây phân cấp, cây phân cấp

này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phô biện của phương pháp

này: Phân rã theo hướng tích tụ (agglomerative) và phân rã theo hướng phân chia

(divisive) Tích tụ là cách phân cụm theo kiểu từ dưới lên (buttom — up) còn phân chia là cách phân cụm theo kiêu từ trên xuống (top- down)

c Phương pháp phan cụm dựa trên mật độ (Density — Based Methods)

Phương pháp phân cụm này nhóm các đối tượng theo hàm mật độ xác định Trong đó mật độ được định nghĩa như là số các đối tượng lân cận của một đối tượng dt liệu theo ngưỡng nào đó Trong cách tiếp cận này, khi dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số đối tượng lân cận này phải lớn hơn một ngưỡng đã được xác định trước Phương pháp phân cụm dựa trên mật độ được sử dụng dé tim ra các cụm có hình dạng phức tạp va ở nhiều kiểu khác nhau Phương pháp nhằm

phân định các vùng có mật độ đối tượng dầy đặc thành các nhóm và tách biệt khỏi những

vùng có mật độ đối tượng ít

d Phương pháp phân cụm dựa trên lưới (Grid - Based Methods):

Phương pháp phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên

cấu trúc dữ liệu lưới dé phân cụm Mục tiêu của phương pháp này là lượng hóa dit liệu

Trang 8

thành các 6 tạo thành câu trúc dữ liệu lưới Sau đó các thao tác phân cụm chỉ cân làm ciéc với các đối tượng trong từng 6 trên lưới chứ không phải các đối tượng dit liệu.

e Phân cụm dựa trên mô hình phân cụm (Model-Based Clustering Methods)

Phương pháp phân cụm dựa trên mô hình mà mô hình đó cố gắng khớp các dữ liệu với mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bang hén hop xac

suất cơ bản Phương nay khám phá các phép x4p xi tốt của các tham số mô hình sao cho khớp với đữ liệu một cách tốt nhất Các thuật toán phân cụm dựa trên mô hình có hai cách tiếp cận chính: Mô hình thống kê và mạng noron.

f Phân cụm có dữ liệu ràng buộc (Binding data Clustering Methods)

Để phân cum dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cần được thực hiện để cung cấp cho người dùng khả năng kết hợp các ràng buộc trong thuật toán

phân cụm

1.1.4 Cac ứng dụng của phan cụm dữ liệu

e Thuong mại: Xác định các nhóm khách hang sử dụng sản phẩm hay dich vụ của công ty dé giúp công ty có chiến lược kinh doanh hiệu quả hơn.

e Tìm kiếm ảnh: Xác định các cụm ảnh tương đồng.

e Trong tin sinh học: Phân loại động vật, thực vật qua chức năng gene tương đồng

của chúng.

e Trong y tế: Chang hạn xác định các nhóm bệnh nhân nhằm cung cấp thông tin cho việc phối hợp các loại thuốc điều trị.

e Quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiến trúc, vị trí địa lý, giá trị

nhằm cung cấp thông tin cho quản lý, quy hoạch đô thị.

1.2 Giới thiệu chung về phân cum phân cấp

Phương pháp phân cụm phân cấp là một phương pháp phân cụm, trong đó các đối

tượng dữ liệu được gom vào các cụm có cấu trúc dạng cây phân cấp [3].

Trong phương pháp phân cụm phân cấp các đối tượng sẽ được phân rã tạo ra một tập các cụm lồng nhau, với một phân cụm gốc ở trên cùng và các phân cụm con ở phía

dưới Các phân cụm ở cấp độ trên chứa các phân cụm phía dưới chúng theo thứ bậc Kết

Trang 9

quả của thuật toán phân cụm theo thức bậc có thể tổ chức như một cây, được gọi là một

Phương pháp này không cần xác định số cụm từ đâu Số cum sẽ do khoảng cách giữa các cụm hoặc điều kiện dừng quyết định Phân cấp cụm thường được biéu diễn dưới dang đồ thị dang cây, dé dàng có được số lượng cụm mong muốn bang cách cắt cây phân cấp ở mức độ phù hợp.

Cây phân cấp này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phố biến của kỹ thuật này đó là: phân rã theo hướng tích tụ (agglomerative) là cách phân cụm theo kiểu từ đưới lên (buttom — up) hoặc phân rã theo hướng phân chia (divisive) là cách phân cụm theo kiểu từ trên xuống ( top - down) [2]

— Cách tiếp cận trên xuống (top - down) : Ban đầu chúng ta xem tất cả các đối tượng thuộc cùng 1 cụm, sau đó tiến hành phân thành 2 cụm Quá trình này được

thực hiện cho đến khi mỗi nhóm chỉ còn 1 đối tượng hoặc là cho đến khi số lượng cụm đạt đến một ngưỡng cho phép.

— Cách tiếp cận dưới lên (bottom - up): Quá trình ngược lại với tiếp cận trên xuống, ban dau, chúng ta xem mỗi đối tượng là 1 cụm và nhóm 2 đối tượng gan nhất thành 1 cụm Quá trình này lặp lại cho đến khi tất cả các đối tượng được nhóm vào 1 cụm hoặc là cho đến khi số lượng cụm đạt đến một ngưỡng cho phép.

Trang 10

Các cách tính liên kết (khoảng cách) giữa các cụm thường dùng là:

— Liên kết đơn (Single-linkage): Được tính dựa trên khoảng cách ngắn nhất giữa các thành phần nằm thuộc vào các phân cụm tương ứng.

— Liên kết hoàn toàn (Complete-linkage): Tính dựa trên khoảng cách lớn nhất giữa

các thành phần nằm thuộc vào các phân cụm tương ứng.

— Liên kết trung bình nhóm (Average-linkage): Được tính dựa trên khoảng cách trung bình giữa các thành phần của các phân cụm tương ứng.

— Liên kết tâm (Centroid- linkage): Liên kết giữa hai phân cụm được tính dựa trên khoảng cách giữa hai trọng tâm của hai cụm.

Nhược điểm của phương pháp này là: Khi đã trộn hay tách các cụm lại thì sẽ không thé quay lại, thời gian thực hiện phân cụm lâu do phải tìm hết các phân cụm.

Phương pháp phân cụm phân cấp là phương pháp được sử dụng khá nhiều trong thực tế, được áp dụng cho các bài toán khai phá dữ liệu: Phân cụm, tra cứu ảnh, phân cụm các liệu tài liệu, web theo cấu trúc cây, phân cụm các tập dữ liệu miêu tả về cau trúc gen, và áp dụng cho kinh tế (dự đoán tài chính, thị trường chứng khoán )

1.3 Phương pháp phân cụm và phân cum phân cấp

Trước khi dit liệu đưa vào huấn luyện, dữ liệu cần được tiền xử lý hoặc hậu xử lý dé

nâng cao hiệu xuất của thật toán.

1.3.1 Xứ lý dữ liệu

Khai pha dữ liệu là một quá trình rút trích hay khai phá tri thức từ một lượng lớn dữliệu.

Quá trình khai phá dữ liệu được chia thành ba giai đoạn chính, đó là: - Giai đoạn tiền xử ly (pre-processing)

- Giai đoạn khai phá, xử lý dữ liệu (data mining)- Giai đoạn hau xử ly (post-processing)

Trang 11

Trong mỗi giai đoạn lại được chia thành các bước nhỏ khác nhau tùy theo mục đích

khai phá dữ liệu.

Giai đoạn tiền xử lý (pre-processing), trong quá trình phân cụm dữ liệu thì vấn đề trở ngại lớn đó là nhiễu (noise) Vì vậy giai đoạn tiền xử lý là giai đoạn rất quan trọng Giai đoạn tiền xử lý đữ liệu bao gồm 4 bược:

- Bước làm sạch (cleaning): Loại bỏ những dữ liệu dư thừa hoặc không đồng nhất Bước tích hợp (Integration): Dữ liệu có thé được lay từ nhiều nguồn khác nhau, tại bước này tất cả đữ liệu sẽ được kết hợp lại với nhau.

- Bước lựa chon dt liệu (Data selection): Trong bước này những dữ liệu được coi là tốt nhất sẽ được lấy ra, chúng sẽ là dữ liệu đầu vào cho việc phân tích dữ liệu - _ Bước chuyền đổi (Transformation): Trong bước này dữ liệu sẽ được chuyền đổi

hoặc hợp nhất vào một đinh dạng phù hợp với việc kha phá dữ liệu sau này.

Giai đoạn khai phá dir liệu (Data mining) là giai đoạn cơ bản và quan trọng nhất trong toàn bộ quá trình Sau giai đoạn tiền xử lý, dữ liệu được đưa vào cho giai đoạn khai

pha Các kỹ thuật được sử dụng trong giai đoạn này: Phân cum (clustering), khai phá luật

kết hợp (association rule mining), khai phá mẫu tuần tự (sequential pattern mining) Tùy

vào đặc trưng của bài toán mà sử dụng những kỹ thuật phù hợp Kết quả của giai đoạn này là đưa, rút trích được các mẫu hay các tri thức.

Giai đoạn hậu xử lý (post-processing), trong nhiều các ứng dụng không phải tất cả

Trang 12

các mẫu có được từ giai đoạn khai phá đều hữu dụng, do các mẫu sinh ra từ một giai đoạn xử lý phức tạp, với lượng lớn dữ liệu vì vậy trong giai đoạn này có thê tiến hành một số bước: Loại bỏ một số cụm nhỏ hoặc có thé tiến hành trộn một số các cụm gần

nhau Dé đạt được hiệu quả mong muốn Đây chính là nhiệm vụ của bước đánh giá

(Evaluation) trong giai đoạn hậu xử ly dữ liệu Ngoài ra trong giai đoạn nay còn có bước

là trình bày lai tri thức (Knowledge Presentation) Bước này sử dung các kỹ thuật về trình bày trực quan: Có thé là đưa ra các báo cáo, biéu đồ nhăm giúp người dùng tiếp cận với các tri thức đã được rút trích.

1.3.2 Độ đo tương tự

Đây là các hàm để đo sự giống nhau giữa các cặp đối tượng đữ liệu Giá trị của hàm tính độ tương tự càng lớn thì sự giống nhau giữa các đối tượng càng lớn và ngược lại

giá trị hàm tính khoảng cách giữa hai đối tượng càng lớn thì sự giống nhau giữa chúng

càng nhỏ.

Cho cơ sở dit liệu X gồm N đối tượng, mỗi đối tượng i (với i=l, N) được biểu diễn bằng một vector chứa tập hợp các số thực d, như vậy một đối tượng 1 được biểu diễn

bởi vector đặc trưng x¡ = (fi;, , fai )eRỷ Trong đó f), fo, , fy biểu thị các đặc trưng

hoặc các thuộc tính tương ứng của đối tượng trong không gian RỶ (d là số chiều của dữ liệu) Giả sử f,; biểu thi mẫu thứ ¡ của đặc trưng thir, với 1 = l, ,N vàr= 1, , d, do đó vector hàng được biéu diễn như:

f = (fut, f2, , fen)

Dưới đây là một số phép do độ tương tự và khoảng cách giữa các đối tượng thường sử dụng trong các thuật toán phan cụm [5,13]

e Khoảng cách Euclidean, mô tả khoảng cách hình học giữa hai đối tượng

Trang 13

1.3.3 Thuat toan phan cum

a Phan cum phan hoach (Partitioning Methods)

Cho trước cơ sở dit liệu gồm N đối tượng hoặc các bộ dit liệu, xây dựng phương

pháp phân chia để phân n đối tượng thành k tập dữ liệu con (k<=N), mỗi tập con biểu

diễn một cụm Sao cho mỗi đối tượng thuộc một cụm, mỗi cụm có ít nhất một đối tượng Có rất nhiều thuật toán để giải quyết bài toán trên: means (MacQueen 1967),

K-medoids (Kaufman và Rousseew 1987), PAM (Partition Around Medoids), CLARA(Clustering Large Applications), CLARANS (Clustering Large Applications based on

RAndomized Search), CLASA (Clustering Large Applications based on SimulatedAnnealing)

Thuật toán K — Means: Thuật toán phân hoạch K — Means do MacQueen dé xuat năm 1967 Thuật toán dựa trên độ đo khoảng cách của các đối tượng dữ liệu đến phần tử

trung tâm của cụm chứa nó.

Thuật toán K — Means có tham số đầu vào là k và phân chia một tập n đối tượng vào trong k cụm để cho kết quả độ tương đồng trong cụm là cao trong khi độ tương đồng ngoài cụm là thấp.

Thuật toán K — Means đơn giản:

1: Khởi tạo k centroid ban đầu

2: Repeat

3: Tạo k cụm băng cách gán các điểm tới centroid gần nhất

4: Tính lại centroid cho mỗi cụm

5: Until Cac centroid không đổi

Ngày đăng: 07/04/2024, 12:15

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN