Do vậy, đề tài “Nghiên cứu một số phương pháp phân cụm có thứ bậc và ứng dụng trong phân cụm các bộ dữ liệu ảnh” trong đề tài sẽ giới thiệu một số thuật toán phân cụm đưa ra các mô hìnhp
Trang 1HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG
Lê Thị Thúy
VÀ UNG DỤNG TRONG PHAN CUM CÁC BO DU LIEU ANH
CHUYEN NGANH: KHOA HOC MAY TINH
MA SO: 60.48.01.01 (Khoa hoc may tinh)
TOM TAT LUAN VAN THAC Si
HA NỘI - 2015
Trang 2Người hướng dẫn khoa học: c c2 2222222211111 555111111113
(Ghi rõ học hàm, học vị)
Phản biện Ì: - 2000020002020 00200201 21 51c n cv sẽ
Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học viện Công
nghệ Bưu chính Viễn thông
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
Trong những năm gan đây, với sự bùng nổ của khoa hoc kỹ thuat, các thiết bị thuảnh số như máy ảnh, điện thoại di động trở nên thông dụng mọi người Cùng với đó cácthiết bị lưu trữ ảnh càng ngày càng được cải tiễn về dung lượng, chất lượng, thời gian lưutrữ ảnh Bên cạnh đó sự phát triển của mạng Internet càng làm cho sé lượng ảnh được traođổi và lưu trữ càng lớn hơn và phức tạp hơn Với lượng dit liệu ảnh tăng nhanh chóng nhưvậy, việc phân chia loại anh trở nên khó khăn va phức tap Van đề này có thé giải quyếtbăng các phương pháp học máy dé giảm thiểu công sức của con người
Phân cụm hay phân nhóm (clustering) là một phương pháp hoc máy không giám sat
có thể giúp phân loại, quản lý dữ liệu Phân cụm luôn là một bài toán khó vì sự thiếuthông tin về các nhãn dữ liệu Có rất nhiều cách tiếp cận bài toán phân cụm, trong đó phân
cụm có thứ bậc cho phép người dùng có thể trực quan hóa kết quả và tiến hành các phân
tích sau đó Trong đó các cau trúc cây có thứ bậc là công cụ đơn giản và hiệu quả nhất détrực quan hóa kết quả Điều này đặc biệt cần thiết cho đữ liệu đa chiều như đữ liệu kiểu
ảnh Do di liệu thường có kích thước lớn, nên nhiều thuật toán trở nên nhạy cảm với các
độ lớn của các chiều dữ liệu Các thuật toán khai phá cần được cải tiến dé tối ưu hóa thời
gian tính toán va chi phí.
Vì vậy, việc nghiên cứu các phương pháp phân nhóm là cần thiết Do vậy, đề tài
“Nghiên cứu một số phương pháp phân cụm có thứ bậc và ứng dụng trong phân cụm các
bộ dữ liệu ảnh” trong đề tài sẽ giới thiệu một số thuật toán phân cụm đưa ra các mô hìnhphân cấp (hierarchical structure) hay còn gọi là các cây (tree) Mô hình được sử dụngnhiều nhất là Agglomerative Hierarchical Clustering (AHC), ngoài ra còn một số phươngpháp khác như Minimum Spanning Tree, hay những thuật toán mô phỏng dựa vao đặctính sinh học như AntTree Những thuật toán nay sử dụng các cách tiếp cận khác nhau déxây dựng mô hình phân cấp
Luận văn gồm 3 chương có nội dung như sau:
Chương 1 Tổng quan về phân cụm.
Trong đó sẽ giới thiệu về phân cụm, phân cụm phân cấp, các kỹ thuật tiếp cậntrong phân cụm, các cách đo độ tương tự, các cách đánh giá kết quả phân cụm
Trang 4Chương 2 Một số thuật toán trong phân cụm có thứ bậcTrong chương 2 luận văn sẽ giới thiệu một số thuật toán phân cụm phân cấp mà tậptrung trình bày ba thuật toán phân cụm phân cấp đó là AHC (Agglomerative HierarchicalClustering), MST (Minimum Spanning Tree), AntTree nhằm giới thiệu các mô hình phâncấp khác nhau
Chương 3 Xây dựng ứng dụng phân cụm có thứ bậc trong phân cụm bộ dữ liệu ảnh.
Dựa các bộ dữ liệu ảnh áp dụng những thuật toán được giới thiệu trong chương 2
dé tiến hành xây dựng những mô hình phân cấp khác nhau, và tiến hành đánh giá, phântích các kết quả thu được
Trang 5CHƯƠNG 1 TONG QUAN VE PHAN CUM
1.1 Giới thiệu chung về phân cum (Data Clustering)
1.1.1 Khái niệm về phân cum dữ liệu
Phân cụm dữ liệu là quá trình nhóm các đối tượng sao cho các đối tượng trong
cùng một nhóm là tương tự nhau (hoặc có liên quan với nhau) và khác (không liên quan)
với các đối tượng trong các nhóm khác [1]
Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữliệu sao cho các đối tượng trong một cụm “tương tự” (Similar) và các đối tượng trong cáccụm khác sẽ “không tương tự” (Dissimilar) với nhau Số cụm dữ liệu được phân ở đây cóthé xác định trước dựa theo kinh nghiệm, yêu cầu số cụm cần được xây dựng, hoặc có thể
được tự động xác định qua phương pháp phân cụm đã chọn.
Quan điểm về một cụm có thé nhập nhang, tùy theo từng trường hợp mà chúng talựa chọn các tiêu chí phân cụm khác nhau như:
— Dựa vào khoảng cách.
— Dựa vào khái niệm, tính chất
Phân cụm, một phương pháp học không giám sát, được xem là một vấn đề quantrọng trong khai phá đữ liệu do sự thiếu thông tin về nhãn của lớp dữ liệu Nhiệm vụ
chính là khai phá những tri thức trong dữ liệu.
Phân cum đữ liệu nhắm mục đích chính là khai phá cau trúc của mẫu dữ liệu dé
thành lập các nhóm dữ liệu từ tập dữ liệu lớn, theo đó cho phép người ta đi xâu vào phân
tích và nghiên cứu cho từng cụm dé liệu này nhằm khai phá và tìm kiếm các thông tintiềm ân, hữu ích phục vụ cho ra quyết định
Các bước cơ bản trong quá trình phân cụm dữ liệu:
— Lựa chọn đặc trưng: Các đặc trưng phải được lựa chọn một cách thích hợp dé có
thê mã hóa nhiều nhất thông tin liên quan đến mục đích công việc
— Xây dựng ham tính độ tương tự: Lua chọn độ do chỉ ra mức độ tương tự hay
khoảng cách giữa các vectơ đặc trưng.
— Xây dựng các tiêu chuẩn phân cụm: Tiêu chuẩn phân cụm có thể được biểu diễn
bở hàm chỉ phí hay một vài quy tắc khác
Trang 6— Xây dựng thuật toán phân cụm: Xác lập các điều kiện khởi tạo, lựa chọn một sơ
đồ thuật toán nhằm xây dựng cấu trúc phân cum của tap dir liệu
— Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm.
Việc lựa chọn các đặc trưng, độ đo tương tự, tiêu chuẩn phân cụm khác nhau có thédẫn đến các kết quả phân cụm khác nhau
Hiện nay vẫn chưa có phương pháp phân cụm tổng quát nào có thé giải quyết trọnven cho tat cả các dang cấu trúc dữ liệu Với những dang dữ liệu hỗn hợp, đa chiều thìviệc phân cụm cảng khó khăn hơn và đây đang là một cách thức trong nghành khai phá dữ
— Tối thiểu lượng tri thức cần cho xác định các tham số đầu vảo
— Khả năng thích nghi với đữ liệu nhiễu.
— Ít nhạy cảm với thứ tự của các dữ liệu vào
— Số chiều lớn: Người ta đánh giá việc phân cụm là có chất lượng tốt nếu nó áp
dụng được cho đữ liệu có từ 3 chiều trở lên
— Phân cụm ràng buộc: Một nhiệm vụ đặt ra là đi tìm những nhóm dữ liệu có trạng
thái phân cụm tốt và thỏa mãn các ràng buộc
— Dễ hiểu và dé sử dụng
1.1.3 Các kỹ thuật tiếp cận trong phân cụm
Những kỹ thuật tiếp cận trong phân cụm đữ liệu Hiện nay, các kỹ thuật phân cụm cóthé phân loại theo các phương pháp tiếp cận chính như sau: Phân cụm phân hoạch(Partitioning Methods), phân cụm phân cấp (Hierarchical Methods), phân cụm dựa trênmật độ (Density — Based Methods), phân cụm dựa trên lưới (Grid-Based Methods); phân
cụm dựa trên mô hình phân cum (Model-Based Clustering Methods), phan cụm có dir liệu
ràng buộc (Binding data Clustering Methods) [4].
Trang 7Bài toán phân cum: Cho trước cơ sở dữ liệu gồm N đối tượng (Xj, X2, Xn) hoặc các
bộ dữ liệu, xây dựng phương pháp phân chia dé phân N đối tượng thành k tập dữ liệu con(k<=N), mỗi tập con biểu diễn một cụm C¡, Cạ, Cn
a Phan cụm phân hoạch (Partitioning Methods)
Phương pháp phan hoạch là phương pháp phân chia n đối tượng cho trước ra k
nhóm khác nhau Các nhóm tạo ra dựa vào sự phân hoạch các đối tượng Một cách thức
thường được sử dụng nhất đó là dựa vào khoảng cách Các đối tượng trong cùng mộtnhóm thì có các đặc điểm giống nhau hoặc gần giống nhau, trong khi đó các đối tượng ởcác nhóm khác nhau thì có các đặc tính rất khác nhau
b Phân cụm phân cấp (Hierarchical Methods)
Phương pháp phân cụm phân cấp là phương pháp phân cụm, trong đó các đốitượng được tách (hoặc nhóm) vào các cụm có cấu trúc dạng cây phân cấp, cây phân cấp
này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phô biện của phương pháp
này: Phân rã theo hướng tích tụ (agglomerative) và phân rã theo hướng phân chia
(divisive) Tích tụ là cách phân cụm theo kiểu từ dưới lên (buttom — up) còn phân chia làcách phân cụm theo kiêu từ trên xuống (top- down)
c Phương pháp phan cụm dựa trên mật độ (Density — Based Methods)
Phương pháp phân cụm này nhóm các đối tượng theo hàm mật độ xác định Trong
đó mật độ được định nghĩa như là số các đối tượng lân cận của một đối tượng dt liệu theongưỡng nào đó Trong cách tiếp cận này, khi dữ liệu đã xác định thì nó tiếp tục được pháttriển thêm các đối tượng dữ liệu mới miễn là số đối tượng lân cận này phải lớn hơn mộtngưỡng đã được xác định trước Phương pháp phân cụm dựa trên mật độ được sử dụng détim ra các cụm có hình dạng phức tạp va ở nhiều kiểu khác nhau Phương pháp nhằm
phân định các vùng có mật độ đối tượng dầy đặc thành các nhóm và tách biệt khỏi những
vùng có mật độ đối tượng ít
d Phương pháp phân cụm dựa trên lưới (Grid - Based Methods):
Phương pháp phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên
cấu trúc dữ liệu lưới dé phân cụm Mục tiêu của phương pháp này là lượng hóa dit liệu
Trang 8thành các 6 tạo thành câu trúc dữ liệu lưới Sau đó các thao tác phân cụm chỉ cân làm ciécvới các đối tượng trong từng 6 trên lưới chứ không phải các đối tượng dit liệu
e Phân cụm dựa trên mô hình phân cụm (Model-Based Clustering Methods)
Phương pháp phân cụm dựa trên mô hình mà mô hình đó cố gắng khớp các dữ liệuvới mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bang hén hop xacsuất cơ bản Phương nay khám phá các phép x4p xi tốt của các tham số mô hình sao chokhớp với đữ liệu một cách tốt nhất Các thuật toán phân cụm dựa trên mô hình có haicách tiếp cận chính: Mô hình thống kê và mạng noron
f Phân cụm có dữ liệu ràng buộc (Binding data Clustering Methods)
Để phân cum dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cần đượcthực hiện để cung cấp cho người dùng khả năng kết hợp các ràng buộc trong thuật toán
phân cụm
1.1.4 Cac ứng dụng của phan cụm dữ liệu
e Thuong mại: Xác định các nhóm khách hang sử dụng sản phẩm hay dich vụ của
công ty dé giúp công ty có chiến lược kinh doanh hiệu quả hơn.
e Tìm kiếm ảnh: Xác định các cụm ảnh tương đồng
e Trong tin sinh học: Phân loại động vật, thực vật qua chức năng gene tương đồng
của chúng.
e Trong y tế: Chang hạn xác định các nhóm bệnh nhân nhằm cung cấp thông tin cho
việc phối hợp các loại thuốc điều trị
e Quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiến trúc, vị trí địa lý, giá trị
nhằm cung cấp thông tin cho quản lý, quy hoạch đô thị
1.2 Giới thiệu chung về phân cum phân cấp
Phương pháp phân cụm phân cấp là một phương pháp phân cụm, trong đó các đối
tượng dữ liệu được gom vào các cụm có cấu trúc dạng cây phân cấp [3].
Trong phương pháp phân cụm phân cấp các đối tượng sẽ được phân rã tạo ra mộttập các cụm lồng nhau, với một phân cụm gốc ở trên cùng và các phân cụm con ở phía
dưới Các phân cụm ở cấp độ trên chứa các phân cụm phía dưới chúng theo thứ bậc Kết
Trang 9Cây phân cấp này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phốbiến của kỹ thuật này đó là: phân rã theo hướng tích tụ (agglomerative) là cách phân cụmtheo kiểu từ đưới lên (buttom — up) hoặc phân rã theo hướng phân chia (divisive) là cáchphân cụm theo kiểu từ trên xuống ( top - down) [2]
— Cách tiếp cận trên xuống (top - down) : Ban đầu chúng ta xem tất cả các đối
tượng thuộc cùng 1 cụm, sau đó tiến hành phân thành 2 cụm Quá trình này được
thực hiện cho đến khi mỗi nhóm chỉ còn 1 đối tượng hoặc là cho đến khi số lượngcụm đạt đến một ngưỡng cho phép
— Cách tiếp cận dưới lên (bottom - up): Quá trình ngược lại với tiếp cận trên
xuống, ban dau, chúng ta xem mỗi đối tượng là 1 cụm và nhóm 2 đối tượng gannhất thành 1 cụm Quá trình này lặp lại cho đến khi tất cả các đối tượng đượcnhóm vào 1 cụm hoặc là cho đến khi số lượng cụm đạt đến một ngưỡng cho phép
Trang 10Các cách tính liên kết (khoảng cách) giữa các cụm thường dùng là:
— Liên kết đơn (Single-linkage): Được tính dựa trên khoảng cách ngắn nhất giữa các
thành phần nằm thuộc vào các phân cụm tương ứng
— Liên kết hoàn toàn (Complete-linkage): Tính dựa trên khoảng cách lớn nhất giữa
các thành phần nằm thuộc vào các phân cụm tương ứng
— Liên kết trung bình nhóm (Average-linkage): Được tính dựa trên khoảng cách
trung bình giữa các thành phần của các phân cụm tương ứng
— Liên kết tâm (Centroid- linkage): Liên kết giữa hai phân cụm được tính dựa trên
khoảng cách giữa hai trọng tâm của hai cụm.
Nhược điểm của phương pháp này là: Khi đã trộn hay tách các cụm lại thì sẽ khôngthé quay lại, thời gian thực hiện phân cụm lâu do phải tìm hết các phân cụm
Phương pháp phân cụm phân cấp là phương pháp được sử dụng khá nhiều trongthực tế, được áp dụng cho các bài toán khai phá dữ liệu: Phân cụm, tra cứu ảnh, phân cụmcác liệu tài liệu, web theo cấu trúc cây, phân cụm các tập dữ liệu miêu tả về cau trúc gen,
và áp dụng cho kinh tế (dự đoán tài chính, thị trường chứng khoán )
1.3 Phương pháp phân cụm và phân cum phân cấp
Trước khi dit liệu đưa vào huấn luyện, dữ liệu cần được tiền xử lý hoặc hậu xử lý dé
nâng cao hiệu xuất của thật toán
1.3.1 Xứ lý dữ liệu
Khai pha dữ liệu là một quá trình rút trích hay khai phá tri thức từ một lượng lớn dữ liệu.
Quá trình khai phá dữ liệu được chia thành ba giai đoạn chính, đó là:
- Giai đoạn tiền xử ly (pre-processing)
- Giai đoạn khai phá, xử lý dữ liệu (data mining)
- Giai đoạn hau xử ly (post-processing)
Trang 11Trong mỗi giai đoạn lại được chia thành các bước nhỏ khác nhau tùy theo mục đích
khai phá dữ liệu.
Giai đoạn tiền xử lý (pre-processing), trong quá trình phân cụm dữ liệu thì vấn đềtrở ngại lớn đó là nhiễu (noise) Vì vậy giai đoạn tiền xử lý là giai đoạn rất quan trọng.Giai đoạn tiền xử lý đữ liệu bao gồm 4 bược:
- Bước làm sạch (cleaning): Loại bỏ những dữ liệu dư thừa hoặc không đồng
nhất Bước tích hợp (Integration): Dữ liệu có thé được lay từ nhiều nguồn khácnhau, tại bước này tất cả đữ liệu sẽ được kết hợp lại với nhau
- Bước lựa chon dt liệu (Data selection): Trong bước này những dữ liệu được coi
là tốt nhất sẽ được lấy ra, chúng sẽ là dữ liệu đầu vào cho việc phân tích dữ liệu
- _ Bước chuyền đổi (Transformation): Trong bước này dữ liệu sẽ được chuyền đổi
hoặc hợp nhất vào một đinh dạng phù hợp với việc kha phá dữ liệu sau này
Giai đoạn khai phá dir liệu (Data mining) là giai đoạn cơ bản và quan trọng nhất trong toàn bộ quá trình Sau giai đoạn tiền xử lý, dữ liệu được đưa vào cho giai đoạn khai
pha Các kỹ thuật được sử dụng trong giai đoạn này: Phân cum (clustering), khai phá luật
kết hợp (association rule mining), khai phá mẫu tuần tự (sequential pattern mining) Tùy
vào đặc trưng của bài toán mà sử dụng những kỹ thuật phù hợp Kết quả của giai đoạnnày là đưa, rút trích được các mẫu hay các tri thức
Giai đoạn hậu xử lý (post-processing), trong nhiều các ứng dụng không phải tất cả
Trang 12các mẫu có được từ giai đoạn khai phá đều hữu dụng, do các mẫu sinh ra từ một giaiđoạn xử lý phức tạp, với lượng lớn dữ liệu vì vậy trong giai đoạn này có thê tiến hànhmột số bước: Loại bỏ một số cụm nhỏ hoặc có thé tiến hành trộn một số các cụm gần
nhau Dé đạt được hiệu quả mong muốn Đây chính là nhiệm vụ của bước đánh giá
(Evaluation) trong giai đoạn hậu xử ly dữ liệu Ngoài ra trong giai đoạn nay còn có bước
là trình bày lai tri thức (Knowledge Presentation) Bước này sử dung các kỹ thuật vềtrình bày trực quan: Có thé là đưa ra các báo cáo, biéu đồ nhăm giúp người dùng tiếpcận với các tri thức đã được rút trích.
bởi vector đặc trưng x¡ = (fi;, , fai )eRỷ Trong đó f), fo, , fy biểu thị các đặc trưng
hoặc các thuộc tính tương ứng của đối tượng trong không gian RỶ (d là số chiều của dữliệu) Giả sử f,; biểu thi mẫu thứ ¡ của đặc trưng thir, với 1 = l, ,N vàr= 1, , d, do
đó vector hàng được biéu diễn như:
f = (fut, f2, , fen)
Dưới đây là một số phép do độ tương tự và khoảng cách giữa các đối tượng thường
sử dụng trong các thuật toán phan cụm [5,13]
e Khoảng cách Euclidean, mô tả khoảng cách hình học giữa hai đối tượng
Trang 131.3.3 Thuat toan phan cum
a Phan cum phan hoach (Partitioning Methods)
Cho trước cơ sở dit liệu gồm N đối tượng hoặc các bộ dit liệu, xây dựng phương
pháp phân chia để phân n đối tượng thành k tập dữ liệu con (k<=N), mỗi tập con biểu
diễn một cụm Sao cho mỗi đối tượng thuộc một cụm, mỗi cụm có ít nhất một đối tượng.
Có rất nhiều thuật toán để giải quyết bài toán trên: means (MacQueen 1967),
K-medoids (Kaufman và Rousseew 1987), PAM (Partition Around Medoids), CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based on
RAndomized Search), CLASA (Clustering Large Applications based on Simulated Annealing)
Thuật toán K — Means: Thuật toán phân hoạch K — Means do MacQueen dé xuatnăm 1967 Thuật toán dựa trên độ đo khoảng cách của các đối tượng dữ liệu đến phần tử
trung tâm của cụm chứa nó.
Thuật toán K — Means có tham số đầu vào là k và phân chia một tập n đối tượngvào trong k cụm để cho kết quả độ tương đồng trong cụm là cao trong khi độ tương đồngngoài cụm là thấp
Thuật toán K — Means đơn giản:
1: Khởi tạo k centroid ban đầu
2: Repeat
3: Tạo k cụm băng cách gán các điểm tới centroid gần nhất
4: Tính lại centroid cho mỗi cụm
5: Until Cac centroid không đổi