Nghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quanNghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quanNghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quanNghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quanNghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quanNghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quanNghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quanNghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quan
Trang 1ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
NGUYỄN VĂN TOÀN
NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH
SỬ DỤNG PHÂN CỤM GIA TĂNG
VỚI PHẢN HỒI LIÊN QUAN
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN, 2018
Trang 2LỜI CẢM ƠN
Luận văn này được hoàn thành với sự hướng dẫn tận tình của PGS.TS Nguyễn Hữu Quỳnh – Khoa Công nghệ thông tin - Đại học Điện lực Trước tiên tôi xin chân thành bày tỏ lòng biết ơn sâu sắc tới PGS.TS Nguyễn Hữu Quỳnh người đã tận tình hướng dẫn, động viên giúp đỡ tôi trong suốt thời gian thực hiện luận văn Tôi cũng xin chân thành cảm ơn các thầy cô trong trường Đại học Công Nghệ thông tin và Truyền thông – Đại học Thái Nguyên, tạo điều kiện thuận lợi cho tôi hoàn thành tốt khóa học
Xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp Cao học CHK15A đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ với tôi những kinh nghiệm học tập, công tác trong suốt khoá học
Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc đến gia đình, người thân, bạn bè đã động viên, khuyến khích và hỗ trợ cần thiết để tôi hoàn thành luận văn này
Mặc dù rất cố gắng, song luận văn này không thể tránh khỏi những thiếu sót, kính mong được sự chỉ dẫn của các quý thầy cô và các bạn
Thái Nguyên, ngày 2 tháng 5 năm 2018
Người viết
Nguyễn Văn Toàn
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan rằng số liệu và kết quả nghiên cứu trong luận văn này là trung thực và không trùng lặp với các đề tài khác Tôi cũng xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các thông tin
trích dẫn trong luận văn đã được chỉ rõ nguồn gốc
Thái Nguyên, ngày 2 tháng 5 năm 2018
Người cam đoan
Nguyễn Văn Toàn
Trang 4MỤC LỤC
LỜI CẢM ƠN i
LỜI CAM ĐOAN iii
MỤC LỤC iv
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi
DANH MỤC CÁC BẢNG BIỂU vii
DANH MỤC CÁC HÌNH viii
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG VỚI PHẢN HỒI LIÊN QUAN 4
1.1 Tổng quan về tra cứu ảnh dựa vào nội dung 4
1.1.1 Vấn đề tra cứu ảnh dựa vào nội dung 4
1.2 Tra cứu ảnh sử dụng phản hồi liên quan 14
1.3 Vấn đề phân cụm[1] 16
1.3.1 Thuật toán K-Means 20
1.3.2 Phân cụm phân cấp 21
1.3.3 Phân cụm dựa vào mật độ 23
1.3.4 Phân cụm dựa vào mô hình 23
1.3.5 Phân cụm dựa vào đồ thị 26
1.4 Tiểu kết chương 1 26
CHƯƠNG 2: PHƯƠNG PHÁP TRA CỨU ẢNH VỚI PHẢN HỒI LIÊN QUAN SỬ DỤNG PHÂN CỤM GIA TĂNG 27
2.1 Tra cứu ảnh với ngữ nghĩa mức cao 27
2.1.1 Giới thiệu về tra cứu ảnh với ngữ nghĩa mức cao 27
2.1.2 Khoảng cách ngữ nghĩa 28
2.1.3 Phản hồi liên quan 29
2.2 Tra cứu ảnh với phản hồi liên quan 31
2.3 Kỹ thuật phân tích phân biệt tuyến tính (LDA-Linear Discriminant Analysis) 32
Trang 52.3.1 Định nghĩa về LDA 32
2.3.2 Tính toán phương sai between-class (𝑺𝑩) 32
2.3.3 Tính phương sai within-class (𝑺𝒘) 34
2.3.4 Xây dựng không gian thấp chiều 36
2.3.5 Sơ đồ phương pháp tra cứu ảnh sử dụng phân cụm gia tăng trong phản hồi liên quan 37
2.4 Tiểu kết chương 2 39
CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM 40
3.1 Giới thiệu bài toán tra cứu ảnh dựa vào nội dung 40
3.2 Môi trường thực nghiệm 41
3.2.1 Cơ sở dữ liệu ảnh 42
3.2.2 Vec-tơ đặc trưng 43
3.2.3 Tập tin cậy nền 44
3.2.4 Cấu hình đề xuất thiết bị chạy thực nghiệm 44
3.3 Đánh giá kết quả thực nghiệm 44
3.3.1 Chiến lược mô phỏng phản hồi liên quan 44
3.3.2 Kết quả đánh giá 45
3.4 Giao diện hệ thống 47
3.5 Tiểu kết chương 3 51
KẾT LUẬN 52
TÀI LIỆU THAM KHẢO 53
Trang 6DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
CBIR Tra cứu ảnh dựa vào nội dung
RBIR Tra cứu ảnh dựa vào vùng
CSDL Cơ sở dữ liệu
CRT Mẫu vùng cấu tạo
EMD Earth Mover Distance
IRM Lược đồ đối sánh vùng tích hợp
DPF Hàm khoảng cách động một phần
MRMD Khoảng cách đa tạp đa phân giải
RF Phản hồi liên quan
Trang 7DANH MỤC CÁC BẢNG BIỂU
Bảng 3.1 Bảng phân bố tập ảnh Corel 42
Bảng 3.2 Các loại đặc trưng 43
Bảng 3.3 Bảng cấu hình đề xuất thiết bị chạy thực nghiệm 44
Bảng 3.4 Bảng kết quả của các phương pháp 46
Trang 8DANH MỤC CÁC HÌNH
Hình 1.1 Kiến trúc tổng quan của hệ thống tra cứu ảnh dựa vào nội dung 5
Hình 1.2 Không gian màu RGB 8
Hình 1.3 Không gian màu HSV 9
Hình 1.4 Lược đồ của một hệ thống CBIR với RF 16
Hình 1.5 Các tập dữ liệu và các cụm 17
Hình 1.6 Các tập dữ liệu không thích hợp với K-Means 21
Hình 1.7 Phân cụm phân cấp tập dữ liệu D={a,b,c,d,e} 22
Hình 2.1 Dịch chuyển điểm truy vấn 29
Hình 2.2 Hình dạng lồi (đa điểm) 30
Hình 2.3 Hình dạng lõm (đa điểm) 30
Hình 2.4 Tra cứu ảnh dựa vào nội dung với phản hồi liên quan 31
Hình 2.5 Các bước được trực quan hóa để tính một không gian con chiều thấp hơn của kỹ thuật LDA 33
Hình 2.6 Sơ đồ tra cứu ảnh sử dụng phân cụm gia tăng 38
Hình 3.1 Mô hình tổng quát của hệ thống 41
Hình 3.2 Biểu đồ so sánh kết quả thực nghiệm 46
Hình 3.3 Giao diện chính của hệ thống 47
Hình 3.4 Chọn tập dữ liệu ảnh / đặc trưng 48
Hình 3.5 Chọn ảnh truy vấn khởi tạo 48
Hình 3.6 Tra cứu với truy vấn khởi tạo 84003, 84004, 84008 thuộc lớp 840 48
Hình 3.7 Kết quả phân cụm tập huấn luyện 49
Hình 3.8 Công cụ tra cứu và phân cụm LDA 49
Hình 3.9 Kết quả tra cứu phản hồi liên quan 50
Hình 3.10 Kết quả phân cụm gia tăng 50
Trang 9Là một vấn đề quan trọng trong CBIR, độ đo tương tự lượng hóa sự giống nhau về nội dung giữa từng cặp ảnh Phụ thuộc vào kiểu đặc trưng được trích rút
mà chúng ta lựa chọn độ đo tương tự thích hợp Tất cả các kỹ thuật tra cứu ảnh dựa vào nội dung hiện nay đều thừa nhận thông tin tương hỗ giữa độ đo tương tự ảnh và ngữ nghĩa của ảnh Bằng nhiều cách khác nhau, độ đo tương tự cố gắng nắm được một khía cạnh nào đó của nội dung ảnh, đó là ngữ nghĩa kế thừa từ độ tương tự hay đặc trưng mức thấp Tuy nhiên, ngữ nghĩa kế thừa từ độ tương tự nhiều khi không giống với khái niệm mức cao được truyền tải bởi một ảnh (ngữ nghĩa của ảnh) Đó chính là khoảng cách ngữ nghĩa, nó phản ánh sự khác biệt giữa năng lực mô tả hạn chế của đặc trưng trực quan mức thấp và khái niệm mức cao Các kỹ thuật trong việc rút ngắn “khoảng cách ngữ nghĩa” gồm có 5 loại chính: (1) sử dụng bản thể đối tượng để xác định các khái niệm mức cao, (2) sử dụng các công cụ học máy để kết hợp các đặc trưng mức thấp với các khái niệm truy vấn, (3) đưa phản hồi liên quan vào lặp tra cứu cho học ý định của người dùng, (4) sinh ra mẫu ngữ nghĩa để hỗ trợ tra cứu ảnh mức cao, (5) Cách sử dụng cả nội dung trực quan của các ảnh và thông tin văn bản thu được từ Web cho tra cứu ảnh trên Web
Trang 10Từ những nhận định trên và được sự gợi ý của giáo viên hướng dẫn, tôi quyết
định chọn đề tài: “Nghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quan” Đề tài sẽ kết hợp hai hướng tiếp cận (2) và (3),
đưa phản hồi liên quan của người dùng vào quá trình tra cứu và sử dụng phương pháp phân cụm gia tăng để phân cụm tập ảnh phản hồi nhằm biểu diễn nhu cầu thông tin người dùng hiệu quả
Phản hồi liên quan là một quá trình trực tuyến mà cố gắng học mục đích của người dùng trong quá trình tra cứu, là một công cụ mạnh được sử dụng truyền thống trong các hệ thống tra cứu thông tin Nó được giới thiệu đối với CBIR khoảng đầu những năm 1990, với mục đích mang người dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa giữa những gì mà truy vấn biểu diễn và những gì người dùng nghĩ Bằng việc tiếp tục học thông qua tương tác với các người dùng cuối, phản hồi liên quan đã được chỉ ra là cung cấp cải tiến hiệu năng đáng kể trong các hệ thống CBIR
Phân cụm là một phương pháp học không giám sát để tạo thành các nhóm hay các cụm dữ liệu Lý thuyết phân cụm giả thuyết rằng “các đối tượng gần nhau
có xu hướng liên quan tới cùng một yêu cầu” Đã có nhiều thuật toán thực hiện việc phân cụm như: K-mean, K-medoid, EM…Tuy nhiên, các thuật toán này thường được gọi là phân cụm ngoại tuyến (off-line), tức là, các thuật toán này thực hiện phân cụm trên toàn bộ cơ sở dữ liệu ảnh đã có sẵn (gồm rất nhiều ảnh), mỗi khi có ảnh mới bổ sung vào, quá trình lại phải phân cụm lại từ đầu Các thuật toán ngoại tuyến không phù hợp trong các trường hợp đòi hỏi trực tuyến (on-line), chẳng hạn, trường hợp mà áp dụng trên một tập ảnh nhỏ (là kết quả của một lần thực hiện tra cứu) nhưng đòi hỏi phân cụm ngay lập tức trong khi vẫn còn nhiều ảnh cần được bổ sung và phân cụm tiếp theo không cần phải tiến hành với dữ liệu
đã được phân cụm trước đó Thuật toán mà đáp ứng trường hợp trực tuyến này
phải có tính chất “gia tăng” hay gọi là phân cụm gia tăng
Trang 11Nhiệm vụ chính của luận văn là nắm vững kiến thức tổng quan của lĩnh vực
xử lý ảnh, đi sâu nghiên cứu lĩnh vực tra cứu ảnh dựa vào nội dung, tìm hiểu một
số thuật toán học không giám sát, nghiên cứu thuật toán phân cụm gia tăng và đưa vào hệ thống tra cứu ảnh dựa vào nội dung Cài đặt chương trình thử nghiệm đánh giá, so sánh hiệu quả của hệ thống tra cứu ảnh dựa vào nội dung sử dụng phân cụm phổ với một số hệ thống tra cứu ảnh điển hình khác
Trang 12CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG
VỚI PHẢN HỒI LIÊN QUAN 1.1 Tổng quan về tra cứu ảnh dựa vào nội dung
1.1.1 Vấn đề tra cứu ảnh dựa vào nội dung
Tra cứu ảnh dựa vào nội dung là việc áp dụng kỹ thuật thị giác máy tính vào vấn đề tìm kiếm hình ảnh, tức là vấn đề tìm kiếm hình ảnh kỹ thuật số trong các
cơ sở dữ liệu (lớn) Tra cứu ảnh dựa vào nội dung sử dụng những nội dung thị giác như màu sắc, hình dạng, kết cấu, không gian để biểu diễn ảnh Các nội dung thị giác của ảnh được trích rút và mô tả bằng các véc tơ đặc trưng đa chiều có dạng véc tơ đặc trưng của cơ sở dữ liệu Khởi đầu cho việc tra cứu ảnh, người dùng cung cấp một ảnh mẫu cho hệ thống tra cứu Hệ thống này sẽ chuyển đổi những ảnh mẫu này thành các véc tơ đặc trưng và so sánh với khoảng cách/độ tương tự của các véc tơ đặc trưng của những ảnh trong cơ sở dữ liệu để tính toán
và đưa ra kết quả là bức ảnh có độ tương tự cao nhất
Hệ thống tra cứu ảnh dựa vào nội dung
1.1.1.1 Các chức năng của hệ thống tra cứu ảnh dựa vào nội dung
Một hệ thống tra cứu ảnh dựa vào nội dung (CBIR – Content Based Image Retrieval) có các chức năng chính như sau:
1) Trích rút đặc trưng và biểu diễn các nội dung của các nguồn được phân tích theo cách thích hợp cho so sánh các truy vấn sử dụng (không gian của nguồn thông tin được biến đổi thành không gian đặc trưng cho mục tiêu so sánh nhanh trong bước tiếp theo) Bước này thông thường cần rất nhiều thời gian do nó phải
xử lý lần lượt tất cả thông tin nguồn (các ảnh) trong cơ sở dữ liệu Tuy nhiên, bước này được thực hiện chỉ một lần và có thể được thực hiện ngoại tuyến 2) Phân tích truy vấn của người sử dụng và biểu diễn chúng dưới dạng thích hợp để đối sánh với cơ sở dữ liệu nguồn Bước này là tương tự với bước trước, nhưng chỉ áp dụng với ảnh cần truy vấn
3) Thực hiện so sánh các truy vấn tìm kiếm với thông tin có trong cơ sở dữ
Trang 13được thực hiện trực tuyến và yêu cầu là phải đáp ứng rất nhanh Các kỹ thuật đánh chỉ số hiện đại có thể được sử dụng để tổ chức lại không gian đặc trưng nhằm tăng tốc quá trình đối sánh
4) Thực hiện các điều chỉnh cần thiết trong hệ thống (thường là điều chỉnh các tham số trong máy đối sánh) dựa trên phản hồi từ người sử dụng và/hoặc các ảnh được tra cứu
1.1.1.2 Một số hệ thống CBIR tiêu biểu
Hình 1.1 Kiến trúc tổng quan của hệ thống tra cứu ảnh dựa vào nội dung
Một hệ thống CBIR sẽ thực hiện truy vấn ảnh dựa trên việc tự động rút trích các thông tin đặc trưng hình ảnh như: màu sắc, kết cấu, hình dạng, vị trí Các nhà nghiên cứu đã đưa ra nhiều phương pháp với những cách tiếp cận khác nhau; do
đó rất nhiều hệ thống truy vấn ảnh dựa trên nội dung đã ra đời như: QBIC, BlobWorld, VisualSEEk, MARS, Photobook, Virage, Netra, SIMPLIcity, NEC PicHunter… Dưới đây xin điểm qua một số hệ thống CBIR tiêu biểu
Thực hiện ngoại tuyến
Cơ sở dữ
liệu ảnh
Cơ sở dữ liệu đặc trưng
Tạo truy vấn
Người
dùng
So sánh độ tương tự
Các kết quả tra cứu
Phản hồi liên quan
Đầu ra
Trang 141) Hệ thống QBIC
Hệ thống truy vấn ảnh theo nội dung QBIC (Query By Image Content) được nghiên cứu và phát triển bởi nhóm nghiên cứu Visual Media Management thuộc công ty IBM, là hệ thống tra cứu ảnh thương mại được phát triển từ rất sớm Người dùng xây dựng một phác thảo, vẽ ra và lựa chọn màu cùng kết cấu dựa theo ảnh truy vấn
Hệ thống này hỗ trợ một vài độ đo tương tự cho ảnh như: trung bình màu sắc, lược đồ màu sắc và kết cấu Công nghệ sử dụng trong hệ thống bao gồm đánh chỉ số và tìm kiếm Hiện nay hệ thống này còn cung cấp vài cách tiếp cận truy vấn theo đơn đặc trưng, đa đặc trưng và đa giai đoạn
2) Hệ thống Blobwold
Hệ thống Blobwold do khoa Khoa học máy tính, Đại học California, Berkeley nghiên cứu và phát triển Các đặc tính được sử dụng cho truy vấn là màu sắc, kết cấu, vị trí và hình dạng của vùng và nền Màu sắc được mô tả bởi biểu đồ
218 bin màu kết hợp trong không gian Lab Kết cấu được thể hiện bằng sự tương phản và không đẳng hướng trên vùng như không gian 2D (độ tương phản, độ tương phản x tính không đẳng hướng) Hình dạng được thể hiện bằng (xấp xỉ) vùng, độ lệch tâm và định hướng
3) Hệ thống VisualSEEk
Hệ thống VisualSEEk được xây dựng bởi Trung tâm nghiên cứu viễn thông thuộc trường đại học Columbia, New York Đây là hệ thống truy vấn dựa vào các đặc trưng trực quan của ảnh, sử dụng không gian 166 màu HSV Sự tương đồng giữa hai ảnh được xác định theo sự tương đồng của các vùng trong ảnh Hệ thống cho phép người dùng nhập vào truy vấn, sử dụng các đặc trưng mức thấp của hình ảnh như: màu sắc, bố cục không gian và kết cấu Các đặc trưng đó được mô tả theo màu sắc và biến đổi Wavelet dựa trên đặc trưng kết cấu
4) Hệ thống Netra
Hệ thống Netra sử dụng các đặc trưng của ảnh: màu sắc, hình dạng, kết cấu,
vị trí không gian trong các vùng ảnh được phân đoạn để tìm kiếm và tra cứu các
Trang 15vùng tương tự từ cơ sở dữ liệu Các đặc trưng nghiên cứu chính của hệ thống Netra là phân tích kết cấu dựa trên lọc Gabor, xây dựng từ điển ảnh dựa trên mạng neural và phân đoạn vùng dựa vào luồng biên
Trích rút đặc trưng
Trích rút đặc trưng ảnh mức thấp là cơ sở của các hệ thống CBIR Trích rút đặc trưng bao gồm trích rút thông tin có nghĩa của ảnh, làm giảm dung lượng lưu trữ, do đó hệ thống sẽ nhanh và hiệu quả hơn trong CBIR
1.1.1.3 Đặc trưng màu sắc
Đặc trưng màu sắc được sử dụng rộng rãi nhất trong tra cứu ảnh Một vài phương pháp tra cứu ảnh dựa trên cơ sở sự tương tự về màu sắc đã được mô tả trong các tài liệu nhưng các ý tưởng cơ bản là giống nhau Mỗi hình ảnh được thêm vào bộ sưu tập được phân tích và tính toán biểu đồ màu để thấy tỷ lệ điểm ảnh của mỗi màu trong một ảnh Biểu đồ màu của mỗi ảnh sau đó được lưu trữ trong cơ sở dữ liệu để khi tìm kiếm, người dùng có thể xác định tỷ lệ mong muốn của mỗi màu hoặc gửi một ảnh mẫu mà đã được tính toán biểu đồ màu Dù bằng cách nào đi chăng nữa thì quá trình tra cứu sau đó là lấy ra những bức ảnh mà có biểu đồ màu tương ứng gần nhất với ảnh truy vấn
1) Không gian màu
- Không gian màu RGB (Red – Green – Blue)
Không gian màu RGB được sử dụng nhiều nhất cho đồ họa máy tính, mô tả màu sắc bằng 3 thành phần chính là R (Red) – G (Green) và B (Blue) Không gian này được xem như một khối lập phương 3 chiều với màu Red là trục x, màu Green
là trục y, và màu Blue là trục z Mỗi màu trong không gian này được xác định bởi
3 thành phần R, G, B Ứng với các tổ hợp khác nhau của 3 màu này sẽ cho ta một màu mới
Không gian màu RGB được sử dụng rộng rãi trong việc biểu diễn ảnh, gồm
3 thành phần màu là đỏ, xanh lục, xanh lam Chúng được gọi là bộ cộng sơ cấp vì một màu khác trong không gian RGB được tạo ra bằng cách thêm chúng
Trang 16Hình 1.2 Không gian màu RGB
- Không gian màu CIE
Không gian màu CIE L*a*b và CIE L*u*v là không gian độc lập và được xem như đồng bộ Chúng chứa độ sáng hoặc thành phần nhẹ sáng (L) và hai thành phần màu a và b hoặc u và v Có thể chuyển từ không gian màu RGB thành không gian CIEL*a*b và CIE L*u*v
- Không gian màu HSV
Không gian màu HSV (HSL hoặc HSB) được sử dụng rộng rãi trong đồ họa máy tính và miêu tả màu một cách trực quan hơn Ba thành phần màu có màu sắc,
độ bão hòa (nhẹ sáng) và giá trị (độ sáng) Không gian RGB cũng có thể được chuyển thành không gian HSV bằng công thức đơn giản
Không gian màu thành phần sử dụng trục màu thành phần (R-G, 2B-R-G, R+G+B) Cách thể hiện này có lợi thế trong việc cô lập thông tin về độ sáng ở trục thứ ba Hai trục màu đầu tiên bất biến với sự thay đổi cường độ sáng và tối,
có thể giảm việc lấy mẫu khi con người nhạy cảm với độ sáng hơn
Trang 17Hình 1.3 Không gian màu HSV
2) Lược đồ màu
Lược đồ màu được xác định bằng một tập các bin, trong đó mỗi bin biểu thị xác suất của các pixel trong ảnh Một lược đồ màu H của một ảnh đã cho được xác định bởi véc tơ:
Kết cấu là một mô tả vùng trợ giúp tốt trong quá trình tra cứu Kết cấu không
có khả năng tìm ra các ảnh tương tự, nhưng nó có thể được sử dụng để phân lớp các ảnh kết cấu từ các ảnh không kết cấu và sau đó được kết hợp với các thuộc tính đặc trưng khác như màu để làm cho tra cứu hiệu quả hơn Kết cấu là một thuộc tính quan trọng khác của ảnh Những kết cấu đa dạng đã được xem xét trong các mẫu nhận dạng và tầm nhìn máy tính Phương pháp đại diện cấu trúc được phân thành hai loại: cấu trúc và thống kê Phương pháp cấu trúc gồm có hoạt động
Trang 18hình thái và đồ thị kề Phương pháp thống kê gồm: quang phổ Fourier, ma trận đồng xuất hiện, phân tích bộ phận chính thay đổi bất biến, tính năng Tamura, phân hủy Wold, trường ngẫu nhiên Markov, mô hình fractal và bộ lọc đa phân giải
1.1.1.5 Đặc trưng hình dạng
Hình dạng được xem như là một đặc trưng quan trọng trong mô tả các đối tượng nổi bật trong ảnh và có thể giúp phân biệt giữa hai ảnh Các đặc trưng hình dạng của ứng dụng nói chung gồm aspect ratio, circularity, Fourier descriptors, moment invariants, consecutive boundary segments
Đặc trưng hình dạng của đối tượng hoặc vùng đã được sử dụng nhiều trong
hệ thống tra cứu ảnh dựa vào nội dung So với đặc tính màu sắc và kết cấu thì hình dạng thường được mô tả sau khi ảnh được phân đoạn thành các vùng hoặc các đối tượng Khi mà việc phân đoạn ảnh rất khó để đạt được độ chính xác và mạnh mẽ thì việc sử dụng đặc tính hình dạng trong tra cứu ảnh đã được giới hạn trong các ứng dụng đặc biệt nơi mà các đối tượng hoặc các vùng đã có sẵn Mô tả hình dạng có thể dựa vào biên hoặc dựa vào vùng Đặc tính hình dạng tốt với đối tượng là bất biến với xoay, dịch chuyển và mở rộng
1.1.1.6 Vị trí không gian
Bên cạnh kết cấu và màu, vị trí không gian cũng là hữu ích trong phân lớp vùng Chẳng hạn, “bầu trời” và “biển” có thể có các đặc trưng kết cấu và màu tương tự, nhưng vị trí không gian của chúng là khác nhau với “bầu trời” thường xuất hiện ở trên đỉnh của ảnh, trong khi biển ở dưới
Vị trí không gian thường được xác định đơn giản như “trên, dưới, đỉnh” theo
vị trí của vùng trong một ảnh Trọng tâm vùng và hình chữ nhật bao tối thiểu của
nó được sử dụng để cung cấp thông tin vị trí không gian Tâm không gian của một vùng được sử dụng để biểu diễn vị trí không gian của nó
Quan hệ không gian tương đối là quan trọng hơn vị trí không gian tuyệt đối trong các đặc trưng ngữ nghĩa Xâu 2-D và các biến thể của nó là cấu trúc phổ biến nhất được sử dụng để biểu diễn các quan hệ hướng giữa các đối tượng như
“trái/phải”, “dưới/trên” Tuy nhiên, chỉ một mình quan hệ hướng không đủ để biểu
Trang 19diễn nội dung ngữ nghĩa của các ảnh khi bỏ qua quan hệ topo Để hỗ trợ tốt hơn cho tra cứu ảnh dựa vào ngữ nghĩa, một thuật toán mô hình ngữ cảnh không gian được trình bày mà xem xét sáu quan hệ không gian giữa cắc cặp vùng: trái, phải, trên, dưới, tiếp xúc và trước Một phương pháp thú vị được đề xuất bởi Smith và cộng sự Hệ thống sử dụng một mẫu vùng cấu tạo (CRT) để xác định sự sắp xếp không gian của các vùng và mỗi lớp ngữ nghĩa được đặc trưng bởi các CRT thu được từ một tập các ảnh mẫu
Độ đo tương tự
Hệ thống tra cứu ảnh dựa vào nội dung tính toán độ tương tự trực quan giữa ảnh truy vấn và ảnh trong cơ sở dữ liệu Khi đó, kết quả tra cứu không chỉ là một ảnh mà gồm một danh sách ảnh được xếp hạng theo độ tương tự với ảnh truy vấn
Có nhiều phương pháp đo độ tương tự đã được phát triển trong tra cứu ảnh những năm gần đây Các phương pháp đo khoảng cách/độ tương tự khác nhau ảnh hưởng đáng kể tới hiệu suất tra cứu
Trong các hệ thống tra cứu ảnh CBIR dựa vào vùng (RBIR), độ tương tự ảnh được đo ở hai mức Đầu tiên là mức vùng Tức là đo khoảng cách giữa hai vùng dựa trên các đặc trưng mức thấp của chúng Thứ hai là mức ảnh Tức là đo độ tương tự toàn bộ của hai ảnh mà có thể chứa số các vùng khác nhau
Hầu hết các nhà nghiên cứu sử dụng độ đo kiểu Minkowski để xác định khoảng vùng Giả sử chúng ta có hai vùng biểu diễn bởi hai véc tơ p chiều (x1,
x2,…xp), (y1, y2,…yp) tương ứng Độ đo Minkowski được xác định như sau:
𝑑(𝑋, 𝑌) = (∑𝑝𝑖=1|𝑥𝑖 − 𝑦𝑖|)1/𝑟 (1.1)
Cụ thể, khi r bằng 2, nó là khoảng cách Euclidean nổi tiếng (khoảng cách
L2) Khi r là 1, nó là khoảng cách Manhattan (khoảng cách L1)
Một phiên bản biến thể được sử dụng thường xuyên là hàm khoảng cách Minkowski có trọng số mà đưa trọng số vào để nhận biết các đặc trưng quan trọng
𝑑(𝑋, 𝑌) = (∑𝑝𝑖=1𝑤𝑖|𝑥𝑖 − 𝑦𝑖|𝑟)1/𝑟 (1.2)
Ở đây wi, i=1,…,p là trọng số được áp dụng vào các đặc trưng khác nhau
Trang 20Các khoảng cách khác cũng được sử dụng trong tra cứu ảnh, như khoảng cách Canberra, khoảng cách angular, hệ số Czekanowski, tích trong, hệ số dice,
hệ số cosine và hệ số Jaccard
Độ tương tự toàn thể của hai ảnh là khó hơn để đo Về cơ bản có hai cách:
Đối sánh mộ t- một: Nghĩa là mỗi vùng trong ảnh truy vấn chỉ được phép đối
sánh một vùng trong ảnh mục tiêu và ngược lại Như trong [8], mỗi vùng truy vấn của ảnh truy vấn được kết hợp với một vùng đối sánh tốt nhất trong ảnh mục tiêu Sau đó độ tương tự toàn bộ được xác định bằng tổng có trọng số của độ tương tự giữa mỗi vùng truy vấn trong ảnh truy vấn và đối sánh tốt nhất của nó trong ảnh mục tiêu, trong khi trọng số liên quan đến cỡ vùng
Đối sánh nhiều - nhiều: Có nghĩa là mỗi vùng trong ảnh truy vấn được phép
đối sánh nhiều hơn một vùng trong ảnh mục tiêu và ngược lại Một phương pháp được sử dụng phổ biến là khoảng cách EMD (Earth Mover Distance) EMD là một độ đo linh hoạt và tổng quát Nó đo chi phí cực tiểu được yêu cầu để biến đổi một phân bố sang một phân bố khác dựa vào bài toán giao vận truyền thống từ tối
ưu tuyến tính, theo đó các thuật toán hiệu quả là sẵn có EMD đối sánh tương tự nhận thức tốt và có thể được áp dụng đối với các biểu diễn của các phân bố có độ dài thay đổi, vì thế nó thích hợp cho đo độ tương tự ảnh trong hệ thống RBIR
Li và cộng sự đề xuất một lược đồ đối sánh vùng tích hợp (IRM) mà cho phép đối sánh một vùng của một ảnh với một số vùng của ảnh khác và do đó giảm
sự ảnh hưởng của phân đoạn thiếu chính xác Trong định nghĩa này, một đối sánh giữa hai vùng bất kỳ được gán với một điểm quan trọng Điều này tạo ta một ma trận quan trọng giữa hai tập vùng (một tập là của ảnh truy vấn, tập còn lại là của ảnh mục tiêu) Độ tương tự toàn thể của hai ảnh được xác định dựa vào ma trận quan trọng trong một cách tương tự với EMD
Dù độ đo Minkowski được sử dụng rộng rãi trong các hệ thống hiện nay để
đo khoảng cách vùng, các thực nghiệm mở rộng chỉ ra rằng nó không hiệu quả trong mô hình độ tương tự nhận thức Cách đo độ tương tự nhận thức vẫn là một câu hỏi lớn chưa có đáp án Có một số nghiên cứu đã thực hiện trong nỗ nực để giải quyết vấn đề này Chẳng hạn, trong [4], một hàm khoảng cách động một phần
Trang 21(DPF) được xác định, nó giảm chiều của các véc tơ đặc trưng bằng việc chọn động một lượng nhỏ của các chiều Cho𝛿𝑖 = |𝑥𝑖 − 𝑦𝑖|, 𝑖 = 1, 𝑝các tác giả xác định∆𝑚= {𝑚 𝑐á𝑐 𝛿 𝑛ℎỏ 𝑛ℎấ𝑡 𝑡𝑟𝑜𝑛𝑔 (𝛿1, … , 𝛿𝑝) Sau đó DPF được xác định bằng
𝑑(𝑚, 𝑟) = (∑ 𝛿𝛿𝑖 𝑖𝑟)1/𝑟 (1.3)
Có hai tham số được điều chỉnh m và r Các kết quả thực nghiệm ban đầu
minh chứng rằng DPF có thể cung cấp các kết quả tra cứu chính xác hơn độ đo
Minkowski Tuy nhiên, giá trị m là phụ thuộc dữ liệu, điều này làm cho thuật toán
không linh hoạt Ngoài ra, để được sử dụng rộng rãi trong các hệ thống tra cứu ảnh, nghiên cứu xa hơn được yêu cầu để xác thực hiệu năng của nó trong các ứng dụng khác nhau
Trong [9], một khoảng cách nhận thức cho độ đo tương tự hình dạng được trình bày Mỗi hình dạng được đặc trưng với một tập các dấu hiệu Một khoảng cách độ đo giữa các dấu hiệu được xác định đầu tiên sau đó một khoảng cách không độ đo được xác định bằng tập khoảng cách dấu hiệu để đo độ tương tự hình Phương pháp có thể được mở rộng sang RBIR bằng việc coi các vùng ảnh như các dấu hiệu
Vasconcelos và Lippman đã đề xuất một khoảng cách đa tạp đa phân giải (MRMD) cho nhận dạng khuôn mặt Trong MRMD, hai ảnh được đối sánh được xem là đa tạp và khoảng cách giữa hai ảnh là một cực tiểu sai số của biến đổi một
đa tạp sang một đa tạp khác Để giảm tính toán, các ảnh được đưa vào phân tích
đa phân giải Đo khoảng cách là thích hợp cho các ứng dụng gióng hàng ảnh như nhận dạng khuôn mặt và phát hiện cảnh video
Trong [3], đo độ tương tự giữa các loại đặc trưng ảnh khác nhau được xem như một quyết định đa mức xử lý Các ảnh trong cơ sở dữ liệu được biểu diễn bởi một số các bộ mô tả kết cấu và màu MPEG-7, các bộ mô tả này được đưa sang một khuôn khổ hợp nhất quyết định phân cấp sử dụng logic mờ Ưu điểm của độ
đo tương tự này là các loại đặc trưng ảnh khác nhau có thể được kết hợp thành một đặc trưng tích hợp Trong nghiên cứu sau đó, các tác giả đã mở rộng khuôn
Trang 22khổ hợp nhất quyết định thành khuôn khổ học có giám sát với phản hồi liên quan
từ người dùng [2]
1.2 Tra cứu ảnh sử dụng phản hồi liên quan
Tra cứu ảnh dựa vào nội dung đã thu hút nhiều sự quan tâm nghiên cứu và
đã đạt được nhiều thành tựu, tuy nhiên, các nỗ lực nghiên cứu này vẫn chưa theo kịp sự phát triển của tra cứu thông tin (văn bản) Có hai lý do cho sự không hiệu quả của các hệ thống này là:
- Thứ nhất là: Khoảng trống giữa các đặc trưng mức thấp và các khái niệm
mức cao (khoảng cách ngữ nghĩa) Vấn đề xuất phát từ thực tế là các đặc trưng như màu, kết cấu, và hình dạng không chuyển tải ý nghĩa của ảnh; do đó, nhiều
độ đo tương tự trực quan được sử dụng trong quá trình tra cứu như các lược đồ màu hoặc các mô tả Fourier là chưa đủ bởi vì các biểu diễn đặc trưng này không nhất thiết phải phù hợp với ngữ nghĩa được gán cho ảnh nào đó của người dùng
- Thứ 2 là: Sự nhận thức chủ quan của con người: hai người khác nhau hoặc
thậm chí cùng một người trong các hoàn cảnh khác nhau có thể có các giải thích khác nhau về cùng nội dung trực quan ảnh Sự nhận thức chủ quan của con người tồn tại ở các mức khác nhau: một người có thể quan tâm nhiều hơn đến đặc trưng màu của ảnh, trong khi người khác có thể đưa ra nhiều sự liên quan đến đặc trưng kết cấu; thậm chí nếu cả hai cùng quan tâm đến đặc trưng kết cấu, cách họ cảm nhận về độ tương tự của kết cấu có thể rất khác nhau
Để giải quyết các hạn chế của CBIR, một kỹ thuật được gọi là phản hồi liên quan được giới thiệu, trong đó người và máy tính tương tác nhiều lần với nhau để cải tiến các truy vấn mức cao đối với các biểu diễn dựa trên các đặc trưng ảnh mức thấp Kỹ thuật đã được áp dụng thành công tương đối lâu trong tra cứu tài liệu, nhưng mới được quan tâm nhiều trong cộng đồng CBIR Những lý do cho điều này là do các vấn đề nhận thức chủ quan của con người, khoảng cách ngữ nghĩa, và cũng do thực tế không giống như các tài liệu văn bản, đánh giá một ảnh
và quyết định một ảnh là liên quan hay không cũng không phải là gánh nặng đối với người dùng Điều này tạo cho quá trình phản hồi liên quan hợp lý và nhanh hơn Tuy nhiên, thực tế chủ yếu góp phần làm cho phản hồi liên quan là chủ đề
Trang 23nghiên cứu tích cực nhất trong CBIR là do độ chính xác của các máy tìm kiếm CBIR nói chung rất thấp
Phản hồi liên quan trong CBIR là quá trình điều chỉnh động một truy vấn đã
có sử dụng thông tin phản hồi từ người dùng về sự liên quan của các ảnh được tra cứu từ trước sao cho truy vấn được điều chỉnh xấp xỉ tốt nhất đối với nhu cầu của người dùng Mục tiêu của một quá trình như thế là thu được truy vấn mức cao của người dùng và nhận thức chủ quan bằng việc tương tác với anh/chị ấy và điều chỉnh tự động các trọng số dựa trên phản hồi được cung cấp Một ngữ cảnh trong
hệ thống phản hồi liên quan (Relevance Feedback - RF) là:
Bước 1: Người dùng đưa ra một ảnh mẫu truy vấn và/hoặc từ khóa mô tả đối
đối với hệ thống
Bước 2: Hệ thống cung cấp các kết quả tra cứu khởi tạo dựa trên các độ đo
tương tự nào đó đã được xác định trước
Bước 3: Người dùng đánh dấu các ảnh được tra cứu bằng việc đánh giá chúng
có liên quan đến truy vấn hay không
Bước 4: Dựa trên thông tin phản hồi bởi người dùng, hệ thống điều chỉnh
truy vấn và tra cứu một danh sách mới các ảnh cho người dùng Thuật toán lặp lại Bước 3
Hình 1.4 chỉ ra một lược đồ đơn giản của một hệ thống CBIR với RF
Trang 24Hình 1.4 Lược đồ của một hệ thống CBIR với RF
1.3 Vấn đề phân cụm
Khái niệm phân cụm
Phân cụm (clustering/cluster analysic) là quá trình phân chia tập đối tượng
dữ liệu thành các cụm (cluster), sao cho các đối tượng trong cùng một cụm là tương tự với nhau, các đối tượng trong các cụm khác nhau thì không tương tự với nhau Khác với phân lớp là học có giám sát (học từ tập ví dụ gắn nhãn), phân cụm
là một vấn đề của học không giám sát (học từ tập ví dụ không gắn nhãn)
Phân cụm vốn dĩ là một hoạt động quan trọng trong tư duy nhận thức của con người Từ lâu phân cụm đã được thực hiện trong nhiều ngành khoa học như sinh học, y học, địa lý, tâm lý học Hiện nay phân cụm được ứng dụng trong nhiều lĩnh vực như: khai khoáng dữ liệu (data mining), tra cứu thông tin (information retrieval), nhận dạng mẫu (pettern recognition), xử lý hình ảnh (image processing), thị giác máy tính (computer vision), marketing
Truy vấn người dùng khởi tạo (ảnh mẫu hoặc từ khóa)
Các kết quả tra cứu
Các mẫu được gán nhãn (các ảnh liên quan hay không)
Học (điều chỉnh các tham số
truy vấn)
Phản hồi người dùng
Trang 25Hình 1.5 biểu diễn ba tập dữ liệu trong không gian 2 chiều Hầu hết ai quan sát cũng cho rằng, tập dữ liệu hình 1.5a có 3 cụm, hình 1.5b có 2 cụm, hình 1.5c
có 2 cụm, được chỉ ra (bằng khoanh vùng) trong các hình 1.5a, 1.5b và 1.5c tương ứng Trong hình 1.5c, các điểm nằm ngoài 2 vùng được khoanh không thuộc cụm nào cả, chúng được xem như các dữ liệu nhiễu (ngoại lai) Thế nhưng nếu hỏi, lý
do nào bạn cho rằng các tập dữ liệu đó có các cụm như thế, có lẽ chúng ta sẽ rất lúng túng đưa ra câu trả lời Sẽ không có một định nghĩa chính xác (về mặt toán học) về cụm thích hợp cho cả ba tập dữ liệu hình 1.5, để dựa vào định nghĩa đó chúng ta xác định được các cụm như đã được chỉ ra
(a) (b) (c)
Hình 1.5 Các tập dữ liệu và các cụm
Chúng ta sẽ hiểu rõ hơn về khái niệm cụm, nếu chúng ta mô tả cụm bởi hai
đặc trưng: sự gắn kết bên trong (cohesion/compactness) giữa các đối tượng trong cùng một cụm, và sự cô lập bên ngoài hay sự tách biệt (separation) giữa các cụm
Theo hai đặc trưng này, với việc xác định ý nghĩa cụ thể cho sự gắn kết bên trong một cụm và sự tách biệt giữa các cụm, chúng ta có thể đưa ra một mô tả chính xác hơn về cụm Có nhiều cách xác định sự gắn kết giữa các đối tượng trong cùng một cụm, và sự tách biệt giữa các cụm, và do đó có nhiều cách quan niệm về cụm
Trang 26Với một tập dữ liệu đã cho, chúng ta không biết trước cấu trúc của tập dữ liệu đó (mục tiêu của phân cụm chính là để phát hiện ra cấu trúc của tập dữ liệu), chúng ta không biết tập đó có cụm hay không? có mấy cụm? sự gắn kết nào tạo
ra cụm? làm thế nào để tìm ra các cụm vốn có của tập dữ liệu đó? Đã có rất nhiều thuật toán phân cụm được đề xuất Nhiều thuật toán phân cụm đòi hỏi số cụm là
đã biết, tức là số cụm là tham biến của thuật toán Có thuật toán lại cần các tham biến khác Có tập dữ liệu chứa các cụm hình cầu, hình elipsoid hoặc là tập lồi; nhưng cũng có tập chứa các cụm như các đám mây hình dáng đa dạng, và “độ đậm đặc” của các đám mây cũng khác nhau, làm thế nào tìm ra các cụm như thế? Trong thực tế, tập dữ liệu có thể chứa một số rất lớn dữ liệu, có thể là tập điểm trong không gian chiều cao; đòi hỏi thuật toán phải hiệu quả kể cả trong các trường hợp đó Có thể nói phân cụm là một vấn đề thách thức!
Sau đây chúng ta đưa ra một số định nghĩa và ký hiệu cần thiết Mỗi đối tượng biểu diễn bởi một vector đặc trưng M thành phần X = (x1,…,xM), trong đó xi
là giá trị của đặc trưng thứ i, các xi có thể là số thực hoặc rời rạc Chúng ta sẽ giả
sử tập dữ liệu gồm N dữ liệu:
D = {x1,…,xn,…,xN}, trong đó Xn= (xn1,…,xnM) Một (cách) phân cụm của D là một họ C các tập con không rỗng Ck của D: C={C1,…,Ck, ,CK} Trong đó, K là số cụm (1<K<<N) và các Ck rời nhau, tức là
Ci∩Cj = ∅ với mọi i≠j Phân cụm như thế được gọi là phân cụm cứng (hard
clustering), mỗi dữ liệu chỉ thuộc một cụm Khác với phân cụm cứng là phân cụm mềm (soft clustering) Phân cụm mềm là một tập {Ukn}, trong đó k = 1,…,K, n = 1,…,N, và 0≤ukn≤1 Số ukn là số đo mức độ thuộc cụm thứ k của dữ liệu Xn Trong
phân cụm mờ (fuzzy clustering), mỗi cụm Ck là một tập mờ và ukn là mức độ thuộc tập mờ Ck của dữ liệu Xn Trong phân cụm dựa vào xác suất, ukn là xác suất để Xn
thuộc cụm Ck, ukn = P(Xn∈ Ck) Và do đó, trong phân cụm dựa vào xác suất, các
ukn cần thoả mãn điều kiện
0≤ukn≤1 và K kn
k =1
u
= 1 , với mọi n
Trang 27Độ đo tương tự trong phân cụm
Khi chúng ta được cho tập dữ liệu, nếu định phân cụm tập dữ liệu đó, chúng
ta cần khai thác các thông tin từ tập dữ liệu đó Một chỉ số có thể rút ra từ tập dữ liệu đó và đóng vai trò quan trọng cho sự phân cụm là độ đo tương tự Trong mục này ta sẽ đưa ra cách xác định độ đo tương tự giữa hai đối tượng dữ liệu Xi và Xj,
hay ngắn gọn, độ đo tương tự giữa hai đối tượng i và j Đối lập với độ đo tương
tự (similarity) là độ đo không tương tự (dissimilarity) Ký hiệu s(i,j) và dis(i,j) là
độ đo tương tự và không tương tự giữa hai đối tượng i và j tương ứng Độ đo tương tự (không tương tự) cần phải là một số không âm và đối xứng, tức là s(i,j)
= s(j,i) (dis(i,j) = dis(j,i)) Độ đo tương tự (không tương tự) giữa hai đối tượng càng lớn thì chúng được xem là càng tương tự (càng không tương tự) với nhau Giả thiết mỗi dữ liệu là một vector gồm M thành phần X = (x1,…,xM), thành phần
xi là giá trị của thuộc tính thứ i của đối tượng, một thuộc tính có thể là biến liên tục (nhận các giá trị thực), chẳng hạn thuộc tính chiều cao, cân nặng; có thể là biến rời rạc (chỉ nhận một số hữu hạn giá trị), chẳng hạn thuộc tính màu sắc của đối tượng; trường hợp riêng của biến rời rạc là biến nhị phân (chỉ nhận một trong hai giá trị), chẳng hạn các thuộc tính giới tính, có bệnh, hút thuốc Dữ liệu nhị phân (rời rạc, liên tục) được hiểu là dữ liệu mà tất cả các thành phần của nó đều
là các giá trị nhị phân (rời rạc, liên tục)
độ (density-based clustering), phân cụm dựa vào mô hình (model-based clustering), và phân cụm dựa vào đồ thị (graph-based clustering) Không như trong phân lớp, việc đánh giá tính xác thực (valiadation) của phân cụm là phức tạp hơn nhiều
Trang 281.3.1 Thuật toán K-Means
Thuật toán phân cụm K-Means ra đời cách đây hơn 40 năm (MacQueen,1967), nhưng vẫn còn là một trong các thuật toán phân cụm quan trọng nhất, được sử dụng rộng rãi trong nhiều lĩnh vực Ý tưởng của K-Means là tìm phân hoạch cho cực tiểu hàm tiêu chuẩn (1.27) bằng kỹ thuật lặp như sau: xuất phát từ các tâm μk(k=1,…, K) được khởi tạo ban đầu, ta thực hiện phép lặp: gán mỗi dữ liệu Xn (n=1,…,N) vào cụm Ck mà Xn gần tâm μk nhất, sau đó tính lại tâm của các cụm Ck theo công thức (1.26)
Thuật toán K-Means
Khởi tạo các tâm cụm μk(k=1,…K);
Lặp lại các bước sau cho tới khi các tâm cụm không thay đổi
1 Gán mỗi dữ liệu Xn (n=1,…, N) vào cụm Ck mà Xn gần tâm μk
nhất;
2 Tính lại tâm μk (k=1,…, K) của các cụm Ck thu được từ bước 1;
Thuật toán lặp trên cho ra phân hoạch C là cực tiểu địa phương của hàm tiêu
chuẩn (1.27) Chứng minh điều đó bằng cách chỉ ra rằng, cả hai bước lặp đều làm giảm giá trị hàm tiêu chuẩn Đối với bước 1, hàm mục tiêu (1.27) giảm là hiển nhiên Tâm μk của cụm Ck được tính theo công thức (1.26) trong bước 2 chính là giá trị mà tại đó
Thuật toán K-Means thích hợp với các tập dữ liệu có các cụm dạng “hình cầu” và tách biệt tốt, chẳng hạn tập dữ liệu trong hình 1.5a Khi mà các cụm có dạng “không hình cầu”, chẳng hạn 2 cụm trong hình 1.6a, hình 1.6b, hoặc mật độ
Trang 29trong các cụm rất khác nhau hoặc số dữ liệu trong các cụm rất khác nhau, trong các hoàn cảnh đó, K-Means có thể cho ra phân cụm không sát thực tế Thuật toán K-Means cũng nhạy cảm với dữ liệu ngoại lai
Nhược điểm chính của K-Means và của các thuật toán phân cụm tối ưu khác
là cần phải biết trước số cụm K Thuật toán K-Means cũng rất nhạy cảm với các tâm cụm khởi tạo Mặc dù có các hạn chế đó, nhưng K-Means là thuật toán rất đơn giản, rất hiệu quả trong thực tế, và vì vậy K-Means vẫn là một trong các thuật toán phân cụm quan trọng nhất
(a) (b)
Hình 1.6 Các tập dữ liệu không thích hợp với K-Means
1.3.2 Phân cụm phân cấp
Các phương pháp phân cụm tối ưu (phân cụm phân hoạch) cho ra phân cụm
là một phân hoạch tối ưu theo một hàm tiêu chuẩn nào đó Tuy nhiên, trong nhiều hoàn cảnh, một cụm lại chứa các cụm con, các cụm con này lại chứa các cụm con nhỏ hơn,… Điều đó dẫn đến cách tiếp cận phân cụm như sau Quá trình phân cụm tạo thành một dãy các mức Đầu tiên (mức 1), mỗi điểm dữ liệu tạo thành một cụm, và do đó ở mức 1 có N cụm (tập dữ liệu D có N điểm) Ở mức 2, ta chọn hai cụm ở mức 1 gộp lại thành một cụm, và do đó mức 2 có N – 1 cụm Cứ thế tiếp tục, chọn hai cụm ở mức k – 1 gộp lại để tạo thành một cụm ở mức k Số cụm ở mức k là N – k + 1 Cuối cùng ở mức N, toàn bộ tập dữ liệu ở trong một cụm Quá
Trang 30trình trên có thể biểu diễn dưới dạng cây như trong hình 1.7a, hoặc dưới dạng biểu
đồ Venn như trong hình 1.7b Quá trình phân cụm trên được gọi là phân cụm phân cấp gộp (agglomerative hierarchical cluster), đó là thủ tục bottom-up Đối lập với phân cụm phân cấp gộp là phân cụm phân cấp chia (divisive hierarchical clustering) Đó là thủ tục top-down Đầu tiên (ở mức 1), toàn bộ tập dữ liệu thuộc
cùng một cụm Sau đó ở các mức tiếp theo ta chọn một cụm và chẻ nó ra thành hai cụm Cuối cùng ở mức N, ta thu được N cụm, mỗi cụm chứa đúng một dữ liệu, như được chỉ ra hình 1.7a
(a) (b)
Hình 1.7 Phân cụm phân cấp tập dữ liệu D={a,b,c,d,e}
Phần lớn các thuật toán phân cụm phân cấp thuộc phạm trù phân cụm phân cấp gộp Mục này sẽ trình bày một vài thuật toán đó Trước hết ta cần trả lời được câu hỏi, ở mỗi bước làm thế nào chọn ra được hai cụm để gộp chúng thành một cụm? Chúng ta sẽ xác định khoảng cách giữa hai cụm Khi đã lựa chọn một khoảng cách, thì hai cụm được chọn là hai cụm gần nhau nhất theo khoảng cách
đã chọn
Khoảng cách giữa hai cụm Giả sử Ckvà Cl là hai cụm, và dis(X, X’) là độ
đo không tương tự giữa hai điểm X và X’ Sau đây là một số độ đo khoảng cách thông dụng nhất
Trang 31Trong đó, mk và mllà tâm của cụm Ck và Cltương ứng
1.3.3 Phân cụm dựa vào mật độ
Phương pháp phân cụm dựa vào mật độ (density-based clustering) xuất phát
từ quan niệm các cụm như là các vùng mật độ cao được tách bởi các vùng mật độ thấp Phân cụm dựa vào mật độ cho phép ta tìm ra các cụm có hình dạng bất kỳ trong tập dữ liệu chiều cao và có chứa các điểm dữ liệu nhiễu (ngoại lai) Các thuật toán phân cụm dựa vào mật độ đều có chung ý tưởng là, phát triển các vùng mật độ cao để nhận được các cụm Các thuật toán đó chứa đựng hai điểm chính: Đánh giá mật độ của các điểm để tìm các điểm mật độ cao, và xác định sự kết nối bởi mật độ giữa các điểm để tạo thành các cụm Đánh giá mật độ được thực hiện dựa vào hai cách tiếp cận: láng giềng gần nhất và đánh giá mật độ nhân Sau đây chúng ta trình bày hai thuật toán quan trọng trong số nhiều thuật toán phân cụm dựa vào mật độ đã được đề xuất: DBSCAN và MEAN-SHIFT Thuật toán DBSCAN sử dụng cách đánh giá mật độ láng giềng gần nhất, còn MEAN-SHIFT
sử dụng cách đánh giá mật độ nhân
1.3.4 Phân cụm dựa vào mô hình
Phân cụm dựa vào mô hình (model-base clustering)xuất phát từ ý tưởng
cho rằng, mỗi cụm dữ liệu được sinh ra bởi một phân phối xác suất nào đó Ta giả
sử tập dữ liệu D = {X1,…,XN} có K cụm: c1,…,cK, chúng ta xem rằng, cụm thứ k (k = 1,…,K) được sinh ra bởi hàm mật độ xác suất pK(X/𝜃𝐾), trong đó 𝜃𝐾 là véctơ tham biến của phân phối, và toàn bộ tập dữ liệu D được sinh ra bởi hàm mật độ
𝑝(𝑋) = ∑𝐾𝐾=1𝜋𝐾𝑝𝐾(𝑋 𝜃⁄ 𝐾) (1.8)