Bài viết này trình bày phương pháp phân cụm các khuôn mặt trong một tập ảnh khuôn mặt đã có dựa vào đặc trưng là các thành phần chính được trích rút bằng thuật toán PCA. Sau đó sử dụng thuật toán phân cụm phân cấp (HAC) để phân cụm các khuôn mặt vào các cụm riêng biệt. Nghiên cứu đã thực nghiệm trên tập ảnh gồm 100 ảnh. Các kết quả thực nghiệm cho thấy phương pháp mới đề xuất cho kết quả với độ chính xác tốt.
Nguyễn Hữu Quỳnh Tạp chí KHOA HỌC & CƠNG NGHỆ 181(05): - 14 MỘT PHƯƠNG PHÁP PHÂN CỤM KHUÔN MẶT HIỆU QUẢ TRÊN MẠNG XÃ HỘI Nguyễn Hữu Quỳnh* Trường Đại học Điện lực TÓM TẮT Trong năm gần đây, lượng thông tin mạng xã hội phát triển vũ bão, tính riêng mạng facebook có hàng trăm tỷ hình Do đó, xử lý nguồn liệu để trợ giúp người dùng việc phát tri thức khai phá liệu vô cần thiết Bài báo trình bày phương pháp phân cụm khn mặt tập ảnh khn mặt có dựa vào đặc trưng thành phần trích rút thuật tốn PCA Sau sử dụng thuật tốn phân cụm phân cấp (HAC) để phân cụm khuôn mặt vào cụm riêng biệt Nghiên cứu thực nghiệm tập ảnh gồm 100 ảnh Các kết thực nghiệm cho thấy phương pháp đề xuất cho kết với độ xác tốt Từ khóa: phân cụm phân cấp; phân tích thành phần chính; khai phá liệu; khuôn mặt;phân cụm GIỚI THIỆU* Hiện giới có hàng trăm mạng mạng xã hội khác MySpace Facebook tiếng thị trường Bắc Mỹ Tây Âu; Orkut Hi5 Nam Mỹ; Friendster Châu Á đảo quốc Thái Bình Dương Một số mạng xã hội khác gặt hái thành công đáng kể theo vùng miền Bebo Anh Quốc, CyWorld Hàn Quốc, Mixi Nhật Bản Ở Việt Nam xuất nhiều mạng xã hội như: Facebook, Zing Me, YuMe, Tamtay Với số lượng mạng xã hội đông đảo thế, lượng thông tin liệu thu khổng lồ Trong lượng thơng tin khổng lồ này, có lượng lớn hình ảnh Một minh chứng rõ mạng xã hội facebook, có hàng trăm tỷ hình sở liệu Việc tìm thơng tin hữu ích lượng liệu hình ảnh lớn cấp thiết Nhiều thông tin chia sẻ mạng xã hội thể hình ảnh cung cấp cho người dùng thơng tin người, cảnh,… Tuy nhiên, khimột người dùng muốn tìm hiểu thơng tin đógặp phải vấn đề phải tìm thơng tin người khó khăn (tốn thời gian nhiều khơng tìm được) Lý việc lượng ảnh mạng xã * Email: quynhnh@epu.edu.vn hội nhiều tăng nhanh hàng ngày Do đó, hệ thống giúp gom đối tượng ảnh khuôn mặt cụm (theo độ đo tương tự đó) tập liệu ảnh khổng lồ vô cần thiết Trong báo đề xuất phương pháp phân cụm khuôn mặt Các nghiên cứu liên quan mô tả mục Sau trình bày phương pháp phân cụm khn mặt Tiếp đến phần xây dựng tập liệu kết thực nghiệm Cuối phần kết luận CÁC NGHIÊN CỨU LIÊN QUAN Phân cụm [1,2] coi hình thức nhận dạngkhơng giám sáttrên tập hữu hạn đối tượng dựa số độ đo tương tự hay độ đo khoảng cách [7,9,12,13] Phương pháp phân cụm khuôn mặt dựa đặc trưng xuất khuôn mặt [4,5,6] nghiên cứu rộng rãi có tiến đáng kể đạt hai thập kỷ vừa qua Các phương pháp phân cụm khuôn mặt khác quan tâm nhiều tác giả Ở tài liệu [10] tác giả đề xuất phương pháp phân cụm khuôn mặt sử dụng đặc trưng SIFT phân cụm phân cấp tích tụ ,cho ta thấy hiệu việc phân cụm với đặc trưng mô tả bậc thấp Một cách tiếp cận phân cụm khác, Fitzgibbon and Zisserman [3] có đề xuất cách tiếp cận có Nguyễn Hữu Quỳnh Tạp chí KHOA HỌC & CÔNG NGHỆ liên quan đến khoảng cách Joint Manifold (JMD) Trong phương pháp đề xuất không gian đại diện cho tập hợp khuôn mặt người.Mặt khác, Eickeler[11] đề xuất phương pháp phân cụm khuôn mặt, gọi Hidden Markov Models-clustering (HMMclustering), tức phân cụm K-means sử dụng mơ hình Markov ẩn để đại diện cho mẫu cụm Trong báo kết hợp việc sử dụng phương pháp phân tích thành phần PCA để trích rút đặc trưng phân cụm phân cấp tích tụ để phân cụm khn mặt vào nhóm tương đồng PHÂN CỤM KHN MẶT 181(05): - 14 khn mặt ảnh trả giá trị flag = true boxFaces hình chữ nhật bao khn mặt lưu trữ dạng hai điểm Top-left Bottom-Right Hàm crop()cắt lấy ảnh chứa khn mặt từ hình chữ nhật bao khuôn mặt đồng thời đưa ảnh mặt thu kích cỡ Hàm push_back()tạo nên tập khuôn mặt LF Hàm Hierarchical()trả kết cụm khn mặt tương tự C THUẬT TỐN PCA_HAC Input: LI – tập ảnh gồm n ảnh Output: C- cụm khuôn mặt Khởi tạo nImages n; totalFaces 0; Phát khuôn mặt Fori = to nImages Bool flag detect_all_faces(&boxFaces, &nFace, LIi ); If (flag) For j = to nFaces() IFcrop(boxFacesj); LF.push_back(IF); Trích rút đặc trưng S asRowMatrix(LF); DPCA(S); Phân cụm khn mặt C Hierarchical(D); Return C; Hình Thuật tốn PCA_HAC Hình Sơ đồ tổng quan hệ thống Trong Hình 1, với tập liệu ảnh khuôn mặt đầu vào sử dụng đặc trưng Haarlike để phát khuôn mặt ảnh Sau tơi sử dụng tht tốn PCA để giảm số chiều liệu đồng thời trích rút thành phần đảm bảo đầy đủ thơng tin khuôn mặt ảnh Cuối dựa tập đặc trưngtơi áp dụng thuật tốn phân cụm phân cấp tích tụ(HAC) để thu kết cuối khuôn mặt tương tự gom cụm Chi tiết thuật tốn tơi mơ tả Hình Thuật tốn PCA_HAC có tham số đầu vào tập ảnh khuôn mặt cho trước Hàm detect_all_face() phát 10 Phần tơi trình bày thuật tốn PCA, sau phần trích rút đặc trưng, cuối phần thuật tốn phân cụm phân cấp Phân tích thành phần Phân tích thành phần (Principal Component Analysis- PCA), gọi chuyển đổi Karhunen-Loève, biến đổi tuyến tính nắm bắt thay đổi liệu đầu vào PCA tìm không gian theo hướng biến thiên mạnh tập hợp vector không gian cho trước giúp giảm số chiều liệu Trong không gian chiều hơn, lại có khả biểu diễn liệu tốt tương đương với không gian cũ đảm bảo tối đa thông tin quan trọng Nguyễn Hữu Quỳnh Tạp chí KHOA HỌC & CƠNG NGHỆ Giả sử ta cần xem xét tập liệu X = [x1, x2,…,xn] (1) Trong n số mẫu liệu, xi mẫu liệu thứ i có kích thước d Đầu tiên ta tính giá trị trung bình X chiều (2) Trừ giá trị trung bình ta thu (3) Tính ma trận hiệp phương sai (covariance) C: C (4) Ma trận hiệp phương sai C có vector riêng với giá trị riêng C (5) = (6) ma trận chéo giá trị riêng tương ứng với vector riêng (7) Các vector riêng tương ứng với giá trị riêng cao đại diện cho thành phần (8) Trích rút đặc trưng Mỗi ảnh đưa tập ảnh đầu vào có kích thước N×N tương đương với N2 vector đặc trưng khn mặt, đặc trưng khuôn mặt lớn, để giảm số đặc trưng khuôn mặt ta áp dụng thuật tốn PCA trình bày phần (chỉ K vector đặc trưng giữ lại, K