Nguyễn Hoàng Vũ, Trần Quốc Cường, Trần Thanh Phong 30 NGHIÊN CỨU THUẬT TOÁN HỌC CẶP TỪ ĐIỂN PHÂN BIỆT TRONG PHÂN LOẠI HÌNH ẢNH A PROPOSED DISCRIMINATIVE DICTIONARY PAIR LEARNING ALGORITHM FOR IMAGE CLASSIFICATION Nguyễn Hoàng Vũ1, Trần Quốc Cường1, Trần Thanh Phong1 Trường Đại học Tiền Giang nguyenhoangvu@tgu.edu.vn; tranquoccuong@tgu.vn; tranthanhphong@tgu.edu.vn (Nhận bài: 22/10/2020; Chấp nhận đăng: 22/12/2020) Tóm tắt - Phương pháp học từ điển dựa biểu diễn thưa mơ hình áp dụng rộng rãi nhiều hệ thống thị giác máy tính với kết đầy hứa hẹn Trong báo này, giải thuật học cặp từ điển phân biệt (DDPL) đề xuất nhằm cải thiện hiệu phân loại hình ảnh Mơ hình đề xuất có khả huấn luyện đồng thời từ điển phân tích từ điển tổng hợp với kết hợp ràng buộc không mạch lạc đại diện hạng thấp Thuật toán đảm bảo từ điển sau huấn luyện có khả phân biệt mạnh tín hiệu sau mã hóa tách biệt So sánh với phương pháp học từ điển trước đây, DDPL sử dụng ánh xạ mã thưa nên giảm phần lớn gánh nặng tính tốn huấn luyện kiểm tra Kết phân loại hình ảnh nhiều tập liệu tiêu chuẩn chứng minh tính hiệu phương pháp đề xuất Abstract - Dictionary learning for sparse coding has been widely applied in the field of computer vision and have achieved promising performance In this paper, a new method called discriminative dictionary pair learning (DDPL) for image classification was proposed which jointly learned a synthesis dictionary and an analysis dictionary to promote the image classification performance The DDPL method ensures that the learned dictionary has the powerful discriminative ability and the signals are more separable after coding Compared with previous dictionary learning methods, DDPL employs projective coding, which largely reduces the computational burden in training and testing Experimental results on various image classification benchmarks are presented to demonstrate the effectiveness of the proposed method Từ khóa - Đại diện thưa; học từ điển; từ điển tổng hợp; từ điển phân tích; học từ điển phân biệt; phân loại hình ảnh Key words - Sparse representation; dictionary learning; synthesis dictionary; analysis dictionary; discriminative dictionary learning; image classification Đặt vấn đề Trong năm gần đây, phương pháp biểu diễn thưa thu hút nhiều ý ứng dụng thành công lĩnh vực thị giác máy tính [1], [2] Biễu diễn thưa đại diện cho mẫu cách phối hợp tuyến tính với vài nguyên tử từ điển chọn tập liệu Vì từ điển có vai trị quan trọng q trình tái cấu trúc mẫu Trong lĩnh vực phân loại hình ảnh, việc học từ điển tối ưu từ tập liệu hình ảnh huấn luyện đem lại hiệu phân loại cao, nhiều mơ hình học từ điển nghiên cứu đề xuất [3], [4], [5] Có hai phương pháp học từ điển học khơng giám sát học có giám sát Đối với phương pháp học từ điển không giám sát, từ điển huấn luyện từ hàm mục tiêu lỗi tái cấu trúc liệu huấn luyện tối thiểu hóa [3] Mặc dù, từ điển có khả tái cấu trúc xác liệu huấn luyện, khơng có thơng tin lớp nhãn từ điển Trong phương pháp học từ điển có giám sát, thông tin nhãn lớp đưa vào giai đoạn huấn luyện phương pháp học từ điển có giám sát thường sử dụng phân loại hình ảnh [6], [7], [8] Tùy thuộc vào cách mã hóa liệu huấn luyện, từ điển chia thành ba loại: Từ điển tổng hợp, từ điển phân tích cặp từ điển phân tích - tổng hợp - Từ điển tổng hợp đại diện cho liệu huấn luyện cách phối hợp tuyến tính với nguyên tử từ điển Từ điển loại từ điển chung chia sẻ tất lớp (từ điển đại diện cho tất ) [9] từ điển dành riêng cho lớp (mỗi nguyên tử từ điển liên kết với lớp) [7], [10] Mặc dù từ điển tổng hợp đạt kết phân loại tốt, thời gian tính tốn hệ số mã thưa lớn ảnh hưởng đến thời gian huấn luyện từ điển kiểm tra liệu vào - Từ điển phân tích trực tiếp biến đổi liệu thành không gian đặc điểm thưa cách nhân với với liệu huấn luyện cho việc miêu tả liệu Đại diện cho cách tiếp cận phương pháp học từ điển không giám sát sử dụng khôi phục ảnh [11] Mặc dù đạt kết hứa hẹn phương pháp cịn tính tốn phức tạp khơng phù hợp cho nhiệm vụ phân loại hình ảnh - Cặp từ điển phân tích tổng hợp mở rộng đầy đủ khả học từ điển cách kết hợp đại diện liệu giảm thời gian tính tốn Rubinstein Elad [12] đề xuất mơ hình học cặp từ điển phân tích tổng hợp sử dụng xử lý hình ảnh Phương pháp có khả đại diện liệu tốt hệ số mã hóa đảm bảo tính thưa Gần đây, Gu cộng [13] đề xuất phương pháp học cặp từ điển phân tích tổng hợp (DPL) sử dụng cho phân loại hình ảnh Trong mơ hình DPL, từ điển phân tích tổng hợp dành cho lớp riêng có khả miêu tả tốt liệu lớp miêu tả lớp khác Mặc dù mơ hình DPL đạt kết ấn tượng phân loại hình ảnh DPL chưa khai thác hết khả phân biệt liệu huấn luyện trình học từ điển Trong báo này, nhóm tác giả tập trung cải thiện khả phân biệt cặp cặp từ điển phân tích tổng hợp Tien Giang University (HoangVu Nguyen, Tran Quoc Cuong, Tran Thanh Phong) ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 19, NO 1, 2021 đề xuất thuật tốn học cặp cặp từ điển phân tích tổng hợp phân biệt (DDPL) sử dụng cho phân loại hình ảnh Những đóng góp báo sau: - Trong mơ hình đề xuất, nhóm tác giả tích hợp phân biệt từ điển tổng hợp với miêu tả từ điển phân tích thành mơ hình thống để học cặp từ điển cho lớp có tính phân biệt mạnh mà cịn giảm thời gian tính tốn - Để tăng hiệu phân loại hình ảnh, nhóm tác giả xem xét ràng buộc khơng mạch lạc lớp lớp từ điển tổng hợp nhằm tối thiểu miêu tả tương tự nguyên tử từ điển lớp liên quan với lớp khác - Sử dụng ràng buộc quy tắc hạng thấp từ điển phân tích để cải thiện tương tự hệ số mã thưa lớp (các nguyên tử lớp tương tự nhau) Thuật toán thực tập liệu hình ảnh tiêu chuẩn so sánh với phương pháp học từ điển khác Kết thực chứng minh tính hiệu phương pháp đề xuất Tổng quan mơ hình học cặp từ điển 2.1 Mơ hình học từ điển phân biệt Xét ma trận 𝑋 = [𝑋1 , 𝑋2 , … , 𝑋𝐶 ] tập hợp mẫu hình ảnh huấn luyện Trong đó, 𝑋𝑖 ∈ ℝ𝑚×𝑛 (𝑖 = 1, … , 𝐶) mẫu lớp thứ i, m số chiều, n số mẫu lớp, C số lớp Hầu hết phương pháp học từ điển phân biệt huấn luyện từ điển D để miêu tả X Trong phân loại hình ảnh, từ điển học kết hợp với thông tin nhãn lớp qua hàm mục tiêu: (1) min‖𝑋 − 𝐷𝐴‖2𝐹 + 𝜆‖𝐴‖𝑝 + Ψ(𝐷, 𝐴, 𝑌) 𝐷,𝐴 Trong 𝜆 ≥ số, 𝐷 = [𝐷1 , 𝐷2 , … , 𝐷𝐶 ], (𝐷𝑖 ∈ ℝ𝑚×𝑝 ) từ điển 𝐴 = [𝐴1 , 𝐴2 , … , 𝐴𝐶 ], (𝐴𝑖 ∈ ℝ𝑝×𝑛 ) ma trận hệ số mã hóa X qua D Trong mơ hình huấn luyện (1), ràng buộc ‖𝑋 − 𝐷𝐴‖2𝐹 đảm bảo khả miêu tả từ điển D; ‖𝐴‖𝑝 chuẩn p (𝑝 ≥ 1) ma trận A; Y ma trận nhãn lớp X, Ψ(𝐷, 𝐴, 𝑌) điều kiện ràng buộc phân biệt để đảm bảo khả phân biệt D 2.2 Mơ hình học cặp từ điển phân tích - tổng hợp phân loại hình ảnh Gần đây, Gu cộng [13] mở rộng phương trình (1) thành mơ hình học cặp từ điển phân tích - tổng hợp P D (mơ hình DPL), với ma trận hệ số mã hóa 𝐴 = 𝑃𝑋 Mơ hình DPL nghĩa sau: ∑𝐶𝑖=1‖𝑋𝑖 − 𝐷𝑖 𝑃𝑖 𝑋𝑖 ‖2𝐹 + 𝜆‖𝑃𝑖 𝑋̅𝑖 ‖2𝐹 𝑠 𝑡 ‖𝑑𝑗 ‖2 ≤ (2) 𝑃,𝐷 Trong đó, 𝑋̅𝑖 ký hiệu ma trận bù 𝑋𝑖 tập liệu 𝑋; 𝐷 = [𝐷1 ; 𝐷2 ; … ; 𝐷𝐶 ] từ điển tổng hợp với 𝐷𝑖 ∈ ℝ𝑚×𝑝 từ điển phụ thứ i 𝐷, 𝑃 = [𝑃1 ; 𝑃2 ; … ; 𝑃𝐶 ] từ điển phân tích với 𝑃𝑖 ∈ ℝ𝑝×𝑚 từ điển phụ thứ i 𝑃 Ma trận 𝐷𝑖 𝑃𝑖 sử dụng để phân lớp Với mẫu kiểm tra y, nhãn y xác định bởi: identity(𝑦) = arg min‖𝑦 − 𝐷𝑖 𝑃𝑖 𝑦‖2 (3) 𝑖 Mơ hình DPL đạt kết nhận dạng tốt phân loại hình ảnh với thời gian tính tốn thấp mơ hình chưa khai thác hết khả phân biệt liệu huấn luyện Nhiều nghiên cứu dựa mơ hình DPL đề xuất thuật toán học từ điển cách tích hợp ràng buộc 31 để tăng khả phân biệt từ điển Chen cộng [14] đề xuất mơ hình học cặp từ điển phân biệt cách bổ sung ràng buộc véc tơ hỗ trợ phân biệt vào mơ hình DPL: 𝐶 ∑ 𝑃,𝐷,𝐴,𝑊,𝑏 𝑖=1 ‖𝑋𝑖 − 𝐷𝑖 𝐴𝑖 ‖2𝐹 + 𝜏‖𝐴𝑖 − 𝑃𝑖 X𝑖 ‖2𝐹 + γ‖𝑃𝑖 ‖2𝐹 + 𝜆1 ‖𝑃𝑖 [𝑋̅𝑖 , 𝑋𝑖 − 𝑀𝑖 ]‖2𝐹 𝐶 +∑ 2𝜆2 𝐿(𝐴, 𝑦 𝑐 , 𝑤𝑐 , 𝑏𝑐 ) 𝑖=1 𝑠 𝑡 ‖𝑑𝑗 ‖2 ≤ (4) Trong đó, 𝑀𝑖 ma trận với véc tơ cột trung bình véc tơ cột 𝑋𝑖 , 𝐿(𝐴, 𝑦 𝑐 , 𝑤𝑐 , 𝑏𝑐 ) hàm véc tơ hỗ trợ phân biệt Nhãn mẫu thử y xác định sau: identity(𝑦) = arg min‖𝑦 − 𝐷𝑖 𝑃𝑖 𝑦‖2 + 𝜂1 ‖𝑃̅𝑖 𝑦‖2 𝑖 −𝜂2 (𝑤𝑖𝑇 𝑃𝑖 + 𝑏𝑖 ) (5) Zhang cộng [15] đề xuất mơ hình học từ điển phân tích (ADDL) cách tích hợp từ điển phân tích phân biệt huấn luyện ma trận phân lớp mô hình Hàm mục tiêu mơ hình ADDL sau: 〈𝐷, 𝑆, 𝑃, 𝑊〉 = arg ∑ 𝐷,𝑆,𝑃,𝑊 𝐶 𝑙=1 ‖𝑋𝑙 − 𝐷𝑙 𝑆𝑙 ‖2𝐹 + αf(𝐷𝑙 ) + 𝜏r(𝑃𝑙 , 𝑆𝑙 ) + 𝜆g(𝐻𝑙 , 𝑊𝑙 , 𝑃𝑙 ) 𝑠 𝑡 ‖𝑑𝑣 ‖22 ≤ 1, ∀𝑣 ∈ {1, … , 𝐾} (6) Trong đó, f(𝐷𝑙 ) ràng buộc không mạch lạc, r(𝑃𝑙 , 𝑆𝑙 ) = ‖𝑃𝑙 𝑋𝑙 − 𝑆𝑙 ‖2𝐹 + ‖𝑃𝑙 𝑋̅𝑙 ‖2𝐹 + ‖𝑆𝑙 ‖2,1 ràng buộc mã thưa từ điển phân tích g(𝐻𝑙 , 𝑊𝑙 , 𝑃𝑙 ) = ‖𝐻𝑙 − 𝑊𝑙 𝑃𝑙 𝑋𝑙 ‖2𝐹 + ‖𝑊𝑙 𝑃𝑙 𝑋̅𝑙 ‖2𝐹 hàm huấn luyện để phân loại với 𝐻𝑙 lớp nhãn 𝑋𝑙 , 𝑊𝑙 ma trận phân loại tuyến tính Sau đạt từ điển phân tích ma trận phân loại, mẫu kiểm tra 𝑥𝑛𝑒𝑤 thuộc lớp thứ i nhãn 𝑥𝑛𝑒𝑤 xác định bởi: identity(𝑥𝑛𝑒𝑤 ) = arg max(𝑊𝑃𝑥𝑛𝑒𝑤 ) (7) 𝑖 Trong mơ hình học từ điển phân biệt, tính độc lập nguyên tử quan trọng, góp phần làm gia tăng khả phân biệt từ điển Một ràng buộc không mạch lạc định nghĩa để đo lường mối quan hệ nguyên tử từ điển [16]: (8) 𝑐𝑜𝑟(𝐷) = ‖𝐷𝑇 𝐷 − 𝐼‖2𝐹 Trong đó, I ma trận đơn vị Từ điển D gọi không mạch lạc quan hệ không Việc tối thiểu ràng buộc đảm bảo cho từ điển miêu tả xác liệu huấn luyện đạt hiệu phân loại cao Mơ hình học cặp từ điển phân biệt đề xuất 3.1 Hàm mục tiêu Cặp từ điển phân tích - tổng hợp sử dụng để phân loại chúng phải có khả phân biệt cao Để tăng khả phân biệt từ điển tổng hợp D, sử dụng ràng buộc không mạch lạc từ điển phụ 𝐷𝑖 để tối thiểu mối quan hệ nguyên tử 𝐷𝑖 Với ràng buộc này, từ điển lớp mã hóa tốt mẫu lớp Ngồi ra, để đảm bảo hệ số mã hóa lớp tương tự nhau, từ điển phụ 𝑃𝑖 ràng buộc hạng thấp Từ phân tích trên, hàm mục tiêu mơ hình đề xuất thiết kế sau: Nguyễn Hoàng Vũ, Trần Quốc Cường, Trần Thanh Phong 32 ∑𝐶𝑖=1‖𝑋𝑖 𝑃,𝐷 − 𝐷𝑖 𝑃𝑖 𝑋𝑖 ‖2𝐹 + 𝜆‖𝑃𝑖 𝑋̅𝑖 ‖2𝐹 +𝜂1 ∑𝐶𝑖=1‖𝐷𝑖𝑇 𝐷𝑗 ‖𝐹 + 𝜂2 ‖𝐷𝑖𝑇 𝐷𝑖 − 𝐼‖2𝐹 𝑖≠𝑗 Từ phương trình (16), tính 𝑃𝑖∗ : + 𝜇‖𝑃𝑖 ‖∗ + 𝑠 𝑡 ‖𝑑𝑗 ‖2 ≤ 𝜏 (9) Trong đó, 𝜇 ≥ , 𝜂1 ≥ 0, 𝜂2 ≥ số; ‖𝑃𝑖 ‖∗ ràng buộc hạng thấp, ký hiệu ‖ ‖∗ chuẩn Schatten (nuclear norm) ma trận; ∑𝐶𝑖≠𝑗‖𝐷𝑖𝑇 𝐷𝑗 ‖𝐹 ràng buộc không mạch lạc để đảm bảo từ điển phụ lớp độc lập (tức 𝐷𝑖𝑇 𝐷𝑗 ≈ 0, ∀𝑖 ≠ 𝑗); ràng buộc ‖𝐷𝑖𝑇 𝐷𝑖 − 𝐼‖2𝐹 làm ổn định từ điển phụ lớp; 𝐼 ∈ ℝ𝑝×𝑝 ma trận đơn vị 3.2 Giải hàm mục tiêu Hàm mục tiêu (9) hàm khơng lồi, nhóm tác giả sử dụng biến A để chuyển đổi phương trình (9) thành: {𝐴∗ , 𝑃 ∗ , 𝐷 ∗ } = arg ∑𝐶𝑖=1‖𝑋𝑖 − 𝐷𝑖 𝐴𝑖 ‖2𝐹 + 𝜏‖𝑃𝑖 𝑋𝑖 − 𝐴,𝐷,𝑃 𝐴𝑖 ‖2𝐹 + 𝜆‖𝑃𝑖 𝑋̅𝑖 ‖2𝐹 + 𝜇‖𝑃𝑖 ‖∗ + 𝜂1 ∑𝐶𝑖=1‖𝐷𝑖𝑇 𝐷𝑗 ‖𝐹 + 𝑖≠𝑗 𝜂2 ‖𝐷𝑖𝑇 𝐷𝑖 − 𝐼‖2𝐹 𝑠 𝑡 ‖𝑑𝑗 ‖2 ≤ (10) Trong đó, {𝐴∗ , 𝑃 ∗ , 𝐷 ∗ } tối ưu cách sử dụng vòng lặp luân phiên cập nhật A {𝐷, 𝑃} theo hai bước sau: • Cố định D P, cập nhật A Khi D P cố định, hàm mục tiêu liên quan đến biến A viết lại là: 𝐴∗ = 𝑎𝑟𝑔 ∑𝐶𝑖=1‖𝑋𝑖 − 𝐷𝑖 𝐴𝑖 ‖2𝐹 + 𝜏‖𝑃𝑖 𝑋𝑖 − 𝐴𝑖 ‖2𝐹 (11) 𝐴 Đây dạng bình phương tối thiểu, có thể tính 𝐴∗𝑖 : 𝐴∗𝑖 = (𝐷𝑖𝑇 𝐷𝑖 + 𝜏𝐼)−1 (𝜏𝑃𝑖 𝑋𝑖 + 𝐷𝑖𝑇 𝑋𝑖 ) (12) • Cố định A, cập nhật P D + Cập nhật P Phương trình (10) viết lại sau: 𝐶 𝑃 ∗ = 𝑎𝑟𝑔 ∑ 𝑃 𝑖=1 𝜏‖𝑃𝑖 𝑋𝑖 − 𝐴𝑖 ‖2𝐹 + 𝜆‖𝑃𝑖 𝑋̅𝑖 ‖2𝐹 +𝜇‖𝑃𝑖 ‖∗ (13) Phương trình (13) chuyển đổi thành dạng sau cách thêm biến Z: {𝑃 ∗ , 𝑍 ∗ } = 𝑎𝑟𝑔 ∑𝐶𝑖=1 𝑓(𝑃𝑖 ) + 𝜇‖𝑍‖∗ 𝑠 𝑡 𝑃𝑖 = 𝑍 (14) 𝑃,𝑍 Với 𝑓(𝑃𝑖 ) = 𝜏‖𝑃𝑖 𝑋𝑖 − 𝐴𝑖 ‖2𝐹 + 𝜆‖𝑃𝑖 𝑋̅𝑖 ‖2𝐹 Sử dụng phương pháp ALM (Augmented Lagrange Multiplier), phương trình (14) xác định cách giải phương trình sau: 𝜀 𝑓(𝑃𝑖 ) + 𝜇‖𝑍‖∗ + 〈𝑇1 , 𝑃𝑖 − 𝑍〉 + ‖𝑃𝑖 − 𝑍‖2𝐹 𝑃𝑖 ,𝑍 (15) Trong 𝜀 > 𝑇1 nhân tử Lagrange Phương trình (15) giải thuật tốn ADMM (Alternating Direction Method of Multipliers) [17]: 1 𝑇 𝑃𝑖∗ = 𝑎𝑟𝑔 𝑓(𝑃𝑖 ) + ‖𝑃𝑖 − 𝑍 + ‖ ∗ 𝑃𝑖 𝜀 𝜇 𝜀 𝑇 𝐹 𝑍 = 𝑎𝑟𝑔 ‖𝑍‖∗ + ‖𝑍 − 𝑃𝑖 + ‖ 𝑍 𝜀 {𝑇1 = 𝑇1 + 𝜀(𝑃𝑖 − 𝑍) 𝜀 𝐹 (16) −1 𝐼 𝑃𝑖∗ = (( + 𝜆) 𝑋𝑋 𝑇 + ) 𝜀 𝑇 (𝐴𝑋 𝑇 − 𝑍 ∗ − 1) 𝜀 (17) Trong đó, 𝑍 ∗ giải giải thuật SVT (Singular Value Thresholding) [18]: (18) 𝑍 ∗ = 𝑈S𝜇 [Σ]𝑉 𝑇 𝜀 𝑇 Với (𝑈Σ𝑉 𝑇 ) = svd (𝑃 − 1) 𝑆𝜖 [ ] toán tử soft𝜀 thresholding (shrink-age), 𝑆𝜖 [𝑥] = 𝑠𝑖𝑔𝑛(𝑥)(|𝑥| − 𝜖) + Cập nhật D Phương trình (10) viết lại: 𝐷 ∗ = 𝑎𝑟𝑔 ∑𝐶𝑖=1‖𝑋𝑖 − 𝐷𝑖 𝐴𝑖 ‖2𝐹 + 𝜂1 ∑𝐶𝑖=1‖𝐷𝑗𝑇 𝐷𝑖 ‖ + 𝐷 𝜂2 ‖𝐷𝑗𝑇 𝐷𝑖 − 𝐼‖ 𝐹 𝐹 𝑖≠𝑗 𝑠 𝑡 ‖𝑑𝑗 ‖2 ≤ (19) Biến đổi phương trình (19) thành dạng sau cách thêm biến T: ∑𝐶𝑖=1‖𝑋𝑖 − 𝐷𝑖 𝐴𝑖 ‖2𝐹 + 𝜂1 ∑𝐶𝑖=1‖𝐷𝑗𝑇 𝐷𝑖 ‖ 𝐷,𝑇 + 𝜂2 ‖𝐷𝑗𝑇 𝐷𝑖 − 𝐼‖ 𝐹 𝑖≠𝑗 𝑠 𝑡 𝐷 = 𝑇, ‖𝑡𝑖 ‖22 ≤ 𝐹 (20) Phương trình (20) giải cách sử dụng thuật tốn ADMM [17]: 𝐷𝑖𝑘+1 = 𝑎𝑟𝑔 min‖𝑋𝑖 − 𝐷𝑖 𝐴𝑖 ‖2𝐹 + 𝜂1 ‖𝐷𝑗𝑇 𝐷𝑖 ‖ 𝐷𝑖 2 𝐹 +𝜂2 ‖𝐷𝑗𝑇 𝐷𝑖 − 𝐼‖ +𝜌‖𝐷𝑖 − 𝑇𝑖𝑘 + 𝑆𝑖𝑘 ‖𝐹 𝐹 𝑇𝑖𝑘+1 = 𝑎𝑟𝑔 𝜌‖𝐷𝑖𝑘+1 − 𝑇 𝑘 + 𝑆𝑖𝑘 ‖𝐹 𝑇𝑖 { 𝑆𝑖𝑘+1 = 𝑆𝑖𝑘 + 𝐷𝑖𝑘+1 − 𝑇𝑖𝑘+1 (21) 𝑠 𝑡 ‖𝑡𝑗 ‖ ≤ Trong đó, k số vịng lặp 𝜌 (0 < 𝜌 < 1) đại lượng vô hướng tăng dần để 𝜌𝑟𝑎𝑡𝑒 ≥ Từ phương trình (21), tính 𝐷𝑖∗ : −1 𝐷𝑖∗ = (𝐴𝐴𝑇 + 𝐼 + 𝐷𝑗𝑇 𝐷𝑗 ) (𝐴𝑇 𝑋 + 𝑇𝑖 − 𝑆𝑖 ) (22) Với 𝑇𝑖 = 𝑆𝑖 + 𝐷𝑖 Thuật tốn tổng qt mơ hình DDPL tóm tắt Thuật tốn Thuật tốn dừng lượng vòng lặp kế cận nhỏ 0.01 thỏa mãn số vòng lặp giới hạn 3.3 Phân loại Sau đạt cặp từ điển phân tích - tổng hợp (D*, P*), việc xác định nhãn mẫu kiểm tra y thực sau: Nếu mẫu kiểm tra y thuộc lớp thứ i giá trị ‖𝑦 − 𝐷𝑖∗ 𝑃𝑖∗ y‖22 nhỏ (23) identity(𝑦) = 𝑎𝑟𝑔 min‖𝑦 − 𝐷𝑖∗ 𝑃𝑖∗ y‖22 𝑖 Algorithm1: Input: Dữ liệu huấn luyện 𝑋 = [𝑋1 , 𝑋2 , … , 𝑋𝐶 ], thông số 𝜆, 𝜏, 𝜇, 𝜂1 , 𝜂2 ; 1: Khởi tạo 𝐷0 𝑃 ma trận ngẫu nhiên chuẩn Frobenious, t=0; 2: while not converge 3: 𝑡 ← 𝑡 + 1; 4: for i = 1:C 5: cập nhập 𝐴𝑖 phương trình (12); 6: cập nhập 𝑃𝑖 phương trình (17); 7: cập nhập 𝐷𝑖 phương trình (22); 8: end for 9: end while Output: Từ điển phân tích 𝑃, Từ điển tổng hợp 𝐷 ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 19, NO 1, 2021 Kết thực nghiệm Trong phần này, kết nhận dạng thuật toán đề xuất DDPL đánh giá ba tập liệu hình ảnh: Extended YaleB [19], AR [20] Caltech101 [21] Thuật toán DDPL so sánh với số thuật toán học từ điển bao gồm: Phân loại hình ảnh dựa biểu diễn thưa (SRC) [1], học từ điển phân biệt K-SVD (DKSVD) [9], học từ điển phân biệt Fisher cho biểu diễn thưa (FDDL) [22], học từ điển với cấu trúc mạch lạc (DLSI) [16], Lable Consistant K-SVD (LCKSVD) [7], LC-PDL [23], PCANet [24] DPL [13] Đối với thuật tốn SRC, DKSVD DLSI nhóm tác giả tự thực thí nghiệm dựa theo giải thuật cơng bố Đối với thuật tốn cịn lại, nhóm tác giả sử dụng trực tiếp mã nguồn tác giả cơng bố Tất thuật tốn lập trình phần mềm Matlab2014b 4.1 Các tập liệu tiêu chuẩn Tập liệu khuôn mặt Extended Yale B [19] chứa 2414 hình ảnh 38 người, hình ảnh người chụp 64 điều kiện ánh sáng kiểm sốt khác Các hình ảnh tư diện cắt theo vùng mặt thực tế Tất hình ảnh có độ phân giải 192 × 168 pixel (Hình 1a) Tập liệu khuôn mặt AR [20] bao gồm 4000 hình ảnh trực diện từ 126 cá nhân Đối với cá nhân, 26 hình ảnh chụp hai nhóm riêng biệt, gồm nhiều biến thể thay đổi ánh sáng, biểu cảm ngụy trang khuôn mặt (Hình 1b) Tập liệu hình ảnh Caltech 101 [21] chứa 9144 ảnh gồm 102 lớp Số lượng hình ảnh lớp thay đổi từ 31 đến 800 (Hình 1c) (a) Extended YaleB 33 Trong hàm mục tiêu (10), có tất thơng số xác định sau: Trong thực nghiệm, với số nguyên tử từ điển số ảnh huấn luyện, giá trị 𝜏 𝜆 khơng thay đổi nhiều tất thí nghiệm, 𝜏 𝜆 cố định 0,05 3e-3 Đối với tập liệu Extended Yale B, cố định 𝜇 =0,001, giá trị 𝜂1 𝜂2 tương ứng thể Bảng Dựa theo Bảng 1, độ xác phân loại cao đạt 𝜂1 =0,05 𝜂2 =0,001 Bảng thể độ xác phân loại cố định 𝜂1 =0,05 𝜂2 =0,001 Dựa vào bảng Bảng 2, thông số chọn cho tập liệu Extended Yale B sau: 𝜇 =0,001, 𝜂1 =0,05 𝜂2 =0,001 Tương tự, tập liệu AR: 𝜇 =0,005, 𝜂1 =0,03, 𝜂2 =0,001 tập liệu Caltech101: 𝜇 =0,003, 𝜂1 =0,001, 𝜂2 =0,01 4.3 Nhận dạng khuôn mặt Đối với tập liệu khuôn mặt Extended Yale B, phân nửa số ảnh lớp (32 ảnh) chọn ngẫu nhiên dùng cho liệu huấn luyện, nửa lại sử dụng cho tập kiểm tra Mỗi ảnh ánh xạ thành véc tơ 504 chiều cung cấp [7] Từ điển huấn luyện chứa 570 nguyên tử tương ứng lớp gồm 15 nguyên tử Đối với tập liệu khuôn mặt AR, sử dụng tập hợp 2600 ảnh 50 nam 50 nữ, 20 ảnh chọn ngẫu nhiên lớp cho tập huấn luyện, số lại dùng cho kiểm tra Số chiều ảnh 540 Từ điển huấn luyện có 500 nguyên tử tương ứng lớp có nguyên tử Kết nhận dạng khn mặt mơ hình DDPL so sánh với mơ hình khác tập liệu Extended Yale B tập liệu AR thể Bảng Bảng Từ kết thực nghiệm cho thấy, độ xác nhận dạng đạt DDPL cao phương pháp khác từ 0,6%-4% tập liệu Extended Yale B, từ 1%10,1% tập liệu AR Đặc biệt, mơ hình đề xuất DDPL đạt tỉ lệ nhận dạng cao so sánh với mơ hình phân loại hình ảnh sử dụng mạng học sâu PCANet Bảng Kết nhận dạng (%) tập liệu Extended YaleB (b) AR (c) Caltech 101 Hình Các tập liệu hình ảnh Tỉ lệ (%) 0,001 0,01 0,00001 0,0001 Tỉ lệ (%) Độ xác SRC 96,5 DPL 97,5 DKSVD 94,1 LC-DPL 97,8 LC-KSVD 96,7 PCANet 96,9 DLSI 96,5 DDPL 98,1 FDDL 96,7 97,9 Độ xác Phương pháp Độ xác SRC 97,5 DPL 98,3 DKSVD 88,8 LC-DPL 98,6 0,05 0,001 0,1 0,01 0,15 0,1 0,2 0,15 LC-KSVD 97,8 PCANet 98,0 DLSI 97,5 DDPL 98,9 98,1 95,6 91,5 80,9 FDDL 97,5 Bảng Ảnh hưởng 𝜇 đến độ xác phân loại 𝜂1 =0,05, 𝜂2 =0,001 𝜇 Phương pháp Phương pháp Bảng Ảnh hưởng 𝜂1 𝜂2 đến độ xác phân loại 𝜇 =0,001 97,7 Độ xác Bảng Kết nhận dạng (%) tập liệu AR 4.2 Cài đặt thông số 𝜂1 𝜂2 Phương pháp 0,00001 0,0001 0,001 0,005 0,01 0,1 97,4 97,8 98,1 96,9 94,6 90,5 Để đánh giá hiệu nhận dạng dựa kích thước từ điển, thuật toán DDPL so sánh với DPL Với số mẫu huấn luyện cố định, giá trị kích thước từ điển thay đổi từ đến 32 tập liệu Extended Yale B kích thước Nguyễn Hoàng Vũ, Trần Quốc Cường, Trần Thanh Phong 34 từ điển thay đổi từ đến 20 tập liệu AR Kết so sánh thể Hình cho thấy, mơ hình DDPL đạt tỉ lệ nhận dạng cao DPL 4.5 So sánh thời gian tính tốn Thời gian huấn luyện thử nghiệm phương pháp FDDL, DPL, LC-PDL DDPL tập liệu hình ảnh sử dụng phần mềm Matlab2014b trình bày Bảng Bảng Thời gian tính tốn (s) tập huấn luyện (Train) kiểm tra (Test) Phương pháp YaleB AR Caltech101 Train Test Train Test Train Test 4501 120 15000 574 63111 2615 DPL 3,0 0,15 7,5 0,29 90,8 9,75 LC-PDL 2,5 0,1 4,8 0,16 56,5 6,8 DDPL 8,03 0,15 31,2 0,29 405 9,75 FDDL Từ Bảng thấy, phương pháp học cặp từ điển (DPL, LC-PDL DDPL) có thời gian nhận dạng trung bình thấp nhiều so với phương pháp học từ điển FDDL Nguyên nhân phương pháp học từ điển tổng hợp FDDL thời gian tính tốn hệ số mã thưa học cặp từ điển phân tích - tổng hợp tái cấu trúc tín hiệu với hệ số mã thưa cách ánh xạ tuyến tính Mặc dù thời gian huấn luyện phương pháp đề xuất DDPL cao so với phương pháp DPL LC-PDL có thêm vịng lặp lúc cập nhật từ điển phân tích Tuy nhiên, kết nhận dạng cho thấy tỉ lệ nhận dạng phương pháp đề xuất cao phương pháp khác, điều chứng tỏ phương pháp đề xuất hiệu 4.6 Sự tương quan lớp từ điển Giá trị tương quan lớp từ điển mô tả mức độ giống tối đa nguyên tử từ điển hoàn chỉnh đo biểu thức: (a) Extended YaleB (b) AR Hình Tỉ lệ nhận dạng (%) với số nguyên tử từ điển 4.4 Nhận dạng đối tượng Theo cài đặt thử nghiệm từ [7], tập liệu hình ảnh Caltech101, 30 mẫu lớp sử dụng để huấn luyện phần cịn lại sử dụng để kiểm tra Kích thước từ điển 1020, tương ứng với lớp từ điển chứa 10 phần tử 𝜇(𝐷) = max 𝑑𝑖 ∈𝐷𝑖 ,𝑑𝑗 ∈𝐷𝑗,𝑖≠𝑗 𝑑 |⟨‖𝑑 𝑖‖ , 𝑑𝑗 𝑖 ‖𝑑𝑗 ‖2 ⟩| (24) Trong đó, 𝑑𝑖 𝑑𝑗 từ điển phụ lớp thứ i lớp thứ j Bảng Độ xác nhận dạng tập liệu Caltech101 Phương pháp Độ xác SRC 70,7 DKSVD 71,2 LC-KSVD 73,6 DLSI 73,1 FDDL 73,2 DPL 73,9 LC-PDL 74,1 PCANet 74,8 DDPL 75,6 Kết nhận dạng đối tượng sử dụng tập liệu Caltech101 thể Bảng Một lần nữa, thấy tỉ lệ nhận dạng mơ hình DDPL cao mơ hình khác Hình Giá trị tương quan lớp từ điển Giá trị tương quan lớp từ điển tổng hợp so sánh với phương pháp khác thể Hình Có thể thấy rằng, giá trị mơ hình DDPL thấp mơ hình khác, điều chứng tỏ từ điển phụ mơ hình DDPL độc lập có tính phân biệt cao Đây đặc điểm chứng tỏ mơ hình DDPL phù hợp phân loại hình ảnh ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 19, NO 1, 2021 Kết luận Bài báo giới thiệu thuật toán Học cặp từ điển phân biệt sử dụng cho phân loại hình ảnh Với thiết kế điều kiện ràng buộc mạch lạc quy tắc hạng thấp, thuật toán cải thiện khả miêu tả độ phân biệt từ điển so với mơ hình truyền thống Thuật tốn học cặp từ điển sử dụng cho phân loại hình ảnh hiệu với từ điển tổng hợp có độ tương quan lớp thấp từ điển phân tích có hệ số mã hóa lớp Kết thực nghiệm cho thấy tính vượt trội phương pháp đề xuất TÀI LIỆU THAM KHẢO [1] J Wright, A Y Yang, A Ganesh, S S Sastry, Y Ma, “Robust face recognition via sparse representation”, IEEE Trans Pattern Anal Mach Intell., vol 31, no 2, pp 210–227, 2009, doi: 10.1109/TPAMI.2008.79 [2] Y Xu, D Zhang, J Yang, J Y Yang, “A two-phase test sample sparse representation method for use with face recognition”, IEEE Trans Circuits Syst Video Technol., vol 21, no 9, pp 1255–1262, Sep 2011, doi: 10.1109/TCSVT.2011.2138790 [3] M Aharon, M Elad, A Bruckstein, “K-SVD: An algorithm for designing overcomplete dictionaries for sparse representation”, IEEE Trans Signal Process., vol 54, no 11, pp 4311–4322, 2006, doi: 10.1109/TSP.2006.881199 [4] M Elad M Aharon, “Image denoising via sparse and redundant representations over learned dictionaries”, IEEE Trans Image Process., vol 15, no 12, pp 3736–3745, Dec 2006, doi: 10.1109/TIP.2006.881969 [5] X Y Jing, F Wu, X Zhu, X Dong, F Ma, Z Li, “Multi-spectral low-rank structured dictionary learning for face recognition”, Pattern Recognit., vol 59, pp 14–25, Nov 2016, doi: 10.1016/j.patcog.2016.01.023 [6] Q Zhang B Li, “Discriminative K-SVD for dictionary learning in face recognition”, Proc IEEE Comput Soc Conf Comput Vis Pattern Recognit., pp 2691–2698, 2010, doi: 10.1109/CVPR.2010.5539989 [7] Z Jiang, Z Lin, L S Davis, “Label consistent K-SVD: Learning a discriminative dictionary for recognition”, IEEE Trans Pattern Anal Mach Intell., vol 35, no 11, pp 2651–2664, 2013, doi: 10.1109/TPAMI.2013.88 [8] I Ramirez, P Sprechmann, G Sapiro, “Classification and clustering via dictionary learning with structured incoherence and shared features”, in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010, pp 3501–3508, doi: 10.1109/CVPR.2010.5539964 [9] Q Zhang B Li, “Discriminative K-SVD for dictionary learning in face recognition”, in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010, pp 2691–2698, doi: 10.1109/CVPR.2010.5539989 35 [10] H Nguyen, W Yang, B Sheng, C Sun, “Discriminative lowrank dictionary learning for face recognition”, Neurocomputing, vol 173, pp 541–551, Jan 2016, doi: 10.1016/j.neucom.2015.07.031 [11] R Rubinstein, T Peleg, M E.-I T on Signal, and undefined 2012, “Analysis K-SVD: A dictionary-learning algorithm for the analysis sparse model”, ieeexplore.ieee.org [12] R Rubinstein M Elad, “Dictionary Learning for AnalysisSynthesis Thresholding”, IEEE Trans SIGNAL Process., vol 62, no 22, 2014, doi: 10.1109/TSP.2014.2360157 [13] S Gu, L Zhang, W Zuo, X Feng, “Projective dictionary pair learning for pattern classification”, Adv Neural Inf Process Syst., vol 1, no January, pp 793–801, 2014 [14] B Chen, J Li, B Ma, G Wei, “Discriminative dictionary pair learning based on differentiable support vector function for visual recognition”, Neurocomputing, vol 272, pp 306–313, 2018, doi: 10.1016/j.neucom.2017.07.003 [15] Z Zhang et al., “Jointly learning structured analysis discriminative dictionary and analysis multiclass classifier,” IEEE Trans Neural Networks Learn Syst., vol 29, no 8, pp 3798–3814, Aug 2018, doi: 10.1109/TNNLS.2017.2740224 [16] T Lin, S Liu, and H Zha, “Incoherent dictionary learning for sparse representation,” in Proceedings - International Conference on Pattern Recognition, 2012, pp 1237–1240 [17] S Boyd et al., “Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers,” Found Trends R Mach Learn., vol 3, no 1, pp 1–122, 2010, doi: 10.1561/2200000016 [18] J F Cai, E J Candès, and Z Shen, “A singular value thresholding algorithm for matrix completion,” SIAM J Optim., vol 20, no 4, pp 1956–1982, 2010, doi: 10.1137/080738970 [19] A S Georghiades, P N Belhumeur, and D J Kriegman, “From few to many: Illumination cone models for face recognition under variable lighting and pose,” IEEE Trans Pattern Anal Mach Intell., vol 23, no 6, pp 643–660, Jun 2001, doi: 10.1109/34.927464 [20] A Mart Nez and R Benavente, “The AR Face Database,” CVC Tech Rep., 1998 [21] L Fei-Fei, R Fergus, and P Perona, “Learning generative visual models from few training examples: An incremental Bayesian approach tested on 101 object categories,” Comput Vis Image Underst., vol 106, no 1, pp 59–70, Apr 2007, doi: 10.1016/j.cviu.2005.09.012 [22] M Yang, L Zhang, X Feng, and D Zhang, “Fisher Discrimination Dictionary Learning for sparse representation,” Proc IEEE Int Conf Comput Vis., pp 543–550, 2011, doi: 10.1109/ICCV.2011.6126286 [23] Z Zhang, W Jiang, Z Zhang, S Li, G Liu, and J Qin, “Scalable Block-Diagonal Locality-Constrained Projective Dictionary Learning,” IJCAI Int Jt Conf Artif Intell., vol 2019-August, pp 4376–4382, May 2019 [24] T H Chan, K Jia, S Gao, J Lu, Z Zeng, and Y Ma, “PCANet: A Simple Deep Learning Baseline for Image Classification?,” IEEE Trans Image Process., vol 24, no 12, pp 5017–5032, Dec 2015, doi: 10.1109/TIP.2015.2475625