Bài viết này đưa ra tính chất toán học của phép chuẩn hóa CMN và đưa ra chứng minh chặt chẽ của các tính chất trên bằng toán học. Dựa theo các tính chất trên, cho phép đưa ra cách chọn tham số CMN phù hợp thực tế. Đồng thời chỉ ra một ứng dụng của phép chuẩn hóa CMN trong phân cụm ảnh.
JOURNAL OF SCIENCE OF HNUE Educational Sci., 2015, Vol 60, No 7A, pp 137-144 This paper is available online at http://stdb.hnue.edu.vn DOI: 10.18173/2354-1075.2015-0061 MỘT CHỨNG MINH HÌNH THỨC CHO PHÉP BÙ TRỪ PHỔ CMN CỦA TÍN HIỆU SỐ VÀ ỨNG DỤNG TRONG PHÂN VÙNG ẢNH VIỄN THÁM Nguyễn Tu Trung, Ngơ Hồng Huy Viện Cơng nghệ Thơng tin, Viện Hàn lâm Khoa học Cơng nghệ Việt Nam Tóm tắt Phép chuẩn hoá CMN (Cepstral Mean Normalisation) từ lâu sử dụng rộng rãi hiệu xử lí tín hiệu số nhận dạng tiếng nói Tuy nhiên, áp dụng xử lí tín hiệu số thời gian thực, tham số tính đắn CMN chọn kiểm chứng thông qua thực nghiệm tín hiệu thực cụ thể mà thiếu phép chứng minh hình thức chặt chẽ tốn học Bài báo đưa tính chất tốn học phép chuẩn hoá CMN đưa chứng minh chặt chẽ tính chát tốn học Dựa theo tính chất trên, cho phép đưa cách chọn tham số CMN phù hợp thực tế Đồng thời ứng dụng phép chuẩn hóa CMN phân cụm ảnh Từ khóa: Phân cụm, phân vùng ảnh, xử lí tín hiệu số, nhiễu, ảnh viễn thám, CMN, Kmeans, KMeansCMN, Quickbird, Landsat Mở đầu Một vấn đề chung với hệ thống xử lí tiếng nói đặc trưng kênh biến đổi từ phiên sang phiên Một phương pháp sử dụng để cự tiểu hóa ảnh hưởng khác biệt hiệu nhận dạng phép chuẩn hóa trung bình phổ (Cepstral Mean Normalisation - CMN) Phương pháp áp dụng rộng rãi hiệu xử lí tín hiệu số nhận dạng tiếng nói Tuy nhiên, áp dụng xử lí tín hiệu số thời gian thực, tham số tính đắn CMN chọn kiểm chứng thơng qua thực nghiệm tín hiệu thực cụ thể mà thiếu phép chứng minh hình thức chặt chẽ toán học Bài báo đưa tính chất tốn học phép chuẩn hố CMN đưa chứng minh chặt chẽ tính chát tốn học Ngồi ra, báo ứng dụng phép chuẩn hóa CMN phân cụm ảnh viễn thám 2.1 Nội dung nghiên cứu Chứng minh phép chuẩn hóa trung bình phổ ∞ Cho trước {xn }∞ n=1 dãy vector số có số chiều hữu hạn, xác định dãy vector {yn }n=1 sau: y1 = αy0 + βx1 , yn = αyn−1 + βxn , ∀n = 2, , α, β ∈ (0, 1), α + β = 1, y0 = Ngày nhận bài: 15/7/2015 Ngày nhận đăng: 20/11/2015 Liên hệ: Nguyễn Tu Trung, e-mail: nttrung@ioit.ac.vn 137 Nguyễn Tu Trung, Ngơ Hồng Huy xác định trước Trong ứng dụng xử lí tín hiệu số, tiếng nói liệu ảnh thường vectorxn biến đổi xung quanh giá trị trung bình (tổng quát kiểu biến ngẫu nhiên có phân bố) sau phép tiền xử lí tín hiệu qua phép phân cụm, phân loại tín hiệu (chẳng hạn phép phân loại tín hiệu nền/nhiễu/tiếng nói xử lí tiếng nói) Mệnh đề 1: ∀N > 1, n > N n n−1 xk yn − k=1 xk ≤ α yn−1 − n +β α + n k=1 n−1 N max xk + (n − − N ) max 1≤k xn − xk n−1 N max xk + (n − N ) max 1≤k N ≤k≤n N ≤k≤n xn − xk (2.1) n Chứng minh: Do α + β = ta có, n xk yn − k=1 n n−1 n−1 x x k k α = α yn−1 − k=1 + k=1 − xn + β xn − n−1 nn−1 n k=1 xk n Từ suy ước lượng Từ ước lượng nên thực hành thường chọn β gần Mệnh đề 2: ∀N > 1, n > N yn+N − y2N ≤ αN yn − yN + max N +1≤l≤n+N xn+l−N − xl (2.2) (2.3) Chứng minh: ym − yn = α (ym−1 − yn−1 ) + β (xm − xn ) Suy ym − yn ≤ α ym−1 − yn−1 + β xm − xn (2.4) ym−1 − yn−1 ≤ α ym−2 − yn−2 + β xm−1 − xn−1 (2.5) ym − yn ≤ α2 ym−2 − yn−2 + β (α xm−1 − xn−1 + xm − xn ) (2.6) Tương tự Bằng quy nạp ta có N −1 ym − yn ≤ αN ym−N − yn−N + β 138 k=0 αk xm−k − xn−k (2.7) Một chứng minh hình thức cho phép bù trừ phổ CMN tín hiệu số ứng dụng phân vùng Suy N −1 yn+N − y2N ≤ αN yn − yN + β k=0 αk xn+N −k − x2N −k N −1 N ≤α yn − yN + β xn+l−N − xl max N +1≤l≤n+N αk (2.8) k=0 Do N −1 β k=0 αk ≤ β =1 1−α (2.9) Nên yn+N − y2N ≤ αN yn − yN + max N +1≤l≤n+N xn+l−N − xl (2.10) Mệnh đề 3: {xn − yn }∞ n=1 dãy có tổng trung bình phần tử xấp xỉ thời điểm n Chứng minh: xn − yn = α (xn − xn−1 ) + α (xn−1 − yn−1 ) n−1 n k=2 xk − y k (2.12) xk − yk + (x1 − y1 ) − α (xn − yn ) (2.13) xk − yk = α (xn − x1 ) + α n k=1 (2.11) k=1 n xk − yk = α (xn − x1 ) + α k=1 n k=1 xk − y k = x1 + αyn − y1 1−α (2.14) Do giá trị yn bị chặn, n lim k=1 n→∞ xk − y k n =0 (2.15) Nhận xét: Với tín hiệu tiếng nói, thường x1 , y1 xấp xỉ vector 0, nên n k=1 xk − y k ≈ αyn 1−α (2.16) 139 Nguyễn Tu Trung, Ngơ Hồng Huy 2.2 Thuật toán phân cụm Kmeans Thuật toán KMeans [3] bao gồm bước, trình bày sau: Bảng Thuật toán KMeans Đầu vào: n đối tượng số cụm k Đầu ra: Các cụm Ci (i = k) cho hàm mục tiêu E sau đạt cực tiểu: k d2 E= (2.17) i=1 x∈Ci Bước 1: Khởi tạo Chọn k đối tượng Cj (j = k) tâm ban đầu k cụm liệu đầu vào (lựa chọn ngẫu nhiên theo kinh nghiệm) Bước 2: Gán tâm cụm theo khoảng cách Với đối tượng xi (1 ≤ i ≤ n), tính khoảng cách tới tâm Cj với j = k Đối tượng thuộc cụm CS mà khoảng cách từ tâm CS tương ứng đến đối tượng nhỏ d(x, Cs ) = d(c, Cj ), ≤ (2.18) Bước 3: Cập nhật tâm cụm Đối với j = k, cập nhật lại tâm cụm Cj cách xác định trung bình cộng vector đối tượng liệu gán cụm Cj = x∈clust count (clust (2.19) Bước 4: Lặp kiểm tra điều kiện dừng Lặp lại bước tâm cụm không thay đổi hai lần lặp liên tiếp 2.3 Thuật toán phân cụm Kmeans cải tiến Với cơng thức tính tâm (2.13), tâm thu dễ bị ảnh hưởng nhiễu Chúng ta áp dụng phép chuẩn hóa trung bình phổ cơng thức tính tâm cụm giảm nhiễu Tuy nhiên, phép chuẩn hóa tốt số phần tử lớn Trong phần này, đề xuất thuật toán phân cụm KMeansCMN cải tiến cho ảnh viễn thám kích thước lớn với cơng thức tính tâm cụm áp dụng kĩ thuật chuẩn hóa trung bình phổ sau: Bảng Thuật toán KMeanCMN Đầu vào: n đối tượng số cụm k Đầu ra: Các cụm Ci (i = k) cho hàm mục tiêu E sau đạt cực tiểu: k d2 E= i=1 x∈Ci 140 (2.20) Một chứng minh hình thức cho phép bù trừ phổ CMN tín hiệu số ứng dụng phân vùng Bước 1: Khởi tạo Chọn k đối tượng Cj (j = k) tâm ban đầu k cụm liệu đầu vào (lựa chọn ngẫu nhiên theo kinh nghiệm) Bước 2: Gán tâm cụm theo khoảng cách Với đối tượng xi (1 ≤ i ≤ n), tính khoảng cách tới tâm Cj với j = k Đối tượng thuộc cụm CS mà khoảng cách từ tâm CS tương ứng đến đối tượng nhỏ d(x, Cs ) = d(x, Cj ), ≤ (2.21) Bước 3: Cập nhật tâm cụm Đối với j = k, cập nhật lại tâm cụm Cj cách xác định trung bình cộng vector đối tượng liệu gán cụm - Nếu số lượng điểm ảnh cụm nhỏ số lớn Max tâm tính theo công thức (2.13) sau: Ci = x∈cluste count(clus (2.22) - Nếu số lượng điểm ảnh cụm lớn số lớn Max tâm tính theo cơng thức (2.17) sau: Cj = CM N (Clu (2.23) Bước 4: Lặp kiểm tra điều kiện dừng Lặp lại bước tâm cụm không thay đổi hai lần lặp liên tiếp Thủ tục tính tâm cụm CMN(Clusterj ) vòng lặp thứ n sau: Bước 1: Khởi tạo tâm theo công thức Cjn = β (2.24) Bước 2: Với x ∈ tính theo công thức Cjn = αCjn−1 (2.25) Trong nghiên cứu này, chọn max = 50000 = 0.95 2.4 Thực nghiệm Chúng tơi tiến hành thử nghiệm thuật tốn đề xuất KMeansCMN so sánh kết với thuật toán Kmeans sử dụng phổ biến cho phân vùng ảnh viễn thám Giả sử ảnh đầu vào có kích thước M x N điểm ảnh.Chúng tơi thực phân rã wavelet mức Như vậy, ảnh xấp xỉ cực tiểu chúng tơi chọn có kích thước M/8 x N/8 điểm ảnh Tập liệu phục vụ cho thử nghiệm gồm hai loại Một là, loại ảnh LANDSAT ETM+ chụp khu vực Hòa Bình ngày 15/02/2001, bao gồm 11 ảnh ranh giới huyện ảnh theo ranh giới tỉnh tỉnh Hòa Bình Hai là, loại ảnh Quickbird, gồm kênh: Lam, Lục, Đỏ, cận hồng ngoại, tải từ liệu mẫu trang http://opticks.org 141 Nguyễn Tu Trung, Ngơ Hồng Huy Trong thử nghiệm 1, ảnh gốc ảnh vệ tinh Quickbird Trong thử nghiệm 2, ảnh gốc ảnh vệ tinh LANSAT huyện Đà Bắc thuộc tỉnh Hồ Bình Bảng minh họa ảnh đầu vào thử nghiệm Bảng Các ảnh đầu vào tử nghiệm Thử nghiệm Thử nghiệm 2.4.1 Thử nghiệm Dưới ảnh kết phân cụm KMeans KMeansCMN trường hợp cụm với ảnh Quickbird Các ảnh từ đến ảnh cụm Ảnh thứ ảnh thay điểm ảnh gốc tâm cụm Hình Kết phân cụm KMeans Hình Kết phân cụm KMeansCMN Bảng thống kê tâm cụm thu từ KMeans KMeansCMN trường hợp cụm Bảng thống kê số bước lặp thời gian thực thi KMeans KMeansCMN với cụm cụm Bảng Tâm cụm sinh từ KMeans KMeansCMN Cụm KMeans KMeansCMN 178, 170, 132 160, 147, 108 143, 134, 99 137, 123, 83 107, 103, 78 101, 91, 59 61, 62, 48 59, 55, 37 26, 31, 22 24, 27, 17 142 Một chứng minh hình thức cho phép bù trừ phổ CMN tín hiệu số ứng dụng phân vùng Bảng Thời gian phân cụm KMeans Thời gian (ms) 607,818 Số vòng lặp 10 Thời gian (ms) 2,114,812 Số vòng lặp 11 cụm cụm KMeansCMN 498,719 2,004,578 10 2.4.2 Thử nghiệm Dưới ảnh kết phân cụm KMeans KMeansCMN trường hợp cụm với ảnh LANSAT Các ảnh từ đến ảnh cụm Ảnh thứ ảnh thay điểm ảnh gốc tâm cụm Hình Kết phân cụm KMeans Hình Kết phân cụm KMeansCMN Bảng Tâm cụm sinh từ KMeans KMeansCMN Cụm KMeans KMeansCMN 0, 0, 0, 0, 43, 76, 62 50, 77, 59 100, 125, 118 101, 123, 113 79, 70, 50 85, 69, 47 225, 220, 192 225, 217, 183 cụm cụm Bảng Thời gian phân cụm KMeans Thời gian (ms) 263,672 Số vòng lặp 10 Thời gian (ms) 1,658,609 Số vòng lặp 25 KMeansCMN 213,109 1,568,062 23 Bảng thống kê tâm cụm thu từ KMeans KMeansCMN trường hợp cụm 143 Nguyễn Tu Trung, Ngơ Hồng Huy Bảng thống kê số bước lặp thời gian thực thi KMeans KMeansCMN với cụm cụm Nhận xét: Việc tính tâm theo cơng thức (2.17) chắn lâu cơng thức (2.13) Do đó, mặt lí thuyết, nhiều khả thời gian phân cụm KMeansCMN lâu KMeans Tuy nhiên, theo thống kê bảng 7, số vòng lặp thời gian thực thi KMeansCMN Nói cách khác, để thuật tốn hội tụ, KMeansCMN cần số vòng lặp thực thi dẫn tới thời gian thực thi cải thiện Kết luận Trong nghiên cứu này, đề xuất thuật toán KMeansCMN với mục tiêu áp dụng phương thức chuẩn hóa trung bình phổ để tính tâm cụm cho việc phân vùng ảnh viễn thám kích thước lớn Các kết thử nghiệm cho thấy KMeansCMN phân cụm tốt với ảnh viễn thám kích thước lớn Ngồi ra, tốc độ phân cụm KMeansCMN tốt so với KMeans thơng thường Hiện tại, thủ tục tính tâm theo CMN sử dụng nhiều tính tốn với số thưc nên tốc độ chậm Trong nghiên cứu tiếp theo, nhóm tác giả dự kiến sử dụng phương pháp tính tốn chấm tĩnh để tăng cường tốc độ thủ tục để tăng tốc độ phân cụm TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] A.E Hasanien, A Badr, 2003 A Comparative Study on Digital Mamography Enhancement Algorithms Based on Fuzzy Theory Studies in Informatics and Control, Vol.12, No.1, pp 21-31 Chih-Tang Chang cộng sự, 2011 A Fuzzy K-means Clustering Algorithm Using Cluster Center Displacement Journal of Information Science and Engineering 27, pp 995-1009 http://www.onmyphd.com/?p=k-means.clustering S.G.Mallat, 1989 A theory for multi resolution signal decomposition, the wavelet representation IEEE transactions on Pattern Analysis and machine Intelligence, 11(7): 674-693 T Balaji, M Sumathi, 2013 Relational Features of Remote Sensing Image lassification using Effective K-Means Clustering International Journal of Advancements in Research & Technology, Vol 2, Issue 8, pp 103-107 ABSTRACT A formal proof of a cepstal mean normalisation of a digital signal and the application of the signal to segment remote sensing images Cepstal Mean Normalisation has long been used extensively and effectively in digital signal processing and speech recognition However, when applied in digital signal processing in real time, parameters and the rightness of CMN can be selected and verified through experiments on real signals without a strict formal mathematical proof This paper presents mathematical properties of CMN and given strict proof on mathematically Based on the above properties, give selecting parameter of CMN It also indicates that CMN can be applied in a clustering image Keywords: Cepstral Mean Normalisation, CMN, KMeans, KMeansCMN, Quickbird, Landsat 144 ... 27, 17 142 Một chứng minh hình thức cho phép bù trừ phổ CMN tín hiệu số ứng dụng phân vùng Bảng Thời gian phân cụm KMeans Thời gian (ms) 607,818 Số vòng lặp 10 Thời gian (ms) 2,114,812 Số vòng... KMeanCMN Đầu vào: n đối tượng số cụm k Đầu ra: Các cụm Ci (i = k) cho hàm mục tiêu E sau đạt cực tiểu: k d2 E= i=1 x∈Ci 140 (2.20) Một chứng minh hình thức cho phép bù trừ phổ CMN tín hiệu số ứng. .. ym − yn ≤ αN ym−N − yn−N + β 138 k=0 αk xm−k − xn−k (2.7) Một chứng minh hình thức cho phép bù trừ phổ CMN tín hiệu số ứng dụng phân vùng Suy N −1 yn+N − y2N ≤ αN yn − yN + β k=0 αk xn+N −k