Bài viết này trình bày một phương pháp ước lượng nhanh hàm mật độ xác suất bằng cách phân nhóm các điểm ảnh trên miền giá trị và tổ chức dữ liệu trên cây Kd-tree. Kết quả kiểm nghiệm cho thấy phương pháp đề xuất vượt trội các phương pháp khác và có thể ứng dụng trong thực tế.
Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thông Tăng tốc độ phát dị thường ảnh đa phổ siêu phổ ứng dụng tìm kiếm cứu nạn Nguyễn Văn Phương, Đào Khánh Hoài, Tống Minh Đức Học viện Kỹ thuật Quân sự, Hà Nội Tác giả liên hệ: Nguyễn Văn Phương, phuongnv@mta.edu.vn Ngày nhận bài: 14/06/2019, ngày sửa chữa: 27/10/2019, ngày duyệt đăng: 27/10/2019 Định danh DOI: 10.32913/mic-ict-research-vn.v2019.n2.866 Biên tập lĩnh vực điều phối phản biện định nhận đăng: TS Phan Anh Huy Tóm tắt: Máy dị dị thường Reed Yu đề xuất công nhận máy chuẩn để phát dị thường ảnh đa phổ siêu phổ Tuy nhiên, máy có số hạn chế: liệu ảnh phải tn theo mơ hình Gauss đa biến, tính tốn nghịch đảo ma trận hiệp phương sai phức tạp ảnh có kích thước lớn, hoạt động thiếu ổn định, đơi có tỉ lệ báo động giả cao, thiếu mối liên hệ không gian điểm ảnh Quy tắc định Neyman-Pearson thường sử dụng dựa việc tính toán hàm mật độ xác suất phi tham số liệu để nâng cao hiệu suất độ tin cậy, lại có độ phức tạp tính tốn cao Để giảm độ phức tạp tính tốn thời gian tính tốn, nhiều phương pháp sử dụng, như: biến đổi Fourier nhanh, biến đổi Gauss nhanh, lập trình đa luồng xử lý trung tâm (CPU), song song xử lý đồ họa (GPU) Bài báo trình bày phương pháp ước lượng nhanh hàm mật độ xác suất cách phân nhóm điểm ảnh miền giá trị tổ chức liệu Kd-tree Kết kiểm nghiệm cho thấy phương pháp đề xuất vượt trội phương pháp khác ứng dụng thực tế Từ khóa: Tăng tốc độ phát dị thường, Kd-tree, ước lượng mật độ phi tham số Title: Abstract: Keywords: Acceleration of Anomaly Detection in Multispectral and Hyperspectral Images for Search and Rescue Situations Reed-Yu detector is recognized as a standard algorithm for detecting anomalies on multispectral and hyperspectral images However, this detector has several limitations: image data must follow the multivariate Gaussian model, calculation of the covariance matrix inverse is complex for large size background images is a complex, lack of robustness, high false alarm rates sometimes, lack of spatial correlation among pixels The Neyman-Pearson detection criterion is often applied on the nonparametric probability density function of the background data for effectiveness and reliability, at the expense of high computational complexity To reduce the computational complexity, various methods can be applied, such as: fast Fourier transform, fast Gaussian transform, multi-threaded programming on CPU, parallel on GPU This paper proposes a method for fast estimation of the density by grouping pixels based on the range of pixels and organizing the data using the Kd-tree The experimental results show that the proposed method outperforms the state-of-the-art methods and can be applied in practice Acceleration of anomaly detection, Kd-tree, non-parametric density estimation I MỞ ĐẦU rào cản việc tìm kiếm thủ cơng mắt thường Các kỹ thuật tiền xử lý liệu thuật tốn tìm kiếm tự động giải pháp phù hợp giúp người quan sát nâng cao hiệu suất tốc độ tìm kiếm Tự động phát mục tiêu dựa đặc trưng hình học sử dụng để tiếp cận vấn đề Tuy nhiên, đặc trưng hình học đối tượng quan tâm không xác định rõ hầu hết tình tìm kiếm cứu nạn Mặc dù trực tiếp tìm người gặp nạn lý tưởng, số trường hợp đồ vật kèm quần áo, vật dụng cá nhân, mảnh vỡ phương tiện, v.v cung cấp số thơng tin hữu ích Vì vậy, phát Hoạt động tìm kiếm cứu nạn bao gồm việc tìm kiếm giải cứu người, phương tiện bị mắc kẹt tình khó khăn báo nạn Một cách tiếp cận ngày sử dụng nhiều tìm kiếm cứu nạn sử dụng ảnh đa phổ hay siêu phổ có độ phân giải cao thu từ cảm biến gắn máy bay vệ tinh Tuy nhiên, ảnh hưởng bất lợi gây đặc trưng địa hình, điều kiện thời tiết khắc nghiệt làm cho tọa độ báo nạn có dung sai lớn Các thiết bị cảm biến thu liệu phải quét diện rộng dung lượng liệu lớn 70 Tập 2019, Số 2, Tháng 12 dị thường cung cấp cách tiếp cận phù hợp cho vấn đề Dị thường ảnh đa phổ siêu phổ xác định điểm ảnh cụm điểm ảnh có phổ bật khác biệt nhiều so với điểm ảnh lân cận Những điểm ảnh thường thưa thớt đại diện cho ảnh [1] Nói chung, dấu hiệu dị thường nhỏ mặt không gian tồn với xác suất thấp cảnh ảnh Matteoli nhóm tác giả đưa chiến lược để định điểm ảnh có phải dị thường dựa định lý Neyman-Pearson sử dụng hàm PDF Trong tác giả kiểm nghiệm ba hàm nhân PDF: hạt nhân Gauss cố định băng thông, hạt nhân Gauss không cố định băng thông (VKDE) tìm kiếm 𝑘 láng giềng gần nhất, để ước lượng hàm mật độ giống [1] Kết ba hàm nhân PDF cho hiệu suất phát dị thường cao RXD Năm 2017, nghiên cứu [18] Zhao cộng sự, kết hợp phương pháp ước lượng mật độ phi tham số phát dựa biểu diễn mối quan hệ tương quan (CRD), cho thấy hiệu suất phát dị thường cao vượt RXD Trong 20 năm qua, cộng đồng nghiên cứu giới xây dựng nhiều dò dị thường để phát điểm ảnh dị thường ảnh đa phổ, siêu phổ Dựa kỹ thuật khác máy dò, dựa bốn nhóm giải pháp chính: thống kê, hạt nhân, khơng gian đặc trưng phân đoạn [2] Máy dò dị thường Reed Yu xây dựng vào năm 1990 [3] máy dò dị thường dựa thống kê gọi máy dò RX (RXD) RXD khơi nguồn cho nhiều thuật toán phát triển sau [2] coi máy phát dị thường chuẩn cho hình ảnh đa phổ, siêu phổ [4] Hiệu RXD việc phát dị thường từ ảnh đa phổ siêu phổ kiểm chứng [1, 3–9] Mặc dù vậy, RXD có hạn chế định Thứ nhất, việc ước lượng nghịch đảo ma trận hiệp phương sai liệu với kích thước chiều liệu lớn thường phức tạp hoạt động không ổn định [10, 11] dẫn đến làm suy yếu thuật tốn Thứ hai, đơi RXD gây tỷ lệ báo động giả cao (ví dụ, đơn lẻ đồng cỏ phát dị thường cục tồn ảnh có khu rừng) [11–14] Thứ ba, RXD giả định liệu tn theo mơ hình Gauss đa biến, có nhiều trường hợp giả định khơng đầy đủ thực tế cảnh ảnh đa dạng chứa nhiều lớp đối tượng khác [11, 14, 15] Thứ tư, RXD thiếu mối liên hệ không gian, điểm ảnh đánh giá riêng lẻ không quan tâm đến điểm ảnh xung quanh Tuy nhiên, độ phức tạp tính tốn kỹ thuật phi tham số ước lượng hàm mật độ xác suất 𝑂 (𝑘𝑛2 ), 𝑛 số lượng điểm ảnh 𝑘 số kênh phổ, làm cho việc tính tốn tốn thời gian (trong phần thực nghiệm báo, ảnh màu ba kênh RGB, kích thước 3396×3349 pixel tốn gần 21 ngày để tính tốn) dẫn đến khả ứng dụng vào thực tế hạn chế, đặc biệt ứng dụng cơng tác tìm kiếm cứu nạn Để tăng tốc độ tính tốn, giảm thời gian xử lý, số kỹ thuật gần đề xuất Đầu tiên, đề xuất Silverman nghiên cứu [19] sử dụng biến đổi Fourier nhanh (FFT) để ước lượng mật độ Nó làm giảm đáng kể yêu cầu tính tốn phương pháp ước tính mật độ, giảm độ phức tạp tính tốn từ 𝑂 (𝑁 ) xuống 𝑂 (𝑁 log 𝑁) Một phương pháp khác áp dụng biến đổi Gauss nhanh (FGT) Elgammal cộng đề xuất nghiên cứu [20] Phương pháp giảm độ phức tạp tính tốn từ 𝑂 (𝑁 𝑀) xuống cịn 𝑂 (𝑁 + 𝑀) Trong đó, 𝑁 = 𝑘𝑛 kích thước liệu, 𝑀 số lượng mục tiêu cần tính PDF Mặc dù hai phương pháp FFT FGT giảm độ phức tạp tính tốn PDF đổi lại, việc tính tốn gần giảm hiệu suất phát dị thường thuật toán Để giảm hạn chế RXD, vài năm gần nhà khoa học áp dụng quy tắc định dựa kiểm nghiệm tỷ lệ khả (LRT) dựa hàm mật độ xác suất (PDF) liệu để phát dị thường ảnh đa phổ ảnh siêu phổ Cụ thể, năm 2011 nghiên cứu [16] Veracini cộng sự, phương pháp đề xuất sử dụng Parzen Widnow (PW) để ước tính PDF cho kết đáng tin cậy Sau PDF xấp xỉ thông qua PW, dùng làm đầu vào để phát dấu hiệu dị thường ảnh dựa kiểm nghiệm tỷ lệ khả Năm 2012, nghiên cứu [1], Bolukbasi cộng xây dựng kiểm nghiệm giả thuyết nhị phân cho phát dị thường sử dụng thuật tốn KNN để tìm 𝑘 láng giềng gần để tính hàm mật độ xác suất phi tham số cho điểm ảnh xét Kết thu vượt so với RXD Năm 2014, nghiên cứu [17], Ngoài ra, cách tiếp cận khác để giảm thời gian tính tốn song song hóa q trình ước tính mật độ hàm hạt nhân mạng máy tính, CPU GPU Trong nghiên cứu [21], Lukasik đề xuất sử dụng thư viện giao thức truyền thơng điệp (MPI) để song song hóa việc ước lượng hàm mật độ xác suất Năm 2013, Michailidis Margaritis song song hóa ước lượng mật độ hàm hạt nhân khung lập trình khác Pthreads, OpenMP, Intel Cilk ++, Intel TBB SWARM [22] Cũng năm 2013, họ tiếp tục song song hóa ước lượng hàm mật độ hạt nhân tảng GPU CUDA [23] Ưu điểm phương pháp không làm thay đổi hiệu suất phát dị thường thuật toán Tuy nhiên, độ phức tạp tính tốn PDF khơng thay đổi, 𝑂 (𝑘𝑛2 ); thời gian tính tốn giảm phương pháp chia tổng khối lượng công việc làm nhiều phần tính tốn đồng thời 71 Các cơng trình nghiên cứu phát triển Công nghệ Thông tin Truyền thơng Qua q trình nghiên cứu chúng tơi thấy rằng, cơng thức tính mật độ xác suất, việc tìm điểm ảnh phạm vi băng thông để hàm hạt nhân khác tiêu tốn nhiều thời gian Vì vậy, để giảm thời gian tính tốn, chúng tơi phân điểm ảnh nhóm giá trị Mục đích làm giảm số lượng liệu cần tính tốn, thay phải tính tốn tồn 𝑛 điểm ảnh, phải tính tốn 𝑚 nhóm điểm ảnh, với 𝑚 nhỏ nhiều so với 𝑛 Trong tự nhiên, lớp phủ thực địa ln có tính chất phân lớp đối tượng, lớp phủ đồng số lượng nhóm Bởi vậy, bước phân nhóm điểm ảnh làm giảm đáng kể số lượng điểm liệu cần xét đến Bước tiếp theo, tổ chức liệu theo Kd-tree liệu chưa phân nhóm liệu sau phân nhóm để tăng tốc độ tìm kiếm điểm liệu phạm vi băng thông thỏa mãn hàm hạt nhân khác Đối với liệu chiều, xét vector ngẫu nhiên x = (𝑥1 , 𝑥2 , , 𝑥 𝑛 )𝑇 biến ngẫu nhiên x có 𝑛 phần tử Điều có nghĩa có 𝑛 quan sát biến ngẫu nhiên x 𝑥𝑖 quan sát thứ 𝑖 biến ngẫu nhiên x Khi đó, mật độ hạt nhân biến ngẫu nhiên x ước lượng sau: 𝑓ˆ(𝑥𝑖 ) = 𝑛 𝑓ˆ(x𝑖 ) = 𝑛 Uniform Hypercube Triangular Epanechnikov Quartic 𝐾 (𝑢) − |𝑢 | 3𝑢 √ − √ 20 15 (1 − 𝑢 ) 16 [27] |𝑢 | ≤ 1 |𝑢 | ≤ |𝑢 | ≤ √ |𝑢 | ≤ 35 (1 − 𝑢 ) 32 |𝑢 | ≤ Tricube 70 (1 − |𝑢 | ) 81 |𝑢 | ≤ Gaussian √ Cosine 𝜋 𝜋 𝑐𝑜𝑠 𝑢 𝑒− 𝑢 𝑥 𝑖𝑑 − 𝑥 𝑑𝑗 𝐾 ℎ𝑑 ℎ𝑑 , 𝑖 = 1, 2, , 𝑛 (2) |𝑢 | ≤ Triweight 𝑘 𝑑=1 Trong thuật toán 1, X liệu ảnh đa phổ siêu phổ tổ chức thành ma trận hai chiều từ nhiều vector, số chiều thứ tương ứng với vị trí khơng gian điểm ảnh, chiều thứ hai chứa liệu kênh ảnh vị trí đó, 𝑛 tổng số điểm ảnh, 𝑘 số kênh phổ, ℎ băng thông hàm ước lượng mật độ, pdf vector lưu trữ mật độ xác suất điểm ảnh Trong thuật toán 1, hàm Kernel thiết kế riêng thuật tốn phía sau phải sử dụng đến Trong hàm Kernel, x𝑖 vector giá trị điểm ảnh cần tính mật độ, x 𝑗 vector giá trị điểm ảnh nằm băng thông, 𝐾 (𝑢) hàm nêu bảng I Thuật tốn có độ phức tạp tính tốn 𝑂 (𝑘𝑛2 ) Điều kiện 𝑛 𝑗=1 Đối với ảnh đa phổ siêu phổ, liệu thuộc dạng đa biến, sử dụng cơng thức (2) để cài đặt thuật tốn Khơng làm tính tổng qt, chúng tơi cố định băng thông, đặt ℎ = ℎ1 = ℎ2 = · · · = ℎ 𝑑 với 𝑑 = 1, 2, , 𝑘 Thuật toán viết giả lập theo ngơn ngữ lập trình C để ước tính mật độ liệu đa biến theo phương pháp CPU, thuật toán Lukasik [21], Michailidis Margaritis [22, 23] xây dựng Phương pháp ước lượng mật độ xác suất phi tham số cơng cụ ước lượng mật độ hạt nhân (KDE) Rosenblatt công bố vào năm 1956 [24] sau Parzen phát triển, cơng bố vào năm 1962 [25] Tên hàm nhân 𝑖 = 1, 2, , 𝑛, (1) Trong trường hợp liệu có 𝑘 chiều, quan sát thứ 𝑖 X = (x1 , x2 , , x𝑛 )𝑇 x𝑖 = (𝑥𝑖1 , 𝑥𝑖2 , , 𝑥 𝑖𝑘 )𝑇 , 𝑖 = 1, , 𝑛, công thức ước tính mật độ hạt nhân liệu đa biến định nghĩa [27] là: II ƯỚC LƯỢNG MẬT ĐỘ HẠT NHÂN HÌNH 𝑥𝑖 − 𝑥 𝑗 , 𝐾 ℎ𝑗 ℎ𝑗 𝑓ˆ(·) gọi hàm mật độ xác∫suất (PDF), 𝐾 (𝑢) ∞ gọi hàm nhân thỏa mãn điều kiện −∞ 𝐾 (𝑢)𝑑 (𝑢) = ℎ 𝑗 hệ số tỷ lệ định “khoảng rộng” hàm nhân hay gọi băng thông Thảo luận mở rộng thuộc tính thống kê 𝑓ˆ(·) tìm thấy [26], 𝐾 (𝑢) hàm nhân điển hình Hardle trình bày [27] thể bảng I Phần báo cấu trúc sau Phần II trình bày lý thuyết ước lượng mật độ phi tham số thuật toán để thực việc ước lượng Phần III trình bày phương pháp phân nhóm liệu, xây dựng, tìm kiếm Kd-tree thuật tốn để tính tốn PDF liệu nhóm tổ chức vào Kd-tree Phần IV trình bày kết thực nghiệm ba loại ảnh (ảnh đa phổ kênh phổ, ảnh đa phổ kênh ảnh siêu phổ 224 kênh) Cuối kết luận tài liệu tham khảo Bảng I MỘT SỐ HÀM NHÂN ĐIỂN 𝑛 𝑗=1 III TĂNG TỐC ĐỘ ƯỚC LƯỢNG HÀM MẬT ĐỘ Như phân tích phần II, thuật tốn có độ phức tạp tính tốn 𝑂 (𝑘𝑛2 ) Đây độ phức tạp tính tốn theo hàm số mũ Trong phần thực nghiệm nghiên cứu [20], tác giả sử dụng 100.000 điểm liệu để kiểm nghiệm thời gian tính tốn ngày Trên thực tế, thời gian chúng tơi tính tốn PDF cho ảnh màu RGB 11.373.204 điểm 2𝜋 |𝑢 | ≤ 72 Tập 2019, Số 2, Tháng 12 Function Kernel Input: điểm ảnh xét 𝑥𝑖 , điểm ảnh kiểm tra 𝑥 𝑗 , số kênh phổ 𝑘, băng thông ℎ Output: Giá trị 𝐾 (𝑢) mul_ker ← 1; for 𝑑 ← to 𝑘 − 𝑥𝑖𝑑 − 𝑥 𝑑𝑗 mul_ker ← mul_ker × × 𝐾 ; ℎ ℎ end return mul_ker; Thuật toán 1: Thuật toán ước lượng mật độ hạt nhân [21–23] input: Ma trận điểm ảnh 𝑥, số điểm ảnh 𝑛, số kênh phổ 𝑘, băng thông ℎ output: Mật độ xác suất điểm ảnh pdf for 𝑖 ← to 𝑛 − 𝑠𝑢𝑚_𝑘𝑒𝑟 ← 0; for 𝑗 ← to 𝑛 − sum_ker ← sum_ker + Kernel(𝑥𝑖 , 𝑥 𝑗 , 𝑘, ℎ); end sum_ker pdf[𝑖] ← ; 𝑛 end return pdf; tìm tập hợp Mục đích tổ chức liệu theo cấu trúc Kd-tree để nhanh chóng tìm tập hợp điểm ảnh làm cho 𝐾 (𝑢) ≠ Do tính chất Kd-tree, nút chia không gian thành hai phần nên bắt đầu xét từ nút gốc, điểm x𝑖 nhỏ gốc khoảng 𝑟 rõ ràng điểm ảnh đáp ứng điều kiện 𝐾 (𝑢) ≠ phải nằm nhánh bên trái nút gốc, phải tìm điểm liệu nằm nhánh bên trái gốc mà không cần quan tâm đến những nút liệu nằm nhánh bên phải nút gốc Và ngược lại, phải tìm những điểm ảnh nằm nhánh bên phải gốc mà không cần quan tâm đến điểm ảnh nằm bên nhánh bên trái nút gốc Vì vậy, việc áp dụng Kd-tree giảm thời gian tính tốn hàm tính tổng công thức (2) ảnh 21 ngày; thời gian tính tốn PDF cho ảnh kênh phổ 710.613 điểm ảnh Do đó, khó áp dụng phương pháp ứng dụng thực tế, cơng tác tìm kiếm cứu nạn địi hỏi cao thời gian đưa định Quan sát công thức (2) cho thấy điểm ảnh làm cho 𝐾 (𝑢) ≠ có ý nghĩa, điểm ảnh cịn lại khơng làm tăng giá trị 𝑓ˆ(x𝑖 ) Vì vậy, tìm tập hợp điểm ảnh thỏa mãn điều kiện 𝐾 (𝑢) ≠ Qua trình nghiên cứu, nhận thấy rằng, công đoạn để tìm điểm ảnh thỏa mãn 𝐾 (𝑢) ≠ tiêu tốn nhiều thời gian Vì vậy, phương pháp nghĩ đến làm để giảm bớt liệu tính tốn mà khơng làm thay đổi kết đầu Đối với ảnh đa phổ, khả điểm ảnh có vector phổ giống tương đối cao, ảnh màu RGB Do đó, chúng tơi chia điểm ảnh thành 𝑚 nhóm có giá trị Như vậy, thay phải tính tốn PDF cho 𝑛 điểm ảnh phải tính tốn PDF cho 𝑚 nhóm điểm ảnh, điểm ảnh nhóm có giá trị mật độ xác suất giống Khi đó, 𝑚 nhỏ thời gian tính tốn nhanh Những bước trình tiền xử lý liệu trước liệu dùng để ước lượng hàm mật độ xác suất Dưới đây, trình bày chi tiết hai bước tiền xử lý việc ước lượng hàm mật độ xác suất Nhóm điểm ảnh có giá trị phổ Đối với ảnh đa phổ ảnh siêu phổ, trình tìm kiếm điểm ảnh có phổ trùng nhiều thời gian, với độ phức tạp tính tốn 𝑂 (𝑘𝑚𝑛), 𝑚 số nhóm điểm ảnh có phổ trùng nhau, 𝑛 số điểm ảnh 𝑘 số kênh ảnh Để giảm độ phức tạp tính tốn, ý tưởng nhóm điểm ảnh giá trị xây dựng mảng hai chiều, gọi mảng A Kích thước chiều thứ A số lượng tổ hợp màu kênh ảnh Ví dụ, với ảnh màu RGB 24 bit, chiều thứ mảng A có kích thước 16.777.216 Kích thước chiều thứ hai A cấp phát linh động để lưu trữ vị trí khơng gian ảnh điểm ảnh thuộc nhóm Tiếp theo, chúng tơi tổ chức liệu theo cấu trúc Kd-tree [28] Về chất Kd-tree nhị phân nút có nhiều hai Nút chứa điểm liệu 𝑘 chiều, nút nút tạo siêu phẳng tách (lát cắt) để phân chia không gian thành hai phần, gọi nửa không gian Các điểm bên trái siêu phẳng biểu thị bên trái nút điểm bên phải siêu phẳng thể bên phải Những điểm ảnh x 𝑗 thỏa mãn 𝐾 (𝑢) ≠ phải điểm ảnh láng giềng gần x𝑖 Nói cách khác điểm ảnh phải nằm hình siêu cầu có bán kính 𝑟 cho trước, tâm x𝑖 Thông thường phải duyệt hết tồn liệu Thuật tốn nhóm chạy qua điểm ảnh, tính giá trị tổ hợp màu điểm ảnh theo cơng thức sau: 𝑘−1 Max𝑑 × 𝑥 𝑖𝑑 , index𝑖 = 𝑑=0 73 𝑖 = 1, 2, , 𝑛, (3) Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thơng Max giá trị lớn kênh ảnh tất điểm ảnh (thông thường, ảnh lưu trữ bit/kênh ta có Max = 256, 10 bit/kênh Max = 1024, ), index𝑖 tương ứng với số chiều thứ mảng A Chiều thứ hai mảng A tự động tăng thêm nhớ để lưu trữ vị trí khơng gian điểm ảnh Thuật tốn 2: Thuật tốn nhóm điểm ảnh (CreateGroup) Thuật tốn nhóm trình bày cụ thể thuật tốn Độ phức tạp thuật toán 𝑂 (𝑘𝑛) Trong thuật toán, phải xây dựng cấu trúc để lưu trữ thơng tin nhóm điểm ảnh Trong cấu trúc nhóm điểm ảnh phải lưu trữ giá trị phổ điểm ảnh số điểm ảnh thuộc nhóm Cơng việc tìm giá trị Max để có sở tính tốn kích thước chiều thứ mảng A (tính tốn size = Max 𝑘 ), khởi tạo mảng A với chiều thứ có kích thước size, chiều thứ hai ∅ Trong vịng lặp chính, tính giá trị tổ hợp màu điểm ảnh thứ 𝑖 gán cho index, số index mảng A, điểm ảnh thứ 𝑖 thêm vào nhóm Cuối cùng, loại bỏ nhóm điểm ảnh khơng chứa điểm ảnh ta nhóm điểm ảnh 10 11 12 13 14 15 Để ước lượng mật độ xác suất cho điểm ảnh, công thức (2) biến đổi thành: 16 17 18 𝑓ˆ𝐺 (g𝑖 ) = 𝑛 𝑚 𝑗=1 𝑘 𝑔𝑖𝑑 − 𝑔 𝑑𝑗 𝐾 ℎ𝑑 ℎ𝑑 × |𝑀 𝑗 | , 19 (4) 20 input: Ma trận điểm ảnh 𝑥, số điểm ảnh 𝑛, số kênh phổ 𝑘 output: vector nhóm điểm ảnh groups Max ← phần tử có giá trị lớn ma trận 𝑥; size ← Max 𝑘 ; Khởi tạo ma trận A, chiều thứ có kích thước 𝑠𝑖𝑧𝑒; for 𝑖 ← to size − A[i]← {∅} end for 𝑖 ← to 𝑛 − index ← 0; for 𝑑 ← to 𝑘 − index ← index + Max𝑑 × 𝑥𝑖𝑑 ; end A[index]← A[index] ∪ {𝑖} end groups ← {∅}; for 𝑖 ← to size − if A[i]≠ ∅ then groups ← groups ∪ {A[𝑖]} end end return groups; 𝑑=1 𝑓ˆ𝐺 (𝑔𝑖 ) hàm ước tính mật xác suất nhóm thứ 𝑖, đó, tất điểm ảnh nhóm thứ 𝑖 có mật độ xác suất nhau, 𝑖 = 1, 2, , 𝑚, 𝑚 tổng số nhóm, g𝑖 vector chứa giá trị kênh phổ nhóm thứ 𝑖, 𝑀 𝑗 tập hợp điểm ảnh nhóm thứ 𝑗, |𝑀 𝑗 | kích thước tập hợp 𝑀 𝑗 Xây dựng tìm kiếm Kd-tree Cây Kd-tree phát triển công bố Bentley [28] vào năm 1975 Về chất, nhị phân (do nút có tối đa nhánh con), nút biểu diễn phân vùng không gian 𝑘 chiều Nút gốc đại diện cho tồn khơng gian, nút đại diện cho không gian chứa tập độc tập liệu đầu vào Điểm đặc biệt Kd-tree đỉnh điểm phân chia không gian thành hai phần Việc phân chia không gian thuận tiện cho tìm kiếm điểm gần với điểm vùng khơng gian Điều có nghĩa rằng, việc tìm điểm thuộc gần với điểm khơng gian dựa số phép phân hoạch không gian để loại bỏ vùng không gian không cần thiết, thu hẹp khơng gian tìm kiếm Hình a) Minh họa phân chia miền không gian, b) Minh họa Kd-tree xây dựng từ liệu cho Để hiểu rõ Kd-tree, xét ví dụ xây dựng Kd-tree từ liệu chiều (30, 40), (5, 25), (10, 12), (70, 70), (50, 30), (35, 45), chi tiết thể hình Trong đó, hình 1(a) thể vùng không gian chia, đường thẳng liền nét đường chia không gian liệu theo chiều thứ (chiều 𝑥), đường thẳng nét đứt chia không gian liệu theo chiều thứ hai (chiều 𝑦) Hình 1(b) thể Kd-tree xây dựng từ liệu 74 Tập 2019, Số 2, Tháng 12 Quy tắc xây dựng phân chia không gian sau Chọn điểm liệu làm gốc, gốc chia tồn khơng gian liệu theo chiều thứ làm hai phần (trong ví dụ, điểm gốc chọn (30, 40), điểm chia tồn khơng gian liệu theo chiều 𝑥 thành phần, phần bên trái điểm liệu có chiều 𝑥 nhỏ 30, phần bên phải điểm liệu có chiều 𝑥 lớn 30) Tiếp theo, xét điểm liệu, so sánh điểm liệu với nút cây, gốc Quy tắc so sánh sau Giả sử liệu có 𝑘 chiều (quy định đến 𝑘 − 1), lấy bậc nút cần so sánh chia cho 𝑘 phần dư, phần dư chiều liệu dùng để so sánh Nếu điểm liệu nhỏ với nút so sánh điểm liệu nằm bên trái nút so sánh, ngược lại nằm bên phải Tiếp tục so sánh đến gặp thêm điểm liệu vào Thuật toán 3: Tạo Kd-tree (Create Kd-tree) 10 11 12 13 Thuật toán xây dựng Kd-tree từ điểm ảnh ảnh đầu vào Trong thuật toán này, phải xây dựng cấu trúc nút Kd-tree để lưu trữ liệu số thuộc tính khác node, sau xây dựng hàm InsertNode để chèn nút vào cây, cuối xây dựng hàm CreateKDTree để xây dựng thành hồn chỉnh Độ phức tạp tính tốn xây dựng Kd-tree 𝑂 (𝑛 log 𝑛) [29] 14 15 16 17 18 19 Sau xây dựng Kd-tree (theo thuật toán 3), mục tiêu sử dụng để tìm tất điểm ảnh đáp ứng điều kiện 𝐾 (𝑢) ≠ Trong bảng I, thấy ngoại trừ hàm nhân Gauss khơng có điều kiện, nhân cịn lại có điều kiện |𝑢| = 𝑥𝑖𝑑 − 𝑥 𝑑𝑗 20 21 22 Function InsertNode() input: nút gốc root, điểm liệu point, số chiều liệu 𝑘, mức level; output: điểm liệu thêm vào cây; Tìm chiều khơng gian liệu: axis ← level %𝑘; if root = ∅ then - Khởi tạo nút mới; - Gán nút khởi tạo cho root; else if point[axis]data[axis] then InsertNode(root → left, point, 𝑘, level + 1) else InsertNode(root → right, point, 𝑘, level+1) end end Function CreateKDTree() input: Ma trận điểm ảnh X, số điểm ảnh 𝑛, số kênh phổ 𝑘; output: Cây Kd-tree hoàn chỉnh; KDNode*root ← ∅; for 𝑖 ← to 𝑛 − InsertNode(root, x𝑖 , 𝑘, 0); end return root; ≤ 𝜖, ℎ với 𝑖 = 1, 2, , 𝑛, 𝑗 = 1, 2, , 𝑛 𝑑 = 1, 2, , 𝑘 𝐾 (𝑢) có giá trị, ngược lại 𝐾 (𝑢) = Tùy thuộc vào hạt nhân cụ thể mà 𝜖 nhận giá trị khác Đặt 𝑟 = ℎ × 𝜖, để hạt nhân 𝐾 (𝑢) ≠ |𝑥𝑖𝑑 − 𝑥 𝑑𝑗 | ≤ 𝑟 Điều có ý nghĩa với điểm 𝑥 𝑖 xem xét, điểm 𝑥 𝑗 nằm hình siêu cầu bán kính 𝑟 (sử dụng thước đo khoảng cách Chebyshev [30] để đo khoảng cách từ điểm 𝑥𝑖 tới điểm 𝑥 𝑗 ) điểm chọn để tính 𝐾 (𝑢) Xem minh họa hình 2, điểm liệu cần tính tốn PDF (25,45) với 𝑟 = 10 điểm liệu (35,45) (30, 40) nằm hình trịn bán kính 𝑟 thỏa mãn điệu kiện để 𝐾 (𝑢) ≠ Vì vậy, điểm liệu tham gia tính tốn PDF cho điểm liệu xét Hình Minh họa điểm chọn để tính 𝐾 (𝑢) danh sách list Đầu tiên, thuật toán kiểm tra nút gốc root, rỗng khỏi thuật tốn Tiếp đến tính tốn khoảng cách từ điểm xét đến root (sử dụng phương pháp tính khoảng cách Chebyshev), tìm chiều liệu để so sánh Kiểm tra root nằm hình siêu cầu thêm root vào list So sánh điểm xét với root, Thuật tốn tìm kiếm điểm ảnh nằm hình siêu cầu có bán kính 𝑟, có tâm 𝑥𝑖 Thuật toán sử dụng phương pháp đệ quy để tìm kiếm danh sách điểm liệu nằm hình siêu cầu bán kính 𝑟 có tâm điểm xét Những điểm liệu thỏa mãn u cầu lưu 75 Các cơng trình nghiên cứu phát triển Công nghệ Thông tin Truyền thơng Thuật tốn 4: Search [27] 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 Thuật tốn 5: Thuật tốn tính PDF liệu đầu vào GRP input: Ma trận điểm ảnh 𝑥, số điểm ảnh 𝑛, số kênh phổ 𝑘, băng thông ℎ; output: Mật độ xác suất điểm ảnh pdf; groups ← CreateGroup(X, 𝑛, 𝑘); 𝑚 ← |groups|; for 𝑖 ← to 𝑚 − 𝑠𝑢𝑚_𝑘𝑒𝑟 ← 0; for 𝑗 ← to 𝑚 − sum_ker ← sum_ker + Kernel(groups𝑖 , groups 𝑗 , 𝑘, ℎ) × |groups 𝑗 |; end for 𝑗 ← to |groups𝑖 | − sum_ker ; 𝑝𝑑𝑓 [groups[𝑖].index𝑒𝑠[ 𝑗]] ← 𝑛 10 end 11 end 12 return pdf; input: Node gốc root, điểm cần tính PDF query, số chiều liệu 𝑘, bán kính siêu cầu 𝑟; output: Danh sách điểm tìm thấy list; if root= ∅ then return end Tính khoảng cách từ query đến root, gán vào 𝑑; Tìm chiều liệu so sánh: axis ← root.level%𝑘; if 𝑑 ≤ 𝑟 then list ← list ∪ {root}; end if query[axis] < root.data[axis] then if root.left ≠ ∅ then Search(root.left, query, 𝑟, list); end if root.right ≠ ∅ then if |query[axis] − root.data[axis] | ≤ 𝑟 then Search(root.right, query, 𝑟, list); end end else if root.right ≠ ∅ then Search(root.right, query, 𝑟, list); end if root.left ≠ ∅ then if |query[axis] − root.data[axis] | ≤ 𝑟 then Search(root.left, query, 𝑟, list); end end end 𝑐 𝑖 tổng số điểm ảnh nằm hình siêu cầu bán kính 𝑟 có tâm 𝑥𝑖 tìm thuật tốn 4, 𝑝 𝑖 𝑗 vector chứa giá trị kênh phổ điểm ảnh thứ 𝑗 danh sách điểm ảnh tìm thấy thuật tốn Với việc xếp nhóm điểm ảnh Kd-tree cơng thức ước lượng mật độ xác suất điểm ảnh viết lại sau: 𝑓ˆ𝐺 (g𝑖 ) = 𝑛 𝑗=1 𝑘 𝑑=1 𝑥 𝑖𝑑 − 𝑝 𝑖𝑑𝑗 𝐾 ℎ𝑑 ℎ𝑑 , 𝑖 = 1, 2, , 𝑛, 𝑔𝑖𝑑 − 𝑝 𝑖𝑑𝑗 𝐾 ℎ𝑑 ℎ𝑑 × |𝐶 𝑖𝑗 | , (6) 𝑑=1 Tính toán PDF Các phần III.1 III.2 giải khâu tiền xử lý liệu, việc tính tốn PDF Chúng ta có ba kiểu cấu trúc liệu, bao gồm: cấu trúc liệu mà từ liệu ảnh gốc sau nhóm, gọi tắt GRP, cấu trúc liệu sau liệu ảnh gốc tổ chức vào Kd-tree, gọi tắt KDT, cấu trúc liệu mà liệu ảnh gốc sau nhóm tiếp tục tổ chức lại vào Kd-tree, gọi tắt GGP-KDT Trong nghiên cứu Kakde [29] tác giả chứng minh rằng, độ phức tạp thuật toán xây dựng 𝑂 (𝑛 log 𝑛), độ phức tạp thuật tốn tìm kiếm vùng không gian √ Kd-tree 𝑂 ( 𝑛 + 𝑐), 𝑐 số điểm ảnh tìm thấy thuật tốn Khi đó, để ước lượng mật độ xác suất cho điểm ảnh, công thức (2) trở thành: 𝑐𝑖 𝑗=1 𝑘 với 𝑖 = 1, 2, , 𝑚, 𝑚 số nhóm điểm ảnh có giá trị phổ trùng nhau, 𝑚𝑐 𝑖 tổng số nhóm điểm ảnh nằm hình siêu cầu bán kính 𝑟 tâm 𝑔𝑖 tìm thuật tốn (gọi danh sách thứ 𝑖), 𝐶 𝑖𝑗 tập hợp điểm ảnh nhóm thứ 𝑗 danh sách thứ 𝑖 nhỏ root tìm nhánh bên trái root, ngược lại tìm nhánh bên phải root Chỉ xét riêng chiều liệu so sánh, khoảng cách từ điểm xét đến root chiều liệu mà nhỏ 𝑟 bắt buộc phải tìm nhánh bên trái nhánh bên phải root Ví dụ hình 2, rõ ràng điểm truy vấn nằm bên phần không gian bên trái nút gốc (30, 40), thông thường tìm điểm nằm nhánh trái root bỏ qua điểm liệu thỏa mãn yêu cầu hàm nhân 𝐾 (𝑢) ≠ 𝑓ˆ(x𝑖 ) = 𝑛 𝑚𝑐𝑖 Trong phần này, xây dựng thuật toán khác để giải toán ước lượng mật độ xác suất điểm ảnh liệu đầu vào cấu trúc liệu kể Thuật toán (Thuật toán 5) tính tốn PDF theo cơng thức (4) liệu đầu vào GRP Độ phức tạp tính (5) 76 Tập 2019, Số 2, Tháng 12 Thuật toán 6: Thuật tốn tính PDF liệu đầu vào KDT input: Ma trận điểm ảnh 𝑥, số điểm ảnh 𝑛, số kênh phổ 𝑘, băng thông ℎ output: Mật độ xác suất điểm ảnh pdf root ← CreateKDTree(X, 𝑛, 𝑘); 𝑟 ← ℎ × 𝜖; for 𝑖 ← to 𝑛 − sum_ker ← 0; list ← ∅; Search(root, 𝑥𝑖 , 𝑟, list); for 𝑗 ← to |𝑙𝑖𝑠𝑡| − sum_ker ← sum_ker + Kernel(𝑥𝑖 , 𝑙𝑖𝑠𝑡 𝑗 , ℎ); end sum_ker 10 pdf[𝑖] ← ; 𝑛 11 end 12 return pdf; Thuật toán 7: Thuật tốn tính PDF liệu đầu vào GRP-KDT input: Ma trận điểm ảnh 𝑥, số điểm ảnh 𝑛, số kênh phổ 𝑘, băng thông ℎ; output: Mật độ xác suất điểm ảnh pdf; groups ← CreateGroup(𝑥, 𝑛, 𝑘); 𝑚 ← |groups|; root ← CreateKDTree(groups, 𝑚, 𝑘); 𝑟 ← ℎ × 𝜖; for 𝑖 ← to 𝑚 − sum_ker ← 0; list ← ∅; Search(root, group𝑖 , 𝑟, list); for 𝑗 ← to |list| − 10 sum_ker ← sum_ker + Kernel(group𝑖 , list 𝑗 , ℎ)) × |group[list[ 𝑗].index] |; 11 end 12 for 𝑗 ← to |group𝑖 | − sum_ker ; 13 pdf [group[𝑖].indexes[ 𝑗]] ← 𝑛 14 end 15 end 16 return pdf; toán thuật tốn 𝑂 (𝑘𝑚 ), 𝑚 số nhóm điểm ảnh Hàm Kernel trình bày phần II Thuật tốn thứ hai (Thuật tốn 6) tính tốn PDF theo cơng thức (5) liệu đầu vào KDT Cây Kd-tree đóng vai trị tìm kiếm nút thỏa mãn điều kiện để nhân 𝐾 (𝑢) ≠ Thuật toán có độ phức tạp √ 𝑂 (𝑘𝑛( 𝑛 + 𝑐 𝑖 )), 𝑐 𝑖 số điểm ảnh tìm thấy Thuật tốn 4, với 𝑖 = 1, 2, , 𝑛 theo kết luận [22], song song hóa tính tốn PDF nên tảng GPU CUDA (gọi tắt GPU CUDA), đề xuất công bố [23] Việc nhằm mục đích so sánh thời gian chạy có nhìn khách quan phương pháp chúng tơi đề xuất Lưu ý phương pháp đề xuất giảm độ phức tạp tính tốn dẫn đến giảm thời gian tính tốn, Intel TBB GPU CUDA khơng giảm độ phức tạp tính tốn mà giảm thời gian tính tốn việc phân nhỏ tổng khối lượng cơng việc tính tốn đồng thời Điểm giống phương pháp giảm thời gian tính tốn mà khơng làm thay đổi kết tính tốn PDF Thuật tốn thứ ba (Thuật tốn 7) tính tốn PDF theo cơng thức (6) với liệu đầu vào GRP-KDT, Kd-tree đóng vai trị tìm kiếm để tìm nhóm điểm ảnh thỏa mãn điều kiện hạt nhân 𝐾 (𝑢) ≠ Độ phức tạp √ thuật toán 𝑂 (𝑘𝑚( 𝑚 + 𝑐𝑚 𝑖 )), 𝑚 số nhóm điểm ảnh, 𝑚𝑐 𝑖 số nhóm điểm ảnh tìm thấy thuật tốn 4, với 𝑖 = 1, 2, , 𝑚 IV THỰC NGHIỆM Trong thực tế, liệu ảnh đa phổ siêu phổ thu chụp tình tìm kiếm cứu nạn cịn khan khơng phát hành cơng khai Vì vậy, chúng tơi lựa chọn cách tiếp cận theo cách sử dụng thư viện ảnh cơng bố phù hợp với mục đích toán phát dị thường ảnh Đầu tiên, sử dụng ảnh kênh phổ ảnh kênh phổ [32] Đây ảnh dùng thi “Dstl Satellite Imagery Feature Detection” Phòng thí nghiệm khoa học cơng nghệ quốc phịng (Dstl)- Vương quốc Anh cung cấp Ảnh kênh phổ có mã 6010_1_2 (gọi tắt ảnh kênh phổ) ảnh kênh phổ có mã 6010_1_2_M (gọi tắt ảnh kênh phổ) Hai ảnh thu từ cảm biến WorldView địa điểm phạm vi km2 , kích thước (1 km × km) Kịch thử nghiệm Chúng thử nghiệm loại ảnh khác nhau: ảnh màu có kênh phổ (RGB), ảnh đa phổ có kênh phổ, ảnh siêu phổ có 224 kênh phổ Tương ứng với ảnh vậy, chúng tơi chạy với thuật tốn liệu chưa qua giai đoạn tiền xử lý (Thuật toán 1) Sau đó, tương ứng với loại ảnh, chúng tơi chuyển liệu ảnh qua giai đoạn tiền xử lý để có liệu theo ba cấu trúc GRP, KDT GRP-KDT Dữ liệu chạy với thuật tốn 5, tương ứng Ngồi ra, chúng tơi cịn chạy thử nghiệm ảnh với hai phương pháp: song song hóa việc ước lượng hàm mật độ khung lập trình Intel TBB (gọi tắt Intel TBB), tốt 77 Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thơng Hình Ảnh kênh phổ có mã 6010_1_2 Hình Những điểm ảnh dị thường (màu trắng) Hình Kênh thứ 220 ảnh siêu phổ Salinas 224 kênh phổ Ảnh kênh phổ (Hình 3) ảnh màu RGB với độ phân giải mặt đất 0, 31 m, kích thước ảnh 3396 × 3349 điểm ảnh Ảnh kênh phổ (Hình 4) có độ phân giải mặt đất 1, 24 m, kích thước ảnh 849 × 837 điểm ảnh Ảnh siêu phổ 224 kênh phổ ảnh miễn phí cung cấp [33] (Hình 6) Cảnh ảnh thu thung lũng Salinas, California cảm biến AVIRIS với 224 kênh phổ, độ phân giải không gian 3, m, kích thước ảnh 512 × 217 điểm ảnh (gọi tắt ảnh Salinas) Hình thể điểm ảnh dị thường (màu trắng cơng trình nhân tạo bao quanh cánh đồng trồng loại thực vật) điểm ảnh không dị thường (màu đen) Hình hiển thị điểm ảnh dị thường (màu trắng cơng trình nhân tạo hỗn hợp thực địa) điểm ảnh không dị thường (màu đen) hai ảnh 6010_1_2 6010_1_2_M Bước tiếp theo, sử dụng hàm nhân Hypercube (Bảng I) với băng thông cố định ℎ = 10 để kiểm nghiệm thuật tốn ba ảnh Cấu hình máy tính dùng để chạy thuật tốn tính PDF sau Hình Ảnh hiển thị tổ hợp kênh phổ (kênh 1, 3) từ ảnh kênh phổ có mã 6010_1_2_M 78 Tập 2019, Số 2, Tháng 12 Hình Những điểm ảnh dị thương (màu trắng) Hình Biểu đồ hiển thị thời gian chạy thuật tốn tính tốn PDF liệu chưa qua giai đoạn tiền xử lý (AL1), tính tốn song song CPU (Intel TBB), tính tốn song song GPU (GPU CUDA) liệu tổ chức vào Kd-tree (AL6) Bảng II THỜI GIAN CHẠY CỦA CÁC THUẬT TỐN TRÊN BA ẢNH ( TÍNH BẰNG GIÂY ) Thuật toán Thuật toán Intel TBB GPU CUDA Thuật toán Thuật toán Thuật toán • • • • • (AL1) (AL6) (AL5) (AL7) 6010_1_2 6010_1_2_M Salinas 1.819.712 1.404.590 21.609 1.414.826 230 21,19 11.038 9.052 253 2.269 n/a n/a 557 458 13,36 20 n/a n/a ảnh kênh phổ, thời gian giảm 8.769s tương đương với việc giảm 79,44% thời gian tính tốn; ảnh 224 kênh phổ, thời gian tính toán giảm 537s tương đương với việc giảm 96,41% thời gian tính tốn Trên ảnh ba kênh phổ, thuật tốn AL6 có thời gian tính tốn lớn thuật toán Intel TB 10.236s, tương đương với thời gian tính tốn LA6 nhiều Intel TBB 0,73% Trên hai ảnh kênh phổ 224 kênh phổ thời gian tính tốn AL6 nhanh Intel TBB là: 6.783s 438s, tương đương với việc giảm 74,93% 95,63% thời gian tính tốn Trong trường hợp so sánh thời gian tính tốn AL6 GPU CUDA AL6 có thời gian tính chậm GPU CUDA ba ảnh Tuy nhiên có khác biệt, AL6 tính tốn chậm GPU CUDA rõ rệt ảnh ba kênh phổ, ảnh kênh phổ khoảng cách thu hẹp, ảnh 224 kênh phổ chênh lệch không nhiều (AL6 chậm GPU CUDA 6,64s) Như vậy, áp dụng Kd-tree để quản lý liệu giai đoạn tiền xử lý trước tính tốn PDF hiệu ảnh có số kênh phổ lớn CPU: Intel Core i5-7400 3.00 GHz (4 core, thread); Mainboard: MSI B150M MORTAR ARCTIC; RAM: DDR4 16 GB; HDD: SDD BIOSTAR S100 - 240 GB; Graphic: NVIDIA GeForce GTX 1070 Ti (2432 core, 1683 MHz, GB RAM) Đánh giá thời gian chạy thuật toán Thời gian thực thi thuật toán ba ảnh mô tả Phần IV.1 thể Bảng II Thuật toán Intel TBB thực thi nhân luồng CPU, CPU chạy hết cơng suất 100% Thuật tốn GPU CUDA thực thi card hình NVIDIA GeForce GTX 1070 Ti, 2432 nhân CUDA, 8GB RAM, tốc độ xử lý 1683 MHz Các thuật toán AL1, AL5, AL6 AL7 chạy nhân luồng CPU Đối với trường hợp nhóm điểm ảnh có phổ trùng nhau, áp dụng cho ảnh kênh phổ Không áp dụng cho loại ảnh kênh phổ 224 kênh phổ tổ hợp màu loại ảnh 224 kênh phổ số lớn vượt khỏi khả quản lý máy tính khơng thể áp dụng cho thuật tốn Nếu sử dụng thuật tốn nhóm thơng thường tốn nhiều thời gian khơng khả thi Nhìn vào bảng II hình ta thấy, thời gian tính tốn PDF ảnh kênh phổ liệu Trong trường hợp liệu đầu vào thuật toán KDT, kết thể hình Rõ ràng rằng, liệu tổ chức vào Kd-tree, thời gian tính toán PDF giảm đáng kể so với trường hợp tính tốn PDF liệu chưa qua giai đoạn tiền xử lý (AL1) Cụ thể: ảnh kênh phổ thời gian giảm 404.886s tương đương với việc giảm 22,25% thời gian tính tốn; 79 Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thơng Hình Biểu đồ hiển thị thời gian chạy thuật tốn tính tốn PDF liệu chưa qua giai đoạn tiền xử lý (AL1), tính tốn song song CPU (Intel TBB), tính toán song song GPU (GPU CUDA), liệu nhóm (AL5) liệu nhóm sau tổ chức Kd-tree (AL7) nhóm giảm tới 1.819.482s tương đương với việc giảm 99,98% thời gian tính tốn so với trường hợp tính tốn PDF liệu chưa qua giai đoạn tiền xử lý (AL1) Lý giảm thời gian tính tốn PDF q trình nhóm điểm ảnh có phổ trùng làm giảm liệu cần tính tốn Cụ thể, việc giảm số lượng liệu cần tính tốn từ 3396 × 3349 = 11.373.204 điểm ảnh xuống cịn 65.607 nhóm điểm ảnh, dẫn đến giảm 99,4% khối lượng liệu cần tính tốn Thời gian tính toán thuật toán AL5 nhanh thuật toán Intel TBB 6.107 lần, nhanh thuật toán GPU CUDA 94 lần Đối với phương pháp biến đổi Fourier nhanh Silverman để xuất [19], độ phức tạp tính tốn 𝑂 (𝑁 log 𝑁), phương pháp biến đổi Gauss nhanh Elgamall cộng đề xuất [20] có độ phưc tạp tính tốn 𝑂 (𝑁 + 𝑀), 𝑁 = 𝑘𝑛 kích thước liệu 𝑀 số lượng điểm liệu cần tính PDF Ứng dụng trường hợp tính tốn PDF cho điểm ảnh 𝑀 = 𝑁 Rõ ràng thuật tốn AL6 có độ phức tạp tính tốn lớn hai phương pháp √ biến đổi nhanh 𝑂 (𝑘𝑛( 𝑛 + 𝑐 𝑖 )) > 𝑂 (𝑁 log 𝑁) > 𝑂 (𝑁 + 𝑀) Cả hai phương pháp biến đổi Fourier nhanh biến đổi Gauss nhanh có độ phức tạp tính tốn phụ thuộc hồn tồn vào kích thước liệu, thuật tốn AL5 AL7 có độ phức tạp tính tốn phụ thuộc vào cấu trúc, nội dung ảnh Trong phần thực nghiệm với ảnh ba kênh phổ cho ta thấy, 𝑛 = 11.373.204 𝑚 65.607, có nghĩa 𝑚 ≈ 0.006𝑛, dẫn đến độ phức tạp tính tốn AL5 AL7 nhỏ nhiều so với phương pháp biến đổi Fourier nhanh biến đổi Gauss nhanh Dữ liệu sau nhóm tiếp tục đưa vào Kd-tree để quản lý, thời gian tính tốn PDF ảnh kênh phổ cịn 21,19s So sánh với trường hợp tính tốn PDF liệu chưa qua giai đoạn tiền xử lý (thời gian tính tốn 1.819.712s, tương đương với 21 ngày tính tốn) liệu GRP-KDT đưa vào tính tốn PDF giảm 99,999% thời gian tính tốn Nhìn vào bảng II hình ta thấy AL7 hồn tồn vượt trội so với thuật tốn Intel TBB GPU CUDA, cụ thể, AL7 nhanh Intel TBB 66.285 lần nhanh GPU CUDA 1.020 lần V KẾT LUẬN Trong cơng tác tìm kiếm cứu nạn, thời gian phản ứng mang ý nghĩa quan trọng Việc rút ngắn thời gian xử lý liệu định đồng nghĩa với việc giảm phí tổn tài chính, sức lực, tinh thần nâng cao khả sống sót nạn nhân Trong nghiên cứu này, đề xuất phương pháp để làm giảm thời gian phát điểm dị thường ảnh siêu phổ đa phổ (những điểm ảnh dị thường mục tiêu cần tìm kiếm dấu hiệu phục vụ cho cơng tác tìm kiếm cứu nạn) Đầu tiên giai đoạn tiền xử lý liệu với mục đích làm giảm số lượng liệu cần tính tốn (sử dụng nhóm điểm ảnh có kênh phổ trùng nhau) tổ chức lại liệu cách hợp lý để phục vụ cho q trình tính tốn PDF (tổ chức liệu vào Kd-tree) Sau đó, cấu trúc liệu giai đoạn tiền xử lý GRP, KDT GRP-KDT sử dụng để tính tốn PDF Đánh giá độ phức tạp tính tốn Độ phức tạp tính tốn thuật toán AL1 𝑂 (𝑘𝑛2 ), thuật toán AL5 𝑂 (𝑘𝑚 ), thuật toán AL6 √ √ 𝑂 (𝑘𝑛( 𝑛+𝑐 𝑖 )) thuật toán AL7 𝑂 (𝑘𝑚( 𝑚+𝑚𝑐 𝑖 )) Rõ ràng độ phức tạp tính tốn thuật tốn AL6 AL7 ln ln nhỏ thuật tốn AL1 Đối với thuật toán AL5, trường hợp xấu 𝑚 = 𝑛 (khơng có điểm ảnh có phổ trùng nhau) hai thuật tốn có độ phức tạp tính tốn tương đương Tuy nhiên, điều khó xảy ngồi thực tế ảnh chụp tự nhiên lớp phủ thực địa ln có tính chất phân lớp đối tượng, lớp phủ đồng (chụp biển, rừng, hoang mạc, sa mạc, v.v.) 𝑚 nhỏ dẫn đến độ phức tạp tính tốn AL5 nhỏ AL1 80 Tập 2019, Số 2, Tháng 12 Độ phức tạp tính tốn giai đoạn tiền xử lý liệu nhóm điểm ảnh có kênh phổ trùng 𝑂 (𝑘𝑛), xây dựng Kd-tree 𝑂 (𝑛 log 𝑛) Trong giai đoạn tính tốn PDF, độ phức tạp tính tốn hàm PDF liệu nhóm 𝑂 (𝑘𝑚 ), 𝑚 số nhóm điểm ảnh có kênh phổ trùng Trong nhiều trường hợp, 𝑚 nhỏ nhiều so với 𝑛 nên thời gian tính tốn PDF giảm tương ứng Độ phức tạp tính tốn liệu đầu vào quản lý Kd-tree √ 𝑂 (𝑘𝑛( 𝑛 + 𝑐 𝑖 )), 𝑐 𝑖 nhỏ 𝑛 nhiều nên thời gian tính hàm PDF giảm tương ứng Độ phức tạp tính tốn hàm PDF liệu nhóm tổ √ chức Kd-tree 𝑂 (𝑘𝑚( 𝑚 + 𝑚𝑐 𝑖 )) [9] D K Hoai, N V Phuong, “Anomaly Color Detection on UAV Images for Search and Rescue works,” in 2017 9th International Conference on Knowledge and Systems Engineering, pp 287–291, 2017 [10] S Khazai, S Homayouni, A Safari, and B Mojaradi, “Anomaly Detection in Hyperspectral Images Based on an Adaptive Support Vector Method,” IEEE Geoscience and Remote Sensing Letters, vol 8, no 4, pp 646–650, 2011 [11] A Banerjee, P Burlina, and C Diehl, “A support vector method for anomaly detection in hyperspectral imagery,” IEEE Transactions on Geoscience and Remote Sensing, vol 44, no 8, pp 2282–2291, Aug 2006 [12] D W J Stein, S G Beaven, L E Ho, E M Winter, A P Schaum, and A D Stocker, “Anomaly detection from hyperspectral imagery,” IEEE Signal Process Mag., vol 19, no 1, pp 58–69, 2002 [13] S Matteoli, T Veracini, M Diani, and G Corsini, “Models and Methods for Automated Background Density Estimation in Hyperspectral Anomaly Detection,” IEEE Transactions on Geoscience and Remote Sensing, vol 51, no 5, pp 2837–2852, 2013 [14] P Gurram and H Kwon, “Support-Vector-Based Hyperspectral Anomaly Detection Using Optimized Kernel Parameters,” IEEE Geoscience and Remote Sensing Letters, vol 8, pp 1060–1064, 2011 [15] C.-I Chang and S.-S Chiang, “Anomaly detection and classification for hyperspectral imagery,” IEEE Trans Geosci Remote Sensing, vol 40, no 6, pp 1314–1325, 2002 [16] T Veracini, S Matteoli, M Diani, and G Corsini, “Nonparametric Framework for Detecting Spectral Anomalies in Hyperspectral Images,” IEEE Geoscience and Remote Sensing Letters, vol 8, no 4, pp 666–670, 2011 [17] S Matteoli, T Veracini, M Diani and G Corsini, “Background Density Nonparametric Estimation With DataAdaptive Bandwidths for the Detection of Anomalies in Multi-Hyperspectral Imagery,” IEEE Geoscience and Remote Sensing Letters, vol 11, pp 163–167, 2014 [18] C Zhao, X Wang, and G Zhao, “Detection of hyperspectral anomalies using density estimation and collaborative representation,” Remote Sensing Letters, vol 8, no 11, pp 1025–1033, 2017 [19] B Silverman, “Algorithm AS 176: Kernel density estimation using the fast Fourier transform,” Applied Statistics, vol 31, no 1, pp 93–99, 1982 [20] A Elgammal, R Duraiswami and L.S Davis, “Efficient Kernel density estimation using the Fast Gauss Transform with applications to color modeling and tracking,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 25, pp 1499–1504, 2003 [21] S Lukasik, "Parallel computing of kernel density estimates with MPI," in 7th International Conference on Computational Science, pp 726–733, 2007 [22] P D Michailidis, and K G Margaritis, “Parallel Computing of Kernel Density Estimation with Different Multi-core Programming Models,” in 21st Euromicro International Conference on Parallel, Distributed, and Network-Based Processing, pp 77–85, 2013 [23] P D Michailidis, K G Margaritis, “Accelerating Kernel Density Estimation on the GPU Using the CUDA Framework,” Applied Mathematical Sciences, vol 7, no 30, pp 1447–1476, 2013 [24] M Rosenblatt, “Remarks on Some Nonparametric Estimates of a Density Function,” Annals of Mathematical Statistics, vol 27, no 3, pp 832–837, 1956 [25] E Parzen, “On Estimation of a Probability Density Function and Mode,” Annals of Mathematical Statistics, vol 33, pp 1065–1076, 1962 Kết kiểm nghiệm ba loại ảnh (ảnh đa phổ kênh, ảnh đa phổ kênh ảnh siêu phổ 224 kênh) vượt ngồi mong đợi nhóm tác giả Đặc biệt ảnh màu, ảnh thường thu chụp từ thiết bị bay không người lái có người lái ứng dụng rộng rãi cơng tác tìm kiếm cứu nạn LỜI CẢM ƠN Nghiên cứu tài trợ kinh phí đề tài nghiên cứu khoa học cấp quốc gia mã số VT-UD.04/16-20 thuộc Chương trình KHCN vũ trụ Bộ khoa học cơng nghệ Việt Nam Nhóm tác giả trân trọng cảm ơn ủng hộ đồng hành Ban chủ nhiệm Chương trình KHCN vũ trụ TÀI LIỆU THAM KHẢO [1] T Bolukbasi, P Tran, “Outline Color Identification For Search And Rescue,” Technical Report of Department of Electrical and Computer Engineering, Boston University, no ECE-2012-07, 2012 [2] M B Salem, K S Ettabaa, M A Hamdi, “Anomaly detection in hyperspectral imagery: An overview,” in International Image Processing, Applications and Systems Conference, pp 1–6, 2015 [3] I S Reed and X Yu, “Adaptive Multiple-Band CFAR Detection of an Optical Pattern with Unknown Spectral Distribution,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol 38, no 10, pp 1760–1770, 1990 [4] T E Smetek, K W Bauer, “Finding hyperspectral anomalies using multivariate outlier detection,” IEEE Aerospace Conference, pp 1–24, 2007 [5] D Manolakis, D Marden, G A Shaw, “Hyperspectral image processing for automatic target detection applications,” Lincoln Laboratory Jour., vol 14, no 1, pp 79–116, 2003 [6] D C Borghys, V Achard, S R Rotman, N Gorelik, C Perneel, E Scwheicher, “Hyperspectral anomaly detection: a comparative evaluation of methods,” XXXth URSI General Assembly and Scientific Symp., pp 1–4, 2011 [7] T Marshall, L N Perkins, “Color Outline Detection For Search And Rescue,” Technical Report of Department of Electrical and Computer Engineering, Boston University, no ECE-2015-01, 2015 [8] M Ramachandran, W Moik, Outline Color Identification For Search And Rescue, Technical Report of Department of Electrical and Computer Engineering, Boston University, No ECE-2013-03, 2013 81 Các cơng trình nghiên cứu phát triển Công nghệ Thông tin Truyền thông Nguyễn Văn Phương tốt nghiệp Đại học Thạc sĩ Học viện Kỹ thuật Quân năm 2003 2009 Hiện nghiên cứu sinh Khoa Công nghệ Thông tin Học viện Kỹ thuật Quân Lĩnh vực nghiên cứu bao gồm: GIS, xử lý ảnh viễn thám quang học [26] L Devroye and L Gyorfi, Nonparametric Density Estimation: The L1 View, Wiley, New York, 1985 [27] W Hardle, A Werwatz, M Muller and S Sperlich, Nonparametric Density Estimation, In: Nonparametric and Semiparametric Models, Springer Series in Statistics, pp 39-83, 2004 [28] J L Bentley, “Multidimensional Binary Search Trees Used for Associative Searching,” Communications of the ACM, vol 18, no 9, pp 509-517, 1975 [29] H M Kakde, “Range Searching using Kd Tree,” 2005 References, Aug 12, 2019 [Online] Available: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10 1.1.122.5818 [30] P Trebuˇna, J Halˇcinová, “Experimental Modelling of the Cluster Analysis Processes,” Procedia Engineering 48, pp 673–678, 2012 [31] M Harris, "Optimizing parallel reduction in CUDA," Nvidia developer technology 2, no 4, p 70, 2007 [Online] Available: https://developer.download.nvidia.com/assets/ cuda/files/reduction.pdf [32] Dstl Satellite Imagery Feature Detection [Online] Available: https://www.kaggle.com/c/dstl-satellite-imageryfeature-detection [Accessed: Oct 25, 2019] [33] Hyperspectral Remote Sensing Scenes [Online] Available: http://www.ehu.eus/ccwintco/index.php?title=Hyperspectral_ Remote_Sensing_Scenes [Accessed: Oct 25, 2019] Đào Khánh Hoài nhận học vị Tiến sĩ năm 2005 Hiện công tác Học viện Kỹ thuật Quân Lĩnh vực nghiên cứu bao gồm: GIS, xử lý ảnh vệ tinh, UAV, đo ảnh thị giác máy tính Tống Minh Đức tốt nghiệp Đại học Học viện Kỹ thuật Quân năm 2000, nhận học vị Tiến sĩ Trường Đại học Tổng hợp Kỹ thuật Điện (LETI), Nga năm 2007 Hiện giảng viên Khoa Công nghệ Thông tin Học viện Kỹ thuật Quân Lĩnh vực nghiên cứu bao gồm: xử lý ảnh, nhận dạng đối tượng, an tồn bảo mật thơng tin 82 ... mật độ xác suất Nhóm điểm ảnh có giá trị phổ Đối với ảnh đa phổ ảnh siêu phổ, trình tìm kiếm điểm ảnh có phổ trùng nhiều thời gian, với độ phức tạp tính tốn