Tổng quan tình hình nghiên cứu
Những nghiên cứu đầu tiên về watermarking ảnh thực hiện trực tiếp ở miền không gian dựa trên các phương pháp điều chỉnh giá trị mức xám Kỹ thuật thay thế bit trọng số thấp LSB được đề xuất bởi Tirkel, Schyndel và các cộng sự [55, 56] bằng cách nhúng watermark là chuỗi ngẫu nhiên nhị phân vào LSB còn lại của ảnh sau nén histogram mức xám 7-bit và dùng bộ so sánh chuỗi bit để phát hiện watermark Một số tác giả khác thực hiện nhúng trích thông tin nhị phân trực tiếp trong các mặt phẳng LSB của ảnh [57- 59]
Cox và cộng sự [10] là những người đầu tiên khai thác lý thuyết truyền thông trải phổ để xây dựng giải thuật watermarking Họ nhúng watermark có phân bố Gaussian trong các hệ số DCT thấp nhất của ảnh Watermark được khôi phục bằng cách trừ ảnh gốc từ ảnh đã được nhúng rồi tính toán độ tương tự giữa watermark khôi phục và watermark gốc Kỹ thuật này khá bền vững nhưng không thực sự hữu ích trong thực tế vì đòi hỏi phải có ảnh gốc và thời gian tính toán lâu Các tác giả khác cũng dùng khái niệm trải phổ nhưng theo cách thức khác không cần dữ liệu gốc trong quá trình khôi phục [11-14, 60] Ý tưởng cơ bản của hướng tiếp cận này là cộng thêm chuỗi trung bình
0 với chỉ hai giá trị vào dữ liệu gốc Chuỗi này được tạo ra từ bộ tạo tín hiệu giả ngẫu nhiên thông qua một khóa bất kỳ mà chỉ có người thực hiện nhúng có được Watermark được trích bằng cách dùng bộ phát hiện tương quan với cùng khóa nhúng Điều đó có nghĩa là chỉ có khóa mà quá trình nhúng đưa vào quá trình trích mới có thể trích xuất
10 chính xác thông tin watermark đã được nhúng vào tín hiệu gốc ban đầu Như vậy, khả năng bảo mật tăng lên rất nhiều so với những kỹ thuật khác Những bộ phát hiện như thế thì hiệu quả trong tính toán và thích hợp cho các ứng dụng bảo vệ bản quyền và chống sao chép Do trải watermark ra toàn dữ liệu, phương pháp này còn đạt được khả năng không cảm thụ và tính bền vững Mặt khác, do không cần dữ liệu gốc, watermarking dựa trên trải phổ thích hợp với nhiều ứng dụng Ngoài ra, kỹ thuật trải phổ dùng trong watermarking có thể thực hiện trực tiếp ở miền không gian hay các miền biến đổi khác như DFT (Discrete Fourier Transform), DWT, vv [61-65] Tuy nhiên, các phương pháp này lại có một số nhược điểm mà hầu như rất khó hay không thể loại bỏ được Sau khi tín hiệu được trải phổ thì phổ của tín hiệu sẽ trải ra và điều này làm năng lượng tín hiệu nhúng bị giảm đi, nếu có một nhiễu nào đó vô tình có độ lớn gần bằng với tín hiệu thì trong quá trình trích sẽ không thể phân biệt được tín hiệu đã nhúng vào và sẽ gây ra khó khăn trong quá trình trích xuất Thêm vào đó, bản thân tín hiệu đem nhúng cũng được xem như là nhiễu nên có thể gây ra sai số đáng kể ở quá trình trích
Vì vậy, một số phương pháp trải phổ cải tiến hoặc điều chỉnh đã được nghiên cứu để khắc phục phần nào các hạn chế trong phương pháp trải phổ truyền thống [44, 45]
Mặt khác, trong phần lớn trường hợp watermarking ảnh đa kênh, việc mở rộng này được thực hiện bằng cách nhúng watermark trực tiếp vào một thành phần đặc biệt nào đó của dữ liệu bao phủ, chẳng hạn như kênh màu xanh dương trong không gian màu RGB, thành phần độ sáng trong không gian màu YUV, hoặc xử lý riêng mỗi thành phần mà không xem xét tương quan giữa chúng [66-68] Trái lại, Piva và cộng sự [16] khai thác tương quan chéo của các kênh màu RGB bằng cách thiết kế một bộ phát hiện dựa trên tương quan toàn cục để tổng hợp thông tin thu được từ tất cả ba kênh màu, từ đó chất lượng thực hiện của hệ thống được cải thiện Tuy nhiên, kỹ thuật này mới chỉ xem xét kết hợp trung bình trong bộ phát hiện toàn cục và rất khó để đưa ra được chiến thuật phát hiện tối ưu Bên cạnh đó, nó đòi hỏi dữ liệu gốc tại bộ phát hiện Không như thế, Barni và cộng sự [17] sử dụng biến đổi DCT để giảm tương quan giữa các kênh màu Đặc biệt, Barni và cộng sự [18] cùng Hajjaji và cộng sự [19] khai thác đặc tính giải tương quan hoàn hảo của biến đổi KLT (Karhunen-Loeve Transform) để nhúng watermark Bởi lẽ xử lý với các thành phần không tương quan, có thể đưa ra được giải thuật phát hiện tối ưu dựa trên lý thuyết quyết định thống kê Bayes Không may, một
11 hạn chế của biến đổi KLT là nó phụ thuộc vào đặc tính thống kê của dữ liệu gốc Vì vậy, các kết quả trong các bài báo [18, 19] chỉ đúng với điều kiện giả sử khác biệt giữa ma trận hiệp phương sai của ảnh nhúng và ảnh gốc là không đáng kể
Trong những năm gần đây, một trong những lĩnh vực cực kì khó khăn của watermarking là các giải thuật watermaking bền vững trước các sái dạng hình học vẫn không ngừng phát triển [68, 69] Có nhiều phương pháp khác nhau đã được đề xuất như nhúng dựa trên mẫu tham chiếu, nhúng miền bất biến RST (Rotation, Shifting, and Translation), watermark tự đồng bộ hay đồng bộ dựa trên đặc trưng [78-80] Trong đó, phương pháp watermarking dựa vào các đặc trưng bền vững nhận được nhiều quan tâm và được xếp vào nhóm các phương pháp watermarking thế hệ thứ hai Bằng cách kết hợp thông tin nhúng với các đặc trưng dựa trên nội dung ảnh, quá trình trích thông tin có thể thực hiện một cách hoàn hảo Có nhiều đặc trưng khác nhau được sử dụng như góc Harris, wavelet Mexican Hat, phát hiện Harris-Laplace, các mo-ment [69-75] và gần đây là biến đổi SIFT [38-43, 81-84] Ý tưởng chính của biến đổi SIFT là trích xuất các đặc trưng ổn định trong không gian tỉ lệ Khi đó, thông tin được nhúng trong các vòng tròn có tâm tại vị trí của điểm đặc trưng và bán kính tỉ lệ với hệ số tỉ lệ Dựa trên SIFT, Nikolaidis [81] dùng tất cả đặc trưng để nhúng watermark vì thế vấn đề đồng bộ được bảo toàn Tuy nhiên, số lượng lớn các vùng nhúng theo đòi hỏi của giải thuật làm suy giảm chất lượng của ảnh nhúng Ngoài ra, không phải tất cả các đặc trưng đều hữu ích cho quá trình nhúng và trích Do đó, Guo, Li và Pan [82] chỉ lựa chọn vài đặc trưng bền vững để nhúng thông tin dùng giải thuật lượng tử chẵn lẻ và đã chứng tỏ hiệu quả so với các phương pháp trước đó Tuy nhiên, theo phương pháp này thì thông tin gốc đòi hỏi ở quá trình trích và chỉ dùng trong ứng dụng kiểm chứng watermark Ngoài ra, do dùng cùng giải thuật lựa chọn vùng nhúng bền vững ở quá trình nhúng và trích nên có thể dẫn đến mất đồng bộ trong quá trình trích Mặt khác, một số tác giả cải thiện độ bền vững bằng cách dùng thêm đặc trưng hướng hoặc cải tiến biến đổi SIFT Tuy nhiên, họ cần biết trước các mô tả gốc của các đặc trưng nhúng trong quá trình trích [78, 79] Ngược lại, một số bài báo nghiên cứu thực hiện watermarking mù dùng biến đổi SIFT lại không xem xét tính bền vững trước các tấn công đồng bộ như xoay ảnh và co giãn ảnh [83, 84] và đặc biệt là siêu phân giải dùng trí tuệ nhân tạo Bởi lẽ hình ảnh y tế có độ phân giải cao giúp các chuyên gia khoanh vùng tổn thương và chẩn đoán bệnh, tuy
12 nhiên rất khó có được các hình ảnh chất lượng như vậy từ các phương thức chụp ảnh thông thường Hơn nữa, công nghệ siêu phân giải hình ảnh dựa trên học sâu có thể cải thiện độ phân giải hình ảnh một cách hiệu quả Tóm lại, các công trình này khẳng định các đặc trưng SIFT là giải pháp tốt bởi đặc tính bền vững của chúng và độ phức tạp tính toán tương đối thấp Tuy nhiên, số lượng các điểm đặc trưng sau biến đổi SIFT là khá lớn và không phải tất cả chúng đều hiệu quả Do đó, chúng cần được tiền xử lý để chọn lọc các điểm đặc trưng bền vững nhất trước các tấn công và tạo ra các vùng nhúng không chồng lấp Ngoài ra, các phương pháp watermarking dùng biến đổi SIFT hiện vẫn thiếu cơ chế bảo mật bởi lẽ kẻ tấn công có thể xác định được vùng nhúng Đặc biệt, trước sự phát triển của các thiết bị chẩn đoán hình ảnh và sự bùng nổ của Internet, một số kỹ thuật watermarking trong ảnh y tế khác nhau bắt đầu được quan tâm nghiên cứu để đáp ứng các yêu cầu đặc thù riêng của ngành y tế [85-91] Thông thường, một ảnh y tế thường được chẩn đoán trước khi lưu trữ lâu dài vì vậy phần nội dung quan trọng có ý nghĩa trong ảnh được gọi là ROI (Region of Interest) đã được xác định và vùng còn lại không có ý nghĩa được gọi là RONI Do đó một hướng tiếp cận của watermarking cho ảnh y tế là nhúng trích watermark trong vùng ROI/RONI cho các yêu cầu ứng dụng khác nhau Tuy nhiên, các phương pháp này thường yêu cầu thông tin đi kèm để xác định vùng ROI/RONI khi trích watermark [92-102] Một hướng tiếp cận thứ hai là sử dụng watermarking khả đảo, theo đó thực hiện nhúng watermark vào ảnh gốc theo cách thức có thể đảo ngược nghĩa là khi watermark được trích thì ảnh gốc cũng được khôi phục chính xác hoàn toàn [103-105] Một hướng tiếp cận khác sử dụng rộng rãi hơn của watermarking với ảnh y tế là khai thác các phương pháp watermarking ảnh thông thường với yêu cầu tối thiểu méo dạng để đảm bảo chất lượng trong chẩn đoán y tế [106-112]
Tuy nhiên, ảnh y tế cũng có nhiều khác biệt đặc trưng so với ảnh tự nhiên [113], cụ thể như sau:
Ảnh y tế được tạo ra từ nhiều phương thức khác nhau, ví dụ như XR, CT, MRI,
US, nên mỗi loại ảnh y tế mang những đặc tính riêng về độ tương phản, độ chi tiết, nhiễu, hiệu ứng nhân tạo và đặc điểm hình học không gian
Ảnh y tế thường bao gồm chuỗi các ảnh liên quan với nhau hơn là chỉ một ảnh riêng lẻ như ảnh tự nhiên
Ảnh y tế nhìn chung bị mờ và nhiễu nhiều hơn so với ảnh tự nhiên
Ảnh y tế có đặc trưng cấu trúc ít hơn so với ảnh tự nhiên Điều này dẫn đến ảnh y tế có đặc tính thống kê ít thích ứng với hệ thống thị giác con người so với ảnh tự nhiên
Ảnh y tế thường có vùng quan tâm ROI phục vụ cho việc chẩn đoán và vùng không quan tâm RONI không ảnh hưởng đến kết quả chẩn đoán
Ảnh y tế nguyên gốc thường được lưu với định dạng đặc thù DICOM có độ sâu bit cao hơn so với ảnh tự nhiên nhằm phục vụ cho việc chẩn đoán Sau khi được xử lý (phần lớn có bước nén ảnh), các ảnh này trở thành hình bệnh lý và có thể lưu như định dạng ảnh thông thường để phục vụ hồ sơ bệnh án
Xử lý ảnh y tế có thêm các yêu cầu đặc thù như chất lượng phải đảm bảo cho việc chẩn đoán chính xác và bảo mật thông tin
Tóm lại, kỹ thuật watermarking đã ra đời và phát triển nhanh chóng trong những năm gần đây và không ngừng mở rộng ứng dụng để trở thành một trong những kỹ thuật giấu thông tin tiên tiến Qua quá trình khảo sát của luận án, mặc dù có nhiều giải pháp thực hiện khác nhau như tóm tắt trong Hình 1.3 nhưng nhìn chung có thể chia phương pháp watermarking ra làm hai loại là tường minh và thiếu thông tin tiên nghiệm Phần lớn các giải pháp cải tiến đề xuất cho kết quả tốt với watermarking tường minh nhưng lại bị giới hạn trong phạm vi ứng dụng thực tế do yêu cầu phải có dữ liệu gốc hoặc thông tin liên quan dữ liệu gốc trong quá trình trích thông tin Trong trường hợp watermarking ảnh, nhiều tác giả chỉ tập trung cải tiến các giải thuật cho ảnh xám đơn kênh tự nhiên thông thường dựa trên ba kỹ thuật phổ biến là thay thế bit trọng số thấp, lượng tử và trải phổ Số lượng các nghiên cứu cho các loại ảnh y tế và ảnh đa kênh còn hạn chế, đặc biệt là tiêu chuẩn ảnh y tế chuyên dụng DICOM, vẫn còn hạn chế và thách thức Mặt khác, phần lớn nghiên cứu watermarking xuất phát từ ứng dụng bảo vệ bản quyền nên chỉ chú trọng các yêu cầu về tính cảm thụ của ảnh sau nhúng và khả năng bền vững của thông tin nhúng trước một số tấn công đặc thù Ngoài ra, các phương pháp watermarking ảnh bền vững chủ yếu xem xét trước các tấn công không đồng bộ như nhiễu, nén hay lọc
14 ảnh Số lượng nghiên cứu watermarking bền vững trước các tấn công đồng bộ như dịch, xoay, co dãn, hay cắt xén ảnh còn khá hạn chế Đặc biệt, với sự phát triển gần đây của các mô hình mạng thần kinh học sâu đã làm xuất hiện thêm các loại tấn công dựa trên trí tuệ nhân tạo, ví dụ như tấn công siêu phân giải Không những thế, ứng dụng tích hợp thông tin bệnh nhân và chẩn đoán điều trị trong ảnh y tế lại đòi hỏi thêm các yêu cầu cao về dung lượng thông tin nhúng, tính bảo mật và độ tin cậy Mặt khác, phần lớn các nghiên cứu watermarking chưa có sự kết hợp đầy đủ giữa phân tích lý thuyết với giải pháp thực nghiệm cho các ứng dụng cụ thể Đây cũng chính là các thách thức mà luận án nghiên cứu phát triển và hoàn thiện
Hình 1.3 Các phương pháp watermarking ảnh.
Mục tiêu và nhiệm vụ
Mục tiêu của luận án là đưa ra các mô hình xác suất và lời giải tối ưu của các giải pháp đề xuất nâng cao hiệu quả kỹ thuật watermarking thiếu thông tin tiên nghiệm (mù) cho ảnh y tế và ảnh đa kênh ở miền không gian cũng như các miền biến đổi phù hợp với mỗi yêu cầu ứng dụng cụ thể Các giải pháp đề xuất được phân tích có thể áp dụng cho
15 cả hai trường hợp watermarking một bit và nhiều bit Các kết quả lý thuyết được kiểm chứng thông qua mô phỏng và ứng dụng thực tiễn Các kết quả được thực hiện với nhiều loại ảnh phổ biến cũng như đặc thù và xem xét các loại tấn công khác nhau bao gồm cả hai loại đồng bộ và không đồng bộ Bên cạnh việc đánh giá tính cảm thụ và tính bền vững, luận án còn bổ sung đánh giá độ tin cậy và tăng cường tính năng bảo mật để phù hợp với các yêu cầu đặc thù trong lĩnh vực y tế Để thực hiện mục tiêu trên, trước tiên, luận án tiến hành phân tích sơ đồ tổng quát của hệ thống watermarking dựa trên nền tảng lý thuyết truyền thông và khảo sát các thông số dùng trong nghiên cứu đánh giá hiệu quả của các kỹ thuật watermarking tiêu biểu với dữ liệu ảnh số Bên cạnh đó, luận án kết hợp phân tích lý thuyết dựa trên các mô hình xác suất thống kê để đưa ra lời giải tối ưu đồng thời tiến hành khảo sát thực nghiệm với các cơ sở dữ liệu và môi trường ứng dụng cụ thể để so sánh đánh giá ưu khuyết điểm của các phương pháp watermarking khác nhau làm cơ sở cho các giải pháp nâng cao hiệu quả của kỹ thuật watermarking ảnh y tế và ảnh đa kênh bằng các kỹ thuật tiên tiến trong lĩnh vực truyền thông tin, xử lý tín hiệu số và xử lý ảnh.
Những đóng góp chính
Dựa trên quá trình phân tích và khảo sát các công trình nghiên cứu liên quan và nhu cầu ứng dụng thực tế, đóng góp đầu tiên của luận án là đề xuất thành công hai giải pháp watermarking thiếu thông tin tiên nghiệm với ảnh đặc thù DICOM cho ứng dụng y tế từ xa Đây là tiêu chuẩn ảnh phổ biến trong các thiết bị chẩn đoán hình ảnh hiện nay với nhiều khác biệt trong định dạng và cấu trúc so với ảnh tự nhiên thông thường do có thêm các thông tin phục vụ quá trình xem và xử lý ảnh y tế, trong đó có phần thông tin cá nhân cần bảo mật khi khai thác ảnh DICOM trên môi trường Internet Dựa trên đặc tính ảnh DICOM hỗ trợ độ sâu bit lớn hơn 8 (có thể lên đến 16) so với ảnh xám tự nhiên thông thường, luận án khai thác phương pháp watermarking dùng kỹ thuật thay thế bit trọng số thấp LSB để nhúng các thông tin cần bảo mật kết hợp với kỹ thuật mật mã tiên tiến AES và kỹ thuật mã hóa dữ liệu theo tiêu chuẩn ảnh DICOM thành giải pháp đề xuất DICOM_LSB_AES Nhờ vậy, ảnh sau nhúng đạt hiệu quả rõ rệt về mặt cảm thụ ngay cả với trường hợp dung lượng thông tin nhúng lớn, trong khi vẫn tuân thủ định dạng DICOM nên có
16 thể sử dụng với bất kì hệ thống chẩn đoán hình ảnh hiện có Ngoài ra, phương pháp này còn có thuận lợi là đơn giản trong thực hiện nhúng và trích thông tin do có thể thực hiện trực tiếp trong miền không gian nên phù hợp với ứng dụng thực tiễn Bên cạnh đó, luận án cũng đề xuất thêm giải pháp DICOM_LSB_AES_RONI thực hiện nhúng trích thông tin chỉ trong vùng không quan trọng RONI để đảm bảo tính chính xác tuyệt đối (tính khả đảo) của vùng quan trọng ROI trong ảnh nhúng so với ảnh gốc Các kết quả có liên quan của hai giải pháp đề xuất này đã được công bố trong 1 bài báo tạp chí trong nước chuyên ngành y học thực hành (thuộc danh sách tạp chí được tính điểm theo quy định của Hội đồng chức danh giáo sư nhà nước), 4 bài báo hội nghị quốc tế, và thử nghiệm thực tế với các hệ thống phần mềm ứng dụng trong lĩnh vực y tế qua 1 đề tài cấp nhà nước, 1 đề tài cấp thành phố, 1 đề tài cấp trường
Tiếp theo, một nội dung nghiên cứu khác của luận án tập trung vào các giải pháp watermarking hiệu quả cho ảnh y tế dựa trên kỹ thuật lượng tử nhằm nâng cao tính bền vững trước các tấn công đồng bộ bằng cách chọn lọc các đặc trưng SIFT ổn định trong khi quá trình trích vẫn không cần sử dụng ảnh gốc hoặc thông tin đặc trưng ban đầu để so khớp các đặc trưng như một số phương pháp truyền thống Về mặt chất lượng ảnh nhúng, luận án đánh giá từ cảm thụ trực quan đến các thông số khách quan như MSE (Mean Square Error), PSNR (Peak Signal to Noise Ratio) và SSIM (Structural Similarity Index Measurement) Về tính bền vững, luận án xem xét toàn diện các tấn công điển hình với ảnh y tế từ loại không đồng bộ như nhiễu, lọc, nén, cho đến đồng bộ như lật xoay, co giãn, cắt xén Bên cạnh đó, luận án cũng đưa ra thêm thông số đánh giá độ tin cậy để so sánh các giải pháp đề xuất với các phương pháp phổ biến khác Với thông số bổ sung này, việc đánh giá tính bền vững tăng thêm khả năng ứng dụng thực tiễn, đáp ứng yêu cầu đặc thù trong lĩnh vực y tế Ngoài giải pháp watermaking một bit (Q_SIFT), các kết quả được xem xét mở rộng cho cả trường hợp nhiều bit thông tin qua việc phân tích đánh giá hai giải pháp nhúng theo hình quạt (FSQ_SIFT) và hình nửa vành khuyên (HRSQ_SIFT) Với mỗi giải pháp, luận án đều bổ sung tính bảo mật kép bằng cách khai thác các thông số của đặc trưng SIFT qua giải pháp SQ_SIFT và khóa bí mật Đặc biệt, để có thể trích thông tin không cần ảnh gốc hoặc bất kì thông tin phụ nào, các giải thuật so sánh độ tin cậy và chia nhóm lặp vòng dựa trên so sánh tương quan đã được đề xuất để khôi phục vùng nhúng ban
17 đầu Các kết quả mô phỏng với một số ảnh y tế phổ biến cho thấy giải pháp đề xuất đạt tính bền vững cao trước hầu hết các tấn công thường gặp trong xử lý ảnh y tế cũng như tấn công siêu phân giải dùng trí tuệ nhân tạo Các kết quả nghiên cứu trong phần này đã được tổng hợp công bố trong các bài báo khoa học (2 tạp chí Scopus, 1 hội nghị quốc tế) và triển khai thử nghiệm ứng dụng thực tiễn tại một số bệnh viện trong các nhiệm vụ khoa học công nghệ (1 đề tài cấp nhà nước, 1 đề tài cấp thành phố, 1 đề tài cấp trường)
Sau cùng, luận án đã đưa ra được các điều chỉnh cải tiến mở rộng nhằm nâng cao hiệu quả của phương pháp watermarking dựa trên kỹ thuật trải phổ truyền thống nhằm khắc phục một số hạn chế còn tồn tại Luận án đưa ra hai phương pháp điều chỉnh dành cho bộ trích tương quan (phương pháp loại bỏ mức DC) và dành cho tín hiệu gốc đầu vào dựa trên phương pháp trải phổ cải tiến ISS (Improved Spread Spectrum) nhằm nâng cao chất lượng dữ liệu sau khi nhúng và giảm ảnh hưởng của nhiễu nội gây ra bởi chính dữ liệu gốc trong quá trình trích xuất watermark Ngoài ra, luận án phát triển các điều chỉnh cải tiến trên theo hướng tổng quát hóa cho nhúng nhiều bit thông tin so với phương pháp truyền thống chỉ nhúng 1 bit thông tin Những đề xuất này cho ra phương pháp
MISS nhằm tăng cường tính chính xác của toàn bộ quá trình nhúng và trích xuất thông tin đồng thời nâng cao dung lượng thông tin nhúng và cải thiện chất lượng dữ liệu sau khi nhúng Ngoài ra, sự kết hợp phương pháp đề xuất MISS với các phép biến đổi sẽ là một phương án triển khai ứng dụng khả thi, đặc biệt trước những tấn công nén tổn hao tín hiệu Sự kết hợp với biến đổi DCT cho ra phương pháp MISS_DCT được so sánh với phương pháp MISS_DWT dựa trên biến đổi DWT để đưa ra một kết luận chung cho việc cải thiện chất lượng của phương pháp watermarking đề xuất Ngoài ra, phương pháp watermarking trải phổ phần lớn áp dụng cho ảnh xám đơn kênh thông thường, chưa có nhiều mở rộng cho ảnh đa kênh Do đó, một đóng góp nổi bật khác của luận án là đề xuất giải pháp watermarking mới gọi là trải phổ hợp tác CSS và khai thác biến đổi KLT với giải pháp CSS_KLT để giải tương quan giữa các thành phần tín hiệu của ảnh đa kênh Theo đó, thông tin được cùng nhúng vào nhiều kênh ảnh và một bộ quyết định hợp tác tuyến tính toàn cục được sử dụng để khai thác tối ưu mức độ đóng góp của từng bộ phát hiện tương quan cục bộ ở mỗi kênh Với đặc tính giải tương quan và nén thông tin tốt nhất trong họ các biến đổi trực giao,
18 biến đổi KLT được sử dụng trong phương pháp watermarking trải phổ hợp tác giúp cải thiện đáng kể tính vô hình và tính bền vững của hệ thống Ngoài ra, không giống các giải pháp khác bị giới hạn bởi yêu cầu sử dụng dữ liệu gốc của biến đổi KLT, bằng việc chứng minh với điều kiện watermark trực giao thì phương pháp đề xuất có thể trích chính xác thông tin mà không cần ảnh gốc Bên cạnh đó, bốn giải pháp cải tiến để loại bỏ can nhiễu giữa watermark và các kênh ảnh cũng như mở rộng watermarking nhiều bit cũng được đề xuất và phân tích, bao gồm ICSS, MCSS, ICSS_KLT, MCSS_KLT Các kết quả được phân tích lý thuyết bằng mô hình toán học đồng thời kiểm chứng qua mô phỏng và thực nghiệm với các loại ảnh y tế khác nhau Các kết quả nghiên cứu trong phần này đã được tổng hợp công bố trong các bài báo khoa học (1 tạp chí Scopus, 1 hội nghị quốc tế) và triển khai thử nghiệm ứng dụng thực tiễn tại một số bệnh viện trong các nhiệm vụ khoa học công nghệ (1 đề tài cấp nhà nước,
Bố cục luận án
Phần tiếp theo của luận án được bố cục như sau Chương 2 trình bày cơ sở lý thuyết của các nội dung nghiên cứu trong luận án Chương 3 đề xuất giải pháp watermarking dùng kỹ thuật LSB với ảnh DICOM nhằm tăng cường tính bảo mật cho ứng dụng y tế từ xa Chương 4 đề xuất giải pháp watermarking dùng kỹ thuật lượng tử và chọn lọc đặc trưng SIFT để nâng cao tính bền vững trước các tấn công đồng bộ Chương 5 đề xuất giải pháp watermarking trải phổ hợp tác với ảnh đa kênh sử dụng biến đổi KLT và các bộ thu tối ưu cùng các điều chỉnh cải tiến mở rộng Chương 6 đưa ra kết luận chung và các hướng nghiên cứu phát triển Thông tin chi tiết các công trình đã công bố liên quan đến luận án được trình bày sau chương 6
TỔNG QUAN VỀ KỸ THUẬT WATERMARKING
Hệ thống watermarking
Một cách tổng quát, ý tưởng cơ bản của watermarking là nhúng thông điệp (thông tin) trong dữ liệu đa phương tiện Mặc dù kỹ thuật watermarking có thể thực hiện với cả tín hiệu tương tự và tín hiệu số nhưng ngày nay, khi nói đến watermarking là chủ yếu đề cập đến watermarking số Đó là một tập các dữ liệu số thứ cấp được nhúng vào dữ liệu số sơ cấp (hình ảnh, âm thanh, chuỗi video, vv.) Dữ liệu số sơ cấp được gọi là dữ liệu gốc hay dữ liệu bao phủ (cover data) Dữ liệu số thứ cấp được gọi là dữ liệu nhúng hay watermark Có hai dạng watermark: một là thông điệp watermark (message) thường là chuỗi bit thông tin nhúng và dạng còn lại là tín hiệu watermark (signal) là sự dàn trải của thông điệp watermark tác động trực tiếp vào dữ liệu bao phủ Dữ liệu sau khi được chèn thêm gọi là dữ liệu sau watermarking (watermarked data) Dữ liệu này có thể xử lý hay thay thế bởi các phép biến đổi thông thường hay các tấn công, dữ liệu khi đó được gọi là dữ liệu bị tấn công (attacked data) Nếu quá trình trích watermark có dữ liệu gốc hoặc các đặc trưng từ dữ liệu gốc thì được gọi là watermarking có thông tin tiên nghiệm hay tường minh, ngược lại là watermarking thiếu thông tin tiên nghiệm hay mù Một cách hiển nhiên, các phương pháp watermarking thiếu thông tin tiên nghiệm sẽ gặp nhiều thách thức hơn so với phương pháp tường minh trong khả năng trích watermark thành công trước các dữ liệu bị sái dạng nhưng lại phổ biến hơn trong ứng dụng thực tiễn do
20 không phải sử dụng dữ liệu gốc để trích thông điệp Chính vì vậy, luận án chỉ tập trung xem xét các giải pháp với watermarking thiếu thông tin tiên nghiệm
Bằng cách kết hợp giữa phân tích lý thuyết tổng quát hệ thống watermarking thiếu thông tin tiên nghiệm dựa trên nền tảng hệ thống thông tin như trình bày ở Hình 2.1 và kết quả ứng dụng cụ thể, một số giải pháp cải tiến đột phá được nghiên cứu đề xuất trong luận án nhằm nâng cao hiệu quả kỹ thuật watermarking ảnh y tế và ảnh đa kênh, dựa trên các kỹ thuật tiên tiến trong lĩnh vực truyền thông tin, xử lý tín hiệu số và xử lý ảnh Theo đó, một hệ thống watermarking tổng quát có thể được xem xét gồm ba thành phần chính: nhúng thông điệp, kênh tấn công và trích thông điệp
Hình 2.1 Nền tảng hệ thống thông tin của một hệ thống watermarking thiếu thông tin tiên nghiệm
Quá trình nhúng thông điệp thực hiện nhúng thông điệp b vào dữ liệu gốc x Để cải thiện tính cảm thụ của dữ liệu sau nhúng, mô hình cảm thụ M có thể được khai thác với dữ liệu gốc Thông điệp có thể được biến đổi sang dạng hiệu quả của thông tin bằng bộ mã hóa trước khi nhúng Để tăng cường tăng cường tính bảo mật, các khóa k i có thể được sử dụng ở cả bộ mã hóa và bộ nhúng watermark Lúc này, các khóa k i vẫn cần sử dụng để trích thông tin ngay cả với hệ thống watermarking thiếu thông tin tiên nghiệm k i
Giả sử một thông điệp b=(b 1 ,…,b N ) được nhúng vào dữ liệu gốc x Để biến đổi thông điệp sang dạng hiệu quả của thông tin, nó hoặc được mã hóa hay điều chế phụ thuộc khóa k i Một watermark w được tạo ra bởi hàm phụ thuộc khóa nào đó w=f(c,p,M,k i ) sao cho đảm bảo vùng phân phối watermark cần thiết, dựa trên hàm chiếu p và theo đặc tính cảm thụ của mắt hoặc tai người qua thông số mặt nạ cảm thụ M để tăng cường watermark Lựa chọn điển hình cho hàm chiếu p là tập các hàm trực giao dùng cho mỗi bit từ mã {c n } để p n p l , n l Khi đó, watermark thu được như là sự xếp chồng [56]:
Bộ nhúng watermark thực hiện chèn watermark vào dữ liệu gốc ban đầu hay ở miền biến đổi, tạo thành dữ liệu đã watermark:
1 , y T Emb T x w (2.2) trong đó T là bất kì biến đổi trực giao nào như DCT, DFT, DWT hay KLT, và Emb( ) định nghĩa hàm nhúng Phần lớn loại hàm nhúng sử dụng phổ biến tuân theo mô hình cộng tuyến tính: y x w (2.3)
Một kênh tấn công tạo ra phiên bản méo y của dữ liệu sau nhúng y Kênh tấn công có thể được mô hình như định đạng của công thức ngẫu nhiên dùng hàm mật độ xác suất rời rạc (p.m.f) Q(y’|y) để mô tả nhiễu ngẫu nhiên trong dữ liệu sau watermark Một tấn công thành công phải làm hư hại hay phá hủy watermark trong khi bảo toàn chất lượng thương mại của dữ liệu Vì vậy, một kênh tấn công phải tạo ra sái dạng nằm trong giới hạn của tiêu chuẩn sái dạng đã chọn Tùy theo mục đích, tập hợp các tấn công có thể chia làm hai loại là tấn công không chủ đích và tấn công có chủ đích như Hình 2.2 Loại tấn công không chủ đích là các thao tác thường gặp trong xử lý ảnh làm thay đổi ảnh nhúng dẫn đến khả năng trích sai thông tin Trong khi đó, loại tấn công có chủ đích là các tấn công nhằm mục đích trích thông tin bất hợp pháp (nhóm tấn công mật
22 mã) hay làm vô hiệu hóa ứng dụng watermarking ban đầu (nhóm tấn công giao thức) Trong phạm vi nghiên cứu này, luận án tập trung vào loại tấn công không chủ đích với cả hai nhóm tấn công không đồng bộ và tấn công đồng bộ Đây là hai loại tấn công phổ biến nhất trong xử lý ảnh
Hình 2.2 Phân loại các tấn công watermarking
Các tấn công không đồng bộ (còn gọi là tấn công loại bỏ) chỉ làm thay đổi giá trị các điểm ảnh mà không làm thay đổi vị trí nhúng thông tin giữa ảnh nhúng và ảnh sau tấn công Các ví dụ phổ biến cho loại tấn công không đồng bộ có thể kể đến như nén ảnh có tổn hao, lọc ảnh, nhiễu ảnh, v.v Do đó, các kỹ thuật watermarking bền vững trước các tấn công này chỉ cần dựa trên nội dung giá trị của ảnh sau tấn công để trích thông tin Trong khi đó, các tấn công đồng bộ (còn gọi là tấn công hình học) có thể có hoặc không làm thay đổi giá trị các điểm ảnh nhưng luôn gây ra sự thay đổi vị trí nhúng thông tin giữa ảnh nhúng và ảnh sau tấn công Vì vậy, các kỹ thuật watermarking bền vững trước các tấn công này không chỉ dựa trên nội dung giá trị của ảnh sau tấn công mà còn cần đồng bộ vị trí với ảnh gốc ban đầu thông qua các thông tin tiên nghiệm để trích thông tin
Tấn công không chủ đích
Tấn công không đồng bộ Tấn công đồng bộ
Tấn công có chủ đích
Tấn công mật mã Tấn công giao thức
Quá trình trích thông điệp thực hiện ước lượng watermark từ dữ liệu kiểm tra (phiên bản sái dạng) với bước tiếp theo bao gồm phát hiện watermark và giải mã watermark Giai đoạn phát hiện watermark nhằm mục đích quyết định xem dữ liệu kiểm tra có nhúng thông điệp nào hay không, do đó chỉ cần một bit thông tin cho hai trạng thái này Giai đoạn giải mã watermark khôi phục lại thông điệp nhúng ban đầu Phương pháp watermarking nào chỉ thực hiện bước phát hiện watermark được gọi là watermarking một bit (one-bit) và thường ứng dụng trong xác thực kiểm chứng hay chống sao chép Phương pháp watermarking thực hiện bước giải mã watermark được gọi là watermarking nhiều bit (multi-bit) và được ứng dụng trong bảo vệ bản quyền, tích hợp dữ liệu, giám sát theo dõi hay truyền thông bí mật
Bộ trích watermark thực hiện ước lượng w của watermark ban đầu thông qua hàm trích Extr(…) dựa trên phiên bản tấn công y của dữ liệu sau nhúng:
Bộ giải mã nói chung dựa trên hướng tiếp cận ML (Maximum Likelihood) hay MAP (Maximum A Posteriori)
Bộ giải mã có thể thiết kế dựa trên MAP:
Giả sử rằng tất cả từ mã b có xác suất như nhau, biết trước vectơ quan sát r và bộ giải mã tối ưu tối thiểu xác suất lỗi có điều kiện được cho bởi bộ giải mã ML:
Vì sự xuất hiện của b được giả sử là có xác suất như nhau và do tính phức tạp hơn của bộ giải mã MAP mà bộ giải mã ML thường được sử dụng trong thực tế.
Các đặc tính cơ bản của hệ thống watermarking
Một hệ thống watermarking thường bao gồm một số đặc tính cơ bản sau: tính cảm thụ (độ trung thực), tính bền vững, tính bảo mật, dung lượng thông tin nhúng, khả
24 năng khôi phục dữ liệu bao phủ, độ phức tạp, quá trình trích thông tin có cần dữ liệu gốc hay không Tùy theo các ứng dụng khác nhau mà yêu cầu nào sẽ được xem xét ưu tiên hơn Trong ứng dụng bảo vệ bản quyền thì yêu cầu tính bền vững và trong suốt về mặt cảm thụ cũng như dung lượng bit thông tin nhúng là ba yêu cầu then chốt cần xem xét Điều này không chỉ đòi hỏi đánh giá tính bền vững mà còn bao gồm đánh giá chủ quan và định lượng sự méo dạng phát sinh do quá trình watermarking Do đó, ngoài việc thiết kế các phương pháp watermarking, một vấn đề quan trọng cần quan tâm là đưa ra các đánh giá và so sánh chính xác Để so sánh các giải thuật khác nhau, người ta thường sử dụng các benchmark Đó là các công cụ chuẩn được thiết kế nhằm mục đích đánh giá mức độ hiệu quả của các giải thuật khác nhau Công cụ này sẽ tạo ra tập hợp các tấn công và đánh giá giải thuật qua toàn bộ các tấn công này theo một tỉ lệ nào đó Trong watermarking cho ảnh số, các benchmark nổi tiếng là Unzign, Stirmark và Centimark
Một hệ thống watermarking điển hình được xem xét là bền vững nếu watermark có thể sống sót thậm chí khi dữ liệu nhúng bị tác động sái dạng nghiêm trọng Với những hệ thống watermarking như thế, ba yêu cầu sau thường được sử dụng để đánh giá thực hiện của hệ thống: mức độ không cảm thụ, tính bền vững và khả năng dung lượng thông tin nhúng Thực ra, luôn có sự đánh đổi giữa các yêu cầu này Vì vậy, để việc đánh giá và so sánh công bằng, cần phải đảm bảo rằng các phương pháp dùng cho khảo sát được kiểm tra dưới cùng các điều kiện như nhau
2.2.1 Đánh giá về mặt cảm thụ
Mặc dù kỹ thuật watermarking được ứng dụng với nhiều loại dữ liệu mang thông tin khác nhau như văn bản, hình ảnh, âm thanh hay video, luận án chỉ tập trung nghiên cứu watermarking ảnh Đây cũng là lĩnh vực được quan tâm nhiều nhất trong nghiên cứu và thực tiễn Tuy nhiên, luận án mở rộng nghiên cứu các giải pháp nâng cao hiệu quả của kỹ thuật watermarking cho ảnh đa kênh và ảnh y tế Riêng với ảnh y tế, luận án tiếp cận theo hướng phổ biến là khai thác các phương pháp watermarking ảnh thông thường với yêu cầu tối thiểu méo dạng để đảm bảo chất lượng trong chẩn đoán y tế nhưng đáp ứng thêm các yêu cầu khác trong lĩnh vực y tế như độ tin cậy và tính bảo mật mà nhiều phương pháp hiện có chưa đề cập đến
Một cách tổng quát, yêu cầu về mặt cảm thụ đặt ra vấn đề là ảnh sau watermark có chất lượng suy giảm ít nhất so với ảnh gốc Khi so sánh các giải thuật, yêu cầu chất lượng của ảnh sau watermark của các giải thuật là tương đương nhau Do đó, nó liên quan đến vấn đề đánh giá chất lượng ảnh, bao gồm đánh giá chủ quan qua cảm thụ bằng mắt và đánh giá khách quan qua các thông số định lượng Để đánh giá sự suy giảm chất lượng ảnh, người ta dùng thang chia dựa trên cơ sở khi so sánh với ảnh lý tưởng (ảnh gốc) như trình bày trong Bảng 2.1
Bảng 2.1 Đánh giá sự suy giảm chất lượng của ảnh
Có thể nhận biết nhẹ
Có thể nhận biết nhưng chỉ hư hại nhẹ
Hư hại nhưng không khó chịu Hơi khó chịu
Khó chịu Rất khó chịu
Thực tế, việc đánh giá chất lượng ảnh một cách chủ quan là rất khó khăn vì nó phụ thuộc rất nhiều vào người quan sát cũng như ảnh quan sát nên không thể sử dụng các công cụ tự động đánh giá chất lượng ảnh được Ngoài ra, định nghĩa méo dạng còn phụ thuộc vào ứng dụng cụ thể, nghĩa là đánh giá chất lượng tốt nhất không phải luôn được thực hiện bởi con người
Với tiêu chuẩn khách quan, méo dạng được tính toán như là sự khác biệt giữa ảnh sau xử lý so với ảnh gốc theo một hàm định nghĩa trước Các đại lượng khách quan thường được sử dụng là sai số tuyệt đối trung bình MAE (Mean Absolute Error), sai số trung bình bình phương MSE (Mean Squared Error), tỉ số tín hiệu đỉnh trên nhiễu PSNR (Peak Signal to Noise Ratio) hay hệ số tương quan chuẩn hóa NCC (Normalized Cross-Correlation coefficient) hay ZNCC (Zero Normalized Cross-Correlation coefficient), còn gọi là hệ số tương quan Pearson
L (2.9) với L là tầm động của độ sáng các điểm ảnh Tổng quát, với ảnh biểu diễn theo B bit nhị phân thì tầm động tối đa L 2 1 B PSNR không có thêm thông tin gì mới so với MSE, trừ trường hợp các ảnh so sánh có tầm động thay đổi khác nhau thì PSNR mới hữu ích
là trung bình của hai tập mẫu
Việc đánh giá khách quan có thể thực hiện tương đối dễ dàng, nhanh chóng và hoàn toàn tự động Thế nhưng, hạn chế lớn nhất của đánh giá khách quan là trong nhiều trường hợp nó không thể hiện đầy đủ thông tin về chất lượng ảnh hiển thị Tuy nhiên, đánh giá khách quan vẫn được sử dụng chủ yếu để khảo sát các giải thuật watermarking khác nhau
Các đại lượng khách quan như MSE, PSNR, NCC được sử dụng khá rộng rãi trong thực tế Tuy nhiên, hoàn toàn không có mối liên hệ rõ ràng nào giữa các đại lượng này với khả năng cảm thụ của mắt người HVS (Human Visual System) Vẫn có trường hợp hai ảnh sau xử lý có cùng MSE so với ảnh gốc nhưng một ảnh thì hoàn toàn không
27 thể phân biệt bằng mắt, trong khi ảnh kia là không thể chấp nhận Ví dụ như mắt người không thể quan sát được sự thay đổi nhỏ của độ sáng giữa các pixel riêng rẽ, nhưng lại nhạy với sự thay đổi của giá trị trung bình và độ tương phản trong một vùng lớn hơn Vì vậy, nếu chỉ dùng các đại lượng khách quan thì việc đánh giá chất lượng của ảnh sau watermarking nhiều khi không chính xác Thêm vào đó, người ta tính giá trị trung bình và phương sai của một số vùng nhỏ trong ảnh và so sánh chúng giữa ảnh khôi phục và ảnh gốc Giải pháp đề xuất gần đây để đo độ trung thực của ảnh, cũng như các tín hiệu khác, là chỉ số SSIM (Structural Similarity Index Measurement) SSIM thực sự có nhiều dạng khác nhau phụ thuộc vào việc thực hiện ở mức độ chỉ có một hay nhiều tỉ lệ hoặc miền wavelet Tổng quát SSIM bắt nguồn từ quan sát rằng ảnh tự nhiên có tính cấu trúc cao, nghĩa là các mẫu lân cận trong ảnh tự nhiên phụ thuộc nhau khá lớn và sự phụ thuộc này mang thông tin quan trọng về cấu trúc của các đối tượng trong cảnh hiển thị Nguyên lý cơ bản của giải pháp SSIM ban đầu là hệ thống cảm thụ mắt người thì đáp ứng cao trong trích xuất thông tin cấu trúc từ cảnh hiển thị Giả sử x và y là hai khối ảnh cục bộ lấy ra ở cùng vị trí Chỉ số SSIM cục bộ đo sự tương đồng của ba thành phần của các khối ảnh: sự tương đồng về độ chói (độ sáng), sự tương đồng về độ tương phản và sự tương đồng về cấu trúc Các sự tương đồng này được đánh giá bằng các thống kê tính toán đơn giản dễ dàng và kết hợp với nhau để hình thành chỉ số SSIM cục bộ
Rõ ràng, SSIM thì đối xứng và bị chặn: -1 ≤ s ≤ 1, trong đó s = 1 khi và chỉ khi x = y Các hằng số dương đủ nhỏ C1, C2, C3 dùng để ổn định các thành phần tương đồng, nghĩa là trong trường hợp trung bình mẫu, độ lệch chuẩn hay tương quan có giá trị gần
0 cũng không dẫn đến bất kì sự bất ổn nào trong tính toán số Thực ra, ngay cả khi C1 C2 = C3 = 0 thì SSIM thường hoạt động khá tốt
SSIM được tính toán một cách cục bộ trong một cửa sổ trượt di chuyển qua từng điểm ảnh hình thành nên một bản đồ SSIM Giá trị SSIM sau cùng của toàn ảnh được tính dựa trên bản đồ SSIM bằng cách đơn giản lấy trung bình các giá trị SSIM hoặc phức tạp hơn theo trọng số thay đổi không gian thích nghi Thực hiện tốt nhất đạt được dùng giải pháp SSIM khi giá trị SSIM được tính với nhiều tỉ lệ khác nhau
Một hạn chế của chỉ số SSIM là nó nhạy với các phép dịch chuyển tương đối, co dãn và xoay ảnh Để khắc phục các tình huống này, một phiên bản miền wavelet gọi là chỉ số CW-SSIM (Complex Wavelet - Structural Similarity Index Measurement) được phát triển Gọi cx và cy là các hệ số biến đổi wavelet phức trong cùng băng tần con tại cùng vị trí không gian của hai khối ảnh
2.2.2 Đánh giá về tính bền vững và độ tin cậy
Trong trường hợp watermark được nhúng trực tiếp vào dữ liệu, tính bền vững của quá trình watermarking được đánh giá thông qua mức độ khó của việc xóa bỏ watermark hay nói cách khác là khả năng khôi phục watermark trước các tấn công khác nhau, nghĩa là đánh giá mức độ giống nhau giữa giữa watermark trích so với watermark nhúng Nó thường được đánh giá qua các thông số liên quan đến giá trị tương quan như công thức (2.10) Một trường hợp phổ biến hơn đó là khi watermark được tạo ra bởi việc mã hóa và điều chế thông tin nhúng thường là chuỗi bit Khi đó, tính bền vững được xác định bởi tỉ lệ bit lỗi BER (Bit Error Rate) được định nghĩa là số lượng bit trích sai trên tổng số bit nhúng; hay bởi thông số lỗi phát hiện Bộ phát hiện watermark sẽ so sánh các thông số này với một mức ngưỡng cho trước nào đó Khi đó, có hai khả năng lỗi xảy ra Một là lỗi không phát hiện – fault positive (có nghĩa là ảnh có nhúng watermark nhưng sau khi trích lại quyết định là không có watermark) và hai là lỗi phát hiện sai – false alarm (nghĩa là ảnh thực chất không nhúng watermark nhưng sau khi trích lại quyết định là có watermark) Các lỗi này làm giảm độ tin cậy của hệ thống Rõ ràng, nếu ngưỡng càng nhỏ thì xác suất quyết định tồn tại watermark trong ảnh là càng lớn, nghĩa là lỗi
Phân loại watermarking
Có nhiều tiêu chí khác nhau để phân loại các kỹ thuật watermarking Sau đây là một số cách phân loại watermarking:
Dựa trên đối tượng bao phủ: watermarking cho hình ảnh, âm thanh hay chuỗi video
Dựa trên yêu cầu bền vững: watermarking bền vững hay nhạy với tác động
Dựa trên miền nhúng: watermarking trực tiếp miền thời gian/không gian hay miền biến đổi
Dựa trên giải thuật nhúng và trích: watermarking dựa trên tương quan (các giải thuật nhúng chuỗi giả ngẫu nhiên và phát hiện dùng hàm tương quan như giải
31 thuật trải phổ SS) hay không tương quan (như giải thuật LSB, lượng tử hay giải thuật dựa trên quan hệ hình học)
Dựa trên yêu cầu bảo mật: watermarking không dùng khóa, dùng khóa riêng hay khóa chung
Dựa trên khả năng đảo ngược: watermarking có thể khôi phục chính xác dữ liệu bao phủ hay không
Dựa trên vị trí nhúng: watermarking toàn cục hay cục bộ
Dựa trên cách thức trích: watermarking tường minh (có đầy đủ thông tin tiên nghiệm) hay mù (thiếu thông tin tiên nghiệm).
Các phương pháp watermarking
Phương pháp LSB là một phương pháp đơn giản và phổ biến để nhúng trích thông tin Trong phương pháp LSB, dữ liệu thông tin được đưa về dạng bit, sau đó được thay thế vào các bit có trọng số nhỏ của dữ liệu bao phủ như minh họa ở Hình 2.3
Hình 2.3 Mô hình đơn giản của phương pháp LSB
Trong trường hợp cần tăng dung lượng thông tin nhúng, kỹ thuật LSB có thể mở rộng cho các mặt phẳng bit có trọng số thấp liền kề Vì dữ liệu thông tin được nhúng
32 vào các bit có trọng số thấp của dữ liệu bao phủ, dữ liệu bao phủ sẽ có sự thay đổi không đáng kể, đảm bảo được tính cảm thụ
Quá trình trích thông tin của phương pháp LSB được thực hiện rất đơn giản bằng cách trích lại các bit có trọng số thấp của dữ liệu nhúng với độ chính xác tuyệt đối Tuy nhiên, do thông tin luôn có thể được truy xuất nếu xác định được vị trí nhúng nên độ bảo mật của phương pháp này rất thấp Vì vậy, luận án đề xuất giải pháp kết hợp kỹ thuật mã hóa và kỹ thuật mật mã để nhúng thông tin cá nhân trong ảnh y tế đặc thù DICOM nhằm tăng cường tính bảo mật hỗ trợ cho ứng dụng y tế từ xa
2.4.2 Phương pháp watermarking lượng tử
Một cách tổng quát, lượng tử hóa là quá trình ánh xạ (thay thế, xấp xỉ) từng khoảng giá trị ban đầu bằng một giá trị đại diện quy định sẵn tương ứng Lượng tử hóa được áp dụng trong watermarking thông qua việc xấp xỉ giá trị dữ liệu bao phủ theo những giá trị lượng tử cách đều nhau với bước lượng tử (Delta) được xác định trước tùy vào giá trị của dữ liệu thông tin Các giá trị lượng tử thường được thiết kế là giá trị trung bình của từng khoảng giá trị ban đầu để giảm thiểu sai số lượng tử, cũng chính là giảm thiểu khác biệt giữa giá trị trước hay sau khi nhúng thông tin
Tùy thuộc vào bit thông tin b, giá trị nhúng sau lượng tử được xác định như sau:
Quá trình trích thông tin được xác định như sau:
0 + 0.25 ∆ < < + 0.75 ∆ (2.15) Để đơn giản hóa cách biểu diễn và thực hiện so với phương pháp watermarking lượng tử trong các bài báo [107-109], luận án đưa ra cách tiếp cận watermarking dùng hai bộ lượng tử tương ứng với mỗi bit thông tin 0 và 1, trong đó = 2 là các giá trị lượng tử của bộ lượng tử chẵn, = 2 + 1 là các giá trị lượng tử của bộ lượng tử lẻ Khi muốn nhúng một bit thông tin vào trong giá trị điểm ảnh (pixel) ta phải kiểm tra là 0 hay 1 để chọn bộ lượng tử thích hợp, sau đó tìm ra giá trị lượng tử gần với nhất bằng cách tính khoảng cách nhỏ nhất từ đến các giá trị lượng tử:
Với độ rộng lượng tử càng lớn thì khả năng trích lấy thông tin chính xác càng cao khi gặp tấn công do khoảng cách giữa các giá trị lượng tử ở hai bộ lượng tử càng lớn giúp dễ dàng phân biệt được hai giá trị bit thông tin “0” và “1”, nhưng bù lại chất lượng của ảnh sẽ suy giảm đáng kể do giá trị sau lượng tử thay đổi đáng kể so với giá trị ban đầu Để so sánh với phương pháp trải phổ, độ méo dạng giữa ảnh nhúng và ảnh gốc cũng được đánh giá qua độ đo sai số trung bình bình phương (mse)
D = E[(Q – s) 2 ] = 2 /3 (2.17) Việc trích lấy thông tin đã nhúng bằng phương pháp lượng tử hóa cũng khá dễ dàng do phía trích đã biết được bảng giá trị lượng tử, từ đó so sánh giá trị thu được với cả hai bộ lượng tử để trích lấy lại thông tin được nhúng từ giá trị lượng tử gần nhất như trong các công thức (2.32a-b) và (2.33)
Lưu ý theo cách tiếp cận này thì trường hợp đặc biệt khi = 1 tương ứng với phương pháp LSB Như vậy, có thể thấy phương pháp watermarking lượng tử là sự mở rộng tổng quát hóa của phương pháp watermarking LSB Khác với phương pháp trải phổ thực hiện nhúng trích thông điệp theo cách toàn cục và đòi hỏi sự đồng bộ của watermark theo vị trí nhúng, phương pháp watermarking lượng tử thực hiện nhúng trích thông điệp theo cách cục bộ và chỉ phụ thuộc vị trí nhúng Điều này mở ra khả năng bền vững trước các tấn công đồng bộ nếu quá trình trích thông điệp có thể xác định chính xác vị trí nhúng
2.4.3 Phương pháp watermarking trải phổ
Luận án xem xét mô hình watermarking thiếu thông tin tiên nghiệm dựa trên kỹ thuật trải phổ truyền thống như Hình 2.4
Hình 2.4 Mô hình watermarking trải phổ thiếu thông tin tiên nghiệm truyền thống
Một bộ giả ngẫu nhiên PRN với khóa bí mật K tạo ra chuỗi ngẫu nhiên U, còn gọi là chuỗi watermark, như nhau ở cả quá trình nhúng và trích thông tin Để việc trình bày kết quả phân tích trở nên đơn giản hơn, luận án sử dụng ký hiệu E[A] hoặc (̅ cho giá trị trung bình với tất cả phần tử của dữ liệu A (có thể ở dạng vector hoặc ma trận), ký hiệu cho phép nhân từng phần tử của hai ma trận, ký hiệu * cho phép nhân hai ma trận
Không mất tính tổng quát, giả sử chuỗi watermark thỏa tính chất trung bình 0 và chuẩn hóa, nghĩa là:
+,- = -/ = 0 (2.21) +,- - = 1 (2.22) Ở quá trình nhúng, chuỗi watermark U được nhúng vào ảnh gốc X theo hệ số độ mạnh nhúng và bit thông tin b tương ứng để tạo thành ảnh nhúng S
0 = 1 + - (2.23) Lúc này, độ méo dạng giữa ảnh nhúng và ảnh gốc được đánh giá qua độ đo sai số trung bình bình phương (MSE)
2 = +, 1 − 0 3 (2.24) Xem xét mô hình tấn công là nhiễu cộng Gaussian, khi đó ảnh thu được tại đầu vào quá trình trích cũng chính là ảnh sau tấn công có dạng như sau:
4 = 0 + 5 (2.25) Ở quá trình trích, giá trị trung bình r của tích số giữa ảnh thu được và chuỗi watermark như đã sử dụng ở quá trình trích được tính toán và so sánh với giá trị ngưỡng để quyết định bit thông tin trích Quá trình tính toán giá trị trung bình này tương tự như
35 cách tính tương quan trong xử lý tín hiệu hay cách tính tích nội trong đại số tuyến tính như thể hiện trong công thức sau:
6 = +, 4 − 47 - − -/ (2.26) Nếu điều kiện (2.14) thỏa, khi đó công thức (2.19) có thể rút gọn thành
6 = +,4 - (2.27) Nếu điều kiện (2.15) thỏa, công thức (2.20) sẽ được triển khai thành
Rõ ràng với phương pháp trải phổ này, quá trình nhúng và trích thông tin được thực hiện khá đơn giản và đặc biệt không cần dữ liệu gốc để trích thông tin (vì thế được gọi là thiếu thông tin tiên nghiệm) nên thích hợp với nhiều ứng dụng thực tế Để đánh giá xác suất lỗi, chúng ta cần xác định hàm phân bố của hệ số tương quan trích r trong công thức (2.28) Để phân tích lý thuyết, giả sử dữ liệu gốc có phân bố Gaussian, nghĩa là X ~ N(mx, x 2) Khi đó, hệ số tương quan trích cũng có phân bố Gaussian, nghĩa là r ~ N(mr, r 2) với giá trị trung bình và phương sai được xác định như sau: mr = b (2.29a)
Từ các công thức (2.29a) và (2.29b), chúng ta xác định được ngưỡng tối ưu T cho bộ so sánh quyết định khi nhúng bit thông tin b = {b 1 , b 2 } và xác suất lỗi bit tương ứng như sau:
= = 3 >6?@ A |9 3√3D < B9 : E | F (2.31) trong đó erfc(.) là hàm sai số bù
Từ phương trình (2.32), để đạt được hiệu quả thì độ mạnh watermark càng lớn càng tốt Tuy nhiên, khi độ mạnh watermark tăng thì chất lượng của ảnh nhúng cũng suy giảm đáng kể qua độ méo dạng cho bởi công thức (2.24)
Các biến đổi
Trước những tấn công xuất hiện ngày càng nhiều trong quá trình truyền tín hiệu đặc biệt là sự xuất hiện của giải thuật nén dữ liệu thì những tổn hao trong tấn công trên kênh truyền của quá trình watermarking ngày càng nhiều Sự ra đời của những kỹ thuật mới ứng dụng trong miền biến đổi nhằm mục đích giải quyết vấn đề trên Mục đích chính của các kỹ thuật này là chuyển tín hiệu từ miền không gian sang một miền khác thuận lợi hơn cho việc nhúng tín hiệu vào đồng thời trong miền này thông tin nhúng vào sẽ bền hơn trước những tấn công
Trong kỹ thuật watermarking, các biến đổi như DCT và DWT tập trung chủ yếu vào việc cải thiện tính bền vững của watermark trước các kỹ thuật nén JPEG và JPEG2000 Với trường hợp cần giải tương quan triệt để và nén năng lượng tối ưu thì có
39 thể khai thác biến đổi KLT Trong khi đó, biến đổi SIFT được sử dụng để nâng cao hiệu quả watermarking trước các tấn công đồng bộ
Phép biến đổi cosin rời rạc DCT biểu thị một chuỗi hữu hạn các điểm dữ liệu dưới dạng tổng các hàm cosin dao động ở các tần số khác nhau Tính chất của nó tương tự như biến đổi Fourier rời rạc DFT, nhưng chỉ sử dụng các số thực DCT là một kỹ thuật biến đổi biến đổi thông tin từ miền thời gian hoặc không gian sang miền tần số, được sử dụng rộng rãi trong xử lý tín hiệu và nén dữ liệu Trong nhiều ứng dụng thực tiễn, DCT có thể được coi là xấp xỉ của toàn bộ tính tối ưu của KLT với chi phí tính toán hiệu quả và đã được chấp nhận cho các tiêu chuẩn quốc tế
DCT một chiều biến đổi biên độ tín hiệu tại các điểm rời rạc theo thời gian hoặc không gian thành chuỗi các hệ số rời rạc, mỗi hệ số biểu diễn biên độ của một thành phần tần số nhất định trong các tín hiệu gốc Quá trình biến đổi DCT thuận (FDCT - Forward DCT) và DCT ngược (IDCT - Inverse DCT) cho tín hiệu một chiều được định nghĩa như sau:
DCT N-điểm của x[n] có thể đạt được từ DFT 2N-điểm của tín hiệu mở rộng đối xứng LX,J với
1Y Z , = ∑ 3PB S LX,J.> B[3O \] 1, b0 > 0 (2.41)
Họ wavelets được rời rạc hóa:
44 trong đó m , n (t) được chuẩn hóa bằng 1
Ta thấy rằng các wavelet hẹp, tần số cao được dịch bởi các bước ngắn, trong khi các wavelet rộng, tần số thấp được dịch bởi các bước dài hơn
Biến đổi Wavelets rời rạc DWT (Discrete Wavelet Transform) của tín hiệu f(t) được định nghĩa là:
Thông thường, người ta chọn a0 = 2 và b0 = 1 m,n(t) = 2 -m/2 (2 -m t – n)
Với một hàm (t) xác định và với các giá trị thích hợp của a0, b0, tồn tại mỗi họ
m để tín hiệu f(t) có thể được phục hồi từ công thức: f(t) =
Cơ sở của phép biến đổi DWT có từ năm 1976 khi Croiser, Esteban và Galand đưa ra kỹ thuật biến đổi tín hiệu thời gian rời rạc; đến cuối năm 1976, Crochiere, Weber và Flanagan đã dùng DWT để mã hóa tiếng nói, kỹ thuật này tương tự kỹ thuật của
Croiser và có tên là sự mã hoá băng con (subband coding) Năm 1983, Burt và Adelson phát triển phương pháp mã hóa băng con và đặt tên là mã hóa hình tháp (pyramidal coding) Năm 1989, Mallat đưa ra kỹ thuật phân tích đa phân giải (multiresolution analysis) trên cơ sở mã hóa hình tháp và đề xuất các họ hàm wavelet trực giao để áp dụng trong xử lý tín hiệu số
Tấn công siêu phân giải dùng trí tuệ nhân tạo
Khái niệm cơ bản về trí tuệ nhân tạo, bao gồm học máy và học sâu, đã được triển khai trên các lĩnh vực khác nhau và đạt được nhiều thành tựu Gần đây, các phương pháp học sâu tỏ ra rất hứa hẹn trong xử lý ảnh với các nhiệm vụ như phân đoạn, phân loại, khử nhiễu hoặc giải các bài toán ngược Không giống như các phương pháp phân tích mà các vấn đề được xác định rõ ràng và kiến thức miền được thiết kế cẩn thận thành giải pháp, các mạng thần kinh sâu không được hưởng lợi từ sự biết trước như vậy, thay vào đó tận dụng các tập dữ liệu lớn để tìm hiểu giải pháp chưa biết cho các bài toán ngược [118]
Siêu phân giải (SR) là một dạng bài toán ngược, đề cập đến các phương pháp nhằm tăng độ phân giải không gian của hình ảnh kỹ thuật số Cụ thể, đó là quá trình khôi phục hình ảnh có độ phân giải cao (HR) từ hình ảnh có độ phân giải thấp (LR) nhất định [119] Một tấm ảnh có thể có "độ phân giải thấp hơn" do có độ phân giải không gian nhỏ hơn hoặc do kết quả của sự suy giảm chất lượng Các thuật toán SR có thể được phân loại theo số lượng hình ảnh đầu vào và đầu ra liên quan đến quy trình Luận án này chỉ tập trung vào SR ảnh đơn đề cập đến các phương pháp trong đó một ảnh HR phải được khôi phục từ một ảnh LR [120]
Hình ảnh HR chứa cấu trúc thông tin chi tiết so với hình ảnh LR Nhu cầu của con người về hình ảnh SR ngày càng gia tăng và giữ vai trò quan trọng vì giá trị ý nghĩa
55 độ chi tiết của thông tin trong nhiều lĩnh vực khoa học, đặc biệt là lĩnh vực chẩn đoán ảnh y tế Đối với phân tích hình ảnh y tế, luôn có nhu cầu rất lớn về các chi tiết phong phú trong một hình ảnh Thông thường, chẩn đoán sẽ được phục vụ tốt nhất nếu các chi tiết nhỏ trong hình ảnh được giữ lại và hình ảnh có sẵn ở độ phân giải cao Trong xử lý hình ảnh y tế, các yếu tố khác nhau có thể ảnh hưởng đến độ phân giải không gian của hình ảnh và tùy thuộc vào phương thức Việc thu được hình ảnh y tế có độ phân giải cao là một thách thức và tốn kém vì nó đòi hỏi các công cụ phức tạp và đắt tiền, nguồn nhân lực được đào tạo và thường gây ra sự chậm trễ trong hoạt động Thay vì vậy, chúng ta có thể truy xuất hình ảnh HR từ hình ảnh LR bằng phương pháp SR
Về mặt kỹ thuật, hình ảnh SR là kỹ thuật tái tạo lại nội dung tần số cao trong ảnh
LR Khi sử dụng các phương pháp SR, chúng ta chỉ cần ảnh LR, do đó làm giảm độ phức tạp khi thu nhận ảnh Tuy nhiên, SR là một nhiệm vụ đầy thách thức Trong vài năm gần đây, các phương pháp SR đã được đề xuất cho cả hình ảnh tự nhiên và hình ảnh y tế Trong trường hợp ảnh y tế, các chi tiết nhỏ như cấu trúc giải phẫu nhỏ mang thông tin quan trọng hữu ích cho mục đích chẩn đoán Do đó, các phương pháp SR không nên gây ra các hiệu ứng không mong muốn vì chúng có thể có tác động bất lợi đến chẩn đoán Nhìn chung, các phương pháp SR có thể được chia thành hai nhóm: phương pháp truyền thống và phương pháp học sâu Các phương pháp SR truyền thống chủ yếu được chia thành ba loại, tức là phương pháp dựa trên nội suy, phương pháp dựa trên tái tạo và phương pháp dựa trên học đặc trưng Gần đây, các phương pháp tiếp cận dựa trên học sâu đã được khám phá để tạo ra ảnh SR [121] Những cách tiếp cận này đã vượt trội so với nhiều phương pháp truyền thống Các kỹ thuật SR dựa trên học sâu có thể giúp trích xuất các chi tiết phong phú từ ảnh LR thu được bằng các thiết bị hiện có Tài liệu về phương pháp học sâu trong SR ảnh y tế mới xuất hiện gần đây, tuy nhiên đã có mối quan tâm mạnh mẽ về chủ đề ứng dụng này cho các phương thức hình ảnh khác nhau như MRI, CT, v.v Các phương pháp học sâu có hai ưu điểm chính giúp phân biệt chúng với các phương pháp khác: tính toán song song được phát triển nhiều và khả năng biểu diễn mạnh mẽ
Bằng cách sử dụng khối phần dư (residual block) trong bài báo [122], khó khăn của việc huấn luyện các mạng thần kinh sâu trong bài toán siêu phân giải ảnh đơn đã
56 được khắc phục đáng kể Bởi lẽ khi độ sâu của mạng tăng lên, các tính năng trong mỗi lớp tích chập sẽ được phân cấp với các lĩnh vực tiếp nhận khác nhau Tuy nhiên, phương pháp này bỏ qua việc sử dụng đầy đủ thông tin của từng lớp tích chập Trong khi đó, các đối tượng trong hình ảnh có quy mô, góc nhìn và tỷ lệ khung hình khác nhau Các tính năng phân cấp từ một mạng lưới rất sâu sẽ cung cấp thêm manh mối để tái tạo ảnh Vì vậy, bài báo [123] giới thiệu khối dày đặc (dense block) nhằm khai thác các tính năng phân cấp cho siêu phân giải ảnh nhưng bị giới hạn tốc độ tăng trưởng (growth rate) tương đối thấp Ngoài hạn chế về tốc độ tăng trưởng, việc sử dụng các khối dày đặc còn gây khó khăn cho việc huấn luyện các mạng rộng hơn Do đó, Zhang và cộng sự [124] đề xuất mạng dày đặc phần dư RDN (Residual Dense Network) sử dụng các khối dày đặc phần dư RDB (Residual Dense Block) như thể hiện trong Hình 2.16 với các khả năng kết nối trực tiếp trạng thái và hợp nhất tính năng cục bộ nhằm tận dụng triệt để tất cả các tính năng phân cấp từ ảnh LR ban đầu để tạo ra ảnh SR chất lượng cao Đầu tiên, phương pháp này nhập các tính năng tích chập của lớp nông vào khối RDB để thu được các tính năng toàn cục và cục bộ Tiếp theo, mỗi lớp trong khối RDB được kết nối trực tiếp với lớp trước đó để sử dụng lại các tính năng Cuối cùng, lớp tích chập pixel phụ được sử dụng để lấy mẫu lên và tái tạo siêu phân giải để có được hình ảnh có độ phân giải cao rõ ràng
Hình 2.16 Kiến trúc mạng RDN
Học phần dư toàn cục
Học phần dư cục bộ
Trong số các phương pháp SR dựa trên học sâu, các phương pháp dựa trên Generative Adversarial Networks (GAN) đã cho thấy sự cải thiện đáng kể GAN [125] bao gồm hai phần: mô hình tạo sinh G (generative model) và mô hình phân biệt D (discriminator model) Hình 2.17 là lưu đồ giải thuật tạo ảnh SR điển hình dựa trên mạng GAN bằng phương pháp huấn luyện nhiều lần với tập dữ liệu bao gồm ảnh HR và ảnh
LR suy giảm chất lượng từ ảnh HR Các ảnh LR được cung cấp qua bộ G để tạo ảnh đầu ra SR Sau đó, ảnh SR được phân biệt với ảnh HR từ tập dữ liệu tương ứng để đánh giá chất lượng Hàm mất mát được tính dựa trên các bản đồ đặc trưng của ảnh SR qua bộ D và bộ trích đặc trưng theo mô hình VGG của ảnh HR Hàm mất mát sau đó sẽ được cập nhật cho bộ G để điều chỉnh ảnh SR sao cho giống nhất với ảnh HR Các giá trị hàm mất mát của bộ G và bộ D lan truyền ngược để cập nhật quá trình Sau cùng, hàm mất mát đạt đến giá trị trung bình, có nghĩa là bộ D không thể phân biệt các ảnh siêu phân giải
SR được tạo ra và bộ G cũng hội tụ
Hình 2.17 Lưu đồ giải thuật tạo ảnh siêu phân giải dựa trên GAN
Các mạng GAN tương tự bắt chước trong sinh học tiến hóa, với một sự chạy đua tiến hóa ở cả hai bộ, bộ phân biệt (D) và bộ tạo sinh (G) Ta huấn luyện cả bộ D và G chống lại nhau bằng cách tối đa hóa hàm mục tiêu đối với bộ D và tối thiểu hóa nó đối
58 với bộ G Trong trường hợp sử dụng hàm mất mát E(D, G), ta cần thực hiện theo công thức (2.69) max z min „ + 2, s (2.69) Gọi L là ảnh LR đầu vào và L… = s L là ảnh SR tạo ra
Hàm mất mát của bộ D được định nghĩa như sau:
Hàm mất mát đối nghịch của bộ G có dạng đối xứng như sau:
Tuy nhiên, thực tiễn cho thấy nếu chỉ sử dụng hàm mất mát đối nghịch ở bộ G thì không đạt được chất lượng của ảnh tạo Vì vậy, nhiều hàm mất mát thành phần đã được xem xét bổ sung
Hàm mất mát cảm thụ q †‡ˆ`‡† bổ sung ở cấp độ điểm ảnh được sử dụng rộng rãi nhất cho hình ảnh SR mà nhiều phương pháp tiên tiến dựa vào thường dựa trên MSE và được tính như sau:
‰ oŠ‹ ŠŒ = ˆ < •Ž ∑ ˆ• |S ∑ ˆŽ }S u |,} ŽŒ − s • • u ‘Œ |,} 3 (2.72) trong đó s• • u ‘Œ là ảnh khôi phục và u|,} ŽŒ là ảnh lấy mẫu xuống với hệ số giảm mẫu r
Một loại hàm mất mát bổ sung ở cấp độ điểm ảnh khác được đánh giá bằng khoảng cách norm-1 giữa ảnh khôi phục s L và ảnh nhãn y như trong công thức (2.73) q = +| ’‖s L − r‖ (2.73)
Bên cạnh đó, thay vì dựa vào màm mất mát cấp độ điểm ảnh, một số nghiên cứu đã xây dựng ý tưởng định nghĩa về hàm mất mát VGG dựa trên các lớp kích hoạt ReLU của mạng VGG 19 lớp được đào tạo trước Theo đó, hàm mất mát VGG được định nghĩa là khoảng cách Euclide giữa các biểu diễn đặc trưng của hình ảnh được tái tạo s• • u ‘Œ và tham chiếuu ŽŒ như trong công thức (2.74)
Kết luận chương
Bằng cách phân tích dựa trên nền tảng lý thuyết truyền thông tin, một hệ thống watermarking đã được xem xét với ba thành phần cơ bản bao gồm nhúng thông điệp, kênh tấn công, và trích thông điệp Từ đó, các thông số đánh giá các đặc tính chung của một hệ thống watermarking như khả năng cảm thụ (MSE, PSNR, SSIM), tính bền vững (BER), độ tin cậy (%), dung lượng nhúng (số lượng bit nhúng), và tính bảo mật (khóa bí mật) được tổng hợp đầy đủ làm cơ sở cho việc phân loại các hệ thống watermarking
Kế đến, ba phương pháp watermarking ảnh phổ biến bao gồm LSB, trải phổ, và lượng tử được phân tích chi tiết dưới dạng các mô hình toán học Sau đó, các phép biến đổi DCT, DWT, KLT, và SIFT được trình bày cụ thể và đánh giá ưu nhược điểm để có thể khai thác nâng cao hiệu quả của các phương pháp watermarking Cuối cùng, kỹ thuật siêu phân giải sử dụng trí tuệ nhân tạo với các mô hình mạng thần kinh sâu được đề cập như một loại tấn công hiện đại trong việc xem xét tính bền vững của kỹ thuật watermarking Dựa trên các cơ sở lý thuyết này, các giải pháp đề xuất nâng cao hiệu quả của kỹ thuật watermarking được phân tích và thảo luận trong các chương tiếp theo
CHƯƠNG 3 NÂNG CAO HIỆU QUẢ KỸ THUẬT WATERMARKING LSB ỨNG DỤNG CHO ẢNH Y TẾ DICOM
Chương này trình bày nội dung đóng góp đầu tiên của luận án với hai giải pháp đề xuất DICOM_LSB_AES và DICOM_LSB_AES_RONI nhằm nhằm tăng cường tính bảo mật cho việc nhúng trích thông tin trong ảnh y tế đặc thù DICOM trong lĩnh vực y tế từ xa bằng cách khai thác kỹ thuật watermarking LSB với các kỹ thuật mã hóa và mật mã AES Trước tiên, lý do lựa chọn và các thông số cơ bản của kỹ thuật mã hóa mật mã tiên tiến AES được giới thiệu cô đọng Các đặc tính riêng của ảnh DICOM và các vấn đề bảo mật với ảnh DICOM được đề cập ở phần tiếp theo Từ đó, hai giải pháp đề xuất DICOM_LSB_AES và DICOM_LSB_AES_RONI lần lượt được mô tả và phân tích đánh giá từ lý thuyết đến mô phỏng Sau cùng, luận án tổng hợp các kết quả thử nghiệm ứng dụng thực tiễn của hai giải pháp đề xuất này tại các bệnh viện.
Mã hóa mật mã AES
Mã hóa mật mã là cơ chế chuyển đổi dữ liệu có thể đọc được (plaintext) sang một định dạng khác không thể đọc được (ciphertext), để có thể ngăn cản những truy cập bất hợp pháp khi dữ liệu trao đổi trong môi trường mạng không an toàn Mã hóa dữ liệu ngăn chặn được các việc như nghe trộm và xem lén dữ liệu, chỉnh sửa và đánh cắp dữ liệu, giả mạo thông tin, chối bỏ dữ liệu, vv Khi nhận được dữ liệu sau mã hóa, người nhận sẽ giải mã dữ liệu lại dạng cơ bản ban đầu
Thuật toán mã hóa đối xứng (symmetric) sử dụng một khóa chung, còn gọi là khóa bí mật (secret key), để mã hóa và giải mã Khóa này cần chia sẻ trước (pre-shared) cho bên truyền và bên nhận Vì khóa bí mật được bảo vệ bởi bên gửi và bên nhận nên có thể chọn thuật toán mã hóa sử dụng khóa với độ dài ngắn hơn và làm cho việc tính toán nhanh hơn Thông thường, thuật toán đối xứng tính toán đơn giản hơn thuật toán bất đối xứng (asymmetric) và có thể tăng tốc bằng phần cứng chuyên dụng Nếu cần mã hóa lượng dữ liệu lớn, người ta chọn thuật toán đối xứng Thách thức khi sử dụng thuật toán đối xứng là việc quản lý khóa Khóa bí mật cần được trao đổi bằng kênh an toàn cho bên gửi và bên nhận trước khi truyền dữ liệu
Kỹ thuật phổ biến sử dụng trong mã hóa đối xứng là mã hóa khối (block ciphers) Phương pháp này mã hóa một khối dữ liệu gốc (plaintext) có độ dài cố định thành một khối dữ liệu đã mã hóa (ciphertext) có kích thước thông thường là 64 hoặc 128 bit Kích thước khối là ám chỉ đến lượng dữ liệu được mã hóa tại một thời điểm Nếu dữ liệu ngõ vào nhỏ hơn kích thước khối thì thuật toán sẽ thêm vào các bit giả
Các thuật toán mã hóa đối xứng phổ biến là DES (Data Encryption Standard) và AES (Advanced Encryption Standard) Trong đó, AES phổ biến trong thế giới hiện đại hơn và nó dùng để thay thế cho DES vốn đã xuất hiện từ năm 1977 AES hiệu quả hơn so với DES và 3DES, nhất là trong môi trường yêu cầu thông lượng cao, độ trễ thấp và đặc biệt là nếu chỉ sử dụng phần mềm để thực thi mã hóa AES có thể dễ dàng thực hiện với tốc độ cao bằng phần mềm hoặc phần cứng và không đòi hỏi nhiều bộ nhớ AES là một thuật toán tiêu chuẩn của chính phủ Mỹ nhằm mã hóa và giải mã dữ liệu do Viện Tiêu chuẩn và Công nghệ quốc gia Mỹ (National Institute Standards and Technology – NIST) phát hành ngày 26/11/2001 Vào tháng 6/2003, chính phủ Mỹ tuyên bố AES có thể được sử dụng cho thông tin mật "Thiết kế và độ dài khóa của thuật toán AES (128,
192 và 256 bít) là đủ an toàn để bảo vệ các thông tin được xếp vào loại TỐI MẬT (secret) Các thông tin TUYỆT MẬT (top secret) sẽ phải dùng khóa 192 hoặc 256 bít
Kể từ khi được công bố là một tiêu chuẩn, AES trở thành một trong những thuật toán mã hóa phổ biến nhất sử dụng khóa mã đối xứng để mã hóa và giải mã Ở Việt Nam, thuật toán AES đã được công bố thành tiêu chuẩn quốc gia TCVN 7816:2007 năm 2007 về Thuật toán mã hóa dữ liệu AES
AES sử dụng thuật toán Rijndael, do Joan Daemen và Vincent Rijmen phát triển Rijndael là thuật toán lặp và sử dụng khối và khóa có độ dài thay đổi Để có được kết quả cuối cùng, khối ngõ vào khởi tạo và khóa bị biến đổi nhiều vòng Một khóa 128,
192 hoặc 256 bits có thể được sử dụng để mã hóa các khối dữ liệu có kích thước 128,
192 hoặc 256 bits Do thuật toán này có thể được sử dụng với 3 độ dài khóa khác nhau như đã đề cập ở trên nên nó cũng được tham chiếu đến bằng 3 tên gọi tương ứng là
“AES-128”, “AES-192” và “AES-256” Nhiều phần mềm thương mại hiện nay sử dụng mặc định khóa có độ dài 128 bit AES-128 sử dụng 10 vòng (round), AES-192 sử dụng
12 vòng và AES-256 sử dụng 14 vòng
63 Đối với phép mã hóa và phép giải mã, thuật toán AES sử dụng một hàm vòng gồm bốn phép biến đổi sau: trộn từng byte SubBytes(), trộn từng hàng ShiftRows(), trộn từng cột MixColumns() và mã hóa AddRoundKey() Các phép biến đổi trong phép mã hóa có thể được đảo ngược và sau đó thực hiện theo chiều ngược lại nhằm tạo ra phép giải mã trực tiếp của thuật toán AES Các phép biến đổi sử dụng trong phép giải mã gồm: InvShiftRows(), InvSubBytes(), InvMixColumns() và AddRoundKey() Hình 3.1 trình bày quá trình mã hóa và giải mã của kỹ thuật mã hóa mật mã AES
Hình 3.1 Kỹ thuật mã hóa mật mã AES
Khi cài đặt thuật toán mã AES người ta thường không sử dụng ở dạng nguyên gốc AES thường hoạt động ở 4 chế độ cơ bản của mã khối n-bit (ECB, CBC, CFB và OFB) đặc tả bởi tiêu chuẩn ISO/IEC 10116:1997 Ngoài ra, AES cũng được khuyến nghị trong tiêu chuẩn định dạng tập tin DICOM bảo mật (RFC5652)
Các vấn đề bảo mật với ảnh DICOM
DICOM được viết tắt từ Digital Imaging and COmmunications in Medicine standards (tiêu chuẩn ảnh số và truyền thông trong y tế) là một hệ thống tiêu chuẩn công nghiệp được phát triển nhằm đáp ứng nhu cầu của của các nhà sản xuất cũng như người sử dụng trong việc kết nối, lưu trữ, trao đổi, in ấn ảnh y tế Với sự xuất hiện của các thiết bị thu nhận hình ảnh số và sự hiện diện ngày càng nhiều của máy tính trong việc chẩn đoán, hai tổ chức Hiệp hội ngành Chẩn đoán hình ảnh Mỹ ACR (the American College of Radiology) và Hiệp hội các nhà sản xuất Điện-Điện tử Mỹ NEMA (the National Electrical Manufacturers Association) nhận thấy cần phải có một tiêu chuẩn mới trong việc chuyển đổi hình ảnh cũng như liên kết thông tin giữa các nhà sản xuất Tiêu chuẩn DICOM được công bố năm 1993 dựa trên sự kế thừa và phát triển tiêu chuẩn ACR- NEMA của hai lần trước đó do đó còn gọi là phiên bản thứ ba (V3.0) Hiện nay việc quản lý hệ thống tiêu chuẩn này thuộc về một Ủy ban (DICOM Standards Committee) gồm nhiều công ty lớn chuyên sản xuất các thiết bị y tế, các tổ chức y tế, vv ở Bắc Mỹ, châu Âu, Nhật Bản Tiêu chuẩn DICOM cũng chính là tiêu chuẩn ISO 12052:2006 Tiêu chuẩn DICOM cho phép việc tích hợp dễ dàng các máy thu nhận hình ảnh, máy chủ (server), máy trạm làm việc (workstation), máy in và các thiết bị phần cứng khác có nối mạng từ các nhà sản xuất khác nhau vào trong hệ thống lưu trữ và truyền hình ảnh PACS (Picture Archiving and Communication System) Các thiết bị khác nhau như máy CT (Computed Tomography), MR (Magnetic Resonance), US (UltraSound), NM (Nuclear Medicine), vv được đi kèm một bảng đáp ứng các tiêu chuẩn DICOM để làm rõ các lớp dịch vụ mà thiết bị này hỗ trợ Nó tạo ra một ngôn ngữ chung cho phép giao tiếp hình ảnh và các thông tin y tế liên quan giữa các thiết bị và hệ thống trong mạng thông tin y tế DICOM đã dần dần được chấp nhận rộng rãi ở các bệnh viện và phòng khám
Một tập tin DICOM ngoài dữ liệu hình ảnh, còn chứa cả những thông tin khác như thông tin về bệnh nhân, về loại máy tạo ra bức ảnh, vv Đó cũng là sự khác biệt của định dạng ảnh DICOM so với các định dạng ảnh khác Một tập tin theo định dạng DICOM được tạo ra từ nhiều phương thức tạo ảnh khác nhau như minh họa ở Hình 3.2 và thường có phần mở rộng là dcm với khuôn dạng như mô tả ở Hình 3.3
Hình 3.3 Khuôn dạng tập tin DICOM
Phần Header bao gồm thông tin bộ định danh dữ liệu được đưa vào tập tin, nó bắt đầu bởi 128 bytes Preamble có giá trị 00H Sau đó là 4 bytes ký tự “DICM” dùng để nhận dạng tập tin DICOM
Phần Data Set bao gồm nhiều Data Element tạo nên một trường thông tin trong ảnh DICOM như minh họa ở Hình 3.4 Các Data Element ở đầu tập tin cung cấp một số thông tin quan trọng, gọi là File Meta Information Sau File Meta Information là những Data Element chứa nội dung tập tin DICOM (gồm hình ảnh, thông tin hình ảnh, thông tin bệnh nhân, vv.) Có ba trường bắt buộc cho mọi cấu trúc thành phần dữ liệu: nhãn (Tag), chiều dài giá trị (Value Length), trường giá trị (Value Field)
Hình 3.4 Cấu trúc của Data Element
Nhãn (Tag): là 1 cặp thứ tự số nguyên không dấu 16 bits (thường định dạng ở số hex FFFF) thể hiện nhóm (Group ID) và số thành phần (Element ID) dùng để xác định ý nghĩa của thành phần dữ liệu như minh họa ở Bảng 3.1
Bảng 3.1 Bảng mô tả một số tag của DICOM
Chiều dài giá trị (Value Length): Một số nguyên không dấu 16 bits hay 32 bits chứa chiều dài hiện tại của trường giá trị với ý nghĩa là số byte (chẵn) tạo nên giá trị Nó không bao hàm chiều dài của nhãn thành phần lệnh và trường chiều dài lệnh Nếu Value Length được biểu diễn bằng giá trị FFFFFFFFH thì độ dài của Data Element đó xem như không xác định
Trường giá trị (Value Field): một số chẵn các byte chứa giá trị của thành phần dữ liệu Loại dữ liệu của các giá trị được lưu trữ trong trường này được xác định bởi
VR của thành phần dữ liệu VR ứng với một nhãn thành phần dữ liệu cụ thể được xác định sử dụng từ điển dữ liệu, hoặc chứa ngay trong trường VR của thành phần dữ liệu
VR (Value Representation): Chuỗi kí tự 2 bytes chứa mô tả kiểu dữ liệu và định dạng của thành phần dữ liệu VR ứng với 1 nhãn thành phần dữ liệu cụ thể được định nghĩa trong từ điển dữ liệu Hai kí tự VR được mã hóa theo bộ kí tự mặc định DICOM Trường này chỉ xuất hiện trong các cấu trúc thành phần dữ liệu VR tường minh
Tuy nhiên, để xem được ảnh DICOM, các bác sĩ phải sử dụng phần mềm chuyên biệt Một hạn chế của phần lớn các phần mềm xem ảnh DICOM hiện nay đều thiếu cơ chế bảo mật khiến cho các thông tin cá nhân có nguy cơ bị xâm phạm trong quá trình lưu trữ và truyền nhận, nhất là trong môi trường Internet Cụ thể, bất kì ai có khả năng đọc ảnh DICOM không những có thể biết được toàn bộ thông tin cá nhân chứa trong ảnh DICOM mà thậm chí còn có thể chỉnh sửa thông tin cá nhân này Do đó, cách đơn giản nhất để không bị xâm phạm thông tin cá nhân chính là xóa bỏ nội dung các trường dữ liệu liên quan đến thông tin cá nhân trong ảnh DICOM khi lưu trữ và truyền nhận
Hệ quả là người sử dụng vẫn có thể thao tác với dữ liệu hình ảnh nhưng thông tin cá nhân hoàn toàn không thể khôi phục Vì vậy, phương pháp này chỉ phù hợp cho các mục đích thử nghiệm hay đào tạo liên quan đến ảnh DICOM Để giải quyết vấn đề trên, một số tác giả khai thác kỹ thuật mã hóa mật mã, trong đó phổ biến là mã AES tiên tiến đến thời điểm hiện tại Tuy nhiên, việc áp dụng mã hóa AES cho toàn bộ tập tin DICOM là không hiệu quả do kích thước tập tin DICOM rất lớn Trong khi đó, việc chỉ mã hóa mật mã AES cho các trường dữ liệu liên quan đến
68 thông tin cá nhân không hoàn toàn thành công do cú pháp quy định cho các trường dữ liệu liên quan đến thông tin cá nhân của ảnh DICOM phải ở định dạng chuỗi ký tự như trình bày trong Bảng 3.2 Cụ thể, dữ liệu sau mã hóa AES có thể sẽ chứa các kí tự điều khiển trong bảng mã ASCII như minh họa trong Bảng 3.3, điều này có thể dẫn tới việc giải mã sai, nghĩa là sẽ hiển thị tên bệnh nhân không như ban đầu
Bảng 3.2 Cú pháp quy định cho các trường dữ liệu định dạng chuỗi ký tự
Tag Name VR Character Repertoire Value
0010) Patient Name PN Không cho phép các ký tự điều khiển
0020) Patient ID LO Không cho phép các ký tự điều khiển
Các ký tự in hoa, các chữ số, khoảng trắng và gạch dưới "_"
0040) Patient’s Sex CS Các ký tự in hoa, các chữ số, khoảng trắng và gạch dưới "_"
Bảng 3.3 Các kí tự điều khiển trong bảng mã ASCII dẫn tới việc giải mã sai
Viết tắt Tên kí tự Hệ thập phân
Viết tắt Tên kí tự
00 NULL Null character 13 CR Carriage Return
08 BS Backspace 28 FS File Separator
09 HT Horizontal Tab 29 GS Group Separator
10 LF Line Feed 30 RS Record Separator
11 VT Vertical Tab 31 US Unit Separator
Giải pháp đề xuất DICOM_LSB_AES
Rõ ràng, do đặc thù của chuẩn ảnh DICOM nên giải pháp dùng mã hóa AES cho các trường dữ liệu liên quan đến thông tin cá nhân là không thực sự phù hợp Vì vậy, luận án tiến hành khai thác kỹ thuật watermarking để thực hiện nhúng trích thông tin cá nhân trong ảnh DICOM Thuận lợi của kỹ thuật watermarking là có thể giấu thông tin cá nhân theo cách thức không thể cảm thụ, điều mà kỹ thuật mật mã không thể đáp ứng Với đặc trưng ảnh DICOM thường sử dụng hơn 8 bit so với các định dạng ảnh xám (đơn sắc) phổ biến, có thể hỗ trợ lên đến 16 bit để đạt chất lượng hiển thị cao cho chẩn đoán thì việc nghiên cứu hoàn thiện kỹ thuật watermarking thay thế bit trọng số thấp LSB cho ảnh DICOM có thể mang lại hiệu quả rõ rệt về mặt cảm thụ Ngoài ra, phương pháp này còn có thuận lợi là đơn giản trong thực hiện nhúng và trích thông tin do có thể thực hiện trực tiếp trong miền không gian Tuy nhiên, thông tin cá nhân đã nhúng trong ảnh DICOM luôn có thể được truy xuất nếu xác định được vị trí nhúng bằng cách trích lại các bit có trọng số thấp của dữ liệu nhúng nên độ bảo mật của phương pháp này rất thấp
Vì vậy, trước tiên luận án đề xuất giải pháp kết hợp kỹ thuật mã hóa và kỹ thuật mật mã AES để nhúng trích thông tin cá nhân trong ảnh y tế đặc thù DICOM, gọi là DICOM_LSB_AES nhằm tăng cường tính bảo mật hỗ trợ cho ứng dụng y tế từ xa
Quá trình nhúng thông tin của giải pháp đề xuất DICOM_LSB_AES được thực hiện qua các bước sau:
Bước 1: Mã hóa nhị phân chuỗi thông tin cá nhân theo đúng định dạng cấu trúc dữ liệu chuẩn DICOM
Bước 2: Mã hóa mật mã AES chuỗi nhị phân dùng 1 từ mã bí mật
Bước 3: Chèn dữ liệu sau mã hóa mật mã vào các mặt phẳng bit trọng số thấp LSB của ảnh gốc Sau khi thu được ảnh nhúng, toàn bộ các trường dữ liệu liên quan đến thông tin cá nhân sẽ được xóa bỏ khỏi tập tin DICOM
Quá trình trích thông tin của giải pháp đề xuất DICOM_LSB_AES được thực hiện ngược lại với các bước sau:
Bước 1: Trích dữ liệu từ các mặt phẳng bit trọng số thấp LSB của ảnh nhúng
Bước 2: Giải mã hóa mật mã AES chuỗi nhị phân trích với từ mã bí mật ban đầu
Bước 3: Giải mã hóa nhị phân chuỗi bit thu được sau giải mã hóa mật mã theo đúng định dạng cấu trúc dữ liệu chuẩn DICOM
Trong phương pháp nhúng LSB, khi tăng dung lượng chuỗi nhúng sẽ làm giảm chất lượng của ảnh Tuy nhiên, dung lượng chuỗi nhúng còn phụ thuộc vào kích thước của ảnh, kích thước ảnh càng lớn thì dung lượng chuỗi nhúng được vào càng nhiều Hình 3.5 minh họa sự suy giảm chất lượng của ảnh nhúng khi thay đổi số lượng mặt phẳng LSB nhúng so với ảnh gốc CT 8 bit a) Ảnh gốc (8 bits) b) Ảnh nhúng 5-LSBs (25.02 dB) c) Ảnh nhúng 4-LSBs (32.43 dB) d) Ảnh nhúng 3-LSBs (38.91 dB)
Hình 3.5 Ảnh CT gốc và nhúng với số lượng các mặp phẳng bit LSB khác nhau
Do ảnh hưởng của hệ thống thị giác người, chất lượng ảnh nhúng có thể chấp nhận được với số mặt phẳng LSB nhúng nhỏ hơn hoặc bằng 3 Khi số mặt phẳng LSB nhúng bằng 4 thì sự suy giảm chất lượng có thể cảm thụ nhẹ, còn với trường hợp nhúng
5 mặt phẳng LSB thì ảnh nhúng bị suy giảm chất lượng đáng kể
Các Hình 3.6-3.8 tiếp tục minh họa tính cảm thụ trong trường hợp nhúng 3 mặt phẳng LSB cho các loại ảnh US, DX và MR a) Ảnh gốc (8 bits) b) Ảnh nhúng 3-LSBs (36.89 dB) Hình 3.6 Ảnh US gốc và nhúng 3 mặt phẳng bit LSB a) Ảnh gốc (8 bits) b) Ảnh nhúng 3-LSBs (38.02 dB) Hình 3.7 Ảnh DX gốc và nhúng 3 mặt phẳng bit LSB a) Ảnh gốc (8 bits) b) Ảnh nhúng 3-LSBs (37.40 dB) Hình 3.8 Ảnh MR gốc và nhúng 3 mặt phẳng bit LSB
Qua các kết quả có thể rút ra kết luận giới hạn dưới của giá trị PSNR để chất lượng ảnh nhúng không thể cảm thụ trong khoảng 37-38 dB và cũng phù hợp với nhiều công trình nghiên cứu watermarking cho ảnh 8 bit thông thường [131]
Với các ảnh y tế DICOM có độ sâu bit lớn hơn 8 thì có thể nhúng nhiều hơn 3 mặt phẳng LSB mà vẫn đảm bảo chất lượng của ảnh nhúng Để xác định giới hạn tối đa các mặt phẳng LSB có thể nhúng, luận án tiến hành phân tích lý thuyết thông số đánh giá mức độ cảm thụ MSE Gọi x, y lần lượt là giá trị thập phân của 1 pixel ảnh gốc và ảnh nhúng có cùng độ sâu bit B và chuỗi bit nhúng b có P bit tương ứng P mặt phẳng LSB Khi đó, ta có: x = 0b xB-1 xB-2 x1 x0 = 2 B-1 xB-1 + 2 B-2 xB-2 + 2 1 x1 + 2 0 x0 (3.1) b = 0b bP-1 bP-2 b1 b0 = 2 P-1 bP-1 + 2 P-2 bP-2 + 2 1 b1 + 2 0 b0 (3.2) y = LSBP(x, b) = 0b xB-1 xB-2 xP bP-1 bP-2 b1 b0 = 2 B-1 xB-1 + 2 B-2 xB-2 +
2 P xP + 2 P-1 bP-1 + 2 P-2 bP-2 + 2 1 b1 + 2 0 b0 (3.3) Độ méo dạng trung bình:
MSELSB(y, x) = E[(y – x) 2 ] = E[2 (P-1)2 (bP-1 - xP-1) 2 + 2 (P-2)2 (bP-2 - xP-2) 2 +
Giả sử xác suất 0 và 1 là như nhau với các bit của pixel ảnh gốc và chuỗi bit nhỳng, nghĩa là p(xi = 0) = p(xi = 1) = p(bi = 0) = p(bi = 1) = ẵ
E[(bi - xi)] 2 = ẳ.(0 – 0) 2 + ẳ.(0 – 1) 2 + ẳ.(1 – 0) 2 + ẳ.(1 – 1) 2 = ẵ (3.5) Kết quả thu được:
Bảng 3.4 trình bày các giá trị lý thuyết của MSE và PSNR trong trường hợp nhúng tối đa toàn bộ các điểm ảnh khi thay đổi số lượng mặt phẳng LSB nhúng cho các ảnh có độ sâu bit khác nhau Qua kết quả từ bảng phân tích có thể nhận thấy khi tăng
73 thêm một mặt phẳng LSB nhúng thì nhìn chung PSNR giảm xấp xỉ 6 dB Từ đó, số lượng tối đa mặt phẳng LSB có thể nhúng cũng được xác định tương ứng với độ sâu bit của ảnh gốc để đảm bảo chất lượng của ảnh nhúng
Bảng 3.4 Giá trị lý thuyết của MSE và PSNR
PSNR (dB) Độ sâu bit của ảnh gốc MSE
Với dung lượng thông tin nhúng rất cao lên đến 1 bit thông tin/pixel/mặt phẳng bit, cụ thể phương pháp đề xuất có thể nhúng tối đa 98304 byte thông tin cá nhân vào 3 mặt phẳng LSB của ảnh xám kích thước 512 x 512 So sánh với giải thuật trong bài báo [52] thì kết quả của giải pháp đề xuất hoàn toàn tương đồng Tuy nhiên, không như các tác giả trong bài báo trên khi áp dụng cho ảnh tự nhiên với độ bảo mật rất thấp do chỉ dùng kỹ thuật đảo bit trong khi giải pháp đề xuất thực hiện cho ảnh y tế DICOM có sử dụng kỹ thuật mật mã kết hợp quá trình nhúng trích thông tin nên đạt được mức độ bảo mật hai lớp Ở chế độ thông thường, bất kì ai cũng có thể thao tác xử lý trên dữ liệu ảnh
DICOM nhưng không thể truy cập được thông tin cá nhân Ở chế độ bảo mật, chỉ có người sử dụng hợp lệ (nắm giữ chính xác khóa bí mật) mới có thể trích được thông tin cá nhân Nhờ vậy, giải pháp đề xuất tăng cường tính năng bảo mật trong việc lưu trữ và truyền nhận ảnh DICOM, đáp ứng yêu cầu thực tiễn của y tế từ xa.
Giải pháp đề xuất DICOM_LSB_AES_RONI
Tuy nhiên, kỹ thuật watermarking LSB không có khả năng đảo ngược, nghĩa là không thể khôi phục ảnh gốc từ ảnh nhúng Do đó, trong những trường hợp cần đảm bảo độ tin cậy (chính xác) tuyệt đối trong kết quả chẩn đoán hình ảnh khi thực hiện nhúng trích thông tin thì giải pháp đề xuất chưa đáp ứng được Vì vậy, dựa trên đặc tính ảnh y tế thường có vùng nội dung quan tâm ROI (Region Of Interest) và không quan tâm RONI (Region Of Non-Interest) có vai trò ý nghĩa khác nhau trong việc chẩn đoán, luận án tiếp tục đề xuất giải pháp DICOM_LSB_AES_RONI nhúng trích thông tin trong vùng RONI được tạo ra từ đa giác khoanh vùng ROI/RONI có thể tạo tự động dựa trên đặc tính của mỗi phương thức tạo ảnh khác nhau hoặc hiệu chỉnh bởi bác sĩ chẩn đoán như minh họa ở Hình 3.9
Hình 3.9 Đa giác khoanh vùng ROI/RONI
Quá trình nhúng thông tin trong giải pháp đề xuất DICOM_LSB_AES_RONI được thực hiện qua 5 bước sau:
Bước 1: Mã hóa nhị phân chuỗi thông tin cá nhân theo đúng định dạng cấu trúc dữ liệu chuẩn DICOM
Bước 2: Mã hóa mật mã AES chuỗi nhị phân dùng 1 từ mã bí mật
Bước 3: Lựa chọn đa giác khoanh vùng ROI/RONI
Bước 4: Chèn dữ liệu sau mã hóa mật mã vào các mặt phẳng bit trọng số thấp LSB của vùng RONI của ảnh gốc, ngoại trừ tại các biên ảnh Sau khi thu được ảnh nhúng, toàn bộ các trường dữ liệu liên quan đến thông tin cá nhân sẽ được xóa bỏ khỏi tập tin DICOM
Bước 5: Chèn các thông số cần thiết cho quá trình trích như chiều dài dữ liệu sau mật mã, vị trí các đỉnh đa giác khoanh vùng ROI/RONI ở định dạng mã hóa nhị phân vào các mặt phẳng bit trọng số thấp LSB tại các biên ảnh
Quá trình trích thông tin trong giải pháp đề xuất DICOM_LSB_AES_RONI được thực hiện ngược lại với các bước sau:
Bước 1: Trích dữ liệu từ các mặt phẳng bit trọng số thấp LSB tại các biên của ảnh nhúng và giải mã để xác định chiều dài dữ liệu sau mật mã và vị trí các đỉnh đa giác khoanh vùng ROI/RONI
Bước 2: Trích dữ liệu từ các mặt phẳng bit trọng số thấp LSB của vùng RONI trong ảnh nhúng
Bước 3: Giải mã hóa mật mã AES chuỗi nhị phân trích với từ mã bí mật ban đầu
Bước 4: Giải mã hóa nhị phân chuỗi bit thu được sau giải mã hóa mật mã theo đúng định dạng cấu trúc dữ liệu chuẩn DICOM.
Kết quả thử nghiệm ứng dụng thực tiễn
Dựa trên các kết quả nghiên cứu, luận án đã xây dựng và thử nghiệm phần mềm khai thác dữ liệu ảnh DICOM có tăng cường tính bảo mật hỗ trợ cho ứng dụng y tế từ xa như minh họa ở Hình 3.10 trong các đề tài và dự án thực tiễn tại một số bệnh viện
Tập dữ liệu DICOM trong quá trình thử nghiệm thực tiễn tại bệnh viện Việt Nam tuân thủ theo đúng quy định hiện hành khi sử dụng cho mục đích nghiên cứu khoa học
Cụ thể, hơn 1000 ảnh DICOM được thu thập ngẫu nhiên từ hệ thống PACS tại các bệnh viện bao gồm hệ thống bệnh viện Medic Hòa Hảo, bệnh viện Quận Thủ Đức (nay là Thành phố Thủ Đức), bệnh viện Thống Nhất, dựa trên từ khóa tìm kiếm cho các phương thức chụp ảnh khác nhau như cắt lớp vi tính (CT), cộng hưởng từ (MRI), X quang (XR)
76 và siêu âm (US) Các ảnh DICOM này được mã hóa khuyết danh một số trường thông tin cá nhân và lưu trữ tại máy chủ thủ nghiệm Phần mềm thử nghiệm truy cập vào máy chủ thử nghiệm để thực hiện việc nhúng và trích thông tin với ảnh DICOM theo hai phương pháp DICOM_LSB_AES và DICOM_LSB_AES_RONI
Hình 3.10 Phần mềm thử nghiệm khai thác ảnh DICOM có tăng cường bảo mật
Kết quả thử nghiệm cho thấy phương pháp DICOM_LSB_AES đạt được dung lượng nhúng rất cao, lên đến 1 bit/pixel cho trường hợp nhúng thông tin với mức độ suy giảm chất lượng ảnh nhúng thấp nhất có thể Trong trường hợp yêu cầu nghiêm ngặt về chất lượng ảnh nhúng phải như ảnh gốc ban đầu cho mục đích chẩn đoán chính xác tuyệt đối với lượng thông tin nhúng vừa phải, phương pháp DICOM_LSB_AES_RONI được sử dụng để xác định vùng ROI để bảo toàn chất lượng ảnh nhúng và vùng RONI để thực hiện nhúng thông tin Phần mềm thử nghiệm có hai lựa chọn xác định vùng RONI là tự động hoặc thủ công bởi bác sĩ chẩn đoán hình ảnh
Với lựa chọn xác định vùng RONI tự động, phần mềm thử nghiệm thực hiện hai giải thuật xác định khoanh vùng chữ nhật dựa trên phân bố mức xám theo hàng/cột và khoanh vùng tự do dựa trên các phép toán hình thái học Kết quả khảo sát cho thấy giải thuật khoanh vùng RONI tự động ít nhạy với các loại ảnh y tế như minh họa trong các Hình 3.11, Hình 3.12 và Hình 3.13, trong khi giải thuật khoanh vùng tự do tương đối nhạy với các loại ảnh y tế và thường không hiệu quả với phương thức ảnh siêu âm như minh họa ở Hình 3.14 Tuy nhiên, khoanh vùng RONI tự động chữ nhật có hạn chế giới hạn dung lượng nhúng thông tin đáng kể
77 Hình 3.11 Khoanh vùng RONI tự động chữ nhật (trên) và tự do (dưới) với ảnh CT
Hình 3.12 Khoanh vùng RONI tự động chữ nhật (trên) và tự do (dưới) với ảnh MRI
78 Hình 3.13 Khoanh vùng RONI tự động chữ nhật (trên) và tự do (dưới) với ảnh XR
Hình 3.14 Khoanh vùng RONI tự động chữ nhật (trên) và tự do (dưới) với ảnh US
Với giải thuật khoanh vùng RONI thủ công, thông tin tọa độ các đỉnh đa giác khoanh vùng cần được nhúng thêm vào biên ảnh nhúng để quá trình trích có thể xác định chính xác vùng nhúng Khảo sát cho thấy với ảnh kích thước 512x512, trung bình lượng thông tin tọa độ nhúng thêm này chỉ chiếm từ 1 đến 2 hàng/cột
Kết quả thử nghiệm cho thấy quá trình nhúng và trích thông tin thực hiện rất đơn giản và nhanh chóng nên cả hai giải pháp DICOM_LSB_AES và DICOM_LSB_AES_RONI có thể được sử dụng rộng rãi trong các hệ thống xử lý ảnh DICOM, nhất là những ứng dụng có hạn chế về khả năng xử lý Việc thử nghiệm trích thông tin thành công cũng cho thấy hai giải pháp đề xuất hoàn toàn không ảnh hưởng đến các giao thức truyền Tuy nhiên, chỉ cần có thay đổi nhỏ (thậm chí 1 đơn vị mức xám) trong ảnh sau nhúng thì cũng có thể gây trích sai thông tin Do đó, hai giải pháp này chỉ phù hợp với những ứng dụng kênh truyền không lỗi (như tính năng tăng cường bảo mật thông tin cá nhân trong lưu trữ và truyền nhận ảnh DICOM của luận án).
Kết luận chương
Chương 3 đã phân tích trình bày giải thuật và các kết quả của hai giải pháp đề xuất nâng cao hiệu quả của kỹ thuật watermarking dựa trên kỹ thuật LSB cho ảnh đặc thù DICOM bao gồm DICOM_LSB_AES và DICOM_LSB_AES_RONI nhằm tăng cường tính năng bảo mật cho các ứng dụng y tế từ xa Các kết quả có liên quan của hai giải pháp đề xuất này đã được công bố trong 1 bài báo tạp chí trong nước chuyên ngành y học thực hành (thuộc danh sách tạp chí được tính điểm theo quy định của Hội đồng chức danh giáo sư nhà nước), 4 bài báo hội nghị quốc tế, và thử nghiệm thực tế với các hệ thống phần mềm ứng dụng trong lĩnh vực y tế qua 2 đề tài cấp nhà nước, 1 đề tài cấp thành phố, 1 đề tài cấp trường
Bài báo số 4 (tạp chí trong nước, đồng tác giả) đề cập và trích dẫn giải pháp DICOM_LSB_AES được ứng dụng trong thử nghiệm thực tế về tính hiệu quả của hệ thống PACS-Cloud tại các bệnh viện
Bài báo số 6 (hội nghị quốc tế IEEE, tác giả chính) trình bày và đánh giá giải pháp DICOM_LSB_AES nhằm tăng cường bảo mật thông tin cá nhân với ảnh DICOM ứng dụng trong sản xuất hệ thống PACS và hội chẩn y tế trực tuyến
Bài báo số 7 (hội nghị quốc tế IFBME, tác giả chính) phân tích và đánh giá giải pháp DICOM_LSB_AES bảo mật thông tin cá nhân trong các loại ảnh y tế DICOM
Bài báo số 8 (hội nghị quốc tế ACOMP, tác giả chính) trình bày giải pháp DICOM_LSB_AES_RONI nhằm tăng cường bảo mật thông tin cá nhân ứng dụng trong thiết kế hệ thống phần mềm xử lý ảnh DICOM trên nền tảng web
Bài báo số 9 (hội nghị quốc tế ISEE, tác giả chính) trình bày giải pháp DICOM_LSB_AES nhằm tăng cường bảo mật thông tin cá nhân ứng dụng trong thiết kế phần mềm khai thác ảnh DICOM trên hệ điều hành Window
Tham gia thành viên chính đề tài cấp nhà nước: “Ứng dụng công nghệ ảo hóa và điện toán đám mây để xây dựng hệ thống lưu trữ và truyền hình ảnh (PACS-Cloud) phục vụ kết nối liên thông dữ liệu giữa các bệnh viện,” mã số đề tài: 02.18.DACNC.QG, Bộ Công thương, từ tháng 04/2018 đến tháng 10/2020, đã nghiệm thu tháng 12/2020 với kết quả Đạt Đề tài có một phần nội dung nghiên cứu ứng dụng giải pháp DICOM_LSB_AES trong thiết kế phần mềm khai thác ảnh DICOM tăng cường bảo mật cho hệ thống PACS-Cloud và hội chẩn y tế trực tuyến
Tham gia thành viên chính đề tài cấp nhà nước: “Hoàn thiện công nghệ chế tạo thiết bị hệ thống thu thập, lưu trữ hình ảnh DICOM, hệ thống hội chẩn y tế trực tuyến Video và phần mềm bảo mật, khai thác cơ sở dữ liệu hình ảnh DICOM phục vụ chẩn đoán bệnh,” mã số đề tài: 01/2015/CNC-HDKHCN, Bộ Công thương, từ tháng 07/2015 đến tháng 06/2017, đã nghiệm thu tháng 11/2017 với kết quả Đạt yêu cầu Đề tài có một phần nội dung nghiên cứu ứng dụng giải pháp DICOM_LSB_AES nhằm tăng cường bảo mật thông tin cá nhân trong thiết kế phần mềm khai thác ảnh DICOM trên hệ điều hành Window
Tham gia thành viên chính đề tài cấp thành phố: Nghiên cứu thiết kế hệ thống phần mềm khai thác dữ liệu DICOM trên nền Web phục vụ hội chẩn y tế qua thiết bị Mobile và Smart Tivi,” mã số đề tài: 82/2017/HĐ-SKHCN, Sở Khoa học công nghệ TpHCM, từ tháng 06/2017 đến tháng 05/2019, đã nghiệm thu tháng 04/2019 với kết quả Đạt yêu cầu Đề tài có một phần nội dung nghiên cứu ứng dụng giải pháp DICOM_LSB_AES trong thiết kế phần mềm phần mềm bảo mật, khai thác cơ sở dữ liệu hình ảnh DICOM phục vụ chẩn đoán bệnh
Chủ nhiệm đề tài cấp trường: “Thiết kế phần mềm khai thác dữ liệu ảnh DICOM tăng cường tính năng bảo mật cho ứng dụng y tế từ xa,” mã số đề tài: T-ĐĐT-2017-
19, Trường Đại học Bách Khoa – ĐHQG TpHCM, từ tháng 06/2017 đến tháng 12/2018, đã nghiệm thu tháng 12/2018 với kết quả Đạt Đề tài có một phần nội dung nghiên cứu ứng dụng hai giải pháp DICOM_LSB_AES và DICOM_LSB_AES_RONI nhằm tăng cường bảo mật thông tin cá nhân trong thiết kế hệ thống phần mềm xử lý ảnh DICOM trên nền tảng web
NÂNG CAO HIỆU QUẢ KỸ THUẬT WATERMARKING LƯỢNG TỬ VÀ BIẾN ĐỔI SIFT TRƯỚC CÁC TẤN CÔNG ĐỒNG BỘ
Các vấn đề tồn tại với kỹ thuật watermarking lượng tử dựa trên biến đổi SIFT 82
So với kỹ thuật watermarking LSB, kỹ thuật watermarking lượng tử có điểm tương đồng là cũng thực hiện nhúng trích thông tin ở mức độ cục bộ từng điểm ảnh nhưng có tính bền vững hơn trước một số thay đổi nhỏ về giá trị mức xám của ảnh sau nhúng Tuy nhiên, điều này vẫn chưa mang lại hiệu quả trước các tấn công hình học do sự mất đồng bộ giữa vị trí nhúng và trích thông tin Gần đây, phần lớn giải thuật đề xuất cho watermarking thế hệ thứ hai bền vững trước các tấn công đồng bộ thường khai thác biến đổi SIFT được đưa ra bởi Lowe và đã được chứng minh rằng các điểm trích xuất thì bất biến với các phép dịch, xoay, co dãn ảnh và các biến đổi tịnh tiến Các công trình
83 này khẳng định các đặc trưng SIFT là giải pháp tốt bởi đặc tính bền vững của chúng và độ phức tạp tính toán tương đối thấp so với một số phương pháp trích đặc trưng khác Ý tưởng chính của phương pháp watermarking dựa trên SIFT là trích xuất các đặc trưng ổn định trong không gian tỉ lệ để từ đó thông tin được nhúng trong các vòng tròn có tâm tại vị trí của điểm đặc trưng và bán kính tỉ lệ với hệ số tỉ lệ Dựa trên SIFT, Nikolaidis [76] dùng tất cả đặc trưng để nhúng watermark vì thế vấn đề đồng bộ được bảo toàn Tuy nhiên, số lượng lớn các vùng nhúng theo đòi hỏi của giải thuật làm suy giảm chất lượng của ảnh nhúng Theo chính tác giả biến đổi SIFT, một ảnh thông thường kích thước 500x500 có thể cho ra tới 2000 điểm đặc trưng (mặc dù con số này phụ thuộc nội dung ảnh và giá trị các thông số lựa chọn khác nhau), bao gồm cả những đặc trưng có tính bền vững chưa cao và phân bố gần biên ảnh hoặc chồng lấp nên không hiệu quả trong quá trình thực hiện watermarking Ngoài ra, không phải tất cả các đặc trưng đều hữu ích cho quá trình nhúng và trích Do đó, Guo, Li và Pan [77] chỉ lựa chọn vài đặc trưng bền vững để nhúng thông tin dùng giải thuật lượng tử chẵn lẻ và đã chứng tỏ hiệu quả so với các phương pháp trước đó Tuy nhiên, theo phương pháp này thì thông tin gốc đòi hỏi ở quá trình trích và chỉ dùng trong ứng dụng kiểm chứng watermark Ngoài ra, do dùng cùng giải thuật lựa chọn vùng nhúng bền vững ở quá trình nhúng và trích nên có thể dẫn đến mất đồng bộ trong quá trình trích Mặt khác, một số tác giả cải thiện độ bền vững bằng cách dùng thêm đặc trưng hướng Tuy nhiên, họ cần biết trước các mô tả gốc của các đặc trưng nhúng trong quá trình trích Bên cạnh đó, số lượng các điểm đặc trưng sau biến đổi SIFT là khá lớn và không phải tất cả chúng đều hiệu quả Do đó, chúng cần được tiền xử lý để chọn lọc các điểm đặc trưng bền vững nhất trước các tấn công và tạo ra các vùng nhúng không chồng lấp Ngoài ra, các phương pháp watermarking dùng biến đổi SIFT hiện vẫn thiếu cơ chế bảo mật bởi lẽ kẻ tấn công có thể xác định được vùng nhúng Vì vậy, luận án nghiên cứu đề xuất các giải pháp đột phá để nâng cao tính bền vững trước nhiều loại tấn công khác nhau, bao gồm cả hai loại đồng bộ và không đồng bộ, của kỹ thuật watermarking dùng biến đổi SIFT nhằm cho phép trích thông điệp (một hoặc nhiều bit thông tin) trực tiếp từ ảnh kiểm tra mà không cần dùng ảnh gốc hay thông tin đặc trưng ban đầu
Giải pháp đề xuất watermarking một bit Q_SIFT
4.2.1 Giải thuật nhúng 1 bit thông tin
Hình 4.1 trình bày giải thuật nhúng 1 bit thông tin đề xuất Q_SIFT Theo đó, các đặc trưng SIFT được đưa qua các bước chọn lọc phù hợp để tăng tính bền vững và hiệu quả trước khi thực hiện nhúng thông tin theo kỹ thuật lượng tử
Hình 4.2 minh họa các đặc trưng SIFT trích xuất ban đầu (chiều dài vector đặc trưng tỉ lệ với hệ số scale theo hệ số khuếch đại k) Rõ ràng số lượng đặc trưng ở bước này khá nhiều và không phải tất cả các đặc trưng đều hiệu quả cho việc nhúng thông tin, ví dụ như một số đặc trưng nằm gần biên hay bị chồng lấp Nếu số lượng đặc trưng sử dụng quá nhiều sẽ làm giảm chất lượng ảnh nhúng, ngược lại nếu quá ít thì sẽ giảm khả năng trích thành công thông điệp trước các tấn công Do đó, các đặc trưng cần được lựa chọn hợp lý để đảm bảo các yêu cầu này Trước tiên, các hệ số scale của các đặc trưng SIFT được phân tích và chọn lọc phù hợp Hình 4.3 và 4.4 minh họa biểu đồ histogram giá trị hệ số scale và giá trị tương quan của các đặc trưng trước và sau tấn công xoay
45 o Có thể thấy số lượng hệ số scale lớn không nhiều và không còn xuất hiện sau tấn công Vì vậy, việc lựa chọn các hệ số scale phù hợp mang lại các hiệu quả sau: 1) đảm bảo khả năng thu được một số đặc trưng ban đầu khi gặp tấn công, 2) đảm bảo số lượng đặc trưng sử dụng vừa đủ, 3) đảm bảo tỉ lệ phạm vi thay đổi hệ số scale không quá lớn để các vùng nhúng thông tin theo hệ số scale cũng không chênh lệch quá nhiều, 4) giảm thời gian xử lý tìm các đặc trưng bền vững ở bước tiếp theo Kết quả các đặc trưng sau lựa chọn phù hợp được thể hiện ở Hình 4.5
Hình 4.1 Lưu đồ giải thuật nhúng 1 bit thông tin Q_SIFT
Nhúng bit dùng lượng tử Ảnh Cover Chọn các đặc trưng không chồng lấp
Lọc các đặc trưng ở biên
Chọn các đặc trưng bền vững với các tấn công
Trích xuất đặc trưng SIFT Ảnh chứa bit nhúng
Lọc đặc trưng có hệ số Scale phù hợp
85 Hình 4.2 Các đặc trưng ban đầu (kSIFT=3)
Hình 4.3 Histogram hệ số scale trước và sau tấn công xoay 45 o
86 Hình 4.4 Giá trị tương quan các đặc trưng trước và sau tấn công xoay 45 o
Hình 4.5 Các đặc trưng trích chọn với thông số scale phù hợp (kSIFT)
Tiếp theo, các đặc trưng với hệ số scale phù hợp được chọn lọc để bền vững trước các tấn công xoay và co giãn ảnh Lưu ý các đặc trưng sau khi bị tấn công, nếu nó vẫn còn tồn tại thì tọa độ, hệ số co giãn (scale), và hướng sẽ thay đổi theo, nhưng thông số mô tả (descriptor) hầu như không thay đổi Vì vậy, descriptor có thể dùng để đại diện cho đặc trưng tương ứng với nó Phương pháp chọn lựa các đặc trưng bền vững trước các tấn công xoay và co giãn ảnh là chúng ta sẽ xoay ảnh với bước nhảy là 15 và co giãn ảnh với bước nhảy là 0.1 để loại bỏ đi các đặc trưng không bền vững và giữ lại những đặc trưng bền vững dựa vào descriptor Giá trị ngưỡng tương quan giữa descriptor ban đầu và descriptor sau tấn công được chọn là 0.8
Hình 4.6 và 4.7 lần lượt minh họa các đặc trưng trích chọn bền vững với xoay ảnh và co giãn ảnh
Hình 4.6 Các đặc trưng trích chọn bền vững với xoay ảnh (kSIFT)
Hình 4.7 Các đặc trưng trích chọn bền vững với co giãn ảnh (kSIFT) Để tăng cường độ chính xác của việc trích thông tin khi các đặc trưng trích có thay đổi nhỏ, chúng ta sẽ nhúng cùng thông tin theo kỹ thuật lượng tử chẵn lẻ vào các vùng tròn theo tọa độ (t1, t2) và hệ số scale của các đặc trưng như trong công thức 4.1:
L − ™ 3 + r − ™ 3 3 = ŠšZe p 3 (4.1) trong đó, k SIFT là hệ số khuếch đại để điều khiển bán kính của các vùng tròn
Lúc này, tùy thuộc vào giá trị hệ số khuếch đại k SIFT mà có thể có nhiều vùng nhúng (trong hình tròn) chồng lấp lên nhau hoặc tràn ra ngoài biên ảnh Vì thế, trước khi nhúng thông tin, ta phải chọn ra các đặc trưng có các vùng tròn tương ứng không tràn ra ngoài biên và không chồng lấp lên nhau Ta thấy, đối với các tấn công như xoay,
89 co giãn hay dịch ảnh thì càng gần tâm của ảnh thì càng ổn định Do đó, sau khi đã loại bỏ các đặc trưng gây ra vùng nhúng tràn ra ngoài biên thì ta sẽ ưu tiên chọn đặc trưng có tọa độ gần tâm nhất Bước tiếp theo là bỏ đi tất cả các đặc trưng nào mà vùng nhúng tương ứng với nó chồng lấp lên vùng nhúng của đặc trưng đã chọn Lặp lại như trên đối với các đặc trưng còn lại đến khi không còn đặc trưng nào có vùng nhúng chồng lấp lên nhau Phép nhúng đạt hiệu quả khi ta trích chọn được vừa đủ đặc trưng bền vững để nhúng Lưu ý nếu quá ít đặc trưng nhúng, bên thu khi trích lại thông tin, nếu một vài đặc trưng bị sai ta sẽ khó trích lại đúng thông tin đã nhúng Nếu quá nhiều đặc trưng nhúng, khi đó số lượng pixel của mỗi vùng nhúng lại quá ít, cũng làm giảm khả năng trích đúng thông tin khi có tấn công làm thay đổi đáng kể giá trị pixel của vùng nhúng Bảng 4.1 và Hình 4.8 minh họa kết quả sau trích chọn đặc trưng SIFT bền vững để nhúng thông tin với kSIFT
Hình 4.8 Các đặc trưng trích chọn sau bỏ biên và không chồng lấp (kSIFT)
Bảng 4.1 Bảng minh họa số lượng đặc trưng SIFT trích chọn sau mỗi bước xử lý
Bước xử lý Số lượng đặc trưng SIFT
Sau bền vững với xoay ảnh 14
Sau bền vững với co giãn ảnh 12
Sau bỏ biên và không chồng lấp 5
4.2.2 Giải thuật trích 1 bit thông tin
Hình 4.9 trình bày giải thuật trích 1 bit thông tin theo giải pháp đề xuất Q_SIFT
Hình 4.9 Lưu đồ giải thuật trích 1 bit thông tin Q_SIFT
Theo đó, quá trình trích thông tin vẫn có bước trích chọn đặc trưng phù hợp nhưng không giống hoàn toàn như trong quá trình nhúng thông tin Theo giải thuật trích đề xuất, quá trình trích chọn đặc trưng bên trích chỉ bao gồm loại bỏ vùng trích tràn ra ngoài
Trích bit dùng lượng tử Ảnh chứa thông tin nhúng
Trích xuất đặc trưng SIFT
Lọc các đặc trưng ở biên
So sánh độ tin cậy với ngưỡng
91 biên ảnh Bởi lẽ quá trích trích thông tin không dùng ảnh gốc hoặc thông tin của các đặc trưng ban đầu thế nên các đặc trưng thu thường sẽ khác với các đặc trưng đã nhúng thông tin Ngoài ra, chưa kể ảnh hưởng của các tấn công làm sai lệch đặc trưng nhúng ban đầu nên ta không thể lựa chọn các vùng không chồng lấp dựa trên vị trí gần tâm như giải thuật nhúng được Do đó, thách thức lúc này chính là việc xác định các đặc trưng đã dùng để nhúng thông tin Lúc này, thông số độ tin cậy được đề xuất tính toán và so sánh với ngưỡng để quyết định bit thông tin tương ứng với vùng nhúng ban đầu
Trong trường hợp nhúng cùng bit thông tin trong một vùng diện tích như công thức (4.1) thì bit thông tin trích tương ứng được xác định dựa trên số lượng lớn hơn của loại bit giải lượng tử theo công thức (4.2):
= 0, 5-› ≥ 5-› 1, 5-› < 5-› (4.2) trong đó 5-› 0 và 5-› 1 lần lượt là tổng số bit 0 và bit 1 sau giải lượng tử trong vùng trích
Như phân tích ở kỹ thuật lượng tử, với các đặc trưng tương ứng vùng nhúng thực sự thì khi trích thông tin sẽ cho kết quả đúng với tỉ lệ gần như tuyệt đối bit 0 hoặc bit 1 Với các đặc trưng hoàn toàn không liên quan đến vùng nhúng thì khi trích thông tin sẽ cho kết quả ngẫu nhiên với tỉ lệ bit 0 và bit 1 xấp xỉ nhau Do đó, dựa trên ngưỡng xác định ta có thể ước đoán các vùng tròn có khả năng cao là vùng nhúng ban đầu Luận án khai thác đặc tính này để cải thiện tính bền vững và độ tin cậy của các giải pháp đề xuất trong việc trích thông tin trực tiếp từ ảnh tấn công mà không cần ảnh gốc hoặc bất kì thông tin phụ nào Theo đó, thông số độ tin cậy được đề xuất đánh giá ở nhiều cấp độ Ở cấp độ bit, độ tin cậy được xác định dựa trên các bit sau giải lượng tử ở mỗi vùng trích Độ tin cậy nhỏ nhất khi tổng số bit trích loại 0 (NUM0) và 1 (NUM1) là như nhau, và lớn nhất khi tất cả bit trích chỉ toàn loại 0 hoặc 1, được xác định theo công thức sau: œ•9 = žŸ {P¡o P¡o ¢ ;P¡o ¢ , P¡o : : } (4.3)
Theo công thức (4.3), độ tin cậy ở cấp độ bit sẽ có giá trị lớn nhất bằng 1 tương ứng với việc quyết định chính xác (100%) thông tin trích loại 0 hay 1, và nhỏ nhất bằng 0.5 tương ứng với quyết định thông tin trích hoàn toàn một cách ngẫu nhiên (50%) Ngoài ra, cũng dễ thấy rằng khi trích thông tin ở đúng vùng nhúng ban đầu thì chênh lệch số lượng bit 0 và 1 sẽ lớn, trong khi ở vùng không nhúng thì số lượng bit 0 và 1 sẽ xấp xỉ Vì vậy, ta có thể sử dụng một ngưỡng cho trước để xác định vùng nhúng ban đầu Ở cấp độ điểm ảnh, độ tin cậy được xác định dựa trên mức độ sai số giữa giá trị thực tế thu được và giá trị lượng tử so với bước lượng tử theo công thức (4.4) Nếu giá trị này càng gần các giá trị lượng tử cho trước {Q0k, Q1k} thì độ tin cậy càng cao, trong khi nếu nằm ngay chính giữa thì độ tin cậy thấp nhất œ•† = 1 − ž£¤ {¥¦ § B • ¢\ ∆ ¥,¥¦ § B • :\ ¥} (4.4)
Với các thông số độ tin cậy này, tính bền vững của quá trình watermarking có thể được đánh giá tức thời với một trường hợp cụ thể thay vì phải khảo sát số lượng đủ lớn các lần mô phỏng để độ chính xác có ý nghĩa về mặt thống kê Ngoài ra, trong ứng dụng thực tế, độ tin cậy cũng cho biết thêm thông tin về mức độ chính xác của thông tin trích.
Các giải pháp đề xuất watermarking nhiều bit HRSMQ_SIFT và FSMQ_SIFT 92
Các giải thuật nhúng và trích 1 bit thông tin đề xuất Q_SIFT có thể mở rộng cho nhiều bit thông tin theo hai giải pháp sau: thứ nhất là chia vùng tròn nhúng thành các phần nửa vành khuyên HRSMQ_SIFT (Half-Ring-Shaped Multi-bit Q_SIFT) và thứ hai là chia vùng tròn nhúng thành các phần hình quạt FSMQ_SIFT (Fan-shaped Multi-bit Q_SIFT)
4.3.1 Nhúng theo các phần nửa vành khuyên HRSMQ_SIFT
Giải pháp nhúng nhiều bit thông tin HRSMQ_SIFT tương tự như giải pháp nhúng
1 bit thông tin Q_SIFT, chỉ khác ở bước cuối cùng thực hiện nhúng chuỗi bit thông tin vào các phần nửa vành khuyên của mỗi vùng tròn nhúng không chồng lấp Hình 4.10
93 minh họa việc nhúng N bit thông tin theo 2N phần nửa vành khuyên trong vùng tròn bán kính Ro
Hình 4.10 Các phần hình nửa vành khuyên
Việc phân chia mỗi vùng vành khuyên thành hai nửa nhằm đạt được độ bảo mật khi sử dụng thêm khóa bí mật tạo ra một dịch chuyển góc ngẫu nhiên so với thông số hướng của đặc trưng để xác định phần nửa vành khuyên nhúng tương ứng với mỗi bit thông tin Các vùng vành khuyên thứ i được xác định theo công thức sau: ăœ0 = â L, r | H − 1 Œ P  ≤ = |} ≤ H Œ P  ê (4.5) trong đó
4.3.2 Nhúng theo các phần hình quạt FSMQ_SIFT
Giải pháp nhúng nhiều bit thông tin FSMQ_SIFT tương tự như giải pháp nhúng
1 bit thông tin Q_SIFT, chỉ khác ở bước cuối cùng thực hiện nhúng chuỗi bit thông tin vào các phần hình quạt của mỗi vùng tròn nhúng không chồng lấp Hình 4.11 minh họa việc nhúng N bit thông tin theo N phần hình quạt
Tương tự như với giải pháp nhúng theo các phần nửa vành khuyên, độ bảo mật của giải pháp nhúng theo các phần hình quạt cũng có thể đạt được khi sử dụng thêm khóa bí mật tạo ra một dịch chuyển góc ngẫu nhiên so với thông số hướng của đặc trưng
94 để xác định phần hình quạt nhúng tương ứng với mỗi bit thông tin Các vùng hình quạt thứ i được xác định theo công thức sau: ô0 = â L, r | − ơ + H − 1 3O P ≤ ơ |} ≤ − ơ + H 3O P ê (4.7) trong đó ơ |,} = k6@™kJ A } | F (4.8)
Hình 4.11 Các phần hình quạt
4.3.3 Trích nhiều bit thông tin
Tại các vùng tròn tương ứng với các đặc trưng trích được, dựa vào thông số hướng của đặc trưng và khóa, chúng ta sẽ xác định được vị trí các vùng nửa bán khuyên hoặc các vùng hình quạt, từ đó thực hiện giải lượng tử để tìm ra các chuỗi bit thông tin tạm thời Dựa trên việc so sánh tương quan giữa các chuỗi bit thông tin tạm thời này với ngưỡng và kỹ thuật chia nhóm lặp vòng, ta sẽ tìm lại các vùng nhúng không chồng lấp ban đầu để từ đó quyết định chuỗi bit thông tin đã nhúng
Nếu không có tấn công, thì nhóm đặc trưng đã nhúng thông tin sẽ có tính chất mà các chuỗi bit ngẫu nhiên ta trích được tại các vùng ta không nhúng thông tin bao gồm: có nhiều chuỗi bit giống nhau hoàn toàn và các vùng nhúng không chồng lấp lên nhau Khi ảnh bị tấn công, các chuỗi bit trích được có thể bị sai lệch, nhưng nếu thông tin trích chỉ sai một vài bit so với tổng số bit đã nhúng thì độ tương quan của nó vẫn còn cao Do đó, ta sẽ so sánh các chuỗi bit bằng độ tương quan
Với các chuỗi bit trích được, giải thuật chia nhóm lặp vòng bắt đầu bằng việc tìm hai vùng trích có độ tương quan thấp nhất, từ đó xác định các vùng không chồng lấp có độ tương quan trên ngưỡng với mỗi vùng trích này Trong trường hợp tồn tại hai nhóm vùng trích có số đặc trưng khác nhau thì nhóm có ít đặc trưng hơn sẽ bị loại bỏ Nếu số đặc trưng của hai nhóm bằng nhau thì nhóm có tổng diện tích nhỏ hơn sẽ bị loại bỏ Trong trường hợp không tìm thấy thêm các vùng không chồng lấp có độ tương quan trên ngưỡng thì loại bỏ cả hai vùng trích ban đầu Quá trình trên được lặp lại cho đến khi thu được một nhóm vùng trích không chồng lấp với độ tương quan trên ngưỡng sau cùng
Hình 4.12 trình bày giải thuật trích nhiều bit thông tin đề cho cả hai trường hợp đề xuất HRSMQ_SIFT và FSMQ_SIFT Theo đó, quá trình trích nhiều bit thông tin có các bước trích đặc trưng SIFT tương tự như quá trình trích 1 bit thông tin, chỉ khác ở bước mở rộng trích chuỗi bit theo các phần nửa vành khuyên (HRSMQ_SIFT) hoặc các phần hình quạt (FSMQ_SIFT) và khai thác tương quan giữa các vùng thông tin trích để trích chọn các vùng nhúng không chồng lấp ban đầu
Hình 4.12 Lưu đồ giải thuật trích nhiều bit thông tin (HRSMQ_SIFT và FSMQ_SIFT)
Trích chuỗi bit dùng thuật toán lượng tử chẵn lẻ Ảnh chứa thông tin nhúng
Chọn nhóm có số vùng không chồng lấp nhiều nhất
Trích xuất đặc trưng SIFT
Chọn các nhóm chuỗi bit có độ tương quan cao
Lọc các đặc trưng ở biên
Giả sử chúng ta trích được các chuỗi bit ( = {( , ( 3 , ( - , … , ( } tương ứng với các đặc trưng trích ban đầu Nếu ảnh không bị tấn công thì nhóm đặc trưng đã nhúng thông tin sẽ cho ra kết quả có nhiều chuỗi bit trích giống nhau hoàn toàn tương ứng với các vùng trích không chồng lấp lên nhau Do bị tấn công, các chuỗi bit này có thể bị sai lệch, nhưng nếu thông tin trích sai ít bit thì độ tương quan nó vẫn còn cao Trong các chuỗi bit này, chúng ta sẽ tìm một nhóm gồm các chuỗi bit, mà từng chuỗi bit trong đó có độ tương quan với các chuỗi bit khác trong nhóm lớn và các vùng trích tương ứng không chồng lấp lên nhau Các bước xác định nhóm này như sau:
Bước 1: Lập ma trận tương quan giữa các chuỗi bit trong A
Hàng thứ i trong ma trận m chính là hệ số tương quan giữa chuỗi bit ( với tất cả các chuỗi bit trong A, trong đó k [ là độ tương quan giữa ( và ( [ , k [ là độ tương quan giữa ([ và ( Từ đó ta suy ra k[ = k[ và k = 1 Nếu k[ ≥ € thì hai chuỗi này tương quan nhau, với β là ngưỡng tương quan
Việc xét độ tương quan giữa các chuỗi bit với nhau chỉ cần xét ma trận tam giác dưới h của m, cho các phần tử còn lại gán bằng 1
Bước 2: Tiếp theo, dựa vào h chúng ta sẽ tìm ra các chuỗi thông tin không tương quan nhau (k[ < € Qua đó xác định hàng thứ i và cột thứ j trong ma trận m hay ta xác định có hai chuỗi ( và ( [ không tương quan nhau
Bước 3: Xác định tất cả các chuỗi bit tương quan với ( bằng cách tìm tất cả các phần tử trong hàng thứ i của ma trận m lớn hơn hoặc bằng β Tương tự tìm tất cả các chuỗi
97 bit tương quan với ( [ Trong hai nhóm này ta sẽ chọn nhóm có nhiều đặc trưng không chồng lấp hơn
Bước 4: Tại nhóm thứ nhất, tìm hai đặc trưng có các hình tròn tương ứng chồng lấp nhau Đối với mỗi đặc trưng, ta tìm tất cả đặc trưng mà các hình tròn tương ứng không chồng lấp Đặc trưng nào có số đặc trưng không chồng lấp ít hơn sẽ bị loại bỏ Còn nếu số đặc trưng không chồng lấp giống nhau, đặc trưng nào có tổng tương quan nhỏ hơn sẽ bị loại Trường hợp tổng độ tương quan của hai chuỗi bit có đặc trưng tương ứng bằng nhau rất khó, nếu có ta phải bỏ một trong hai đặc trưng đang xét Sau đó, ta lặp lại bước này để được một nhóm các đặc trưng không chồng lấp
Bước 5: Lặp lại bước 4 đối với nhóm thứ hai, ta sẽ thu được hai nhóm đặc trưng không chồng lấp Trong hai nhóm này, nhóm nào có ít đặc trưng hơn sẽ bị loại bỏ Nếu tổng số đặc trưng bằng nhau, nhóm có tổng tất cả độ tương quan giữa các chuỗi bit tương ứng với các đặc trưng trong nhóm nhỏ hơn sẽ bị bỏ
Giải pháp đề xuất SQ_SIFT tăng cường tính bảo mật
Ngoài ra, luận án cũng đề xuất thêm giải pháp tăng cường bảo mật SQ_SIFT (Secure Q_SIFT) bằng cách thay đổi vị trí vùng nhúng dựa trên các đặc trưng và khóa bí mật như minh họa ở Hình 4.13
Hình 4.13 Thay đổi vị trí vùng nhúng dựa trên các đặc trưng và khóa bí mật
Khóa bí mật sẽ tạo ra cặp thông số (, ) và vị trí nhúng sẽ thay đổi đến vị trí mới Q(u,v) từ vị trí đặc trưng ban đầu P(t1,t2) bằng phép xoay góc so với hệ số góc của đặc trưng SIFT và phép tịnh tiến theo hệ số scale của đặc trưng SIFT Nhờ vậy,
99 các đặc trưng khi trích ít bị ảnh hưởng do vùng nhúng thông tin không thực hiện trực tiếp tại vị trí các đặc trưng Trong khi đó, kẻ tấn công cũng khó thực hiện việc trích thông tin bất hợp pháp hay làm hư hại thông tin nhúng do không có khóa bí mật.
Kết quả mô phỏng và thử nghiệm
Tập dữ liệu sử dụng trong mô phỏng và thử nghiệm đánh giá hiệu quả của các giải pháp watermarking đề xuất được tổng hợp từ các tập dữ liệu công khai quốc tế để đảm bảo bao gồm đa dạng các phương thức tạo ảnh khác nhau như CT (các tập dữ liệu LiTS, LCTSC, VESSEL), MRI (các tập dữ liệu BraTS, Kaggle), XR (các tập dữ liệu NIH Chest X-ray, CheXpert), và US (tập dữ liệu EchoNet-Dynamic) Một số trường hợp các ảnh đa kênh được biến đổi về ảnh xám dơn kênh
Riêng tập dữ liệu sử dụng trong huấn luyện mô hình tấn công siêu phân giải được khai thác trực tiếp từ tập dữ liệu DIV2K [132] Tập dữ liệu này bao gồm các hình ảnh độ phân giải 2K với nhiều chi tiết khác nhau như động vật, con người, quang cảnh thiên nhiên, v.v cho các tác vụ khôi phục hình ảnh Toàn bộ tập dữ liệu có nhiều hệ số tỷ lệ khác nhau bao gồm 2x, 4x, 3x và 8x với phương pháp thu nhỏ chủ yếu là song lập phương (bicubic) Tập dữ liệu được chia thành: 800 hình ảnh để huấn luyện, 100 hình ảnh để kiểm chứng, 100 hình ảnh để kiểm tra
4.5.1 Kiểm chứng mô hình tấn công siêu phân giải
Luận án thực hiện tấn công siêu phân giải ảnh đơn sử dụng kỹ thuật tiên tiến nổi tiếng ESRGAN Bằng cách đào tạo lại mô hình được đề xuất với tham số khác và so sánh kết quả để hiểu rõ hoạt động của mô hình cũng như ảnh hưởng của các thông số trong xây dựng kiến trúc mạng
Chúng ta có thể thấy từ Hình 4.14 về kết quả hàm mất mát của bộ tạo sinh trong quá trình huấn luyện và kiểm chứng Hàm mất mát trong quá trình huấn luyện (Hình a) bị dao động theo các lần lặp thể hiện sự cải thiện của việc tạo hình ảnh của bộ tạo sinh
Do các hình ảnh tạo ra từ bộ tạo sinh được đưa đến bộ phân biệt, sự dao động có nghĩa là bộ phân biệt đã nhận ra các hình ảnh tạo sinh so với ảnh thực gắn nhãn, sau đó bộ tạo sinh phải điều chỉnh để tạo ra hình ảnh tốt hơn Hàm mất mát trong quá trình kiểm chứng (Hình b) giảm dần theo các epoch
Hình 4.14 Kết quả hàm mất mát của bộ tạo sinh
Tương tự, Hình 4.15 thể hiện kết quả hàm mất mát của bộ phân biệt trong quá trình huấn luyện và kiểm chứng Các dao động ở đoạn giữa các đồ thị cho thấy bộ phân biệt không thể phân loại được hình ảnh thật hay hình ảnh giả do trình tạo sinh tạo ra Qua đó có thể thấy các kết quả mô phỏng phù hợp với lý thuyết về kỹ thuật GAN a) Huấn luyện b) Kiểm chứng
Hình 4.15 Kết quả hàm mất mát của bộ phân biệt
Theo công bố trong bài báo [127], kiến trúc RRDN trong phương pháp ESRGAN không làm giảm hiệu quả nhưng tiết kiệm tài nguyên tính toán và sử dụng bộ nhớ Kết qua mô phỏng kiểm chứng này sử dụng máy chủ differ.ai 1080Ti với RAM là 16GB
Mô hình thực hiện huấn luyện 80 epoch, 500 lần lặp ở mỗi epoch và kích thước lô (batch)
16 với tham số tối ưu hóa PSNR Nhìn chung, kết quả mô hình xây dựng lại đạt chất lượng tương tự như của bài báo [127] với PSNR chấp nhận được và thu được kết quả tốt ngay cả với những hình ảnh nằm ngoài bộ huấn luyện và bộ kiểm chứng Bảng 4.2 so sánh PSNR trung bình trên tập dữ liệu kiểm chứng với 100 hình ảnh có độ phân giải thấp được lấy mẫu xuống bicubic Theo đó, ESRGAN đạt được PSNR trung bình cao nhất với lấy mẫu tăng x2 Ngược lại, SRGAN có hiệu suất thấp trong hầu hết quá trình đánh giá, điều đó cho thấy để mạng thần kinh hoạt động tốt, chúng ta cần sử dụng một
101 hàm mất mát phù hợp Ở phần lấy mẫu tăng x4 là nơi thể hiện rõ nhất việc chỉ sử dụng PSNR để đánh giá chất lượng ảnh là không đủ Theo kết quả khảo sát, phương pháp nội suy bicubic cho kết quả PSNR cao hơn nhưng một số vùng có thể hơi mờ, trong khi đó các mạng thần kinh giữ được nhiều chi tiết hơn và chất lượng hiển thị tốt hơn về mặt cảm thụ thị giác
Bảng 4.2 Bảng kết quả huấn luyện với PSNR(dB)
Tỉ lệ lấy mẫu lên x2 x4 Bicubic 29.83 25.75
Các kết quả mô phỏng kiểm chứng cho thấy sự phù hợp và hiệu quả của mô hình siêu phân giải dủng kỹ thuật ESRGAN và là cơ sở để luận án bổ sung loại tấn công này trong các đánh giá về tính bền vững cho các giải pháp watermarking đề xuất
4.5.2 Đánh giá tính cảm thụ
Trước tiên, luận án đánh giá tính cảm thụ cho trường hợp nhúng cùng một bit thông tin ở miền không gian với các giải pháp watermarking khác nhau bao gồm phương pháp LSB và các phương pháp dựa trên lượng tử (Q) Phương pháp Q1 thực hiện nhúng và trích thông tin với toàn ảnh, nghĩa là không sử dụng các đặc trưng Các phương pháp Q2, Q3 và Q4 thực hiện nhúng thông tin dựa trên chọn lọc các đặc trưng SIFT bền vững Phương pháp Q2 vẫn trích thông tin với toàn ảnh, trong khi phương pháp Q3 trích thông tin dựa trên toàn bộ các đặc trưng thu được, còn phương pháp Q4 (Q_SIFT đề xuất) chỉ trích thông tin từ các đặc trưng thu được có tương quan cao nhất Độ méo dạng giữa ảnh nhúng và ảnh gốc được đánh giá qua đại lượng PSNR và SSIM Từ (2.17), để đạt được ngưỡng cảm thụ khác biệt bởi mắt người (PSNR trong khoảng 37-38 dB) và giảm thiểu các sai số làm tròn, luận án lựa chọn khoảng lượng tử =5 ở các phương pháp lượng tử Các kết quả đánh giá tính cảm thụ được trình bày trong Bảng 4.3
Bảng 4.3 Bảng đánh giá tính cảm thụ
Trong trường hợp sử dụng tấn công siêu phân giải dùng AI, luận án cũng tiến hành đánh giá mức độ cảm thụ thị giác giữa phương pháp siêu phân giải dùng kỹ thuật ESRGAN với phương pháp lấy mẫu lên bicubic truyền thống như minh họa trong Hình 4.6
Hình 4.16 So sánh mức độ cảm thụ thị giác giữa ảnh lấy mẫu lên bicubic (bên trái) và ảnh ESRGAN (bên phải)
4.5.3 Đánh giá tính bền vững và độ tin cậy
Bên cạnh việc đánh giá tính bền vững theo độ chính xác của thông tin trích so với thông tin nhúng, luận án đưa ra thêm thông số đánh giá độ tin cậy cho phương pháp watermarking lượng tử (công thức 4.3) Trước tiên, độ tin cậy trong trường hợp không tấn công được trình bày trong Bảng 4.4 Phương pháp LSB chính là trường hợp đặc biệt của phương pháp Q1 với =1 nên cả hai phương pháp này cùng đạt được độ tin cậy hoàn toàn Rõ ràng phương pháp LSB sẽ cho chất lượng ảnh nhúng cao nhất khi đánh giá bằng PSNR nhưng lại rất kém bền vững trước các tấn công nên chỉ thích hợp với kênh truyền không nhiễu Các phương pháp Q2, Q3 và Q4 cho chất lượng ảnh nhúng tốt hơn Q1 do chỉ nhúng thông tin trong các vùng tương ứng với các đặc trưng bền vững chọn lọc Ngoài ra, việc dùng phương pháp lượng tử Q1 để nhúng thông tin cho toàn ảnh không thể áp dụng cho trường hợp nhúng nhiều bit Mặt khác, khi đánh giá bằng SSIM thì chất lượng ảnh nhúng của các phương pháp này thậm chí cũng tương đương với LSB Do thông tin chỉ được nhúng trong các vùng nhất định nên nếu quá trình trích thông tin thực hiện ở cả các vùng không nhúng như phương pháp Q2 và Q3 thì độ tin cậy rất thấp Chỉ có phương pháp đề xuất Q4 (Q_SIFT) đạt được độ tin cậy hoàn toàn do thực hiện phân tích tương quan giữa các vùng đặc trưng để tìm ra chính xác vùng có chứa thông tin nhúng ban đầu
Bảng 4.4 Bảng đánh giá độ tin cậy khi không tấn công
Phương pháp LSB Q1 Q2 Q3 Q_SIFT Độ tin cậy 1 1 0.5291 0.5727 1
Hình 4.17 trình bày độ tin cậy của các vùng đặc trưng trích trong trường hợp chỉ nhúng một bit thông tin và không tấn công Các vùng đặc trưng trích có độ tin cậy cao (trên 0.8) khá tương đồng với các vùng nhúng thông tin ban đầu Dựa trên kết quả bước đầu này, luận án tiếp tục khảo sát độ tin cậy của phương pháp lượng tử đề xuất (Q4) cho trường hợp nhúng một bit thông tin trước các loại tấn công khác nhau như trình bày trong Bảng 4.5 Trường hợp tấn công khiến không thể trích được vùng đặc trưng được ghi nhận là NA (Not Available) Nhìn chung, phương pháp lượng tử đề xuất cho thấy
104 tính bền vững vượt trội trước các tấn công đồng bộ như xoay ảnh hay cắt xén lên đến 20% cũng như một số tấn công không đồng bộ như nén ảnh JPEG (100) hay JPEG2000
Hình 4.17 Độ tin cậy của các vùng đặc trưng trích
Bảng 4.5 Bảng đánh giá độ tin cậy trước các tấn công với nhúng một bit
Tấn công Q_SIFT Tấn công Q_SIFT
Nhiễu muối tiêu (0.02) NA Cắt xén 10% 1
Nén JPEG (75) 0.6932 Co giãn 0.5 lần 0.6927
Nén JPEG2000 1 Co giãn 0.8 lần 0.8086
N u m b e r o f p ix e ls R e lia b ili ty
Xoay 30 o 1 Siêu phân giải AI 2 lần 0.8631
Kết luận chương
Tóm lại, phần lớn giải thuật đề xuất cho watermarking thế hệ thứ hai thường khai thác biến đổi SIFT và đã được chứng minh các điểm trích xuất thì bất biến với các phép dịch, xoay, co dãn ảnh và các biến đổi tịnh tiến Các công trình này khẳng định các đặc trưng SIFT là giải pháp tốt bởi đặc tính bền vững của chúng và độ phức tạp tính toán tương đối thấp Ý tưởng chính của biến đổi SIFT là trích xuất các đặc trưng ổn định trong không gian tỉ lệ Khi đó, thông tin được nhúng bằng kỹ thuật lượng tử chẵn lẻ trong các vòng tròn có tâm tại vị trí của điểm đặc trưng và bán kính tỉ lệ với hệ số tỉ lệ
Tuy nhiên, số lượng các điểm đặc trưng sau biến đổi SIFT là khá lớn và không phải tất cả chúng đều hiệu quả Do đó, chúng cần được tiền xử lý để chọn lọc các điểm đặc trưng bền vững nhất trước các tấn công và tạo ra các vùng nhúng không chồng lấp Ngoài ra, nhiều phương pháp watermarking dùng biến đổi SIFT hiện vẫn cần ảnh gốc để đối chiếu các đặc trưng Vì vậy, luận án đề xuất các giải pháp nhúng và trích thông tin hiệu quả cho ảnh y tế dựa trên kỹ thuật lượng tử kết hợp với chọn lọc đặc trưng SIFT bền vững trong khi quá trình trích vẫn không cần sử dụng ảnh gốc để so khớp các đặc trưng như một số phương pháp truyền thống Về mặt chất lượng ảnh nhúng, luận án đánh giá từ cảm thụ trực quan đến các thông số khách quan như MSE, PSNR và SSIM Về tính bền vững, luận án xem xét toàn diện các tấn công điển hình với ảnh y tế từ loại không đồng bộ như nhiễu, nén, cho đến đồng bộ như lật xoay, co giãn, cắt xén, siêu phân giải dùng trí tuệ nhân tạo Bên cạnh đó, luận án cũng đưa ra thêm thông số đánh giá độ tin cậy để so sánh các giải pháp đề xuất với các phương pháp phổ biến khác Với thông số bổ sung này, việc đánh giá tính bền vững tăng thêm khả năng ứng dụng thực tiễn, đáp ứng yêu cầu đặc thù trong lĩnh vực y tế Ngoài giải pháp watermaring cho một bit thông tin Q_SIFT, luận án còn mở rộng phân tích đánh giá watermarking nhiều bit với hai giải pháp nhúng theo hình quạt FSMQ_SIFT và hình nửa vành khuyên HRSMQ_SIFT Với mỗi giải pháp, luận án đều bổ sung tính bảo mật kép bằng cách khai thác các thông số của đặc trưng SIFT qua giải pháp SQ_SIFT và khóa bí mật Đặc biệt, để có thể trích thông tin không cần ảnh gốc hoặc bất kì thông tin phụ nào, giải thuật chia nhóm lặp vòng dựa trên so sánh tương quan đã được đề xuất để khôi phục vùng nhúng ban đầu Các kết quả mô phỏng và thử nghiệm với một số ảnh y tế phổ biến cho thấy giải pháp đề xuất nhúng thông tin trong các vùng hình quạt đạt hiệu quả cao nhất trước hầu hết các tấn công thường gặp trong xử lý ảnh y tế Đây là các đóng góp chính mang tính nổi bật của luận án
Một số kết quả đã được tổng hợp trình bày trong 2 bài báo tạp chí Scopus, 1 bài báo hội nghị quốc tế, 1 đề tài nghiên cứu cấp thành phố, 1 đề tài nghiên cứu cấp trường
Bài báo số 1 (tạp chí quốc tế JAIT, tác giả chính) phân tích đánh giá các giải pháp kỹ thuật watermarking bền vững trước các tấn công đồng bộ Q_SIFT, FSMQ_SIFT, HRSMQ_SIFT, SQ_SIFT cho các loại ảnh y tế khác nhau
Bài báo số 2 (tạp chí quốc tế JAIT, đồng tác giả) phân tích đánh giá mô hình học máy tạo ảnh siêu phân giải làm cơ sở cho việc xem xét phân tích đánh giá hiệu quả của kỹ thuật nhúng trích thông tin trước tấn công siêu phân giải bằng trí tuệ nhân tạo
Bài báo số 5 (hội nghị quốc tế ISEE, tác giả chính) phân tích đánh giá ưu khuyết điểm các giải pháp kỹ thuật watermarking bền vững trước các tấn công đồng bộ Q_SIFT, FSMQ_SIFT, HRSMQ_SIFT, so với kỹ thuật watermarking LSB và trải phổ
Tham gia thành viên chính đề tài cấp thành phố: “Xây dựng, thử nghiệm bộ chuẩn dữ liệu dựa trên các nền tảng tiêu chuẩn quốc tế HL7 FHIR và DICOM ứng dụng cho bệnh án điện tử và cho liên thông dữ liệu giữa các bệnh viện,” mã số đề tài: 98/2019/HĐ-QPTKHCN, Sở Khoa học công nghệ TpHCM, từ tháng 11/2019 đến tháng 05/2022, đã nghiệm thu tháng 05/2022 với kết quả Đạt yêu cầu Đề tài có một phần nội dung nghiên cứu ứng dụng các giải pháp kỹ thuật watermarking bền vững trước các tấn công đồng bộ Q_SIFT, FSMQ_SIFT, HRSMQ_SIFT, SQ_SIFT cho các loại ảnh y tế khác nhau để tích hợp thông tin trong hồ sơ bệnh án điện tử
Chủ nhiệm đề tài cấp trường: “Giải pháp hiệu quả nâng cao tính bền vững của kỹ thuật watermarking ảnh mù,” mã số đề tài: T-ĐĐT-2019-28, Trường Đại học Bách Khoa – ĐHQG TpHCM, từ tháng 09/2019 đến tháng 09/2020, đã nghiệm thu tháng 12/2020 với kết quả Đạt Đề tài có một phần nội dung nghiên cứu phân tích đánh giá các giải pháp kỹ thuật watermarking bền vững trước các tấn công đồng bộ Q_SIFT, FSMQ_SIFT, HRSMQ_SIFT, SQ_SIFT cho các loại ảnh y tế khác nhau
NÂNG CAO HIỆU QUẢ KỸ THUẬT WATERMARKING TRẢI PHỔ ỨNG DỤNG CHO ẢNH Y TẾ VÀ ẢNH ĐA KÊNH
Các vấn đề tồn tại với kỹ thuật watermarking trải phổ truyền thống
Do các đặc tính bảo mật cao, tính trong suốt (cảm thụ) của dữ liệu sau nhúng tốt và khả năng bền vững trước các tấn công khi khai thác các miền biến đổi khác nhau nên phương pháp watermarking dựa trên kỹ thuật trải phổ vẫn đang được nghiên cứu và ứng dụng rộng rãi trong nhiều lĩnh vực Tuy nhiên, phương pháp này cũng tồn tại những hạn
110 chế cố hữu Thứ nhất, luôn có sai số nhất định giữa thông tin nhúng và trích, phụ thuộc vào hệ số tương quan giữa watermark và dữ liệu nhúng, làm suy giảm độ tin cậy và tính bền vững của phương pháp này Mặt khác, phần lớn các thông số trong các giải thuật này chủ yếu được lựa chọn dựa trên kinh nghiệm hoặc thử nghiệm đơn giản mà thiếu các phân tích đánh giá tối ưu Ngoài ra, nhiều tác giả cũng không xem xét ảnh hưởng của sai số làm tròn và giới hạn của bộ giả ngẫu nhiên trong thực tế đến độ chính xác của hệ thống watermarking ảnh, đặc biệt là khi thực hiện ở miền biến đổi
Vì vậy, trước tiên, luận án khảo sát ảnh hưởng của chiều dài chuỗi watermark Chiều dài chuỗi watermark được lựa chọn sao cho đảm bảo độ tin cậy cao nhất trong khi có thể đạt được dung lượng bit nhúng tối đa cũng như đảm bảo thời gian thực thi hay độ phức tạp chấp nhận được Trong trường hợp này, chúng ta chủ yếu xét đến lỗi phát hiện sai, nghĩa là khi hai chuỗi watermark khác nhau thì giá trị tương quan của chúng phải càng thấp (gần 0), khi đó càng đảm bảo độ tin cậy
Hình 5.1 trình bày kết quả khảo sát chiều dài chuỗi watermark thông qua giá trị lớn nhất và phương sai của hệ số tương quan bằng cách thống kê giá trị tương quan của từng cặp chuỗi watermark khác nhau khi khảo sát ngẫu nhiên 20000 lần ứng với mỗi chiều dài chuỗi watermark chọn trước Rõ ràng khi chiều dài watermark càng lớn thì phương sai ứng với hai chuỗi watermark khác nhau (tỉ lệ với lỗi phát hiện sai) càng giảm, có nghĩa là càng tăng độ tin cậy khách quan của hệ thống Tuy nhiên, khi chiều dài watermark càng tăng thì thời gian thực thi càng lâu Mặt khác, khi chiều dài watermark tăng thì khả năng nhúng nhiều bit sẽ giảm Để có thể nhúng nhiều bit thông tin trong một ảnh, ta có thể thực hiện phân đoạn ảnh theo từng khối có kích thước nhỏ hơn và thực hiện watermarking cho từng khối này Xét một ảnh có kích thước chuẩn 512x512 Khi đó, mối quan hệ giữa kích thước khối và dung lượng bit nhúng cũng như chiều dài chuỗi watermark được cho trong Bảng 5.1 Kích thước khối nếu quá lớn sẽ không cho phép nhúng được nhiều bit, còn nếu quá nhỏ sẽ làm cho chuỗi watermark cũng phải có chiều dài ngắn lại và khi đó quá trình phát hiện sẽ kém chính xác Bên cạnh đó, cũng cần thấy rằng chiều dài watermark bị giới hạn bởi kích thước của ảnh và mức phân tích Wavelets (khi thực hiện ở miền DWT)
Hình 5.1 Khảo sát chiều dài chuỗi watermark
Bảng 5.1 Mối liên hệ giữa kích thước khối và dung lượng bit cũng như chiều dài watermark trong trường hợp ảnh 512 x 512
Kích thước khối Dung lượng bit Chiều dài watermark tối đa
Bảng 5.2 và Hình 5.2 trình bày kết quả khảo sát can nhiễu giữa các loại ảnh khác nhau (bao gồm ảnh tự nhiên và các loại ảnh y tế) với chuỗi watermark Ứng với mỗi thể loại ảnh mô phỏng, giá trị trung bình, giá trị lớn nhất và phương sai của hệ số tương quan giữa ảnh gốc và 200 chuỗi watermark khác nhau có chiều dài bằng với kích thước ảnh gốc được thống kê Từ kết quả khảo sát có thể thấy tuy giá trị trung bình của hệ số tương quan xấp xỉ 0 nhưng vẫn tồn tại giá trị phương sai đáng kể, nghĩa là có ảnh hưởng can nhiễu giữa ảnh gốc và chuỗi watermark làm giảm độ tin cậy của hệ thống
112 watermarking Ngoài ra, can nhiễu giữa ảnh gốc và chuỗi watermark cũng phụ thuộc vào đặc trưng của từng loại ảnh
Bảng 5.2 Khảo sát can nhiễu giữa ảnh gốc và chuỗi watermark
Image Size Mean Max Var
Hình 5.2 Khảo sát can nhiễu giữa ảnh gốc và chuỗi watermark.
Các giải pháp watermarking trải phổ điều chỉnh cải tiến cho ảnh y tế đơn kênh
Trước tiên, luận án tập trung vào việc giải quyết những vấn đề còn tồn tại của kỹ thuật watermarking trải phổ truyền thống cho ảnh đơn kênh bằng cách đưa ra các phương pháp điều chỉnh dành cho bộ trích tương quan (phương pháp loại bỏ mức DC) và dành cho tín hiệu gốc đầu vào dựa trên phương pháp trải phổ cải tiến ISS nhằm nâng cao chất lượng dữ liệu sau khi nhúng và giảm ảnh hưởng của nhiễu nội gây ra bởi chính dữ liệu gốc trong quá trình trích xuất watermark Ngoài ra, luận án phát triển các điều chỉnh cải
113 tiến trên theo hướng tổng quát hóa cho nhúng nhiều bit thông so với phương pháp truyền thống chỉ nhúng 1 bit thông tin Những đề xuất đột phá này cho ra phương pháp MISS (Multi-bit Improved Spread Spectrum) nhằm tăng cường tính chính xác của toàn bộ quá trình nhúng và trích xuất thông tin đồng thời nâng cao dung lượng thông tin nhúng và cải thiện chất lượng dữ liệu sau khi nhúng
Giả sử {Ui}i = [1…B] là các chuỗi watermark ngẫu nhiên chuẩn hóa trung bình 0 với chỉ hai giá trị 1 tương ứng với B bit thông tin {b i } Ảnh sau khi nhúng S của phương pháp đề xuất MISS được tạo thành từ ảnh gốc X với hệ số độ mạnh watermark được xác định theo công thức sau:
Bộ trích tương quan dựa trên ảnh thu (sau tấn công) Y trong phương pháp đề xuất MISS được điều chỉnh như sau: r k E Y Y [( ).U ] k (5.2) ˆ k sign( ) k b r (5.3)
Trong trường hợp lý tưởng không có tấn công, giá trị tương quan của bộ trích ứng với từng bit thông tin có dạng:
Từ phương trình (5.4) có thể thấy rằng phương pháp đề xuất sẽ đạt được độ tin cậy 100% (nghĩa là dữ liệu trích hoàn toàn chính xác như dữ liệu thông tin nhúng) khi và chỉ khi điều kiện +,- - = 0 H thỏa mãn Điều này có thể thực hiện được khi sử dụng các chuỗi watermark trực giao
Thực hiện nhúng trích thông điệp ở miền không gian có ưu điểm là đơn giản nhưng bị giới hạn bởi số lượng hữu hạn các giá trị mức xám (chẳng hạn 256 mức với ảnh 8 bit) Do đó, hệ số độ mạnh nhúng không thể điều chỉnh linh động vì có thể gây ra sai số làm tròn đáng kể nếu lựa chọn không thích hợp Ngoài ra, trước những tấn công xuất hiện ngày càng nhiều trong quá trình truyền tín hiệu đặc biệt là sự xuất hiện của
114 giải thuật nén tín hiệu, hình ảnh thì những tổn hao trong tấn công trên kênh truyền của quá trình watermarking ngày càng nhiều Sự ra đời của những kỹ thuật mới ứng dụng trong miền biến đổi nhằm mục đích giải quyết vấn đề trên Mục đích chính của các kỹ thuật này là chuyển tín hiệu từ miền không gian sang một miền khác như DCT và DWT dựa trên đặc tính cảm thụ của mắt người để giảm thiểu ảnh hưởng đến độ trong suốt (chất lượng) của ảnh nhúng đồng thời trong miền này thông tin nhúng vào sẽ bền vững hơn trước những tấn công nén tổn hao mà ở đây là các kỹ thuật nén JPEG và JPEG2000
Vì vậy, sự kết hợp phương pháp đề xuất MISS với các phép biến đổi sẽ là một phương án triển khai ứng dụng khả thi, đặc biệt trước những tấn công nén tổn hao tín hiệu
Sự kết hợp phương pháp đề xuất MISS với biến đổi DCT cho ra phương pháp MISS_DCT với sự điều chỉnh thực hiện ở quá trình nhúng và trích thông tin theo các công thức (5.5) và (5.6)
Sự kết hợp phương pháp đề xuất MISS với biến đổi DWT cho ra phương pháp MISS_DWT với sự điều chỉnh thực hiện ở quá trình nhúng và trích thông tin theo các công thức (5.7) và (5.8)
Các giải pháp watermarking trải phổ hợp tác cho ảnh đa kênh
5.3.1 Giải pháp watermarking trải phổ hợp tác CSS
Như đã trình bày ở chương 2, việc mở rộng kỹ thuật watermarking trải phổ cho dữ liệu đa kênh như ảnh màu, ảnh siêu phổ, vv vẫn còn nhiều cơ hội và thách thức Trong phần lớn trường hợp, việc mở rộng này được thực hiện bằng cách nhúng watermark trực tiếp vào một thành phần đặc biệt nào đó của dữ liệu bao phủ, chẳng hạn
115 như kênh màu xanh dương trong không gian màu RGB, thành phần độ sáng trong không gian màu YUV, hoặc xử lý riêng mỗi thành phần mà không xem xét tương quan giữa chúng Trái lại, một số nghiên cứu khai thác tương quan chéo của các kênh màu RGB bằng cách thiết kế một bộ phát hiện dựa trên tương quan toàn cục để tổng hợp thông tin thu được từ tất cả ba kênh màu, từ đó chất lượng thực hiện của hệ thống được cải thiện Tuy nhiên, kỹ thuật này mới chỉ xem xét kết hợp trung bình trong bộ phát hiện toàn cục và rất khó để đưa ra được chiến thuật phát hiện tối ưu Bên cạnh đó, nó đòi hỏi dữ liệu gốc tại bộ phát hiện Vì vậy, trước tiên, luận án đề xuất và phân tích hệ thống watermarking hợp tác, gọi là CSS (Cooperative Spread Spectrum) với m kênh cho dữ liệu hình ảnh dựa trên kỹ thuật trải phổ truyền thống và bộ thu tương quan tuyến tính tổng quát như mô tả ở Hình 5.3
Hình 5.3 Mô hình watermarking trải phổ hợp tác
Tương tự như mô hình watermarking trải phổ truyền thống, một khóa bí mật K được sử dụng bởi bộ giả ngẫu nhiên PRN để tạo ra chuỗi watermark U như nhau cho tất cả các kênh ảnh ở cả quá trình nhúng và trích thông tin Tuy nhiên, với mô hình hợp tác đề xuất, chuỗi watermark U sau đó được cộng với từng kênh ảnh gốc Xi thông qua bit
116 thông tin b và hệ số độ mạnh nhúng i để cho ra các kênh ảnh nhúng tương ứng Si theo công thức (5.9):
0 = 1 + • - (5.9) Độ méo dạng của mỗi kênh ảnh nhúng so với ảnh gốc được xác định bởi di = E[(Si – Xi) 2 ] = i 2 (5.10) Giả sử mô hình tấn công là nhiễu cộng Khi đó ảnh thu được có dạng:
Yi = Si + Ni (5.11) Quá trình trích thông tin sử dụng bộ phát hiện tương quan như sau:
6 = +,4 - = +,1 - + • + +,5 - (5.12) Để cho phép các bộ phát hiện cục bộ có thể hợp tác, một bộ phát hiện tuyến tính toàn cục được sử dụng như sau:
6 ` = ∑ S 6 (5.13) trong đó {wi 0} là các hệ số trọng số để điều chỉnh bộ phát hiện toàn cục, thể hiện tỉ lệ đóng góp của từng kênh vào quyết định thông tin trích sau cùng
Giả sử các kênh ảnh gốc và nhiễu có phân bố Gaussian: Xi ~ N(0, xi 2) và Ni ~ N(0, ni 2) Khi đó, ngõ ra các bộ tương quan cục bộ cũng có phân bố Gaussian, nghĩa là ri ~ N(mri, ri 2) với mri = b.i (5.14a)
Hệ quả, hệ số tương quan trích toàn cục rc cũng có phân bố Gaussian, nghĩa là rc
S (5.15b) Nếu bit thông tin nhúng b = {1} thì bit thông tin trích tại từng kênh sẽ dựa vào ngưỡng cố định bằng 0 (không phụ thuộc độ mạnh nhúng) và có dạng như sau:
Vì vậy, mỗi bộ phát hiện tương quan cục bộ sẽ gây ra xác suất lỗi bit là:
Trong trường hợp dùng bộ quyết định hợp tác, bit thông tin trích sau cùng được xác định bởi:
G = HIJ 6 ` (5.18) Khi đó, xác suất lỗi bit của hệ thống watermarking hợp tác được xác định như sau:
√3¿∑ ặ ’ầ: Å ’ < D E’ < Ã (5.19) Với bộ tương quan toàn cục trọng số bằng nhau (trung bình) thì xác suất lỗi bit được tính như sau:
Xác suất lỗi bit của bộ tương quan toàn cục trung bình sẽ nhỏ nhất khi và chỉ khi độ mạnh watermark là như nhau ở mỗi kênh
Với độ méo dạng D=E[di] cho trước, xác suất lỗi bit nhỏ nhất của bộ phát hiện toàn cục trung bình xảy ra khi và chỉ khi hệ số độ mạnh watermark là như nhau với mỗi kênh ảnh, nghĩa là i = j = D 1/2
Rõ ràng, khi m tăng thì hiệu quả của bộ tương quan toàn cục trung bình tốt hơn từng bộ tương quan cục bộ
Thay vì sử dụng bộ tương quan toàn cục trung bình, vector trọng số w = [w1, w2,
… wm] T được lựa chọn để tối thiểu xác suất lỗi bit Đặt f(w) = ∑ ặ ’ầ: Å ’ ắ ’ ¿∑ ặ ’ầ: Å ’ < D E’ < Vỡ hàm erfc(.) đơn điệu nờn xỏc suất lỗi bit p trong (5.21) đạt cực trị khi và chỉ khi f(w) đạt cực trị
Bằng cách đạo hàm riêng phần f(w) và cho bằng 0, ta được kết quả:
Xem xét các trường hợp độ mạnh watermark khác nhau như Bảng 5.3 với cùng độ méo dạng trung bình D=E[di] với hai loại bộ tương quan tối ưu và trung bình Bảng 5.3 Xác suất lỗi bit với các trường hợp độ mạnh watermark khác nhau
Trường hợp Độ mạnh watermark
Xác suất lỗi bit với bộ tương quan tối ưu
Xác suất lỗi bit với bộ tương quan trung bình
Trường hợp (1) tương ứng với độ mạnh watermark như nhau cho các kênh thì xác suất lỗi bit với bộ tương quan tối ưu luôn thấp hơn so với bộ tương quan trung bình, nhất là khi số kênh càng lớn
Trường hợp (2) ở đó với độ mạnh watermark tỉ lệ với phương sai của hệ số tương quan cục bộ tại các kênh Theo đó, ta có: ắ ’
Với bộ tương quan tối ưu thì trường hợp này sẽ tương ứng với các trọng số lọc toàn cục bằng nhau theo kết quả (5.31a) do đó xác suất lỗi bit tương đương với trường hợp bộ lọc trung bình
Trường hợp (3) tương ứng với độ mạnh watermark tỉ lệ với độ lệch chuẩn của hệ số tương quan cục bộ tại các kênh, điều này dẫn đến xác suất lỗi bit cục bộ như nhau tại các kênh Theo đó, ta có: ắ ’ ắ • = D D E’
∑ • S = √ „ ¿∑ ặ ’ầ: D E’ < ∑ p S ˆ • (5.39) Khi đó xác suất lỗi bit với bộ lọc tương quan tối ưu vẫn cho kết quả tốt hơn so với bộ tương quan trung bình Đặc biệt, giá trị xác suất lỗi bit với bộ lọc tương quan tối ưu lúc này cũng chính bằng xác suất lỗi bit với bộ lọc tương quan trung bình trong trường hợp độ mạnh watermark bằng nhau
5.3.2 Giải pháp cải tiến loại bỏ can nhiễu ICSS
Trong mô hình watermarking trải phổ hợp tác đề xuất, việc sử dụng bộ tương quan toàn cục dựa trên kết hợp tuyến tính của các bộ tương quan cục bộ có thể điều chỉnh hệ số ảnh hưởng của can nhiễu E[Xi.U] giữa ảnh gốc tại mỗi kênh và watermark trong công thức (5.12) nhưng vẫn không thể loại bỏ hoàn toàn can nhiễu này Vì vậy, quá trình nhúng ở mô hình đề xuất CSS được cải tiến thành ICSS (Improved CSS) theo công thức (5.40) để loại bỏ hoàn toàn ảnh hưởng của can nhiễu
0 † = 1 + • - − +,1 - - (5.40) Khi đó, so sánh với công thức (5.12) thì thành phần can nhiễu E[Xi.U] tại mỗi kênh đã được loại bỏ hoàn toàn
6 † = +,4 - = • + +,5 - (5.41) Tuy nhiên, quá trình nhúng cải tiến theo công thức (5.40) cũng làm tăng méo dạng giữa ảnh nhúng và ảnh gốc
5.3.3 Giải pháp mở rộng watermarking nhiều bit MCSS
Kết quả mô phỏng và thử nghiệm
Tập dữ liệu sử dụng trong mô phỏng và thử nghiệm tương tự như thực hiện ở chương 4 Một số trường hợp các ảnh đa kênh được sử dụng cho việc thủ nghiệm các giải thuật đề xuất cho ảnh đa kênh, và cũng được biến đổi về ảnh xám dơn kênh cho việc thủ nghiệm các giải thuật đề xuất cho ảnh đơn kênh
5.4.1 Đánh giá ảnh hưởng của các loại sai số thực tế trong watermarking ảnh
Sai số trong quá trình tạo watermark
Luận án xem xét 4 trường hợp watermark: phân bố chuẩn (Gaussian), phân bố đều, phân bố nhị phân (1) và chuỗi Hadamard với cùng đặc tính giá trị trung bình bằng
0 và phương sai bằng 1 Về mặt lý thuyết, các đặc tính thống kê này không phụ thuộc kích thước watermark và các watermark ứng với các khóa khác nhau là hoàn toàn độc lập Tuy nhiên, trong thực tế do hạn chế của bộ tạo số giả ngẫu nhiên nên để đảm bảo các đặc tính thống kê này thì kích thước watermark phải đủ lớn Vì vậy, luận án khảo sát ảnh hưởng của kích thước watermark đến các đặc tính thống kê của 3 loại watermark xem xét Các kết quả sai số bao gồm giá trị trung bình và lớn nhất được cho trong các Bảng 5.4-5.6 và các Hình 5.9-5.11 khi khảo sát 20000 lần khác nhau
Bảng 5.4 Thống kê sai số điều kiện trung bình bằng 0 với các loại watermark
Bảng 5.5 Thống kê sai số điều kiện tương quan chuẩn hóa với các loại watermark
Bảng 5.6 Thống kê sai số điều kiện trực giao với các loại watermark
Thống kê cho thấy trừ trường hợp watermark Hadamard, cả ba loại watermark còn lại thực tế đều có sai số nhất định ở điều kiện giá trị trung bình bằng 0 và điều kiện trực giao, riêng với điều kiện tương quan chuẩn hóa thì chỉ có watermark loại nhị phân thỏa mãn hoàn toàn Nhìn chung các sai số điều kiện trung bình bằng 0 và điều kiện trực giao ở cả ba loại watermark xấp xỉ nhau và giảm nhiều khi kích thước watermark càng lớn Tuy nhiên, khi chiều dài watermark càng tăng thì thời gian thực thi càng lâu Mặt khác, để có thể nhúng nhiều bit thông tin trong một ảnh, ta có thể thực hiện phân đoạn ảnh theo từng khối có kích thước nhỏ hơn và thực hiện watermarking cho từng khối này Khi đó, chiều dài watermark tăng thì khả năng nhúng nhiều bit sẽ giảm Mặc dù mang lại hiệu quả tối ưu, watermark Hadamard trong luận án chỉ đáp ứng đến kích thước 64x64, với kích thước từ 128x128 trở lên thì không xác định được (NA – Not Available) do giới hạn khả năng phần cứng
Sai số trong quá trình làm tròn của định dạng ảnh số
Một yếu tố khác ảnh hưởng đến độ tin cậy của hệ thống là sai số làm tròn của định dạng ảnh số Khảo sát ảnh với độ mạnh nhúng nhỏ nhất ( = 1) ở miền không gian cho kết quả sai số làm tròn trung bình như trong Bảng 5.7 Như vậy, việc lựa chọn watermark dạng nhị phân hoặc Hadamard đảm bảo chính xác điều kiện tương quan chuẩn hóa đồng thời giảm thiểu sai số làm tròn trong quá trình nhúng thông tin
Bảng 5.7 Ví dụ sai số làm tròn trung bình của định dạng ảnh số
Sai số giữa KLT từ ảnh gốc và ảnh nhúng
Như phân tích ở trên, KLT dựa trên ảnh gốc trong quá trình nhúng còn với quá trình trích thì KLT dựa vào ảnh nhúng Do đó, luận án cũng đã chứng minh cần thiết kế tập chuỗi watermark trực giao để đảm bảo độ tin cậy tuyệt đối trong trường hợp lý tưởng (không tấn công) hoặc nhiễu cộng Gausisan Hình 5.6 mô phỏng sai số giữa KLT gốc và KLT khôi phục trong trường hợp dùng chuỗi watermark duy nhất và tập chuỗi watermark trực giao Mặc dù sai số thực tế không bằng 0 như trong phân tích lý thuyết do giới hạn đáp ứng điều kiện trực giao trong mô phỏng nhưng nhìn chung trong trường hợp dùng tập chuỗi watermark trực giao thì sai số MSE nhỏ hơn nhiều so với sử dụng chuỗi watermark duy nhất, đặc biệt là khi năng lượng watermark càng lớn
Hình 5.6 Sai số giữa KLT gốc và KLT khôi phục
5.4.2 Kết quả mô phỏng kiểm chứng phân tích lý thuyết
Kiểm chứng khả năng cảm thụ
Tiếp theo, luận án đánh giá chất lượng ảnh nhúng của kỹ thuật watermarking trải phổ ở miền không gian Với cùng độ mạnh và chuỗi watermark nhúng nhưng các ảnh khác nhau sẽ cho kết quả sai biệt khách quan PSNR khác nhau Tuy nhiên, khi các ảnh cùng kích thước thì PSNR trong nhiều trường hợp là xấp xỉ Khi độ mạnh watermark
129 nhúng quá lớn thì chất lượng ảnh sau watermarking bị suy giảm đáng kể Hình 5.7 minh họa cho quá trình nhúng watermark với các độ mạnh watermark () lần lượt bằng 2, 3 và 4 của phương pháp SS miền không gian và xem xét khả năng cảm thụ của mắt người a) Ảnh gốc b) Ảnh watermarking với =2
(PSNR = 42.19 dB) c) Ảnh watermarking với =3 d) Ảnh watermarking với =4 (PSNR = 38.67 dB) (PSNR = 36.18 dB)
Hình 5.7 Minh họa khả năng cảm thụ của ảnh nhúng dùng phương pháp SS miền không gian
Kết quả ở Hình 5.7 phù hợp với phân tích lý thuyết về khả năng cảm thụ của phương pháp SS miền không gian như trình bày trong Bảng 5.8 Như đã đề cập ở phần trước, hoàn toàn không có mối quan hệ cố định giữa khả năng cảm thụ của mắt người
130 với đại lượng PSNR Tuy nhiên, qua khảo sát với nhiều loại ảnh khác nhau, có thể rút ra mối quan hệ tương đối để một ảnh nhúng chấp nhận được (không thể cảm thụ được watermark nhúng hay chỉ cảm thụ ở mức độ rất nhẹ) thì độ mạnh watermark nhúng ở miền không gian tối đa bằng 3
Bảng 5.8 MSE và PSNR của phương pháp SS miền không gian Độ mạnh watermark
PSNR (dB) Độ sâu bit của ảnh gốc MSE
Hình 5.8 minh họa khả năng cảm thụ của ảnh nhúng miền DCT với các kích thước khối khác nhau Kết quả trực quan cho thấy với kích thước khối lớn từ 32x32 trở lên thì ảnh nhúng khó phân biệt được với ảnh gốc Tuy nhiên, khi kích thước khối bằng 16x16 thì bắt đầu xuất hiện hiệu ứng khối và càng nghiêm trọng với kích thước khối nhỏ hơn, dẫn đến suy giảm chất lượng ảnh nhúng
Bảng 5.9 thể hiện rõ hơn ảnh hưởng của kích thước khối đến chất lượng ảnh nhúng miền DCT qua các thông số đánh giá khách quan PSNR và SSIM trong trường hợp nhúng 1 bit với độ mạnh nhúng =3 Khi kích thước khối càng giảm thì chất lượng ảnh nhúng cũng giảm Tuy nhiên, kích thước khối lớn sẽ giới hạn dung lượng bit nhúng
Bảng 5.9 Đánh giá ảnh hưởng của kích thước khối đến chất lượng ảnh nhúng miền DCT
Kích thước khối PSNR (dB) SSIM
131 a) Ảnh watermarking với khối 64x64 b) Ảnh watermarking với khối 32x32 c) Ảnh watermarking với khối 16x16 d) Ảnh watermarking với khối 8x8
Hình 5.8 Minh họa khả năng cảm thụ của ảnh nhúng miền DCT
Bảng 5.10 so sánh các loại MSE của các phương pháp đề xuất MISS, MISS_DCT, MISS_DWT so với phương pháp trải phổ truyền thống trong trường hợp nhúng 4 bit thông tin vào các khối ảnh kích thước 64x64 Theo đó, chỉ có phương pháp MISS_DCT bị ảnh hưởng nhiều nhất của sai số làm tròn cũng như gây méo dạng MSE khá lớn trong khi các phương pháp MISS và MISS_DWT không làm tăng méo dạng đáng kể so với phương pháp trải phổ truyền thống SS
Bảng 5.10 MSE của các phương pháp đề xuất MISS, MISS_DCT, MISS_DWT so với phương pháp trải phổ truyền thống
SS MISS MISS_DCT MISS_DWT
MSE giữa ảnh sau nhúng có làm tròn và ảnh gốc 8.8239 8.8606 27.1801 8.8837
MSE giữa ảnh sau nhúng không làm tròn và ảnh gốc 9 9.0495 28.4832 9.0685
MSE giữa ảnh sau nhúng có làm tròn và ảnh sau nhúng không làm tròn
Kiểm chứng độ tin cậy Để đánh giá độ tin cậy của các phương pháp đề xuất, giá trị tương quan trích của các phương pháp MISS, MISS_DCT, MISS_DWT so với phương pháp trải phổ truyền thống SS được khảo sát mô phỏng và trình bày trong Bảng 5.11 Kết quả với trường hợp ảnh sau nhúng không làm tròn hoàn toàn phù hợp với phân tích lý thuyết khi trung bình và phương sai của giá trị tương quan trích bằng 0, nghĩa là đạt được độ tin cậy 100% Trong trường hợp bị ảnh hưởng của sai số làm tròn thì các phương pháp MISS, MISS_DWT, và thậm chí MISS_DCT đều cho độ tin cậy cao hơn (tương ứng phương sai giá trị tương quan trích nhỏ hơn) so với phương pháp trải phổ truyền thống SS Ngoài ra, tương tự như khi đánh giá độ méo dạng, phương pháp MISS_DWT cũng mang lại hiệu quả hơn so với phương pháp MISS_DCT
Bảng 5.11 Đánh giá giá trị tương quan trích của các phương pháp đề xuất MISS, MISS_DCT, MISS_DWT so với phương pháp trải phổ truyền thống
Giá trị tương quan trích SS MISS MISS_DCT MISS_DWT Ảnh sau nhúng có làm tròn
Trung bình -0.0014 -8.5E-05 0.0637 0.0005 Phương sai 0.0750 0.0177 0.0346 0.0183 Ảnh sau nhúng không làm tròn
Bên cạnh đó, để thuận tiện trong so sánh hiệu quả so với phương pháp waternarking lượng tử, luận án đề xuất thêm khái niệm độ tin cậy trong phương pháp watermarking trải phổ Trong trường hợp dùng phương pháp watermarking trải phổ, ở điều kiện lý tưởng, giá trị tương quan trích r={±α}, vì cậy giá trị tương quan thực tế càng gần hai giá trị này thì độ tin cậy càng cao, trong khi nếu càng gần 0 thì độ tin cậy càng thấp Theo đó, độ tin cậy đạt cao nhất (100%) khi giá trị tương quan trích trùng với một trong hai giá trị lý tưởng, và nhỏ nhất (50%) khi giá trị tương quan thực tế bằng 0 được xác định như trong công thức (5.66) œŠŠ = T1 −žÊÔ {ắBˆ,ắ;ˆ}
Kết luận chương
Tóm lại, kỹ thuật trải phổ được sử dụng rất phổ biến trong quá trình watermarking thiếu thông tin tiên nghiệm, nghĩa là không cần dữ liệu bao phủ gốc tại bộ phát hiện Tuy nhiên, do dùng bộ phát hiện tương quan trong quá trình trích thông tin nên phương pháp này còn bị ảnh hưởng can nhiễu giữa dữ liệu gốc và watermark làm giảm độ tin cậy của hệ thống Ngoài ra, phương pháp watermarking trải phổ phần lớn áp dụng cho ảnh xám đơn kênh thông thường, chưa có nhiều mở rộng cho ảnh đa kênh Đây cũng chính là các thách thức mà luận án nghiên cứu cải tiến Dựa trên việc khảo sát phân tích đánh giá một số hạn chế của các phương pháp watermarking trải phổ truyền thống, phần nội dung này của luận án đã đưa ra sơ đồ nhúng và trích thông tin tổng quát mới qua giải pháp trải phổ hợp tác CSS bằng cách khai thác kết hợp tuyến tính các bộ thu tương quan cục bộ tại từng kênh ảnh nhúng và giải pháp CSS_KLT sử dụng biến đổi KLT để giải tương quan hoàn toàn giữa các kênh ảnh nhúng Bên cạnh đó, các giải pháp điều chỉnh cải tiến mở rộng MISS, MISS_DCT, MISS_DWT cho kỹ thuật watermarking trải phổ thiếu thông tin tiên nghiệm với ảnh đơn kênh cũng được nghiên cứu đề xuất, làm
140 cơ sở cho áp dụng vào các giải pháp nâng cao hiệu quả của kỹ thuật watermarking trải phổ hợp tác với ảnh đa kênh bao gồm ICSS, MCSS, ICSS_KLT, MCSS_KLT
Một số kết quả đã được tổng hợp trình bày trong 1 bài báo hội nghị quốc tế, 1 bài báo tạp chí Scopus, 1 đề tài nghiên cứu cấp trường
Bài báo số 10 (hội nghị quốc tế, tác giả chính) phân tích đánh giá ưu khuyết điểm của kỹ thuật watermarking trải phổ SS truyền thống và đưa ra giải pháp cải tiến nâng cao tính bền vững MISS, MISS_DCT, MISS_DWT cho ảnh đơn kênh
Bài báo số 3 (tạp chí quốc tế Scopus, tác giả chính) phân tích đánh giá giải pháp kỹ thuật watermarking trải phổ hợp tác cải tiến ICSS_KLT cho ảnh đa kênh
Chủ nhiệm đề tài cấp trường: “Giải pháp hiệu quả nâng cao tính bền vững của kỹ thuật watermarking ảnh mù,” mã số đề tài: T-ĐĐT-2019-28, Trường Đại học Bách Khoa – ĐHQG TpHCM, từ tháng 09/2019 đến tháng 09/2020, đã nghiệm thu tháng 12/2020 với kết quả Đạt Đề tài có một phần nội dung phân tích đánh giá các giải pháp kỹ thuật watermarking trải phổ hợp tác CSS, ICSS, MCSS, CSS_KLT cho ảnh đa kênh.