Các đặc tính của hệ thống thính giác HAS

Một phần của tài liệu Nghiên cứu phương pháp che giấu thông tin trong tín hiệu âm thanh (Trang 36)

Để phân tích khả năng cảm thụ của HAS, chúng ta đề xuất khái niệm

Critical band (tạm dịch là băng chủ chốt) [5] dựa trên cơ chế biến đổi tần

số – không gian của màng nhĩ bên trong tai. Trong thực tế, HAS cảm thụ âm thanh bằng cách chia dải phổ công suất tín hiệu nhận đ-ợc thành các

Critical band. Mỗi Critical band là một khối các bộ lọc thông dải mà băng

thông của chúng chồng lấn một phần lên nhau. Nếu chọn tần số nghe giới hạn cao nhất khoảng 24 kHz thì ta sử dụng 25 Critical band để mô tả HAS. Băng thông của một Critical band đ-ợc tính xấp xỉ theo công thức:

100 500 0.2 500 CB Hz f Hz BW fHz f Hz       (2.5) Nh- vậy, dải thông bộ lọc khoảng 100 Hz đối với các băng có tần số nằm d-ới 500 Hz, và lên đến 5000 Hz cho các băng nằm ở vùng tần số cao. T-ơng tự, ta có khái niệm thang chia tỉ lệ Z của Critical band giống nh- thang chia tần số thông th-ờng. Công thức chuyển đổi giữa tỉ lệ Z [Bark] và tần số f [Hz] cho d-ới đây:

13arctan 0.76 3.5arctan 2  1000 7.5*1000 f f z     Bark         (2.6)

HAS có hai đặc tính quan trọng đ-ợc khai thác phổ biến trong lĩnh vực mã hoá âm thanh, đó là tính ngụy trang (đồng thời) về tần số và ngụy trang về thời gian. Có thể xem đây là những “yếu điểm” trong khả năng cảm thụ của HAS. Cho nên, các thuật toán nén âm thanh đều lợi dụng điểm

yếu này nhằm giảm số l-ợng bit yêu cầu mã hoá tín hiệu. Còn trong các thuật toán giấu tin, đặc tính ngụy trang đ-ợc dùng với mục đích che giấu bit thông tin đem nhúng vào chuỗi bit tín hiệu có sẵn mà không gây bất kỳ trở ngại nào cho việc cảm thụ chất l-ợng âm thanh.

2.2.1 Ngụy trang tần số :

Đây là hiện t-ợng xảy ra trên miền tần số trong tr-ờng hợp một tín hiệu mức thấp không thể cảm thụ đ-ợc khi xuất hiện đồng thời các tín hiệu mức cao. Ví dụ: nhạc cụ phát âm lớn hơn sẽ át mất các âm yếu hơn. Ta gọi tín hiệu che là masker, còn tín hiệu bị che là maskee. Hiệu ứng ngụy trang chỉ xảy ra khi tín hiệu maskeemasker nằm khá gần nhau trên miền tần số. T-ơng ứng tính chất ngụy trang, ta có khái niệm ng-ỡng ngụy trang, để chỉ tr-ờng hợp nếu một tín hiệu nằm d-ới ng-ỡng này thì sẽ không thể nghe thấy hoặc cảm thụ đ-ợc. Ng-ỡng ngụy trang phụ thuộc vào tính chất của cả tín hiệu maskee lẫn masker (là nhiễu băng hẹp hay âm thuần tuý). Ví dụ xét ng-ỡng ngụy trang của tín hiệu masker 1 kHz với mức nén âm thanh (SPL) bằng 60 dB nh- hình d-ới đây : Tần số [kHz] Mức nộn õm thanh SPL [dB] 0 10 20 30 40 50 60 70 0.02 0.05 0.1 0.2 0.5 1 2 5 10 20 Ngưỡng ngụytrang Ngưỡng lặng Tớn hiệu masker 1kHz Tớn hiệu maskee

Hình 2.3: Ngụy trang tần số trong HAS với SPL tại p0 2.105Pa

Với tín hiệu masker, tần số khoảng 1 kHz, thì SPL của tín hiệu

dốc của ng-ỡng ngụy trang càng cao đối với các thành phần tần số càng thấp, nghĩa là tần số cao dễ dàng che tần số thấp hơn. Cả nhiễu lẫn thành phần tín hiệu mức thấp cũng dễ dàng bị che bên trong và bên ngoài của

critical band nếu SPL của chúng đều nằm d-ới ng-ỡng ngụy trang. Thành

phần nhiễu có thể xuất hiện trong mã hoá, trong quá trình nén, trong chèn chuỗi thông tin, hoặc do méo giao thoa… Nếu không có tín hiệu masker thì một tín hiệu nào đó sẽ không cảm thụ đ-ợc chỉ khi SPL của nó nằm d-ới ng-ỡng lặng.

Khoảng cách giữa mức của tín hiệu masker và ng-ỡng ngụy trang đ-ợc gọi là tỉ số tín hiệu – ng-ỡng che (SMR). SMR nhận giá trị lớn nhất tại biên trái của critical band. Tạp âm sinh ra trong quá trình nhúng tin đ-ợc đánh giá thông qua tỉ số tín hiệu – tạp âm (SNR). Trong một critical band thì SNR th-ờng lớn hơn SMR t-ơng ứng. Nh- vậy, méo sinh ra do chèn tin vào tín hiệu đ-ợc đo bằng tỉ số tạp âm – ng-ỡng che (NMR):

NMR (m) = SMR – SNR (m) (2.7) Trong đó m là thứ tự của critical band nơi diễn ra quá trình nhúng tin. NMR biểu diễn sự sai khác giữa tạp âm do chèn tin trong critical band

cho tr-ớc và mức méo còn cảm thụ đ-ợc. NMR [dB] mang giá trị âm.

Tần số Mức nộn õm thanh SPL [dB] n + 1 n n - 1 Critical band Critical band bờn cạnh Tone che dấu Ngưỡng ngụy trang tối thiểu Mức tạp õm lượng tử (dB) S N R (m ) N M R (m ) S M R (m )

Những nhận xét trên chỉ dành cho tr-ờng hợp khi có một tín hiệu

masker. Trong tr-ờng hợp đồng thời xuất hiện nhiều tín hiệu masker, ta dùng khái niệm ng-ỡng ngụy trang chung để mô tả ng-ỡng mà tại đó xuất hiện méo nh-ng vẫn còn có thể cảm thụ đ-ợc. Thực chất, ng-ỡng này là một hàm của tần số, đ-ợc tính toán dựa trên phổ biên độ của âm thanh nằm trong một critical band, thông qua phép biến đổi Fourier với 1024 xung mẫu. Cách tính nh- sau: đầu tiên, tính tất cả các ng-ỡng ngụy trang của từng tín hiệu riêng lẻ. Ng-ỡng này phụ thuộc vào mức tín hiệu, dạng tín hiệu masker (âm hay nhiễu tạp) và dải tần số tác động. Sau đó, tính ng-ỡng ngụy trang chung bằng cách cộng tất cả các ng-ỡng riêng cùng với ng-ỡng lặng. Cũng cần thiết phải xác định các giới hạn của hiệu ứng ngụy trang trong critical band khi tính toán. Cuối cùng, xác định tỉ số tín hiệu – tạp âm chung là tỉ số giữa phổ công suất lớn nhất của tín hiệu với ng-ỡng ngụy trang chung.

2.2.2 Ngụy trang về thời gian.

Đây là một trong hai đặc tính quan trọng của HAS và đ-ợc khai thác nhiều trong các thuật toán nén âm thanh. Hiện t-ợng này xảy ra khi tín hiệu

masker và tín hiệu kiểm tra không xuất hiện đồng thời nh-ng đủ gần nhau

về mặt thời gian. Nh- vậy, có thể xuất hiện hai tr-ờng hợp khác nhau :

• Pre-masking : tạm dịch là tiền che lấp, xảy ra khi tín hiệu kiểm tra xuất hiện tr-ớc tín hiệu masker.

• Post-masking : tạm dịch là che lấp ng-ợc, xảy ra trong tr-ờng hợp bật tín hiệu kiểm tra sau khi tín hiệu masker xuất hiện và không còn tồn tại. Không mất tính tổng quát, ta giả thiết tín hiệu kiểm tra là phiên bản bị dịch đi l-ợng t của tín hiệu masker. Nh- vậy, hiện t-ợng tiền che lấp xảy ra tr-ớc khi tín hiệu masker đ-ợc bật và kéo dài khoảng 20 ms. Nghĩa là ng-ỡng ngụy trang sẽ giữ nguyên không đổi cho đến khi t đạt đến giá

trị âm 20 ms nh- hình (2.5). Sau khi t  -20 ms, ng-ỡng này sẽ tăng dần và đạt đến mức giá trị ng-ỡng hiệu ứng che lấp đồng thời ngay tr-ớc khi tín hiệu masker bật lên. Hiệu ứng pre-masking giống nh- khi ta đã nghe thoáng qua, nh-ng không cảm thụ. Bởi vì thính gác cần một khoảng thời gian để xử lý thông tin chứ không làm việc ngay lập tức. Thời gian yêu cầu này phụ thuộc vào độ lớn của âm. Do vậy, các âm càng lớn sẽ có thời gian thiết lập ngắn hơn các âm yếu và những âm lớn này đ-ợc cảm thụ tr-ớc tiên.

Mức nộn õm thanh SPL [dB] Thời gian [ms] 60 40 20 0 100 200 100 200 40 50 60 70 80 90

Ngụy trang đồng thời

Pre - masking

Post - masking

Hình 2.5: Ngụy trang thời gian trong HAS

Khoảng thứ hai trên hình vẽ là hiệu ứng ngụy trang (đồng thời) tần số đã giới thiệu ở phần tr-ớc.

Khoảng thứ ba mô tả hiện t-ợng post-masking t-ơng ứng với sự suy giảm của hiệu ứng ngụy trang tần số sau khi tắt tín hiệu masker. Cứ sau độ trễ khoảng 5 ms thì giá trị ng-ỡng này lại suy giảm, và sau khoảng 200 ms thì nó xấp xỉ bằng giá trị ng-ỡng im lặng. Post-masking phụ thuộc nhiều vào khoảng thời gian tồn tại tín hiệu masker. Độ suy giảm của nó càng tăng đối với các tín hiệu masker tồn tại càng ngắn.

2.2.3. áp dụng HAS trong thiết kế , kiểm tra thuật toán giấu tin: Hình (2.6) miêu tả quá trình kiểm tra có sử dụng các đặc tính của HAS để thiết kế một mô hình nhúng tin thích nghi: giấu những loại thông

tin khác nhau vào các tín hiệu âm thanh khác nhau. Phõn đoạn õm thanh Rỳt trớch cỏc đặc trưng Nhúm đặc trưng HAS Thiết kế bộ nhỳng Dữ liệu kiểm tra Lớp cỏc tham số Mụ hỡnh nhỳng tin

Hình 2.6: Mô hình kiểm tra thuật toán giấu tin bằng HAS

Đầu tiên, lần l-ợt tiến hành kiểm tra cho từng khung (frame) âm thanh, phân tích các đặc tr-ng của nó để tìm ra cách tối -u để phân loại các

frame âm thanh thành các lớp rồi chọn ra một mô hình nhúng phù hợp cho

nó. HAS đóng vai trò rất quan trọng trong b-ớc phân tích các frame này nhằm đảm bảo tính trong suốt và tính bền vững khi giấu tin. Thông qua hai tính chất quan trọng của HAS là: ngụy trang (đồng thời) về tần số và ngụy trang thời gian sẽ lựa chọn đ-ợc các frame âm thanh có đặc tr-ng phù hợp với hai tính chất trên. Và nhóm các đặc tr-ng này thành các lớp tham số sử dụng cho quá trình thiết kế và xây dựng mô hình giấu tin.

2.3. Các ph-ơng pháp giấu tin trong tín hiệu âm thanh

Hiện nay, do lĩnh vực giấu tin trong tín hiệu âm thanh mới đ-ợc nghiên cứu nên sự phân loại ch-a rõ ràng. Tuy nhiên, ta có thể chia thành hai nhóm chính nh- sơ đồ d-ới đây:

Phương phỏp giấu tin trong audio

Giao thoa tớn hiệu gốc Khụng giao thoa tớn hiệu gốc

Mó hoỏ pha Điều biến pha Phương phỏp sử dụng bản sao Phương phỏp lượng tử hoỏ chỉ mục Phương phỏp tự đỏnh dấu Phương phỏp tập đụi Phương phỏp trải phổ

Nhóm ph-ơng pháp giao thoa tín hiệu gốc:

Trong ph-ơng pháp này, tại quá trình chiết rút thông tin nhất thiết phải có mặt tín hiệu gốc, những tham số đặc tr-ng của nó đ-ợc dùng để giải mã và khôi phục lại tin mật đem giấu [6].

Bộ mó hoỏ Bộ giải mó Bộ nhỳng Bộ chiết rỳt Khoỏ mật K Khoỏ mật K Nhiễu tạp n wa cw cwn c0 mn c0 Đối tượng chứa Đối tượng chứa Thụng tin mật cần giấu m Thụng tin mật + + +

Hình 2.8: Mô hình giấu tin giao thoa tín hiệu gốc cơ bản

Tuy nhiên, trong các ứng dụng thực tế, nhóm các ph-ơng pháp này lại tỏ ra không hiệu quả vì phải cần gấp đôi bộ nhớ để l-u trữ cùng một thông tin, cần đến gấp đôi l-ợng băng thông cho quá trình chiết rút thông tin. Và đôi khi ta không thể có đ-ợc tín hiệu gốc sử dụng trong quá trình chiết rút thông tin. Dĩ nhiên, trong một số tr-ờng hợp đặc biệt (chứng thực bản quyền, xác nhận thông tin) thì nhóm ph-ơng pháp này lại tỏ ra rất hiệu quả, thậm chí là rất cần thiết. Từ những lý do trên, nhóm ph-ơng pháp này ít đ-ợc nghiên cứu và phát triển, nên số l-ợng không nhiều. Hai ph-ơng pháp đại diện cho nhóm này là: mã hoá pha và điều biến pha.

Nhóm các ph-ơng pháp không giao thoa tín hiệu gốc:

Nhóm ph-ơng pháp này còn gọi là nhóm các ph-ơng pháp không cần đến tín hiệu gốc trong quá trình chiết rút tin, hay bất kỳ thông tin không phải âm thanh nào khác (trừ khoá mật) mà vẫn có thể chiết rút thông tin chính xác. Nhóm các ph-ơng pháp này chỉ cần đến một nửa bộ nhớ l-u trữ, một nửa băng thông để chiết rút tin so với nhóm ph-ơng pháp giao thoa tín hiệu gốc nên đ-ợc ứng dụng rất rộng rãi trong thực tế, và đ-ợc nhiều tác giả nghiên cứu. Nhóm này bao gồm các ph-ơng pháp: sử dụng bản sao, tự đánh

dấu, điều chế l-ợng tử hoá chỉ mục, ph-ơng pháp tập đôi và cuối cùng là ph-ơng pháp trải phổ.

2.3.1 Ph-ơng pháp mã hoá pha:

ý t-ởng cơ bản của ph-ơng pháp này là chia chuỗi âm thanh gốc thành các block (khối) và nhúng toàn bộ dữ liệu vào phổ pha của block đầu tiên. Tuy nhiên, nó có nh-ợc điểm là thời gian nạp âm thanh t-ơng đối lâu, trong khi chỉ có block đầu tiên đ-ợc nhúng thông tin, dữ liệu giấu không đ-ợc phân bố đều trên toàn bộ tín hiệu âm thanh, sử dụng tài nguyên không hiệu quả. Nh-ng bù lại, ph-ơng pháp này tránh đ-ợc việc mất mát thông tin do các thao tác cắt xén, và xử lý tín hiệu. Các b-ớc nhúng và chiết rút tin đ-ợc trình bày cụ thể trong [8] và [10].

2.3.2 Ph-ơng pháp điều biến pha:

Dữ liệu đ-ợc nhúng vào tín hiệu âm thanh bằng cách điều biến pha trên nhiều băng tần độc lập nhau. Để đảm bảo thông tin không bị phát hiện, ta thêm điều kiện rằng buộc khi điều chế pha:

0

( ) /z z 30

   (2.8) Trong đó, ( )z là pha của tín hiệu, z là tỉ lệ Bark, đại diện cho một

critical band. Mỗi giá trị Bark sẽ mang thông tin của một bit dữ liệu giấu.

Để tăng tính bền vững, ta có thể dùng nhiều Bark để mang thông tin của cùng một bit dữ liệu.

Dung l-ợng thông tin nhúng theo ph-ơng pháp này phụ thuộc vào ba thông số: l-ợng thông tin d- thừa, số l-ợng tần số, năng l-ợng phân phối của tín hiệu gốc. Nếu năng l-ợng Bark chọn quá thấp, thì không nên dùng Bark đó để nhúng tin. Đối với tín hiệu audio lấy mẫu ở tần số 44.1 kHz thì dải tần 0 – 15 kHz (0-24 tỉ lệ Bark) đ-ợc chứng minh là khá nhạy cảm cho

việc nhúng tin. Ví dụ, nếu hai Bark mang cùng một bit dữ liệu thì tốc độ dữ liệu đ-ợc nhúng là: (24/2)(44100/ 214) = 32 bps.

2.3.3 Ph-ơng pháp sử dụng bản sao:

ý t-ởng của nhóm ph-ơng pháp này là sử dụng chính nội dung của tín hiệu gốc để biểu diễn cho thông tin đem giấu. Do vậy, chúng chống lại đ-ợc các kiểu tấn công đồng bộ hoá.

a/ Ph-ơng pháp thay thế bit ít quan trọng nhất LSB

Thuật toán sử dụng ph-ơng pháp thay thế bít ít quan trọng LSB [6] là một lựa chọn tự nhiên khi yêu cầu nhúng tin với dung l-ợng lớn, nh-ng lại kém bền vững đối với các thao tác xử lý tín hiệu. Đây là ph-ơng pháp ra đời sớm nhất và đơn giản nhất trong các kỹ thuật giấu tin hiện có. Trong LSB, bộ mã hoá sử dụng khoá mật để chọn một tập con các mẫu tín hiệu âm thanh gốc sẵn có. Thao tác thay thế các bit ít quan trọng của mẫu bằng bit tin đ-ợc thực hiện trên tập con này. Quá trình chiết rút tin mật chỉ đơn giản là đọc giá trị của các bit rồi ra quyết định. Do vậy, bộ giải mã phải cần tất cả các mẫu tín hiệu đã đánh dấu để so sánh và lựa chọn bit thích hợp. Dung l-ợng tin đem giấu trong ph-ơng pháp LSB rất cao: bit LSB của tín hiệu gốc lấy mẫu ở 44.1kHz sẽ t-ơng ứng dung l-ợng tin khoảng 44.1 kbps. Dĩ nhiên, tính bền vững của ph-ơng pháp này khá kém do khi ta chọn ngẫu nhiên bit LSB, khiến cho một phần thông tin đã mã bị mất. Bù lại, ph-ơng pháp này không phức tạp trong tính toán nên đáp ứng đ-ợc yêu cầu thời

Một phần của tài liệu Nghiên cứu phương pháp che giấu thông tin trong tín hiệu âm thanh (Trang 36)

Tải bản đầy đủ (PDF)

(118 trang)