Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (LV thạc sĩ)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (LV thạc sĩ)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (LV thạc sĩ)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (LV thạc sĩ)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (LV thạc sĩ)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (LV thạc sĩ)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (LV thạc sĩ)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (LV thạc sĩ)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (LV thạc sĩ)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (LV thạc sĩ)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (LV thạc sĩ)
Trang 2-
PHÙNG TẤN PHI
NGHIÊN CỨU PHƯƠNG PHÁP WATERMARKING ÂM THANH
ỨNG DỤNG KỸ THUẬT PHÂN TÍCH ÂM NHẠC
Trang 4LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công
bố trong bất kỳ công trình nào khác
Tác giả luận văn ký và ghi rõ họ tên
Phùng Tấn Phi
Trang 5MỤC LỤC
Lời cam đoan i
Mục lục ii
Danh mục các ký hiệu, các chữ viết tắt iii
Danh mục hình iii
MỞ ĐẦU 1
Chương 1 - TỔNG QUAN VỀ WATERMARKING 3
ÂM THANH 3
1.1 Tổng quan về các phương pháp Watermarking âm thanh 3
1.2 Các phương pháp Watermarking trong miền thời gian 7
1.3 Các phương pháp Watermarking trong miền biến đổi 8
Chương 2 - PHƯƠNG PHÁP WATERMARKING ÂM THANH DỰA TRÊN KỸ THUẬT TỰ ĐỘNG PHÂN TÍCH ÂM NHẠC 11
2.1 Kỹ thuật watermarking âm thanh 11
2.2 Kỹ thuật watermarking âm nhạc 14
2.3 Các bước thực hiện watermarking âm thanh 17
2.4 Cách thực hiện watermarking âm nhạc 21
2.5 Phương pháp watermarking dựa trên nguyên lý đồng âm 28
2.6 Hệ thống nhận dạng và phân tích âm nhạc tự động 34
2.7 Chất lượng âm thanh theo tiêu chí PEAQ (Perceptual Evaluation Of Audio Quality) 36
CHƯƠNG 3 - KẾT QUẢ MÔ PHỎNG 42
3.1 Mô phỏng và đánh giá kết quả 42
3.1.1 Sơ đồ khối quá trình nhúng – giải nhúng và lưu đồ giải thuật 42
3.1.2 Giao diện chương trình mô phỏng 45
3.1.3 Đánh giá kết quả mô phỏng 48
Chương 4 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 52
DANH MỤC CÁC TÀI LIỆU THAM KHẢO 54
Trang 6DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt
Least Significant Bit Direct Sequency Spread Spectrum Frenquency Hopped Spread Spectrum Discrete Fourier Transform
Fast Fourier Transform Discrete Cosine Transform Discrete Wavelet Transform Bit Error Rate
Perceptual Evaluation Of Audio Quality Model Output Variables
Subjective Difference Grade Mean Opinion Scores
Absolute Category Rating Degradation Category Rating
Kỹ thuật trải phổ trực tiếp
Kỹ thuật trải phổ nhảy tần Phép biến đổi fourier rời rạc Phép biến đổi fourier nhanh Phép biến đổi cosine
Phép biến đổi wavelet
Tỉ lệ lỗi bit Chất lượng âm thanh về mặt cảm nhận
Mô hình các biến số đầu ra Tiêu chí đánh giá chất lượng chủ quan
Mô hình điểm số ý kiến trung bình Đánh giá phân loại tuyệt đối Đánh giá phân loại độ suy giảm
Trang 7DANH MỤC HÌNH
Hình 2.1 Lược đồ nhúng watermarking âm thanh 11
Hình 2.2 Lược đồ giải nhúng watermarking âm thanh 12
Hình 2.3 Đồ thị dạng sóng trong miền tần số trước và sau khi nhúng 16
Hình 2.4 Biểu đồ spectrogram 2D của giọng nam nói cụm từ “Thế Kỷ XIX” 19
Hình 2.5 Biểu đồ Spectrogram của một đoạn ghi âm nhạc cụ violin được chơi 20
Hình 2.6 Biểu đồ 3D spectrogram của một đoạn nhạc 20
Hình 2.7 Hai Octave liền kề nhau 22
Hình 2.8 Mười ba tần số trong một octave 23
Hình 2.9 Sơ đồ 8 tần số cơ bản trong một octave 23
Hình 2.10 Tên gọi của 8 nốt nhạc ứng với 8 tần số chính trong một Octave 24
Hình 2.11 Đáp ứng tần số của bộ lọc răng lược với trường hợp r = 8 24
Hình 2.12 Đáp ứng tần số của bộ lọc răng lược " ngược"với trường hợp r = 8 24
Hình 2.13 Mô tả quá trình xác định tần số âm điệu cơ bản 25
Hình 2.14 Tần số chuẩn của 8 nốt nhạc 26
Hình 2.15 Đồ thị spectrogram tín hiệu âm thanh 28
Hình 2.16 Đồ thị spectrogram với các tần số cơ bản có mức năng lượng cao nhất 29 Hình 2.17 Độ rộng tìm kiếm trong miền tần số 29
Hình 2.18 Tín hiệu âm thanh được chia thành các phân đoạn nhỏ theo miền thời gian 30
Hình 2.19 Minh họa quá trình watermaking 31 Hình 2.20 Tần số đặc trưng k0 của mẫu K thứ i có giá trị tần số trùng với nốt La.36
Trang 8Hình 2.21 Sơ đồ khối hệ thống mã hóa theo nhận thức 37
Hình 2.22 Sơ đồ mối quan hệ giữa hệ thống âm thanh con người và mô hình tâm lý khách quan 38
Hình 2.23 Bảng đánh giá chất lượng bằng chỉ số MOS 39
Hình 2.24 ABX Comparator plugin của foobar2000 41
Hình 3.1 Lược đồ quá trình nhúng watermark 42
Hình 3.2 Lược đồ quá trình giải nhúng watermarking 42
Hình 3.3 Lưu đồ giải thuật watermarking music 43
Hình 3.4 Lưu đồ giải thuật bộ giải mã watermarking âm nhạc 44
Hình 3.4 Giao diện “Music Watermarking Matlab” 45
Hình 3.5 Chương trình Music Watermarking Matlab đọc các nốt nhạc trong quá trình nhận dạng 46
Hình 3.6 Hình ảnh chương trình “Music Watermarking Matlab” đã thực hiện thành công việc nhúng và giải nhúng 46
Hình 3.7 Chương trình so sánh tín hiệu hai audio trước và sau khi nhúng 47
Hình 3.8 So sánh kết quả nhúng dựa trên spectrogram 48
Hình 3.9 Chất lượng PEAQ đối với watermarking từng dòng nhạc 49
Hình 3.10 Độ bền vững của PSNR đối với từng phương pháp watermarking 51
Hình 3.11 Biểu đồ đánh giá độ bền vững của các phương pháp watermarking dưới tác động của nhiễu 51
Trang 9Một trong những kỹ thuật tiên tiến cho phép thực hiện nhúng thông tin bản quyền vào các sản phẩm trí tuệ (lưu dưới dạng số) là kỹ thuật watermarking Watermarking (thủy ấn) là quá trình nhúng thông tin watermark (thủy vân) vào luồng
dữ liệu đa phương tiện (audio, video ) sao cho watermark không ảnh hưởng tới chất lượng của dữ liệu và khi cần thiết, có thể nhận biết và tách chúng với độ chính xác cao nhất có thể
Watermark thường được sử dụng với các mục đích sau:
- Xác nhận bản quyền (Copyright protection)
- Kỹ thuật vân tay (Fingerprinting)
- Cấm sao chép (Copy protection)
- Giám sát độ xác thực của dữ liệu (Data authentication)
- Giám sát phát sóng (Broadcast monitoring) Ngoài ra, watermark còn được sử dụng ngoài mục đích bảo mật:
- Đánh dấu vị trí đoạn video
- Lưu dữ liệu về bệnh nhân trong ảnh y sinh
- Truyền tải các thông tin mật
Trang 10Mục đích đề tài là tìm hiểu các phương pháp nhúng thủy vân vào tín hiệu âm
thanh Qua đó cải tiến và đề xuất phương pháp nhúng có mức độ “ẩn” cũng như độ
“bền vững” cao Kết quả mô phỏng trong đề tài sẽ được sử dụng để đánh giá tính tối
ưu của phương pháp dựa trên tính "Ẩn" và "Bền vững" của watermark
Cấu trúc luận văn gồm:
Chương 1: Tổng Quan vấn đề nghiên cứu
Chương này giới thiệu tổng quan các phương pháp watermarking âm thanh
Chương 2: Phương pháp Watermarking âm thanh dựa trên kỹ thuật tự động
phân tích âm nhạc (Automatic Music Transcription)
Chương này trình bày về nội dung chính của đề tài bao gồm kỹ thuật tự động
phân tích âm nhạc sử dụng DFT, watermarking sử dụng nguyên lý đồng âm quãng 8
và watermarking sử dụng kỹ thuật AMT
Chương 3: Kết quả mô phỏng
Chương này trình bày về giao diện mô phỏng và đánh giá kết quả mô phỏng.
Chương 4: Kết luận và hướng phát triển
Chương này trình bày kết luận và hướng phát triển của đề tài
Trang 11Chương 1 - TỔNG QUAN VỀ WATERMARKING
ÂM THANH
1.1 Tổng quan về các phương pháp Watermarking âm thanh
Các kỹ thuật Watermarking âm thanh số chủ yếu khai thác vào khuyết điểm ít nhạy cảm với những thay đổi nhỏ trên miền thời gian và miền tần số của hệ thống thính giác con người (Human Auditory System - HAS) Trong đó, các phương pháp watermarking âm thanh tiêu biểu hiện nay là: phương pháp mã hóa Least Significant Bit (LSB), phương pháp mã hóa pha, trải phổ, hay phương pháp ẩn echo Phương pháp LSB có nhược điểm lớn là độ “bền vững” rất thấp nên thường không được sử dụng trên thực tế Phương pháp mã hóa pha thì ngược lại, có độ “bền vững” cao trước sự tấn công của nhiễu, nhưng lưu trữ được ít thông tin Đáng chú ý hơn là phương pháp chèn echo có biên độ nhỏ vào miền thời gian, phương pháp này được đánh giá cao về độ “bền vững” và tỉ lệ nhúng, tuy nhiên chất lượng âm thanh sau khi nhúng không tốt Được đánh giá cao hơn hẳn là các kỹ thuật nhúng trong miền tần
số Ưu điểm của những phương pháp này là không nhúng trực tiếp vào tín hiệu gốc nên thông tin Watermark khó bị phát hiện bằng các phương pháp phân tích thống kê, nghĩa là độ “ẩn” cao Thông thường, watermarking trong miền thời gian làm thay đổi trực tiếp biên độ của tín hiệu thời gian, trong khi đó, tại miền tần số khi nhúng người
ta chỉ làm một vài vạch phổ bị thay đổi nên tín hiệu không bị biến dạng nhiều Do đó, người ta hay sử dụng miền tần số để khai thác các đặc tính về tần số của tín hiệu để nhúng thông tin ngay cả đối với watermark mật độ cao Tuy nhiên, mỗi miền biến đổi chỉ có thể hoạt động tốt với một số trường hợp nhất định Vì lý do đó, các kỹ thuật chỉ áp dụng trong miền thời gian hoặc miền tần số đều bị ảnh hưởng bởi các nhược điểm đặc thù
Trong luận văn này, tôi nghiên cứu và đề xuất một phương pháp nhúng dựa
trên cảm nhận âm nhạc của hệ thống thính giác Phương pháp này có thể áp dụng cho
tất cả các dạng âm thanh, ngay cả khi tín hiệu âm thanh không được liệt kê vào dạng
Trang 12“âm nhạc” Có một số thách thức đặc biệt khi thực hiện watermarking cho tín hiệu
âm nhạc đó là độ ẩn thông tin phải rất cao nhằm giữ được chất lượng âm thanh, đồng thời độ bền vững cũng là yếu tố rất quan trọng vì tín hiệu âm nhạc thường biến dạng
do nén có tổn hao cũng như khi đưa qua các bộ lọc khử nhiễu, bộ equalizer v.v
Điểm chính yếu của phương pháp này là nhúng tín hiệu watermark vào dải tần
số có cùng âm sắc với độ cao nốt nhạc xuất hiện trong âm thanh gốc Trong trường
hợp này, theo một số nghiên cứu [13], hệ thống thính giác sẽ cảm nhận rõ nhất nốt nhạc gốc, thành phần đồng âm (dùng để nhúng) khi biến đổi sẽ bị “che” bởi nốt nhạc gốc ít ảnh hưởng tới chất lượng âm thanh Nói đến âm sắc, phương pháp sẽ áp dụng quy luật hợp âm trong âm nhạc để thực hiện các quy tắc watermarking và sẽ được nói
rõ trong phần sau
Một phần quan trọng và cũng được quan tâm không ít đó là các phương pháp
có sử dụng tín hiệu gốc cho quá trình rút trích đặc trưng hay chỉ dùng bản sao để nhúng
Ở đây chúng ta chia làm hai nhóm chính đó là nhóm sử dụng tín hiệu gốc trong quá trình rút trích và nhóm không cần tín hiệu gốc trong quá trình rút trích thông tin
trích: tỏ ra không hiệu quả vì cần gấp đôi bộ nhớ để lưu trữ cùng một thông tin nhưng
nó lại đạt hiệu quả trong quá trình chứng thực bản quyền, đại diện là phương pháp
mã hóa pha, và điều biến pha
Như trong phương pháp mã hóa pha, âm thanh được chia thành các block, và chỉ có block đầu tiên được nhúng tín hiệu watermark dẫn đến thời gian nạp âm thanh lâu trong khi chỉ có block đầu tiền được mã hóa, hay mã hóa không trải đều trên toàn
bộ tín hiệu âm thanh Nhưng nó lại tránh được việc mất thông tin trong các trường hợp bị cắt xén bất ngờ
Do đó, nhóm phương pháp này cũng ít được nghiên cứu và quan tâm
trích: nhóm này chỉ cần một nửa băng thông hoạt động so với nhóm dùng tín hiệu
Trang 13gốc Nó được chia làm bốn nhóm nhỏ là nhóm phương pháp trải phổ, nhóm phương pháp tập đôi, nhóm phương pháp sử dụng bản sao, nhóm phương pháp tự đánh dấu
Trong phương pháp trải phổ: phương pháp trải phổ truyền thống có
nhược điểm luôn có giá trị xác suất rút trích bị lỗi, do đó trải phổ cải tiến được ra đời Ngoài ra, phương pháp trải phổ kết hợp với mô hình thính giác mang lại hiệu quả cao
và mang lại được khả năng bền vững hơn Đặc biệt, phương pháp này chống tấn công tốt hơn để bảo mật được các thông tin quan trọng, nhất là các dạng nén như MP3, WMA
Trong kỹ thuật trải phổ, các tập tin audio được truyền qua các kênh truyền thông, các kênh truyền thông này sẽ tập trung dữ liệu vào vùng hẹp của phổ tần số để duy trì năng lượng và tiết kiệm được băng thông hơn Các kỹ thuật trải phổ luôn cố gắng trải các thông tin mật vào phổ tần số của dữ liệu gốc nhiều nhất có thể Nó tương
tự kỹ thuật LSB, trải ngẫu nhiên các thông tin nhúng trên toàn bộ file audio Ưu điểm, bền vững trước các quá trình tấn công Nhược điểm, sinh nhiễu và không có tính ẩn Hai phương pháp trải phổ sử dụng trong lĩnh vực âm thanh watermarking là DSSS (Direct Sequency Spread Spectrum) và FHSS (Frenquency Hopped Spread Spectrum)
Nhóm phương pháp tập đôi: phương pháp này dùng hai tập gốc và đã
nhúng để so sánh với nhau, trong quá trình giải mã nếu có sự khác biệt đó chính là thông tin watermark Trong nhóm này, đại diện là phương pháp Patchwork và phương pháp điều chỉnh biên độ Trong phương pháp điều chỉnh biên độ, nhúng thông tin bằng cách thay đổi năng lượng của hai hay ba block Năng lượng và biên độ tín hiệu
tỉ lệ thuận với nhau Do đó, ta có thể tinh chỉnh biên độ để thay đổi năng lượng hai block kế bên theo ý muốn để đặt giá trị nhúng
chính nội dung của tín hiệu gốc để biểu diễn watermark Phương pháp echo là ví dụ minh họa Ngoài ra, phương pháp này có nhúng một phần tín hiệu gốc vào miền tần
số Do vậy, phương pháp sử dụng bản sao là nhúng các bản sao, hay sử dụng chính
Trang 14tín hiệu gốc biểu diễn cho thông tin watermark Ưu điểm là chống lại được các kiểu tấn công như đồng bộ hóa
Đại diện của phương pháp này là thay thế bit ít quan trọng nhất (LSB)
Về mặt ứng dụng, nhìn chung watermarking audio bao gồm các ứng dụng thực
tế sau:
Bảo vệ quyền sở hữu (copyright protection): đây là ứng dụng cơ bản
và cũng là quan trọng nhất cho watermarking âm thanh nói riêng và lĩnh vực watermarking nói chung
Mục đích của watermarking cho việc bảo vệ quyền tác giả là nhúng thông tin xác nhận bản quyền (watermarking) vào dữ liệu số để khi cần có thể nhận biết người chủ sở hữu bản quyền của sản phẩm Ngoài ra, công việc này còn dùng để kiểm soát quá trình phân phối của sản phẩm Dữ liệu watermark có thể là một chữ ký số, một đoạn thông điệp, hình ảnh hay bất kỳ ký tự nào để quy ước và phân biệt với các sản phẩm khác, mà chỉ có sản phẩm đó mới có mã ký tự chứng minh cho nó
bản gốc theo thông tin watermark và đưa số liệu vào hệ thống Một khi hệ thống phát hiện một sản phẩm bất kỳ có độ tương tự cao, công việc này là đưa hai sản phẩm ra
so sánh, dùng bản nghi ngờ so sánh với dữ liệu có sẵn trong hệ thống của bản chính Sau đó, hệ thống sẽ nhận dạng được những điểm chung và riêng của hai sản phẩm để đưa ra quyết định Quyết định có thể là nhận định bản nghi ngờ chính là bản gốc nhưng đã bị mất chất lượng, gửi thông tin đến nhà phân phối để có biện pháp khôi phục dữ liệu nếu muốn; hoặc có thể là quyết định đưa ra kết luận bản mới là bản gốc
và được thêm một số thông tin khác nhằm để thay đổi bản gốc, gửi thông tin đến nhà chủ sở hữu để cho ra quyết định
nhạc được phép sử dụng cho một nhóm các nhà đầu tư, việc theo dõi sử dụng các sản phẩm này tỏ ra hiệu quả hơn cả Giống như một phần của việc bảo vệ bản quyền, công việc này theo dõi các sản phẩm đang được gắn mã watermarking đang được sử dụng bởi ai, và vì công việc gì, vị trí ở đâu Nếu dùng cho việc kinh doanh, chỉ có các
Trang 15chủ sở hữu được cấp mã bản quyền mới có quyền này Các bên sử dụng bản nhạc cho việc truyền bá hoặc quảng cáo mà không dùng cho kinh doanh sẽ được khích lệ nếu không giữ mã bản quyền sản phẩm Nếu thực hiện ngược lại, hệ thống theo dõi Tracking sản phẩm sẽ nhận dạng và phát hiện, sau đó sẽ thông báo cho các nhà đầu
tư hoặc các chủ sở hữu bản quyền để quyết định
ứng dụng kiểm tra tính nguyên bản nhưng chỉ khác ở mục đích sử dụng
Một số sản phẩm của các nhà sáng tạo vĩ đại của những thập niên đầu của nền
âm nhạc đã để lại cho thế giới những tác phẩm bất hủ như Beethoven, Mozart…, và đáng được đưa vào viện bảo tàng của âm nhạc Bởi vậy, độ quan tâm của các sản phẩm này trở nên rất khủng khiếp, đó là lý do một số nhà sản xuất đã dựng lại các tác phẩm này và cho rằng đó là của các nhà vĩ đại Nhằm kiếm lợi nhuận và sự chú ý cao
Nhờ các mã watermarking, việc chứng minh sản phẩm nào mới đúng của nhà sáng tạo người nghe đang quan tâm dễ dàng được nhận ra Điều này được đề cao để giữ lại những mốc lịch sử lớn của nền âm nhạc thế giới
1.2 Các phương pháp Watermarking trong miền thời gian
Phương pháp watermarking trong miền thời gian là phương pháp giấu thông tin bản quyền vào thời gian thực của tín hiệu gốc
Dưới đây là một số phương pháp watermarking tiêu biểu trong miền thời gian:
Phương pháp giấu thông tin trong bit có trọng số thấp LSB Vì phương pháp này sẽ tác động trực tiếp vào khung thời gian thực tín hiệu nên có hai điểm đáng chú ý sau:
Chất lượng âm thanh: Khi nhúng dữ liệu vào miền thời gian thực, tín
hiệu watermark sẽ làm thay đổi giá trị thực của các mẫu dữ liệu, do đó chất lượng âm thanh tín hiệu gốc sẽ giảm một cách rõ rệt
giảm về chất lượng âm thanh: nếu không tác động đủ mạnh, tín hiệu watermark sẽ
không đảm bảo an toàn cho bản quyền thông tin được nhúng, nhưng tác dụng quá
Trang 16mạnh sẽ gây nhiễu hay mất chất lượng cho tín hiệu âm thanh gốc Nhìn chung, độ bền vững của các phương pháp nhúng trong miền thời gian là rất thấp so với nhúng trong miền biến đổi
Để giảm thiểu các yếu điểm trên, phương pháp nhúng echos là đề xuất hiệu quả nhất cho nhúng thông tin vào miền thời gian thực
Thêm tiếng ồn (noise): dữ liệu được nhúng vào âm thanh gốc dưới dạng tín hiệu tạp âm công suất thấp (tương tự tiếng ồn) Tạp âm này phải có biên độ nhỏ hơn ngưỡng nghe để không ảnh hưởng tới chất lượng âm thanh
Thêm tiếng vọng (echo): kỹ thuật này nhúng bằng cách thêm tiếng vọng echo vào tín hiệu gốc Dữ liệu nhúng được thực hiện bằng cách thay đổi các hàm số của tiếng vọng echo là: biên độ ban đầu, tỷ lệ phân rã và độ trễ Khi thời gian giữa tín hiệu gốc và tiếng vang echo nhỏ hơn 20ms, hệ thống thính giác con người không thể cảm nhận được, yếu tố này đảm bảo tính ẩn của phương pháp nhúng
Modifying phase: phương pháp nhúng bằng cách thay đổi pha dựa vào tính chất quan trọng của hệ thống thính giác là thành phần pha hầu như không gây ảnh hưởng đến chất lượng âm thanh cảm nhận được Việc đưa tín hiệu watermarking vào tín hiệu được thực hiện bằng cách điều chỉnh pha trong phổ pha của tín hiệu dữ liệu sau khi nhúng
Điều chế biên độ
1.3 Các phương pháp Watermarking trong miền biến đổi
Phương pháp watermarking trong miền biến đổi chủ yếu bao gồm: miền biến đổi Fourier FFT (Fast Fourier Transform), miền chuyển đổi sang Cosine DCT (Discrete Cosine) hay miền wavelet DWT (Discrete Wavelet Transform), v.v …
Các thông tin watermarking được nhúng vào hệ số khai triển của các miền chuyển đổi Điều đó đảm bảo hơn về mặt an toàn thông tin của watermarking trước các kỹ thuật xử lý tín hiệu âm thanh (nén, lọc, lấy mẫu, lọc dải tần …)
Trang 17Trong miền phổ tần số, người ta nhúng tín hiệu chứa thông tin watermark vào các vùng tần số khác nhau Việc lựa chọn vùng tần số nhúng tối ưu sẽ làm tăng độ bền vững cũng như cải thiện độ ẩn thông tin của phương pháp watermarking này
Một số phương pháp watermarking trong miền tần số:
Thêm tần số sóng mang
Thêm tiếng ồn (noise) trong miền biến đổi
Lọc bỏ bớt các dải tần số phụ
Hoặc kết hợp giữa lọc dải tần và thêm tiếng ồn
Thêm các tín hiệu tiếng ồn vào các hệ số mã hóa
Một kỹ thuật khá đặc biệt là mã hóa và giải mã thông tin trên miền nén Hiện nay, sự phổ biến của các dạng tín hiệu âm thanh nén được sử dụng rộng rãi trên khắp thế giới, đặc biệt là thị trường inthernet Bởi vậy, kỹ thuật nhúng thông tin trên miền nén có tính thực tế cao Mã hóa bằng cách tín hiệu được đưa về dạng nén sau khi được lọc dải tần … Hình ảnh tín hiệu được chụp lại và việc mã hóa bắt đầu từ đây Thông thường các hệ số âm thanh có tần số cao sẽ được chọn làm vị trí mã hóa bởi
vì tránh các trường hợp lowpass trong miền nén
Kỹ thuật audio watermarking trong miền nén dựa vào các thành phần chính của âm thanh Đối với tập tin MP3, các dữ liệu watermarking được ẩn trong các dòng bit MP3, do đó bất kỳ tác động loại bỏ hay bóp méo thông tin watermark, kể cả mã hóa lại nội dung âm thanh đều sẽ khiến âm thanh bị biến dạng Nhúng watermark và trích lọc watermark có thể diễn ra rất nhanh chóng Các thông tin watermarking chứa đầy đủ các thông tin nhận dạng bản quyền và phân phối Trong khi đối với một số âm thanh dạng khác, mỗi khung âm thanh chỉ chứa một vài hệ số nhận diện Do đó, cách watermarking dựa trên khung không có nhiều dữ liệu để watermarking
Tiếp theo, phương pháp watermarking trên miền chuyển đổi cosine rời rạc (DCT) cũng rất được quan tâm trong lĩnh vực nhúng thông tin ẩn vào tín hiệu âm thanh và âm thanh phụ Đầu tiên, âm thanh gốc được chuyển đổi thành miền DCT, các hệ số DCT được xác định và các đỉnh năng lượng cũng được tính toán Tiếp theo, watermark được nhúng vào các vị trí có đỉnh năng lượng đạt mức lớn nhất của tín
Trang 18hiệu trong miền DCT Điểm đáng chú ý của phương pháp này, các tín hiệu nhúng vào miền cosine ít gây ảnh hưởng đến tín hiệu gốc về mặt âm thanh Hơn nữa, nó không
bị ảnh hưởng bởi các kỹ thuật thêm tiếng ồn, lấy mẫu lại hay mã hóa lại
Và dưới đây là một số điều kiện cần và đủ cho một hệ thống nhúng watermark trong miền cosine:
Tín hiệu watermark không gây ảnh hưởng cho tín hiệu gốc sau khi đã nhúng (tính ẩn)
Đủ sức chống chọi lại với các nguồn tấn công nhằm gây phá vỡ hoặc biến dạng tín hiệu thông tin watermark (tính bền vững)
Dung lượng nhúng thông tin ẩn cao, thông thường tỉ lệ thuận với chỉ số bit
Mặt an ninh cao, nghĩa là chỉ có người nhúng hoặc các bộ phận đảm trách nhiệm vụ lấy thông tin watermark mới có thể lấy thông tin bản quyền thành công
Trang 19Chương 2 - PHƯƠNG PHÁP WATERMARKING ÂM THANH DỰA TRÊN KỸ THUẬT TỰ ĐỘNG PHÂN TÍCH ÂM NHẠC
2.1 Kỹ thuật watermarking âm thanh
Một cách tổng quan, watermarking âm thanh bao gồm các dạng âm thanh
số, chúng đều được thực hiện theo lược đồ hình 2.1:
Hình 2.1: Lược đồ nhúng watermarking âm thanh
Trước khi phân phối, sản phẩm chưa được nhúng watermarking được gọi là sản phẩm thô, sản phẩm thô này được đưa qua một bộ nhúng thông tin số Bộ nhúng này kết hợp thông tin nhúng và khóa tương ứng để đưa thông tin ẩn vào sản phẩm thô ban đầu Sau đó, sản phẩm thô đã được nhúng trở thành sản phẩm chứa watermarking
và được phân phối
Khi có nhu cầu giải mã watermarking để chứng thực về bản quyền, các sản phẩm âm thanh đã được phân phối đều sẽ được giải mã dựa theo lược đồ hình 2.2
Thông tin giấu
Bộ nhúng thông tin
khóa
Sản phẩm đã được giấu tin
Sản phẩm thô
(audio)
Internet
Phân phối
Trang 20Hình 2.2: Lược đồ giải nhúng watermarking âm thanh
Sản phẩm phân phối được đưa qua bộ giải mã thông tin Bộ giải mã này đưa
mã khóa tương ứng vào để so sánh dữ liệu đầu vào và lấy mã watermarking của dữ liệu ra để đưa vào bộ phận thông tin giấu và đưa ra kiểm định Bộ kiểm định là một
bộ từ điển có các mã có sẵn để nhận diện Sau khi nhận diện được mã thông tin giấu,
bộ giải mã cho ra quyết định bản quyền của sản phẩm tương ứng với mã watermarking
đã được nhận diện và cả sản phẩm thô ban đầu được nhúng tương ứng với mã đó
Trong kỹ thuật watermarking âm thanh nói chung, dù đối với dạng âm thanh
nào cũng phải đạt hai tiêu chuẩn về “độ ẩn” và “độ bền vững” Hai yếu tố quyết định
phương pháp hay kỹ thuật watermarking có đủ mạnh mẽ hay không Và cũng là tiêu chí để so sánh các kỹ thuật watermarking âm thanh với nhau
Độ “bền vững”: đánh giá khả năng watermark chống lại các cuộc tấn
công từ bên ngoài tới tín hiệu được nhúng Đối với một âm thanh đã được phép phân phối nghĩa là đã được định danh bằng watermarking, thông tin watermark được giấu trong tập tin âm thanh phải được giữ nguyên vẹn sau các quá trình chuyển đổi qua lại nhiều lần giữa các dạng âm thanh để đáp ứng nhu cầu người dùng
Một ví dụ thông dụng nhất, sản phẩm gốc ban đầu từ các hãng sản xuất âm nhạc luôn đạt chất lượng lossless (âm thanh dạng wave) Trước khi đưa ra phân phối,
Thông tin giấu
Bộ nhúng thông tin
Sản phẩm đã được giấu tin
Trang 21chúng được định danh bằng cách nhúng các tín hiệu watermarking Khi được phân phối ở thị trường, để tiện cho việc tải về các phương tiện cá nhân, các sản phẩm này được chuyển đổi từ file wave sang dạng mp3 (nén có tổn hao) để thu nhỏ dung lượng sản phẩm đảm bảo cho việc tải và sử dụng được tiện hơn Khi nén có tổn hao, âm thanh sẽ bị biến dạng dù ít hay nhiều, do đó kỹ thuật watermarking mạnh mẽ, hay độ
“bền vững” đạt tiêu chuẩn phải đảm bảo giữ nguyên vẹn các thông tin watermark
trong trường hợp này
Độ “ẩn”: là việc giấu watermark trong các tín hiệu âm thanh mà không
làm thay đổi tín hiệu âm thanh đó về mặt cảm nhận của hệ thính giác con người (HAS) Hay nói cách khác, độ ẩn đạt yêu cầu khi người nghe không thấy sự khác biệt giữa hai tín hiệu âm thanh trước và sau khi được nhúng watermark Quan trọng hơn,
nó còn giữ được sự bảo mật thông tin, không dễ bị phát hiện bởi các bộ giải mã không thuộc quyền sở hữu
Các tin tặc thường đánh cắp dữ liệu mật được ẩn trong các tín hiệu âm thanh bằng cách đọc các thông tin ẩn đó bởi các thông tin giải mã watermarking
Vậy độ mạnh yếu của độ “ẩn” là việc nó có cho phép các tin tặc đọc ra các tin
thư mật hay không
Một ví dụ đặc biệt khác, một tín hiệu dạng hiệu ứng âm thanh khi đã được watermarking, chúng được phân phối ra thị trường và được các nhà sản xuất phim sử dụng Trong quá trình người xem trải nghiệm, vì mức kịch tính của thể loại phim gây
sự tập trung cao độ của các giác quan cơ thể, thính giác cũng không ngoại lệ Khi nghe đến hiệu ứng âm thanh đó, người nghe sẽ cảm nhận tiếng ồn bất thường gây mất cảm hứng nhất thời và sẽ nhận định rằng đó là lỗi của bộ phim về mặt âm thanh Điều
đó cho thấy nếu độ ẩn thông tin watermarking được thể hiện tốt hơn, hiệu ứng âm thanh sẽ không có sự bất thường và không gây ảnh hưởng đến bộ phim cũng như chất lượng âm thanh của nó
Trang 222.2 Kỹ thuật watermarking âm nhạc
Âm nhạc là tinh hoa của âm thanh Vậy watermarking âm nhạc là một dạng của watermarking âm thanh Nhưng điều đặc biệt, watermarking âm nhạc là dạng nâng cao của watermarking âm thanh và các quá trình nhúng hay giải nhúng watermark đều khác với các dạng âm thanh số khác
Điểm chú ý hơn, đối với âm thanh, hai dạng tiêu chí để đánh giá watermarking
là độ “ẩn” và độ “bền vững” thì với âm nhạc, tiêu chí đánh giá watermarking là độ “
bền vững”, độ “ẩn” và độ “thẩm mỹ của ẩn”
Đối với âm nhạc, ta cũng có thể nói hai tiêu chí chính để đánh giá giá trị
watermarking của các kỹ thuật đó là độ “ẩn” và độ “bền vững” nhưng độ “ẩn” này không đơn thuần chỉ là độ “ẩn” trong kỹ thuật watermarking của âm thanh số nói chung, mà nó còn là độ “hòa âm”,và độ “hòa hợp” để đạt được tính thẩm mỹ đối với
cảm nhận người nghe Đó cũng chính là điểm mấu chốt của giải thuật watermarking
âm nhạc
Về cơ bản, âm nhạc là sự hòa âm của nhiều loại âm thanh Sự hòa âm này
được tuân theo “quy luật âm nhạc” Quy luật này không phải gọi là nhạc lý, mà nhạc
lý chỉ mô tả một phần của quy luật này Nếu một tín hiệu bất kỳ được cho vào bài hát
mà không tuân thủ theo quy luật của bài hát đó sẽ tạo ra sự bất hòa âm hay sự trái
ngược tức thời về mặt cảm nhận, âm nhạc gọi đó là “tiếng ồn” hay “tạp âm” Ở đây,
chúng tôi khái niệm quy luật của bài hát là gam của bài hát đó, tất nhiên một gam gồm nhiều hợp âm trong nó
Watermarking âm nhạc là nhúng tín hiệu âm thanh vào bài hát mà vẫn giữ
nguyên cảm nhận của người nghe về chất lượng bài hát đó Nên độ “ẩn” của watermarking âm nhạc bao gồm cả độ “hòa âm” và độ “thẩm mỹ hòa âm” trong đó
Bởi chỉ cần một âm thanh trái ngược với quy luật hòa âm của bài hát được nhúng vào bài hát, cho dù biên độ cực nhỏ cũng gây ra sự phát hiện rõ ràng cho tai người nghe
Vậy watermarking âm nhạc là watermarking âm thanh được nâng cao thêm
phần thẩm mỹ hòa âm cho độ “ẩn”
Trang 23Người kỹ thuật viên thực hiện watermarking âm nhạc giống như một nhạc sĩ thực hiện hòa âm thêm một loại nhạc cụ mới cho bài hát, và nhạc cụ mới đó chính là
tín hiệu watermarking
Và ở đây, đồ án nhận định rõ rằng tính chuyên nghiệp của watermarking âm
nhạc phụ thuộc vào tính hợp lý của vị trí nhúng trong cả mặt thời gian lẫn tần số đối
với tín hiệu âm nhạc
Những quy tắc nhúng thỏa quy tắc hòa âm của các nhạc công cũng như nhạc
sỹ sẽ giúp các tín hiệu watermark sau khi được nhúng vào đoạn nhạc sẽ mang tính
“ẩn” cao hơn trường hợp nhúng tuần tự thường dùng trong các phương pháp cổ điển
Không phức tạp như cách hòa âm của âm nhạc, trong phương pháp watermarking đề xuất, chúng tôi chỉ chọn lựa những vị trí hòa âm tốt nhất (ứng với các nốt nhạc có cường độ lớn và có hiệu ứng “che” mạnh) và cũng là đơn giản nhất
để việc nhúng thông tin trở nên thuận lợi
Các vị trí nhúng được ưu tiên là quãng 8 trên của nốt nhạc trong tín hiệu gốc (tần số gấp đôi độ cao nốt nhạc), quãng 8 dưới (tần số chỉ bằng một nửa độ cao nốt nhạc) Ngoài ra còn có các quãng ưu tiên như quãng 4 chuẩn hay quãng 5 chuẩn như
đã giới thiệu ở phần đầu luận án [13]
Về mặt kỹ thuật, watermarking âm nhạc đòi hỏi người kỹ thuật viên nhúng watermark không chỉ phải thành thạo nhúng watermarking âm thanh mà còn cần phải am hiểu về âm nhạc và các quy luật hòa âm Về watermarking âm thanh thì chỉ cần kỹ thuật viên watermarking biết nhúng watermark âm thanh
Về cách thực hiện, watermarking âm thanh chỉ cần xác định vị trí nhúng
về mặt thời gian, còn về âm nhạc, không chỉ tìm vị trí nhúng theo thời gian thực cho hợp lý mà còn tìm cả về vị trí nhúng theo tần số để đảm bảo tính hòa âm Ở watermarking âm thanh, biểu đồ vị trí nhúng chỉ là một chiều (miền thời gian), còn với watermarking âm nhạc, biểu đồ vị trí nhúng là thể hiện hai chiều (miền thời gian
và miền tần số)
Trang 24Lý do tìm vị trí nhúng theo miền tần số bởi quy luật hòa âm của bài hát tính theo đơn vị nốt nhạc, mà nốt nhạc được đặc trưng bởi tần số Mỗi nốt nhạc đều có độ cao riêng ứng với một tần số cụ thể Ví dụ nốt La (A) có tần số là 440 Hz
Tín hiệu watermark khi nhúng vào đoạn âm nhạc có thể gây ra ít hay nhiều ảnh hưởng tới chất lượng âm thanh dưới cảm nhận chủ quan của người nghe: nếu nhúng chính xác vào vị trí quãng 8 (hay các vị trí hòa âm khác) của nốt nhạc tức thời,
âm thanh của nốt nhạc đó sẽ “che” bớt sự thay đổi tín hiệu tạo ra bởi watermark và ngược lại Ví dụ, nếu nốt nhạc tức thời là nốt La (440 Hz), dữ liệu watermark phải được nhúng vào vị trí ứng với tần số 880 Hz (quãng 8 trên) và 220 Hz, điều này sẽ phù hợp với quy luật hòa âm và ảnh hưởng của quá trình watermarking sẽ là nhỏ nhất
Xét một đoạn nhạc có ba nốt Son, La, Si Khi nhúng vào một bit ‘0’ ở nốt son
Đồ thị miền tần số của tín hiệu ở đầu vào và ra như sau: (hình 2.3)
Hình 2.3: Đồ thị dạng sóng trong miền tần số trước và sau khi nhúng
Trang 25Tần số nốt sol là 391 Hz, vậy khi nhúng thực hiện thay đổi giá trị biên độ phổ tần số tại vạch tần mang giá trị tần số 784 Hz và 196 Hz Vì yêu cầu bài toán muốn bit ‘0’ được nhúng nên vạch tần tại 196 Hz phải nhỏ hơn 784 Hz Do đó, thay đổi biên độ phổ tại 196 Hz bằng 0 (hình 2.3)
Như vậy, quá trình watermarking tín hiệu âm nhạc phải được thực hiện trong hai bước chính như sau:
Nhận dạng độ cao và cường độ của các nốt nhạc trong đọan nhạc gốc Xác định vị trí nhúng thông tin: quãng 8, quãng 4 hay quãng 5 của các nốt nhac có cường độ lớn (khả năng che lớn) trong đoạn nhạc
Nhúng lần lượt từng bit dữ liệu watermark theo quy luật cho trước
2.3 Các bước thực hiện watermarking âm thanh
Cách thực hiện watermarking âm thanh bao gồm các bước sau:
Bước 1: Chuyển tín hiệu trong miền thời gian thực sang miền tần số với
biến đổi Fourier rời rạc; sau đó đưa tín hiệu vừa thu được trong miền tần số kết hợp với tín hiệu trong miền thời gian ban đầu để thể hiện vào biểu đồ Spectrogram – biểu
đồ thời gian tần số
Bước 2: Chia biểu đồ spectrogram thành từng khung âm thanh (Frame)
đều nhau, mỗi khung âm thanh được coi là một đơn vị của biểu đồ Spectrogram trong suốt quá trình nhúng watermarking, thông thường mỗi khung âm thanh sẽ đảm nhận thể hiện cho một giá trị ẩn sau khi được watermarking
Bước 3: Nhận diện các đỉnh trong biểu đồ spectrogram để tìm ra đỉnh cao
nhất trong mỗi khung âm thanh, cũng là đỉnh thể hiện mức năng lượng cao nhất trong mỗi đơn vị biểu đồ Spectrogram Đỉnh này cũng được coi là đỉnh đặc trưng cho mỗi đơn vị nhúng watermark vì vị trí nhúng watermarking gốc được định vị tại đỉnh có mức năng lương cao nhất trong mỗi đơn vị
Trang 26Lý do của việc chọn đỉnh cao nhất làm đỉnh đặc trưng mà không chọn đỉnh có mức năng lượng thấp:
Ta gọi f0 : là tần số của đỉnh đặc trưng
Delta : là mức năng lượng thay đổi tại f0 để thể hiện các giá trị bit “0”
hay bit “1” trong mã watermarking Để giữ được tính “ẩn”, hay nói cách khác là
không làm ảnh hưởng nhiều đến chất lượng âm thanh gốc thì giá trị Delta là rất nhỏ, nên điều kiện của delta giả sử là Delta = 5% f0
Giả sử giải thuật nhúng bit “1” và bit “0” là như sau:
Nếu giá trị watermark mang bit “1” thì <f0 + Delta>
Nếu giá trị watermark mang bit “0” thì <f0 – Delta>
Do vậy, nếu f0 là đỉnh có mức năng lượng thấp thì lượng Delta sẽ đáng kể so với f0 vì giá trị của f0 và Delta được xem là các giá trị nhỏ tương đương nhau Điều
đó có nghĩa, mức tín hiệu gốc sẽ bị thay đổi nhiều khi tác động bởi Delta hay sau khi
được nhúng watermarking
Ngược lại, nếu f0 là đỉnh của mức năng lượng cao nhất thì theo tính tương đối, một lượng Delta rất nhỏ khoảng 5% của f0 sẽ không đáng kể so với một lượng f0 rất lớn, và sẽ không gây ảnh hưởng nhiều đến f0 hay chất lượng của cả tín hiệu khi thực
hiện nhúng wtaremarking
Bước 4: Thực hiện nhúng watermarking theo giải thuật như đã giải thích
ở bước 3
Qua 4 bước cơ bản trên của quá trình nhúng watermarking âm thanh, ta thấy
rõ tầm quan trọng của Spectrogram – biểu đồ tần số thời gian
Vì vậy ta sẽ tìm hiểu rõ hơn về Spectrogram ở phần tiếp theo
Nếu ở miền tần số hay thời gian, biểu đồ được thể hiện ở 2 chiều thì Spectrogram là biểu đồ thể hiện không gian 3 chiều của tín hiệu
Trong miền thời gian, một trục là thời gian, trục kia là biên độ tín hiệu; Trong miền tần số thì một trục là tần số, trục kia là thời gian
Trang 27Vậy kết hợp các trục đơn vị của hai miền thời gian và miền tần số ta được biểu
đồ Spectrogram – gọi là đồ thị thời gian và tần số
Vậy Spectrogram là đồ thị có hai kích thước hình học: trục ngang thể hiện
thời gian; trục dọc là tần số; trục thứ 3 thể hiện biên độ của mỗi vạch phổ trong từng thời điểm cụ thể
Dạng biểu đồ này cũng có nhiều loại, nhưng cơ bản vẫn là ở 2D và 3D Đối với không gian 2 chiều, ngoài hai thông tin thời gian và tần số được thể hiện giống như đồ thị của phổ tần, mức năng lượng hay biên độ của vạch phổ còn được thể hiện qua màu sắc đậm nhạt của biểu đồ
Còn đối với không gian 3 chiều thì rõ nét hơn, có 3 trục đơn vị thể hiện rất rõ
3 miền thời gian, miền tần số và miền biên độ của các vạch phổ
Hình 2.4: Biểu đồ spectrogram 2D của giọng nam nói cụm từ “Thế Kỷ XIX”
Trong biểu đồ hình 2.4, các tần số thấp dày đặc hơn bởi nó là một giọng nam Mật độ hay sự dày đặc thể hiện ở các màu sắc trong biểu đồ, màu sắc càng sáng thể hiện mật độ năng lượng càng cao Dạng biểu đồ này cũng là biểu đồ đặc trưng cho biểu đồ Spectrogram, và thường thấy trong các trang nhạc lớn trên Thế Giới
Trang 28Hình 2.5: Biểu đồ Spectrogram của một đoạn ghi âm nhạc cụ violin được chơi
Trong biểu đồ hình 2.5, các vân màu cho thấy các giai điệu của bài hát đều được nằm trong các cấp số nhân của tần số gốc hay các quãng hòa âm của nốt chủ
Điều này thể hiện một phần cho quy luật hòa âm mà chúng tôi sẽ trình bày và giải thích thêm ở phần sau của đề tài này
Hình 2.6: Biểu đồ 3D spectrogram của một đoạn nhạc
Hình 2.6 chính là kiểu biểu đồ Spectrogram thể hiện rõ ràng nhất và được chúng tôi dùng để giải thích cho cách nhúng watermarking của đề tài này
Trang 292.4 Cách thực hiện watermarking âm nhạc
Trong phần này, các bước thực hiện watermarking âm nhạc giống như 3 bước đầu của watermarking âm thanh, chỉ thêm một vài giai đoạn ở các bước còn lại
Bước 1: Chuyển tín hiệu trong miền thời gian thực sang miền biểu đồ
Spectrogram – biểu đồ thời gian tần số
Bước 2: Chia biểu đồ Spectrogram thành từng khung âm thanh (Frame)
đều nhau
Bước 3: Nhận diện các đỉnh trong biểu đồ spectrogram để tìm ra đỉnh
cao nhất trong mỗi khung âm thanh
Bước 4: Đưa tấm lược tần số khớp với các đỉnh cao nhất trong biểu đồ
spectrogram vừa tìm thấy để lọc lấy các tần số cơ bản và các âm điệu chính của bài
Bước 5: Nhận diện nốt nhạc dựa trên giá trị tần số cơ bản nhận được từ
bước 4
Bước 6: Nhúng các bit “0” “1” theo quy ước Trong miền thời gian,
nhúng vào tất cả các frames trong khoảng thời gian tồn tại nốt nhạc đã được nhận dạng Trong miền tần số, nhúng vào vị trí các quãng hòa âm ưu tiên (quãng 8, quãng
5 hoặc quãng 4) của nốt nhạc nói trên
Để hiểu rõ hơn về phần này, chúng tôi chia làm 3 phần chính sau:
2.4.1 Tấm lọc tần số hình chải lược để lọc các tạp âm
Việc đầu tiên của quá trình watermarking âm nhạc là lọc bỏ tiếng ồn, và chỉ lấy lại các tần số cơ bản của tín hiệu cũng như các âm điệu chủ đạo nhất của bài hát
Điều này còn để tăng độ “bền” cho chính tín hiệu watermark Bởi âm điệu chính của
một bài hát luôn đạt cường độ cao nhất so với các tần số khác
Vì đây là trường hợp watermarking đối với một tín hiệu âm nhạc nên chúng tôi dùng một bộ lọc có đặc tuyến tần số hình răng lược để lọc tín hiệu gốc với mục đích lọc bỏ các tiếng ồn của tín hiệu âm nhạc, đồng thời lấy lại những tần số (ứng với
độ cao của các nốt nhạc) trong bài hát
Trang 30Đặc tuyến tần số bộ lọc răng lược có tần số trung tâm các băng thông hợp thành một cấp số nhân, để thỏa điều kiện xác định các giá trị octave trong “quy luật
âm nhạc”
Một số quy luật hòa âm trong âm nhạc
Trong lý thuyết âm nhạc, dải tần nghe được từ 20Hz đến 20.000Hz được chia
thành các quãng 8 (octave):
Trong một quãng 8 có 13 tần số liền kề hợp thành một cấp số nhân với cùng bội là 2^(1/12) - đây là độ cao của các nốt nhạc (2.3)
Tần số đầu tiên trong quãng 8 nhỏ bằng 1 nửa tần số thứ 13 (2.4)
Trong 13 độ cao ứng với 13 tần số nói trên, chỉ có 7 tần số tạo ra âm thanh tự nhiên (cảm nhận người nghe thấy tự nhiên), đây chính là 7 note nhạc chính trong một octave Tần số thứ 13 cũng chính là tần số phát ra âm thanh tự nhiên cuối cùng hay thứ tám trong một octave Trên hình(2.7) mô tả 2 octave liền kề, với 7 nốt nhạc chính trong từng octave Các nốt có cùng số thứ tự trong 2 octave là các nốt đồng âm (có cùng tên nốt) Nốt số 8 (quãng 8) của octave1 cũng chính là nốt số 1 của octave2 (2.6)
Hình 2.7: Hai Octave liền kề nhau
Hai tần
số bằng nhau Octave1
Octave2
Trang 31Từ các quy luật nêu trên, ta có thể suy rộng ra cho nhiều octave họ hàng của octave1 và tạo thành một chuỗi hệ thống các tần số có thể tham gia vào hòa âm thanh cùng octave1
F(k+1)=2^(1/12) *F(k) với k : số thứ tự tần số trong octave 13 tần số
F(k,n+1)=2*F(k,n) với n : số thứ tự của octave ; F là hàm tần số
13 tần số ban đầu của octave được biểu diễn như sau:
Hình 2.9: Sơ đồ 8 tần số cơ bản trong một octave
Sau này, để dễ cho việc nghiên cứu về lý thuyết âm nhạc, các nốt nhạc chính
trong 1 octave bất kỳ được đặt tên như sau: “Do”; “Re”; “Mi”; “Fa”; “Sol”; “La”;
“Si”; “Do” ứng với 8 vị trí từ 1 đến 8 trong một Octave (hình 2.10)
B*2^
(0/12)
(2.5)