Xác thực thông tin hay phát hiện giả mạo thông tin Một tập các thông tin sẽ được giấu trong phương tiện chứa sau đó được sử dụng để nhận biết dữ liệu trên phương tiện gốc đó có bị thay đ
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -
Nguyễn Thị Mỹ Hạnh
NGHIÊN CỨU KỸ THUẬT GIẤU TIN TRONG DỮ LIỆU ĐA PHƯƠNG TIỆN
Chuyên ngành: Công Nghệ Thông Tin
LUẬN VĂN THẠC SỸ KỸ THUẬT
………
Người hướng dẫn: GS.TS Nguyễn Thanh Thủy
Hà Nội - 2012
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn thạc sĩ này là công trình nghiên cứu thực sự của
cá nhân, được thực hiện trên cơ sở nghiên cứu, tổng hợp lý thuyết dưới sự hướng dẫn của GS.TS Nguyễn Thanh Thủy Các số liệu và những kết quả trong luận văn là trung thực, khách quan và chưa từng được công bố trong bất kỳ một công trình nào khác
Hà nội, ngày tháng năm 2012 Nguyễn Thị Mỹ Hạnh
Trang 3LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc đến GS.TS Nguyễn Thanh Thủy đã trực tiếp
hướng dẫn, giúp đỡ định hướng để tôi có thể thực hiện và hoàn thành đề tài luận văn
này
Tôi xin bày tỏ lòng biết ơn các thầy cô giáo trong Viện Công Nghệ Thông
Tin và Truyền Thông – Trường Đại Học Bách Khoa Hà Nội đã trang bị cho tôi
những kiến thức quý báu trong suốt quá trình hai năm học tại trường
Cuối cùng, tôi xin cảm ơn gia đình, bạn bè đồng nghiệp trong Khoa Công
Nghệ Thông Tin, trường Cao Đẳng Kinh Tế Công Nghiệp Hà Nội nơi tôi đang công
tác đã luôn động viên khích lệ tôi trong suốt quá trình nghiên cứu và hoàn thành
luận văn
Hà Nội, ngày tháng năm 2012
Nguyễn Thị Mỹ Hạnh
Trang 4MỤC LỤC
CÁC THUẬT NGỮ VIẾT TẮT 4
DANH MỤC CÁC BẢNG 5
DANH MỤC HÌNH VẼ, ĐỒ THỊ 6
MỞ ĐẦU 8
CHƯƠNG 1: TỔNG QUAN VỀ CÁC KỸ THUẬT GIẤU TIN 10
1.1 Các khái niệm cơ bản về giấu tin 10
1.1.1 Định nghĩa 10
1.1.2 Mục đích giấu tin 10
1.1.3 Mô hình kỹ thuật giấu tin cơ bản 10
1.2 Giấu tin trong dữ liệu đa phương tiện (multimedia) 12
1.2.1 Giấu tin trong ảnh 12
1.2.2 Giấu tin trong audio 13
1.2.3 Giấu tin trong video 13
1.2.4 Giấu thông tin trong văn bản dạng Text 14
1.3 Các yêu cầu trong một mô hình giấu tin 14
1.3.1 Tính bền vững 14
1.3.2 Khả năng không bị phát hiện 15
1.3.3 Khả năng lưu trữ 15
1.3.4 Tính bảo mật 16
1.3.5 Khả năng vô hình 16
1.3.6 Tính trong suốt 16
1.4 Các ứng dụng của lĩnh vực giấu tin 16
1.4.1 Bảo vệ bản quyền, sở hữu trí tuệ 16
1.4.2 Xác thực thông tin hay phát hiện giả mạo thông tin 17
1.4.3 Giấu vân tay hay dán nhãn 17
Trang 51.4.4 Kiểm soát sao chép 17
1.4.5 Giấu tin mật 18
1.5 Giới thiệu một số kỹ thuật giấu tin trong âm thanh 18
1.5.1 Mã hóa LSB (Least Significant Bit) 18
1.5.2 Mã hóa Parity (Parity Coding) 19
1.5.3 Mã hóa Phase (Phase Coding) 19
1.5.4 Kỹ thuật trải phổ 20
1.5.5 Kỹ thuật giấu dựa vào tiếng vang (Echo) 20
1.5.6 Kỹ thuật mã hóa (Echo) 21
CHƯƠNG 2: GIẤU DỮ LIỆU TRÊN ÂM THANH 22
2.1 Mô hình phân loại Watermarking trên âm thanh 22
2.1.1 Nhóm các phương pháp giao thoa tín hiệu gốc .22
2.1.2 Nhóm các phương pháp không giao thoa tín hiệu gốc .24
2.2 Xử lý tín hiệu số 32
2.2.1 Đại cương về tín hiệu và nhiễu 32
2.2.2 Lấy mẫu và khôi phục tín hiệu 37
2.2.3 Phân tích Fourier 42
2.3 Kỹ thuật LSB (LeastSignificant Bit) 50
2.4 Kỹ thuật trải phổ 53
2.4.1 Mật độ phổ công suất 55
2.4.2 Chuỗi giả ngẫu nhiên 57
2.4.3 Điều chế số dịch pha BPSK 60
2.4.4 Ảnh hưởng của nhiễu trắng trong truyền thông 64
2.4.5 Ảnh hưởng của nhiễu Jammer trong truyền thông 64
2.4.6 Các hệ thống trải chuỗi trực tiếp 67
Trang 6CHƯƠNG 3: GIẤU DỮ LIỆU TRÊN AUDIO BẰNG PHƯƠNG PHÁP LSB (Least Significant
Bit) 79
3.1 Tổng quan về WAV file 79
3.2 Xây dựng chương trình Demo 81
3.3 Giao diện của chương trình 83
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 86
TÀI LIỆU THAM KHẢO 87
PHỤ LỤC 88
Trang 7CÁC THUẬT NGỮ VIẾT TẮT
Từ
HSV Human Vision System Hệ thị giác của con người
HAS Human Auditory System Hệ thính giác của con người
DVD Digital Versatile Disc
LSB Least Significant Bit Bít ít quan trọng nhất
DFT Discrete Fourier Transform Biến đổi Fourier rời rạc
FFT Fast Fourier Transform Biến đổi Fourier nhanh
DCT Discrete Cosine Transform Biến đổi cô sin rời rạc
DWT Discrete wavelets Transform Biến đổi sóng con rời rạc
PSD Probability Spectral Denscity Mật độ phổ xác suất
PDF Probability Denscity Function Hàm mật độ xác suất
CDMA Code Divesison Multiple Đa thâm nhập phân chia theo mã
BPSK Binary Phase Shift Keying Điều chế khóa chuyển pha cơ số hai QPSK Quandrature Phase Shift Keying Điều chế khóa chuyển pha vuông góc
Trang 8DANH MỤC CÁC BẢNG
Bảng 2.1: Các thành phần phổ đối xứng nhau qua điểm k=3.5
Bảng 2.2: Phân tích các đoạn chạy của tín hiệu PN
Trang 9DANH MỤC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Lược đồ chung cho quá trình giấu tin
Hình 1.2: Lược đồ quá trình giải mã tin mật
Hình 1.3: Mối tương quan đến ba tiêu chí
Hình 1.4: Minh họa kỹ thuật giấu LSB
Hình 1.5: Kỹ thuật mã hóa pha
Hình 1.6: Kỹ thuật giấu điều chỉnh echo
Hình 2.1: Phân loại Watermarking trên Audio
Hình 2.2: Ý tưởng của phương pháp trải phổ truyền thống
Hình 2.3: Tiền xử lý tín hiệu âm thanh Watermark
Hình 2.4: Ẩn dữ liệu theo phương pháp echo
Hình 2.5: Điều chỉnh tỉ lệ thời gian trong Watermarking
Hình 2.6: Hình vẽ minh họa cho sóng của một tín hiệu
Hình 2.7: Nhiễu phân bố đều
Hình 2.8: Nhiễu phân bố Gaussian
Hình 2.9: Các loại sóng của tín hiệu
Hình 2.10: Biểu diễn tín hiệu theo tọa độ cực
Hình 2.11: Liên hợp phức của tín hiệu x(t)
Hình 2.12: Mô hình lấy mẫu
Hình 2.13: Lấy mẫu tín hiệu với các chu kỳ khác nhau
Hình 2.14: Sự trùng lặp phổ
Hình 2.15: Mạch lấy mẫu lý tưởng ở tần số f s
Hình 2.16: Phổ của tín hiệu khi dùng tiền lọc lý tưởng
Hình 2.17: Tiền lọc chống biệt danh thực tế
Hình 2.18: Hệ thống lấy mẫu quá mức và tiêu hủy
Hình 2.19: Tần phổ biên độ của tín hiệu
Hình 2.20: Thành phần thực, thành phần ảo và tần phổ của tín hiệu Hình 2.21: Phổ của sóng vuông
Hình 2.22: Mô hình hệ thống thông tin trải phổ
Trang 10Hình 2.23:Tín hiệu x(t) và tín hiệu tự tương quan
Hình 2.24: Mật độ công suất phổ của tín hiệu
Hình 2.25: Mạch thanh ghi dịch cơ số 2
Hình 2.26: Hàm tương quan của chuỗi PN
Hình 2.27: Phổ tín hiệu BPSK
Hình 2.28: Tín hiệu trải phổ
Hình 2.29: Mạch giải điều chế BPSK
Hình 2.30: Hệ thống truyền thông trải phổ cơ bản
Hình 2.31: Một jammer toàn phần băng thông
Hình 2.32: Một jammer một phần băng thông
Hình 2.33: Phổ của tín hiệu BPSK
Hình 2.34: Phổ của tín hiệu BPSK sau khi trải
Hình 2.35: Bộ điều biến BPSK truyền thống
Hình 2.36: Bộ điều biến BPSK cải tiến
Hình 2.37: DS/BPSK không mã hóa với tấn công của nhiễu Jammer Hình 2.38: So sánh giá trị của xác suất lỗi Pb với Eb/Nj
Hình 2.39: Các tín hiệu trước khi trải
Hình 2.40: Các tín hiệu sau khi trải
Hình 2.41: Hệ thống lặp mã DS/BPSK
Trang 11MỞ ĐẦU
1 Lý do chọn đề tài
Sự phát triển mạnh mẽ các hệ thống đa phương tiện dưới kết nối mạng Internet dẫn đến nhu cầu bảo vệ bản quyền cho các phương tiện dữ liệu số như: các bức ảnh, file âm thanh, video clip v.v…Việc bảo vệ bản quyền bao gồm xác nhận bản quyền tác giả và nhận biết sao chép bất hợp pháp các dữ liệu số này
Sau khi nghiên cứu một số tài liệu liên quan đến lĩnh vực giấu tin và các kỹ thuật giấu tin trong môi trường đa phương tiện, được sự đồng ý, động viên của thầy
hướng dẫn tôi đã chọn đề tài “Nghiên cứu kỹ thuật giấu tin trong dữ liệu đa
phương tiện” làm đề tài nghiên cứu cho luận văn cao học của mình
2 Lịch sử nghiên cứu
Về mặt lý thuyết đề tài tiếp cận một hướng nghiên cứu mới trong lĩnh vực an toàn và bảo mật thông tin, đặc biệt là các thông tin được truyền trên các kênh truyền thông công cộng cần bảo vệ bản quyền Đề tài trình bày lý thuyết về các kỹ thuật giấu tin trong môi trường âm thanh theo hai hướng phát triển là Steganography và Watermarking
Về mặt thực tiễn: với việc triển khai thực hiện chương trình, đề tài này có thể ứng dụng trong việc bảo vệ bản quyền của một đĩa nhạc chống các sai lệch thông tin trong âm thanh
3 Mục đích nghiên cứu của luận văn ( đối tượng và phạm vi nghiên cứu)
Mục đích của luận văn là nghiên cứu hệ thống lý thuyết liên quan đến việc giấu tin Tìm hiểu các kỹ thuật giấu tin thuộc hai hướng phát triển là Steganography
và Watermarking Luận văn tập trung nghiên cứu hai kỹ thuật giấu tin trong âm thanh là kỹ thuật LSB (Least Significant Bit) và kỹ thuật trải phổ Trên cơ sở nghiên cứu lý thuyết đó, tác giả sẽ triển khai cài đặt chương trình ứng dụng giấu tin trong file âm thanh bằng kỹ thuật LSB
4 Tóm tắt
Luận văn được phân làm ba chương Chương một trình bày tổng quan về kỹ thuật giấu tin cơ bản, giới thiệu một số kỹ thuật giấu tin trong môi trường đa
Trang 12phương tiện, ứng dụng của lĩnh vực giấu tin và một số yêu cầu trong một mô hình giấu tin
Chương hai trình bày phương pháp giấu dữ liệu cụ thể là kỹ thuật mã hóa LSB và kỹ thuật trải phổ Bên cạnh đó tìm hiểu mô hình phân loại Watermarking trên âm thanh
Chương ba xây dựng chương trình giấu tin trên âm thanh bằng kỹ thuật mã hóa LSB
5 Phương pháp nghiên cứu
Trong quá trình nghiên cứu tác giả đã phân tích, tổng hợp lý thuyết từ đó xây dựng ứng dụng giấu tin trong âm thanh bằng kỹ thuật mã hóa LSB
Trang 13CHƯƠNG 1: TỔNG QUAN VỀ CÁC KỸ THUẬT GIẤU TIN
1.1 Các khái niệm cơ bản về giấu tin
1.1.1 Định nghĩa
Giấu tin là một kỹ thuật giấu hoặc nhúng một lượng thông tin số nào đó vào trong một đối tượng dữ liệu số [1]
Nhìn chung một bài toán ẩn dữ liệu gồm 2 quá trình:
-Nhúng dữ liệu (hay còn gọi là mã hóa) -Rút trích dữ liệu (hay còn gọi là giải mã) 1.1.2 Mục đích giấu tin
- Bảo mật cho những dữ liệu được giấu
- Bảo đảm an toàn (bảo vệ bản quyền) cho chính các đối tượng chứa dữ liệu giấu trong đó
Có thể thấy hai mục đích này hoàn toàn trái ngược nhau và dần phát triển thành hai lĩnh vực với những yêu cầu và tính chất khác nhau
Hai lĩnh vực chính của kỹ thuật giấu thông tin:
- Giấu tin mật(Steganography)
- Thuỷ vân số(Watermarking)
Kỹ thuật giấu thông tin bí mật (Steganography): với mục đích đảm bảo an toàn
và bảo mật thông tin, tập trung vào các kỹ thuật giấu tin để có thể giấu được nhiều thông tin nhất Thông tin mật được giấu kỹ trong một đối tượng khác sao cho người khác không phát hiện được
Kỹ thuật giấu thông tin theo kiểu đánh giấu (watermarking) để bảo vệ bản quyền của đối tượng chứa thông tin, tập trung đảm bảo một số các yêu cầu như tính bền vững… đây là ứng dụng cơ bản nhất của kỹ thuật thuỷ vân số
1.1.3 Mô hình kỹ thuật giấu tin cơ bản
Giấu thông tin vào phương tiện chứa và tách lấy thông tin là hai quá trình trái ngược nhau và có thể mô tả qua sơ đồ khối của hệ thống như hình1.1
Trang 14Hình 1.1 Lược đồ chung cho quá trình giấu tin
Trong đó phương tiện chứa tin bao gồm: văn bản, hình ảnh, âm thanh, video…Thông tin cần giấu tùy theo mục đích của người sử dụng Thông tin được giấu vào trong phương tiện chứa tin nhờ một bộ nhúng Bộ nhúng là những chương trình thực hiện theo những thuật toán để giấu tin và được thực hiện với một khóa bí mật giống như trong một số hệ mật mã Đầu ra của quá trình nhúng tin là phương tiện chứa đã được giấu tin Các phương tiện chứa này có thể phân phối trên mạng
Hình 1.2 Lược đồ quá trình giải mã tin mật
Bản tin mật
Bộ nhúng thông tin
Phương tiện chứa
(audio, ảnh, video)
Phương tiện chứa tin được giấu
Phương tiện chứa tin giấu
Khóa
Phân phối
Kiểm định
mã tin
Trang 15Hình 1.2 mô tả quá trình giải mã thông tin đã được giấu trước đó Đầu vào là phương tiện chứa tin giấu, qua một bộ giải mã tin (tương ứng với bộ nhúng tin) cùng với khóa sẽ được thực hiện việc giải mã thông tin Đầu ra của quá trình là phương tiện chứa tin và thông tin mật đã giấu trước đó Trong trường hợp cần thiết , thông tin lấy ra có thể được xử lý, kiểm định và so sánh với thông tin đã giấu ban đầu
1.2 Giấu tin trong dữ liệu đa phương tiện (multimedia)
Kỹ thuật dữ liệu ẩn đã có lịch sử lâu đời và đã từng được thực hiện với nhiều phương thức từ loại mực đặc biệt không thấy được Loại mực đặc biệt sau khi viết trên giấy và để khô thì không thể đọc được bằng mắt thường, thông tin ẩn chỉ hiện
ra khi hơ nóng hoặc bôi hóa chất đặc biệt lên giấy
Kỹ thuật nhúng dữ liệu ẩn khác với kỹ thuật mật mã, tuy trong nhiều tình huống chúng c ng mục đích (chỉ cho những người có quyền truy cập được phép xem dữ liệu) Một trong những vấn đề của hệ thống mật mã là nó có thể bị tấn công
để bẻ khóa Trong khi đó, kỹ thuật nhúng dữ liệu ẩn tăng cường tính bảo mật nhờ che giấu thông tin truyền tải Vì vậy, kỹ thuật nhúng dữ liệu ẩn thường được d ng
bổ sung với kỹ thuật mật mã Nó có thể d ng để nhúng dữ liệu ẩn vào bất kỳ dạng
dữ liệu số nào, đặc biệt là các dạng có mức dư thừa thông tin cao như dữ liệu ảnh màu tĩnh và động, dữ liệu âm thanh và thậm chí cả dữ liệu văn bản Dữ liệu ẩn có thể có nhiều định dạng, nó có thể là một chuỗi ký tự đơn giản hoặc một tập tin Word hoặc Excel
1.2.1 Giấu tin trong ảnh
Hiện nay giấu thông tin trong ảnh chiếm tỷ lệ lớn nhất trong các chương trình ứng dụng, các phần mềm, hệ thống giấu tin trong đa phương tiện bởi lượng thông tin được trao đổi bằng ảnh là rất lớn và hơn nữa, giấu thông tin trong ảnh cũng đóng vai trò hết sức quan trọng trong hầu hết các ứng dụng bảo vệ an toàn thông tin như: xác thực thông tin, xác định xuyên tạc thông tin, bảo vệ bản quyền tác giả…Thông tin sẽ được giấu cùng với dữ liệu ảnh nhưng chất lượng ảnh ít thay đổi và chẳng ai biết được đằng sau ảnh đó mang những thông tin có ý nghĩa Ngày nay khi ảnh số
Trang 16đã được sử dụng rất phổ biến, giấu thông tin trong ảnh đã đem lại nhiều những ứng dụng quan trọng trên các lĩnh vực trong đời sống xã hội Ví dụ như ở các nước phát triển chữ ký tay đã được số hoá và lưu trữ sử dụng như là hồ sơ cá nhân của các dịch vụ ngân hàng tài chính
Phần mềm WinWord của Microsoft cũng cho phép người d ng lưu trữ chữ ký trong ảnh nhị phân rồi gắn vào vị trí nào đó trong file văn bản để đảm bảo tính an toàn của thông tin
1.2.2 Giấu tin trong audio
Giấu thông tin trong audio mang những đặc điểm riêng khác với giấu thông tin trong các đối tượng đa phương tiện khác Một trong những yêu cầu cơ bản của giấu tin là đảm bảo tính chất ẩn của thông tin được giấu đồng thời không làm ảnh hưởng đến chất lượng của dữ liệu Để đảm bảo yêu cầu này ta lưu ý rằng kỹ thuật giấu thông tin trong ảnh phụ thuộc vào hệ thống thị giác của con người – HSV (Human Vision System) còn kỹ thuật giấu thông tin trong audio lại phụ thuộc vào hệ thống thính giác HAS (Human Auditory System)
Một vấn đề khó khăn ở đây là hệ thống thính giác của con người nghe được các tín hiệu ở các giải tần rộng và công suất lớn nên đã gây khó dễ đối với các phương pháp giấu tin trong audio Nhưng tai con người lại kém trong việc phát hiện sự khác biệt của các giải tần và công suất, có nghĩa là các âm thanh to, cao tần có thể che giấu được các âm thanh nhỏ thấp một cách dễ dàng
Vấn đề khó khăn thứ hai đối với giấu tin trong audio là kênh truyền tin, kênh truyền hay băng thông chậm sẽ ảnh hưởng đến chất lượng thông tin sau khi giấu Giấu thông tin trong audio đòi hỏi yêu cầu rất cao về tính đồng bộ và tính an toàn của thông tin Các phương pháp giấu thông tin trong audio đều lợi dụng điểm yếu trong hệ thống thính giác của con người
1.2.3 Giấu tin trong video
Cũng giống như giấu thông tin trong ảnh hay trong audio, giấu tin trong video cũng được quan tâm và được phát triển mạnh mẽ cho nhiều ứng dụng như điều khiển truy cập thông tin, nhận thức thông tin, bản quyền tác giả…
Trang 17Một phương pháp giấu tin trong video được đưa ra bởi Cox là phương pháp phân bố đều Ý tưởng cơ bản của phương pháp là phân phối thông tin giấu dàn trải theo tần số của dữ liệu gốc Nhiều nhà nghiên cứu đã d ng những hàm cosin riêng
và các hệ số truyền sóng riêng để giấu tin Trong các thuật toán khởi nguồn thì thường các kỹ thuật cho phép giấu các ảnh vào trong video nhưng thời gian gần đây các kỹ thuật cho phép giấu cả âm thanh và hình ảnh vào video
1.2.4 Giấu thông tin trong văn bản dạng Text
Giấu tin trong văn bản dạng text khó thực hiện hơn do có ít các thông tin dư thừa, để làm được điều này người ta phải khéo léo khai thác các dư thừa tự nhiên của ngôn ngữ Một cách khác là tận dụng các định dạng văn bản (mã hoá thông tin vào khoảng cách giữa các từ hay các dòng văn bản)
Kỹ thuật giấu tin đang được áp dụng cho nhiều loại đối tượng chứ không riêng
gì dữ liệu đa phương tiện như ảnh, audio, video Gần đây đã có một số nghiên cứu giấu tin trong cơ sở dữ liệu quan hệ, các gói IP truyền trên mạng, chắc chắn sau này còn tiếp tục phát triển tiếp cho các môi trường dữ liệu số khác
1.3 Các yêu cầu trong một mô hình giấu tin
1.3.1 Tính bền vững
Thể hiện ở khả năng ít thay đổi trước các tấn công bên ngoài như: thay đổi tính chất (thay đổi tần số lấy mẫu, số bit lấy mẫu, thay đổi độ lớn biên độ…) đối với tín hiệu âm thanh, các phép biến đổi affine (dịch, quay, tỉ lệ…), thay đổi chất lượng ảnh (thay đổi hệ màu) đối với tín hiệu ảnh, chuyển đổi định dạng dữ liệu (JPGBMP, GIF PCX, WAV PM3, MPG AVI….) Hiện nay chưa có phương pháp nào có thể đảm bảo được tính chất này một cách tuyệt đối Với từng ứng dụng cụ thể, mức độ yêu cầu của tính chất này thể hiện khác nhau Ví dụ;trong watermarking dễ vỡ chỉ cần thay đổi nhỏ trên đối tượng chứa cũng có thể làm cho đối tượng thông tin mật bị hủy Thông thường thì mức độ yêu cầu tính chất này trong các ứng dụng Watermarking cao hơn các ứng dụng ẩn dữ liệu khác
Trang 181.3.2 Khả năng không bị phát hiện
Tính chất này thể hiện ở khả năng khó bị phát hiện, nghĩa là khó xác định một đối tượng có chứa thông tin mật hay không Để nâng cao khả năng này, hầu hết các phương pháp ẩn dữ liệu dựa trên đặc điểm của hai hệ tri giác của con người: hệ tri giác (HVS) và hệ thính giác (HAS) Đây là hai cơ quan chủ yếu được d ng để đánh giá chất lượng của một tín hiệu Khả năng khó bị phát hiện tín hiệu mật phụ thuộc vào hai yếu tố sau:
Kỹ thuật nhúng: Dữ liệu được nhúng phải phù hợp với đối tượng chứa và thuật
toán nhúng Để thực hiện tốt yêu cầu này, ngoài những kinh nghiệm có trong lĩnh vực ẩn dữ liệu, người thực hiện phải có kiến thức về các loại định dạng tập tin Vì
có thể cùng với một thông tin mật nhưng nó sẽ rất khó bị phát trên đối tượng A nhưng lại quá dễ thấy khi nhúng vào đối tượng B
Kinh nghiệm của kẻ tấn công: Nếu như kẻ tấn công có nhiều kinh nghiệm thì
khả năng phát hiện ra một đối tượng chứa có chứa thông tin mật là không quá khó 1.3.3 Khả năng lưu trữ
Khả năng này thể hiện ở lượng thông tin của thông điệp mật có thể nhúng trong đối tượng chứa Do tính bảo mật nên khả năng lưu trữ luôn bị hạn chế Do đó, trong trường hợp muốn ẩn một thông tin có kích thước tương đối lớn ta thường chia nhỏ ra thành nhiều phần và thực hiện nhúng từng phần
Trong thực tế, khi quyết định chọn phương pháp nhúng nào ta thường lấy ba tiêu chí trên làm cơ sở Tùy thuộc vào từng ứng dụng mà người ta sẽ ưu tiên cho tiêu chuẩn nào hơn Có thể minh họa tiêu chí trên như sau:
Trang 19Hình 1.3 Mối tương quan giữa ba tiêu chí
Để nâng cao hiệu quả người ta còn xem xét một số yêu cầu khác:
1.3.4 Tính bảo mật
Có nhiều cấp độ bảo mật khác nhau nhưng nhìn chung có hai cấp độ chính:
Người dùng hoàn toàn không biết sự tồn tại của thông tin mật
Người dùng biết có thông tin mật nhưng phải có khóa khi truy cập
1.3.5 Khả năng vô hình
Tùy theo mục đích sử dụng, mức độ yêu cầu về tính chất này khác nhau:
Ứng dụng steganography: Thông tin mật được dấu phải tuyệt đối bí
mật, khi đó tiêu chí này được chú ý nhiều
Ứng dụng Watermarking: Trong một số ứng dụng, người dùng có thể
đọc (thấy) thông tin Watermark nhưng không chỉnh sửa được hoặc có những ứng dụng thông tin Watermark được giữ bí mật
1.3.6 Tính trong suốt
Khả năng che đậy sự tồn tại của tín hiệu được nhúng (Watermark) trên tín hiệu gốc trước sự cảm nhận của người d ng thông qua 2 cơ quan thính giác (đối với âm thanh) hoặc thị giác (đối với ảnh)
1.4 Các ứng dụng của lĩnh vực giấu tin
1.4.1 Bảo vệ bản quyền, sở hữu trí tuệ
Đây là ứng dụng cơ bản nhất của kỹ thuật thủy vân số Một thông tin nào đó mang ý nghĩa quyền sở hữu tác giả gọi là thủy vân sẽ được nhúng vào trong các sản
Khả năng lưu trữ
Khả năng không bị phát hiện
Tính bền vững
Bản quyền
Steganograp
hy bảo mật
Steganogr aphy thô
Trang 20phẩm, thủy vân đó chỉ một mình chủ sở hữu hợp pháp các sản phẩm đó và được
d ng làm minh chứng cho bản quyền sản phẩm Giả sử có một sản phẩm dữ liệu dạng đa phương tiện như: ảnh, âm thanh, video và cần được lưu thông trên mạng
Để bảo vệ các sản phẩm chống lại các hành vi lấy cắp hoặc làm nhái cần phải có một kỹ thuật để “dán tem bản quyền” vào sản phẩm này Việc dán tem hay chính là việc nhúng thủy vân cần phải đảm bảo không để lại một ảnh hưởng đáng kể nào đến việc cảm nhận sản phẩm Yêu cầu kỹ thuật đối với ứng dụng này là thủy vân phải tồn tại bền vững c ng với sản phẩm, muốn bỏ thủy vân này mà không được phép của người chủ sở hữu thì chỉ có cách là phá hủy sản phẩm[2]
1.4.2 Xác thực thông tin hay phát hiện giả mạo thông tin
Một tập các thông tin sẽ được giấu trong phương tiện chứa sau đó được sử dụng
để nhận biết dữ liệu trên phương tiện gốc đó có bị thay đổi không Các thủy vân nên được ẩn để tránh được sự tò mò của kẻ th , hơn nữa việc làm giả các thủy vân hợp
lệ hay xuyên tạc thông tin nguồn cũng cần được xem xét Trong các ứng dụng thực
tế, người ta mong muốn tìm được vị trí bị xuyên tạc cũng như phân biệt được các thay đổi Yêu cầu chung đối với ứng dụng này là khả năng giấu thông tin cao và thủy vân không cần bền vững
1.4.3 Giấu vân tay hay dán nhãn
Thủy vân trong những ứng dụng này được sử dụng để nhận diện người gửi hay người nhận của một thông tin nào đó Ví dụ như: các vân khác nhau sẽ được nhúng vào các bản sao khác nhau của thông tin gốc trước khi chuyển cho nhiều người Với những ứng dụng này thì yêu cầu đảm bảo độ an toàn cao cho các thủy vân tránh sự xóa dấu vết trong khi phân phối
1.4.4 Kiểm soát sao chép
Các thủy vân trong những trường hợp này được sử dụng để kiểm soát sao chép đối với các thông tin Các thiết bị phát hiện ra thủy vân thường được gắn sẵn vào trong các hệ thống đọc/ghi Ví dụ như: hệ thống quản lí sao chép DVD đã được ứng dụng ở Nhật Các ứng dụng loại này cũng yêu cầu thủy vân phải được bảo đảm an
Trang 21toàn và cũng sử dụng phương pháp phát hiện thủy vân đã giấu mà không cần thông tin gốc
1.4.5 Giấu tin mật
Các thông tin giấu được trong những trường hợp này càng nhiều càng tốt, việc giải mã để nhận được thông tin cũng không cần phương tiện chứa ban đầu Các yêu cầu mạnh về chống tấn công của kẻ thù không cần thiết lắm, thay vào đó là thông tin giấu phải đảm bảo tính ẩn
1.5 Giới thiệu một số kỹ thuật giấu tin trong âm thanh
1.5.1 Mã hóa LSB (Least Significant Bit)
Phương pháp mã hóa LSB là cách đơn giản nhất để nhúng thông tin vào trong dữ liệu audio Phương pháp này sẽ thay thế bít ít quan trọng nhất (thường là bít cuối) của mỗi mẫu dữ liệu bằng bít thông tin giấu[3] Ví dụ mẫu 8 bít như sau:
Ưu điểm của phương pháp này là dễ cài đặt và cho phép giấu dữ liệu nhiều
Có thể tăng thêm dữ liệu giấu bằng cách dùng hai bít LSB Tuy nhiên cách này cũng làm tăng nhiễu trên đối tượng chứa dẫn đến đối phương dễ phát hiện và thực hiện các tấn công Vì vậy dữ liệu chứa cần phải được chọn trước khi giấu sử dụng phương pháp mã hóa LSB
Để tăng độ an toàn cho kỹ thuật này, ta sử dụng bộ sinh số nguyên ngẫu nhiên để sinh ra vị trí các mẫu được chọn giấu chứ không phải các mẫu liên tục Bộ sinh số này sử dụng một khóa bí mật như là phần tử khởi tạo của bộ sinh số Khóa này được sử dụng trong cả quá trình giấu tin và giải tin Lưu ý là bộ sinh số không tạo ra các giá trị tr ng nhau để tránh trường hợp một vị trí được giấu hai lần
Trang 221.5.2 Mã hóa Parity (Parity Coding)
Thay vì chia dữ liệu thành các mẫu riêng lẻ, phương pháp mã hóa chẵn lẻ chia dữ liệu thành các nhóm mẫu và giấu từng bit thông tin vào trong các nhóm mẫu này Nếu parity bit của nhóm mẫu này không trùng với bit thông tin giấu thì ta tiến hành điều chỉnh một bit nào đó trong nhóm mẫu này Phương pháp này cho ta nhiều
sự lựa chọn hơn khi thay đổi 1 bit và có phần kín đáo hơn so với phương pháp điều chỉnh LSB
Cả hai phương pháp LSB và Parity đều có những hạn chế Do tai người khá nhạy cảm nên những thay đổi trên dữ liệu chứa sẽ sinh nhiễu và người nghe rất dễ nhận ra Một điểm nữa là hai phương pháp này không bền vững và thông tin sẽ bị mất sau khi thực hiện việc lấy mẫu lại Một trong những cách khắc phục là thực hiện việc giấu nhiều lần Tuy nhiên cách này cũng có hạn chế là nó làm tăng thời gian xử lý
1.5.3 Mã hóa Phase (Phase Coding)
Phương pháp mã hóa pha giải quyết được các hạn chế do sinh ra nhiễu của hai phương pháp giấu dữ liệu trên Phương pháp mã hóa pha dựa vào tính chất là các thành phần của pha không gây ảnh hưởng đến hệ thống thính giác của con người như nhiễu Việc giấu tin được thực hiện bằng cách điều chỉnh pha trong phổ pha của dữ liệu số
Hình 1.5 Kỹ thuật mã hóa pha
Quá trình mã hóa pha được chia thành các bước sau:
a Dữ liệu âm thanh gốc được chia thành các segment nhỏ hơn có độ dài bằng chiều dài với thông tin cần giấu
Trang 23b Thực hiện biến đổi Fourier rời rạc DFT trên mỗi đoạn
c Tính độ lệch pha giữa các đoạn kề nhau
d Giá trị chính xác: các pha của các đoạn có thể thay đổi nhưng mối liên hệkhác nhau về pha giữa các segment liên tiếp phải được đảm bảo, vì vậy thông tin giấu chỉ được phép giấu trong vector pha của đoạn đầu tiên Việc điều chỉnh pha của đoạn đầu được áp dụng dựa trên công thức sau:
e Ghép các segment lại và tiến hành DFT ngược để tạo lại dữ liệu âm thanh
Để nhận được tin giấu bằng kỹ thuật này, người nhận phải biết độ dài của segment, sau đó thực hiện DFT để nhận tin
Một yếu điểm của phương pháp này là tỉ lệ dữ liệu thấp do thông tin chỉ được giấu vào các segment đầu tiên Có thể cải thiện bằng cách tăng độ dài segment
sẽ làm cho tin giấu dễphát hiện Có thể cải thiện bằng cách tăng độ dài segment Phương pháp mã hóa pha chỉ thích hợp cho việc giấu lượng nhỏ thông tin
1.5.4 Kỹ thuật trải phổ
Thông thường các file audio được truyền qua các kênh truyền thông, các kênh truyền thông này sẽ tập trung dữ liệu audio trong vùng hẹp của phổ tần số để duy trì năng lượng và tiết kiệm băng thông Các kỹ thuật trải phổ cố gắng trải thông tin mật vào trong phổ tần số của dữ liệu audio càng nhiều càng tốt Nó cũng tương
tự như kỹ thuật LSB là trải ngẫu nhiên thông tin giấu trên toàn bộ file audio Lợi điểm của phương pháp trải phổ là nó bền vững trước một số tấn công Tuy nhiên nó cũng có hạn chế là sinh nhiễu và dễ nhận ra Hai phương pháp trải phổ sử dụng trong giấu tin audio là DSSS (Direct Sequency Spread Spectrum) và FHSS (Frenquency Hopped Spectrum)
1.5.5 Kỹ thuật giấu dựa vào tiếng vang (Echo)
Kỹ thuật giấu dựa vào tiếng vang thực hiện giấu tin bằng cách thêm vào tiếng vang trong tín hiệu gốc Dữ liệu nhúng được giấu bằng cách thay đổi 3 tham
số của tiếng vang: Biên độ ban đầu, tỉ lệ phân rã và độ trễ Khi thời gian giữa tín
Trang 24hiệu gốc và tiếng vang giảm xuống, hai tín hiệu có thể trộn lẫn và người nghe khó
có thể phân biệt giữa hai tín hiệu Số lượng tin giấu có liên quan đến thời gian trễ của tiếng vang và biên độ của nó
Hình 1.6: Kỹ thuật giấu điều chỉnh echo
1.5.6 Kỹ thuật mã hóa (Echo)
Bằng cách dùng thời gian trễ khác nhau giữa tín hiệu gốc và tiếng vang để thể hiện tương ứng giá trị nhị phân 1 hoặc 0, theo cách đó dữ liệu được giấu vào file audio Để giấu nhiều hơn một bít, tín hiệu gốc được chia thành các đoạn ngắn hơn
và mỗi đoạn sau đó có thể được tạo tiếng vang để giấu số bit mong muốn Dữ liệu chứa cuối cùng bao gồm các đoạn được mã hóa độc lập nối lại theo thứ tự chia ban đầu Kỹ thuật giấu tin dựa vào tiếng vang rất hiệu quả trong các file audio chất lượng cao Các file âm thanh chưa làm giảm chất lượng và không có quá nhiều đoạn yên lặng thường dùng kỹ thuật này để giấu tin
Một cách tiếp cận khác là tiến hành mã hóa chuỗi bít theo một cách nào đó giúp ta phát hiện ra lỗi Thay vì giấu trực tiếp L bit vào đối tượng chứa, ta biến đổi chuỗi bit bằng cách bổ sung một số bit vào S nhằm mục đích kiểm tra lỗi
Sample
Sample echo Sample
echo
Độ lệch giấu bit 0
Độ lệch giấu bit 1
Trang 25CHƯƠNG 2: GIẤU DỮ LIỆU TRÊN ÂM THANH
Giấu tin trong audio mang những đặc điểm riêng khác với giấu thông tin trong các đối tượng đa phương tiện khác Các thuật toán Watermarking hầu hết chỉ tập trung nghiên cứu nhiều trên lĩnh vực ảnh Điểm chung của hướng nghiên cứu Watermarking trên âm thanhlà tập trung khai thác khả năng cảm nhận của hệ thính giác người (HAS) Có rất nhiều cách phân loại các kỹ thuật Watermarking trên âm thanh khác nhau dựa trên những tiêu chí, quan điểm khác nhau Theo các nhà nghiên cứu về Watermarking trên âm thanh người ta chia các kỹ thuật Watermarking trên âm thanh thành hai nhóm chính:
-Nhóm có sử dụng tín hiệu gốc trong quá trình rút trích
-Nhóm không cần đến tín hiệu gốc trong quá trình rút trích thông tin
2.1 Mô hình phân loại Watermarking trên âm thanh
Hình 2.1 Phân loại Watermarking trên âm thanh
2.1.1 Nhóm các phương pháp giao thoa tín hiệu gốc
Nhóm phương pháp này còn được gọi là nhóm các phương pháp cần sử dụng tín hiệu gốc trong quá trình rút trích thông tin hay nhóm Nonblind Watermarking Các phương pháp thuộc nhóm này đều cần đến thông tin gốc khi muốn rút trích
Watermarking
trên âm thanh
Giao thoa tín hiệu gốc
Không giao thoa tín hiệu gốc
Mã hóa pha
Điều biến pha
Nhóm các phương pháp trải phổ
Nhóm phương pháp tập đôi
Nhóm phương pháp
sử dụng bản sao Nhóm phương pháp
tự đánh dấu
Trang 26thông tin Tuy nhiên, trong các ứng dụng thực tế nhóm phương pháp này lại tỏ ra không hiệu quả vì phải cần gấp đôi bộ nhớ để lưu trữ cùng một thông tin, cần đến gấp đôi lượng băng thông cho quá trình rút trích thông tin Trong một số trường hợp đặc biệt nhóm phương pháp này lại tỏ ra rất hiệu quả trong việc chứng thực bản quyền Vì vậy, nhóm phương pháp này ít được nghiên cứu và phát triển Một số phương pháp thuộc nhóm này bao gồm: mã hóa pha và điều biến pha[5]
Phương pháp mã hóa pha: Chia chuỗi âm thanh gốc thành các block và
nhúng toàn bộ dữ liệu Watermark vào phổ pha của block đầu tiên Khuyết điểm của phương pháp này là thời gian nạp âm thanh tương đối lâu, trong khi chỉ có block đầu tiên được nhúng thông tin, dữ liệu Watermark không được phân bố đều trên toàn bộ tín hiệu âm thanh, sử dụng tài nguyên không hiệu quả Ngược lại sẽ tránh được việc mất mát thông tin do các thao tác cắt xén và xử lý tín hiệu số
Phương pháp điều biến pha: Dữ liệu Watermark được nhúng vào các tín
hiệu âm thanh bằng cách điều biến pha trên nhiều băng tần độc lập nhau Để đảm bảo không bị cảm nhận, ta thêm điều kiện ràng buộc khi điều chế pha:
, trong đó là pha tín hiệu, z là tỉ lệ Bark, mỗi Bark đại diện cho một criticalband Mỗi giá trị Bark sẽ mang thông tin của một bit Watermark Để tăng tính bền vững ta có thể dùng nhiều Bark để mang thông tin của cùng một bit Watermark
Lượng thông tin nhúng phụ thuộc vào ba thông số: lượng thông tin dư thừa,
số lượng tần số, năng lượng phân phối của tín hiệu gốc Nếu năng lượng của Bark được chọn quá thấp thì ta không nên d ng Bark đó để nhúng thông tin Với tín hiệu
âm thanh được lấy mẫu ở tần số 44.1 kHz khoảng giá trị 0-15kHz (ứng với 0-24 tỉ
lệ Bark) được xem là nhạy cảm khi nhúng Watermark
Ví dụ; nếu 2 Bark mang cùng một bit Watermark, tốc độ dữ liệu Watermark
là (24/2)(44100/214)=32 bps
Trang 272.1.2 Nhóm các phương pháp không giao thoa tín hiệu gốc
Nhóm các phương pháp này còn được gọi là nhóm các phương pháp không cần đến tín hiệu gốc trong quá trình rút trích thông tin hay nhóm Blind Watermarking Các phương pháp thuộc nhóm này không cần đến tín hiệu gốc hay bất kỳ thông tin không phải âm thanh nào khác (trừ khóa mật) khi rút trích mà vẫn
có thể rút trích chính xác thông tin Watermark Nhóm các phương pháp này chỉ cần đến một nửa bộ nhớ lưu trữ và một nửa băng thông để rút trích so với nhóm phương pháp Non-Blind Watermark Theo nhóm tác giả Peter Pan, Huang và Lakhmi Jain[11,] nhóm các phương pháp này được chia ra làm bốn nhóm nhỏ: các phương pháp trải phổ, các phương pháp tập đôi, các phương pháp sử dụng bản sao và nhóm các phương pháp tự đánh dấu
a Nhóm phương pháp trải phổ
Phương pháp trải phổ truyền thống: Dựa trên việc đồng bộ giữa tín
hiệu âm thanh Watermark và dãy chuỗi giả ngẫu nhiên Có rất nhiều các phương pháp trải phổ đã được nhiều nhóm tác giả nghiên cứu (Boney 1996, Cox 1996, Cvejic 2011….) [12], [13] Tuy các phương pháp này rất hay nhưng tốn nhiều thời gian để lọc nhiễu và rất dễ vỡ khi bị tấn công trên miền thời gian
Hình 2.2 Ý tưởng của phương pháp trải phổ truyền thống
Trang 28Ở phương pháp này chuỗi giả ngẫu nhiên được trải đều lên tín hiệu âm thanh
số Các nhiễu băng thông rộng này có thể trải lên miền thời gian, miền tần số hay bất kỳ miền biến đổi nào Các miền biến đổi thường được sử dụng là DCT, DFT, DWT,…Thông điệp Watermark nhị phân v={0, 1} hoặc biến có hai giá trị đối cực nhau b={-1,+1} được điều chế bằng chuỗi giả ngẫu nhiên r(n) được tạo dựa vào khóa mật Watermark sau khi điều chế w(n)=br(n) được lấy tỉ lệ dựa vào mức năng lượng cho phép của tín hiệu âm thanh gốc s(n) Hệ số tỉ lệ α được
d ng để điều chỉnh mối tương quan giữa hai tính chất bền vững và không nghe thấy của Watermark
Watermark sau khi điều chế w(n) có giá trị bằng với r(n) hay không là phụ thuộc vào v=1 hay v=0 Sau đó, tín hiệu đã điều chế này được đưa vào tín hiệu
âm thanh gốc để tạo ra tín hiệu âm thanh Watermark x(n):
x(n)=s(n)+αw(n) Phương pháp dò tìm thông điệp mật thường được sử dụng trong quá trình rút trích là tương quan tuyến tính Do chuỗi giả ngẫu nhiên r(n) đã biết, và có thể tạo dựng lại một khi biết khóa mật, Watermark được dò tìm sử dụng phương pháp đồng bộ giữa x(n) và r(n):
, trong đó, N là kích thước file âm thanh Phương trình trên sinh ta tổng tương quan của hai thành phần sau:
Quá trình tiền xử lý này làm cho số hạng thứ nhất của phương trình trên bị triệt tiêu và chỉ còn lại vế thứ hai Với một ngưỡng cho trước, đầu ra của quá trình dò tìm có dạng:
Trang 29
Hình 2.3 Tiền xử lý tín hiệu âm thanh Watermark
Nhược điểm của phương pháp trải phổ truyền thống là luôn tồn tại xác suất rút trích bị lỗi:
Phương pháp trải phổ cải tiến (ISS): Ý tưởng của phương pháp trải
phổ cải tiến – ISS là việc sử dụng lại kiến thức của bộ mã hóa về tín hiệu đó (hay nói chính xác hơn đó là hình chiếu của dãy tín hiệu trên Watermark) Ta có thể nâng cao hiệu quả làm việc bằng cách điều chế năng lượng của Watermark được thêm vào để bù lại cho phần tín hiệu giao thoa So với phương pháp trải phổ, phương pháp trải phổ cải tiến có biến đổi đôi chút:
, trong đó, là hàm nhúng Watermark
Công thức trên ta thấy phương pháp trải phổ truyền thống là một trường hợp đặc biệt của phương pháp trải phổ cải tiến[10]
Xác suất rút trích bị lỗi là:
Phương pháp trải phổ kết hợp với mô hình thính giác: So với các
phương pháp khác, phương pháp này có khả năng chống tấn công tốt hơn, nhất là
x(n)
Watermarked Audio
r(n) Chuỗi giả ngẫu nhiên
Trang 30kiểu tấn công chuyển đổi sang các dạng âm thanh nén: MP3, WMA,…Đây là phương pháp mà luận văn tập trung nghiên cứu và xây dựng ứng dụng
b Nhóm phương pháp tập đôi (two-set method):
Căn cứ vào những điểm khác nhau giữa hai tập để tạo ra các phương pháp Blind Watermarking Nếu hai tập đó khác nhau ta có thể khẳng định tồn tại Watermark Các phương pháp thống kê Patchwork (Arnold 2000, Bender 1996, Yeo và Kim 2003) [14] đều sử dụng phương pháp này
Phương pháp Patchwork: Sử dụng kỹ thuật thống kê dựa trên giả
thuyết đã có tập dữ liệu lớn Quá trình nhúng thông tin Watermark được tiến hành bằng cách sử dụng một quá trình giả ngẫu nhiên để chèn thêm vào tập tín hiệu âm thanh gốc các thông tin đã được thống kê Phương pháp này thường được thực hiện trên miền biến đổi (Fourier, Wavelet….), giúp làm tăng tính bền vững trước các tấn công Các bước nhúng thông tin được tiến hành tuần tự như sau:
Sử dụng khóa mật để tạo dãy chuỗi giả ngẫu nhiên Sau đó, tạo một tập chỉ
mục I={I 1 ,…,I 2n }, trong đó các phần tử của nó được chọn ngẫu nhiên từ [K1, K2] và
1 ≤ K 1 ≤ K 2 ≤ N Hai tập chỉ mục I0 và I1 cần thiết cho việc biểu diễn các bit Watermark 0 và 1 tương ứng, việc lựa chọn K1 và K2 là yếu tố quyết định thành bại cho quá trình nhúng vì các giá trị này điều khiển sự cân bằng giữa tính bền vững và tính không cảm nhận được
Gọi F={F1,…, FN} là các hệ số biểu diễn cho các giá trị từ tần số thấp nhất đến tần số cao nhất Gọi A=a1,…, an là tập con của F, tương ứng với n phần tử đầu tiên của tập chỉ mục I0 hoặc I1 và B=b1,…., bn là n phần tử cuối, nghĩa là ai=Fi và
bi=Fin+1, với i=1,….,n
Xác định giá trị trung bình mẫu và
Khi đó lỗi mẫu chuẩn:
Vị trí sẽ được xác định:
Trang 31
Các phần tử được chọn ai, bi bằng các phần tử , và thực hiện phép biến đổi DCT ngược
Các bước chính trong quá trình rút trích thông tin:
-Dùng khóa mật tạo lại chuỗi giả ngẫu nhiên, tạo lại tập chỉ mục I0, I1
-Ta thu được hai tập con A1 và B1 từ F={F1,…,FN}, tính lại giá trị trung bình mẫu và lỗi mẫu chuẩn Khi đó ta thu được các tập con A0={a01,…., a0n} và
B0={b01,…, b0n} từ tập chỉ mục I0, A1={a11,….a1n} và B1={b11,…., b1n} từ tập chỉ mục I1 và tính các giá trị trung bình: , , , và các lỗi chuẩn S0, S1 Tính các giá trị thống kê:
; Gọi T2 là giá trị bằng với giá trị lớn hơn trong hai giá trị trên
-So sánh T2 với ngưỡng M, quyết định: nếu T2>M thì Watermark tồn tại
-Khi T2>M, nếu > , bit 0 được nhúng, ngược lại bit 1 được nhúng
Phương pháp điều chỉnh biên độ: Watermark được nhúng bằng
cách thay đổi năng lượng của hai hay ba block Năng lượng của mỗi block kích thước N được xác định:
Nhược điểm của phương pháp này là: Giả sử block A có năng lượng cao hơn nhiều so với block B và bit thông điệp mật m nhúng vào là 0 khi đó sẽ không xảy ra vấn đề gì Ngược lại, ta phải điều chỉnh sao cho năng lượng EA lớn hơn EB Vì khoảng năng lượng giữa hai block chênh lệch nhau lớn Do đó, sau khi chỉnh sửa
Trang 32kết quả đạt được không còn tự nhiên như lúc đầu và rất dễ bị phát hiện Vấn đề này
có thể được giải quyết bằng cách sử dụng đến ba block thay vì sử dụng hai block hoặc có thể sử dụng nhiều hơn (Lie và Chang 2001) [15]
c Nhóm các phương pháp sử dụng bản sao:
Sử dụng chính nội dung của tín hiệu gốc để biểu diễn cho thông tin Watermark Phương pháp ẩn dữ liệu echo là một ví dụ minh họa Phương pháp điều chế bản sao cũng nhúng một phần tín hiệu gốc trên miền tần số để biểu diễn cho thông tin Watermark Vì vậy, phương pháp điều chế bản sao chính là nhúng các bản sao, nghĩa là sử dụng chính nội dung tín hiệu gốc để biểu diễn cho thông tin Watermark Ưu điểm của phương pháp này là chống lại được tấn công kiểu đồng bộ hóa
Phương pháp thay thế bit ít quan trọng nhất (LSB): Đây là một
trong những kỹ thuật được nghiên cứu và ứng dụng sớm nhất trong lĩnh vực ẩn dữ liệu trên âm thanh cũng như trên các định dạng dữ liệu khác Bộ mã hóa sử dụng một tập các mẫu tín hiệu gốc x được chọn ra theo một khóa mật nào đó Sau đó, thực hiện thao tác thay thế trên các bit ít quan trọng nhất để biểu diễn thông tin Watermark Để tăng độ bền vững ta có thể lặp nhiều lần chuỗi thông điệp mật khi nhúng
Ưu điểm của phương pháp này là khả năng lưu trữ lớn, có thể chứa được nhiều thông tin mật Khuyết điểm của nó là dễ bị tấn công, có tính bền vững thấp Tuy nhiên do không phải thực hiện nhiều phép toán phức tạp nên phương pháp này
có thời gian thực hiện rất nhanh, có thể đáp ứng về mặt thời gian thực Đây có thể được xem là thuật toán ẩn dữ liệu cơ bản nhất
Phương pháp echo hiding: Dữ liệu Watermark được nhúng vào một
tín hiệu âm thanh gốc bằng cách thêm vào các echo trên miền thời gian của tín hiệu gốc:
x(n)=s(n)+αs(n-)
Ở một số bài toán đơn giản sẽ chỉ có một echo được thêm vào như công thức trên Tuy nhiên, trong các phương pháp echo cải tiến ta có thể thêm nhiều echo
Trang 33(Bender 1996) [11] Chuỗi thông điệp nhị phân được nhúng vào bằng cách echo tín hiệu gốc trễ một hoặc vài nhịp, 0 mẫu hay 1 mẫu Việc rút trích thông điệp ẩn khi
đó được qui về việc dò tìm ra độ trễ Khái niệm cepstrum sẽ được d ng để dò tìm
ra độ trễ Do biên độ biểu diễn các echo tương đối nhỏ so với tín hiệu gốc gây khó khăn cho quá trình rút trích Để giải quyết khó khăn này ta sử dụng phương pháp tự tương đồng cepstrum echo hai lần như sau:
x(n) = s(n) + αs(n-) - αs(n--) Điều này làm giảm độ biến dạng, đồng thời làm tăng độ bền vững Giá trị thường dùng sẽ ít hơn ba hay bốn mẫu Ẩn dữ liệu bằng phương pháp echo sẽ đảm bảo tính không nghe thấy, đôi khi nó còn làm ảnh hưởng cho âm thanh trở nên nghe tốt hơn Nhược điểm của phương pháp này là quá trình dò tìm Watermark khi rút trích rất phức tạp nhất là khi tính toán các giá trị cepstrum Mặt khác, bất kỳ người nào trên lý thuyết cũng có thể dò tìm ra các echo mà không cần biết trước một thông tin gì khác
Ngoài ra phương pháp này rất dễ bị tấn công và rất dễ phá vỡ
Hình 2.4 Ẩn dữ liệu theo phương pháp echo
Phương pháp điều chế bản sao (Replica Modulation): Điều chế bản
sao là một phương pháp ẩn dữ liệu mới bao gồm ba phương pháp chính: dịch tần
số, dịch pha và dịch biên độ Phương pháp dịch tần số gồm một bước chính như sau: biến đổi chuỗi tín hiệu biểu diễn trên miền thời gian s(n) về miền tần số, sao chép một phần nhỏ các thành phần có tần số thấp trong một khoảng xác định nào đó (ví dụ từ 1 kHz đến 4kHz) điều chế chúng (ví dụ dịch đi với hệ số tỉ lệ bằng 20Hz)
Trang 34thêm các giá trị đó ngược trở lại vào tín hiệu gốc và biến đổi ngược về miền thời gian để tạo ra tín hiệu Watermark w(n) Do các tín hiệu được dịch chuyển và cộng trừ ngay trên miền tần số ta gọi phương pháp này là Echo trên miền tần số Tương
tự, phương pháp Echo trên miền thời gian cũng sẽ thực hiện các thao tác này nhưng tiến hành trên miền thời gian và không cần đến các phép biến đổi Tín hiệu sau khi
đã điều chế w(n) được gọi là một bản sao Bản sao này có thể được d ng để làm vật chứa tương tự như chức năng của chuỗi PN trong phương pháp trải phổ Do đó, tín hiệu Watermark có dạng:
x(n) = s(n) + αw(n)
Do các thành phần là bất biến đối với các phép biến đổi, bản sao trên miền tần số có thể được tạo từ tín hiệu Watermark Tín hiệu Watermark (n) có thể được tạo lại từ tín hiệu âm thanh chứa Watermark x(n) bằng cách căn cứ vào quá trình nhúng Khi đó, độ tương đồng giữa x(n) và được tính như sau:
Lớp phương pháp điều chế lượng tử hóa chỉ mục: Bao gồm nhiều
phương pháp khác nhau, gồm hai bước chính Thứ nhất, từ thông tin Watermark ta điều chế một chỉ mục hay một tập chỉ mục biểu diễn cho thông tin Watermark đó Tiếp đến ta lượng tử hóa tín hiệu gốc bằng các bộ lượng tử hóa có được từ tập chỉ mục Lớp phương pháp này có một ưu điểm là ta có thể điều chình được mối tương
quan giữa độ bền vững, độ biến dạng và tỉ lệ thông tin Watermark nhúng được
d Nhóm các phương pháp tự đánh dấu
Watermark được nhúng bằng cách tự đặt các dấu hiệu d ng để xác minh vào trong tín hiệu, nhúng một tín hiệu đặc biệt vào trong âm thanh hoặc thay đổi hình
Trang 35dạng của tín hiệu trên miền thời gian hay miền tần số Nhóm này bao gồm các phương pháp: điều chỉnh tỉ lệ thời gian, dựa trên các đặc trưng quan trọng nhất
Điều chỉnh tỉ lệ thời gian: Được thực hiện bằng cách kéo dài hoặc
rút ngắn tỉ lệ thời gian âm thanh Ý tưởng cơ bản của phương pháp này là thay đổi tỉ
lệ thời gian giữa hai cực (tức là hai giá trị cực đại và cực tiểu) Khoảng giữa hai cực được chia làm N phân đoạn có biên độ bằng nhau Ta thay đổi độ dốc của tín hiệu, tùy thuộc vào bít muốn nhúng Các phương pháp điều chỉnh tỉ lệ thời gian nâng cao (Mansour và Tewfik 2001) cải tiến khả năng chống tấn công chỉnh sửa tỉ lệ thời gian
Hình 2.5 Điều chỉnh tỉ lệ thời gian trong Watermarking
Phương pháp dựa vào các đặc trưng nổi bật: Các đặc trưng nổi bật
là các tín hiệu đặc biệt gây được sự chú ý của người nhúng và người rút trích nhưng vẫn phải đảm bảo cho kẻ tấn công không phát hiện ra Chúng có thể là tự nhiên hay
do chính ta tạo ra Tuy nhiên trong bất kỳ cách nào thì chúng cũng phải bền vững đối với các cách tấn công Các đặc trưng này thường được tạo và rút trích theo kinh nghiệm và rất tốt cho quá trình đồng bộ hóa để dò tìm ra thông tin Watermark trong quá trình rút trích
2.2 Xử lý tín hiệu số
2.2.1 Đại cương về tín hiệu và nhiễu
a) Khái niệm tín hiệu
Tín hiệu (signal) là sự biến thiên của biên độ theo thời gian Biên độ có thể là điện áp, dòng điện, công suất,…nhưng thường được hiểu là điện áp Yếu tố
Trang 36trong tín hiệu mà chúng ta thường nhắc tới là biên độ và thời gian [6] Hình 2.6 là một ví dụ
Hình 2.6 Hình vẽ minh họa cho sóng của một tín hiệu
Phân bố đều là phân bố có hàm mật độ PDF f(x) không đổi trong khoảng biến thiên của biến số x, có giá trị kỳ vọng là =0
Phân bố Gauss là phân bố chuẩn Dạng nhiễu phổ biến nhất trong thực tế
là nhiễu trắng có phân bố Gauss
Hình 2.7 Nhiễu phân bố đều
Trang 37Hình 2.8 Nhiễu phân bố Gaussian
c) Phân loại tín hiệu
Về dạng sóng ta có tín hiệu sin, vuông, xung, răng cưa, v.v
Về tần số là tín hiệu hạ tần, âm tần (AF), cao tần (HF), siêu cao tần (VHF), cực cao tần (UHF), v.v., hoặc đôi khi phát biểu theo bước sóng: sóng rất dài (VLF), sóng dài (LW), sóng trung bình (MW), sóng ngắn (SW), sóng centimet, sóng milimet, sóng vi ba, sóng nanomet, v.v
Về sự liên tục gồm có tín hiệu liên tục (continuous) và gián đoạn (không liên tục) (discontinuous) Liên tục hay gián đoạn là xét về biên độ hoặc thời gian
Về dạng sóng hay sự liên tục, người ta còn phân ra tín hiệu tương tự (analog) hay liên tục thời gian (continuous_time) và tín hiệu số (digital) hay rời rạc thời gian (discrete-time)
Về tính xác định người ta phân ra tín hiệu xác định (deterministic) và tín hiệu ngẫu nhiên (random)
Về tính tuần hoàn có tín hiệu tuần hoàn (periodic) có dạng sóng lặp lại sau mỗi chu kỳ T và tín hiệu không tuần hoàn (aperiodic) là tín hiệu không có sự lặp lại tức không có chu kỳ Nếu sự lặp lại chỉ gần đúng ta có tín hiệu chuẩn tuần hoàn (quasi-periodic)
Trang 38Hình 2.9 Các loại sóng của tín hiệu
Một số lại tín hiệu thông dụng được dùng trong xử lý tính toán là: tín hiệu thực, tín hiệu phức, tín hiệu mũ phức
Tín hiệu thực và tín hiệu phức: Trong tự nhiên các tín hiệu đều là tín hiệu thực, tuy nhiên để thuận tiện cho việc tính toán người ta thường sử dụng tín hiệu phức
Ví dụ:
x(t) = (5-j5) cost Một tín hiệu phức bao gồm phần thực ký hiệu xR(t) và phần ảo ký hiệu x1(t)
x(t) = xR(t) + jxI(t) Trong đó j2
Ví dụ: Xét tín hiệu x(t) = (5-j*5)cost
Trong đó:
Trang 39Phần ảo : xI(t) = -5 cost
Độ lớn : Pha : Trong thực tế người ta thường biểu diễn tín hiệu phức dưới dạng tọa độ cực với
hai trục ảo và thực
Hình 2.10 Biểu diễn tín hiệu theo tọa độ cực
Hai đại lượng thực này có phần thực giống nhau và phần ảo đối nhau Trong toán học chúng được gọi là liên hợp phức ký hiệu là x*(t)
Trang 40Thay vì biểu diễn ở dạng sin hay cosin người ta thường d ng hàm mũ phức hay hàm sin phức để biểu diễn
Phương trình trên được viết:
Có thể biểu diễn tín hiệu sin thực từ tín hiệu sin phức như sau
Cách 1: Lấy thành phần thực của vecto pha:
xR(t) = Re( Acos(0t + 0) + jAsin(0t + 0 = Acos(0t+0)
Cách 2: Dùng vecto pha x(t) và liên hợp phức x*(t)
=
2.2.2 Lấy mẫu và khôi phục tín hiệu
a) Nguyên lý lấy mẫu: Tín hiệu tương tự liên tục thời gian x(t) được tổ hợp chập với tín hiệu lấy mẫu s(t) để tạo ra mẫu gọi là tín hiệu đã lấy mẫu Mô hình lấy mẫu như sau:
Hình 2.12 Mô hình lấy mẫu
Quá trình lấy mẫu sẽ diễn ra liên tục và đều đặn ở khoảng cách thời gian T gọi là thời gian lấy mẫu hay chu kỳ lấy mẫu Tốc độ lấy mẫu: f=1/T
Ví dụ như lấy mẫu tín hiệu sin: