Nghiên cứu kỹ thuật giấu tin trong dữ liệu đa phương tiện

Xác thực thông tin hay phát hiện giả mạo thông tin Một tập các thông tin sẽ được giấu trong phương tiện chứa sau đó được sử dụng để nhận biết dữ liệu trên phương tiện gốc đó có bị thay đ

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -

Nguyễn Thị Mỹ Hạnh

NGHIÊN CỨU KỸ THUẬT GIẤU TIN TRONG DỮ LIỆU ĐA PHƯƠNG TIỆN

Chuyên ngành: Công Nghệ Thông Tin

LUẬN VĂN THẠC SỸ KỸ THUẬT

………

Người hướng dẫn: GS.TS Nguyễn Thanh Thủy

Hà Nội - 2012

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan: Luận văn thạc sĩ này là công trình nghiên cứu thực sự của

cá nhân, được thực hiện trên cơ sở nghiên cứu, tổng hợp lý thuyết dưới sự hướng dẫn của GS.TS Nguyễn Thanh Thủy Các số liệu và những kết quả trong luận văn là trung thực, khách quan và chưa từng được công bố trong bất kỳ một công trình nào khác

Hà nội, ngày tháng năm 2012 Nguyễn Thị Mỹ Hạnh

Trang 3

LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc đến GS.TS Nguyễn Thanh Thủy đã trực tiếp

hướng dẫn, giúp đỡ định hướng để tôi có thể thực hiện và hoàn thành đề tài luận văn

này

Tôi xin bày tỏ lòng biết ơn các thầy cô giáo trong Viện Công Nghệ Thông

Tin và Truyền Thông – Trường Đại Học Bách Khoa Hà Nội đã trang bị cho tôi

những kiến thức quý báu trong suốt quá trình hai năm học tại trường

Cuối cùng, tôi xin cảm ơn gia đình, bạn bè đồng nghiệp trong Khoa Công

Nghệ Thông Tin, trường Cao Đẳng Kinh Tế Công Nghiệp Hà Nội nơi tôi đang công

tác đã luôn động viên khích lệ tôi trong suốt quá trình nghiên cứu và hoàn thành

luận văn

Hà Nội, ngày tháng năm 2012

Nguyễn Thị Mỹ Hạnh

Trang 4

MỤC LỤC

CÁC THUẬT NGỮ VIẾT TẮT 4

DANH MỤC CÁC BẢNG 5

DANH MỤC HÌNH VẼ, ĐỒ THỊ 6

MỞ ĐẦU 8

CHƯƠNG 1: TỔNG QUAN VỀ CÁC KỸ THUẬT GIẤU TIN 10

1.1 Các khái niệm cơ bản về giấu tin 10

1.1.1 Định nghĩa 10

1.1.2 Mục đích giấu tin 10

1.1.3 Mô hình kỹ thuật giấu tin cơ bản 10

1.2 Giấu tin trong dữ liệu đa phương tiện (multimedia) 12

1.2.1 Giấu tin trong ảnh 12

1.2.2 Giấu tin trong audio 13

1.2.3 Giấu tin trong video 13

1.2.4 Giấu thông tin trong văn bản dạng Text 14

1.3 Các yêu cầu trong một mô hình giấu tin 14

1.3.1 Tính bền vững 14

1.3.2 Khả năng không bị phát hiện 15

1.3.3 Khả năng lưu trữ 15

1.3.4 Tính bảo mật 16

1.3.5 Khả năng vô hình 16

1.3.6 Tính trong suốt 16

1.4 Các ứng dụng của lĩnh vực giấu tin 16

1.4.1 Bảo vệ bản quyền, sở hữu trí tuệ 16

1.4.2 Xác thực thông tin hay phát hiện giả mạo thông tin 17

1.4.3 Giấu vân tay hay dán nhãn 17

Trang 5

1.4.4 Kiểm soát sao chép 17

1.4.5 Giấu tin mật 18

1.5 Giới thiệu một số kỹ thuật giấu tin trong âm thanh 18

1.5.1 Mã hóa LSB (Least Significant Bit) 18

1.5.2 Mã hóa Parity (Parity Coding) 19

1.5.3 Mã hóa Phase (Phase Coding) 19

1.5.4 Kỹ thuật trải phổ 20

1.5.5 Kỹ thuật giấu dựa vào tiếng vang (Echo) 20

1.5.6 Kỹ thuật mã hóa (Echo) 21

CHƯƠNG 2: GIẤU DỮ LIỆU TRÊN ÂM THANH 22

2.1 Mô hình phân loại Watermarking trên âm thanh 22

2.1.1 Nhóm các phương pháp giao thoa tín hiệu gốc .22

2.1.2 Nhóm các phương pháp không giao thoa tín hiệu gốc .24

2.2 Xử lý tín hiệu số 32

2.2.1 Đại cương về tín hiệu và nhiễu 32

2.2.2 Lấy mẫu và khôi phục tín hiệu 37

2.2.3 Phân tích Fourier 42

2.3 Kỹ thuật LSB (LeastSignificant Bit) 50

2.4 Kỹ thuật trải phổ 53

2.4.1 Mật độ phổ công suất 55

2.4.2 Chuỗi giả ngẫu nhiên 57

2.4.3 Điều chế số dịch pha BPSK 60

2.4.4 Ảnh hưởng của nhiễu trắng trong truyền thông 64

2.4.5 Ảnh hưởng của nhiễu Jammer trong truyền thông 64

2.4.6 Các hệ thống trải chuỗi trực tiếp 67

Trang 6

CHƯƠNG 3: GIẤU DỮ LIỆU TRÊN AUDIO BẰNG PHƯƠNG PHÁP LSB (Least Significant

Bit) 79

3.1 Tổng quan về WAV file 79

3.2 Xây dựng chương trình Demo 81

3.3 Giao diện của chương trình 83

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 86

TÀI LIỆU THAM KHẢO 87

PHỤ LỤC 88

Trang 7

CÁC THUẬT NGỮ VIẾT TẮT

Từ

HSV Human Vision System Hệ thị giác của con người

HAS Human Auditory System Hệ thính giác của con người

DVD Digital Versatile Disc

LSB Least Significant Bit Bít ít quan trọng nhất

DFT Discrete Fourier Transform Biến đổi Fourier rời rạc

FFT Fast Fourier Transform Biến đổi Fourier nhanh

DCT Discrete Cosine Transform Biến đổi cô sin rời rạc

DWT Discrete wavelets Transform Biến đổi sóng con rời rạc

PSD Probability Spectral Denscity Mật độ phổ xác suất

PDF Probability Denscity Function Hàm mật độ xác suất

CDMA Code Divesison Multiple Đa thâm nhập phân chia theo mã

BPSK Binary Phase Shift Keying Điều chế khóa chuyển pha cơ số hai QPSK Quandrature Phase Shift Keying Điều chế khóa chuyển pha vuông góc

Trang 8

DANH MỤC CÁC BẢNG

Bảng 2.1: Các thành phần phổ đối xứng nhau qua điểm k=3.5

Bảng 2.2: Phân tích các đoạn chạy của tín hiệu PN

Trang 9

DANH MỤC HÌNH VẼ, ĐỒ THỊ

Hình 1.1: Lược đồ chung cho quá trình giấu tin

Hình 1.2: Lược đồ quá trình giải mã tin mật

Hình 1.3: Mối tương quan đến ba tiêu chí

Hình 1.4: Minh họa kỹ thuật giấu LSB

Hình 1.5: Kỹ thuật mã hóa pha

Hình 1.6: Kỹ thuật giấu điều chỉnh echo

Hình 2.1: Phân loại Watermarking trên Audio

Hình 2.2: Ý tưởng của phương pháp trải phổ truyền thống

Hình 2.3: Tiền xử lý tín hiệu âm thanh Watermark

Hình 2.4: Ẩn dữ liệu theo phương pháp echo

Hình 2.5: Điều chỉnh tỉ lệ thời gian trong Watermarking

Hình 2.6: Hình vẽ minh họa cho sóng của một tín hiệu

Hình 2.7: Nhiễu phân bố đều

Hình 2.8: Nhiễu phân bố Gaussian

Hình 2.9: Các loại sóng của tín hiệu

Hình 2.10: Biểu diễn tín hiệu theo tọa độ cực

Hình 2.11: Liên hợp phức của tín hiệu x(t)

Hình 2.12: Mô hình lấy mẫu

Hình 2.13: Lấy mẫu tín hiệu với các chu kỳ khác nhau

Hình 2.14: Sự trùng lặp phổ

Hình 2.15: Mạch lấy mẫu lý tưởng ở tần số f s

Hình 2.16: Phổ của tín hiệu khi dùng tiền lọc lý tưởng

Hình 2.17: Tiền lọc chống biệt danh thực tế

Hình 2.18: Hệ thống lấy mẫu quá mức và tiêu hủy

Hình 2.19: Tần phổ biên độ của tín hiệu

Hình 2.20: Thành phần thực, thành phần ảo và tần phổ của tín hiệu Hình 2.21: Phổ của sóng vuông

Hình 2.22: Mô hình hệ thống thông tin trải phổ

Trang 10

Hình 2.23:Tín hiệu x(t) và tín hiệu tự tương quan

Hình 2.24: Mật độ công suất phổ của tín hiệu

Hình 2.25: Mạch thanh ghi dịch cơ số 2

Hình 2.26: Hàm tương quan của chuỗi PN

Hình 2.27: Phổ tín hiệu BPSK

Hình 2.28: Tín hiệu trải phổ

Hình 2.29: Mạch giải điều chế BPSK

Hình 2.30: Hệ thống truyền thông trải phổ cơ bản

Hình 2.31: Một jammer toàn phần băng thông

Hình 2.32: Một jammer một phần băng thông

Hình 2.33: Phổ của tín hiệu BPSK

Hình 2.34: Phổ của tín hiệu BPSK sau khi trải

Hình 2.35: Bộ điều biến BPSK truyền thống

Hình 2.36: Bộ điều biến BPSK cải tiến

Hình 2.37: DS/BPSK không mã hóa với tấn công của nhiễu Jammer Hình 2.38: So sánh giá trị của xác suất lỗi Pb với Eb/Nj

Hình 2.39: Các tín hiệu trước khi trải

Hình 2.40: Các tín hiệu sau khi trải

Hình 2.41: Hệ thống lặp mã DS/BPSK

Trang 11

MỞ ĐẦU

1 Lý do chọn đề tài

Sự phát triển mạnh mẽ các hệ thống đa phương tiện dưới kết nối mạng Internet dẫn đến nhu cầu bảo vệ bản quyền cho các phương tiện dữ liệu số như: các bức ảnh, file âm thanh, video clip v.v…Việc bảo vệ bản quyền bao gồm xác nhận bản quyền tác giả và nhận biết sao chép bất hợp pháp các dữ liệu số này

Sau khi nghiên cứu một số tài liệu liên quan đến lĩnh vực giấu tin và các kỹ thuật giấu tin trong môi trường đa phương tiện, được sự đồng ý, động viên của thầy

hướng dẫn tôi đã chọn đề tài “Nghiên cứu kỹ thuật giấu tin trong dữ liệu đa

phương tiện” làm đề tài nghiên cứu cho luận văn cao học của mình

2 Lịch sử nghiên cứu

Về mặt lý thuyết đề tài tiếp cận một hướng nghiên cứu mới trong lĩnh vực an toàn và bảo mật thông tin, đặc biệt là các thông tin được truyền trên các kênh truyền thông công cộng cần bảo vệ bản quyền Đề tài trình bày lý thuyết về các kỹ thuật giấu tin trong môi trường âm thanh theo hai hướng phát triển là Steganography và Watermarking

Về mặt thực tiễn: với việc triển khai thực hiện chương trình, đề tài này có thể ứng dụng trong việc bảo vệ bản quyền của một đĩa nhạc chống các sai lệch thông tin trong âm thanh

3 Mục đích nghiên cứu của luận văn ( đối tượng và phạm vi nghiên cứu)

Mục đích của luận văn là nghiên cứu hệ thống lý thuyết liên quan đến việc giấu tin Tìm hiểu các kỹ thuật giấu tin thuộc hai hướng phát triển là Steganography

và Watermarking Luận văn tập trung nghiên cứu hai kỹ thuật giấu tin trong âm thanh là kỹ thuật LSB (Least Significant Bit) và kỹ thuật trải phổ Trên cơ sở nghiên cứu lý thuyết đó, tác giả sẽ triển khai cài đặt chương trình ứng dụng giấu tin trong file âm thanh bằng kỹ thuật LSB

4 Tóm tắt

Luận văn được phân làm ba chương Chương một trình bày tổng quan về kỹ thuật giấu tin cơ bản, giới thiệu một số kỹ thuật giấu tin trong môi trường đa

Trang 12

phương tiện, ứng dụng của lĩnh vực giấu tin và một số yêu cầu trong một mô hình giấu tin

Chương hai trình bày phương pháp giấu dữ liệu cụ thể là kỹ thuật mã hóa LSB và kỹ thuật trải phổ Bên cạnh đó tìm hiểu mô hình phân loại Watermarking trên âm thanh

Chương ba xây dựng chương trình giấu tin trên âm thanh bằng kỹ thuật mã hóa LSB

5 Phương pháp nghiên cứu

Trong quá trình nghiên cứu tác giả đã phân tích, tổng hợp lý thuyết từ đó xây dựng ứng dụng giấu tin trong âm thanh bằng kỹ thuật mã hóa LSB

Trang 13

CHƯƠNG 1: TỔNG QUAN VỀ CÁC KỸ THUẬT GIẤU TIN

1.1 Các khái niệm cơ bản về giấu tin

1.1.1 Định nghĩa

Giấu tin là một kỹ thuật giấu hoặc nhúng một lượng thông tin số nào đó vào trong một đối tượng dữ liệu số [1]

Nhìn chung một bài toán ẩn dữ liệu gồm 2 quá trình:

-Nhúng dữ liệu (hay còn gọi là mã hóa) -Rút trích dữ liệu (hay còn gọi là giải mã) 1.1.2 Mục đích giấu tin

- Bảo mật cho những dữ liệu được giấu

- Bảo đảm an toàn (bảo vệ bản quyền) cho chính các đối tượng chứa dữ liệu giấu trong đó

Có thể thấy hai mục đích này hoàn toàn trái ngược nhau và dần phát triển thành hai lĩnh vực với những yêu cầu và tính chất khác nhau

Hai lĩnh vực chính của kỹ thuật giấu thông tin:

- Giấu tin mật(Steganography)

- Thuỷ vân số(Watermarking)

Kỹ thuật giấu thông tin bí mật (Steganography): với mục đích đảm bảo an toàn

và bảo mật thông tin, tập trung vào các kỹ thuật giấu tin để có thể giấu được nhiều thông tin nhất Thông tin mật được giấu kỹ trong một đối tượng khác sao cho người khác không phát hiện được

Kỹ thuật giấu thông tin theo kiểu đánh giấu (watermarking) để bảo vệ bản quyền của đối tượng chứa thông tin, tập trung đảm bảo một số các yêu cầu như tính bền vững… đây là ứng dụng cơ bản nhất của kỹ thuật thuỷ vân số

1.1.3 Mô hình kỹ thuật giấu tin cơ bản

Giấu thông tin vào phương tiện chứa và tách lấy thông tin là hai quá trình trái ngược nhau và có thể mô tả qua sơ đồ khối của hệ thống như hình1.1

Trang 14

Hình 1.1 Lược đồ chung cho quá trình giấu tin

Trong đó phương tiện chứa tin bao gồm: văn bản, hình ảnh, âm thanh, video…Thông tin cần giấu tùy theo mục đích của người sử dụng Thông tin được giấu vào trong phương tiện chứa tin nhờ một bộ nhúng Bộ nhúng là những chương trình thực hiện theo những thuật toán để giấu tin và được thực hiện với một khóa bí mật giống như trong một số hệ mật mã Đầu ra của quá trình nhúng tin là phương tiện chứa đã được giấu tin Các phương tiện chứa này có thể phân phối trên mạng

Hình 1.2 Lược đồ quá trình giải mã tin mật

Bản tin mật

Bộ nhúng thông tin

Phương tiện chứa

(audio, ảnh, video)

Phương tiện chứa tin được giấu

Phương tiện chứa tin giấu

Khóa

Phân phối

Kiểm định

mã tin

Trang 15

Hình 1.2 mô tả quá trình giải mã thông tin đã được giấu trước đó Đầu vào là phương tiện chứa tin giấu, qua một bộ giải mã tin (tương ứng với bộ nhúng tin) cùng với khóa sẽ được thực hiện việc giải mã thông tin Đầu ra của quá trình là phương tiện chứa tin và thông tin mật đã giấu trước đó Trong trường hợp cần thiết , thông tin lấy ra có thể được xử lý, kiểm định và so sánh với thông tin đã giấu ban đầu

1.2 Giấu tin trong dữ liệu đa phương tiện (multimedia)

Kỹ thuật dữ liệu ẩn đã có lịch sử lâu đời và đã từng được thực hiện với nhiều phương thức từ loại mực đặc biệt không thấy được Loại mực đặc biệt sau khi viết trên giấy và để khô thì không thể đọc được bằng mắt thường, thông tin ẩn chỉ hiện

ra khi hơ nóng hoặc bôi hóa chất đặc biệt lên giấy

Kỹ thuật nhúng dữ liệu ẩn khác với kỹ thuật mật mã, tuy trong nhiều tình huống chúng c ng mục đích (chỉ cho những người có quyền truy cập được phép xem dữ liệu) Một trong những vấn đề của hệ thống mật mã là nó có thể bị tấn công

để bẻ khóa Trong khi đó, kỹ thuật nhúng dữ liệu ẩn tăng cường tính bảo mật nhờ che giấu thông tin truyền tải Vì vậy, kỹ thuật nhúng dữ liệu ẩn thường được d ng

bổ sung với kỹ thuật mật mã Nó có thể d ng để nhúng dữ liệu ẩn vào bất kỳ dạng

dữ liệu số nào, đặc biệt là các dạng có mức dư thừa thông tin cao như dữ liệu ảnh màu tĩnh và động, dữ liệu âm thanh và thậm chí cả dữ liệu văn bản Dữ liệu ẩn có thể có nhiều định dạng, nó có thể là một chuỗi ký tự đơn giản hoặc một tập tin Word hoặc Excel

1.2.1 Giấu tin trong ảnh

Hiện nay giấu thông tin trong ảnh chiếm tỷ lệ lớn nhất trong các chương trình ứng dụng, các phần mềm, hệ thống giấu tin trong đa phương tiện bởi lượng thông tin được trao đổi bằng ảnh là rất lớn và hơn nữa, giấu thông tin trong ảnh cũng đóng vai trò hết sức quan trọng trong hầu hết các ứng dụng bảo vệ an toàn thông tin như: xác thực thông tin, xác định xuyên tạc thông tin, bảo vệ bản quyền tác giả…Thông tin sẽ được giấu cùng với dữ liệu ảnh nhưng chất lượng ảnh ít thay đổi và chẳng ai biết được đằng sau ảnh đó mang những thông tin có ý nghĩa Ngày nay khi ảnh số

Trang 16

đã được sử dụng rất phổ biến, giấu thông tin trong ảnh đã đem lại nhiều những ứng dụng quan trọng trên các lĩnh vực trong đời sống xã hội Ví dụ như ở các nước phát triển chữ ký tay đã được số hoá và lưu trữ sử dụng như là hồ sơ cá nhân của các dịch vụ ngân hàng tài chính

Phần mềm WinWord của Microsoft cũng cho phép người d ng lưu trữ chữ ký trong ảnh nhị phân rồi gắn vào vị trí nào đó trong file văn bản để đảm bảo tính an toàn của thông tin

1.2.2 Giấu tin trong audio

Giấu thông tin trong audio mang những đặc điểm riêng khác với giấu thông tin trong các đối tượng đa phương tiện khác Một trong những yêu cầu cơ bản của giấu tin là đảm bảo tính chất ẩn của thông tin được giấu đồng thời không làm ảnh hưởng đến chất lượng của dữ liệu Để đảm bảo yêu cầu này ta lưu ý rằng kỹ thuật giấu thông tin trong ảnh phụ thuộc vào hệ thống thị giác của con người – HSV (Human Vision System) còn kỹ thuật giấu thông tin trong audio lại phụ thuộc vào hệ thống thính giác HAS (Human Auditory System)

Một vấn đề khó khăn ở đây là hệ thống thính giác của con người nghe được các tín hiệu ở các giải tần rộng và công suất lớn nên đã gây khó dễ đối với các phương pháp giấu tin trong audio Nhưng tai con người lại kém trong việc phát hiện sự khác biệt của các giải tần và công suất, có nghĩa là các âm thanh to, cao tần có thể che giấu được các âm thanh nhỏ thấp một cách dễ dàng

Vấn đề khó khăn thứ hai đối với giấu tin trong audio là kênh truyền tin, kênh truyền hay băng thông chậm sẽ ảnh hưởng đến chất lượng thông tin sau khi giấu Giấu thông tin trong audio đòi hỏi yêu cầu rất cao về tính đồng bộ và tính an toàn của thông tin Các phương pháp giấu thông tin trong audio đều lợi dụng điểm yếu trong hệ thống thính giác của con người

1.2.3 Giấu tin trong video

Cũng giống như giấu thông tin trong ảnh hay trong audio, giấu tin trong video cũng được quan tâm và được phát triển mạnh mẽ cho nhiều ứng dụng như điều khiển truy cập thông tin, nhận thức thông tin, bản quyền tác giả…

Trang 17

Một phương pháp giấu tin trong video được đưa ra bởi Cox là phương pháp phân bố đều Ý tưởng cơ bản của phương pháp là phân phối thông tin giấu dàn trải theo tần số của dữ liệu gốc Nhiều nhà nghiên cứu đã d ng những hàm cosin riêng

và các hệ số truyền sóng riêng để giấu tin Trong các thuật toán khởi nguồn thì thường các kỹ thuật cho phép giấu các ảnh vào trong video nhưng thời gian gần đây các kỹ thuật cho phép giấu cả âm thanh và hình ảnh vào video

1.2.4 Giấu thông tin trong văn bản dạng Text

Giấu tin trong văn bản dạng text khó thực hiện hơn do có ít các thông tin dư thừa, để làm được điều này người ta phải khéo léo khai thác các dư thừa tự nhiên của ngôn ngữ Một cách khác là tận dụng các định dạng văn bản (mã hoá thông tin vào khoảng cách giữa các từ hay các dòng văn bản)

Kỹ thuật giấu tin đang được áp dụng cho nhiều loại đối tượng chứ không riêng

gì dữ liệu đa phương tiện như ảnh, audio, video Gần đây đã có một số nghiên cứu giấu tin trong cơ sở dữ liệu quan hệ, các gói IP truyền trên mạng, chắc chắn sau này còn tiếp tục phát triển tiếp cho các môi trường dữ liệu số khác

1.3 Các yêu cầu trong một mô hình giấu tin

1.3.1 Tính bền vững

Thể hiện ở khả năng ít thay đổi trước các tấn công bên ngoài như: thay đổi tính chất (thay đổi tần số lấy mẫu, số bit lấy mẫu, thay đổi độ lớn biên độ…) đối với tín hiệu âm thanh, các phép biến đổi affine (dịch, quay, tỉ lệ…), thay đổi chất lượng ảnh (thay đổi hệ màu) đối với tín hiệu ảnh, chuyển đổi định dạng dữ liệu (JPGBMP, GIF  PCX, WAV  PM3, MPG  AVI….) Hiện nay chưa có phương pháp nào có thể đảm bảo được tính chất này một cách tuyệt đối Với từng ứng dụng cụ thể, mức độ yêu cầu của tính chất này thể hiện khác nhau Ví dụ;trong watermarking dễ vỡ chỉ cần thay đổi nhỏ trên đối tượng chứa cũng có thể làm cho đối tượng thông tin mật bị hủy Thông thường thì mức độ yêu cầu tính chất này trong các ứng dụng Watermarking cao hơn các ứng dụng ẩn dữ liệu khác

Trang 18

1.3.2 Khả năng không bị phát hiện

Tính chất này thể hiện ở khả năng khó bị phát hiện, nghĩa là khó xác định một đối tượng có chứa thông tin mật hay không Để nâng cao khả năng này, hầu hết các phương pháp ẩn dữ liệu dựa trên đặc điểm của hai hệ tri giác của con người: hệ tri giác (HVS) và hệ thính giác (HAS) Đây là hai cơ quan chủ yếu được d ng để đánh giá chất lượng của một tín hiệu Khả năng khó bị phát hiện tín hiệu mật phụ thuộc vào hai yếu tố sau:

Kỹ thuật nhúng: Dữ liệu được nhúng phải phù hợp với đối tượng chứa và thuật

toán nhúng Để thực hiện tốt yêu cầu này, ngoài những kinh nghiệm có trong lĩnh vực ẩn dữ liệu, người thực hiện phải có kiến thức về các loại định dạng tập tin Vì

có thể cùng với một thông tin mật nhưng nó sẽ rất khó bị phát trên đối tượng A nhưng lại quá dễ thấy khi nhúng vào đối tượng B

Kinh nghiệm của kẻ tấn công: Nếu như kẻ tấn công có nhiều kinh nghiệm thì

khả năng phát hiện ra một đối tượng chứa có chứa thông tin mật là không quá khó 1.3.3 Khả năng lưu trữ

Khả năng này thể hiện ở lượng thông tin của thông điệp mật có thể nhúng trong đối tượng chứa Do tính bảo mật nên khả năng lưu trữ luôn bị hạn chế Do đó, trong trường hợp muốn ẩn một thông tin có kích thước tương đối lớn ta thường chia nhỏ ra thành nhiều phần và thực hiện nhúng từng phần

Trong thực tế, khi quyết định chọn phương pháp nhúng nào ta thường lấy ba tiêu chí trên làm cơ sở Tùy thuộc vào từng ứng dụng mà người ta sẽ ưu tiên cho tiêu chuẩn nào hơn Có thể minh họa tiêu chí trên như sau:

Trang 19

Hình 1.3 Mối tương quan giữa ba tiêu chí

Để nâng cao hiệu quả người ta còn xem xét một số yêu cầu khác:

1.3.4 Tính bảo mật

Có nhiều cấp độ bảo mật khác nhau nhưng nhìn chung có hai cấp độ chính:

 Người dùng hoàn toàn không biết sự tồn tại của thông tin mật

 Người dùng biết có thông tin mật nhưng phải có khóa khi truy cập

1.3.5 Khả năng vô hình

Tùy theo mục đích sử dụng, mức độ yêu cầu về tính chất này khác nhau:

 Ứng dụng steganography: Thông tin mật được dấu phải tuyệt đối bí

mật, khi đó tiêu chí này được chú ý nhiều

 Ứng dụng Watermarking: Trong một số ứng dụng, người dùng có thể

đọc (thấy) thông tin Watermark nhưng không chỉnh sửa được hoặc có những ứng dụng thông tin Watermark được giữ bí mật

1.3.6 Tính trong suốt

Khả năng che đậy sự tồn tại của tín hiệu được nhúng (Watermark) trên tín hiệu gốc trước sự cảm nhận của người d ng thông qua 2 cơ quan thính giác (đối với âm thanh) hoặc thị giác (đối với ảnh)

1.4 Các ứng dụng của lĩnh vực giấu tin

1.4.1 Bảo vệ bản quyền, sở hữu trí tuệ

Đây là ứng dụng cơ bản nhất của kỹ thuật thủy vân số Một thông tin nào đó mang ý nghĩa quyền sở hữu tác giả gọi là thủy vân sẽ được nhúng vào trong các sản

Khả năng lưu trữ

Khả năng không bị phát hiện

Tính bền vững

Bản quyền

Steganograp

hy bảo mật

Steganogr aphy thô

Trang 20

phẩm, thủy vân đó chỉ một mình chủ sở hữu hợp pháp các sản phẩm đó và được

d ng làm minh chứng cho bản quyền sản phẩm Giả sử có một sản phẩm dữ liệu dạng đa phương tiện như: ảnh, âm thanh, video và cần được lưu thông trên mạng

Để bảo vệ các sản phẩm chống lại các hành vi lấy cắp hoặc làm nhái cần phải có một kỹ thuật để “dán tem bản quyền” vào sản phẩm này Việc dán tem hay chính là việc nhúng thủy vân cần phải đảm bảo không để lại một ảnh hưởng đáng kể nào đến việc cảm nhận sản phẩm Yêu cầu kỹ thuật đối với ứng dụng này là thủy vân phải tồn tại bền vững c ng với sản phẩm, muốn bỏ thủy vân này mà không được phép của người chủ sở hữu thì chỉ có cách là phá hủy sản phẩm[2]

1.4.2 Xác thực thông tin hay phát hiện giả mạo thông tin

Một tập các thông tin sẽ được giấu trong phương tiện chứa sau đó được sử dụng

để nhận biết dữ liệu trên phương tiện gốc đó có bị thay đổi không Các thủy vân nên được ẩn để tránh được sự tò mò của kẻ th , hơn nữa việc làm giả các thủy vân hợp

lệ hay xuyên tạc thông tin nguồn cũng cần được xem xét Trong các ứng dụng thực

tế, người ta mong muốn tìm được vị trí bị xuyên tạc cũng như phân biệt được các thay đổi Yêu cầu chung đối với ứng dụng này là khả năng giấu thông tin cao và thủy vân không cần bền vững

1.4.3 Giấu vân tay hay dán nhãn

Thủy vân trong những ứng dụng này được sử dụng để nhận diện người gửi hay người nhận của một thông tin nào đó Ví dụ như: các vân khác nhau sẽ được nhúng vào các bản sao khác nhau của thông tin gốc trước khi chuyển cho nhiều người Với những ứng dụng này thì yêu cầu đảm bảo độ an toàn cao cho các thủy vân tránh sự xóa dấu vết trong khi phân phối

1.4.4 Kiểm soát sao chép

Các thủy vân trong những trường hợp này được sử dụng để kiểm soát sao chép đối với các thông tin Các thiết bị phát hiện ra thủy vân thường được gắn sẵn vào trong các hệ thống đọc/ghi Ví dụ như: hệ thống quản lí sao chép DVD đã được ứng dụng ở Nhật Các ứng dụng loại này cũng yêu cầu thủy vân phải được bảo đảm an

Trang 21

toàn và cũng sử dụng phương pháp phát hiện thủy vân đã giấu mà không cần thông tin gốc

1.4.5 Giấu tin mật

Các thông tin giấu được trong những trường hợp này càng nhiều càng tốt, việc giải mã để nhận được thông tin cũng không cần phương tiện chứa ban đầu Các yêu cầu mạnh về chống tấn công của kẻ thù không cần thiết lắm, thay vào đó là thông tin giấu phải đảm bảo tính ẩn

1.5 Giới thiệu một số kỹ thuật giấu tin trong âm thanh

1.5.1 Mã hóa LSB (Least Significant Bit)

Phương pháp mã hóa LSB là cách đơn giản nhất để nhúng thông tin vào trong dữ liệu audio Phương pháp này sẽ thay thế bít ít quan trọng nhất (thường là bít cuối) của mỗi mẫu dữ liệu bằng bít thông tin giấu[3] Ví dụ mẫu 8 bít như sau:

Ưu điểm của phương pháp này là dễ cài đặt và cho phép giấu dữ liệu nhiều

Có thể tăng thêm dữ liệu giấu bằng cách dùng hai bít LSB Tuy nhiên cách này cũng làm tăng nhiễu trên đối tượng chứa dẫn đến đối phương dễ phát hiện và thực hiện các tấn công Vì vậy dữ liệu chứa cần phải được chọn trước khi giấu sử dụng phương pháp mã hóa LSB

Để tăng độ an toàn cho kỹ thuật này, ta sử dụng bộ sinh số nguyên ngẫu nhiên để sinh ra vị trí các mẫu được chọn giấu chứ không phải các mẫu liên tục Bộ sinh số này sử dụng một khóa bí mật như là phần tử khởi tạo của bộ sinh số Khóa này được sử dụng trong cả quá trình giấu tin và giải tin Lưu ý là bộ sinh số không tạo ra các giá trị tr ng nhau để tránh trường hợp một vị trí được giấu hai lần

Trang 22

1.5.2 Mã hóa Parity (Parity Coding)

Thay vì chia dữ liệu thành các mẫu riêng lẻ, phương pháp mã hóa chẵn lẻ chia dữ liệu thành các nhóm mẫu và giấu từng bit thông tin vào trong các nhóm mẫu này Nếu parity bit của nhóm mẫu này không trùng với bit thông tin giấu thì ta tiến hành điều chỉnh một bit nào đó trong nhóm mẫu này Phương pháp này cho ta nhiều

sự lựa chọn hơn khi thay đổi 1 bit và có phần kín đáo hơn so với phương pháp điều chỉnh LSB

Cả hai phương pháp LSB và Parity đều có những hạn chế Do tai người khá nhạy cảm nên những thay đổi trên dữ liệu chứa sẽ sinh nhiễu và người nghe rất dễ nhận ra Một điểm nữa là hai phương pháp này không bền vững và thông tin sẽ bị mất sau khi thực hiện việc lấy mẫu lại Một trong những cách khắc phục là thực hiện việc giấu nhiều lần Tuy nhiên cách này cũng có hạn chế là nó làm tăng thời gian xử lý

1.5.3 Mã hóa Phase (Phase Coding)

Phương pháp mã hóa pha giải quyết được các hạn chế do sinh ra nhiễu của hai phương pháp giấu dữ liệu trên Phương pháp mã hóa pha dựa vào tính chất là các thành phần của pha không gây ảnh hưởng đến hệ thống thính giác của con người như nhiễu Việc giấu tin được thực hiện bằng cách điều chỉnh pha trong phổ pha của dữ liệu số

Hình 1.5 Kỹ thuật mã hóa pha

Quá trình mã hóa pha được chia thành các bước sau:

a Dữ liệu âm thanh gốc được chia thành các segment nhỏ hơn có độ dài bằng chiều dài với thông tin cần giấu

Trang 23

b Thực hiện biến đổi Fourier rời rạc DFT trên mỗi đoạn

c Tính độ lệch pha giữa các đoạn kề nhau

d Giá trị chính xác: các pha của các đoạn có thể thay đổi nhưng mối liên hệkhác nhau về pha giữa các segment liên tiếp phải được đảm bảo, vì vậy thông tin giấu chỉ được phép giấu trong vector pha của đoạn đầu tiên Việc điều chỉnh pha của đoạn đầu được áp dụng dựa trên công thức sau:

e Ghép các segment lại và tiến hành DFT ngược để tạo lại dữ liệu âm thanh

Để nhận được tin giấu bằng kỹ thuật này, người nhận phải biết độ dài của segment, sau đó thực hiện DFT để nhận tin

Một yếu điểm của phương pháp này là tỉ lệ dữ liệu thấp do thông tin chỉ được giấu vào các segment đầu tiên Có thể cải thiện bằng cách tăng độ dài segment

sẽ làm cho tin giấu dễphát hiện Có thể cải thiện bằng cách tăng độ dài segment Phương pháp mã hóa pha chỉ thích hợp cho việc giấu lượng nhỏ thông tin

1.5.4 Kỹ thuật trải phổ

Thông thường các file audio được truyền qua các kênh truyền thông, các kênh truyền thông này sẽ tập trung dữ liệu audio trong vùng hẹp của phổ tần số để duy trì năng lượng và tiết kiệm băng thông Các kỹ thuật trải phổ cố gắng trải thông tin mật vào trong phổ tần số của dữ liệu audio càng nhiều càng tốt Nó cũng tương

tự như kỹ thuật LSB là trải ngẫu nhiên thông tin giấu trên toàn bộ file audio Lợi điểm của phương pháp trải phổ là nó bền vững trước một số tấn công Tuy nhiên nó cũng có hạn chế là sinh nhiễu và dễ nhận ra Hai phương pháp trải phổ sử dụng trong giấu tin audio là DSSS (Direct Sequency Spread Spectrum) và FHSS (Frenquency Hopped Spectrum)

1.5.5 Kỹ thuật giấu dựa vào tiếng vang (Echo)

Kỹ thuật giấu dựa vào tiếng vang thực hiện giấu tin bằng cách thêm vào tiếng vang trong tín hiệu gốc Dữ liệu nhúng được giấu bằng cách thay đổi 3 tham

số của tiếng vang: Biên độ ban đầu, tỉ lệ phân rã và độ trễ Khi thời gian giữa tín

Trang 24

hiệu gốc và tiếng vang giảm xuống, hai tín hiệu có thể trộn lẫn và người nghe khó

có thể phân biệt giữa hai tín hiệu Số lượng tin giấu có liên quan đến thời gian trễ của tiếng vang và biên độ của nó

Hình 1.6: Kỹ thuật giấu điều chỉnh echo

1.5.6 Kỹ thuật mã hóa (Echo)

Bằng cách dùng thời gian trễ khác nhau giữa tín hiệu gốc và tiếng vang để thể hiện tương ứng giá trị nhị phân 1 hoặc 0, theo cách đó dữ liệu được giấu vào file audio Để giấu nhiều hơn một bít, tín hiệu gốc được chia thành các đoạn ngắn hơn

và mỗi đoạn sau đó có thể được tạo tiếng vang để giấu số bit mong muốn Dữ liệu chứa cuối cùng bao gồm các đoạn được mã hóa độc lập nối lại theo thứ tự chia ban đầu Kỹ thuật giấu tin dựa vào tiếng vang rất hiệu quả trong các file audio chất lượng cao Các file âm thanh chưa làm giảm chất lượng và không có quá nhiều đoạn yên lặng thường dùng kỹ thuật này để giấu tin

Một cách tiếp cận khác là tiến hành mã hóa chuỗi bít theo một cách nào đó giúp ta phát hiện ra lỗi Thay vì giấu trực tiếp L bit vào đối tượng chứa, ta biến đổi chuỗi bit bằng cách bổ sung một số bit vào S nhằm mục đích kiểm tra lỗi

Sample

Sample echo Sample

echo

Độ lệch giấu bit 0

Độ lệch giấu bit 1

Trang 25

CHƯƠNG 2: GIẤU DỮ LIỆU TRÊN ÂM THANH

Giấu tin trong audio mang những đặc điểm riêng khác với giấu thông tin trong các đối tượng đa phương tiện khác Các thuật toán Watermarking hầu hết chỉ tập trung nghiên cứu nhiều trên lĩnh vực ảnh Điểm chung của hướng nghiên cứu Watermarking trên âm thanhlà tập trung khai thác khả năng cảm nhận của hệ thính giác người (HAS) Có rất nhiều cách phân loại các kỹ thuật Watermarking trên âm thanh khác nhau dựa trên những tiêu chí, quan điểm khác nhau Theo các nhà nghiên cứu về Watermarking trên âm thanh người ta chia các kỹ thuật Watermarking trên âm thanh thành hai nhóm chính:

-Nhóm có sử dụng tín hiệu gốc trong quá trình rút trích

-Nhóm không cần đến tín hiệu gốc trong quá trình rút trích thông tin

2.1 Mô hình phân loại Watermarking trên âm thanh

Hình 2.1 Phân loại Watermarking trên âm thanh

2.1.1 Nhóm các phương pháp giao thoa tín hiệu gốc

Nhóm phương pháp này còn được gọi là nhóm các phương pháp cần sử dụng tín hiệu gốc trong quá trình rút trích thông tin hay nhóm Nonblind Watermarking Các phương pháp thuộc nhóm này đều cần đến thông tin gốc khi muốn rút trích

Watermarking

trên âm thanh

Giao thoa tín hiệu gốc

Không giao thoa tín hiệu gốc

Mã hóa pha

Điều biến pha

Nhóm các phương pháp trải phổ

Nhóm phương pháp tập đôi

Nhóm phương pháp

sử dụng bản sao Nhóm phương pháp

tự đánh dấu

Trang 26

thông tin Tuy nhiên, trong các ứng dụng thực tế nhóm phương pháp này lại tỏ ra không hiệu quả vì phải cần gấp đôi bộ nhớ để lưu trữ cùng một thông tin, cần đến gấp đôi lượng băng thông cho quá trình rút trích thông tin Trong một số trường hợp đặc biệt nhóm phương pháp này lại tỏ ra rất hiệu quả trong việc chứng thực bản quyền Vì vậy, nhóm phương pháp này ít được nghiên cứu và phát triển Một số phương pháp thuộc nhóm này bao gồm: mã hóa pha và điều biến pha[5]

 Phương pháp mã hóa pha: Chia chuỗi âm thanh gốc thành các block và

nhúng toàn bộ dữ liệu Watermark vào phổ pha của block đầu tiên Khuyết điểm của phương pháp này là thời gian nạp âm thanh tương đối lâu, trong khi chỉ có block đầu tiên được nhúng thông tin, dữ liệu Watermark không được phân bố đều trên toàn bộ tín hiệu âm thanh, sử dụng tài nguyên không hiệu quả Ngược lại sẽ tránh được việc mất mát thông tin do các thao tác cắt xén và xử lý tín hiệu số

 Phương pháp điều biến pha: Dữ liệu Watermark được nhúng vào các tín

hiệu âm thanh bằng cách điều biến pha trên nhiều băng tần độc lập nhau Để đảm bảo không bị cảm nhận, ta thêm điều kiện ràng buộc khi điều chế pha:

, trong đó là pha tín hiệu, z là tỉ lệ Bark, mỗi Bark đại diện cho một criticalband Mỗi giá trị Bark sẽ mang thông tin của một bit Watermark Để tăng tính bền vững ta có thể dùng nhiều Bark để mang thông tin của cùng một bit Watermark

Lượng thông tin nhúng phụ thuộc vào ba thông số: lượng thông tin dư thừa,

số lượng tần số, năng lượng phân phối của tín hiệu gốc Nếu năng lượng của Bark được chọn quá thấp thì ta không nên d ng Bark đó để nhúng thông tin Với tín hiệu

âm thanh được lấy mẫu ở tần số 44.1 kHz khoảng giá trị 0-15kHz (ứng với 0-24 tỉ

lệ Bark) được xem là nhạy cảm khi nhúng Watermark

Ví dụ; nếu 2 Bark mang cùng một bit Watermark, tốc độ dữ liệu Watermark

là (24/2)(44100/214)=32 bps

Trang 27

2.1.2 Nhóm các phương pháp không giao thoa tín hiệu gốc

Nhóm các phương pháp này còn được gọi là nhóm các phương pháp không cần đến tín hiệu gốc trong quá trình rút trích thông tin hay nhóm Blind Watermarking Các phương pháp thuộc nhóm này không cần đến tín hiệu gốc hay bất kỳ thông tin không phải âm thanh nào khác (trừ khóa mật) khi rút trích mà vẫn

có thể rút trích chính xác thông tin Watermark Nhóm các phương pháp này chỉ cần đến một nửa bộ nhớ lưu trữ và một nửa băng thông để rút trích so với nhóm phương pháp Non-Blind Watermark Theo nhóm tác giả Peter Pan, Huang và Lakhmi Jain[11,] nhóm các phương pháp này được chia ra làm bốn nhóm nhỏ: các phương pháp trải phổ, các phương pháp tập đôi, các phương pháp sử dụng bản sao và nhóm các phương pháp tự đánh dấu

a Nhóm phương pháp trải phổ

 Phương pháp trải phổ truyền thống: Dựa trên việc đồng bộ giữa tín

hiệu âm thanh Watermark và dãy chuỗi giả ngẫu nhiên Có rất nhiều các phương pháp trải phổ đã được nhiều nhóm tác giả nghiên cứu (Boney 1996, Cox 1996, Cvejic 2011….) [12], [13] Tuy các phương pháp này rất hay nhưng tốn nhiều thời gian để lọc nhiễu và rất dễ vỡ khi bị tấn công trên miền thời gian

Hình 2.2 Ý tưởng của phương pháp trải phổ truyền thống

Trang 28

Ở phương pháp này chuỗi giả ngẫu nhiên được trải đều lên tín hiệu âm thanh

số Các nhiễu băng thông rộng này có thể trải lên miền thời gian, miền tần số hay bất kỳ miền biến đổi nào Các miền biến đổi thường được sử dụng là DCT, DFT, DWT,…Thông điệp Watermark nhị phân v={0, 1} hoặc biến có hai giá trị đối cực nhau b={-1,+1} được điều chế bằng chuỗi giả ngẫu nhiên r(n) được tạo dựa vào khóa mật Watermark sau khi điều chế w(n)=br(n) được lấy tỉ lệ dựa vào mức năng lượng cho phép của tín hiệu âm thanh gốc s(n) Hệ số tỉ lệ α được

d ng để điều chỉnh mối tương quan giữa hai tính chất bền vững và không nghe thấy của Watermark

Watermark sau khi điều chế w(n) có giá trị bằng với r(n) hay không là phụ thuộc vào v=1 hay v=0 Sau đó, tín hiệu đã điều chế này được đưa vào tín hiệu

âm thanh gốc để tạo ra tín hiệu âm thanh Watermark x(n):

x(n)=s(n)+αw(n) Phương pháp dò tìm thông điệp mật thường được sử dụng trong quá trình rút trích là tương quan tuyến tính Do chuỗi giả ngẫu nhiên r(n) đã biết, và có thể tạo dựng lại một khi biết khóa mật, Watermark được dò tìm sử dụng phương pháp đồng bộ giữa x(n) và r(n):

, trong đó, N là kích thước file âm thanh Phương trình trên sinh ta tổng tương quan của hai thành phần sau:

Quá trình tiền xử lý này làm cho số hạng thứ nhất của phương trình trên bị triệt tiêu và chỉ còn lại vế thứ hai Với một ngưỡng cho trước, đầu ra của quá trình dò tìm có dạng:

Trang 29

Hình 2.3 Tiền xử lý tín hiệu âm thanh Watermark

Nhược điểm của phương pháp trải phổ truyền thống là luôn tồn tại xác suất rút trích bị lỗi:

 Phương pháp trải phổ cải tiến (ISS): Ý tưởng của phương pháp trải

phổ cải tiến – ISS là việc sử dụng lại kiến thức của bộ mã hóa về tín hiệu đó (hay nói chính xác hơn đó là hình chiếu của dãy tín hiệu trên Watermark) Ta có thể nâng cao hiệu quả làm việc bằng cách điều chế năng lượng của Watermark được thêm vào để bù lại cho phần tín hiệu giao thoa So với phương pháp trải phổ, phương pháp trải phổ cải tiến có biến đổi đôi chút:

, trong đó, là hàm nhúng Watermark

Công thức trên ta thấy phương pháp trải phổ truyền thống là một trường hợp đặc biệt của phương pháp trải phổ cải tiến[10]

Xác suất rút trích bị lỗi là:

 Phương pháp trải phổ kết hợp với mô hình thính giác: So với các

phương pháp khác, phương pháp này có khả năng chống tấn công tốt hơn, nhất là

x(n)

Watermarked Audio

r(n) Chuỗi giả ngẫu nhiên

Trang 30

kiểu tấn công chuyển đổi sang các dạng âm thanh nén: MP3, WMA,…Đây là phương pháp mà luận văn tập trung nghiên cứu và xây dựng ứng dụng

b Nhóm phương pháp tập đôi (two-set method):

Căn cứ vào những điểm khác nhau giữa hai tập để tạo ra các phương pháp Blind Watermarking Nếu hai tập đó khác nhau ta có thể khẳng định tồn tại Watermark Các phương pháp thống kê Patchwork (Arnold 2000, Bender 1996, Yeo và Kim 2003) [14] đều sử dụng phương pháp này

 Phương pháp Patchwork: Sử dụng kỹ thuật thống kê dựa trên giả

thuyết đã có tập dữ liệu lớn Quá trình nhúng thông tin Watermark được tiến hành bằng cách sử dụng một quá trình giả ngẫu nhiên để chèn thêm vào tập tín hiệu âm thanh gốc các thông tin đã được thống kê Phương pháp này thường được thực hiện trên miền biến đổi (Fourier, Wavelet….), giúp làm tăng tính bền vững trước các tấn công Các bước nhúng thông tin được tiến hành tuần tự như sau:

Sử dụng khóa mật để tạo dãy chuỗi giả ngẫu nhiên Sau đó, tạo một tập chỉ

mục I={I 1 ,…,I 2n }, trong đó các phần tử của nó được chọn ngẫu nhiên từ [K1, K2] và

1 ≤ K 1 ≤ K 2 ≤ N Hai tập chỉ mục I0 và I1 cần thiết cho việc biểu diễn các bit Watermark 0 và 1 tương ứng, việc lựa chọn K1 và K2 là yếu tố quyết định thành bại cho quá trình nhúng vì các giá trị này điều khiển sự cân bằng giữa tính bền vững và tính không cảm nhận được

Gọi F={F1,…, FN} là các hệ số biểu diễn cho các giá trị từ tần số thấp nhất đến tần số cao nhất Gọi A=a1,…, an là tập con của F, tương ứng với n phần tử đầu tiên của tập chỉ mục I0 hoặc I1 và B=b1,…., bn là n phần tử cuối, nghĩa là ai=Fi và

bi=Fin+1, với i=1,….,n

Xác định giá trị trung bình mẫu và

Khi đó lỗi mẫu chuẩn:

Vị trí sẽ được xác định:

Trang 31

Các phần tử được chọn ai, bi bằng các phần tử , và thực hiện phép biến đổi DCT ngược

Các bước chính trong quá trình rút trích thông tin:

-Dùng khóa mật tạo lại chuỗi giả ngẫu nhiên, tạo lại tập chỉ mục I0, I1

-Ta thu được hai tập con A1 và B1 từ F={F1,…,FN}, tính lại giá trị trung bình mẫu và lỗi mẫu chuẩn Khi đó ta thu được các tập con A0={a01,…., a0n} và

B0={b01,…, b0n} từ tập chỉ mục I0, A1={a11,….a1n} và B1={b11,…., b1n} từ tập chỉ mục I1 và tính các giá trị trung bình: , , , và các lỗi chuẩn S0, S1 Tính các giá trị thống kê:

; Gọi T2 là giá trị bằng với giá trị lớn hơn trong hai giá trị trên

-So sánh T2 với ngưỡng M, quyết định: nếu T2>M thì Watermark tồn tại

-Khi T2>M, nếu > , bit 0 được nhúng, ngược lại bit 1 được nhúng

 Phương pháp điều chỉnh biên độ: Watermark được nhúng bằng

cách thay đổi năng lượng của hai hay ba block Năng lượng của mỗi block kích thước N được xác định:

Nhược điểm của phương pháp này là: Giả sử block A có năng lượng cao hơn nhiều so với block B và bit thông điệp mật m nhúng vào là 0 khi đó sẽ không xảy ra vấn đề gì Ngược lại, ta phải điều chỉnh sao cho năng lượng EA lớn hơn EB Vì khoảng năng lượng giữa hai block chênh lệch nhau lớn Do đó, sau khi chỉnh sửa

Trang 32

kết quả đạt được không còn tự nhiên như lúc đầu và rất dễ bị phát hiện Vấn đề này

có thể được giải quyết bằng cách sử dụng đến ba block thay vì sử dụng hai block hoặc có thể sử dụng nhiều hơn (Lie và Chang 2001) [15]

c Nhóm các phương pháp sử dụng bản sao:

Sử dụng chính nội dung của tín hiệu gốc để biểu diễn cho thông tin Watermark Phương pháp ẩn dữ liệu echo là một ví dụ minh họa Phương pháp điều chế bản sao cũng nhúng một phần tín hiệu gốc trên miền tần số để biểu diễn cho thông tin Watermark Vì vậy, phương pháp điều chế bản sao chính là nhúng các bản sao, nghĩa là sử dụng chính nội dung tín hiệu gốc để biểu diễn cho thông tin Watermark Ưu điểm của phương pháp này là chống lại được tấn công kiểu đồng bộ hóa

 Phương pháp thay thế bit ít quan trọng nhất (LSB): Đây là một

trong những kỹ thuật được nghiên cứu và ứng dụng sớm nhất trong lĩnh vực ẩn dữ liệu trên âm thanh cũng như trên các định dạng dữ liệu khác Bộ mã hóa sử dụng một tập các mẫu tín hiệu gốc x được chọn ra theo một khóa mật nào đó Sau đó, thực hiện thao tác thay thế trên các bit ít quan trọng nhất để biểu diễn thông tin Watermark Để tăng độ bền vững ta có thể lặp nhiều lần chuỗi thông điệp mật khi nhúng

Ưu điểm của phương pháp này là khả năng lưu trữ lớn, có thể chứa được nhiều thông tin mật Khuyết điểm của nó là dễ bị tấn công, có tính bền vững thấp Tuy nhiên do không phải thực hiện nhiều phép toán phức tạp nên phương pháp này

có thời gian thực hiện rất nhanh, có thể đáp ứng về mặt thời gian thực Đây có thể được xem là thuật toán ẩn dữ liệu cơ bản nhất

 Phương pháp echo hiding: Dữ liệu Watermark được nhúng vào một

tín hiệu âm thanh gốc bằng cách thêm vào các echo trên miền thời gian của tín hiệu gốc:

x(n)=s(n)+αs(n-)

Ở một số bài toán đơn giản sẽ chỉ có một echo được thêm vào như công thức trên Tuy nhiên, trong các phương pháp echo cải tiến ta có thể thêm nhiều echo

Trang 33

(Bender 1996) [11] Chuỗi thông điệp nhị phân được nhúng vào bằng cách echo tín hiệu gốc trễ một hoặc vài nhịp, 0 mẫu hay 1 mẫu Việc rút trích thông điệp ẩn khi

đó được qui về việc dò tìm ra độ trễ  Khái niệm cepstrum sẽ được d ng để dò tìm

ra độ trễ  Do biên độ biểu diễn các echo tương đối nhỏ so với tín hiệu gốc gây khó khăn cho quá trình rút trích Để giải quyết khó khăn này ta sử dụng phương pháp tự tương đồng cepstrum echo hai lần như sau:

x(n) = s(n) + αs(n-) - αs(n--) Điều này làm giảm độ biến dạng, đồng thời làm tăng độ bền vững Giá trị thường dùng sẽ ít hơn ba hay bốn mẫu Ẩn dữ liệu bằng phương pháp echo sẽ đảm bảo tính không nghe thấy, đôi khi nó còn làm ảnh hưởng cho âm thanh trở nên nghe tốt hơn Nhược điểm của phương pháp này là quá trình dò tìm Watermark khi rút trích rất phức tạp nhất là khi tính toán các giá trị cepstrum Mặt khác, bất kỳ người nào trên lý thuyết cũng có thể dò tìm ra các echo mà không cần biết trước một thông tin gì khác

Ngoài ra phương pháp này rất dễ bị tấn công và rất dễ phá vỡ

Hình 2.4 Ẩn dữ liệu theo phương pháp echo

 Phương pháp điều chế bản sao (Replica Modulation): Điều chế bản

sao là một phương pháp ẩn dữ liệu mới bao gồm ba phương pháp chính: dịch tần

số, dịch pha và dịch biên độ Phương pháp dịch tần số gồm một bước chính như sau: biến đổi chuỗi tín hiệu biểu diễn trên miền thời gian s(n) về miền tần số, sao chép một phần nhỏ các thành phần có tần số thấp trong một khoảng xác định nào đó (ví dụ từ 1 kHz đến 4kHz) điều chế chúng (ví dụ dịch đi với hệ số tỉ lệ bằng 20Hz)

Trang 34

thêm các giá trị đó ngược trở lại vào tín hiệu gốc và biến đổi ngược về miền thời gian để tạo ra tín hiệu Watermark w(n) Do các tín hiệu được dịch chuyển và cộng trừ ngay trên miền tần số ta gọi phương pháp này là Echo trên miền tần số Tương

tự, phương pháp Echo trên miền thời gian cũng sẽ thực hiện các thao tác này nhưng tiến hành trên miền thời gian và không cần đến các phép biến đổi Tín hiệu sau khi

đã điều chế w(n) được gọi là một bản sao Bản sao này có thể được d ng để làm vật chứa tương tự như chức năng của chuỗi PN trong phương pháp trải phổ Do đó, tín hiệu Watermark có dạng:

x(n) = s(n) + αw(n)

Do các thành phần là bất biến đối với các phép biến đổi, bản sao trên miền tần số có thể được tạo từ tín hiệu Watermark Tín hiệu Watermark (n) có thể được tạo lại từ tín hiệu âm thanh chứa Watermark x(n) bằng cách căn cứ vào quá trình nhúng Khi đó, độ tương đồng giữa x(n) và được tính như sau:

 Lớp phương pháp điều chế lượng tử hóa chỉ mục: Bao gồm nhiều

phương pháp khác nhau, gồm hai bước chính Thứ nhất, từ thông tin Watermark ta điều chế một chỉ mục hay một tập chỉ mục biểu diễn cho thông tin Watermark đó Tiếp đến ta lượng tử hóa tín hiệu gốc bằng các bộ lượng tử hóa có được từ tập chỉ mục Lớp phương pháp này có một ưu điểm là ta có thể điều chình được mối tương

quan giữa độ bền vững, độ biến dạng và tỉ lệ thông tin Watermark nhúng được

d Nhóm các phương pháp tự đánh dấu

Watermark được nhúng bằng cách tự đặt các dấu hiệu d ng để xác minh vào trong tín hiệu, nhúng một tín hiệu đặc biệt vào trong âm thanh hoặc thay đổi hình

Trang 35

dạng của tín hiệu trên miền thời gian hay miền tần số Nhóm này bao gồm các phương pháp: điều chỉnh tỉ lệ thời gian, dựa trên các đặc trưng quan trọng nhất

 Điều chỉnh tỉ lệ thời gian: Được thực hiện bằng cách kéo dài hoặc

rút ngắn tỉ lệ thời gian âm thanh Ý tưởng cơ bản của phương pháp này là thay đổi tỉ

lệ thời gian giữa hai cực (tức là hai giá trị cực đại và cực tiểu) Khoảng giữa hai cực được chia làm N phân đoạn có biên độ bằng nhau Ta thay đổi độ dốc của tín hiệu, tùy thuộc vào bít muốn nhúng Các phương pháp điều chỉnh tỉ lệ thời gian nâng cao (Mansour và Tewfik 2001) cải tiến khả năng chống tấn công chỉnh sửa tỉ lệ thời gian

Hình 2.5 Điều chỉnh tỉ lệ thời gian trong Watermarking

 Phương pháp dựa vào các đặc trưng nổi bật: Các đặc trưng nổi bật

là các tín hiệu đặc biệt gây được sự chú ý của người nhúng và người rút trích nhưng vẫn phải đảm bảo cho kẻ tấn công không phát hiện ra Chúng có thể là tự nhiên hay

do chính ta tạo ra Tuy nhiên trong bất kỳ cách nào thì chúng cũng phải bền vững đối với các cách tấn công Các đặc trưng này thường được tạo và rút trích theo kinh nghiệm và rất tốt cho quá trình đồng bộ hóa để dò tìm ra thông tin Watermark trong quá trình rút trích

2.2 Xử lý tín hiệu số

2.2.1 Đại cương về tín hiệu và nhiễu

a) Khái niệm tín hiệu

Tín hiệu (signal) là sự biến thiên của biên độ theo thời gian Biên độ có thể là điện áp, dòng điện, công suất,…nhưng thường được hiểu là điện áp Yếu tố

Trang 36

trong tín hiệu mà chúng ta thường nhắc tới là biên độ và thời gian [6] Hình 2.6 là một ví dụ

Hình 2.6 Hình vẽ minh họa cho sóng của một tín hiệu

Phân bố đều là phân bố có hàm mật độ PDF f(x) không đổi trong khoảng biến thiên của biến số x, có giá trị kỳ vọng là =0

Phân bố Gauss là phân bố chuẩn Dạng nhiễu phổ biến nhất trong thực tế

là nhiễu trắng có phân bố Gauss

Hình 2.7 Nhiễu phân bố đều

Trang 37

Hình 2.8 Nhiễu phân bố Gaussian

c) Phân loại tín hiệu

 Về dạng sóng ta có tín hiệu sin, vuông, xung, răng cưa, v.v

 Về tần số là tín hiệu hạ tần, âm tần (AF), cao tần (HF), siêu cao tần (VHF), cực cao tần (UHF), v.v., hoặc đôi khi phát biểu theo bước sóng: sóng rất dài (VLF), sóng dài (LW), sóng trung bình (MW), sóng ngắn (SW), sóng centimet, sóng milimet, sóng vi ba, sóng nanomet, v.v

 Về sự liên tục gồm có tín hiệu liên tục (continuous) và gián đoạn (không liên tục) (discontinuous) Liên tục hay gián đoạn là xét về biên độ hoặc thời gian

 Về dạng sóng hay sự liên tục, người ta còn phân ra tín hiệu tương tự (analog) hay liên tục thời gian (continuous_time) và tín hiệu số (digital) hay rời rạc thời gian (discrete-time)

 Về tính xác định người ta phân ra tín hiệu xác định (deterministic) và tín hiệu ngẫu nhiên (random)

 Về tính tuần hoàn có tín hiệu tuần hoàn (periodic) có dạng sóng lặp lại sau mỗi chu kỳ T và tín hiệu không tuần hoàn (aperiodic) là tín hiệu không có sự lặp lại tức không có chu kỳ Nếu sự lặp lại chỉ gần đúng ta có tín hiệu chuẩn tuần hoàn (quasi-periodic)

Trang 38

Hình 2.9 Các loại sóng của tín hiệu

Một số lại tín hiệu thông dụng được dùng trong xử lý tính toán là: tín hiệu thực, tín hiệu phức, tín hiệu mũ phức

 Tín hiệu thực và tín hiệu phức: Trong tự nhiên các tín hiệu đều là tín hiệu thực, tuy nhiên để thuận tiện cho việc tính toán người ta thường sử dụng tín hiệu phức

Ví dụ:

x(t) = (5-j5) cost Một tín hiệu phức bao gồm phần thực ký hiệu xR(t) và phần ảo ký hiệu x1(t)

x(t) = xR(t) + jxI(t) Trong đó j2

Ví dụ: Xét tín hiệu x(t) = (5-j*5)cost

Trong đó:

Trang 39

Phần ảo : xI(t) = -5 cost

Độ lớn :   Pha :  Trong thực tế người ta thường biểu diễn tín hiệu phức dưới dạng tọa độ cực với

hai trục ảo và thực

Hình 2.10 Biểu diễn tín hiệu theo tọa độ cực

Hai đại lượng thực này có phần thực giống nhau và phần ảo đối nhau Trong toán học chúng được gọi là liên hợp phức ký hiệu là x*(t)

Trang 40

Thay vì biểu diễn ở dạng sin hay cosin người ta thường d ng hàm mũ phức hay hàm sin phức để biểu diễn

Phương trình trên được viết:

Có thể biểu diễn tín hiệu sin thực từ tín hiệu sin phức như sau

Cách 1: Lấy thành phần thực của vecto pha:

xR(t) = Re( Acos(0t + 0) + jAsin(0t + 0 = Acos(0t+0)

Cách 2: Dùng vecto pha x(t) và liên hợp phức x*(t)

=

2.2.2 Lấy mẫu và khôi phục tín hiệu

a) Nguyên lý lấy mẫu: Tín hiệu tương tự liên tục thời gian x(t) được tổ hợp chập với tín hiệu lấy mẫu s(t) để tạo ra mẫu gọi là tín hiệu đã lấy mẫu Mô hình lấy mẫu như sau:

Hình 2.12 Mô hình lấy mẫu

Quá trình lấy mẫu sẽ diễn ra liên tục và đều đặn ở khoảng cách thời gian T gọi là thời gian lấy mẫu hay chu kỳ lấy mẫu Tốc độ lấy mẫu: f=1/T

Ví dụ như lấy mẫu tín hiệu sin:

Định dạng
Số trang	98
Dung lượng	1,77 MB