Một số thử nghiệm các kỹ thuật ẩn dữ liệu trên ảnh tĩnh và mô hình ba chiều
Trang 1CHƯƠNG 3 : LÝ THUYẾT VỀ ẨN DỮ LIỆU 18
3.1 Các yếu tố ảnh hưởng đến quá trình ẩn dữ liệu: 19
3.1.1 Sự thay đổi trên đối tượng chứa là tối thiểu: 19
3.1.2 Mức độ tránh các thao tác biến đổi trên đối tượng chứa: 19
3.1.3 Số lượng dữ liệu nhúng: 20
3.1.4 Sự khó phát hiện bởi tri giác của con người - sự vô hình: 21
Trang 23.3 Các kỹ thuật ẩn dữ liệu trên văn bản: 23
3.3.1 Các kỹ thuật của Brassil: 23
3.3.1.1 Nhúng dữ liệu bằng cách dịch chuyển dòng: 24
3.3.1.2 Nhúng dữ liệu bằng cách dịch chuyển từ: 25
3.3.1.3 Nhúng dữ liệu đặc trưng: 26
3.3.2 Các kỹ thuật của Bender: 26
3.3.2.1 Phương pháp khoảng trắng mở (open space methods): 27
3.3.2.2 Phương pháp cú pháp (syntactic methods): 29
3.3.2.3 Phương pháp ngữ nghĩa (semantic methods): 30
3.4 Các kỹ thuật ẩn dữ liệu trên ảnh tĩnh: 30
3.4.1 Các hướng tiếp cận của các kỹ thuật ẩn dữ liệu trên ảnh tĩnh: 31
3.4.1.1 Hướng tiếp cận chèn vào bit LSB: 31
3.4.1.2 Phương pháp ngụy trang và lọc: 32
3.4.1.3 Các thuật toán và phép biến đổi: 33
3.4.2 Các kỹ thuật ẩn dữ liệu trên ảnh tĩnh: 33
3.4.2.1 Ẩn dữ liệu với tỉ lệ bit thấp: 34
3.4.2.2 Mã hóa với dữ liệu bit cao – Mã hóa affine: 39
3.5 Các kỹ thuật ẩn dữ liệu trên mô hình ba chiều: 53
3.5.1 Lý thuyết của ẩn dữ liệu trên mô hình ba chiều: 53
Trang 33.5.2.1 Thuật giải dựa trên sự biến đổi các đối tượng hình học: 59
3.5.2.2 Thuật giải dựa trên sự thay đổi hình dạng lưới tam giác: 68
CHƯƠNG 4 : CÁC THỬ NGHIỆM TRÊN STEGANOGRAPHY 72
4.5.1 Phát biểu bài toán: 80
4.5.2 Phương án giải quyết: 81
4.6 Steganography trên mô hình ba chiều: 82
4.6.1 Phương pháp áp dụng thuật giải TSQ: 82
4.6.1.1 Phát biểu bài toán: 83
Trang 44.6.1.2 Phương án giải quyết: 83
4.6.2 Phương pháp áp dụng thuật giải TVR: 91
4.6.2.1 Phát biểu bài toán: 91
4.6.2.2 Phương án giải quyết: 91
4.7 Hướng dẫn sử dụng chương trình: 94
CHƯƠNG 5 : KẾT QUẢ THỰC NGHIỆM VÀ HƯỚNG PHÁT TRIỂN 1015.1 Kết quả thực nghiệm: 102
5.1.1 Kết quả thực nghiệm trên ảnh tĩnh: 102
5.1.2 Kết quả thực nghiệm trên mô hình ba chiều: 107
5.2 Các khó khăn khi thực hiện luận văn: 113
5.3 Hướng phát triển: 113
5.3.1 Hướng phát triển trên ảnh tĩnh: 113
5.3.2 Hướng phát triển trên mô hình ba chiều: 113
TÀI LIỆU THAM KHẢO 115
Trang 5Hình 4 Sơ đồ phân cấp các kỹ thuật ẩn dữ liệu 13
Hình 5 Biểu đồ liên hệ giữa số lượng dữ liệu nhúng và tính bền vững 21
Hình 6 Phương pháp khoảng trắng mở khai thác các khoảng trắng sau mỗi dòng.Hình (a) là đoạn văn bản trước khi nhúng, hình (b) là đoạn văn bản sau khinhúng 28
Hình 7 Đoạn văn bản chứa dữ liệu nhúng sử dụng các khoảng trắng sau mỗi từ 29
Hình 17 Các đặc trưng đồng dạng trong tam giác 60
Hình 18 Cấu trúc một MEP 62
Trang 6Hình 21 Quá trình tạo chuỗi tỉ số thể tích 66
Hình 22 Mô tả các bước của thuật giải TSPS 70
Hình 23 Chuỗi tam giác S tương ứng với dữ liệu nhúng "10101101011" Nếu bitcuối cùng là "1" thì tam giác cuối trong dãy là tam giác nét đứt 71
Hình 24 Ma trận K 5x5 trong thuật giải LSB1bit và LSB2bit 81
Hình 25 Ma trận W 5x5 trong thuật giải LSB2bit với r=3 82
Hình 26 Ví dụ về một thao tác chèn bit 85
Hình 27 Tam giác trong không gian hai chiều 87
Hình 28 Biến đổi trên tam giác Mark 88
Hình 29 Biến đổi trên tam giác Subscript, Data1 và Data2 89
Hình 30 Quá trình biến đổi một tứ diện 93
Hình 31 Giao diện ảnh tĩnh 94
Hình 32 Giao diện 3D 95
Hình 33 Hộp thoại tham số của thuật giải LSB1bit 96
Hình 34 Hộp thoại tham số của thuật giải LSB2bit 96
Hình 35 Hộp thoại thông tin của thao tác nhúng dữ liệu trên ảnh 97
Hình 36 Hộp thoại thông tin của thao tác rút trích dữ liệu 98
Hình 37 Hộp thoại thông tin nhúng trên mô hình 3D 98
Hình 38 Hộp thoại thông tin về ảnh 99
Hình 39 Hộp thoại thông tin về mô hình 3D 100
Hình 40 Thử nghiệm thuật giải TSQ trên mô hình con mèo với sự thay đổi trênd 109
Trang 9Chương 1 trình bày tổng quan về nội dung của luận văn, các đối tượng vàcác phạm vi nghiên cứu trong luận văn.
Chương 2 bao gồm khái niệm về ẩn dữ liệu, các ứng dụng của ẩn dữ liệuvà phân loại các kỹ thuật ẩn dữ liệu Đồng thời chương 2 còn giới thiệu một sốhướng nghiên cứu trên văn bản và ảnh tĩnh của các nhà nghiên cứu tại các phòngthí nghiệm nổi tiếng trên thế giới.
Chương 3 đi sâu vào lý thuyết của các kỹ thuật ẩn dữ liệu, giới thiệu mộtsố kỹ thuật ẩn dữ liệu trên văn bản, ảnh tĩnh và mô hình ba chiều Các yếu tốtrong ẩn dữ liệu cũng được đề cập trong chương 3.
Trang 10Các kết quả thực nghiệm không thể thiếu trong một luận văn, kết quả thựcnghiệm này được mô tả trong chương 5 Sự nhận xét trên các kỹ thuật ẩn dữ liệu,các hướng phát triển, cải tiến được tôi đề cập trong phần cuối chương 5.
Và tài liệu tham khảo sẽ kết thúc phần báo cáo của luận văn này.
Trang 11Chương mở đầu trình bày về lý do chọn đề tài này, mục đích của đề tài,các vấn đề, các đối tượng được luận văn đề cập đến, đồng thời nói rõ phạm vinghiên cứu trong đề tài.
Trang 12Với các vấn đề trên, kỹ thuật ẩn dữ liệu (data hiding) còn được gọi là ẩnthông tin (ìnformation hiding) ra đời như một cứu cánh cho các nhà kinh
doanh, phân phối thông tin kỹ thuật số Kỹ thuật ẩn dữ liệu là kỹ thuật đưa mộtlượng dữ liệu có giá trị vào thông tin dạng số cần phổ biến Lượng dữ liệu nàykhông thể dễ dàng bị hủy bỏ, nhưng lại phải dễ dàng được rút trích với các yếutố phù hợp Không chỉ để giải quyết các vấn đề về xâm phạm quyền sở hữu trítuệ, kỹ thuật ẩn dữ liệu còn hỗ trợ một số nhu cầu thiết yếu cho các định dạngthông tin số như ứng dụng nhúng một đoạn chú thích vào một đoạn video, đưamột hình mờ vào một ảnh Một nhiếp ảnh gia có thể giám sát các bức ảnh củamình lưu thông trên mạng bằng cách nhúng dấu hiệu đặc trưng vào các ảnh vànhờ một trình duyệt Web kiểm tra các ảnh lưu thông trên mạng để nhận dạngđược các ảnh của mình nhờ vào dấu hiệu đặc trưng có trong ảnh.
Trang 13Các kỹ thuật ẩn dữ liệu xuất hiện vào thập niên 90 cua thế kỷ XX, và ngày
nay đã trở nên phổ biến Một dạng quan trọng của ẩn dữ liệu, Steganography, là
một dạng của mã hóa, còn được gọi là mã hóa vô hình, nó đã được phát triển rấtlâu, trước Công Nguyên, nhưng việc ứng dụng Steganography trên dữ liệu số chỉ
mới xuất hiện gần đây Steganography là một ứng dụng quan trọng trong truyềnthông mật (anonymous communication), đây là phương pháp truyền thông tin
trên các phương tiện thông tin đại chúng nhưng vẫn bảo đảm được tính bảo mậtcủa thông tin Truyền thông mật được sử dụng chủ yếu trong các hệ thống truyềnthông trong quân đội Ở Việt Nam, các kỹ thuật và ứng dụng của ẩn dữ liệu chưađược sự quan tâm thích đáng của các nhà nghiên cứu Với nhu cầu bảo mậtthông tin, truyền thông các thông điệp mà người trung gian không nhận biết vàkhông thể giải mã, tôi thực hiện luận văn này nhằm thử nghiệm các kỹ thuật ẩndữ liệu nói chung và Steganography nói riêng hiện đang còn là các kỹ thuật khámới tại Việt Nam.
1.2 Mục đích nghiên cứu:
Mục đích nghiên cứu của luận văn này nhằm tìm hiểu và đánh giá các kỹthuật ẩn dữ liệu và đi sâu vào các kỹ thuật Steganography - kỹ thuật hiện nayđang được quan tâm trong lĩnh vực truyền thông mật.
Để minh họa và khảo sát các ưu khuyết điểm của các kỹ thuậtSteganography, tôi tiến hành cài đặt một số kỹ thuật Steganography trên ảnh tĩnhvà mô hình ba chiều.
1.3 Đối tượng nghiên cứu:
Các đối tượng hiện nay đang phổ biến để nhúng dữ liệu vào là văn bản,
Trang 14Luận văn nghiên cứu đi sâu vào các kỹ thuật Steganography trên ảnh tĩnhvà mô hình ba chiều Mặc dù mô hình ba chiều không phải là đối tượng phổ biếntrong ẩn dữ liệu, nhưng là hướng phát triển trong tương lai vì hiện nay đồ họa bachiều rất phát triển và tràn ngập trong các trò chơi, trong kỹ xảo điện ảnh, trongcác đồ họa ứng dụng như trong xây dựng (CAD), kiến trúc, trang trí nội thất Vìthế có thể nói ẩn dữ liệu trong mô hình ba chiều là một hướng sẽ rất phát triểntrong tương lai.
1.4 Phạm vi nghiên cứu:
Đề tài này nghiên cứu các kỹ thuật ẩn dữ liệu truyền thống và hiện đại,tiến hành so sánh các kỹ thuật về các yếu tố như tỉ lệ nhúng, khả năng chống lạicác biến đổi trên đối tượng chứa và khả năng vô hình Do có sự giới hạn trongphạm vi một luận văn, tôi chỉ tiến hành cài đặt thử nghiệm một số kỹ thuật vàđưa ra một số điều chỉnh, phát kiến trên các kỹ thuật.
Trang 15Chương 2 giới thiệu tổng quan về ẩn dữ liệu, phân loại của các kỹ thuật ẩndữ liệu Chương 2 trình bày các hướng nghiên cứu về ẩn dữ liệu của các nhànghiên cứu và các ứng dụng của ẩn dữ liệu.
Trang 16Cho đến gần đây, các nghiên cứu trong truyền thông và trong công nghiệptập trung nhiều vào mật mã, kỹ thuật ẩn dữ liệu ít nhận được sự quan tâm hơn,nhưng điều này đã thay đổi nhanh chóng (bảng 1) và hội nghị đầu tiên về ẩn dữliệu được tổ chức vào năm 1996 Động lực chính của sự quan tâm đến kỹ thuậtẩn dữ liệu là sự lo âu về bản quyền của các nhà sản xuất, phân phối các địnhdạng số Âm thanh, video và nhiều dạng khác đã được tích hợp vào dạng số, việcdễ dàng sao chép các định dạng số có thể dẫn đến một tỉ lệ cao về các bản chépkhông bản quyền Và sự lo lắng lớn nhất tập trung trong công nghiệp xuất bản làâm nhạc, phim ảnh, sách và phần mềm Gần đây đã có các nghiên cứu về
Watermarks (thông điệp về bản quyền) và Fingerprints (số đăng ký ẩn),
Fingerprints nhằm giúp đỡ việc nhận dạng các sản phẩm không bản quyền vàWatermarks nhằm để điều tra, kiểm tra, theo dõi chúng.
Trang 17Bảng 1 Số lượng các ấn phẩm về kỹ thuật ẩn dữ liệu
Ẩn dữ liệu (data hiding) là thao tác nhúng dữ liệu vào các dạng lưu trữ số
hóa như tập tin văn bản, tập tin ảnh nhị phân, các tập tin âm thanh, , nhằm mụcđích nhận diện, chú thích, bảo vệ bản quyền tác giả và truyền thông mật Ẩn dữ
liệu bao gồm hai quá trình: nhúng dữ liệu (embedding) vào đối tượng nhúng và rút trích dữ liệu (extracting) từ đối tượng chứa Quá trình nhúng dữ liệu và quátrình rút trích dữ liệu còn được gọi là quá trình mã hóa và quá trình giải mã Đốitượng nhúng là đối tượng được chọn để nhúng dữ liệu vào, đối tượng nhúng cóký hiệu Cover <data type>, trong đó data type là loại đối tượng (văn bản, ảnhtĩnh, âm thanh, ) Đối tượng chứa là đối tượng sau khi đã được nhúng vào mộtlượng dữ liệu, đối tượng chứa có ký hiệu Stego <data type> Dữ liệu đượcnhúng vào đối tượng chứa có thể là các ký hiệu, thông điệp hay các mẫu(pattern), dữ liệu này được gọi là dữ liệu nhúng Các kỹ thuật ẩn dữ liệu nóichung còn có một hay nhhiều khóa gọi là stego-key, stego-key là tham số điều
khiển quá trình nhúng dữ liệu nhằm hạn chế khả năng dữ liệu nhúng bị phát hiệnhay nhằm lấy lại dữ liệu nhúng từ đối tượng chứa.
Mỗi ứng dụng cụ thể có các ràng buộc riêng trên các yếu tố tác động đếnquá trình nhúng dữ liệu Các yếu tố đó có thể là số lượng dữ liệu nhúng, mức độbất biến của dữ liệu nhúng khi đối tượng chứa bị thao tác bởi các phép biến đổi,mức độ bảo toàn dữ liệu nhúng trong các chuẩn nén mất dữ liệu (như JPEG –
Trang 18liệu nhúng trong ảnh phải vô hình với hệ thống thị giác HVS (Human VisualitySystem), với âm thanh phải không bị hệ thống thính giác HAS (HumanAuditory System) nhận ra Các phương pháp này ngăn chặn hay điều chỉnh việc
truy cập đến dữ liệu nhúng trong tín hiệu chứa, và trên hết là phải bảo đảm dữ
liệu nhúng không bị xâm phạm và có thể phục hồi lại Tín hiệu chứa là tín hiệu,
dữ liệu của đối tượng chứa.
Các ứng dụng của ẩn dữ liệu phụ thuộc vào số lượng dữ liệu được nhúngvà sự cần thiết của việc các dữ liệu nhúng không bị biến đổi qua các thao tác trênđối tượng chứa Bất cứ vị trí nào trong tín hiệu chứa đều có thể là mục tiêu củasự di chuyển hay phá hủy trong các chuẩn nén mất dữ liệu Để có hiệu quả lớn,các kỹ thuật ẩn dữ liệu phải nhúng dữ liệu vào các vị trí mà không bị thuật toánnén xén mất.
Trang 20Dữ liệu được nhúng
Dữ liệu được nhúngChữ cái,
con số,các mẫu, Văn bản,ảnh tĩnh,mô hình 3D,âm thanh,
Quá trình rúttrích dữ liệu
Phân phối qua các phương tiện truyền thôngStego <data type>Cover <data type>
Stego <data type>
Hình 3 Quá trình nhúng và rút trích dữ liệu
Trang 212.3 Phân loại các kỹ thuật ẩn dữ liệu:
Theo B Pflitzmann[1], ẩn dữ liệu được phân chia như sơ đồ sau:
Robust copyrightmarking
Hình 4 Sơ đồ phân cấp các kỹ thuật ẩn dữ liệu
Trong đó mục đích của Steganography là che dấu sự truyền thông giữangười gửi và người nhận, không để người thứ ba biết được, người thứ ba tấncông vào hệ thống thành công khi sự truyền thông đó đã bị phát hiện Copyrightmarking có các yêu cầu thêm về tính bền vững, chống lại các xâm phạm trên đốitượng chứa Dấu hiệu bản quyền không cần thiết phải vô hình, một số các hệthống sử dụng các dấu hiệu trực quan là nhúng các dấu hiệu logo vào sản phẩm.
Thông thường trong Watermarking, đối tượng chứa được gọi là đối tượng
Trang 22Hệ thống Robust copyright marking được chia thành các loại sau:
Hệ thống kín (private system): đầu vào của quá trình rút trích cầnphải có đối tượng gốc Hệ thống bán kín (semi-private system) tương tự như
hệ thống kín nhưng đầu vào của quá trình rút trích không cần đối tượng gốc màphải được cung cấp thêm một số thông tin Hệ thống kín và bán kín thường đượcsử dụng cho mục đích chứng minh quyền sở hữu và điều khiển việc sao chéptrong các ứng dụng như DVD, khi người sử dụng cần được biết nơi nào cho phépsao chép nội dung, nơi nào không Hệ thống kín và bán kín còn được gọi là hệthống non-blind.
Hệ thống công khai (public system): còn được gọi là hệ thống blind,
đầu vào của quá trình rút trích dữ liệu không cần cả đối tượng gốc lẫn dấu hiệuM Hệ thống công khai được sử dụng nhiều hơn hệ thống kín và bán kín, cácthuật giải trong hệ thống công khai còn được sử dụng trong hệ thống kín và bánkín.
Trang 23được dấu hiệu nhưng không thể xóa nó.
2.4 Các ứng dụng của ẩn dữ liệu:
Dưới đây là một số các ứng dụng hấp dẫn của ẩn dữ liệu:
Các cơ quan quân sự và tình báo có nhu cầu truyền thông không bị độtnhập - truyền thông mật Ngay cả trong trường hợp nội dung đã được mã hóa, sựphát hiện một tín hiệu trên một chiến trường hiện đại có thể dẫn đến một cuộctấn công nhanh chóng lên nơi phát ra tín hiệu Vì lý do này, các truyền thôngtrong quân đội sử dụng các kỹ thuật như điều biến phổ dãy rộng hoặc kỹ thuậtnổi tiếng là truyền thông phân tán để làm tín hiệu khó bị kẻ thù phát hiện và ngănchặn.
Các tội phạm cũng sử dụng sự truyền thông không bị đột nhập Các tộiphạm sử dụng các kỹ thuật trên điện thoại di động trả tiền trước, điện thoại diđộng sẽ được thay đổi thường xuyên và được sử dụng để đột nhập vào các tổngđài điện thoại.
Gần đây, các chính phủ sử dụng kỹ thuật ẩn dữ liệu để giới hạn các lờinói tự do trực tuyến trên mạng và mật mã được sử dụng trong dân chúng đãkhuyến khích người dân quan tâm đến quyền tự do phát triển kỹ thuật cho truyềnthông mật trên mạng bao gồm các thư nặc danh và các Web proxy.
Các hệ thống bầu cử điện tử và giao dịch tiền điện tử có nhu cầu vềtruyền thông mật.
Trang 242.5 Các hướng nghiên cứu về ẩn dữ liệu:
Có thể nói ẩn dữ liệu là một vấn đề đang được các nhà khoa học quan tâmrất nhiều, nhất là các trung tâm nghiên cứu và các công ty điện tử, điển hình làphòng nghiên cứu của IBM, phòng nghiên cứu của Panasonic, phòng nghiên cứucủa MIT, Sau đây là một số kỹ thuật đã được áp dụng:
2.5.1 Trên văn bản:
Các nhà nghiên cứu kỹ thuật ẩn dữ liệu trên văn bản nổi bật là Bender củaviện MIT – USA [3][4], ông sử dụng số lượng khoảng trắng giữa các từ, phươngpháp ngữ nghĩa của từ và cú pháp trong câu để nhúng dữ liệu Tuy nhiên, cácphương pháp ẩn dữ liệu trên văn bản của ông không nhúng được nhiều dữ liệu vàdễ gây chú ý cho người khác.
Ngoài ra còn có nhà nghiên cứu Brassil [5] của phòng thí nghiệm Bell,chuyên nghiên cứu về các kỹ thuật ẩn dữ liệu trên văn bản, Brassil sử dụngkhoảng cách giữa các từ, các câu và các đặc trưng của ký tự để nhúng dữ liệu.Các phương pháp này có nhược điểm trong trường hợp văn bản được canh lề vàsắp chữ lại.
2.5.2 Trên ảnh tĩnh:
Adelson[3][4] nghiên cứu một phương pháp ẩn dữ liệu bằng cách khaithác sự nhạy cảm của mắt người đối nghịch với các vùng dữ liệu có tần số xuấthiện cao Thực hiện trên ảnh tĩnh được mã hóa theo hình chóp, Adelson thay thế
Trang 25Stego, một trong những phần mềm đóng gói, chỉ đơn giản là mã hóa dữliệu tại những bit thấp nhất của tín hiệu chứa Phương pháp này cũng gặp phảivấn đề như Adelson, nhưng nó lại chịu sự suy biến chất lượng ảnh hay chấtlượng truyền thông.
Bender bổ sung thêm phương pháp của Adelson bằng cách sử dụng các
hình thái hỗn loạn (chaos) như một phương tiện để mã hóa dữ liệu nhúng,
nhưng nó cũng không cung cấp một cải tiến nào để tránh được các biến đổi trêntín hiệu chứa.
Lippman[3] ẩn dữ liệu trong kênh thành phần màu của của tín hiệu tivi
NTSC (National Television Standard Committee) Phương pháp này sẽ nhúng
một số lượng lớn dữ liệu, nhưng dữ liệu nhúng sẽ bị mất đi sau các qui trình ghilại, nén và chuyển mã.
Những kỹ thuật khác như Hecht’s Data-Glyph[3][4], thêm một mã kẻ sọcvào ảnh, được bố trí để xác định trước một tập hợp các biến đổi hình học Luồng,một kỹ thuật hứa hẹn trong lĩnh vực ẩn dữ liệu, khó bị ngăn chặn và di chuyểndữ liệu, nhưng tín hiệu chứa dễ bị phát hiện và suy biến.
Trang 26Chương 3 trình bày phần lý thuyết của các kỹ thuật của ẩn dữ liệu, giớithiệu một số kỹ thuật ẩn dữ liệu trên văn bản, ảnh tĩnh và mô hình ba chiều, môtả các yếu tố, tham số trong ẩn dữ liệu.
Trang 273.1 Các yếu tố ảnh hưởng đến quá trình ẩn dữ liệu:
Các kỹ thuật ẩn dữ liệu nói chung đều phải đáp ứng một số các yếu tố, cácyếu tố này thay đổi tùy theo từng ứng dụng cụ thể Sau đây là các yếu tố chungcho các kỹ thuật ẩn dữ liệu.
3.1.1 Sự thay đổi trên đối tượng chứa là tối thiểu:
Mục đích của ẩn dữ liệu là nhúng dữ liệu vào đối tượng chứa nhằm cácmục đích riêng cho từng ứng dụng Tuy nhiên, ẩn dữ liệu không thể làm thay đổigiá trị sử dụng của đối tượng chứa vì:
Nếu ứng dụng của ẩn dữ liệu là bảo vệ quyền sở hữu trí tuệ thì đốitượng chứa – tác phẩm của tác giả không thể bị suy biến vì như thế thì tác phẩmđó mất đi giá trị và không cần bảo vệ bản quyền nữa.
Nếu ứng dụng của ẩn dữ liệu là thêm thông tin chú thích thì đối tượngchứa quan trọng hơn, thông tin chú thích chỉ là phần chú thích thêm, vì vậy đốitượng chứa phải bảo đảm được chất lượng.
Nếu ứng dụng ẩn dữ liệu là truyền thông mật, thì sự khác nhau giữa đốitượng gốc và đối tượng chứa phải rất nhỏ để tránh được sự nghi ngờ của ngườikhác.
Yêu cầu cần thiết của kỹ thuật ẩn dữ liệu là đối tượng chứa bắt buộckhông được có sự gia tăng hay giảm đi về dung lượng so với đối tượng gốc.
3.1.2 Mức độ tránh các thao tác biến đổi trên đối tượng chứa:
Còn gọi là tính bền vững của dữ liệu nhúng, đây là mức độ của dữ liệunhúng không bị mất đi khi đối tượng chứa bị biến đổi bởi các thao tác Tính năngnày là bắt buộc với tất cả các ứng dụng của ẩn dữ liệu Tuy nhiên, không có kỹ
Trang 28 Văn bản: dịch chuyển từ, chia lại khoảng cách giữa các từ,
Ảnh tĩnh: các phép biến đổi affine, nhiễu, các phép biến đổi phi hìnhhọc, lọc nhiễu,
Mô hình ba chiều: các phép biến đổi affine, biến đổi hình học, biến đổiphi hình học, sắp xếp lại lưới đa giác,
Âm thanh: lọc nhiễu,
3.1.3 Số lượng dữ liệu nhúng:
Tùy thuộc vào từng ứng dụng cụ thể mà yêu cầu về số lượng dữ liệunhúng là nhiều hay ít Một số ứng dụng chỉ cần nhúng một bit đơn vào đối tượngchứa (ví dụ như ứng dụng đánh dấu đối tượng), một số ứng dụng lại yêu cầu sốlượng dữ liệu nhúng phải lớn (các đoạn chú thích).
Tính năng này luôn tỉ lệ nghịch với tính bền vững của dữ liệu nhúng Mộtkỹ thuật nếu hỗ trợ tính năng bền vững của dữ liệu nhúng cao thì số lượng dữliệu nhúng lại giảm đi đáng kể, và ngược lại nếu nâng cao số lượng dữ liệunhúng thì dữ liệu nhúng đó lại ít có khả năng tránh được các thao tác trên đốitượng chứa, tín hiệu chứa càng bị nhiễu Các kỹ thuật hiện đại đều quan tâm đếnhai tính năng này và muốn đồng thời nâng cao cả hai tính năng này
Biểu đồ của sự liên hệ giữa số lượng dữ liệu nhúng và tính bền vững củadữ liệu nhúng được mô tả trong hình 5.
Trang 293.1.4 Sự khó phát hiện bởi tri giác của con người - sự vô hình:
Tính năng này gần giống với tính năng thay đổi tối thiểu trên đối tượngchứa, tuy nhiên lại có sự khác nhau rõ ràng: một đối tượng chứa có thể thay đổiít nhưng dữ liệu nhúng lại trực quan, ngược lại dữ liệu nhúng có thể khó bị pháthiện trong khi thay đổi trên đối tượng chứa khá nhiều.
Một số ứng dụng không cần tính năng này (ví dụ ứng dụng nhúng các lờichú thích, các logo vào đối tượng chứa), tuy nhiên đối với ứng dụng truyềnthông mật thì đây là một trong số các tính năng quan trọng nhất Steganographyphải bảo đảm không để cho một người trung gian phát hiện, nghi ngờ đối tượngchứa có chứa thông tin thêm vào Đối với Steganography, việc phát hiện có dữliệu nhúng trong đối tượng chứa gây ra một sự thất bại hoàn toàn: người trunggian có thể giải mã thông điệp, làm suy biến thông điệp hay chỉ đơn giản là hủythông điệp đi.
Trong Steganography, tính năng này cùng với hai tính năng số lượng dữ
Trang 303.1.5 Không thể giải mã dữ liệu nhúng từ đối tượng chứa – Tính bảo mật:
Tính năng này đặc biệt quan trọng đối với ứng dụng Steganography, vìmục đích chính của Steganography là không để người thứ ba giải mã được thôngđiệp truyền đi.
Tóm lại: không phải bất kỳ một ứng dụng của ẩn dữ liệu nào cũng phảituyệt đối tuân theo tất cả các tính năng trên Mỗi ứng dụng chỉ quan tâm đặc biệtđến một số tính năng phù hợp với mục đích của ứng dụng đó.
3.2 Các mức độ ảnh hưởng của các yếu tố trong các ứng dụng của ẩndữ liệu:
Sau đây là bảng so sánh các mức độ ảnh hưởng của các yếu tố lên hai loạikỹ thuật phổ biến nhất là Watermarking và Steganography:
Watermarking SteganographySự thay đổi trên đối
tượng chứa
Sự thay đổi phải ít Điềunày nhằm bảo đảm đượcgiá trị sử dụng của đốitượng chứa.
Sự thay đổi cũng phải ít.Nhưng mục đích là nhằmít gây ra sự chú ý, nghingờ.
Tính bền vững của dữliệu nhúng
Càng cao càng tốt Càng cao càng tốt.
Số lượng dữ liệu nhúng Không bắt buộc phảinhiều Ví dụ như đối vớiviệc nhúng một dấu hiệu
Càng nhiều càng tốt.Nhưng đây không hẳn làyếu tố quan trọng nhất.
Trang 31Sự vô hình Không cần thiết Có haidạng dấu hiệu: dấu hiệuvô hình và dấu hiệu trựcquan.
Đây là yếu tố quan trọngđối với ứng dụng này
Khó giải mã dữ liệunhúng
Không hoàn toàn bắtbuộc, một số ứng dụngcho phép người dùng rúttrích dấu hiệu nhưngdấu hiệu không thể bịxoá đi.
Bắt buộc Đây cũng làyếu tố quan trọng Mứcđộ quan trọng cao hơntrong Watermarking.
Bảng 2 So sánh giữa Watermarking và Steganography về các yếu tố
Ta nhận thấy rằng Steganography có các yêu cầu về các tính năng trên rấtkhắc khe, trong khi đó Watermarking có một số tính năng không cần thiết
3.3 Các kỹ thuật ẩn dữ liệu trên văn bản:
3.3.1 Các kỹ thuật của Brassil:
Brassil[5] và một số nhà nghiên cứu khác đã xác định một vấn đề cần giảiquyết là sự phân phối bất hợp pháp các văn bản qua các phương tiện điện tử hiện
Trang 32Kỹ thuật của Brassil là sử dụng một từ mã (có thể là một số nhị phân)được nhúng vào văn bản bằng cách thay đổi các đặc trưng riêng của văn bản.Bằng cách gắn mỗi bit của từ mã vào các đặc trưng của văn bản, ta có thể mã hóatừ mã đó Dạng đặc trưng xác định một phương pháp mã hóa riêng Brassil đưara ba đặc trưng trong văn bản sau :
3.3.1.1 Nhúng dữ liệu bằng cách dịch chuyển dòng:
Trong phương pháp này, các dòng trong văn bản sẽ được dịch chuyển đểnhúng dữ liệu Phương pháp này được áp dụng cho dạng tập tin văn bản hay hìnhảnh của trang văn bản.
Phương pháp này di chuyển mỗi hai dòng của văn bản hoặc lên hoặcxuống 1/300 inch Brassil thấy rằng phương pháp này làm việc đặc biệt tốt, và dữliệu nhúng trong văn bản vẫn được rút trích hoàn chỉnh được, ngay cả sau khivăn bản đã bị sao chép ra 10 lần.
Tuy nhiên, phương pháp này là kỹ thuật ẩn dữ liệu trên văn bản dễ thấynhất đối với người đọc Hơn nữa, phương pháp có thể bị đánh bại sau khi vănbản được đo khoảng cách giữa hai dòng, việc chia khoảng cách giữa hai dòngngẫu nhiên hay đồng nhất đều có thể gây ra nguy hiểm, mất từ mã.
Trang 33Phương pháp thực hiện như sau: với mỗi dòng văn bản, tìm ra các khoảngcách lớn nhất và bé nhất, khoảng cách lớn nhất được giảm xuống một lượng, vàkhoảng cách bé nhất cũng được tăng thêm một lượng như trên, như vậy sẽ giữnguyên chiều dài của dòng văn bản và gây ra ít thay đổi nhận thấy được trên vănbản Nhúng dữ liệu bằng cách dịch chuyển từ ít bị người đọc nhận biết hơnphương pháp dịch chuyển dòng, vì khoảng cách giữa hai từ kế nhau trong mộtdòng thường bị dịch chuyển để hỗ trợ cho sự sắp chữ trong văn bản.
Tuy nhiên, phương pháp dịch chuyển từ có thể bị phát hiện và bị đánh bạibằng hai phương pháp sau:
Nếu một người biết được thuật toán sử dụng trong định dạng sắp xếpchữ văn bản, khoảng cách thật sự giữa hai từ có thể được đo và so sánh vớikhoảng cách trong văn bản gốc Sự khác biệt trong khoảng cách sẽ chứa dữ liệunhúng.
Trang 343.3.1.3 Nhúng dữ liệu đặc trưng:
Đây là phương pháp thứ ba của Brassil Giống như hai phương pháp trên,phương pháp này cũng hỗ trợ cả trên ảnh nhị phân của văn bản hay trên tập tinđịnh dạng văn bản Đặc trưng của văn bản có thể bị thay đổi hay không bị thayđổi phụ thuộc vào từ mã Việc nhúng các bit vào văn bản có thể bằng cách kéodài hay cắt ngắn các nét trên cùng của các kí tự như b, d, h, Trước khi mã hóa,các dòng trên của các kí tự được kéo dài hay cắt ngắn, sau đó sẽ bị thay đổi mộtlần nữa để mã hóa dữ liệu đặc biệt Điều này tránh được sự rút trích dữ liệu côngkhai, vì chiều cao các kí tự trong văn bản gốc không được biết Và dĩ nhiên, quátrình giải mã cần phải có các ảnh gốc.
Phương pháp mã hóa đặc trưng có thể thực hiện trên một lượng dữ liệunhúng lớn, vì một văn bản có nhiều đặc trưng.
Phương pháp này có thể bị đánh bại bằng cách điều chỉnh lại chiều dài cáckí tự theo một giá trị cố định.
3.3.2 Các kỹ thuật của Bender:
Các văn bản ở dạng số rất khó chứa dữ liệu ẩn (trong khi văn bản trên giấythì dễ hơn) Các văn bản ở dạng số ít có các thao tác biến đổi như trên ảnh,nhưng nếu văn bản xuất hiện một từ hay một câu lạ thì dễ dàng bị người đọc pháthiện Bender[3][4] đưa ra ba phương pháp chính sử dụng cho ẩn dữ liệu trên vănbản: (1) phương pháp khoảng trắng mở sử dụng các khoảng trắng không được sử
Trang 353.3.2.1 Phương pháp khoảng trắng mở (open space methods):
Bender đưa ra hai lý do của việc sử dụng khoảng trắng để mã hóa Thứnhất, khi thay đổi số lượng các khoảng trắng thì nghĩa của câu ít bị ảnh hưởng.Thứ hai, người đọc tình cờ sẽ không chú ý đến sự thay đổi của các khoảng trắng.Trong phương pháp này lại có ba phương pháp nhỏ: phương pháp khai tháckhoảng trắng giữa các câu, giữa các từ và giữa các dòng trong các văn bản đượcsắp chữ.
Phương pháp khai thác khoảng trắng giữa các câu: mã hóa một chuỗinhị phân vào văn bản bằng cách đặt một hay hai khoảng trắng sau mỗi kí tự kếtthúc, ví dụ như một câu trong văn xuôi, một dấu chấm phẩy (;) trong ngôn ngữC, Một khoảng trắng mã hóa 0, hai khoảng trắng mã hóa 1 Phương pháp nàykhông hiệu quả, nó cần phải có một văn bản lớn để mã hóa một lượng bit nhỏ(một bit trên một câu tương ứng với tỉ lệ dữ liệu là 1bit/160 byte với giả thuyếtmột câu trung bình có 80 kí tự) Phương pháp này cũng phụ thuộc vào cấu trúccủa văn bản Hầu hết các trình xử lý văn bản đều xử lý khoảng trắng sau mỗicâu.
Phương pháp khai thác khoảng trắng sau mỗi dòng: dữ liệu mã hóa chophép xác định số khoảng trắng sau mỗi dòng Hai khoảng trắng mã hóa một bit,bốn khoảng trắng mã hóa hai bit, tám khoảng trắng mã hóa ba bit, Phươngpháp này có thể thực hiện trên mọi loại văn bản, vì nó không bị người đọc pháthiện do những khoảng trắng thêm vào nằm ngoài phạm vi của văn bản Nó cònmã hóa được số lượng bit nhiều hơn phương pháp trên Trong phương pháp khai
Trang 36 Phương pháp khai thác các khoảng trắng ngay sau các từ: một khoảngtrắng mã hóa bit 0, hai khoảng trắng mã hóa bit 1 Phương pháp này cho kết quảvài bit trên một dòng Để xác định khoảng trắng nào là của dữ liệu nhúng,khoảng trắng nào là của văn bản, Bender sử dụng phương pháp mã hóa giốngnhư phương pháp của Manchester Manchester sử dụng một nhóm bit để đại diệncho một bit “01” được giải mã thành 1, “10” là 0, “00” và “11” là rỗng Ví dụ,chuỗi được mã hóa là “1000101101” thì được giải mã thành “001”, trong khichuỗi “110011” là rỗng.
Phương pháp khoảng trắng hiệu quả trong các văn bản định dạng ASCII.Một số dữ liệu có khả năng bị mất khi văn bản được in ra.
Hình 6 là ví dụ nhúng dữ liệu vào đoạn văn bản theo phương pháp khaithác các khoảng trắng sau mỗi dòng.
Hình 6 Phương pháp khoảng trắng mở khai thác các khoảng trắng sau mỗidòng Hình (a) là đoạn văn bản trước khi nhúng, hình (b) là đoạn văn bản
sau khi nhúng
Trang 373.3.2.2 Phương pháp cú pháp (syntactic methods):
Hai phương pháp cú pháp và ngữ nghĩa có thể kết hợp song song Trongnhiều tình huống sau khi mã hoá, văn bản có số lượng dấu câu nhiều hay có dấucâu sai, nhưng lại không ảnh hưởng lớn đến ngữ nghĩa trong văn bản Ví dụ cụmtừ “bread, butter, and milk” và “bread, butter and milk” cả hai đều dùng dấuphẩy đúng Bất cứ khi nào trong câu sử dụng dạng thứ nhất thì mã hóa 1, dạngthứ hai thì mã hóa 0 Trong một số ví dụ còn sử dụng các từ viết tắt, viết gọn.Phương pháp này chỉ mã hóa được vài bit trên 1Kb văn bản.
Phương pháp cú pháp còn bao gồm cả cách thay đổi trong cách thức diễnđạt và cấu trúc văn bản mà không làm thay đổi ngữ nghĩa Ví dụ, từ câu “Beforethe night is over, I will have finished” chuyển thành câu “I will have finished
Trang 383.3.2.3 Phương pháp ngữ nghĩa (semantic methods):
Phương pháp này cũng tương tự như phương pháp cú pháp Phương phápngữ nghĩa dùng giá trị chính hay phụ đồng nghĩa Ví dụ từ “big” có thể thay bằng“large” (Hình 8) Khi giải mã, từ có ý nghĩa chính sẽ đại diện cho giá trị 1, từ cóý nghĩa phụ sẽ đại diện cho giá trị 0.
Tuy nhiên phương pháp này có thể làm thay đổi ngữ nghĩa của câu, mặcdù từ thay thế cùng nghĩa, nhưng sắc thái của câu đã bị thay đổi (các từ đượcdùng thích hợp trong từng ngữ cảnh).
Hình 8 Các cặp từ đồng nghĩa.
3.4 Các kỹ thuật ẩn dữ liệu trên ảnh tĩnh:
Ảnh tĩnh là một đối tượng rất thích hợp cho ẩn dữ liệu, nhất là trongSteganography vì các yếu tố sau đây:
Một ảnh chứa rất nhiều dữ liệu, giả sử một ảnh có kích thước 600 × 400được mỗi pixel được biểu diễn bởi 3 byte RGB thì có dung lượng là 720000byte.
Trang 39Thông tin có thể được ẩn trong ảnh tĩnh bằng nhiều cách Thông điệpđược mã hóa từng bit vào ảnh Các kỹ thuật mã hóa phức tạp hơn là kỹ thuật ẩnthông điệp vào những vùng nhiễu của ảnh, như vậy sẽ ít gây sự chú ý hơn.Thông điệp cũng có thể được rải ngẫu nhiên trên ảnh chứa.
3.4.1 Các hướng tiếp cận của các kỹ thuật ẩn dữ liệu trên ảnh tĩnh: Chèn vào bit thấp nhất LSB (Least Significant Bit).
Các kỹ thuật lọc và mặt nạ.
Các thuật toán và các phép biến đổi.
3.4.1.1 Hướng tiếp cận chèn vào bit LSB:
Phương pháp chèn bit vào LSB là phương pháp được biết nhiều nhất trongkỹ thuật ẩn dữ liệu Đây là một hướng tiếp cận thông dụng, đơn giản để nhúngthông tin vào ảnh Nhưng phương pháp này có nhược điểm là dễ bị tấn công bởicác thao tác trên ảnh Một sự chuyển đổi từ dạng GIF hay BMP sang dạng nénmất dữ liệu (ví dụ như JPEG) có thể hủy hết thông tin ẩn trong ảnh.
Khi sử dụng kỹ thuật LSB cho ảnh 24 bit màu, mỗi pixel có 3 bit đượcdùng để mã hóa dữ liệu (vì mỗi pixel được biểu diễn bằng 3 byte) Sự thay đổitrên pixel khó bị mắt người nhận ra Ví dụ, kí tự A có thể được ẩn trong 3 pixel.Giả sử 3 pixel của ảnh gốc có giá trị nhị phân như sau:
( 00100111 11101001 11001000 )( 00100111 11001000 11101001 )
Trang 40( 00100111 11101000 11001000 )( 00100110 11001000 11101000 )
( 11001000 00100111 11101001 )
Chỉ có các bit LSB in đậm bị thay đổi Các kỹ thuật chèn vào bit LSB cảitiến là dữ liệu có thể được ẩn trong bit thấp nhất và bit thấp thứ hai trong byte màmắt người vẫn không thể nhận ra sự thay đổi.
Sử dụng kỹ thuật LSB trong ảnh 8 bit màu phải cẩn thận hơn đối với ảnh24 bit màu vì sự thay đổi màu sắc rõ hơn.
3.4.1.2 Phương pháp ngụy trang và lọc:
Kỹ thuật ngụy trang và lọc ẩn thông tin bằng cách đánh dấu một ảnh bằngmột ký hiệu mờ Các kỹ thuật nhúng dấu hiệu thích hợp với ảnh hơn, các kỹthuật đó có thể được áp dụng trên ảnh tĩnh mà không sợ ảnh hưởng của địnhdạng ảnh nén mất dữ liệu Bằng cách che phủ, hoặc ngụy trang một tín hiệu mờ,hệ thống thị giác của người HVS không thể nhận biết được sự thay đổi trên ảnh.Về mặt kỹ thuật, nhúng dấu hiệu không phải là một dạng của Steganography.Trong khi Steganography dấu dữ liệu trong ảnh, nhúng dấu hiệu mở rộng thôngtin của ảnh và trở thành một thuộc tính của ảnh chứa, cung cấp các chi tiết vềbản quyền, giấy phép, quyền sỡ hữu.
Các kỹ thuật ngụy trang thích hợp hơn cho các ảnh nén dạng JPEG hơn làcác kỹ thuật LSB vì chúng có thể miễn dịch trước các thao tác nén hay xén ảnh.