- Lượng tử hóa: Đầu vào ở bước này là 64 hệ số DCT của khối 8x8 sẽ được lượng tử
b) Giấu tin trong văn bản sử dụng tính phản xạ đối xứng của bảng chữ cái tiếng Anh
5.5. Phương pháp phát hiện giấu tin trong văn bản
Các phương pháp phát hiện thông tin được giấu trong văn bản hiện nay đều dựa vào đặc điểm của các phương pháp giấu tin trong văn bản. Do đặc điểm của các kỹ thuật giấu tin trong văn bản nên mỗi phương giấu tin đều có những nhược điểm nhất định. Chính vì vậy trong thực tế, để phát hiện giấu tin trong văn bản những người phân tích thường áp dụng một số phương pháp sau [1, 2, 31]:
- Phát hiện giấu tin dựa vào khoảng trắng: Trong văn bản, những thay đổi nhỏ trong từ và khoảng cách dòng có thể khó phát hiện bởi người quan sát bình thường. Tuy nhiên, các khoảng trống phụ và các ký tự "vô hình" có thể dễ dàng được tiết lộ bằng cách mở tệp tin bằng một trình xử lý văn bản thông dụng. Văn bản có thể trông "bình thường" nếu được gõ trên màn hình, nhưng nếu tệp được mở trong trình xử lý văn bản, dấu cách, các tab và các ký tự khác làm biến dạng bản trình bày của văn bản
- Phát hiện giấu tin dựa vào cú pháp và ngữ nghĩa: Với giấu tin ngữ nghĩa cần có hiểu biết về câu từ trong đoạn văn, nghĩa của loại văn bản đó, với loại giấu tin này cần phát hiện các đoạn viết không được mượt, các đoạn vô nghĩa, từ đồng nghĩa, các lỗi chính tả cố tình. Về phần phát hiện giấu tin này thì dựa vào hoàn toàn vào khả năng hiểu biết về văn bản của người kiểm tra.
- Phương pháp phát hiện dựa trên phân tích các tính năng thống kê sử dụng học máy: Phương pháp này ban đầu sẽ nghiên cứu các mô hình thống kê của các văn bản tự nhiên, và chỉ ra rằng giấu thông tin trong văn bản có thể thay đổi các tính năng của văn bản bằng cách
phân tích các tính năng thống kê. Văn bản tự nhiên và văn bản có giấu tin có các tính năng khác nhau như sau [31]:
Chiều dài trung bình của từ: Theo nguyên tắc của Zipf và Heaps, độ dài trung bình của từ nằm trong phạm vi nhất định. Văn bản được giấu tin là khi các thông tin mật được giấu vào văn bản, sự lựa chọn của các từ rất ngẫu nhiên, vì vậy có ít từ tần số cao hơn trong văn bản thông thường và chiều dài trung bình của từ dài hơn. Để tăng sự che giấu văn bản và giảm mức trung bình chiều dài của từ thì công cụ giấu tin sẽ làm tăng số lượng từ ngắn khi tạo văn bản giấu tin.
Tỷ lệ khoảng trắng: Theo nguyên tắc Heap, tỷ lệ khoảng trắng của văn bản xấp xỉ tỷ lệ nghịch với chiều dài từ và dấu chấm câu không được tính. Nếu khoảng trắng xuất hiện hai lần hoặc nhiều hơn thì có thể có cơ sở để kết luận văn bản đó bất thường. Rõ ràng, việc phát hiện này làm nâng cao hiệu quả trong việc xác định văn bản chứa thông tin mật sử dụng các thuật toán ẩn thay giấu tin đổi số khoảng trắng trong văn bản.
N từ đầu tiên và từ không hợp lệ: Theo lý thuyết TF-IDF, các từ có tần số cao bao
gồm các từ tần số cao hiệu quả (AFW) và các từ tần số cao không hợp lệ (NFW). AFW là một từ khóa hợp lệ để thể hiện chủ đề của một bài viết, trong khi NFW là các từ không có ý nghĩa, chẳng hạn như "the", "of", v.v.
Phần trăm của chữ cái: Trong các bài báo tiếng Anh, khi số lượng văn bản nhỏ, việc phân phối các chữ cái văn bản sẽ thay đổi rất nhiều. Như số lượng văn bản tăng lên, tính ngẫu nhiên của các chữ cái tăng, và phần trăm chữ cái là gần như không thay đổi.
Phần trăm chữ cái đầu: Việc phân phối các chữ cái ban đầu của văn bản tiếng Anh có liên quan đến việc phân phối các chữ cái ban đầu của một từ điển. Vì sự phân bố của các chữ cái ban đầu trong từ điển rất khác nhau dẫn đến sự phân bố ban đầu của văn bản rất khác nhau. Tính ngẫu nhiên của các văn bản chứa tin mật và văn bản tự nhiên sẽ khác nhau.
Dựa vào năm trích chọn đặc trưng (thuộc tính) có thể áp dụng vào thuật toán học máy để phát hiện văn bản có chưa tin mật.
5.6. Câu hỏi ôn tập
Câu 1. Hãy trình bày khái niệm về giấu tin trong văn bản? Hãy nêu các yêu cầu đối với kỹ thuật giấu tin trong văn bản?
Câu 3. Hãy trình bày quy trình giấu tin trong văn bản sử dụng phương pháp khoảng trắng giữa các từ
Câu 4. Hãy trình bày quy trình giấu tin trong văn bản sử dụng phương pháp dịch chuyển dòng? Câu 5. Hãy trình bày quy trình giấu tin trong văn bản sử dụng phương pháp dịch chuyển vị trí
từ?
Câu 6. Hãy trình bày quy trình giấu tin tính phản xạ đối xứng của bảng chữ cái tiếng Anh? Câu 7. Hãy trình bày quy trình giấu tin trong văn bản sử dụng phương pháp cú pháp? Câu 8. Hãy trình bày quy trình giấu tin trong văn bản sử dụng phương pháp từ đồng nghĩa? Câu 9. Hãy trình bày quy trình giấu tin trong văn bản sử dụng phương pháp trích rút câu? Câu 10. Hãy trình bày phương pháp phát hiện giấu tin trong văn bản sử dụng kỹ thuật học
máy?
Câu 11. Hãy trình bày quy trình giấu tin trong văn bản sử dụng tính phản xạ đối xứng của bảng chữ cái tiếng Việt?