.3 –1 Độ giao giữa các Tập văn bản mẫu

Việc chênh lệch về bộ thư viện mẫu sẽ dẫn tới việc dữ liệu sau khi được mã hóa bằng phương pháp mã Vigenere sẽ không thể nén và giải nén bằng phương pháp mã Huffman, do từ trong văn bản sau khi mã hóa với Vigenere không hề tồn tại trong cây mã Huffman.

Để khắc phục vấn đề này, bộ từ điển Tiếng Việt chỉ được sử dụng như một thư viện mẫu giúp phân tích và bóc tách văn bản Tiếng Việt thành các từ (đơn và ghép) cho việc xây dựng mã Huffman. Kết quả phân tích các tập văn bản mẫu sẽ sinh ra, hay “Thư viện từ của mã Huffman” trong hình trên, sẽ được dùng xây dựng hình vuông Vigenere. Phương pháp này ngoài việc giải quyết được vấn đề chênh lệch giữa 02 bộ thư viện cho Vigenere và Huffman còn làm tăng độ phức tạp cho các phương pháp thám mã Vigenere do bộ thư viện từ của hã Huffman được sinh ra dựa trên tập văn bản mẫu đưa vào, tức là nó không cố định. Hacker nếu không có được bộ “thư viện từ của mã Huffman” này sẽ không thể tiến hành các phương pháp vét cạn để giải mã các văn bản.

- Xây dựng tập văn bản mẫu: tập các tài liệu, văn bản … sẽ dùng để xây dựng lên cây mã Huffman.

- Xử lý và phân tích văn bản mẫu từ đó liệt kê tỷ lệ xuất hiện của các từ.

- Xây dựng bộ mã Huffman dựa trên kết quả liệt kê tỷ lệ xuất hiện các từ ở trên. - Sử dụng “thư viện từ của mã Huffman” làm hình vuông Vigenere.

- Sử dụng cây mã Huffman thu được để nén và giải dữ liệu (các file văn bản tiếng Việt)

5.3. Xử lý văn bản và liệt kê tỷ lệ xuất hiện của các từ

- Bài toán đặt ra: Tìm giải pháp đếm các từ tiếng Việt xuất hiện trong các văn bản và liệt kê tỷ lệ xuất hiện của các từ này.

.3 –1 Độ giao giữa các Tập văn bản mẫu

Lựa chọn giải pháp công nghệ

Giới thiệu sơ lược ApacheHadoop