.6 – Quy trình tạo thơng tin nhúng

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin phát hiện giả mạo bảng điểm tiếng việt cho các trường học (Trang 65)

Bảng điểm

Hàm băm

Giá trị băm bảng điểm (Message Digest)

Dùng RSA để mã hóa Message Digest

Chữ ký điện tử (Digital Signature)

Khóa bí mật/cơng khai (Private/Public Key)

4.4.5 Nhúng thông tin vào tập tin PostScript

Nhúng thông tin mật vào bảng điểm dựa trên việc dịch chuyển dấu của tiếng việt, trong bảng điểm có những từ khơng nhúng đƣợc bit dữ liệu nào nhƣ: NAI, TIN, do, học, …; có những từ nhúng đƣợc 1 bit (có 1 dấu) nhƣ: TỈNH, ĐỒNG, tên, số, . . . có những từ nhúng đƣợc 2 bit nhƣ: giáo, tiền, điểm, . . . có những từ nhúng đƣợc 3 bit nhƣ: giỏi, ...

PostScript là ngôn ngữ mô tả trang in, nên việc biểu diễn dữ liệu chỉ quan tâm tới vị trí các đối tƣợng đồ họa trong bảng điểm. Trong bảng điểm, các ký tự chính là các đối tƣợng đồ họa. Trong q trình nhúng thơng tin vào nội dung bảng điểm, các bit dữ liệu sẽ đƣợc nhúng liên tục thứ tự từ trái qua phải và từ trên xuống dƣới. Dịch chuyển đƣợc một dấu có nghĩa là nhúng đƣợc 1 bit.

Khoảng cách dịch chuyển các dấu tiếng Việt để nhúng thông tin phải dung hòa giữa hai yếu tố: đủ nhỏ để nội dung bản điểm đã nhúng thơng tin có sự thay đổi khơng đáng kể nhằm đảm bảo tính thẩm mỹ của bảng điểm, đủ lớn để thuận tiện trong việc lấy lại thông tin đã nhúng. Tập tin PostScript đƣợc sinh ra bởi phần mềm Doc to Image Converter cho phép thay đổi vị trí biểu diễn một đối tƣợng với độ chính xác 1/1200 inch. Qua thử nghiệm tơi thấy sử dụng khoảng cách dịch chuyển các dấu tiếng Việt là 8/1200 inch là hợp lý.

4.4.6 Chuyển bảng điểm định dạng PostScript sang định dạng PDF

Bảng điểm sau khi nhúng bản quyền ở dạng PostScript sẽ đƣợc chuyển sang định dạng PDF để cấp cho ngƣời sử dụng và để lƣu hành, hiện nay file ở định dạng PDF đƣợc sử dụng rộng rãi trong mơi trƣờng internet và có rất nhiều phần mềm hỗ trợ chuyển định dạng PostScript sang định dạng PDF.

4.4.7 Tóm lƣợc quy trình nhúng thơng tin vào bảng điểm

Quy trình nhúng thơng tin vào bảng điểm đƣợc thực hiện theo sơ đồ hình 4.7. Bảng điểm đáp ứng đủ các yêu cầu về phông chữ, cỡ chữ, khoảng cách dòng, khoảng cách lề, sẽ đƣợc chuyển sang định dạng. Sau đó thơng tin bí mật sẽ đƣợc nhúng vào bảng điểm định dạng PostScript. Sau khi nhúng thơng tin bí mật bảng điểm sẽ đƣợc chuyển sang định dạng PDF.

Hình 4.7 – Quy trình nhúng thơng tin vào bảng điểm

4.5 Lấy lại thông tin đã nhúng

4.5.1 Lấy lại thông tin nhúng từ bảng điểm PDF

Khi cần xác thực lại bảng điểm, bảng điểm dạng hình ảnh ban đầu (dạng PDF) sẽ đƣợc xử lý để lấy lại thơng tin bí mật. Thơng tin bí mật đƣợc lấy lại dựa trên vị trí tuyệt đối của các dấu tiếng Việt nên khơng cần có văn bản gốc ban đầu. Bảng điểm (.PS) đã nhúng thông tin mật Chuyển sang PDF Bảng điểm (.PDF) đã nhúng thông tin mật Bảng điểm (.DOC) Bảng điểm (.PS) ENCODER Hàm băm Digital Signature Message Digest RSA Private/Public Key

4.5.2 Tóm lƣợc quy trình lấy lại thơng tin đã nhúng

Hình 4.8 – Quy trình lấy lại thơng tin nhúng

Bảng điểm (.PDF) đã nhúng thông tin mật DECODER Digital Signature Message Digest RSA

Kiểm tra YES NO

Public key / Private key

Chƣơng 5: KẾT QUẢ THỬ NGHIỆM

5.1 Giới thiệu

Để chứng minh cho nhúng tin và lấy lại thông tin nhúng. Tôi đã xây dựng một hệ thống thử nghiệm cho giải pháp này. Hệ thống thử nghiệm của tôi sử dụng cho bảng điểm với những yêu cầu sau:

 Phông chữ: Time News Roman.  Kích thƣớc: 13.

 Kiểu gõ: Unicode.

 Lề trái: 3.0cm, lề phải: 2.0cm, trên: 3.0cm, dƣới: 2.5cm.  Khoảng cách giữa các dòng trong bảng điểm là: 1.5 lines

Để tạo thơng tin bí mật tơi sử dụng giải thuật băm và thuật giải RSA. Bảng điểm gốc sẽ để ở định dạng Microsoft Word, sau đó đƣợc chuyển dạng định dạng PostScript. Sau khi nhúng thơng tin bí mật, bảng điểm sẽ đƣợc chuyển sang định dạng PDF.

5.2 Xây dựng chƣơng trình 5.2.1 Hashing bảng điểm 5.2.1 Hashing bảng điểm

Bảng điểm ban đầu sẽ đƣợc băm bằng giải thuật MD5. Sau khi thực hiện bƣớc này ta sẽ thu đƣợc giá trị băm của bảng điểm (đây chính là thơng điệp tóm tắt – message digest).

Hình 5.1 – Thể hiện giao diện của phần Hashing

5.2.2 Tạo khóa RSA và mã hóa bảng điểm

Dùng thuật tốn RSA để tạo khóa bí mật và khóa cơng khai. Sử dụng khóa bí mật để mã hóa tóm tắt thơng điệp của bƣớc trên. Kết quả thu đƣợc là một chuỗi thơng điệp đã đƣợc mã hóa, đây chính là chữ ký điện tử (digital signature) của file bảng điểm ban đầu, sau đó chuyển thơng điệp đã đƣợc mã hóa sang chuỗi bít nhị phân.

Hình 5.2 – Thể hiện giao diện phần Encryption

5.2.3 Nhúng thông tin mật vào bảng điểm

Bảng điểm sau khi chuyển từ định dạng Microsoft Word sang định dạng PostScript trƣớc khi nhúng thông tin bằng Encoder. Encoder đọc từng hàng dữ liệu trong tập tin PostScript. Encoder nhận dạng ra các dấu tiếng Việt và dịch chuyển lên/xuống một khoảng cách thích hợp (8/1200) sau đó lƣu kết quả vào tập tin PostScript mới.

Hình 5.3 – Thể hiện giao diện của phần Encoder

5.2.4 Xuất bảng điểm sang PDF

Sau khi đã nhúng thông tin mật, bảng điểm sẽ đƣợc chuyển sang định dạng PDF. Trƣớc khi chuyển định dạng phải cài đặt chƣơng trình GhostScript. Hình 5.4 biểu diễn giao diện phần chuyển đổi định dạng. Thông số GS path là thông số chỉ tới tên tập tin thực thi của GhostScript.

Hình 5.4 – Thể hiện giao diện phần chuyển file ps sang pdf

5.2.5 Lấy lại thông tin bản quyền đã nhúng

Phần lấy lại thông tin bản quyền (decoder) đƣợc xây dựng dựa trên thƣ viện System.Drawing trong C#. System.Drawing cung cấp lớp Bitmap cho phép thao tác trên tập tin hình ảnh có định dạng Bitmap (.bmp), file bảng điểm dạng ps đã nhúng thông tin mật cần phải đƣợc chuyển sang dạng hình ảnh Bitmap (.bmp), ảnh xám (graysacle) 8 bit, với độ phân giải 300 DPI trƣớc khi cung cấp cho Decoder. Trong luận văn này, tôi đã sử dụng chuyển bảng điểm pdf sang hình bmp bằng phần mềm PDFill PDF Tools

Hình 5.5 – Thể hiện giao diện PDFill PDF Tools dùng để chuyển pdf sang bmp

Hình 5.6 – Thể hiện giao diện chuyển đổi sang ảnh xám với thông số 300 dpi

Hiện tại Decoder chỉ hoạt động đúng với tài liệu sử dụng phơng chữ Times New Roman, kích thƣớc 13, khoảng cách dịch chuyển các dấu tiếng Việt là

8/1200 inch. Decoder dựa vào bộ các mặt nạ nhận dạng các dấu tiếng Việt xây dựng trƣớc để nhận dạng ra các dấu. Khi nhận dạng ra một dấu, Decoder tính khoảng cách từ dấu tới ký tự nguyên âm hoặc các dấu mũ phía dƣới để biết lấy ra dữ liệu đã nhúng.

Hình 5.7 – Thể hiện giao diện Decoder

Phần Decryption sẽ giải mã thông tin nhúng lấy đƣợc từ bƣớc Decoder. Sau khi lấy đƣợc thơng tin và giải mã bằng khóa bí mật, thơng tin có đƣợc sẽ đƣợc so sánh để kết luận là bảng điểm là hợp lệ hay khơng. Hình 5.8 - thể hiện giao diện phần Decryption.

Hình 5.8 – Thể hiện giao diện Decryption

5.3 Nhận xét kết quả thử nghiệm

Chƣơng trình “NHUNG THONG TIN BANG DIEM” xây dựng để nhúng thơng tin bí mật vào bảng điểm.

Phần (Encoder) có thể cho phép nhúng thơng tin vào các loại bảng điểm word (hay các loại tài liệu word khác) sử dụng phông chữ Times New Roman, kích thƣớc 13, kiểu ký tự bình thƣờng, nghiêng, đậm, đậm và nghiêng.

Phần lấy lại thông tin bản quyền (decoder ) chỉ hoạt động đúng với các loại bảng điểm sử dụng phông chữ Times New Roman, kích thƣớc 13, kiểu chữ bình thƣờng, khoảng cách giữa các dòng văn bản (line spacing): 1.5 lines.

Chƣơng 6: KẾT LUẬN, ĐÁNH GIÁ VÀ HƢỚNG PHÁT TRIỂN TRIỂN

6.1 Kết luận

Trong luận văn này tôi đã đƣa ra một phƣơng pháp nhúng thơng tin bí mật vào các bảng điểm tiếng Việt dựa trên kỹ thuật digital watermarking. Bảng điểm sau khi nhúng sẽ đƣợc cấp phát cho học sinh, sinh viên (dạng PDF) để lƣu hành hay phục vụ trong các hoạt động của mình. Các cá nhân, doanh nghiệp, tổ chức,... khi cần kiểm tra tính pháp lý của bảng điểm sẽ gửi bảng điểm đến nơi cấp bảng điểm đó. Nơi cấp bảng điểm đó có nhiệm vụ kiểm tra thông tin dựa vào thơng tin bí mật đƣợc nhúng trên bảng điểm, sẽ kết luận tính hợp lệ hay khơng của bảng điểm cần kiểm tra.

Do giải pháp ban đầu đặt ra dựa trên nền hệ thống văn bản lƣu hành trong hệ thống các cơ quan nhà nƣớc. Vì vậy ứng dụng chỉ hoạt động đúng cho các bảng điểm tiếng Việt sử dụng phông chữ Times New Roman, kích thƣớc 13. Ứng dụng hồn tồn có thể phát triển mở rộng để sử dụng đƣợc với các bảng điểm sử dụng các phơng chữ khác cũng nhƣ kích thƣớc ký tự khác nhau. Tuy nhiên để đƣa ứng dụng vào sử dụng trong thực tế thì cần phải có văn bản quy phạm pháp luật quy định cụ thể về việc sử dụng nhằm đảm bảo tính pháp lý.

6.2 Đánh giá

Những vấn đề đã làm đƣợc:

 Tìm hiểu cơ sở lý thuyết

 Tạo đƣợc hàm băm để băm file word theo các giải thuật: MD5, SHA1,...

 Tạo đƣợc khóa chính / khóa cơng cộng  Nhúng đƣợc thông tin vào file ps  Lấy đƣợc thông tin nhúng

Phần nhúng thông tin cho kết quả tốt, chƣơng trình xử lý nhanh.

Phần lấy lại thơng tin đã nhúng, chƣơng trình xử lý chậm, mất nhiều thời gian vì khi lấy lại thơng tin nhúng chƣơng trình phải đọc từng dòng văn bản trong bảng điểm, sau đó so sánh khoảng cách giữa các dịng trong bảng điểm cần lấy lại thông tin với khoảng cách của giữa các dòng văn bản đã đƣợc xây dựng trong chƣơng trình nhận dạng mới lấy ra đƣợc bít đã nhúng.

6.3 Hƣớng phát triển tiếp theo của đề tài

- Xây dựng phƣơng pháp nhúng nhiều thông tin hơn vào các bảng điểm. Một số ký tự nguyên âm trong tiếng Việt có hai dấu, do đó có thể nhúng đƣợc nhiều bit dữ liệu. Ngoài ra, cịn thể nhúng thơng tin dựa vào việc dịch chuyển dấu nặng.

- Xây dựng phƣơng pháp nhúng và lấy lại thông tin nhúng cho nhiều loại phông chữ, nhiều cỡ chữ hơn.

TÀI LIỆU THAM KHẢO Tiếng việt

[1] Nghị đinh số 58/2001/NĐ-CP ngày 24/8/2001 của Chính phủ về quản lý và sử dụng con dấu.

[2] Nghị định số 31/2009/NĐ-CP ngày 01/4/2007 của Chính phủ sửa đổi, bổ sung một số điều của Nghị định số 58/2001/NĐ-CP ngày 24 tháng 8 năm 2001 về quản lý và sử dụng con dấu.

[3] Nghị định số 26/2007/NĐ-CP ngày 15/02/2007 của Chính phủ quy định chi tiết thi hành Luật Giao dịch điện tử về chữ ký số và dịch vụ chứng thực chữ ký số.

[4] Nghị định số 64/2007/NĐ-CP ngày 10/4/2007 của Chính phủ về ứng dụng công nghệ thông tin trong hoạt động của cơ quan nhà nƣớc.

[5] Thông tƣ số 01/2011/TT-BNV ngày 19/01/2011 của Bộ Nội vụ về thể thức và kỹ thuật trình bày văn bản hành chính.

[6] Chỉ thị số 15/CT-TTg ngày 22/5/2012 của Thủ tƣớng Chính phủ về việc tăng cƣờng sử dụng văn bản điện tử trong hoạt động của cơ quan nhà nƣớc.

[7] Phan Đình Diệu (2002), Lý thuyết mật mã và An tồn thơng tin, Nhà xuất bản Đại học Quốc gia Hà Nội.

[8] Dƣơng Anh Đức, Trần Minh Triết (2005), Mã hóa và ứng dụng, Nhà xuất bản Đại học Khoa học Tự nhiên, Đại học Quốc gia TP Hồ Chí Minh.

Tiếng anh

[8] Alfred J. Menezes, Paul C. van Oorschot và Scott A. Vanstone (1996),

Handbook of Applied Cryptography, CRC Press, ISBN: 0-8493-8523-7.

[9] Douglas Stinson (1995), Cryptography: Theory and Practice, CRC Press,

[10] F. Hartung, and M. Kutter (1999), Multimedia Watermarking Techniques,

Proceedings of the IEEE.

[11] J. Brassil, S. Low, N. Maxemchuk, and L. O’Gorman (1994), Electronic Marking and Identification Techniques to Discourage Document Copying,

Proceedings of the IEEE INFOCOM 94.

[12] J. Brassil, S. Low, and N. Maxemchuk (1999), Copyright Protection for the Electronic Distribution of Text Documents, Proceedings of the IEEE.

[13] J. Su, F. Hartung, and B. Girod (1999), Digital Watermarking of Text, Image,

and Video Documents, Computers & Graphics.

[14] M. Arnold, M. Schmucker, and S. D. Wolthusen (2003), Techniques and Applicaitons of Digital Watermaking and Content Protection. ISBN 1-50853-

111-3, Artech House.

[15] M. J. Cox, M. L. Miller, J. A. Bloom, Jessica Fridrich, and Ton Kalker (2008), Digital Watermarking and Steganography, ISBN 978-0-12-372585-1, Morgan Kaufmann Pub-lishers.

[16] R. Villán, S. Voloshynovskiy, O. Koval, J.E. Vila-Forcén, E. Topak, F. Deguillaume, Y. Rytsar, and T. Pun (2006), Text Data-Hiding for Digital and

Printed Documents: Theoretical and Practical Considerations, Proceedings

of the SPIE, Vol. 6072, pp. 406-416.

[17] Van Doan Nguyen, Tran Khanh Dang, Son Nguyen Thanh (2007), A Novel Approach to Digital Watermarking for Vietnamese Documents, Special Issue

of Science & Technology Journal, Vietnam National University-Ho Chi Minh City, ISSN 1859-0128, Vol. 10, No. 13, pp. 31-41, 2007.

[18] W. Bender, D. Gruhl, N. Morimoto, and A. Lu (1996), Techniques for data hiding. ISSN 0018-8670, IBM Systems Journal.

Trang web

[19] “Convert Word Doc RTF to Jpeg/Jpg/Tiff/Bmp/Eps/Ps, Doc to Image Converter”, http://www.pdf-convert.com/doc2img/.

[20] “Ghostscript: Ghostscript Website”, http://www.ghostscript.com/awki. [21] “Tiếng việt”,

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin phát hiện giả mạo bảng điểm tiếng việt cho các trường học (Trang 65)

Tải bản đầy đủ (PDF)

(81 trang)