Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 35 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
35
Dung lượng
895,5 KB
Nội dung
Danh sách cán tham gia thực đề tài (Ghi rõ học hàm, học vị, đơn vị công tác gồm môn, Khoa/Trung tâm) STT Tên cán PGS.TS Đặng Trần Khánh ThS Nguyễn Văn Đồn Cơ quan cơng tác Bộ mơn HTTT, Khoa KH&KT Máy tính, ĐHBKĐHQG Tp HCM Bộ mơn HTTT, Khoa KH&KT Máy tính, ĐHBKĐHQG Tp HCM MỤC LỤC DANH MỤC HÌNH DANH MỤC BẢNG CHƯƠNG GIỚI THIỆU CHƯƠNG KỸ THUẬT WATERMARKING 2.1 Giới thiệu watermarking 2.2 Ứng dụng watermarking 2.3 Nguyên lý watermarking 2.4 Phương pháp đánh giá giải pháp watermarking 2.5 Các hình thức cơng vào watermarking CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN 10 3.1 Ngoài nước 10 3.1.1 Watermarking trực tiếp văn 11 3.1.2 Watermarking văn định dạng 13 3.1.3 Watermarking tập tin hình ảnh quét từ văn 14 3.2 Trong nước 14 CHƯƠNG GIẢI PHÁP ĐỀ XUẤT 15 4.1 Đặc điểm tiếng Việt 15 4.2 Quy tắc nhúng thông tin 16 4.3 Quy tắc lấy lại thông tin 19 CHƯƠNG THỰC NGHIỆM 21 5.1 Xây dựng phần ứng dụng nhúng thông tin 21 5.1.1 Chuyển định dạng từ Microsoft Word sang PostScript 22 5.1.2 Tạo thông tin quyền 23 5.1.3 Nhúng thông tin vào tập tin PostScript 23 5.1.4 Chuyển định dạng từ PostScript sang định dạng PDF 23 5.2 Xây dựng ứng dụng rút trích thơng tin 24 5.3 Đánh giá 25 CHƯƠNG KẾT LUẬN VÀ KIẾN NGHỊ 27 TÀI LIỆU THAM KHẢO 28 PHỤ LỤC 31 DANH MỤC HÌNH Hình 2.1 - Phân loại kỹ thuật giấu tin Hình 2.2 - Nguyên lý nhúng thông tin Hình 2.3 - Nguyên lý lấy lại thông tin Hình 2.4 - Các yêu cầu watermarking Hình 3.1 - Ví dụ thay đổi khoảng trống để nhúng thơng tin 11 Hình 3.2 - Ví dụ thay đổi khoảng trống cuối hàng để nhúng thơng tin 12 Hình 3.3 - Ví dụ nhúng thông tin phương pháp cú pháp 12 Hình 3.4 - Ví dụ số cặp từ động nghĩa 13 Hình 3.5 - Ví dụ dịch chuyển hàng để nhúng thông tin 13 Hình 3.6 - Ví dụ dịch chuyển từ để nhúng thơng tin 13 Hình 3.7 - Ví dụ dịch chuyển ký tự để nhúng thơng tin 13 Hình 3.8 - Ví dụ thay đổi đặc trưng hiển thị ký tự để nhúng thơng tin 14 Hình 3.9 - Ví dụ thay đổi màu sắc ký tự để nhúng thơng tin 14 Hình 4.1 - Các ký tự thuộc nhóm 17 Hình 4.2 - Các ký tự thuộc nhóm 17 Hình 4.3 - Các ký tự thuộc nhóm 18 Hình 4.4 - Chọn tâm dịch chuyển 18 Hình 4.5 - Các vị trí dịch chuyển ký tự mức hai mức 18 Hình 4.6 - Ví dụ tính d, h d’, h’ 19 Hình 4.7 - Quy tắc xử lý phần ký tự dịch chuyển mức 20 Hình 4.8 - Quy tắc xử lý phần ký tự dịch chuyển mức 20 Hình 5.1 - Giao diện nhúng thơng tin 22 Hình 5.2 - Giải thuật lấy lại thông tin nhúng 24 Hình 5.3 – Giao diện rút trích thơng tin 25 Hình 5.4 – Một đoạn văn mẫu 25 Hình 5.5 – Biểu đồ so sánh số lượng bit nhúng văn mẫu 26 Hình C.1 – Công cụ Doc to Image Converter 31 Hình C.2 – Chọn định dạng cho công cụ Doc to Image Converter 32 Hình C.3 – Giao diện nhúng thơng tin 32 Hình C.4 – Giao diện chuyển định dạng tập tin 33 Hình C.5 – Giao diện rút trích thơng tin 34 DANH MỤC BẢNG Bảng 4.1 – Bảng chữ tiếng Việt 15 Bảng 5.1 - Số liệu số lượng bit nhúng văn mẫu 26 Chương GIỚI THIỆU Sự phát triển mạnh Internet tạo nên thay đổi lớn nhiều lĩnh vực đời sống, kinh tế-xã hội Cùng với phát triển này, công nghệ đời cho phép thực thao tác lưu trữ, phép phân phối loại liệu như: văn bản, âm thanh, hình ảnh, phim, đồ số… cách dễ dàng nhanh chóng Tuy nhiên, môi trường Internet công nghệ tạo thuận lợi cho việc sử dụng trái phép giả mạo tất loại liệu, đặc biệt liệu văn dạng sách Tại Việt Nam số lượng sánh xuất năm lớn Theo Cục Xuất (Bộ Thơng tin Truyền thơng), năm 2008, tồn ngành xuất 25.000 với gần 280 triệu sách Các đầu sách xuất đủ thể loại từ trị, pháp luật, tơn giáo, kinh tế, nghệ thuật, văn hóa đến sách giáo khoa Với số lượng lớn trên, quan chức (thanh tra Bộ Thông tin Truyền thông, tra sở Thông tin Truyền thông) thực chức quản lý nhà nước để làm lành mạnh hóa môi trường cạnh tranh ngành xuất gặp nhiều khó khăn Hiện nay, ngành xuất nước ta đối mặt với nhiều vấn đề, vấn đề cộm vấn nạn vi phạm quyền Với tiến không ngừng khoa học công nghệ, việc in sách lậu ngày trở nên dễ dàng nhanh chóng, đặc biệt in giả tem chống sách giả Trước vấn nạn này, nhà xuất nước nhà xuất nước xếp hàng kêu ca chuyện bị vi phạm tác quyền [19] Gần đây, ngày 9/7/2009 sáu nhà xuất ngoại văn Việt Nam đồng loạt đưa 393 tựa sách bị làm lậu đồng kêu cứu [19] Hiệp hội nhà xuất Quốc tế Việt Nam vừa phát gần 400 tên sách nhà xuất tên tuổi bị vi phạm quyền công khai xuất phát hành khiến cho vấn đề trở nên thêm nóng bỏng Một số nhà xuất sốt ruột trước tình trạng ấn phẩm bị in lậu, nên tự đầu tư tìm hiểu phát giác nhiều vụ việc như: nhà xuất Trẻ, cơng ty Trí Việt, nhà xuất Ngoại văn Việt Nam [7] Vấn nạn sách lậu xem bệnh nan y toàn xã hội [18,20], nhà xuất bản, chí quan chức năng, tỏ nghiệp dư non tay việc phát sách lậu việc đối phó với đối tượng làm sách lậu [7] Ngày nay, kỹ thuật watermarking ứng dụng mạnh mẽ lĩnh vực bảo vệ quyền sở hữu Kỹ thuật cho phép nhúng thơng tin bí mật (thơng tin quyền) vào đối tượng liệu cần bảo vệ Đối tượng sau nhúng thơng tin bí mật có thay đổi không đáng kể sử dụng cách bình thường Khi cần thiết, thơng tin bí mật lấy làm chứng chứng minh quyền sở hữu Đề tài tập trung nghiên cứu kỹ thuật watermarking liệu văn (sách) nhằm đề xuất giải pháp áp dụng kỹ thuật watermarking bảo vệ quyền sách tiếng Việt Chương KỸ THUẬT WATERMARKING 2.1 Giới thiệu watermarking Gần đây, phương pháp giấu tin (information hiding) nghiên cứu ứng dụng mạnh mẽ lĩnh vực an toàn bảo mật thông tin Giấu tin kỹ thuật cho phép giấu thông tin (nhúng thông tin) vào đối tượng khác Ngồi ra, giấu tin cịn có nghĩa làm cho thông tin nhận biết (imperceptible) giữ thơng tin tồn trạng thái bí mật [3] Giấu thơng tin thường có hai hướng tiếp cận steganography watermarking (minh họa Hình 2.1) Steganography kỹ thuật giấu tin vào đối tượng khác để truyền tin trường hợp giao tiếp bí mật [1] Watermarking kỹ thuật giấu tin vào đối tượng nhằm khẳng định quyền chống xuyên tạc thông tin [2,4] Information Hiding Steganography Watermarking Hình 2.1 - Phân loại kỹ thuật giấu tin Watermarking thực liệu dạng số gọi digital watermaking Thuật ngữ digital watermarking xuất vào năm 1993, Tirkel đưa hai phương pháp giấu tin ảnh [4] (hai phương pháp dựa việc thay đổi giá trị bit màu có trọng số thấp) Kỹ thuật digital watermarking lĩnh vực bật lĩnh vực khoa học máy tính, mật mã, xử lý tín hiệu truyền thơng [16] Bên cạnh đó, digital watermaking phương pháp tốt để bảo vệ quyền sở hữu trí tuệ [4] Hiện nay, watermarking kỹ thuật giai đoạn phát triển Tương lai watermarking đầy hứa hẹn ngày có nhiều công ty nghiên cứu digital watermarking đời Tùy theo tiêu chí phân loại mà kỹ thuật watermarking chia thành nhiều loại khác Các loại kỹ thuật watermarking bao gồm: watermarking bền vững (robust watermarking), watermarking dễ vỡ (fragile watermarking), watermarking có sử dụng thêm khóa (public/private watermarking), watermarking (visible watermarking) watermarking chìm (invisible watermarking) [2] Robust watermarking: thơng tin nhúng có độ bền vững cao, tồn với liệu chứa cho dù liệu chứa bị biến đổi phức tạp Fragile watermarking: tồn liệu sau nhúng thơng tin bí mật dễ dàng bị phá hủy liệu bị thay đổi nhỏ bị chép trái phép Public/private watermarking: có sử dụng thêm khóa bí mật việc nhúng lấy lại thơng tin Khố bí mật sử dụng để quy định người truy xuất vào thông tin nhúng Visible watermarking: kỹ thuật cố tình cho người sử dụng biết thông tin nhúng Invisible watermarking che giấu thông tin nhúng, người sử dụng không hay biết liệu nhúng thông tin 2.2 Ứng dụng watermarking Hiện nay, watermarking ứng dụng rộng rãi nhiều lĩnh vực như: bảo vệ quyền (copyright protection), chứng thực nội dung (authentication tampering detection), dán nhãn sản phẩm (fingerprinting labling), theo dõi phát sóng (broadcast monitoring), điều khiển chép (copy control)… Các ứng dụng digital watermarking trình bày cụ thể đây: − Bảo vệ quyền: watermarking sử nhiều lĩnh vực bảo vệ quyền [1] Thông tin quyền (thơng tin bí mật) nhúng vào sản phẩm (phương tiện chứa) dùng làm chứng cho quyền sở hữu sản phẩm Thông tin quyền sử dụng trường hợp cần giải tranh chấp cần chứng minh quyền sở hữu sản phẩm Watermarking để bảo vệ quyền cần phải có độ bền vững cao [15] − Chứng thực nội dung: watermarking ứng dụng việc làm chứng xác định nội dung liệu nguyên bản, chưa bị thay đổi Tránh trường hợp liệu bị thay đổi với mục đích xấu hay gọi xuyên tạc nội dung [3] − Dán nhãn sản phẩm: watermarking dùng để ghi thông tin dùng để nhận diện nguồn gốc nhà sản xuất (creator), thông tin người sử dụng (recipient), số hiệu sản phẩm (serical code)… Thông tin nhận diện phải đặc trưng, cho loại sản phẩm [15] − Theo dõi phát sóng: hệ thống theo dõi phát sóng dùng để tự động giám sát việc phát sóng có nội dung, thời lượng thời điểm hay khơng Hệ thống cần có phận nhận tín hiệu phát sóng so sánh với tín gốc lưu trữ trước Việc so sánh dựa vào thơng tin nhúng tín hiệu phát sóng kỹ thuật watermarking Hệ thống theo dõi phát sóng ứng dụng trường hợp tổ chức đăng ký quảng cáo nhằm mục đích theo dõi tình trạng thơng tin quảng cáo phương tiện thông tin đại chúng [3] − Điều khiển chép: watermarking sử dụng hệ thống phân phối liệu đa phương tiện Trong trường hợp watermarking dùng để điều khiển chép thiết bị đọc ghi liệu Các thiết bị đọc ghi cần phải có thêm phận phát thông tin nhúng sản phẩm, đồng thời có khả tạo thơng tin cần nhúng nhúng vào sản phẩm Watermarking điều khiển chép ứng dụng việc quản lý chép DVD Nhật Bản Thông tin đánh dấu đĩa DVD mang ý nghĩa trạng thái cho phép chép liệu như: không chép, chép lần Trước chép liệu, đọc ghi đọc thông tin nhúng đĩa DVD gốc Tuỳ theo liệu nhúng mà đọc ghi thực việc chép liệu không thực [3] 2.3 Nguyên lý watermarking Watermarking lĩnh vực Lĩnh vực giai đoạn phát triển nên nguyên lý trình bày theo nhiều dạng khác thay đổi [2] Ý tưởng ditital watermarking nhúng thông tin (watermark) vào liệu chứa (host data) Thông tin nhúng phải bí mật hồn tồn che phủ liệu chứa Thông tin nhúng phải đảm báo trích dẫn cần thiết [1,4] Nhằm mục đích tăng tính bảo mật nhúng thơng tin trích dẫn thơng tin dùng thêm khoá bảo vệ (secure key) Việc sử dụng khố bảo vệ đảm bảo thơng tin nhúng hợp lệ, trách trường hợp liệu bị nhúng thông tin giả mạo [1,2] Để thiết kế hệ thống watermarking cho phép nhúng thơng tin bí mật (I) vào liệu chứa gốc (X) để tạo thành liệu nhúng thơng tin bí mật (Y) bao gồm công việc sau [1]: − Xây dựng thông tin cần nhúng (W) Thơng tin bí mật (I) phải chuyển dạng thích hợp (W) trước nhúng vào liệu chứa (X) W=h(I) Để đảm bảo tính bí mật sử dụng thêm khố bí mật K W=h(I,K) Nếu cần xây dựng thông tin nhúng đặc trưng cho bảo liệu chứa sử dụng thêm liệu chứa gốc để tạo thông tin nhúng W=h(I,K,X) − Xây dựng phương pháp nhúng thông tin vào sản phẩm (watermark encoder) Nếu việc nhúng liệu vào liệu chứa khơng cần sử dụng khố (K) thì: Y=f(X,W) Nếu việc nhúng liệu vào phương tiện chứa có sử dụng khố (K) thì: Y=f(X,K,W) Trên Hình 2.3 thể nguyên lý nhúng thông tin vào liệu Để nhúng thông tin cần phải cung cấp thông tin cần nhúng (W), liệu chứa gốc (X) Khoá K sử dụng khơng W K WATERMARK Y ENCODER X Hình 2.2 - Nguyên lý nhúng thông tin − Xây dựng phương pháp lấy lại thông tin Thông tin nhúng I lấy lại dựa phương pháp nhúng liệu Tuỳ thuộc vào liệu chứa phải sử dụng thêm sản phẩm gốc trình lấy lại I Nếu việc nhúng liệu vào liệu chứa không cần sử dụng khố K khơng cần sử dụng liệu gốc ban đầu lấy lại thơng tin thì: I=g(Y) Nếu việc nhúng liệu vào liệu chứa có sử dụng khố K khơng cần sử dụng liệu gốc ban đầu lấy lại thơng tin thì: I=g(Y,K) Nếu việc nhúng liệu vào liệu chứa không sử dụng khoá K cần liệu chứa gốc lấy lại thơng tin thì: I=g(Y,X) Nếu việc nhúng liệu vào liệu chứa có sử dụng khố K cần liệu chứa gốc thì: I=g(Y,K,X) Y K X WATERMARK I DECODER Hình 2.3 - Nguyên lý lấy lại thơng tin Trên Hình 2.4 thể ngun lý lại thông tin nhúng liệu (Y) Để lấy lại thơng tin phải sử dụng thêm liệu chứa gốc (X) hoặc/và khố bí mật (K) 2.4 Phương pháp đánh giá giải pháp watermarking Các kỹ thuật digital watermarking đánh giá dựa yêu cầu: độ bền vững thông tin (robustness), độ bảo mật (security) độ ẩn thông tin (invisibility) (như minh họa Hình 2.2) Kỹ thuật digital watermarking đạt yêu cầu cao tốt, tăng chất lượng yêu cầu yêu cầu khác bị ảnh hưởng [4,9] Robustness Security Invisibility Hình 2.4 - Các yêu cầu watermarking Độ bền vững thông tin khả tồn thông tin nhúng liệu chứa (sản phẩm) Dữ liệu chứa sau nhúng thơng tin chịu nhiều biến đổi Ví dụ liệu hình ảnh phải chịu phép biến đổi như: thay đổi kích thước ảnh (resizing), cắt xét ảnh (cropping), quay ảnh(rotation), v.v Các giải pháp watermarking có độ bền vững cao thơng tin nhúng liệu chứa tồn lấy phương tiện chứa bị biến đổi Độ bảo mật khả bảo vệ thông tin nhúng liệu chứa Các giải pháp watermarking có độ bảo mật cao khơng cho phép người cơng biết thông tin nhúng trong liệu chứa Thơng thường để bảo vệ thơng tin nhúng, giải pháp mã khóa sử dụng Độ ẩn thông tin nhúng cho biết chất lượng liệu chứa sau nhúng thông tin Độ ẩn thông tin áp dụng cho giải pháp watermarking chìm Thơng thường, sau nhúng thơng tin vào liệu chứa liệu chứa có thay đổi nhỏ Sự thay đổi nhỏ thường không đáng kể đảm bảo chất lượng liệu chứa Dữ liệu chứa sau nhúng thông tin sử dụng cách bình thường ứng dụng Các giải pháp watermarking chìm thường cố gắng giấu thông tin cho phát liệu chứa nhúng thông tin 2.5 Các hình thức cơng vào watermarking Các hình thức công vào watermarking chia thành loại sau: Gây nhiễu, vơ hiệu hóa thơng tin nhúng, nhúng lại thông tin, gỡ bỏ thông tin nhúng [1] Cụ thể loại công sau: − Gây nhiễu cách công thực số thao tác biến đổi toàn liệu, mục đích làm nhiễu làm suy yếu thơng tin d, h, w1 w2 biết trước d’, h’ tính thơng qua việc xử lý hình ảnh sách điện tử hình ảnh sách sau quét So sánh h h’, d d’ lấy thông tin giấu Tùy theo phần dịch chuyển theo mức hai mức mà có cách xử lý khác Các quy tắc xử lý ký có phần dịch chuyển theo mức hai mức thể Hình 4.7 Hình 4.8 [6] (h’–h = w1) (d’–d = w1) “00” (h’–h = w1) (d’–d = -w1) “01” (h’–h = -w1) (d’–d = w1) “10” (h’–h = -w1) (d’–d = -w1) “11” Hình 4.7 - Quy tắc xử lý phần ký tự dịch chuyển mức (h’–h = w2) (d’–d = w2) (h’–h = w2) (d’–d = w1) (h’–h = w2) (d’–d = -w1) (h’–h = w2) (d’–d = -w2) (h’–h = w1) (d’–d = w2) (h’–h = w1) (d’–d = w1) (h’–h = w1) (d’–d = -w1) (h’–h = w1) (d’–d = -w2) (h’–h =-w1) (d’–d = w2) (h’–h =-w1) (d’–d = w1) (h’–h =-w1) (d’–d = -w1) (h’–h =-w1) (d’–d = -w2) (h’–h = -w2) (d’–d = w2) (h’–h = -w2) (d’–d = w1) (h’–h = -w2) (d’–d = -w1) (h’–h = -w2) (d’–d = -w2) “0000” “0001” “0010” “0011” “0100” “0101” “0110” “0111” “1000” “1001” “1010” “1011” “1100” “1101” “1110” “1111” Hình 4.8 - Quy tắc xử lý phần ký tự dịch chuyển mức Để lấy lại thơng tin bí mật, ảnh văn sử lý để lấy ký tự chọn nhúng thông tin quyền theo thứ tự từ xuống từ trái qua phải (tương tự lúc xử lý nhúng thơng tin bí mật) Sau đó, tùy theo phần dịch chuyển ký tự theo mức hai mức mà áp dụng quy tắc thích hợp thể Hình 4.7 Hình 4.8 để rút trích thơng tin nhúng trước 20 Chương THỰC NGHIỆM Chúng tơi xây dựng hệ thống thử nghiệm theo phương pháp đề xuất Ứng dụng thử nghiệm áp dụng cho văn tiếng Việt có nhiều phơng chữ (font), nhiều kiểu chữ (style) nhiều cỡ chữ (size) khác Các thao tác dịch chuyển để giấu tin thực định dạng Postscript thao tác rút trích thơng tin thực tập tin hình ảnh quét từ văn Khoảng cách dịch chuyển mức 1/300 inch mức hai 1/150 inch Chức giấu tin ứng dụng thử nghiệm hỗ trợ tốt văn tiếng Việt sử dụng phông chữ Arial, Times New Roman, Tahoma, Verdana, VNI Helve, VNI-Times cỡ chữ lớn 11 Chức rút trích thơng tin cịn hạn chế cơng việc xử lý để rút trích thơng tin từ tập tin hình ảnh văn phức tạp liên quan nhiều đến lĩnh vực xử lý ảnh 5.1 Xây dựng phần ứng dụng nhúng thông tin Mỗi tập tin sách trước in nằm định dạng văn định Hiện có nhiều định dạng văn khác như: PDF, PS, RTF… Trong định dạng liệu văn bản, PS (PostScript) định dạng có nhiều tính trội sử dụng rộng rãi Ngồi ra, PostScript cịn ngơn ngữ lập trình PostScript cho phép thao tác biểu diễn ký tự giống hình ảnh nên thuận tiện Vì vậy, chọn PostScript định dạng liệu để nhúng thông tin Tại Việt Nam, phần mềm sử dụng để soạn thảo văn thông dụng Microsoft Word (gần có OpenOffice) Do yêu cầu tập tin sách tiếng Việt để định dạng Microsoft Word Tập tin sách tiếng Việt phải chuyển từ định dạng Microsoft Word sang định dạng PostScript trước nhúng thông tin quyền Sau nhúng thông tin tập tin sách tiếng Việt để định dạng PostScript chuyển sang định dạng tập tin hình ảnh có định dạng PDF Tập tin sách sau nhúng quyền in thành sách phát hành rộng rãi Phần ứng dụng thử nghiệm nhúng thơng tin bí mật hỗ trợ tốt văn có cỡ chữ lớn 12 áp dụng nhiều phông chữ hỗ trợ tiếng Việt, đặc biệt hoạt động tốt với sáu loại phông chữ: Arial, Times New Roman, Tahoma, Verdana, VNI Helve, VNI-Times Hình 5.1 thể giao diện phần ứng dụng nhúng thơng tin bí mật 21 Hình 5.1 - Giao diện nhúng thông tin Các công việc cần thực nhúng thông tin vào tập tin sách tiếng Việt bao gồm: − Chuyển tập tin sách tiếng Việt từ định dạng Microsoft Word sang định dạng PostScript − Tạo thông tin quyền − Thực nhúng thông tin quyền vào tập tin định dạng PostScript − Chuyển tập tin định dạng PostScript sang định dạng PDF (có thể thực khơng) 5.1.1 Chuyển định dạng từ Microsoft Word sang PostScript Để chuyển liệu từ định dạng Microsoft Word sang định dạng PostScript có nhiều phương pháp như: sử dụng chức in tập tin (print to file) Microsoft Word, sử dụng chương trình Adobe Writer, sử dụng phần mềm DOC to Image Converter… PostScript ngơn ngữ lập trình nên có nhiều cách khác để biểu diễn liệu Do liệu dạng Microsoft Word chuyển sang PostScript theo cách khác thu tập tin PostScipt có độ phức tạp khác Thông thường, mã PostScipt sinh nhiều khó đọc hiểu Trong phương pháp chuyển đổi định dạng từ Microsoft Word sang PostScript, phương pháp sử dụng phần mềm DOC to Image Converter có mã PostScript sinh có đặc điểm dễ dàng nhận dạng thành phần ký tự đặc trưng tiếng Việt Đây đặc điểm thuận lợi để thực thao tác nhúng thơng tin quyền Vì phần mềm DOC to Image Converter 22 lựa chọn để chuyển đổi định dạng từ Microsoft Word sang PostScript DOC to Image Converter phần mềm thương mại, có bán http://www.pdfconvert.com/doc2img/ Sau cài đặt phần mềm DOC to Image Converter công cụ (toolbar) kích hoạt Sử dụng cơng cụ để chuyển tập tin Microsoft Word hành sang định dạng PostScript 5.1.2 Tạo thông tin quyền Thông tin quyền (thơng tin bí mật) phải chuyển sang dạng nhị phân trước thực nhúng vào tập tin sách tiếng Việt Ngoài ra, trước chuyển đổi sang mã nhị phân sử dụng thêm phương pháp mã hóa liệu nhằm đảm bảo người có đủ quyền hiểu thơng tin quyền [22] 5.1.3 Nhúng thông tin vào tập tin PostScript PostScript ngôn ngữ mô tả trang in nên việc biểu diễn liệu quan tâm tới vị trí đối tượng đồ họa văn Trong văn bản, ký tự đối tượng đồ họa Các hàng, đoạn văn khác vị trí tọa độ hiển thị khó phân biệt hàng, đoạn văn với Trong q trình nhúng thơng tin vào văn bản, bit liệu nhúng liên tục vào văn theo thứ tự từ trái qua phải từ xuống Chuỗi bit thông tin quyền nhúng xoay vòng Dịch chuyển phần ký tự có nghĩa nhúng (hai) (bốn) bit Khi nhúng đến chuỗi bit cuối tiếp tục nhúng từ chuỗi bit Khoảng cách dịch chuyển phần ký tự tập tin sách tiếng Việt để nhúng thông tin phải dung hòa hai yếu tố: đủ nhỏ để tài liệu nhúng thơng tin có thay đổi khơng đáng kể nhằm đảm bảo tính thẩm mỹ văn bản, đủ lớn để thuận tiện việc lấy lại thông tin nhúng Tập tin PostScript sinh phần mềm Doc to Image Converter cho phép thay đổi vị trí biểu diễn đối tượng với độ xác 1/1200 inch Qua thử nghiệm tơi thấy sử dụng khoảng cách dịch chuyển t1=1/300 inch t2=1/150 inch hợp lý 5.1.4 Chuyển định dạng từ PostScript sang định dạng PDF Tập tin sách tiếng Việt sau nhúng thơng tin quyền có định dạng PostScript sử dụng để in ấn Ngồi ra, cần thiết chuyển tập tin sách tiếng Việt từ định dạng PostScript sang định dạng PDF PDF định dạng sử dụng rộng rãi thực tế (được sử dụng nhiều môi trường Internet) Có nhiều phần mềm hỗ trợ chuyển định dạng PostScript sang định dạng PDF như: Adobe Acrobat, GhostScript GhostScript phần mềm mã nguồn mở tải xuống từ địa www.ghostscript.com Vì vậy, chọn sử dụng phần mềm GhostScript để chuyển đổi định dạng 23 5.2 Xây dựng ứng dụng rút trích thơng tin Khi cần kiểm tra, sách quét sang dạng hình ảnh xử lý để lấy lại thông tin quyền Ảnh lưu với với định dạng Bitmap (.bmp), ảnh xám (graysacle) bit Trong trình xử lý hình ảnh với độ phân giải cao cho thơng tin xác Tuy nhiên, độ phân giải cao thời gian xử lý lớn Qua thực nghiệm, lựa chọn độ phân giải hình ảnh 300 DPI Q trình lấy lại thơng tin nhúng thực theo giải thuật biểu diễn Hình 5.2 Bước 1: Đọc tập tin hình ảnh lấy dịng văn Bước 2: Xét dòng văn Mỗi dòng văn thực công việc sau: − Lấy ký tự dòng văn theo chiều từ trái sang phải xem xét − Dựa vào mặt nạ xây dựng để nhận dạng dấu tiếng Việt Khi nhận dạng dấu tính khoảng cách từ dấu tới ký tự dấu phía để tính chuỗi bit nhúng Hình 5.2 - Giải thuật lấy lại thông tin nhúng Nhận dạng dòng văn cách xét pixel theo tọa độ từ lề trái qua lề phải văn bản: − Nếu tất pixel đường thẳng pixel từ lề trái sang lề phải có giá trị màu trắng coi khoảng trống − Nếu có pixel có giá trị màu khác màu trắng vùng liệu thuộc dịng văn Việc rút trích thơng tin quyền ứng dụng thử nghiệm dựa vào mặt nạ nhận dạng phần dịch chuyển (ví dụ dấu tiếng Việt) xây dựng trước để nhận dạng phần ký tự trong tập tin hình ảnh Khi nhận dạng phần ký tự dịch chuyển dấu, khoảng cách từ dấu tới ký tự nguyên âm dấu mũ, dấu “ă” phía tính tốn để biết lấy liệu nhúng Hình 5.3 thể giao diện phần ứng dụng rút trích thơng tin 24 Hình 5.3 – Giao diện rút trích thơng tin Phần ứng dụng rút trích thơng tin bí mật hoạt động vài ký tự văn sử dụng phông chữ Times New Roman, cỡ chữ 13 Ngồi ra, ứng dụng rút trích cịn có nhược điểm chạy chậm, độ xác khơng cao Ứng dụng rút trích liên quan nhiều đến nhận dạng ký tự xử lý ảnh nên cần phải đầu tư nhiều 5.3 Đánh giá Văn sau thực giấu tin theo phương pháp đề xuất có độ thay đổi khơng đáng kể nên người đọc bình thường khó phát Hình 5.4 trình bày đoạn văn thử nghiệm sử dụng phông chữ Times New Roman, cỡ chữ 13 khoảng cách lựa chọn để dịch chuyển t1=1/300 inch, t2=1/150 inch Trên hình 5.4, phần a biểu diễn đoạn văn trước nhúng thông tin, phần b biểu diễn đoạn văn sau nhúng thông tin Thông tin nhúng vào đoạn văn chuỗi bit: “10000101001011” (mã ASCII ký tự ‘BK’) giấu xoay vịng liên tục a) b) Hình 5.4 – Một đoạn văn mẫu 25 Để chứng minh tính hiệu lượng thơng tin bí mật nhúng phương pháp đề xuất so với phương pháp tương tự có [6,23], chúng tơi thực khảo sát 10 đoạn văn tiếng Việt chọn cách ngẫu nhiên Kết thống kê, so sánh lượng thông tin nhúng phương pháp đề xuất đề tài so với phương pháp tương tự hiện chi tiết Bảng 5.1 Hình 5.5 Theo số liệu khảo sát phương pháp đề xuất chúng tơi nhúng nhiều thông tin phương pháp tương tự trước Số lượng bit nhúng STT Phương pháp Phương pháp Phương pháp trong [23] [6] đề xuất 144 152 608 798 122 115 460 572 48 30 120 208 140 120 480 664 159 130 520 698 149 139 556 743 39 37 148 231 93 80 320 425 138 115 460 637 10 105 88 352 478 1137 1006 4024 5454 Bảng 5.1 - Số liệu số lượng bit nhúng văn mẫu Số từ văn Hình 5.5 – Biểu đồ so sánh số lượng bit nhúng văn mẫu 26 Chương KẾT LUẬN VÀ KIẾN NGHỊ Trong đề tài đưa phương pháp nhúng thông tin quyền sách tiếng Việt sử dụng kỹ thuật watermarking Sau nhúng thông tin quyền, sách có thay đổi nhỏ khơng đáng kể người dùng bình thường khơng thể phát Khi cần thiết, thông tin quyền lấy làm chứng để xác định xem sách thật hay giả Để chứng minh tính đắn mặt lý thuyết tơi xây dựng ứng dụng demo So với giải pháp tương tự có, giải pháp đề xuất mở rộng việc nhúng thông tin dấu nặng, số dấu chấu câu số ký hiệu tốn học Do đó, giải pháp đề xuất đề tài nhúng nhiều thông tin Trong khuôn khổ đề tài, công bố: − Một báo khoa học Tạp chí Khoa học Cơng nghệ Đại học Đà Nẵng, ISSN 1859-1531, 2012 − Một báo khoa học Hội thảo nghiên cứu khoa học: Công nghệ thông tin ứng dụng công nghệ thông tin lĩnh vực, 6/2012, TP Đà Nẵng − Một báo cáo khoa học Hội thảo Quốc gia lần thứ XIV: Một số vấn đề chọn lọc Công nghệ Thông tin Truyền thông, 0708/10/2011, Tp Cần Thơ Trong tương lai, để đưa giải pháp áp dụng thực tế, kiến nghị hướng phát triển đề tài là: − Mở rộng giải pháp để nhúng thông tin vào đối tượng khác văn tiếng Việt như: hình ảnh, hình vẽ… xử lý trường hợp nhúng thông tin vào văn có nhiều cột − Xây dựng phương pháp lọc nhiễu ảnh văn trước thực rút trích thơng tin bí mật − Phát triển phần rút trích thơng tin bí mật nhúng vào sách tiếng Việt xây dựng dựa mạng nơ-rôn nhân tạo (artificial neural network) mạng nơ-rơn nhân tạo phù hợp để giải toán nhận dạng thay đổi ký tự hình ảnh quét từ văn [26] − Xây dựng ứng dụng giấu thông tin quyền tập tin sách tiếng Việt sử dụng nhiều loại phông chữ, nhiều cỡ chữ khác − Đề xuất giải pháp nâng cấp ứng dụng nhằm chống lại việc in nối sách tiếng Việt 27 TÀI LIỆU THAM KHẢO [1] F Hartung, and M Kutter “Multimedia Watermarking Techniques” Proceedings of the IEEE, 1999 [2] M Arnold, M Schmucker, and S D Wolthusen “Techniques and Applicaitons of Digital Watermaking and Content Protection” ISBN 150853-111-3, Artech House, 2003 [3] M J Cox, M L Miller, J A Bloom “Digital Watermarking” ISBN 155860-714-5, Morgan Kaufmann Publishers, 2002 [4] C S Lu “Multimedia Security: Steganography and Digital Watermarking Techniques for Protection of Intellectual Property” ISBN 1-59140-193-3, Idea Group Publishing, 2004 [5] W Bender, D Gruhl, N Morimoto, and A Lu “Techniques for data hiding” ISSN 0018-8670, IBM Systems Journal, 1996 [6] T H Tran, V D Nguyen, and T K Dang: “A Solution to Tampering Detection for Vietnamese Legal Documents” In Proceedings of ICTFIT'08, Ho Chi Minh City, November 14, 2008 [7] “Sách lậu: Cuộc chiến bắt đầu” http://vietnamnet.vn/vanhoa/2009/05/846600/ [8] J Brassil, S Low, N Maxemchuk, and L O’Gorman “Electronic Marking and Identification Techniques to Discourage Document Copying” Proceedings of the IEEE INFOCOM '94, 1994 [9] “Springer - Academic Journals, Books and Online Media” http://www.springeronline.com/sgw/cda/pageitems/document/cda_down loaddocument/0,11996,0-0-45-101744-0,00.pdf [10] J Brassil, S Low, and N Maxemchuk “Copyright Protection for the Electronic Distribution of Text Documents” Proceedings of the IEEE, 1999 [11] “Department of Computer Science, University of Cape Town” http://www.cs.uct.ac.za/courses/CS400W/NIS04/papers2003/bmerchant doc [12] R Villán, S Voloshynovskiy, O Koval, J.E Vila-Forcén, E Topak, F Deguillaume, Y Rytsar, and T Pun “Text Data-Hiding for Digital and Printed Documents: Theoretical and Practical Considerations” Proceedings of SPIE-IS&T Electronic Imaging, 2006 28 [13] D Huang, and H Yan “Interword Distance Changes Reprented by Since Waves for Watermarking Text Images” School of Electrical and Information Engineering University of Sydney, 2006 [14] A.M Alattar, and O.M Alattar “Watermarking Electronic Text Documents containing Justified Paragraphs and Irregular Line Spacing” Proceedings of SPIE, 2004 [15] S Katzenbeisser, and F.A.P Petitcolas “Information Hiding Techniques for Steganography and Digital Watermarking” ISBN 1-58053-035-4, Artech House, 2000 [16] S P Mohanty “Digital Watermarking: A Tutorial Review” Dept of Comp Sc And Eng University of South Florida, 1999 [17] S Voloshynovskiy, O Koval, R Villan, E Topak, J V Forcén, F Deguillaume, Y Rytsar, and T Pun “Information-theoretic analysis of electronic and printed document authentication” Proceedings of SPIE, 2006 [18] “Bùng phát sách lậu” http://www.sggp.org.vn/vanhoavannghe/2009/5/189286/ [19] “Chống sách lậu: có gái đẹp, phải http://vietnamnet.vn/vanhoa/2009/07/857573/ [20] “Chống in lậu: Trông chờ vào ý thức người dân” http://www.vtc.vn/1311410/van-hoa/chong-in-lau-trong-cho-vao-y-thuc-nguoi-dan.htm [21] “Từ điển bách khoa toàn thư WIKIPEDIA” http://vi.wikipedia.org/wiki/Ti%E1%BA%BFng_Vi%E1%BB%87t [22] S Brunett, and S Paine “RSA Security’s Official Guide to Cryptography” ISBN 0-07-044616-4, Tata McGraw-Hill Pulishing Company Limited, 2001 [23] V D Nguyen, T K Dang, T S Nguyen: “A Novel Approach to Digital Watermarking for Vietnamese Documents”, Special Issue of Science & Technology Journal, Vietnam National University-Ho Chi Minh City, ISSN 1859-0128, Vol 10, No 13, pp 31-41, 2007 [24] Y Zhang, H Qin, and T Kong: "A Novel Robust Text Watermarking For Word Document" In 2010 3rd International Congress on Image and Signal Processing, Vol 1, pp 38 - 42, October 2010 [25] Z Jalil, A.M Mirza, and M Sabir: “Content based Zero-Watermarking Algorithm for Authentication of Text Documents” (IJCSIS) International Journal of Computer Science and Information Security, Vol 7, No 2, February 2010 29 biết bảo vệ” [26] H.G Vo, H.C Ly, V.D Nguyen, N.N.M Ngo: “A Solution to Apply Artificial Neural Network for Extracting Hidden Information from Vietnamese Document Image” In 2010 IEEE-RIVF International Conference on Computing and Communication Technologies, Hanoi, Vietnam, pp 95-98, November, 2010 Tp.HCM, ngày tháng năm Tp.HCM, ngày tháng năm Chủ nhiệm đề tài TL HIỆU TRƯỞNG (Ký ghi rõ họ tên) KT TRƯỞNG PHỊNG KHCN&DA PHĨ TRƯỞNG PHỊNG TS Nguyễn Tường Long 30 PHỤ LỤC A Bài báo khoa học liên quan cơng bố Nguyễn Văn Đồn, Nguyễn Thanh Tặng, Đặng Trần Khánh, Trần Trung Hiển: “Phương pháp giấu tin bí mật vào văn tiếng Việt” Tạp chí Khoa học Cơng nghệ Đại học Đà Nẵng, ISSN 1859-1531, 3, số 9, trang 21-26, 2012 (tuyển chọn từ Hội thảo nghiên cứu khoa học: Công nghệ thông tin ứng dụng công nghệ thông tin lĩnh vực, 6/2012, TP Đà Nẵng) Nguyễn Văn Đoàn, Nguyễn Thanh Tặng, Đặng Trần Khánh, Trần Trung Hiển: “Phương pháp giấu tin bí mật vào văn tiếng Việt” Kỷ yếu Hội thảo nghiên cứu khoa học: Công nghệ thông tin ứng dụng công nghệ thông tin lĩnh vực, 6/2012, TP Đà Nẵng B Báo cáo khoa học liên quan cơng bố Nguyễn Văn Đồn, Nguyễn Thanh Tặng, Đặng Trần Khánh, Trần Trung Hiển: “Phương pháp giấu tin hiệu vào văn tiếng Việt” Hội thảo Quốc gia lần thứ XIV: Một số vấn đề chọn lọc Công nghệ Thông tin Truyền thông, ngày – 8/10/2011, TP Cần Thơ C Hướng dẫn sử dụng phần mềm demo Thực thao tác nhúng thông tin quyền vào tập tin sách Bước 1: chuyển tập tin sách tiếng Việt từ định dạng Microsoft Word sang định dạng PostScript Để chuyển tập tin sách tiếng Việt từ định dạng Microsoft Word sang định dạng PostScript cần cài phần mềm DOC to Image Converter (có bán http://www.pdf-convert.com/doc2img/) Sau cài đặt phần mềm DOC to Image Converter, phần mềm Microsoft Word có thêm cơng cụ (toolbar), minh họa Hình C.1 Sử dụng cơng cụ để chuyển tập tin Microsoft Word hành sang định dạng PostScript Hình C.1 – Cơng cụ Doc to Image Converter Dùng Microsoft Word mở tập tin sách cần nhúng thơng tin quyền Sau chọn cơng cụ Doc to Image Converter, Hình C.1 Trên cơng cụ Doc to Image Converter nút “Options” chọn định dạng tập tin tạo “Ps format”, hình C.2 31 Cuối cùng, chọn nút “Save As Image” công cụ Doc to Image Converter để chuyển định dạng Hình C.2 – Chọn định dạng cho cơng cụ Doc to Image Converter Bước 2: thực nhúng thông tin quyền vào tập tin định dạng PostScript Hình C.3 – Giao diện nhúng thơng tin 32 Chạy phần mềm demo chọn tab “Encoder”, Hình C.3, sau nhập thơng tin: − Nhập đơn vị dịch chuyển (thường 4/1200=1/300 inch) − Nhập ký tự khơng nhúng thơng tin (nếu có) Một số ký tự chọn để nhúng thông tin, rút trích khó khăn Nên phần mềm hỗ trợ loại bỏ ký tự − Nhập thông tin cần nhúng Thông tin cần nhúng chuỗi ký tự − Nhập tên tập tin sách định dạng PostScript tạo Bước − Nhập tên tập tin sách sau nhúng thông tin Sau nhấn nút “Nhúng thơng tin” để bắt đầu q trình nhúng thơng tin Chuyển tập tin định dạng PostScript sang định dạng PDF Để chuyển tập tin từ định dạng PostScript sang định dạng PDF cần cài thêm phần mềm GhostScript (tải miễn phí www.ghostscript.com) Hình C.4 – Giao diện chuyển định dạng tập tin Sau cài GhostScript, chạy phần mềm demo, chọn tab “PS2PDF” Hình C.4 Trên tab “PS2PDF”, nhập thơng tin cần thiết sau: − Đường dẫn tới tập tin gswin32.exe GhostScript vừa cài 33 − Nhập tên tập tin sách định dạng PostScript nhúng thông tin quyền − Nhập tên đường dẫn tập tin định dạng PDF tạo Tiếp theo, nhấn nút “Chuyển” để bắt đầu trình chuyển định dạng Thực thao tác rút trích thơng tin quyền Hiện phần mềm demo hỗ trợ xử lý rút trích thơng tin hình ảnh văn điện tử, chưa hỗ trợ ảnh quét từ máy scanner Ngồi ra, phần ứng dụng rút trích cịn chạy chậm có độ xác khơng cao Đầu tiên tạo ảnh văn bản, dạng ảnh xám bit định dạng Bitmap, với độ phân giải 300 DPI Sau chạy phần mềm demo chọn tab ”Decoder” Hình C.5 – Giao diện rút trích thơng tin Tiếp theo nhập thông tin đường dẫn tới tập tin ảnh văn chọn nút “Rút trích” để thực q trình lấy lại thơng tin nhúng 34 ... chứng minh quyền sở hữu Đề t? ?i t? ??p trung nghiên cứu kỹ thu? ?t watermarking liệu văn (sách) nhằm đề xu? ?t giải pháp áp dụng kỹ thu? ?t watermarking bảo vệ quyền sách tiếng Vi? ?t Chương KỸ THU? ?T WATERMARKING. .. nhúng thông tin Chúng tiếp t? ??c ph? ?t triển giải pháp áp dụng watermarking vào văn tiếng Vi? ?t thông qua việc dịch chuyển dấu dấu đặc bi? ?t [6 ,23] Trong văn tiếng Vi? ?t, t? ? ?t ký t? ?? có dấu tiếng Vi? ?t như:... Khánh, Trần Trung Hiển: “Phương pháp giấu tin bí m? ?t vào văn tiếng Vi? ?t? ?? Kỷ yếu Hội thảo nghiên cứu khoa học: Công nghệ thông tin ứng dụng công nghệ thông tin lĩnh vực, 6/2012, TP Đà Nẵng B Báo cáo