ẨN THÔNG TIN TRÊN DỮ LIỆU SỐ VÀ ỨNG DỤNG Nhóm thực hiện Nhóm 02 Bùi Thanh Phương CH1902016 Lê Thành Danh CH2002003 Nguyễn Long Nhật Quang CH2020205 TP Hồ Chí Minh, Ngày 11 tháng 11 năm 2021 1 PHỤ LỤC[.]
ẨN THÔNG TIN TRÊN DỮ LIỆU SỐ VÀ ỨNG DỤNG Nhóm thực hiện: Nhóm 02 Bùi Thanh Phương CH1902016 Lê Thành Danh CH2002003 Nguyễn Long Nhật Quang CH2020205 TP Hồ Chí Minh, Ngày 11 tháng 11 năm 2021 PHỤ LỤC Giới thiệu 1.1 Bài báo 1.2 Nội dung báo 1.3 Mục tiêu 1.4 Phạm vi 1.5 Đối tượng nghiên cứu 1.6 Kết đề tài/paper 1.7 Mô tả tổng quát toán: Input, Process, Output Các nghiên cứu hướng tiếp cận liên quan: Mô hình/thuật tốn đề xuất cải tiến 3.1 Mơ hình 3.2 Phương thức: 10 3.3 Các thuật tốn 11 Thành phần cải tiến, đóng góp tác giả 12 4.1 Thành phần cải tiến báo 12 4.2 Đóng góp tác giả 13 Thực nghiệm 14 Đề xuất nghiên cứu 15 Bảng phân công công việc 15 Nguồn liệu tài liệu tham khảo 16 NỘI DUNG Giới thiệu 1.1 Bài báo Tên báo: - Tiếng Việt: Bằng chứng khả truy xuất dựa Watermarking dễ vỡ cho lưu trữ liệu đám mây - Tiếng Anh: Fragile Watermarking Based Proofs of Retrievability for Archival Cloud Data - Xuất năm 2016 IWDW 2016 (https://drive.google.com/file/d/1P0VA3O_1EYW1qpTXKtQXHlksFXFb0 U9C/) Nhóm tác giả: Gồm có ba thành viên: Xin Tang (a)(b), Yining Qi (a)(b), Yongfeng Huang (a)(b) (a) Khoa kỹ thuật điện tử, Đại học Thanh Hoa, Bắc Kinh, Trung Quốc (b) Phịng thí nghiệm Khoa học Công nghệ Thông tin Quốc gia Thanh Hoa, Bắc Kinh, Trung Quốc Các từ khoá liên quan: 1.2 - Watermarking dễ vỡ - Bằng chứng khả truy xuất - Lưu trữ đám mây Nội dung báo Lưu trữ đám mây sử dụng rộng rãi để giảm bớt gánh nặng lưu trữ cho clients đặt vấn đề việc bảo mật liệu: liệu hành vi sai lạc (corruption) phát phục hồi hay khơng? Các nghiên cứu trước xác minh tính tồn vẹn khơi phục lỗi Tuy nhiên, điều dẫn đến chi phí lưu trữ bổ sung cho lưu trữ đám mây chi phí tính tốn cao cho clients.Vì báo đời với mục tiêu làm để khắc phục nhược điểm Để khắc phục nhược điểm mơ hình trước đó, báo đề xuất đến sơ đồ POR (Proofs of retrievability) kiểm tra cơng khai dựa kỹ thuật watermarking dễ vỡ cho liệu đám mây lưu trữ, khơng cải thiện hiệu suất quy trình kiểm tốn mà cịn đảm bảo đồng thời bảo vệ quyền riêng tư khả chống công lại Các kết mơ xác nhận tính đắn chương trình việc phát khôi phục lỗi liệu cải thiện lớn hiệu suất so với chương trình POR (Proofs of retrievability) truyền thống 1.3 Mục tiêu - Kiểm tra xem liệu lưu trữ có bị giả mạo hư hỏng hay không? - Khôi phục liệu bị hỏng - Giảm thiểu chi phí lưu trữ chi phí tính tốn - Đảm bảo tính bảo mật liệu ngăn chặn công (replay attack) 1.4 Phạm vi Phạm vi nghiên cứu: - Kỹ thuật watermarking POR (Proofs of retrievability) - Lưu trữ đám mây 1.5 Đối tượng nghiên cứu Đối tượng nghiên cứu báo xác minh tính toàn vẹn phục hồi liệu bị hư hại lưu trữ đám mây 1.6 Kết đề tài/paper Nhóm tác giả đề xuất sơ đồ POR (Proofs of retrievability): - Có thể kiểm tra cơng khai dựa kỹ thuật đánh dấu cho liệu đám mây, không cải thiện hiệu quy trình kiểm tra mà cịn đồng thời đảm bảo bảo vệ quyền riêng tư khả chống cơng - Có thể giảm chi phí tính tốn cho client chi phí lưu trữ bổ sung cho đám mây lúc Các thử nghiệm đưa chứng minh chi phí thấp so với mơ hình POR tiền nhiệm 1.7 Mơ tả tổng qt tốn: Input, Process, Output Input: Hình ảnh nhúng watermarking dễ vỡ Process: - Giai đoạn thiết lập: trước tiên máy khách (client) tạo thơng số public private, sau tạo watermark xác minh watermark phục hồi (chúng sử dụng để phát khôi phục lỗi liệu) Cuối cùng, hai watermark nhúng vào liệu - Giai đoạn xác minh, client kiểm tra tính tồn vẹn liệu đám mây cách sử dụng TPA (Third Party Auditor) thực xác minh theo cách phản hồi thách thức (challenge-response) - Giai đoạn khôi phục, client sửa phần bị hỏng thông qua watermark khôi phục truy xuất từ CSS (Cloud Service Server) Output: - Dữ liệu toàn vẹn bị hư hại - Nếu liệu bị hư hại phục hồi nguyên trạng ban đầu Các nghiên cứu hướng tiếp cận liên quan: Để đạt kiểm tốn tồn vẹn liệu lưu trữ đám mây, nhiều cơng trình đề xuất như: G Ateniese cộng đề xuất mơ hình PDP (the first provable data possession) vào năm 2007 Cung cấp giải pháp để client xác minh tính nguyên vẹn liệu đám mây mà không cần tải xuống Sau báo có nhiều giải pháp được đề xuất nhắm vào vấn đề nghiên cứu khác bảo vệ quyền riêng tư (privacy preserving), khả kiểm tốn cơng khai liệu động (public auditability and data dynamics) , kịch mở rộng tăng cường bảo mật cách sử dụng mật mã dựa danh tính.Tuy nhiên, lược đồ PDP có nhược điểm khơng thể khơi phục khối liệu bị hỏng, đó, lược đồ chứng khả truy xuất (POR) đưa để khắc phục nhược điểm Năm 2007, Juels cộng đề xuất chương trình POR kết hợp mã kiểm tra chỗ dựa sở giám sát (sentinel-based spot-checking) mã sửa lỗi xóa (erasurecorrecting code) với để đảm bảo khả truy xuất liệu đám mây Một cơng trình tiếp theo, C Wang cộng cho phép hoạt động liệu động khơng hồn chỉnh, sửa đổi, xóa phụ lục (appendant ) Tuy nhiên, phương pháp dựa sentinel có khiếm khuyết đáng kể mã thơng báo thẻ tính tốn trước hỗ trợ giới hạn thời gian kiểm tra audit Để cải tiến cơng trình trước đó, H Shacham cộng thực hóa sơ đồ POR với thời gian kiểm tra không giới hạn mơ hình tiên tri ngẫu nhiên (random oracle model) Mặt khác, tập trung vào chi phí thu hồi Sau hàng loạt cơng trình đời: N Cao cộng thay mã RS mã LT để cải thiện tốc độ giải mã trình truy xuất liệu đồng thời giảm độ phức tạp sửa chữa liệu Tiến thêm bước nữa, C.H Chen cộng giới thiệu mã phục hồi có đặc tính chịu lỗi (fault tolerance) u cầu sửa chữa khôi phục lỗi Tận dụng nghiên cứu trước, K Yang cộng mở rộng kịch ứng dụng lược đồ POR sang kiểm tra hàng loạt cho nhiều người dùng đa đám mây Tuy nhiên, tương tự công việc đề cập trên, hầu hết lược đồ POR dựa code dư thừa chiếm thêm khơng gian lưu trữ Ngồi ra, dẫn đến chi phí tính tốn lớn cho clients q trình khơi phục hư hại (corruption recovery) Bên cạnh mơ hình PDP POR truyền thống, watermark dễ vỡ cung cấp cách hiệu để phát khôi phục liệu bị hỏng Thường hình mờ nhúng theo cách khó nhận biết để chúng khơng ảnh hưởng đến việc sử dụng liệu Ví dụ, chụp ảnh kỹ thuật số, P.W Wong cộng đề xuất khuôn khổ đánh dấu công khai xác minh để phát hư hại Lược đồ mã hóa hình mờ private key trước nhúng để ngăn bên trái phép giả mạo tùy ý người xác minh đáng tin cậy (trusted verifiers) sử dụng khóa cơng khai để trích xuất hình mờ Để cải thiện tính bảo mật độ xác giả mạo địa hóa (tamper localization), H.J He cộng ẩn hình mờ khối khối khác theo chuỗi khối hoán vị ngẫu nhiên, điều làm giảm xác suất hỏng đồng thời nội dung hình mờ Bên cạnh việc phát giả mạo dựa hình mờ xác minh P.L Lin cộng trình bày phương pháp đánh dấu phân cấp để đảm bảo độ xác cao việc phát giả mạo thực khôi phục lỗi cách lấp đầy khối 2x với cường độ trung bình pixel T.Y Lee cộng đề xuất watermarking kép lược đồ nhúng hình mờ khơi phục nhiều lần để tăng cường bảo mật Z.X Qian cộng giới thiệu phương pháp đánh dấu watermarking với khả khôi phục cải thiện thông qua hệ số DCT bit tham chiếu mở rộng Tuy nhiên, watermarking dễ vỡ sử dụng để phát khôi phục liệu bị hỏng, thách thức để triển khai POR dựa watermark dễ vợ tất cơng trình có khiếm khuyết chung: khó đạt đồng thời bảo toàn quyền riêng tư khả chống cơng lại Các hình mờ dựa giá trị băm nội dung hình ảnh, CSS tính tốn trước lưu trữ để vượt qua xác minh lúc Vấn đề trở ngại lớn việc thực hóa POR dựa hình mờ Mơ hình/thuật tốn đề xuất cải tiến 3.1 Mơ hình Kiến trúc hệ thống cho mơ hình POR dựa watermarking dễ vỡ minh họa hình bên Kiến trúc có phần khác nhau: - Lưu trữ đám mây (CSS - Cloud Service Server): có dung lượng lưu trữ lớn cung cấp dịch vụ lưu trữ theo mơ hình giá tùy thuộc vào nhu cầu sử dụng - Client: chủ sở hữu liệu đám mây - Kiểm toán viên bên thứ ba (TPA - Third Party Auditor ), có chun mơn khả client client tin tưởng để xác minh tính tồn vẹn liệu mây Trong kiến trúc này, toàn giao thức chia thành ba giai đoạn: - Giai đoạn thiết lập: trước tiên client tạo thông số public private, sau tạo watermark xác minh watermark phục hồi (chúng sử dụng để phát khôi phục lỗi liệu) Cuối cùng, hai watermark nhúng vào liệu - Giai đoạn xác minh: client kiểm tra tính tồn vẹn liệu đám mây cách sử dụng TPA (Third Party Auditor) thực xác minh theo cách phản hồi thách thức (challenge-response) - Giai đoạn khôi phục: client sửa phần bị hỏng thông qua watermark khôi phục truy xuất từ CSS (Cloud Service Server) 3.2 - Phương thức: Public key watermarking: thiết kế dựa lược đồ đánh dấu khóa cơng khai Wong Ngun tắc phương pháp đưa lược đồ giải mã mã hóa khóa cơng khai vào quy trình nhúng giải nén hình mờ Có nghĩa là, tất hình mờ phải mã hóa private key trước nhúng giải mã public key sau giải nén Việc áp dụng mã hóa public key ngăn cản đám mây (CSS - Cloud service server) giả mạo, thích hợp cho kiểm tốn cơng khai, có public key thực xác minh hình ảnh Ngồi ra, đảm bảo hình mờ khơi phục bảo vệ, 10 tránh rủi ro nội dung khôi phục CSS (Cloud service server) định cách tùy tiện - Giao thức Diffie-Hellman: phương pháp lần đề xuất Y Deswarte cộng sự, dùng để giao tiếp clients server Cho p số nguyên nguyên tố g nguyên Z p M liệu đám mây m = gM mod N message tính tốn trước bới client Bây client muốn xác minh M với m đảm bảo message nhận khơng phải message tính tốn Để giải vấn đề này, trước tiên khách hàng chọn số nguyên ngẫu nhiên r thuộc Zp, gửi A = gr mod N lên đám mây Sau nhận yêu cầu, đám mây trả B = A M mod N Cuối cùng, client so sánh B với mr mod N 3.3 - Các thuật toán (pk, sk) GenKey(1k) GenKey thuật tốn để tạo tham số cơng khai riêng tư, thực thi phía client Nhận tham số bảo mật k làm đầu vào trả tham số công khai riêng tư (pk, sk), tham số cần thiết để tạo, nhúng xác minh watermarks - (W1,W2) GenWatermark(I, ID, pk) Khi tham số công khai tạo, client tạo watermark cho tệp I, định danh mã ID Thuật toán xuất watermark xác minh W1 watermark khôi phục W2 cho I tương ứng - (Ĩ) Embed(I, W1,W2, pk, sk) Embed thuật toán client chạy để nhúng hai loại watermark W1 W2 vào liệu gốc I Các tham số public private (pk, sk) sử dụng để bảo vệ watermark trước nhúng - (P) GenP roof (Ĩ, pk, chal) Genproof thực thi CSS để tạo chứng có yêu cầu xác minh Đầu vào liệu Ĩ watermarked, tham số công khai pk thách thức chal, đâu chứng P - (T RU E, F ALSE) VerifyProof(P, pk, sk, chal) Sau nhận P từ server, TPA xác thực P trả kết TRUE xác minh thành công 11 FALSE xác minh thất bại - (Ck2, bi’ ) Retrieve(request) Retrieve thuật toán thực thi phía CSS Nhận yêu cầu từ server trả watermark khôi phục C k2 mã hóa cho liệu khối bi’ - (b~i) Recover(Ck2, bi’ , sk, pk) Sau nhận thông tin phục hồi từ CSS, thuật toán thực thi phía server, phục hồi liệu bị hỏng Thành phần cải tiến, đóng góp tác giả 4.1 Thành phần cải tiến báo Trong báo này, nhóm tác giả đề xuất mơ hình POR khơng ngăn chặn việc giả mạo watermark, cơng lại mà cịn giảm thiểu: - Chi phí tính tốn: Có hai giai đoạn mà client sử dụng tài ngun để thực tính tốn giai đoạn thiết lập giai đoạn khơi phục Trong trình thiết lập, client tạo watermark nhúng chúng vào hình ảnh trước đưa lên đám mây Tác giả so sánh chi phí tính tốn giai đoạn thiết lập việc mã hóa mã Reed-Solomon với hai tham số khác (255, 223) (255, 239) so sánh Kết cho thấy mơ hình tác giả có chi phí tính tốn thấp Trong giai đoạn khôi phục, để sửa chữa khối bị hỏng client cần giải mã watermark khơi phục khóa đối xứng, lấp đầy tất khối phụ giá 12 trị trung bình tạo lại watermark xác minh watermark khôi phục lưu trữ trước đó.Tất tính tốn liên quan đến hai khối phương pháp mã hóa cần thực tính tốn ma trận với m khối khác, phức tạp So sánh thời gian khôi phục liệu cho thấy phương pháp tác giả có chi phí thấp so với RS code - Chi phí lưu trữ: Ta có: - | F | kích thước tệp gốc - n tổng số khối liệu gốc - | B | kích thước khối bị hỏng - Đối với lược đồ dựa mã hóa (encoding-based scheme), N đại diện cho tổng số máy chủ K đại diện cho số lượng máy chủ khỏe mạnh tối thiểu phép để khơi phục lỗi Từ bảng trên, thấy chi phí lưu trữ mơ hình POR F (gần không thay đổi) với kích thước tệp gốc chi phí lưu trữ giảm đáng kể so với RS code LT code 4.2 Đóng góp tác giả - Nhóm tác giả đề xuất mơ hình POR dựa watermarking dễ vỡ (áp dụng phương pháp public key watermarking giao thức Diffie-Hellman) cho liệu đám mây dùng để xác minh phục hồi liệu bị hỏng - Kết thực nghiệm mơ hình cho thấy mơ hình cịn làm giảm thiểu chi phí lưu trữ tính tốn cho client 13 Thực nghiệm Nhóm tác giả tiến hành thực nghiệm tính đắn mơ hình việc tạo nhúng watermark vào ảnh Lena Sau làm sai lệch liệu phục hồi lại liệu ban đầu Thử nghiệm thực C ++ máy tính với CPU Intel Core i5-4590 @ 3,30GHz, RAM 8GB ổ cứng 1TB Tác giả triển khai thuật toán cách sử dụng thư viện tiền điện tử OpenSSL phiên 1.0.2h Đầu tiên chia hình ảnh Lena (kích thước 384 x 384) thành khối 16 x 16 để không gian nhúng cho watermark xác minh khối 128 bit MD5 chọn làm hàm băm mật mã để tạo watermark xác minh,độ dài giá trị 128 bit Kết theo hình bên ta có (a) ảnh gốc (b) ảnh nhúng watermark Để lượng hóa độ nhận watermark tác giả báo sử dụng giá trị tỷ lệ tín hiệu đỉnh nhiễu (PSNR) làm số cho giảm chất lượng hình ảnh: MSE (mean square error) sai số tồn phương trung bình hai hình ảnh Đối với hình (b) trên, PSNR watermarked Lena 44.1503 dB tính khơng thể nhận đảm bảo (Giá trị thông thường PSNR lossy ảnh 14 nén video nằm từ 30 đến 50 dB, giá trị cao tốt Giá trị chấp nhận truyền tín hiệu khơng dây có tổn thất khoảng từ 20dB đến 25dB.) Tiếp theo tác giả sửa đổi hình ảnh watermark để kiểm tra hiệu việc phát khơi phục hư hại Hình ảnh watermark bị giả mạo Hình (a) bên Kết xác minh thể Hình (b) trên, vùng màu trắng phần sai lệch, vùng màu đen phần ngun vẹn Hình ảnh khơi phục thể Hình (c) chất lượng khơi phục đánh giá PSNR 41,6426 dB Đề xuất nghiên cứu - Áp dụng mơ hình cho Zalo Cloud - Xây dựng thử nghiệm tệp video Bảng phân công công việc Học viên Nội dung thực Đóng góp Bùi Thanh Phương Nội dung: 1,2,5 Tổng hợp, chỉnh sửa báo 34% - CH1902016 cáo Lê Thành Danh Nội dung: 33% 15 - CH2002003 Nguyễn Long Nhật Quang Nội dung: 4,6 33% - CH2020205 Nguồn liệu tài liệu tham khảo - Bài báo: Fragile Watermarking Based Proofs of Retrievability for Archival Cloud Data - Giao thức Diffie-Hellman: https://blog.duyet.net/2016/03/giao-thuc-diffiehellman.html - POR - proofs of retrievability: https://www.researchgate.net/publication/220337186_Proofs_of_Retrievability_T heory_and_Implementation - Tỉ số tín hiệu cực đại nhiễu: https://vi.wikipedia.org/wiki/T%E1%BB%89_s %E1%BB%91_t%C3%ADn_hi%E1%BB%87u_c%E1%BB%B1c_ %C4%91%E1%BA%A1i_tr%C3%AAn_nhi%E1%BB%85u - He, H.-J., Zhang, J.-S., Tai, H.-M.: Block-chain based fragile watermarking scheme with superior localization In: Solanki, K., Sullivan, K., Madhow, U (eds.) IH 2008 LNCS, vol 5284, pp 147–160 Springer, Heidelberg (2008) - Yuan, H., Zhang, X.-P.: Multiscale fragile watermarking based on the Gaussian mixture model IEEE Trans Image process 15(10), 3189–3200 (2006) 16