Chương 4 đề cập đến an toàn cơ sở dữ liệu thống kê. Trong chương này chúng ta sẽ đi sâu vào các vấn đề suy diễn trên các CSDL thống kê, thảo luận một số kỹ thuật bảo vệ cơ bản, đánh giá chung về đặc trưng của các kỹ thuật nói tên. Mời các bạn cùng tham khảo.
CHƯƠNG AN TOÀN CSDL THỐNG KÊ Giảng viên: Trần Thị Lượng Mục tiêu Chúng ta sâu vào vấn đề suy diễn CSDL thống kê Thảo luận số kỹ thuật bảo vệ bản: Kỹ thuật dựa vào khái niệm Kỹ thuật dựa vào hạn chế Kỹ thuật dựa vào gây nhiễu Đánh giá chung đặc trưng kỹ thuật Nội dung 4.1 Giới thiệu 4.2 Các khái niệm giả định 4.3 Một số kiểu công suy diễn 4.4 Các kỹ thuật chống suy diễn 4.4.1 Các kỹ thuật khái niệm 4.4.2 Các kỹ thuật dựa vào hạn chế 4.4.3 Các kỹ thuật dựa vào gây nhiễu 4.5 Khung làm việc chung dành cho việc so sánh kỹ thuật chống suy diễn 4.1 Giới thiệu CSDL thống kê (SDB) CSDL chứa ghi nhạy cảm mô tả cá nhân câu truy vấn thống kê (như: COUNT, SUM, MEAN, MAX, MIN…) trả lời, ngồi câu truy vấn truy vấn vào mục liệu riêng không đáp lại Ví dụ số câu truy vấn thống kê COUNT: Select count(*) from Nhanvien (Trả lại tổng số lượng bg table) Select count(Luong) AS count_Luong from Nhanvien Select count(Distinct Luong) from Nhanvien (Trả lại số lượng loại lương phân biệt nhau) select count(*) from nhanvien where Luong1000 Select AVG(distinct Luong) AS avg_Luong from Nhanvien Select chucvu, AVG(Luong) as avg_Luong, SUM(Luong) as sum_luong from Nhanvien Group by chucvu Order by chucvu Ví dụ số câu truy vấn thống kê MIN: Select MIN(Luong) from Nhanvien Select MIN(Distinct Luong) from Nhanvien MAX Select MAX(Distinct Luong) from Nhanvien Select MAX(Luong) from Nhanvien 4.1 Giới thiệu Ứng dụng SDB (Statistical Database): CSDL điều tra dân số, CSDL số người tử vong, kế hoạch kinh tế, CSDL thống kê khám chữa bệnh, CSDL vụ tai nạn ô tô, CSDL công nhân, CSDL thống kê tội phạm… Ví dụ: 4.1 Giới thiệu Vấn đề bảo vệ SDB: Vấn đề bảo vệ SDB dàn xếp yêu cầu cá nhân quyền tổ chức để biết xử lý thông tin => vấn đề suy diễn SDB Suy diễn: SDB có nghĩa thu thơng tin bí mật thực thể đơn lẻ, cách lợi dụng câu truy vấn thống kê 4.4.3.1 kỹ thuật gây nhiễu liệu Gây nhiễu dựa vào truy vấn Thống kê Count: Giả sử thống kê Count(C) = m n m’ = z j3 Với E(z3) = Var(z3) = a21 /m, z3 sinh ngẫu nhiên độc lập với ghi xi X(C) E(m’) = m Var(m’) = a21 4.4.3.1 kỹ thuật gây nhiễu liệu Gây nhiễu dựa vào truy vấn Ưu điểm: Gây nhiễu liệu nên chống nhiều công Nhược điểm: Với thống kê, lại phải áp dụng hàm gây nhiễu f, với gía trị nhiễu=> tốn cơng, giảm hiệu hệ thống Kết đưa khơng xác 4.4.3.2 Kỹ thuật gây nhiễu đầu Qu er y 4.4.3.2 Kỹ thuật gây nhiễu đầu Các kỹ thuật gây nhiễu đầu thực sửa đổi kết tính tốn xác câu truy vấn thống kê, trước chuyển cho người sử dụng Kỹ thuật Làm tròn (rounding) 4.4.3.2 Kỹ thuật gây nhiễu đầu Kỹ thuật Làm tròn (rounding) Kết câu truy vấn làm trịn: Q' = r(Q) Làm trịn có hệ thống (systematic rounding) Làm tròn ngẫu nhiên (random rounding) 4.4.3.2 Kỹ thuật gây nhiễu đầu Làm tròn có hệ thống (systematic rounding) Q' kết sửa đổi, tính tốn cho thống kê yêu cầu q(C) b'= (b+1)/2 (ký hiệu làm tròn xuống số nguyên gần nhất), giá trị b Admin chọn d = Q mod b Q nêu d r(Q) = ' Q d nêu d b ' Q b d nêu d b 4.4.3.2 Kỹ thuật gây nhiễu đầu Làm tròn ngẫu nhiên (random rounding) Q' kết sửa đổi, tính tốn cho thống kê yêu cầu q(C) b'= (b+1)/2 (ký hiệu làm tròn xuống số nguyên gần nhất) d = Q mod b r(Q) = Q nêu d Q d voi xác suât p Q b d voi xác suât p Xác suất p = d/b 4.4.3.2 Kỹ thuật gây nhiễu đầu Kỹ thuật Làm tròn (rounding) Ưu điểm: Bảo vệ công đơn giản Nhược điểm: Không chống công trung bình, cơng trình theo dõi Kết đưa khơng xác Nội dung 4.1 Giới thiệu 4.2 Các khái niệm giả định 4.3 Một số kiểu công suy diễn 4.4 Các kỹ thuật chống suy diễn 4.4.1 Các kỹ thuật khái niệm 4.4.2 Các kỹ thuật dựa vào hạn chế 4.4.3 Các kỹ thuật dựa vào gây nhiễu 4.4.4 Các kỹ thuật dựa vào mẫu ngẫu nhiên 4.5 So sánh kỹ thuật chống suy diễn 4.4.4 Kỹ thuật mẫu ngẫu nhiên Cục điều tra dân số Mỹ sử dụng kỹ thuật mẫu ngẫu nhiên để ngăn chặn suy diễn sở liệu thống kê Ý tưởng: kỹ thuật sử dụng mẫu ghi từ tập truy vấn tương ứng với truy vấn thống kê, thay lấy mẫu tồn SDB 4.4.4 Kỹ thuật mẫu ngẫu nhiên Cơ chế kỹ thuật thay tập truy vấn (có liên quan đến câu truy vấn thống kê) tập truy vấn lấy mẫu (sampled query set) gồm tập ghi chọn lựa xác tập truy vấn gốc Sau đó, tiến hành tính tốn thống kê u cầu tập truy vấn mẫu Sử dụng hàm chọn f(C, i) để chọn lựa ghi từ tập truy vấn gốc tương ứng với thống kê q(C) mà người dùng yêu cầu Nội dung 4.1 Giới thiệu 4.2 Các khái niệm giả định 4.3 Một số kiểu công suy diễn 4.4 Các kỹ thuật chống suy diễn 4.4.1 Các kỹ thuật khái niệm 4.4.2 Các kỹ thuật dựa vào hạn chế 4.4.3 Các kỹ thuật dựa vào gây nhiễu 4.4.4 Các kỹ thuật dựa vào mẫu ngẫu nhiên 4.5 So sánh kỹ thuật chống suy diễn 4.5 So sánh kỹ thuật chống suy diễn Các tiêu chuẩn so sánh: Security: đánh giá mức độ bảo vệ kỹ thuật (chống công nào), chống suy diễn, có lộ xác, lộ phần khơng Mức đầy đủ thông tin: kết trả có xác khơng, có qn khơng có bị mát thông tin hay không Cost: chi phí thực hiện, chi phí xử lý câu truy vấn (thời gian CPU), chi phí đào tạo ngươì dùng 4.5 So sánh kỹ thuật chống suy diễn Method Security Richness of Information Costs Query-set Restriction Low Low1 Low Microaggregation Moderate Moderate Moderate Data Perturbation High High-Moderate Low Moderate Moderate-low Low Auditing Moderate-Low Moderate High Sampling Moderate Moderate-Low Moderate Output Perturbation ... 4. 1 Giới thiệu 4. 2 Các khái niệm giả định 4. 3 Một số kiểu công suy diễn 4. 4 Các kỹ thuật chống suy diễn 4. 4.1 Các kỹ thuật khái niệm 4. 4.2 Các kỹ thuật dựa vào hạn chế 4. 4.3 Các... 4. 1 Giới thiệu 4. 2 Các khái niệm giả định 4. 3 Một số kiểu công suy diễn 4. 4 Các kỹ thuật chống suy diễn 4. 4.1 Các kỹ thuật khái niệm 4. 4.2 Các kỹ thuật dựa vào hạn chế 4. 4.3 Các... 4. 1 Giới thiệu 4. 2 Các khái niệm giả định 4. 3 Một số kiểu công suy diễn 4. 4 Các kỹ thuật chống suy diễn 4. 4.1 Các kỹ thuật khái niệm 4. 4.2 Các kỹ thuật dựa vào hạn chế 4. 4.3 Các