1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài nghiên cứu khoa học cấp trường: Bảo vệ tính riêng tư trong xử lý câu truy vấn trên dòng dữ liệu

35 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bảo vệ tính riêng tư trong xử lý câu truy vấn trên dòng dữ liệu
Tác giả Nguyễn Ngọc Thiên An, Đặng Trần Khánh
Người hướng dẫn Đặng Trần Khánh, PGS.TS
Trường học Đại Học Quốc Gia Tp. HCM
Chuyên ngành Khoa Học & Kỹ Thuật Máy Tính
Thể loại Báo cáo Tổng Kết Kết Quả Đề Tài KHCN Cấp Trường
Năm xuất bản 2013
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 35
Dung lượng 3,05 MB

Cấu trúc

  • 1. Nội dung đăng ký (4)
  • 2. Kết quả thực hiện (4)
    • 2.1. Tìm hiểu tổng quan vấn đề xử lý truy vấn trên dòng dữ liệu (4)
    • 2.2. Tìm hiểu các kỹ thuật làm mờ dữ liệu cho dòng dữ liệu (6)
    • 2.3. Đề xuất giải pháp bảo vệ tính riêng tư trong xử lý truy vấn trên dòng dữ liệu (6)
    • 2.4. Hiện thực demo cho giải pháp đề xuất (15)
    • 2.5. Viết bài báo khoa học cho hội nghị/tạp chí chuyên ngành (18)
  • 3. Kết quả mới (18)
    • 3.1. Đánh giá theo lý thuyết (19)
    • 3.2. Đánh giá theo thực nghiệm (20)
  • 4. Đề xuất ứng dụng (22)
  • 5. Báo cáo kinh phí (24)
  • 6. Báo cáo quyết toán (25)
  • 7. Danh mục tài liệu tham khảo (25)
  • 8. Kết luận và kiến nghị (27)
  • PHỤ LỤC (29)

Nội dung

Đề xuất giải pháp để bảo vệ tính riêng tư trong xử lý câu truy vấn trên dữ liệu dòng:  Xây dựng giải thuật bảo vệ tính riêng tư trong xử lý câu truy vấn trên dữ liệu dòng.. 5 Nghiên cứu

Nội dung đăng ký

Phần này liệt kê những nội dung đã được đăng ký trong thuyết minh đề tài a Tìm hiểu tổng quan vấn đề xử lý truy vấn trên dòng dữ liệu:

 Các yêu cầu cơ bản trong xử lý truy vấn trên dòng dữ liệu

 Các kỹ thuật xử lý truy vấn trên dòng dữ liệu

 Các kỹ thuật tối ưu trong xử lý truy vấn trên dòng dữ liệu

 Đánh giá, so sánh các điểm yếu, điểm mạnh của các kỹ thuật trên b Tìm hiểu các kỹ thuật làm mờ dữ liệu cho dạng dữ liệu theo dòng:

 Tìm hiểu các giải thuật làm mờ dữ liệu dựa trên kỹ thuật k-anonymity

 Tìm hiểu các kỹ thuật khác hỗ trợ cho việc bảo vệ tính riêng tư như: indexing, lý thuyết xác suất, mạng neuron,…

 Đánh giá, so sánh các điểm yếu, điểm mạnh của các kỹ thuật trên c Đề xuất giải pháp để bảo vệ tính riêng tư trong xử lý câu truy vấn trên dữ liệu dòng:

 Xây dựng giải thuật bảo vệ tính riêng tư trong xử lý câu truy vấn trên dữ liệu dòng

 Đề xuất kiến trúc cho hệ thống d Hiện thực một demo nhỏ cho giải pháp đề xuất e Viết bài báo khoa học cho hội nghị/tạp chí chuyên ngành f Viết báo cáo tổng hợp và nghiệm thu đề tài.

Kết quả thực hiện

Tìm hiểu tổng quan vấn đề xử lý truy vấn trên dòng dữ liệu

a Các yêu cầu cơ bản trong xử lý truy vấn trên dòng dữ liệu:

 Ảnh hưởng của các đặc tính dòng dữ liệu (liên tục, không giới hạn và tốc độ nhanh) lên việc xử lý truy vấn

 Các loại tác vụ gây khó khăn cho việc xử lý truy vấn trên dòng dữ liệu: stateful và blocking

5 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu

Bảng 1 - Tổng quan về các kỹ thuật xử lý truy vấn trên Dòng dữ liệu

Chỉnh sửa câu truy vấn

Precise Filtering Có Không Có Không Tinh lọc lại dữ liệu bằng các bộ lọc

Data Merging Không Có Có Không Kết hợp, gom nhóm dữ liệu

Blind Không Có Không Có Loại bỏ dữ liệu khi thiếu tài nguyên

Random Không Có Không Có Loại bỏ dữ liệu ngẫu nhiên Uniform Không Có Không Có Lấy dữ liệu đồng bộ Semantic Không Có Có Có Sử dụng vị từ

Limiting processing Có Không Không Có Giới hạn xử lý trên các phần tử chọn lọc

Punctu -ation Punctuations Không Có Có Không

Dựa vào cấu trúc bên trong của dòng dữ liệu để xây dựng và chèn dấu ngắt

-wing Windowing Có Không Có Không

Sử dụng các mốc thời gian để phân chia dòng dữ liệu

Sampling Không Có Không Có Lấy mẫu tập dữ liệu gốc Histograms Không Có Không Có

Phân chia dữ liệu theo một trường thành các bucket

Wavelets Không Có Không Có Phân rã theo hướng phân cấp hàm

Sketches Không Có Không Có Biến đổi tuyến tính dữ liệu gốc Micro-cluster based summarization Không Có Không Có Sử dụng vector đặc trưng theo thời gian

6 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu b Các kỹ thuật xử lý và tối ưu việc truy vấn trên dòng dữ liệu:

 Stream Filtering: Precise Filtering, Data Merging, Data Dropping (Blind/Random/Uniform/Semantic/Limiting processing)

 Synopses: Sampling, Histograms, Wavelets, Sketches, Micro-cluster based summarization c Đánh giá, so sánh các điểm yếu, điểm mạnh của các kỹ thuật nói trên

Bảng 1 tổng kết các đặc tính của các loại kỹ thuật kể trên.

Tìm hiểu các kỹ thuật làm mờ dữ liệu cho dòng dữ liệu

a Tìm hiểu các giải thuật làm mờ dữ liệu dựa trên kỹ thuật k-anonymity:

 Sliding Window Anonymization Framework (SWAF)

 Continuously Anonymizing STreaming data via adaptive cLustEring (CASTLE)

 Fast Anonymizing Algorithm for Numerical Streaming daTa (FAANST) b Tìm hiểu ứng dụng xác suất thống kê trong bảo vệ tính riêng tư thông qua một giải thuật c Đánh giá, so sánh các điểm yếu, điểm mạnh của các kỹ thuật trên.

Đề xuất giải pháp bảo vệ tính riêng tư trong xử lý truy vấn trên dòng dữ liệu

a Tìm hiểu các giải thuật lấy mẫu dòng dữ liệu dựa trên reservoir (Reservoir-based Sampling):

 Lấy mẫu theo reservoir có kích thước cố định (Fixed Reservoir Sampling)

Thuật toán lấy mẫu theo reservoir có kích thước thay đổi (Variable Reservoir Sampling) đề xuất một kiến trúc hệ thống gồm các thành phần cơ bản được minh họa trong Hình 1.

7 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu

 Bộ phận “Điều phối đầu vào”: chịu trách nhiệm quản lý, điều phối các phần tử dữ liệu đến liên tục của dòng dữ liệu gốc

 Bộ phận “Lấy mẫu”: chịu trách nhiệm lấy mẫu trên dữ liệu đầu vào theo giải thuật lấy mẫu thiên vị thời gian bằng reservoir có kích thước thay đổi (Variable Reservoir Sampling) Bộ phận này sẽ duy trì một mẫu động cho dòng dữ liệu gốc đang đến liên tục

 Bộ phận “Làm mờ”: chịu trách nhiệm làm mờ các dữ liệu đã được lấy mẫu để che giấu các thông tin riêng tư

 Bộ phận lưu trữ “Mẫu đã làm mờ”: lưu trữ mẫu động đã được làm mờ của dòng dữ liệu Mẫu này thay đổi theo tình trạng của dòng dữ liệu đến

 Bộ phận “Dữ liệu tĩnh”: lưu trữ các dữ liệu tĩnh cần thiết khác cho việc truy vấn

 Bộ phận “Kế hoạch truy vấn”: là nơi lưu trữ các câu truy vấn được thiết lập sẵn

 Bộ phận “Xử lý truy vấn”: thực hiện các câu truy vấn đã được lập sẵn và lưu trữ trong “Kế hoạch truy vấn” lên các phần tử dữ liệu nằm trong mẫu dữ liệu đã được làm mờ của dòng dữ liệu và các dữ liệu tĩnh có sẵn trên hệ thống

 Bộ phận “Bộ đệm đầu ra”: là nơi chứa các câu trả lời cho các câu truy vấn

Hình 1 - Kiến trúc tổng quan cho giải pháp đề xuất

8 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu

Quy trình hoạt động của hệ thống bắt đầu bằng việc xử lý dữ liệu đầu vào tại bộ phận "Điều phối đầu vào" Dữ liệu sau đó được đưa đến bộ phận "Lấy mẫu" và "Làm mờ" để tạo cấu trúc tóm lược, mờ dữ liệu và lưu trữ tại bộ phận "Lưu trữ mẫu đã làm mờ" Bộ phận "Xử lý truy vấn" thực hiện các truy vấn dựa trên "Kế hoạch truy vấn" trên dữ liệu lấy từ "Lưu trữ mẫu đã làm mờ", sau đó trả về kết quả.

“Lưu trữ dữ liệu tĩnh” Kết quả truy vấn sẽ được đưa đến “Bộ đệm đầu ra” để xuất ra ngoài c Xây dựng giải thuật bảo vệ tính riêng tư trong xử lý câu truy vấn trên dòng dữ liệu:

 Giải thuật tích hợp Synopses và kỹ thuật làm mờ theo K-Anonymity:

Thuật toán lấy mẫu được thiết kế dựa trên giải thuật reservoir có kích thước thay đổi để tạo ra cấu trúc tổng kết cho luồng dữ liệu Các thủ tục ADD() và REMOVE() được tích hợp để áp dụng kỹ thuật làm mờ cho mẫu dữ liệu Các thủ tục này quản lý việc cập nhật reservoir để đảm bảo các phần tử trong reservoir luôn đạt tiêu chuẩn K-Anonymity.

 READ_NEXT_ITEM(S): đọc phần tử dữ liệu kế tiếp của dòng dữ liệu

 RANDOM_REAL(a,b): sinh ra một số ngẫu nhiên kiểu số thực thuộc [a,b)

 RANDOM_INT(a,b): sinh ra một số ngẫu nhiên kiểu số nguyên thuộc [a,b)

 ADD(d,j): thêm phần tử dữ liệu d vào vị trí có chỉ số j của reservoir Hàm này thuộc giải thuật làm mờ dữ liệu, sẽ được trình bày rõ hơn trong phần kế tiếp

 REMOVE(j): loại bỏ khỏi reservoir phần tử dữ liệu tại chỉ số vị trí j Hàm này thuộc giải thuật làm mờ dữ liệu, sẽ được trình bày rõ hơn trong phần kế tiếp

9 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu

Bảng 2 – Mã giả của giải thuật lấy mẫu

Tham số đầu vào: Dòng dữ liệu S, kích thước reservoir thật n max , tham số đặc trưng λ

1 Khởi tạo reservoir ; 2 // giới hạn trên của kích thước reservoir ảo 3 ; // hệ số giảm của

4 ; // giới hạn dưới của 5 ; // số phần tử dữ liệu hiện tại trong reservoir 6 // kích thước hiện tại của reservoir ảo 7 ; // xác suất thêm phần tử dữ liệu vào mẫu 8 WHILE (NOT EOF) DO

10 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu

 Cây phân cấp đặc trưng hóa dữ liệu (Specialization Tree)

Trong giải pháp đề xuất, chúng tôi dựa trên giải thuật SKY để xây dựng hai thủ tục

ADD() và REMOVE() Ý tưởng chính của phương pháp làm mờ này là sử dụng Cây phân cấp đặc trưng hóa dữ liệu (Specialization Tree), gọi tắt là cây SP:

 SP là cây có hướng, biểu diễn sự đặc trưng hóa cho các bộ giá trị thuộc tính của các phần tử dữ liệu Do chúng ta chỉ cần che giấu các thuộc tính quasi-identifier (là các thuộc tính có khả năng làm lộ danh tính cá nhân) nên các nốt trong SP chỉ liên quan đến các thuộc tính quasi-identifier của các phần tử dữ liệu

 Mỗi thuộc tính quasi-identifier { } đều có một cây phân cấp tổng quát hóa miền dữ liệu (Domain Generalization Hierachies) được định nghĩa trước

 Mỗi nốt trong cây SP là một cấu trúc gồm các thông số: o : nhãn của nốt o : số lượng các phần tử dữ liệu trong reservoir được làm mờ bởi nhãn của nốt này o : danh sách các chỉ số vị trí của các phần tử trong reservoir được liên kết với nốt này

 Mỗi nốt SP có nhãn là một vector có dạng 〈 〉, trong đó được rút ra từ DGH Có một cạnh có hướng từ nốt đến nốt trong cây SP nếu: o thỏa DGH chứa cạnh ( ) ( )DGH

11 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu o

Về ý nghĩa, các nốt lá trong SP là nốt cụ thể nhất Còn nốt gốc hay còn gọi là gốc cây, lại có độ tổng quát hóa cao nhất Khi xét từ thấp lên cao, thì các nốt trong SP sẽ càng tổng quát hóa dần.

Hình 2 – Ví dụ về “Cây phân cấp đặc trưng hóa dữ liệu” (SP Tree)

Các cây SP và DGHi cần được xây dựng trước Hình 2 đưa ra một ví dụ minh họa cho cấu trúc của cây SP (trên hình chỉ thể hiện nhãn của từng nốt) Các phần tử dữ liệu của cây SP này gồm 3 thuộc tính là giới tính, tuổi, học vấn

Nhãn của các nốt trong cây SP được sử dụng cho việc làm mờ các phần tử dữ liệu

Hiện thực demo cho giải pháp đề xuất

Để chứng tỏ tính khả thi, khả năng hiện thực hóa và sự hiệu quả so với các giải thuật đang tồn tại, chúng tôi đã hiện thực một chương trình demo giải thuật SKY và giải thuật sử dụng Synopses (giải thuật được xây dựng trong đề tài nghiên cứu này) Chương trình xuất thông báo trong quá trình chạy thông qua giao diện Console và xuất một số kết quả ra file text

Chương trình cho phép chạy hai giải thuật trên cùng một tập dữ liệu Mỗi giải thuật đều sẽ làm mờ tập dữ liệu đầu vào Trong quá trình chạy, các bước và thông tin xử lý của từng bước sẽ được hiển thị lên màn hình Console để người dùng tiện theo dõi Hình 3 thể hiện một phần màn hình Console khi bắt đầu chạy giải thuật SKY Hình 4 thể hiện một phần màn hình Console khi kết thúc giải thuật SKY với số lượng dữ liệu đã xử lý và thời gian thực thi được hiển thị cuối cùng Tương tự, Hình 5 và Hình 6 thể hiện màn hình Console khi chạy giải thuật sử dụng Synopses

16 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu

Hình 3 – Màn hình Console khi bắt đầu chạy giải thuật SKY

Hình 4 – Màn hình Console khi kết thúc chạy giải thuật SKY

17 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu

Hình 5 – Màn hình Console khi bắt đầu chạy giải thuật sử dụng Synopses

Hình 6 – Màn hình Console khi kết thúc chạy giải thuật sử dụng Synopses

18 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu Đồng thời trong quá trình một giải thuật đang chạy, bộ phận xử lý truy vấn sẽ thực hiện câu truy vấn cho trước trên những dữ liệu đã được làm mờ để tính ra các giá trị thống kê cần thiết Các giá trị thống kê tính được trong quá trình chạy sẽ được xuất ra một file text như được minh họa trong Hình 7

Hình 7 – Kết quả xử lý truy vấn tại các thời điểm

Viết bài báo khoa học cho hội nghị/tạp chí chuyên ngành

Bài báo kết quả của đề tài nghiên cứu được đăng trong tạp chí quốc tế với thông tin chi tiết như bên dưới:

A N T Nguyen, K T Dang, N Thoai, H N Duong, “Preserving Privacy in Data

Streams Query Processing on Synopses,” Int J Industrial Electronics, Control &

Robotics (a selected paper from IES2012), ISSN 2231-4903, vol 2, no 1, pp 22-26,

(Nội dung bài báo được đính kèm trong phần Phụ Lục)

Kết quả mới

Đánh giá theo lý thuyết

Các giải thuật được đánh giá qua các thông số:

 Hiệu quả của việc xử lý câu truy vấn:

∑ Qua tính toán, ta có được:

Do là một hằng số, còn N là đại diện cho lượng dữ liệu đến rất lớn, vô định, không thể xác định trước, nên thời gian xử lý của giải thuật chúng tôi đề xuất tối ưu hơn

Trong giải thuật được đề xuất, cấu trúc Tóm lược (Synopses) duy trì tóm tắt dòng dữ liệu nhỏ gọn trong bộ nhớ để xử lý truy vấn nhanh chóng Ngược lại, xử lý dữ liệu mờ SKY phải xử lý toàn bộ dòng dữ liệu, đòi hỏi bộ nhớ lưu trữ rất lớn, thậm chí vượt quá dung lượng hệ thống do bản chất khổng lồ của dòng dữ liệu.

SKY phải xử lý số lượng truy vấn cực lớn, trong khi đó giải thuật của chúng tôi chỉ xử lý được một tập dữ liệu có kích thước giới hạn.

20 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu

 Chất lượng của kết quả truy vấn:

Do dữ liệu được sử dụng trong cả hai giải thuật để xử lý các truy vấn đã được làm mờ thông qua tổng quát hóa, các kết quả trả về từ các truy vấn này đều có dạng kết quả gần đúng.

Tuy nhiên do số lượng dữ liệu để xử lý truy vấn trong SKY được giữ nguyên so với dữ liệu gốc nên kết quả xử lý truy vấn của SKY chắc chắn sẽ chính xác hơn kết quả của giải pháp do chúng tôi đề xuất Tuy nhiên trong phần nghiên cứu về giải thuật lấy mẫu, tác giả của giải thuật lấy mẫu đã nghiên cứu thực nghiệm và cho thấy rằng sai số của kết quả truy vấn trên mẫu nằm trong giới hạn cho phép và phù hợp với dạng ứng dụng thống kê, tổng hợp.

Đánh giá theo thực nghiệm

Hai giải thuật được chạy trên cùng tập dữ liệu mẫu Employees của MySQL Thông tin cụ thể về tập dữ liệu và các thông số dùng để chạy thực nghiệm:

 Schema: emp_no, first_name, last_name, birth_date, gender, hire_date, dept_name, title, salary

 Các thuộc tính định danh bị bỏ đi: emp_no, first_name, last_name

 Các thuộc tính tựa-định danh (quasi-identifier): birth_date, gender, hire_date, dept_name, title

 Thuộc tính chứa thông tin nhạy cảm và không bị làm mờ: salary

 Tổng số lượng dữ liệu: 265,332 dòng Trong đó, 20,000 dòng được sử dụng làm dữ liệu để xây dựng cây SP 245,332 dòng còn lại được dùng để mô phỏng dòng dữ liệu đến

 Tham số k: lần lượt là 300, 400, 500

 Xác suất lấy mẫu sử dụng cho giải thuật của chúng tôi: 1

 Thời gian ngưng giữa các lần truy vấn: 500 mili giây

 Câu truy vấn: SELECT AVG(salary) FROM AnonymizedData

 Kết quả chính xác của câu truy vấn trên: 71998.5715

21 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu

Bảng 5 tổng kết kết quả chạy thực nghiệm 3 lần trên mỗi giải thuật Nhìn vào bảng ta có thể thấy kết quả thực nghiệm tương đồng với kết quả phân tích độ phức tạp giải thuật ở trên Thời gian chạy giải thuật của chúng tôi trong cả 3 lần chạy đều thấp hơn (cụ thể lần lượt trong 3 lần chạy bằng 82.92%, 83.44% và 83.7% so với SKY) nhưng không thấp hơn nhiều do độ phức tạp của hai giải thuật trong việc làm mờ xấp xỉ nhau và xác suất lấy mẫu ở mức 100% Mặt khác, như phân tích ở phần lý thuyết, chất lượng kết quả câu truy vấn của chúng tôi sẽ thấp hơn SKY Tuy nhiên, ưu điểm giải thuật của chúng tôi là sai số không biến động lớn khi k tăng trong khi sai số của SKY tăng 1/3 khi k tăng từ 300 lên 400

Bảng 5 – Tổng kết kết quả chạy thực nghiệm k Giải thuật Thời gian chạy

(mili giây) Kết quả cuối cùng Sai số (%)

Hình 8, Hình 9, Hình 10 lần lượt trình bày biểu đồ thể hiện thời gian xử lý truy vấn của hai giải thuật Ta có thể thấy nhìn chung thời gian xử lý bằng giải thuật sử dụng cấu trúc túm lược (Synopses) chưa bằng ẵ thời gian xử lý của SKY Núi cỏch khỏc, giải thuật của chúng tôi cho tốc độ xử lý truy vấn nhanh hơn 2 lần so với SKY

22 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu

Hình 8 - Lần chạy thứ nhất

Hình 9 - Lần chạy thứ hai

Hình 10 - Lần chạy thứ ba

Đề xuất ứng dụng

Kết quả nghiên cứu này tập trung vào lĩnh vực bảo mật thông tin, đặc biệt là bảo vệ quyền riêng tư cho thông tin cá nhân trong các hệ thống truy vấn trên Dòng dữ liệu.

23 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu

Dữ liệu trong những hệ thống ứng dụng Dòng dữ liệu được thu thập một cách tự động, thành dòng liên tục, không biết trước thời điểm kết thúc và cần được xử lý truy vấn trong thời gian thực để cung cấp thông tin cho hệ thống đưa ra những quyết định phản ứng kịp thời với các tình huống thực tế Ví dụ như: hệ thống phát hiện gian lận trong giao dịch của các thẻ tín dụng giúp ngân hàng ngăn chặn các cuộc tấn công ngay thời điểm mà những giao dịch bất thường đó xảy ra; mạng các thiết bị cảm ứng thu nhận tín hiệu thời tiết, môi trường và xử lý tự động các thông số thu được để đưa ra những dự báo thời tiết và thiên tai một cách kịp thời; hệ thống điều phối mạng điện thoại di động; các hệ thống mua bán/giao dịch trên mạng Nói chung, các hệ thống Dòng dữ liệu được ứng dụng đa dạng trong rất nhiều lĩnh vực quan trọng: quân sự, tài chính, quản lý bảo mật, mạng cảm ứng, hệ thống mạng, thương mại điện tử, v.v

Trong những hệ thống xử lý thông tin trên Dòng dữ liệu, tùy theo mục đích, nội dung các câu truy vấn và tài nguyên tính toán của hệ thống mà người ta có thể chấp nhận những kết quả truy vấn gần đúng (approximate results) trong giới hạn sai số cho phép và được tính toán trong khoảng thời gian hợp lý thay vì các kết quả chính xác trong thời gian tỉ lệ hàm mũ Bên cạnh đó, với những dòng dữ liệu có chứa thông tin cá nhân, việc xử lý truy vấn cần phải bảo đảm tính riêng tư cho các cá nhân đó bằng cách ngăn chặn khả năng liên kết các định danh với những thông tin nhạy cảm tương ứng từ kết quả truy vấn

Giải pháp chúng tôi đề xuất trong đề tài này thích hợp dùng để áp dụng cho các loại truy vấn liên quan đến thống kê, tính toán tổng hợp, có ưu tiên theo thời gian hoặc không, chấp nhận các kết quả truy vấn gần đúng được tính toán trong khoảng thời gian hợp lý (trong một số ứng dụng có thể đạt được yêu cầu xử lý theo thời gian thực) và có chứa dữ liệu riêng tư cá nhân cần được bảo vệ Ngoài ra, nhờ việc sử dụng kỹ thuật tạo cấu trúc tóm lược đơn giản và giữ được dạng gốc của dữ liệu sau khi “tóm tắt” nên sẽ không cần thêm các thủ tục chuyển đổi để biên dịch ý nghĩa của những dữ liệu đang nằm trong cấu trúc tóm lược Vì vậy, giải pháp này là lựa chọn ưu tiên cho các dòng dữ liệu đa chiều

24 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu

(multi-dimensional streams), đồng thời dễ dàng áp dụng rộng rãi cho đa dạng các loại ứng dụng truy vấn khác nhau mà không cần quá nhiều thay đổi.

Báo cáo kinh phí

STT Nội dung chi Kinh phí

1 Xây dựng thuyết minh chi tiết của đề tài 1,000

- Các kỹ thuật xử lý truy vấn trên dòng dữ liệu

- Các kỹ thuật tối ưu trong xử lý truy vấn trên dòng dữ liệu

- Tìm hiểu các giải thuật làm mờ dữ liệu dựa trên kỹ thuật k- anonymity

- Tìm hiểu các kỹ thuật khác hỗ trợ cho việc bảo vệ tính riêng tư như: indexing, lý thuyết xác suất, mạng neuron,…

- Xây dựng giải thuật bảo vệ tính riêng tư trong xử lý câu truy vấn trên dữ liệu dòng

- Đề xuất kiến trúc cho hệ thống

- Hiện thực một demo nhỏ cho giải pháp đề xuất

4 Viết báo cáo tổng kết khoa học kỹ thuật đề tài:

- Viết bài báo khoa học cho hội nghị/ tạp chí chuyên ngành

- Viết báo cáo tổng hợp và nghiệm thu đề tài

5 Phụ cấp chủ nhiệm đề tài cho 2 đồng chủ nhiệm:

25 Nghiên cứu bảo vệ tính riêng tư trong xử lý câu truy vấn cho dòng dữ liệu

Báo cáo quyết toán

Ngày đăng: 24/09/2024, 10:47