CSDL tập trung và CSDL phân tán

Một phần của tài liệu khai thác dữ liệu phân tán bảo toàn tính riêng tư (Trang 114)

ACDE, BCE, BCD} nhƣng không biết MFIi

A B D E B C D A B D E A B C E A B C D E B C D A C D A C D E A C D A C E D E A – 8 C – 8 D – 8 E – 8 AC – 6 AD – 6 AE – 6 FI Initiator A B D E B C D A B D E A B C E Combiner A B C D E B C D A C D A C D E Client A C D A C E D E

MFI1= {ABDE, BCE} MFI2= {ACDE, BCD} MFI3= {AC}

(a) CSDL tập trung (b) CSDL phân tán

Hình 3.14 CSDL tập trung và CSDL phân tán Initiator Initiator A – 3 AB – 3 ABD – 2 ABDE - 2 B – 4 AD – 2 ABE – 2 ACDE - 0 C – 2 AE – 3 BDE – 2 D – 2 BD – 2 ADE – 2 E – 4 BE – 4 ACD – 0 DE – 2 ACE – 1 AC – 1 CDE – 0 CD – 0 BCD – 0 CE – 2 BCE – 0 BC – 2 Combiner A – 3 AB – 1 ABD – 1 ABDE - 1 B – 2 AD – 3 ABE – 1 ACDE - 2 C – 4 AE – 2 BDE – 1 D – 4 BD – 2 ADE – 2 E – 2 BE – 1 ACD – 3 DE – 2 ACE – 2 AC – 3 CDE – 2 CD – 4 BCD – 2 CE – 2 BCE – 1 BC – 2 Client A – 2 AB – 0 ABD – 0 ABDE - 0 B – 0 AD – 1 ABE – 0 ACDE - 0 C – 2 AE – 1 BDE – 0 D – 2 BD – 0 ADE – 0 E – 2 BE – 0 ACD – 1 DE – 1 ACE – 1 AC – 2 CDE – 0 CD – 1 BCD – 0 CE – 1 BCE – 0 BC – 0 Hình 3.15 Các bên tính độ hỗ trợ cục bộ Initiator A – 8 AB – 4 ABD – 3 ABDE - 3 B – 6 AD – 6 ABE – 4 ACDE - 2 C – 8 AE – 6 BDE – 3 D – 8 BD – 4 ADE – 4 E – 8 BE – 5 ACD – 4 DE – 5 ACE – 4 AC – 6 CDE – 2 CD – 5 BCD – 2 CE – 5 BCE – 3 BC – 4 Initiator A – 8 C – 8 AD – 6 D – 8 AE – 6 E – 8 AC - 6 i | DB | 11 SUP 6   

Hình 3.16 Tính độ hỗ trợ tồn cục và tập phổ biến tồn cục

Qua ví dụ ta nhận thấy kết quả khai thác tập phổ biến trên CSDL tập trung (hình 3.14) và kết quả khai thác trên CSDL phân tán ngang có bảo tồn tính riêng tƣ (hình

3.4.4. Đánh giá giao thức

Về tính riêng tƣ:

Bƣớc tìm tập ứng viên, Combiner nhận dữ liệu đã đƣợc mã hoá từ các bên và khơng có private key nên khơng thể giải mã, Combiner trộn các MFI cục bộ nên sau khi giải mã Initiator không thể biết đƣợc MFI nào của site nào.

Bƣớc tính độ hỗ trợ tồn cục, Combiner tính tích các độ hỗ trợ ở dạng mã hố nên Initiator khơng thể biết chính xác độ hỗ trợ của từng itemset của các site khác. Với mã hố Paillier có bản mã là ngẫu nhiên nên có tính riêng tƣ cao hơn so với giao thức MHS [31].

Từ đó ta có thể khẳng định giao thức không tiết lộ dữ liệu cục bộ, các itemset cùng độ hỗ trợ |DBi| và có tính riêng tƣ cao hơn so với giao thức MHS.

Về độ chính xác:

Từ bổ đề 3.2 tập itemset phổ biến toàn cục là tập con của tập ứng viên, sau đó ta tính độ hỗ trợ tồn cục của các itemset ứng viên và sẽ tìm ra itemset phổ biến tồn cục. Cụ thể trong mỗi bƣớc:

Bƣớc tìm tập ứng viên, Combiner chỉ thực hiện phép trộn và không làm thay đổi dữ liệu nhận đƣợc nên sau khi Initiator giải mã sẽ nhận đƣợc chính xác MFI cục bộ của các site.

Bƣớc tính độ hỗ trợ tồn cục, do sử dụng mã khóa Paillier nên Combiner có thể tính tổng các độ hỗ trợ ở dạng mã hoá nên Initiator sau khi giải mã sẽ nhận đƣợc chính xác tổng độ hỗ trợ của (n – 1) bên.

3.4.5. Thực nghiệm giao thức

Chúng tôi thực thi giao thức đề xuất (GTDX) và so sánh với giao thức M.Hussein (GT M.Hussein [31]) lần lƣợt từ 3 cho đến 10 site trên 3 bộ dữ liệu thực tế là pumsb, connect và dữ liệu siêu thị. Ba bộ dữ liệu này có các đặc điểm khác nhau về số item, chiều dài trung bình. Thơng tin chi tiết về 3 tập dữ liệu này nhƣ trong bảng 3.7. Các bộ dữ liệu này đƣợc chia ra thành 3 đến 10 phần tính theo số dòng và lần lƣợt thực thi 2 giao thức trên bộ dữ liệu sau khi đã chia nhỏ.

Tên CSDL

Số giao tác Số item Chiều dài trung bình Siêu thị 246.750 17.033 4.67

Connect 67.557 130 43

Pumsb 49.046 7.117 74

Bảng 3.7 Thông tin về các CSDL thực nghiệm

Kết quả khai thác giữa dữ liệu phân tán và dữ liệu tập trung là nhƣ nhau với 3 bộ dữ liệu này, ở đây chúng tơi chỉ đƣa ra so sánh về chi phí truyền thơng. Chúng tơi giả sử các bên đều có khả năng tính tốn và tốc độ truyền thơng nhƣ nhau, chi phí của tồn giao thức là tổng chi phí khi tìm tập ứng viên và chi phí tính độ hỗ trợ tồn cục, cụ thể là:

Bƣớc tìm tập ứng viên: có chi phí truyền thơng là chi phí từ bên có |MFI| cục bộ (hay |FI| cục bộ) lớn nhất đến Combiner và từ Combiner đến Initiator.

Bƣớc tính độ hỗ trợ tồn cục: có chi phí truyền thơng là chi phí truyền thơng từ bên có số ứng viên lớn nhất đến Combiner và từ Combiner đến Initiator. Do các bên đều có số ứng viên nhƣ nhau nên ta có thể chọn bất kì bên nào. Kết quả thực nghiệm nhƣ hình 3.17.

Hình 3.17 So sánh tổng chi phí của GTDX và GT M.Hussein

3.5. Kết chƣơng

Trong chƣơng 3, luận án đã trình bày 2 thuật tốn và đề xuất 1 giao thức sử dụng để khai thác CSDL phân tán dọc và phân tán ngang có quan tâm đến việc bảo tồn thơng tin của các bên tham gia q trình khai thác luật. Trong thuật tốn khai thác

lộ thông tin của bên tham gia khai thác. Đối với thuật toán khai thác CSDL phân tán ngang chúng tơi đã chứng minh thuật tốn có thể bảo đảm tính riêng tƣ hồn tồn trong mơi trƣờng SH kể cả trong trƣờng hợp có n-1 bên thơng đồng. Với giao thức bảo đảm tính riêng tƣ, chúng tôi đã cải tiến giao thức trong [31] để tăng khả năng bảo tồn tính riêng tƣ so với [31]. Ngoài ra chƣơng 3 cũng trình bày phần thực nghiệm của các thuật toán khai thác dữ liệu phân tán dữ liệu bảo tồn tính riêng tƣ và tránh thơng đồng giữa các bên để làm lộ dữ liệu của một bên trong số các bên tham gia khai thác.

PHẦN KẾT LUẬN

1. Các kết qủa đạt đƣợc

Luận án đã trình bày các cơ sở lý thuyết về CSDL phân tán, đề xuất một số thuật toán khai thác dữ liệu và ẩn dữ liệu trong qua trình khai thác từ đó dẫn đến mục đích chính của luận án là đề xuất các thuật toán khai thác dữ liệu trên CSDL phân tán có quan tâm đến việc bảo tồn tính riêng tƣ của các bên tham gia q trình khai thác và tránh thông đồng giữa một số bên để làm lộ dữ liệu của các bên khác. Những đóng góp chính của luận án gồm :

Đóng góp 1: Do việc khai thác trên CSDL phân tán dọc, nếu sử dụng các phép

kết để sinh ra CSDL chung sẽ tạo ra dữ liệu rất lớn ảnh hƣởng đến thời gian và tính khả thi khi khai thác, luận án đã đề xuất các thuật toán:

- Khai thác CSDL phân tán dọc bằng phép kết ngoại sử dụng phƣơng pháp IT- Tree gồm hai thuật toán: ECLAT_DISTRIBUTE_LEFT_JOIN và ECLAT_ DISTRIBUTE_FULL_JOIN để tránh không thực hiện phép kết giữa các CSDL tham gia khai thác, nhằm tăng tốc độ khai thác dữ liệu. Kết quả trình bày tại chƣơng 2 (trang 63-73) và cơng trình [2], [3].

- Cũng với mục đích tăng tốc độ khai thác các tập mục có lợi ích cao, luận án đã đề xuất cấu trúc WIT-Tree và thuật toán TWU-Mining để tăng hiệu quả về thời gian khai thác các tập mục dữ liệu có lợi ích cao. Kết quả trình bày tại chƣơng 2 (trang 81-86) và cơng trình [1]

- Thuật tốn PEclat, để khai thác song song tập phổ biến tại các bên tham gia. Bên cần khai thác tập phổ biến (đƣợc gọi là Master) chỉ gửi thông tin về CSDL và minSup cho các bên tham gia (đƣợc gọi là Slave) đúng 1 lần. Vì vậy, thời gian gửi/nhận thơng tin sẽ thấp hơn so với việc truyền nhận thông tin nhiều lần. Các Slave có 2 lần gửi thơng tin về Master. Lần thứ nhất gửi các item cùng với Tidset của chúng, lần thứ 2 gửi tập các itemset thỏa minSup. Vì vậy, thời gian giao tiếp có thể tính là O(n). Một vấn đề nữa là Master chỉ khai thác các tập phổ biến chƣa đƣợc khai thác trên các Slave và vì vậy, thời gian khai thác sẽ nhanh hơn so với việc tập

trung dữ liệu lại để khai thác trên một máy. Kết quả đƣợc trình bày tại chƣơng 2 (trang 75-80) và cơng trình [5].

Đóng góp 2: Để thực hiện việc khai thác luật kết hợp trên CSDL phân tán dọc có

quan tâm đến việc bảo tồn tính riêng tƣ của các bên tham gia, luận án đã đề xuất thuật toán ENUMERATE_FREQUENT_DISTRIBUTE_ PRIVACY. Trong thuật tốn này có sử dụng bên thứ 3 làm trung gian để hỗ trợ 2 bên tiến hành khai thác luật sau đó các bên đổi chỗ cho nhau để thay thế vai trò trung gian và vai trò của bên khai thác luật. Kết quả trình bày tại chƣơng 3 (trang 87-93) và cơng trình [2]

Đóng góp 3: Đối với khai thác tập phổ biến trên CSDL phân tán ngang có quan

tâm đến bảo tồn tính riêng tƣ của các bên tham gia và tránh sự thông đồng giữa một số bên để làm lộ dữ liệu của một số bên khác, luận án đã trình bày:

- Thuật tốn khai thác CSDL phân tán ngang bảo tồn tính riêng tƣ gồm các thủ tục: SECURE_SUPPORT thực hiện việc cài đặt của giao thức tính độ phổ biến tồn cục của itemset X. Thủ tục EXTEND_FITREE để mở rộng và hoàn thiện FITree chứa tập đầy đủ các itemset phổ biến toàn cục. Thủ tục SUPPER_BOUND và SECURE_UNION để đảm bảo riêng tƣ của các bên tham gia khai thác. Thuật toán đƣợc đánh giá là an tồn hồn tồn cả trong trƣờng hợp có n-1 bên thơng đồng. Kết quả trình bày tại chƣơng 3 (trang 94-107) và cơng trình [4]

- Đề xuất giao thức (cải tiến từ giao thức của M.Hussein [31]) sử dụng tập phổ biến tối đại (MFI - Max Frequent Itemsets) thay cho tập phổ biến (FI - Frequent Itemsets ) khi tìm tập ứng viên và mã hố Paillier để tính độ hỗ trợ tồn cục. Do sử dụng mã hố Paillier nên giao thức đề xuất có tính riêng tƣ cao hơn khi tính độ hỗ trợ tồn cục. Qua kết quả thực nghiệm cho thấy giao thức đề xuất tối ƣu hơn (về chi phí truyền thơng) khi tăng số bên tham gia khai thác với các tập dữ liệu có số itemset lớn và chiều dài trung bình thấp. Kết quả trình bày tại chƣơng 3 (trang 107- 114) và cơng trình [6].

Tóm lại, luận án đã thực hiện đƣợc đóng góp khoa học cho việc đề xuất các thuật toán khai thác trên CSDL phân tán dọc, thuật toán khai thác song song trên CSDL phân tán dọc, thuật toán khai thác tập mục lợi ích cao nhằm tăng tốc độ khai thác tập phổ biến và tập mục lợi ích cao trên CSDL phân tán dọc.

Luận án cũng đã đề xuất đƣợc một thuật toán khai thác trên CSDL phân tán dọc, một thuật toán khai thác trên CSDL phân tán ngang và một giao thực khai thác trên CSDL phân tán ngang có quan tâm đến việc bảo tồn tính riêng tƣ dữ liệu của các bên tham gia trong q trình khai thác. Các thuật tốn này đã đƣợc cài đặt và thực nghiệm thành công trên một số CSDL mẫu và CSDL bảo hiểm nhân thọ, CSDL giao dịch của hệ thống siêu thị COOP-MARK thành phố Hồ Chí Minh.

2. Các khó khăn và hƣớng phát triển

Tuy luận án đã đề xuất đƣợc một số thuật toán khai thác dữ liệu trên CSDL phân tán dọc và phân tán ngang có quan tâm đến việc bảo tồn tính riêng tƣ của dữ liệu của các bên tham gia khai thác luật và thực nghiệm thành cơng các thuật tốn trên nhiều máy tính nhƣng việc so sánh thời gian chạy, tính hiệu quả đối với nhiều thuật toán cùng loại của các tác giả khác chƣa thực hiện đƣợc. Điều này cần tiến hành thực hiện để có đƣợc kết luận chính xác hơn.

Trong khi tiến hành ẩn các mục dữ liệu của các bên tham gia khai thác luật có thể xảy ra tình trạng làm sai lệch dữ liệu dẫn đến kết quả khai thác khơng chính xác, làm giảm hiệu quả của kết quả các luật khai thác đƣợc. Việc đánh giá mức độ làm sai lệnh dữ liệu cũng cần đƣợc tiến hành và thực nghiệm cho kết quả cụ thể để các bên tham khảo trƣớc khi quyết định có tiến hành cùng hợp tác thác luật hay không?

DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ

[1]

Bac Le, Huy Nguyen, Tung Anh Cao, Bay Vo “A Novel Algorithm for

Mining High Utility Itemsets” First Asian Conferences on Intelligent

Information and Database Systems Quang Binh, Viet Nam 01-03 Apr 2009, pp.13-17.

[2] Cao Tùng Anh, “Khai thác luật kết hợp trên cơ sở dữ liệu phân tán dọc”

Hội thảo quốc gia về công nghệ thông tin và truyền thông, Đại Lãi 14- 15/09/2007, tr 169-179.

[3] Cao Tùng Anh, Nguyễn Hà Giang, “Một số thuật toán khai thác luật kết

hợp trên cơ sở dữ liệu phân tán dọc”, Kỷ yếu hội nghị khoa học công

nghệ lần thứ 1, đại học kỹ thuật công nghệ, TP.HCM 15/4/2010, tr 9-14 [4] Trần Quốc Việt, Cao Tùng Anh, Lê Hồi Bắc, "Đảm bảo tính riêng tư và

chống thông đồng trong khai thác luật kết hợp trên dữ liệu phân tán ngang", Chuyên san các cơng trình nghiên cứu, phát triển và ứng dụng

công nghệ thông tin và truyền thông, Tạp chí cơng nghệ thơng tin và truyền thông, số 7, Hà Nội 05/2012, tr 60-70.

[5]

Võ Đình Bảy, Cao Tùng Anh, Lê Hoài Bắc, “Khai thác song song tập

phổ biến trên CSDL phân tán dọc”, Kỷ yếu hội nghị khoa học công nghê

thông tin, đại học Đà Lạt, Đà Lạt 11/2010, tr 66-73.

[6] Xuan Canh Nguyen, Hoai Bac Le, Tung Anh Cao "An Enhanced Sheme

for Priserving Associstion Rules Mining on Horizontally Distributed Databases", IEEE RIVF International Conference on Computing &

Communication Technologies, research, Innovation and Vision for the Future 27 Feb-01 Mar 2012, pp.29-32.

TÀI LIỆU THAM KHẢO

Tài liệu tiếng Việt

[1] Cao Tùng Anh, Khai thác luật kết hợp trên cơ sở dữ liệu phân tán dọc, Hội

thảo quốc gia về công nghệ thông tin và truyền thông, Đại Lãi 14-15/09/2007, tr 169-179.

[2] Cao Tùng Anh, Nguyễn Hà Giang, Một số thuật toán khai thác luật kết hợp trên cơ sở dữ liệu phân tán dọc, Kỷ yếu hội nghị khoa học công nghệ lần thứ

nhất, Đại Học Kỹ thuật Công nghệ, TP.HCM 15/4/2010, tr 9-14

[3] Jeffrey D.Ullman - Ngƣời dịch: Trần Đức Quang Nguyên lý các hệ cơ sở dữ liệu và hệ cơ sở tri thức - tập 3: các hệ cơ sở tri thức, NXB Thống kê 2002.

[4] Lƣơng Thế Dũng, Nghiên cứu xây dựng một số giải pháp đảm bảo an toàn thơng tin trong q trình khai phá dữ liệu, Luận án tiến sỹ đảm bảo tốn học

cho máy tính và hệ thơng tính tốn, Viện KH và CN Quân sự, 2011.

[5] Nguyễn Xuân Huy, Các phụ thuộc logic trong cơ sở dữ liệu, Viện Khoa học và Công nghệ Việt Nam, NXB Thông Kê 2006.

[6] Nguyễn Xuân Huy, Lê Quốc Hải, Nguyễn Gia Nhƣ, Cao Tùng Anh, Bùi Đức Minh, Lý thuyết giàn và ứng dụng trong thuật toán ẩn tập mục, Hội thảo quốc gia về cơng nghệ thơng tin và truyền thơng, Biên Hịa 05-06/08/2009, tr 161- 170.

[7] Trần Quốc Việt, Cao Tùng Anh, Lê Hồi Bắc, Đảm bảo tính riêng tư và chống

thông đồng trong khai thác luật kết hợp trên dữ liệu phân tán ngang, Chuyên

san các cơng trình nghiên cứu, phát triển và ứng dụng cơng nghệ thơng tin và truyền thơng, Tạp chí cơng nghệ thơng tin và truyền thông, số 7, Hà Nội 05/2012, tr 60-70.

[8] Võ Đình Bảy, Cao Tùng Anh, Lê Hoài Bắc, Khai thác song song tập phổ biến

trên CSDL phân tán dọc, Kỷ yếu hội nghị khoa học công nghê thông tin, Đại

học Đà Lạt, Đà Lạt 11/2010, tr 66-73.

[9] Võ Đình Bảy, Lê Hồi Bắc (2010), Chuỗi Bit Động: Cách Tiếp Cận Mới để Khai Thác Tập Phổ Biến. ICTFIT’ 2010, Nhà xuất bản Khoa học Kỹ thuật.

Tài liệu tiếng Anh

[10] Adriano A.Veloso, Wagner Meira Jr., Srinivasan Parthasarathy, MárcioBunte de Carvalho(2003), Efficient,Accurate and Privacy-Preserving DataMining for

Một phần của tài liệu khai thác dữ liệu phân tán bảo toàn tính riêng tư (Trang 114)

Tải bản đầy đủ (PDF)

(127 trang)