( Tạp chí Khoa học Trường ĐHSP TPHCM ) ( Vũ Quốc Hoàng và tgk ) ( TẠP CHÍ KHOA HỌC HO CHI MINH CITY UNIVERSITY OF EDUCATION TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH JOURNAL OF SCIENCE Tập 17, Số 12 (2020[.]
TẠP CHÍ KHOA HỌCHO CHI MINH CITY UNIVERSITY OF EDUCATION TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINHJOURNAL OF SCIENCE Tập 17, Số 12 (2020): 2251-2261 ISSN: 1859-3100 Vol 17, No 12 (2020): 2251-2261 Website: Bài báo nghiên cứu XÂY DỰNG CÂY HỒI QUY ĐẢM BẢO TÍNH RIÊNG TƯ CHO TẬP DỮ LIỆU HUẤN LUYỆN BẰNG RIÊNG TƯ SAI BIỆT Vũ Quốc Hồng*, Nguyễn Đình Thúc Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, Việt Nam * Tác giả liên hệ: Vũ Quốc Hoàng – Email: vqhoang@fit.hcmus.edu.vn Ngày nhận bài: 28-4-2020; ngày nhận sửa: 22-5-2020, ngày chấp nhận đăng: 28-12-2020 TĨM TẮT Mơ hình hóa liệu tốn quan trọng phân tích liệu học máy Có nhiều phương pháp giải tốn mơ hình hóa này, đó, hồi quy phương pháp có nhiều ưu điểm so với phương pháp hồi quy khác Bên cạnh độ xác, khả giải thích mơ hình kết vấn đề đảm bảo tính riêng tư cho tập liệu huấn luyện quan trọng đặt cấp thiết, đặc biệt với liệu cá nhân, nhạy cảm Bài báo đề xuất phương pháp thuật toán để xây dựng hồi quy đảm bảo tính riêng tư dựa kĩ thuật riêng tư sai biệt Kết thử nghiệm cho thấy tính khả thi đồng thời mở thách thức cần tiếp tục nghiên cứu, cải tiến Từ khóa: riêng tư sai biệt;phân tích liệu đảm bảo tính riêng tư; hồi quy; hồi quy Giới thiệu Khai thác liệu, học máy học sâu ngày phát triển nhờ nguồn liệu phong phú, khổng lồ Tuy nhiên, kèm với lợi ích chúng mang lại vấn đề riêng tư liệu, đặc biệt liệu có tính cá nhân, nhạy cảm liệu tài chính, y tế, sinh học Ngoài hai mục tiêu quan trọng độ xác tính tự giải thích, mơ hình, thuật tốn phân tích liệu cần phải ý đến tính riêng tư liệu, tính chất đặc biệt quan trọng luật bảo vệ liệu cá nhân nhiều nước áp dụng Có nhiều kĩ thuật hỗ trợ việc bảo vệ tính riêng tư cho liệu phân tích Trong đó, riêng tư sai biệt kĩ thuật đảm bảo tính riêng tư chứng minh mặt toán học Kĩ thuật tổng quát, áp dụng cho dạng liệu thuật tốn phân tích mà khơng phụ thuộc vào thông tin thêm liệu người công Nó lượng hóa mát riêng tư qua tham số Cây định, với nhiều ưu điểm, dùng từ sớm khai thác liệu với tốn phân lớp hồi quy Mặc dù có phương pháp đề xuất Cite this article as: Vu Quoc Hoang, & Nguyen Dinh Thuc (2020) Differentially private regression tree and forest Ho Chi Minh City University of Education Journal of Science, 17(12), 2251-2261 Tạp chí Khoa học Trường ĐHSP TPHCM Tập 17, Số 12 (2020): 22512261 để xây dựng phân lớp hỗ trợ riêng tư sai biệt lại chưa có phương pháp tương tự hồi quy Bài báo đề xuất phương pháp đơn giản làm sở ban đầu cho việc xây dựng hồi quy hỗ trợ riêng tư sai biệt Các phương pháp chúng tơi đưa dựa thuật tốn phương pháp riêng tư sai biệt thuật toán tương tự phân lớp Cơ sở lí thuyết 2.1 Riêng tư sai biệt Phần nêu lại định nghĩa định lí quan trọng riêng tư sai biệt dùng cho phần sau (chi tiết Dwork Roth (2014)) Ta nói hai tập liệu 𝑥, � ∈ �� lân cận chúng khác không điểm liệu Kí hiệu �� tập tất tập liệu gồm �� điểm liệu, điểm phần tử � Ý tưởng riêng tư sai biệt dựa vào ngẫu nhiên với yêu cầu khó phân biệt cho phân phối xác suất kết truy vấn tập liệu lân cận Định nghĩa (Riêng tư sai biệt, Dwork et al., 2006) Thuật toán ngẫu nhiên 𝑀: �� → 𝑅𝑅 gọi thỏa riêng tư sai biệt 𝜀𝜀 (𝜀𝜀 ≥ 0) với tập liệu lân cận 𝑥, � ∈ �� � ⊂ 𝑅𝑅, ta có: Pr[𝑀(𝑥) ∈ �] ≤ e𝑥p(𝜀𝜀)Pr[𝑀(�) ∈ �] (1) Định nghĩa (Độ nhạy toàn cục, Dwork et al (2006)) Độ nhạy hàm 𝑓𝑓: �� → ℝ định nghĩa là: Δ𝑓𝑓 = ma𝑥 |𝑓𝑓(𝑥) − 𝑓𝑓(�)| (2) �� 𝑥𝑥,��∈�� lâ� cậ� Định lí (Hậu xử lí, Dwork et al., 2006) Nếu 𝑀: �� → 𝑅𝑅 riêng tư sai biệt 𝜀𝜀 𝑓𝑓: 𝑅𝑅 → 𝑅𝑅′ 𝑓𝑓 ∘ 𝑀: �� → 𝑅𝑅′ riêng tư sai biệt 𝜀𝜀 Định lí (Kết hợp tuần tự, McSherry & Talwar, 2007) Nếu 𝑀𝑖𝑖: �� → 𝑅𝑅𝑖𝑖 riêng tư sai biệt 𝜀𝜀𝑖𝑖 (1 ≤ 𝑖𝑖 ≤ 𝑘𝑘) thuật tốn dùng 𝑀𝑖𝑖 tập liệu 𝑥 ∈ �� thỏa riêng tư sai biệt 𝑖𝑖= 𝜀𝜀𝑖𝑖 ∑𝑘 Định lí (Kết hợp song song, McSherry, 2009) Nếu 𝑀𝑖𝑖: �� → 𝑅𝑅𝑖𝑖 riêng tư sai biệt 𝜀𝜀𝑖𝑖 (1 ≤ 𝑖𝑖 ≤ 𝑘𝑘) thuật toán dùng 𝑀𝑖𝑖 tập rời tập liệu 𝑥 ∈ �� thỏa riêng tư sai biệt ma𝑥 𝜀𝜀𝑖𝑖 1≤𝑖𝑖≤𝑘 Định lí (Cơ chế Laplace, Dwork et al., 2006) Cho hàm 𝑓𝑓: �� → ℝ có độ nhạy Δ𝑓𝑓, chế 𝑀: �� → ℝ định nghĩa sau thỏa riêng tư sai biệt 𝜀𝜀: 𝑀(𝑥) = 𝑓𝑓(𝑥) + 𝐿, 𝑥 ∈ �� (3) Tạp chí Khoa học Trường ĐHSP TPHCM Tập 17, Số 12 (2020): 22512261 đó, 𝐿 ~ 𝐿ap � biến ngẫu nhiên có phân phối Laplace với kì vọng tỉ lệ Δ𝑓𝑓 Δ𝑓𝑓 � � � Tạp chí Khoa học Trường ĐHSP TPHCM Vũ Quốc Hồng tgk Định lí (Cơ chế mũ, McSherry & Talwar, 2007) Cho hàm 𝑢: �� × 𝑅 → ℝ có độ nhạy Δ𝑢, chế 𝑀: �� → 𝑅 định nghĩa sau thỏa riêng tư sai biệt 𝜀𝜀: [ ]( ) �𝑢(𝑥,r) (4) � Pr 𝑀 = � e𝑥p � , 𝑥 , r ∈ 𝑅 2Δ ∈ � 𝑥 r � 𝑢 đó, hàm 𝑢 thường gọi hàm tiện ích Δ𝑢 = ma𝑥 r∈𝑅𝑅 ma 𝑥 |𝑢(𝑥, r) − 𝑥,��∈�� �� lâ� cậ� 𝑢(�, r)| 2.2 Hồi quy hồi quy Cho � = {(𝑥𝑖𝑖 , �𝑖𝑖𝑖𝑖= )}� tập liệu huấn luyện với 𝑥𝑖𝑖 ∈ 𝐴𝐴 = 𝐴𝐴1 × 𝐴𝐴2 × … × 𝐴𝐴𝑘 �𝑖𝑖 ∈ � = ℝ Các 𝐴𝐴1, 𝐴𝐴2, … , 𝐴𝐴𝑘 gọi thuộc tính � gọi mục tiêu Hồi quy toán từ tập liệu huấn luyện �, xây dựng quan hệ mục tiêu � với thuộc tính 𝐴𝐴 Quan hệ dùng để giải thích dự đốn giá trị mục tiêu điểm liệu biết giá trị thuộc tính Có nhiều mơ hình thuật tốn hồi quy khác nhau, đó, mơ hình hồi quy định có nhiều ưu điểm như: có tính giải thích cao, dễ hiểu với người phân tích, chi phí tính tốn thấp, phi tham số, mô tả quan hệ phi tuyến, dùng cho thuộc tính rời rạc lẫn liên tục… Nhược điểm hồi quy nhạy cảm với liệu dễ xảy khớp Thuật toán xây dựng trình lặp lại bước sau xuất phát từ tập liệu huấn luyện: - Kiểm tra điều kiện dừng, thỏa tạo nút với giá trị tương ứng; - Nếu khơng, chọn thuộc tính giá trị chia nhánh tốt cho tập liệu tại; - Phân hoạch tập liệu thành nhóm theo giá trị thuộc tính chọn, tạo nút nội với nhánh đệ quy cho nhóm liệu chia Hai tiêu chí đánh giá thường dùng để chọn thuộc tính giá trị tốt cho nút nội là: trung bình bình phương lỗi trung bình trị tuyệt đối lỗi với giá trị tương ứng nút trung bình trung vị giá trị mục tiêu điểm liệu nút (chi tiết Han et al (2012), Breiman et al (2017)) Đối tượng Phương pháp nghiên cứu 3.1 Cây phân lớp thỏa riêng tư sai biệt Cây định dùng làm mơ hình phân lớp mà thường gọi phân lớp Cụ thể, từ tập liệu huấn luyện � = {(𝑥𝑖𝑖 , �𝑖𝑖 )}� với �𝑖𝑖 ∈ � tập nhãn lớp, định xây dựng thuật toán tham lam tương tự với giá trị nút nhãn lớp chứa nhiều điểm liệu nút Các tiêu chí Tạp chí Khoa học Trường ĐHSP TPHCM Vũ Quốc Hoàng tgklà độ lợi thông tin, tỉ đánh giá hay dùng để chọn thuộc tính giá trị tốt cho nút nội suất lợi, số Gini (Han et al., 2012; Breiman et al., 2017) 𝑖𝑖= Nhiều thuật toán xây dựng phân lớp thỏa riêng tư sai biệt 1đã đề xuất với mục tiêu vừa cho kết dự đoán tốt vừa đảm bảo tính riêng tư cho tập liệu huấn luyện Tạp chí Khoa học Trường ĐHSP TPHCM Tập 17, Số 12 (2020): 22512261 (Fletcher, 2016) Các yếu tố cần xem xét xây dựng thỏa riêng tư sai biệt (Fletcher, 2016): - Tối thiểu số lần truy cập liệu, - Dùng truy vấn có độ nhạy thấp, - Cấp phát quỹ riêng tư cách hợp lí Sớm (Blum et al., 2005) dùng chế Laplace (Định lí 4) cho truy vấn đếm để kiểm tra điều kiện dừng tính độ lợi thơng tin Sau đó, Friedman Schuster (2010) dùng chế mũ (Định lí 5) để chọn thuộc tính giá trị chia nhánh tốt Cải tiến giúp tiết kiệm quỹ riêng tư nhờ truy vấn tập liệu rời (Định lí 3) Friedman Schuster (2010) thử nghiệm tiêu chí phân nhánh với độ nhạy khác Jagannathan cộng (2012), mở đầu hướng nghiên cứu dùng kết hợp nhiều thỏa riêng tư sai biệt cách chia quỹ riêng tư cho (Định lí 2) Các cơng trình sau Patil Singh (2014), Rana cộng (2015), Fletcher Islam (2015), Fletcher Islam (2017), tiếp tục hướng Gần đây, Xin cộng (2019) dùng nhiều riêng tư xây dựng tập rời tập liệu huấn luyện cho kết tốt nhờ Định lí 3.2 Cây hồi quy tham lam thỏa riêng tư sai biệt 3.2.1 Thuật toán Mặc dù có nhiều cơng trình nghiên cứu việc xây dựng phân lớp thỏa riêng tư sai biệt chưa có cơng trình cho hồi quy Bảng trình bày khung thuật tốn để xây dựng hồi quy tham lam thỏa riêng tư sai biệt chúng tơi đề xuất Bảng Thuật tốn xây dựng hồi quy tham lam hỗ trợ riêng tư sai biệt procedure DPGreedyRegTree(X, �, 𝐴, lma𝑥 , ��pl𝑖𝑖� , �lea𝑓𝑓 , 𝜀𝜀) Input: X, � – tập liệu huấn luyện, 𝐴 – tập thuộc tính, lma𝑥 – mức tối đa cây, ��pl𝑖𝑖� – số điểm liệu tối thiểu để chia nút, �lea𝑓𝑓 – số điểm liệu tối thiểu nút lá, 𝜀𝜀 – tham số riêng tư � � =2l ma𝑥 + return hồi quy có nút gốc Build_Tree(X, �, 𝐴, lma𝑥 , ��pl𝑖𝑖� , �lea𝑓𝑓 , �) end procedure procedure Build_Tree(X, �, 𝐴, l, ��pl𝑖𝑖� , �lea𝑓𝑓 , 𝜀𝜀) � = 𝐿ap𝑀ech(|X|, 𝜀𝜀) if l = or � < ��pl𝑖𝑖� then 10 11 12 13 return nút với giá trị 𝐿ap𝑀ech(�� , 𝜀𝜀) 𝐴∗, �∗ = E𝑥p𝑀ech(X, �, 𝐴, 𝜀𝜀) Chia (X, �) phần (Xl, �l), (Xr, �r) theo giá trị �∗ thuộc tính 𝐴∗ �l, �r = 𝐿ap𝑀ech(|Xl|, 𝜀𝜀), 𝐿ap𝑀ech(|Xr|, 𝜀𝜀) if �l < �lea𝑓𝑓 or �r < �lea𝑓𝑓 then Tạp chí Khoa học Trường ĐHSP TPHCM Vũ Quốc Hoàng tgk return nút với giá trị 𝐿ap𝑀ech(�� , 𝜀𝜀) return nút nội với nhãn (𝐴∗, �∗) trái, phải tương ứng Build_Tree(Xl , �l , 𝐴, l − 1, ��pl𝑖𝑖� , �lea𝑓𝑓 , 𝜀𝜀) Build_Tree(Xr , 14 15 �r , 𝐴, l − 1, ��pl𝑖𝑖� , �lea𝑓𝑓 , 𝜀𝜀) 16 end procedure Tương tự Friedman Schuster (2010), dùng chế cấp phát quỹ riêng tư với tham số riêng tư 𝜀𝜀 chia cho mức theo Định lí Ở mức, nút truy cập đến tập rời liệu huấn luyện nên theo Định lí 3, quỹ riêng tư khơng cần chia cho nút khác Trong thủ tục DPGreedyRegTree, tham số lma𝑥 xác định mức tối đa cây, nút có truy vấn (trừ mức lma𝑥 có truy vấn) nên 𝜀𝜀 chia cho nút Dòng 3.2.2 Các truy vấn hỗ trợ riêng tư sai biệt Để đếm số lượng điểm liệu nút, dùng chế Laplace (Định lí 4) với độ nhạy truy vấn ∆𝑓𝑓 = (Blum et al., 2005) Cụ thể: | | | | (5) X + 𝐿ap � � 𝐿ap𝑀ech( X , � 𝜀𝜀) = Lựa chọn thường dùng cho giá trị nút trung bình giá trị mục tiêu điểm liệu nút Để hỗ trợ riêng tư sai biệt, phạm vi mục tiêu phải bị chặn, đây, giả sử � = [0, 1] Giả sử hợp lí giá trị mục tiêu thường chuẩn hóa khoảng thực tế Khi đó, dùng chế Laplace cho truy vấn trung bình với độ nhạy truy vấn ∆𝑓𝑓 = (Dwork et al., 2006) Vì số lượng điểm liệu tối � thiểu nút �lea𝑓𝑓 nên số lượng điểm liệu nút � ≥ �lea𝑓𝑓 nên ∆𝑓𝑓 ≤ �leall Lưu ý, thông số lma𝑥 , ��pl𝑖𝑖� , �lea𝑓𝑓 chọn trước không phụ thuộc vào tập liệu Tóm lại, giá trị cho nút là: 𝐿ap𝑀ech(�� , 𝜀𝜀) = �� + 𝐿ap � (6) � �leall� Lựa chọn khác cho giá trị nút trung vị giá trị mục tiêu điểm liệu nút Để hỗ trợ riêng tư sai biệt, dùng chế mũ Sarwate Chaudhuri (2013) Cụ thể, xếp giá trị mục tiêu nút tăng dần theo khoảng #{�𝑖𝑖≤�} � = 0, � , , = 1, đặt 𝐹𝐹 (�) = hàm phân phối tích lũy thực nghiệm …,� � � �+1 � � giá trị mục tiêu, chọn hàm tiện ích 𝑢(�) = −|0.5 − 𝐹𝐹 (�)| ∆𝑢 = ≤ Giá trị cho nút là: với: � � �leall Tạp chí Khoa học Trường ĐHSP TPHCM E𝑥 p𝑀 ec h( m ed𝑖 a� (� ) , 𝜀𝜀) = ��𝑖 𝑖𝑓𝑓�r m( ��− 1, �� ) (7) Pr[� = 𝑘] � |� 𝑘 Vũ Quốc Hoàng tgk −�|0.5−𝐹�(�𝑘)|�leall� , 𝑘 ∈ {1, 2, … , � + 1} − �| 𝑘−1 e𝑥p � (8) Tạp chí Khoa học Trường ĐHSP TPHCM Tập 17, Số 12 (2020): 22512261 Để chọn thuộc tính giá trị chia nhánh tốt cho tập liệu nút nội, dùng chế mũ với hàm tiện ích đối trung bình bình phương lỗi hay đối trung bình trị tuyệt đối lỗi, tương ứng với lựa chọn giá trị cho nút trung bình hay trung vị Độ nhạy truy vấn bị chặn ∆𝑓𝑓 ≤ số lượng điểm liệu tối ��pl𝑖𝑖� thiểu để chia nhánh ��pl𝑖𝑖� Friedman Schuster (2010), có đề xuất cách xử lí thuộc tính liên tục Tuy nhiên, cách không hiệu số lượng điểm liệu nút nhiều nên chúng tơi dùng cách đơn giản rời rạc hóa �ra�rre điểm đại diện phân cách khoảng [0, 1] Dĩ nhiên, thuộc tính liên tục phải chuẩn hóa khoảng [0, 1] trước Lưu ý, điểm đại diện không phụ thuộc vào liệu 3.3 Rừng hồi quy phân vùng thỏa riêng tư sai biệt Tương tự Xin cộng (2019), đề xuất việc dùng nhiều hồi quy riêng tư xây dựng tập rời tập liệu huấn luyện thuật toán Bảng Bảng Thuật toán xây dựng rừng hồi quy phân vùng hỗ trợ riêng tư sai biệt procedure DPPartRegForest(r, X, �, 𝐴, lma𝑥 , ��pl𝑖𝑖� , �lea𝑓𝑓 , 𝜀𝜀) Input: r – số cây, X, � – tập liệu huấn luyện, 𝐴 – tập thuộc tính, lma𝑥 – mức tối đa cây, ��pl𝑖𝑖� – số điểm liệu tối thiểu để chia nút, �lea𝑓𝑓 – số điểm liệu tối thiểu nút lá, 𝜀𝜀 – tham số riêng tư Chia tập liệu (X, �) làm r vùng rời (X1 , �1 ), (X2 , �2 ), … , (X�� , ��� ) return rừng gồm r kết DPGreedyRegTree(X𝑖𝑖 , �𝑖𝑖 , 𝐴, lma𝑥 , ��pl𝑖𝑖� , �lea𝑓𝑓 , 𝜀𝜀) với 𝑖𝑖 = 1, … , r end procedure Số điểm liệu phân vùng chọn xấp xỉ Vì hồi quy xây dựng tập liệu rời nên quỹ riêng tư giữ cho theo Định lí Khi dự đốn, giá trị trung bình kết dự đốn dùng mà khơng phải dùng thêm chế riêng tư nhờ Định lí Kết thảo luận Để đánh giá phương pháp, dùng tập liệu huấn luyện California Housing (Pace, & Barry, 1997) gồm 20.640 điểm liệu với thuộc tính liên tục (kể mục tiêu) Tập liệu tiền xử lí để đưa giá trị thuộc tính liên tục mục tiêu khoảng [0,1] Mỗi phương pháp đánh giá kĩ thuật 10-fold Cross Validation dùng trung bình sai số tuyệt đối (MAE) 4.1 Đánh giá MAE theo tham số riêng tư Vì chưa có cơng trình dùng riêng tư sai biệt hồi quy nên dùng phương pháp sau làm sở đánh giá: hồi quy thư viện Python scikit-learn (Pedregosa et al., 2011), giá trị trung bình mục tiêu tất điểm liệu hỗ trợ Tạp chí Khoa học Trường ĐHSP TPHCM Vũ Quốc Hồng tgk riêng tư sai biệt theo chế Laplace (Định lí 4) rừng hồi quy dùng hồi quy Python scikit-learn Các phương pháp đặt tên Python_Tree (1), DPMean (2) Python_Forest (3) Các phương pháp xây dựng đánh giá gồm phương pháp hồi quy tham lam phương pháp rừng hồi quy phân vùng theo tiêu chí chia nhánh nút nội chọn giá trị tương ứng nút trung bình trung vị Các phương pháp đặt tên DPMean_Tree (4), DPMean_Forest (5), DPMedian_Tree (6), DPMedian_Forest (7) đánh giá qua tham số riêng tư 𝜀𝜀 0.25, 0.5, 1, 2, 4, 8, 16, 32, 64 Kết đánh giá trình bày Hình chi tiết Bảng với độ lệch chuẩn ghi ngoặc Các giá trị chọn cho thông số �ra�rre = 40, ��pl𝑖𝑖� = 20, �lea𝑓𝑓 = 10, với tham lam lma𝑥 = 15 với rừng lma𝑥 = số rừng r = 25 Hình Kết đánh giá MAE theo tham số riêng tư mô hình hồi quy Bảng Kết chi tiết MAE theo tham số riêng tư mơ hình hồi quy � 0.25 0.5 (1) (2) (3) (4) (5) (6) (7) 0.1378 (0.031) 0.1361 (0.0273) 0.1342 (0.0265) 0.136 (0.0275) 0.1329 (0.0252) 0.1915 (0.0309) 0.1916 (0.0309) 0.1916 (0.0309) 0.1916 (0.0309) 0.1916 (0.0309) 0.1185 (0.0188) 0.1185 (0.0188) 0.1202 (0.0185) 0.1185 (0.0183) 0.1191 (0.0178) 0.497 (0.0525) 0.4708 (0.0537) 0.4485 (0.0341) 0.4222 (0.0193) 0.365 (0.0285) 0.2244 (0.0465) 0.2169 (0.0364) 0.2073 (0.0384) 0.1764 (0.0229) 0.1615 (0.0292) 0.3097 (0.0426) 0.3275 (0.0405) 0.322 (0.0329) 0.3179 (0.0228) 0.314 (0.0306) 0.2186 (0.0423) 0.2219 (0.0369) 0.2177 (0.0235) 0.215 (0.0308) 0.2075 (0.0288) 10 Tạp chí Khoa học Trường ĐHSP TPHCM 16 32 64 0.1327 (0.0264) 0.1358 (0.031) 0.1317 (0.0246) 0.1343 (0.0262) 0.1916 (0.0309) 0.1916 (0.0309) 0.1916 (0.0309) 0.1916 (0.0309) Tập 17, Số 12 (2020): 22512261 0.1192 (0.0189) 0.1185 (0.0195) 0.1178 (0.0192) 0.1178 (0.0188) 0.3022 (0.0233) 0.2249 (0.0191) 0.1652 (0.0118) 0.1437 (0.0225) 0.1402 (0.0223) 0.1343 (0.025) 0.1284 (0.0233) 0.1226 (0.0218) 0.2993 (0.0184) 0.2866 (0.0213) 0.2422 (0.0242) 0.1701 (0.0205) 0.1858 (0.0286) 0.1492 (0.0299) 0.1219 (0.0348) 0.1151 (0.031) Từ kết Bảng 3, nhận thấy, việc dùng hồi quy riêng tư sai biệt cho tham số riêng tư 𝜀𝜀 ≤ khơng có ý nghĩa phương pháp đơn giản DPMean cho kết tốt Cũng lưu ý, DPMean cho kết tốt số điểm liệu tập liệu lớn (� = 20640) nên độ nhạy truy vấn trung bình nhỏ Trường hợp tập liệu nhỏ � (có điểm liệu) phương pháp đơn giản DPMean cho kết không tốt Phương pháp dùng rừng cho kết tốt khắc phục nhược điểm khớp liệu nhạy cảm tham lam Với tham số riêng tư khoảng ≤ 𝜀𝜀 ≤ 10, phương pháp dùng tập phân vùng với giá trị trung bình mục tiêu (DPMean_Forest) có kết tốt, chí gần đạt kết hồi quy thông thường không hỗ trợ riêng tư Trường hợp 𝜀𝜀 > 10, DPMean_Forest chí cho kết tốt tham lam Đặc biệt, 𝜀𝜀 > 50 tập phân vùng có dùng riêng tư sai biệt lại cho kết tốt rừng thơng thường Điều lí giải việc dùng ngẫu nhiên cho hồi quy riêng tư giúp hạn chế việc khớp liệu huấn luyện giúp tăng khả tổng quát hóa cho liệu Dĩ nhiên, 𝜀𝜀 nhỏ nhiễu q lớn nên dẫn đến kết khơng thể tốt hồi quy thông thường 4.2 Đánh giá MAE theo số lượng rừng hồi quy Chúng chạy thực nghiệm để đánh giá MAE theo số lượng rừng phân vùng Rừng phân vùng đánh giá với dùng thông thường (Python_Forest), riêng tư với giá trị trung bình (DPMean_Forest) giá trị trung vị (DPMedian_Forest) Số lượng r đánh giá 1, 2, 4, 8, 10, 15, 20, 25, 30, 50, 100, 200, 300, 400, 500 với tham số riêng tư 𝜀𝜀 = Kết đánh giá trình bày Hình 11 Tạp chí Khoa học Trường ĐHSP TPHCM Vũ Quốc Hồng tgk Hình Kết đánh giá MAE theo số lượng rừng hồi quy Trong trường hợp tập liệu này, kết cho thấy số tối ưu khoảng 25 Dĩ nhiên, số phân vùng tốt phụ thuộc vào kích thước liệu Tập liệu California Housing gồm 20.640 điểm liệu Như vậy, số nên chọn để có khoảng 700-1000 điểm liệu cho Kết luận Kết thực nghiệm cho thấy việc xây dựng hồi quy hỗ trợ riêng tư sai biệt khả thi, giúp tạo mơ hình hồi quy có tính giải thích cao, khả dự đốn tốt mà đảm bảo tính riêng tư cho tập liệu huấn luyện Phương pháp dùng nhiều phân vùng cho kết tốt, tập liệu huấn luyện lớn (có nhiều điểm liệu), vừa giúp khắc phục nhược điểm dễ khớp liệu nhạy cảm lại vừa hạn chế việc dùng quỹ riêng tư huấn luyện phân vùng liệu rời Kết chưa tốt cho trường hợp tham số riêng tư nhỏ (𝜀𝜀 < 1) cho thấy việc cần phải tiếp tục nghiên cứu, thử nghiệm, cải tiến phương pháp Các hướng phát triển là: - Thử nghiệm chiến lược cấp phát quỹ riêng tư không Chẳng hạn, chia quỹ nhiều cho nút chúng mang giá trị dự đốn - Thử nghiệm ngẫu nhiên việc chọn ngẫu nhiên thuộc tính giá trị chia nhánh không truy cập liệu nên giúp tiết kiệm quỹ riêng tư Dĩ nhiên, phải kết hợp thành rừng thường khơng cho kết dự đốn tốt 12 Tạp chí Khoa học Trường ĐHSP TPHCM Tập 17, Số 12 (2020): 22512261 Tuyên bố quyền lợi: Các tác giả xác nhận hồn tồn khơng có xung đột quyền lợi Lời cảm ơn: Nghiên cứu tài trợ Đại học Quốc gia Thành phố Hồ Chí Minh (VNU-HCM) dự án NCM2019-18-0 TÀI LIỆU THAM KHẢO Blum, A., Dwork, C., McSherry, F., & Nissim, K (2005) Practical privacy: The SuLQ framework PODS '05 Breiman, L., Friedman, J H., Olshen, R A., & Stone, C J (2017) Classification and Regression Trees Dwork, C., McSherry, F., Nissim, K., & Smith, A (2006) Calibrating Noise to Sensitivity in Private Data Analysis J Priv Confidentiality, 7, 17-51 Dwork, C., & Roth, A (2014) The Algorithmic Foundations of Differential Privacy Foundations and Trends in Theoretical Computer Science, 9, 211-407 Fletcher, S., & Islam, M Z (2015) A Differentially Private Decision Forest AusDM Fletcher, S., & Islam, M Z (2016) Decision Tree Classification with Differential Privacy: A Survey ACM Comput Surv., 52, 83:1-83:33 Fletcher, S., & Islam, M Z (2017) Differentially Private Random Decision Forests using Smooth Sensitivity ArXiv, abs/1606.03572 Friedman, A., & Schuster, A (2010) Data mining with differential privacy KDD '10 Han, J., Kamber, M., & Pei, J (2012) Data mining concepts and techniques, third edition Morgan Kaufmann Publishers Jagannathan, G., Pillaipakkamnatt, K., & Wright, R N (2012) A Practical Differentially Private Random Decision Tree Classifier 2012 IEEE International Conference on Data Mining Workshops, 114-121 McSherry, F., & Talwar, K (2007) Mechanism Design via Differential Privacy 48th Annual IEEE Symposium on Foundations of Computer Science (FOCS'07), 94-103 McSherry, F (2009) Privacy integrated queries: an extensible platform for privacy-preserving data analysis SIGMOD Conference Pace, R K & Barry, R (1997) Sparse spatial autoregressions Statistics & Probability Letters, 33, 291-297 Patil, A., & Singh, S (2014) Differential private random forest 2014 International Conference on Advances in Computing, Communications and Informatics (ICACCI), 2623-2630 Pedregosa et al (2011) Scikit-learn: Machine Learning in Python JMLR 12, 2825-2830 Rana, S., Gupta, S K., & Venkatesh, S (2015) Differentially Private Random Forest with High Utility 2015 IEEE International Conference on Data Mining, 955-960 Sarwate, A D., & Chaudhuri, K (2013) Signal Processing and Machine Learning with Differential Privacy: Algorithms and Challenges for Continuous Data IEEE Signal Processing Magazine, 30, 86-94 Xin, B., Yang, W., Wang, S., & Huang, L (2019) Differentially Private Greedy Decision Forest ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2672-2676 13 Tạp chí Khoa học Trường ĐHSP TPHCM Vũ Quốc Hoàng tgk DIFFERENTIALLY PRIVATE REGRESSION TREE AND FOREST Vu Quoc Hoang*, Nguyen Dinh Thuc University of Science, Vietnam National University Ho Chi Minh City, Vietnam Corresponding author: Vu Quoc Hoang – Email: vqhoang@fit.hcmus.edu.vn Received: April 28, 2020; Revised: May 22, 2020; Accepted: December 28, 2020 * ABSTRACT Data modeling is an important problem in data analysis as well as machine learning There exist many different data modeling solutions, of which regression tree is a method which has many advantages compared to other regression methods In addition to the accuracy and interpretability of the result model, the issue of ensuring the privacy of the training dataset is also very important and urgent, especially with sensitive and personal data This paper proposes basic methods and algorithms to build privacy-preserving regression trees based on the differential privacy techniques and algorithms The experimental results indicate the feasibility of the proposed methods, while also raise challenges which could be further studied Keywords: differential privacy; privacy-preserving data analysis; regression; regression tree 14 ... riêng tư sai biệt chưa có cơng trình cho hồi quy Bảng trình bày khung thuật toán để xây dựng hồi quy tham lam thỏa riêng tư sai biệt đề xuất Bảng Thuật toán xây dựng hồi quy tham lam hỗ trợ riêng. .. nhiều riêng tư xây dựng tập rời tập liệu huấn luyện cho kết tốt nhờ Định lí 3.2 Cây hồi quy tham lam thỏa riêng tư sai biệt 3.2.1 Thuật tốn Mặc dù có nhiều cơng trình nghiên cứu việc xây dựng. .. không phụ thuộc vào liệu 3.3 Rừng hồi quy phân vùng thỏa riêng tư sai biệt Tư? ?ng tự Xin cộng (2019), đề xuất việc dùng nhiều hồi quy riêng tư xây dựng tập rời tập liệu huấn luyện thuật toán Bảng