Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
2,17 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA ĐẶNG THẾ HÙNG XÂY DỰNG MƠ HÌNH ĐÁNH GIÁ CHẤT LƢỢNG CHO DỮ LIỆU ẨN DANH VỀ SỨC KHỎE SỬ DỤNG TRONG BÀI TOÁN PHÂN LOẠI THỐNG KÊ Chuyên ngành : Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2020 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học : TS Lê Hồng Trang Cán chấm nhận xét :PGS.TS Đặng Trần Khánh Cán chấm nhận xét : TS Đặng Trần Trí Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 29 tháng năm 2020 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch : PGS.TS Trần Minh Quang Thư ký : TS Nguyễn An Khương Phản biện 1: PGS.TS Đặng Trần Khánh Phản biện 2: TS Đặng Trần Trí Ủy viên: TS Nguyễn Văn Vũ Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƢỞNG KHOA KH&KTMT ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Đặng Thế Hùng MSHV:1670691 Ngày, tháng, năm sinh: 03/01/1986 Nơi sinh: Ninh Bình Chun ngành: Khoa Học Máy Tính Mã số : 60.48.01.01 I TÊN ĐỀ TÀI: XÂY DỰNG MƠ HÌNH ĐÁNH GIÁ CHẤT LƯỢNG CHO DỮ LIỆU ẨN DANH VỀ SỨC KHỎE SỬ DỤNG TRONG BÀI TOÁN PHÂN LOẠI THỐNG KÊ II NHIỆM VỤ VÀ NỘI DUNG Nghiên cứu phương pháp đánh giá chất lượng mô hình ẩn danh K-anonymity liệu sức khỏe để sử dụng tỏng toán phân loại thống kê - Nghiên cứu kỹ thuật ẩn danh họ k-anonymity - Nghiên cứu, đánh giá mơ hình đánh giá chất lượng liệu - Lựa chọn mô hình đánh giá chất lượng cho tập liệu dùng toán phân loại thống kê III NGÀY GIAO NHIỆM VỤ : 10/02/2020 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 21/06/2020 V CÁN BỘ HƢỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): TS Lê Hồng Trang Tp HCM, ngày CÁN BỘ HƢỚNG DẪN (Họ tên chữ ký) tháng năm 2020 TRƢỞNG KHOA KH&KTMT (Họ tên chữ ký) TS Lê Hồng Trang LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành sâu sắc đến TS Lê Hồng Trang, cám ơn thầy tận tình hướng dẫn định hướng cho tơi suốt thời gian thực luận văn Nhờ hướng dẫn giúp đỡ từ thầy giúp tơi hồn thành luận văn Xin chân thành cảm ơn quý thầy cô trường Đại Học Bách Khoa, đặc biệt thầy cô Khoa Khoa học Kỹ thuật Máy tính truyền đạt cho tơi nhiều kiến thức hữu ích suốt q trình theo học trường Tôi xin gửi lời cảm ơn đến bạn bè, gia đình đồng nghiệp, người giúp đỡ tạo điều kiện tốt cho trình học tập nghiên cứu Đặng Thế Hùng TÓM TẮT ĐỀ TÀI Khi liệu sức khỏe cấp độ cá nhân chia sẻ nghiên cứu y sinh, quyền riêng tư bệnh nhân phải bảo vệ Điều thường đạt với phương pháp khử nhận dạng liệu (k-anonymity), liệu chuyển đổi để tránh bị nhận dạng lại Một trường hợp điển hình sử dụng liệu làm đầu vào cho mơ hình dự đoán cho việc khai phá liệu hỗ trợ định, ví dụ để suy kết chuẩn đoán phương pháp trị liệu Trong chuyển đổi chuyển đổi liệu, điều quan trọng giảm thiểu việc thơng tin để trì chất lượng liệu, có nhiều mơ hình đánh giá chất lượng đề xuất chưa nêu cụ thể trường hợp sử dụng cho mơ hình này, luận văn so sánh đánh giá phương pháp đo chất lượng thông tin liệu thông tin ẩn danh thử nghiệm liệu y tế nhằm tìm liệu ẩn danh tốt sử dụng cho mơ hình dự đốn ví dụ mơ hình Logistic Regression ABSTRACT When individual-level health data is shared in biomedical research, a patient's privacy must be protected This is often achieved with methods of k-anonymity, the data will be transformed to avoid being re-identified One of the typically cases is the use of data as input for predictive models for data mining and decision support, for example, to infer the outcome of a diagnostic procedure During data transformation, it is important to minimize the loss of information to maintain data quality, there are many quality assessment models that are proposed but have yet to specify use cases for these models In this thesis, we will compare and assess methods of measuring information quality of deidentified data and test on medical data to find the best result sets to use for the predict model ,e.g the Logistic Regression model LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 03 tháng 08 năm 2020 Đặng Thế Hùng DANH MỤC CHỮ VIẾT TẮT ID Identifier QI,QID Quasi-identifiers SA Sensitive attribute DGH Domain Generalization Hierarchy VGH Value Generalization Hierarchy EC Equivalence classes GHD Generalization Hierarchies Domain GL Generalization Lattice OLA Optimal Lattice Anonymization Prec Precision AECS Average Equivalence Class Size NUE Non-Uniform Entropy CM Classification Metric SDA Single dimensional algorithm CBA Cell-based algorithm DANH MỤC HÌNH ẢNH Hình 1-1 Truy vết từ tập liệu ẩn danh đơn giản [18] Hình 1-2 Tái định danh liệu cơng liên kết [18] Hình1-3 Các bước để ẩn danh liệu với họ k-Anonymization Bảng 2-1 Việc khử định danh (de-identify) Bảng 2-2 Ví dụ k-anonymization với k QI={Race,Birth,Gender,Zip} Bảng 2-3 Tập liệu thỏa mơ hình k-anonymity sử dụng hai phép tổng qt hóa (generalization) bỏ bớt(suppression) Hình 2-4 Cây phân cấp tổng quát hóa (DGH) giá trị (Value domain hierarchy) Zip bao gồm tác vụ suppression Hình 2-5 Cây phân cấp tổng qt hố miền (DGH) giá tri (VGH) chủng tộc bao gồm tác vụ bỏ bớt [10] Hình 2-6 Bằng việc cơng liên kết hai bảng, kẻ địch không suy Bảng 2-7 Các cơng mơ hình K-anonymity Bảng 2-8 Một tập liệu thỏa mãn mơ hình l-diversity Bảng 2-9 Dữ liệu minh họa entropy l-diverse Hình 2-10 Tấn cơng tương tự phá vỡ mơ hình l-diversity: kết luận Bob có lương thấp mắc bệnh tiêu hoá Bảng 2-11 Bảng liệu xử lý t-closeness với t 0.167 tương ứng với mức lương t = 0, 278 tương ứng với dịch bệnh [17] Hình 2-12 Một trường hợp Presence Hình 2-13 Bảng Riêng T Hình 2-14 Bảng cơng khai bên P Bảng 2-15 Bảng liệu minh hoạ -Presence Hình 2-16 Ví dụ tổng q (GHD) hai thuộc tính Age Gender Hình 2-17 Lưới tổng qt hóa hai thuộc tính age gender Hình 2-18 Mơ duyệt lưới tổng qt DataFly Igreedy Hình 2-19 Mơ thuật tốn duyệt GL Incognito Hình 2-20 Mơ thuật tốn OLA Hình 2-21 Mơ thuật tốn Flash Hình 3-1 DGH thuộc tính Race(E) Zip(Z) Hình 3-2 Ánh xạ thuộc tính Education sang dạng số học Bảng 3-3 D1 Original dataset Bảng 3-4 D2 Outlier suppressed optimal SDA and CBA output Bảng 3-5 D3 optimal SDA with output Outlier Bảng 3-6 D4 optimal CDA with output Outlier Bảng 4-1 Mô tả liệu sức khỏe Bảng 4.2 Kết thực nghiêm với k 5, l Bảng 4.3 Kết thực nghiêm với k 10, l Bảng 4.4 Các độ đo khác sử dụng hàm tối ưu hóa độ đo CM Mục lục Dữ liệu mở 11 Vấn đề bảo vệ tính riêng tư 13 Các kỹ thuật ẩn danh liệu 14 Mục tiêu đề tài 16 Chương II Các kỹ thuật ẩn danh liệu 17 1.Các kỹ thuật ẩn danh hóa liệu 17 1.1 K-anonymity 17 1.2 L-diversity 25 1.3 T-closeness 30 1.4 -Presence 31 Các giải thuật duyệt tổng quát để ẩn danh liệu 33 2.1 Data fly Igreedy 34 2.2 Incognito 35 2.3 OLA(Optimal Lattice Anonymization) Flash 36 Chương 3: Đo độ hữu dụng liệu ẩn danh 40 Categorical Precision 40 Loss of information (Intensity) 43 Non-Uniform Entropy 44 Average Equivalence Class Size (AECS) 46 Discernibility 46 Kullback-Leibler (K-L) Divergence 47 Ambiguity 49 Classification Metric 49 Chương :Thực nghiệm đánh giá 52 Mô tả liệu 52 Đo hiệu suất mơ hình logistic regression 54 Đánh giá mơ hình chất lượng liệu 55 3.1 Thực nghiệm 55 3.2 Thực nghiệm 56 Kết Luận hướng phát triển 58 10 Ambiguity Ambiguity[39] (AM) is a record level, general-purpose model dùng để đo độ bất định liệu ẩn danh, tính tốn số lượng kết hợp (về mặt lý thuyết) gi gốc mà gi tổng quát đại diện cho n r | Ri ( j ) | AM ( D, g ( D)) n i 1 j 1 Độ AM bảng D tổng quát hóa thành g(D) ( IIAM(D,g(D))), I số hàng, j số cột, |Ri(j)| số nốt tổng quát (DHG) nốt Ri(j) Xét ví dụ sau: Cho tổng quát GHD thuộc tính Age sau {22,27,29}->([22;30]), tổng quát GHD thuộc tính Salary {3,4,5}->([3;6]), bảng liệu(có thuộc tính QI Age Salary) sau ẩn danh với k=2 có kết sau: Ta có IIAM(D,g(D))) = 3x3 +3x3= 18 Dễ dàng nhận thấy điểm yếu độ đo tính tốn gi đơi khơng có bảng gốc chưa ẩn danh, phương pháp giống với phương pháp Loss of information nói đến tính tốn theo dịng, dịng có độ đo cao tức thành phần tổng quát mức cao độ thông tin nhiều, phương pháp không xét ngữ đến ngữ nghĩa bảng kết sau ẩn danh, độ xác phụ thuộc vào số nút phân cấp Classification Metric Classification Metric [36](CM), record-level, special-purpose model Trong tốn phân loại thơng kê, nhiều thuộc tính lựa chọn (V) làm đầu để dự đốn (Sensitive) Phép tổng qt hóa triệt tiêu giảm khả phân loại thuộc tính dự đốn, thuộc tính QI có giá trị tổng quát hóa gộp chung nhóm (EC), khơng thể phân biệt dịng nhóm này, thuộc tính V phân bổ vào EC, để toán phân loại xác tốt dịng EC có giá trị V, dựa ý tưởng độ đo CM đo độ „ tinh khiết‟ EC dòng làm cho EC giảm độ tinh khiết coi 49 xếp sai ta gán điểm trừ cho Các dịng bị triệt tiêu đối xử nhóm riêng bị gán điểm trừ khơng có ý nghĩa mặt phân loại Công thức độ đo sau: 1 if r is suppressed penalty (row r ) 1 if class (r ) majority (G (r )) 0 otherwise Trong dịng dịng bị triệt tiêu hóa có điểm trừ 1, dịng bị xếp sai EC không thuộc giá trị chiếm đa số( maj(EC) hay maj G(r)) gán điểm trừ Các trường hợp lại khơng bị điểm trừ Cuối ta có CM = total penalty/ total rows Xét ví dụ sau : Ta có EC Với EC1 khơng có row bị trừ điểm, với EC2 bị trừ row giá trị SA không giống nhau, với EC3 dòng số bị điểm trừ maj(EC3) = bronchitis, với EC4 dòng số 10 bị điểm trừ maj(EC4) = pneumonia Cuối ta có: CM =3/12= 0.25 Cải tiến CM toán phân loại thống kê cho liệu sức khỏe đưa Fabian Prasser, Johanna Eicher, Raffael Bild, Helmut Spengler and Klaus A Kuhn [40] 50 1 if r is suppressed, p ( r ) 1 if class(r ) majority ( E (r )), | D | rD 1 if majority ( E (r )) does not exist, 0 otherwise Thay đổi điểm trừ cho dòng bị triệt tiêu, ghi bị xóa có nghĩa thơng tin thơng tin chứa có khả bị nhiễu thuật tốn khử nhận dạng có xu hướng trích xuất mẫu loại bỏ ngoại lệ, dòng liệu O liệu đầu vào cho D, ngoại lệ thuật tốn ẩn danh ALG COST chi phí thỏa mãn: COST ALG D COST ALG D O U O * Outlier : tập dòng liệu mà bị triệt tiêu (suppression) tăng độ xác tổng thể O* suppression O Ví dụ sau [39] Age Sex Contry 19 M USA 18 M USA 27 F Brazil 25 F Brazil 16 M Brazil Bảng 3-3 D1 Original dataset Age 10-20 10-20 20-30 20-30 * Age 10-20 10-20 Sex Contry M USA M USA F Brazil F Brazil * * Bảng 3-4 D2 Outlier suppressed optimal SDA and CBA output Sex M M Contry America America 51 20-30 20-30 10-20 F America F America M America Bảng 3-5 D3 optimal SDA with output Outlier Age Sex Contry 10-20 M America 10-20 M America 20-30 F Brazil 20-30 F Brazil 10-20 M America Bảng 3-6 D4 optimal CDA with output Outlier Trong bảng trên, liệu cuối liệu D1 ngoại lệ thuật toán tối ưu SDA(Single dimensional algorithm) CBA(Cell-based algorithm), ẩn danh yêu cầu k = số liệu chi phí LM (loss metric) Khi bị loại bỏ, hai thuật toán xuất tập liệu D2 với LM có giá 0,33 Khi Outlier khơng bị triệt tiêu, SDA tối ưu xuất D3 với LM có giá 0,5, tối ưu CBA xuất D4 với LM có giá 0,36 Những phương pháp đánh giá thông thường quan tâm đến thuộc tính QI đánh giá liệu theo thuộc tính đó, với CM đánh giá mức độ dự liệu dự „tinh khiết‟ thuộc tính SA phân vào EC số CM cao có nghĩa độ tinh khiết tập liệu thấp hiệu suất cho toán phân loại Chƣơng :Thực nghiệm đánh giá Mô tả liệu Tập liệu phát hành California Office of Statewide Health Planning and Development (OSHPD) website: http://www.oshpd.ca.gov/HID/DataFlow/index.html Dữ liệu OSHPD cung cấp chia thành ba tệp riêng biệt dựa vị trí địa lý bệnh viện: Hạt Los Angeles (chứa 1.183.718 hồ sơ), Nam California (bao gồm Imperial, Orange, Riverside, San Bernardino, 52 San Diego, Santa Barbara Ventura hạt, với tổng số 1.200.553 hồ sơ) Bắc California (các quận lại, với 1.599.895 hồ sơ) Trong thực nghiệm gộp lại tập liệu (dữ liệu PD) Mô tả thuộc tính Bộ liệu PD bao gồm tổng cộng 3.985.166 hồ sơ Mỗi hồ sơ mô tả chi tiết cá nhân lâm sàng bệnh nhân với 38 thuộc tính Từ đó, có thuộc tính mơ tả chi tiết điều tra dân số không gian việc nhập viện, 12 thuộc tính thơng tin quản trị sở nội (như loại toán dự kiến loại bảo hiểm) 17 thuộc tính cịn lại mô tả điều kiện lâm sàng bệnh nhân Trong thực nghiệm ta lấy thuộc tính điều tra dân số không gian thuộc tính nhận dạng gần (QI), chúng đại diện cho loại thơng tin biết sử dụng thực thể bên để xác định lại bệnh nhân Chúng phân loại thuộc tính gần xác định thành tính điều tra dân số(tuổi, giới tính, dân tộc, chủng tộc, mã ZIP quận), đặc điểm tạm thời (quý nhập viện thời gian lưu trú) Bảng 4.1 mơ tả chi tiết thuộc tính xem xét 53 Type Max Description Sex Age Race Ethncty Patzip QI QI QI QI QI LevelGH 4 Giới tính(integer) Tuổi (integer) Chủng tộc (integer) Dân tộc (integer) Mã bưu chính(integer) Patcnty QI Quốc tịch (integer) Los Admin_qtr Charge QI số ngày nằm viện (integer) QI Quý nhập viện (integer) Target 9.( integer) Bảng 4-1 Mô tả liệu sức khỏe Properties Tập liệu với thuộc tính trên, ta có thuộc tính QI thuộc tính Charge dùng để làm giá trị mục tiêu cho việc dự đốn tiền viện phí có trường hợp {[=$50000]}, thuộc tính xây dựng tổng qt hóa có bậc mơ tả ta có solution space size = 27000 Tỉ lệ lấy mẫu 1% tập liệu gốc khoảng ~ 40.000 hồ sơ Đo hiệu suất mơ hình logistic regression Để dự đốn giá trị biến mục tiêu Charge dựa thuộc tính QI ta xây dựng mơ hình logistic regression, đê đo hiệu suất mơ hình sử dụng interwoven k-fold cross-validation[41] với k=3 mô tả sau: Chúng ta tiến hành đánh giá hiệu suất mơ hình theo cách thông thường thực k-fold cross-validation với tập liệu ẩn danh so sánh với kết 54 thực hiên k-fold cross-validation tập liệu ban đầu [42] Dữ liệu đầu vào chia thành phần băng Pi Mơ hình phải huấn luyện phần tập liệu ẩn danh, để đánh giá mơ hình dùng phần lại liệu gồm phần chưa ẩn danh, có kích cỡ nên hồn tồn so sánh hiệu suất, trung bình cộng Fold kết cuối Như hình lần mơ hình huấn luyện P2 P3 (đã ẩn danh), đánh giá P1(chưa ẩn danh) Các thông số để dánh giá : Baseline accuracy (sử dụng ZeroR method), Original accuracy: hiệu suất đánh giá tập liệu nguyên thủy đầu vào , Accuracy: Độ xác mơ hình sử dụng k-fold cross-validation với tập liệu ẩn danh Đánh giá mơ hình chất lƣợng liệu 3.1 Thực nghiệm Nhằm tìm độ đo hữu dụng cho việc tối ưu hóa duyệt tổng quát, điều kiện tiền ẩn danh, ngồi việc chọn mơ hình ẩn danh, việc chọn độ đo tốt giúp thuật tốn nhanh chóng tìm phương án ẩn danh tối ưu Bước 1: Ta sử dụng mơ hình k-anonymity, l- diversity với k=5( 10) l =2, tham số điển hình liệu y sinh ngưỡng rủi ro bị công nhận dạng không 20%[43] Sử dụng kỹ thuật chuyển đổi liệu tổng quát hóa (Global transformation) kết hợp với triệt tiêu, sử dụng giải thuật Flash để duyệt lưới tổng quát Bước 2: Ta thực hàm tối ưu hóa phương pháp đánh giá chất lượng để tìm 10 phương án tối ưu mơ Bước 3: Tính tốn hiệu suất trung bình sử dụng interwoven k-fold cross-validation cho phương pháp đánh giá số lượng gi bị triệt tiêu Kết thu sau: Data quatily Base Original model line(%) Accuracy(%) Prec ~ 45.102 ~61,64 55 Accuracy(%) Record remove ~51,59 2910(7.32%) Loss ~ 45.102 ~61,14 ~48,64 1620 (4,1%) NUE ~ 45.102 ~61,34 ~45,10 2811 (7.09%) Ambigus ~ 45.102 ~61,31 ~50.77 14(0.035%) KL Divergence ~ 45.102 ~60,91 ~55,01 2147 (5.42%) AECS ~ 45.102 ~61,15 ~51,23 11062(27,92%) Discernibility ~ 45.102 ~61,65 ~51,50 5(0.012%) CM ~ 45.102 ~61,1 ~ 60,15 568(1,43%) Bảng 4.2 Kết thực nghiêm với k=5, l=2 Data quatily Base line model Original Accuracy Record remove Accuracy Prec ~ 45.102 ~61.27% ~44,4% ~1386(3.5%) Loss ~ 45.102 ~60.768% ~47.720% ~2792(7.05%) NUE ~ 45.102 ~61.187% ~44.099% ~10(~0%) Ambigus ~ 45.102 ~61.477% ~52.505% ~50(~0,1%) KL Divergence ~ 45.102 ~61.39% ~55.314% 1552(3.9%) AECS ~ 45.102 ~61.634% ~47.147% 10005(25.26%) Discernibility ~ 45.102 ~61.487% ~50.651% 10(~0%) CM ~ 45.102 ~61.33104% ~60.11% 840(2.12%) Bảng 4.3 Kết thực nghiêm với k=10, l=2 Nhìn từ bảng kết ta có thấy độ đo CM(Classification metric) cho tập liệu có hiệu suất cao nhất, độ đo khác có hiệu suất thấp lượng hồ sơ bị loại chiếm tỉ lệ cao( tỉ lệ tốt) Điều cho ta thấy độ đo CM nên dùng hàm tối ưu cho ẩn danh liệu dùng toán phân loại 3.2 Thực nghiệm Nhằm đánh giá ảnh hưởng số độ đo hữu dụng lên phương án ẩn danh tìm Lấy 10 phương án có điểm CM tốt nhất, tính tốn chất lượng 56 liệu phương án phương pháp khác Để dễ dàng so sánh ta chuyển đối giá trị tuyệt đối độ đo sang dạng tương đối: Giá trị tương đối (%) = 1- (giá trị tuyệt đối- min)/ (max- min) Min max hai phương án có điểm số nhỏ lớn tồn không gian giải pháp Rank 10 solution CM [0, 1, 1, 2, 4, 3, 0, 2] 0.392446 [0, 2, 1, 2, 4, 3, 0, 2] 0.392459 [0, 1, 0, 2, 4, 3, 0, 2] 0.392534 [0, 2, 0, 2, 4, 3, 0, 2] 0.392547 [1, 1, 1, 2, 4, 3, 0, 2] 0.393405 [1, 2, 1, 2, 4, 3, 0, 2] 0.393418 [0, 1, 0, 2, 1, 3, 0, 2] 0.39362 [0, 2, 0, 2, 1, 3, 0, 2] 0.393633 [0, 1, 0, 2, 2, 3, 0, 2] 0.393759 [1, 1, 1, 2, 3, 3, 0, 1] 0.393759 Accu 0.604373 0.602353 0.597152 0.595233 0.602328 0.602378 0.595158 0.603792 0.598717 0.597581 Ori Accu 0.612629 0.608993 0.611871 0.612326 0.612679 0.611897 0.606064 0.616113 0.609599 0.612982 RR 2654 2653 4447 4446 568 567 5211 5210 5182 1122 Loss 29.16% 23.33% 38.84% 33.29% 26.69% 20.54% 46.14% 40.71% 43.46% 35.43% Prec 33.31% 26.61% 40.18% 33.81% 33.11% 26.04% 44.58% 38.35% 43.22% 43.05% NUE(age) NUE(los) 92.76% 89.14% 92.76% 89.14% 87.84% 82.33% 87.84% 82.33% 45.49% 97.34% 45.49% 97.34% 86.74% 79.63% 85.74% 79.63% 85.83% 79.23% 44.82% 94.76% Dis 92.65% 92.66% 88.43% 88.43% 96.12% 96.12% 86.51% 86.51% 86.58% 95.98% AECS 99.90% 99.90% 99.93% 99.93% 99.51% 99.51% 99.93% 99.93% 99.93% 99.74% Bảng 4.4 Các độ đo khác sử dụng hàm tối ưu hóa độ đo CM Quan sát cột Accu(accuracy) ta thấy giá trị hiệu suất đồng độ biến thiên không cao đặc điểm độ đo CM hướng đến việc phân loại tốt cột liệu mục tiêu Hai cột Loss Prec cho ta thấy mức độ tổng quát hóa liệu, giá trị nhỏ tức mức độ tổng qt hóa cao (ví dụ: liệu số loss=20.54% có mức tổng quát hóa cao nhất), hiệu suất liệu có mức tổng quát hóa cao thường có mức độ bảo vệ tính riêng tư cao Hai cột NUE(age) NUE(Los) cho thấy mức độ bảo tồn phân phối hai thuộc tính cao, chứng minh hai thuộc tính quan trọng việc dự đoán xác suất biến mục tiêu đặc biệt thuộc tính los (Leng of stay) Cột AECS cho ta thấy kích cỡ trung bình EC phương án ẩn danh đạt gần tốt nhât (có kích cỡ nhỏ) bổ trợ thêm cho độ đo CM, CM khơng quan tâm đên kích cỡ EC Cũng tương tự độ đo AECS biến thiên cột Discernibility số lượng gi bị triệt tiêu 57 Kết Luận hƣớng phát triển Luận văn trình bày kỹ thuật ẩn danh dịng k-anonymity, kỹ thuật chuyển đổi liệu để đạt tiêu chí ẩn danh, áp dụng vào liệu sức khỏe, so sánh đặc điểm độ đo hữu dụng Các độ đo phụ thuộc trường hợp sử dụng liệu sau ẩn danh, với tốn phân loại thống kê ta thấy độ đo CM hàm tối ưu tốt cho xác suất phân loại cao so với độ đo khác nhằm vào phân loại thuộc tính mục tiêu, độ đo khác AECS cho thêm thông số kích cỡ trung bình EC, hay NUE cho biết thuộc tính quan trọng việc dự đoán biến mục tiêu, chúng hỗ trợ cho ta lựa chọn giải pháp ẩn danh tốt vừa đảm bảo độ hữu dụng vừa đảm bảo tính riêng tư cảu liệu Hướng phát triển nghiên cứu thêm nhiều trường hợp sử dụng sữ liệu ẩn danh để phát triển độ đo thích hợp nhằm tối ưu hóa chất lượng liệu, với liệu chưa biết mục đích ẩn danh phải đưa tham số tham khảo để tạo liệu có chất lượng tương đối 58 TÀI LIỆU THAM KHẢO [1] Open data wiki, https://en.wikipedia.org/wiki/Open_data, 10/2017 [2] Open data in telecom, https://manypossibilities.net/2017/06/the-case-for-open-dataintelecoms/,10/2017 [3] AfTerFibre map, https://afterfibre.nsrc.org/, 10/2017 [4] Canadian Cellular Towers Map, http://sms-sgs.ic.gc.ca/eic/site/sms- sgsprod.nsf/eng/h_00010.html, 10/2017 [5] Open Data Handbook, http://opendatahandbook.org/guide/en/, 10/2017 [6] Zhang, K., Ni, J., Yang, K., Liang, X., Ren, J., & Shen, X S (2017) Security and Privacy in Smart City Applications: Challenges and Solutions IEEE Communications Magazine, 55(1), 122-129 [7] Rakesh Agrawal, Ramakrishnan Srikant: Privacy-preserving data mining, SIG-MOD, Vol 29, pp 439-450, 2000 [8] Yehuda Lindell, Benny Pinkas: Privacy Preserving Data Mining, Journal of Cryptology, Vol 15, pp 177-206, 2002 [9] Bee-Chung Chen, Daniel Kifer, Kristen LeFevre, Ashwin Machanavajjhala: PrivacyPreserving Data Publishing, Foundations and Trends in Databases, 2(1-2), pp 1-167, 2009 [10] Benjamin C M Fung, Ke Wang, Rui Chen, Philip S Yu: Privacy-preserving data publishing: A survey of recent developments, ACM Computing Surveys, 42(4), 2010 [11] The home of the U.S Government‟s open data: https://www.data.gov/ , 10/2017 [12] Openning up Government, UK: https://data.gov.uk/ , 10/2017 [13] Open Data Institute: Applying blockchain technology in global data infrastructure, Technical report, 2016 [14] Yuichi Nakamura, Kanae Matsui and Hiroaki Nishi: Anonymization Infrastructure for Secondary Use of Data, The International Conference on Internet Comp and Big Data, 2014 [15] Anh Tuan Truong, Tran Khanh Dang, Josef Kueng On Guaranteeing k-Anonymity in Location Databases, 2011 International Conference on Database and Expert Systems Applications (DEXA), pages 280-287, Springer, 2011 59 [16] Australia‟s open data, https://data.gov.au/, 05/2018 [17] Vietnam Open Educational Resources – VOER, http://voer.edu.vn/, 05/2018 [18] Green, Ben, Gabe Cunningham, Ariel Ekblaw, Paul Kominers, Andrew Linzer, and Susan Crawford 2017 Open Data Privacy (2017) Berkman Klein Center for Internet & Society Research Publication [19] Poulis, G., Gkoulalas-Divanis, A., Loukides, G., Skiadopoulos, S., & Tryfonopoulos, C (2014) SECRETA: A system for evaluating and comparing relational and transaction anonymization algorithms [20] Sweeney, L (2002) k-anonymity: A model for protecting privacy International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05), 557-570 [21] Sweeney, L (1998) Datafly: A system for providing anonymity in medical data In Database Security XI (pp 356-381) Springer, Boston, MA., [22] Samarati, P (2001) Protecting respondents identities in microdata release IEEE transactions on Knowledge and Data Engineering, 13(6), 1010-1027., [23] De Waal, A G., Hundepool, A J., & Willenborg, L C R J (1995) Argus: Software for statistical disclosure control of microdata US Census Bureau., MinGen (2002) [39] [24] LeFevre, K., DeWitt, D J., & Ramakrishnan, R (2005, June) Incognito: Efficient full-domain k-anonymity In Proceedings of the 2005 ACM SIGMOD international conference on Management of data (pp 49-60) ACM [25] LeFevre, K., DeWitt, D J., & Ramakrishnan, R (2006, April) Mondrian multidimensional k-anonymity In ICDE (Vol 6, p 25) [26] Aggarwal, C C (2005, August) On k-anonymity and the curse of dimensionality In Proceedings of the 31st international conference on Very large data bases (pp 901-909) [27] Truta, T M., & Vinay, B (2006, April) Privacy protection: p-sensitive k-anonymity property In 22nd International Conference on Data Engineering Workshops (ICDEW'06) (pp 94-94) [28] A Machanavajjhala, D Kifer, J Gehrke and M Venkitasubramaniam, l-diversity: Privacy beyond k-anonymity, Transactions on Knowledge Discovery from Data (2007), 24–35 60 [29] Aggarwal, C C., & Philip, S Y (2008) A general survey of privacy-preserving data mining models and algorithms In Privacy-preserving data mining (pp 11-52) Springer, Boston, MA.) [30] Nergiz, M E., Atzori, M., & Clifton, C (2007, June) Hiding the presence of individuals from shared databases In Proceedings of the 2007 ACM SIGMOD international conference on Management of data (pp 665-676) ACM [31] Nergiz, M E., & Clifton, C (2009) δ-presence without complete world knowledge IEEE Transactions on Knowledge and Data Engineering, 22(6), 868-883 [32]16 Babu K, Reddy N, Kumar N, Elliot M, Jena S Achieving k-anonymity using improved greedy heuristics for very large relational databases Trans Data Priv 2013;6(1):1–17 [33]Emam KE, Dankar FK, Issa R, Jonker E, Amyot D, Cogo E, et al A globally optimal k-anonymity method for the de-identification of health data J Am Med Inform Assoc 2009;16(5):670–82 [34] Kohlmayer F, Prasser F, Eckert C, Kemper A, Kuhn KA Flash: Efficient, stable and optimal k-anonymity In: Proc Int Conf Priv Secur Risk Trust Amsterdam, The Netherlands: IEEE; 2012 p 708–17 [35] L Sweeney, Achieving k-anonymity privacy protection using generalization and suppression, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10 (2002), 571–588 ACM [36]V.S Iyengar, Transforming data to satisfy privacy constraints, International Conference on Knowledge Discovery and Data Mining, ACM, 2002, 279–288 [36] A De Waal and L Willenborg, Information loss through global recoding and local suppression, Netherlands Official Statistics 14 (1999), 17–20 [37]K LeFevre, D.J DeWitt and R Ramakrishnan, Mondrian multidimensional kanonymity, International Conference on Data Engineering, IEEE, 2006, 25 [38]R.J Bayardo and R Agrawal, Data privacy through optimal kanonymization, International Conference on Data Engineering, IEEE, 2005, 217–228 [39] M.E Nergiz and C Clifton, Thoughts on k-anonymization, International Conference on Data Engineering, IEEE, 2006, 96 61 [40] Fabian Prasser, Johanna Eicher, Raffael Bild, Helmut Spengler and Klaus A Kuhn: A Tool for Optimizing De-Identified Health Data for Use in Statistical Classification, 2017 IEEE 30th International Symposium on Computer-Based Medical Systems [41] T L Bailey and C Elkan, “Estimating the accuracy of learned concepts,” in Proc 13th International Joint Conference on Artifical Intelligence San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1993, pp 895–900 [42]A Inan, M Kantarcioglu, and E Bertino, “Using anonymized data for classification,” in 25th International Conference on Data Engineering IEEE, 2009, pp 429–440 [43]K El Emam and B Malin, “Appendix B: Concepts and methods for de-identifying clinical trial data,” in Sharing clinical trial data: Maximizing benefits, minimizing risk The National Academies Press, 2015 62 LÍ LỊCH TRÍCH NGANG Họ tên: ĐẶNG THẾ HÙNG Ngày, tháng, năm sinh: 03/01/1986 Nơi sinh: Ninh Bình Địa liên lạc: 189, Nguyễn Oanh, phƣờng 10, Gò Vấp, Hồ Chí Minh Q TRÌNH ĐÀO TẠO - Từ 09/2004 đến 10/2010: sinh viên trường Đại học Kỹ thuật Lê Quý Đôn, Khoa Công Nghệ Thông Tin - Từ 10/2016 đến nay: học viên cao học trường Đại Học Bách Khoa – Đại học Quốc Gia TPHCM, chuyên ngành Khoa Học Máy Tính Q TRÌNH CƠNG TÁC - 12/2013 đến : Giáo viên khoa công nghệ thông tin trường đại học Trần Đại Nghĩa 63 ... TÀI: XÂY DỰNG MƠ HÌNH ĐÁNH GIÁ CHẤT LƯỢNG CHO DỮ LIỆU ẨN DANH VỀ SỨC KHỎE SỬ DỤNG TRONG BÀI TOÁN PHÂN LOẠI THỐNG KÊ II NHIỆM VỤ VÀ NỘI DUNG Nghiên cứu phương pháp đánh giá chất lượng mơ hình ẩn danh. .. đo lường chất lượng khác góp phần tìm kết tốt cho tốn Đó mục tiêu luận văn “ XÂY DỰNG MƠ HÌNH ĐÁNH GIÁ CHẤT LƢỢNG CHO DỮ LIỆU ẨN DANH VỀ SỨC KHỎE SỬ DỤNG TRONG BÀI TOÁN PHÂN LOẠI THỐNG KÊ ” Chƣơng... K-anonymity liệu sức khỏe để sử dụng tỏng toán phân loại thống kê - Nghiên cứu kỹ thuật ẩn danh họ k-anonymity - Nghiên cứu, đánh giá mơ hình đánh giá chất lượng liệu - Lựa chọn mơ hình đánh giá chất lượng