1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bảo vệ tính riêng tư trong khai thác dữ liệu

146 67 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 146
Dung lượng 1,73 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH VĂN QUỐC PHƯƠNG BẢO VỆ TÍNH RIÊNG TƯ TRONG KHAI PHÁ DỮ LIỆU Chuyên ngành: Khoa học Máy tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 04 năm 2010 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : TS Đặng Trần Khánh TS Võ Thị Ngọc Châu Cán chấm nhận xét : Cán chấm nhận xét : Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm 2010 TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC MÁY TÍNH CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc Tp HCM, ngày tháng năm 2010 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Huỳnh Văn Quốc Phương Phái: Nam Ngày, tháng, năm sinh: 15-01-1983 Nơi sinh: Phú Yên Chuyên ngành: Khoa học Máy tính MSHV: 00708206 1- TÊN ĐỀ TÀI: BẢO VỆ TÍNH RIÊNG TƯ TRONG KHAI PHÁ DỮ LIỆU 2- NHIỆM VỤ LUẬN VĂN: 3- NGÀY GIAO NHIỆM VỤ : 4- NGÀY HOÀN THÀNH NHIỆM VỤ : 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: TS Đặng Trần Khánh TS Võ Thị Ngọc Châu Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN KHOA QL CHUYÊN NGÀNH (Họ tên chữ ký) QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) (Họ tên chữ ký) LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, công việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 08 tháng 04 năm 2010 Huỳnh Văn Quốc Phương ii LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành sâu sắc đến TS Đặng Trần Khánh TS Võ Thị Ngọc Châu Cám ơn thầy cô tận tình hướng dẫn, định hướng tơi từ cách đặt vấn đề, phương pháp nghiên cứu khoa học, đến công việc cụ thể luận văn Tôi xin cảm ơn gia đình động viên tạo điều kiện tốt để tơi tiếp tục theo đuổi việc học tập nghiên cứu Tôi trân trọng dành tặng thành luận văn cho Cha Mẹ Nhờ công lao dưỡng dục Người mà chúng có thành ngày hơm Con xin hứa tiếp tục cố gắng phấn đấu để vươn cao Huỳnh Văn Quốc Phương iii TĨM TẮT ĐỀ TÀI Bảo vệ tính riêng tư khai phá liệu (PPDM – Privacy Preserving Data Mining) lĩnh vực mẻ, Việt Nam Đây lĩnh vực phát sinh trực tiếp từ lĩnh vực phát tri thức khai phá liệu (KDD Knowledge Discovery and Data Mining) trình khai thác liệu, nguy thơng tin nhạy cảm bị phơi bày, lạm dụng ảnh hưởng không tốt đến cá nhân, tổ chức liên quan PPDM phát triển với nhiều phương pháp, mơ hình khác như: k-nặc danh (k-anonymity), nhiễu hóa, hốn đổi … để bảo vệ tính riêng tư liệu cố gắng trì tối đa giá trị khai thác Hiện chưa có kỹ thuật, giải thuật trì giá trị khai thác theo kỹ thật khai phá liệu cụ thể mà cố gắng trì khác biệt liệu gốc liệu thay đổi chung chung Trong phần này, đề tài đề hướng tiếp cận là: thực trình che dấu tính riêng tư cá thể liệu đồng thời trì giá trị khai thác liệu lớn theo kỹ thuật khai phá liệu cụ thể Đề tài cụ thể hóa hướng tiếp cận mà đề tài đề xuất cách đề xuất kỹ thuật Migrate Member để đạt mơ hình k-nặc danh giải thuật M3AR cho kỹ thuật để chống lại khả tái xác định cá thể đồng thời phải trì tối đa luật kết hợp liệu gốc iv ABSTRACT Privacy Preserving Data Mining (PPDM) is rather a new field, specially in Vietnam This field arose directly from the area of Knowledge Discovery and Data Mining as during data mining sensitive information may be exposed and imposed, that will impact on related individuals and organizations PPDM has developed with various methods, models such as: k-anonymity, perturpation, data swapping… to preserve the privacy of data while trying to maitain as much as possible its utility However, up to now, there is not any technique, algorithm to maintain utility for a specific data mining technique; current techniques, algorithms only try to maintain the least difference between orgirinal and modified data that is over general This thesis proposes a new approach: performing individual privacy preserving in data and at the same time, maintaing data utility as much as possible according to a specific data mining technique This thesis will concretize the above proposed approach by offering the Migrate Member technique to optain k-anonymity model and M3AR algorithm for this technique to resist the possibility of reidentifying individuals and maintain as much as possible the association rules of original data v Mục lục MỤC LỤC Trang DANH MỤC BẢNG viii DANH MỤC HÌNH ix CHƯƠNG 1: GIỚI THIỆU .1 1.1 Phát biểu vấn đề .1 1.2 Tên đề tài 1.3 Phạm vi đề tài 1.4 Mục tiêu đề tài 1.5 Phương pháp thực .6 CHƯƠNG 2: TỔNG QUAN CÁC PHƯƠNG PHÁP BẢO VỆ TÍNH RIÊNG TƯ TRONG KHAI PHÁ DỮ LIỆU 2.1 Phương pháp ngẫu nhiên 2.1.1 Nhiễu hóa dựa cộng nhiễu 2.1.2 Nhiễu hóa dựa nhân nhiễu 2.1.3 Hoán đổi liệu 2.2 Phương pháp nặc danh dựa nhóm 2.2.1 k-Nặc danh .10 2.2.2 l-Đa dạng 10 2.2.3 t-Gần .11 2.3 Bảo vệ tính riêng tư khai phá liệu phân tán 14 2.4 Bảo vệ tính riêng tư kết ứng dụng 16 2.4.1 Che dấu luật kết hợp .16 2.4.2 Thu giảm tính hiệu phân lớp 17 2.4.3 Điều khiển suy diễn kiểm soát truy vấn 17 CHƯƠNG 3: PHƯƠNG PHÁP K-NẶC DANH .19 3.1 Tổng quan phương pháp k-nặc danh 19 3.1.1 Kỹ thuật tổng quát hóa .20 3.1.2 Kỹ thuật loại bỏ .23 3.2 Một số giải thuật cho k-nặc danh 23 3.2.1 Giải thuật Samarati 24 3.2.2 Giải thuật Bayardo Agrawal 26 3.2.3 Giải thuật LeFevre, DeWitt and Ramakrishnan .29 3.3 Các cách tiếp cận đảm bảo k-nặc danh khai phá liệu .31 3.3.1 Nặc danh – – Khai phá .31 3.3.2 Khai phá – – Nặc danh .33 CHƯƠNG 4: PHƯƠNG PHÁP HOÁN ĐỔI DỮ LIỆU 39 4.1 Giới thiệu 39 4.2 Giải pháp mô hình hóa hốn đổi liệu tốn định .40 4.2.1 Đặc tả cấu hình hốn đổi 40 4.2.2 Khơng gian cấu hình hốn đổi 41 4.2.3 Độ đo rủi ro .42 4.2.4 Độ đo tiện ích 43 vi Mục lục 4.2.5 Lựa chọn cấu hình hốn đổi từ độ đo rủi ro độ đo tiện ích 44 4.2.6 Một số giải thuật .46 4.3 Giải pháp hoán đổi xấp xỉ dựa xếp loại 48 4.3.1 Giải thuật 48 4.3.2 Một số tăng cường cho giải thuật hoán đổi xấp xỉ dựa xếp loại 49 4.4 Những ưu nhược điểm kỹ thuật hoán đổi liệu .51 4.4.1 Ưu điểm .51 4.4.2 Nhược điểm .51 CHƯƠNG 5: PHƯƠNG PHÁP NHIỄU HÓA DỰA TRÊN CỘNG NHIỄU 52 5.1 Giới thiệu 52 5.2 Độ đo tính riêng tư độ đo mát thông tin .52 5.2.1 Độ đo tính riêng tư 52 5.2.2 Độ đo mát thông tin 54 5.3 Tái cấu trúc liệu gốc 55 5.3.1 Tái cấu trúc dựa phân phối nhiễu 55 5.3.2 Tái cấu trúc dựa phân phối đơn biến .55 5.3.3 Phương pháp Agrawal Srikant .57 5.3.4 Phương pháp cực đại hóa mong đợi .58 CHƯƠNG 6: HƯỚNG TIẾP CẬN ĐỀ TÀI VÀ GIẢI PHÁP 60 6.1 Hướng tiếp cận đề tài .60 6.2 Giải pháp 62 6.2.1 Định dạng liệu 62 6.2.2 Vấn đề cần giải 63 6.2.3 Phân tích phù hợp kỹ thuật phương pháp k-nặc danh cho vấn đề đề tài 65 6.2.4 Kỹ thuật Di trú Thành viên 69 6.2.5 Tác động phép di trú thành viên lên luật kết hợp 75 6.2.6 Đánh giá chất lượng liệu biến đổi D’ so với liệu gốc D 83 6.2.7 Chính sách giải thuật M3AR .85 6.2.8 Ước lượng độ phức tạp giải thuật 92 6.2.9 Ảnh hưởng min_sup min_conf lên giải thuật 95 CHƯƠNG 7: CHƯƠNG TRÌNH HIỆN THỰC VÀ KIỂM THỬ 97 7.1 Chương trình thực 97 7.1.1 “DMX Script” tab .97 7.1.2 “Dataset Mining” tab 98 7.1.3 “Dataset” Tab 99 7.1.4 “Anonymity” tab 100 7.2 Kiểm thử 102 CHƯƠNG 8: TỔNG KẾT .109 8.1 Tổng kết công việc làm 109 8.2 Những đóng góp luận văn .110 8.3 Hướng phát triển đề tài 111 TÀI LIỆU THAM KHẢO .113 PHỤ LỤC A: CÔNG CỤ KHAI PHÁ DỮ LIỆU 117 PHỤ LỤC B: DMX SCRIPT DÙNG TRONG KIỂM THỬ 134 vii Danh mục bảng DANH MỤC BẢNG Bảng 2.1: Thông tin bệnh nhân 11 Bảng 2.2: Thông tin bệnh nhân bị nặc danh (3-anonymity) .11 Bảng 2.3: Thông tin tiền lương - bệnh 12 Bảng 2.4: Thông tin tiền lương - bệnh 3-diversity 13 Bảng3.1: Một ví dụ đơn giản bảng riêng tư .19 Bảng 3.2: Tổng quát hóa bảng 3.1 dựa thuộc tính Sex 21 Bảng 3.3: Tổng quát hóa bảng 3.2 dựa thuộc tính Marital status 22 Bảng 3.4: Tổng qt hóa bảng 3.3 dựa thuộc tính Marital status 22 Bảng 3.5: Tổng qt hóa bảng 3.4 dựa thuộc tính Hour 22 Bảng 3.6: Tổng quát hóa bảng 3.5 dựa thuộc tính Hour 22 Bảng 3.7: Phân loại kỹ thuật k-nặc danh .23 Bảng 3.8: Ví dụ đơn giản bảng riêng tư 25 Bảng 3.9: Tổng quát bảng 3.8 dựa 25 Bảng 3.10: Tổng quát bảng 3.8 dựa 26 Bảng 3.11: Ví dụ đơn giản bảng riêng tư .30 Bảng 3.12: Ví dụ đơn giản bảng riêng tư .34 Bảng 3.13: Các itemset độ hỗ trợ tương ứng bảng 3.12 .35 Bảng 6.1: Dữ liệu sinh viên tổng hợp 64 Bảng 6.2: Nhóm giá trị dựa thuộc tính QI từ bảng 6.1 64 Bảng 6.3: Dữ liệu điểm sinh viên tổng hợp 70 Bảng 6.4: 3-nặc danh hóa bảng 6.3 71 Bảng 6.5 Trình tự di chuyển thành viên nhóm độ rủi ro tương ứng 73 Bảng 6.6 Thiên vị giảm nhóm khơng an toàn ước lượng độ rủi ro .74 Bảng 6.7 Bảng liệu ngẫu nhiên .79 Bảng 6.8 Tập luật kết hợp sinh từ bảng 6.7 80 Bảng 6.9 Bảng thơng tin nhóm từ bảng 6.7 80 Bảng 6.10 Liệt kê trường hợp tăng giảm số nhóm danh sách 94 Bảng 6.11 Số lần SelectedG xem xét chuyển đổi với nhóm khác qua lần lặp 95 Bảng A.1 Mining_Services Schema Rowset 125 Bảng A.2 Service_Parameters Schema Rowset 126 Bảng A.3 Mining_Models Schema Rowset 126 Bảng A.4 Mining_Columns schema Rowset 127 Bảng A.5 Mining_Model_Content Schema Rowset 128 Bảng A.6 Mining_Functions Schema Rowset 128 Bảng A.7 Model_PMML Schema Rowset 129 Bảng A.8 Mining Structure Schema Rowset 131 viii Phụ lục “Provider_Name” nhà cung cấp OLE DB, ví dụ MSSQL cho Microsoft SQL Server, Jet cho Access OLE DB drivers sẵn có cho hầu hết nguồn liệu (file text, Oracle, DB2, Sysbase …) “Provider_String” chuỗi kết nối cho nhà cung cấp “DB_String” truy vấn SQL hỗ trợ nhà cung cấp, truy vấn trả rowset Sau phát biểu đào tạo cho mơ hình MemberCard_Prediction Nguồn liệu lưu trữ sở liệu SQL Server máy myserver Insert into MemberCard_Prediction ( CustomerId, Gender, Age, Profession, Income, HouseOwner, MemberCard ) OpenRowset ( ‘sqloledb.1’ , ‘Provider=sqloledb.1; server=myserver; pwd=mypwd; uid=mylogin; database=mydb’ , ‘Select CustomerId, gender, age, profession, income, houseowner, membercard From customers’ ) Phát biểu đào tạo mơ hình có cú pháp giống chèn liệu vào bảng quan hệ Sự khác biệt chỗ tên đối tượng mơ hình khai phá Nếu mơ hình khai phá chứa bảng lồng cú pháp đào tạo mơ hình phức tạp phần DMX sử dụng Data Shaping Service định nghĩa OLE DB để tạo rowset phân cấp Các case đầu vào phải phù hợp với định dạng phân cấp để cung cấp cho nhà cung cấp khai phá liệu Lệnh Shape tương tự toán tử Join, kết nối rowset có liên quan dựa cột liên quan Shape trả rowset phân cấp Mỗi dòng cha chứa vài cột biểu diễn dịng Ví dụ, sau shape rowset khách hàng mua hàng sử dụng khóa CustomerId Sau phát biểu đào tạo với bảng lồng sử dụng Shape: Insert into MarketBasketModel ( CustomerId, Gender, Income, MemberCard, Purchases (skip, ProductName, Quantity) ) Trang 121 Phụ lục Openrowset ( ‘MSDataShape’, ‘provider=SQLOLEDB; server=myserver; uid=mylogin; pwd=mypwd; database=mydb’, ‘Shape {Select CustomerId, Gender, Income, MemberCard From Customers } Append ({ Select CustomerId, ProductName, Quantity From Purchases } Relate CustomerId to CustomerId ) as Purchases’ ) A.2.3 Dự báo mô hình Dự báo khám phá thơng tin case chưa biết sử dụng mẫu tìm thấy liệu lịch sử Dự báo bước quan trọng q trình khai phá liệu Nó thường mục đích cuối dự án khai phá liệu Bước đào tạo tốn thời gian cần qua nhiều lần tập liệu lịch sử để tìm mẫu Dự báo công việc đơn giản hiệu cho nhiều kỹ thuật khai phá liệu Ví dụ, nghĩ đến việc dự báo cho giải thuật định việc thả case từ nút gốc Case rơi đến nút lá, dựa theo điều kiện phân tách tạo nút trung gian Đây q trình đơn giản địi hỏi đánh giá predicate thực thời gian thực Trong mơ hình khai phá đào tạo tháng lần dự báo thực thi thường xuyên Để dự báo phải có đầu vào: mơ hình khai phá đào tạo tập case Trong DMX, mơ hình khai phá xem giống bảng quan hệ Một cách khái niệm, mơ hình khai phá đào tạo xem bảng thật Một bảng thật thuật ngữ lĩnh vực điện Nó chứa tất kết hợp giá trị thuộc tính đầu vào có giá trị cột dự báo kết hợp với xác suất Trong mơ hình MemberCard_Prediction, bảng thật chứa tất kết hợp Gender, Income, HouseOwner, Maritual_Status Member Card với xác suất gán cho dịng Ví dụ, có dịng bảng thật: Gender (Male), Income (2000), HouseOwner (Yes), Marital Status (Single), MemberCard (Gold) với Probability (10%) Nếu có khách hàng với profile dự đốn khách hàng có 10% xác suất có thẻ Trang 122 Phụ lục thành viên vàng Khi có thuộc tính liên tục, Income, bảng thật có số lượng dịng khơng giới hạn Dĩ nhiên, mơ hình khai phá khơng lưu trữ mẫu theo định dạng bảng thật mặt khái niệm chúng tương tự Trong hình A.1, bảng bên phải bảng thật Bảng bên trái bảng khách hàng với thông tin nhân học Chúng ta muốn biết kiểu thẻ thành viên có khả cho khách hàng Phương pháp quan hệ điển hình để có thẻ thành viên cho khách hàng kết (join) bảng Điều kiện kết so trùng cột đầu vào Chúng ta chấp nhận toán tử kết quan hệ để tạo dự báo khai phá liệu Tuy nhiên, loại kết đặc biệt với mơ hình khai phá bảng, gọi Prediction Join Cú pháp truy vấn cho phép kết dự báo giống cú pháp truy vấn kết SQL Có phần: phát biểu Select, điều kiện On mệnh đề Where Phát biểu Select tập phát biểu cách dấu phẩy, phát biểu cột từ bảng đầu vào , cột dự báo từ mô hình khai phá hay hàm dự báo Phát biểu Select có Select Điều kiện On định so trùng cột mơ hình khai phá bảng đầu vào Ví dụ: Select T.CustomerID, T.LastName, M.MemberCard From MemberCard_Prediction Prediction Join OpenRowset(‘Provider=Microsoft.Jet.OLEDB’, ‘data source=C:\customer.mdb’, ‘select * from customers’) as T On MemberCard_Prediction.Gender= T.Gender And MemberCard_Prediction.Age = T.Age And MemberCard_Prediction.Profession = T.Profession And MemberCard_Prediction.Incom = T.Income And MemberCard_Prediction.HouseOwner=T.HouseOwner Where NewCustomer.age > 30 Trang 123 Phụ lục Hình A.1 Mô tả Prediction Join A.2.4 Truy vấn nội dung Một truy vấn nội dung (content query) kiểu truy vấn truy xuất nội dung mơ hình khai phá đào tạo Mơ hình nội dung biểu thị mẫu mà giải thuật khai phá liệu khám phá từ tập liệu đào tạo Các mẫu lưu trữ định dạng bảng Có thể sử dụng truy vấn sau để chọn liệu bảng từ mơ hình khai phá: Select * from MyModel.Content Tuy nhiên, trước hiểu truy vấn nội dung mơ hình ta cần thơng qua khái niệm Schema rowsets Schema Rowset bảng toàn cục cho siêu liệu Trong trường hợp khai phá liệu, siêu liệu bao gồm giải thuật, mô hình khai phá, cột mơ hình, nội dung mơ hình … Siêu liệu cho phép ứng dụng người dùng khám phá động danh sách giải thuật khai phá liệu danh sách đối tượng mà nhà cung cấp khai phá liệu khác tạo Có Schema Rowset định nghĩa OLE DB cho khai phá liệu: - Mining_Services - Mining_Service_Parameters Trang 124 Phụ lục - Mining_Models - Mining_Columns - Mining_Model_Content - Mining_Functions - Mining_Model_PMML Mining_Services Schema Rowset Mining_Services Schema Rowset lưu trữ mô tả danh sách giải thuật (các dịch vụ) đăng kí server Các giải thuật khơng đến từ nhà cung cấp khai phá liệu Tên cột SERVICE_NAME SEVICE_TYPE_ID PRDICTED_CONTENT SPORTED_DISTRIBUTION_ FLAGS SUPORTED_INPUT_ CONTENT_TYPES SUPPORTED_PREDICTION_ CONTENT_TYPES TRAINING_COMPLEXITY Kiểu định Mô tả DBTYPE_WSTR Tên giải thuật Đặc trưng nhà cung cấp Được sử dụng câu lệnh CREATE MINING MODEL để định giải thuật DBTYPE_UI4 Một bitmask mô tả kiểu dịch vụ khai phá Danh sách bao gồm dịch vụ khai phá phổ biến như: phân loại (classification), clustering, kết hợp (association), chuỗi (sequence) … DBTYPE_WSTR Các kiểu thuộc tính dự báo Đây danh sách kiểu nội dung phân định dấu phẩy DBTYPE_WSTR Danh sách nhiều phân phối Normal, Log_normal, Uniform phân tách dấu phẩy DBTYPE_WSTR Một danh sách phân tách dấu phẩy thành phần sau: KEY, DISCRETE, CONTINUOUS, DISCRETIZED, ORDERED, SEQUENCE_TIME, CYCLICAL, PROBABILITY, VARIANCE, STDEV, SUPPORT, PROBABILITY_VARIANCE, PROBABILITY_STDEV, ORDER, SEQUENCE, TABLE DBTYPE_WSTR Như DBTYPE_I4 PREDICTION_COMPLEXITY DBTYPE_I4 ALLOW_INCREMENTAL_ INSERT DBTYPE_BOOL Chỉ định thời gian đào tạo mong muốn (high, medium, low) Chỉ định thời gian dự báo mong muốn (high, medium, low) True phát biểu Insert into cho phép sau trình đào tạo khởi tạo Bảng A.1 Mining_Services Schema Rowset Trang 125 Phụ lục Service_Parameters Schema Rowset Service_Parameters Schema Rowset Schema Rowset đơn giản Nó cung cấp danh sách thông số cho giải thuật khai phá liệu đăng kí giá trị mặc định chúng Các thơng số sử dụng phát biểu tạo mơ hình Tên cột SERVICE_NAME PARAMETER_NAME PARAMETER_TYPE IS_REQUIRED DESCRIPTION Kiểu định DBTYPE_WSTR DBTYPE_WSTR DBTYPE_WSTR DBTYPE_BOOL DBTYPE_WSTR Mô tả Tên giải thuật Đặc trưng nhà cung cấp Tên thông số Kiểu liệu thơng số Nếu true thơng số u cầu Chuỗi text mơ tả mục đích định dạng thông số Bảng A.2 Service_Parameters Schema Rowset Mining_Models Schema Rowset Các mơ hình khai phá liệu biểu thị Mining_Models Schema Rowset Rowset lưu trữ thông tin tên mơ hình khai phá, giải thuật kết hợp, liệu tạo … Bảng sau liệt kê số cột quan trọng Schema Rowset Tên cột MODEL_NAME SERVICE_TYPE_ID SERVICE_NAME Kiểu định DBTYPE_WSTR DBTYPE_UI4 DBTYPE_WSTR CREATION_ STATEMENT PREDICTION_ENTITY DBTYPE_WSTR DBTYPE_WSTR IS_POPULATED DBTYPE_BOOL Mô tả Tên mơ hình Cột khơng thể NULL Một bitmask mô tả kiểu dịch vụ khai phá Một tên đặc trưng theo nhà cung cấp mô tả giải thuật sử dụng để sinh mơ hình Tùy chọn Phát biểu sử dụng để tạo mơ hình khai phá liệu gốc Một danh sách phân tách dấu phẩy định cột mơ hình dự báo Chỉ định mơ hình đào tạo hay khơng Bảng A.3 Mining_Models Schema Rowset Mining_Columns Schema Rowset Mining_Columns Schema Rowset lưu trữ thông tin cột mơ hình khai phá Thơng tin cột bao gồm tên cột, kiểu liệu, cờ phân phối, kiểu nội dung, … Cờ phân phối mô tả phân phối giá trị cột Ví dụ, cột Age bảng khách hàng theo phân phối chuẩn người dùng định thông tin phát biểu tạo mơ hình Kiểu nội dung đưa thơng tin nội dung cụ thể Trang 126 Phụ lục cột Các kiểu nội dung bao gồm key, discrete, discretized, continuous, time key, sequence key … Tên cột COLUMN_NAME Kiểu định DBTYPE_WSTR DISTRIBUTION_FLAG DBTYPE_WSTR CONTENT_TYPE DBTYPE_WSTR RELATED_ATTRIBUTE DBTYPE_WSTR Mô tả Tên cột; khơng Nếu xác định, giá trị NULL trả Phân phối giá trị cột normal, log_normal, uniform, poisson … Kiểu nội dung key, discrete, continuous, discretized, key sequence, key time … Đây tên cột mục tiêu mà cột thời có liên quan thuộc tính đặc biệt Bảng A.4 Mining_Columns schema Rowset Mining_Model_Content Schema Rowset Mining_Model_Content Schema Rowset Schema Rowset quan trọng Nó lưu trữ nội dung mơ hình khai phá, nghĩa mẫu mà giải thuật khai phá liệu khám phá tập liệu đào tạo Các mẫu tái cấu trúc định dạng bảng để lưu trữ rowset Một số cột quan trọng Mining_Model_Content Schema Rowset bao gồm Model_Name, Node_Name, Node_Parent, Node_Rule Node_Distribution Model_Name lưu trữ tên mơ hình khai phá Node_Name tên nút Mỗi hàng Schema Rowset có tên nút Dựa kiểu giải thuật, nút biểu thị kiểu thông tin khác Tên cột MODEL_NAME ATTRIBUTE_NAME Kiểu định DBTYPE_WSTR DBTYPE_WSTR NODE_NAME NODE_TYPE DBTYPE_WSTR DBTYPE_I4 PARENT_UNIQUE_ NAME DBTYPE_WSTR NODE_DESCRIPTION DBTYPE_WSTR Mô tả Tên mơ hình Tên thuộc tính tương ứng với nút Đối với nút mơ hình, danh sách thuộc tính dự báo Đối với nút phân phối lá, đâu thuộc tính đơn mà phân phối tương ứng với Tên nút Kiểu nút Ví dụ, nút cluster, nút cây, nút gốc mơ hình … Tên cha nút NULL trả cho nút tạo mức gốc Đối với nhà cung cấp sinh tên nhờ qualification, thành phần tên phân định Một mô tả nút Trang 127 Phụ lục NODE_RULE DBTYPE_WSTR MARGINAL_RULE NODE_PROBABILITY MARGINAL_ PROBABILITY DISTRIBUTION SUPPORT DBTYPE_WSTR DBTYPE_R8 DBTYPE_R8 Một mô tả XML luật nhúng nút Định dạng chuỗi XML dựa chuẩn PMML Một mô tả luật di chuyển đến nút từ nút cha Xác suất tiếp cận nút Xác suất tiếp cận nút từ nút cha DBTYPE_HCHAPTER Một bảng chứa biểu đồ xác suất nút DBTYPE_R8 Số lượng case hỗ trợ cho nút Bảng A.5 Mining_Model_Content Schema Rowset Mining_Functions Schema Rowset Một vài hàm dự báo Predict PredictHistogram hỗ trợ tất giải thuật khai phá liệu hàm dự báo khác phụ thuộc vào giải thuật Ví dụ, Cluster() hỗ trợ giải thuật kiểu Cluster Đối với nhà cung cấp khai phá liệu Microsoft, giải thuật hỗ trợ hàm Cluster(): giải thuật Microsoft Clustering giải thuật Microsoft Sequence Clustering Mining_Functions Schema Rowset sử dụng để mô tả danh sách hàm dự báo hỗ trợ giải thuật khai phá Tên cột SERVICE_NAME FUNCTION_NAME RETURNS_TABLE Kiểu định DBTYPE_WSTR DBTYPE_WSTR DBTYPE_BOOL DESCRIPTION DBTYPE_WSTR Mô tả Tên giải thuật dịch vụ Tên hàm Giá trị trả dạng bảng hay vơ hướng Nếu thuộc tính thiết lập True trả bảng Mô tả hàm Bảng A.6 Mining_Functions Schema Rowset Model_PMML Schema Rowset Model_PMML Schema Rowset Schema Rowset sử dụng để lưu trữ biểu diễn XML nội dung cho mơ hình Định dạng chuỗi XML tuân theo chuẩn PMML Cột quan trọng Schema Rowset Model_PMML, tài liệu PMML nội dung mơ hình Bảng sau liệt kê số cột Model_PMML Schema Rowset Tên cột MODEL_NAME MODEL_TYPE Kiểu định DBTYPE_WSTR DBTYPE_WSTR Mô tả Tên mơ hình Cột khơng thể NULL Kiểu mơ hình, chuỗi theo định nhà Trang 128 Phụ lục MODEL_GUID DBTYPE_GUID MODEL_PMML DBTYPE_WSTR SIZE DMTYPE_UI4 cung cấp, NULL GUID xác định mơ hình Các nhà cung cấp không sử dụng GUIDs để xác định bảng nên trả giá trị NULL cho cột Biểu diễn XML nội dung mơ hình với định dạng PMML Số lượng byte kích thước chuỗi XML Bảng A.7 Model_PMML Schema Rowset Mining Structure Schema Rowset Sau DMX 1.0, khái niệm khai phá liệu quan trọng, Mining Structure, giới thiệu Trong dự án khai phá liệu thực tế, thường xây dựng nhiều mơ hình tập liệu, so sánh chúng độ xác Cấu trúc khai phá trừu tượng liệu nguồn mơ hình khai phá Một cấu trúc khai phá chứa kiểu liệu định nghĩa nội dụng cho tất cột Tuy nhiên, khơng chứa định nghĩa sử dụng cột, tức là, input, predict_only hay predict Nhiều mơ hình khai phá tạo dựa cấu trúc khai phá, sử dụng tất cột hay tập cột cấu trúc Các mơ hình khai phá sử dụng giải thuật cột khác Dựa thực, cấu trúc khai phá khơng cache liệu đào tạo Với đời cấu trúc khai phá, có thêm số phát biểu truy vấn thêm vào DMX Phát biểu sau tạo cấu trúc khai phá với cột: Create mining Structure Customer( CustomerId long key, Gender text discrete, Age long continuous, Profession text discrete, Income long continuous, HouseOwner text discrete, MemberCard text discrete ) Sau cấu trúc khai phá tạo, tạo mơ hình khai phá dựa cấu trúc khai phá sử dụng phát biểu Alter Chúng ta cần định sử dụng cột (mặc định input) giải thuật liên kết thiết lập thơng số Trang 129 Phụ lục ALTER Mining Structure Customer ADD MINING MODEL MemberCard_DT ( CustomerId, Gender, Age, Profession, MemberCard PREDICT ) USING Microsoft_Decision_Trees(Minimum_Support = 10) Nếu tất cột khai phá input muốn sử dụng tất cột cấu trúc khai phá, khơng cần định cột phát biểu Alter Phát biểu sau tạo mơ hình clustering sử dụng tất cột cấu trúc khai phá input ALTER MINING STRUCTURE Customer ADD MINING MODEL CustomerClustering USING Microsoft_Clustering (Cluster_Count = 8) Sau tạo cấu trúc khai phá, xử lý sử dụng phát biểu Insert into Phát biểu Insert into giống phát biểu Insert into mơ hình khai phá Insert into Customer ( CustomerId, Gender, Age, Profession, MemberCard) OpenRowset(‘sqloledb’, ‘myserver’;’mylogin’;’mypwd’, ‘Select CustomerId, gender, age, profession, membercard From customers’) Một cấu trúc khai phá cache case đào tạo Chúng ta loại bỏ cache sử dụng phát biểu sau: Delete from mining structure Customer.cases Phát biểu sau xóa nội dung cấu trúc khai phá trả trạng thái chưa xử lý Delete from mining structure Customer Để xóa cấu trúc khai phá, sử dụng: Drop mining structure Customer Trang 130 Phụ lục Nếu cấu trúc khai phá bị loại bỏ, tất mơ hình khai phá có liên quan bị xóa bỏ Vì cấu trúc khai phá đối tượng khai phá liệu chủ yếu nên cần thêm Schema Rowset cho phép ứng dụng client khám phá động danh sách cấu trúc khai phá thuộc tính chúng Bảng sau chứa danh sách cột quan trọng Mining Structure Schema Rowset Tên cột STRUCTURE_NAME DESCRIPTION Kiểu định DBTYPE_WSTR DBTYPE_WSTR CREATION_ STATEMENT IS_POPULATED DBTYPE_WSTR DBTYPE_BOOL Mô tả Tên cấu trúc Cột chứa NULL Các mô tả cấu trúc NULL khơng có mơ tả liên quan đến cột Tùy chọn Phát biểu sử dụng để tạo mơ hình khai phá liệu gốc VARIANT_TRUE cấu trúc phổ biến (populated), VARIANT_FALSE cấu trúc không phổ biến Bảng A.8 Mining Structure Schema Rowset A.3 Khai phá luật kết hợp Các giải thuật kết hợp nhạy cảm với thiết lập thông số giải thuật Sau danh sách thông số cho giải thuật luật kết hợp Microsoft (Miccrosoft Association Rules) - Minimum_Support thơng số ngưỡng Nó định nghĩa u cầu độ hỗ trợ tối thiểu mà item phải đáp ứng để đủ tiêu chuẩn itemset phổ biến Giá trị vùng đến Giá trị mặc định 0.03 Nếu Minimum_Support thiết lập lớn xem ngưỡng số lượng case thay phần trăm - Maximum_Support thơng số ngưỡng Nó định nghĩa ngưỡng độ hỗ trợ tối đa itemset phổ biến Giá trị nằm vùng đến Giá trị mặc định 0.03 Thơng số sử dụng để lọc itemset phổ biến Nếu Maximum_Support thiết lập lớn 1, xem ngưỡng số lượng case thay phần trăm Trang 131 Phụ lục - Minimum_Probability thơng số ngưỡng Nó định nghĩa xác suất tối thiểu cho luật kết hợp Giá trị vùng đến Giá trị mặc định 0.4 - Minimum_Importance thông số ngưỡng cho luật kết hợp Các luật với độ quan trọng (importance) nhỏ Minimum_Importance lọc - Maximum_Itemset_Size định kích thước lớn itemset Giá trị mặc định 0, nghĩa khơng có giới hạn itemset Giảm kích thước lớn itemset giảm thời gian xử lý giải thuật tiết kiệm vịng lặp tập liệu kích thước itemset dự tuyển tiến đến giới hạn - Minimum_Itemset_Size định kích thước tối thiểu itemset Giá trị mặc định Đôi không quan tâm đến lượng lớn itemset nhỏ Ví dụ, quan tâm đến itemset có kích thước lớn Giảm Minimum_Itemset_Size khơng giảm thời gian xử lý giải thuật phải bắt đầu với itemset kích thước tăng kích thước qua bước - Maximum_Itemset_Count định nghĩa số lượng tối đa itemset Nếu không định, giải thuật tạo tất itemset dựa Minimum_Support Thông số tránh việc tạo lượng lớn itemset Khi có nhiều itemset, giải thuật giữ n itemset dựa độ quan trọng (importance score) itemset - Optimized_Prediction_Count sử dụng để thiết lập số lượng item đề nghị yêu cầu truy vấn dự báo Mặc định giải thuật sử dụng luật với chiều dài cho việc dự báo Chúng ta tăng số để có chất lượng dự báo tốt Nội dung mơ hình kết hợp Nội dung mơ hình kết hợp hiển thị hình sau Có mức Mức cao có nút đơn biểu diễn mơ hình Mức chứa nút biểu diễn Trang 132 Phụ lục itemset đủ tiêu chuẩn (qualified) với độ hỗ trợ kết hợp chúng Distribution rowset nút itemset chứa thông tin chi tiết itemset với hàng biểu diễn item riêng lẻ Mức thứ chứa nút biểu diễn luật đủ tiêu chuẩn Cha nút luật itemset biểu diễn phần bên trái luật Hình A.2 Nội dung mơ hình luật kết hợp Để xem tất luật kết hợp Select Node_Description from .Content Where Node_Type = Để xem tất rule Select Node_Description from .Content Where Node_Type = Trang 133 Phụ lục PHỤ LỤC B: DMX SCRIPT DÙNG TRONG KIỂM THỬ Khai phá luật kết hợp liệu Adult (US Census) // Create Structure create mining ( [id] age gender marital country race edu h_p_w income workclass ) structure Adult long long text text text text text long text text key, discrete, discrete, discrete, discrete, discrete, discrete, discrete, discrete, discrete // Add Model alter mining structure Adult add mining model Adult_AR ( [id], age , gender, marital, country, race, edu, h_p_w predict, income predict, workclass predict_only ) Using Microsoft_Association_Rules(Minimum_Support = 0.03, Minimum_Probability = 0.5,Maximum_Itemset_Size=0, Minimum_Itemset_Size=2) // Training insert into mining structure Adult ( [id], age , gender, marital, country, race, edu, h_p_w, income, workclass Trang 134 Phụ lục ) openrowset ( 'SQLOLEDB.1', 'Provider=SQLOLEDB.1;server=hvqplaptop\sqlserver2005;Pwd=********;uID=sa;database=Adult', 'SELECT * FROM dbo.Adult' ) Trang 135 ... tin nhạy cảm liệu lại bảo vệ tốt so với liệu ban đầu Nếu thiên việc bảo vệ tính riêng tư liệu liệu nhiều tính tin cậy giá trị khai thác Ngược lại coi trọng giá trị khai thác liệu liệu có Trang... chiều dọc Bảo vệ tính riêng tư khai thác liệu phân tán gần với lĩnh vực mã hóa liệu ? ?bảo mật tính tốn đa thành phần” (secure multi-party computations) Vì lý mà bảo vệ tính riêng tư khai phá liệu phân... Tổng quan phương pháp bảo vệ tính riêng tư khai phá liệu m D ( P, Q) = ∑ pi log i =1 pi qi (2.2) 2.3 Bảo vệ tính riêng tư khai phá liệu phân tán Trong thực tế, nhiều trường hợp liệu không tập trung

Ngày đăng: 15/02/2021, 07:46

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN