1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu những kỹ thuật bảo mật trong quá trình khai phá dữ liệu xây dựng ứng dụng prototyre trên kết quả học tập của sinh viên khoa CNTT

81 27 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 1,35 MB

Nội dung

Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường MỤC LỤC Chương I - Giới thiệu 1.1 1.2 1.3 1.4 Đặt vấn đề Tên đề tài Mục tiêu đề tài Cấu trúc báo cáo Chương II - Cơ sở lý thuyết 2.1 Khai phá liệu 2.2 Quá trình KPDL 2.2.1 Tìm hiểu nghiệp vụ liệu 2.2.2 Chuẩn bị liệu 2.2.3 Mơ hình hố liệu 2.2.4 Hậu xử lý đánh giá mơ hình 10 2.2.5 Triển khai tri thức 10 2.3 Phương pháp KPDL 11 2.3.1 Phương pháp thống kê 11 2.3.2 Phân cụm 12 2.3.3 Cây định luật định 16 2.3.4 Luật liên kết 19 2.4 Kỹ thuật bảo mật KPDL 22 2.4.1 Thông tin riêng (Privacy) 22 2.4.2 Một số phương pháp để bảo mật thông tin Data mining 23 2.4.3 Bảo mật trình KPDL Luật liên kết 24 2.4.4 Giải thuật bảo mật: 28 2.4.5 Ví dụ minh họa 31 2.4.6 Đánh giá giải thuật: 33 2.5 Giới thiệu WEKA 33 2.6 Tổng kết 35 Chương III: KPDL điểm SV Đại học Bách Khoa 36 3.1 Dữ liệu điểm SV Đại học Bách Khoa 36 3.2 Bài toán tiềm 37 3.2.1 Bài tốn 1: Tìm hiểu mối liên hệ môn học khoa CNTT 37 3.2.2 Bài tốn 2: Tìm hiểu mối liên hệ thuộc cá nhân với điểm trung bình 39 3.2.3 Bài tốn 3: Đánh mơn học bất thường 40 3.2.4 Bài tốn 4: Đánh giá mơn học khơng ổn định 41 3.2.5 Bài toán 5: Đánh giá lại cách đánh giá môn học 41 3.3 Giải toán 42 Nguyễn Minh Ý 1/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường 3.3.1 Bài tốn 1: Tìm hiểu mối liên hệ môn học khoa CNTT 42 3.3.2 Bài tốn 2: Tìm hiểu mối liên hệ thuộc tính cá nhân với điểm trung bình 50 3.3.3 Bài tốn 3: Đánh mơn học bất thường 54 3.3.4 Bài toán 4: Đánh giá môn học không ổn định 63 3.3.5 Bài toán 5: Đánh giá lại cách đánh giá môn học 64 3.4 Tổng kết 67 Chương IV: Bảo mật KPDL 68 4.1 Đặt vấn đề 68 4.2 Cách tiếp cận thực chương trình 68 4.2.1 Hướng tiếp cận 68 4.2.2 Mơ hình: 69 4.2.3 Hiện thực chương trình 69 4.2.4 Chức 70 4.3 Cải tiến giải thuật 70 4.3.1 Vấn đề phát sinh: 70 4.3.2 Nguyên nhân: 71 4.3.3 Hướng giải quyết: 71 4.4 Đánh giá giải thuật 72 4.4.1 Kết đạt luận văn 72 4.4.2 So sánh cách giải thuật 75 4.5 Đánh giá kết đạt 77 4.5.1 Kết báo “Association Rule Hiding” 77 4.5.2 Hiệu giải thuật thực luận văn 78 4.6 Đánh giá & tổng kết 78 Chương V -Tổng kết đánh giá & hướng phát triển 80 5.1 5.2 Tổng kết 80 Hướng phát triển 80 Tài liệu tham khảo 81 Nguyễn Minh Ý 2/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường DANH MỤC HÌNH Hình Qui trình phát triển tri thức 10 Hình Cluster 13 Hình Cluster theo thứ bậc 15 Hình Giải thuật C4.5 17 Hình 5:Cây định 19 Hình Luật định 19 Hình Mơ hình xử lý 26 Hình Giải thuật bảo mật 28 Hình 9:Giải thuật bảo mật 29 Hình 10:Giải thuật bảo mật 29 Hình 11: Giải thuật bảo mật 30 Hình 12:Giải thuật bảo mật 30 Hình 13:Weka Explore 34 Hình 14:Các yếu tố ảnh hưởng đến kết môn học 40 Hình 15: Thơng kê trực quan 46 Hình 16:Kết KPDL 47 Hình 17:Phân bố chuẩn 56 Hình 18:Qui luật 68,95,99 57 Hình 19: Giao diện phần mềm 69 Hình 20:Giải thuật cải tiến 72 Hình 21: Kết đánh giá giải thuật công bố 78 Nguyễn Minh Ý 3/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường DANH MỤC BẢNG Bảng 1: Cơ sở liệu điểm 37 Bảng 2:Các yếu tố ảnh hưởng đến kết môn học 41 Bảng 3:Danh sách môn học có điểm TB bất thường 58 Bảng 4:Danh sách mơn học có tỉ lệ sinh viên không đạt bất thường 59 Bảng 5:Danh sách mơn học có tỉ lệ sv khơng đạt điểm TB bất thường 62 Bảng 6:Danh sách môn học không ổn định 64 Bảng 7:Danh sách môn học có điểm TB cải thiện 67 Nguyễn Minh Ý 4/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường Chương I - Giới thiệu 1.1 Đặt vấn đề Ngày nay, với phát triển không ngừng ngành Công Nghệ Thông Tin bùng nổ số lượng ứng dụng quản lý thông tin, công việc tổ chức, doanh nghiệp, cá nhân, Hạt nhân ứng dụng - sở liệu - mà tăng theo từ vài MegaByte(MB) năm trước, ngày với hỗ trợ phần cứng, sở liệu lên đến hàng trăm GigaByte(GB) chí vài TeraByte Với khối lượng liệu khổng lồ phần lớn CSDL chưa quan tâm mức (chỉ khoảng 5Ỉ10% liệu phân tích thường xun, cịn lại lưu phòng cần sử dụng đến[18]) Với nhu cầu phân tích CSDL khổng lồ phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế, khuynh hướng kỹ thuật đời Kỹ thuật phát tri thức KPDL (KDD - Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức KPDL nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng Nếu thông tin nhạy cảm CSDL cần phải bảo mật lần thơng tin, tri thức, qui luật, … nhận từ trình KPDL cần bảo vệ 10 lần Nói để thấy tầm quan trọng bảo mật, bảo vệ thông tin nhạy cảm KPDL Vì đơn giản tri thức, qui luật, mẫu liệu… có từ phân tích tổng hợp khối lượng lớn liệu Vấn đề bảo vệ thông tin nhạy cảm khỏi khai phá đối tượng không phép truy xuất đồng thời bảo đảm thông tin, tri thức mà đối tượng có từ KPDL Trong giới hạn đề tài đề cập đến vấn đề bảo mật cho phương pháp KPDL - Luật liên kết Đây vấn đề cịn mẻ, chưa có đề tài Việt Nam đề cập đến cịn giới đề tài dừng lại dạng giả thiết chưa có kết cụ thể Một số nghiên cứu tiêu biểu: Đề tài “State of art in Privacy Preserving Data Mining ”, Vassilios S Verkios, Elisa Bertino Nội dung: Trình bày tổng quan, phân loại đưa số ý tưởng cho vấn đề liên quan đến bảo vệ thông tin nhạy cảm, thơng tin cá nhân q trình KPDL Nguyễn Minh Ý 5/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường Đề tài “Using Unknowns to prevent Discovery of Association rules”, Yucel Saygin, Vassilios S Verkios, Chris Clifton Nội dung: Trình bày cách thức bảo vệ thông tin nhạy cảm, thông tin cá nhân cách thay thông tin riêng giá trị “unknown” Nhằm ẩn luật nhạy cảm khỏi kết KPDL phương pháp luật liên kết … Mong muốn tìm hiểu kỹ thuật KPDL phương pháp bảo mật thơng tin nhạy cảm q trình KPDL áp dụng kỹ thuật vào thực tế động lực để chọn thực đề tài Tuy nhiên, giới hạn thời gian kiến thức nên đề tài cịn nhiều sai sót Ứng dụng thực tế thực đề tài KPDL điểm sinh viên Đại học Bách Khoa, với mong muốn tìm qui luật cịn ẩn chứa liệu điểm sinh viên trường Nhằm đưa thơng tin hữu ích hỗ trợ cho trình đánh giá cải tiến chất lượng dạy học nhà trường 1.2 Tên đề tài Tìm hiểu kỹ thuật bảo mật trình KPDL Xây dựng ứng dụng prototype kết học tập sinh viên khoa Công Nghệ Thông Tin (Privacy preserving data mining) 1.3 Mục tiêu đề tài Mục tiêu đề tài nghiên cứu Tìm hiểu giải thuật KPDL & công cụ KPDL Weka Tìm hiểu kỹ thuật bảo mật thơng tin trình KPDL Tìm hiểu liệu & KPDL điểm Trường Đại Học Bách Khoa để tìm kiếm tri thức hữu ích nhằm hỗ trợ cho cơng tác cải tiến trình dạy học trường Xây dưng công cụ bảo vệ thông tin nhạy cảm trình KPDL Nguyễn Minh Ý 6/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường 1.4 Cấu trúc báo cáo Chương 1: Giới thiệu nội dung mục tiêu đề tài Chương 2: Cơ sở lý thuyết, giải thuật KPDL cản bản, công cụ KPDL Weka, Các giải thuật bảo mật KPDL phương pháp Luật liên kết, Tìm hiểu sở liệu điểm sinh viên trường Đại học Bách Khoa Chương 3: Đề xuất số toán tiềm năng, áp dụng phương pháp KPDL để giải toán đặt Chương 4: Bảo mật KPDL Chương 5: Tổng kết, đánh giá hướng phát triển Tài liệu tham khảo Nguyễn Minh Ý 7/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường Chương II - Cơ sở lý thuyết 2.1 Khai phá liệu Trong thời đại ngày nay, với phát triển vượt bậc ngành Công Nghệ Thông Tin, hệ thống thông tin lưu trữ liệu tăng lên nhanh Từ khối liệu này, áp dụng kỹ thuật KPDL máy học để phân tích trích xuất thơng tin hữu ích ẩn chứa liệu Các tri thức đưa vào để cải thiện trình hoạt động hệ thống Một số định nghĩa KPDL: KPDL khoa học rút trích thơng tin hữu ích từ liệu khứ với mục đích giúp cải tiến định tương lai.[19] Một định nghĩa khác, KPDL q trình truy xuất thơng tin ngầm, thông tin khứ chưa biết đến, thông tin hữu ích tiềm ẩn qui luật(rules), quy tắc, ràng buộc chứa sở liệu [15] Tóm lại KPDL q trình học tri thức từ liệu thu thập được.[19] Một số ứng dụng KPDL: Hiện kỹ thuật KPDL áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác như:y tế, marketing, ngân hàng, viễn thơng, internet… Khơng phủ định lợi ích to lớn mà nhờ áp dụng kỹ thuật khai phá đem lại Điều minh chứng thực tế: chẩn đốn bệnh y tế dựa kết xét nghiệm giúp cho bảo hiểm y tế Australia phát nhiều trường hợp xét nghiệm khơng hợp lí tiết kiệm triệu $/năm; British Telecom phát nhóm người thường xuyên gọi cho mobile thu lợi hàng triệu USD; IBM Surf – Aid áp dụng KPDL vào phân tích lần đăng nhập Web vào trang có liên quan đến thị trường để phát sở thích khách hàng, từ đánh giá hiệu việc tiếp thị qua Web cải thiện hoạt động Website; Trang Web mua bán qua mạng Amazon tăng doanh thu nhờ áp dụng KPDL việc phân tích sở thích mua bán khách hàng… Các kỹ thuật KPDL (Data mining) chia làm nhóm : • Nhóm mơ tả liệu:có nhiệm vụ mơ tả tính chất đặc tính chung liệu CSDL có gồm kỹ thuật:phân cụm (clustering), tóm tắt (Sumerization), trực quan hố (Visualization), phân tích Luật liên kết (Association rules)… • Nhóm dự đốn:Đưa dự đoán dựa vào suy diễn liệu thời Các kỹ thuật gồm có phân lớp (Classification), hồi quy (Regesssion) Nguyễn Minh Ý 8/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường 2.2 Quá trình KPDL KPDL trình khám phá mơ hình khác nhau, tổng hợp, đưa giá trị từ tập liệu cho trước Thơng thường q trình KPDL trình lặp bao gồm bước sau: Tìm hiểu nghiệp vụ liệu Chuẩn bị liệu Mơ hình hố liệu Hậu xử lý đánh giá mơ hình Triển khai tri thức 2.2.1 Tìm hiểu nghiệp vụ liệu Đây công việc công việc quan trọng trình KPDL Ở bước người KPDL phải nắm rõ nguồn liệu, cấu trúc hệ thông mối quan hệ, ý nghĩa bảng, trường tồn CSDL Để hiểu rõ liệu phải hiểu số nghiệp vụ liên quan Việc hiểu rõ liệu nghiệp vụ giúp người KPDL đề xuất, định hình số tốn tiềm năng, đặc tả, phân vùng, xác định liệu liên quan đến toán 2.2.2 Chuẩn bị liệu Dữ liệu thu thập thông tin từ nhiều nguồn khác nhau: từ chuyên gia từ sở liệu có sẵn database, data warehouses, data marts Vì cơng việc phải làm kết hợp chuẩn hố nguồn liệu Một số công việc liên quan đến bước chuẩn bị liệu gồm có: • Xử lý liệu bị thiếu • Khử trùng lắp • Loại bỏ giá trị bất thường • Giảm nhiễu • Xây dựng thang định danh • Chuẩn hóa, rời rạc hóa • Rút trích xây dựng đặc trưng từ liệu có • Giảm chiều • Chuyển liệu sang dạng đơn phẳng • … 2.2.3 Mơ hình hố liệu Có nhiều phương pháp, giải thuật Khai phá liệu, nhiên ứng với tốn thường có phương pháp cho kết tối ưu Vì để chọn phương pháp hợp lý xác cơng việc tìm hiểu liệu, đặc tả chi tiết tốn sở để chọn phương pháp thích hợp Một số phương pháp khai phá liệu tiêu biểu: Nguyễn Minh Ý 9/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường • Thống kê • Cây định & luật định • Luật liên kết • Phân cụm • Mạng Neural…[1,3] Sau chọn phương pháp KPDL thích hợp q trình kiểm thử tập liệu Quá trình thực lặp lặp lại nhiều lần để tìm kết mong muốn 2.2.4 Hậu xử lý đánh giá mơ hình Kết KPDL kiểm thử số mẫu thử để đánh giá tính hiệu giải thuật Thơng thường kết KPDL phải kết hợp, tinh chỉnh để phù hợp nhu cầu người sử dụng Các kết dạng học máy chuyển sang dạng nghiệp vụ để phù hợp với ngưới sử dụng 2.2.5 Triển khai tri thức Các kết kiểm thử, tinh chỉnh, chuyển đổi để phù hợp với nhu cầu người sử dụng Nếu đáp ứng yêu cầu đặt toán, kết triển khai (thường dạng module) để hỗ trợ q trình định Thơng thường kết triển khai dạng web để hỗ trợ định nhiều người sử dụng Trên thực tế trình KPDL trình lặp nhằm hồn thiện rút thơng tin hữu ích nhất, mẫu qui luật xác Tìm hiểu nghiệp vụ liệu Chuẩn bị liệu Mơ hình hóa liệu Hậu xử lý đánh giá mơ hình Triển khai tri thức Hình Qui trình phát triển tri thức Nguyễn Minh Ý 10/81 Privacy Preserving Data Mining 810056 812006 Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường BIEN TAP BAN DO 4.82 5.37 NGUYEN LY LO CN VLXD 4.94 5.45 Bảng 7:Danh sách môn học có điểm TB cải thiện 0.55 0.51 Kết luận Cách tính tạo cải thiện rõ rệt điểm trung bình Tuy nhiên việc áp dụng cách tính cách đánh giá cũ (đề thi, thời gian làm kiểm tra, thời gian thi …) nên khơng đánh giá hết kết cách tính Việc áp dụng tỉ lệ phân lượng điểm kỳ / điểm cuối kỳ 40/60 phải thay đổi nhiều cách đề thi kỳ, thời gian thi … Một lợi ích lớn làm thay đổi thói quen học thi số lượng sinh viên Đại học Bách Khoa (chỉ tập trung học vào mùa thi, xem nhẹ thi kỳ, xem nhẹ việc làm tập lớn …) Khi thay tỉ lệ điểm kỳ dẫn đến thay đổi cách thời gian kiểm tra kỳ, đề thi sâu sắc hơn, kiểm tra đầy đủ kiến thức học kỳ đầu (thường bỏ qua kỳ thi cuối kỳ) Nếu đề thi khắc khe kiểm tra xác khối lượng kiến thức sinh viên học kỳ đưa cải tiến kịp thời 3.4 Tổng kết Chương 3: Nêu số toán tiềm hướng giải cho tốn liên quan đến q trình dạy học trường Đại học Bách Khoa: mối quan hệ mơn học, tìm mơn học bất thường, mơn học khơng ổn định, đánh giá lại cách tính điểm trung bình mơn học Và áp dụng kỹ thuật KPDL vào toán thực tế, giải tốn nêu Tìm số luật liên kết môn học thuộc khoa Công Nghệ Thông Tin, đề xuất số thay đổi chương trình đào tạo đồng thời đưa số cảnh báo sinh viên để sinh viên có kết tốt … Nguyễn Minh Ý 67/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường Chương IV: Bảo mật KPDL 4.1 Đặt vấn đề Kết KPDL thơng tin hưu ích Nhưng tri thức sử dụng không mục đích nguy hiểm cịn thuộc vào đối tượng mà mức độ cung cấp kết cho hợp lý Ban giám hiệu nhà trường xem hết tất tri thức từ KPDL để cải thiện q trình quản lý giáo dục, cơng tác dạy học trường , Mỗi khoa xem kết liên quan đến khoa, sinh viên xem thơng tin liên quan đến trình học tập sinh viên Ở không quan tâm đến liệu nhạy cảm như: số ID, số CMND, Họ tên … liệu bảo mật chế bảo mật database loại bỏ lọc có sẵn người cung cấp thơng tin Vấn đề toán giả vấn đề liên quan đến thông tin nhạy cảm mà cụ thể KPDL luật liên kết tổ hợp nhạy cảm mối quan hệ(luật) nhạy cảm Ví dụ như:dữ liệu mơn học mà giảng viên giảng dạy liệu độ tuổi giảng viên hồn tồn khơng phải thơng tin nhạy cảm nhiên điều kiên xem tổ hợp nhạy cảm tổ hợp hồn tồn xác định giảng viên Thông tin điểm thi sinh viên mơn học A & mơn học B hoàn toàn public nhiên mối quan hệ (diem_mon_A=D Ỵ diem_mon_B=D) cho thơng tin nhạy cảm môn học môn giáo viên giảng dạy Nếu biết thông tin sinh viên phản ứng tiêu cực cách không đăng ký lớp học giảng viên giảng dạy … 4.2 Cách tiếp cận thực chương trình 4.2.1 Hướng tiếp cận Để giải vấn đề có cách tiếp cận sau: Xử lý file liệu đầu vào để q trình KPDL khơng làm lộ thơng tin cần bảo mật Tích hợp phần bảo mật vào giải thuật KPDL Xử lý kết trình KPDL để bảo vệ thông tin cần bảo mật Nhận xét: cách tiếp cận số & không triệt để với lý người sử dụng khai phá nhiều công cụ khác công cụ tự tạo Hơn nữa, mặt thông tin không bảo mật cung cấp cho đối tượng KPDL Vì đề chọn thực theo cách tiếp cận số Nguyễn Minh Ý 68/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường 4.2.2 Mơ hình: File liệu Data nining Tool Bộ lọc Luật nhạy cảm Tổ hợp nhạy cảm File liệu (mới) Data nining Tool Min_supp Luật liên kết & Privacy Min_conf Luật liên kết 4.2.3 Hiện thực chương trình Chương trình thực ngơn ngữ VB với hỗ trợ công cụ Visual Studio 6.0 Chương trình test thử máy tính có tốc độ 800Hz, ram 128 MB, cài hệ điều hành Windows 98 XP Hình 19: Giao diện phần mềm Nguyễn Minh Ý 69/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường 4.2.4 Chức Một số chức chương trình: Đọc liệu đầu vào: Dữ liệu đầu vào file liệu theo chuẩn Arff, chức đọc liệu đọc vào nhớ máy Xử lý liệu Chức xử lý liệu đầu vào với thơng số : • Luật nhạy cảm (mỗi luật hàng riêng biệt) • Tổ hợp nhạy cảm (mỗi tổ hợp hàng riêng biệt) • Min_supp • Min_conf • Giải thuật áp dụng • Áp dụng giải thuật cải tiến không Để cho tập liệu bảo mật luật & tổ hợp nhạy cảm với thơng số Ngồi ra, tùy vào yêu cầu mức độ nhạy cảm thơng tin mà người sử dụng lựa chọn giải thuật bảo mật cho luật cách thêm thơng số giải thuật phía sau luật Lưu liệu Lưu liệu xử lý vào file 4.3 Cải tiến giải thuật 4.3.1 Vấn đề phát sinh: vấn đề phát sinh mà giải thuật ban đầu gặp phải: Trong trình xử lý luật độc lập với cố gắng bảo mật cho luật số làm lộ thông tin luật mà cố gắng bảo vệ trước Khơng thể xử lý tốn có khối lượng liệu lớn Nguyễn Minh Ý 70/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường 4.3.2 Nguyên nhân: Xét giải thuật Foreach luật r (XỴY) Rh { T={t in D | t hỗ trợ toàn phần X Y} Foreach t đếm số phần tử t Sắp xếp T theo thứ tự tăng dần số phần tử Repeat until conf(r) < min_conf or sup( r) < min_sup { Chọn t giao tác T (Giao tác có số phần tử nhất) Chọn phần tử j X Y Delete j from t Tính lại độ hỗ trợ độ tin cậy R Remove t khỏi T } } Các luật xử lý độc lập với cố gắng bảo vệ cho luật thứ j làm lộ thơng tin luật thứ i (i luật bảo mật trước j) Trước thay đổi liệu ban đầu ln có thao tác xếp lại phần tử T Nhưng lượng liệu lớn tốn xếp lại liệu trở thành khơng thể thực 4.3.3 Hướng giải quyết: Sử dụng mảng số để đánh dấu lại số lần thay đổi liệu giao tác Khi thay đổi liệu để bảo mật cho luật thứ i ưu tiên thay đổi liệu giao tác chưa bị thay đổi Thay xếp giao tác theo mức độ thỏa mãn điều kiện trước thay đổi khơng xếp mà thực vịng lặp while để ưu tiên thay đổi giao tác có mức độ thỏa mãn điều kiện lớn giảm dần Cho đến tập liệu thỏa mãn điều kiện min_supp min_conf Nguyễn Minh Ý 71/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường Foreach luật r (XỴY) Rh { T={t in D | t hỗ trợ toàn phần X Y} Foreach t đếm số phần tử t Repeat until conf(r) < min_conf or sup( r) < min_sup { Repeat until conf(r) < min_conf or sup( r) < min_sup { If mucdothaodieukien(giaotac(t)) = mucdo { Chọn phần tử j X Y Delete j from t adanhdau(t)= adanhdau(t) + Tính lại độ hỗ trợ độ tin cậy R Remove t khỏi T } } Mucdo = mucdo -1 } } Hình 20:Giải thuật cải tiến 4.4 Đánh giá giải thuật 4.4.1 Kết đạt luận văn Giải thuật đánh giá thông số thời gian thực thi, hiệu giải thuật (số luật cũ đi, luật sinh ra) Luật cũ luật luật nhạy cảm cần bảo vệ, có kết KPDL file nguồn khơng xuất q trình KPDL file đích Luật luật xuất kết KPDL file đích khơng có kết KPDL file nguồn Giải thuật thử nghiệm file liệu điểm khoa CNTT (8 thuộc tính, số trường hợp cho thuộc tính 4) với số lượng dòng liệu 10.000, 50.000 100.000, số luật nhạy cảm cần bảo vệ (Rh) 10 luật có support confidence cao tập kết khai phá (5 10 luật xuất kết KPDL) Luật liên kết đánh giá dựa thơng số support confidence Cơng thức tính support confidence ƒ Support (X) = |X| / |D| ƒ Support (XỈY)= support (XY) = support (X U Y) Nguyễn Minh Ý 72/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường ƒ Confidence(XỈY)= support (XY)/ support (X) Vì để che dấu luật nhạy cảm, giảm support giảm confidence luật Để giảm support luật X Ỉ Y: ƒ Giảm support X Y tập chứa X lẫn Y (giải thuật 1) ƒ Giảm support X tập chứa X lẫn Y (giải thuật 2) ƒ Giảm support Y tập chứa X lẫn Y (giải thuật 3) Để giảm confidence luật X Æ Y: ƒ Tăng support X tập không chứa Y (giải thuật 4) Giảm support X cách thay giá trị thuộc tính cấu thành X giá trị Unknown (?) ngược lại cho trường hợp làm tăng support X Thời gian thực thi Giải thuật 1: Giảm support X,Y tập chứa X Y Thời gian để thực thi tăng tuyến tính theo kích thước tập liệu số lượng luật nhạy cảm cần bảo vệ 14 12 10 Rh=5 Rh=10 10K 50K 100K Số luật cũ tăng kích thước tập liệu tăng Điều giải thích: liệu tăng số lượng tập phổ biến giảm, kích thước tập phổ biến giảm thay đổi liệu để che dấu luật nhạy cảm sở liệu ảnh hưởng lớn đến luật liên quan Điều làm cho số luật cũ tăng lên kích thước tập liệu tăng Luật cũ 60 50 40 Rh=5 30 Rh=10 20 10 10K Nguyễn Minh Ý 50K 100K 73/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường Số luật sinh trình thực thi giải thuật không đáng kể số luật sinh khơng tăng tuyến theo kích thước tập liệu số luật cần bảo vệ Luật sinh Rh=5 Rh=10 10K 50K 100K Rh=5 Rh=10 10K 50K 60 14 12 10 Rh=5 Rh=10 Luật cũ 14 12 10 Thời gian thực thi Luật sinh Giải thuật 2: Giảm support X tập chứa X Y Giải thuật hướng tiếp cận gần giống với giải thuật nên hiệu thời gian thực thi giải thuật tương tự trường hợp 50 40 Rh=5 30 Rh=10 20 10 100K 10K 50K 10K 100K 50K 100K Giải thuật 10 Rh=5 Rh=10 40 30 Rh=5 20 Rh=10 10 Luật sinh 50 14 12 10 Luật cũ Thời gian thực thi Tương tự giải thuật 50K 10K 100K Rh=5 Rh=10 0 10K 50K 10K 100K 50K 100K Giải thuật Thời gian thực thi giải thuật tăng tuyến tính theo kích thước file liệu số luật nhạy cảm cần bảo vệ Số luật cũ luật sinh giải thuật so với giải thuật 1,2,3 Và số lượng khơng tăng tuyến tính theo số lượng luật nhạy cảm cần bảo vệ kích thước file liệu Rh=5 10 Rh=10 12 40 30 Rh=5 20 Rh=10 10 10K 50K 100K Nguyễn Minh Ý Luật sinh 50 15 Luật cũ Thời gian thực thi 20 10 Rh=5 Rh=10 10K 50K 100K 10K 50K 100K 74/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường 4.4.2 So sánh cách giải thuật Thời gian thực thi Về mặt thời gian, khơng có khác biệt lớn thời gian thực thi giải thuật Thời gian thực thi tăng tuyến tình theo kích thước tập liệu số luật nhạy cảm cần bảo vệ Rh=5 Rh=10 Thời gian thực thi 10 Giải thuật Giải thuật Giải thuật Giải thuật 10K 50K Thời gian thực thi 20 12 15 Giải thuật Giải thuật 10 Giải thuật Giải thuật 10K 100K 50K 100K Luật cũ Giải thuật 4: che dấu luật luật nhạy cảm cách tăng support vế phải luật sinh, không làm ảnh hưởng đến tập phổ biến tồn trước Vì phương pháp luật cũ Kết thực nghiệm: Rh=5 Rh=10 60 50 Giải thuật 40 Giải thuật 30 Giải thuật 20 Giải thuật 10 Luật cũ Luật cũ 60 50 Giải thuật 40 Giải thuật 30 Giải thuật 20 Giải thuật 10 10K 50K 100K 10K 50K 100K 14 12 10 Giải thuật Giải thuật Giải thuật Giải thuật 10K 50K Nguyễn Minh Ý 100K Luật sinh Luật sinh Luật sinh ra: Giải thuật 1,2,3 giải thuật thực theo hướng làm giảm support tập phổ biến Trong giải thuật giảm X lẫn Y, giải thuật giảm X, giải thuật giảm Y tập chứa X,Y Kết chạy thử cho thấy giải thuật tạo luật sinh nhất, điều đồng nghĩa với việc thay lần lược thuộc tính X Y hiệu giải thuật thay thuộc tính X Y Rh=5 Rh=10 14 12 10 Giải thuật Giải thuật Giải thuật Giải thuật 10K 50K 100K 75/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường Bảng kết tổng hợp Giải thuật File test Thời gian thực thi Rh=5 Rh=10 13 Luật sinh Rh=5 Rh=10 0 0 Luật cũ Rh=5 Rh=10 22 34 25 43 57 52 Số luật ban đầu Giải thuật Giải thuật Giải thuật 10K 50K 100K Giải thuật Giải thuật Giải thuật 10K 50K 100K 10 13 12 0 12 15 25 46 20 42 41 99 100 87 Giải thuật Giải thuật Giải thuật 10K 50K 100K 10 13 0 23 24 42 35 40 47 99 100 87 Giải thuật Giải thuật Giải thuật 10K 50K 100K 11 15 10 5 25 18 23 41 21 99 100 87 Nguyễn Minh Ý 99 100 87 76/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường 4.5 Đánh giá kết đạt 4.5.1 Kết báo “Association Rule Hiding” Bài báo “Association Rule Hiding”, V.S.Verykios, A.K Elmagarmid, E.Bertino, Y.Saygin, and E Dasseni, 07/07/2003 Biểu đồ thống kê Nguyễn Minh Ý 77/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường Hình 21: Kết đánh giá giải thuật công bố 4.5.2 Hiệu giải thuật thực luận văn Kết đạt so với kết công bố báo “Association Rule Hiding”, V.S.Verykios, A.K Elmagarmid, E.Bertino, Y.Saygin, and E Dasseni, 07/07/2003 tương đồng: thời gian thực thi tăng tuyến tính theo kích thước file, số luật sinh < 10, số luật cũ 30Ỉ 60 Tuy nhiên so sánh tương đối liệu thử trường hợp khác Dữ liệu thử để đánh giá báo “Association Rule Hiding” liệu sinh cách ngẫu nhiên liệu khơng có mối quan hệ logic thực tế trường hợp liệu điểm sinh viên Ngoài ra, kết bị ảnh hưởng yếu tố khác như: số thuộc tính sở liệu, chiều dài trung bình giao tác, số giá trị thuộc tính … 4.6 Đánh giá & tổng kết Phần tốn: • • • • mềm thực phần đáp ứng yêu cầu ban đầu đưa Bảo mật tổ hợp nhạy cảm Bảo mật luật nhạy cảm Có khả xử lý tập liệu lớn Kết q trình khai phá file đích khơng có sai lệch lớn so với kết KPDL file nguồn • Kết tương đồng với kết báo công bố Nguyễn Minh Ý 78/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường Ngoài nhiệm vụ bảo mật thơng tin, cơng cụ sử dụng lọc để loại bỏ kết KPDL khơng mong muốn q trình KPDL phương pháp luật liên kết Tuy nhiên, số lượng mẫu thử, liệu thử không nhiều nên luận văn chưa đưa giải thuật giải thuật tối ưu cho trường hợp Cũng khẳng định tính hiệu giải thuật áp dụng kết công bố trước Nguyễn Minh Ý 79/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường Chương V -Tổng kết đánh giá & hướng phát triển 5.1 Tổng kết Do số hạn chế thời gian, tập liệu không đầy đủ nên đề tài tập trung KPDL vào số điểm quan hệ mơn học khoa công nghệ thông tin, quan hệ thơng tin cá nhân & điểm trung bình, điểm trung bình sinh viên học kỳ, mơn học bất thường môn học không ổn định…Trong đề tài nêu lên số vấn đề bảo mật liên quan đến KPDL luật liên kết Đề tài thực, cải tiến giải thuật bảo mật xây dựng phần mềm hoàn chỉnh để giải toán bảo mật KPDL phương pháp luật liên kết 5.2 Hướng phát triển Trong tương lai có sở liệu điểm sinh viên đầy đủ hơn, thời gian rộng rãi khai phá nhiều từ điểm sinh viên Đại học Bách Khoa như: tìm qui luật liên quan đến sinh viên học bậc đại học, sinh viên ký túc xá, sinh viên thuê nhà trọ, …hoặc quan hệ môn học tất khoa, ngành trường Đại học Bách Khoa môn học đại cương chuyên ngành Đồng thời xem xét kỹ vế đề liên quan đến privacy, phát triển giải thuật bảo mật tạo thành lọc thật hữu ích cho số phần mềm KPDL phổ biến Weka nghiên cứu vấn đề bảo mật với số phương pháp KPDL khác Về mặt giải thuật tìm thêm chiến lược thay thuộc tính giao tác để q trình bảo mật luật nhảy cảm tổ hợp nhạy cảm đạt hiệu cao Nguyễn Minh Ý 80/81 Privacy Preserving Data Mining Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường Tài liệu tham khảo [1] Mehmed Kantardzic & John Wiley & Sons, Data mining: concepts, Models, Methods, and Agorithms, 2003 [2] Han, J and M Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann, San Francisco - 2000 [3] David Hand, Hekki Mannila and Padharic Smyth, Principles of Data Mining, 2001 [4] Ho Tu Bao, Introduction To Knowledge Discovery and Data Mining, 2000 [5] Vladimir Estivill-Castro, Ljiljana Brankovic and David L.Dowe, Privacy in Data Mining, 1999 [6] Vassilios S.Verikios, Elisa Bertinom Igor Nai Fovino, State of the art in Privacy Preserving Data Mining, 2004 [7] Chris Clifton and Donald Marks, Security and privacy implications of Data Mining, 1996 [8] Alexandre Evfimievski, Randomization in Privacy Preserving Data Mining, 2004 [9] Chris Clifton, Wenliang Du, MikhailAtallah, Distributed data mining to protected information privacy, 2003 [10] Zhiqiang Yang, Sheng Zhong, Rebecca N.Wright, Privacy Preserving Classification of Customer Data without Loss of Accuracy, 2005 [11] Jaileep Shrikent Vaidy, Privacy Preserving Data Mining Over Vertically partitioned data, 2004 [12] Practicle Machine Learning Tools and Techniquies with Java Implementations [13] Niên giám Đại học Bách Khoa năm 2002 [14] V.S Verykios, A.K Elmagarmid, Association Rule Hiding, 07/2003 [15] Guanling Lee,Chien-Yu Chang, Hiding Sensitive Patterns in luật liên kết Mining,2004 [16] Yucel Saygin, Vassillos Sverykios, Using unknowns to prevent Discovery of Association Rules, 2002 [17] Nguyễn Đình Huy, Xác suất thống kê, Đại học quốc gia, 2003 [18] Bành Thu Thảo, luận văn thạc sĩ “Tìm hiểu giải thuật data mining, tìm kiếm ứng dụng kết học tập sinh viên hoa Công Nghệ Thông Tin”, Đại học Bách Khoa, 2005 [19] Ts Nguyễn Đức Cường,Tổng quan Khai Phá Dữ Liệu, Kỷ yếu hội nghị khoa học công nghệ lần 09 – Khoa CNTT trường ĐH Bách Khoa, 10/2005 [20] Ts Đặng Trần Khánh, Các vấn đề bảo mật bật hệ thống quản trị liệu ứng dụng đại, Kỷ yếu hội nghị khoa học công nghệ lần 09 – Khoa CNTT trường ĐH Bách Khoa, 10/2005 Nguyễn Minh Ý 81/81 ... độ bảo mật) mà chương trình cho file tập liệu khác Người sử dụng sử dụng chương trình khai phá liệu cho kết bảo mật Có thể thực Tất đối tượng khai phá tập liệu tùy vào đối tượng mà chương trình. .. trình đánh giá cải tiến chất lượng dạy học nhà trường 1.2 Tên đề tài Tìm hiểu kỹ thuật bảo mật trình KPDL Xây dựng ứng dụng prototype kết học tập sinh viên khoa Công Nghệ Thông Tin (Privacy preserving... 3.3.1 Bài tốn 1: Tìm hiểu mối liên hệ môn học khoa CNTT Các kết liên quan đến toán Trong đề tài luận văn thạc sĩ ? ?Tìm hiểu giải thuật data mining, tìm kiếm ứng dụng kết học tập sinh viên hoa Công

Ngày đăng: 29/08/2021, 17:42

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN