1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Ẩn danh hóa dữ liệu có quan tâm luật kết hợp

51 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH - NĂM 2020

Trang 2

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH - NĂM 2020

Trang 3

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán bộ hướng dẫn khoa học : TS Trương Tuấn Anh

Cán bộ chấm nhận xét 1 : PGS.TS Vũ Thanh Nguyên

Cán bộ chấm nhận xét 2 : TS Đặng Trần Trí

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 29 tháng 08 năm 2020

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1 PGS.TS Đặng Trần Khánh

2 PGS.TS Vũ Thanh Nguyên 3 TS Lê Hồng Trang

4 TS Đặng Trần Trí 5 TS Phan Trọng Nhân

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

Trang 4

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Võ Minh Trí, MSHV: 1670699 Ngày, tháng, năm sinh: 1985 , Nơi sinh: Đồng Tháp

Chuyên ngành: Khoa Học Máy Tính Mã số : 60.48.01.01 I TÊN ĐỀ TÀI:

ẨN DANH HÓA DỮ LIỆU CÓ QUAN TÂM LUẬT KẾT HỢP

II NHIỆM VỤ VÀ NỘI DUNG:

-Nhiệm vụ của luận văn :

+Thu thập dữ liệu khám chữa bệnh y tế ở tuyến Huyện

+Xây dựng thuật toán biến đổi dữ liệu, với K dòng giống nhau, cho phép người dùng nhập các thông tin(luật kết hợp) cần giữ lại và một ngưỡng

+Triển khai Demo thuật toán lên ứng dụng web -Nội dung của luận văn :

+Tìm hiểu các khái niệm, các cách bảo vệ thông tin riêng tư trong chia sẽ dữ liệu +Tìm hiểu các kỹ thuật bảo vệ tính riêng tư trong khai phá dữ liệu

+Tìm hiểu luật kết hợp trong khai phá dữ liệu

+Đề xuất kỹ thuật bảo vệ tính riêng tư trong chia sẻ dữ liệu +Kiểm thử

+Đánh giá

III NGÀY GIAO NHIỆM VỤ : 11/02/2020

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 15/06/2020 V CÁN BỘ HƯỚNG DẪN : TS Trương Tuấn Anh

Trang 5

LỜI CÁM ƠN

Để thực hiện và hoàn thành đề tài nghiên cứu khoa học này, tôi đã nhận được sự hỗ trợ, giúp đỡ, quan tâm, động viên từ nhiều cơ quan, tổ chức và cá nhân Nghiên cứu khoa học cũng được hoàn thành dựa trên sự tham khảo, học tập kinh nghiệm từ các kết quả nghiên cứu liên quan, một số sách báo, báo chuyên ngành của nhiều tác giả ở các trường Đại học, các tổ chức nghiên cứu, tổ chức chính trị…Đặc biệt hơn nữa là sự hợp tác của cán bộ giáo viên các trường Đại học Bách Khoa TPHCM và sự giúp đỡ, tạo điều kiện về vật chất và tinh thần từ phía gia đình, bạn bè và các đồng nghiệp

Trước hết, tôi xin gửi lời cảm ơn sâu sắc đến Thầy Trương Tuấn Anh – người trực tiếp hướng dẫn khoa học đã luôn dành nhiều thời gian, công sức hướng dẫn tôi trong suốt quá trình thực hiện nghiên cứu và hoàn thành đề tài nghiên cứu khoa học

Tôi xin trân trọng cám ơn Ban giám hiệu, trường Đại học Bách Khoa TPHCM cùng toàn thể giảng viên trường đã tận tình truyền đạt những kiến thức quý báu, giúp đỡ tôi trong quá trình học tập và nghiên cứu

Tôi xin cám ơn bạn bè, đồng nghiệp đã hỗ trợ về mặc dữ liệu thật để kiểm thử Tuy có nhiều cố gắng, nhưng trong đề tài nghiên cứu khoa học này không tránh khỏi những thiếu sót Tôi kính mong Quý thầy cô, các chuyên gia, những người quan tâm đến đề tài, đồng nghiệp, gia đình và bạn bè tiếp tục có những ý kiến đóng góp, giúp đỡ để đề tài được hoàn thiện hơn

Một lần nữa tôi xin chân thành cám ơn!

TP Cao Lãnh , ngày 04 tháng 05 năm 2020 Tác giả

Võ Minh Trí

Trang 6

TÓM TẮT LUẬN VĂN

Chia sẻ dữ liệu không phải là một điều mới Các cá nhân, tổ chức và chính phủ đã chia sẻ thông tin từ trước khi máy tính và mạng tồn tại Tuy nhiên, trong thập kỷ qua, sự tiến bộ về kiến thức và kỹ năng số, công nghệ và sự thích ứng của khung pháp lý với không gian kỹ thuật số đã cho phép dữ liệu được chia sẻ nhanh hơn và ở quy mô chưa từng có Ví dụ, JoinData kích thích sự đổi mới bền vững trong lĩnh vực nông nghiệp Hà Lan bằng cách cho phép nông dân chia sẻ dữ liệu của họ một cách nhanh chóng, dễ dàng và an toàn Ngoài các điểm lợi của chia sẻ dữ liệu, trong Chương 1 của đề tài này cũng giải thích thêm các vần đề gặp phải khi chi sẻ dữ liệu

Trong những năm gần đây, những tiến bộ trong công nghệ phần cứng đã dẫn đến sự gia tăng khả năng lưu trữ và ghi lại dữ liệu cá nhân về người tiêu dùng và cá nhân Điều này đã dẫn đến những lo ngại rằng dữ liệu cá nhân có thể bị lạm dụng cho nhiều mục đích khác nhau Để giảm bớt những lo ngại này, một số kỹ thuật gần đây đã được đề xuất để thực hiện các nhiệm vụ khai thác dữ liệu theo cách bảo vệ quyền riêng tư Những kỹ thuật để thực hiện bảo vệ quyền riêng tư trong khai thác dữ liệu được hiện ra từ một loạt các chủ đề liên quan như khai thác dữ liệu, mật mã và ẩn thông tin sẽ được đề cập trong Chương 2 của đề tài

Khai thác dữ liệu, hay khám phá tri thức, là quá trình được máy tính hỗ trợ để đào sâu và phân tích các bộ dữ liệu khổng lồ và sau đó trích xuất ý nghĩa của dữ liệu Các công cụ khai thác dữ liệu dự đoán các hành vi và xu hướng trong tương lai, cho phép các doanh nghiệp đưa ra các quyết định chủ động, dựa trên tri thức Các công cụ khai thác dữ liệu có thể trả lời các câu hỏi kinh doanh mà theo truyền thống là quá tốn thời gian để giải quyết Họ lùng sục cơ sở dữ liệu cho các mẫu ẩn, tìm thông tin dự đoán mà các chuyên gia có thể bỏ lỡ vì nó nằm ngoài dự đoán của họ Chương 3 sẽ trình bày các khái niệm, phương pháp để khai thác dữ liệu

Trong số các kỹ thuật bảo vệ tính riêng tư dữ liệu đó có phương pháp k- anonymity đã được đề xuất trong những năm gần đây để thực hiện khai thác dữ liệu và bảo vệ quyền riêng tư.Một vấn đề khác có liên quan là làm thế nào dữ liệu nhiễu có thể

Trang 7

được sử dụng cùng với các phương pháp khai thác dữ liệu truyền thống như khai thác luật kết hợp

Trong nhiều trường hợp, kết quả của các ứng dụng khai thác dữ liệu như luật kết hợp có thể làm tổn hại sự riêng tư của dữ liệu Điều này đã tạo ra một lĩnh vực riêng tư trong đó kết quả của các thuật toán khai thác dữ liệu như khai thác luật kết hợp được sửa đổi để bảo vệ sự riêng tư của dữ liệu Một ví dụ cổ điển về các kỹ thuật như vậy là các phương thức ẩn luật kết hợp, trong đó một số quy tắc kết hợp bị loại bỏ để giữ quyền riêng tư ngoài 2 phương pháp này ở Chương 4 sẽ đề xuất kỹ thuật khác

Kỹ thuật này là sẽ thực hiện biến đổi dữ liệu với K dòng giống nhau, dữ liệu ban đầu là file excel(*.xls) sẽ được import vào chương trình được hiện thực trên ứng dụng web

Mục tiêu chính của đề tài này là từ dữ liệu khám chữa bệnh y tế biến đổi dữ liệu theo phương pháp K-anomity, với k dòng giống nhau, nhưng điểm khác biệt so với phương pháp K-anomity là cho phép người dùng chọn giữ lại các luật kết hợp với ngưỡng cho trước

Chương 5 tôi sẽ kiểm thử và đánh giá kỹ thuật, đo mức độ chiếm dụng CPU, đo thời gian chạy với các phép thử là hệ số K, số lượng mẩu tin, số lượng các trường trong bảng, số lượng các luật kết hợp sau cùng là bảng so sánh với các kỹ thuật khác để thấy giải thuật của tôi có tối ưu hơn hay không

Trang 8

LỜI CAM ĐOAN

Tôi xin cam đoan : Luận văn với đề tài “ẨN DANH HÓA DỮ LIỆU CÓ QUAN TÂM LUẬT KẾT HỢP” là công trình nghiên cứu của cá nhân tôi, không sao chép của bất cứ ai

Mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cám ơn và các thông tin trích dẫn trong luận văn đều được ghi rõ nguồn gốc

Tôi xin chịu mọi trách nhiệm về công trình nghiên cứu của riêng mình !

Tp Cao lãnh, Ngày 04 Tháng 05 Năm 2020 Tác giả

Võ Minh Trí

Trang 9

CHƯƠNG 1: TỔNG QUAN CHÍNH SÁCH CHIA SẺ DỮ LIỆU VÀ QUYỀN RIÊNG TƯ 7

1.1.Tại sao ta cần phải chia sẻ dữ liệu ? 7

1.2 Mối quan tâm trong chia sẽ dữ liệu 8

1.3 Dữ liệu độc quyền và nhạy cảm 8

1.4 Tính riêng tư là gì ? 8

1.5.Mục tiêu của đề tài 9

1.6 Giới hạn đề tài 9

1.7 Định hướng phương pháp nghiên cứu 10

CHƯƠNG 2: CÁC KỸ THUẬT BẢO VỆ THÔNG TIN TRONG KHAI PHÁ DỮ LIỆU 11

2.1.Giới thiệu: 11

2.2 Các mối đe dọa: 11

2.3 Các kỹ thuật bảo vệ thông tin trong khai phá dữ liệu (privacy presrving data mining techniques(PPDM)) 11

2.3.1 Kỹ thuật ẩn danh (Anonymization) 13

2.3.2 Kỹ thuật ngẫu nhiên (Randomization) 13

2.3.3 Kỹ thuật nhiễu (Perturbation) 14

2.3.4 Kỹ thuật ngưng tụ (Condensation): 14

2.3.5 Kỹ thuật mã hóa(Cryptography): 14

2.3.6 Ưu điểm và Nhược điểm của các phương pháp PPDM: 15

CHƯƠNG 3: KHAI PHÁ DỮ LIỆU VÀ LUẬT KẾT HỢP 16

3.1.Tổng quan về khai phá dữ liệu( data mining): 16

3.1.1.Khái niệm: 16

3.1.2 Tại sao cần khai phá dữ liệu? 16

3.1.3 Lợi ích của việc khai thác dữ liệu là gì? 16

3.1.4 Các giai đoạn của khai phá dữ liệu: 17

3.1.4 Các phương pháp chính trong khai phá dữ liệu: 18

3.2 Khai phá dữ liệu đảm bảo tính riêng tư? 19

Trang 10

3.3 Khai phá luật kết hợp trong cơ sở dữ liệu 19

3.3.1 Luật kết hợp 19

3.3.2 Khai phá luật kết hợp 21

3.4 Các phương pháp khai phá luật kết hợp có đảm bảo tính riêng tư 21

3.4.1 Khai phá luật kết hợp có đảm bảo tính riêng tư với dữ liệu tập trung 21

3.4.2.Khai phá luật kết hợp có đảm bảo tính riêng tư với dữ liệu phân tán 22

CHƯƠNG 4: ĐỀ XUẤT KỸ THUẬT BẢO VỆ TINH RIÊNG TƯ TRONG CHIA SẺ DỮ LIỆU 25

4.1.Đặt vấn đề 25

4.2.Các nghiên cứu có liên quan 26

4.3 Mục tiêu nghiên cứu 27

4.4 Quy trình nghiên cứu: 31

4.4.1 Lưu đồ thuật toán 31

4.4.2 Mã giả các hàm thực hiện 35

CHƯƠNG 5: THỬ NGHIỆM, ĐÁNH GIÁ 37

5.1.Thử nghiệm 37

5.1.1.Định dạng dữ liệu ban đầu (file excel) 37

5.1.2 Upload và Import dữ liệu 38

5.1.3 Cung cấp các thông số đầu vào 38

5.1.4 Kết quả sau khi biến khi biến đổi 40

5.2.ĐÁNH GIÁ 41

5.2.1 Về số lượng mẩu tin và số luật kết hợp 41

5.2.2 Về hệ số K và số lượng field quasi 41

Trang 11

CHƯƠNG 1: TỔNG QUAN CHÍNH SÁCH CHIA SẺ DỮ LIỆU VÀ QUYỀN RIÊNG TƯ

1.1.Tại sao ta cần phải chia sẻ dữ liệu ?

Chia sẻ dữ liệu mang lại lợi ích cho nhà nghiên cứu, nhà tài trợ nghiên cứu, kho

lưu trữ dữ liệu, cộng đồng khoa học và công chúng Nó khuyến khích kết nối và hợp tác nhiều hơn giữa các nhà khoa học và khoa học tốt hơn dẫn đến việc ra quyết định

hiệu quả hơn Chia sẻ dữ liệu thường được khuyến khích trong cộng đồng khoa học nhưng nó đòi hỏi rất nhiều nỗ lực, nguồn lực và sự hợp tác Chuẩn bị dữ liệu để được

chia sẻ cần có thời gian và tài liệu cẩn thận về quá trình nghiên cứu và kết quả dữ liệu

Dữ liệu chia sẻ cho nhà nghiên cứu và nhà tài trợ nghiên cứu sẽ mang lại lợi ích cho đôi bên Việc chia sẻ dữ liệu sẽ khuyến khích các nhà nghiên cứu quản lý tốt hơn

dữ liệu của họ và đảm bảo dữ liệu của họ có chất lượng cao Các nhà tài trợ nghiên

cứu có thể hưởng lợi từ dữ liệu chia sẻ bằng cách kích thích sự quan tâm và huy động tiếp tục nghiên cứu trong lĩnh vực khoa học của họ Do đó, chia sẻ dữ liệu có thể giúp nâng cao sự công nhận và nổi bật cho cả nhà nghiên cứu và nhà tài trợ nghiên cứu.

Chia sẻ dữ liệu khuyến khích kết nối và hợp tác nhiều hơn giữa các nhà nghiên

cứu, điều này có thể dẫn đến những phát hiện mới quan trọng trong lĩnh vực này Trong thời gian giảm đầu tư tiền tệ cho khoa học và nghiên cứu, chia sẻ dữ liệu hiệu quả hơn vì nó cho phép các nhà nghiên cứu chia sẻ tài nguyên Chia sẻ dữ liệu cho phép các nhà nghiên cứu xây dựng dựa trên công việc của người khác thay vì lặp lại nghiên cứu hiện có Chia sẻ dữ liệu cũng cho phép các nhà nghiên cứu thực hiện phân tích tổng hợp về chủ đề nghiên cứu hiện tại Các phân tích tổng hợp rất quan trọng để thu thập các xu hướng lớn hơn trong một khu vực hoặc chủ đề rộng hơn Do đó chia sẻ dữ liệu đảm bảo việc tiếp tục sản xuất các loại phân tích này

Chia sẻ dữ liệu làm tăng lưu thông và sử dụng dữ liệu trong cộng đồng khoa học bằng cách khuyến khích tính minh bạch tốt hơn, cho phép tái tạo kết quả và thông báo cho cộng đồng khoa học lớn hơn Điều này, có thể mang lại lợi ích lớn cho công chúng

vì thông tin tốt hơn và được phổ biến rộng rãi hơn có thể dẫn đến việc ra quyết định sáng suốt cho quy hoạch và chính sách môi trường

Trang 12

1.2 Mối quan tâm trong chia sẽ dữ liệu

Mặc dù có nhiều lợi ích thu được từ việc chia sẻ dữ liệu, có những cân nhắc quan trọng mà các nhà nghiên cứu phải nhận thức được khi chia sẻ dữ liệu của họ Có những lo ngại rằng những người khác sẽ sử dụng dữ liệu không phù hợp hoặc ra khỏi bối cảnh từ mục đích ban đầu của nghiên cứu Ngoài ra, dữ liệu có thể có thông tin nhạy cảm và e ngại về việc duy trì bảo mật là hợp lý

Cuối cùng, các nhà nghiên cứu cũng có thể không yên tâm về viễn cảnh không nhận được sự thừa nhận của những người khác sử dụng dữ liệu của họ hoặc người khác sẽ sử dụng dữ liệu của họ để đạt được lợi thế cạnh tranh Mặc dù đây là những mối quan tâm hợp lệ, nhưng thường duy trì các thực tiễn chia sẻ dữ liệu tốt và tạo ra siêu dữ liệu toàn diện có thể giải quyết phần lớn các vấn đề này

1.3 Dữ liệu độc quyền và nhạy cảm

Dữ liệu độc quyền thường được ghi lại trong các hợp đồng và về mặt pháp lý

không nên được công bố hoặc tiết lộ cho các thực thể bên ngoài

Ví dụ về dữ liệu độc quyền: Dữ liệu địa chất và địa vật lý, như bản đồ tài sản, hồ sơ và dự toán dự trữ; dữ liệu nước, như sản xuất và sử dụng nước; và dữ liệu sinh học, chẳng hạn như dữ liệu về các loài chim và các loài có nguy cơ tuyệt chủng, được cung cấp bởi người tư nhân và các công ty

Dữ liệu nhạy cảm là dữ liệu "nếu được phát hành ra công chúng sẽ dẫn đến" tác

động bất lợi "đối với đơn vị phân loại hoặc một cá nhân đang sống" hoặc dữ liệu có thể có ý nghĩa kinh tế quan trọng nếu được tiết lộ trước khi phát hành công khai Ví dụ về dữ liệu nhạy cảm:

+ Dữ liệu về các loài bị đe dọa hoặc có nguy cơ tuyệt chủng, được thu mà chưa được khái quát hoặc tổng hợp

+ Đánh giá tài nguyên năng lượng và khoáng sản và báo cáo hàng hóa khoáng sản thường có ý nghĩa kinh tế quan trọng không được tiết lộ hoặc chia sẻ trước khi phát hành công khai vì việc phát hành trước trong những trường hợp này có thể dẫn đến lợi thế không công bằng hoặc nhận thức về lợi thế không công bằng

1.4 Tính riêng tư là gì ?

Tính riêng tư là tính chất của các dữ liệu nhạy cảm như: định danh, tên, địa chỉ, điện thoại, thu nhập,… của các cá nhân, một số số liệu thống kê các tổ chức, doanh

Trang 13

nghiệp… Các thông tin này là bí mật kinh doanh, mà nếu để lộ ra sẽ gây bất lợi cho cá nhân, tổ chức, hay những thông tin do quy định của pháp luật nên không thể tiết lộ ra như bảo hiểm y tế, số tài khoản ngân hàng, Những loại thông tin như trên gọi là những thông tin có tính riêng tư hay là tri thức nhạy cảm

Qua các mục trình bày ở trên chúng ta thấy lợi ích của việc chia sẽ thông tin và cũng như các bất cập gặp phải khi chúng ta chia sẻ dữ liệu

Vậy vấn đề đặt ra là làm sao hài hòa được giữa hai vấn đề vốn mang tính đối lập nhau, chia sẻ dữ liệu mà vẫn đảm bảo được tính riêng tư của liệu

Đây là lý do tôi chọn đề tài : “ẨN DANH HÓA DỮ LIỆU CÓ QUAN TÂM LUẬT KẾT HỢP”

1.5.Mục tiêu của đề tài

Với 2 vấn đề đặt ra ở trên là làm sao dữ liệu được chia sẻ phục vụ cho việc khai phá dữ liệu và đồng thời thông tin riêng tư trong đó được bảo vệ Đề tài sẽ có các mục tiêu sau:

- Tìm và thu thập dữ liệu khám chữa bệnh y tế để làm dữ liệu kiểm thử

- Xây dựng thuật toán và hiện thực để cho ra kết quả là file dữ liệu với K dòng giống nhau, trong đó sẽ lưu giữ lại một số luật kết hợp mà đã cho trước

- Triển khai ứng dụng giao diện lên web với mục đích dễ dàng cho các đơn vị tổ chức có nhu cầu sử dụng

1.6 Giới hạn đề tài

-Nghiên cứu này giành một tổ chức, cơ quan, công ty muốn chia sẻ dữ liệu mà

thông tin các nhân trong dữ liệu sẽ được bảo vệ tính riêng trong dữ liệu

-Đề tài thực hiện việc che giấu, làm mờ thông tin riêng tư cá nhân trong dữ liệu, tuy nhiên không bảo vệ an toàn tuyệt đối, kẻ tấn công có thể lần ra thông tin nếu hệ số K nhỏ

-Thuật toán sẽ làm dữ liệu bị thay đổi so với dữ liệu gốc theo hệ số K và ngưỡng cho trước, hệ số K càng lớn thì dữ liệu sẽ bị biến đổi càng nhiều

-Dữ liệu được sử dụng đề tài này là dữ liệu khám chữa bệnh y tế của người dân khi đến khám chữa bệnh ở các cơ sở y tế

Trang 14

1.7 Định hướng phương pháp nghiên cứu

- Thực hiện phương pháp kế thừa trên cơ sở kiến thức về luật kết hợp về K- anonymity, một vài thuật toán, kết quả của các bài báo

- Thực hiện phương pháp tổng hợp, phân tích, phương pháp kiểm thử -lựa chọn để chọn và bổ sung thuật toán cho phù hợp với yêu cầu đặt ra

- Thực hiện phương pháp thu thập dữ liệu từ trạm y tế xã/phường bằng phương pháp chia sẻ dữ liệu để có dữ liệu kiểm thử

- Thực hiện phương pháp tiền xử lý dữ liệu để lọc bỏ các thông tin dư thừa không cần thiết, loại bỏ dấu tiếng việt

- Thực hiện phương pháp thực nghiệm để kiểm định kết quả và đánh giá độ chính xác

Trang 15

CHƯƠNG 2: CÁC KỸ THUẬT BẢO VỆ THÔNG TIN TRONG KHAI PHÁ DỮ LIỆU

2.1.Giới thiệu:

Trong thời đại số hóa, bảo mật dữ liệu và phân phối chia sẻ dữ liệu là khó đạt được Các tổ chức thu thập thông tin về khách hàng hoặc người dùng của họ để khai thác hoặc sử dụng cho mục đích khác Thông tin thu thập có thể là âm thanh, video, hình ảnh và văn bản, vv Kết quả thu dữ liệu có thể là terabyte

Với sự tiến bộ của phương pháp phân tích và xử lý dữ liệu,các doanh nghiệp, ngành công nghiệp và chính phủ, nó đề xuất giải pháp,tìm ra dịch bệnh hoặc mô hình kinh tế….Mặc dù các phần dữ liệu được phát hành cung cấp có giá trị cho các nhà nghiên cứu, và chúng cũng bao gồm dữ liệu nhạy cảm mà sự riêng tư cũng bị đe dọa

Quyền riêng tư: là việc sử dụng thông tin cá nhân của người dùng, xử lý thông tin sai lệch và kiểm soát quyền truy cập vào thông tin cá nhân

Bảo mật trong khai thác dữ liệu : là một hướng nghiên cứu sáng tạo trong khai thác dữ liệu và thống kê, trong đó các quy trình khai thác dữ liệu được phân tích cho các hiệu ứng khía cạnh mà chúng phải chịu trong bảo mật dữ liệu

2.2 Các mối đe dọa:

Mối đe dọa chính của quyền riêng tư là tiết lộ danh tính và thông tin cá nhân, rất nhạy cảm Có một số loại mối đe dọa quyền riêng tư có thể tiết lộ thông tin nhạy cảm:

-Công khai danh tính(Identity disclosure) -Công khai thuộc tính(Attribute disclosure)

-Công khai thông tin thành viên(Membership disclosure)

2.3 Các kỹ thuật bảo vệ thông tin trong khai phá dữ liệu (privacy presrving data mining techniques(PPDM))

Có nhiều kỹ thuật,nhìn chung cho các kỹ thuật này có thể được phân loại thành 5 giai đoạn :

-Phân phối (Distribution)

Trang 16

-Sửa đổi (Modification)

-Thuật toán khai phá dữ liệu:(Data Mining Algorithm ) -Ẩn dữ liệu (Data hiding )

-Kỹ thuật bảo vệ quyền riêng tư (Privacy Preservation Technique ) Với 5 kỹ thuật nên trên có thể được phân loại 3 cách:

-Heuristic approach: chỉ là về sử dụng đối với cơ sở dữ liệu tập trung(cho dữ liệu thô, dữ liệu tổng hợp)

-Reconstruction approach: được sử dụng cho cơ sở dữ liệu tập trung(cho dữ liệu thô) phương pháp phân phối thống kê được sử dụng

-Cryptography approach: hoạt động trên cơ sở dữ liệu phân tán(dữ liệu thô, dữ liệu tổng hợp)

Hình 2.1 các kỹ thuật bảo vệ quyền riêng tư trong khai phá dữ liệu

Các kỹ thuật PPDM có thể được phân loại thêm, trong đó theo những cách tiếp

cận này là cách tiếp cận dựa trên ẩn danh(Anonymization ):

Trang 17

2.3.1 Kỹ thuật ẩn danh (Anonymization)

-Mục đích của thủ tục ẩn danh là để che giấu sự nhạy cảm hoặc riêng tư thông tin về một cá nhân

-Ẩn danh là một chiến lược để giữ lại dữ liệu, để thông tin gốc sẽ được thay thế thành dữ liệu ẩn Phương pháp k-anonymity nói rằng dữ liệu không thể phân biệt trong K hồ sơ Điều này có thể được thực hiện bằng cách sử dụng các kỹ thuật Tổng quát hóa(Generalization) và Đàn áp (suppression)

Hình 2.2 Phương pháp k-anonymity sử dụng kỹ thuật tổng quát hóa

2.3.2 Kỹ thuật ngẫu nhiên (Randomization)

-Cách tiếp cận đáp ứng ngẫu nhiên là một cách để che dấu bản gốc thông tin bằng cách thêm một số dữ liệu ngẫu nhiên hoặc tiếng ồn(noise)

-Dữ liệu được thêm vào phải lớn nhất có thể do đó dữ liệu về ai đó không thể được phục hồi

-Quá trình đáp ứng ngẫu nhiên được thực hiện theo 2 giai đoạn:

+Trong giai đoạn chính: thông tin ban đầu được ngẫu nhiên hóa và chuyển sang phía người nhận

+Trong giai đoạn phụ: người nhận tái cấu trúc dữ liệu gốc từ dữ liệu ngẫu nhiên bằng thuật toán tái cấu trúc phân phối

Hình 2.3 kỹ thuật ngẫu nhiên

Trang 18

2.3.3 Kỹ thuật nhiễu (Perturbation)

Cách tiếp cận nhiễu là làm sửa đổi các giá trị thông tin thông thường bằng các giá trị thông tin tổng hợp, để dữ liệu được tính toán từ dữ liệu bị nhiễu không phân biệt được với tính toán từ dữ liệu gốc Cách tiếp cận nhiễu loạn là có 2 loại:

+Additive perturbation: Trong loại phụ gia, tiếng ồn ngẫu nhiên là thêm vào dữ liệu gốc

+Multiplicative perturbation: Trong kiểu nhân, phương pháp xoay ngẫu nhiên(random rotation method) được sử dụng để gây nhiễu dữ liệu

Hình 2.4 Kỹ thuật nhiễu

2.3.4 Kỹ thuật ngưng tụ (Condensation):

-Phương pháp ngưng tụ xây dựng các cụm bị ràng buộc trong tập dữ liệu sau đó tạo ra thông tin giả từ số liệu thống kê của các cụm này

-Kỹ thuật này được gọi là ngưng tụ vì cách tiếp cận của nó là sử dụng số liệu thống kê cô đọng của các cụm để tạo dữ liệu giả

-Nó tạo ra các đơn vị có nhiều kích thước dữ liệu, sao cho chắc chắn rằng mỗi và mọi bản ghi đều nằm trong một bộ có kích thước ít nhất giống với mức ẩn danh của nó -Phát triển, dữ liệu giả được tạo ra từ mỗi và mọi bộ để có thể tạo một bộ thông tin tổng hợp với phân phối hỗn hợp bằng nhau như thông tin được chỉ định Cách tiếp cận này cũng có thể được sử dụng đơn giản cho trong việc gặp trở ngại phân loại

2.3.5 Kỹ thuật mã hóa(Cryptography):

-Các thủ tục mã hóa có ý nghĩa lý tưởng cho các tình huống như nhiều bên hợp tác để tính toán kết quả hoặc chia sẻ kết quả khai thác không có chứa thông tin nhạy cảm và do đó tránh được việc tiết lộ

-Thủ tục mã hóa để tìm tiện ích của nó trong những tình huống như vậy được đưa ra bởi 2 động lực:

Trang 19

+Đầu tiên, nó cung cấp một mô hình được xác định rõ về tính riêng tư bao gồm các phương pháp để chứng minh và định lượng nó

+Thứ hai, cần phải có một bộ các thuật toán lớn và cấu trúc mã hóa để áp dụng các phương thức khai thác dữ liệu bảo mật riêng tư khu vực này

-Tuy nhiên, công trình gần đây đã chỉ ra rằng mật mã không bảo vệ đầu ra của một tính toán Thay vào đó, nó ngăn chặn rò rỉ quyền riêng tư trong quá trình tính toán Do đó, nó không thể cung cấp một câu trả lời đầy đủ cho vấn đề bảo mật dữ liệu khai thác

2.3.6 Ưu điểm và Nhược điểm của các phương pháp PPDM:

Anonymization Cách này bảo vệ thông tin cá nhân với các thuộc tính nhạy cảm

Tấn công bằng liên kết, bị mất thông tin

Randomization Kỹ thuật đơn giản; hiệu quả

Không phù hợp cho dữ liệu có nhiều thuộc tính, mất nhiều thông tin trong dữ liệu

Perturbation Kỹ thuật đơn giản;làm ảnh hưởng riêng biệt trên mỗi thuộc tính

Sự bóp méo chỉ là cách để tái tạo lại giá trị ban đầu

Sự mơ hồ về mức độ tương đương của các mẫu tin khác nhau

Condensation Thích hợp cho dữ liệu giả; Cách tiếp cận tốt hơn so với sửa đổi trong dữ liệu gốc

Dữ liệu giả có cùng định dạng với dữ liệu gốc

Cryptography Cách tiếp cận phù hợp Cung cấp bộ công cụ lớn để bảo vệ thông tin nhạy cảm

Tính mở rộng quy mô khó khăn khi có nhiều bên tham gia

Bảng 2 1 So sánh thuận lợi và bất lợi của các phương pháp PPDM

Trang 20

CHƯƠNG 3: KHAI PHÁ DỮ LIỆU VÀ LUẬT KẾT HỢP

3.1.Tổng quan về khai phá dữ liệu( data mining):

3.1.1.Khái niệm:

Khai phá là quá trình trích xuất thông tin, khám phá tri thức có mối tương quan nhất định từ một kho dữ liệu khổng lồ nhằm mục đích dự đoán các xu thế, hành vi trong tương lai hoặc tìm kiếm tập các thông tin hữu ích mà bình thường không thể nhận diện được

3.1.2 Tại sao cần khai phá dữ liệu?

Lượng thông tin được lưu trữ trên các thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, v.v.) không ngừng tăng lên khoảng hơn một thập kỷ trở lại đây Sự tích lũy dữ liệu này xảy ra với một tốc độ bùng nổ Người ta ước đoán rằng lượng thông tin trên toàn cầu tăng gấp đôi sau khoảng hai năm và theo đó số lượng cũng như kích cỡ của các cơ sở dữ liệu cũng tăng lên một cách nhanh chóng Nói một cách hình ảnh là chúng ta đang “ngập” trong dữ liệu nhưng lại “đói” tri thức Câu hỏi đặt ra là liệu chúng ta có thể khai thác được gì từ những “núi” dữ liệu tưởng chừng như “bỏ đi” ấy không ?

Khai phá dữ liệu ra đời như một hướng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên Tuy nhiên có thể tạm hiểu rằng khai phá dữ liệu như là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó

3.1.3 Lợi ích của việc khai thác dữ liệu là gì?

-Trong lĩnh vực tài chính ngân hàng, khai thác dữ liệu được sử dụng để tạo ra các mô hình rủi ro chính xác cho các khoản vay và thế chấp Họ cũng rất hữu ích khi phát hiện các giao dịch gian lận

-Trong tiếp thị, kỹ thuật khai thác dữ liệu được sử dụng để cải thiện chuyển đổi, tăng sự hài lòng của khách hàng và tạo ra các chiến dịch quảng cáo được nhắm mục tiêu, thậm chí họ có thể được sử dụng khi phân tích nhu cầu trên thị trường và tìm ra ý tưởng cho các dòng sản phẩm hoàn toàn mới Điều này được thực hiện bằng cách xem dữ liệu khách hàng và bán hàng lịch sử và tạo ra các mô hình dự đoán mạnh mẽ

Trang 21

-Các cửa hàng bán lẻ sử dụng các thói quen / chi tiết mua sắm của khách hàng để tối ưu hóa cách bố trí các cửa hàng của họ nhằm nâng cao trải nghiệm của khách hàng và tăng lợi nhuận

-Các cơ quan quản lý thuế sử dụng các kỹ thuật khai thác dữ liệu để phát hiện các giao dịch gian lận và khai thuế đáng ngờ hoặc các tài liệu kinh doanh khác

-Trong sản xuất, phát hiện dữ liệu được sử dụng để cải thiện an toàn sản phẩm, khả năng sử dụng

3.1.4 Các giai đoạn của khai phá dữ liệu:

a Làm sạch dữ liệu (data cleaning & preprocessing): Loại bỏ nhiễu và các dữ liệu không cần thiết

b Tích hợp dữ liệu: (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning & preprocessing)

c Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data), v.v

d Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý

e Khai phá dữ liệu(data mining): Là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu

f Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm được thông qua các độ đo nào đó

g Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người dùng

Trang 22

Hình 3.1 các bước trong khai phá dữ liệu

3.1.4 Các phương pháp chính trong khai phá dữ liệu:

a Phương pháp luật kết hợp

Một trong những chủ đề phổ biến của khai phá dữ liệu(KPDL) là khai phá luật kết hợp Mục đích của khai phá luật kết hợp là xác định mối quan hệ, sự kết hợp giữa các mục dữ liệu (item) trong một cơ sở dữ liệu(CSDL) lớn

b Phương pháp cây quyết định

Mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định Các nút của cây được gán nhãn là tên các mục dữ liệu, các cạnh được gán các giá trị có thể của các mục dữ liệu, các lá mô tả các lớp khác nhau Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương ứng với các giá trị của mục dữ liệu tới lá

-Phương pháp K-Mean

Có nhiều phương pháp được sử dụng trong phân cụm, phương pháp k-Mean được coi là các kỹ thuật cơ bản của phân cụm Với phương pháp này sẽ chia tập có n đối tượng thành k cụm sao cho các đối tượng trong cùng một cụm thì giống nhau, các đối tượng khác cụm thì khác nhau

-Các phương pháp dựa trên mẫu

Trang 23

Phương pháp này sử dụng khai phá chuỗi theo thời gian (Sequential temporal patterns) Xét về mặt kỹ thuật thì tương tự như KPDL bằng luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Một luật mô tả mẫu tuần tự có dạng tiêu biểu X -> Y phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán bởi chúng có tính dự báo cáo

3.2 Khai phá dữ liệu đảm bảo tính riêng tư?

Vậy khai phá dữ liệu đảm bảo tính riêng tư là việc dùng các thuật toán để trích rút ra những tri thức quan trọng cần thiết cho mục đích khai phá dữ liệu mà không làm lộ ra các thông tin nhạy cảm của các cá nhân, tổ chức có trong tập dữ liệu

3.3 Khai phá luật kết hợp trong cơ sở dữ liệu

- Gọi A → B là một “luật kết hợp” nếu AT, BT và AB=

- Luật kết hợp A→B có độ hỗ trợ (support) s trong CSDL giao dịch D nếu trong D có s% các giao dịch T chứa AB:chính là xác suất P(AB) Tập mục A có P(A) ≥s>0 (với s cho trước) được gọi là tập phổ biến (frequent set) Luật kết hợp A→B có độ tin cậy (confidence) c trong CSDL D nếu như trong D có c% các giao dịch T chứa A thì cũng chứa B: chính là xác suất P(B│A)

- Support (A→B) = P(B) :1≥s(A→B)≥0 - confidence (A→B) = P(B│A) :1≥c(A→B)≥0

- Luật A→B được gọi là bảo đảm độ hỗ trợ s trong D nếu s(A→B)≥s -Luật A → B được gọi là bảo đảm độ tin cậy c trong D nếu c(A→B)≥c Độ hỗ trợ (Support)

Trang 24

* Độ hỗ trợ của một tập mục X trong cơ sở dữ liệu D là tỉ số giữa các giao tác T

 D có chứa tập X là tổng số giao tác trong D (hay là phần trăm của các giao tác trong D có chứa tập mục X), kí hiệu là Supp (X)

*Ta có 0 <= Supp (X) với mọi tập X

* Hay có thế nói Support chỉ mức độ “thường xuyên xảy ra” của mẫu

* Độ hỗ trợ của luật X→Y là tỉ số của số giao tác có chứa XY và số giao tác trong cơ sở dữ liệu D, kí hiệu là Supp (X→Y)

*Như vậy độ hỗ trợ của một luật bằng 50% nghĩa là có 50% số giao tác có chứa tập mục X Y Độ hỗ trợ có ý nghĩa thống kê của luật kết hợp Độ tin cậy ( Confidence)

* Độ tin cậy của luật kết hợp X →Y là xác suất xảy ra Y khi đã biết X

Ví dụ độ tin cậy của luật kết hợp {Apple} →Banana} là 80% có nghĩa là 80% khách hàng mua Apple cũng mua Banana

*Công thức để tính độ tin cậy của luật kết hợp X là xác suất có điều kiện Y khi đã biết X như sau :

Trong đó: n(X) là số giao dịch chứa X * Một số ví dụ về luật kết hợp

Ví dụ 3.1.1: 80% khách hàng mua tạp chí thể thao thì đều mua tạp chí về về ô tô =>sự kết hợp giữa tạp chí thể thao với tạp chí về về ô tô (80% là độ tin cậy của luật)

Trang 25

Ví dụ 3.1.2: Ngân hàng muốn thu thập thông tin về lịch sử tín dụng của khách hàng thấy có một luật: 75% khách hàng vay mua nhà và mua xe và có thu nhập hàng tháng dưới 7 triệu thì không có khả năng thanh toán nợ => sự kết hợp giữa vay mua nhà và mua xe, có thu nhập dưới 7 triệu với khả năng thanh toán nợ.(75% là độ tin cậy của luật)

Ví dụ 3.1.3: 20% trên tổng số khách hàng có tài khoản tiết kiệm có thu nhập lớn hơn hoặc bằng 60 triệu một năm với độ tin cậy là 100%

Thu nhập= 60.000.000_max →Tài khoản tiết kiệm= yes [20% ; 100%]

3.3.2 Khai phá luật kết hợp

Khai phá luật kết hợp: là tìm các mẫu phổ biến, sự kết hợp, sự tương quan, hay các cấu trúc nhân quả giữa các tập đối tượng trong các cơ sở dữ liệu giao tác được gọi là các luật kết hợp

Các ứng dụng: Luật kết hợp có ứng dụng trong nhiều lĩnh vực khác nhau của đời sống như: khoa học, hoạt động kinh doanh, tiếp thị, thương mại, phân tích thị trường chứng khoán, tài chính và đầu tư,

Từ các luật kết hợp được trích rút từ chính các cơ sở dữ liệu giao dịch, cơ sở dữ liệu khách hàng mà các siêu thị, các ngân hàng sẽ có chiến lược kinh doanh (sắp xếp các mặt hàng, số lượng các mặt hàng, ), chiến lược tiếp thị, quảng cáo,… để từ đó thúc đẩy hoạt động kinh doanh của mình

3.4 Các phương pháp khai phá luật kết hợp có đảm bảo tính riêng tư

Khai phá luật kết hợp có đảm bảo tính riêng tư là quá trình khai phá các luật kết hợp trong các cơ sở dữ liệu, đồng thời vẫn đảm bảo các thông tin riêng tư của các cá nhân hoặc tổ chức trong các cơ sở dữ liệu không bị lộ cho người khai phá

Tuỳ thuộc vào đặc trưng của nguồn dữ liệu, mô hình dữ liệu mà chúng ta có thể phân chia thành các loại bài toán khai phá luật kết hợp có đảm bảo tính riêng tư khác nhau:

3.4.1 Khai phá luật kết hợp có đảm bảo tính riêng tư với dữ liệu tập trung

Trong bài toán này, người ta giả thiết có một tổ chức sở hữu tập dữ liệu, trong tập dữ liệu có một số thuộc tính nhạy cảm Tổ chức này mong muốn công bố tập dữ liệu

Ngày đăng: 03/08/2024, 14:01

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN