BẢO TOÀN TÍNH RIÊNG TƯ CỦA NGƢỜI DÙNG TRONG MÔI TRƯỜNG CƠ SỞ DỮ LIỆU LỚN

89 323 1
BẢO TOÀN TÍNH RIÊNG TƯ CỦA NGƢỜI DÙNG  TRONG MÔI TRƯỜNG CƠ SỞ DỮ LIỆU LỚN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN THÀNH TÍN BẢO TOÀN TÍNH RIÊNG TƢ CỦA NGƢỜI DÙNG TRONG MÔI TRƢỜNG CƠ SỞ DỮ LIỆU LỚN LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 02 năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN THÀNH TÍN BẢO TOÀN TÍNH RIÊNG TƢ CỦA NGƢỜI DÙNG TRONG MÔI TRƢỜNG CƠ SỞ DỮ LIỆU LỚN LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS CAO TÙNG ANH TP HỒ CHÍ MINH, tháng 02 năm 2016 CÔNG TRÌNH ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hƣớng dẫn khoa học : TS Cao Tùng Anh Luận văn Thạc sĩ đƣợc bảo vệ Trƣờng Đại học Công nghệ TP HCM ngày … tháng … năm 2016 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ tên GS.TSKH Hoàng Văn Kiếm PGS.TS Võ Đình Bảy TS Nguyễn Thị Thúy Loan TS Lê Văn Quốc Anh TS Lê Tuấn Anh Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thƣ ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn đƣợc sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƢỜNG ĐH CÔNG NGHỆ TP HCM PHÒNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng… năm 20 … NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Thành Tín Giới tính: Nam Ngày, tháng, năm sinh: 02/02/1984 Nơi sinh: TP Hồ Chí Minh Chuyên ngành: Công nghệ thông tin MSHV: 1441860029 I- Tên đề tài: BẢO TOÀN TÍNH RIÊNG TƢ CỦA NGƢỜI DÙNG TRONG MÔI TRƢỜNG CƠ SỞ DỮ LIỆU LỚN II- Nhiệm vụ nội dung: - Nghiên cứu khai thác với liệu lớn - Nghiên cứu phƣơng thức kỹ thuật bảo vệ tính riêng tƣ có - Nghiên cứu phƣơng thức bảo đảm tính riêng tƣ liệu dựa hàm Cosine - So sánh phƣơng thức đƣợc giới thiệu phƣơng thức liên quan - Xây dựng chƣơng trình demo - Tiến hành thu thập đọc tài liệu có liên quan đến đề tài - Nghiên cứu tổng quan liệu lớn khái niệm có liên quan - Tìm hiểu kỹ thuật khai thác liệu lớn bảo đảm tính riêng tƣ có để đánh giá ƣu, nhƣợc điểm thuật toán - Nghiên cứu, tìm hiểu phƣơng thức cải tiến bảo đảm tính riêng tƣ dựa hàm cosine nhằm khắc phục nhƣợc điểm kỹ thuật có - Xây dựng chƣơng trình demo đánh giá kết đạt đƣợc III- Ngày giao nhiệm vụ: 15/07/2015 IV- Ngày hoàn thành nhiệm vụ: 15/02/2016 V- Cán hƣớng dẫn: TS Cao Tùng Anh CÁN BỘ HƢỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực luận văn đƣợc cảm ơn thông tin trích dẫn luận văn đƣợc rõ nguồn gốc Học viên thực luận văn Nguyễn Thành Tín ii LỜI CÁM ƠN Trƣớc tiên, em gửi lời cám ơn chân thành đến thầy cô trƣờng đại học Công Nghệ TP.HCM truyền đạt kiến thức, kinh nghiệm suốt trình em học trƣờng Em xin gửi lời cảm ơn sâu sắc đến TS Cao Tùng Anh Thầy tận tình hƣớng hƣớng dẫn, bảo giúp đỡ em suốt trình thực luận văn Em xin gửi lời cám ơn đến bạn học viên lớp cao học khoá 2014-2015 tạo điều kiện, chia sẻ kiến thức để em hoàn thành khoá học Cuối cùng, em xin gửi lời cám ơn đến gia đình, ngƣời thân, bạn bè động viên em trình học tập, nhƣ thực luận văn TP Hồ Chí Minh, ngày tháng năm 2016 Học viên Nguyễn Thành Tín iii TÓM TẮT Trong năm gần đây, công nghệ phát triển nhanh kéo theo phát triển nhanh ngành công nghệ thông tin Công nghệ bán dẫn phát triển tạo nhiều đột phá, phần cứng ngày rẻ hơn, xử lý thiết bị lƣu trữ ngày lớn Bên cạnh với phát triển lớn mạnh công ty, tập đoàn đa quốc gia phát triển mạnh mạng xã hội dẫn đến liệu lƣu trữ phát triển theo cấp số nhân Một kỷ nguyên lĩnh vực công nghệ thông tin đời: kỷ nguyên khai thác liệu lớn Đặc trƣng dung lƣợng lớn, phát triển nhanh đa dạng liệu lớn tạo nhiều thách thức việc khai thác Bên cạnh thách thức lớn phải bảo đảm tính riêng tƣ kỷ nguyên khai thác liệu lớn Trên giới có nhiều nghiên cứu khai thác liệu, có nhiều nghiên cứu khai thác liệu lớn đƣợc tiến hành Tuy nhiên việc khai thác hiệu liệu lớn nhƣng bảo đảm tính riêng tƣ chƣa đƣợc trọng Tại Việt Nam, nghiên cứu phát triển, phƣơng pháp khai thác liệu đƣợc trọng, khai thác liệu lớn nhận đƣợc nhiều quan tâm Tuy nhiên khai thác hiệu liệu lớn bảo đảm tính riêng tƣ hạn chế Trong khai thác liệu lớn, việc tính toán độ tƣơng đồng Cosine đƣợc sử dụng nhiều Vì việc giải hiệu tính toán bảo đảm tính riêng tƣ tính toán độ tƣơng đồng Cosine cải thiện đƣợc hiệu khai thác liệu lớn Với lý trên, học viên chọn đề tài ―BẢO TOÀN TÍNH RIÊNG TƢ CỦA NGƢỜI DÙNG TRONG MÔI TRƢỜNG CƠ SỞ DỮ LIỆU LỚN‖ để làm đề tài nghiên cứu iv ABSTRACT In recent years, technology has developed rapidly, leading to the rapid development of information technology major Semiconductor technology development has created many breakthroughs, the hardware becomes cheaper, the processor and the storage devices were growing Besides, the strong growth of companies, multinational corporations and the social network makes the exponentially developement of data storage A new age of information technology was born - the big data mining age At the other sides, the more greater challenge is the privacy assurance of the big data mining area There are many data mining researching projects in over the world, and also most of them are conducted However the privacy assurance of the effectively exploiting large data work has been less attention At the recently time in Vietnam, the data mining methods researching and developing projects also the large dara mining were being focused However, the privacy assurance of the effectively exploiting large data has been still less In large data mining, the Cosine similarities calculating is being used so much So, the effectively calculating solutions and privacy assurance in Cosine similarities calculating will improve efficiencies in large data mining For these reasons, we choose the topic "THE USER'S PRIVACY SECURITY IN BIG DATABASE ENVIRONMENT" to their research v MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii TÓM TẮT .iii ABSTRACT iv MỤC LỤC v DANH MỤC CÁC TỪ VIẾT TẮT vii DANH MỤC CÁC BẢNG viii DANH MỤC CÁC BIỂU ĐỒ, ĐỒ THỊ, SƠ ĐỒ, HÌNH ẢNH ix CHƢƠNG ĐẶT VẤN ĐỀ 1.1 Tình hình nghiên cứu giới 1.2 Tình hình nghiên cứu nƣớc CHƢƠNG CƠ SỞ LÝ THUYẾT 2.1 Tổng quan liệu lớn 2.1.1 Dung lƣợng 2.1.2 Tốc độ 2.1.3 Tính đa dạng 2.1.4 Giá trị 2.2 Khai thác liệu lớn 2.2.1 Đặc tính liệu lớn HACE 2.2.1.1 Dữ liệu lớn không đồng đa chiều 2.2.1.2 Các nguồn liệu độc lập kiểm soát phân tán không tập trung 2.2.1.3 Phức tạp bao hàm mối quan hệ 2.2.2 Thách thức khai thác liệu với liệu lớn 10 2.2.2.1 Lớp 1: tảng khai thác liệu lớn 11 2.2.2.2 Lớp 2: ngữ nghĩa liệu lớn vùng kiến thức chuyên biệt ứng dụng 12 2.2.2.3 Lớp 3: thuật toán khai thác liệu lớn 14 2.3 Mã hoá liệu 19 2.3.1 Mã hoá đối xứng 19 2.3.1.1 Mã hoá Ceasar 19 2.3.1.2 Mô hình mã hoá đối xứng 21 2.3.1.3 Mã hoán vị 23 2.3.2 Mã hoá đối xứng đại 25 2.3.2.1 Mã dòng 27 2.3.2.2 Trao đổi khoá bí mật trung tâm phân phối khoá 35 2.3.3 Mã hoá bất đối xứng 38 2.3.3.1 RSA 40 2.3.3.2 Độ an toàn RSA 43 2.3.3.3 Bảo mật, chứng thực không từ chối với mã hoá công khai 45 2.3.3.4 Trao đổi khoá 46 61 = mod 33 = (1x8)7 mod 33 + (18x26)7 mod 33 + (27x3)7 mod 33 + (26x27)7 mod 33 + (3x13)7 mod 33 + (18x17)7 mod 33 = 185 = 22+52+92+32+72+82 = 15.23 o Tính giá trị B = o Gửi - B site PA Bƣớc 3: Site PA sau nhận giá trị tính độ tƣơng đồng Cosine = 0,885827 Cơ phƣơng pháp sử dụng mã hoá bất đối xứng nhƣng áp dụng tính chất mã hoá đồng cấu việc xử lý tải bớt cho bên Thời gian xử lý giảm nhiên sử dụng nhiều tài nguyên để xử lý Phƣơng pháp đề xuất - Bƣớc 1: tạo khoá công cộng khoá riêng site PA: o Khoá công cộng Kpu(33,3) o Khoá bí mật Kpr(33,7) Gửi khoá công cộng Kpu cho site PB - Bƣớc 2: Site B sau nhận khoá công cộng site PA o Phát sinh khoá đối xứng để mã hoá vector : Kd = o Dùng phép toán mã hoá vector (ví dụ dùng phép ―cộng‖): =(2+6, 5+6, 9+6, 3+6, 7+6, 8+6) = (8,11,15,9,13,14) o Mã hoá khoá đối xứng khoá công khai site PA: CKd = Kd3 mod 33 = 63 mod 33 = 18 o Tính giá trị B = = 22+52+92+32+72+82 = 15.23 o Thêm khoá đối xứng mã hoá CKd giá trị B vào vector đƣợc mã hoá: - = (8,11,15,9,13,14,18,15.23) sau gửi lại site PA Bƣớc 3: site PA o Tách giá trị vector đƣợc gửi từ site PB 62 CKd = 18 B = 15.23 = (8,11,15,9,13,14) o Dùng khoá bí mật Kpr(33,7) giả mã lại khoá đối xứng CKd Kd = CKd7 mod 33 = 187 mod 33 = o Dùng khoá Kd giải mã lại cho vector = (8-6,11-6,15-6,9-6,13- 6,14-6) = (2, 5, 9, 3, 7, 8) có o Tiến hành tính toán thức = (1x2+6x5+3x9+5x3+9x7+6x8) = 185 o Tiến hành tính toán PA theo công thức: = (12+62+32+52+92+62) = 13.71 o Tiến hành tính toán độ tƣơng đồng Cosine: = = 0,885827 Phƣơng pháp cũ sử dụng hệ mã hoá bất đối xứng, thời gian tài nguyên sử dụng lớn, chƣa đáp ứng việc khai thác liệu lớn Theo thuật toán cải tiến, phƣơng pháp sử dụng mã hoá đối xứng nên thời gian giải mã nhanh phù hợp với xử lý liệu lớn thêm vào sau mã hoá thêm hai giá trị khoá đối xứng mã hoá giá trị B có chức làm nhiễu nên phƣơng pháp tăng cƣờng bảo mật riêng tƣ 3.5 Thực nghiệm Quá trình thực nghiệm so sánh thời gian xử lý tính toán độ tƣơng đồng Cosine dùng phƣơng pháp mã hoá RSA [5], phƣơng pháp tính toán hiệu bảo đảm bảo riêng tƣ dựa hàm Cosine [8] phƣơng pháp đề xuất đƣợc giới thiệu Máy tính đƣợc sử dụng với CPU i5-4200M @2.50GHz Ram 6.0Gb để đánh giá Ngôn ngữ sử dụng Python phiên 3.5 kiểu xuất liệu thực nghiệm 63 theo dạng Shell Dữ liệu mẫu dùng thực nghiệm vector, giá trị vector số nguyên dƣơng đƣợc phát sinh ngẫu nhiên Số phần tử vector n = {50, 100, 200}, lần chạy thực nghiệm tạo giá trị mặc định =(a1, , an) Mỗi lần thực nghiệm chạy 50 lần chạy ba lần vào thời điểm khác sau tính giá trị trung bình Một số hình ảnh giao diện chƣơng trình thực nghiệm 64 Khởi động chƣơng trình Python Hình 3-3 Giao diện shell Python 3.5 Click vào nút File  Open tiếp tục duyệt đến file code Sau mở file code chƣơng trình thực nghiệm đƣợc giao diện code nhƣ hình phía dƣới 65 21 11 Hình 3-4 Giao diện file code thuật toán  Thay đổi thông tin hàm check để lấy kết mong muốn Hàm check(200,50) có nghĩ thực nghiệm vector có 200 phần tử chạy 50 lần  Để chạy chƣơng trình vào menu Run  Run Module (hoặc nhấn phí F5) Sau chạy có hình bên dƣới 66 21 11 31 41 Hình 3-5 File shell lấy kết thực nghiệm  Lần chạy thứ 50  Kết giá trị Cosine thời gian chạy (tính theo giây) theo RSA  Kết giá trị Cosine thời gian chạy (tính theo giây) theo [8]  Kết giá trị Cosine thời gian chạy (tính theo giây) theo hƣớng cải tiến Dùng menu file  save as file CSV nhƣ hình dƣới 67 Hình 3-6 File liệu CSV kết thực nghiệm Vì lấy nhiều kết thực nghiệm nên cần lƣu file sang định dạng CSV nhƣ tiện cho việc tổng kết thống kê Tiếp theo mở file Excel tổng kết kết thực nghiệm 68 Hình 3-7 File chƣơng trình Excel tổng kết liệu Chọn vào nút Import CSV chƣơng trình excel chạy lấy giá trị vào sheet Result cho kết nhƣ hình Sau xử lý tất lần chạy tổng kết vào file phía dƣới để lấy kết thực nghiệm 69 Hình 3-8 File tổng kết kết lần thực nghiệm 70 Kết thu đƣợc nhƣ hình biểu đồ bên dƣới: 12 11 10 Second RSACOSINE EFFCOSINE NEWCOSINE Vector 50 Vector 100 Vector 200 2.8 2.6 2.4 2.2 1.8 1.6 Second 1.4 1.2 0.8 0.6 0.4 0.2 RSACOSINE EFFCOSINE NEWCOSINE Vector 50 Vector 100 Vector 200 Hình 3-9 Biểu đồ so sánh thời gian tính toán độ tƣơng đồng Cosine RSACOSINE: tính độ tƣơng đồng cosine phƣơng thức mã hoá RSA giải mã Số phần tử vector tăng thời gian xử lý tăng cao Nguyên nhân hàm số mũ đƣợc sử dụng mã hoá bất đối xứng EFFCOSINE: cách tính độ tƣơng đồng cosine hiệu bảo đảm tính riêng tƣ [8] Số phần tử vector tăng thời gian xử lý tăng, nhiên phƣơng pháp hiệu chia việc xử lý site Nhƣng sử dụng mã hoá bất đối xứng NEWCOSINE: cách tính độ tƣơng đồng cosine đƣợc đề xuất Do phƣơng pháp sử dụng mã hoá đối xứng nên thời gian xử lý nhanh phần tử vector tăng Vì thích hợp việc khai thác liệu lớn mà bảo đảm tính riêng tƣ liệu 71 Về phƣơng pháp đề xuất, đáp ứng đƣợc thời gian xử lý nhanh Việc dùng hệ mã hoá đối xứng thêm giá trị vào vector làm nhiễu nâng cao đƣợc tính bảo mật riêng tƣ Tuy nhiên chƣơng trình mức nghiên cứu nên chƣa áp dụng đƣợc vào thực tế Việc dùng thuật toán mã hoá đối xứng đơn giản nhiều làm giảm tính bảo mật riêng tƣ Về khả công, hệ mã hoá đối xứng đƣợc xem an toàn bị phá mã (điều kiện lý tƣởng) thời gian phá mã bất khả thi [5] Về khả phá mã vector đƣợc mã hoá theo phƣơng pháp cải tiến, vector sử dụng thực tế lên tới hàng chục, trăm hay triệu ngàn phần tử khoá đối xứng tƣơng đối lớn làm thời gian chạy thuật toán vét cạn Thêm vào đó, phƣơng pháp cải tiến luận văn có thêm hai phần tử vào vector, việc thêm làm nhiễu gây khó khăn việc tìm khoá đối xứng phƣơng pháp vét cạn Phƣơng pháp vét cạn việc công trƣờng hợp nhiều thời gian Vì vậy, khả phá mã nhƣng cần nhiều thời gian tài nguyên để xử lý Trong số trƣờng hợp, ví dụ nhƣ hệ thống truy hồi thông tin sử dụng máy tìm kiếm (search engines) vector văn thay đổi liên tục nên phép tính độ tƣơng đồng Cosine sử dụng với tần suất cao Vì ƣu tiên thời gian xử lí để tối ƣu, việc phá mã tìm thấy sau vector thay đổi giá trị Phƣơng pháp mà luận văn đề xuất đƣợc sử dụng trƣờng hợp có ƣu tiên thời gian nhƣ 72 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Sau thời gian nghiên cứu thực hiện, luận văn đạt đƣợc số kết sau: Tìm hiểu tổng quan liệu lớn đặc trƣng liệu lớn Qua có góc nhìn tổng quan hệ thống tập đoàn công ty sử dụng Bên cạnh nghiên cứu thách thức kỹ thuật khai thác với liệu lớn Nghiên cứu tổng quan phƣơng thức kỹ thuật bảo vệ tính riêng tƣ có Cụ thể giới thiệu phƣơng thức bảo đảm tính riêng tƣ liệu lớn dựa phƣơng thức tính toán Cosine tránh tiết lộ thông tin vector Xây dựng chƣơng trình demo phƣơng thức so sánh đánh giá hiệu đạt đƣợc Làm tiền đề cho việc xây dựng hệ thống khai thác liệu lớn Hƣớng đến việc khai thác liệu lớn cách hiệu bảo vệ tính riêng tƣ Mặt hạn chế Chƣơng trình demo xây dựng mức cho việc nghiên cứu, chƣa thể áp dụng vào thực tế Phƣơng thức mã hoá đối xứng vector mức mã hoá đối xứng (Caesar) Mức bảo mật thấp dễ dàng bị phá mã Tuy nhiên đặc điểm phát triển mở rộng liên tục liệu lớn làm cho thời gian cập nhật liệu diễn liên tục, lý việc sử dụng mã hoá đối xứng đáp ứng cho liệu lớn Do mức độ nghiên cứu nên chƣa có nguồn liệu lớn nguồn tài nguyên phần cứng đủ mạnh để đánh giá 73 Hƣớng phát triển Với mong muốn luận văn đƣợc hoàn thiện tốt có ứng dụng thực tế Học viên xin đƣa số kiến nghị: Thay đổi phƣơng thức mã hoá đối xứng cho vector tốt để áp dụng thực tế tăng tính bảo mật Chỉnh sửa xây dựng chƣơng trình demo thành module hoàn chỉnh để sử dụng trình khai thác liệu lớn Tối ƣu hoá code chƣơng trình để tăng tốc độ xử lý 74 DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hà Quang Thụy (2012) Seminar Một số tìm hiểu khai thác liệu bảo vệ tính riêng tư, Phòng Công nghệ tri thức, Khoa công nghệ thông tin, Đại học Công Nghệ, Đại học quốc gia Hà Nội [2] Lê Quỳnh Nga (2014) BIG DATA: Bức tranh toàn cảnh Khoa hệ thống thông tin kinh doanh, Đại Học Kinh Tế TPHCM, 03(1&2), trang 53–73 [3] Nguyễn Thị Lập (2013) Nghiên cứu số kỹ thuật bảo vệ tính riêng tư hệ thống dịch vụ dựa vị trí, Luận văn Thạc Sĩ, truyền liệu mạng máy tính, Học viên bƣu viễn thông [4] Nguyễn Tuấn Khanh (2012) Nghiên cứu bảo mật điện toán đám mây Luận văn Thạc Sĩ, , truyền liệu mạng máy tính, Học viên bƣu viễn thông [5] Trần Minh Văn (2008) Bài giảng An toàn bảo mật thông tin Khoa Công nghệ thông tin, Đại học Nha Trang Tiếng Anh [6] Mayer-Schönberger Viktor and Cukier Kenneth (2013) Big data: a revolution that will transform how we live, work, and think, Houghton Mifflin Harcourt, Boston [7] Reddy Pallapolu Srikanth, Padamutham Chakradhar, and Reddy Thupili Sai Prasas (1999) Implementing Paillier Cryptosystem for Composite Residuosity Class Problem EUROCRYPT'99, LNCS 1592, pp 223-238 [8] Lu Rongxing, Zhu Hui, Liu Ximeng, Liu Joseph K, and Shao Jun (2014) Toward efficient and privacy-preserving computing in big data era Network IEEE, 28(4), pp 46–50 [9] Singh Simon (2002) The code book how to make it, break it, hack it, crack it, Delacorte Press, New York 75 [10] Stallings William (2007) Data and computer communications, Pearson/Prentice Hall, Upper Saddle River, N.J [11] Xindong Wu, Xingquan Zhu, Gong-Qing Wu, and Wei Ding (2014) Data mining with big data IEEE Trans Knowl Data Eng, 26(1), pp 97–107 [...]...vi 2 .3. 3.5 Phng phỏp trao i khoỏ Diffie Hellman 49 CHNG 3 PHNG THC CI TIN TNH TON BO TON TNH RIấNG T TRấN D LIU LN 52 3. 1 Kin trỳc ca phõn tớch d liu ln 52 3. 2 Cỏc k thut bo v tớnh riờng t ph bin 53 3 .3 tng ng Cosine 55 3. 4 Phng thc xut tớnh toỏn tng ng Cosine bo m s riờng t 56 3. 5 Thc nghim 62 KT LUN... khai [5] .51 Hỡnh 3- 1 Kin trỳc tng quỏt ca phõn tớch d liu ln [8] 52 Hỡnh 3- 2 Phng phỏp tớnh tng ng Cosine ci tin 57 Hỡnh 3- 3 Giao din shell ca Python 3. 5 .64 Hỡnh 3- 4 Giao din file code cỏc thut toỏn 65 Hỡnh 3- 5 File shell ly kt qu thc nghim 66 Hỡnh 3- 6 File d liu CSV kt qu thc nghim 67 Hỡnh 3- 7 File chng trỡnh Excel tng kt d liu .68 Hỡnh 3- 8 File tng kt kt... dng trong mt mó hin i Da trờn nn tng ú, s tỡm hiu v mó húa i xng v mó húa bt i xng [5,9,10], chỳng úng vai trũ quan trng trong mt mó hin i 2 .3. 1 Mó hoỏ i xng cn bn õy l phng phỏp ch yu trong vic bo m tớnh bo mt (confidentiality) ca mt h truyn tin u tiờn s tỡm hiu phng phỏp mó húa Ceasar v sau ú l mụ hỡnh tng quỏt ca phng phỏp mó húa i xng cựng mt s tớnh cht liờn quan 2 .3. 1.1 Mó hoỏ Ceasar Th k th 3 trc... gii mó theo quy trỡnh ngc li cú c bn 20 rừ Vy nu i th ca Ceasar cú ly c bn mó, thỡ cng khụng hiu c ý ngha ca bn mó Chỳng ta hóy gỏn cho mi ch cỏi mt con s nguyờn t 0 n 25: A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Phng phỏp Ceasar c biu din nh sau: vi mi ch cỏi p thay bng ch mó húa C, trong ú: C = (p + k) mod 26 (trong ú... hon ton khỏc vi th trng Bc M v khuyn mói theo mựa, nhng sn phm bỏn chy nht v hnh vi khỏch hng c bit hn na, lut ca chớnh ph cng nh hng ti quy trỡnh qun lý bỏn hng ton b v thm chớ nh hng ti biu din d liu v kho d liu trong cỏc th trng 2.2.1 .3 Phc tp v bao hm cỏc mi quan h Khi dung lng d liu ln ngy cng gia tng, phc tp v cỏc mi quan h tim tng trong d liu cng gia tng Trong giai on u, vic tỡm ra c tớnh tt nht... nhy cm Trong cỏch tip cn u, khú khn thng gp phi l thit k chng thc bo mt hay c ch kim soỏt truy cp sao cho cỏ nhõn m cha xỏc thc s khụng c quyn truy cp d 13 liu Trong cỏch tip cn th hai, mc tiờu chớnh l lm cho d liu mang tớnh ngu nhiờn m bo mt s mc tiờu v tớnh riờng t ca d liu Vớ d nh trong phng phỏp ph bin nht k thut bo m riờng t k n danh (k-anonymity privacy measure) thỡ mc tiờu l mi cỏ th trong c... File tng kt kt qu cỏc ln thc nghim 69 Hỡnh 3- 9 Biu so sỏnh thi gian tớnh toỏn tng ng Cosine 70 1 CHNG 1 T VN Trong nhng nm gn õy, s bựng n cụng ngh trong cỏc lnh vc núi chung v trong lnh vc cụng ngh thụng tin núi riờng cú nhng bc phỏt trin vt bc Cỏc thit b cụng ngh thụng tin phỏt trin nhanh n chúng mt, c bit l thit b x lý v lu tr S phỏt trin theo cp s nhõn ca d liu ó dn n mt k nguyờn mi ca... thut xoỏ nh danh trong khai thỏc d liu ln So vi hai k thut trờn, k thut xoỏ nh danh cú th phõn tớch d liu v khai thỏc hiu qu linh hot hn [8] Tuy nhiờn trong mụi trng d liu ln vn cú mt k thut cú th nh danh li d liu (Re-indentification) Vỡ th kt qu l k thut xoỏ nh danh vn cha ỏp ng tt cho vic bo v riờng t ca d liu ln 1.2 Tỡnh hỡnh nghiờn cu trong nc Lun vn Thc s ca Nguyn Th Lp (20 13) [3] ó nghiờn cu mt... ca d liu ln ang tng lờn mnh m tng ngy Theo ti liu ca Intel vo thỏng 9/20 13, c mi 11 giõy 1 PB d liu c to ra trờn ton th gii, tng ng vi mt on video HD (High Definition Video: phim nh vi phõn gii cao) di 13 nm Facebook phi x lý khong 500 TB d liu mi ngy Li ớch thu c t vic x lý mt khi lng ln d liu chớnh l im thu hỳt ch yu ca d liu ln, tuy nhiờn cng t ra nhiu khú khn trong vic tỡm ra nhng phng phỏp, k thut... gian vột cn khoỏ theo kớch thc khoỏ [5] . 23 Bng 2-2 Bng lit kờ cỏc mc phỏ mó RSA [5] 44 ix DANH MC CC BIU , TH, S , HèNH NH Hỡnh 2-1 Framework x lý d liu ln[11] .9 Hỡnh 2-2 Mụ hỡnh mó hoỏ i xng [5] 22 Hỡnh 2 -3 Mụ hỡnh mó dũng [5] .27 Hỡnh 2-4 Mó hoỏ dũng A5/1 [5] 31 Hỡnh 2-5 Trao i khoỏ bớ mt dựng KDC [5] .37 Hỡnh 2-6 Mụ hỡnh bo mt vi mó hoỏ khoỏ cụng

Ngày đăng: 17/11/2016, 16:38

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan