1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Bảo vệ tính riêng tư trong khai phá dữ liệu trên điện toán đám mây

42 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • 1.1.1 Ngӳ cҧnh bài toán (10)
  • 1.1.2 VҩQÿӅ cҫn giҧi quyӃt (10)
  • 2.1 Các công trình liên quan (15)
    • 2.2.1 Giӟi thiӋu mã hóa ElGamal (19)
    • 2.2.2 Khai phá dӳ liӋu (21)
    • 2.2.3 Giҧi thuұt Apriori (22)
    • 2.2.5 Tәng quan vӅ lý thuyӃt nhóm (24)
    • 2.2.6 Bài toán logarit rӡi rҥc (25)
    • 4.3.2 Giҧi thuұt (36)

Nội dung

Ngӳ cҧnh bài toán

Cùng vӟi sӵ phát triӇn mҥnh mӁ cӫa công nghӋ thông tin là nhu cҫu khai phá dӳ liӋu nhҵm mөFÿtFK phөc vө FKROƭQKYӵc kinh doanh Nhӳng doanh nghiӋp thiӃu tài nguyên vӅ bӝ nhӟ ÿӇ OѭXWUӳ thông tin, tài nguyên tính toán và thiӃu các chuyên gia vӅ OƭQKYӵc nghiên cӭu và phân tích dӳ liӋu

HiӋn nay mҥng Internet là mӝWP{LWUѭӡng mӣ, dӳ liӋXÿѭӧc chia sҿ qua Internet sӁ dүQÿӃn nhu cҫu thiӃt yӃXÿӇ bҧo vӋ dӳ liӋu, mӝt trong nhӳQJSKѭѫQJSKiSFKtQKOj mã hóa dӳ liӋu

Dӳ liӋu mã hóa sӁ làm cho quá trình khai phá gһp khó nhiӅXNKyNKăQOjPVDR ta có thӇ khai phá dӳ liӋu mã hóa mӝt cách chính xác mà vүn giӳ ÿѭӧc sӵ an toàn và toàn vҽn cӫa dӳ liӋu

%jLWRiQÿһt ra rҵng liӋu có tӗn tҥi giҧi pháp nào có thӇ giҧi quyӃt vҩQÿӅ Qj\ÿӇ phөc vө cho viӋc khai phá dӳ liӋu nhҵm mөFÿtFKiSGөng vào công viӋc kinh doanh hay không.

VҩQÿӅ cҫn giҧi quyӃt

7URQJÿӅ tài này chúng tôi sӁ tұp trung vào ngӳ cҧnh khai phá dӳ liӋXÿһc biӋt là các luұt kӃt hӧp ÿѭӧc khai phá khi sӱ dөng ÿLӋQWRiQÿiPPk\

Hình 1.1 - Mô hình khai phá dͷ li XWUrQÿL QWRiQÿiPPk\

Bài toán bao gӗm QJѭӡi dùng là cá nhân hoһc doanh nghiӋp có nhu cҫu khai phá dӳ liӋXQKѭQJOҥi không thӇ tiӃn hành vì thiӃu tài nguyên tính toán và các chuyên gia vӅ dӳ liӋXÿk\OjQKӳng khách hàng muӕn tұp trung vào công viӋc kinh doanh chính cӫa hӑ, không muӕn bӏ chi phӕLÿӇ VX\QJKƭYӅ nhӳng mҧQJNKiFQKѭNKRDKӑc vӅ dӳ liӋu chҷng hҥn

Mô hình cӫa bài toán sӁ bao gӗm nhiӅu Data Mining server có nhiӋm vө giҧi mã PjWDÿһWWrQOj66ô6QYjPӝt Database server chӭa dӳ liӋXÿmÿѭӧc mó húa và tiӃn hành khai phá dӳ liӋu

7Uѭӟc tiên QJѭӡi dùng sӁ mã hóa dӳ liӋu cӫa hӑ bao gӗm các giao dӏch bҵng giҧi thuұt Elgamal, VDXÿyGӳ liӋXÿѭӧc chuyӇn lên Database server

TiӃSWKHRQJѭӡi dùng sӁ phân phӕLNKyDULrQJWѭFӫa hӑ thành n phҫQÿyOj[ [ô[QVDXÿySKkQSKӕi chỳng lờn cỏc Data Mining VHUYHUWѭѫQJӭQJOj66ô

Trang 12 ĈӇ ÿҧm bҧo sӵ DQ WRjQ WURQJ TXi WUuQK ÿѭD NKyD [[[ô[Q lờn cỏc Data Mining VHUYHUQJѭӡi dùng sӁ mã hóa mӛi khóa bҵng cách sӱ dөng khóa công khai cӫa VHUYHUWѭѫQJӭng, vұy nên khi nhұQÿѭӧc kӃt quҧ mã hóa thì Data Mining server chӍ cҫn thӵc hiӋn thaRWiFÿѫQJLҧQÿyOjGQJNKyDULrQJWѭFӫDPuQKÿӇ giҧi mã và thu ÿѭӧc giá trӏ khóa xi Vұy nên mӛi Data Mining sӁ có mӝWNKyDULrQJWѭ[LPjQJѭӡi GQJÿmFKLDVҿ

Quá trình khai phá dӳ liӋu sӁ ÿѭӧc tiӃn hành nhӡ sӵ kӃt hӧp cӫa Database server và n Data Mining server

Khi vұn hành giҧi thuұt Plain Equality Text cho hai phҫn tӱ mã hóa cӫa m1, m2 là E(m1) = (A1, B1) và E(m2) = (A2, B2), ta sӁ chuyӇn các giá trӏ A1, A2 lên n Data Mining VHUYHU ÿӇ tính toán và kӃt quҧ WtQK WRiQ ÿѭӧc sӁ ÿѭӧc gӱi lҥi vӅ Database server

Database VHUYHUOjQѫLWәng hӧp kӃt quҧ Yj[iFÿӏnh xem liӋu rҵng m1 và m2 có phҧi là kӃt quҧ mã hóa cӫa mӝt phҫn tӱ EDQÿҫu hay không

Sau khi tiӃn hành khai phá dӳ liӋu bҵng cách áp dөng giҧi thuұt Apriori trên dӳ liӋXÿmÿѭӧc mã hóa, các luұt kӃt hӧp sӁ ÿmÿѭӧc mã hóa sӁ chuyӇn vӅ cho QJѭӡi dùng NhiӋm vө cӫa QJѭӡi dùng bây giӡ là giҧi mã nhӳng luұt kӃt hӧSÿyÿӇ [HPêQJKƭD thӵc sӵ cӫa chúng là gì và xem chúng có thӇ có ӭng dөng gì trong công viӋc kinh doanh cӫa hӑ

Mөc tiêu cӫDÿӅ tài là ÿӅ xuҩt giҧi pháp khai phá dӳ liӋXWUrQÿLӋQWRiQÿiPPk\ vӟi nhiӅu server nhҵm mөFÿtFK Ĉҧm bҧRWtQKULrQJWѭFKRGӳ liӋXÿѭӧc khai phá FyQJKƭDOjVDXNKLNKDLSKiWKu dӳ liӋXÿyFNJQJNK{QJDLFyWKӇ hiӇXÿѭӧFêQJKƭDFӫa nó ngoҥi trӯ QJѭӡi sӱ dөng, vұy nên dӳ liӋXÿѭӧFNKDLSKiFNJQJSKҧi là dӳ liӋXÿmÿѭӧc mã hóa

KhaLSKiÿѭӧc thông tin có ích ví dө QKѭOXұt các kӃt hӧp trong dӳ liӋXÿӇ QJѭӡi dùng có thӇ nhұn biӃWÿѭӧc nhӳng phҫn tӱ QjRFy[XKѭӟQJÿLFKXQJYӟi nhau, ràng buӝc lүn nhau có tҫn suҩt lӟQÿӇ tiӃn hành khai phá dӳ liӋu

Sӱ dөQJ FiF VHUYHU ÿӝc lұp vӟL QKDX ÿӇ tiӃn hành khai phá dӳ liӋu nhҵm mөc ÿtFKWăQJWӕc quá trình tính toán và bҧo vӋ WtQKULrQJWѭFӫa khóa bӣi vì các giá trӏ cӫa NKyDULrQJWѭVӁ ÿѭӧc phân bӕ lên các serverQrQNK{QJFyDLQJRjLQJѭӡi dùng có thӇ biӃWÿѭӧc giá trӏ thӵc sӵ cӫa tҩt cҧ các khóa

Sӱ dөng giҧi thuұt Elgamal và tӕLѭXJLҧi thuұt vӅ PmKyD(OJDPDOFNJQJQKѭWӕi ѭXKyDWURQJTXiWUuQKNKDLSKiGӳ liӋu nhҵm mөFÿtFK WăQJWӕc quá trình khai phá dӳ liӋu

TӕLѭXWURQJTXiWUuQKNKDLSKiGӳ liӋu trên tұp dӳ liӋXÿmÿѭӧc mã hóa nhҵPÿҥt ÿѭӧc các thông tin có ích sau khi khai phá dӳ liӋu

7ăQJWӕc sӱ dөng giҧi thuұt bҧo vӋ WtQKULrQJWѭWUrQSKҫn tӱ dӳ liӋu bҵng cách tӕLѭXKyDJLҧi thuұW(OJDPDOÿmÿѭӧc sӱ dөng 1JRjLUDFK~QJW{LFNJQJWӕLѭXWURQJ quá trình khai phá dӳ liӋu trên tұp dӳ liӋXÿmÿѭӧc mã hóa nhҵPÿҥWÿѭӧc hiӋu quҧ tӕt KѫQYӅ mһt thӡi gian

Chúng tôi có mӝt sӕ giӟi hҥn trong viӋc thӵc hiӋQÿӅ WjLQj\ÿyOj

ChӍ tiӃn hành khai phá dӳ liӋu trên dӳ liӋXÿmÿѭӧc mã hóa

Giӟi hҥn trong viӋc chӍ NKDLSKiÿӇ ÿҥt ÿѭӧc luұt kӃt hӧp trong quá trình khai phá dӳ liӋu

&KѭѫQJWUuQKNK{QJ che giҩu ÿѭӧc ÿӝ hӛ trӧ cӫa mӛi tұp các phҫn tӱ dӳ liӋu ÿm ÿѭӧc mã hóa, bӣLYuÿӝ hӛ trӧ cӫa các tұp phҫn tӱ dӳ liӋXÿmÿѭӧFPmKyDÿmÿѭӧc Database server biӃt

1.4 ĈyQJJySFӫDÿӅ tài ĈmÿӅ xuҩt mӝt giҧLSKiSÿӇ tiӃn hành khai phá dӳ liӋu trên dӳ liӋXÿѭӧc mã hóa ÿӇ ÿҧm bҧRWtQKULrQJWѭ trong khai phá luұt kӃt hӧSWUrQÿLӋQWRiQÿiPPk\

GiҧLSKiSÿѭӧFÿӅ xuҩWFyÿӝ hiӋu quҧ tӕWKѫQYӅ mһt thӡi gian so vӟi các giҧi thuұWÿmÿѭӧFÿӅ xuҩWWUѭӟFÿy

&KѭѫQJ,± Tәng quan: trình bày tәng quan vӅ khai phá luұt kӃt hӧp và sӵ cҫn thiӃWÿӇ bҧo vӋ WtQKULrQJWѭFKRQy

&KѭѫQJ,,± Các công trình liên quan và kiӃn thӭc nӅn tҧng: trình bày mӝt sӕ kiӃn thӭc nӅn tҧQJÿӇ QJѭӡLÿӑc có thӇ dӉ dàng tiӃp cұn nӝLGXQJFiFFKѭѫQJVDX&iF kiӃn thӭc này bao gӗm vӅ khái niӋm giҧi thuұt mã hóa Elgamal, khai phá dӳ liӋu Cuӕi cùng thì chúng tôi trình bày vӅ giҧi thuұt ASULRULÿѭӧc ӭng dөQJÿӇ khai phá dӳ liӋu trong luұQYăQQj\

&KѭѫQJ,,I ± Ĉһt vҩQÿӅ YjKѭӟng giҧi quyӃt: trình bày ví dө minh hӑa cho viӋc mà chúng tôi cҫn giҧi quyӃt Trong phҫn phân tích vҩQ ÿӅ chúng tôi sӁ nêu ra nhӳng hҥn chӃ trong các phѭѫQJSKiSWUѭӟFVDXÿyYӟi nhӳng giҧ thuyӃWÿѭDUDFK~QJ tôi sӁ ÿӅ xuҩt giҧLSKiSÿӅ nghӏ

&KѭѫQJ,9± HiӋn thӵc: trình bày framework chung cӫa quá trình bҧo vӋ tính

ULrQJ WѭFӫa khai phá luұt kӃt hӧSWUrQ ÿLӋQ WRiQÿiP Pk\ TiӃSÿӃn chúng tôi giӟi thiӋu nhӳng kӻ thuұt và công nghӋ mà mình áp dөQJWURQJÿӅ WjLQj\6DXÿyFK~QJW{L ÿѭDUDgiҧLSKiSÿӇ tӕLѭXKyDTXiWUuQKWtQKWRiQWURQJNKDLSKiGӳ liӋu

&KѭѫQJ9± Thӱ nghiӋm: sӁ WUuQKEj\SKѭѫQJSKiSYjNӃt quҧ thӱ nghiӋm cӫa chúng tôi

&KѭѫQJ9,- KӃt luұn và công viӋFWURQJWѭѫQJODL trình bày các vҩQÿӅ ÿm thӵc hiӋQÿѭӧFYjFKѭDWKӵc hiӋQÿѭӧc cӫDÿӅ WjLĈѭDUDKѭӟng phát triӇn và mӣ rӝng WURQJWѭѫQJODL

&+ѬѪ1* CÁC CÔNG TRÌNH LIÊN QUAN VÀ KIӂN THӬC

7URQJFK˱˯QJQj\FK~QJW{LVͅ trình bày ng̷n g͕n v͉ các công trình liên quan, gi̫i thu̵t mã hóa Elgamal Yjÿ̿c bi t là kͿ thu̵t khai phá dͷ li u Bên c̩QKÿyFK~QJW{LVͅ ÿ͉ c̵p v͉ các ki͇n thͱc c̯n thi͇Wÿ͋ ÿ͡c gi̫ TXDÿyFyWK͋ hi͋XU}K˯QYjWK͹c hi Qÿ˱ͫFÿ͉ tài này.

Các công trình liên quan

Giӟi thiӋu mã hóa ElGamal

Mã hóa ElGamal chӭa giҧi thuұt mã hóa và giҧi mã Quá trình sinh tҥo ra khóa: Vӟi security parameter (ÿӝ NKyÿӇ phá vӥ hӋ mã hóa) là k

Nhóm G vӟi sӕ nguyên tӕ q và phҫn tӱ sinh g

3ULYDWHNH\NKRiULrQJWѭ[QJүu nhiờn tӯ Zq * ^ôT- 1}

Public key (khóa công khai): y = g x

Vӟi mӛLWK{QJÿLӋSÿҫu vào m thuӝc tұp G và khóa công khai y Ta tiӃn hành lӵa chӑn sӕ ngүu nhiên r Z * q , sinh ra ciphertext:

Vӟi cyphertext(A%YjNKyDFiQKkQ[ÿѭӧFGQJÿӇ tҥRUDSODLQWH[WQKѭVDX m = D(C) = B/ A x Bӣi vì: B/ A x = myr/( g r ) x = m(g x ) r / ( g r ) x = m

Sӵ mó húa cӫDWK{QJÿLӋp EDQÿҫX5((P $ả%ả $ g r ' , B y r ' )

Tham sӕ an toàn: k G: group các sӕ nguyên tӕ có thӭ tӵ q và bӝ sinh g Mӛi server Si lӵa chӑn khóa bí mұt X i tӯ Z q * và tính toán:

Public key: y i = g x i cho tҩt cҧ server cùng biӃt

Private key: X i cho server S i biӃt

Gӑi y = y 1 y 2 ôôô y n = g x 1 g x 2 ô g x n là khúa cụng khai

Vӟi mӛLWK{QJÿLӋp m Khóa công khai y, ta lӵa chӑn: r ngүu nhiên tӯ Z * q

Vӟi mӛi ciphertext (A,B), mӛi server sinh ra kӃt quҧ A i = x i

3KѭѫQJSKiSNLӇm tra sӵ bҵng nhau cӫa hai plaintext dӵa trên kӃt quҧ mã hóa cӫa chúng mà không cҫn phҧi giҧi mã

C1 = (A1, B1) là kӃt quҧ mã hóa cho plaintext m1

C2 = (A2, B2) là kӃt quҧ mã hóa cho plaintext m2

Mӕi server S ilӵa chӑn giá trӏ ngүu nhiên r i tӯ Z q * và sinh ra:

B B'2 ôôB' n ) NӃu D(C) = 1 thì hai ciphertext biӇu diӉn cùng mӝt plaintext

Khai phá dӳ liӋu

Trong khoa hӑc máy tính, khai phá dӳ liӋXOjTXiWUuQKÿLVkXYjRGӳ liӋXÿӇ ÿL tìm nhӳng thӭ mà chúng WDFKѭDELӃt nhҵP[iFÿӏnh dӳ liӋXÿmFyҭn chӭa thông tin gì, và liӋu rҵQJWK{QJWLQÿyFytFKKD\NK{QJ

Vӟi sӵ phát triӇQQKѭFӫa nӅn công nghiӋp 4.0 hiӋn nay thì sӕ Oѭӧng các thiӃt bӏ ÿLӋn tӱ WK{QJ PLQK ÿѭӧc sӱ dөng rҩt nhiӅu trên thӃ giӟi chҷng hҥQ QKѭ ODSWRS smartphone, PC, tDEOHWÿӇ kӃt nӕi tìm kiӃm thông tin trên mҥng internet Ngoài ra sӵ xuҩt hiӋn cӫa thuұt ngӳ internet vҥn vұt (IOT) gӗm các thiӃt bӏ có thӇ giao tiӃp vӟi nhau qua mҥQJLQWHUQHWFKRSKpSWUDRÿәi và truyӅn tҧi dӳ liӋXÿmWҥo ra mӝWOѭӧng thông tin vô cùng lӟn Ngoài ra sӵ phát triӇn cӫa nhӳng mҥng xã hӝi vӟi hàng tӹ QJѭӡi GQJÿmWҥo ra mӝWOѭӧng data rҩt lӟQ'RÿyQKXFҫXÿӇ khai thác dӳ liӋu trên nhiӅu OƭQKYӵc chҷng hҥQQKѭPөFÿtFKWKѭѫQJPҥLDQQLQKÿѭӧc chú trӑng

Khai phá dӳ liӋu là mӝt tұp hӧp, mӝt hӋ thӕQJFiFSKѭѫQJSKiSWtQKWRiQNKiF nhau và các thuұt toán sӁ áp dөQJFKRFѫVӣ dӳ liӋu có quy mô lӟn và phӭc tҥp nhҵm loҥi bӓ nhӳng chi tiӃt ngүu nhiên và ngoҥi lӋÿӇ ÿLWuPQKӳng thông tin có giá trӏ trong bӝ dӳ liӋu

Khai phá dӳ liӋXÿѭӧc ӭng dөng WURQJSKkQWtFKFѫVӣ dӳ liӋu bán hàng, quҧng cáo, phân tích chiӃn dӏch bán hàng

Mӝt sӕ thuұt ngӳ phә biӃn trong khai phá dӳ liӋu có thӇ ÿӅ cұSÿӃQQKѭOjKҥng mөc (phҫn tӱ) là mӝt mһt hàng hay mӝt thuӝF WtQKQjR ÿyWURQJJLDRGӏch Tұp các hҥng mөFÿѭӧc mua trong mӝt phiờn giao dӏFKWOj, ^LLLLôLQ

Giao dӏch t chӭa X nӃu X là tұp con cӫa các phҫn tӱ trong giao dӏch t Ĉӝ phә biӃn cӫa các hҥng mөc X là tӹ lӋ giӳa sӕ các giao dӏch chӭa X trên tәng sӕ giao dӏFKWURQJFѫVӣ dӳ liӋu

Tұp các hҥng mөc phә biӃn S hay tұp phә biӃn là tұp các hҥng mөFFyÿӝ phә biӃn thӓDPmQÿӝ phә biӃn tӕi thiӇXGRQJѭӡi dùng cung cҩp.

Giҧi thuұt Apriori

Mӝt tính chҩt quan trӑng cӫa luұt kӃt hӧSÿѭӧc áp dөng là nӃu mӝt tұp con không là tұp phә biӃn thì tұp cha cӫDQyFNJQJNK{QJOjWұp phә biӃn

Hình 2.2 - Ví dͭ v͉ gi̫i thu̵t Apriori

Giҧi thuұt 3: Giҧi thuұt Apriori

1 Tìm tҩt cҧ các tұp phә biӃn 1 hҥng mөc (C1)

2 KiӇPWUDÿӝ phә biӃn cӫa các ӭng viên trên CSDL và loҥi các ӭng viên không phә biӃQWDÿѭӧc Li (i = 1, 2, 3, ôN

3 Dӯng giҧi thuұt khi không tҥRÿѭӧc tұp phә biӃn

4 Tҥo tұp các ӭQJYLrQFyNtFKWKѭӟc là k hҥng mөc tӯ tұp phә biӃn L có kích WKѭӟc k-1 hҥng mөc Quay lҥLEѭӟc 2

NӃu p là sӕ nguyên tӕ và a không chia hӃt cho p thì

Bͧi vỡ a khụng chia h͇t cho p DDôS-1)a khụng chia h͇t cho p

G͕LUUUô r p 1 l̯QO˱ͫt là ph̯QG˱Fͯa phộp chia a, 2a, 3a, ,(p-1)a vͣi p

DӉ thҩ\UUô r p 1 ÿ{LPӝt khỏc nhau (2)

TӭFOjLDŁMDPRGS ia ± ja chia h͇t cho p

Theo giҧ thiӃt thì a không chia hӃt cho p, vұy nên (i ± j ) sӁ cho hӃt cho p

Bӣi vì LMS-1 GRÿy,± j chia h͇WFKRSOjÿL͉u vô lý

Vұ\ÿ~QJXột DDDôS-DPRGS UUô r p 1 mod p

Tәng quan vӅ lý thuyӃt nhóm

Nhóm là tұp hӧp G và mӝt phép toán hai ngôi ז kӃt hӧp hai phҫn tӱ x và y bҩt kǤ ÿӇ tҥo ra mӝt phҫn tӱ khác, ký hiӋu x ז y hoһF[\ĈӇ trӣ thành mӝt nhóm phҧi thӓa mãn bӕn yêu cҫu gӑLOjWLrQÿӅ QKyPQKѭVDX

- Phҫn tӱ ÿѫQYӏ: Tӗn tҥi duy nhҩt mӝt phҫn tӱ ÿѫQYӏ e א G thӓa mãn e ז a = a זǡvዔi mዌi a א G

- Phҫn tӱ nghӏFKÿҧo: Vӟi mӛi א G, tӗn tҥi א G thӓa a ז b = b ז a = e vዔi e là phኹn tዞ nghዋ¯኷o cዚa nhóm

Ví dዙ: Tኼp hዘp các sዎ nguyên Z vዔi phép cዒng có phኹn tዞ ¯ዓዋ là 0

Nhúm con (Subgroup) là tኼp hዘp con cዚìủ኶o thành mዒt nhúm Khi H là nhóm con cዚa G ta ký hiዉu H G

Ví dዙ nhóm (Z,+) là mዒt nhóm con cዚa tኼp hዘp các sዎ chዀn, tuy nhiên tኼp hዘp các sዎ lዃ không ph኷i là nhóm con cዚa (Z,+) bዖi vì tዐng hai sዎ lዃ là mዒt sዎ chዀn

Mዒׯዛዘc gዌi là nhóm cyclic nዅu trong G tዏn t኶i phኹn tዞ sinh g sao cho:

Bài toán logarit rӡi rҥc

Cho sӕ nguyên tӕ p và phҫn tӱ sinh D cӫa tұp hӧp Zp

Sao cho: D a {Emod p Ĉk\OjEjLWRiQFyÿӝ phӭc tҥp cao và khó giҧi

&+ѬѪ1* PHÂN TÍCH VҨ1Ĉӄ 9ơ+ѬӞNG GIҦI QUYӂT

7URQJFK˱˯QJQj\FK~QJW{LVͅ phân tích v̭Qÿ͉ t̩i sao SK˱˯QJSKiSFNJ ÿ͋ khai phá dͷ li u trên ph̯n t͵ l̩i không mang l̩i hi u qu̫ cao T̩i sao ph̫i s͵ dͭQJ SK˱˯QJ SKiS Fͯa chúng tôi thì gi̫m chi phí so vͣL SK˱˯QJ SKiS FNJ Cu͙i cùng thì chúng tôi trình bày gi̫LSKiSÿ͉ ngh͓ cho v̭Qÿ͉ trên

Nhu cҫu vӅ viӋc khai phá dӳ liӋXÿmWUӣ nên phә biӃn Ví dө QKѭӣ mӝt chuӛi các cӱa hàng nhӓ hoһc siêu thӏ WKuNKiFKKjQJFy[XKѭӟng mua bánh mì sӁ kèm theo mua sӳa Vұy nӃu cӱa hàng phát hiӋn ra thói quen mua sҳm này hӑ sӁ ÿһt các sҧn phҭm là bánh mì và sӳa ӣ vӏ trí gҫn nhau ÿӇ khách hàng mua sҳm thuұn tiӋn ThӃ QKѭQJ ӣ nhӳng cӱa hàng này lҥi nhӓ, hӑ thiӃu tài nguyên tính toán và nghiӋp vө ÿӇ xӱ lý dӳ liӋu nhҵm tìm kiӃm nhӳng luұt kӃt hӧp Vұy nên hӑ phҧi thuê dӏch vө làm viӋc khai phá dӳ liӋu mà vүn bҧRÿҧPÿѭӧc tính bҧo mұt vӅ dӳ liӋu là quá giao dӏch mua hàng FNJQJQKѭWK{QJWLQNKiFKKjQJ

DRÿyEҧo vӋ WtQKULrQJWѭtrong quá trình khai phá dӳ liӋu là rҩt quan trӑng hiӋn nay Trong thӡLÿҥi vӟi sӵ phát triӇn cӫa dӏch vө ÿLӋQWRiQÿiPPk\FiFQKjVӱ dөng mã hóa dӳ liӋu cӫa hӑ VDXÿyÿѭDOrQFiFVHUYHUFӫa các nhà cung cҩp dӏch vө ÿLӋn WRiQÿiPPk\Quá trình khai phá dӳ liӋu sӁ ÿѭӧc tiӃn hành trên các server này ĈmWӗn tҥi SKѭѫQJSKiSÿӇ bҧo vӋ WtQKULrQJWѭFӫa dӳ liӋu trên phҫn tӱ [1], ý Wѭӣng chính cӫa công viӋc này là QJѭӡi ta tiӃn hành mã hóa dӳ liӋu ӣ SKtDQJѭӡi dùng VDXÿyÿѭDOrQFiFVHUYHU Các server sӁ tiӃn hành mining trên dӳ liӋXÿmÿѭӧc mã hóa này và kӃt quҧ trҧ vӅ FNJQJOjGӳ liӋXÿmÿѭӧc mã hóa

Tuy nhiên giҧi thuұt Elgamal hiӋn tҥLÿѭӧc sӱ dөng có sӵ hҥn chӃ là kӃt quҧ mã hóa sӁ là mӝt giá trӏ rҩt lӟQGRÿyOjPWӕQNK{QJJLDQOѭXWUӳ và cùng thӡi gian tính WRiQÿӇ xӱ lý dӳ liӋXÿmÿѭӧFPmKyDÿy

'RÿyFK~QJW{LVӁ tiӃn hành mã hóa theo cách làm tӕLѭXJLiWUӏ cӫa cӫa trình mã hóa, bҵng viӋc áp dөng tính chҩt cӫDSKpSWRiQÿӗQJGѭGRÿyWLӃt kiӋPÿѭӧc không gian và bӝ nhӟ ÿӇ xӱ lý trong quá trình tính toán

Bên cҥQKÿychúng tôi tiӃn hành tӕLѭXKyDF{QJYLӋF[iFÿӏnh liӋu rҵng hai kӃt quҧ mã hóa có phҧi là kӃt quҧ mã hóa cӫa mӝt phҫn tӱ EDQÿҫu hay khôngGRÿyVӁ WăQJWӕFÿӝ tính toán lên

3.2 Phân tích vҩQÿӅ và giҧLSKiSÿӅ nghӏ

&K~QJW{LÿѭDUDJiҧ thuyӃt là các server sӁ NK{QJWK{QJÿӗng vӟLQKDXÿӇ chia sҿ NKyDGRÿy NKyDULrQJWѭFӫDQJѭӡi dùng sӁ không bӏ ÿiQKFҳp Giҧi thuұWÿӇ xác ÿӏnh xem liӋu rҵng hai kӃt quҧ mã hóa có phҧi là cӫa mӝt phҫn tӱ EDQÿҫXWURQJFѫVӣ dӳ liӋu hay không sӁ ÿѭӧc tӕLѭXÿӇ giҧm chi phí tính toán mã vүn giӳ ÿѭӧc tính chính xác trong quá trình khai phá luұt kӃt hӧp

Giҧi thuұt 4: Improve Plain Equality Text Algorithm (iPET)

- Output: True if C1 and C2 are encrypted from one plain text

2: The result is sent back to Database server

4 if A = B, return True Otherwise return False

Giҧi thuұt trên nhҵm kiӇm tra các ciphertext là ÿѭӧc mã hóa tӯ mӝt plaintext mà không cҫn phҧi giҧi mã

3.3 Chӭng minh và thҧo luұn

&K~QJW{LÿѭDUDJiҧ thuyӃt sau ÿk\ là chính xác ĈӇ giҧi thuұt bҧo vӋ ÿѭӧc tính bҧo mұt dӳ liӋu, tҩt cҧ FiF '0 VHUYHU NK{QJ ÿѭӧF WK{QJ ÿӗQJ ÿӇ chia sҿ khóa vӟi nhau

Giҧ thiӃt: Cho mã hóa elgamal:

B = ( my r ) modp p là sӕ nguyên tӕ Fyÿӝ dài n bits

Ta thҩy ê B A * p 1 x º m od p ơ ẳ ê ô (my r mod p) *(g r mod )p p 1 x modp º ằ modp ơ ẳ ê ô (my r ) *(g r ) p 1 x º ằ mod p ơ ẳ ê ô (mg xr ) *g r ( p 1 x ) º ằ modp ơ ẳ ê ô (mg xr ) *g xr *g r p ( 1) º ằ modp ơ ẳ ê ô m*g r p ( 1) º ằ mod p ơ ẳ

Bӣi vì WKHRÿӏnh lý Fermat nhӓ: 1

Vұy m = ê ơ B A * p 1 x º ẳ m od p ĈLӅu phҧi chӭng minh)

Chúng tôi thӵc hiӋn công viӋc rút gӑn kӃt quҧ PmKyDÿѭӧc tҥo ra bҵng phép toán modulo cho sӕ nguyên tӕ p dүQÿӃn kӃt quҧ nhӓ, và chi phí tính toán ӣ FiFEѭӟc kӃ tiӃp sӁ nhӓ KѫQErQFҥQKÿó là viӋc tiӃt kiӋPNK{QJJLDQOѭXWUӳ

Giҧ thiӃt: Cho mã hóa elgamal:

B2 = r 2 mod p Đ my ã ă á ă á â ạ p là sӕ nguyên tӕ Fyÿӝ dài n bits

Ta sӁ tiӃn hành chӭng minh biӇu thӭc trên bҵQJSKѭѫQJSKiSELӃQÿәLWѭѫQJ ÿѭѫQJ

A ÿѭӧc tính ӣ các server chӭa lҫQOѭӧt các khóa là x x x x 1 , 2 , 3 , 4 x n

6X\UDÿLӅu phҧi chӭng minh

Bӣi vì kӃt quҧ cӫa hai phép chӭQJPLQKWUrQOjÿ~QJÿҳQGRÿyvà tӕi giҧQGRÿy dүQÿӃn hiӋu quҧ vӅ mһt thӡi gian và chi phí tính toán

Tuy nhiên giҧi pháp này lҥi không che giҩXÿѭӧFÿӝ hӛ trӧ trên dӳ liӋXÿmÿѭӧc mã hóa vӅ phía Database Server, bӣi vì sau khi thӵc hiӋn giҧi thuұWÿӗng nhҩt giá trӏ cӫa các phҫn tӱ PmKyDFyFQJSODLQWH[WEDQÿҫu, và tiӃn hành giҧi thuұt khai phá dӳ liӋu Apriori, các luұt kӃt hӧSÿѭӧc mã hóa sӁ ÿѭӧc database server biӃt rõ

7URQJFK˱˯QJQj\FK~QJW{LVͅ trình bày ng̷n g͕n v͉ mô hình và các công ngh mà chúng tôi s͵ dͭng Bên c̩QKÿyFK~QJW{LVͅ ÿ͉ c̵p v͉ các v̭Qÿ͉ v͉ gi̫i thu̵t th͹c hi Q SK˱˯QJ SKiS ti͇n hành khai phá dͷ li u trên dͷ li X ÿm ÿ˱ͫc mã KyDQK˱WK͇ nào

Hình 4.1 - Mô mình khai phá dͷ li XPjFK~QJW{LÿmWK͹c hi n

7URQJFKѭѫQJWUuQKKLӋn tҥLGQJÿӇ thӱ nghiӋm, hiӋn tҥi chúng tôi sӱ dөng hai Data Mining server và mӝt Database server, vӟi ngôn ngӳ lұp trình là C++

&KѭѫQg trình bao gӗm client OjQJѭӡi chӫ sӣ hӳu dӳ liӋu, có nhu cҫu khai phá dӳ liӋX QKѭQJ Oҥi không thӇ tiӃQ KjQK ÿѭӧc bӣi vì thiӃu tài nguyên tính toán và các chuyên gia vӅ dӳ liӋXÿk\OjQKӳng khách hàng muӕn tұp trung vào công viӋc kinh doanh cӫa hӑ, không muӕn bӏ chi phӕLÿӇ VX\QJKƭYӅ nhӳng mҧQJNKiFQKѭNKRDKӑc vӅ dӳ liӋu chҷng hҥn

TiӃSWKHRFKѭѫQJWUuQKVӁ bao gӗm nhiӅu server có nhiӋm vө khai phá dӳ liӋu mà WDÿһWWrQOj66ô6QYjPӝt datbase server chӭa dӳ liӋXÿmÿѭӧc mó húa

7Uѭӟc tiên Client sӁ mã hóa dӳ liӋu cӫa hӑ bao gӗm các transaction bҵng giҧi thuұW(OJDPDOVDXÿyGӳ liӋXÿѭӧc chuyӇn lên Database server

TiӃp theo Client sӁ phõn phӕLNKyDULrQJWѭFӫa hӑ thành n phҫQÿyOj[[ô [QVDXÿySKkQSKӕi chỳng lờn cỏc Datamining servHUWѭѫQJӭQJOj66ô6QĈӇ ÿҧm bҧo sӵ DQ WRjQ WURQJ TXi WUuQK ÿѭD NKyD OrQ VHUYHU WKuclient C sӁ mã hóa mӛi khóa bҵng cách sӱ dөng khóa công khai cӫDVHUYHUWѭѫQJӭng, vұy nên khi nhұQÿѭӧc kӃt quҧ mã hóa thì server chӍ cҫn thӵc hiӋQWKDRWiFÿѫQJLҧQÿyOjGQJNKyDULrQJWѭ cӫDPuQKÿӇ giҧi mã và lҩy giá trӏ xi

Quá trình khai phá dӳ liӋu sӁ ÿѭӧc tiӃn hành nhӡ sӵ kӃt hӧp cӫa Database server và n Datamining server

Khi vұn hành giҧi thuұt PET cho hai phҫn tӱ E(m1) = (A1, B1), E(m2) = (A2, B2) ta sӁ chuyӇn các giá trӏ A1, A2 lên n Datamining VHUYHUÿӇ tính toán và kӃt quҧ WtQKWRiQÿѭӧc sӁ ÿѭӧc gӱi lҥi vӅ Database server

Database VHUYHUOjQѫLWәng hӧp kӃt quҧ Yj[iFÿӏnh xem liӋu rҵng m1 và m2 có phҧi là kӃt quҧ mã hóa cӫa mӝt phҫn tӱ EDQÿҫu hay không

Sau khi tiӃn hành khai phá dӳ liӋu trên dӳ liӋXÿmÿѭӧc mã hóa xong, các luұt kӃt hӧp sӁ ÿmÿѭӧc mã hóa sӁ chuyӇn vӅ client, và nhiӋm vө cӫa client bây giӡ là giҧi mã nhӳng luұt kӃt hӧSÿyÿӇ [HPêQJKƭDWKӵc sӵ cӫa chúng là gì

6DXÿk\OjGDQKViFKQKӳng ngôn ngӳ lұSWUuQKYjFKѭѫQJWUuQKPjFK~QJW{Lÿm ӭng dөQJÿӇ KRjQWKjQKÿӅ tài cӫa mình x Lұp trình ngôn ngӳ C++ và kӃt hӧp sӱ dөQJWKѭviӋn GNU GMP ÿӇ tiӃn hành mã hóa Elgamal cho các giao dӏFKWURQJFѫVӣ dӳ liӋu x ViӃt MakHILOHÿӇ build ӭng dөng trên hӋ ÿLӅu hành Linux x Áp dөng kӻ thuұt lұp trình multi-threading, giao tiӃp giӳa các thread khi xӱ lý trong quá trình khai phá dӳ liӋu x LұSWUuQK&ÿӇ thӵc hiӋn giҧi thuұt khai phá dӳ liӋu trên dӳ liӋXÿmÿѭӧc mã hóa x Lұp trình CÿӇ thӵc hiӋn giҧi thuұt khai phá dӳ liӋu trên dӳ liӋXFKѭDÿѭӧc mã hóa x Lұp trình C++ ÿӇ thӵc hiӋn giҧi thuұt giҧi mã kӃt quҧ mining x Sӱ dөng phҫn mӅm Beyound compare ÿӇ so sánh kӃt quҧ mining bҵng giҧi thuұt cӫa chúng tôi và kӃt quҧ mining trên giao tác NK{QJÿѭӧc mã hóa

4.3 ThiӃt kӃ FKѭѫQJWUuQK và giҧi thuұt

Xây dӵng các lӟp trong lұSWUuQKKѭӟQJÿӕLWѭӧng nhҵm thӓa mãn yêu cҫu cӫa EjLWRiQÿѭDUD

7Uѭӟc hӃt ta xây dӵng mӝt lӟSÿӇ xӱ lý cho viӋc tiӅn xӱ lý dӳ liӋu tӯ file vào FKѭѫQJWUuQKOӟSQj\ÿѭӧFÿһt tên là InputReader có nhiӋm vө ÿӑc, phân tích cú pháp VDXÿy và chuyӇn cҩu trúc dӳ liӋu lên bӝ nhӟ tӯ file hoһc có thӇ mӣ rӝng tӯ hӋ quҧn trӏ FѫVӣ dӳ liӋu

Giҧi thuұt

Xây dӵng giҧi thuұt Elgamal bҵng ngôn ngӳ C++ vӟi viӋc ӭng dөQJ WKѭ YLӋn GNU MP Giҧi thuұt bao gӗm viӋc sinh ra sӕ nguyên tӕ ngүu nhiên p có n bits, sinh ra ngүu nhiên giá trӏ sinh g trong giҧi thuұW(OJDPDOOX{QOX{Qÿҧm bҧo rҵng giá trӏ cӫa g sӁ lӟQKѫQJLiWUӏ cӫDNKyDULrQJWѭ

Giҧi thuұt Apriori sӱ dөng ngôn ngӳ C++ Chúng tôi sӱ dөQJFiFWKѭYLӋn STL WURQJ&QKѭYHFWRUVHWÿӇ OѭXWUӳ YjWtQKWRiQÿӝ hӛ trӧ cӫa mӛi phҫn tӱ trong FѫVӣ dӳ liӋu giao dӏch

Giҧi thuұt kӃt hӧSÿӇ tҥo ra các tұp dӳ liӋu có n+1 phҫn tӱ tӯ tұp có n phҫn tӱ, và giҧi thuұt loҥi bӓ nhӳng tұp hӧp mà tұp con cӫa nó không thӓD PmQ ÿLӅu kiӋn là QJѭӥng hӛ trӧ tӕi thiӇu

7URQJ FK˱˯QJ Qj\ chúng tôi sͅ trình bày mͭF ÿtFK WKt QJKL P SK˱˯QJ pháp mà chúng tôi th͹c hi n thí nghi m và cu͙i cùng trình bày k͇t qu̫ mà chúng W{LWKXÿ˱ͫc

Chúng tôi sӁ chӭQJPLQKSKѭѫQJSKiS tӕLѭXKyDJLҧi thuұt PET sҿ giҧm chi phí tính toán và sӕ lҫn giao tiӃp giӳa các server khi tiӃn hành khai phá dӳ liӋu Ngoài ra FK~QJW{LFNJQJWLӃn hành so sánh kӃt quҧ cӫa viӋc mining dӳ liӋXFKѭDPmKyDYjGӳ liӋXÿmÿѭӧc hóa có kӃt quҧ giӕQJQKDXÿӇ ÿҧm bҧRÿӝ tin cұy cӫDFKѭѫQJWUuQK

Chúng tôi dӵa vào dӳ liӋu ÿѭӧc sӱ dөng trong [1] vӟi 3196 transaction và chiӅu dài trung bình cӫa mӛi transaction là 37, giҧi thuұt mã hóa tiӃn hành vӟi các sӕ có giá trӏ là 1024 bits ĈӇ tiӃn hành kiӇm thӱ ÿiQK JLi FKѭѫQJ WUuQK ӣ ÿk\ FK~QJ W{L WLӃn hành trên máy tính Core i7-7700, 8GB RAM

Chúng tôi xây dӵng mӝt Database server và hai Data Mining servers ÿӇ tiӃn hành khai phá dӳ liӋu, kӃt quҧ thí nghiӋPÿѭӧFÿӅ cұp ӣ bҧQJErQGѭӟi

MһWNKiFFK~QJW{LFNJQJtiӃn hành khai phá dӳ liӋu ӣ [4] mà không cҫn phҧi mã hóa nhҵP[iFÿӏnh kӃt quҧ cӫa quá trình khai phá dӳ liӋXGRFKѭѫQJWUuQKWҥo ra là chính xác

Cuӕi cùng thì chúng tôi so sánh thӡL JLDQÿm WKӵc hiӋQÿѭӧc và thӡi gian thӵc hiӋQWURQJ>@ÿӇ ÿѭDUDNӃt luұn vӅ sӵ tӕLѭXYӅ mһt thӡi gian

Sau khi sӱ dөQJFKѭѫQJWUuQKFӫDFK~QJW{LFiFFKѭѫQJWUuQKVӱ dөng kӻ thuұt ÿӇ tӕLѭXVӵ mã hóa và giҧi mã So sánh thӡi gian giӳa giҧi thuұWÿѭӧFÿӅ xuҩt ӣ [1] và giҧLSKiSÿѭӧFÿӅ xuҩt

Hình 5.1 - So sánh hi u sṷt giͷDSK˱˯QJSKiSÿ͉ xṷt so vͣi ph˱˯QJSKiSKL n t̩i

Nhìn vào biӇXÿӗ ta có thӇ thҩy rҵng hiӋu suҩWÿmÿѭӧc cҧi thiӋn mӝWFiFKÿiQJ kӇ, cө thӇ QKѭ vӟLQJѭӥng hӛ trӧ tӕi thiӇu là 2750, thӡi gian xӱ OêÿmJLҧm tӯ 80 phút xuӕng còn 69 phút

&+ѬѪ1* TӘNG KӂT VÀ CÔNG VIӊ&7521*7ѬѪ1*

Vӟi sӵ cӕ gҳng làm viӋc, FK~QJW{LÿmWӕLѭXKyDKLӋu suҩt làm viӋc cӫDFKѭѫQJ trình khai phá luұt kӃt hӧp trên dӳ liӋXÿmÿѭӧc mã hóa bҵng giҧi thuұt Elgamal

6.2 Công viӋFFKRWѭѫQJODL

Vӟi nhӳQJJuÿmOjPÿѭӧFYjFKѭDOjPÿѭӧc, chúng tôi sӁ nӛ lӵFKѫQnӳDÿӇ tҥo UDÿѭӧc sӵ bҧo mұt vӟi miӅn giá trӏ cӫa các sӕ lӟQKѫQQKҵPÿѭDUDQKӳQJÿiQK giá và cҧi tiӃn nhӳQJJuÿmWKӵc hiӋQWURQJÿӅ tài này

[1] Xun Yi, Fang-Yu Rao, Elisa Ber tino, Privacy-Preserving Association Rule 0LQLQJLQ&ORXG&RPSXWLQJ$6,$&&6ả$SULO±17, 2015, Singapore

[2] Hyeong-Jin Kim, Jae-Hwan Shin, Young-ho Song, Jae-Woo Chang, Privacy- Preserving Association Rule Mining Algorithm for Encrypted Data in Cloud Computing, July 8-13 2019, Milan , Italy, pages 487-489, 2019

[3] R Agrawal and R Srikant Fast algorithms for mining association rules in large GDWDEDVHV,Q9/'%ả3URFHHGLQJVRIWK,QWHUQDWLRQDO&RQIHUHQFHRQ9HU\/DUJH Data Bases, September 12-15, 1994, Santiago de Chile, Chile, pages 487±499, 1994

[4] B Schoenmakers and P Tuyls Practical two-party computation based on the conditional gate In Advances in Cryptology - ASIACRYPT 2004, 10th International Conference on the Theory and Application of Cryptology and Information Security, Jeju Island, Korea, December 5-9, 2004, Proceedings, pages 119±136, 2004.

PHҪN LÝ LӎCH TRÍCH NGANG

+ӑWrQKӑFYLrQ1*8

Ngày đăng: 03/08/2024, 13:53

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w