Vài nét v隠 kho ng英 li羽u PU:

Một phần của tài liệu thiết kế hệ thống, hệ thống quản lý (Trang 29)

Các nghiên c泳u v隠 phân lo衣ix<n b違n có nhi隠u thu壱n l嬰i vì có s印n các kho ng英 li羽u công c瓜ng 8吋 dùng chung, tuy nhiên s穎 d映ng nh英ng kho ng英 li羽u này vào vi羽c l丑c spam l衣i g員p ph違i r逸c r嘘i b荏i v医n 8隠 tính riêng t逢, cá nhân. Nh英ng email spam thì không có v医n 8隠 gì, tuy nhiên không th吋s穎 d映ng nh英ng email h嬰p l羽 mà không th吋 không vi ph衣m 8院n s詠 riêng t逢 c栄a ng逢運i g荏i và ng逢運i nh壱n c栄a nh英ng email này.

Chúng tôi s穎 d映ng kho ng英 li羽u PU 8吋 h丑c và ki吋m th穎7

PU là m瓜t kho ng英 li羽u email chu育n, g欝m có b嘘n kho ng英 li羽u nh臼 h挨n bao g欝m PU1, PU2, PU3 và PUA. M厩i m瓜t token s胤"8逢嬰c thay th院 t逢挨ng泳ng b茨ng m瓜t con s嘘 duy nh医t nh逢 minh h丑a trong hình 3-1.

Hình 3-1Email sau khi tách token và mã hoá (trong kho ng英 li羽u pu)

Hàm ánh x衣 t瑛 v<n b違n sang các con s嘘 không 8逢嬰c công b嘘, do 8ó vi羽c khôi ph映c l衣i v<n b違n ban 8亥u là c詠c k khó,"8i隠u này 8違m b違o 8逢嬰c tính bí m壱t, riêng t逢 c栄a ng逢運i g荏i và ng逢運i nh壱n. Nh英ng email gi嘘ng nhau c ng 8逢嬰c xem xét. Trong kho ng英 li羽u PU1 và PU2, nh英ng email gi嘘ng nhau và nh壱n trong cùng m瓜t ngày 8逢嬰c xóa th栄 công.Trong kho ng英 li羽u PU3 và PUA quá trình này 8逢嬰c th詠c hi羽n t詠"8瓜ng,荏 hai kho ng英 li羽u này, khái ni羽m khác nhau c栄a hai email 8逢嬰c xem xét nh逢 sau :hai email 8逢嬰c xem là khác nhau n院u chúng có ít nh医t 5 dòng khác nhau.T医t c違nh英ng email gi嘘ng nhau, b医t k吋 ngày nh壱n,"8隠u

7"A吋 l医y c挨 s荏 d英 li羽u PU, vào trang web Internet CONtent Filtering Group, http://www.iit.demokritos.gr/skel/i-

b鵜 xóa 8i, ch雨 gi英 l衣i m瓜t email mà thôi.E挨 ch院 này 8逢嬰c áp d映ng cho c違 email spam và email non-spam. Theo [18], trong quá trình t衣o kho ng英li羽u PU, m瓜t v医n 8隠 phát sinh 8ó là có m瓜t l逢嬰ng l噂n email là c栄a nh英ng ng逢運i g荏i th逢運ng xuyên liên l衣c v噂i ng逢運i t衣o kho ng英 li羽u - nh英ng email RC (Relative

Correspondence), nh英ng email này c ng 8逢嬰c lo衣i b臼.

Một phần của tài liệu thiết kế hệ thống, hệ thống quản lý (Trang 29)