Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)
B GIÁO D TR O I H C DÂN L P H I PHÒNG -o0o - ISO 9001: 2008 ÁN T T NGHI P NGÀNH CƠNG NGH THƠNG TIN H I PHỊNG 2016 B GIÁO D T O I H C DÂN L P H I PHÒNG -o0o - ÁP D NG M T S THU T TOÁN KHAI PHÁ D LI U TRONG QU A CH INTERNET ÁN T T NGHI P LIÊN THƠNG Ngành:Cơng ngh thơng tin H I PHÒNG- 2016 B GIÁO D O I H C DÂN L P H I PHÒNG -o0o - ÁP D NG M T S THU T TOÁN KHAI PHÁ D LI U TRONG QU A CH INTERNET ÁN T T NGHI P LIÊN THƠNG Ngành:Cơng ngh thông tin Sinh viên th c hi n: ng d n: Mã s sinh viên: Nguy Nguy n Tr nh 1513101002 H I PHÒNG- 2016 -o0o - NHI M V THI T K T T NGHI P Sinh viên: Nguy Mã s : 1513101002 L p: CTL901 Ngành: Công Ngh Thông tin tài: Áp d ng m t s thu t toán khai phá d li u qu a ch Internet NHI M V TÀI N i dung yêu c u c n gi i quy t nhi m v tài t t nghi p a N i dung - Tìm hi m - Tìm hi u m t s - o lu ng h th ng - Th nghi m v i công c b Các yêu c u c n gi i quy t Các s li u th ng kê, tính tốn n gi i thu t liên quan m th c t p g i quy t toán NG D CÁN B TÀI T T NGHI P ng d n th nh t: H tên: Nguy n Tr ông H c hàm, h c v : Th :T N ng i H c Dân L p H i Phòng ng d n: Tìm hi m - Tìm hi u m t s o lu - n gi i thu t liên quan ng h th ng - Th nghi m v i công c g i quy t toán ng d n th hai: H tên : H c hàm, h c v : : N ng d n: tài t t nghi Yêu c c ngày 30 n nhi m v : T T N n nhi m v : T T N Sinh viên Cán b H i Phòng,ngày tháng n HI U GS TS NG n H u Ngh ng d T T N PH N NH N XÉT TÓM T T C A CÁN B Tinh th c NG D N tài t t nghi p: nhi m v ng c tài t t nghi p (so v i n i dung yêu c tài t t nghi p) m c a cán b ng d n:( i m ghi b ng s ch ) Ngày tháng n Cán b 2016 ng d n ( Ký, ghi rõ h tên) PH N NH TÀI T T NGHI P A CÁN B CH M PH N BI .) m c a cán b ph n bi n( m ghi b ng s ,ch ) Ngày tháng n Cán b ch m ph n bi n ( ký,ghi rõ h tên) M CL C M C L C HÌNH NH L IC .8 GI I THI U .9 I THI U CHUNG V KHAI PHÁ D LI U 11 Gi i thi u .11 1.1 M u 11 1.2 Khai phá d li u 11 1.3 Ph m vi c a khai phá d li u 11 1.4 M c tiêu c a khai phá d li u .12 1.5 Các k thu t khai phá d li u 12 1.6 ng d ng c a khai phá d li u .12 li u 13 Chi ti c khai phá tri th c 13 2.1 L a ch n d li u (data selection) 14 2.2.Xóa b d li u khơng c n thi t (cleaning) .14 2.3.Làm giàu d li u (enrichment) 14 2.4 Chu n hóa mã hóa (coding and normalzation) 14 2.5 Khám phá tri th c (datamining) 15 2.6 Báo cáo k t qu (reporting) 15 3.Chi ti t mã hóa bi 3.1 Phép bi i d li u 15 i chu n hóa d li u 15 3.1.1 Phép chu n hóa d li u 15 3.2.Bi n i d li u 15 3.2.1 Phân tích thành ph n 16 3.2.2 SVD (Singular Value Decomposition) 16 3.2.3 Phép bi i Karhunen-Loéve 16 a ch Internet 16 4.1 Gi i thi a ch Internet .16 4.2 C u trúc c a ch Internet 17 4.3 H th ng tên mi n (DNS) .20 4.4.Ch h th ng tên mi n 20 4.4 T ch c qu n lý IP H th ng tên mi n .20 T TOÁN TRONG KHAI PHÁ D LI U .23 Gi i thi u phân c m d li u 23 m 23 1.2 M a phân c m 24 1.3 Nh c áp d ng phân c m .25 1.4 Các yêu c u v thu t toán phân c m .25 1.5 Các ki u d li u phân c m 26 1.5.1 Ki u d li u d c mi n 28 5.2 Ki u d li u d a h 1.5.3 28 kho i v i ki u d li u .30 p c n c a toán phân c m d li u .36 2.Thu t toán phân c m d li u d a vào phân ho ch .41 2.1 Thu t toán K-Means .41 2.2 Thu t toán K-Medoids(ho c PAM) 46 2.3 Thu t toán CLARA .47 2.4.Thu t toán CLARANS 48 NGHI M H TH NG 51 Ph n m m qu n lý d li u 51 2.Các ch 2.1 Thi t l p k t n 2.2 Giao di 51 d li u 51 i dùng .54 CLARANS khơng thích h p v i t p d li u l n b i l y ph n nh c a toàn b t p d li u ph c ch i di n toàn b t p d li uvà th c hi CLARANS khơng b gi i h n khơng gian tìm ki i v i CLARA, m ng th i gian ch ng c a cácc c l M t s khái ni m s d ng thu Gi s O m t t O- M t ng MO t ng không ph i tâm CLARANS kh c m Gi s PR ng ng tâmmediod, NM = ng d li u s d ng thu t toán n M nh b m : c di n t b ng m t t p c nh, m i m t t p t t c ng d li a ng trung bình c ng toán h c c a t t c tâm: center O nh hay g i làtr ng P: Gi s dist m t hàm kho ng cách, kho cách Eucliean: dist PxP kh m Nói chung, c ch n kho ng + R 0hàm kho ng cách dist có th m r mc a nthơng qua hàm tâm: dist OxO M c a R+0sao chodisdt(oI,oj)=dist(center(oi),center(oj)) c gán cho m t tâm medoid c a c m n u kho ngcách t tr ng tâm i tâm medoid c a nh nh t Vì v sau: medoid: O M chomedoid(o)=mi,mj t i :dis(o,mi)