Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
2,15 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - ISO 9001: 2008 ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN HẢI PHÒNG 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - ÁPDỤNGMỘTSỐTHUẬTTOÁNKHAIPHÁDỮLIỆUTRONGQUẢNLÝĐỊACHỈINTERNET ĐỒ ÁN TỐT NGHIỆP LIÊN THÔNG Ngành:Công nghệ thông tin HẢI PHÒNG- 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - ÁPDỤNGMỘTSỐTHUẬTTOÁNKHAIPHÁDỮLIỆUTRONGQUẢNLÝĐỊACHỈINTERNET ĐỒ ÁN TỐT NGHIỆP LIÊN THÔNG Ngành:Công nghệ thông tin Sinh viên thực hiện: Nguyễn Văn Tuyên Giáo viên hƣớng dẫn: Nguyễn Trịnh Đông Mã số sinh viên: 1513101002 HẢI PHÒNG- 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG Độc lập – Tự –Hạnh phúc -o0o - NHIỆM VỤ THIẾT KẾ TỐT NGHIỆP Sinh viên: Nguyễn Văn Tuyên Mã số: 1513101002 Lớp: CTL901 Ngành: Công Nghệ Thông tin Tên đề tài: ÁpdụngsốthuậttoánkhaipháliệuquảnlýđịaInternet NHIỆM VỤ ĐỀ TÀI Nội dung yêu cầu cần giải nhiệm vụ đề tài tốt nghiệp a Nội dung - Tìm hiểu phƣơng pháp phân cụm - Tìm hiểu số phƣơng pháp tạo luật giải thuật liên quan - Đề phƣơng pháp xâp dựng hệ thống - Thử nghiệm với công cụđể gải toán b Các yêu cầu cần giải Các sốliệu thống kê, tính toánĐịa điểm thực tập CÁN BỘ HƢỚNG DẪN ĐỀ TÀI TỐT NGHIỆP Ngƣời hƣớng dẫn thứ nhất: Họ tên: Nguyễn Trịnh Đông Học hàm, học vị: Thạc sĩ Cơ quan công tác: Trƣờng Đại Học Dân Lập Hải Phòng Nối dung hƣớng dẫn: Tìm hiểu phƣơng pháp phân cụm - Tìm hiểu số phƣơng pháp tạo luật giải thuật liên quan - Đề phƣơng pháp xâp dựng hệ thống - Thử nghiệm với công cụ để gải toán Ngƣời hƣớng dẫn thứ hai: Họ tên : Học hàm, học vị: Cơ quan công tác: Nội dung hƣớng dẫn: Đề tài tốt nghiệp đƣợc giao ngày 03 tháng 10 năm 2016 Yêu cầu hoàn thành trƣớc ngày 30 tháng 12 năm 2016 Đã nhận nhiệm vụ: Đ T T N Đã nhận nhiệm vụ: Đ T T N Sinh viên Cán hƣớng dẫn Đ T T N Hải Phòng,ngày tháng năm 2016 HIỆU TRƢỞNG GS TS NGƯT Trần Hữu Nghị PHẦN NHẬN XÉT TÓM TẮT CỦA CÁN BỘ HƢỚNG DẪN Tinh thần thái độ sinh viên trình làm đề tài tốt nghiệp: Đánh giá chất lƣợng đề tài tốt nghiệp (so với nội dung yêu cầu đề nhiệm vụ đề tài tốt nghiệp) Cho điểm cán hƣớng dẫn:(Điểm ghi số chữ) Ngày tháng năm 2016 Cán hƣớng dẫn ( Ký, ghi rõ họ tên) PHẦN NHẬN XÉT ĐÁNH GIÁ CỦA CÁN BỘ CHẤM PHẨN BIỆN ĐỀ TÀI TỐT NGHIỆP Đánh giá chất lƣợng đề tài tốt nghiệp (về mặt nhƣ sởlý luận, thuyết minh chƣơng trình, giá trị thực tế, ) 2.Cho điểm cán phản biện(điểm ghi số,chữ) Ngày tháng năm 2016 Cán chấm phản biện ( ký,ghi rõ họ tên) MỤC LỤC MỤC LỤC HÌNH ẢNH LỜI CẢM ƠN .8 GIỚI THIỆU .9 CHƢƠNG 1: GIỚI THIỆU CHUNG VỀ KHAIPHÁDỮLIỆU 11 Giới thiệu .11 1.1 Mở đầu 11 1.2 Khaipháliệu 11 1.3 Phạm vi khaipháliệu 11 1.4 Mục tiêu khaipháliệu 12 1.5 Các kỹ thuậtkhaipháliệu 12 1.6 Ứng dụngkhaipháliệu .12 1.7 Các khó khăn khaipháliệu 13 Chi tiết bƣớc khaiphá tri thức 13 2.1 Lựa chọn liệu (data selection) 14 2.2.Xóa bỏ liệu không cần thiết (cleaning) .14 2.3.Làm giàu liệu (enrichment) 14 2.4 Chuẩn hóa mã hóa (coding and normalzation) 14 2.5 Khám phá tri thức (datamining) 15 2.6 Báo cáo kết (reporting) 15 3.Chi tiết mã hóa biến đổi liệu 15 3.1 Phép biến đổi chuẩn hóa liệu 15 3.1.1 Phép chuẩn hóa liệu 15 3.2.Biến đổi liệu 15 3.2.1 Phân tích thành phần 16 3.2.2 SVD (Singular Value Decomposition) .16 3.2.3 Phép biến đổi Karhunen-Loéve 16 4 ĐịaInternet 16 4.1 Giới thiệu địaInternet .16 4.2 Cấu trúc địaInternet 17 4.3 Hệ thống tên miền (DNS) .20 4.4.Chức hệ thống tên miền 20 4.4 Tổ chức quảnlý IP Hệ thống tên miền .20 CHƢƠNG 2: CÁC THUẬTTOÁNTRONGKHAIPHÁDỮLIỆU .23 Giới thiệu phân cụm liệu 23 1.1 Định nghĩa phân cụm 23 1.2 Mục đích phân cụm 24 1.3 Những lĩnh vực ápdụng phân cụm 25 1.4 Các yêu cầu thuậttoán phân cụm .25 1.5 Các kiểu liệu phân cụm 26 1.5.1 Kiểu liệu dựa kích thƣớc miền .28 1.5.2 Kiểu liệu dựa hệ đo 28 1.5.3 Phép đo độ tƣơng tự khoảng cách kiểu liệu .30 1.5.4 Các phƣơng pháp tiếp cận toán phân cụm liệu .36 2.Thuật toán phân cụm liệu dựa vào phân hoạch 41 2.1 Thuậttoán K-Means .41 2.2 Thuậttoán K-Medoids(hoặc PAM) 46 2.3 Thuậttoán CLARA 47 2.4.Thuật toán CLARANS 48 CHƢƠNG 3: THỬ NGHIỆM HỆ THỐNG 51 Phần mềm quảnlýliệu .51 2.Các chức chƣơng trình 51 2.1 Thiết lập kết nối sởliệu 51 2.2 Giao diện ngƣời dùng .54 CLARANS không thích hợp với tập liệu lớn lấy phần nhỏcủa toàn tập liệu phần đƣợc chọn để đại diện toàn tập liệuvà thực sau CLARANS không bị giới hạn không gian tìm kiếm nhƣđối với CLARA, lƣợng thời gian chất lƣợng cáccụm phân đƣợc lớn CLARA Mộtsốkhái niệm sử dụngthuậttoán CLARANS đƣợc định nghĩanhƣ sau: Giả sử O tập có n đối tƣợng MO là tập đối tƣợng tâmmediod, NM = O- M tập đố tƣợng tâm Các đối tƣợng dữliệu sử dụngthuậttoán CLARANS khối đa diện Mỗi đối tƣợngđƣợc diễn tả tập cạnh, cạnh đƣợc xác định hai điểm Giả sử PR 3 tập tất điểm Nói chung, đối tƣợng làcác đối tƣợng liệu không gian định nghĩa tâm đốitƣợng trung bình cộng toán học tất đỉnh hay gọi làtrọng tâm: center O P: Giả sử dist hàm khoảng cách, khoảng cách thƣờng đƣợc chọn ởđây khoảng cách Eucliean: dist PxP R+0hàm khoảng cách dist mở rộng cho điểm khối đa diệnthông qua hàm tâm: dist OxO R+0sao chodisdt(oI,oj)=dist(center(oi),center(oj)) Mỗi đối tƣợng đƣợc gán cho tâm medoid cụm khoảngcách từ trọng tâm đối tƣợng tới tâm medoid nhỏ Vì vậy,định nghĩa tâm medoid nhƣ sau: medoid: OM chomedoid(o)=mi,mj€M,Vmi€M:dis(o,mi)