ĐỒ ÁN TỐT NGHIỆP :KHAI PHÁ DỮ LIỆU WEBLOG SỬ DỤNG PHÂN CỤM KMEANS VÀ LUẬT KẾT HỢP. khai phá dữ liệu weblog python. Và nội dung đề tài được bố cục gồm 3 chương sau:Chương 1. Giới thiệu về khai phá dữ liệu web. Nội dung bao gồm: Phát hiện tri thức và khai phá dữ liệu; Giới thiệu về thuật toán Apriori và Kmeans.Chương 2. Weblog và khai phá dữ liệu weblog. Nội dung chính là trình bày về weblog là gì và có bao nhiêu loại weblog được sử dụng để thu thập thông tin người dùng, các loại định dạng của weblog.Chương 3 Thử nghiệm khai phá dữ liệu weblog đại học Vinh. Nội dung là Cài đặt các chương trình cần thiết và cách thức triển khai với weblog đại học Vinh.
TRƯỜNG ĐẠI HỌC VINH VIỆN KỸ THUẬT VÀ CÔNG NGHỆ PHAN ĐĂNG NHẬT KHAI PHÁ DỮ LIỆU WEBLOG SỬ DỤNG PHÂN CỤM K-MEANS VÀ LUẬT KẾT HỢP ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN Nghệ An – 2019 TRƯỜNG ĐẠI HỌC VINH VIỆN KỸ THUẬT VÀ CÔNG NGHỆ KHAI PHÁ DỮ LIỆU WEBLOG SỬ DỤNG PHÂN CỤM K-MEANS VÀ LUẬT KẾT HỢP LỜI CAM ĐOAN Tôi Phan Đăng Nhật cam kết đồ án tốt nghiệp cơng trình nghiên cứu thân tơi hướng dẫn TS Phan Anh Phong Các kết nêu đồ án tốt nghiệp trung thực, khơng phải chếp cơng trình khác Nghệ An, ngày 05 tháng năm 2019 Sinh viên Phan Đăng Nhật Mục Lục DANH MỤC HÌNH VẼ, ĐỒ THỊ LỜI MỞ ĐẦU Trong năm gần đây, với phát triển internet tác động lên đời sống văn hóa, kinh tế trị Lĩnh vực khai phá liệu Web quan tâm đầu tư nhiều nhà nghiên cứu Việc thu thập thói quen người dùng để từ tổ chức tìm kiếm thơng tin có lợi hiệu thương mại điện tử Việc thu thập thông tin liệu lớn việc phân tích q khó khăn làm việc cách thủ cơng để tìm khám phá hành vi người dùng truy cập website Chính vậy, việc khai phá tri thức từ weblog loại nhật kí web giúp ta phần tìm hiểu hành vi người dùng để từ sử dụng chúng thương mại điện tử tạo trang web thân thiện với người dùng Vậy nên tác giả chọn đề tài “Khai phá liệu Weblog sử dụng phân cụm K-Means luật kết hợp” để làm đồ án tốt nghiệp Và nội dung đề tài bố cục gồm chương sau: Chương Giới thiệu khai phá liệu web Nội dung bao gồm: Phát tri thức khai phá liệu; Giới thiệu thuật toán Apriori Kmeans Chương Weblog khai phá liệu weblog Nội dung trình bày weblog có loại weblog sử dụng để thu thập thông tin người dùng, loại định dạng weblog Chương Thử nghiệm khai phá liệu weblog đại học Vinh Nội dung Cài đặt chương trình cần thiết cách thức triển khai với weblog đại học Vinh LỜI CẢM ƠN Trong em thực đồ án tốt nghiệp với đề tài “Khai phá liệu Weblog sử dụng phân cụm K-Means luật kết hợp”, hướng dẫn tạo điều kiện thầy cô Viện Kỹ Thuật Cơng Nghệ để em hồn thành đồ án tốt nghiệp Đặc biệt, em xin gửi lời cảm ơn sâu sắc tới TS.Phan Anh Phong người trực tiếp hướng dẫn tận tình cho em hướng đi, kinh nghiệm trình làm đồ án tốt nghiệp Để em bước, bước hoàn thiện đồ án Đó kinh nghiệm q báu q trình hồn thành đồ án, sau tìm hiểu hay nghiên cứu lĩnh vực ngành cơng nghệ thơng tin Trong làm đồ án tốt nghiệp, kiến thức khả hạn chế nên khơng thể tránh khỏi sai sót Mong thầy bạn góp ý cho em để hoàn thiện Em xin chân thành cảm ơn! Sinh viên Phan Đăng Nhật Chương : Giới thiệu khai phá liệu web 1.1 Khai phá liệu khai phá tri thức 1.1.1 Khai phá liệu Khai phá liệu trình khám phá tri thức tri thức có ích dạng tiềm nguồn liệu có Khai phá liệu bước trình khám phá tri thức bao gồm thuật toán khai phá liệu chuyên dùng với số quy định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu 1.1.2 Quá trình khai phá tri thức - Làm liệu : loại bỏ liệu nhiễu không quán - Tích hợp liệu : kết hợp nhiều nguồn liệu - Lựa chọn liệu : liệu liên quan đến nhiệm vụ phân tích lấy từ sở liệu - Chuyển đổi liệu : trình chuyển đổi liệu thành dạng thích hợp theo u cầu quy trình khai thác - Khai phá liệu : áp dụng kĩ thuật thơng minh để trích xuất mẫu liệu - Đánh giá mẫu : mẫu liệu đánh giá - Biểu diễn tri thức : sử dụng công cụ trực quan để biểu diễn kết khai thác 1.1.3 Nhiệm vụ khai phá liệu : Những nhiệm vụ khai phá liệu là: - Phân cụm, phân loại, phân nhóm, phân lớp - Khai phá luật kết hợp - Lập mơ hình dự báo - Phân tích tiến hóa 1.1.4 Một số ứng dụng khai phá liệu : - Thương mại: Phân tích liệu bán hàng thi trường, phân tích đầu tư, định cho vay, phát gian lận - Thông tin sản xuất: Điều khiển lập kế hoạch, hệ thống quản lý, phân tích kết thử nghiệm - Thông tin khoa học: dự báo thời tiết, sở liệu sinh học: Ngân hàng gen, khoa học địa lý: dự báo động đất - Trong y tế, marketing, ngân hàng, viễn thơng, du lịch, internet… Hình 1.1 : Quy trình khai phá tri thức 1.2 Phân cụm K-means Phân cụm kỹ thuật quan trọng khai phá liệu Có nhiều định nghĩa khác kỹ thuật này, chất ta hiểu phân cụm qui trình tìm cách nhóm đối tượng cho vào cụm, cho đối tượng cụm tương tự đối tượng khác cụm khơng tương tự Mục đích phân cụm tìm chất bên nhóm liệu Khơng gian metric tập hợp có xác định “khoảng cách” cặp phần tử, với tính chất thơng thường khoảng cách hình học Ta có : - Tập X : đối tượng liệu sở liệu D không gian metric : Với cặp phần tử x, y thuộc X có xác định, theo quy tắc đó, số thực δ(x, y), gọi khoảng cách x y Quy tắc thoả mãn hệ tính chất sau: - δ(x, y) > x ≠ y ; - δ(x, y)=0 x =y; - δ(x, y) = δ(y, x) với x, y; (iv) δ(x, y) ≤ δ(x, z)+δ(z, y) Hàm δ(x, y) gọi metric không gian Các phần tử X gọi điểm không gian Sau chuẩn hoá, độ tương tự hai đối tượng liệu x, y xác định metric sau: - Khoảng cách Minskowski: nguyên dương , với q số - Khoảng cách Euclidean: , (trường hợp đặc biệt khoảng cách Minskowski trường hợp q=2) - Khoảng cách Manhattan: , (trường hợp đặc biệt khoảng cách Minskowski trường hợp q=1) - Khoảng cách cực đại : , trường hợp khoảng cách Minskowski trường hợp K-Means thuật toán quan trọng sử dụng phổ biến kỹ thuật phân cụm Tư tưởng thuật tốn K-Means tìm cách phân nhóm đối tượng (objects) cho vào K cụm (K số cụm xác đinh trước, K nguyên dương) cho tổng bình phương khoảng cách đối tượng đến tâm nhóm (centroid ) nhỏ Thuật tốn K-Means : - Mơ tả : Hình 2.2: Sơ đồ thuật tốn K-Means - Các bước thực : Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm đại diện tâm cụm Tính khoảng cách đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean) Nhóm đối tượng vào nhóm gần Xác định lại tâm cho nhóm Thực lại bước khơng có thay đổi nhóm đối tượng - Ví dụ minh họa : 10 ... viên Phan Đăng Nhật Chương : Giới thiệu khai phá liệu web 1.1 Khai phá liệu khai phá tri thức 1.1.1 Khai phá liệu Khai phá liệu trình khám phá tri thức tri thức có ích dạng tiềm nguồn liệu có Khai. .. thiệu khai phá liệu web Nội dung bao gồm: Phát tri thức khai phá liệu; Giới thiệu thuật toán Apriori Kmeans Chương Weblog khai phá liệu weblog Nội dung trình bày weblog có loại weblog sử dụng. .. vụ khai phá liệu : Những nhiệm vụ khai phá liệu là: - Phân cụm, phân loại, phân nhóm, phân lớp - Khai phá luật kết hợp - Lập mơ hình dự báo - Phân tích tiến hóa 1.1.4 Một số ứng dụng khai phá liệu