1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát triển giải pháp thu thập và phân tích LOG truy cập website sử dụng học không giám sát (Luận văn thạc sĩ)

64 170 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 1,97 MB

Nội dung

Phát triển giải pháp thu thập và phân tích LOG truy cập website sử dụng học không giám sát (Luận văn thạc sĩ)Phát triển giải pháp thu thập và phân tích LOG truy cập website sử dụng học không giám sát (Luận văn thạc sĩ)Phát triển giải pháp thu thập và phân tích LOG truy cập website sử dụng học không giám sát (Luận văn thạc sĩ)Phát triển giải pháp thu thập và phân tích LOG truy cập website sử dụng học không giám sát (Luận văn thạc sĩ)Phát triển giải pháp thu thập và phân tích LOG truy cập website sử dụng học không giám sát (Luận văn thạc sĩ)Phát triển giải pháp thu thập và phân tích LOG truy cập website sử dụng học không giám sát (Luận văn thạc sĩ)Phát triển giải pháp thu thập và phân tích LOG truy cập website sử dụng học không giám sát (Luận văn thạc sĩ)Phát triển giải pháp thu thập và phân tích LOG truy cập website sử dụng học không giám sát (Luận văn thạc sĩ)Phát triển giải pháp thu thập và phân tích LOG truy cập website sử dụng học không giám sát (Luận văn thạc sĩ)Phát triển giải pháp thu thập và phân tích LOG truy cập website sử dụng học không giám sát (Luận văn thạc sĩ)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Nguyễn Văn Tiến PHÁT TRIỂN GIẢI PHÁP THU THẬP VÀ PHÂN TÍCH LOG TRUY CẬP WEBSITE SỬ DỤNG HỌC KHÔNG GIÁM SÁT LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2020 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Nguyễn Văn Tiến PHÁT TRIỂN GIẢI PHÁP THU THẬP VÀ PHÂN TÍCH LOG TRUY CẬP WEBSITE SỬ DỤNG HỌC KHƠNG GIÁM SÁT Chun ngành: Hệ thống thơng tin Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC GS TS TỪ MINH PHƯƠNG HÀ NỘI - 2020 i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng tơi, kết đạt luận văn sản phẩm riêng cá nhân, khơng chép lại người khác Trong tồn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Tác giả luận văn Nguyễn Văn Tiến ii LỜI CẢM ƠN Em xin gửi lời cảm ơn tới thầy hướng dẫn GS TS Từ Minh Phương, thầy tận tình hướng dẫn khoa học giúp đỡ, chỉnh sửa bảo em suốt trình nghiên cứu hoàn thành luận văn Em xin chân thành cảm ơn thầy cô Học viện Công nghệ Bưu Viễn thơng, đặc biệt thầy khoa Cơng nghệ thơng tin, tận tình dạy dỗ, giúp đỡ tạo điều kiện tốt cho em suốt quãng thời gian em theo học học viện, để em hồn thành luận văn Mặc dù cố gắng hoàn thành luận văn chắn khơng tránh khỏi sai sót, em kính mong nhận thơng cảm góp ý thầy cô bạn Luận văn hỗ trợ Bộ Khoa học Công nghệ, thông qua đề tài mã số KC.01.23/16-20 Em xin trân trọng cảm ơn iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH vii MỞ ĐẦU CHƯƠNG - TỔNG QUAN VỀ LOG TRUY CẬP WEBSITE 1.1 Bài toán thu thập phân tích log truy cập website 1.2 Các phương pháp thu thập log 1.2.1 Phương pháp thu thập log phía máy chủ 1.2.2 Phương pháp thu thập log phía máy khách .7 1.2.3 Phương pháp thu thập log qua proxy 14 1.3 Phương pháp phân tích log .16 1.3.1 Giới thiệu học không giám sát 16 1.3.2 Một số kỹ thuật phân cụm liệu 17 1.4 Kết luận chương 21 CHƯƠNG - PHƯƠNG PHÁP THU THẬP VÀ PHÂN TÍCH LOG TRUY CẬP WEBSITE 22 2.1 Xây dựng công cụ thu thập log 22 2.2 Xây dựng đồ thị tương tự 25 2.2.1 Loại bỏ ghi dư thừa 27 2.2.2 Xác định chuyên mục, chủ đề 28 2.2.3 Xác định độ tương tự người dùng 30 2.3 Phân cụm người dùng .36 2.4 Xác định ý nghĩa cụm người dùng 36 2.5 Kết luận chương 39 CHƯƠNG - THỰC NGHIỆM VÀ KẾT QUẢ 40 3.1 Cài đặt công cụ thu thập log truy cập website 40 3.1.1 Yêu cầu hệ thống 40 3.1.2 Cài đặt hệ thống 40 3.2 Phân tích log truy cập website 43 3.2.1 Tập liệu thực nghiệm .43 3.2.2 Xác dịnh số cụm liệu .46 iv 3.2.3 Kết thực nghiệm 47 3.2.4 Xây dựng giao diện cơng cụ phân tích log truy cập .52 3.3 Kết luận chương 53 KẾT LUẬN VÀ KIẾN NGHỊ 54 DANH MỤC TÀI LIỆU THAM KHẢO .55 v DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt AI Artificial Intelligence Trí tuệ nhân tạo Application Programming Interface Common Gateway Interface Giao diện lập trình ứng dụng Giao diện cổng chung CRM Customer relationship management Quản lý quan hệ khách hàng CSDL Cơ sở liệu Cơ sở liệu HTTP Hypertext Transfer Protocol HTML Hypertext Markup Language ISP Internet Service Provider IP Internet Protocol PII Personally Identifiable Information URI Uniform Resource Identifier API CGI Giao thức truyền tải siêu văn Ngôn ngữ đánh dấu siêu văn Nhà cung cấp dịch vụ Internet Địa IP Thông tin nhận dạng cá nhân Mã định danh tài nguyên thống vi DANH MỤC CÁC BẢNG Bảng 1.1: Ưu, nhược điểm giải pháp thu thập log .15 Bảng 2.1: Loại bỏ liệu dư thừa 27 Bảng 2.2: Xác định chủ đề với LDA 29 Bảng 2.3: Đánh số thứ tự cho người dùng truy cập 30 Bảng 2.4: Đánh số thứ tự cho đường dẫn trang web .31 Bảng 2.5: Ánh xạ trang web chuyên mục, chủ đề 32 Bảng 3.1: Tập liệu hành vi duyệt web từ website PTIT Portal 45 Bảng 3.2: Kết phân cụm cấp đồ thị theo chuyên mục .48 Bảng 3.3: Kết phân cụm cấp đồ thị theo chuyên mục .48 Bảng 3.4: Kết phân cụm cấp đồ thị theo chủ đề 49 Bảng 3.5: Kết phân cụm cấp đồ thị theo chủ đề 49 Bảng 3.6: Kết phân cụm đồ thị theo trang web 51 vii DANH MỤC CÁC HÌNH Hình 1.1: Dữ liệu log thu thập máy chủ Hình 1.2: Mơ hình thu thập log phía máy chủ Hình 1.3: Mơ hình thu thập log phía máy khách Hình 1.4: Mơ hình hoạt động Google Analytics Hình 1.5: Giao diện cơng cụ Google Analytics 10 Hình 1.6: Thống kê theo vị trí địa lý người dùng Google Analytics 11 Hình 1.7: Cơng cụ thu thập log Countly 12 Hình 1.8: Thống kê theo vị trí địa lý người dùng Countly 13 Hình 1.9: Mơ hình thu thập log qua proxy 15 Hình 1.10: Một số dạng khám phá phân cụm dựa mật độ 20 Hình 1.11: Các chiến lược phân cụm phân cấp .21 Hình 2.1: Sơ đồ mơ tả hoạt động hệ thống thu thập log 23 Hình 2.2: Log truy cập thu thập Countly 24 Hình 2.3: Hình minh họa phân cụm người dùng 26 Hình 2.4: Đồ thị vơ hướng thể độ tương tự người dùng .26 Hình 2.5: Trang web xác định chuyên mục trước .28 Hình 2.6: Ví dụ đồ thị trung gian 31 Hình 2.7: Ví dụ đồ thị tương tự người dùng 35 Hình 3.1: Thơng tin chi tiết ứng dụng cần thu thập log 42 Hình 3.2: Mã nhúng tích hợp dành cho website cần thu thập 42 Hình 3.3: Giao diện thống kê truy cập khoảng thời gian 43 Hình 3.4: Chi tiết liệu thu thập từ người dùng .44 Hình 3.5: Kết phân loại người dùng theo chuyên mục 47 Hình 3.6: Giao diện cơng cụ phân tích log truy cập website 52 MỞ ĐẦU Hiện nay, số lượng website toàn cầu lớn, lên tới 1,24 tỉ website (tính đến năm 2018), số lượng website phát triển thêm hàng nghìn ngày Dữ liệu truy cập trang web với số lượng người dùng khổng lồ chứa nhiều thông tin Các máy chủ lưu trữ website có giải pháp ghi log truy cập website Log truy cập website bảng ghi nhật ký truy cập từ tất người dùng tương tác với website Thông thường, việc ghi nhật ký website phía máy chủ nhằm mục đích phân tích, đánh giá lưu lượng truy cập website để kiểm soát hiệu hệ thống, chống xâm nhập bất thường phục vụ bảo mật máy chủ web Trong thực tế, với kỹ thuật tiên tiến nay, log truy cập website ứng dụng nhiều hơn, kỹ thuật xử lý phân tích log tối ưu nhằm phục vụ cho công việc nâng cao trải nghiệm người dùng Thay ghi lại nhật ký hoạt động máy chủ, công việc lại ghi hành vi người dùng, sở hành vi này, cơng cụ phân tích khám phá thói quen, sở thích người dùng phát điểm mạnh, điểm yếu nội dung, định dạng trang web Từ khám phá đưa đề xuất thay đổi website để cải thiện trải nghiệm cho người dùng website Luận văn tập trung vào việc phát triển giải pháp thu thập phân tích log truy cập website để nâng cao trải nghiệm người dùng Cụ thể, luận văn tập trung vào hai vấn đề chính: 1) nghiên cứu phát triển giải pháp ghi lại tương tác người dùng với nội dung website mở trang, click vào đường link trang, click vào nút trang web v.v ; 2) xác định nhóm người dùng có nhu cầu thơng tin tương tự dựa log tương tác ghi lại nội dung Thông tin nhóm người dùng hiển thị trực quan sử dụng để phân tích đối tượng sử dụng website, từ cải thiện cấu trúc nội dung website Hai vấn đề nghiên cứu luận văn hai tốn riêng phân tích liệu Web (Web data mining) nói chung Một vấn đề đặt với kỹ thuật xây dựng hệ thống website phân tán, máy chủ website đặt nhiều nơi khác nhau, việc ghi log phía máy chủ gặp nhiều vấn đề khó khăn việc tổng hợp để xử lý phân tích liệu Ngồi ngày với 41 # wget https://nodejs.org/dist/v8.9.3/node-v8.9.3-linux-x64.tar.xz – Giải nén nội dung bên vào /usr/local # tar strip-components -xJvf node-v8.9.3-linux-x64.tar.xz -C /usr/local – Kiểm tra lại phiên NodeJS # node version v8.9.3 Cài đặt MongoDB – Import “MongoDB public GPG Key” sử dụng command apt-key # sudo apt-key adv keyserver hkp://keyserver.ubuntu.com:80 recv 9DA31620334BD75D9DCB49F368818C72E52529D4 # echo "deb [ arch=amd64,arm64 ] https://repo.mongodb.org/apt/ubuntu xenial/mongodb-org/4.0 multiverse" | sudo tee /etc/apt/sources.list.d/mongodborg-4.0.list # sudo apt-get update – Cài đặt # sudo apt-get install -y mongodb-org – Khởi động Kiểm tra lại phiên MongoDB # sudo service mongod start # mongodb vesion db version v.4.0.8 Sau cài đặt môi trường, tiến hành cài đặt công cụ countly lên máy chủ Các thông số tự động điều chỉnh phù hợp với cấu hình máy chủ cài đặt thông qua chức cài đặt cung cấp Countly # sudo su # wget -qO- http://c.ly/install | bash 42 Bước tiếp theo, để thu thập liệu, cần phải thêm ứng dụng với thông tin chi tiết Ứng dụng để phân biệt website quản lý chung hệ thống Countly Hình 3.1: Thơng tin chi tiết ứng dụng cần thu thập log Cuối cùng, cần sinh mã nhũng javascript, mã nhúng nhúng trực tiếp lên website cần tích hợp thu thập liệu Hình 3.2: Mã nhúng tích hợp dành cho website cần thu thập 43 Khi nhúng mã theo dõi lên website, có hai lựa chọn mã nhúng đồng mã nhúng bất đồng Ta nên sử dụng mã nhúng bất đồng có lợi cải thiện tốc độ tải trang, liệu tương tác người dùng thu thập đẩy vào hàng đợi mã nhúng chưa tải xong Sử dụng mã nhúng bất đồng không gây ảnh hưởng đến website theo dõi, máy chủ thu thập log gặp cố, website hoạt động bình thường 3.2 Phân tích log truy cập website 3.2.1 Tập liệu thực nghiệm Trong phạm vi luận văn này, để thực nghiệm xây dựng hệ thống thu thập log phân tích log truy cập, liệu log thu thập từ cổng thơng tin Học viện Cơng nghệ Bưu Viễn thơng (PTIT) Trong tập liệu này, ta thu thập tất hành vi người dùng thu thập thông tin trang web chuyên mục tiêu đề Hình 3.3: Giao diện thống kê truy cập khoảng thời gian Cổng thông tin Học viện Cơng nghệ Bưu Viễn thơng website cấu trúc thành nhiều trang web con, trang web thuộc nhiều 44 chuyên mục Có tổng số 20 chuyên mục riêng biệt, phổ biến như: Thông báo sinh viên, Tin tức, Đào tạo quốc tế, … Các trang web thường đăng có nội dung chủ yếu văn bản, ví dụ thơng báo từ phịng ban Học viện tới sinh viên, thông tin hoạt động câu lạc bộ, hoạt động sinh viên học viện Ngoài ra, theo giai đoạn năm học, có thời điểm tập trung nhiều vào trang web có nội dung tuyển sinh (thời gian tuyển sinh khóa theo kế hoạch Bộ Giáo dục Đào tạo), nội dung kế hoạch thi, lịch thi, điểm thi sinh viên (giai đoạn cuối học kỳ), Dữ liệu sử dụng để phân tích luận văn thu thập tháng (từ 01/04/2019 – 30/06/2019) với khoảng 150,000 ghi log tương tác người dùng Các thông tin thu thập bao gồm chi tiết hoạt động người dùng xem trang, click, tìm kiếm, nội dung trang web (bao gồm tiêu đề nội dung) Các địa trang web, thời gian nội dung chi tiết trang web ghi lại liệu Tất liệu lượt truy cập người dùng tương tự gán cho ID thiết bị Hình 3.4: Chi tiết liệu thu thập từ người dùng 45 Các tác vụ tiền xử lý bao gồm nhận dạng chuyên mục, ước tính thời gian khoảng thời gian người dùng dành cho trang web làm liệu Chuyên mục đăng trang web dễ dàng xác định trường ID chun mục đơi khơng có chun mục trang web Để cải thiện chất lượng liệu, ta xóa liệu khơng liên quan khơng có chun mục người dùng truy cập Dữ liệu sau tiền xử lý lưu trữ CSDL với MongoDB Trong khoảng thời gian người dùng dành cho trang web, ta tính tốn dựa thời gian hai yêu cầu web liên tiếp người dùng Các nghiên cứu 55% lượt xem trang internet kéo dài 15 giây [11] Thơng thường, khơng q 180 giây [9] Thực nghiệm bỏ qua trang có lượt xem trang kéo dài giây điều cho thấy người dùng khơng có mối quan tâm trang (T = 5) Sau tiền xử lý, số lượng hồ sơ giảm nhiều, so với liệu ban đầu Kết liệu thử nghiệm chứa 5360 người dùng 19 chuyên mục Các mơ tả chi tiết liệu nhấp chuột dịng trước sau tiền xử lý liệt kê bảng Bảng 3.1: Tập liệu hành vi duyệt web từ website PTIT Portal Giá trị Bộ liệu lọc Số ghi 63000 Số lượng người dùng 5360 Số lượng chuyên mục 19 Thời gian duyệt web trung bình 12,7 giây Số lượng trang web 1017 Để xác định chủ đề cho trang web, thực nghiệm sử dụng công cụ LDA từ gói Gensim (https://pypi.org/project/gensim/) LDA áp dụng cho tập hợp tiêu đề trích xuất từ tất trang web liệu Hai tham số LDA nghiên cứu thử nghiệm sử dụng liệu thực number_of_topics (số 46 lượng chủ đề) eta Trong thực nghiệm này, eta 0,01 Nó đủ nhỏ để làm cho chủ đề cấu thành từ vài từ Để dễ dàng hiểu ý nghĩa chủ đề, chủ đề thể năm từ xảy Và sử dụng thủ tục tìm kiếm lưới, number_of_topics 50 giá trị tốt Các giá trị ngưỡng αpage, αcate αtopic thử nghiệm nghiên cứu cách sử dụng liệu Trong thực nghiệm này, sử dụng trang web αpage 0,003, αcate 0,1 αtopic 0,03 Bởi liệu thu thập từ cổng web trường đại học, nhóm người dùng thành nhóm khác khách truy cập, sinh viên trường đại học, sinh viên bên trường đại học, giảng viên nhân viên khác trường đại học Sau đó, nhóm người dùng tên sử dụng phân tích kết thực nghiệm Với kỳ vọng xác định thơng tin có ý nghĩa sở thích người dùng, đối tượng người dùng quan tâm đến nội dung cổng thông tin Dựa cách tiếp cận khác để phân tích thơng tin người dùng sử dụng liệu gán nhãn (theo chuyên mục) liệu chưa gán nhán (theo chủ đề) 3.2.2 Xác dịnh số cụm liệu Cần phải xác định số cụm phù hợp với liệu người dùng Không phải số cụm lúc cố định mà tối ưu để phù hợp theo giai đoạn Ví dụ, liệu thu thập hai tháng chia thành cụm tối ưu nhất, tháng tiếp theo, cần chia thành cụm phù hợp Chỉ số Dunn (dunn index) [2] sử dụng để đánh giá kết phân cụm Chỉ số Dunn tính sau: 𝐷= Trong đó: 𝑚𝑖𝑛 𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛 𝑚𝑎𝑥 𝑑𝑖𝑎𝑚𝑒𝑡𝑒𝑟 min.separation khoảng cách nhỏ cụm khác 47 max.diameter khoảng cách lớn nội cụm (giống đường kính) Nếu tập liệu chứa cụm nhỏ gọn tách biệt, đường kính cụm dự kiến nhỏ khoảng cách cụm dự kiến lớn Do đó, số Dunn nên tối ưu hóa, giá trị D lớn kết phân cụm tối ưu 3.2.3 Kết thực nghiệm Đối với đồ thị theo chuyên mục, Do số trang web khơng chia vào chun mục có chuyên mục tập trung nhiều trang web loại bỏ, 1857 người dùng cụm ban đầu Sau thử nghiệm số chia số cụm ban đầu từ đến 10 cụm, số Dunn tối ưu chia thành cụm 1857 người dùng ban đầu liệu phân thành cụm riêng biệt Trong số cụm này, hai cụm hàng đầu kích thước chứa 600 thành viên cụm khác bị bỏ qua nhỏ Cụm có cụm phụ quan trọng khác cụm thứ hai có cụm phụ quan trọng Dựa kết phân cụm theo phân cấp hiển thị Bảng 3.2 Bảng 3.3, dễ dàng chia người dùng thành nhóm sở thích Hình 3.5: Kết phân loại người dùng theo chuyên mục Nhóm quan tâm đến Tin tức từ trường đại học, thông tin tốt nghiệp đào tạo quốc tế Nhóm thứ hai quan tâm đến Thơng báo sinh viên, Việc làm không quan tâm đến Tin tức từ trường đại học Có thể phán đốn người dùng 48 nhóm khách truy cập, giảng viên nhân viên khác trường đại học muốn xem tin tức Một số học sinh trung học muốn xem thông tin nhập học phần lại sinh viên trường đại học tốt nghiệp sinh viên xuất sắc tìm kiếm đào tạo quốc tế Người dùng nhóm thứ hai sinh viên bình thường học đại học Những sinh viên không quan tâm đến tin tức chung từ trường đại học mà quan tâm đến thông tin liên quan đến sinh viên Phần cịn lại sinh viên muốn tìm việc thực tập cơng việc Hình 3.5 cho thấy kết phân loại người dùng Bảng 3.2: Kết phân cụm cấp đồ thị theo chuyên mục Cụm cấp Số người dùng Các chuyên mục Cluster 1250 Tin tức; Thông báo; Thông tin tốt nghiệp, Thông báo văn bằng; Việc làm cho giảng viên; Trao đổi sinh viên Cluster 622 Thông báo cho sinh viên; Thông tin tuyển dụng; Tin tức Bảng 3.3: Kết phân cụm cấp đồ thị theo chuyên mục Cụm cấp Cluster Cluster Cụm cha Số người dùng Các chuyên mục Sub cluster 810 Tin tức Sub cluster 145 Thông tin tốt nghiệp; Thông báo văn bằng; Việc làm cho giảng viên Sub cluster 127 Thông báo; Tin tức Sub cluster 33 Trao đổi sinh viên; Đào tạo quốc tế Sub cluster 527 Thông báo cho sinh viên; Tin tức Sub cluster 75 Thông tin tuyển dụng; Thông báo sinh viên; Cơ hội việc làm 49 Phân tích cho thấy phận người dùng không quan tâm đến tin tức chung chung mà quan tâm đến tin tức liên quan đến nhiệm vụ học tập thi cử Một lý khơng có nhiều tin tức Trong vòng tháng, số lượng viết truy cập khoảng 1.000 Đây thơng tin có giá trị cho quản trị viên cổng thông tin web nhà lãnh đạo trường đại học để giúp cải thiện trang web cách cung cấp nhiều thơng tin hữu ích Đồ thị theo chủ đề, Áp dụng thuật toán phân cụm vào đồ thị chủ đề liệu tiêu đề nội dung trang, người dùng phân thành cụm Do kết tương tự cho hai đồ thị chủ đề, có kết đồ thị theo chủ đề dựa tiêu đề trình bày Bảng 3.4: Kết phân cụm cấp đồ thị theo chủ đề Cụm cấp Cluster Số người Chủ đề dùng 1415 (Thông báo, kết quả, việc làm, điểm chuẩn, chất lượng) (Cơng nghệ, quy, tốt nghiệp, kế hoạch), Cluster 1097 (Khoa, môn, sở hạ tầng, hỗ trợ, hoạt động), (Đại học, sinh viên, an tồn, mơ hình, giảng viên) Cluster (Cơng nghệ, bưu chính, sinh viên, ngày hội, khen thưởng), 1082 (Học bổng, chương trình, thực tập, cơng nghệ, sách), (Quyết định, cán bộ, thông báo, bổ nhiệm, quy định) Bảng 3.5: Kết phân cụm cấp đồ thị theo chủ đề 50 Cụm Cụm cấp cha Số người Chủ đề dùng 786 (Cơng nghệ, quy, tốt nghiệp, kế hoạch); (Khoa, môn, sở hạ tầng, hỗ trợ, hoạt động) Cluster (PTIT, sinh viên, an tồn, mơ hình); (Khoa học, hội 2 293 nghị, việc làm, nghiên cứu, giảng viên); (Cơng nghệ, quy, tốt nghiệp, kế hoạch) (Cơng nghệ, bưu chính, sinh viên, ngày hội, khen 1037 Cluster thưởng); (Học bổng, chương trình, thực tập, cơng nghệ, sách), (Quyết định, cán bộ, thông báo, bổ nhiệm, quy định) 45 (Bưu chính, thơng tin, thơng báo, giáo dục, việc làm) Bảng 3.4 cho thấy cụm cấp 1, có 1.000 người dùng Chỉ có chủ đề cụm Cụm có nhiều ba chủ đề Cả cụm cụm phân cụm thành nhiều hai cụm phụ phần kết giữ lại cụm phụ quan trọng cho ngắn gọn (xem Bảng 3.5) Dựa kết phân cụm theo phân cấp hiển thị Bảng 3.4 Bảng 3.5, dễ dàng chia người dùng thành nhóm quan tâm lớn Nhóm - nhóm lớn quan tâm đến Thông báo số kết điểm chuẩn Người dùng nhóm thường sinh viên Kết tương tự với kết phân tích đồ thị chun mục Nhóm thứ hai có xu hướng thơng tin trường đại học tin tức Một số lượng lớn người dùng nhóm quan tâm đến thứ liên quan đến chứng / văn (nhóm Bảng 3.5) hoạt động trường đại học Họ sinh viên học xong chờ tốt nghiệp Phần lại ý đến thông 51 tin nghiên cứu, hội nghị trường đại học Nhóm người dùng cụm quan tâm đến việc khen thưởng sinh viên cho số thi thông tin thực tập học bổng Họ phải học sinh giỏi, thích thử thách thi trường đại học Trên thực tế, thời gian này, nhiều sinh viên trường đại học tham dự thi lập trình trường đại học Samsung tổ chức Một số số họ sinh viên năm thứ ba năm thứ tư tìm kiếm thơng tin chương trình thực tập học bổng từ cơng ty Có thể nhận người dùng / sinh viên nhóm quan tâm tin tức từ trường đại học Những phát giống với kết nhận từ phân tích đồ thị chuyên mục, khơng có tên chun mục Đồ thị theo trang web Áp dụng thuật toán phân cụm phân cấp vào đồ thị theo trang web, người dùng phân thành cụm Sau đó, trang web, ánh xạ tới chuyên mục chủ đề tương ứng Bảng 3.6 mô tả ba cụm kết phân cụm sau gán tên chuyên mục Từ kết quả, biết số lượng lớn người dùng quan tâm đến Tin tức, sau Thơng báo cho sinh viên, Thông báo khác tin tức Sinh viên Tất cụm mô tả thông tin giống Kết tương tự gán chủ đề cho trang web theo cụm Lý nhiều trang web cụm khác thuộc thể loại chủ đề Khi gán chuyên mục chủ đề cho trang, chuyên mục chủ đề tương tự xuất trang web khác Nó dẫn đến cụm khác có thơng tin tương tự Bảng 3.6: Kết phân cụm đồ thị theo trang web Cụm Số người dùng Cluster 5096 Cluster 184 Cluster 120 Các chuyên mục Tin tức, Thông báo sinh viên, Thông báo, Tin tức sinh viên Tin tức, Thông báo sinh viên, Thông báo, Tin tức sinh viên Tin tức, Thông báo, Thông báo sinh viên 52 3.2.4 Xây dựng giao diện công cụ phân tích log truy cập Hình 3.6: Giao diện cơng cụ phân tích log truy cập website Với quy trình thu thập xử lý log thực nghiệm này, để thuận lợi cho q trình phân tích log truy cập website đánh giá ý nghĩa kết phân tích Do q trình phân cụm liệu tốn nhiều thời gian để xử lý tùy thuộc vào số lượng ghi liệu nên tác vụ thực nền, quản trị viên xem kết sau q trình phân tích hồn tất Sau quản trị viên thực thao tác phân cụm người dùng Một tiến trình thực ngầm, sau thực xong thuật toán phân cụm, liệu lưu trữ nhớ đệm, sau sử dụng cơng cụ biểu diễn biểu đồ để biểu diễn cụm liệu Từ biểu đồ, quản trị viên xem xét sở thích, mối quan tâm, nhóm người dùng website để tiến hành thay đổi cẩn thiết cho nội dung phù hợp với người dùng 53 3.3 Kết luận chương Chương trình bày trình thực nghiệm kết từ liệu thực tế áp dụng kỹ thuật đề xuất chương để đưa kết phân cụm người dùng Kết phân tích phát số mối quan tâm người dùng Những kết cung cấp hỗ trợ đáng kể cho quản trị viên website để tối ưu hóa cấu trúc trang web cải thiện chiến lược đề xuất trang web 54 KẾT LUẬN VÀ KIẾN NGHỊ Luận văn tập trung nghiên cứu khai phá sử dụng web, log truy cập, kỹ thuật thu thập log truy cập website, kỹ thuật xử lý phân tích log Cụ thể luận văn đạt kết sau:  Nghiên cứu kỹ thuật thu thập log để biết tình trạng hoạt động máy chủ dịch vụ, nắm bắt hành vi người dùng, giúp cải thiện hệ thống thu thập log có  Nghiên cứu học không giám sát kỹ thuật phân cụm liệu để áp dụng kỹ thuật xử lý log phân tích log truy cập website  Đưa mơ hình thử nghiệm với đầy đủ bước thu thập, chuẩn hóa, xử lý phân tích log, triển khai sử dụng thực tế Do thời gian thực luận văn không nhiều nên tác giả chưa có điều kiện nghiên cứu thêm nhiều phương pháp Trong tương lai, có điều kiện, tác giải tập trung nghiên cứu để xây dựng hệ thống phân tích log truy cập website hồn thiện, đưa báo cáo trực quan, xây dựng hệ thống gợi ý thay đổi nội dung, cấu trúc website tích hợp trực tiếp vào trang quản trị website cho quản trị viên, … nghiên cứu ứng dụng việc xử lý phân tích log vào nhiều lĩnh vực khác 55 DANH MỤC TÀI LIỆU THAM KHẢO [1] Hoàng Văn Dũng, (2007), Khai phá liệu web kỹ thuật phân cụm, Hà Nội, pp 31-33 [2] Brock, Guy, Vasyl Pihur, Susmita Datta, and Somnath Datta, (2008), ClValid: An R Package for Cluster Validation, Journal of Statistical Software 25 (4), pp 1–22 [3] D M Blei, A Y Ng, and M I Jordan, (2003), Latent Dirichlet allocation, J Mach Learn Res, pp 996-999 [4] Gang Wang, Xinyi Zhang, Shiliang Tang, Haitao Zheng, Ben Y Zhao, (2016) Unsupervised Clickstream Clustering for User Behavior Analysis In Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems, CHI '16, pp 225-236 [5] Jaideep Srivastava, Robert Cooley y, Mukund Deshpande, Pang-Ning Tan, (2000), Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data In SIGKDD Explorations, Volume 1, pp 2-4 [6] Justin Cutroni, (2010), Google Analytics: Understanding Visitor Behavior, Chapter 3, pp 13-19 [7] L.K Joshila Grace, V Maheswari, and Dhinaharan Nagamalai, (2011), Analysis of Web Logs And Web User In Web Mining, In International Journal of Network Security & Its Applications, Volume 3, pp 99-101 [8] Peter Zadrozny, Raghu Kodali, (2013), Big Data Analytics Using Splunk pp 3133 [9] Q Su and L Chen, (2015) A method for discovering clusters of e-commerce interest patterns using click-stream data, Electron Commer Res Appl, pp 6-7 [10] Thomas Bonald, Bertrand Charpentier, Alexis Galland, (2018), Alexandre Hollocou Hierarchical Graph Clustering using Node Pair Sampling, In MLG 2018 - 14th International Workshop on Mining and Learning with Graphs, London, United Kingdom, pp 1-3 [11] T Haile, (2014) What you think you know about the web is wrong, Time com, March, vol [12] U Brandes et al, (2008) On modularity clustering, IEEE Trans Knowl Data Eng, pp 3-6 ... log truy cập, toán thu thập phân tích log truy cập Chương giới thiệu tổng quan giải pháp thu thập log kỹ thu? ??t phân tích log phương pháp học không giám sát 22 CHƯƠNG - PHƯƠNG PHÁP THU THẬP VÀ... THU THẬP VÀ PHÂN TÍCH LOG TRUY CẬP WEBSITE Chương trình bày cụ thể phương pháp xây dựng giải pháp thu thập log truy cập website, giải pháp phân tích log truy cập webiste dựa kỹ thu? ??t phân cụm,... tốn thu thập phân tích log truy cập, giới thiệu tổng quan khai phá liệu, tổng quan giải pháp thu thập, phân tích log truy cập website - Chương 2: Trình bày phương pháp thu thập log phương pháp phân

Ngày đăng: 03/03/2020, 14:48

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hoàng Văn Dũng, (2007), Khai phá dữ liệu web bằng kỹ thuật phân cụm, Hà Nội, pp. 31-33 Sách, tạp chí
Tiêu đề: Khai phá dữ liệu web bằng kỹ thuật phân cụm
Tác giả: Hoàng Văn Dũng
Năm: 2007
[2] Brock, Guy, Vasyl Pihur, Susmita Datta, and Somnath Datta, (2008), ClValid: An R Package for Cluster Validation, Journal of Statistical Software 25 (4), pp.1–22 Sách, tạp chí
Tiêu đề: ClValid: "An R Package for Cluster Validation
Tác giả: Brock, Guy, Vasyl Pihur, Susmita Datta, and Somnath Datta
Năm: 2008
[3] D. M. Blei, A. Y. Ng, and M. I. Jordan, (2003), Latent Dirichlet allocation, J. Mach. Learn. Res, pp. 996-999 Sách, tạp chí
Tiêu đề: Latent Dirichlet allocation
Tác giả: D. M. Blei, A. Y. Ng, and M. I. Jordan
Năm: 2003
[4] Gang Wang, Xinyi Zhang, Shiliang Tang, Haitao Zheng, Ben Y. Zhao, (2016) Unsupervised Clickstream Clustering for User Behavior Analysis. In Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems, CHI '16, pp. 225-236 Sách, tạp chí
Tiêu đề: Unsupervised Clickstream Clustering for User Behavior Analysis
[5] Jaideep Srivastava, Robert Cooley y, Mukund Deshpande, Pang-Ning Tan, (2000), Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data. In SIGKDD Explorations, Volume 1, pp. 2-4 Sách, tạp chí
Tiêu đề: Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data
Tác giả: Jaideep Srivastava, Robert Cooley y, Mukund Deshpande, Pang-Ning Tan
Năm: 2000
[6] Justin Cutroni, (2010), Google Analytics: Understanding Visitor Behavior, Chapter 3, pp. 13-19 Sách, tạp chí
Tiêu đề: Google Analytics: Understanding Visitor Behavior
Tác giả: Justin Cutroni
Năm: 2010
[7] L.K. Joshila Grace, V. Maheswari, and Dhinaharan Nagamalai, (2011), Analysis of Web Logs And Web User In Web Mining, In International Journal of Network Security & Its Applications, Volume 3, pp. 99-101 Sách, tạp chí
Tiêu đề: Analysis of Web Logs And Web User In Web Mining
Tác giả: L.K. Joshila Grace, V. Maheswari, and Dhinaharan Nagamalai
Năm: 2011
[8] Peter Zadrozny, Raghu Kodali, (2013), Big Data Analytics Using Splunk. pp. 31- 33 Sách, tạp chí
Tiêu đề: Big Data Analytics Using Splunk
Tác giả: Peter Zadrozny, Raghu Kodali
Năm: 2013
[9] Q. Su and L. Chen, (2015) A method for discovering clusters of e-commerce interest patterns using click-stream data, Electron. Commer. Res. Appl, pp. 6-7 Sách, tạp chí
Tiêu đề: A method for discovering clusters of e-commerce interest patterns using click-stream data
[10] Thomas Bonald, Bertrand Charpentier, Alexis Galland, (2018), Alexandre Hollocou. Hierarchical Graph Clustering using Node Pair Sampling, In MLG 2018 - 14th International Workshop on Mining and Learning with Graphs, London, United Kingdom, pp. 1-3 Sách, tạp chí
Tiêu đề: Alexandre Hollocou. Hierarchical Graph Clustering using Node Pair Sampling
Tác giả: Thomas Bonald, Bertrand Charpentier, Alexis Galland
Năm: 2018
[11] T. Haile, (2014) What you think you know about the web is wrong, Time. com, March, vol. 9 Sách, tạp chí
Tiêu đề: What you think you know about the web is wrong
[12] U. Brandes et al, (2008) On modularity clustering, IEEE Trans. Knowl. Data Eng, pp. 3-6 Sách, tạp chí
Tiêu đề: On modularity clustering

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w