Phát triển giải pháp thu thập và phân tích LOG truy cập website sử dụng học không giám sát

66 76 0
Phát triển giải pháp thu thập và phân tích LOG truy cập website sử dụng học không giám sát

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Nguyễn Văn Tiến PHÁT TRIỂN GIẢI PHÁP THU THẬP VÀ PHÂN TÍCH LOG TRUY CẬP WEBSITE SỬ DỤNG HỌC KHÔNG GIÁM SÁT LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2020 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Nguyễn Văn Tiến PHÁT TRIỂN GIẢI PHÁP THU THẬP VÀ PHÂN TÍCH LOG TRUY CẬP WEBSITE SỬ DỤNG HỌC KHƠNG GIÁM SÁT Chun ngành: Hệ thống thơng tin Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC GS TS TỪ MINH PHƯƠNG HÀ NỘI - 2020 i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng tơi, kết đạt luận văn sản phẩm riêng cá nhân, khơng chép lại người khác Trong tồn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Tác giả luận văn Nguyễn Văn Tiến ii LỜI CẢM ƠN Em xin gửi lời cảm ơn tới thầy hướng dẫn GS TS Từ Minh Phương, thầy tận tình hướng dẫn khoa học giúp đỡ, chỉnh sửa bảo em suốt trình nghiên cứu hoàn thành luận văn Em xin chân thành cảm ơn thầy cô Học viện Công nghệ Bưu Viễn thơng, đặc biệt thầy khoa Cơng nghệ thơng tin, tận tình dạy dỗ, giúp đỡ tạo điều kiện tốt cho em suốt quãng thời gian em theo học học viện, để em hồn thành luận văn Mặc dù cố gắng hoàn thành luận văn chắn khơng tránh khỏi sai sót, em kính mong nhận thơng cảm góp ý thầy cô bạn Luận văn hỗ trợ Bộ Khoa học Công nghệ, thông qua đề tài mã số KC.01.23/16-20 Em xin trân trọng cảm ơn iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH vii MỞ ĐẦU CHƯƠNG - TỔNG QUAN VỀ LOG TRUY CẬP WEBSITE 1.1 Bài toán thu thập phân tích log truy cập website 1.2 Các phương pháp thu thập log 1.2.1 Phương pháp thu thập log phía máy chủ 1.2.2 Phương pháp thu thập log phía máy khách 1.2.3 Phương pháp thu thập log qua proxy 14 1.3 Phương pháp phân tích log 16 1.3.1 Giới thiệu học không giám sát 16 1.3.2 Một số kỹ thuật phân cụm liệu 17 1.4 Kết luận chương 21 CHƯƠNG - PHƯƠNG PHÁP THU THẬP VÀ PHÂN TÍCH LOG TRUY CẬP WEBSITE 22 2.1 Xây dựng công cụ thu thập log 22 2.2 Xây dựng đồ thị tương tự 25 2.2.1 Loại bỏ ghi dư thừa 27 2.2.2 Xác định chuyên mục, chủ đề 28 2.2.3 Xác định độ tương tự người dùng 30 2.3 Phân cụm người dùng 36 2.4 Xác định ý nghĩa cụm người dùng 36 2.5 Kết luận chương 39 CHƯƠNG - THỰC NGHIỆM VÀ KẾT QUẢ 40 3.1 Cài đặt công cụ thu thập log truy cập website .40 3.1.1 Yêu cầu hệ thống 40 3.1.2 Cài đặt hệ thống 40 3.2 Phân tích log truy cập website 43 3.2.1 Tập liệu thực nghiệm 43 3.2.2 Xác dịnh số cụm liệu 46 iv 3.2.3 Kết thực nghiệm 47 3.2.4 Xây dựng giao diện công cụ phân tích log truy cập 52 3.3 Kết luận chương 53 KẾT LUẬN VÀ KIẾN NGHỊ 54 DANH MỤC TÀI LIỆU THAM KHẢO 55 v DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Viết tắt AI API CGI CRM CSDL HTTP HTML ISP IP PII URI vi DANH MỤC CÁC BẢNG Bảng 1.1: Ưu, nhược điểm giải pháp thu thập log 15 Bảng 2.1: Loại bỏ liệu dư thừa 27 Bảng 2.2: Xác định chủ đề với LDA 29 Bảng 2.3: Đánh số thứ tự cho người dùng truy cập 30 Bảng 2.4: Đánh số thứ tự cho đường dẫn trang web 31 Bảng 2.5: Ánh xạ trang web chuyên mục, chủ đề 32 Bảng 3.1: Tập liệu hành vi duyệt web từ website PTIT Portal 45 Bảng 3.2: Kết phân cụm cấp đồ thị theo chuyên mục 48 Bảng 3.3: Kết phân cụm cấp đồ thị theo chuyên mục 48 Bảng 3.4: Kết phân cụm cấp đồ thị theo chủ đề 49 Bảng 3.5: Kết phân cụm cấp đồ thị theo chủ đề 49 Bảng 3.6: Kết phân cụm đồ thị theo trang web 51 vii DANH MỤC CÁC HÌNH Hình 1.1: Dữ liệu log thu thập máy chủ Hình 1.2: Mơ hình thu thập log phía máy chủ Hình 1.3: Mơ hình thu thập log phía máy khách Hình 1.4: Mơ hình hoạt động Google Analytics Hình 1.5: Giao diện công cụ Google Analytics 10 Hình 1.6: Thống kê theo vị trí địa lý người dùng Google Analytics 11 Hình 1.7: Cơng cụ thu thập log Countly 12 Hình 1.8: Thống kê theo vị trí địa lý người dùng Countly 13 Hình 1.9: Mơ hình thu thập log qua proxy 15 Hình 1.10: Một số dạng khám phá phân cụm dựa mật độ 20 Hình 1.11: Các chiến lược phân cụm phân cấp 21 Hình 2.1: Sơ đồ mô tả hoạt động hệ thống thu thập log 23 Hình 2.2: Log truy cập thu thập Countly 24 Hình 2.3: Hình minh họa phân cụm người dùng 26 Hình 2.4: Đồ thị vơ hướng thể độ tương tự người dùng 26 Hình 2.5: Trang web xác định chuyên mục trước 28 Hình 2.6: Ví dụ đồ thị trung gian 31 Hình 2.7: Ví dụ đồ thị tương tự người dùng 35 Hình 3.1: Thơng tin chi tiết ứng dụng cần thu thập log 42 Hình 3.2: Mã nhúng tích hợp dành cho website cần thu thập 42 Hình 3.3: Giao diện thống kê truy cập khoảng thời gian 43 Hình 3.4: Chi tiết liệu thu thập từ người dùng 44 Hình 3.5: Kết phân loại người dùng theo chuyên mục 47 Hình 3.6: Giao diện cơng cụ phân tích log truy cập website 52 MỞ ĐẦU Hiện nay, số lượng website toàn cầu lớn, lên tới 1,24 tỉ website (tính đến năm 2018), số lượng website phát triển thêm hàng nghìn ngày Dữ liệu truy cập trang web với số lượng người dùng khổng lồ chứa nhiều thông tin Các máy chủ lưu trữ website có giải pháp ghi log truy cập website Log truy cập website bảng ghi nhật ký truy cập từ tất người dùng tương tác với website Thông thường, việc ghi nhật ký website phía máy chủ nhằm mục đích phân tích, đánh giá lưu lượng truy cập website để kiểm soát hiệu hệ thống, chống xâm nhập bất thường phục vụ bảo mật máy chủ web Trong thực tế, với kỹ thuật tiên tiến nay, log truy cập website ứng dụng nhiều hơn, kỹ thuật xử lý phân tích log tối ưu nhằm phục vụ cho công việc nâng cao trải nghiệm người dùng Thay ghi lại nhật ký hoạt động máy chủ, công việc lại ghi hành vi người dùng, sở hành vi này, công cụ phân tích khám phá thói quen, sở thích người dùng phát điểm mạnh, điểm yếu nội dung, định dạng trang web Từ khám phá đưa đề xuất thay đổi website để cải thiện trải nghiệm cho người dùng website Luận văn tập trung vào việc phát triển giải pháp thu thập phân tích log truy cập website để nâng cao trải nghiệm người dùng Cụ thể, luận văn tập trung vào hai vấn đề chính: 1) nghiên cứu phát triển giải pháp ghi lại tương tác người dùng với nội dung website mở trang, click vào đường link trang, click vào nút trang web v.v ; 2) xác định nhóm người dùng có nhu cầu thơng tin tương tự dựa log tương tác ghi lại nội dung Thơng tin nhóm người dùng hiển thị trực quan sử dụng để phân tích đối tượng sử dụng website, từ cải thiện cấu trúc nội dung website Hai vấn đề nghiên cứu luận văn hai toán riêng phân tích liệu Web (Web data mining) nói chung Một vấn đề đặt với kỹ thuật xây dựng hệ thống website phân tán, máy chủ website đặt nhiều nơi khác nhau, việc ghi log phía máy chủ gặp nhiều vấn đề khó khăn việc tổng hợp để xử lý phân tích liệu Ngoài ngày với 43 Khi nhúng mã theo dõi lên website, có hai lựa chọn mã nhúng đồng mã nhúng bất đồng Ta nên sử dụng mã nhúng bất đồng có lợi cải thiện tốc độ tải trang, liệu tương tác người dùng thu thập đẩy vào hàng đợi mã nhúng chưa tải xong Sử dụng mã nhúng bất đồng không gây ảnh hưởng đến website theo dõi, máy chủ thu thập log gặp cố, website hoạt động bình thường 3.2 Phân tích log truy cập website 3.2.1 Tập liệu thực nghiệm Trong phạm vi luận văn này, để thực nghiệm xây dựng hệ thống thu thập log phân tích log truy cập, liệu log thu thập từ cổng thông tin Học viện Công nghệ Bưu Viễn thơng (PTIT) Trong tập liệu này, ta thu thập tất hành vi người dùng thu thập thông tin trang web chuyên mục tiêu đề Hình 3.3: Giao diện thống kê truy cập khoảng thời gian Cổng thơng tin Học viện Cơng nghệ Bưu Viễn thông website cấu trúc thành nhiều trang web con, trang web thuộc nhiều 44 chuyên mục Có tổng số 20 chuyên mục riêng biệt, phổ biến như: Thông báo sinh viên, Tin tức, Đào tạo quốc tế, … Các trang web thường đăng có nội dung chủ yếu văn bản, ví dụ thơng báo từ phòng ban Học viện tới sinh viên, thông tin hoạt động câu lạc bộ, hoạt động sinh viên học viện Ngoài ra, theo giai đoạn năm học, có thời điểm tập trung nhiều vào trang web có nội dung tuyển sinh (thời gian tuyển sinh khóa theo kế hoạch Bộ Giáo dục Đào tạo), nội dung kế hoạch thi, lịch thi, điểm thi sinh viên (giai đoạn cuối học kỳ), Dữ liệu sử dụng để phân tích luận văn thu thập tháng (từ 01/04/2019 – 30/06/2019) với khoảng 150,000 ghi log tương tác người dùng Các thông tin thu thập bao gồm chi tiết hoạt động người dùng xem trang, click, tìm kiếm, nội dung trang web (bao gồm tiêu đề nội dung) Các địa trang web, thời gian nội dung chi tiết trang web ghi lại liệu Tất liệu lượt truy cập người dùng tương tự gán cho ID thiết bị Hình 3.4: Chi tiết liệu thu thập từ người dùng 45 Các tác vụ tiền xử lý bao gồm nhận dạng chuyên mục, ước tính thời gian khoảng thời gian người dùng dành cho trang web làm liệu Chuyên mục đăng trang web dễ dàng xác định trường ID chuyên mục khơng có chun mục trang web Để cải thiện chất lượng liệu, ta xóa liệu khơng liên quan khơng có chun mục người dùng truy cập Dữ liệu sau tiền xử lý lưu trữ CSDL với MongoDB Trong khoảng thời gian người dùng dành cho trang web, ta tính tốn dựa thời gian hai u cầu web liên tiếp người dùng Các nghiên cứu 55% lượt xem trang internet kéo dài 15 giây [11] Thông thường, khơng q 180 giây [9] Thực nghiệm bỏ qua trang có lượt xem trang kéo dài giây điều cho thấy người dùng khơng có mối quan tâm trang (T = 5) Sau tiền xử lý, số lượng hồ sơ giảm nhiều, so với liệu ban đầu Kết liệu thử nghiệm chứa 5360 người dùng 19 chuyên mục Các mô tả chi tiết liệu nhấp chuột dòng trước sau tiền xử lý liệt kê bảng Bảng 3.1: Tập liệu hành vi duyệt web từ website PTIT Portal Giá trị Số ghi Số lượng người dùng Số lượng chuyên mục Thời gian duyệt web trung bình Số lượng trang web Để xác định chủ đề cho trang web, thực nghiệm sử dụng cơng cụ LDA từ gói Gensim (https://pypi.org/project/gensim/) LDA áp dụng cho tập hợp tiêu đề trích xuất từ tất trang web liệu Hai tham số LDA nghiên cứu thử nghiệm sử dụng liệu thực number_of_topics (số 46 lượng chủ đề) eta Trong thực nghiệm này, eta 0,01 Nó đủ nhỏ để làm cho chủ đề cấu thành từ vài từ Để dễ dàng hiểu ý nghĩa chủ đề, chủ đề thể năm từ xảy Và sử dụng thủ tục tìm kiếm lưới, number_of_topics 50 giá trị tốt Các giá trị ngưỡng αpage, αcate αtopic thử nghiệm nghiên cứu cách sử dụng liệu Trong thực nghiệm này, sử dụng trang web αpage 0,003, αcate 0,1 αtopic 0,03 Bởi liệu thu thập từ cổng web trường đại học, nhóm người dùng thành nhóm khác khách truy cập, sinh viên trường đại học, sinh viên bên trường đại học, giảng viên nhân viên khác trường đại học Sau đó, nhóm người dùng tên sử dụng phân tích kết thực nghiệm Với kỳ vọng xác định thơng tin có ý nghĩa sở thích người dùng, đối tượng người dùng quan tâm đến nội dung cổng thông tin Dựa cách tiếp cận khác để phân tích thơng tin người dùng sử dụng liệu gán nhãn (theo chuyên mục) liệu chưa gán nhán (theo chủ đề) 3.2.2 Xác dịnh số cụm liệu Cần phải xác định số cụm phù hợp với liệu người dùng Không phải số cụm lúc cố định mà tối ưu để phù hợp theo giai đoạn Ví dụ, liệu thu thập hai tháng chia thành cụm tối ưu nhất, tháng tiếp theo, cần chia thành cụm phù hợp Chỉ số Dunn (dunn index) [2] sử dụng để đánh giá kết phân cụm Chỉ số Dunn tính sau: Trong đó: 47 max.diameter khoảng cách lớn nội cụm (giống đường kính) Nếu tập liệu chứa cụm nhỏ gọn tách biệt, đường kính cụm dự kiến nhỏ khoảng cách cụm dự kiến lớn Do đó, số Dunn nên tối ưu hóa, giá trị D lớn kết phân cụm tối ưu 3.2.3 Kết thực nghiệm Đối với đồ thị theo chuyên mục, Do số trang web khơng chia vào chun mục có chuyên mục tập trung nhiều trang web loại bỏ, 1857 người dùng cụm ban đầu Sau thử nghiệm số chia số cụm ban đầu từ đến 10 cụm, số Dunn tối ưu chia thành cụm 1857 người dùng ban đầu liệu phân thành cụm riêng biệt Trong số cụm này, hai cụm hàng đầu kích thước chứa 600 thành viên cụm khác bị bỏ qua nhỏ Cụm có cụm phụ quan trọng khác cụm thứ hai có cụm phụ quan trọng Dựa kết phân cụm theo phân cấp hiển thị Bảng 3.2 Bảng 3.3, dễ dàng chia người dùng thành nhóm sở thích Hình 3.5: Kết phân loại người dùng theo chuyên mục Nhóm quan tâm đến Tin tức từ trường đại học, thông tin tốt nghiệp đào tạo quốc tế Nhóm thứ hai quan tâm đến Thơng báo sinh viên, Việc làm không quan tâm đến Tin tức từ trường đại học Có thể phán đốn người dùng 48 nhóm khách truy cập, giảng viên nhân viên khác trường đại học muốn xem tin tức Một số học sinh trung học muốn xem thông tin nhập học phần lại sinh viên trường đại học tốt nghiệp sinh viên xuất sắc tìm kiếm đào tạo quốc tế Người dùng nhóm thứ hai sinh viên bình thường học đại học Những sinh viên không quan tâm đến tin tức chung từ trường đại học mà quan tâm đến thông tin liên quan đến sinh viên Phần cịn lại sinh viên muốn tìm việc thực tập cơng việc Hình 3.5 cho thấy kết phân loại người dùng Bả Cụm cấp Cluster Cluster Số d 125 622 Bả Cụm cấp Cụ Sub clu Sub clu Cluster Sub clu Sub clu Sub clu Cluster Sub clu 49 Phân tích cho thấy phận người dùng khơng quan tâm đến tin tức chung chung mà quan tâm đến tin tức liên quan đến nhiệm vụ học tập thi cử Một lý khơng có nhiều tin tức Trong vịng tháng, số lượng viết truy cập khoảng 1.000 Đây thơng tin có giá trị cho quản trị viên cổng thông tin web nhà lãnh đạo trường đại học để giúp cải thiện trang web cách cung cấp nhiều thơng tin hữu ích Đồ thị theo chủ đề, Áp dụng thuật toán phân cụm vào đồ thị chủ đề liệu tiêu đề nội dung trang, người dùng phân thành cụm Do kết tương tự cho hai đồ thị chủ đề, có kết đồ thị theo chủ đề dựa tiêu đề trình bày Bảng 3.4: Kết phân cụm cấp đồ thị theo chủ đề Cụm cấp Cluster Cluster Cluster Bảng 3.5: Kết phân cụm cấp đồ thị theo chủ đề 50 Cụm cấp Cluster Cluster Bảng 3.4 cho thấy cụm cấp 1, có 1.000 người dùng Chỉ có chủ đề cụm Cụm có nhiều ba chủ đề Cả cụm cụm phân cụm thành nhiều hai cụm phụ phần kết giữ lại cụm phụ quan trọng cho ngắn gọn (xem Bảng 3.5) Dựa kết phân cụm theo phân cấp hiển thị Bảng 3.4 Bảng 3.5, dễ dàng chia người dùng thành nhóm quan tâm lớn Nhóm - nhóm lớn quan tâm đến Thơng báo số kết điểm chuẩn Người dùng nhóm thường sinh viên Kết tương tự với kết phân tích đồ thị chuyên mục Nhóm thứ hai có xu hướng thơng tin trường đại học tin tức Một số lượng lớn người dùng nhóm quan tâm đến thứ liên quan đến chứng / văn (nhóm Bảng 3.5) hoạt động trường đại học Họ sinh viên học xong chờ tốt nghiệp Phần lại ý đến thông 51 tin nghiên cứu, hội nghị trường đại học Nhóm người dùng cụm quan tâm đến việc khen thưởng sinh viên cho số thi thông tin thực tập học bổng Họ phải học sinh giỏi, thích thử thách thi trường đại học Trên thực tế, thời gian này, nhiều sinh viên trường đại học tham dự thi lập trình trường đại học Samsung tổ chức Một số số họ sinh viên năm thứ ba năm thứ tư tìm kiếm thơng tin chương trình thực tập học bổng từ cơng ty Có thể nhận người dùng / sinh viên nhóm quan tâm tin tức từ trường đại học Những phát giống với kết nhận từ phân tích đồ thị chun mục, khơng có tên chuyên mục Đồ thị theo trang web Áp dụng thuật toán phân cụm phân cấp vào đồ thị theo trang web, người dùng phân thành cụm Sau đó, trang web, ánh xạ tới chuyên mục chủ đề tương ứng Bảng 3.6 mô tả ba cụm kết phân cụm sau gán tên chuyên mục Từ kết quả, biết số lượng lớn người dùng quan tâm đến Tin tức, sau Thơng báo cho sinh viên, Thông báo khác tin tức Sinh viên Tất cụm mô tả thông tin giống Kết tương tự gán chủ đề cho trang web theo cụm Lý nhiều trang web cụm khác thuộc thể loại chủ đề Khi gán chuyên mục chủ đề cho trang, chuyên mục chủ đề tương tự xuất trang web khác Nó dẫn đến cụm khác có thơng tin tương tự Bảng 3.6: Kết phân cụm đồ thị theo trang web Cụm Cluster Cluster Cluster 52 3.2.4 Xây dựng giao diện cơng cụ phân tích log truy cập Hình 3.6: Giao diện cơng cụ phân tích log truy cập website Với quy trình thu thập xử lý log thực nghiệm này, để thuận lợi cho q trình phân tích log truy cập website đánh giá ý nghĩa kết phân tích Do trình phân cụm liệu tốn nhiều thời gian để xử lý tùy thuộc vào số lượng ghi liệu nên tác vụ thực nền, quản trị viên xem kết sau q trình phân tích hồn tất Sau quản trị viên thực thao tác phân cụm người dùng Một tiến trình thực ngầm, sau thực xong thuật toán phân cụm, liệu lưu trữ nhớ đệm, sau sử dụng công cụ biểu diễn biểu đồ để biểu diễn cụm liệu Từ biểu đồ, quản trị viên xem xét sở thích, mối quan tâm, nhóm người dùng website để tiến hành thay đổi cẩn thiết cho nội dung phù hợp với người dùng 53 3.3 Kết luận chương Chương trình bày trình thực nghiệm kết từ liệu thực tế áp dụng kỹ thuật đề xuất chương để đưa kết phân cụm người dùng Kết phân tích phát số mối quan tâm người dùng Những kết cung cấp hỗ trợ đáng kể cho quản trị viên website để tối ưu hóa cấu trúc trang web cải thiện chiến lược đề xuất trang web 54 KẾT LUẬN VÀ KIẾN NGHỊ Luận văn tập trung nghiên cứu khai phá sử dụng web, log truy cập, kỹ thuật thu thập log truy cập website, kỹ thuật xử lý phân tích log Cụ thể luận văn đạt kết sau:  Nghiên cứu kỹ thuật thu thập log để biết tình trạng hoạt động máy chủ dịch vụ, nắm bắt hành vi người dùng, giúp cải thiện hệ thống thu thập log có  Nghiên cứu học khơng giám sát kỹ thuật phân cụm liệu để áp dụng kỹ thuật xử lý log phân tích log truy cập website  Đưa mơ hình thử nghiệm với đầy đủ bước thu thập, chuẩn hóa, xử lý phân tích log, triển khai sử dụng thực tế Do thời gian thực luận văn không nhiều nên tác giả chưa có điều kiện nghiên cứu thêm nhiều phương pháp Trong tương lai, có điều kiện, tác giải tập trung nghiên cứu để xây dựng hệ thống phân tích log truy cập website hoàn thiện, đưa báo cáo trực quan, xây dựng hệ thống gợi ý thay đổi nội dung, cấu trúc website tích hợp trực tiếp vào trang quản trị website cho quản trị viên, … nghiên cứu ứng dụng việc xử lý phân tích log vào nhiều lĩnh vực khác 55 DANH MỤC TÀI LIỆU THAM KHẢO [1] Hoàng Văn Dũng, (2007), Khai phá liệu web kỹ thuật phân cụm, Hà Nội, pp 31-33 [2] Brock, Guy, Vasyl Pihur, Susmita Datta, and Somnath Datta, (2008), ClValid: An R Package for Cluster Validation, Journal of Statistical Software 25 (4), pp 1–22 [3] D M Blei, A Y Ng, and M I Jordan, (2003), Latent Dirichlet allocation, J Mach Learn Res, pp 996-999 [4] Gang Wang, Xinyi Zhang, Shiliang Tang, Haitao Zheng, Ben Y Zhao, (2016) Unsupervised Clickstream Clustering for User Behavior Analysis In Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems, CHI '16, pp 225-236 [5] Jaideep Srivastava, Robert Cooley y, Mukund Deshpande, Pang-Ning Tan, (2000), Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data In SIGKDD Explorations, Volume 1, pp 2-4 [6] Justin Cutroni, (2010), Google Analytics: Understanding Visitor Behavior, Chapter 3, pp 13-19 [7] L.K Joshila Grace, V Maheswari, and Dhinaharan Nagamalai, (2011), Analysis of Web Logs And Web User In Web Mining, In International Journal of Network Security & Its Applications, Volume 3, pp 99-101 [8] Peter Zadrozny, Raghu Kodali, (2013), Big Data Analytics Using Splunk pp 31-33 [9] Q Su and L Chen, (2015) A method for discovering clusters of ecommerce interest patterns using click-stream data, Electron Commer Res Appl, pp 6-7 [10] Thomas Bonald, Bertrand Charpentier, Alexis Galland, (2018), Alexandre Hollocou Hierarchical Graph Clustering using Node Pair Sampling, In MLG 2018 - 14th International Workshop on Mining and Learning with Graphs, London, United Kingdom, pp 1-3 [11] T Haile, (2014) What you think you know about the web is wrong, Time com, March, vol [12] U Brandes et al, (2008) On modularity clustering, IEEE Trans Knowl Data Eng, pp 3-6 ... niệm log truy cập, tốn thu thập phân tích log truy cập Chương giới thiệu tổng quan giải pháp thu thập log kỹ thu? ??t phân tích log phương pháp học khơng giám sát 22 CHƯƠNG - PHƯƠNG PHÁP THU THẬP VÀ... THU THẬP VÀ PHÂN TÍCH LOG TRUY CẬP WEBSITE Chương trình bày cụ thể phương pháp xây dựng giải pháp thu thập log truy cập website, giải pháp phân tích log truy cập webiste dựa kỹ thu? ??t phân cụm,... tốn thu thập phân tích log truy cập, giới thiệu tổng quan khai phá liệu, tổng quan giải pháp thu thập, phân tích log truy cập website Chương 2: Trình bày phương pháp thu thập log phương pháp phân

Ngày đăng: 29/10/2020, 19:25

Tài liệu cùng người dùng

Tài liệu liên quan