Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
791,74 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG HOÀNG VŨ PHÂN CỤM NGƯỜI SỬ DỤNG WEB DỰA TRÊN MẪU TRUY CẬP Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Người hướng dẫn khoa học: PGS TS Trần Đình Quế TÓM TẮT LUẬN VĂN THẠC SỸ HÀ NỘI – 2012 -1- MỞ ĐẦU Khai phá Web việc sử dụng kỹ thuật khai phá liệu để khám phá trích rút thơng tin hữu ích từ tài liệu, dịch vụ cấu trúc Web Nói cách khác, khai phá Web việc thăm dị thông tin quan trọng mẫu tiềm từ nội dung Web, từ thông tin truy cập Web, từ liên kết trang,… việc sử dụng kỹ thuật khai phá liệu, giúp người rút tri thức, cải tiến việc thiết kế Web site phát triển thương mại điện tử tốt hơn[12] Khai phá Web phân loại thành lĩnh vực [12]: Khai phá nội dung Web (Web Content Mining); Khai phá cấu trúc Web (Web Structure Mining); Khai phá sử dụng Web (Web Usage Mining) Khai phá sử dụng Web lĩnh vực nghiên cứu khai phá Web tập trung vào việc xem xét người sử dụng Web tương tác họ với trang Web Động lực khai phá sử dụng Web tìm mơ hình truy cập người sử dụng từ khối lượng lớn liệu đăng nhập Web, chẳng hạn như: đường dẫn truy cập thường xuyên, tần xuất truy cập nhóm trang phân nhóm người dùng Thơng qua khai phá sử dụng Web, thông tin đăng nhập máy chủ, đăng ký thông tin thông tin liên quan khác người -2truy cập cung cấp tảng cho việc định việc tổ chức không gian Web, tối ưu Web site [9][11] Phân cụm người sử dụng Web việc tạo nhóm người sử dụng có mẫu truy cập Web tương tự nhau, cung cấp tri thức cho việc cá nhân hóa dịch vụ Web [10] Việc nghiên cứu mơ hình phân cụm áp dụng phương pháp phân cụm người dùng Web khai phá sử dụng Web xu tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn Luận văn tập trung nghiên cứu ứng dụng kỹ thuật phân cụm người sử dụng Web dựa mẫu truy cập Web Dựa tiêu chuẩn khác nhau, người dùng Web phân cụm tri thức hữu ích lấy từ mẫu truy cập họ Nội dung bao gồm: Tìm hiểu tốn phân cụm người sử dụng Web dựa mẫu truy cập ứng dụng Nghiên cứu, cài đặt thuật tốn sử dụng q trình tiền xử lý liệu, bao gồm giải thuật pha: - Làm liệu - Xác định người sử dụng - Xác định phiên người sử dụng - Xác định phiên giao dịch với đường dẫn đầy đủ - Biểu diễn liệu theo mơ hình khơng gian vector -3 Tiến hành thực nghiệm với nguồn liệu thực tế: Từ nguồn liệu thực tế, sau pha tiền xử lý, liệu biểu diễn theo mơ hình khơng gian vector, phù hợp với định dạng mà công cụ WEKA chấp nhận, tiến hành thực nghiệm phân cụm Dựa kết thử nghiệm, phân tích đánh giá, hỗ trợ đưa khuyến cáo giúp cho việc phát triển chiến lược tiếp cận người sử dụng phù hợp, xây dựng tổ chức cách tốt không gian Web Luận văn chia thành chương sau: Chương – Tổng quan khai phá Web: Chương trình bày tổng quan lĩnh vực khai phá Web, vấn đề khai phá sử dụng Web ứng dụng toán Giới thiệu đặc trưng số kỹ thuật phân cụm, số phương pháp, thuật toán tiêu biểu Chương – Phân cụm người sử dụng Web dựa mẫu truy cập: Chương giới thiệu phân cụm người sử dụng Web, mẫu truy cập, phân cụm người sử dụng Web dựa mẫu truy cập Chương sâu trình bày kỹ thuật thuật tốn liên qua đến q trình tiền xử lý liệu chuẩn bị liệu để thực nghiệm phân cụm Chương – Cài đặt thử nghiệm: Chương mô tả chi tiết công cụ, liệu, phương pháp, kỹ thuật lựa chọn thực nghiệm tồn q trình tiến hành thực nghiệm Kết thực nghiệm phân tích, so sánh đánh giá -4- -5- Chương TỔNG QUAN VỀ KHAI PHÁ WEB 1.1 Khai phá Web Khai phá Web việc sử dụng kỹ thuật khai phá liệu để tự động hóa q trình khám phá trích rút thơng tin hữu ích từ tài liệu, dịch vụ cấu trúc Web Có thể phân hướng nghiên cứu khai phá Web thành lĩnh vực chính, bao gồm: Khai phá nội dung Web (Web Content Mining): Khai phá nội dung web trình xử lý để lấy tri thức từ nội dung trang văn mô tả chúng Khai phá cấu trúc Web (Web Structure Mining): Nhờ vào kết nối văn siêu liên kết, World Wide Web chứa đựng nhiều thông tin nhiều so với thông tin bên văn Nội dung khai phá cấu trúc Web trình xử lý nhằm rút tri thức từ cách tổ chức liên kết tham chiếu trang Web Khai phá sử dụng Web (Web Usage Mining): Phân tích nhật ký truy cập (Web log) để khám phá mẫu truy cập người dùng truy cập vào trang Web 1.2 Khai phá sử dụng Web Khai phá sử dụng Web việc xử lý để lấy thơng tin hữu ích log file truy cập Web ghi lại tích luỹ tương tác người dùng máy chủ nhận yêu cầu truy cập -6Việc phân tích log truy cập Web Web site khác dự đoán tương tác người dùng họ tương tác với Web tìm hiểu cấu trúc Web Thông thường máy chủ Web (Web Server) ghi lại tích lũy liệu tương tác người dùng nhận yêu cầu truy cập Có hai xu hướng khai phá sử dụng Web: Theo dõi Mẫu truy cập Web (General Access Pattern Tracking): phân tích hồ sơ Web để biết mẫu xu hướng truy cập Theo dõi Sử dụng cá nhân (Customizied Usage Tracking): phân tích xu hướng cá nhân Mục đích để chun biệt hóa Web site cho lớp đối tượng người dùng Các thông tin hiển thị, độ sâu cấu trúc site định dạng tài nguyên, tất chuyên biệt hóa cách tự động cho người dùng theo thời gian dựa mẫu truy cập họ Mục tiêu khai phá việc sử dụng Web thu thập, mơ hình hóa phân tích mẫu hành vi người dùng Công việc bao gồm giai đoạn trình bày chi tiết theo đầu mục: 1.1.2.1 Thu thập liệu 1.1.2.2 Tiền xử lý liệu 1.1.2.3 Khám phá mẫu 1.1.2.4 Phân tích mẫu -7Trong khai phá sử dụng Web, người ta thường sử dụng kỹ thuật: Luật kết hợp: để tìm trang Web thường truy cập người dùng, lựa chọn người dùng Kỹ thuật phân cụm: Phân cụm người dùng dựa mẫu duyệt để tìm liên quan người dùng Web hành vi họ Có nhiều định nghĩa khác kỹ thuật phân cụm, chất ta hiểu phân cụm qui trình tìm cách nhóm đối tượng cho vào cụm (clusters), cho đối tượng cụm tương tự (similar) đối tượng khác cụm khơng tương tự (dissimilar) Mục đích phân cụm tìm chất bên nhóm liệu 1.3 Các kỹ thuật phân cụm Các kỹ thuật phân cụm liệu chia làm số loại: Phương pháp dựa vào phân hoạch ( Partition Based Data Clustering Method), phương pháp phân cấp (Hierarchical Based Data Clustering Method), phương pháp dựa mật độ (Density Based Data Clustering Method), phương pháp dựa lưới (Grid Based Data Clustering Method) -8Các đặc trưng Phân cụm liệu kỹ thuật tổ chức liệu cách nhóm đối tượng có độ tương đồng cao để khám phá cấu trúc liệu Mục tiêu phương pháp phân cụm liệu đơn giản tìm kiếm cách tổ chức hợp lệ tiện lợi liệu Các thuật tốn phân cụm hướng tới việc tìm kiếm cấu trúc liệu Phương pháp gọi “học khơng có giám sát” (Unsupervised Learning) lĩnh vực nhận dạng mẫu (Pattern Recognition) nói riêng trí tuệ nhân tạo (Artificial Intelligence) nói chung [6] Một cụm bao gồm tập đối tượng có độ tương đồng cao Hiện nay, có số định nghĩa cụm phát biểu sau [6]: Một cụm tập thực thể (các đối tượng) giống nhau, thực thể cụm khác khơng giống Một cụm kết hợp điểm không gian thỏa mãn điều kiền khoảng cách hai điểm cụm bé khoảng cách điểm cụm với điểm không không thuộc cụm Các cụm mơ tả vùng chứa đối tượng có mật độ cao khơng gian nhiều chiều, tách với vùng chứa đối tượng có mật độ thấp Một tập đối tượng bao gồm liệu thơ cho q trình phân cụm biểu diễn hai dạng chuẩn [6]: Ma trận liệu, ma trận khơng tương đồng -9Các hàm khoảng cách Có nhiều hàm dùng để biểu diễn độ tương đồng đối tượng Ở đây, chúng tơi trình bày số hàm đo tương đồng phổ biến hay gọi hàm khoảng cách Khoảng cách tương đồng hai mẫu thứ i mẫu thứ k ký hiệu d(i,k) phải thỏa mãn tính chất sau: d(i,i)=0 với i d(i,k)=d(k,i) với cặp (i,k) d(i,k)>=0 với cặp (i,k) Một số cách xác định hàm đánh giá độ tương đồng: Giả sử có ma trận mẫu [xij] với xij giá trị đặc trưng thứ j mẫu i tất đặc trưng liên tục ước lượng theo tỷ xích tỷ lệ Hàm khoảng cách phổ biến khoảng cách Minkowski [3] dùng để ước lượng độ bất tương đồng Mẫu thứ i tương ứng với dòng thứ i ma trận mẫu ký hiệu vector cột xi T x i = ( x i1 ,x i2 , ,x in ) ,i= 1,2, ,n Với d số đặc trưng, n số lượng mẫu, T ký hiệu vector chuyển vị Khoảng cách Minkowski định nghĩa sau: d d ( i,k )= ( ∑ x ij − x kj r )1/r với r>=1 j= Các hàm khoảng cách Minkowski thỏa mãn tính chất tính chất sau: - 10 d(i,k)=0 xi=xk d(i,k) d (i,m) +d ( m,k ) với (i,m,k) Bất đẳng thức tam giác Có ba khoảng cách phổ biến sử dụng khoảng cách Minkowsky định nghĩa sau: Khoảng cách Euclidean (r=2): d d (i,k )= ( ∑ x ij − x kj )1/ = [ ( x i − x k )T ( x i − x k )]1 /2 j= Khoảng cách Manhattan (r=1) d d (i,k )= ( ∑ x ij − x kj ) j= Khoảng cách Max (r ∞ ): d (i, k ) ( max | xij x kj |) 1 j d Khoảng cách Euclidean chuẩn dùng phổ biến chuẩn theo khoảng cách Minkowski [6] Tiếp theo, chúng tơi sâu trình bày số kỹ thuật phân cụm, bao gồm: 1.3.2 Phân cụm dựa vào phân hoạch Phương pháp phân cụm phân hoạch dựa ý tưởng ban đầu tạo k phân hoạch, sau lặp lại nhiều lần để phân bố lại đối tượng liệu cụm nhằm cải thiện chất lượng phân cụm - 11 1.3.3 Phân cụm dựa vào phân cấp Phương pháp phân cụm phân cấp dựa ý tưởng phân cấp để phân cụm liệu Có hai cách tiếp cận phân cụm lên (Bottom up) phân cụm xuống (Top down) 1.3.4 Phân cụm dựa mật độ Phương pháp phân cụm dựa mật độ, vào hàm mật độ đối tượng liệu để xác định cụm cho đối tượng 1.3.5 Phân cụm dựa lưới Phương pháp phân cụm dựa lưới, ý tưởng lượng hố khơng gian đối tượng vào số hữu hạn ô theo cấu trúc dạng lưới, sau thực phân cụm dựa cấu trúc lưới 1.3.6 Phân cụm dựa mơ hình Ý tưởng phương pháp phân cụm dựa mơ hình giả thuyết mơ hình cho cụm tìm kiếm thích hợp đối tượng liệu với mơ hình đó, mơ hình tiếp cận theo thống kê mạng Nơron 1.4 Một số phương pháp, thuật tốn tiêu biểu Phần này, chúng tơi trình bày số thuật toán tiêu biểu đại diện cho kỹ thuật phân cụm phổ biến, tương đương với mục, bao gồm: - 12 1.4.1 Thuật toán K-means 1.4.2 Thuật toán phân cụm K-medoids 1.4.3 Thuật toán EM (Expectation Maximization) 1.4.4 Thuật toán BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) 1.4.5 Thuật toán CURE( Clustering Using Representatives) 1.4.6 Thuật toán CHAMELEON - 13 - Chương PHÂN CỤM NGƯỜI SỬ DỤNG WEB DỰA TRÊN MẪU TRUY CẬP 2.1 Phân cụm người sử dụng Web Sử dụng kỹ thuật tiền xử lý liệu, phân cụm để khám phá mơ hình truy cập người sử dụng từ khối lượng lớn liệu đăng nhập Web để tạo nhóm người sử dụng có mẫu truy cập Web tương tự nhau, cung cấp tri thức cho việc cá nhân hóa dịch vụ Web, phát hành vi xâm nhập bất hợp lệ, dự báo hành vi người dùng Việc nghiên cứu giải pháp xử lý liệu, cài đặt ứng dụng mơ hình phân cụm áp dụng phương pháp phân cụm người dùng Web khai phá sử dụng Web xu tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn cao 2.2 Phân cụm người sử người sử dụng Web dựa mẫu truy cập Từ liệu thơ, để trích chọn tri thức hữu ích, liệu cần qua q trình tiền xử lý, tổ chức liệu biểu diễn phù hợp với định dạng để tiến hành thực nghiệm phân cụm Tiếp theo đó, liệu phù hợp sử dụng cho công cụ phân cụm tiên hành thực nghiệm Q trình chia thành 02 bước, bước bao gồm pha sau: - 14 Bước 1: Tiền xử lý liệu, bao gồm pha: Pha làm liệu (Data Clearning) Pha xác định người sử dụng (User Identification) Xác định phiên người sử dụng (Session Indentification) Hoàn thiện đường dẫn (Path Completion) Biểu diễn liệu ( Biểu diễn mẫu liệu phù hợp với chuẩn công cụ thực nghiệm) Bước 2: Phân cụm người sử dụng dựa mẫu truy cập: Sử dụng công cụ WEKA, áp dụng số kỹ thuật phân cụm tập liệu So sánh, đánh giá kết Mẫu truy cập người sử dụng Web chiết xuất từ file nhật ký máy chủ Web, sau tổ chức vào phiên đại diện cho giai đoạn tương tác người sử dụng Web máy chủ Web Mẫu bao gồm trang mà họ đến thăm, thời gian họ dành trang Mỗi người sử dụng sau đại diện tập hợp gồm cặp thuộc tính ( URL truy cập, Thời gian truy cập) Từ cặp thuộc tính này, xác định mẫu người sử dụng Mục tiêu phân cụm người sử dụng Web để tìm tri thức, mơ hình hóa, qua khám phá mơ hình truy cập vào trang Web khác người sử dụng không gian Web liên kết với máy chủ cụ thể - 15 - Chương THỰC NGHIỆM VÀ KẾT QUẢ 3.1 Bộ liệu Dữ liệu thực nghiệm sử dụng luận văn tệp tin nhật ký sử dụng (log file) máy chủ Web hệ thống Cổng thông tin điện tử Đại học Quốc gia Hà Nội địa http://www.vnu.edu.vn Bộ liệu Weblog ngày 31/05/2012 (lựa chọn ngẫu nhiên) máy chủ Web, dung lượng file là: 50,207 KB, bao gồm 253.435 yêu cầu từ máy khách 3.2 Tiền xử lý liệu Trước tiến hành phân cụm, liệu cần tiền xử lý đưa định dạng mà công cụ phân cụm chấp nhận Từ file nhật ký IIS, chúng tơi phân tích xác định người người sử dụng với danh sách URL mà người truy cập Các thông tinh biểu diễn thành dạng vector đưa vào tệp tin Các bước tiến hành sau: Đọc file nhật ký, loại bỏ thông tin dư thừa: làm liệu, loại bỏ trang sai sót khơng hợp lệ ; Xác định lập danh sách người sử dụng dựa thông tin đặc điểm sau: - Mỗi địa IP gửi yêu cầu tới máy chủ Web đại diện cho người sử dụng, - 16 - Nếu từ địa IP có nhiều u cầu với mã trình duyệt Web khác trình duyệt Web gắn với người sử dụng (trường hợp qua Proxy), - Cùng địa IP, khoảng thời gian lần yêu cầu lớn 30 phút coi xuất người sử dụng - Sử dụng nhật ký truy cập với liên kết cấu trúc liên kết site để xác định tiến trình duyệt Web người dùng Xác định phiên người sử dụng: Phiên giao dịch người dùng tập giới hạn click người dùng theo nhiều máy chủ Web Sau quy tắc sử dụng để xác định phiên người sử dụng: - Nếu có người dùng mới, có phiên làm việc mới; - Trong phiên giao dịch người sử dụng, trang tiếp mong muốn rỗng, có phiên giao dịch mới; - Nếu thời gian yêu cầu trang vượt giới hạn xác định (25 đến 30 phút), giả sử người dùng bắt đầu phiên Hoàn thiện đường dẫn: Do tồn nhớ đệm cục máy chủ Proxy, có nhiều truy cập quan trọng không lưu nhật ký truy cập Nhiêm vụ pha hoàn thiện đường dẫn điền vào trang bị thiếu Với người sử dụng, xác định danh sách trang Web (URL) mà người truy cập Để tránh dư thừa liệu, - 17 URL tới thành phần phụ trang Web loại bỏ (các URL tới file jpg, gif, png, js, css ).; Đưa tất URL tìm thấy vào danh sách gọi URLList Mỗi phần tử URL-List tương ứng với chiều Vector đặc trưng; Biểu diễn thông tin người sử dụng thành dạng vector với thành phần tương ứng URL URL-List gán giá trị tương ứng với việc người truy cập vào URL hay chưa (đây mơ hình Boolean - chúng tơi thử nghiệm mơ hình Tần suất TF, TF-IDF cho kết không tốt bằng); Đưa liệu vector tất người sử dụng thơng tin cần thiết khác vào tệp có dạng arff Tệp tuân thủ theo định dạng tiêu chuẩn công cụ phân cụm sử dụng – công cụ WEKA Từ tập liệu thô ngày 31.5.2012 máy chủ Web với 253.435 yêu cầu, qua trình tiền xử lý, chúng tơi thu liệu với số trang Web truy cập ngày số mẫu người dùng sau: Bảng 3.2 Số lượng mẫu sau tiền xử lý STT Nội dung Số lượng Số trang Web truy cập ngày 2490 Mẫu người sử dụng xác định 3219 - 18 Sau tiền xử lý, thực biểu diễn liệu theo mơ hình khơng gian vector, liệu lưu trữ theo định dạng arff 3.3 Thực nghiệm phân cụm 3.3.1 Công cụ thử nghiệm Công cụ dùng để thực nghiệm phân cụm WEKA (Waikato Environment for Knowledge Analysis - http://sourceforge.net/projects/weka/) Công cụ cung cấp hầu hết chức phục vụ cho khai phá liệu bao gồm thuật toán tiền xử lý liệu (filter), phân cụm (cluster), phân lớp (classifier), luật kết hợp (association rule) Để thực việc tiền xử lý liệu, xây dựng, vào giải thuật nêu chương 2, xây dựng tổng hợp thêm công cụ phục vụ cho việc thực nghiêm, bao gồm: Bảng 3.3 Các công cụ, phần mềm hỗ trợ thực nghiệm STT Ứng dụng Chức Nguồn DataClearning.java Làm sạch, loại bỏ liệu Tự xây dựng hỗn độn dư thừa UserId.java Xác định người sử dụng truy cập Tự xây dựng trang Web UserSessId.java Xác định phiên sử dụng Tự xây dựng người truy cập đường dẫn đầy đủ ToVector.java Chuyển liệu logfile sau Tự xây dựng - 19 qua pha tiền xử lý dạng vector phù hợp với định dạng csv arff mà WEKA chấp nhận 3.3.2 Phương pháp thực nghiệm Trong phần thực nghiệm, lựa chọn số thuật tốn thơng dụng, đại diện cho kỹ thuật phân cụm dựa vào phân hoạch kỹ thuật phân cụm dựa vào phân cấp trình bày Chương 1, bao gồm: Thuật toán K-means Thuật toán EM (Expectation Maximization) kỹ thuật phân cụm dựa vào phân hoạch 01 thuật toán phân cụm dựa vào phân cấp: Thuật toán BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) 3.3.3 Quá trình kết thực nghiệm Ban đầu, sử dụng công cụ WEKA phân cụm EM để tiến hành phân cụm liệu chưa gán nhãn Kết hệ thống trả gồm cụm riêng biệt Sau phân tích kỹ mẫu có cụm, đánh giá xác định cụm tương đương với nhãn sau: visitor: Những người sử dụng thông thường, truy nhập đọc tin tức thông qua Internet - 20 editor (admin): Biên tập viên, sử dụng chức CMS để đưa tin lên cổng thông tin, người cấp quyền chỉnh sửa, cập nhật thông tin staff: Các cán ĐHQG, thường sử dụng dịch vụ cổng thông tin dành riêng cho cán bộ, cổng thông tin cán student: Sinh viên ĐHQG, thường sử dụng dịch vụ dành cho sinh viên no_class: Những đối tượng thường truy cập vào URL không tồn không hợp lệ với mã lỗi mà máy chủ trả HTTP 400, 500 hay HTTP 302 304 Sau cập nhật nhãn phân cụm (lớp) vào liệu, sử dụng phân cụm EM, K-Means HierarchicalClusterer kèm với tính So sánh với lớp thực tế WEKA để phân cụm kiểm tra độ xác so với cụm (lớp) thực tế Tổng hợp kết việc thực nghiệm kỹ thuật sau: Bảng 3.4 Kết phân cụm thời gian tương quan thuật tốn Thời gian (giây) Độ xác (%) STT Kỹ thuật phân cụm K-Means 910 73.5943 EM 1506 73.8117 HierarchicalClusterer (BIRCH) 2658 74.8369 Từ bảng kết trên, thấy, kỹ thuật K-Means có thời gian thực ngắn nhất, nhiên, kết trả lại có độ - 21 xác thấp Thuật toán EM thực với thời gian trung bình, cho kết tốt so với kỹ thuật K-Means so với HierarchicalClusterer Kỹ thuật phân cụm phân cấp với thuật toán HierarchicalClusterer thực với hời gian lâu nhất, nhiên, kỹ thuật cho độ xác cao Biểu đồ biểu diễn kết thực nghiệm kết tương quan thời gian thực độ xác sau: 3000 74.8369 2500 2000 73.8117 1500 73.5943 1506 Hinh 3.8 Biểu đồ so sánh tương quan thời gian, kết thực Biểu diễn độ xác phân biểu đồ dạng hình cột: 75 74.8 74.6 74.4 74.2 74 K-Means EM 73.8 HierarchicalClusterer 73.6 73.4 73.2 73 Hinh 3.9 Biểu đồ so sánh độ xác phân cụm thuật toán - 22 Từ kết thực nghiệm, thấy, thuật tốn có thời gian thực khác nhau, có mức độ xác riêng khả thực kích thước liệu khác Về độ xác khác biệt kỹ thuật khơng lớn Hai thuật toán phân cụm dựa phân hoạch K-Means EM có thời gian thực nhanh hơn, kết trả lại khơng có khác biệt lớn Thuật toán phân cụm phân cấp HierarchicalClusterer thực việc phân cụm với thời gian thực lâu (gần gấp thời gian so với thuật toán K-Means), nhiên, kết độ xác đạt cao Về tổng thể, liệu, kỹ thuật phân cụm dựa vào phân hoạch, phân cụm phân cấp với thuật toán phân cụm lựa chọn có thời gian thực khác nhau, nhiên, kết độ xác đạt khơng có khác biệt q lớn Điều phần khẳng định trình tiền xử lý liệu thực tốt - 23 - KẾT LUẬN Luận văn tập trung nghiên cứu ứng dụng kỹ thuật phân cụm người sử dụng Web dựa mẫu truy cập Thông qua nghiên cứu, thực nghiêm, đạt số kết sau: Khảo sát kỹ thuật phân cụm khai phá liệu, tập trung nghiên cứu kỹ thuật phân cụm khai phá sử dụng Web, Nghiên cứu pha tiền xử lý liệu, phân cụm người sử dụng Web dựa mẫu truy cập Bước tiền xử lý liệu thực pha: Làm liệu; Xác định người sử dụng; Xác định phiên người sử dụng; Hoàn thiện đường dẫn; Biểu diễn liệu Từ nguồn liệu thực tế, qua trình tiền xử lý, liệu làm biểu diễn, trích chọ đặc trưng gán nhãn phù hợp, sử dụng công cụ WEKA thực phân cụm tập liệu với 02 thuật toán kỹ thuật phân cụm dựa vào phân hoạch 01 thuật toán phân cụm dựa vào phân cấp, bao gồm: - Thuật toán K-means - Thuật toán EM (Expectation Maximization) - Thuật toán HierarchicalClusterer (BIRCH) từ kết thực nghiệm, đưa so sánh, đánh giá - 24 Hướng nghiên cứu tiếp theo: Thử nghiệm với nguồn liệu lớn để đánh giá đầy đủ hiệu pha tiền xử lý liệu Dựa kỹ thuật phân cụm người sử dụng, phát triển kỹ thuật phát truy cập trái phép Áp dụng giải toán cụ thể thực tế ... toán tiêu biểu Chương – Phân cụm người sử dụng Web dựa mẫu truy cập: Chương giới thiệu phân cụm người sử dụng Web, mẫu truy cập, phân cụm người sử dụng Web dựa mẫu truy cập Chương sâu trình bày kỹ... CHAMELEON - 13 - Chương PHÂN CỤM NGƯỜI SỬ DỤNG WEB DỰA TRÊN MẪU TRUY CẬP 2.1 Phân cụm người sử dụng Web Sử dụng kỹ thuật tiền xử lý liệu, phân cụm để khám phá mơ hình truy cập người sử dụng từ khối lượng... cụm người sử dụng Web dựa mẫu truy cập Web Dựa tiêu chuẩn khác nhau, người dùng Web phân cụm tri thức hữu ích lấy từ mẫu truy cập họ Nội dung bao gồm: Tìm hiểu tốn phân cụm người sử dụng Web dựa