Phân cụm người sử dụng WEB dựa trên mẫu truy cập

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	25
Dung lượng	791,67 KB

Nội dung

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG HOÀNG VŨ PHÂN CỤM NGƯỜI SỬ DỤNG WEB DỰA TRÊN MẪU TRUY CẬP Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Người hướng dẫn khoa học: PGS. TS Trần Đình Quế TÓM TẮT LUẬN VĂN THẠC SỸ HÀ NỘI – 2012 - 1 - MỞ ĐẦU Khai phá Web là việc sử dụng các kỹ thuật khai phá dữ liệu để khám phá và trích rút những thông tin hữu ích từ các tài liệu, các dịch vụ và cấu trúc Web. Nói cách khác, khai phá Web là việc thăm dò những thông tin quan trọng và những mẫu tiềm năng từ nội dung Web, từ thông tin truy cập Web, từ liên kết trang,… bằng việc sử dụng các kỹ thuật khai phá dữ liệu, nó có thể giúp con người rút ra những tri thức, cải tiến việc thiết kế các Web site và phát triển thương mại điện tử tốt hơn[12]. Khai phá Web được phân loại thành 3 lĩnh vực chính [12]: Khai phá nội dung Web (Web Content Mining); Khai phá cấu trúc Web (Web Structure Mining); Khai phá sử dụng Web (Web Usage Mining). Khai phá sử dụng Web là một trong những lĩnh vực nghiên cứu chính trong khai phá Web tập trung vào việc xem xét người sử dụng Web và tương tác của họ với các trang Web. Động lực của khai phá sử dụng Web là tìm những mô hình truy cập của người sử dụng từ khối lượng lớn dữ liệu đăng nhập Web, chẳng hạn như: đường dẫn truy cập thường xuyên, tần xuất truy cập nhóm trang và phân nhóm người dùng. Thông qua khai phá sử dụng Web, thông tin đăng nhập máy chủ, đăng ký thông tin và thông tin liên quan khác của người - 2 - truy cập sẽ cung cấp nền tảng cho việc ra quyết định đối với việc tổ chức không gian Web, tối ưu Web site [9][11]. Phân cụm người sử dụng Web là việc tạo các nhóm người sử dụng có các mẫu truy cập Web tương tự nhau, cung cấp tri thức cho việc cá nhân hóa các dịch vụ Web [10]. Việc nghiên cứu các mô hình phân cụm và áp dụng các phương pháp phân cụm người dùng Web trong khai phá sử dụng Web là một xu thế tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn. Luận văn tập trung nghiên cứu về ứng dụng của kỹ thuật phân cụm người sử dụng Web dựa trên mẫu truy cập Web. Dựa trên những tiêu chuẩn khác nhau, người dùng Web có thể được phân cụm và tri thức hữu ích có thể được lấy ra từ các mẫu truy cập của họ. Nội dung bao gồm:  Tìm hiểu về bài toán phân cụm người sử dụng Web dựa trên mẫu truy cập và các ứng dụng.  Nghiên cứu, cài đặt các thuật toán sử dụng trong quá trình tiền xử lý dữ liệu, bao gồm các giải thuật trong các pha: - Làm sạch dữ liệu - Xác định người sử dụng - Xác định phiên của người sử dụng - Xác định phiên giao dịch với đường dẫn đầy đủ - Biểu diễn dữ liệu theo mô hình không gian vector - 3 -  Tiến hành thực nghiệm với nguồn dữ liệu thực tế: Từ nguồn dữ liệu thực tế, sau các pha tiền xử lý, dữ liệu được biểu diễn theo mô hình không gian vector, phù hợp với định dạng mà bộ công cụ WEKA chấp nhận, tiến hành thực nghiệm phân cụm.  Dựa trên các kết quả thử nghiệm, phân tích và đánh giá, hỗ trợ đưa ra khuyến cáo giúp cho việc phát triển các chiến lược tiếp cận người sử dụng phù hợp, xây dựng và tổ chức một cách tốt nhất không gian Web. Luận văn được chia thành 3 chương chính như sau: Chương 1 – Tổng quan về khai phá Web: Chương này trình bày tổng quan về lĩnh vực khai phá Web, những vấn đề trong khai phá sử dụng Web cũng như các ứng dụng của bài toán. Giới thiệu các đặc trưng và một số kỹ thuật phân cụm, một số phương pháp, thuật toán tiêu biểu. Chương 2 – Phân cụm người sử dụng Web dựa trên mẫu truy cập: Chương này giới thiệu về phân cụm người sử dụng Web, mẫu truy cập, phân cụm người sử dụng Web dựa trên mẫu truy cập. Chương này cũng đi sâu trình bày về kỹ thuật và các thuật toán liên qua đến quá trình tiền xử lý dữ liệu và chuẩn bị dữ liệu để thực nghiệm phân cụm. Chương 3 – Cài đặt và thử nghiệm: Chương này sẽ mô tả chi tiết về các công cụ, dữ liệu, phương pháp, kỹ thuật lựa chọn thực nghiệm và toàn bộ quá trình tiến hành thực nghiệm. Kết quả thực nghiệm sẽ được phân tích, so sánh và đánh giá. - 4 - - 5 - Chương 1. TỔNG QUAN VỀ KHAI PHÁ WEB 1.1. Khai phá Web Khai phá Web là việc sử dụng các kỹ thuật khai phá dữ liệu để tự động hóa quá trình khám phá và trích rút những thông tin hữu ích từ các tài liệu, các dịch vụ và cấu trúc Web. Có thể phân các hướng nghiên cứu khai phá Web thành 3 lĩnh vực chính, bao gồm:  Khai phá nội dung Web (Web Content Mining): Khai phá nội dung web là các quá trình xử lý để lấy ra các tri thức từ nội dung các trang văn bản hoặc mô tả của chúng.  Khai phá cấu trúc Web (Web Structure Mining): Nhờ vào các kết nối giữa các văn bản siêu liên kết, World Wide Web có thể chứa đựng nhiều thông tin hơn nhiều so với các thông tin ở bên trong văn bản. Nội dung của khai phá cấu trúc Web là các quá trình xử lý nhằm rút ra các tri thức từ cách tổ chức và liên kết giữa các tham chiếu của các trang Web.  Khai phá sử dụng Web (Web Usage Mining): Phân tích các nhật ký truy cập (Web log) để khám phá ra các mẫu truy cập của người dùng truy cập vào trang Web. 1.2. Khai phá sử dụng Web Khai phá sử dụng Web là việc xử lý để lấy ra các thông tin hữu ích trong các log file truy cập Web đã được ghi lại và tích luỹ về các tương tác người dùng mỗi khi máy chủ nhận được yêu cầu truy cập. - 6 - Việc phân tích các log truy cập Web của các Web site khác nhau sẽ dự đoán các tương tác của người dùng khi họ tương tác với Web cũng như tìm hiểu cấu trúc của Web. Thông thường các máy chủ Web (Web Server) ghi lại và tích lũy các dữ liệu về các tương tác của người dùng mỗi khi nó nhận được một yêu cầu truy cập. Có hai xu hướng chính trong khai phá sử dụng Web:  Theo dõi Mẫu truy cập Web (General Access Pattern Tracking): phân tích các hồ sơ Web để biết được các mẫu và các xu hướng truy cập.  Theo dõi Sử dụng cá nhân (Customizied Usage Tracking): phân tích các xu hướng cá nhân. Mục đích là để chuyên biệt hóa các Web site cho các lớp đối tượng người dùng. Các thông tin được hiển thị, độ sâu của cấu trúc site và định dạng của các tài nguyên, tất cả đều có thể chuyên biệt hóa một cách tự động cho mỗi người dùng theo thời gian dựa trên các mẫu truy cập của họ. Mục tiêu của khai phá việc sử dụng Web là thu thập, mô hình hóa và phân tích các mẫu hành vi của người dùng. Công việc này bao gồm các giai đoạn được trình bày chi tiết lần lượt theo các đầu mục: 1.1.2.1. Thu thập dữ liệu 1.1.2.2. Tiền xử lý dữ liệu 1.1.2.3. Khám phá mẫu 1.1.2.4. Phân tích mẫu - 7 - Trong khai phá sử dụng Web, người ta thường sử dụng các kỹ thuật:  Luật kết hợp: để tìm ra những trang Web thường được truy cập cùng nhau của người dùng, những lựa chọn cùng nhau của người dùng.  Kỹ thuật phân cụm: Phân cụm người dùng dựa trên các mẫu duyệt để tìm ra sự liên quan giữa những người dùng Web và các hành vi của họ. Có rất nhiều định nghĩa khác nhau về kỹ thuật phân cụm, nhưng về bản chất ta có thể hiểu phân cụm là các qui trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì không tương tự (dissimilar) nhau. Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu. 1.3. Các kỹ thuật phân cụm Các kỹ thuật phân cụm dữ liệu được chia làm một số loại: Phương pháp dựa vào phân hoạch ( Partition Based Data Clustering Method), phương pháp phân cấp (Hierarchical Based Data Clustering Method), phương pháp dựa trên mật độ (Density Based Data Clustering Method), phương pháp dựa trên lưới (Grid Based Data Clustering Method). - 8 - Các đặc trưng Phân cụm dữ liệu là kỹ thuật tổ chức dữ liệu bằng cách nhóm các đối tượng có độ tương đồng cao để khám phá cấu trúc của dữ liệu. Mục tiêu của phương pháp phân cụm dữ liệu chỉ đơn giản là tìm kiếm cách tổ chức hợp lệ và tiện lợi của dữ liệu. Các thuật toán phân cụm hướng tới việc tìm kiếm cấu trúc trong dữ liệu. Phương pháp này còn được gọi là “học không có giám sát” (Unsupervised Learning) trong lĩnh vực nhận dạng mẫu (Pattern Recognition) nói riêng và trong trí tuệ nhân tạo (Artificial Intelligence) nói chung [6]. Một cụm sẽ bao gồm một tập các đối tượng có độ tương đồng cao. Hiện nay, có một số định nghĩa về cụm đang được phát biểu như sau [6]: 1. Một cụm là một tập các thực thể (các đối tượng) giống nhau, và các thực thể ở các cụm khác nhau thì không giống nhau. 2. Một cụm là sự kết hợp của các điểm trong không gian thỏa mãn điều kiền là khoảng cách giữa hai điểm bất kỳ trong một cụm bé hơn khoảng cách giữa một điểm bất kỳ trong cụm đó với một điểm bất kỳ không không thuộc cụm. 3. Các cụm có thể được mô tả như là các vùng chứa các đối tượng có mật độ cao trong không gian nhiều chiều, được tách với các vùng chứa các đối tượng có mật độ thấp hơn. Một tập các đối tượng bao gồm dữ liệu thô cho quá trình phân cụm và có thể được biểu diễn dưới hai dạng chuẩn [6]: Ma trận dữ liệu, và ma trận không tương đồng. - 9 - Các hàm khoảng cách Có rất nhiều hàm được dùng để biểu diễn độ tương đồng giữa các đối tượng. Ở đây, chúng tôi chỉ trình bày một số các hàm đo tương đồng phổ biến hay còn gọi là các hàm khoảng cách. Khoảng cách tương đồng giữa hai mẫu thứ i và mẫu thứ k ký hiệu là d(i,k) phải thỏa mãn các tính chất sau: 1. d(i,i)=0 với mọi i. 2. d(i,k)=d(k,i) với mọi cặp (i,k). 3. d(i,k)>=0 với mọi cặp (i,k). Một số cách xác định hàm đánh giá độ tương đồng: Giả sử rằng chúng ta có một ma trận mẫu [x ij ] với x ij là giá trị của đặc trưng thứ j của mẫu i. tất cả các đặc trưng là liên tục và được ước lượng theo tỷ xích tỷ lệ. Hàm khoảng cách phổ biến là khoảng cách Minkowski [3] dùng để ước lượng độ bất tương đồng. Mẫu thứ i tương ứng với dòng thứ i của ma trận mẫu được ký hiệu là một vector cột x i . x i = ( x i1 ,x i2 , ,x in ) T ,i=1,2, ,n Với d là số đặc trưng, n là số lượng mẫu, T ký hiệu là vector chuyển vị. Khoảng cách Minkowski được định nghĩa như sau: d (i,k )= ( ∑ j= 1 d x ij − x kj  r ) 1/r với r>=1 Các hàm khoảng cách Minkowski thỏa mãn tính chất các tính chất sau: [...]... thuật phân cụm, bao gồm: 1.3.2 Phân cụm dựa vào phân hoạch Phương pháp phân cụm phân hoạch dựa trên ý tưởng ban đầu tạo ra k phân hoạch, sau đó lặp lại nhiều lần để phân bố lại các đối tượng dữ liệu giữa các cụm nhằm cải thiện chất lượng phân cụm - 11 1.3.3 Phân cụm dựa vào phân cấp Phương pháp phân cụm phân cấp dựa trên ý tưởng cây phân cấp để phân cụm dữ liệu Có hai cách tiếp cận đó là phân cụm dưới... trung nghiên cứu về ứng dụng của kỹ thuật phân cụm người sử dụng Web dựa trên mẫu truy cập Thông qua nghiên cứu, thực nghiêm, chúng tôi đã đạt được một số kết quả sau:  Khảo sát các kỹ thuật phân cụm trong khai phá dữ liệu, tập trung nghiên cứu kỹ thuật phân cụm trong khai phá sử dụng Web,  Nghiên cứu các pha tiền xử lý dữ liệu, phân cụm người sử dụng Web dựa trên mẫu truy cập Bước tiền xử lý dữ liệu... diễn các mẫu dữ liệu phù hợp với chuẩn của công cụ thực nghiệm) Bước 2: Phân cụm người sử dụng dựa trên mẫu truy cập:  Sử dụng công cụ WEKA, áp dụng một số kỹ thuật phân cụm tập dữ liệu  So sánh, đánh giá kết quả Mẫu truy cập của người sử dụng Web được chiết xuất từ các file nhật ký trên máy chủ Web, sau đó tổ chức vào các phiên đại diện cho các giai đoạn của sự tương tác giữa người sử dụng Web và... và phân cụm trên xuống (Top down) 1.3.4 Phân cụm dựa trên mật độ Phương pháp phân cụm dựa trên mật độ, căn cứ vào hàm mật độ của các đối tượng dữ liệu để xác định cụm cho các đối tượng 1.3.5 Phân cụm dựa trên lưới Phương pháp phân cụm dựa trên lưới, ý tưởng của nó là đầu tiên lượng hoá không gian đối tượng vào một số hữu hạn các ô theo một cấu trúc dưới dạng lưới, sau đó thực hiện phân cụm dựa trên. .. Thuật toán phân cụm K-medoids 1.4.3 Thuật toán EM (Expectation Maximization) 1.4.4 Thuật toán BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) 1.4.5 Thuật toán CURE( Clustering Using Representatives) 1.4.6 Thuật toán CHAMELEON - 13 - Chương 2 PHÂN CỤM NGƯỜI SỬ DỤNG WEB DỰA TRÊN MẪU TRUY CẬP 2.1 Phân cụm người sử dụng Web Sử dụng các kỹ thuật tiền xử lý dữ liệu, phân cụm để khám... máy chủ Web Mẫu này bao gồm các trang mà họ đã đến thăm, và thời gian họ đã dành trên mỗi trang Mỗi người sử dụng sau đó có thể được đại diện bởi một tập hợp gồm cặp thuộc tính ( URL truy cập, Thời gian truy cập) Từ mỗi cặp thuộc tính này, chúng ta xác định một mẫu người sử dụng Mục tiêu chính của phân cụm người sử dụng Web là để tìm ra các tri thức, mô hình hóa, qua đó khám phá các mô hình truy cập vào... truy cập của người sử dụng từ khối lượng lớn dữ liệu đăng nhập Web như để tạo ra các nhóm người sử dụng có các mẫu truy cập Web tương tự nhau, cung cấp tri thức cho việc cá nhân hóa các dịch vụ Web, phát hiện các hành vi xâm nhập bất hợp lệ, dự báo những hành vi của người dùng Việc nghiên cứu các giải pháp xử lý dữ liệu, cài đặt và ứng dụng các mô hình phân cụm và áp dụng các phương pháp phân cụm người. .. như xuất hiện một người sử dụng mới - Sử dụng nhật ký truy cập với các liên kết và cấu trúc liên kết site để xác định tiến trình duyệt Web của người dùng  Xác định phiên của người sử dụng: Phiên giao dịch người dùng là một tập giới hạn của các click người dùng theo một hoặc nhiều máy chủ Web Sau đây là các quy tắc được sử dụng để xác định phiên người sử dụng: - Nếu có một người dùng mới, có một phiên... Web trong khai phá sử dụng Web là một xu thế tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn cao 2.2 Phân cụm người sử người sử dụng Web dựa trên mẫu truy cập Từ bộ dữ liệu thô, để có thể trích chọn các tri thức hữu ích, dữ liệu cần qua quá trình tiền xử lý, tổ chức dữ liệu và biểu diễn phù hợp với định dạng để có thể tiến hành thực nghiệm phân cụm Tiếp theo đó, dữ liệu phù hợp sẽ được sử. .. chúng tôi sử dụng công cụ WEKA và bộ phân cụm EM để tiến hành phân cụm trên dữ liệu chưa gán nhãn Kết quả hệ thống trả về gồm 5 cụm riêng biệt Sau khi phân tích kỹ các mẫu có trong từng cụm, chúng tôi đánh giá và xác định 5 cụm này tương đương với 5 nhãn sau:  visitor: Những người sử dụng thông thường, truy nhập và đọc tin tức thông qua Internet - 20  editor (admin): Biên tập viên, sử dụng các chức . - Chương 2. PHÂN CỤM NGƯỜI SỬ DỤNG WEB DỰA TRÊN MẪU TRUY CẬP 2.1. Phân cụm người sử dụng Web Sử dụng các kỹ thuật tiền xử lý dữ liệu, phân cụm để khám. ứng dụng của kỹ thuật phân cụm người sử dụng Web dựa trên mẫu truy cập Web. Dựa trên những tiêu chuẩn khác nhau, người dùng Web có thể được phân cụm

Ngày đăng: 17/02/2014, 09:38

Xem thêm