Phân tích hành vi sử dụng web của người dùng

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - ĐHQGHN KHOA CÔNG NGHỆ THÔNG TIN CÔNG TRÌNH DỰ THI GIẢI THƯỞNG “SINH VIÊN NGHIÊN CỨU KHOA HỌC” NĂM 2014 Tên công trình: Phân tích hành vi sử dụng web của người dùng Họ và tên sinh viên: Đỗ Thành Trung Nam, Nữ: Nam Lớp: K55C-CLC Khoa: Công nghệ thông tin Người hướng dẫn: ThS. Vũ Quang Dũng Tóm tắt công trình Internet ngày một phát triển, cùng với đó là lượng thông tin khổng lồ. Khi người dùng sử dụng internet để truy cập vào các website, đặt biệt là các website tin tức, người dùng luôn muốn xem những vấn đề theo sở thích cá nhân của mình. Vậy vấn đề đặt ra là làm sao dự đoán được và đưa ra được gợi ý cho người dùng những tin tức mà người dùng có thể quan tâm. Công trình này thực hiện việc phân tích dữ liệu từ những thông tin bắt được về thao tác của người dùng đối với website để đưa ra những dữ liệu cần thiết cho việc phán đoán. 2 Mục lục Tóm tắt công trình......................................................................................................................2 Mục lục.......................................................................................................................................3 1.Đặt vấn đề................................................................................................................................4 2.Giải quyết bài toán..................................................................................................................4 2.1.Mô hình tổng quát............................................................................................................4 2.2.Cơ sở lý thuyết.................................................................................................................5 2.2.1.ABC model (Antecedent-Behavior-Consequence)...................................................5 2.2.2.Phân lớp Bayes..........................................................................................................5 2.3.Tiền xử lý dữ liệu.............................................................................................................6 2.4.Phân tích dữ liệu...............................................................................................................6 2.4.1.Nhóm chủ đề (category) theo thời gian.....................................................................6 2.4.2.Nhóm dữ liệu theo người dùng..................................................................................7 2.4.3.Xác định các tin nổi bật (được truy cập nhiều).........................................................8 2.5.Làm mịn...........................................................................................................................9 2.5.1.Trích xuất từ khóa.....................................................................................................9 2.5.2.Đánh trọng số............................................................................................................9 2.6.Kết quả, ý nghĩa..............................................................................................................10 3.Kết luận.................................................................................................................................11 3.1.Hạn chế còn tồn tại.........................................................................................................11 3.2.Hướng phát triển.............................................................................................................11 Tài liệu tham khảo....................................................................................................................12 3 1. Đặt vấn đề Để có thể phán đoán và đưa ra gợi ý hợp lý cho tin tức mà người dùng có thể quan tâm, việc phân tích dữ liệu tương tác người dùng là vô cùng quan trọng. Với dữ liệu thu thập được từ tương tác người dùng làm sao để có thể biết được người dùng nào thích đọc loại tin nào, vào khoảng thời gian nào hay xu hướng tin tức đọc nhiều của mọi người là gì. Vậy bài toán đặt ra phân tích từ những dữ liệu tương tác của người dùng, làm sao ta có thể nhóm được người dùng cũng như dữ liệu thành các nhóm sở thích và cùng với những luật đưa ra có thể dự đoán một cách chính xác những vấn đề mà người dùng quan tâm. Báo cáo này gồm 3 phần chính: Phần 1: Đặt vấn đề. Phần 2: Giải quyết bài toán. Phần 3: Kết luận. 2. Giải quyết bài toán 2.1. Mô hình tổng quát Ta có mô hình tổng quát hệ thống phân tích dữ liệu người dùng như sau: Hình 1: Mô hình tổng quát luồng hoạt động Trong đó, vai trò của từng phần là: - Tiền xử lý: đưa ra các form theo ABC model để làm chuẩn cho việc phân tích. - Phân tích dữ liệu: Từ thông tin thu được về thao tác người dùng, tiến hành phân tích để đưa ra kết quả theo form đã đưa ra. - Đưa vào CSDL: Đưa kết quả đã phân tích được vào cơ sở dữ liệu. - Làm mịn: Sử dụng phân lớp Bayes để xác định category chính xác hơn cho các tin tức sau đó cập nhật lại cơ sở dữ liệu. Dữ liệu dùng để phân tích có thể lưu trong cơ sở dữ liệu dưới dạng như sau: 4 Hình 2: Cấu trúc cơ sở dữ liệu dùng cho phân tích Trong đó: - Bảng Users: lưu trữ dữ liệu của người dùng. - Bảng Articles: lưu trữ dữ liệu của các tin bao gồm các trường chính: tiêu đề, chủ đề, thời gian post và url của tin đó. - 2.2. Bảng Requests: lưu trữ dữ liệu về các request của người dùng bao gồm các trường chính: định danh người dùng, định danh thông tin và thời gian yêu cầu thông tin. Cơ sở lý thuyết 2.2.1. ABC model (Antecedent-Behavior-Consequence) ABC model (tiền đề - hành vi - kết quả). Tiền đề là sự việc gì đó xảy ra trước khi có hành vi, hành vi lại đưa ra một kết quả nhất định. Theo ABC model, ta có thể đưa ra dự đoán kết quả từ một tiền đề nào đó đã xảy ra. 2.2.2. Phân lớp Bayes Phân lớp Bayes dựa vào khung xác suất để xây dựng bộ phân lớp. Xác xuất điều kiện: Với 2 biến cố A và C: Xác suất có điều kiện của C phụ thuộc A: P(C|A) = Trong đó: - P(A,C) là xác suất xuất hiện cả A và C. - P(A) là xác suất xuất hiện A. Định lý Bayes: P(C|A) = Thuật toán phân lớp Bayes áp dụng trong hệ thống trong việc phân loại chủ đề (category) đối với các tin tức dạng văn bản. Sử dụng xác suất có điều kiện giữa keyword và category, thuật toán cho phép xác định một cách tương đối category của tin tức đang xét. 5 2.3. Tiền xử lý dữ liệu Tại bước này, ta đưa ra các form theo ABC model để dựa vào đó làm mục tiêu và mẫu chuẩn cho việc thống kê và phân tích ở bước sau. Cụ thể ta có một số form như sau. - Form hiển thị tần suất truy cập theo từng ngày trong tháng. Bảng 1: Bảng hiển thị tần suất xem tin của từng category theo các ngày trong tháng Time 1 2 3 4 5 … 26 27 28 29 Category Category1 Category2 Category3 Category4 Category5 … … … … … - Form hiển thị tần suất truy cập theo khoảng thời gian trong ngày. Bảng 2: Bảng hiển thị tần suất xem tin theo từng khoảng thời gian trong ngày Time 0-2 2-4 4-6 6-8 8-12 12-14 1416182016 18 20 22 Category 2224 Category1 Category2 Category3 Category4 Category5 - Form hiển thị tần suất truy cập của mỗi người dùng. Bảng 3: Bảng hiện thị tần suất xem tin của mỗi người dùng đối với các category. Category Category1 Category2 Category3 Category4 Category5 User User1 User2 User3 User4 2.4. Phân tích dữ liệu 2.4.1. Nhóm chủ đề (category) theo thời gian Ta chia một ngày ra làm 12 khoảng ứng với 24 tiếng. Từ dữ liệu request của người dùng, ta biết được tin tức request và thời gian request. Từ dữ liệu tin tức, ta biết được category của bài đó. Tổng hợp lại ta có thể đưa ra số lần truy cập vào từng category trong từng khoảng thời gian và lưu vào cơ sở dữ liệu như hình 4. Với dữ liệu phân tích được, ta có thể xác định được khoảng thời gian nào, người dùng thích truy cập những loại tin nào để đưa ra dự đoán hợp lý. Ta có sơ đồ luồng hoạt động như sau. 6 Hình 3: Luồng hoạt động của Nhóm chủ đề theo thời gian Trong đó: - Bước 1: Lấy thông tin request của người dùng từ cơ sở dữ liệu, bao gồm: định danh người dùng, định danh tin tức và thời gian truy cập. - Bước 2: Xác định khoảng thời gian và category của request. - Bước 3: Kiểm tra xem hang có cặp thời gian và category đó đã tồn tại trong bảng CSDL hay chưa. Nếu đã tồn tại thì tang số lần truy cập của hang đó lên 1. Ngược lại thì tạo một hang mới với thời gian và category đã lấy được cùng số lần truy cập gán là 1. Hình 4: Cấu trúc bảng dữ liệu lưu trữ tần suất truy cập từng category theo thời gian. Hình 4 biểu diễn cấu trúc bảng cơ sở dữ liệu dùng để lưu trữ số lần truy cập theo thời gian của từng category. Trong đó: - cbt_id: lưu trữ id của cặp duration – category. - cbt_category: lưu trữ tên category của tin được request. - cbt_duration: lưu trữ khoảng thời gian trong ngày. - cbt_numberaccess: lưu trữ số lần của truy cập của category trong khoảng thời gian ứng với 2 trường cbt_category và cbt_duration. 2.4.2. Nhóm dữ liệu theo người dùng Từ dữ liệu request của người dùng, ta có thể biết được người dùng nào request tin tức nào rồi từ đó đưa ra được loại tin nào được người dùng thường xuyên truy cập nhất. Tương tự với nhóm chủ theo thời gian ta có sơ đồ luồng hoạt động như sau: 7 Hình 5: Luồng hoạt động của Nhóm dữ liệu theo người dùng Trong đó: - Bước 1: Lấy thông tin request của người dùng từ cơ sở dữ liệu, bao gồm: định danh người dùng và định danh tin tức. - Bước 2: Xác định user và category của request. - Bước 3: Kiểm tra xem hàng có cặp user và category đó đã tồn tại trong bảng CSDL hay chưa. Nếu đã tồn tại thì tăng số lần truy cập của hàng đó lên 1. Ngược lại thì tạo một hang mới với user và category đã lấy được cùng số lần truy cập gán là 1. Hình 6: Cấu trúc bảng dữ liệu tần suất truy cập từng category của mỗi người dùng Hình 6 biểu diễn cấu trúc bảng lưu trữ số lần truy cập của người dùng đối với mỗi category. Trong đó: - cbu_id: lưu trữ id của đối tượng. - cbu_user: lưu trữ user id của người dùng gửi request. - cbu_category: lưu trữ category được request. - cbu_numberaccess: lưu trữ số lần truy cập vào category của user ứng với 2 trường cbu_user và cbu_category. 2.4.3. Xác định các tin nổi bật (được truy cập nhiều) Đối với mỗi category, lại tìm ra những tin tức nổi bật trong ngày tương ứng với những tin có số lượng truy cập nhiều hơn các tin khác. Tìm ra những tin nổi bật đồng nghĩa với những tin đó đang nóng và nó thu hút sự chú ý của mọi người. Trường article_numberaccess được thêm vào bảng Articles để lưu trữ số lần truy cập của thông tin đó. 8 Hình 7: Bảng lưu trữ dữ liệu về các tin tức. 2.5. Làm mịn 2.5.1. Trích xuất từ khóa Đầu vào: tập dữ liệu Dtrain gồm các tin tức dạng văn bảng đã được phân chia category sẵn. Đầu ra: danh sách các từ khóa cùng số lần xuất hiện trong mỗi category. Từ nội dung của mỗi trang tin tức, ta tiến hành trích ra các từ khóa và đếm số lần xuất hiện của từ khóa đó. Mô hình luồng hoạt động được thể hiện như hình 6. Hình 8: Mô hình luồng hoạt động trích xuất từ khóa Trong đó vai trò của các module là: - Tách từ khóa: tự nội dung tin tức, tách ra các từ với độ dài khác nhau trong bài. - Chuẩn hóa từ: chuẩn hóa từ, loại bỏ các dấu câu còn xót từ quá trình tách từ khóa. - Đếm số lần xuất hiện: đếm số lần xuất hiện của từ khóa đó trong mỗi category. - Lọc từ khóa: bỏ đi các từ khóa ít xuất hiện hoặc không quan trọng. 2.5.2. Đánh trọng số Từ số lần xuất hiện của các từ khóa trong mỗi category, ta tinh tỉ lệ và đưa ra trọng số của từng từ khóa trong mỗi category tương ứng. Sau đó lưu vào cơ sở dữ liệu như hình 7. 9 Hình 9: Bảng cơ sở dữ liệu keyword Trong đó: - keyword_id: lưu trữ id của keyword. - keyword_name: nội dung từ khóa. - keyword_category: category có xuất hiện từ khóa. - keyword_weight: trọng số của từ khóa đối với category được lưu trữ trong trường keyword_category. 2.6. Kết quả, ý nghĩa Kết quả công trình đạt được đó là nền tảng cơ bản để có thể xác định sở thích truy cập tin tức của người dung, kết hợp với việc đặt ra các luật để từ đó xây dựng hệ thống dự đoán, gợi ý các tin tức mà người dùng có thể quan tâm. Một số kết quả đã phân tích được trong thực nghiệm: Hình 10: Form biểu diễn số lần truy cập category theo thời gian 10 Hình 11: Form biểu diễn số lần truy cập từng category theo từng ngày 3. Kết luận 3.1. Hạn chế còn tồn tại Bên cạnh các kết quả đạt được vẫn còn nhiều hạn chế còn tồn tại: - Việc phân tích chưa xét đến liên kết giữa các tin tức để có thể đưa ra các tin liên quan. - Keyword chưa được lọc tối ưu, vẫn còn tồn tại các từ không hợp lệ, không có nghĩa. - Keyword chưa phân biệt được danh từ chung và danh từ riêng. 3.2. Hướng phát triển Dựa vào các kết quả đạt được, hướng phát triển sắp tới của công trình sẽ tập trung vào: - Xác định liên kết (dấu trang) của tin tức. - Hoàn thiện việc trích xuất keyword. - Ghép bộ trích xuất keyword và bộ tiền xử lý để có thể đưa ra các keyword theo sở thích người dùng. - Xây dựng hệ thống dự đoán sở thích người dùng. 11 Tài liệu tham khảo [1] Gerald Stermsek, Mark Strembeck, Gustaf Neumann. A User Profile Derivation Approach based on Log-File Analysis. [2] Jin Young Kim , Kevyn Collins-Thompson, Paul N. Bennett, Susan T. Dumais. Characterizing Web Content, User Interests, and Search Behavior by Reading Level and Topic. 12 [...]... Vi c phân tích chưa xét đến liên kết giữa các tin tức để có thể đưa ra các tin liên quan - Keyword chưa được lọc tối ưu, vẫn còn tồn tại các từ không hợp lệ, không có nghĩa - Keyword chưa phân biệt được danh từ chung và danh từ riêng 3.2 Hướng phát triển Dựa vào các kết quả đạt được, hướng phát triển sắp tới của công trình sẽ tập trung vào: - Xác định liên kết (dấu trang) của tin tức - Hoàn thiện vi c... thể đưa ra các keyword theo sở thích người dùng - Xây dựng hệ thống dự đoán sở thích người dùng 11 Tài liệu tham khảo [1] Gerald Stermsek, Mark Strembeck, Gustaf Neumann A User Profile Derivation Approach based on Log-File Analysis [2] Jin Young Kim , Kevyn Collins-Thompson, Paul N Bennett, Susan T Dumais Characterizing Web Content, User Interests, and Search Behavior by Reading Level and Topic 12 ... Khi người dùng sử dụng internet để truy cập vào website, đặt biệt website tin tức, người dùng muốn xem vấn đề theo sở thích cá nhân Vậy vấn đề đặt dự đoán đưa gợi ý cho người dùng tin tức mà người. .. đưa gợi ý hợp lý cho tin tức mà người dùng quan tâm, vi c phân tích liệu tương tác người dùng vô quan trọng Với liệu thu thập từ tương tác người dùng để biết người dùng thích đọc loại tin nào, vào... hướng tin tức đọc nhiều người Vậy toán đặt phân tích từ liệu tương tác người dùng, ta nhóm người dùng liệu thành nhóm sở thích với luật đưa dự đoán cách xác vấn đề mà người dùng quan tâm Báo cáo

Định dạng
Số trang	12
Dung lượng	484,5 KB