Trong bài báo này, chúng tôi nghiên cứu khái quát một số kỹ thuật khai phá và logic mờ nhằm khai phá theo sử dụng Website dựa trên phân tích tập tin nhật ký - ghi lại h[r]
(1)PHÂN TÍCH TẬP TIN NHẬT KÝ SỬ DỤNG KỸ THUẬT KHAI PHÁ VÀ LOGIC MỜ
Nguyễn Văn Quân1*, Hoàng Tuấn Hảo1, Vũ Văn Cảnh1, Hồng Thế Triều2
Tóm tắt: Cùng với lượng liệu Website ngày tăng nhanh Internet,
trong năm gần lĩnh vực nghiên cứu khai phá liệu Website quan tâm Trong báo này, nghiên cứu khái quát số kỹ thuật khai phá logic mờ nhằm khai phá theo sử dụng Website dựa phân tích tập tin nhật ký - ghi lại hoạt động người dùng tương tác với Website Trong trình nghiên cứu thực kỹ thuật phân cụm mờ kết hợp luật mờ nhằm nâng cao hiệu kiểm tra tập liệu nhật ký từ máy chủ Webserver
Từ khóa: Khai phá Web, Logic mờ, Tập tin nhật ký, Fuzzy
1 GIỚI THIỆU
Trong năm gần với phát triển nhanh chóng khoa học kỹ thuật bùng nổ tri thức Kho liệu, nguồn tri thức nhân loại trở nên đồ sộ, vấn đề khai thác nguồn tri thức đặt thách thức lớn cho ngành cơng nghệ thông tin giới
(2)Mục tiêu khai phá tập tin nhật ký Webserver nhằm xác định mối quan hệ người dùng khía cạnh khác có liên quan Tính chất tự nhiên liệu tri thức tập tin nhật ký thơng tin để dự đốn thời gian, tuổi người dùng, trình độ văn hóa…thường thực kỹ thuật logic mờ Đây công cụ sử dụng để mơ hình hóa thơng tin liên quan đến khai phá Web
Trong báo này, chúng tơi trình bày tóm tắt số nghiên cứu sử dụng logic mờ khai phá liệu Web Với mục đích giải thích ba dạng khai phá liệu Web: Khai phá nội dung Web, khai phá cấu trúc Web khai phá theo sử dụng Web Sau tập trung vào khai phá theo sử dụng Web bao gồm nghiên cứu q trình cá nhân hóa xây dựng hồ sơ người dùng Web Chúng tơi tóm lược ứng dụng logic mờ số cơng trình nghiên cứu mơ tả số thí nghiệm sử dụng logic mờ khai phá liệu Web
2 KHAI PHÁ WEB
Có nhiều khái niệm khác khai phá Web, tổng quát hóa sau [16]: Khai phá Web việc sử dụng kỹ thuật khai phá liệu để tự động hóa q trình khám phá trích rút thơng tin hữu ích từ tài liệu, dịch vụ cấu trúc Web Nói cách khác khai phá Web q trình thăm dị thơng tin quan trọng, mẫu tiềm từ nội dung Web, từ thông tin truy cập Web, từ liên kết trang từ nguồn tài nguyên thương mại điện tử kỹ thuật khai phá liệu, giúp người trích rút tri thức, cải tiến trình thiết kế Website phát triển tốt lĩnh vực thương mại điện tử
Những thách thức gặp phải trình thu thập thông tin cần thiết: Số lượng liệu lớn, ngôn ngữ đa dạng, vấn đề chất lượng thông tin, phân bố liệu tảng khác cuối quan trọng thiếu cấu trúc liệu Web Từ đặc điểm trên, đặc biệt, liệu phi cấu trúc tính khơng đồng điểm khó khăn q trình khai phá Web Trong trình này, kỹ thuật khai phá liệu sử dụng để khám phá tự động trích chọn thông tin từ tài liệu dịch vụ Web [12]
Cooley đưa ba hình thức khai phá Web: Xuất phát từ nội dung, cấu trúc theo sử dụng [6]
(3)trúc liên kết [7][9] Cuối khai phá theo sử dụng Web, nội dung chúng tơi đề cập nghiên cứu Chúng tơi định nghĩa tiến trình khám phá tự động mẫu truy cập sử dụng dịch vụ Web, dựa hành vi người dùng tương tác với Web [10] Chúng tập trung thảo luận khai phá theo sử dụng Web phần
Hình 1. Phân loại khai phá Web 2.1 Khai phá theo sử dụng Web
Việc thu thập thơng tin người dùng có ý nghĩa quan trọng người thiết kế Website Thơng qua q trình khai phá lịch sử mẫu truy cập người dùng Web, không thông tin Web sử dụng mà nhiều đặc tính khác hành vi người dùng xác định Sự điều hướng đường dẫn người dùng Web mang lại giá trị thông tin mức độ quan tâm người dùng Web Dựa tiêu chuẩn khác người dùng Web phân cụm tri thức hữu ích lấy từ mẫu truy cập Web Nhiều ứng dụng giúp lấy tri thức Thông qua việc phát mối quan hệ người dùng có sở thích, quan tâm người dùng Web ta dự đốn xác người dùng cần gì, thời điểm dự đoán theo họ truy cập thơng tin
(4)Khai phá sử dụng Web khai phá truy cập Web (Web log) để khám phá mẫu người dùng truy cập vào Website Qua q trình phân tích khảo sát quy tắc việc ghi nhận lại trình truy cập Web ta chứng thực khách hàng thương mại điện tử, nâng cao chất lượng dịch vụ thông tin Internet đến người dùng, nâng cao hiệu suất hệ thống phục vụ Web Thêm nữa, phân tích q trình đăng nhập Web người dùng giúp cho việc xây dụng dịch vụ Web theo yêu cầu người dùng tốt Hiện nay, ta thường sử dụng công cụ khám phá mẫu phân tích mẫu Nó phân tích hành động người dùng, lọc liệu khai phá tri thức từ tập tin liệu cách sử dụng trí tuệ nhân tạo, khai phá liệu, tâm lý học lý thuyết thông tin Kiến trúc tổng quát trình khai phá theo sử dụng Web sau:
Hình 2. Kiến trúc tổng quát trình khai phá theo sử dụng Web 2.2 Những vấn đề khai phá theo sử dụng Web
Khai phá theo sử dụng Web có hai trình cần thực hiện: Thứ Web-log cần làm sạch, định nghĩa, tích hợp biến đổi; Thứ hai phân tích khai phá Có nhiều vấn đề khó khăn nảy sinh cấu trúc vật lý Website khác từ mẫu người dùng truy xuất khó để tìm phiên người dùng, phiên làm việc thao tác
(5)Sự cá nhân hóa Website nhìn nhận từ hai quan điểm: Phía cơng ty phía người dùng Quan điểm công ty mối quan hệ tiếp thị định danh lớp khách hàng Quan điểm người dùng mối quan hệ khuyến nghị thu thập thơng tin Q trình mơ tả nhóm hành vi thực người dùng, hành động xử lý để cải thiện Website theo sở thích người dùng [22] Phần thơng tin lưu hồ sơ người dùng Hồ sơ người dùng định nghĩa biểu diễn tri thức thơng tin sở thích người dùng [20], tác giả đề xuất hai dạng hồ sơ khác nhau: Hồ sơ đơn biểu diễn trích xuất liệu từ tài liệu cho người dùng quan tâm; hồ sơ mở rộng có chứa tri thức bổ sung người dùng tuổi, trình độ ngoại ngữ, quốc tích số thơng tin bổ sung khác
Đối với việc thu thập hồ sơ phân cụm quy tắc kết hợp thường áp dụng Thông qua q trình phân cụm, nhóm khách hàng liệu với đặc tính tương tự tự động khởi tạo thu thập mà khơng có phân loại trước Hồ sơ người dùng bắt nguồn từ nhóm sử dụng để dẫn chiến lược tiếp thị theo nhóm [23] Các quy tắc kết hợp khám phá kết hợp tương quan mặt hàng diện mặt hàng nhóm giao dịch ngụ ý có có mặt mặt hàng khác [4] Một ứng dụng trực tiếp quy tắc kết hợp để khai phá người dùng web xuất phát từ mối quan hệ ghé thăm người dùng với mơ hình định hướng định cho website
Sự bất tiện hồ sơ Website thiếu tri thức danh tính người dùng Hai tình khác gia tăng: Thứ nhất, người dùng chưa đăng ký hồ sơ người dùng cung cấp chứng danh tính liên kết với nhóm mạng xã hội Một hồ sơ chung sau ấn định cho người dùng Sự tùy chọn lưu trữ hồ sơ áp dụng cho Website để người dùng đăng ký
Tình thứ hai người dùng đăng ký, người dùng nhận diện theo phương pháp đó, Website thay đổi tùy theo sở thích người dùng Hệ thống lưu trữ lại dấu vết người dùng lần ghé thăm trước với hồ sơ người dùng Để mơ tả đặc điểm nhóm người dùng với hành vi tương đồng, thực theo phương pháp phân cụm [20]
(6)yêu cầu tiếp nhận, đối tượng yêu cầu thông tin phiên làm việc người dùng, ví dụ:
Hình 3 Minh họa nội dung tập tin nhật ký. 2.3 Một số cơng trình trước
Trong [22] khái quát trình cá nhân hóa dựa khai phá người dùng Website, kỹ thuật khai phá liệu phân cụm để khám phá nhóm người dùng sử dụng Hơn nữa, quy tắc kết hợp sử dụng để tìm mối quan hệ quan trọng mục người dùng quan tâm dựa mẫu thông tin dẫn Một đề xuất khác phương pháp thang phân cụm lấy ý tưởng từ hệ thống miễn dịch học tự nhiên cho phép học liên tục tự đáp ứng với mẫu [20]
WebMiner, hệ thống tiếng phát triển cho cá nhân hóa dựa mơ hình hành vi điều hướng người dùng [6] Bằng cách nhóm Website tham khảo, hệ thống tạo giao dịch từ quy tắc kết hợp khám phá Một hệ thống liên quan khác để cá nhân hóa biểu diễn [5], tập tin nhật ký máy chủ lưu trữ phân tích Từ giao dịch, mẫu hành vi trích xuất để mơ tả phương thức người dùng lướt web theo phương pháp phân cụm quy tắc kết hợp Trong [24], tác giả đề xuất cấu trúc hướng dẫn cá nhân hóa đáp ứng Website hồ sơ người dùng truy cập lựa chọn thông qua tập tin nhật ký Website
Tiếp theo, dẫn giải số đề xuất thực lĩnh vực kết nối với logic mờ
3 KHAI PHÁ WEB VỚI LOGIC MỜ
(7)mềm nghiên cứu áp dụng logic mờ, giải thuật di truyền, mạng nơ ron nhân tạo tập thô [2][15] Trong khai phá Web, logic mờ trợ giúp việc biểu diễn người dùng lựa chọn theo định hướng liệu, nâng cao linh hoạt hệ thống tạo giải pháp rõ ràng [21]
Gần đây, kỹ thuật áp dụng vào nhiều lĩnh vực khai phá liệu khác lựa chọn tài liệu [26] khai phá Web Trong khai phá Web, kỹ thuật thường sử dụng phân cụm mờ luật kết hợp mờ Các kỹ thuật sử dụng để tìm khuynh hướng dẫn chung người dùng xây dựng hồ sơ người dùng
Các thuật toán phân cụm mờ FCM (Fuzzy C-Means), FCTM (Fuzzy-C Trimmed Medoids), FCLMedS (Fuzzy-C Medians) sử dụng để khai phá nội dung người dùng website [21] Một ứng dụng khác với phân cụm mờ sử dụng để khai phá cấu trúc người dùng website [23] Các tác giả áp dụng thuật tốn “tích tụ cạnh tranh liệu quan hệ” (CARD - Competitive Agglomeration of Relational Data) để nhóm phiên người dùng khác Với mục đích này, khơng mục tập tin nhật ký xem xét mà tính tốn giống hai phiên người dùng Mục tiêu ứng dụng nhằm xác định phiên người dùng từ truy cập người dùng vào Website cấu trúc
Cùng với phân cụm mờ, kỹ thuật ngày sử dụng khai phá Website luật kết hợp mờ Một ứng dụng kỹ thuật đề xuất [13], đó, sàng lọc truy vấn từ nhóm khởi tạo tài liệu dấu vết lấy từ Website thực Các văn giao dịch xây dựng với giá trị mờ Mục đích cơng việc cung cấp cho hệ thống khả tái lập truy vấn sử dụng công nghệ khai phá
Một cách tiếp cận khác sử dụng luật kết hợp mờ, [24], tác giả đề xuất kiến trúc hệ thống dự đoán truy cập Website Các luật kết hợp hệ mục mờ sử dụng để cải thiện độ xác hiệu suất dự báo đường dẫn truy cập Website
3.1 Logic mờ hồ sơ người dùng