1. Trang chủ
  2. » Giáo Dục - Đào Tạo

PHÂN LOẠI NGƯỜI DÙNG WEB sử DỤNG kỹ THUẬT SO SÁNH CHUỖI (tt)

6 73 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 557,05 KB

Nội dung

TẠP CHÍ KHOA HỌC ĐẠI HỌC MỞ TP.HCM – SỐ 55 (4) 2017 12 PHÂN LOẠI NGƯỜI DÙNG WEB SỬ DỤNG KỸ THUẬT SO SÁNH CHUỖI LƯU VĨNH TRUNG Trường Đại học Mở Thành phố Hồ Chí Minh – trung.lv@ou.edu.vn (Ngày nhận: 17/03/2017; Ngày nhận lại: 11/04/2017; Ngày duyệt đăng: 08/05/2017) TÓM TẮT Ngày với phát triển thương mại điện tử, nhu cầu tìm hiểu sở thích người dùng để tối ưu hóa lợi nhuận ngày tăng Sở thích thể qua hành vi người dùng trình duyệt web ứng dụng liên quan thương mại điện tử khác Bài báo trình bày cách tiếp cận sử dụng kỹ thuật so sánh chuỗi phiên duyệt web để đánh giá tương tự hành vi người dùng phân loại họ Kết phân loại sử dụng để dự đốn hành vi người dùng web thời gian thực, có đề xuất duyệt web phù hợp với loại người dùng Từ khóa: Khai phá liệu web; so sánh chuỗi; phân loại người dùng; thương mại điện tử Web user segmentation using sequence alignment ABSTRACT Nowadays, with the rapid advances in e-commerce, user interest understanding becomes more and more essential in order to benefit the business Users reveal this kind of interest through their behavior during their sessions in e-commerce applications In this paper, we present the approach using sequence alignment for web sessions to evaluate the user behavior similarity in order to segment them The segmentation result is applicable for real-time web prediction and recommendation Keywords: Web mining; sequence alignment; user segmentation; e-commerce Giới thiệu Các chiến lược tiếp thị Internet dựa hành vi người dùng nhận quan tâm ngày lớn doanh nghiệp thương mại điện tử Hoạt động chiến lược dạng dựa việc thích nghi ứng dụng thương mại điện tử với hành vi người dùng thời gian thực, họ truy cập ứng dụng Để đạt mục đích này, cơng cụ tính tốn nhanh tương tự phiên truy cập thiết yếu, nhằm xác định người dùng thuộc nhóm tương ứng Mức độ tương tự sử dụng để gom nhóm phiên truy cập, qua phân loại người dùng web (Cooley, R cộng sự, 1997) Phiên truy cập xem chuỗi kiện, nên để đơn giản hóa phần trình bày báo này, chúng tơi sử dụng chuỗi tự AB-C-D-E để đại diện cho chuỗi trang web thăm viếng phiên truy cập Kỹ thuật so sánh chuỗi ứng dụng từ lâu Công nghệ Sinh học ngành liên quan, nhằm tìm đoạn tương tự chuỗi RNA, ADN protein (Hình 1) Hai hướng tiếp cận kỹ thuật so sánh toàn cục (global alignment) so sánh cục (local alignment) để đánh giá cách toàn diện tương tự chuỗi Hai thuật toán tiêu biểu áp dụng rộng rãi, đại diện cho so sánh toàn cục cục Needleman-Wunsh (Needleman, S.B cộng sự, 1970) Smith-Waterman (Smith, T.F., 1981; Zahid, S.K., 2015) KỸ THUẬT – CÔNG NGHỆ 13 Hình So sánh chuỗi Cơng nghệ Sinh học nhằm phát mức độ tương tự Phương pháp nghiên cứu Như đề cập, so sánh toàn cục so sánh cục đánh giá mức độ tương tự chuỗi theo cách khác Needleman-Wunsh (NW) có xu hướng tìm kiếm tương tự tổng quát suốt chiều dài chuỗi, thuật tốn hiệu chuỗi có chiều dài tương đương (Hình 2) Smith-Waterman (SW), ngược lại, tập trung vào vùng tương tự hai chuỗi nên thích hợp với chuỗi có chiều dài chênh lệch (Hình 3) ABABCDEF_GHGH _ _ABC_EFGGH_ _ ABABCDEFGHGH A_ _BC_EFG_ GH Hình So sánh chuỗi cục Hình So sánh chuỗi tồn cục Trong báo này, để đánh giá mức độ tương tự hai chuỗi cho thuật tốn, chúng tơi dùng thang đo +1 cho cặp phần tử giống -1 cho cặp phần tử khác so sánh chuỗi sử dụng NW Với SW, thang đo tương ứng +2 -1 tương ứng, SW tập trung vào vùng tương tự rời rạc hai chuỗi Với thang đo này, khác biệt cách so sánh chuỗi thể rõ ví dụ sau (Hình 4, 5, 6, 7, 8): ABCDEFGHIJK A Hình So sánh hai chuỗi có độ dài chênh lệch có phần tử tương tự, kết SW = AB AB Hình So sánh hai chuỗi trùng lặp, kết NW = ABCD ABCE Hình So sánh hai chuỗi có độ dài có phần tử tương tự, kết NW = TẠP CHÍ KHOA HỌC ĐẠI HỌC MỞ TP.HCM – SỐ 55 (4) 2017 14 Cặp chuỗi hình có độ dài chênh lệch có phần tử chung Trong hai cặp chuỗi hình có độ dài tương đương có nội dung trùng lặp nhiều phần tử tương tự Tuy nhiên đánh giá độ tương tự của SW cho cặp chuỗi hình NW cho hai cặp chuỗi hình giống Điều cho thấy khác biệt hai thuật toán đánh giá độ tương tự cặp chuỗi Một ví dụ khác khác biệt trình bày hình Hai cặp chuỗi có điểm NW = 0, điểm SW cặp chuỗi hình (4) cao cặp chuỗi hình (3) độ liên tục phần tử tương tự hình cao ABCD XBCY ABDC XBYC Hình So sánh hai chuỗi có độ dài tương đương có phần tử tương tự theo thứ tự, kết SW = 4, NW = Hình So sánh hai chuỗi có độ dài tương đương có phần tử tương tự theo thứ tự, kết SW = 3, NW = Cặp chuỗi để so sánh có độ dài khác biệt, NW cho thấy không phù hợp thuật giải việc đánh giá độ tương tự Như trình bày Bảng 1, NW đánh giá cặp (ABC, BCD) có độ tương tự thấp (ABC, ABCDEFGHIJKLMNO) Do đó, NW cần kết hợp với thuật giải khác tập trung vào tương tự cục để có kết tối ưu phù hợp với ngữ cảnh phiên truy cập web Bảng Độ tương tự đo NW số cặp chuỗi có độ dài khác biệt ABCDEFGHIJKLMNO ABC BCD ABCDPFQHRJSLTNU AAAAAAAAABCD 3.0 ABCDEFGHIJKLMNO ABC 3.0 BCD 3.0 ABCDPFQHRJSLTNU 3.0 3.0 AAAAAAAAABCD -10.2 3.0 3.0 -10.2 3.0 2.99 3.0 2.99 3.0 2.99 2.99 Chúng đề xuất kết hợp NW SW việc đánh giá tương tự cặp chuỗi đại diện cho phiên truy cập web người dùng Để chứng minh cho ưu điểm kết hợp NW SW thay ứng dụng riêng lẻ, chúng tơi đưa kết độ tinh khiết (purity) cụm (cluster) ba trường hợp: Ứng dụng NW -10.2 -10.2 Ứng dụng SW Ứng dụng kết hợp NW SW Độ tinh khiết cụm cho thấy hiệu thuật toán phân cụm Thuật toán hiệu quả, phần tử cụm đồng nhất, độ tinh khiết cụm cao Hình minh họa độ tinh khiết ba cụm, với phần tử đồng có màu giống KỸ THUẬT – CƠNG NGHỆ Hình Purity = 5/6 15 Purity = 4/6 Kết Như đề xuất phần trước, thực nghiệm ứng dụng riêng lẻ kết hợp NW SW liệu người dùng trích xuất từ website http://www.campusfonderie.uha.fr/ Dịch vụ triển khai phía back-end trang web cho phép thu thập liệu phiên truy cập, trang thăm viếng, thời gian, thời điểm… Purity = 3/5 tương ứng, trả log file với định dạng csv, txt… Log file làm (cleaning) để loại trừ liệu bị lỗi/không hợp lệ trước áp dụng thuật toán clustering phân cụm Log file bao gồm nhiều phiên truy cập, phiên chứa trang web viếng thăm, sau ví dụ rút gọn phiên truy cập ghi nhận log file: Mã phiên truy cập URLs 000001 http://www.campus-fonderie.uha.fr/fr/droit/ 000001 http://www.campus-fonderie.uha.fr/fr/economie-et-societe/ 000001 http://www.campus-fonderie.uha.fr/fr/management/ 000001 http://www.campus-fonderie.uha.fr/fr/management-interculturel/ Để tăng hiệu thuật toán clustering số lượng URL xử lý, URL đại diện chữ số Ví dụ, phiên truy cập 000001 bao gồm URL 1_2_3_4 Kết độ tinh khiết cụm, sau ứng dụng riêng lẻ kết hợp NW SW log file gồm 2000 phiên truy cập, trình bày Bảng 2: Bảng Kết độ tinh khiết cụm qua ứng dụng riêng lẻ kết hợp NW SW Điểm NW > ¼ độ dài chuỗi dài Độ tinh khiết cụm 81% Điểm SW gấp đôi độ dài chuỗi ngắn 63% Điểm NW > ¼ độ dài chuỗi dài điểm SW gấp đôi độ dài chuỗi ngắn 92% 16 TẠP CHÍ KHOA HỌC ĐẠI HỌC MỞ TP.HCM – SỐ 55 (4) 2017 Hình 10, 11, 12 minh họa kết phân cụm NW, SW kết hợp NW SW liệu gồm 32 phiên truy cập đại diện Sau áp dụng NW SW riêng lẻ kết hợp lọc, số phiên truy cập tương ứng hình 10, 11, 12 26, 32 23 Việc áp dụng NW khiến phiên truy cập tương tự cách toàn cục, 10_8_1_ 9_ 2_ 1_ 2_ 3_ 4_ ví dụ khơng tương tự cục so với phiên truy cập khác Ngược lại, SW khiến 10_ 1_ 12_ 13_ 4_ 9_ 14, 9_3_4, 11_11_11, 10_8_15_10, 10_8_1_9_2_4 phiên truy cập khơng có tương tự tồn cục so với phiên lại, xuất phân cụm Còn kết hợp NW SW tối ưu việc gom nhóm phiên truy cập, số phiên chọn lọc phiên tương tự tồn cục cục Hình 10 Kết phân cụm hierarchical clustering điểm NW > ¼ độ dài chuỗi dài Hình 11 Kết phân cụm hierarchical clustering điểm SW gấp đôi độ dài chuỗi ngắn KỸ THUẬT – CÔNG NGHỆ 17 Hình 12 Kết phân cụm hierarchical clustering điểm NW > ¼ độ dài chuỗi dài điểm SW gấp đôi độ dài chuỗi ngắn Kết luận Kỹ thuật so sánh chuỗi sử dụng phổ biến Công nghệ Sinh học, ứng dụng việc phân cụm phiên truy cập web để tìm nhóm người dùng tương tự (Wang cộng sự, 2002) Tuy nhiên, kỹ thuật so sánh chuỗi vốn không tạo để sử dụng liệu web, cần phải phát triển tối ưu cho mục tiêu Cách tiếp cận dựa kết hợp hai kỹ thuật so sánh chuỗi toàn cục cục bộ, mà đại diện Needleman-Wunsh Smith-Waterman, qua thực nghiệm chứng tỏ hiệu thực tế làm việc liệu phiên truy cập người dùng web Chúng tơi có kế hoạch phát triển thang đo thức dựa kết hợp hai kỹ thuật so sánh chuỗi toàn cục cục này, để việc phân cụm phiên truy cập web, qua tự động gom nhóm người dùng, nhanh chóng hiệu với lượng liệu ngày lớn từ thiết bị sử dụng Internet phong phú nay Tài liệu tham khảo Cooley, R., Mobasher, B., & Srivastava, J (1997) Grouping web page references into transactions for mining world wide web browsing patterns IEEE Knowledge and Data Engineering Exchange Workshop Proceedings, 2-9 Needleman, S.B., & Wunsch, C.D (1970) A general method applicable to the search for similarities in the amino acid sequence of two proteins Journal of molecular biology, 48(3), 443-453 Smith, T.F., & Waterman, M.S (1981) Identification of common molecular subsequences Journal of molecular biology, 147(1), 195-197 Wang, W., & Zaiane, O.R (2002) Clustering web sessions by sequence alignment Database and Expert Systems Applications Proceedings, 394-398 Zahid, S K., Hasan, L., Khan, A A., & Ullah, S (2015) A novel structure of the Smith-Waterman Algorithm for efficient sequence alignment Digital Information, Networking, and Wireless Communications, 6-9 ... ¼ độ dài chuỗi dài điểm SW gấp đôi độ dài chuỗi ngắn Kết luận Kỹ thuật so sánh chuỗi sử dụng phổ biến Công nghệ Sinh học, ứng dụng việc phân cụm phiên truy cập web để tìm nhóm người dùng tương... cộng sự, 2002) Tuy nhiên, kỹ thuật so sánh chuỗi vốn không tạo để sử dụng liệu web, cần phải phát triển tối ưu cho mục tiêu Cách tiếp cận dựa kết hợp hai kỹ thuật so sánh chuỗi toàn cục cục bộ,... cập người dùng web Chúng tơi có kế hoạch phát triển thang đo thức dựa kết hợp hai kỹ thuật so sánh chuỗi toàn cục cục này, để việc phân cụm phiên truy cập web, qua tự động gom nhóm người dùng,

Ngày đăng: 08/12/2017, 15:50

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w