TẠP CHÍ KHOA HỌC ĐẠI HỌC MỞ TP.HCM – SỐ 55 (4) 2017 12 PHÂNLOẠINGƯỜIDÙNGWEBSỬDỤNGKỸTHUẬTSOSÁNHCHUỖI LƯU VĨNH TRUNG Trường Đại học Mở Thành phố Hồ Chí Minh – trung.lv@ou.edu.vn (Ngày nhận: 17/03/2017; Ngày nhận lại: 11/04/2017; Ngày duyệt đăng: 08/05/2017) TÓM TẮT Ngày với phát triển thương mại điện tử, nhu cầu tìm hiểu sở thích ngườidùng để tối ưu hóa lợi nhuận ngày tăng Sở thích thể qua hành vi ngườidùng trình duyệt web ứng dụng liên quan thương mại điện tử khác Bài báo trình bày cách tiếp cận sửdụngkỹthuậtsosánhchuỗi phiên duyệt web để đánh giá tương tự hành vi ngườidùngphânloại họ Kết phânloạisửdụng để dự đốn hành vi ngườidùngweb thời gian thực, có đề xuất duyệt web phù hợp với loạingườidùng Từ khóa: Khai phá liệu web; sosánh chuỗi; phânloạingười dùng; thương mại điện tử Web user segmentation using sequence alignment ABSTRACT Nowadays, with the rapid advances in e-commerce, user interest understanding becomes more and more essential in order to benefit the business Users reveal this kind of interest through their behavior during their sessions in e-commerce applications In this paper, we present the approach using sequence alignment for web sessions to evaluate the user behavior similarity in order to segment them The segmentation result is applicable for real-time web prediction and recommendation Keywords: Web mining; sequence alignment; user segmentation; e-commerce Giới thiệu Các chiến lược tiếp thị Internet dựa hành vi ngườidùng nhận quan tâm ngày lớn doanh nghiệp thương mại điện tử Hoạt động chiến lược dạng dựa việc thích nghi ứng dụng thương mại điện tử với hành vi ngườidùng thời gian thực, họ truy cập ứng dụng Để đạt mục đích này, cơng cụ tính tốn nhanh tương tự phiên truy cập thiết yếu, nhằm xác định ngườidùng thuộc nhóm tương ứng Mức độ tương tự sửdụng để gom nhóm phiên truy cập, qua phânloạingườidùngweb (Cooley, R cộng sự, 1997) Phiên truy cập xem chuỗi kiện, nên để đơn giản hóa phần trình bày báo này, chúng tơi sửdụngchuỗiký tự AB-C-D-E để đại diện cho chuỗi trang web thăm viếng phiên truy cập Kỹthuậtsosánhchuỗi ứng dụng từ lâu Công nghệ Sinh học ngành liên quan, nhằm tìm đoạn tương tự chuỗi RNA, ADN protein (Hình 1) Hai hướng tiếp cận kỹthuậtsosánh toàn cục (global alignment) sosánh cục (local alignment) để đánh giá cách toàn diện tương tự chuỗi Hai thuật toán tiêu biểu áp dụng rộng rãi, đại diện cho sosánh toàn cục cục Needleman-Wunsh (Needleman, S.B cộng sự, 1970) Smith-Waterman (Smith, T.F., 1981; Zahid, S.K., 2015) KỸ THUẬT – CÔNG NGHỆ 13 Hình Sosánhchuỗi Cơng nghệ Sinh học nhằm phát mức độ tương tự Phương pháp nghiên cứu Như đề cập, sosánh toàn cục sosánh cục đánh giá mức độ tương tự chuỗi theo cách khác Needleman-Wunsh (NW) có xu hướng tìm kiếm tương tự tổng quát suốt chiều dài chuỗi, thuật tốn hiệu chuỗi có chiều dài tương đương (Hình 2) Smith-Waterman (SW), ngược lại, tập trung vào vùng tương tự hai chuỗi nên thích hợp với chuỗi có chiều dài chênh lệch (Hình 3) ABABCDEF_GHGH _ _ABC_EFGGH_ _ ABABCDEFGHGH A_ _BC_EFG_ GH Hình Sosánhchuỗi cục Hình Sosánhchuỗi tồn cục Trong báo này, để đánh giá mức độ tương tự hai chuỗi cho thuật tốn, chúng tơi dùng thang đo +1 cho cặp phần tử giống -1 cho cặp phần tử khác sosánhchuỗisửdụng NW Với SW, thang đo tương ứng +2 -1 tương ứng, SW tập trung vào vùng tương tự rời rạc hai chuỗi Với thang đo này, khác biệt cách sosánhchuỗi thể rõ ví dụ sau (Hình 4, 5, 6, 7, 8): ABCDEFGHIJK A Hình Sosánh hai chuỗi có độ dài chênh lệch có phần tử tương tự, kết SW = AB AB Hình Sosánh hai chuỗi trùng lặp, kết NW = ABCD ABCE Hình Sosánh hai chuỗi có độ dài có phần tử tương tự, kết NW = TẠP CHÍ KHOA HỌC ĐẠI HỌC MỞ TP.HCM – SỐ 55 (4) 2017 14 Cặp chuỗi hình có độ dài chênh lệch có phần tử chung Trong hai cặp chuỗi hình có độ dài tương đương có nội dung trùng lặp nhiều phần tử tương tự Tuy nhiên đánh giá độ tương tự của SW cho cặp chuỗi hình NW cho hai cặp chuỗi hình giống Điều cho thấy khác biệt hai thuật toán đánh giá độ tương tự cặp chuỗi Một ví dụ khác khác biệt trình bày hình Hai cặp chuỗi có điểm NW = 0, điểm SW cặp chuỗi hình (4) cao cặp chuỗi hình (3) độ liên tục phần tử tương tự hình cao ABCD XBCY ABDC XBYC Hình Sosánh hai chuỗi có độ dài tương đương có phần tử tương tự theo thứ tự, kết SW = 4, NW = Hình Sosánh hai chuỗi có độ dài tương đương có phần tử tương tự theo thứ tự, kết SW = 3, NW = Cặp chuỗi để sosánh có độ dài khác biệt, NW cho thấy không phù hợp thuật giải việc đánh giá độ tương tự Như trình bày Bảng 1, NW đánh giá cặp (ABC, BCD) có độ tương tự thấp (ABC, ABCDEFGHIJKLMNO) Do đó, NW cần kết hợp với thuật giải khác tập trung vào tương tự cục để có kết tối ưu phù hợp với ngữ cảnh phiên truy cập web Bảng Độ tương tự đo NW số cặp chuỗi có độ dài khác biệt ABCDEFGHIJKLMNO ABC BCD ABCDPFQHRJSLTNU AAAAAAAAABCD 3.0 ABCDEFGHIJKLMNO ABC 3.0 BCD 3.0 ABCDPFQHRJSLTNU 3.0 3.0 AAAAAAAAABCD -10.2 3.0 3.0 -10.2 3.0 2.99 3.0 2.99 3.0 2.99 2.99 Chúng đề xuất kết hợp NW SW việc đánh giá tương tự cặp chuỗi đại diện cho phiên truy cập webngườidùng Để chứng minh cho ưu điểm kết hợp NW SW thay ứng dụng riêng lẻ, chúng tơi đưa kết độ tinh khiết (purity) cụm (cluster) ba trường hợp: Ứng dụng NW -10.2 -10.2 Ứng dụng SW Ứng dụng kết hợp NW SW Độ tinh khiết cụm cho thấy hiệu thuật toán phân cụm Thuật toán hiệu quả, phần tử cụm đồng nhất, độ tinh khiết cụm cao Hình minh họa độ tinh khiết ba cụm, với phần tử đồng có màu giống KỸ THUẬT – CƠNG NGHỆ Hình Purity = 5/6 15 Purity = 4/6 Kết Như đề xuất phần trước, thực nghiệm ứng dụng riêng lẻ kết hợp NW SW liệu ngườidùng trích xuất từ website http://www.campusfonderie.uha.fr/ Dịch vụ triển khai phía back-end trang web cho phép thu thập liệu phiên truy cập, trang thăm viếng, thời gian, thời điểm… Purity = 3/5 tương ứng, trả log file với định dạng csv, txt… Log file làm (cleaning) để loại trừ liệu bị lỗi/không hợp lệ trước áp dụngthuật toán clustering phân cụm Log file bao gồm nhiều phiên truy cập, phiên chứa trang web viếng thăm, sau ví dụ rút gọn phiên truy cập ghi nhận log file: Mã phiên truy cập URLs 000001 http://www.campus-fonderie.uha.fr/fr/droit/ 000001 http://www.campus-fonderie.uha.fr/fr/economie-et-societe/ 000001 http://www.campus-fonderie.uha.fr/fr/management/ 000001 http://www.campus-fonderie.uha.fr/fr/management-interculturel/ Để tăng hiệu thuật toán clustering số lượng URL xử lý, URL đại diện chữ số Ví dụ, phiên truy cập 000001 bao gồm URL 1_2_3_4 Kết độ tinh khiết cụm, sau ứng dụng riêng lẻ kết hợp NW SW log file gồm 2000 phiên truy cập, trình bày Bảng 2: Bảng Kết độ tinh khiết cụm qua ứng dụng riêng lẻ kết hợp NW SW Điểm NW > ¼ độ dài chuỗi dài Độ tinh khiết cụm 81% Điểm SW gấp đôi độ dài chuỗi ngắn 63% Điểm NW > ¼ độ dài chuỗi dài điểm SW gấp đôi độ dài chuỗi ngắn 92% 16 TẠP CHÍ KHOA HỌC ĐẠI HỌC MỞ TP.HCM – SỐ 55 (4) 2017 Hình 10, 11, 12 minh họa kết phân cụm NW, SW kết hợp NW SW liệu gồm 32 phiên truy cập đại diện Sau áp dụng NW SW riêng lẻ kết hợp lọc, số phiên truy cập tương ứng hình 10, 11, 12 26, 32 23 Việc áp dụng NW khiến phiên truy cập tương tự cách toàn cục, 10_8_1_ 9_ 2_ 1_ 2_ 3_ 4_ ví dụ khơng tương tự cục so với phiên truy cập khác Ngược lại, SW khiến 10_ 1_ 12_ 13_ 4_ 9_ 14, 9_3_4, 11_11_11, 10_8_15_10, 10_8_1_9_2_4 phiên truy cập khơng có tương tự tồn cục so với phiên lại, xuất phân cụm Còn kết hợp NW SW tối ưu việc gom nhóm phiên truy cập, số phiên chọn lọc phiên tương tự tồn cục cục Hình 10 Kết phân cụm hierarchical clustering điểm NW > ¼ độ dài chuỗi dài Hình 11 Kết phân cụm hierarchical clustering điểm SW gấp đôi độ dài chuỗi ngắn KỸTHUẬT – CÔNG NGHỆ 17 Hình 12 Kết phân cụm hierarchical clustering điểm NW > ¼ độ dài chuỗi dài điểm SW gấp đôi độ dài chuỗi ngắn Kết luận Kỹthuậtsosánhchuỗisửdụng phổ biến Công nghệ Sinh học, ứng dụng việc phân cụm phiên truy cập web để tìm nhóm ngườidùng tương tự (Wang cộng sự, 2002) Tuy nhiên, kỹthuậtsosánhchuỗi vốn không tạo để sửdụng liệu web, cần phải phát triển tối ưu cho mục tiêu Cách tiếp cận dựa kết hợp hai kỹthuậtsosánhchuỗi toàn cục cục bộ, mà đại diện Needleman-Wunsh Smith-Waterman, qua thực nghiệm chứng tỏ hiệu thực tế làm việc liệu phiên truy cập ngườidùngweb Chúng tơi có kế hoạch phát triển thang đo thức dựa kết hợp hai kỹthuậtsosánhchuỗi toàn cục cục này, để việc phân cụm phiên truy cập web, qua tự động gom nhóm người dùng, nhanh chóng hiệu với lượng liệu ngày lớn từ thiết bị sửdụng Internet phong phú nay Tài liệu tham khảo Cooley, R., Mobasher, B., & Srivastava, J (1997) Grouping web page references into transactions for mining world wide web browsing patterns IEEE Knowledge and Data Engineering Exchange Workshop Proceedings, 2-9 Needleman, S.B., & Wunsch, C.D (1970) A general method applicable to the search for similarities in the amino acid sequence of two proteins Journal of molecular biology, 48(3), 443-453 Smith, T.F., & Waterman, M.S (1981) Identification of common molecular subsequences Journal of molecular biology, 147(1), 195-197 Wang, W., & Zaiane, O.R (2002) Clustering web sessions by sequence alignment Database and Expert Systems Applications Proceedings, 394-398 Zahid, S K., Hasan, L., Khan, A A., & Ullah, S (2015) A novel structure of the Smith-Waterman Algorithm for efficient sequence alignment Digital Information, Networking, and Wireless Communications, 6-9 ... ¼ độ dài chuỗi dài điểm SW gấp đôi độ dài chuỗi ngắn Kết luận Kỹ thuật so sánh chuỗi sử dụng phổ biến Công nghệ Sinh học, ứng dụng việc phân cụm phiên truy cập web để tìm nhóm người dùng tương... cộng sự, 2002) Tuy nhiên, kỹ thuật so sánh chuỗi vốn không tạo để sử dụng liệu web, cần phải phát triển tối ưu cho mục tiêu Cách tiếp cận dựa kết hợp hai kỹ thuật so sánh chuỗi toàn cục cục bộ,... cập người dùng web Chúng tơi có kế hoạch phát triển thang đo thức dựa kết hợp hai kỹ thuật so sánh chuỗi toàn cục cục này, để việc phân cụm phiên truy cập web, qua tự động gom nhóm người dùng,