Bài viết này đề xuất một phương pháp dự đoán giới tính của khách hàng dựa trên dữ liệu lịch sử truy cập hệ thống TMĐT. Chúng tôi sử dụng phương pháp học máy trên một tập các đặc trưng được trích xuất từ thông tin xem sản phẩm của người dùng để dự đoán giới tính của họ.
Dương Trần Đức PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐỐN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU THƢƠNG MẠI ĐIỆN TỬ Dƣơng Trần Đức Học viện Công nghệ Bưu Viễn thơng Tóm tắtt: Các đặc điểm cá nhân khách hàng nhƣ giới tính, độ tuổi, v.v cung cấp thông tin quan trọng cho nhà cung cấp dịch vụ thƣơng mại điện tử (TMĐT) hoạt động quảng cáo cá nhân hóa hệ thống Tuy nhiên, khách hàng trực tuyến thƣờng hạn chế cung cấp thông tin vấn đề riêng tƣ Bài báo đề xuất phƣơng pháp dự đoán giới tính khách hàng dựa liệu lịch sử truy cập hệ thống TMĐT Chúng sử dụng phƣơng pháp học máy tập đặc trƣng đƣợc trích xuất từ thơng tin xem sản phẩm ngƣời dùng để dự đốn giới tính họ Các thực nghiệm đƣợc thực tập liệu đƣợc cung cấp khuôn khổ thi khai phá liệu Hội nghị PAKDD’15 Kết có độ xác 81.9% độ đo xác cân 82.3% độ đo macro F1 cho thấy thuật toán học máy đặc trƣng đƣợc đề xuất mang lại hiệu tốt nhận diện giới tính khách hàng Từ khóa: học máy, liệu lớn, dự đốn giới tính I MỞ ĐẦU Ngày nay, nhiều ứng dụng web nhƣ hệ thống thƣơng mại điện tử (TMĐT), máy tìm kiếm, hệ thống quảng cáo trực tuyến, sử dụng đặc điểm cá nhân hóa để làm gia tăng trải nghiệm ngƣời dùng thúc đẩy hoạt động kinh doanh, bán hàng Với dịch vụ đƣợc cá nhân hóa tốt, thơng tin hiển thị đƣợc tối ƣu hóa cho ngƣời dùng cá nhân thay giống cho toàn ngƣời dùng Chẳng hạn, hệ thống TMĐT hiển thị thơng tin khuyến giới thiệu sản phẩm có liên quan đến khách hàng thay hiển thị quảng cáo chung giới thiệu sản phẩm ngẫu nhiên Việc cá nhân hóa thơng tin hiển thị dựa loại liệu chính: liệu lịch sử (chẳng hạn mặt hàng trƣớc xem mua v.v.) đặc điểm cá nhân ngƣời dùng (chẳng hạn giới tính, độ tuổi, trình độ giáo dục v.v) Dữ liệu lịch sử thu thập đƣợc ngƣời dùng sử dụng hệ thống trƣớc đăng nhập vào hệ thống Do đó, phƣơng pháp cá nhân hóa dựa liệu lịch sử khơng khả thi trƣờng hợp khách hàng truy cập lần đầu khách hàng chƣa đăng ký sử dụng hệ thống Ngƣợc lại, phƣơng pháp cá nhân hóa dựa đặc điểm cá nhân ngƣời dùng hữu ích kể ngƣời dùng chƣa sử dụng hệ thống Tuy nhiên, thông tin đặc điểm cá nhân ngƣời dùng thƣờng khó thu thập đƣợc, ngƣời dùng Internet thƣờng không sẵn sàng cung cấp thông tin cá nhân có tính riêng tƣ Vì lý này, nhiều trƣờng hợp, cách để có đƣợc thông tin đặc điểm cá nhân ngƣời dùng dự đoán dựa liệu khác mà ngƣời dùng để lại hệ thống Vấn đề dự đốn đặc điểm ngƣời dùng dựa phân tích văn (cịn gọi dự đốn đặc điểm tác giả văn - author profiling) đƣợc nghiên cứu nhiều thập kỷ, nhiên, nhiều trƣờng hợp, ngƣời dùng không để lại văn hệ thống Một phƣơng pháp khác đƣợc sử dụng để dự đoán đặc điểm ngƣời dùng dựa vào hành vi họ hệ thống, chẳng hạn hành vi duyệt web ([6], [13]), phân tích lƣu lƣợng web ([3]), hành vi xem danh mục sản phẩm Ƣu điểm phƣơng pháp tiếp cận hầu hết trƣờng hợp, ngƣời dùng thực hành hành vi hệ thống nhƣ truy cập vào trang web, nhấp chuột vào mặt hàng/mục tin, xem danh mục sản phẩm v.v Trong nghiên cứu này, chúng tơi giải vấn đề dự đốn giới tính ngƣời dùng dựa liệu xem danh mục sản phẩm nhƣ thời gian/thời lƣợng xem, danh sách sản phẩm/loại sản phẩm xem v.v Tập liệu thực nghiệm đƣợc cung cấp Tập đoàn FPT thi khai phá liệu khuôn khổ Hội nghị Quốc tế Khai phá liệu Phát tri thức khu vực Châu Á Thái Bình Dƣơng năm 2015 (PAKDD’15) Ý tƣởng phƣơng pháp khai thác tối đa mối quan hệ sản phẩm/loại sản phẩm đƣợc xem lƣợt xem dựa biểu diễn dạng danh sách sản phẩm/loại sản phâm Theo đó, bên cạnh đặc trƣng nhƣ thời gian, tần suất xem, danh sách sản phẩm/loại sản phẩm riêng rẽ, nghiên cứu đề xuất sử dụng đặc trƣng nhƣ chuỗi sản phẩm/loại sản phẩm đƣợc xem liên tiếp, cặp chuyển tiếp sản phẩm/loại sản Tác giả liên hệ: Dƣơng Trần Đức, Email: duongtranduc@gmail.com Đến tòa soạn: 2/2018 , chỉnh sửa: 4/2018 , chấp nhận đăng: 5/ 2018 SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 17 PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐỐN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU TMĐT phẩm khác lƣợt xem v.v (gọi chung đặc trƣng nâng cao) Với cấu trúc phân cấp nhiều cấp độ danh mục sản phẩm/loại sản phẩm, sử dụng phƣơng pháp biểu diễn dạng để cung cấp khung nhìn tốt mối quan hệ sản phẩm/loại sản phẩm so với biểu diễn dạng liệt kê Sau xây dựng đƣợc tập liệu huấn luyện, số thuật toán học máy phổ biến nhƣ Rừng ngẫu nhiên (Random Forest-RF), Máy véc tơ hỗ trợ (Support Vector Machine-SVM), Mạng Bayes (Bayesian Network-BN) đƣợc sử dụng để xây dựng mơ hình phân loại kết hợp với kỹ thuật hỗ trợ để xử lý vấn đề không cân lớp nhƣ Tái chọn mẫu (Resampling), Học nhạy cảm chi phí (Cost-Sensitive Learning-CSL) Ngồi ra, số lƣợng đặc trƣng sử dụng lớn với tính chất thƣa liệu xem danh mục sản phẩm, phƣơng pháp lựa chọn đặc trƣng (feature selection) đƣợc thử nghiệm áp dụng nhằm nâng cao kết dự đốn giảm độ phức tạp mơ hình Cuối cùng, thuật tốn phân loại đƣợc tối ƣu tham số kết hợp với thuật toán boosting để cải tiến kết dự đoán Các kết thực nghiệm cho thấy độ xác nhận diện tốt tập đặc trƣng có tính tổng qt dễ dàng áp dụng sang hệ thống TMĐT khác Bài báo phiên mở rộng nghiên cứu đƣợc báo cáo Hội nghị Quốc tế Kỹ nghệ tri thức hệ thống năm 2016 (Knowledge and System Engineering - KSE 2016), vấn đề xây dựng tập đặc trƣng, lựa chọn đặc trƣng, tối ƣu tham số thuật toán đƣợc nghiên cứu cải tiến Bài báo có cấu trúc nhƣ sau Phần II trình bày nghiên cứu liên quan lĩnh vực dự đoán đặc điểm ngƣời dùng Phần III mô tả phƣơng pháp tiếp cận hoạt động hệ thống Phần IV trình bày kết thảo luận Cuối cùng, kết luận đƣợc trình bày phần V báo II TỔNG QUAN VỀ DỰ ĐOÁN ĐẶC ĐIỂM NGƢỜI DÙNG Vấn đề dự đoán đặc điểm ngƣời dùng đƣợc nghiên cứu thời gian dài trƣớc Trong giai đoạn đầu, nhà nghiên cứu lĩnh vực tập trung nghiên cứu vấn đề xác định đặc điểm tác giả văn Đó việc xác định dự đoán đặc điểm ngƣời dùng dựa phân tích văn đƣợc tạo ngƣời Các phƣơng pháp đƣợc sử dụng nghiên cứu chủ yếu dựa phân tích phong cách viết với đặc trƣng đa dạng nhƣ dựa dùng từ vựng, ngữ pháp, đặc trƣng dựa nội dung [9] Các nghiên cứu trƣớc chủ yếu tập trung vào loại văn thống nhƣ báo, tiểu thuyết, luận v.v Gần đây, phát triển mạnh mẽ Internet kênh truyền thông trực tuyến, nghiên cứu lĩnh vực chuyển sang thực loại văn truyền thông trực tuyến nhƣ email, viết blogs, viết diễn đàn v.v De Vel cộng [4] sử dụng 221 đặc trƣng để xác định tác giả emails Argamon cộng [1] nghiên cứu khác biệt phong cách viết nam nữ 604 tài liệu từ kho ngữ liệu Anh Quốc (British National Corpus) Argamon cộng [2] khảo sát việc sử dụng đặc trƣng dựa theo phong cách nội dung để dự đốn giới tính tuổi tác giả viết blogs tập liệu gồm 71.000 viết SỐ 01 & 02 (CS.01) 2018 từ trang blogger.com Mơ hình cho kết dự đốn có độ xác 80% cho giới tính 76% cho độ tuổi Iqbal cộng [7] đề xuất phƣơng pháp tính giá trị đƣợc gọi “vân chữ viết” (write print) dựa mẫu xuất thƣờng xuyên đƣợc trích chọn từ emails để dự đoán đặc điểm ngƣời dùng Nguyen cộng [14] thực nghiên cứu dự đốn giới tính độ tuổi tác giả viết mạng xã hội twitter viết diễn đàn tiếng Hà Lan sử dụng phƣơng pháp hồi quy tuyến tính cho độ chinh xác dự đoán khoảng 80% Bên cạnh việc nhận diện ngƣời dùng thơng qua phân tích văn bản, gần đây, nhiều nhà nghiên cứu lĩnh vực khoa học máy tính mở rộng sang phân tích nhận diện đặc điểm ngƣời dùng dựa hành vi họ, chẳng hạn nhƣ hành vi duyệt website [6, 14], hành vi mạng di động [5], hành vi xem sản phẩm hệ thống thƣơng mại điện tử v.v Khác với vấn đề xác định đặc điểm tác giả văn bản, đặc trƣng hành vi ngƣời dùng hệ thống đa dạng nhiều Do vậy, nghiên cứu lĩnh vực sử dụng tập đặc trƣng khác phụ thuộc vào hệ thống cụ thể Phƣơng pháp nhận diện chủ yếu sử dụng kỹ thuật học máy Hu cộng [6] đề xuất phƣơng pháp để giải vấn đề dự đốn giới tính độ tuổi ngƣời dùng Internet thơng qua phân tích hành vi duyệt web họ Hu sử dụng thông tin xem trang web ngƣời dùng nhƣ biến đầu vào để suy diễn thông tin đặc điểm cá nhân họ Thuật toán SVM đƣợc sử dụng tập đặc trƣng bao gồm đặc trƣng dựa nội dung (các từ trang web) dựa phân loại (theo mục cấu trúc trang web) Kết thực nghiệm đạt độ xác 79.7% dự đốn giớ tính 60.3% dự đốn tuổi Kabbur cộng [8] thực nghiên cứu sử dụng học máy để dự đoán đặc điểm ngƣời dùng website dựa thông tin nội dung cấu trúc siêu liên kết Nghiên cứu Dong cộng [5] có mục tiêu suy diễn thông tin cá nhân ngƣời dùng dựa mẫu giao tiếp hàng ngày mạng di động Nghiên cứu đƣợc thực mạng di động thực với 7.000.000 ngƣời dùng tỷ ghi giao dịch ngày Các đặc trƣng đƣợc sử dụng bao gồm đặc trƣng cá nhân, bạn bè, đặc trƣng tuần hoàn v.v đạt kết dự đốn 80% cho giới tính 70% cho độ tuổi Ying cộng [15] đề xuất phƣơng pháp dự đốn thơng tin cá nhân ngƣời dùng dựa phân tích hành vi mơi trƣờng Nghiên cứu phát triển phƣơng pháp mơ hình phân loại nhiều cấp độ (multi-level classification model) để giải vấn đề không cân liệu Phuong cộng [13] giải vấn đề dự đốn giới tính ngƣời dùng thơng qua hành vi duyệt website Nghiên cứu sử dụng phƣơng pháp phân loại học máy dùng đặc trƣng thu đƣợc từ liệu lƣu trữ thông tin duyệt web Các đặc trƣng đƣợc sử dụng tƣơng tự nghiên cứu Hu cộng [6], nhƣng nhóm tác giả sử dụng thêm nhiều loại đặc trƣng khác nhƣ đặc trƣng dựa chủ đề, đặc trƣng thời gian, đặc trƣng v.v qua làm tăng đáng kể kết dự đốn TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 18 Dương Trần Đức Nghiên cứu Lu cộng [12] giải vấn đề tƣơng tự nhƣ nghiên cứu Lu sử dụng tập đặc trƣng bao gồm đặc trƣng tần suất, thời gian, sản phẩm/loại sản phầm đƣợc xem thuật toán phân loại Gradient Boosting Decision Trees Sau đó, Lu thực việc cập nhật nhãn để nâng cao độ xác cách đƣa thông tin sản phẩm đƣợc xem vào tính tốn làm mƣợt (tổng số lƣợng nam/nữ xem sản phẩm) Kết cuối cho độ xác F1 trung bình lớp phân loại 80.6 Bài báo nghiên cứu phƣơng pháp dự đốn giới tính ngƣời dùng dựa liệu xem sản phẩm họ hệ thống TMĐT Theo khảo sát chúng tơi, có nghiên cứu Lu cộng [12] nghiên cứu thức đƣợc thực cơng bố lĩnh vực III PHƢƠNG PHÁP A Tổng quan hệ thống Trong nghiên cứu này, phát triển hệ thống nhận liệu từ file lƣu trữ thông tin xem sản phẩm khách hàng biết giới tính, trích chọn đặc trƣng nhãn phân loại để tạo tập liệu huấn luyện Mơ hình dự đốn đƣợc xây dựng dựa tập liệu huấn luyện tạo đƣợc sử dụng phƣơng pháp phân loại sau sử dụng để dự đốn giới tính khách hàng chƣa biết dựa hành vi xem sản phẩm họ File liệu huấn luyện chứa ghi tƣơng ứng với thông tin lƣu trữ hành vi xem sản phẩm ngƣời dùng Một ghi lƣu trữ chứa thông tin hành vi xem sản phẩm ngƣời dùng, nhƣ thời gian bắt đầu xem, kết thúc xem, danh sách sản phẩm loại sản phẩm xem Nhãn phân loại cho liệu mẫu male/female (nam/nữ) Do vậy, vấn đề cần giải vấn đề phân loại nhị phân với nhãn tƣơng ứng Phần mô tả chi tiết đặc trƣng kỹ thuật đƣợc sử dụng để dự đoán B Các đặc trưng phân loại Các đặc trƣng đƣợc sử dụng nghiên cứu đƣợc chia làm loại, đƣợc gọi đặc trƣng đặc trƣng nâng cao 1) Đặc trưng Các đặc trƣng bao gồm đặc trƣng liên quan đến thời gian, tần suất xem sản phầm đặc trƣng sản phẩm/loại sản phẩm riêng rẽ Các thông tin nhƣ thời gian xem ngày, ngày tuần, ngày nghỉ/ngày lễ, thời lƣợng xem, số sản phẩm xem, thời gian trung bình xem sản phẩm v.v nhân tố đƣợc dùng để dự đốn giới tính ngƣời xem Tổng cộng có 98 đặc trƣng nhị phân đặc trƣng số đƣợc sử dụng đƣợc mô tả chi tiết nhƣ bảng SỐ 01 & 02 (CS.01) 2018 Bảng Các đặc trưng Đặc trưng Mô tả Day Ngày tháng (31 đặc trƣng) Month Tháng năm (12 đặc trƣng) DayOfWeek Ngày tuần (7 đặc trƣng) StartTime/EndTime Giờ (24 đặc trƣng)/ Giờ (24 đặc trƣng) Duration Tổng thời gian xem (1 đặc trƣng) NumberOfProducts Số sản phẩn xem (1 đặc trƣng) AverageTimePerPro duct Thời gian trung bình xem sản phẩm (1 đặc trƣng) Đặc trƣng sản phẩm/loại sản phẩm bao gồm tất sản phẩm loại sản phẩm có hệ thống Để xây dựng danh mục đặc trƣng này, chúng tơi thực trích từ tập liệu mã sản phẩm/mã phân loại sử dụng chúng nhƣ đặc trƣng dạng số Với sản phẩm/loại sản phẩm, thực đếm số lần ngƣời dùng xem sản phẩm/loại sản phẩm lƣợt xem sử dụng số làm giá trị đặc trƣng tƣơng ứng Do mã sản phẩm đầy đủ đƣợc hình thành từ mã khác nhau, bao gồm mã loại sản phẩm mức chung (bắt đầu ký tự “A”), mã loại sản phẩm mức (bắt đầu ký tự “B” “C”), cuối mã sản phẩm cụ thể (bắt đầu ký tự “D”), có loại đặc trƣng thuộc dạng với tổng cộng 8.035 đặc trƣng nhƣ bảng Lƣu ý số lƣợng mã sản phẩm cụ thể lớn nhiều sản phẩm xuất tập liệu huấn luyện nhƣng không xuất tập liệu kiểm tra ngƣợc lại, lựa chọn mã sản phẩm có tần suất xuất từ lần trở lên bổ sung thêm sản phẩm có tần suất thấp nhƣng xuất tập liệu Ngoài ra, sản phẩm thuộc nhiều phân loại, sản phẩm tạo nhiều đặc trƣng, tƣơng ứng với phân loại Bảng Các đặc trưng sản phẩm/loại sản phẩm riêng rẽ Đặc trưng Mô tả Loại sản phẩm mức chung Mã bắt đầu A (11 đặc trƣng) Loại sản phẩm mức Mã bắt đầu B (60 đặc trƣng) Loại sản phẩm mức Mã bắt đầu C (186 đặc trƣng) Sản phẩm cụ thể Mã bắt đầu D (7.778 đặc trƣng) 2) Các đặc trưng nâng cao Bên cạnh đặc trƣng sản phẩm/loại sản phẩm riêng rẽ, đặt giả thiết mối quan hệ sản phẩm/loại sản phẩm đƣợc xem lƣợt xem yếu tố dùng để dự đốn giới tính ngƣời dùng Chẳng hạn ngƣời dùng nam thƣờng xem loại sản phẩm lƣợt xem ngƣời dùng nữ xem liên tiếp nhiều loại sản phẩm khác Trong file liệu, danh sách TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 19 PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐỐN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU TMĐT sản phẩm/loại sản phẩm xem lƣợt xem đƣợc biểu thị dƣới dang danh sách liệt kê nhƣ dƣới đây: Các cặp nút chuyển đổi tầng khác {D19760, B00001}, {D18416, C00004}, v.v A00002/B00003/C00006/D19760/; A00002/B00001/C00010/D18416; A00002/B00001/C00004/D19764/; A00002/B00003/C00008/D19761/; A00002/B00003/C00008/D08538/ Với số lƣợng lớn sản phẩm phân loại sản phẩm, tổng số lƣợng chuỗi nút cặp nút chuyển đổi lớn Do đó, tƣơng tƣ nhue cách xây dựng tập đặc trƣng cho sản phẩm đơn lẻ, lựa chọn chuỗi nút cặp nút chuyển đổi có tần suất xuất lần tần suất nhƣng xuất tập liệu Theo đó, danh sách số lƣợng đặc trƣng nâng cao đƣợc liệt kê bảng Việc sử dụng danh sách liệt kê gây khó khăn cho việc trích chọn hiệu tất thông tin mối quan hệ sản phẩm/loại sản phẩm lƣợt xem, đề xuất biểu diễn dạng nhằm cung cấp khung nhìn tốt quan hệ Theo biểu diễn này, loại sản phẩm mức chung nằm gốc cây, sản phẩm cụ thể nằm phần loại sản phẩm cấp độ trung gian nằm tầng Theo đó, danh mục sản phẩm/loại sản phẩm đƣợc biểu diễn dƣới dạng danh sách liệt kê đƣợc chuyển đổi sang biểu diễn nhƣ hình Từ biểu diễn dạng này, dễ dàng chuyển đổi ngƣợc trở lại biểu diễn dạng danh sách liệt kê cách duyệt theo chiều sâu từ trái sang phải Ngoài ra, từ biểu diễn cây, rút đƣợc thơng tin quan hệ sản phẩm/loại sản phẩm cách khai thác thuộc tính nhƣ nút, tầng, đƣờng đi, nút kề v.v A00002 B00003 C00006 D19760 B00001 C00010 D18416 B00003 C00004 D19764 C00008 D19761 D08538 Hình Biểu diễn dạng danh mục sản phẩm/loại sản phẩm xem Trong vấn đề tại, sử dụng thuộc tính sau để làm đặc trƣng mối quan hệ: Số nút tầng: Tƣơng ứng với số sản phẩm/loại sản phẩm đƣợc xem lƣợt xem Chuỗi nút liên tiếp tầng: Tƣơng ứng với chuỗi sản phẩm/loại sản phẩm đƣợc xem liền lƣợt xem Từ chuỗi nút liên tiếp tầng, chúng tơi trích tất chuỗi k nút chọn chuỗi có tần suất cao làm đặc trƣng chuỗi Cặp nút chuyển đổi tầng khác nhau: Đặc trƣng phản ánh thói quen xem sản phẩm ngƣời dùng chuyển từ loại sản phẩm sang loại khác tầng khác Chẳng hạn, với biểu diễn nhƣ hình 1.1, số thuộc tính nhƣ đƣợc trích nhƣ sau: Số lƣợng nút tầng: {1, 3, 4, 5} Chuỗi nút liên tiếp tầng {B00001, B00003, B00001}, {B00001, B00003}, {C00006, C00010}, {D19760, D18416, D19764}, v.v SỐ 01 & 02 (CS.01) 2018 Bảng Các đặc trưng nâng cao Đặc trưng Mô tả Số lƣợng nút tầng đặc trƣng Các chuỗi nút có tần suất xuất cao 2.277 đặc trƣng Các cặp nút chuyển đổi có tần suất xuất cao 465 đặc trƣng C Các phương pháp phân loại Trong nghiên cứu này, sử dụng thuật toán học máy để xây dựng mơ hình phân loại nhƣ nói Đó Random Forest (RF), Support Vector Machine (SVM), Bayesian Network (BN) RF thuật toán học kết hợp sử dụng tập liệu tập đặc trƣng để xây dựng nên định RF xây dựng nhiều định nhƣ kết hợp chúng kết phân loại cuối có độ xác cao Do thuật toán lựa chọn ngẫu nhiên tập đặc trƣng để xây dựng định nên phù hợp với vấn đề có tập đặc trƣng lớn thƣa nhƣ vấn đề SVM phƣơng pháp phân loại dựa lý thuyết học thống kê đƣợc đề xuất Vapnik năm 1995 SVM thuật toán học máy có ƣu điểm xử lý số lƣợng lớn đặc trƣng phân loại không cần đến việc giảm bớt số lƣợng đặc trƣng nhằm tránh vấn đề khớp (overfitting) Đặc điểm hữu ích xử lý vấn đề có số chiều lớn BN mơ hình xác suất dạng đồ thị biểu thị phụ thuộc thống kê tập hợp biến ngẫu nghiên Đây thuật toán đƣợc sử dụng phổ biến xây dựng mơ hình học máy Bên cạnh thuật tốn học máy, tập liệu huấn luyện có đặc điểm không cần lớp (khoảng 80% nữ 20% nam), số kỹ thuật hỗ trợ nhƣ Resampling, Cost-Sensitive Learning (CSL) đƣợc áp dụng để nâng cao độ xác cho lớp thiểu số Resampling phƣơng pháp đƣợc sử dụng phổ biến để xử lý trƣờng hợp không cân liệu huấn luyện Ý tƣởng phƣơng pháp thêm vào bớt số mẫu để làm cho tập liệu trở nên cân Ngồi ra, TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 20 Dương Trần Đức đặt lại trọng số cho mẫu lớp để giúp cân tổng trọng số lớp [10] Trong resampling phƣơng pháp mức liệu CSL phƣơng pháp mức thuật toán dùng để giải vấn để phân loại không cân Theo Ling cộng [11], CSL phƣơng pháp có tính đến chi phí phân loại sai, nghĩa xem xét phân loại sai lớp khác khác nhau, nhờ cân độ xác lớp xây dựng mơ hình phân loại Ngoài ra, số lƣợng đặc trƣng lớp liệu thƣa, kỹ thuật lựa chọn đặc trƣng đƣợc nghiên cứu, áp dụng để giảm bớt độ phức tạp loại bỏ đặc trƣng liên quan đến trình phân loại Trong nghiên cứu này, thử nghiệm số độ đo nhƣ Độ lợi thơng tin (Information Gain), Khi-bình phƣơng (Chi-Square), Tƣơng quan (Correlation) để chọn phƣơng pháp số lƣợng đặc trƣng phù hợp IV THỰC NGHIỆM A Dữ liệu phương pháp đánh giá Trong nghiên cứu này, sử dụng tập liệu đƣợc cung cấp tập đoàn FPT cho thi khai phá liệu phát tri thức khuôn khổ hội nghị PAKDD’15 Dữ liệu đƣợc chia thành tập tập huấn luyện tập kiểm chứng Mỗi tập liệu chứa 15.000 ghi, tƣơng ứng với lƣu trữ thông tin xem sản phẩm ngƣời dùng Về phƣơng pháp đánh giá, nhƣ trình bày trên, vấn đề khơng cân lớp dự đốn, độ đo xác cân đƣợc sử dụng để đánh giá mơ hình Độ đo xác cân đƣợc định nghĩa độ xác trung bình lớp việc sử dụng độ đo tránh đƣợc dự báo hiệu suất giả tạo tập liệu không cân lớp 0.5 * 0.5 * tn balanced accuracy ( BAC ) fn tn fp Trong (true positive) số mẫu mang nhãn “dƣơng” đƣợc phân vào lớp “dƣơng”, tn (true nagative) số mẫu mang nhãn “âm” đƣợc phân vào lớp “âm”, fp (false positives) số mẫu mang nhãn “âm” đƣợc phân sai vào lớp “dƣơng”, fn (false negative) số mẫu mang nhãn “dƣơng” đƣợc phân sai vào lớp “âm” Đây độ đo đƣợc sử dụng để đánh giá kết thi PAKDD’15 Data Mining Competition Trong nghiên cứu này, sử dụng độ đo với độ đo Macro F1 để tiện so sánh với nghiên cứu trƣớc B Kết đánh giá SỐ 01 & 02 (CS.01) 2018 Nhằm đánh giá hiệu đặc trƣng nâng cao, thực thí nghiệm tập đặc trƣng khác nhau, bao gồm tập đặc trƣng tập đặc trƣng kết hợp nâng cao Theo cách phân loại tập đặc trƣng, đặc trƣng nâng cao mang tính bổ sung, sử dụng riêng rẽ khơng hiệu Do đó, chúng tơi khơng tiến hành thí nghiệm tập đặc trƣng nâng cao riêng rẽ nghiên cứu Mỗi tập đặc trƣng đƣợc thử nghiệm thuật toán học máy kỹ thuật hỗ trợ nhƣ nói trên, Resampling sử thuật toán tái cân lớp dựa kỹ thuật đặt lại trọng số Class Balancer (CB) Công cụ thực nghiệm sử dụng công cụ học máy WEKA (Waikato Environment for Knowledge Analysis) Đây tập hợp thuật tốn học máy cơng cụ xử lý liệu đƣợc phát triển nhóm nghiên cứu Đại học Waikato, New Zealand Công cụ đƣợc viết ngôn ngữ Java đƣợc phân phối dƣới dạng mã nguồn mở Kết thực nghiệm cuối cho thấy thuật toán học máy kết hợp với kỹ thuật tái cân lớp theo phƣơng pháp đặt lại trọng số cho lớp ClassBalancer kỹ thuật học nhạy cảm chi phí CostSensitiveClassifier cho kết BAC tốt Bảng cho thấy kết cụ thể thực nghiệm chƣa áp dụng thuật toán lựa chọn đặc trƣng tối ƣu tham số học máy Bảng Kết thực nghiệm sử dụng CSL kết hợp CB Đặc trưng Đặc trưng + nâng cao BAC Macro F1 BAC Macro F1 RF 77.3 75.5 81.0 78.5 SVM 76.6 74.4 79.5 76.7 BN 76.0 74.4 78.5 76.0 Có thể thấy, đặc trƣng nâng cao đƣợc sử dụng kết hợp với đặc trƣng cải tiến kết đáng kể so sánh với việc sử dụng đặc trƣng Mặc dù vậy, tập liệu đƣợc cung cấp, có nhiều lƣợt xem có sản phẩm đƣợc xem (khoảng 30%) đặc trƣng nâng cao khơng có hiệu với trƣờng hợp (do khơng có nhiều sản phẩn đƣợc xem lƣợt để khai thác mối quan hệ chúng) Trên thực tế, số lƣợng ngƣời dùng xem nhiều sản phẩm lƣợt xem nhiều việc sử dụng đặc trƣng nâng cao đem lại hiệu cao áp dụng trƣờng hợp So sánh kết thuật toán học máy, thuật tốn RF có kết vƣợt trội so với thuật TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 21 PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐỐN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU TMĐT toán SVM BN Thuật toán RF thực học kết hợp thông qua việc lựa chọn nhiều tập đặc trƣng liệu để xây dựng nên tập định, phù hợp với tốn có số lƣợng đặc trƣng lớn thƣa nhƣ toán Một điểm thú vị khác phƣơng pháp biểu diễn đặc trƣng đƣợc sử dụng nghiên cứu có cấu trúc dạng Tuy nhiên, kết tiếp tục đƣợc cải tiến thông qua việc lựa chọn đặc trƣng tối ƣu tham số C Lựa chọn đặc trưng tối ưu tham số Mặc dù thuật toán RF tiến hành lựa chọn tập đặc trƣng tốt trình học thơng qua việc lựa chọn ngẫu nhiên đặc trƣng bƣớc xây dựng định, nhiên cải tiến độ xác việc thực thuật toán lựa chọn đặc trƣng dựa độ đo thống kê Trong nghiên cứu này, thử nghiệm phƣơng pháp lựa chọn đặc trƣng Information Gain, Chi-Square, Correlation Information Gain sử dụng cách đo độ quan trọng đặc trƣng việc phân biệt lớp phân loại đƣợc ứng dụng nhiều nghiên cứu trƣớc cho kết tốt Chi-Square phép thử đánh giá độc lập biến thống kê, đƣợc sử dụng để đo mức độ độc lập đặc trƣng lớp phân loại Trong đó, phƣơng pháp Correlation sử dụng độ đo tƣơng tự đặc trƣng với với lớp phân loại để đánh giá tập đặc trƣng tốt Kết thử nghiệm cho thấy Information Gain phƣơng pháp phù hợp cho vấn đề với số lƣợng tối ƣu đƣợc lựa chọn 2.500 đặc trƣng Hình cho thấy kết phân loại tốt dần với số lƣợng đặc trƣng thấp đạt đỉnh mức 2.500 đặc trƣng Số lượng đặc trưng Hình Kết phân loại với số lượng đặc trưng lựa chọn khác Ngoài ra, thực nghiệm phần trƣớc đƣợc thực tập tham số mặc định thuật toán Các kết đƣợc cải tiến thơng qua việc tối ƣu tham số Thuật tốn RF có tham số ảnh hƣởng tới độ xác phân loại Đó số lƣợng đặc trƣng tối đa đƣợc lựa chọn xây dựng định, số lƣợng đƣợc xây dựng (số vịng lặp), kích thƣớc tối thiểu Các tham số đƣợc tối ƣu sử dụng thuật toán Grid Search để chọn SỐ 01 & 02 (CS.01) 2018 tham số cho kết tốt với thời gian tính tốn phù hợp Bảng cho biết kết phân loại sau thực lựa chọn đặc trƣng tối ƣu tham số cho thuật toán RF Bảng Kết phân loại sau lựa chọn đặc trưng tối ưu tham số BAC Macro F1 Kết ban đầu 81.0 78.5 Áp dụng lựa chọn đặc trƣng với 81.2 78.8 Information Gain Tối ƣu tham số cho thuật toán RF 81.7 79.3 (1000 cây, với số đặc trƣng 13) D Đánh giá Kết sở nghiên cứu dự đốn giới tính tác giả văn 80% (độ đo xác thơng thƣờng accracy độ đo F1) Mặc dù so sánh kết nghiên cứu tập liệu khác không thực hợp lý, nhiên, với mục đích dự đốn giới tính ngƣời dùng, kết nghiên cứu xem có nhiều triển vọng Với nghiên cứu có độ tƣơng tự cao nhƣ [6], [13] dự đoán giới tính ngƣời dùng thơng qua hành vi duyệt website, kết Marco F1 nghiên cứu tƣơng đƣơng, hành vi duyệt website tạo nhiều liệu có ý nghĩa Ngồi ra, trang web cịn chứa văn bản, tạo nhiều loại đặc trƣng So sánh với giải pháp khác nhóm tham gia thi PAKDD’15 Data Mining Competition, giải pháp nghiên cứu top 10 150 nhóm tham dự Kết nhóm cao 87.9% nhóm top 10 có kết từ 81% Tuy nhiên, ƣu điểm giải pháp nghiên cứu sử dụng cấu trúc đặc trƣng đơn giản, nhƣng đạt đƣợc kết đáng kể Cấu trúc đặc trƣng có tính tổng qt, khơng chứa đặc trƣng mang tính đặc thù, dễ dàng áp dụng sang hệ thống khác So sánh với nghiên cứu đƣợc thực tập liệu đƣợc cơng bố thức Lu cộng [12], nghiên cứu có kết tốt hơn, không sử dụng bƣớc cập nhật nhãn V KẾT LUẬN Trong nghiên cứu này, chúng tơi trình bày phƣơng pháp dự đốn giới tính ngƣời dùng dựa liệu thu thập từ hệ thống TMĐT Phƣơng pháp tiếp cận sử dụng đặc trƣng nhƣ thời gian, tần suất xem sản phẩm, với đặc trƣng nâng cao nhƣ chuỗi sản phẩm/loại sản phẩm cặp sản phẩm/loại sản phầm chuyển tiếp lƣợt xem Phƣơng pháp sử dụng biểu diễn dạng danh sách sản phẩm/loại sản phẩm sử dụng TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 22 Dương Trần Đức thuộc tính nhƣ số nút, chuỗi nút tầng, cặp nút chuyển khác tầng v.v làm đặc trƣng phân loại Thiết kế tập đặc trƣng cho kết tốt thuật toán Random Forest với kỹ thuật hỗ trợ nhƣ Cost Sensitive Learning Class Balancing Ngoài ra, kết đƣợc cải tiến thông qua số kỹ thuật nhƣ lựa chọn đặc trƣng, tối ƣu tham số thuật toán Hƣớng phát triển nghiên cứu liên quan đến việc khai thác đặc trƣng rút trích từ biểu diễn danh sách sản phẩm/loại sản phẩm Ngồi ra, thu thập thêm liệu bổ sung mở rộng sang dự đoán đặc điểm khác ngƣời dùng nhƣ độ tuổi, nghề nghiệp v.v [13] T M Phuong, and D V Phuong, “Gender prediction using browsing history,” Proceedings of the Fifth International Conference KSE 2013, Volume pp 271-283, 2013 [14] D Nguyen, R Gravel, D Trieschnigg, and T Meder, "How old you think i am?; a study of language and age in twitter,” Proceedings of the Seventh International AAAI Conference on Weblogs and Social Media, 2013 [15] J J C Ying, Y J Chang, C M Huang, and V S Tseng, “ Demographic prediction based on users mobile behaviors,” In Nokia Mobile Data Challenge, 2012 Dƣơng Trần Đức Tốt nghiệp Đại Ảnh tác giả học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội ngành Công nghệ thông tin năm 1999 Tốt nghiệp Thạc sỹ chuyên ngành Hệ thống thông tin Đại học Tổng hợp Leeds, Vương Quốc Anh năm 2004 Hiện công tác Khoa Công nghệ Thông tin, Học viện Công nghệ Bưu Viễn thơng TÀI LIỆU THAM KHẢO [1] S Argamon, M Koppel, J Fine, and A Shimoni, “Gender, genre, and writing style in formal written texts,” Text 23(3), August 2003 [2] S Argamon, M Koppel, J Pennebaker, and J Schler, “Automatically profiling the author of an anonymous text,” Communications of the ACM , v.52 n.2, February 2009 [3] J C A Culotta, N R Kumar, and J Cutler, “Predicting the demographics of twitter users from website traffic data, ” Proceedings of the 29th AAAI Conference on Artificial Intelligence, Jan 2015 [4] O De Vel, A Anderson, M Corney, and G M Mohay, “Mining e-mail content for author identification forensics,” SIGMOD Record 30(4), pp 55-64, 2001 [5] Y Dong, Y Yang, J Tang, Y Yang, and N V Chawla, “Inferring user demographics and social strategies in mobile social networks.” In: KDD’14 ACM p 15–24, 2014 [6] J Hu, H J Zeng, H Li, C Niu, and Z Chen, “Demographic prediction based on user’s browsing behavior,” Proceedings of the 16th international conference on World Wide Web, pp 151-160, 2007 [7] F Iqbal, M Debbabi, B C M Fung, and L A Khan, “E-mail authorship verification for forensic investigation,” Proceedings of the 2010 ACM Symposium on Applied Computing, ser SAC '10 New York, NY, USA: ACM, pp 1591-1598, 2010 [8] S Kabbur, E H Han, and G Karypis, “Content-based methods for predicting web-site demographic attributes,” Proceedings of ICDM, pp 863-868, 2010 [9] M Koppel, S Argamon, and A R Shimoni, “Automatically categorizing written texts by author gender,” Literary and Linguistic Computing, 17(4), pp : 401-412, 2002 [10] S Kotsiantis, D Kanellopoulos, and P Pintelas, “Handling unbalanced datasets: A review,” GESTS International Transactions on Computer Science and Engineering 30 (1), pp 25-36, 2006 [11] C X Ling, and V S Sheng, “Cost-sensitive learning and the class imbalance problem.” In: Sammut C (ed) Encyclopedia of machine learning Springer, Berlin, 2008 [12] S Lu, Z Meng, Z Hui, Z Chen, W Wei, and W Hao, "GenderPredictor: A Method to Predict Gender of Customers from E-commerce Website," In Web Intelligence and Intelligent Agent Technology (WIIAT), 2015 IEEE/WIC/ACM International Conference on, vol 3, pp 13-16 2015 SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 23 ... 21 PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐỐN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU TMĐT toán SVM BN Thuật toán RF thực học kết hợp thông qua việc lựa chọn nhiều tập đặc trƣng liệu để xây dựng nên tập... NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 19 PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐỐN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU TMĐT sản phẩm/loại sản phẩm xem lƣợt xem đƣợc biểu thị dƣới dang danh sách liệt kê nhƣ...PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐỐN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU TMĐT phẩm khác lƣợt xem v.v (gọi chung đặc trƣng nâng cao)