1. Trang chủ
  2. » Giáo Dục - Đào Tạo

MỘT số PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH đặc điểm NGƯỜI DÙNG TRÊN MẠNG INTERNET tt

28 200 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 608,77 KB

Nội dung

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG Dương Trần Đức MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET Chuyên ngành: Kỹ thuật máy tính Mã số: 9.48.01.06 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội – Năm 2018 Cơng trình hồn thành tại: Học viện Cơng nghệ Bưu Viễn thơng Người hướng dẫn khoa học: PGS TS Phạm Bảo Sơn TS Tân Hạnh Phản biện 1:…………………………………………… …………………………………………… Phản biện 2:…………………………………………… …………………………………………… Phản biện 3…………………………………………… …………………………………………… Luận án bảo vệ trước Hội đồng chấm luận cấp Học viện họp tại: Học viện Cơng nghệ Bưu Viễn thơng Vào hồi ngày tháng năm Có thể tìm hiểu luận án thư viện: Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Ngày nay, với thiết bị kết nối đến mạng Internet, người dùng dễ dàng sử dụng kênh trao đổi thông tin website, email, diễn đàn, mạng xã hội, dịch vụ khác tìm kiếm thơng tin, thương mại điện tử (TMĐT) v.v Một đặc điểm chung hệ thống không bắt buộc người dùng cung cấp xác thơng tin cá nhân sử dụng Việc nhằm khuyến khích người dùng q trình sử dụng, nhiên tạo số vấn đề người dùng nặc danh giả mạo, hay việc cá nhân hóa hệ thống nhằm tăng trải nghiệm cho người dùng, thúc đẩy bán hàng, quảng cáo trực tuyến khó thực cách hiệu Do đó, xác định đặc điểm người dùng mối quan tâm hàng đầu nhà cung cấp dịch vụ mạng Internet Tuy nhiên, có nhiều người dùng không tự tiết lộ thông tin cá nhân vấn đề an toàn riêng tư Vì vậy, để có thơng tin cá cá nhân người dùng, cần phải dự đoán từ “dấu vết” người dùng để lại hệ thống, văn hành vi ngườ dùng thực Luận án thực nghiên cứu hai lĩnh vực: xác định đặc điểm tác giả văn xác định đặc điểm người dùng dựa hành vi Các nghiên cứu xác định đặc điểm tác giả văn thực văn tiếng Việt loại ngôn ngữ chưa nghiên cứu nhiều Các nghiên cứu xác định đặc điểm người dùng dựa hành vi thực liệu hệ thống thương mại điện tử, loại hệ thống có nhu cầu cao việc cá nhân hóa nhằm giới thiệu sản phẩm quảng cáo mục tiêu MỤC TIÊU CỦA LUẬN ÁN Dựa nhu cầu thực tiễn kết nghiên cứu trước nước quốc tế, luận án đặt mục tiêu sau: - Nghiên cứu vấn đề xác định đặc điểm tác giả văn loại văn mới, chưa nghiên cứu trước Nghiên cứu phương pháp trích chọn đặc trưng cho vấn đề xác định đặc điểm tác giả văn bản, nhằm tăng độ xác tính độc lập q trình nhận diện, tận dụng đặc điểm đặc thù ngôn ngữ tiếng Việt - Nghiên cứu vấn đề xác định đặc điểm người dùng dựa hành vi hệ thống có nhu cầu cá nhân hóa cao hệ thống TMĐT Nghiên cứu, đề xuất phương pháp trích chọn đặc trưng hiệu phương pháp phân loại phù hợp PHẠM VI NGHIÊN CỨU Xác định đặc điểm người dùng lĩnh vực rộng, khía cạnh loại người dùng đặc điểm người dùng Luận án xác định đối tượng người dùng nghiên cứu người dùng mạng Internet Đối với nghiên cứu xác định đặc điểm người dùng dựa phân tích văn bản, luận án thực nghiên cứu xác định đặc điểm tác giả viết diễn đàn tiếng Việt với đặc điểm nhận diện bao gồm giới tính, độ tuổi, nghề nghiệp, vùng miền Xác định đặc điểm người dùng dựa phân tích hành vi có hạn chế vấn đề thu thập liệu mẫu, luận án thực nghiên cứu dự đốn đặc điểm giới tính khách hàng dựa liệu truy cập hệ thống TMĐT CÁC ĐĨNG GĨP CỦA LUẬN ÁN Đóng góp lĩnh vực xác định đặc điểm tác giả văn bản: - Nghiên cứu việc ứng dụng loại đặc trưng phương pháp nhận diện khác nhau, tập trung phân tích sâu đặc trưng dựa nội dung Đề xuất phương pháp nhận diện dựa loại đặc trưng theo âm tiết vần tiếng Việt Loại đặc trưng cho độ xác cao kết hợp có tính độc lập liệu so với đặc trưng nội dung Đóng góp lĩnh vực xác định đặc điểm người dùng dựa hành vi: - Nghiên cứu vấn đề dự đốn giới tính khách hàng dựa liệu lịch sử truy cập hệ TMĐT Luận án nghiên cứu phương pháp trích chọn đặc trưng phân loại hiệu quả, đề xuất phương pháp trích chọn đặc trưng sử dụng biểu diễn dạng danh sách sản phẩm phân loại BỐ CỤC CỦA LUẬN ÁN Nội dung luận án bao gồm chương phụ lục Chương khảo sát đánh giá cơng trình thực lĩnh vực nghiên cứu luận án Chương trình bày vấn đề xác định đặc điểm tác giả viết diễn đàn tiếng Việt, bao gồm phương pháp tiếp cận kết thực nghiệm Chương mô tả kết nghiên cứu dự đốn giới tính khách hàng dựa liệu lịch sử truy cập hệ TMĐT Phần cuối luận án trình bày kết luận hướng nghiên cứu Phần phụ lục trình bày ứng dụng thử nghiệm dịch vụ xác định đặc điểm tác giả văn tiếng Việt CHƯƠNG TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG 1.1 XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG THƠNG QUA PHÂN TÍCH VĂN BẢN Phân tích tác giả văn q trình phân tích tài liệu để đưa kết luận tác giả Lĩnh vực nghiên cứu phân tích tác giả văn chia làm dạng thức nhận diện tác giả (xác định xem người có phải tác giả văn không), xác định đặc điểm tác giả (chỉ đặc điểm người tạo văn cho trước), phát văn tác giả (so sánh văn xem có phải tạo tác giả khơng) Q trình phân tích tác giả văn liên quan đến hai vấn đề chính, kỹ thuật phân tích tập đặc trưng phân biệt Trong thời kỳ đầu, kỹ thuật phân tích chủ yếu sử dụng phương pháp đơn giản bất biến đơn (unitary invariant) phân tích đa biến (multivariate analysis) Các phương pháp có hạn chế khả xử lý số lượng lớn đặc điểm hay ổn định nhiều lĩnh vực Để giải vấn đề này, kỹ thuật học máy nghiên cứu áp dụng Nhiều nghiên cứu phân tích tác giả văn dựa kỹ thuật học máy cho kết tốt, điển hình thuật toán máy véc tơ hỗ trợ (SVM - Support Vector Machine), mạng Bayes (Bayesian Networks), hay định (Decision Trees) Tập đặc trưng xem phương pháp biểu diễn văn khía cạnh phong cách viết cách sử dụng từ Đã có nhiều tập đặc trưng thử nghiệm chia làm hai loại chính: đặc đặc trưng phong cách đặc trưng dựa nội dung Đặc trưng phong cách bao gồm đặc điểm liên quan đến cách dùng ký tự, tính chất từ (lexical), cách sử dụng cấu trúc ngữ pháp (syntactic), hay cấu trúc văn Đặc trưng dựa nội dung bao gồm từ định nội dung đặc biệt sử dụng thường xuyên lĩnh vực lĩnh vực khác Các đặc trưng phân loại thành đặc trưng độc lập liệu phụ thuộc liệu (liên quan đến q trình xây dựng tập đặc trưng có cần tham chiếu đến tập liệu hay không) Mặc dù việc lựa chọn thuật toán học máy phù hợp vấn đề quan trọng, nghiên cứu trước cho thấy lĩnh vực phân tích tác giả văn bản, việc lựa chọn tập đặc trưng lại có tầm quan trọng cao Do vậy, nghiên cứu gần tập trung khai thác, tìm kiếm loại đặc trưng cho vấn đề phân tích tác giả văn 1.2 NHẬN DIỆN ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH HÀNH VI Bên cạnh việc nhận diện người dùng thơng qua phân tích văn bản, gần vấn đề nhận diện đặc điểm người dùng dựa phân tích hành vi quan tâm nhiều Việc nhận diện đặc điểm người dùng qua hành vi đặc biệt hữu ích hệ thống khơng có mẫu văn người dùng để áp dụng kỹ thuật phân tích văn bản, chẳng hạn hệ thống thiên quản lý hành vi hệ thống thương mại điện tử, hệ thống mạng di động v.v Khác với vấn đề xác định đặc điểm tác giả văn bản, đặc trưng hành vi người dùng hệ thống đa dạng nhiều Do vậy, nghiên cứu lĩnh vực sử dụng tập đặc trưng khác phụ thuộc vào hệ thống cụ thể Phương pháp nhận diện chủ yếu sử dụng kỹ thuật học máy Các nghiên cứu tập trung vào việc tìm kiếm phương pháp xây dựng tập đặc trưng hiệu thử nghiệm kỹ thuật phân tích phù hợp 1.3 KẾT LUẬN CHƯƠNG Chương trình bày nghiên cứu, khảo sát, đánh giá công trình lĩnh vực xác định đặc điểm người dùng dựa phân tích văn phân tích hành vi Luận án thực nghiên cứu hai lĩnh vực này, bao gồm xác định đặc điểm tác giả viết diễn đàn tiếng Việt xác định giới tính người dùng dựa liệu lịch sử truy cập hệ thống TMĐT CHƯƠNG XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT 2.1 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT SỬ DỤNG CÁC ĐẶC TRƯNG CƠ BẢN Nghiên cứu thực xác định đặc điểm tác giả viết diễn đàn tiếng Việt đặc trưng theo phong cách số thuật toán học máy phổ biến Các đặc điểm cá nhân tác giả viết nhận diện bao gồm giới tính, độ tuổi, nghề nghiệp, vùng miền Các loại đặc trưng khảo sát nghiên cứu gồm đặc trưng dựa ký tự tính chất từ, đặc trưng ngữ pháp, đặc trưng cấu trúc Các thực nghiệm thực tập đặc trưng khác để nghiên cứu phù hợp loại đặc trưng với loại văn nghiên cứu viết diễn đàn tiếng Việt Sau đặc trưng trích chọn từ tập liệu xử lý, thuật toán học máy áp dụng để xây dựng mơ hình phân loại Các bước thực xây dựng mơ hình xác định đặc điểm tác giả viết diễn đàn tiếng Việt sử dụng học máy mô tả hình 2.1 Theo đó, viết diễn đàn tiếng Việt có thơng tin đặc điểm người viết thu thập từ Internet thông qua mô đun Thu thập liệu Mô đun Xử lý liệu tiến hành thao tác tiền xử lý trước thực trích chọn đặc trưng tạo tập liệu huấn luyện mơ đun Trích chọn đặc trưng Cuối cùng, phân loại xây dựng thuật toán học máy tập liệu tạo Các đặc trưng sử dụng nghiên cứu bao gồm 333 đặc trưng theo phong cách, chia làm ba nhóm gồm đặc trưng dựa từ vựng, dựa ngữ pháp, dựa cấu trúc nói phần trước Các loại đặc trưng lại chia nhỏ thành nhóm đặc trưng theo ký tự, theo tính chất từ (thuộc nhóm từ vựng), đặc trưng theo loại từ, từ chức (thuộc nhóm ngữ pháp) Internet Thu thập liệu Dữ liệu thơ Xử lý liệu Trích chọn đặc trưng Lựa chọn đặc trưng Thuật toán học máy Véc tơ đặc trưng Dữ liệu huấn luyện Xây dựng mơ hình Bộ phân loại Hình 2.1 Mơ hình tổng qt phương pháp Các nghiên cứu chương thực sở tập liệu viết chủ yếu từ diễn đàn Otofun.net.vn bổ sung thêm viết từ số diễn đàn phổ biến khác diễn đàn Webtretho.com, diễn đàn Tinhte.vn để đa dạng hóa nguồn liệu Sau bước xử lý làm sạch, tập liệu thu thập bao gồm có 6.831 viết từ 104 người dùng với tổng cộng có 736.252 từ trung bình 107 từ/bài Các viết lựa chọn có thơng tin đặc điểm người viết, dùng làm liệu huấn luyện cho hệ thống Bảng 2.2 cho thấy thông số thông kê tập liệu huấn luyện theo diễn đàn theo lớp đặc điểm 12 Các kết thực nghiệm cho thấy đặc trưng dựa nội dung có kết vượt trội so với đặc trưng loại đặc trưng khác sử dụng riêng rẽ Mặc dù đặc trưng dựa nội dung thường xem có tính phụ thuộc vào lĩnh vực mức độ định làm giảm độ xác chuyển qua ứng dụng lĩnh vực khác, với độ xác tăng trung bình từ 59% so với đặc trưng bản, kết có nhiều triển vọng ứng dụng lĩnh vực lĩnh vực tương tự Hơn nữa, với thời gian huấn luyện khoảng 3-5 giây (với thuật toán SMO 600 đặc trưng), mơ hình phân loại hồn tồn nhanh chóng xây dựng lại tập liệu đáp ứng ứng dụng với thời gian thực Các từ ngồi từ điển có kết chưa tốt sử dụng riêng rẽ, nhiên kết hợp với đặc trưng cho kết tốt so với việc sử dụng đặc trưng riêng rẽ Các đặc trưng cặp ghép từ loại cho kết hạn chế, kể sử dụng riêng rẽ kết hợp với đặc trưng Kết củng cố thêm cho nhận định việc cấu trúc ngữ pháp khó phát huy hiệu nhận diện bải viết ngắn có phong cách tự viết diễn đàn Cuối cùng, việc kết hợp tất đặc trưng cho kết cao tập khác Về phương pháp phân loại, thuật tốn SMO có kết tốt hai thuật tốn cịn lại đa số trường hợp, thuật tốn Random Forest cho kết tốt Bayesian Networks có thời gian chạy lâu nhiều Phân tích sâu đặc trưng nội dung phát số xu hướng, chẳng hạn nam giới thường có xu hướng trao đổi vấn đề công việc, thể thao, quy định, nữ giới thường nói sống, sức khỏe, áp lực Những người có độ tuổi 22 (học sinh/sinh viên) thường thảo luận học tập, hành động 13 Người có độ tuổi 24-27 (những người làm) thường trao đổi nhu cầu, du lịch Người trung niên thường trao đổi quan điểm tiêu dùng, luật pháp v.v 2.3 SỬ DỤNG CÁC ĐẶC TRƯNG VẦN VÀ ÂM TIẾT TIẾNG VIỆT Các đặc trưng dựa nội dung thường cho kết tốt hơn, xem có tính đặc thù miền (domain-specific), từ nội dung chọn đặc thù lĩnh vực nghiên cứu Để làm giảm mức độ đặc thù miền đặc trưng nội dung, nghiên cứu đề xuất phương pháp xác định đặc điểm tác giả văn dựa loại đặc trưng chưa nghiên cứu trước để xác định đặc điểm tác giả văn tiếng Việt, đặc trưng theo âm tiết vần Một từ tiếng Việt chứa nhiều âm tiết, âm tiết chứa vần Do đó, âm tiết vần mang ngữ nghĩa nhiều so với từ nội dung sử dụng làm đặc trưng phân loại xem đặc trưng có tính độc lập lĩnh vực so với từ nội dung Ví dụ, từ ghép “đồng hồ” tạo âm tiết “đồng” “hồ” âm tiết cần thiết cho việc xác định ngữ nghĩa từ Từ ngữ nghĩa riêng rẽ âm tiết, nhiều trường hợp xác định nghĩa từ Ngoài ra, âm tiết vần xây dựng theo quy tắc từ vựng ngơn ngữ mà khơng cần trích chọn từ tập liệu, đặc trưng coi có tính độc lập liệu Về khía cạnh hiệu xử lý, với khoảng 6.400 âm tiết 450 vần sử dụng làm đặc trưng phân loại, thuật toán học máy phổ biến SVM hồn tồn xử lý mà khơng gặp nhiều khó khăn 14 Nhìn chung, hầu hết nghiên cứu trước khai thác đặc trưng phong cách đặc trưng mang nhiều nội dung Nghiên cứu đề xuất phương pháp sử dụng âm tiết vần tiếng Việt làm đặc trưng nhận diện Đây đặc trưng có mức độ ngữ nghĩa cao ký tự cụm ký tự ghép ngẫu nhiên, nhiên mang ngữ nghĩa nhiều so với từ nội dung Các đặc trưng coi cụm ký tự n-grams kết hợp theo quy tắc từ vựng ngơn ngữ thay kết hợp cách ngẫu nhiên Đến nay, chưa có nghiên cứu lĩnh vực phân tích tác giả văn thực loại đặc trưng Kết thực nghiệm cho thấy, sử dụng đặc trưng vần làm tăng độ xác lên khoảng 1-2%, sử dụng đặc trưng âm tiết làm tăng khoảng 7% so với đặc trưng Việc kết hợp đặc trưng theo phong cách đặc trưng vần kết hợp đặc trưng phong cách đặc trưng âm tiết làm tăng hiệu nhận diện lên 4%-8% tương ứng So sánh với từ nội dung, đặc trưng theo âm tiết mang ngữ nghĩa có tính độc lập liệu có kết nhận diện gần tương đương với từ nội dung (đặc biệt đặc điểm giới tính vùng miền) Mặc dù số ngoại lệ, đặc trưng vần cho kết không tốt nhận diện đặc điểm độ tuổi nghề nghiệp so với đặc trưng phong cách, đặc trưng âm tiết cho kết nhận diện độ tuổi, kết luận đặc trưng âm tiết vần mang lại kết khả quan tốt đặc trưng phong cách Hơn nữa, việc kết hợp tất loại đặc trưng cho kết cao chứng tỏ việc sử dụng âm tiết vần có ảnh 15 hưởng tích cực tới kết nhận diện kể từ nội dung sử dụng Bảng 2.9 Kết xác định đặc điểm tác giả sử dụng đặc trưng vần âm tiết Tập đặc trưng Giới tính Độ tuổi Nghề nghiệp Vùng miền Theo phong cách 83.47 62.76 52.46 71.22 Các vần 84.13 58.26 50.22 72.80 Âm tiết 89.98 66.24 57.43 80.38 Từ nội dung 90.01 70.05 60.99 82.98 Kết hợp phong cách vần 86.56 60.90 54.30 75.70 Kết hợp phong cách âm tiết 91.33 69.23 58.70 81.07 Kết hợp phong cách nội dung 90.55 70.70 61.04 83.13 Kết hợp tất 91.72 71.26 61.43 84.28 2.4 KẾT LUẬN CHƯƠNG Chương trình bày kết nghiên cứu lĩnh vực xác định đặc điểm tác giả văn tiếng Việt, bao gồm nghiên cứu 16 ứng dụng đặc trưng dựa theo phong cách, nghiên cứu, phân tích đặc trưng dựa nội dung nghiên cứu, đề xuất phương pháp xác định đặc điểm tác giả dựa loại đặc trưng âm tiết vần tiếng Việt CHƯƠNG XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG DỰA TRÊN DỮ LIỆU LỊCH SỬ TRUY CẬP HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ 3.1 PHƯƠNG PHÁP TÁI CHỌN MẪU Phần trình bày nghiên cứu dự đốn giới tính người dùng dựa liệu lịch sử truy cập hệ thống TMĐT thông qua phương pháp tiếp cận tái chọn mẫu Theo đó, mẫu danh sách sản phẩm xem người dùng chia tách làm nhiều mẫu tương ứng sản phẩm đơn lẻ Kết cuối kết hợp dựa kết mẫu đơn lẻ Nghiên cứu sử dụng thuật tốn học máy thơng dụng SVM, Bayesian Networks, ngẫu nhiên (Random Tree) để huấn luyện kiểm chứng mơ hình tập liệu cung cấp tập đoàn FPT thi khai phá liệu khuôn khổ hội nghị khai phá liệu phát tri thức khu vực châu Á – Thái Bình Dương 2015 (PAKDD’15 – Pacific Asia Knowledge Discovery and Data Mining 2015) Nghiên cứu tập trung vào việc sử dụng kỹ thuật hỗ trợ để nâng cao độ xác cho thuật tốn học máy 17 xử lý vấn đề phân loại không cân tái chọn mẫu, học nhạy cảm chi phí, học kết hợp nói Tập đặc trưng phân loại sử dụng nghiên cứu chia làm hai loại chính: đặc trưng chung đặc trưng dựa sản phẩm Đặc trưng chung bao gồm đặc trưng liên quan đến thời gian tần suất hành động xem sản phẩm Các đặc trưng dựa sản phẩm bao gồm tất đặc trưng liên quan đến sản phẩm loại sản phẩm Nghiên cứu đề xuất phương pháp tiếp cận đơn giản hiệu cho loại đặc trưng Trong lượt xem, người dùng xem nhiều sản phẩm, nhiên có nhiều người xem sản phẩm Với lượt xem có nhiều sản phẩm xem, hệ thống tách làm nhiều lượt chứa sản phẩm xem Đây xem phương pháp tái chọn mẫu, theo mẫu cho tập liệu huấn luyện tạo cách tách lượt xem có nhiều sản phẩm xem thành nhiều mẫu có sản phẩm xem Một mơ hình dự đốn dựa học máy xây dựng dựa tập liệu huấn luyện dùng để dự đoán đầu cho tất liệu lượt xem chứa sản phẩm Với liệu lượt xem chứa nhiều sản phẩm, sản phẩm dự đốn riêng rẽ sau kết kết hợp lại kết luận cuối Phương pháp kết hợp sử dụng kỹ thuật chọn đa số (voting) đơn giản: số lượng nam dự đoán nhiều số lượng nữ, kết cuối nam ngược lại kết nữ Ngoài ra, tập liệu huấn luyện có đặc điểm khơng cần lớp (khoảng 80% nữ 20% nam), số kỹ thuật hỗ trợ tái chọn mẫu (resampling), học nhạy cảm chi phí (cost-sensitive 18 learning), học kết hợp (boosting) áp dụng để nâng cao độ xác Các kết thực nghiệm cho thấy, thuật toán Bayesian Networks cho kết tốt so với thuận tốn cịn lại, thuật tốn SVM cho kết SVM biết đến thuật toán phân loại tốt nhiều trường hợp, có việc nhận diện đặc điểm cá nhân người dùng Tuy nhiên, thuật tốn khơng phát huy mạnh áp dụng tập liệu có số đặc trưng khơng lớn tập liệu Khi sử dụng Baysian Networks thuật toán tái chọn mẫu khác nhau, thuật toán Resample với phương pháp tái chọn mẫu tăng cho kết tốt hai thuật tốn cịn lại SpreadSubSample SMOTE cho kết Khi kết hợp kỹ thuật tái chọn mẫu với kỹ thuật hỗ trợ khác học nhạy cảm chi phí, học kết hợp, cho thấy kỹ thuật có hiệu việc nâng cao hiệu suất thuật toán sở Mỗi kỹ thuật giúp tăng độ xác lên khoảng 1-2%, kết hợp kỹ thuật giúp tăng hiệu suất lên 3% 3.2 PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN BIỂU DIỄN CÂY Phần trình bày phương pháp tiếp cận khác để giải vấn đề dự đoán giới tính người dùng dựa liệu lịch sử truy cập hệ TMĐT phần 3.1 Ý tưởng phương pháp khai thác tối đa mối quan hệ sản phẩm/loại sản phẩm xem lượt xem dựa biểu diễn dạng danh sách sản phẩm/loại sản phẩm Theo đó, bên cạnh đặc trưng 19 thời gian, tần suất xem, danh sách sản phẩm/loại sản phẩm riêng rẽ, nghiên cứu đề xuất sử dụng đặc trưng chuỗi sản phẩm/loại sản phẩm xem liên tiếp, cặp chuyển tiếp sản phẩm/loại sản phẩm khác lượt xem v.v (gọi chung đặc trưng nâng cao) Với cấu trúc phân cấp nhiều cấp độ danh mục sản phẩm/loại sản phẩm, sử dụng phương pháp biểu diễn dạng để cung cấp khung nhìn tốt mối quan hệ sản phẩm/loại sản phẩm so với biểu diễn dạng liệt kê Sau xây dựng tập liệu huấn luyện, thuật toán học máy rừng ngẫu nhiên (Random Forest), máy véc tơ hỗ trợ (SVM), mạng Bayes (Bayesian Networks) sử dụng để xây dựng mơ hình phân loại Các đặc trưng sử dụng nghiên cứu chia làm hai loại, gọi đặc trưng đặc trưng nâng cao Các đặc trưng bao gồm đặc trưng liên quan đến thời gian, tần suất xem sản phẩm đặc trưng sản phẩm/loại sản phẩm riêng rẽ Các đặc trưng thời gian tần suất xem tương tự phần 3.1 Đặc trưng sản phẩm/loại sản phẩm bao gồm tất sản phẩm loại sản phẩm có hệ thống Để xây dựng danh mục đặc trưng này, mã sản phẩm/mã phân loại trích từ tập liệu sử dụng chúng đặc trưng dạng số Với sản phẩm/loại sản phẩm, thực đếm số lần người dùng xem sản phẩm/loại sản phẩm lượt xem sử dụng số làm giá trị đặc trưng tương ứng Bên cạnh đặc trưng sản phẩm/loại sản phẩm riêng rẽ, đặt giả thiết mối quan hệ sản phẩm/loại sản phẩm xem lượt xem yếu tố 20 dùng để dự đốn giới tính người dùng Chẳng hạn người dùng nam thường xem loại sản phẩm lượt xem người dùng nữ xem liên tiếp nhiều loại sản phẩm khác Trong file liệu, danh sách sản phẩm/loại sản phẩm xem lượt xem biểu thị dang danh sách liệt kê đây: A00002/B00003/C00006/D19760/; A00002/B00001/C00010/D18416; A00002/B00001/C00004/D19764/;A00002/B00003/C00008/ D19761/; A00002/B00003/C00008/D08538/ Việc sử dụng danh sách liệt kê gây khó khăn cho việc trích chọn hiệu tất thông tin mối quan hệ sản phẩm/loại sản phẩm lượt xem Nghiên cứu đề xuất biểu diễn dạng nhằm cung cấp khung nhìn tốt quan hệ Theo biểu diễn này, loại sản phẩm mức chung nằm gốc cây, sản phẩm cụ thể nằm phần loại sản phẩm cấp độ trung gian nằm tầng Theo đó, danh mục sản phẩm/loại sản phẩm biểu diễn dạng danh sách liệt kê chuyển đổi sang biểu diễn hình 3.1 Từ biểu diễn dạng này, dễ dàng chuyển đổi ngược trở lại biểu diễn dạng danh sách liệt kê cách duyệt theo chiều sâu từ trái sang phải Ngồi ra, từ biểu diễn cây, rút thông tin quan hệ sản phẩm/loại sản phẩm cách khai thác thuộc tính nút, tầng, đường đi, nút kề v.v Trong tốn tại, sử dụng thuộc tính để làm đặc trưng mối quan hệ số nút tầng (số sản phẩm lượt xem), chuỗi nút liên tiếp tầng 21 (tương ứng với chuỗi sản phẩm/loại sản phẩm xem liền lượt xem), cặp nút chuyển tầng khác (chuyển sản phẩm lượt xem) A00002 B00003 C00006 D19760 B00001 C00010 D18416 B00003 C00004 D19764 D19761 C00008 D08538 Hình 3.1 Biểu diễn dạng danh mục sản phẩm/loại sản phẩm xem Nghiên cứu sử dụng học máy để xây dựng mơ hình phân loại với kỹ thuật hỗ trợ giải vấn đề khơng cân nhóm phân loại nghiên cứu trước Ngoài ra, số lượng đặc trưng lớn (khoảng 3.500 đặc trưng), kỹ thuật lựa chọn đặc trưng áp dụng để giảm bớt độ phức tạp loại bỏ đặc trưng liên quan đến q trình phân loại Nhằm đánh giá hiệu đặc trưng nâng cao, thực nghiệm tiến hành tập đặc trưng khác nhau, bao gồm tập đặc trưng tập đặc trưng kết hợp nâng cao Theo cách phân loại tập đặc trưng, đặc trưng nâng cao mang tính bổ sung, sử dụng riêng rẽ không hiệu Do đó, 22 thực nghiệm tập đặc trưng nâng cao riêng rẽ không thực nghiên cứu Mỗi tập đặc trưng thử nghiệm ba thuật toán học máy kỹ thuật hỗ trợ nói Kết thực nghiệm cuối cho thấy thuật toán học máy kết hợp với kỹ thuật tái cân lớp theo phương pháp đặt lại trọng số cho lớp ClassBalancer kỹ thuật học nhạy cảm chi phí CostSensitiveClassifier cho kết BAC tốt Cụ thể, đặc trưng nâng cao sử dụng kết hợp với đặc trưng cải tiến kết đáng kể so sánh với việc sử dụng đặc trưng Mặc dù vậy, tập liệu cung cấp, có nhiều lượt xem có sản phẩm xem (khoảng 30%) đặc trưng nâng cao khơng có hiệu với trường hợp (do khơng có nhiều sản phẩn xem lượt để khai thác mối quan hệ chúng) Trên thực tế, số lượng người dùng xem nhiều sản phẩm lượt xem nhiều việc sử dụng đặc trưng nâng cao đem lại hiệu cao áp dụng trường hợp So sánh kết thuật tốn học máy, thuật tốn Random Forest có kết vượt trội so với thuật toán SVM Bayesian Networks Thuật toán Random Forest thực học kết hợp thông qua việc lựa chọn nhiều tập đặc trưng liệu để xây dựng nên tập định, phù hợp với tốn có số lượng đặc trưng lớn thưa toán Một điểm thú vị khác phương pháp biểu diễn đặc trưng sử dụng nghiên cứu có cấu trúc dạng 23 Bảng 3.12 Kết phân loại sau lựa chọn đặc trưng tối ưu tham số BAC Macro F1 Kết ban đầu 81.0 78.5 Áp dụng lựa chọn đặc trưng với Information 81.2 78.8 81.7 79.3 Gain (2.500 đặc trưng) Tối ưu tham số cho thuật toán Random Forest (1.000 cây, với số đặc trưng 13) 3.3 KẾT LUẬN CHƯƠNG Chương trình bày hai kết nghiên cứu vấn đề dự đốn giới tính người dùng dựa liệu lịch sử truy cập hệ thống TMĐT Hai nghiên cứu trình bày chương bao gồm nghiên cứu sử dụng phương pháp tiếp cận tái chọn mẫu nghiên cứu thứ hai sử dụng phương pháp khai thác tối đa mối quan hệ sản phẩm/loại sản phẩm lượt xem nhờ sử dụng biểu diễn danh sách sản phẩm/loại sản phẩm KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO Luận án trình bày kết nghiên cứu nghiên cứu sinh việc xác định đặc điểm tác giả văn xác định đặc điểm người dùng với số phương pháp học máy để nhận diện đặc điểm tác giả người dùng mạng Internet Các đóng 24 góp luận án tóm lược bao gồm việc nghiên cứu, phân tích loại đặc trưng phương pháp phân loại khác cho toán xác định đặc điểm tác giả văn tiếng Việt, tiến hành phân tích, đánh giá sâu đặc trưng nội dung đề xuất loại đặc trưng hoàn toàn dựa âm tiết vần tiếng Việt Đối với toán dự đốn giới tính người dùng dựa liệu TMĐT, đóng góp luận án bao gồm việc nghiên cứu phương pháp trích chọn đặc trưng hiệu phương pháp phân loại phù hợp Các hướng nghiên cứu luận án bao gồm việc nghiên cứu, khai thác đặc trưng ngôn ngữ tiếng Việt để tìm kiếm loại đặc trưng cho nhận diện tác giả văn hoạc mở rộng nghiên cứu xác định đặc điểm tác giả văn sang loại văn khác Đồng thời, mở rộng nghiên cứu xác định đặc điểm người dùng dựa phân tích hành vi qua loại hệ thống khác so với thương mại điện tử diễn đàn, hệ thống mạng xã hội v.v DANH MỤC CƠNG TRÌNH CƠNG BỐ Duong, D.T., Pham, S.B and Tan, H (2015), Author Profiling of Vietnamese Forum Posts, Vietnamese Language and Speech Processing Workshop (VLSP 2015 Workshop), Pacific-Asia Knowledge Discovery and Data Mining International Conference (PAKDD’2015) Duong, D.T., Pham, S.B and Tan, H (2016), Using Content-based Features for Author Profiling of Vietnamese Forum Posts, Recent Developments in Intelligent Information and Database Systems, Proceedings of 8th Asian Conference on Intelligent Information and Database Systems, pp 287-296, Springer International Publishing Duong, D.T., Pham, S.B and Tan, H (2016), Customer Gender Prediction Based-on E-Commerce Data, Proceedings of 8th International Conference on Knowledge and Systems Engineering Springer International Publishing Duong, D.T., Pham, S.B and Tan, H (2016), Using Content and NonDictionary Words for Author Profiling of Vietnamese Forum Posts, Journal of Science & Technology on Information and Communications, Posts and Telecommunications Institute of Technology, Hanoi, Vietnam, 1(2), pp 87-94 Duong, D.T., Pham, S.B and Tan, H (2017), A Resampling Approach for Customer Gender Prediction Based-on E-Commerce Data, Issue on Information and Communications Technology, Journal of Science and Technology, The University of Danang, Danang, Vietnam, 3(1), pp 76-86 Duong, D.T., Pham, S.B and Tan, H (2017), Author Profiling of Vietnamese Forum Posts – An Investigation on Content-based Features, VNU Journal of Science: Computer Science and Communication Engineering, Hanoi, Vietnam, 33(1) Dương Trần Đức, Phạm Bảo Sơn, Tân Hạnh (2017), “Xác định đặc điểm tác giả viết diễn đàn tiếng Việt dựa âm tiết vần”, Chun san cơng trình nghiên cứu, phát triển, ứng dụng Công nghệ thông tin Truyền thông, Bộ Thông tin Truyền thông, số 17(37) ... luận án thư viện: Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Ngày nay, với thiết bị kết nối đến mạng Internet, người dùng dễ dàng sử dụng kênh trao đổi thông tin website, email, diễn đàn, mạng xã hội,... thực cách hiệu Do đó, xác định đặc điểm người dùng mối quan tâm hàng đầu nhà cung cấp dịch vụ mạng Internet Tuy nhiên, có nhiều người dùng khơng tự tiết lộ thông tin cá nhân vấn đề an tồn riêng tư... người dùng đặc điểm người dùng Luận án xác định đối tượng người dùng nghiên cứu người dùng mạng Internet Đối với nghiên cứu xác định đặc điểm người dùng dựa phân tích văn bản, luận án thực nghiên

Ngày đăng: 13/06/2018, 10:39

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w