Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 142 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
142
Dung lượng
2,47 MB
Nội dung
1 MỞ ĐẦU Sự phát triển mạnh mẽ Internet dịch vụ Internet có tác động lớn đến nhiều mặt xã hội Chỉ với thiết bị kết nối đến mạng Internet, người dùng dễ dàng sử dụng kênh trao đổi thông tin website, email, diễn đàn, mạng xã hội, dịch vụ khác tìm kiếm thơng tin, thương mại điện tử (TMĐT) v.v Một đặc điểm chung hệ thống không bắt buộc người dùng cung cấp xác thơng tin cá nhân sử dụng Việc nhằm khuyến khích tạo thuận lợi cho người dùng trình sử dụng, nhiên tạo số vấn đề Thứ nhất, người dùng sử dụng kênh trao đổi thông tin cách nặc danh giả mạo, với mục đích xấu Thứ hai, việc thiếu thơng tin cá nhân người dùng làm cho nhà cung cấp dịch vụ Internet gặp khó khăn việc cá nhân hóa hệ thống nhằm tăng trải nghiệm cho người dùng, thúc đẩy bán hàng, thực hoạt động quảng cáo trực tuyến hiệu Luận án thực nghiên cứu vấn đề xác định đặc điểm người dùng dựa phân tích văn người dùng tạo dựa phân tích hành vi người dùng thực hệ thống phương pháp học máy Các nội dung phần bao gồm: Phần 1.1 trình bày lý lựa chọn đề tài Phần 1.2 1.3 nêu mục tiêu đóng góp luận án Nội dung phần 1.4 bố cục toàn luận án LÝ DO LỰA CHỌN ĐỀ TÀI Xác định đặc điểm người dùng mối quan tâm hàng đầu nhà cung cấp dịch vụ mạng Internet Đặc biệt, bối cảnh xu hướng cá nhân hóa hệ thống cho phù hợp với cá nhân người dùng, việc có thông tin đặc điểm cá nhân người dùng giới tính, độ tuổi, nghề nghiệp, v.v giúp cho hệ thống tối ưu hóa theo đặc điểm tương ứng hiển thị thông tin quảng cáo, tiếp thị, giới thiệu sản phẩm phù hợp với người dùng Việc xác định đặc điểm người dùng trợ giúp cho nhà quản lý việc hỗ trợ điều tra tội phạm trực tuyến Trong trường hợp tội phạm để lại dấu vết hệ thống tin trực tuyến hành vi khác hệ thống, việc dựa vào thơng tin để dự đốn đặc điểm tội phạm giúp khoanh vùng, thu hẹp phạm vi xác định tội phạm, chí nhiều trường hợp xác định đích danh tội phạm danh sách nghi phạm biết trước có phân biệt Khó khăn lớn nhà cung cấp dịch vụ mạng Internet nhà quản lý đa phần người dùng không cung cấp cung cấp không đầy đủ không xác thơng tin cá nhân sử dụng hệ thống trực tuyến Điều nhằm bảo vệ tính riêng tư an tồn thơng tin người dùng trước công mạng ngày phổ biến Vì vậy, phương pháp để có thơng tin cá cá nhân người dùng dự đốn từ “dấu vết” người dùng để lại hệ thống tin tạo ra, hay hành vi người dùng thực hệ thống Kỹ thuật phân tích tác giả văn nghiên cứu từ cách hàng thập kỷ, khởi đầu loại văn thống có độ dài lớn sách, tạp chí, báo, v.v tập trung vào vấn đề xác minh đích danh tác giả văn danh sách tác giả xác định trước (kỹ thuật gọi xác định tác giả văn bản, authorship attribution, trình bày kỹ chương sau) Gần đây, phổ biến loại văn trực tuyến, vấn đề phân tích tác giả văn thực nhiều loại văn tập trung vào xác định đặc điểm tác giả (author profiling) văn trực tuyến thường có độ mở cao nên thường khơng có thơng tin tác giả văn Nhiều nghiên cứu thực loại văn trực tuyến khác (email, blog, viết mạng xã hội) ngôn ngữ khác (tiếng Anh, tiếng Hà Lan, tiếng Trung Quốc, tiếng Hy Lạp v.v.) Các nghiên cứu xác định đặc điểm người dùng dựa phân tích hành vi đời muộn trở nên phổ biến năm gần xu hướng quảng cáo trực tuyến hướng đối tượng tăng mạnh hệ thống website, máy tìm kiếm, thương mại điện tử v.v Ưu điểm kỹ thuật không cần thu thập tin người dùng tạo ra, việc thu thập hành vi người dùng hệ thống không dễ dàng máy chủ làm công việc Các nghiên cứu phổ biến lĩnh vực thực hệ thống website thông tin, hệ thống mạng di động, v.v Luận án thực nghiên cứu hai lĩnh vực: xác định đặc điểm tác giả văn xác định đặc điểm người dùng dựa hành vi Các nghiên cứu xác định đặc điểm tác giả văn thực văn tiếng Việt loại ngôn ngữ chưa nghiên cứu nhiều Các nghiên cứu xác định đặc điểm người dùng dựa hành vi thực liệu hệ thống thương mại điện tử Đây hệ thống có khả áp dụng cao kết nghiên cứu đặc thù bán hàng trực tuyến theo khảo sát chúng tơi chưa có nghiên cứu trước xác định đặc điểm người dùng thực loại hệ thống MỤC TIÊU CỦA LUẬN ÁN Dựa nhu cầu thực tiễn kết nghiên cứu trước nước quốc tế, luận án đặt mục tiêu sau: - Nghiên cứu vấn đề xác định đặc điểm tác giả văn loại văn mới, chưa nghiên cứu trước Cụ thể viết diễn đàn tiếng Việt Thực nghiệm loại đặc trưng phương pháp phân loại để chọn đặc trưng phương pháp phân loại phù hợp - Nghiên cứu phương pháp trích chọn đặc trưng cho vấn đề xác định đặc điểm tác giả văn bản, nhằm tăng độ xác tính độc lập q trình nhận diện Các phương pháp trích chọn tận dụng đặc điểm đặc thù ngôn ngữ tiếng Việt để áp dụng văn đồng ngôn ngữ Tuy nhiên, có khả áp dụng sang loại ngôn ngữ khác - Nghiên cứu vấn đề xác định đặc điểm người dùng dựa hành vi hệ thống có nhu cầu cá nhân hóa cao hệ thống TMĐT Nghiên cứu, đề xuất phương pháp trích chọn đặc trưng hiệu phương pháp phân loại phù hợp Xây dựng ứng dụng thử nghiệm kết nghiên cứu luận án PHẠM VI NGHIÊN CỨU Xác định đặc điểm người dùng lĩnh vực rộng, khía cạnh loại người dùng đặc điểm người dùng Luận án xác định đối tượng người dùng nghiên cứu người dùng mạng Internet (là người dùng hệ thống phổ biến Internet website, email, diễn đàn, hệ thống TMĐT v.v) Do tính mở mạng Internet để bảo đảm tính riêng tư, người dùng thường tiết lộ đặc điểm cá nhân sử dụng việc xác định đặc điểm người dùng có ý nghĩa quan trọng trình bày Đối với nghiên cứu xác định đặc điểm người dùng dựa phân tích văn bản, có nhiều loại văn nhiều ngôn ngữ nhà khoa học giới nghiên cứu, đó, nghiên cứu tập trung vào loại văn trực tuyến thư điện tử (email), nhật ký trực tuyến (blog), viết mạng xã hội (social network) Luận án thực nghiên cứu xác định đặc điểm tác giả viết diễn đàn tiếng Việt Đây loại văn chưa nghiên cứu nhiều, đặc biệt ngôn ngữ tiếng Việt Các đặc điểm nhận diện bao gồm giới tính, độ tuổi, nghề nghiệp, vùng miền Xác định đặc điểm người dùng dựa phân tích hành vi lĩnh vực nghiên cứu quan tâm năm gần Tuy nhiên, có hạn chế vấn đề thu thập liệu mẫu (dữ liệu hành vi người dùng thường lưu trữ máy chủ hệ thống tự động thu thập liệu khơng có cho phép đơn vị quản lý hệ thống), luận án thực nghiên cứu dự đốn đặc điểm giới tính khách hàng dựa liệu truy cập hệ thống TMĐT CÁC ĐÓNG GÓP CỦA LUẬN ÁN Để thực mục tiêu trên, nghiên cứu mặt lý thuyết, đồng thời thực nghiệm thực tế thực để kết định lượng Các đóng góp luận án bao gồm: Đóng góp lĩnh vực xác định đặc điểm tác giả văn bản: - Nghiên cứu việc ứng dụng loại đặc trưng phương pháp nhận diện khác nhau, tập trung phân tích sâu đặc trưng dựa nội dung, cho vấn đề xác định đặc điểm tác giải viễn diễn đàn tiếng Việt Trước đây, có số cơng trình nghiên cứu việc sử dụng từ nội dung cho việc xác định đặc điểm tác giả văn bản, chưa có phân tích sâu Đặc biệt, chưa có nghiên cứu thực ngôn ngữ tiếng Việt - Đề xuất loại đặc trưng cho việc xác định đặc điểm tác giả viết diễn đàn tiếng Việt Các đặc trưng giúp cho việc nhận diện có độ xác cao đặc trưng (dựa phong cách), có tính độc lập so với đặc trưng nội dung, kết hợp với đặc trưng phong cách nội dung cho kết cao Đây đặc trưng dựa đặc thù tiếng Việt vần âm tiết, nhiên mở rộng áp dụng sang ngơn ngữ khác loại văn khác Đóng góp lĩnh vực xác định đặc điểm người dùng dựa hành vi: - Nghiên cứu vấn đề dự đoán giới tính khách hàng dựa liệu lịch sử truy cập hệ TMĐT Mặc dù hệ thống TMĐT hệ thống sử dụng rộng rãi Internet có khả ứng dụng cao chưa có nghiên cứu thực dự đốn đặc điểm khách hàng dựa hành vi loại hệ thống Luận án nghiên cứu phương pháp trích chọn đặc trưng phân loại hiệu quả, đề xuất phương pháp trích chọn đặc trưng sử dụng biểu diễn dạng danh sách sản phẩm phân loại BỐ CỤC CỦA LUẬN ÁN Nội dung luận án bao gồm chương phụ lục, đó: Chương khảo sát đánh giá cơng trình thực lĩnh vực nghiên cứu luận án Chương bao gồm hai phần, khảo sát, đánh giá nghiên cứu lĩnh vực phân tích tác giả văn lĩnh vực dự đoán đặc điểm người dùng dựa hành vi Chương trình bày vấn đề xác định đặc điểm tác giả viết diễn đàn tiếng Việt, bao gồm phương pháp tiếp cận kết thực nghiệm Trong chương này, kết nghiên cứu lĩnh vực xác định đặc điểm tác giả văn tiếng Việt sử dụng kỹ thuật học máy trình bày Đó nghiên cứu sử dụng đặc trưng dựa phong cách, nghiên cứu phân tích việc sử dụng đặc trưng dựa nội dung nghiên cứu, đề xuất sử dụng đặc trưng dựa âm tiết vần tiếng Việt Các kết trình bày chương thể qua cơng bố khoa học [1, 2, 4, 5, 7] Chương mơ tả kết nghiên cứu dự đốn giới tính khách hàng dựa liệu lịch sử truy cập hệ TMĐT Chương đề xuất hai phương án tiếp cận cho việc giải vấn đề nói Hai phương pháp tiếp cận có ưu điểm có tính tổng qt dễ dàng ứng dụng cho hệ thống khác, đồng thời có tốc độ thực nhanh Kết phương pháp thể qua công bố khoa học [3, 6] Phần cuối luận án trình bày kết luận hướng nghiên cứu Phần phụ lục trình bày ứng dụng thử nghiệm dịch vụ xác định đặc điểm tác giả văn tiếng Việt Đây ứng dụng xây dựng dựa kết nghiên cứu trình bày chương triển khai thử nghiệm mạng Internet Ứng dụng bao gồm hai phần, phần ứng dụng cung cấp dịch vụ máy chủ ứng dụng thử nghiệm sử dụng dịch vụ máy khách CHƯƠNG TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG Chương trình bày nghiên cứu khảo sát xác định đặc điểm người dùng, bao gồm xác định đặc điểm người dùng dựa phân tích văn dựa phân tích hành vi Các nghiên cứu hai lĩnh vực nghiên cứu đánh giá, tập trung vào hai vấn đề đặc trưng nhận diện kỹ thuật phân tích Bố cục chương sau: Phần 1.1 trình bày khảo sát đánh giá cơng trình nghiên cứu lĩnh vực phân tích tác giả văn Phần 1.2 trình bày khảo sát lĩnh vực dự đoán đặc điểm người dùng dựa hành vi Phần 1.3 trình bày cơng cụ thực nghiệm WEKA Cuối cùng, phần 1.4 nêu vấn đề tồn cần nghiên cứu, giải 1.1 XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG THƠNG QUA PHÂN TÍCH VĂN BẢN 1.1.1 Giới thiệu Phân tích tác giả văn q trình phân tích tài liệu để đưa kết luận tác giả Việc phân tích tác giả văn cần thiết trường hợp có tài liệu khơng rõ tác giả cần phải phân tích để tác giả đặc điểm tác giả Trước đây, việc phân tích tác giả áp dụng chủ yếu cho tác phẩm văn học sách báo Tuy nhiên, năm gần đây, phát triển Internet kênh trao đổi thông tin trực tuyến hình thành nên nhiều loại văn điện tử với số lượng lớn email, blogs, diễn dàn v.v., có nhiều viết khơng rõ tác giả (do vơ tình cố ý) Trong nhiều trường hợp, việc xác định đặc điểm phát tác giả viết, nhận xét, bình luận vơ danh cần thiết, phục vụ cho nhiều mục đích khác như: Lĩnh vực quảng cáo, bán hàng: Việc xác định đặc điểm người dùng giúp cho thông tin quảng cáo giới thiệu sản phẩm hiển thị đối tượng, qua thúc đẩy hoạt động tiếp thị, bán hàng trực tuyến Lĩnh vực phát triển sản phẩm: Hỗ trợ cho tổ chức/doanh nghiệp việc xác định đặc điểm người thích khơng thích sản phẩm/dịch vụ họ thơng qua việc xác định tác giả bình luận/đánh giá tích cực tiêu cực Lĩnh vực tịa án, điều tra tội phạm: Hỗ trợ cho công tác phân xử phán xét tranh chấp thông qua việc chứng minh văn người tạo người tạo Ngoài ra, việc xác định tác giả văn giúp ích số lĩnh vực quan trọng khác xác định tội phạm gửi thông tin nặc danh giúp phát việc chép trái phép tài liệu văn Theo Zheng et al [118], lĩnh vực nghiên cứu phân tích tác giả văn chia làm dạng thức sau: Nhận diện tác giả: Là việc xác định xem người có phải tác giả văn không thông qua việc phân tích văn khác người tạo Xác định đặc điểm tác giả: Là việc đặc điểm người tạo văn cho trước Các đặc điểm đặc điểm cá nhân, tính cách, trình độ v.v Phát văn tác giả (phát chép): Là việc so sánh hai nhiều văn xem có phải chúng tạo tác giả hay khơng Q trình phân tích tác giả văn liên quan đến hai vấn đề chính, kỹ thuật phân tích tập đặc trưng phân biệt Có nhiều kỹ thuật sử dụng phân tích tác giả văn Koppel [58] phân chia kỹ thuật làm ba loại Trong thời gian đầu, kỹ thuật phân tích chủ yếu sử dụng phương pháp bất biến đơn (unitary invariant), hàm số học đơn văn sử dụng để phân biệt tác giả Phương pháp phân tích đa biến (multivariate analysis) sử dụng sau cho phép thực phân tích đa biến theo thống kê dựa tần suất từ đặc trưng số khác Mặc dù phương pháp đạt kết tốt thời gian đầu, tồn hạn chế, khả xử lý số lượng lớn đặc điểm hay ổn định nhiều lĩnh vực Để giải vấn đề này, kỹ thuật học máy nghiên cứu áp dụng Sự phát triển máy tính tốc độ cao cho phép nhà nghiên cứu thực thực nghiệm phân tích thuật tốn học máy phức tạp tập đặc trưng lớn Nhiều nghiên cứu phân tích tác giả văn dựa kỹ thuật học máy cho kết tốt, điển hình thuật tốn máy véc tơ hỗ trợ (SVM - Support Vector Machine), mạng Bayes (Bayesian Networks), hay định (Decision Trees) Nhìn chung, phương pháp phân tích dựa học máy có ưu điểm so với phương pháp trước thực nghiệm cho thấy kết tốt [58] Tập đặc trưng xem phương pháp biểu diễn văn khía cạnh phong cách viết cách sử dụng từ Với tập đặc trưng lựa chọn, văn biểu diễn véc tơ đặc trưng, thành phần biểu thị tần suất đặc trưng văn giá trị biểu thị tính chất đặc thù văn [55] Đã có nhiều tập đặc trưng thử nghiệm, nhiên khơng có tập đặc trưng tốt trường hợp Theo Argamon et al [11], có hai loại đặc trưng sử dụng phân tích tác giả văn bản: đặc trưng phong cách đặc trưng dựa nội dung Đặc trưng phong cách bao gồm đặc trưng liên quan đến cách dùng ký tự, tính chất từ (lexical), cách sử dụng cấu trúc ngữ pháp (syntactic), đặc trưng cấu trúc văn Đặc trưng dựa nội dung bao gồm từ định nội dung đặc biệt sử dụng thường xuyên lĩnh vực lĩnh vực khác Các từ chọn theo phương pháp so sánh ngữ nghĩa trích chọn dựa tần suất xuất tập liệu Các phần trình bày đặc điểm loại văn trực tuyến khảo sát dạng thức, kỹ thuật, tập đặc trưng sử dụng lĩnh vực phân tích tác giả văn 1.1.2 Đặc điểm văn trực tuyến Văn trực tuyến (online documents) hay văn điện tử (electronic documents) tài liệu viết trao đổi người dùng mạng Internet Phương thức trao đổi tài liệu đồng chat bất đồng thư điện tử, diễn đàn Việc phân tích tác giả tài liệu trực tuyến có nhiều thách thức so với loại văn truyền thống đặc điểm cấu tạo độ dài văn [106] Theo Foertsch (như trích dẫn [47]), tài liệu trực tuyến tài liệu viết đơn khơng phải tài liệu nói đơn mà loại tài liệu nằm hai loại tài liệu Các loại tài liệu truyền thống sách, báo, luận v.v loại tài liệu chứa nhiều thơng tin hữu ích để phân tích văn phong tác giả chúng có độ dài lớn (vài trăm từ hàng trăm trang) Ngoài ra, loại tài liệu thường cấu trúc tốt viết theo quy tắc ngữ pháp cú pháp Đã có nhiều nghiên cứu thành cơng việc phân tích tác giả loại tài liệu Các tài liệu trực tuyến thường có độ dài ngắn (vài chục đến vài trăm từ), thường viết theo phong cách tự do, theo quy tắc ngữ pháp cú pháp thống Do đó, việc phân tích thói quen việc viết tài liệu tác giả khó khăn nhiều Ledger Merriam (như trích dẫn [47]) cho việc phân tích tác giả tài liệu có độ dài