Luận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2VecLuận văn Thạc sĩ Công nghệ thông tin: Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2Vec
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ KHỔNG BÙI TRUNG PHÂN LOẠI GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI DỰA VÀO TIN NHẮN VĂN BẢN VÀ WORD2VEC LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ KHỔNG BÙI TRUNG PHÂN LOẠI GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI DỰA VÀO TIN NHẮN VĂN BẢN VÀ WORD2VEC Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN VĂN VINH Hà Nội – Năm 2016 i LỜI CÁM ƠN Để có đƣợc kết nhƣ ngày hôm nay, ghi nhớ công ơn thầy cơ, bạn bè, đồng nghiệp gia đình, ngƣời dạy bảo ủng hộ suốt q trình học tập Trƣớc hết, tơi muốn gửi lời cám ơn đến thầy cô trƣờng Đại học Công Nghê, Đại học Quốc Gia Hà Nội quan tâm tổ chức đạo trực tiếp giảng dạy khố cao học tơi Đặc biệt, tơi xin gửi lời cảm ơn sâu sắc đến thầy giáo hƣớng dẫn TS Nguyễn Văn Vinh, ngƣời tận tình bảo góp ý mặt chun mơn cho tơi suốt q trình làm luận văn Nếu khơng có giúp đỡ thầy tơi khó hồn thành đƣợc luận văn Cũng qua đây, xin gửi lời cảm ơn đến ban lãnh đạo Trƣờng TCN Nấu ăn NVKS Hà Nội, nơi công tác, tạo điều kiện thuận lợi cho thời gian hồn thành mơn học nhƣ suốt trình làm luận văn tốt nghiệp Cuối cùng, tơi xin cảm ơn gia đình bạn bè, đồng nghiệp ủng hộ, động viên để yên tâm nghiên cứu hoàn thành luận văn Trong suốt q trình làm luận văn, thân tơi cố gắng tập trung tìm hiểu, nghiên cứu tham khảo thêm nhiều tài liệu liên quan Tuy nhiên, thân bắt đầu đƣờng nghiên cứu khoa học, chắn luận văn nhiều thiếu sót Tơi mong đƣợc nhận bảo Thầy Cơ giáo góp ý bạn bè đồng nghiệp để luận văn đƣợc hoàn thiện Hà Nội, Tháng 11 năm 2016 ii LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn đƣợc cảm ơn thơng tin trích dẫn Luận văn đƣợc rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Khổng Bùi Trung iii MỤC LỤC MỤC LỤC iii DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH VẼ vi MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN KHAI PHÁ DỮ LIỆU VÀ MẠNG XÃ HỘI 1.1 Khai phá liệu 1.1.1 Khai phá liệu gì? 1.1.2 Quá trình khai phá liệu 1.1.3 Các chức khai phá liệu 1.1.4 Các kỹ thuật khai phá liệu 1.1.4.1 Phân loại (phân loại - classification) 1.1.4.2 Hồi qui (regression) 1.1.4.3 Phân cụm (clustering) 1.1.4.4 Tổng hợp (summarization) 1.1.4.5 Mơ hình hố phụ thuộc (dependency modeling) 1.1.4.6 Phát biến đổi độ lệch (change and deviation dectection) 1.2 Mạng xã hội 1.2.1 Mạng xã hội gì? 1.2.2 Lợi ích tác hại mạng xã hội 1.2.2.1 Lợi ích mạng xã hội 1.2.2.2 Tác hại mạng xã hội 10 1.2.3 Các mạng xã hội phổ biến 14 1.2.3.1 Facebook 14 1.2.3.2 Instagram 15 1.2.3.3 Twitter 15 1.2.3.4 Zalo 15 CHƢƠNG 2: WORD2VEC VÀ MƠ HÌNH “TỪ” THÀNH “VECTOR” 16 2.1 Vector từ 16 2.2 Lập luận với Vector từ 17 2.3 Nghiên cứu vector từ vựng 22 2.4 Mơ hình Continuous Bag-of-word/Mơ hình túi từ liên tục (CBOW) 22 2.4.1 Ngữ cảnh từ 22 2.4.2 Ngữ cảnh cụm từ 28 2.5 Mơ hình Skip-gram 30 2.5.1 Hierarchical Softmax (Softmax phân cấp) 31 iv 2.5.2 Negative Sampling (Mẫu phủ định) 32 2.5.3 Subsampling of Frequent Words (Lựa chọn mẫu phụ từ thƣờng gặp) 33 CHƢƠNG 3: ỨNG DỤNG WORD2VEC VÀO PHÂN LOẠI GIỚI TÍNH NGƢỜI DÙNG MẠNG XÃ HỘI 35 3.1 Mở đầu 35 3.2 Giải pháp cho toán phân loại giới tính ngƣời dùng mạng xã hội 36 3.2.1 Phân loại theo mơ hình n-gram 38 3.2.2 Phân loại sử dụng thêm Word2Vec 41 3.3 Thực nghiệm 43 3.3.1 Dữ liệu thực nghiệm 43 3.3.2 Cấu hình thực nghiệm 46 3.3.3 Mô tả thực nghiệm 47 3.3.4 Đánh giá 48 3.3.5 Kết thực nghiệm 49 KẾT LUẬN 53 TÀI LIỆU THAM KHẢO 55 v DANH MỤC CÁC BẢNG Bảng 2.1: Ví dụ mối quan hệ giữ cặp từ 19 Bảng 2.2: Ví dụ dạng câu hỏi “a dành cho b nhƣ c dành cho?” 20 Bảng 2.3: Trả lời cho câu hỏi dạng “a dành cho b nhƣ c dành cho?” 21 Bảng 2.4: Độ xác nhiều mơ hình Skip-gram 300-chiều 33 Bảng 3.1: Giá trị biểu diễn từ Word2Vec 42 Bảng 3.2: Tỷ lệ chia tập liệu huấn luyện kiểm thử 47 Bảng 3.3: So sánh kết thực nghiệm với tỷ lệ tập liệu 75%-25% 49 Bảng 3.4: So sánh kết thực nghiệm với tỷ lệ tập liệu 80%-20% 50 Bảng 3.5: So sánh kết thực nghiệm với tỷ lệ tập liệu 85%-15% 50 Bảng 3.6: Tổng hợp so sánh kết thực nghiệm 51 vi DANH MỤC CÁC HÌNH VẼ Hình 2.1: Giá trị bù vector cho cặp từ mô mối quan hệ giới 17 Hình 2.2: Mối quan hệ số nhiều số 18 Hình 2.3: Vector từ cho Vua, Đàn ơng, Hồng hậu Phụ nữ 18 Hình 2.4: Kết cấu thành Vector Vua – Đàn ông + Phụ nữ = ? 19 Hình 2.5: Mối quan hệ thủ đô - quốc gia 20 Hình 2.6: Mơ hình CBOW đơn giản với từ ngữ cảnh 23 Hình 2.7: Mơ hình túi từ liên tục (CBOW) 29 Hình 2.8: Mơ hình Skip-gram 30 Hình 3.1: Phân loại theo mơ hình n-gram 40 Hình 3.2: Phân loại đƣa thêm Word2Vec 43 Hình 3.3: Biểu đồ biểu diễn kết thực nghiệm 52 MỞ ĐẦU Ngày nay, ngƣời sở hữu kho liệu phong phú, đa dạng khổng lồ Đặc biệt phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực làm cho kho liệu tăng lên nhanh chóng Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kỹ thuật công cụ để tự động chuyển đổi lƣợng liệu khổng lồ thành tri thức có ích Mặt khác, mơi trƣờng cạnh tranh ngƣời ta ngày cần có thơng tin với tốc độ nhanh chóng để giúp cho việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lƣợng liệu khổng lồ có Tiến hành cơng việc nhƣ q trình phát tri thức sở liệu, kỹ thuật khai phá liệu trở thành lĩnh vực thời Công nghệ thông tin giới nói chung Việt Nam nói riêng Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu đƣợc lợi ích to lớn Hiện mạng xã hội nhƣ Facebook, Twitter, Zalo,… ngày phát triển có ảnh hƣởng lớn đến đời sống xã hội Trong lĩnh vực thƣơng mại điện tử, nhiều công ty vào mạng xã hội để quảng cáo, tƣ vấn, phân tích sản phẩm cơng ty Chính biết đƣợc giới tính ngƣời dùng nam hay nữ việc tƣ vấn quảng cáo hƣớng đến ngƣời dùng cụ thể hiệu Do vấn đề phân loại tự động giới tính ngƣời dùng sử dụng mạng xã hội tốn quan trọng Hiện có nhiều kỹ thuật để sử dụng cho phân loại tự động giới tính nhƣng chủ yếu dựa vào đặc trƣng kiểu truyền thống nhƣ mơ hình tần suất từ, n-gram, Word2Vec mơ hình chuyển từ thành vector đƣợc phát triển ứng dụng rộng rãi thời gian gần Chính mà chúng tơi sử dụng thêm Word2Vec làm đặc trƣng để cải tiến kết toán Từ vấn đề nêu trên, chúng tơi chọn đề tài: “Phân loại giới tính người dùng mạng xã hội dựa tin nhắn văn Word2Vec” để làm luận văn tốt nghiệp Đề tài nhằm mục đích nghiên cứu phƣơng pháp biểu diễn từ dƣới dạng vector sau dùng làm đặc trƣng để cải thiện kết việc phân loại giới tính ngƣời dùng mạng xã hội dựa vào tin nhắn văn Luận văn bao gồm phần Mở đầu, phần kết luận ba chƣơng Phần mở đầu giới thiệu đề tài luận văn Phần trình bày lý đề tài, mục tiêu đề tài cấu trúc luận văn Chƣơng giới thiệu tổng quan khai phá liệu q trình khai phá liệu Bên cạnh cịn giới thiệu số chức khai phá liệu nhƣ số kỹ thuật khai phá liệu Ngồi chƣơng cịn giới thiệu mạng xã hội, lợi ích bất lợi mạng xã hội nhƣ số mạng xã hội phổ biến giới Chƣơng giới thiệu khái niệm vector từ nhƣ lập luận liên quan đến vector từ Chƣơng giới thiệu mơ hình nhƣ cách xây dựng Word2Vec nhƣ mơ hình Continuous Bag-of-Words, mơ hình Skip-gram Chƣơng trình bày về thực nghiệm tốn ứng dụng Word2Vec vào phân loại giới tính ngƣời dùng mạng xã hội Giải pháp thực kết đạt đƣợc sau thực nghiệm Cuối phần kết luận, định hƣớng nghiên cứu phát triển đề tài tài liệu tham khảo luận văn 42 mê” gần Chính ta khơng sử dụng Word2Vec việc biểu diễn mơ hình ngơn ngữ địi hỏi kích thƣớc lớn * Áp dụng phân loại đưa thêm Word2Vec làm đặc trưng cho mơ hình n-gram ta thực sau: Để cải thiện hạn chế nêu ta sử dụng Word2Vec biểu diễn cho từ dạng vector Đầu tiên lấy nội dung báo trang web nhƣ; 24h.com.vn, vnexpress.net, eva.vn, dantri.vn, Sau tiến hành tiền xử lý sử dụng công cụ vn.vitk-master để thực tách từ thu đƣợc liệu chuẩn hóa Tiếp theo tơi sử dụng cơng cụ Gensim7 cho liệu chuẩn hóa để sinh file Word2Vec dùng làm đặc trƣng vector Trong đặc trƣng vector từ có nghĩa gần đƣợc biểu diễn với giá trị gần Ví dụ: từ xe_máy có giá trị biểu diễn 0.7628448512386902 có từ sau đƣợc biểu diễn có giá trị gần nhƣ nhau: Bảng 3.1: Giá trị biểu diễn từ Word2Vec Từ Giá trị biểu diễn thuyền_thúng 0.7752657532691956 xe_đạp 0.7752000093460083 tàu_hỏa 0.749005913734436 xích_lơ 0.7275688052177429 ơ_tơ 0.7588498592376709 Tiếp theo tơi thực giống nhƣ với mơ hình n-gram Tuy nhiên tìm kiếm liên kết đặc trƣng liệu kiểm thử với đặc trƣng tập huấn luyện Nếu khơng tìm thấy liên kết tơi đƣa thêm Word2Vec vào phân lớp để tìm kiếm Tơi tìm từ đặc trƣng vector có giá trị biểu diễn gần với từ đặc trƣng liệu kiểm thử để sử dụng làm đặc trƣng kiểm thử tìm kiếm liên kết với đặc trƣng tập huấn luyện Cứ tiếp tục nhƣ tìm đƣợc liên kết với tập huấn luyện Sau lại tiếp tục với đặc trƣng lại liệu kiểm thử Cuối giới tính ngƣời dùng đƣợc xác định dựa vào kết thu đƣợc https://pypi.python.org/pypi/gensim 43 Ví dụ: Một đặc trƣng tập kiểm thử là: “đua xe_máy”, tìm kiếm đặc trƣng tập huấn luyện khơng có đặc trƣng “đua xe_máy” phân lớp tìm Word2Vec thấy có từ “đua ô_tô” có giá trị biểu diễn gần từ cần tìm Khi phân lớp dùng từ làm đặc trƣng để tìm kiếm đặc trƣng tập huấn luyện thấy đặc trƣng “đua ô_tô” nằm lớp giới tính nam nên phân lớp cho kết nam Kết đặc trƣng nằm lớp chiếm đa số đƣợc sử dụng làm kết cuối Để dễ hình dung quy trình tơi có sơ đồ nhƣ sau: Dữ liệu thơ từ báo (Dữ liệu học) Tiền xử lý Tách từ Dữ liệu thô từ mạng xã Tiền xử lý hội (Dữ liệu Tách từ huấn luyện) Dữ liệu thô từ mạng xã Tiền xử lý hội (Dữ liệu Tách từ kiểm thử) Dữ liệu chuẩn hóa Xây dựng Word2Vec đặc trƣng [vector] đặc trƣng [1gram] [2gram] Bộ phân lớp: Logistic đặc trƣng [1gram] [2gram] Kết Hình 3.2: Phân loại đưa thêm Word2Vec 3.3 Thực nghiệm 3.3.1 Dữ liệu thực nghiệm * Chuẩn bị liệu ngƣời dùng mạng xã hội - Sử dụng công cụ Graph API Explorer8 để truy xuất vào lấy nội dung tƣờng ngƣời dùng mạng xã hội https://developers.facebook.com/tools/explorer 44 - Các nội dung tƣờng ngƣời đƣợc lƣu vào file theo định dạng: - Sử dụng công cụ vn.vitk-master để tách từ, tách câu Đối với liệu tiếng Anh khơng phải thực bƣớc cịn tiếng Việt bƣớc vơ cần thiết VD: Tôi học xe máy Nếu khơng có bƣớc máy trích chọn đặc trƣng từ từ riêng lẻ sau: tôi, đi, học, bằng, xe, máy Nếu tách từ máy trích chọn đặc trƣng từ từ nhƣ sau: tôi, đi_học, bằng, xe_máy Nhƣ thấy hai trƣờng hợp việc tách từ đem đến độ xác cao phân loại văn tiếng Việt - Lƣu tên file theo định dạng: mã.giới tính.tuổi.nghề nghiệp.tên.xml Vd: 11106725783.male.25.student.tranvanchin.xml Với mã, giới tính, tuổi, nghề nghiệp, tên nhãn đƣợc gán theo thông tin ngƣời dùng mạng xã hội - Đƣa tất file vào thƣ mục chung (khoảng 347 file) VD: /home/trungkb/data/blogs - Tạo lƣu vào đối tƣợng SFrame tất liệu ngƣời dùng mạng xã hội dƣới dạng đặc trƣng trọng số đặc trƣng Mỗi dòng liệu ngƣời dùng mạng xã hội Vd1: Chúng_mày hơm_nay có đi_nhậu khơng? Với ví dụ thƣờng đặc trƣng đƣợc trích chọn là: chúng_mày, đi_nhậu Và đặc trƣng thƣờng có ngƣời dùng có giới tính Nam hay sử dụng Vd2: Bạn mua_sắm với chúng_tớ không? https://github.com/turi-code/SFrame 45 Với ví dụ thƣờng đặc trƣng đƣợc trích chọn là: mua_sắm, chúng_tớ Các đặc trƣng thể ngƣời nói thƣờng có giới tính Nữ Khi sử dụng Word2Vec tự học đƣợc thêm từ có ngữ cảnh tƣơng tự nhƣ từ Các từ có nghĩa gần giống vector từ gần Ví dụ: chúng_mày, chúng_nó, từ có nghĩa gần giống nên vector từ gần * Xây dựng Word2Vec để sử dụng làm đặc trƣng trình dự đốn - Tơi sử dụng thƣ viện Jsoup để viết mã lấy liệu từ trang web: 24h.com.vn, vnexpress.net, dantri.vn, eva.vn - Sau tơi sử dụng thêm công cụ vn.vitk-master để tách từ cho liệu đƣợc lấy - Lấy liệu đƣợc sinh sau tách từ đƣa hết vào thƣ mục /home/trungkb/data/txt - Sử dụng Gensim với tham số mặc định để sinh file word2vec theo mơ hình Skip-gram với số chiều vector 300, bỏ qua từ xuất 40 lần Bộ liệu để sinh file word2vec có dung lƣợng 1,2Gb bao gồm nội dung báo đƣợc đăng trang web nhƣ 24h.com.vn, vnexpress.net, dantri.vn, eva.vn, Việc lấy nội dung sử dụng thƣ viện Jsoup để lấy nội dung từ trang web Khi xây dựng Word2Vec, liệu đầu vào văn bản, xem nhƣ tập hợp từ (word) Đầu tiên, tƣơng ứng với word khởi tạo vector ngẫu nhiên với số chiều đƣợc định (300 chiều) Sau có vector ngẫu nhiên, việc thực trình điều chỉnh vector từ để cho chúng biểu diễn đƣợc liên hệ từ có quan hệ với Giả sử có câu văn sau: Con mèo trèo cau Tƣơng ứng với từ câu này, khởi tạo vector ngẫu nhiên với số chiều đƣợc quy định trƣớc (ví dụ số chiều = 50) Ngƣời ta sử dụng mạng neuron dùng mạng neural để điều chỉnh vector từ cho chúng thỏa mãn số điều kiện Câu hỏi đặt đây: Điều kiện gì? 46 Để trả lời câu hỏi trƣớc hết cần quan tâm tới đặc điểm ngơn ngữ, từ có mối liên hệ với thƣờng xuất ngữ cảnh khác Ví dụ từ “trái” “phải” xem có mối liên quan với dùng phƣơng hƣớng thƣờng xuất mẫu câu giống Ví dụ tơi có câu sau: Chạy xe ph a ên trái”, Chạy ên phải”, Bên trái rộng hơn”, Bên phải có ngơi nh ” Ta để ý thấy từ nằm xung quanh từ “trái” “phải” giống khơng? Đó ngun tắc học Word2Vec Nó dựa vào từ xung quanh từ để điều chỉnh vector từ cho hợp lý Quay trở lại với ví dụ ban đầu: Con mèo trèo cau Chúng ta sử dụng mạng Neural để xem câu có hợp lệ hay không Giả sử thay từ “trèo” từ “ngủ“, rõ ràng có câu hồn tồn vơ nghĩa hầu nhƣ không xuất văn bình thƣờng: “con mèo ngủ cau“ Bằng cách thay từ “trèo” từ “ngủ” nói cho mạng Neural biết câu sinh không hợp lệ, mạng Neural phải điều chỉnh tham số mạng cách hợp lý để đƣa đƣợc output nhƣ mong muốn (tức “khơng hợp lệ”) Thơng thƣờng input vào mạng Neural nguyên câu mà cụm từ câu có độ dài dựa theo tham số gọi “window size” Ví dụ “window_size” = có cụm từ: “con mèo trèo“, “mèo trèo cây“, “trèo cau“ Với “windows size” thay từ từ ngẫu nhiên khác để có cụm câu vơ nghĩa dùng để huấn luyện mạng Neural (bởi huấn luyện mạng Neural phải vừa cho đầu vào với nhãn “hợp lệ” phải có đầu vào với nhãn “khơng hợp lệ” nhằm giúp cho mạng Neural phân biệt cho đúng) Nhờ việc huấn luyện mạng Neural số lƣợng báo cực lớn thu thập đƣợc từ trang web vector từ đƣợc điều chỉnh xác từ có liên quan xuất gần Khi từ có mối liên hệ với 3.3.2 C u hình thực nghiệm * Chuẩn bị môi trƣờng 47 BeautifulSoup10: sử dụng để phân tích liệu thơ ngƣời dùng mạng xã hội NLTK11: thƣ viện để xử lý loại bỏ từ vô nghĩa, ký tự khơng có nghĩa Gensim: cơng cụ sử dụng để xây dựng Word2Vec GraphLab Create: sử dụng phân lớp Logistic đánh giá kết Python 2.7.6: viết mã sinh đối tƣợng SFrame xử lý liệu để đƣa vào huấn luyện Word2Vec JDK 1.7 NetBeans IDE 8.0.2: viết mã để thu thập liệu báo từ trang web 24h.com.vn, vnexpress.net, dantri.vn, eva.vn dùng để xây dựng Word2Vec thu thập liệu tƣờng ngƣời dùng mạng xã hội để dùng làm liệu huấn luyện liệu kiểm thử cho toán Tool: vn.vitk-master - xử lý tách từ tiếng Việt * Cấu hình máy tính thực nghiệm: CPU Core I7 Ram 8Gb HDD 250Gb OS System: Ubuntu 14.10 3.3.3 Mô tả thực nghiệm Đối với tập liệu tƣờng ngƣời dùng mạng xã hội lần lƣợt chia tập liệu thành phần có tỷ lệ nhƣ sau: Bảng 3.2: Tỷ lệ chia tập liệu huấn luyện kiểm thử 10 11 Lần chia Tập huấn luyện Tập kiểm thử 75% 25% https://pypi.python.org/pypi/beautifulsoup4 http://www.nltk.org/ 48 80% 20% 85% 15% Với lần chia thứ tỷ lệ tập liệu huấn luyện/tập liệu kiểm thử 75%-25% tơi thực nghiệm 10 lần Mỗi lần thực nghiệm lấy ngẫu nhiên liệu theo tỷ lệ Điều giúp cho trình chạy thực nghiệm 10 lần 10 lần tập liệu huấn luyện nhƣ tập liệu kiểm thử khác Sau tơi lấy trung bình cộng kết 10 lần chạy đƣợc kết thực nghiệm cho lần chia tỷ lệ tập liệu Tƣơng tự nhƣ với lần chia tỷ lệ tập liệu huấn luyện/tập liệu kiểm thử 80%-20% 85%-15% Với lần thực nghiệm chạy theo kỹ thuật thực là: n-gram khơng có Word2Vec có Word2Vec Với mơ hình n-gram tơi có đặc trƣng đầu vào đặc trƣng [1gram] đặc trƣng [2gram] Khi sử dụng thêm Word2Vec đƣa thêm đặc trƣng [vector] vào cho phân lớp 3.3.4 Đánh giá Để đánh giá đƣợc độ hiệu kỹ thuật phân loại giới tính ngƣời dùng dựa vào tin nhắn văn Word2Vec, tiến hành so sánh với số kỹ thuật khác Ở đây, tơi so sánh độ xác việc sử dụng n-gram có Word2Vec so với không sử dụng Word2Vec Ta tiến hành xây dựng phân lớp nhƣ sau: Phân loại với đặc trưng [1gram] [2gram]: Tiến hành huấn luyện phân lớp với liệu huấn luyện liệu kiểm thử đặc trƣng [1gram] [2gram] Phân loại sử dụng thêm Word2Vec: Tiến hành huấn luyện phân lớp với liệu huấn luyện đặc trƣng [1gram],[2gram] [vector] liệu kiểm thử đặc trƣng [1gram] [2gram] Tiêu chuẩn đánh giá thực nghiệm độ đo xác, tỉ lệ phần trăm mẫu phân lớp xác tổng số mẫu kiểm thử, độ xác đƣợc tính cơng thức sau: 49 Độ xác = (3.1) Trong đó, Dtst liệu kiểm thử, y cực quan điểm ban đầu, f(x) cực quan điểm dự đoán 3.3.5 Kết thực nghiệm Kết thực nghiệm cho trường hợp nêu chi tiết đây: * Tỷ lệ tập liệu: 75% huấn luyện - 25% kiểm thử: Bảng 3.3: So sánh kết thực nghiệm với tỷ lệ tập liệu 75%-25% Lần thực nghiệm [1gram]; [2gram] [1gram]; [2gram];[vector] 0.538 0.817 0.559 0.839 0.548 0.849 0.538 0.817 0.548 0.882 0.570 0.839 0.538 0.613 0.559 0.527 0.581 0.806 10 0.581 0.838 Trung bình 0.556 0.783 (75%-25%) * Tỷ lệ tập liệu: 80% huấn luyện - 20% kiểm thử: 50 Bảng 3.4: So sánh kết thực nghiệm với tỷ lệ tập liệu 80%-20% Lần thực nghiệm [1gram]; [2gram] [1gram]; [2gram];[vector] 0.608 0.838 0.595 0.527 0.608 0.865 0.608 0.838 0.608 0.878 0.608 0.838 0.595 0.824 0.608 0.824 0.608 0.851 10 0.622 0.878 Trung bình 0.607 0.816 (80%-20%) * Tỷ lệ tập liệu: 85% huấn luyện - 15% kiểm thử: Bảng 3.5: So sánh kết thực nghiệm với tỷ lệ tập liệu 85%-15% Lần thực nghiệm [1gram]; [2gram] [1gram]; [2gram];[vector]] 0.732 0.857 0.696 0.875 0.750 0.839 0.714 0.821 (85%-15%) 51 0.714 0.857 0.714 0.821 0.768 0.839 0.732 0.821 0.732 0.839 10 0.750 0.839 Trung bình 0.730 0.841 Bảng 3.6: Tổng hợp so sánh kết thực nghiệm Tỷ lệ tập liệu [1gram]; [2gram] [1gram]; [2gram];[vector] 75% - 25% 0.556 0.783 80% - 20% 0.607 0.816 85% - 15% 0.730 0.841 (huấn luyện - kiểm thử) Để thấy rõ dễ so sánh kết thực nghiệm ta xem biểu đồ sau: 52 Hình 3.3: Biểu đồ biểu diễn kết thực nghiệm Nhận xét: Dựa vào bảng tổng hợp kết biểu đồ ta thấy tốn phân loại giới tính ngƣời dùng dựa vào tin nhắn văn tăng liệu tập huấn luyện lên cao kết thu xác Bên cạnh sử dụng thêm Word2Vec để làm đặc trƣng cho n-gram kết thu đƣợc tốt không sử dụng Word2Vec 53 KẾT LUẬN Với phát triển không ngừng mạng xã hội nhƣ ngày nay, nhu cầu phân tích tìm hiểu thơng tin ngƣời dùng lớn Các cơng ty muốn có thông tin ngƣời dùng để phục vụ cho mục đích kinh doanh họ Chính mà việc phân loại đƣợc thông tin ngƣời dùng cách tự động việc làm thiết thực Đối với luận văn tơi trình bày phƣơng pháp để phân loại giới tính ngƣời dùng mạng xã hội cách tự động Trong q trình thực luận văn, tơi trình bày số khái niệm khai phá liệu, trình khai phá liệu, số chức khai phá liệu với số kỹ thuật khai phá liệu Ngoài tơi cịn trình bày số khái niệm nhƣ lợi ích tác hại mạng xã hội sống Bên cạnh tơi giới thiệu số mạng xã hội phổ biến Về mặt phƣơng pháp luận giới thiệu tổng quan Word2Vec mơ hình từ thành vector: vector từ, lập luận với vector từ nghiên cứu vector từ Cùng với tơi giới thiệu mơ hình Continuous Bag-of-word Skip-gram đƣợc đề xuất Tomas Mikolov cộng nhằm giải thích rõ cách biểu diễn từ dƣới dạng Word2Vec Về thực nghiệm, sử dụng thƣ viện Jsoup viết code Java tự thu thập tiền xử lý liệu để xây dựng đặc trƣng Word2Vec từ báo trang web Bên cạnh tơi tiền xử lý xây dựng đặc trƣng cho liệu huấn luyện từ liệu tự thu thập tƣờng ngƣời dùng mạng xã hội thƣ viện Graph API Explorer Do liệu Tiếng Việt nên trƣớc sử dụng phải sử dụng công cụ vn.vitk-master để tách từ Sau tơi thực nghiệm với tỷ lệ liệu khác sử dụng mơ hình phân loại n-gram khơng sử dụng Word2Vec có sử dụng Word2Vec Sau tơi sử dụng độ đo từ kết thu đƣợc chứng minh đƣợc sử dụng mơ hình phân loại n-gram với việc sử dụng thêm Word2Vec kết đạt đƣợc tốt Hướng phát triển Do nhập nhằng liệu Tiếng Việt nhƣ kiến thức thân hạn chế nên kết thực nghiệm cho Tiếng Việt cịn chƣa cao nhƣ mong muốn Tơi cần phải cải tiến phƣơng pháp xử lý liệu tốt để đạt đƣợc 54 hiệu cao Bên cạnh tơi thử nghiệm việc phân loại thuộc tính khác ngƣời dùng mạng xã hội nhƣ: độ tuổi, sở thích, Sau có đƣợc kết thực nghiệm nhƣ mong muốn nghiên cứu xây dựng hệ thống tự động hóa việc dự đốn thơng tin ngƣời dùng mạng xã hội 55 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt: [1] Nguyễn Thị Thanh Thảo, Tìm hiểu ứng dụng datamining kinh doanh, 2012 [2] Nhóm tác giả: Kim Đình Sơn, Đặng Ngọc Thun, Phùng Văn Chiến, Ngơ Thành Đạt, Các mơ hình ngơn ngữ N-gram Ứng dụng, 2013 [3] Bộ môn hệ thống thông tin, Khoa công nghệ thông tin, Đại học hàng hải Việt Nam, Bài giảng khai phá liệu, 2011 [4] Bộ phận tƣ vấn – hỗ trợ giới thiệu việc làm SV, Tác động mạng xã hội đến học sinh sinh viên, 2015 https://www.kgtec.edu.vn/component/k2/1440-tac-dong-cua-mang-xahoi-den-hoc-sinh-sinh-vien Tài liệu tiếng Anh: [5] Andriy Mnih and Geoffrey E Hinton A scalable hierarchical distributed language model Advances in neural information processing systems, 21:1081–1088, 2009 [6] Andriy Mnih and Yee Whye Teh A fast and simple algorithm for training neural probabilistic language models arXiv preprint arXiv:1206.6426, 2012 [7] David A Jurgens, Saif M Mohammad, Peter D Turney, Keith J Holyoak, SemEval-2012 Task 2: Measuring Degrees of Relational Similarity, 2012 [8] Frederic Morin and Yoshua Bengio Hierarchical probabilistic neural network language model In Proceedings of the international workshop on artificial intelligence and statistics, pages 246–252, 2005 [9] Michael U Gutmann and Aapo Hyvăarinen Noise-contrastive estimation of unnormalized statistical models, with applications to natural image statistics The Journal of Machine Learning Research, 13:307–361, 2012 56 [10] Mikolov et al, Distributed Representations of Words and Phrases and their Compositionality, 2013 [11] Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean Efficient estimation of word representations in vector space ICLR Workshop, 2013 [12] Mikolov, Stefan Kombrink, Lukas Burget, Jan Cernocky, and Sanjeev Khudanpur Extensions of recurrent neural network language model In Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on, pages 5528–5531 IEEE, 2011 [13] Richard Socher, Yoshua Bengio and Chris Manning, Deep Learning for NLP (without Magic), ACL2012 [14] Ronan Collobert and Jason Weston A unified architecture for natural language processing: deep neural networks with multitask learning In Proceedings of the 25th international conference on Machine learning, pages 160–167 ACM, 2008 [15] Rong, Word2vec Parameter Learning Explained, 2014 [16] Margaret Rouse, Social networking, 2016 http://whatis.techtarget.com/definition/social-networking ... CÔNG NGHỆ KHỔNG BÙI TRUNG PHÂN LOẠI GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI DỰA VÀO TIN NHẮN VĂN BẢN VÀ WORD2VEC Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC... liệu văn tiếng Việt, tơi đƣa tốn ? ?Phân loại giới tính ngƣời dùng mạng xã hội dựa vào tin nhắn văn Word2Vec? ?? 3.2 Giải pháp cho toán phân loại giới tính người dùng mạng xã hội Đối với tốn phân loại. .. sau dùng làm đặc trƣng để cải thiện kết việc phân loại giới tính ngƣời dùng mạng xã hội dựa vào tin nhắn văn Luận văn bao gồm phần Mở đầu, phần kết luận ba chƣơng Phần mở đầu giới thiệu đề tài luận