Đề tài Phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và Word2Vec nhằm mục đích nghiên cứu phương pháp biểu diễn các từ dưới dạng vector sau đó dùng làm đặc trưng để cải thiện kết quả của việc phân loại giới tính người dùng mạng xã hội dựa vào tin nhắn văn bản. Mời các bạn cùng tìm hiểu tài liệu toàn văn để nắm rõ nội dung chi tiết.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ KHỔNG BÙI TRUNG PHÂN LOẠI GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI DỰA VÀO TIN NHẮN VĂN BẢN VÀ WORD2VEC Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM Hà Nội – Năm 2016 CHƯƠNG 1: TỔNG QUAN KHAI PHÁ DỮ LIỆU VÀ MẠNG XÃ HỘI 1.1 Khai phá liệu 1.1.1 Khai phá liệu gì? Khai phá liệu (datamining) định nghĩa trình chắt lọc hay khai phá tri thức từ lượng lớn liệu Một ví dụ hay sử dụng việc khai thác vàng từ đá cát, Dataming ví cơng việc "Đãi cát tìm vàng" tập hợp lớn liệu cho trước Thuật ngữ Datamining ám việc tìm kiếm tập hợp nhỏ có giá trị từ số lượng lớn liệu thơ Có nhiều thuật ngữ dùng có nghĩa tương tự với từ Datamining Knowledge Mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis (phân tích liệu/mẫu), data archaeoloogy (khảo cổ liệu), datadredging (nạo vét liệu), [1] 1.1.2 Quá trình khai phá liệu Khai phá liệu bước bảy bước trình KDD (Knowleadge Discovery in Database) KDD xem trình khác theo thứ tự sau [1]: Làm liệu (data cleaning & preprocessing) Tích hợp liệu Trích chọn liệu (data selection) 4 Chuyển đổi liệu Khai phá liệu (data mining) Ước lượng mẫu (knowledge evaluation) Biểu diễn tri thức (knowledge presentation) 1.1.3 Các chức khai phá liệu • Mơ tả khái niệm (concept description) • Luật kết hợp (association rules) • Phân loại dự đốn (classification & prediction) • Phân cụm (clustering) • Khai phá chuỗi (sequential/temporal patterns) 1.1.4 Các kỹ thuật khai phá liệu 1.1.4.1 Phân loại (phân loại - classification) 1.1.4.2 Hồi qui (regression) 1.1.4.3 Phân cụm (clustering) 1.1.4.4 Tổng hợp (summarization) 1.1.4.5 Mơ hình hố phụ thuộc (dependency modeling) 1.1.4.6 Phát biến đổi độ lệch (change and deviation dectection) 1.2 Mạng xã hội 1.2.1 Mạng xã hội gì? Mạng xã hội việc thực mở rộng số lượng mối quan hệ doanh nghiệp quan hệ xã hội cách tạo kết nối thông qua cá nhân người dùng, thường thông qua trang web mạng xã hội Facebook, Twitter, LinkedIn Google+[16] 1.2.2 Lợi ích tác hại mạng xã hội 1.2.2.1 Lợi ích mạng xã hội Mạng xã hội ngày có số lợi ích sau [4]: a Giới thiệu thân với người b Kết nối bạn bè c Tiếp nhận thông tin, học hỏi kiến thức kỹ d Kinh doanh e Bày tỏ quan niệm cá nhân f Mang đến lợi ích sức khoẻ 1.2.2.2 Tác hại mạng xã hội Ta khơng thể phủ nhận lợi ích mà mạng xã hội mang đến cho người giúp ích cho cơng việc, cho việc tìm kiếm thông tin, thiết lập mối quan hệ cá nhân hay giải trí… Tuy nhiên, chứa đựng nhiều nguy cơ, rủi ro tiềm ẩn ảnh hưởng xấu tới công việc, mối quan hệ cá nhân sống người sử dụng [4]: a Giảm tư ng tác người với người b Lãng phí thời gian xao lãng mục ti u thực cá nhân c Nguy c mắc bệnh tr m cảm d Giết chết sáng tạo e Không trung thực bạo lực tr n mạng f Thường xuy n so sánh thân với người khác g M t ngủ h Thiếu ri ng tư 1.2.3 Các mạng xã hội phổ biến 1.2.3.1 Facebook1 1.2.3.2 Instagram2 1.2.3.3 Twitter3 1.2.3.4 Zalo4 https://www.facebook.com/ https://www.instagram.com/ https://twitter.com http://zalo.me/ CHƯƠNG 2: WORD2VEC VÀ MƠ HÌNH “TỪ” THÀNH “VECTOR” 2.1 Vector từ Để máy tính hiểu từ phải biểu diễn từ dạng vector từ Vector từ vector trọng số biểu diễn cho từ Trong dạng biểu diễn 1-of-N (hay “one-hot”) việc mã hóa thành phần vector liên kết với từ từ vựng Việc mã hóa từ cho trước đưa vector, phần tử liên quan thiết lập giá trị 1, tất phần tử khác Trong Word2Vec, biểu diễn phân tán từ sử dụng Tạo vector với kích thước vài trăm chiều Mỗi từ biểu diễn tập trọng số phần tử Vì vậy, thay kết nối 1-1 phần tử vector với từ, biểu diễn từ dàn trải tất thành phần vector, phần tử vector góp phần định nghĩa cho nhiều từ khác Như vector trở thành đại diện cách tóm lược ý nghĩa từ Và ta thấy tiếp theo, đơn giản việc kiểm tra tập văn lớn, học vector từ, ta nắm bắt mối quan hệ từ theo cách đáng ngạc nhiên Ta sử dụng vector đầu vào cho mạng Nerual 2.2 Lập luận với Vector từ Ta thấy đại diện từ nghiên cứu thực tế nắm bắt quy tắc cú pháp ngữ nghĩa có ý nghĩa theo cách đơn giản Cụ thể, quy tắc quan sát giá trị bù vector không đổi cặp từ chia sẻ mối quan hệ đặc biệt Ví dụ, ta ký hiệu vector cho chữ i Xi, tập trung vào mối quan hệ số ít/số nhiều, ta quan sát thấy Xapple - Xapples ≈ Xcar -Xcars, Xfamily - Xfamilies ≈ Xcar - Xcars, v.v Ta thấy trường hợp cho loạt quan hệ ngữ nghĩa đo mối quan hệ tương đồng [7] Các vector tốt trả lời câu hỏi tương tự dạng a dành cho b c dành cho? Ví dụ, Man (đàn ơng) dành cho Woman (phụ nữ) uncle (chú) dành cho? Aunt (thím, dì) sử dụng phương pháp giá trị bù vector đơn giản dựa vào khoảng cách cosin Đây hợp thành vector cho phép ta trả lời câu hỏi "Vua – Đàn ông + Phụ nữ =?" đến kết "Hoàng hậu"! Tất thực đáng ý bạn nghĩ kiến thức đơn giản xuất phát từ việc nhìn vào nhiều từ ngữ cảnh (ta thấy ngay) mà khơng có thơng tin khác cung cấp ngữ nghĩa 2.3 Nghi n cứu vector từ vựng Sự phức tạp mơ hình ngơn ngữ mạng neural (Truyền thẳng hay tái diễn) xuất phát từ lớp ẩn phi tuyến tính Trong làm cho mạng neural trở nên hấp dẫn, tơi định tìm hiểu mơ hình đơn giản hơn, khơng có khả đại diện cho liệu xác mạng neural, tạo nhiều liệu hiệu Mikolov cộng [11] đề xuất hai mơ hình để sinh Word2Vec: Mơ hình Continuous Bagof-Words mơ hình Skip-gram 2.4 Mơ hình Continuous Bag-of-word/Mơ hình túi từ li n tục (CBOW) Mục tiêu huấn luyện mơ hình Continuous Bag-ofword để dự đốn từ biết từ lân cận (ngữ cảnh) sử dụng mạng neural tầng Phần giới thiệu ngữ cảnh từ ngữ cảnh cụm từ 2.4 Ngữ cảnh từ Hình 2.6 sau biểu diễn mơ hình mạng, định nghĩa ngữ cảnh đơn giản hóa Trong thiết lập ta, quy mô từ vựng V, quy mô lớp ẩn N Các đơn vị lớp liền kề kết nối đầy đủ Đầu vào vector mã hóa one – hot, có nghĩa cho từ ngữ cảnh đầu vào nhắc đến, có số đơn vị V, {x1,…,xV}, 1, tất đơn vị khác Input layer: Lớp đầu vào Hidden layer: Lớp ẩn Output layer: Lớp đầu Hình 2.6: Mơ hình CBOW đơn giản với từ ngữ cảnh 2.4 Ngữ cảnh cụm từ Hình 2.7 sau cho thấy mơ hình CBOW với thiết lập ngữ cảnh cụm từ Khi tính tốn đầu lớp ẩn, thay trực tiếp chép vector đầu vào nhóm từ ngữ cảnh đầu vào, mơ hình CBOW lấy trung bình vector nhóm từ ngữ cảnh đầu vào, sử dụng kết ma trận trọng số đầu vào ma trận trọng số ẩn vector trung bình đầu Input layer: Lớp đầu vào Hidden layer: Lớp ẩn Output layer: Lớp đầu Hình 2.7: Mơ hình túi từ liên tục (CBOW) 2.5 Mơ hình Skip-gram Mơ hình Skip-gram đưa Mikolov cộng [10,11] Mơ hình trái ngược lại với mơ hình CBOW Các từ mục tiêu lại lớp đầu vào từ ngữ cảnh lại lớp đầu Hình 2.8: Mơ hình Skip-gram Mục tiêu huấn luyện mơ hình Skip-gram để tìm đại diện từ vựng hữu ích để dự đốn từ xung quanh câu hay tài liệu Chính thức hơn, đưa chuỗi từ huấn luyện ω1, ω2, ω3, , ωT, mục tiêu mơ hình Skip-gram tối đa hóa xác suất log trung bình 2.5 Hierarchical Softmax (Softmax phân c p) 2.5 Negative Sampling (Mẫu phủ định) 2.5.3 Subsampling of Frequent Words (Lựa chọn mẫu phụ từ thường gặp) CHƯƠNG 3: ỨNG DỤNG WORD2VEC VÀO PHÂN LOẠI GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI Mở đ u Hiện nay, xuất số phương pháp kỹ thuật khai phá liệu văn tiếng Việt nhiên với phương pháp có ưu, nhược điểm khác Trong lĩnh vực khác phương pháp cho kết phân tích, phân loại khác Và để cải thiện kết việc khai phá liệu văn tiếng Việt đề xuất sử dụng Word2Vec để đưa vào trình phân tích phân loại cho văn Đối với kỹ thuật không sử dụng Word2Vec, phân loại văn người ta trích chọn đặc trưng tương ứng với nhãn gán Sau đặc trưng lưu vào từ vựng với trọng số Tuy nhiên từ vựng xảy tình trạng thưa liệu vấn đề kích thước mơ hình ngơn ngữ lớn tập văn có kích thước lớn Còn kỹ thuật có sử dụng thêm Word2Vec, từ biểu diễn vector Các từ có ý nghĩa gần giống có kích thước vector gần Chính mà Word2Vec tự học từ ngữ cảnh 3.2 Giải pháp cho tốn phân loại giới tính người dùng mạng xã hội Đối với tốn phân loại giới tính người dùng mạng xã hội sử dụng phương pháp học máy để xử lý Trong học máy có hai vấn đề cần giải quyết, là: * Lựa chọn phân lớp: Trong q trình thực nghiệm tơi áp dụng toán hai phân lớp phổ biến đánh giá hiệu phân lớp SVM Logistic Kết thu cho thấy phân lớp Logistic cho kết thực nghiệm tốt Chính mà tơi lựa chọn phân lớp Logistic để sử dụng cho tốn phân loại giới tính người dùng mạng xã hội Tuy nhiên tơi khơng sâu vào tìm hiểu cách làm việc phân lớp mà sử dụng cơng cụ GraphLab Create5 * Trích chọn đặc trưng: Khi có phân lớp tốt việc phân loại phụ thuộc nhiều vào đặc trưng đưa vào để phân loại Đặc trưng xác việc phân loại nhận kết tốt Chính mà việc trích chọn đặc trưng vơ quan trọng Đối với q trình thực nghiệm luận văn tơi chủ yếu tìm hiểu để xây dựng trích chọn đặc trưng tốt nhằm cải thiện kết phân loại Do mà bước lấy liệu thơ, sau tiền xử lý xây dựng liệu định nhiều việc trích chọn đặc trưng Dữ liệu mịn, nhiễu đặc trưng xác Đối với toán phân lớp văn ban đầu chọn đặc trưng theo mơ hình n-gram với n=1,2,3 Sau đặc trưng sử dụng cho phân lớp Khi phân lớp thực việc phân lớp sử dụng đặc trưng lấy từ tập liệu kiểm thử tìm https://turi.com/products/create/ liên kết đến đặc trưng trích chọn từ tập liệu huấn luyện theo mơ hình n-gram Tuy nhiên sử dụng kỹ thuật hay xảy tình trạng thưa liệu, phân bố không đồng Bên cạnh đó, kích thước tập văn huấn luyện lớn, số lượng cụm n-gram kích thước mơ hình ngơn ngữ lớn Chính sử dụng thêm Word2Vec để đưa thêm ngữ cảnh từ vào cho đặc trưng Giả sử đặc trưng tập liệu kiểm thử không tìm thấy liên kết với đặc trưng trích chọn tập liệu huấn luyện Khi phân lớp tìm kiếm Word2Vec từ có nghĩa gần với từ đặc trưng tập liệu kiểm thử, sau tìm từ gần nghĩa giống coi đặc trưng liệu kiểm thử đưa vào tìm liên kết với đặc trưng trích chọn tập huấn luyện Chính có khả tự học từ có nghĩa tương đồng mà sử dụng thêm Word2Vec kết phân lớp tăng lên Phân loại theo mơ hình n-gram * Áp dụng mơ hình n-gram cho tốn phân loại giới tính người dùng mạng xã hội ta thực sau: Ban đầu lấy liệu tường người dùng mạng xã hội lưu thành file gán nhãn cho liệu theo thông tin tài khoản họ nam hay nữ Sau tiền xử lý liệu sử dụng công cụ vn.vitk-master để thực tách từ thu liệu chuẩn hóa Từ liệu chuẩn hóa tơi trích chọn đặc trưng 1-gram 2-gram giá trị nhãn gán để sử dụng làm tập liệu huấn luyện Nghĩa là, đặc trưng tập liệu huấn luyện phân thành hai lớp giới tính nam giới tính nữ Trong q trình trích chọn đặc trưng (1-gram 2gram) người dùng tơi tìm xem từ người dùng hay sử dụng (đã loại bỏ từ vô nghĩa - stopword) đưa vào làm đặc trưng cho lớp tương ứng gán nhãn người dùng Ví dụ với người dùng thấy hay sử dụng cụm từ “đi đá_bóng” người gán nhãn Nam tơi đưa cụm từ vào làm đặc trưng cho lớp giới tính Nam tập huấn luyện Với người dùng thấy hay sử dụng cụm từ “đi mua_sắm” người gán nhãn Nữ tơi đưa cụm từ “đi mua_sắm” vào làm đặc trưng cho lớp giới tính Nữ tập huấn luyện Tương tự người dùng khác tơi xây dựng tập liệu huấn luyện chứa đặc trưng phân lớp Để phân loại giới tính người dùng tơi đưa đặc trưng trích chọn tường người (dữ liệu kiểm thử) vào phân lớp Logistic để so sánh với đặc trưng tập liệu huấn Bộ phân lớp tìm kiếm liên kết đặc trưng liệu kiểm thử với đặc trưng tập huấn luyện Sau kiểm tra xem đặc trưng tập huấn luyện tìm thấy nằm lớp có kết Sau lại tiếp tục với đặc trưng lại liệu kiểm thử Cuối giới tính người dùng xác định dựa vào kết thu Kết đặc trưng nằm lớp chiếm đa số sử dụng làm kết cuối 3 2 Phân loại sử dụng th m Word2Vec Mơ hình n-gram sử dụng phổ biến xử lý ngơn ngữ tự nhiên Tuy nhiên lại gặp phải số khó khăn Một là, liệu phân bố khơng Hai là, kích thước nhớ mơ hình ngơn ngữ lớn * Áp dụng phân loại đưa thêm Word2Vec làm đặc trưng cho mơ hình n-gram ta thực sau: Để cải thiện hạn chế nêu ta sử dụng Word2Vec biểu diễn cho từ dạng vector Đầu tiên lấy nội dung báo trang web như; 24h.com.vn, vnexpress.net, eva.vn, dantri.vn, Sau tiến hành tiền xử lý sử dụng công cụ vn.vitk-master để thực tách từ thu liệu chuẩn hóa Tiếp theo tơi sử dụng công cụ Gensim6 cho liệu chuẩn hóa để sinh file Word2Vec dùng làm đặc trưng vector Trong đặc trưng vector từ có nghĩa gần biểu diễn với giá trị gần Tiếp theo thực giống với mơ hình n-gram Tuy nhiên tìm kiếm liên kết đặc trưng liệu kiểm thử với đặc trưng tập huấn luyện Nếu không tìm thấy liên kết tơi đưa thêm Word2Vec vào phân lớp để tìm kiếm Tơi tìm từ đặc trưng vector có giá trị biểu diễn gần với từ đặc trưng liệu https://pypi.python.org/pypi/gensim kiểm thử để sử dụng làm đặc trưng kiểm thử tìm kiếm liên kết với đặc trưng tập huấn luyện Cứ tiếp tục tìm liên kết với tập huấn luyện Sau lại tiếp tục với đặc trưng lại liệu kiểm thử Cuối giới tính người dùng xác định dựa vào kết thu 3.3 Thực nghiệm 3 Dữ liệu thực nghiệm * Chuẩn bị liệu người dùng mạng xã hội - Sử dụng công cụ Graph API Explorer7 để truy xuất vào lấy nội dung tường người dùng mạng xã hội - Các nội dung tường người lưu vào file theo định dạng: - Sử dụng công cụ vn.vitk-master để tách từ, tách câu Đối với liệu tiếng Anh khơng phải thực bước tiếng Việt bước vô cần thiết https://developers.facebook.com/tools/explorer - Lưu tên file theo định dạng: mã.giới tính.tuổi.nghề nghiệp.tên.xml Với mã, giới tính, tuổi, nghề nghiệp, tên nhãn gán theo thông tin người dùng mạng xã hội - Đưa tất file vào thư mục chung - Tạo lưu vào đối tượng SFrame8 tất liệu người dùng mạng xã hội dạng đặc trưng trọng số đặc trưng Mỗi dòng liệu người dùng mạng xã hội * Xây dựng Word2Vec để sử dụng làm đặc trưng trình dự đốn - Tơi sử dụng thư viện Jsoup để viết mã lấy liệu từ trang web: 24h.com.vn, vnexpress.net, dantri.vn, eva.vn - Sau tơi sử dụng thêm cơng cụ vn.vitk-master để tách từ cho liệu lấy - Lấy liệu sinh sau tách từ đưa hết vào thư mục /home/trungkb/data/txt - Sử dụng Gensim với tham số mặc định để sinh file word2vec theo mơ hình Skip-gram với số chiều vector 300, bỏ qua từ xuất 40 lần Bộ liệu để sinh file word2vec có dung lượng 1,2Gb bao gồm nội dung báo đăng trang web 24h.com.vn, vnexpress.net, dantri.vn, eva.vn, Việc lấy nội https://github.com/turi-code/SFrame dung sử dụng thư viện Jsoup để lấy nội dung từ trang web 3 C u hình thực nghiệm 3.3.3 Mơ tả thực nghiệm Đối với tập liệu tường người dùng mạng xã hội chia tập liệu thành phần có tỷ lệ sau: Bảng 3.2: Tỷ lệ chia tập liệu huấn luyện kiểm thử Lần chia Tập huấn luyện Tập kiểm thử 75% 25% 80% 20% 85% 15% Với lần chia thứ tỷ lệ tập liệu huấn luyện/tập liệu kiểm thử 75%-25% tơi thực nghiệm 10 lần Mỗi lần thực nghiệm lấy ngẫu nhiên liệu theo tỷ lệ Điều giúp cho trình chạy thực nghiệm 10 lần 10 lần tập liệu huấn luyện tập liệu kiểm thử khác Sau tơi lấy trung bình cộng kết 10 lần chạy kết thực nghiệm cho lần chia tỷ lệ tập liệu Tương tự với lần chia tỷ lệ tập liệu huấn luyện/tập liệu kiểm thử 80%-20% 85%-15% Với lần thực nghiệm chạy theo kỹ thuật thực là: n-gram khơng có Word2Vec có Word2Vec Với mơ hình n-gram tơi có đặc trưng đầu vào đặc trưng [1gram] đặc trưng [2gram] Khi sử dụng thêm Word2Vec đưa thêm đặc trưng [vector] vào cho phân lớp 3 Đánh giá Tiêu chuẩn đánh giá thực nghiệm độ đo xác, tỉ lệ phần trăm mẫu phân lớp xác tổng số mẫu kiểm thử, độ xác tính cơng thức sau: Độ xác = (3.1) Trong đó, Dtst liệu kiểm thử, y cực quan điểm ban đầu, f(x) cực quan điểm dự đoán 3 Kết thực nghiệm Bảng 3.6: Tổng hợp so sánh kết thực nghiệm Tỷ lệ tập liệu [1gram]; [2gram] [1gram]; [2gram];[vector] 75% - 25% 0.556 0.783 80% - 20% 0.607 0.816 85% - 15% 0.730 0.841 (huấn luyện - kiểm thử) Để thấy rõ dễ so sánh kết thực nghiệm ta xem biểu đồ sau: Hình 3.3: Biểu đồ biểu diễn kết thực nghiệm TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt: [1] Nguyễn Thị Thanh Thảo, Tìm hiểu ứng dụng datamining kinh doanh, 2012 [2] Nhóm tác giả: Kim Đình Sơn, Đặng Ngọc Thun, Phùng Văn Chiến, Ngơ Thành Đạt, Các mơ hình ngơn ngữ N-gram Ứng dụng, 2013 [3] Bộ môn hệ thống thông tin, Khoa công nghệ thông tin, Đại học hàng hải Việt Nam, Bài giảng khai phá liệu, 2011 [4] Bộ phận tư vấn – hỗ trợ giới thiệu việc làm SV, Tác động mạng xã hội đến học sinh sinh viên, 2015 https://www.kgtec.edu.vn/component/k2/1440-tacdong-cua-mang-xa-hoi-den-hoc-sinh-sinh-vien Tài liệu tiếng Anh: [5] Andriy Mnih and Geoffrey E Hinton A scalable hierarchical distributed language model Advances in neural information processing systems, 21:1081– 1088, 2009 [6] Andriy Mnih and Yee Whye Teh A fast and simple algorithm for training neural probabilistic language models arXiv preprint arXiv:1206.6426, 2012 [7] David A Jurgens, Saif M Mohammad, Peter D Turney, Keith J Holyoak, SemEval-2012 Task 2: Measuring Degrees of Relational Similarity, 2012 [8] Frederic Morin and Yoshua Bengio Hierarchical probabilistic neural network language model In Proceedings of the international workshop on artificial intelligence and statistics, pages 246–252, 2005 [9] Michael U Gutmann and Aapo Hyvăarinen Noisecontrastive estimation of unnormalized statistical models, with applications to natural image statistics The Journal of Machine Learning Research, 13:307–361, 2012 [10] Mikolov et al, Distributed Representations of Words and Phrases and their Compositionality, 2013 [11] Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean Efficient estimation of word representations in vector space ICLR Workshop, 2013 [12] Mikolov, Stefan Kombrink, Lukas Burget, Jan Cernocky, and Sanjeev Khudanpur Extensions of recurrent neural network language model In Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on, pages 5528–5531 IEEE, 2011 [13] Richard Socher, Yoshua Bengio and Chris Manning, Deep Learning for NLP (without Magic), ACL2012 [14] Ronan Collobert and Jason Weston A unified architecture for natural language processing: deep neural networks with multitask learning In Proceedings of the 25th international conference on Machine learning, pages 160–167 ACM, 2008 [15] Rong, Word2vec Parameter Learning Explained, 2014 [16] Margaret Rouse, Social networking, 2016 http://whatis.techtarget.com/definition/socialnetworking ... Word2Vec tự học từ ngữ cảnh 3.2 Giải pháp cho tốn phân loại giới tính người dùng mạng xã hội Đối với tốn phân loại giới tính người dùng mạng xã hội sử dụng phương pháp học máy để xử lý Trong học... thêm Word2Vec kết phân lớp tăng lên Phân loại theo mơ hình n-gram * Áp dụng mơ hình n-gram cho tốn phân loại giới tính người dùng mạng xã hội ta thực sau: Ban đầu lấy liệu tường người dùng mạng xã. .. hội 1.2.1 Mạng xã hội gì? Mạng xã hội việc thực mở rộng số lượng mối quan hệ doanh nghiệp quan hệ xã hội cách tạo kết nối thông qua cá nhân người dùng, thường thông qua trang web mạng xã hội Facebook,