1. Trang chủ
  2. » Tất cả

Phân loại giới tính người dùng mạng xã hội dựa vào tin nhắn văn bản và word2vec

67 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 0,97 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ KHỔNG BÙI TRUNG PHÂN LOẠI GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI DỰA VÀO TIN NHẮN VĂN BẢN VÀ WORD2VEC LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ KHỔNG BÙI TRUNG PHÂN LOẠI GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI DỰA VÀO TIN NHẮN VĂN BẢN VÀ WORD2VEC Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN VĂN VINH Hà Nội – Năm 2016 i LỜI CÁM ƠN Để có đƣợc kết nhƣ ngày hôm nay, ghi nhớ công ơn thầy cơ, bạn bè, đồng nghiệp gia đình, ngƣời dạy bảo ủng hộ suốt q trình học tập Trƣớc hết, tơi muốn gửi lời cám ơn đến thầy cô trƣờng Đại học Công Nghê, Đại học Quốc Gia Hà Nội quan tâm tổ chức đạo trực tiếp giảng dạy khố cao học tơi Đặc biệt, tơi xin gửi lời cảm ơn sâu sắc đến thầy giáo hƣớng dẫn TS Nguyễn Văn Vinh, ngƣời tận tình bảo góp ý mặt chun mơn cho tơi suốt q trình làm luận văn Nếu khơng có giúp đỡ thầy tơi khó hồn thành đƣợc luận văn Cũng qua đây, xin gửi lời cảm ơn đến ban lãnh đạo Trƣờng TCN Nấu ăn NVKS Hà Nội, nơi công tác, tạo điều kiện thuận lợi cho thời gian hồn thành mơn học nhƣ suốt trình làm luận văn tốt nghiệp Cuối cùng, tơi xin cảm ơn gia đình bạn bè, đồng nghiệp ủng hộ, động viên để yên tâm nghiên cứu hoàn thành luận văn Trong suốt q trình làm luận văn, thân tơi cố gắng tập trung tìm hiểu, nghiên cứu tham khảo thêm nhiều tài liệu liên quan Tuy nhiên, thân bắt đầu đƣờng nghiên cứu khoa học, chắn luận văn nhiều thiếu sót Tơi mong đƣợc nhận bảo Thầy Cơ giáo góp ý bạn bè đồng nghiệp để luận văn đƣợc hoàn thiện Hà Nội, Tháng 11 năm 2016 i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn đƣợc cảm ơn thơng tin trích dẫn Luận văn đƣợc rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Khổng Bùi Trung i MỤC LỤC MỤC LỤC iii DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH VẼ vi MỞ ĐẦU .1 CHƢƠNG 1: TỔNG QUAN KHAI PHÁ DỮ LIỆU VÀ MẠNG XÃ HỘI 1.1 Khai phá liệu 1.1.1 Khai phá liệu gì? 1.1.2 Quá trình khai phá liệu 1.1.3 Các chức khai phá liệu 1.1.4 Các kỹ thuật khai phá liệu 1.1.4.1 Phân loại (phân loại - classification) .5 1.1.4.2 Hồi qui (regression) 1.1.4.3 Phân cụm (clustering) 1.1.4.4 Tổng hợp (summarization) 1.1.4.5 Mơ hình hố phụ thuộc (dependency modeling) 1.1.4.6 Phát biến đổi độ lệch (change and deviation dectection) 1.2 Mạng xã hội .7 1.2.1 Mạng xã hội gì? .7 1.2.2 Lợi ích tác hại mạng xã hội .8 1.2.2.1 Lợi ích mạng xã hội 1.2.2.2 Tác hại mạng xã hội .10 1.2.3 Các mạng xã hội phổ biến 14 1.2.3.1 Facebook 14 1.2.3.2 Instagram 15 1.2.3.3 Twitter 15 1.2.3.4 Zalo .15 CHƢƠNG 2: WORD2VEC VÀ MƠ HÌNH “TỪ” THÀNH “VECTOR” .16 2.1 Vector từ 16 2.2 Lập luận với Vector từ 17 2.3 Nghiên cứu vector từ vựng .22 2.4 Mơ hình Continuous Bag-of-word/Mơ hình túi từ liên tục (CBOW) .22 2.4.1 Ngữ cảnh từ 22 2.4.2 Ngữ cảnh cụm từ 28 2.5 Mơ hình Skip-gram 30 2.5.1 Hierarchical Softmax (Softmax phân cấp) 31 i 2.5.2 Negative Sampling (Mẫu phủ định) 32 2.5.3 Subsampling of Frequent Words (Lựa chọn mẫu phụ từ thƣờng gặp) 33 CHƢƠNG 3: ỨNG DỤNG WORD2VEC VÀO PHÂN LOẠI GIỚI TÍNH NGƢỜI DÙNG MẠNG XÃ HỘI .35 3.1 Mở đầu 35 3.2 Giải pháp cho toán phân loại giới tính ngƣời dùng mạng xã hội .36 3.2.1 Phân loại theo mơ hình n-gram 38 3.2.2 Phân loại sử dụng thêm Word2Vec 41 3.3 Thực nghiệm 43 3.3.1 Dữ liệu thực nghiệm 43 3.3.2 Cấu hình thực nghiệm .46 3.3.3 Mô tả thực nghiệm 47 3.3.4 Đánh giá 48 3.3.5 Kết thực nghiệm 49 KẾT LUẬN .53 TÀI LIỆU THAM KHẢO 55 v DANH MỤC CÁC BẢNG Bảng 2.1: Ví dụ mối quan hệ giữ cặp từ 19 Bảng 2.2: Ví dụ dạng câu hỏi “a dành cho b nhƣ c dành cho?” 20 Bảng 2.3: Trả lời cho câu hỏi dạng “a dành cho b nhƣ c dành cho?” .21 Bảng 2.4: Độ xác nhiều mơ hình Skip-gram 300-chiều 33 Bảng 3.1: Giá trị biểu diễn từ Word2Vec 42 Bảng 3.2: Tỷ lệ chia tập liệu huấn luyện kiểm thử 47 Bảng 3.3: So sánh kết thực nghiệm với tỷ lệ tập liệu 75%-25% 49 Bảng 3.4: So sánh kết thực nghiệm với tỷ lệ tập liệu 80%-20% 50 Bảng 3.5: So sánh kết thực nghiệm với tỷ lệ tập liệu 85%-15% 50 Bảng 3.6: Tổng hợp so sánh kết thực nghiệm 51 v DANH MỤC CÁC HÌNH VẼ Hình 2.1: Giá trị bù vector cho cặp từ mơ mối quan hệ giới 17 Hình 2.2: Mối quan hệ số nhiều số 18 Hình 2.3: Vector từ cho Vua, Đàn ơng, Hồng hậu Phụ nữ 18 Hình 2.4: Kết cấu thành Vector Vua – Đàn ông + Phụ nữ = ? 19 Hình 2.5: Mối quan hệ thủ - quốc gia 20 Hình 2.6: Mơ hình CBOW đơn giản với từ ngữ cảnh 23 Hình 2.7: Mơ hình túi từ liên tục (CBOW) .29 Hình 2.8: Mơ hình Skip-gram 30 Hình 3.1: Phân loại theo mơ hình n-gram 40 Hình 3.2: Phân loại đƣa thêm Word2Vec 43 Hình 3.3: Biểu đồ biểu diễn kết thực nghiệm .52 MỞ ĐẦU Ngày nay, ngƣời sở hữu kho liệu phong phú, đa dạng khổng lồ Đặc biệt phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực làm cho kho liệu tăng lên nhanh chóng Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kỹ thuật cơng cụ để tự động chuyển đổi lƣợng liệu khổng lồ thành tri thức có ích Mặt khác, mơi trƣờng cạnh tranh ngƣời ta ngày cần có thơng tin với tốc độ nhanh chóng để giúp cho việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lƣợng liệu khổng lồ có Tiến hành cơng việc nhƣ trình phát tri thức sở liệu, kỹ thuật khai phá liệu trở thành lĩnh vực thời Cơng nghệ thơng tin giới nói chung Việt Nam nói riêng Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu đƣợc lợi ích to lớn Hiện mạng xã hội nhƣ Facebook, Twitter, Zalo,… ngày phát triển có ảnh hƣởng lớn đến đời sống xã hội Trong lĩnh vực thƣơng mại điện tử, nhiều công ty vào mạng xã hội để quảng cáo, tƣ vấn, phân tích sản phẩm cơng ty Chính biết đƣợc giới tính ngƣời dùng nam hay nữ việc tƣ vấn quảng cáo hƣớng đến ngƣời dùng cụ thể hiệu Do vấn đề phân loại tự động giới tính ngƣời dùng sử dụng mạng xã hội toán quan trọng Hiện có nhiều kỹ thuật để sử dụng cho phân loại tự động giới tính nhƣng chủ yếu dựa vào đặc trƣng kiểu truyền thống nhƣ mơ hình tần suất từ, n-gram, Word2Vec mơ hình chuyển từ thành vector đƣợc phát triển ứng dụng rộng rãi thời gian gần Chính mà chúng tơi sử dụng thêm Word2Vec làm đặc trƣng để cải tiến kết toán Từ vấn đề nêu trên, chọn đề tài: “Phân loại giới tính người dùng mạng xã hội dựa tin nhắn văn Word2Vec” để làm luận văn tốt nghiệp Đề tài nhằm mục đích nghiên cứu phƣơng pháp biểu diễn từ dƣới dạng vector sau dùng làm đặc trƣng để cải thiện kết việc phân loại giới tính ngƣời dùng mạng xã hội dựa vào tin nhắn văn Luận văn bao gồm phần Mở đầu, phần kết luận ba chƣơng Phần mở đầu giới thiệu đề tài luận văn Phần trình bày lý đề tài, mục tiêu đề tài cấu trúc luận văn Chƣơng giới thiệu tổng quan khai phá liệu trình khai phá liệu Bên cạnh cịn giới thiệu số chức khai phá liệu nhƣ số kỹ thuật khai phá liệu Ngồi chƣơng cịn giới thiệu mạng xã hội, lợi ích bất lợi mạng xã hội nhƣ số mạng xã hội phổ biến giới Chƣơng giới thiệu khái niệm vector từ nhƣ lập luận liên quan đến vector từ Chƣơng giới thiệu mơ hình nhƣ cách xây dựng Word2Vec nhƣ mơ hình Continuous Bag-of-Words, mơ hình Skip-gram Chƣơng trình bày về thực nghiệm tốn ứng dụng Word2Vec vào phân loại giới tính ngƣời dùng mạng xã hội Giải pháp thực kết đạt đƣợc sau thực nghiệm Cuối phần kết luận, định hƣớng nghiên cứu phát triển đề tài tài liệu tham khảo luận văn

Ngày đăng: 30/03/2023, 20:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w