Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,16 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Trần Thị Phương Linh KHÁM PHÁ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2018 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS TRẦN ĐÌNH QUẾ Phản biện 1: PGS.TS NGUYỄN HẢI CHÂU Phản biện 2: PGS.TS NGUYỄN ĐỨC DŨNG Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: 09 00 ngày 14 tháng 07 năm 2018 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Công Nghệ Thông Tin (CNTT) phát triển cách mạnh mẽ có nhiều đóng góp tích cực to lớn việc phát triển kinh tế, xã hội Vì địi hỏi ngày phải có nhiều ứng dụng thông minh, đại, bám sát lĩnh vực đời sống nhu cầu người Một yếu tố phổ biến, bám sát với hoạt động đời sống người mạng xã hội Điển Facebook, Twitter, Youtube, Instagram, G+, Blog, diễn đàn, trang tin tức trực tuyến… Đây nơi mà người dùng tự cập nhật thông tin thân, đánh giá lĩnh vực, bày tỏ quan điểm, sở thích lĩnh vực kinh tế, giáo dục, văn hóa, trị, giải trí Do đó, mạng xã hội ngày tạo lượng liệu đồ sộ riêng Khai phá liệu giúp cho phát lĩnh vực mà người dùng quan tâm, nhu cầu họ, việc định hướng quan điểm người dùng Lĩnh vực thu hút nhiều quan tâm, tham gia nhà khoa học, nhà nghiên cứu Trên mạng xã hội Facebook, người dùng thể quan điểm, sở thích, mối quan tâm thơng qua viết, bình luận, chia sẻ Trong đó, viết thể rõ ràng đầy đủ nội dung mà người dùng muốn truyền đạt Do vậy, ta khám phá lĩnh vực mà người dùng quan tâm dựa nội dung viết họ mạng xã hội Vì vậy, tác giả lựa chọn đề tài “Khám phá quan tâm người dùng mạng xã hội” làm luận văn tốt nghiệp Luận văn dựa việc phân tích viết (status) người dùng mạng xã hội Facebook, nhằm khám phá quan tâm người dùng Tổng quan vấn đề nghiên cứu Khám phá, nhận định sở thích, mối quan tâm người dùng nói chung đề tài nghiên cứu thời sự; dự đốn sở thích, mối quan tâm người dùng từ hành vi họ mạng xã hội trực tuyến chủ đề nghiên cứu nhận quan tâm đặc biệt nhiều nhóm nghiên cứu nhà khoa học Việc sử dụng phương pháp học máy để khai phá liệu phương pháp Cây định, K - láng giềng gần (KNN), thuật tốn Nạve Bayes (NB), thuật tốn vector hỗ trợ (SVM)… trở thành hướng nghiên cứu nhiều nhà khoa học năm gần Đã có nhiều cơng trình nghiên cứu vấn đề phát quan tâm người dùng giới Điển Schwartz cộng ơng [6] đề xuất mơ hình phân tích dựa đồ thị để phát quan tâm người dùng có sở thích Hay với mạng xã hội Del.icio.us, Xin Li cộng [27] dựa vào tag hash-tag để phát mối quan tâm người dùng Kỹ thuật sử dụng rộng rãi cho nhiều mạng xã hội khác Trong mạng xã hội Facebook, việc phân tích status người dùng giúp nhận định tính cách, dự đốn giới tính, dự đốn ý định mua sắm [6, 13]… Phân tích liệu viết giúp tìm chủ đề quan tâm người dùng Bài toán khám phá quan tâm người dùng dựa vào viết tương đối mẻ chưa có nhiều thành tựu Luận văn tập trung vào việc xử lý toán khám phá quan tâm người dùng mạng xã hội Facebook dựa vào viết (status); sử dụng hai thuật tốn học có giám sát Nạve Bayes SVM Cấu trúc luận văn Ngoài phần mở đầu, phần kết luận, nội dung luận văn gồm 03 chương chính: Chương 1: Tổng quan nghiên cứu quan tâm người dùng mạng xã hội: Giới thiệu tổng quan mạng xã hội Facebook toán khám phá quan tâm người dùng mạng xã hội Facebook Một số vấn đề liên quan đến toán này, KPDL, biểu diễn liệu văn Ý nghĩa tốn khó khăn thách thức việc giải toán Chương 2: Khám phá quan tâm người dùng mạng xã hội dựa học máy có giám sát: Trình bày tổng quan học máy có giám sát Trình bày hai thuật tốn học máy điển hình Nạve Bayes SVM , số phương pháp đánh giá chất lượng phân lớp hai phương pháp Đưa mơ hình xử lý tốn khám phá quan tâm người dùng dựa vào viết mạng xã hội nói chung mạng xã hội Facebook nói riêng Chương 3: Xây dựng chương trình, thử nghiệm đánh giá: Giới thiệu liệu gồm viết thu thập mạng xã hội Facebook, công cụ phần mềm sử dụng để xây dựng chương trình thử nghiệm Cuối số kết thống kê đánh giá kết cho toán khám phá quan tâm người dùng dựa viết mạng xã hội Facebook Chương 1: TỔNG QUAN VỀ NGHIÊN CỨU QUAN TÂM NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI 1.1 Bài toán khám phá quan tâm người dùng mạng xã hội 1.1.1 Giới thiệu mạng xã hội Facebook Dịch vụ mạng xã hội (social networking service) thường biết đến với tên gọi mạng xã hội, dịch vụ nối kết thành viên Internet lại với đích với nhiều mục khác không phân biệt không gian thời gian [28] Mạng xã hội có tính chat, voice chat, chia sẻ file, blog… cho phép thành viên tìm kiếm bạn bè, đối tác: dựa theo group (ví dụ tên trường tên thành phố), dựa thông tin cá nhân (như địa e-mail số điện thoại) Năm 2006, đời mạng xã hội Facebook đánh dấu bước phát triển vượt bậc cho hệ thống mạng xã hội trực tuyến với tảng lập trình "Facebook Platform", cho phép thành viên tạo công cụ (apps) cho cá nhân thành viên khác sử dụng Facebook mạng xã hội lớn giới mạng xã hội phổ biến Việt Nam Theo thống kê vào quý IV năm 2017, giới có khoảng 2,13 tỷ người sử dụng mạng xã hội Facebook1; Việt Nam, theo thống kê vào tháng 07/2017 số người sử dụng đạt 64 triệu người, chiếm 3% tổng số người sử dụng mạng xã hội này, đứng thứ toàn giới2, số tiếp tục gia tăng thời gian tới Trên mạng xã hội Facebook , người dùng tìm kiếm bạn bè, kết bạn với thực trò chuyện với họ lúc, nơi muốn, cịn tự truyền tải thứ lên trang cá nhân mình, từ hoạt động cá nhân, lĩnh vực sống, đến sở thích, tâm trạng… Sức hấp dẫn mạng xã hội Facebook ngày lớn doanh nghiệp tận dụng thành mơi trường kinh doanh bn bán bên cạnh hình thức kinh doanh truyền thống; tổ chức phủ sử dụng Facebook kênh thông tin truyền thơng với tốc độ lan tỏa nhanh chóng mạnh mẽ https://www.statista.com/statistics/264810/number-of-monthly-active-facebook-users-worldwide/ https://congnghe.tuoitre.vn/nhip-song-so/viet-nam-dung-thu-7-the-gioi-ve-so-nguoi-dung-facebook20170714103459444.htm 1.1.2 Phát biểu toán khám phá quan tâm người dùng mạng xã hội Bài toán khám phá quan tâm người dùng mạng xã hội biểu diễn sau: - Input: Các thông tin người dùng mạng xã hội, tập chủ đề T mà người dùng quan tâm - Output: Người dùng A quan tâm đến chủ đề và/hoặc chủ đề T có người dùng quan tâm Luận văn trình bày toán khám phá quan tâm người dùng dựa vào viết mạng xã hội Facebook 1.2 Bài toán khám phá quan tâm người dùng dựa vào viết mạng xã hội Facebook 1.2.1 Phát biểu toán khám phá quan tâm người dùng dựa vào viết mạng xã hội Facebook Bài toán khám phá quan tâm người dùng dựa vào viết giải vấn đề làm để phân cụm, phân lớp tập liệu bao gồm từ, cụm từ rút trích từ viết người dùng Tiếng Việt tạo Bài toán phát biểu sau: Input: Các viết người dùng tạo mạng xã hội Facebook, nhóm từ khóa đặc trưng Topic Output: Người dùng A quan tâm Topic nào? Một Topic T có người dùng quan tâm 1.2.2 Ý nghĩa toán Thứ nhất, lĩnh vực kinh tế, toán có ý nghĩa lớn doanh nghiệp muốn giới thiệu, quảng bá sản phẩm đến đối tượng khách hàng tiềm cách nhanh chóng hiệu Thứ hai, mặt xã hội, toán mang lại hiệu cao việc nghiên cứu định hướng quan điểm mối quan tâm cộng đồng người dùng Việc khám phá quan tâm người dùng giúp phân chia người dùng thành cộng đồng người dùng; qua đó, giúp cho quan, tổ chức, đoàn thể kịp thời nắm bắt tâm tư, nguyện vọng nhóm cộng đồng có tác động hợp lý để định hướng quan điểm cộng đồng Thứ ba, viết đại biểu thể cách rõ ràng cụ thể cho quan tâm người dùng, nên quan tâm người dùng thông qua viết thể đầy đủ xác Do vậy, kết toán đạt độ xác cao 1.2.3 Thách thức tốn Thứ nhất, việc thu thập liệu phức tạp khó khăn Thứ hai, nhiều viết người dùng mạng xã hội Facebook có xuất lỗi tả, sử dụng ngơn ngữ địa phương, từ lóng, từ viết tắt, ngơn ngữ mang tính chất cá nhân Điều gây ảnh hưởng đến chất lượng phân cụm, phân lớp tốn Thứ ba, có nhiều Topic mà người dùng mạng xã hội Facebook quan tâm, nữa, người dùng quan tâm nhiều Topic khác Điều khiến cho việc phân loại người dùng vào Topic gặp nhiều khó khăn Vì vậy, luận văn tiến hành phân loại người dùng vào số Topic cụ thể, quen thuộc đời sống hàng ngày 1.3 Khai phá liệu toán khám phá quan tâm người dùng mạng xã hội Mạng xã hội phát triển mạnh mẽ, lượng liệu gia tăng liên tục, nhu cầu khai thác tri thức từ loại liệu ngày lớn, đòi hỏi phương pháp cơng cụ khai thác nhanh chóng hiệu Việc áp dụng kỹ thuật dựa khai phá liệu cách thức cự kỳ hữu ích cho việc phân tích liệu mạng xã hội, đặc biệt tập liệu lớn xử lý phương pháp truyền thống 1.3.1 Giới thiệu khai phá liệu Khai phá liệu (KPDL) bước phân tích q trình KDD, bước quan trọng tốn nhiều thời gian tồn q trình KPDL [28] q trình tính tốn để tìm mẫu liệu lớn, sử dụng nhiều kỹ thuật có liên quan đến lĩnh vực máy học, thống kê hệ thống sở liệu Kết KPDL sử dụng rộng rãi nhiều lĩnh vực khác đời sống hàng ngày Hình 1.3 Quá trình khám phá tri thức CSDL 1.3.2 Các kỹ thuật khai phá liệu Theo quan điểm học máy, có ba kỹ thuật thường sử dụng KPDL, bao gồm: Học có giám sát (Supervised Learning) Học khơng có giám sát (Unsupervised Learning) Học bán giám sát (Semi – Supervised Learning) 1.4 Biểu diễn liệu văn toán khám phá quan tâm người dùng mạng xã hội Trong tất loại liệu, liệu văn loại phổ biến có mặt khắp nơi Vì mà tốn xử lý văn đời từ sớm nhiều nhà nghiên cứu quan tâm phát triển tận bây giờ, số toán tiêu biểu tìm kiếm, trích xuất văn bản, biểu diễn phân loại văn bản… Bài toán khám phá quan tâm người dùng dựa vào viết mạng xã hội Facebook thuộc số toán xử lý văn bản, thực chất tốn phân cụm, phân lớp liệu văn 1.4.1 Vấn đề biểu diễn liệu văn Về hình thức, liệu chia làm ba loại [16]: - Dữ liệu có cấu trúc (Structured Data) - Dữ liệu phi cấu trúc (Unstructured Data) - Dữ liệu bán cấu trúc (Semi – Structured Data) Đối với toán Khám phá quan tâm người dùng mạng xã hội Facebook dựa vào viết viết liệu phi cấu trúc Thông thường, người ta sử dụng mơ hình vector khơng gian đa chiều để biểu diễn liệu Có thể hiểu khơng gian vector biểu diễn văn tập hợp bao gồm nhiều từ Từ chuỗi ký bao gồm chữ và/hoặc số, không bao gồm ký tự xuống dịng, tab, dấu câu, khơng phân biệt chữ hoa chữ thường Tuy nhiên, việc biểu diễn văn không gian vector gặp phải trở ngại lớn trình xử lý, lý vector biểu diễn văn hầu hết có số chiều lớn, dẫn đến thời gian tính tốn kéo dài gây ảnh hưởng đến hiệu hệ thống Có nhiều phương pháp lựa chọn từ biểu diễn văn không gian vector để cải thiện việc xử lý liệu làm giảm số chiều vector Trong khuôn khổ luận văn, tác giả trình bày kỹ thuật loại bỏ từ dừng loại bỏ từ có tần số thấp xử lý văn nhằm giúp cho việc biểu diễn liệu tính tốn đạt hiệu cao 1.4.1.1 Loại bỏ từ dừng Trong liệu văn bản, có nhiều từ dùng nhằm mục đích biểu diễn cấu trúc câu, chúng xuất thường xuyên văn khơng có ý nghĩa việc đạt nội dung câu; liên từ, giới từ… Những từ gọi từ dừng [12] Trong trình lựa chọn từ để biểu diễn văn bản, việc loại bỏ từ dừng làm giảm số chiều vector biểu diễn giúp cho trình xử lý văn dễ dàng thuận lợi [29] 1.4.1.2 Loại bỏ từ có tần số xuất nhỏ Năm 1949, George Kingsley Zipf (1902 – 1950) phát biểu lý luận việc loại bỏ từ có tần suất nhỏ văn quan sát tần số xuất từ tài liệu Điều người coi định luật gọi tên Định luật Zipf [28] Phát biểu Định luật Zipf [7]: Gọi tần số xuất từ tài liệu tập hợp từ có tài liệu , ( X) Sau đó, xếp từ tập hợp 10 1.4.2.2 Mơ hình Boolean Mơ hình Boolean loại mơ hình đơn giản biểu diễn liệu văn dựa tập hợp từ không gian vector [1], với hàm tương đương với Hàm nhận giá trị true false, tương ứng với từ cho giá trị true xuất tài liệu xét, ngược lại Giả thiết có CSDL gồm m văn bản, Mỗi văn biểu diễn dạng vector gồm n từ { } ma trận trọng số, Các giá trị giá trị trọng số từ ma trận Gọi tài liệu xác định sau: { Vậy, tài liệu biểu diễn tập hợp từ chứa 1.4.2.3 Mơ hình tần số Có ba phương pháp phổ biến để xác định giá trị trọng số ma trận W mơ hình tần số [1], là: phương pháp dựa tần số xuất từ (Term Frequency – TF), phương pháp dựa tần số văn nghịch đảo (Inverse Document Frequency – IDF), phương pháp kết hợp TF – ID a Phương pháp dựa tần số xuất từ - TF Trong phương pháp dựa tần số xuất từ, giá trị trọng số từ tính dựa vào tần số hay số lần xuất từ tài liệu Gọi số lần xuất từ tài liệu ; đó, tính theo số cơng thức [1]: - √ Trong phương pháp này, trọng số tài liệu Khi tần số xuất thuộc vào Nói cách khác, tỷ lệ thuận với số lần xuất từ tài liệu lớn mang nhiều thơng tin tài liệu phụ 11 b Phương pháp dựa tần số văn nghịch đảo – IDF Đối với phương pháp dựa tần số văn nghịch đảo, giá trị trọng số từ tính cơng thức sau: { Trong đó, tổng số văn CSDL, cơng thức trên, trọng số liệu Nếu ( ) số văn chứa từ Theo tính dựa vào mức độ quan trọng từ xuất tài liệu, có nghĩa trọng số lớn hàm lượng thơng tin quan trọng để phân biệt tài xuất lớn, từ với tài liệu khác c Phương pháp kết hợp TF-IDF Trong phương pháp này, trọng số trị tính tốn dựa vào kết hợp giá xác định theo công thức: [ { ( )] ( ) Trong đó: - tần số xuất tài liệu tần số văn nghịch đảo - số tài liệu có xuất - tổng số tài liệu CSDL tài liệu CSDL Phương pháp kết hợp ưu điểm hai phương pháp TF IDF Trọng số tính tần số xuất từ CSDL tài liệu độ 12 1.5 Kết luận Trong chương này, tác giả tóm lược cách ngắn gọn mạng xã hội nói chung mạng xã hội Facebook nói riêng Phát biểu tốn khám phá quan tâm người dùng dựa vào viết mạng xã hội Facebook ý nghĩa, thách thức giải toán Và giới thiệu lĩnh vực có liên quan chặt chẽ tốn, gồm có khai phá liệu , số vấn đề biểu diễn liệu văn 13 Chương 2: KHÁM PHÁ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN HỌC MÁY CÓ GIÁM SÁT 2.1 Tổng quan học máy có giám sát Học máy (hay máy học) hiểu khả chương trình máy tính sử dụng kinh nghiệm, quan sát, liệu khứ để cải thiện cơng việc tương lai, thay thực theo quy tắc lập trình sẵn [5] Học có giám sát (supervised learning) kĩ thuật học máy mà máy “học” từ tập liệu gán nhãn cho trước, gọi liệu huấn luyện3 Giả sử ta có tập hợp biến đầu vào nhãn tương ứng gồm liệu có cấu trúc theo cặp ( , , ) , tập hợp vector Dữ liệu huấn luyện Có nghĩa là: Mục đích xấp xỉ hàm nhãn tương ứng thật tốt để có liệu mới, ta tìm Hình 2.1 Mơ hình học có giám sát Có thể nhận thấy, học có giám sát tức máy học dựa vào trợ giúp hay giám sát người, nói cách khác người dạy cho máy học, giá trị đầu mong muốn định trước người Tập liệu huấn luyện hoàn toàn http://machinelearningcoban.com 14 gán nhãn dựa vào người Dữ liệu huấn luyện lớn máy tính học nhiều 2.2 Một số thuật tốn học có giám sát 2.2.1 Thuật tốn Nạve Bayes Phương pháp xác định nhãn phân loại cách tính xác xuất điều kiện nhãn quan sát thấy tổ hợp giá trị thuộc tính =( ) Dựa định lý Bayes: | | (2.1) Với điều kiện: - Tập liệu huấn luyện D bao gồm mẫu vector hóa dạng: , với - thuộc tính Tập phân lớp (các nhãn) | | Thì: }, với = {1,2,…,m} ={ (2.2) tính tần suất quan sát thấy nhãn Giá trị tức tỷ số tổng số mẫu có nhãn tập huấn luyện, tổng số mẫu Theo tính chất độc lập điều kiện, tức thuộc tính đơi độc lập xác suất với biết , ta có: | ∏ | (2.3) Thế công thức 2.3 vào công thức 2.2, ta được: | ∏ | (2.4) Trong đó: | - xác suất thuộc phân lớp biết trước mẫu X xác suất phân lớp | - xác suất thuộc tính thứ biết thuộc phân lớp Các bước thực thuật toán Naïve Bayes: Bước 1: Huấn luyện Naïve Bayes dựa vào tập liệu, tính giá trị | 15 Bước 2: Phân lớp lớp biết trước , ta cần tính xác suất thuộc phân gán vào lớp có xác suất lớn theo cơng thức: ∏ | (2.5) Thuật tốn Nạve Bayes toán phân loại văn Ý tưởng cách tiếp cận Nạve Bayes [3] tốn phân loại văn sử dụng xác suất có điều kiện từ chủ đề để tìm xác suất văn cần phân loại chủ đề để dự đoán chủ đề văn Với phương pháp phân loại Bayes, văn biểu diễn vector , giá trị đặc trưng Trong đó, tổng số lượng đặc trưng có tồn tập liệu huấn luyện, tức số lượng từ, cụm từ khác 2.2.2 Thuật toán Máy vector hỗ trợ (Support Vector Machine - SVM) Support vector machines (SVM) [5] kỹ thuật học có giám sát đề xuất lần vào năm 1992 cho toán phân loại nhị phân, mở rộng cho mục tiêu phân loại đa lớp Ý tưởng SVM ánh xạ liệu gốc từ không gian biểu diễn chúng sang không gian cho không gian gọi không gian đặc trưng với số chiều lớn xây dựng siêu phẳng tối ưu cho phép phân hoạch liệu dựa phân lớp chúng, nghĩa tìm miền phân bố lớp khơng gian để từ xác định phân lớp mẫu cần nhận dạng Để tránh việc tính tốn trực tiếp với liệu không gian mới, ta sử dụng phương pháp gọi thủ thuật nhân cách tìm hàm nhân K cho: ( ⃗ ⃗⃗) ⃗ ⃗⃗ (2.6) Sử dụng phương pháp nhân tử Lagrange thay tích vơ hướng hai vector giá trị hàm nhân theo công thức (2.5), tốn tìm lề cực đại SVM đưa tốn tìm vector hệ số ⃗⃗⃗⃗ mục tiêu: cho phép cực tiểu hoá hàm 16 ∑ ⃗⃗⃗⃗ ∑ (⃗⃗⃗⃗ ⃗⃗⃗⃗) ∑ (2.7) đồng thời thỏa mãn điều kiện: ∑ (2.8) (2.9) Trong (2.7), (2.8), (2.9), ⃗⃗⃗⃗ dụ huấn luyện thứ , tương ứng liệu nhãn phân loại ví hệ số cần xác định Trong ràng buộc (2.9), C số lượng tối đa điểm liệu phân loại sai, tức điểm nằm phía siêu phẳng lại mang nhãn điểm nằm bên Việc sử dụng C cho phép khắc phục tình trạng liệu huấn luyện có ví dụ bị gán nhãn khơng xác Q trình huấn luyện SVM q trình xác định cho phép tính Có nhiều phương pháp từ liệu huấn luyện cách hiệu thơng dụng tối ưu SMO [17] Sau huấn luyện xong, giá trị nhãn phân loại cho mẫu ⃗ tính bởi: ∑ ⃗ ⃗⃗⃗⃗ ⃗ ) (2.10) với b tính giai đoạn huấn luyện, theo cơng thức: ∑ (⃗⃗⃗⃗ ⃗⃗⃗⃗) (2.11) đó, hệ số thỏa mãn điều kiện: Thuật toán SVM toán phân loại văn Đối với toán phân loại văn bản, thuật toán SVM xem vector ⃗ vector đặc trưng biểu diễn cho nội dung văn nhãn phân loại liệu huấn luyện Văn ⃗ phân loại theo cơng thức (2.10) Có thể thấy q trình áp dụng thuật toán SVM vào toán phân loại văn việc thay vector trọng số biểu diễn văn vào phương trình (2.10), từ tìm nhãn lớp văn chưa gán nhãn 2.2.3 Đánh giá chất lượng phân lớp Để đánh giá kết phân loại văn hay chất lượng phân lớp, ta sử dụng số số đánh giá [9] sau: Recall: độ xác dự đoán cho nhãn (độ hồi tưởng) Recall = 17 Precision: độ xác lần dự đốn (độ xác) Precision = Gọi: - Human: Số văn thực tế - Model: Số văn dự đoán - Match: Số văn máy dự đoán Chúng ta có cơng thức: | Rec = | | Prec = | | | | | = | | | | = | | | | Fscore (F) Tiêu chí đánh giá Fscore kết hợp hai tiêu chí đánh giá Precision Recall Fscore = 2.3 Mơ hình xử lý tốn khám phá quan tâm người dùng mạng xã hội Facebook dựa vào viết Trong luận văn, tác giả sử dụng hai thuật tốn phân lớp tiêu biểu Nạve Bayes SVM để tạo phân lớp liệu Sau q trình nghiên cứu, tác giả đưa mơ hình xử lý tốn khám phá quan tâm người dùng dựa vào viết mạng xã hội Facebook, sau: Th thập Xử ý iệ iệ Lập T pic Ti phâ hành ớp Hình 2.35 Mơ hình xử lý tốn khám phá quan tâm người dùng mạng xã hội Facebook dựa vào viết Bước 1: Thu thập liệu Bước 2: Xử lý liệu 18 Bước 3: Lập Topic: 05 Topic phổ biến, là: Giáo dục, Điện ảnh, Thể thao, Kinh tế, Chính trị Bước 4: Phân lớp viết vào Topic: Sử dụng kết bước bước để tiến hành so sách, phân lớp viết, từ xác định Topic mà người dùng quan tâm 2.4 Kết luận Chương trình bày tổng quan học có giám sát, hai thuật tốn học có giám sát sử dụng việc giải tốn tìm hiểu Naïve Bayes SVM, số kỹ thuật đánh giá chất lượng phân lớp thuật tốn Đồng thời, đưa mơ hình xử lý tốn khám phá quan tâm người dùng mạng xã hội Facebook dựa vào viết 19 Chương 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Dữ liệu 3.1.1 Thu thập liệu Ở đây, tác giả sử dụng cơng cụ hữu ích việc thu thập liệu mạng xã hội, Trình khám phá API đồ thị Facebook, cung cấp trực tuyến theo địa chỉ: https://developers.facebook.com/tools/explorer/ Mỗi tài khoản người dùng Facebook cung cấp mã gọi mã token Khi người dùng đăng xuất khỏi Facebook ngắt kết nối Internet, mã token khơng cịn giá trị Với mã token này, thu thông tin công khai người dùng sở hữu mã Đồng thời thu thông tin người dùng khác có kết nối với người sở hữu mã token mạng xã hội Facebook Hình 3.12 Giao diện lấy mã token xác định thơng tin người dùng Trình khám phá Facebook Graph API cung cấp số trường thông tin lấy hình 3.2 Bao gồm số thông tin người dùng như: ID, tên, địa chỉ, ngơn ngữ, ngày sinh, giới tính, feed 3.1.2 Xử lý liệu Bước 1: Thu thập liệu: Bước tiến hành thu thập liệu viết người dùng mạng xã hội Facebook Bước 2: Xử lý liệu: 20 - Đối với toán khám phá quan tâm người dùng mạng xã hội Facebook dựa vào viết, tác giả quan tâm đến viết liệu text, tiến hành lọc bỏ viết không chứa liệu text người dùng - Loại bỏ từ dừng, từ viết tắt, chữ số ký tự đặc biệt - Tách viết thành từ Bước 3: Lập Topic: Từ định nghĩa Topic dựa Wikipedia tiếng Việt, xây dựng 05 Topic cách xác định tập từ khóa Topic - Tiếp theo, sử dụng kỹ thuật N-gram, tách từ, biểu diễn từ qua mơ hình tần số TF-IDF, xếp theo thứ tự từ xuất với tần số cao đến thấp - Cuối tiến hành loại bỏ từ dừng, chữ số ký tự đặc biệt Sử dụng kỹ thuật Zipf loại bỏ từ xuất với tần số lớn 400 nhỏ Bước 4: Tiến hành phân lớp liệu, sử dụng kỹ thuật Naïve Bayes SVM 3.1.3 Mô tả liệu Dữ liệu thử nghiệm luận văn gồm khoảng 1000 viết từ 100 người dùng mạng xã hội Facebook Mỗi người dùng có ID có trường thơng tin sau: tên, địa chỉ, giới tính, ngày sinh, viết Lưu với tên file “Data.csv” Hình 3.11 Dữ liệu người dùng thu từ Facebook 21 Hình 3.12 Dữ liệu viết người dùng có ID 10000028531xxx 3.2 Phần mềm công cụ sử dụng Bảng 3.1 Môi trường thử nghiệm Thành phần Thông số Hệ điều hành Windows Pro 64bit Bộ vi xử lý Intel Core i7-2640M 2.8GHz Bộ nhớ 4Gb Bộ nhớ 750Gb Kết thử nghiệm luận văn hồn thiện phần mềm cơng cụ sau: - Lấy liệu Trình khám phá Graph API Facebook Wikipedia Tiếng Việt - Sử dụng ngôn ngữ lập trình C# (Microsoft Visual Studio 2010) 3.3 Kết thử nghiệm đánh giá Luận văn tiến hành thử nghiệm 02 thuật tốn Nạve Bayes SVM Đồng thời đánh giá kết phân lớp thuật toán Thử nghiệm dựa 1000 viết thu thập từ 100 người dùng mạng xã hội Facebook, theo 05 Topic khác dựa định nghĩa 05 Topics trang Wikipedia Tiếng Việt; gồm có: Giáo dục, Điện ảnh, Thể thao, Kinh tế Chính trị; Topics có số lượng viết 200 Sau tách từ loại bỏ từ dừng, ta thu từ khóa 05 Topics trên, bao gồm 4236 từ Trong Topics, 160 viết chọn cách ngẫu nhiên cho giai đoạn huấn luyện phân lớp, 40 viết lại dùng cho giai đoạn phân lớp 22 Dưới kết thử nghiệm hai phương pháp phân lớp, đánh giá chất lượng phân lớp hai phương pháp Bảng 3.2: Kết thử nghiệm mô hình Nạve Bayes Độ xác Độ phủ (Recall) N-gram Fscore (%) (Precision) (%) (%) 74.5 77.4 75.9 Unigram 71.9 70.5 71.2 BiGram 73.4 67.3 70.2 TriGram Kết thử nghiệm mơ hình Nạve Bayes cho bảng 3.2 cho thấy chất lượng phân loại tương đối Các số kiểm chứng nói lên mơ hình cho chất lượng phân lớp tốt 75.9% đặc trưng UniGram Bảng 3.3: Kết thử nghiệm mô hình SVM Độ xác Độ phủ (Recall) N-gram Fscore (%) (Precision) (%) (%) 90.2 92.3 91.2 Unigram 93.2 93.8 93.5 BiGram 91.9 94.0 92.9 TriGram Từ kết đánh giá bảng 3.3 thấy chất lượng phân lớp mơ hình SVM tương đối cao, với chất lượng phân lớp tốt đặc trưng BiGram đạt khoảng 93.5% 100 90 80 70 60 50 40 93.5 91.2 75.9 30 71.2 92.9 Naïve Bayes SVM 70.2 20 10 UniGram BiGram TriGram Hình 3.6: Sơ đồ so sánh mơ hình Nạve Bayes SVM Từ số liệu chi tiết bảng 3.2 3.3 Hình 3.6 rằng, mơ hình SVM cho chất lượng phân lớp cao hẳn so với mơ hình Nạve Bayes Trong đó, phân lớp SVM sử dụng đặc trưng BiGram cho chất lượng cao đạt 93.5% Như vậy, 23 mơ hình Nạve Bayes đơn giản dễ thực lại cho chất lượng phân lớp không cao; ngược lại, SVM phức tạp kết phân lớp lại mức độ cao hẳn Ngoài việc xác định người dùng quan tâm đến topic nào, tác giả đưa kết phân bố quan tâm người dùng (Hình 3.7), thể mức độ quan tâm người dùng Topic Từ hình 3.7 xác định tỷ lệ số người quan tâm tới lĩnh vực Chính trị lớn nhất, chiếm 22%; Tiếp theo chủ đề Giáo dục, Thể thao, Kinh tế điện ảnh, với tỷ lệ tương ứng 20%, 18%, 17% 15% Trong đó, số người khơng quan tâm đến chủ đề chiếm 8% Với tỷ lệ này, thấy kết quan tâm người dùng tới topic đồng đều, khơng có chênh lệch lớn Giáo dục 20 Điện ảnh 22 Thể thao 15 17 Kinh tế Chính trị 18 Khác Hình 3.7: Phân bố quan tâm người dùng tới Topic 3.4 Kết luận Chương luận văn trình bày phương pháp lấy liệu viết người dùng mạng xã hội Facebook, cách xử lý liệu Một số kết thử nghiệm hai thuật tốn Nạve Bayes SVM, đánh giá chất lượng phân lớp hai thuật toán 24 KẾT LUẬN Những kết đạt được: Với mục tiêu nghiên cứu đề ra, luận văn sâu nghiên cứu vấn đề xung quanh toán khám phá quan tâm người dùng mạng xã hội dựa vào viết, thuật toán phân lớp liệu để phân loại quan tâm người dùng; đạt kết sau: - Khảo sát số thuật tốn học có giám sát vấn đề biểu diễn xử lý liệu văn - Phát biểu xây dựng mơ hình xử lý tốn khám phá quan tâm người dùng mạng xã hội Facebook dựa vào viết triển khai giải tốn theo mơ hình - Xây dựng từ khóa tương ứng Topic phổ biến áp dụng chương trình thử nghiệm Tiến hành thử nghiệm với thuật tốn Nạve Bayes SVM Từ đó, đưa số thống kê quan tâm người dùng Topic Hướng phát triển luận văn: Trong q trình thực luận văn, khơng tránh khỏi có số hạn chế điều kiện mặt thời gian trình độ học viên Vì vậy, hướng nghiên cứu học viên là: - Cải tiến kỹ thuật phân lớp kết phân lớp tốt - Ngoài việc sử dụng viết, luận văn hướng đến việc sử dụng thông tin khác mà người dùng chia sẻ mạng xã hội để khám phá vấn đề mà họ quan tâm Cũng như, không dừng lại mạng xã hội Facebook mà cịn mở rộng cho mạng xã hội phổ biến khác - Bài toán khám phá quan tâm người dùng mạng xã hội có ứng dụng rộng rãi cho nhiều lĩnh vực Không riêng với mạng xã hội Facebook, kết tốn cơng cụ đắc lực để quan, doanh nghiệp, tổ chức an ninh, trị… có điều chỉnh, định hướng quan tâm sau tác động đến quan điểm người dùng Do đó, luận văn tiếp tục phát triển theo hướng ứng dụng toán ... Phát biểu toán khám phá quan tâm người dùng mạng xã hội Bài toán khám phá quan tâm người dùng mạng xã hội biểu diễn sau: - Input: Các thông tin người dùng mạng xã hội, tập chủ đề T mà người dùng. .. toán khám phá quan tâm người dùng dựa vào viết mạng xã hội Facebook 1.2.1 Phát biểu toán khám phá quan tâm người dùng dựa vào viết mạng xã hội Facebook Bài toán khám phá quan tâm người dùng dựa... Chương 1: TỔNG QUAN VỀ NGHIÊN CỨU QUAN TÂM NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI 1.1 Bài toán khám phá quan tâm người dùng mạng xã hội 1.1.1 Giới thiệu mạng xã hội Facebook Dịch vụ mạng xã hội (social networking