Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 35 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
35
Dung lượng
864,62 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN ĐỨC KHÔI KỸ THUẬT LỌC CỘNG TÁC TRONG TƯ VẤN NGƯỜI DÙNG TWITTER Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: …PGS TS Từ Minh Phương Phản biện 1: …………………………………………………… Phản biện 2: …………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: …… ngày ,, tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỤC LỤC MỤC LỤC MỞ ĐẦU CHƯƠNG 1.MẠNG XÃ HỘI TWITTER VÀ CÁC ĐẶC TRƯNG 1.1 Giới thiệu mạng xã hội Twitter 1.2 Các đặc trưng thông tin Twitter 1.3 Mối quan hệ người dùng trọng mạng Twitter 1.4 Các hệ tư vấn người dùng Twitter CHƯƠNG 2.LỌC CỘNG TÁC VÀ ÁP DỤNG TRONG HỆ TƯ VẤN NGƯỜI DÙNG TWITTER 10 2.1 Giới thiệu hệ tư vấn kỹ thuật lọc cộng tác 10 2.2 Áp dụng kỹ thuật lọc cộng tác tư vấn người dùng Twitter 12 CHƯƠNG 3.THỬ NGHIỆM VÀ ĐÁNH GIÁ 25 3.1 Thu thập liệu thử nghiệm 25 3.2 Ứng dụng mơ thuật tốn 27 3.3 Đánh giá phương pháp tư vấn 29 KẾT LUẬN VÀ KIẾN NGHỊ 32 MỞ ĐẦU Ngày nay, mạng xã hội ngày phát triển sâu vào sống người Trên giới có hàng trăm mạng mạng xã hội khác nhau, trong mạng xã hội phát triển nhanh thành công có mặt muộn, Twitter Với số lượng người sử dụng lên đến 500 triệu người, lượng tweet người dùng đăng lên hàng ngày lớn, lên đến 340 triệu tweets ngày, kèm với lượng thông tin khổng lồ chia sẻ cập nhật Mỗi người dùng lựa chọn theo dõi cá nhân tổ chức đó, mà người quan tâm, ngược lại theo dõi người dùng khác, Twitter hiển thị tweet đăng tải cá nhân tổ chức mà người dùng theo dõi, theo thứ tự thời gian đăng tweet Một vấn đề đặt số lượng tweet tăng lên nhanh vậy, người dùng theo dõi nhiều cá nhân tổ chức khác vấn đề lớn mà họ gặp phải tải thông tin Rất nhiều thông tin hữu ích bị tweet khác cập nhật làm đẩy lùi tweet trước đó, tweet thông tin thực cần thiết mà người dùng quan tâm Đồng thời, toán khác quan tâm nhiều người dùng muốn có thơng tin hữu ích nằm ngồi luồng thơng tin mà họ nhận người mà họ chủ động theo dõi, thông tin đăng người bạn bạn, từ Blog theo dõi người bạn người dùng Chính vậy, việc nghiên cứu xây dựng hệ tư vấn nhằm tư vấn cho người dùng tweet hữu dụng vấn đề quan trọng có ý nghĩa thực tiễn Hệ thống khuyến nghị cho người dùng Twitter danh sách tweet mà nhiều khả người quan tâm.Danh sách cá nhân hóa, tức dựa mối quan tâm người dùng CHƯƠNG MẠNG XÃ HỘI TWITTER VÀ CÁC ĐẶC TRƯNG Twitter phát triển nhanh để trở thành mạng xã hội phổ biến năm gần cung cấp số lượng lớn người dùng sử dụng để đăng tin, gọi tweet Các tweet Twitter hiển thị cho người dùng theo thứ tự thời gian gọi Timeline, người dùng dựa vào timeline để theo dõi thông tin mà họ quan tâm Tuy nhiên, vấn đề tải thơng tin gây khó khăn cho người sử dụng, đặc biệt người dùng theo dõi nhiều người dùng khác có hàng ngàn tweet đến với họ ngày Luận văn tập trung vào việc đưa tweet hữu ích mà người dùng thực quan tâm thông qua phương pháp tư vấn, giúp người dùng giảm công sức bỏ để tìm kiếm thơng tin 1.1 Giới thiệu mạng xã hội Twitter Twitter dịch vụ mạng xã hội miễn phí cho phép người dùng sử dụng đọc, nhắn cập nhật mẩu tin nhỏ gọi tweet, dạng tiểu blog Những mẩu tweet giới hạn tối đa 140 ký tự lan truyền nhanh chóng phạm vi nhóm bạn người nhắn trưng rộng rãi cho người Thành lập từ năm 2006, Twitter trở thành tượng phổ biến toàn cầu, tweet dịng tin cá nhân cập nhật mang tính thời chỗ kịp thời nhanh chóng truyền thơng thơng 1.2 Các đặc trưng thông tin Twitter Người dùng Twitter cập nhật tin ngắn bị giới hạn 140 ký tự gọi việc đăng tin gọi , thuật ngữ để Người dùng Twitter có mối quan hệ trực tiếp với nhau, người dùng theo dõi người dùng B B không theo dõi A, A thấy tất tweet B ngược lại, B không thấy tweet A Thuật ngữ mà Twitter đề xuất cho mối quan hệ người dùng Twitter với gồm có , dùng đó, và người theo dõi người người người dùng theo dõi Ví dụ hình 1.1, A theo dõi B, A B, B A Mỗi người dùng có danh sách hiển thị tweet cập nhật, danh sách gọi Twitter stream theo thứ tự thời gian Các tweet hiển thị danh sách tweet đăng followee Trong ví dụ hình 1.1, A follow B, tất tweet B hiển thị danh sách tweet A, B không follow A tweet A khơng hiển thị danh sách tweet B, B phải lựa chọn ‘follow’ A để thấy tweet danh sách tweet truy cập vào trang cá nhân A để thấy tất tweet mà A đăng Người dùng Twitter việc chia sẻ tweet dạng tin văn ngắn, Twitter chọ phép họ cung cấp thêm nhiều thơng tin hữu ích tin đó, đặc trưng mà Twitter cung cấp giúp người dùng bổ sung thêm thông tin hữu ích tweet hashtag, mention retweet Tất đặc trưng mà Twitter cung cấp góp phần thể phần quan điểm, sở thích cá nhân người dùng, hành động người dùng lưu trữ hồ sơ người dùng trích xuất thơng qua giao diện lập trình ứng dụng (API) mà Twitter cung cấp 1.3 Mối quan hệ người dùng trọng mạng Twitter Tính Twitter cho phép người dùng gửi tin nhắn văn ngắn gọi tweet Người dùng theo dõi người sử dụng khác để tự động nhận tất tweets họ thấy chúng thị trang chủ họ Những người sử dụng mà người theo dõi họ bạn bè họ, người dùng mà theo dõi người gọi người theo – followers Hành động tham chiếu tới người dùng tweet gọi đề cập đến – mentions Mentions thông điệp trực tiếp gửi đến nhiều người thông qua chế đề cập hình thức đặc biệt truyền thơng trực tiếp người sử dụng Twitter cho phép người dùng trả lời – reply trực tiếp cho tweet tự động thêm mention để phản hồi lại Trả lời thường liên quan đến hai hướng giao tiếp, người dùng thường trả lời để phản hồi lại thông tin mà họ đề cập Twitter cho phép việc trao đổi tin nhắn riêng chế bổ sung cho thông tin liên lạc trực tiếp Mặc dù vậy, nội dung tin nhắn cá nhân truy cập mà khơng có cho phép Hơn nữa, tin nhắn riêng chiếm phần nhỏ tất tin nhắn trao đổi Twitter sử dụng chúng để xác định thông tin liên lạc trực tiếp người sử dụng dẫn đến hình ảnh khơng đầy đủ Bên cạnh truyền thông trực tiếp, tất tweet tự động quảng bá đến tất người sử dụng theo dõi Các Tweet retweeted hay nói cách khác, tweets chuyển tiếp người sử dụng cho tất followers họ Retweeting chế truyền thông thực hiệu quả, giúp truyền bá thơng tin mạng nhanh chóng Các thẻ đặc biệt sử dụng để gán nhiều chủ đề tweet gọi hashtags, thẻ đặc trưng diện ký tự "#" trước tên chủ đề, phần văn tweet Hashtags sử dụng Twitter để phân loại tweet nhóm chúng thành loại, xem người sử dụng 1.4 Các hệ tư vấn người dùng Twitter Các hệ tư vấn mạng xã hội tư vấn sản phẩm dựa sở thích bạn bè người dùng hay thông tin phương tiện truyền thông xã hội khác, chẳng hạn bình luận Các sản phẩm tư vấn không thiết thành phần mạng xã hội Ví dụ, trường hợp Twitter, người ta tư vấn thơng tin tạo ý từ người dùng Twitter Do đó, tư vấn dùng để nhắm tới người dùng bên Twitter Các phương pháp tư vấn mạng xã hội phải đáp ứng đặc tính Twitter Ví dụ, phương pháp tư vấn kết nối bạn bè làm việc tốt trang mạng xã hội Facebook khơng phát huy tác dụng tư vấn liên kết Twitter 19 end for Với thuật toán xếp hạng này, tweet gán giá trị, giá trị xếp hạng tweet dùng , giá trị người cao, mức độ quan tâm lớn, hay nói cách khác dễ chấp nhận 2.2.2.2 Tính phổ biến tweet Tất biết, mức độ tiếng có sức thu hút đáng ý hầu hết người dùng Qua đánh giá trực quan, sản phẩm phổ biến chấp nhận người dùng Để đánh giá mức độ phổ biến tweet , sử dụng số lần mà tweet chấp nhận người dùng tập huấn luyện sau: | ( )| (2.8) Chúng ta tiến hành xếp hạng tweet danh sách sử dụng để tư vấn thông qua mức độ phổ biến tweet đó, thơng qua thuật tốn sau: Bảng 2.2 Thuật tốn xếp hạng tweet dựa tính phổ biến tweet Huấn luyện: 20 for all ( ) thơng qua biểu thức (4) tính end for Kiểm thử: for all for all ( ) set end for xếp hạng thông qua theo thứ tự giảm dần end for 2.2.2.3 Mức độ chấp nhận followee Khi xem xét vào khả chấp nhận người dùng Twitter tweet bị ảnh hưởng người mà follow, theo lý thuyết thông tin, nhiều người dùng hàng xóm lân cận người quan tâm đến tweet, khả tweet chấp nhận cao Trong Twitter, nhiều người dùng mà follow có quan tâm đến tweet, nghĩa item quan tâm so với tweet khác Chúng ta sử dụng ( ) để biểu diễn cho tập followee người dùng , số 21 lượng followee chấp nhận tweet tính thơng qua công thức 2.32 ( ) { | ( )} (2.9) Biểu diễn dạng thuật toán sau Bảng 2.3 Thuật toán xếp hạng tweet theo mức độ chấp nhận followee for all for all set ( ) tính theo cơng thức (5) end for xếp hạng thông qua theo thứ tự giảm dần end for Với người dùng , tweet xếp dựa vào thuật toán xếp hạng tweet, tweet có giá trị xếp hạng cao sử dụng để tư vấn cho người dùng 2.2.2.4 Tính ngữ nghĩa từ khóa Dữ liệu chứa từ khóa trích xuất từ tweet, retweet comment người dùng tập huấn luyện Từ khóa có dạng “kw1:wight1; kw2:wight2;….; 22 kwN:weightN” Nếu trọng số lớn, mức độ quan tâm người dùng từ khóa nhiều Mỗi từ khóa mã hóa dạng số nguyên nhất, từ khóa người dùng từ từ vựng có dạng tintừ khóa Đặc biệt, tin- từ khóa chứa từ khóa trích xuất tương ứng từ hồ sơ người dùng, tổ chức nhóm người dùng Twitter Định dạng chuỗi “id1; id2; … ; idN” Sau đó, cố gắng xác định từ khóa ngữ nghĩa trích xuất từ người dùng tweet cho việc tư vấn Giả sử ( ) ( ) thể trọng số từ khóa { } trích xuất từ tập từ khóa trích xuất từ và gọi ( ) tương ứng Thuật toán xếp hạng tiến hành sau: Bảng 2.4 Xếp hạng tweet theo tính ngữ nghĩa từ khóa for all for all set end for ( ) { ( )| ( )} 23 xếp hạng theo theo thứ tự giảm dần end for Chiến thuật tiến hành xếp hạng tweet dựa vào theo thứ tự giảm dần, sử dụng tweet có thứ hạng cao để tư vấn cho người dùng 2.2.2.5 Sự tương tác người dùng Dữ liệu chứa thông tin hoạt động người dùng, ví dụ người dùng A retweet người dùng B lần, mention đến B lần comment B lần, thể liệu dạng “A B 6” liệu tương tác người dùng Chúng ta xây dựng đồ thị quan hệ dựa đồ thị hai phía người dùng tweet tồn trọng số xác định sau (2.10) Với comment từ số lần người dùng retweet, mention [ ] vector trọng số thiết lập ứng dụng Thuật tốn mơ tả sau Bảng 2.5 Xếp hạng tweet dựa tương tác người dùng 24 Huấn luyện: for all for all tính theo cơng thức (6) end for end for Kiểm thử: for all for all set ( ) ∑ , với ( ) end for Xếp hạng thông qua theo thứ tự giảm dần end for Dựa vào tương tác người dùng, chiến thuật tiến hành xếp hạng tweet theo thứ tự giảm dẩn, giá trị xếp hạng tweet giá trị tính Những tweet có thứ hạng cao tư vấn cho người dùng 25 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ Sử dụng thư viện có sẵn Twitter cung cấp, thực xây dựng liệu từ liệu thực tế có Twitter cho số lượng người dùng, sử dụng kỹ thuật xếp hạng cộng tác đề xuất chương để đưa tư vấn tweet hữu ích cho số người dùng 3.1 Thu thập liệu thử nghiệm Để xây dựng hệ tư vấn người dùng Twitter, bước cần thu thập liệu, sau chia thành hai tập: tập huấn luyện tập kiểm thử Do sở thích người dùng thay đổi theo thời gian, ln ln biến động, thêm nữa, với số lượng người dùng vô lớn, tweet liên tục cập nhật nên khó để có tập liệu có sẵn đáp ứng yêu cầu cho hệ tư vấn Twitter Twitter cung cấp loạt giao diện lập trình ứng dụng cho phép truy vấn thông tin người dùng sau cấp quyền, truy vấn có liệu trả dạng JSON [4] Thông qua API cung cấp Twitter, tiến hành thu thập liệu đủ lớn để xây dựng tập huấn luyện, với mục đích thử nghiệm thuật tốn, lấy 26 thông tin 1000 người dùng trực tiếp từ Twitter API Để có thơng tin 10000 người dùng này, ban đầu mở rộng từ 10 người dùng người dùng danh sách bạn bè Sau mở rộng tập người dùng thông qua người theo dõi theo dõi người dùng biết Toàn liệu chia thành tập tập huấn luyện tập kiểm thử, tập lớn tập huấn luyện, bao gồm 9000 người dùng, tập nhỏ tập kiểm thử bao gồm 1000 người dùng Bảng thông tin số lượng người dùng số lượng tweet, số lượng follower followee trung bình tập huấn luyện kiểm thử Bảng 3.1 Phân chia tập huấn luyện tâp kiểm thử Người Tweet Followers Followee 9000 72 124 225 1000 57 98 176 dùng Huấn luyện Kiểm thử 27 3.2 Ứng dụng mơ thuật tốn Dựa vào liệu thu thập thông qua API Twitter cung cấp, chia liệu thành hai tập huấn luyện kiểm thử với lượng liệu tương ứng 9000 người dùng 1000 người dùng Sử dụng liệu ngẫu nhiên tập kiểm thử để tiến hành đánh giá phương pháp tư vấn đưa Với người dùng tập kiểm thử, lựa chọn thuật tốn để đưa danh sách 20 tweet có xếp hạng cao Hình 3.1 Ứng dụng tư vấn người dùng Twitter dựa tập huấn luyện với thuật tốn mức độ chấp nhận Followee 28 Hình 3.2 Kết tư vấn dựa tính phổ biến tweet Ngồi ra, ứng dụng cho phép người dùng tư vấn trực tuyến cách đăng nhập vào tài khoản Twitter cấp quyền truy cập thông tin người dùng thông qua OAuth API, ứng dụng triển khai có khả truy cập địa http://tweetmender.herokuapp.com/ Với người dùng đăng nhập hệ thống, tồn thơng tin người dùng sử dụng phần liệu huấn luyện, người dùng sau tư vấn đưa đánh giá tweet danh sách có đáp ứng sở thích người dùng khơng 29 3.3 Đánh giá phương pháp tư vấn Dựa thuật toán áp dụng cho việc tư vấn Twitter để cập trên, việc đánh giá phương pháp sử dụng tập kiểm thử bao gồm có 1000 người dùng thu thập Để đánh giá mức độ xác kết tư vấn cho người dùng, sử dụng độ đo MAP (Mean Average Precision), tạm gọi độ xác trung bình tồn cục Giả sử tư vấn tweet danh sách xếp hạng cho người dùng Twitter đó, người dùng lựa chọn việc retweet đánh dấu thích tweet đó, độ xác trung bình sử dụng để thực việc đánh giá Giá trị độ xác trung bình (AP) ứng với truy vấn xác định công thức sau: ∑ ( ) ( ) ( ) (3.1) Trong đó, k ngưỡng, ( ) hàm trả độ xác k, ( ) hàm nhị phân cho biết có phải kết hay không, giá trị ( ) thể tweet k có quan tâm người dùng hay không ( ) số lượng 30 tweet mà người dùng quan tâm danh sách m item xếp hạng Sử dụng tập huấn luyện kiểm thử có phần 3.1, tiến hành đánh giá thuật toán tư vấn Với thuật toán tư vấn dựa vào tổng hợp tương tác người dùng, sử dụng giá trị trường hợp [ [ ] , [ ] , hiệu với ] , [ [ ] [ ] ] đạt cao Hình 3.3 Các tùy chọn đầu vào thuật toán tương tác người dùng Kết kiểm thử phương pháp tư vấn Twitter cho bảng 31 Hình 3.4 Kết đánh giá phương pháp tư vấn Twitter Với kết này, thấy ba hành động: retweet, mention comment có tác động tích cực việc đưa tweet mà người dùng quan tâm, nhiên hành động comment khơng có ý nghĩa nhiều retweet mention Trong năm phương pháp tư vấn này, phương pháp xếp hạng dựa tính phổ biến tweet đạt kết cao nhất, điều giải thích tweet đăng người tiếng có ý nghĩa ảnh hưởng lớn đến hầu hết người dùng Twitter khác Phương pháp dựa ngữ nghĩa từ khóa khơng đạt kết cao, điều hoàn toàn phù hợp với mạng xã hội Twitter giới hạn 140 ký tự cho tweet đăng 32 KẾT LUẬN VÀ KIẾN NGHỊ Bài toán tư vấn cho người dùng mạng xã hội ngày trở lên quan trọng lượng thông tin cung cấp thông qua mạng xã hội vô lớn, thân hầu hết mạng xã hội phổ biến tự đưa giải pháp tư vấn, nhiên chưa thực phát huy hiệu Với phương pháp nghiên cứu, cài đặt, kiểm thử đánh giá luận văn cho thấy độ xác tư vấn đạt tốt, phương pháp dựa kết hợp nội dung lẫn tương tác người dùng mạng xã hội, điển hình Twitter Các phương pháp tìm hiểu luận văn chủ yếu dựa quan điểm kỹ thuật lọc cộng tác, người dùng có sở thích gần giống có lựa chọn tương đồng Để xác định sở thích người dùng mạng xã hội Twitter, cần tiến hành thu thập liệu xây dựng hồ sơ người dùng, khác với hệ tư vấn khác Amazon hay MovieLens, đánh giá người dùng sản phẩm tường minh, kết thu thập người dùng Twitter khơng tường minh, nghĩa khơng có đánh giá cụ thể người dùng tweet để xác định quan điểm người dùng tweet đó, bước xây dựng hồ sơ người dùng nhằm xác định sở thích người dùng dựa tồn liệu liên quan đến người dùng bao gồm tweet người dùng đăng, theo dõi có theo dõi, ngồi cịn cần thông tin tương tác người dùng mạng 33 xã hội phản hồi, đề cập đến người đánh dấu tweet ưa thích Từ kết đạt phương pháp tư vấn người dùng Twitter trình bày trên, thấy phương pháp có ưu nhược điểm khác nhau, tương lai cần tìm hiểu thử nghiệm, đánh giá phương pháp kết hợp tất phương pháp trình bày, nhằm đưa kết tư vấn gần với sở thích người dùng Đồng thời, đặc thù mạng xã hội, sở thích người dùng thay đổi theo thời gian, nên việc đánh giá dựa vào độ xác trung bình tồn cục khơng cho thấy hết tư vấn đưa có với sở thích người dùng hay khơng, cần cho phép thân người dùng tư vấn tự đánh giá trực tuyến, tư vấn xác khơng Kết đánh giá trực tuyến mang tính xác phương pháp tư vấn ... dùng Twitter CHƯƠNG 2.LỌC CỘNG TÁC VÀ ÁP DỤNG TRONG HỆ TƯ VẤN NGƯỜI DÙNG TWITTER 10 2.1 Giới thiệu hệ tư vấn kỹ thuật lọc cộng tác 10 2.2 Áp dụng kỹ thuật lọc cộng tác tư vấn người dùng. .. 1.4.3 Tư vấn Hashtag 1.4.4 Tư vấn tweet 1.4.5 Tư vấn retweet 1.4.6 Tư vấn tin tức 10 CHƯƠNG LỌC CỘNG TÁC VÀ ÁP DỤNG TRONG HỆ TƯ VẤN NGƯỜI DÙNG TWITTER 2.1 2.1.1 Giới thiệu hệ tư vấn kỹ thuật lọc cộng. .. Phương pháp tư vấn người dùng Twitter Giả sử { ( ) } tập tweet tư vấn chấp nhận 16 người dùng Với ( ) ( ) tập hợp tweet đưa tư vấn chấp nhận người dùng dùng chấp nhận tập người tiến hành tư vấn Dựa