Download dữ liệu

Một phần của tài liệu Khai thác thông tin trên mạng xã hội phục vụ giám sát dịch bệnh (Trang 34 - 37)

3.3.2.1 Twitter API tìm kiếm

Với sự hỗ trợ của các Web API, việc tải các tweet trên mạng xã hội Twitter khá dễ dàng. Để dễ hình dung, các web API để download các tweet là các URL dạng http://search.twitter.com/search.atom hoặc http://search.twitter.com/search.json.

Ví dụ: http://search.twitter.com/search.atom?q=flu sẽ download các tweet có chứa từ khóa “flu”. Tài liệu trả về được viết theo định dạng XML.

Các Web API của Twitter còn có rất nhiều tham số để cho người dùng có thể download các tweet một cách linh động hơn:

rpp: Tùy chọn. Tham số này quy định số tweet tối đa trả về của một trang. Giá trị lớn nhất là 100.

Ví dụ: http://search.twitter.com/search.atom?q=flu&rpp=100 sẽ trả về một tài liệu có tối đa là 100 tweet chứa từ khóa “flu”.

lang: Tùy chọn. Tham số quy định ngôn ngữ của các tweet trả về. Giá trị của tham số này phải theo chuẩn ISO 639-1.

Bảng 1 - Mã của một số ngôn ngữ theo chuẩn ISO 639-1

Ngôn ngữ Chuẩn ISO 639-1

Tiếng Anh en Tiếng Pháp fr Tiếng Hoa zh Tiếng Việt vi

Ví dụ: http://search.twitter.com/search.atom?lang=en&q=flu chỉ download các tweet được viết bằng tiếng Anh.

page: Tùy chọn. Số thứ tự trang muốn trả về, giá trị này tối thiểu là 1. Lưu ý với mỗi từ khóa, chỉ có thể download tối đa 1500 tweet bằng cách thay đổi giá trị của tham số rpp và page.

Ví dụ: http://search.twitter.com/search.atom?q=flu&rpp=100&page=2

max_id: Tùy chọn. Trả về các tweet có ID nhỏ hơn một giá trị cho trước được quy định bằng tham số max_id. Ví dụ:

http://search.twitter.com/search.atom?q=H1N1&max_id=1520639490

since_id: Tùy chọn. Trả về các tweet có ID lớn hơn một giá trị cho trước được quy định bằng tham số since_id. Ví dụ:

http://search.twitter.com/search.atom?q=twitter&since_id=1520639490

since: Tùy chọn. Trả về các tweet có ngày post > một ngày cho trước được quy định bằng tham số since_id theo định dạng YYYY-MM-DD.

Ví dụ: http://search.twitter.com/search.atom?q=twitter&since=2010-02-28

until: Optional. Returns tweets with generated before the given date. Date should be formatted as YYYY-MM-DD.

Ví dụ: http://search.twitter.com/search.atom?q=twitter&until=2010-07-15 Tất cả những tham số trên là những tham số quan trọng để download các tweet phục vụ cho quá trình tạo kho ngữ liệu huấn luyện cũng như lúc hệ thống đang hoạt

động. Tất cả các các API khác có thể tìm thấy trong các tài liệu hướng dẫn kỹ thuật của Twitter [25].

Các thông tin của một tweet lấy được từ các Web API của Twitter bao gồm:  ID

 Nội dung của tweet

 Thời gian được post lên / thời gian cập nhật  Tài khoản người dùng (user name)

 Ngôn ngữ

Hạn chế: Các Web API tìm kiếm bị giới hạn về số lần thực hiện request trong một khoảng thời gian (tối đa khoảng 1500 lời gọi trong 1 giờ). Giới hạn này có thể không đáng ngại nếu sử dụng nhiều máy tính để download dữ liệu.

3.3.2.2 Twitter API lấy thông tin người dùng

Cú pháp: http://twitter.com/users/show/account_name. Kết quả trả về là một tập tin theo định dạng XML.

Các thông tin về người dùng có thể thu thập được:  Tên đăng nhập.

 Tên người dùng. (adsbygoogle = window.adsbygoogle || []).push({});

 Địa chỉ dưới dạng một chuỗi văn bản mà người dùng nhập vào lúc tạo tài khoản.

 Timezone.

Một phần của tài liệu Khai thác thông tin trên mạng xã hội phục vụ giám sát dịch bệnh (Trang 34 - 37)