1. Trang chủ
  2. » Luận Văn - Báo Cáo

KHAI THÁC MỐI QUAN HỆ XÃ HỘI TRONG MẠNG XÃ HỘI TWITTER

40 456 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 276,09 KB

Nội dung

Với cấu trúc nguồn mở và API hổ trợ phổ biến nên thông tin về các nodefriend ,đăng nhập và tồn tại từ lâu đời twitter đã trở thành hệ thống xã hội khá phổbiến như hiện na Trên cơ sở đó,

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

CH ƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG NG TRÌNH Đ O T O TH C SĨ CNTT QUA M NG ẠO TẠO THẠC SĨ CNTT QUA MẠNG ẠO TẠO THẠC SĨ CNTT QUA MẠNG ẠO TẠO THẠC SĨ CNTT QUA MẠNG ẠO TẠO THẠC SĨ CNTT QUA MẠNG

Trang 2

MỞ ĐẦU

Ngày nay, sự phát triển của công nghệ thông tin nói chung và kiến trúc mạng nói riêng

đã và đang đạt được những bước tiến nhất định Công nghệ thông tin đang dần đượcđưa vào ứng dụng trong mọi lĩnh vực của cuộc sống, từ việc điều khiển các thiết bịmột cách tự động, hỗ trợ hoạt động kinh doanh, sản xuất của con người, cho đến việcgiả lập chính xã hội loài người – mạng xã hội

Mạng xã hội ra đời đã trở thành một trào lưu mới trong mọi tầng lớp sử dụng máy tính

và Internet làm công cụ giao lưu, tìm kiếm kiến thức Mạng xã hội giúp thu hẹpkhoảng cách giữa người với người, góp phần biến thế giới mà chúng ta đang sinh sống

trở thành một “thế giới phẳng” Với khả năng kết nối, chia sẻ thông tin một cách dễ

dàng, mạng xã hội dần trở thành một kho kiến thức khổng lồ Và từ đây, nhu cầu tìmkiếm, phân tích lượng thông tin khổng lồ trong rất nhiều mạng xã hội đang tồn tại vàphát triển trở nên cần thiết hơn bao giờ hết

Tuy thế, các công nghệ tìm kiếm hiện tại đứng đầu là Google đều chưa thể tận dụnghết khả năng của mạng xã hội Bởi lẽ mạng xã hội có cấu trúc rất mở, các thành phầnđược gắn kết với nhau theo dạng quan hệ (một chiều, hai chiều) nên việc tìm kiếmthông tin trên mạng xã hội phải làm việc ở mức phân tích quan hệ, tìm kiếm các đặcđiểm Với cấu trúc nguồn mở và API hổ trợ phổ biến nên thông tin về các nodefriend ,đăng nhập và tồn tại từ lâu đời twitter đã trở thành hệ thống xã hội khá phổbiến như hiện na

Trên cơ sở đó, bài thu hoạch này tập trung tìm hiểu và làm rõ hơn khả năng tận dụngcác API mở vào việc xử lý các bài toán dựa trên quan hệ trên các mạng xã hội, để từ

đó tạo tiền đề cho các bài toán lớn hơn, giải quyết vấn đề thu thập, tìm kiếm và phântích thông tin trên diện rộng

Do giới hạn của một bài thu hoạch, tất cả những ứng dụng của API cũng như việc ứngdụng API vào các bài toán phân tích trong mạng xã hội sẽ không thể được trình bàymột cách đầy đủ và chi tiết, cho nên khóa luận tốt nghiệp này sẽ bao gồm ba phầnchính Phần đầu nhằm giới thiệu về mạng xã hội, trình bày các đặc điểm của mạng xãhội Phần thứ hai cung cấp cái nhìn chi tiết hơn về mạng xã hội hiện nay là twitter vàcách sử dụng các API kết nối đến profile của user ,danh sách và các link của friend

Trang 3

CHƯƠNG 1: MẠNG XÃ HỘI VÀ CÁC BÀI TOÁN LIÊN QUAN

Theo Wikipedia Error: Reference source not found và Whatissocialnetworking.com

Error: Reference source not found, Mạng xã hội, hay còn gọi là mạng xã hội ảo (tiếngAnh: social network) là một cấu trúc mang tính xã hội tạo thành từ các nút (tiếng Anh:node), mỗi nút đó có thể là một cá nhân, hay một tổ chức Mạng xã hội làm nhiệm vụkết nối các thành viên, người dùng trên Internet lại với nhau dựa theo những tiêu chínào đó, với nhiều mục đích khác nhau, không phân biệt thời gian và không gian

Hình 1 1: Đồ thị biểu diễn cấu trúc đơn giản mạng xã hội

Cấu trúc xã hội của mạng xã hội được thể hiện ở cách thức mạng xã hội “giả lập” xãhội loài người Mạng xã hội nhìn nhận những mối quan hệ xã hội thông qua các nút vàràng buộc giữa các nút Trong một mạng xã hội, các nút là các cá thể, và ràng buộcgiữa chúng là các mối quan hệ giữa các cá thể đó Với một cấu trúc đơn giản nhất như

thế, một mạng xã hội có thể được biểu diễn như một “đồ thị” như Hình 1 1 trong đó

mỗi cá thể, mỗi nút là một điểm trên đồ thị, và quan hệ giữa chúng được thể hiện làmột đoạn nối điểm này với điểm khác

Trang 4

được tạo lập trên những trang cá nhân, mà về sau này được gọi là “blogging” Những mạng xã hội dạng này thì đã xuất hiện từ năm 1985 với THE WELL, Theglobe.com (1994), Geocities (1995) và Tripod (1995)

Còn với một cách tiếp cận khác, đơn giản hơn thì mạng xã hội là nơi mà mọi người cóthể kết nối với nhau thông qua địa chỉ thư điện tử của họ Mạng xã hội đầu tiên của

dạng này – Classmates Error: Reference source not found – ra đời vào năm 1995 với mục đích kết nối học, tiếp đó SixDegrees được tạo ra vào năm 1997 là với mục đích

giao lưu kết dựa theo sở thích

Năm 2002, Friendster Error: Reference source not found ra đời và mau chóng trở

thành trào lưu tại Mỹ Tuy vậy do phát triển quá nhanh mà thiếu đi sự tính toán đốivới phân tải đã khiến các server của dịch vụ này hay bị xảy ra hiện tượng quá tải.Công ty này sau đó có được Google đề nghị mua lại với trị giá khoảng 30 triệu đô la

Mỹ tuy nhiên thương vụ không thành công

Năm 2004, MySpace Error: Reference source not found đi vào hoạt động, nhanh

chóng nổi bật với các tính năng mới hấp dẫn, trong đó phải kể đến tính năng chia sẻnhạc Dịch vụ này đã thu hút được rất nhiều các ban nhạc tham gia vào mạng xã hộiMySpace, từ đó giúp cho mạng xã hội này có thêm được rất nhiều những thành viênquan tâm, để rồi trở thành mạng xã hội lớn nhất thế giới cho tới tận thời điểm hiệnnay

Năm 2006 đánh dấu sự có mặt của Facebook Error: Reference source not found (thực

ra là việc mở rộng phạm vi của mạng xã hội này ra toàn cầu thay vì cho cộng đồng cáctrường đại học tại Mỹ vốn đã tồn tại từ năm 2004), một mạng xã hội “mở” Facebook

cung cấp một nền tảng lập trình gọi là Facebook Platform cho phép những thành viên

Trang 5

chuyên sâu có thể tạo ra các ứng dụng (tiếng anh: Applications) Nhờ vậy Facebook

có được rất nhiều các ứng dụng vừa được cập nhật một cách nhanh chóng, lại vừa phùhợp với nhiều đối tượng với các sở thích cá nhân khác nhau

Ngoài ra hiện nay còn có một trào lưu mới xuất hiện nhưng cũng đã phát triển hết sức

nhanh chóng, đó là Twitter Error: Reference source not found Nếu như các mạng xã

hội trước kia thường được gọi là blogging thì Twitter còn được gọi là micro-bloggingError: Reference source not found Được gọi như vậy bởi Twitter chỉ cung cấp chongười dùng khả năng tạo ra những dòng tin nhắn nhanh và ngắn gọn cỡ 140 ký tự (gần

giống với số ký tự cho phép trong một tin nhắn SMS Error: Reference source not

found trên điện thoại di động)

Bảng 1 1 đưa ra một vài con số thống kê nhỏ về mạng xã hội và sự phát triển củachúng trong thời gian gần đây dựa vào hai tiêu chí cơ bản là số lượng người dùng(thống kê vào thời điểm đầu năm 2009) và xếp hạng lưu lượng truy cập tại trang thống

kê nổi tiếng Alexa (thống kê được ghi lại vào thời điểm tháng 5 năm 2009)

Bảng 1 1: Thông tin về các dịch vụ mạng xã hội phổ biến

Tên dịch vụ Thời gian ra đời

Số lượng người dùng Error:

Reference source not found - 2009

Global Alexa page Ranking Error: Reference source not found – 5/2009

Trang 6

MySpace Tháng 8/2003 Khoảng 253 triệu 9

1.2 Đặc điểm Mạng xã hội (ảo) Error: Reference source not found

Có thể nói Mạng xã hội có thể phát triển mạnh mẽ được như hiện nay là do những ưuthế đáng kể mà chúng mang lại so với các cách tiếp cận cộng đồng truyền thống.Đầu tiên là vấn đề chi phí Có thể thấy rằng việc tham gia vào một mạng xã hội, dù làđối với một cá nhân hay một tổ chức đều chiếm một chi phí tương đối thấp, bởi trênthực tế, các mạng xã hội hiện nay hầu hết cho phép đăng ký và sử dụng miễn phí.Trong khi đó, khi đã trở thành một thành viên của một mạng xã hội, các cá nhân hay

tổ chức đó có thể có được rất nhiều thông tin hữu ích cho mối quan tâm, sự phát triểncủa mình Ví dụ như một công ty sau khi tham gia một mạng xã hội nào đó, có thể chỉcần vài cú nhấp chuột là đã có thể tìm hiểu về các sở thích của người dùng, xu hướngcủa những sở thích đó Qua đó, công ty có thể phát hiện ra được những khách hàngtiềm năng, vạch ra một chiến lược kinh doanh mới cho thời kỳ khó khăn … Nhữngviệc làm này có thể giúp ích rất nhiều cho hoạt động kinh doanh hiện tại của công tyđó

Thứ hai là khả năng xây dựng các mối quan hệ tin cậy Nhờ vào việc quan sát đượccác bài viết, đánh giá của các thành viên trong mạng xã hội, một tổ chức có thể nắmbắt được nhu cầu và đánh giá của khách hàng về các sản phẩm hay dịch vụ mà họcung cấp Hơn thế là khi họ có những phản hồi tích cực đối với khách hàng, từ đó xây

Trang 7

dựng một mối quan hệ “ảo” với khách hàng trong khi có thể mang lại một niềm tin

“thực” Không quá tốn kém như những hệ thống chăm sóc khách hàng lớn mà manglại hiệu quả cũng không hề nhỏ, đó chính là lợi thế của mạng xã hội

Hay đối với những cá nhân, nhờ việc đọc được những bài viết phần nào mang tínhchất riêng tư, tâm sự của bè, hay con cái, họ có thể có được những hiểu biết rõ rànghơn về bè, con cái của mình, thấy được vấn đề mà người kia đang gặp phải, từ đógiúp họ giải quyết vấn đề dễ dàng hơn Bởi nghiên cứu cho thấy, giới trẻ đang có xuhướng kể ra những phức tạp cá nhân trên blog, mạng xã hội dễ dàng hơn là nói chuyệntrực tiếp với các bậc phụ huynh, hay cả với bè Khi ấy niềm tin trong mối quan hệcũng được nâng lên đáng kể

Thứ ba, việc tạo lập các mối quan hệ trong mạng xã hội trở nên dễ dàng hơn bao giờhết Thử tưởng tượng trong mạng xã hội nào đó, người dùng có một vài người , nhữngngười ấy lại có nhiều bè khác, cứ như vậy Nhờ vào mạng xã hội, người dùng ban đầu

có thể thiết lập một mối quan hệ với bất cứ ai, đơn giản chỉ khởi đầu bằng việc gửi đimột lời nhắn đề nghị được kết Sau khi được chấp nhận bởi phía bên kia, việc cần làm

để gìn giữ mối quan hệ đó đó là cố gắng cân bằng giữa việc cho đi và nhận lại Việcnày ở trên một mạng xã hội tỏ ra đơn giản hơn so với việc duy trì mối quan hệ trong

xã hội bình thường, bởi cho đi và nhận về trong mạng xã hội nhiều khi chỉ nằm ở mức

có những bình luận trong những bài viết của bè

Những ưu điểm mà mạng xã hội mang lại như đã kể trên là rất to lớn, tuy vậy cũngcần phải chỉ ra một số mặt hạn chế của mạng xã hội

Vấn đề đầu tiên mà mạng xã hội gặp phải là vấn đề về thông tin cá nhân của ngườidùng Error: Reference source not found Khi đã kết nối vào mạng xã hội, có bè trên

đó đồng nghĩa với việc người dùng cũng phải đối mặt với nguy cơ bị lợi dụng cácthông tin (cá nhân) đăng tải lên đó Với những thông tin như vậy, những kẻ có ý đồkhông tốt có thể tìm hiểu nhiều thứ khác hơn về người dùng đó Điều đó có thể làmảnh hưởng tới lợi ích cá nhân của người dùng đó ngay trong thời điểm hiện tại cũngnhư tương lai Biết đâu một bức ảnh xưa cũ có thể được lôi ra để làm hại tới thanh

Trang 8

Vấn đề thứ hai nằm ở chính cơ chế vận hành của các mạng xã hội Mạng xã hội cũngnhư mọi trang web khác, đều phải giải quyết các vấn đề liên quan tới bảo mật thôngtin Thêm vào đó, các trang mạng xã hội còn gặp phải một số vấn đề riêng ví dụ nhưtình trạng nhắn tin rác làm phiền những thành viên tham gia, sử dụng những công cụ

tự viết Vấn đề này xuất hiện khá nhiều trên các phương tiện thông tin đại chúng gầnđây, có thể lấy ví dụ về vài sự cố các tài khoản mạng xã hội của những người nổi tiếng

bị hacker kiểm soát, những thông tin nhạy cảm được tung ra …

Một điểm nữa cần nói tới trong mặt hạn chế của mạng xã hội là việc tiêu tốn thời gian

sử dụng Việc tham gia một mạng xã hội, kiểm tra các thay đổi gần đây từ bè, cậpnhật những thay đổi, thông tin cho chính mình nhiều khi làm mất thời gian của ngườitham gia Tất nhiên điều này còn tùy thuộc vào cách từng người phân phối thời giancủa mình cho việc “online” trên các mạng xã hội mà họ tham gia Tuy vậy theo nhữngphân tích gần đây thì có tình trạng khá nhiều người trẻ bị hội chứng “nghiện” khi thamgia mạng xã hội Nếu tình trạng này xảy ra ở diện rộng thì sẽ có rất nhiều hiệu ứngkhông tốt kèm theo

Như vậy, cũng như những dịch vụ khác triển khai và khai thác trên nền Internet, mạng

xã hội cũng thể hiện được những ưu và nhược điểm nhất định Nhược điểm của mạng

xã hội phần lớn kế thừa từ những nhược điểm vốn có của các dịch vụ nền web, nhưngnhững ưu điểm của dịch vụ này lại mang tính chất đột phá so với các cách thức truyền

thông cộng tác truyền thống Như trong một cuốn sách với tựa đề Groundswell của

nhà xuất bản Forrester Research ra đời năm 2008, mạng xã hội và tác động của nó đã

được mô tả với thuật ngữ “groundswell”, tạm hiểu là: “một bước tiến tự nhiên của

loài người khi sử dụng các công cụ trên mạng để kết nối, tích lũy kiến thức, lấy những

gì họ cần – thông tin, hỗ trợ, các ý tưởng, các sản phẩm hay khả năng thương lượngvới cộng đồng”1 Và với những tiềm năng hiện tại mà mạng xã hội mang lại (xemBảng 1 2), việc tham gia, phân tích và tận dụng những điểm mạnh mà mạng xã hộimang lại là cần thiết

1

Trang 9

Bảng 1 2: Tiềm năng đối với mạng xã hội thông qua vài con số Error: Reference

source not found Thống kê nhỏ về mạng xã hội

- 80% số người sử dụng Internet đã từng dùng các tiện ích của các mạng xã hội khác nhau

- Hiện tồn tại khoảng 500 mạng xã hội trên thế giới và hàng nghìn trang web có chức năng như một mạng xã hội

- Dịch vụ mạng xã hội có tốc độ tăng trưởng trung bình 47% mỗi năm, cao hơn hầu hết các dịch vụ trên nền Internet khác (Facebook là 150% trong năm khủng hoảng 2008 Error: Reference source not found)

- Cứ 11 phút online trên mạng thì người sử dụng lại dành 1 phút cho blog và các mạng xã hội

- Người sử dụng ngày càng đa dạng về lứa tuổi

- Di động ngày càng đóng vai trò quan trọng 23% người sử dụng mạng xã hội ở Anh truy cập web thông qua điện thoại cầm tay

1.3 Một số bài toán đối với Mạng xã hội

Tiềm năng phát triển rất mạnh hiện nay đồng thời cũng đặt ra những bài toán xử lýthông tin trên mạng xã hội Các công nghệ tìm kiếm hiện tại nói chung vẫn chỉ dừnglại ở mức tìm kiếm nội dung trong các bài viết, tin nhắn được đăng tải trên các mạng

xã hội Trong khi nhu cầu tìm hiểu và phân tích thông tin còn cao và không chỉ ở khảnăng tìm kiếm nội dung thông thường, mà còn ở phương diện thu thập và phân tíchcác mối quan hệ, các đặc điểm Như vậy các lĩnh vực nghiên cứu dựa trên các mạng

xã hội hiện nay cần hơn một công cụ nào đó giúp cho phép thiết lập một sơ đồ quan hệ

và phân tích sơ đồ đó

Hiện tại cũng có một số phần mềm cho phép phân tích, xử lý các thông tin dựa trênquan hệ kiểu như trên Error: Reference source not found Tuy nhiên có thể nhận thấyrằng, hầu hết những công cụ đó cần phải có một cơ sở dữ liệu đầu vào để tạo ra đồ thị

quan hệ, thông thường là từ một kiểu file cơ sở dữ liệu như CSV, XML … từ đó mới

Trang 10

quan hệ giữa các nút hay các thuộc tính khác thường không được định nghĩa mà có thểnhờ một phần mềm khác, hay cũng có thể do người dùng trực tiếp đưa vào Cách thứcnày hạn chế ở điểm sẽ khó nắm bắt được các thay đổi trên mạng xã hội mang tính chất

“thời gian thực” (tiếng Anh: realtime).Với API của twitter mà trong bài thu hoạch nàytạo các bước thu thập dữ liệu từ một quan hệ để làm cơ sở cho tính toán các mối quan

hệ xã hội

Trang 11

CHƯƠNG 3: XÂY DỰNG MẠNG TRI THỨC CHO MẠNG XÃ HỘI

Về cơ bản, một mạng xã hội sẽ cho phép người dùng tạo ra cho mình một “profile”

Error: Reference source not found (tạm hiểu là một trang thông tin cá nhân) Ở trang

cá nhân đó, người dùng có khả năng tùy chỉnh về giao diện, các bài viết, các thànhphần theo sở thích cá nhân Họ cũng có thể đăng tải hình ảnh đại diện (tiếng Anh:avatar), hoặc tạo ra những album ảnh cá nhân để chia sẻ cùng mọi người Một cơ chế

quan trọng nữa của mỗi mạng xã hội là bè – friends Cơ chế kết trong các mạng xã

hội thường là khi muốn kết với ai đó, người dùng phải được người kia chấp nhận lời

mời Một vài mạng xã hội có một cơ chế khác là Favorites (tạm hiểu: các thông tin ưa

thích) giúp cho họ có thể theo dõi một số hoạt động của người khác mà không cầnphải có quan hệ bè với người kia Do vậy các mạng xã hội cũng phải cung cấp thêmcác tính năng cơ bản cho việc xác định quyền hạn đối với người xem, bè Cơ chế nàyđơn giản nhất là cho phép hay không cho phép những người chưa có kết nối bè xemcác thông tin có trên trang cá nhân, hay chặn một số người ác ý xuất hiện trên mạng

xã hội

Đó là cấu trúc cơ bản của một mạng xã hội, ngoài ra các mạng xã hội có thể cung cấpthêm các tính năng khác giúp làm cho người dùng thấy thoải mái nhất khi tham gia.Phổ biến trong các tính năng kiểu như vậy là khả năng tham gia mạng xã hội sử dụng

OpenID Error: Reference source not found, hay chia sẻ các video clips từ các mạng

xã hội khác (Youtube, Flickr …), và rất mới mẻ nhưng cũng không kém phần quantrọng là khả năng truy cập cho các thiết bị di động Số lượng người sử dụng các thiết

bị di động hỗ trợ khả năng duyệt web ngày càng tăng làm cho việc quan tâm tới khảnăng tương thích với các thiết bị di động vốn hạn chế hơn về tính năng trở nên cầnthiết hơn bao giờ hết

Trang 12

3.1 Mạng xã hội Twitter

Các mạng xã hội ở Việt Nam cũng đang ở giai đoạn phát triển khá mạnh Các nhàcung cấp dịch vụ đang đẩy mạnh việc tạo ra những mạng xã hội của riêng mình, mangphong cách thuần Việt hơn, hướng đến lớp người dùng trong nước Tuy vậy có mộtdịch vụ đã phát triển được khá lâu và hiện vẫn đang là mạng xã hội có số lượng người

dùng lớn nhất Việt Nam, đó là Twitter

Ra đời vào năm 2006 và mau chóng trở thành một trào lưu trong cộng đồng sử dụngTại Mỹ và lan sang cộng đồng sử dụng internet tai Việt Nam, Với các tính năng giúpchia sẻ thông tin khá thú vị, đồng thời rất dễ sử dụng, Twittergiúp cho mọi người đều

có thể đến với thế giới mạng xã hội một cách dễ dàng, từ giới trẻ năng động, cho tớicác bậc phụ huynh … Cùng với đó, cơ chế liên lạc rất mở rộng của Twitter cũng giúpcho mạng xã hội này thu hút thêm được một số lượng đông đảo những nhà nghiên cứulịch sử, chính trị, những ca sĩ, diễn viên nhằm mở rộng quan hệ với công chúng Mạng

xã hội này từ đó đã trở thành một sân chơi chung dành cho rất nhiều lớp người Việtđến từ nhiều ngành nghề khác nhau

Cũng như các mạng xã hội khác, Twitterđược tạo thành từ một mạng các cá thể đượcliên kết với nhau như một đồ thị vô hướng Như vậy, như đã đề cập ở trên, các công

cụ tìm kiếm hiện nay chưa thể làm việc với quan hệ đồ thị dạng này của các mạng xãhội, cho nên đây sẽ là một lĩnh vực cần và còn được khai thác trong nay mai Các APIcủa twiter trong khóa luận này sẽ nắm phần nào nhiệm vụ khai thác này

Từng trang cá nhân trong Twitter được phát triển như một trang thông tin cho một cánhân (hay một nhóm người, tùy vào mục đích sử dụng) Trong đó có các thành phần

cơ bản như blog (nhật ký ảo), friend list (danh sách bè), blast, list (danh sách sở thích), comment (bình luận), tag, sms (nhắn tin)…

Blog là thành phần trong một trang cá nhân Twitter Đây là nơi cho người dùng viết

lên những suy nghĩ, cảm xúc … về mọi thứ diễn ra xung quanh, nên nó còn được gọi

là nhật ký ảo Mỗi một bài viết như vậy còn được gọi là một entry bè của người viết

sẽ vào xem những bài viết như vậy, để lại những lời bình luận, đánh giá nếu muốn

Trang 13

Friend list chính là điểm cấu thành mạng xã hội Twitter Friend list chỉ ra mối quan

hệ giữa các cá thể trong mạng xã hội Twitter, ở đây là mối quan hệ bè Nhờ có danhsách bè này mà ta có thể biết được tất cả bè của một người Việc thăm danh sách bècủa một người để tìm ra bè của người đó, rồi cứ tiếp tục thăm dần dần tới nhữngngười đó để lại tiếp tục tìm ra bè của họ sẽ giúp ta lan tỏa dần trong đồ thị mạng xãhội Twitter Việc này không khác gì với việc làm sao để thăm tất cả các nút trong một

đồ thị vô hướng, vấn đề chỉ còn là thuật toán và cách thức tiến hành việc thăm sao chocông sức bỏ ra là nhỏ nhất

Blast cũng là một thành phần khá thú vị trong Twitter Blast có thể là một lời giới

thiệu, mẩu tin nhỏ, một đường siêu liên kết, hay đơn giản là suy nghĩ trong đầu ngườiviết tại thời điểm đó Blast được đặt ở vị trí đầu của trang cá nhân Twitter, điều nàygiúp cho blast trở thành thứ được để ý đầu tiên khi ghé thăm một trang cá nhân Nếumột trang cá nhân Twitterđược ví như một cuốn nhật ký, một cuốn sách thì có lẽ blast

sẽ đóng vai trò như lời mở đầu, lời đề tựa cho cuốn nhật ký, cho cuốn sách đó

Một thành phần khác trong Twittercũng rất thu hút đối với những người tham gia

mạng xã hội này là hệ thống các comment hay còn gọi là bình luận Với hệ thống này,

những người tham gia có thể trao đổi những dòng tin ngắn với nhau, về một chủ đểnào đó, về vấn đề trong bài viết của người viết … Với hệ thống này, những người cóthể thể hiện sự quan tâm đến nhau, nhờ đó duy trì mối quan hệ bè

Ngoài ra Twittercòn có các thành phần khác nhằm giúp người dùng tìm ra những

người có cùng sở thích với mình như Lists Hay Tag cloud giúp tạo ra các từ khóa

(tiếng Anh: keyword) nhằm hệ thống hóa các bài viết mà người dùng đã soạn

Với những đặc điểm như trên, Twitterđã và đang là dịch vụ mạng xã hội được sử dụngnhiều nhất, và có người dùng gắn bó nhất tại Việt Nam Điều đó lý giải được tại saongười dùng Việt Nam quyết bám trụ lại mạng xã hội này, thậm chí có những động tháiyêu cầu nhà cung cấp tiếp tục duy trì và phát triển dịch vụ này khi gần đây có nhiềuthông tin cho rằng mạng xã hội Twitterchuẩn bị đóng cửa Do vậy, trên thực tế, việcphân tích và tìm kiếm thông tin trên mạng xã hội này là rất đáng giá

Trang 14

3.2 Xây dựng mạng tri thức cho mạng xã hội Twitter

Để thực hiện được những bài toán đặt ra trên cơ sở quan hệ đồ thị của WAVE, cầnphải tạo ra được một đồ thị quan hệ trong WAVE, hay còn gọi là một KNOWLEGENETWORK – Mạng tri thức Đối với các bài toán phân tích mạng xã hội, cần phảithực thi việc tạo ra KNOWLEGE NETWORK tương ứng với đồ thị quan hệ trongmạng xã hội đó Tức là mỗi cá thể (mỗi cá nhân hiện diện trên mạng xã hội) sẽ tươngứng với một nút trong KNOWLEGE NETWORK, quan hệ giữa các cá thể là đườngliên kết giữa các nút trong KNOWLEGE NETWORK

3.3 API RESTful and OAuth

Năm 2010 được nhớ đến bởi một số giai đoạn chuyển đổi trong đó twitter đã lớn mạnh phát triển việc xác thực http cơ bản bằng oauth ,tài liệu hướng dẫn được cải thiện và các API ngày càng được phổ biến hơn và càng được phát triể mạnh hơn Các api trong phần này xoay quanh các api đồ thị nhận được bè và những người theo của một người sử dụng, các API để có được thông tin người dùng mở rộng(Tên, địa điểm, tweet mới nhất, vv) cho một danh sách các người sử dụng, và các API để nhận dữ liệu tweet Chúng ta đơn giản xây dựng yêu cầu trong cùng một cách thức mà URL được ráp lại với nhau trong tài liệu trực tuyến của Twitter Ví dụ, một yêu cầu từ các thiết bị đầu cuối thông tin người dùng lại trieves chỉ đơn giản là liên quan đến việc cử một yêu cầu người dùng hiển thị giá trị là 1 curlcommand, như sau:

$ curl 'http://api.twitter.com/1/users/show.json?screen_name=quang'

curl là một công cụ tiện dụng có thể được sử dụng để truyền dữ liệu tới / từ một máy chủ bằng cách sử dụng một loạt các giao thức, và nó đặc biệt hữu ích cho việc làm choHTTP yêu cầu từ một thiết bị đầu cuối Nó đi kèm tiêu chuẩn và thường là trong PATH trên hầu hết các hệ thống nix, nhưng người dùng Windows có thể cần phải tải

về và cấu hình nó User_ID có thể được chấp nhận thay vì Screen_name

Lấy thông tin mở rộng của twitter

import twitter

import json

Trang 15

screen_name = 'timoreilly'

t = twitter.Twitter(domain='api.twitter.com', api_version='1')

response = t.users.show(screen_name=screen_name)

print json.dumps(response, sort_keys=True, indent=4)

Vì vậy OAuth cung cấp một cách để cho phép một ứng dụng để truy cập dữ liệu đã được lưu trữ trong ứng dụng khác mà không cần phải chia sẻ tên người dùng và mật khẩu của IETF OAuth 2.0 Protocolspec là gần như không đáng sợ như nó có thể , và

sẽ mất một ít thời gian để lướt qua nó bởi vì OAuth ở khắp mọi nơi, đặc biệt là trong bối cảnh mạng xã hội

3.4 Machine Thu Thập dữ liệu

Về nguyên tắc, lấy dữ liệu Twitter là đơn giản: tạo một yêu cầu, lưu trữ các phản ứng,và lặp lại khi cần thiết Nhưng tất cả các loại công cụ thế giới thực và những pesky API tỷ lệ giới hạn nó không quákhó khăn để xử lý các vấn đề như vậy, miễn là làm một chút ve phía trước lập kế hoạch và dự đoánnhững điều có thể (và sẽ) đi sai

Trang 16

Khi thực hiện một chương trình trong thời gian dài điều này sẽ làm tốn nhiều tỉ lệ gới hạn.việc viết mã robust là đặc biệt quan trọng Ta cần phải nắm giữ các điều kiện đặc biệt có thể xảy ra để thực hiện cách khắc phục tình hình tốt nhất và sự kiện tốt nhất là không đủ lưu các trạng thái và bõ các chỉ dẫn làm thế nào để bỏ đi Nói cách khác, khiviết dữ liệu thu hoạch mã cho một nền tảng như Twitter, phải thừa nhận rằng nó sẽ ném bóng đường cong ở Có sẽ có điều kiện không điển hình sẽ phải xử lý, và chúng thường xuyên hơn mức hơn

ngoại lệ

Code phát triển là semi-rugged trong đó nó đề với những điều phổ biến nhất mà có thể đi sai và khuôn mẫu để các có thể dễ dàng mở rộng nó để xử lý mới trường hợp nếu và khi họ phát sinh Điều đó nói rằng, có hai lỗi HTTP cụ thể rằng đang rất có khả năng gặp phải khi thu hoạch một lượng khiêm tốn thậm chí dữ liệu twitter: một lỗi

401 (không có thẩm quyền) và một lỗi 503 (trên năng lực) xảy ra khi cố gắng truy cập vào dữ liệu mà người dùng đã bảo vệ, trong khi sau đó là về cơ bản không thể đoán trước

Bất cứ khi nào Twitter trả về lỗi HTTP, twittermodule trả một

TwitterHTTPErrorexception, mà có thể được xử lý như thế nào khác Python

exception, với try/exceptblock Ví dụ 4-2illustrates một khối tối thiểu ID một số người ID và xử lý một số các điều kiện đặc biệt phổ biến hơn

Sử dụng OAuth để xác thực và lấy một số dữ liệu friend

Trang 18

if e.e.code == 401:

print 'Encountered 401 Error (Not Authorized)'

print 'User %s is protecting their tweets' % (SCREEN_NAME, )

now = time.time() # UTC

when_rate_limit_resets = status['reset_time_in_seconds'] # UTC sleep_time = when_rate_limit_resets - now

print 'Rate limit reached Trying again in %i seconds' % (sleep_time, )

Trang 19

3.5 Một cấu trúc dữ liệu server

Như chúng ta đã đã quan sát, lập kế hoạch trước quan trọng là khi muốn thực hiện một

có khả năng dài chạy chương trình để xuống dữ liệu từ các trang Web, bởi vì rất nhiềucủa

những thứ có thể đi sai Nhưng những gì làm với tất cả các dữ liệu đó một khi nhận được nó? có thể ban đầu bị cám dỗ để chỉ cần lưu nó vào đĩa Trong tình hình chỉ xemxét, mà có thể dẫn đến một cấu trúc thư mục tương tự như sau

rằng duy trì một đăng ký của một số loại có giữ theo dõi của tất cả các màn hình tên,

thời gian cần thiết để tạo ra một thư mục listing (trong các trường hợp mà cần một)

Trang 20

triệu tập tin có thể không mang lại một hồ sơ hiệu suất mong muốn Nếu các ứng dụng

có sử dụng các dữ liệu sau đó trở thành luồng, có thể kết thúc với nhiều nhà văn cần

để truy cập vào 92 | Chương 4: Twitter: bè, những người theo và Setwise hoạt động cùng một tập tin cùng một lúc, vì vậy sẽ phải bắt đầu giao dịch với tập tin khóa và như vậy

những điều Mà có lẽ không phải là một nơi muốn đi Tất cả chúng ta thực sự cần trong trường hợp này là một hệ thống giúp trivially dễ dàng lưu trữ cơ bản chìa khóa/cặp giá trị và một đơn giản chính vi mã hóa lược đồ-một cái gì đó như một đĩa sao từ điển sẽ là một khởi đầu tốt Điều này

tiếp theo đoạn chứng tỏ xây dựng một khóa bởi concatenating ID, de-limiter, và dữ liệu cấu trúc tên người dùng

s = {}

s["screen_name1$friend_ids"] = [1,2,3, ]

s["screen_name1$friend_ids"] # returns [1,2,3, ]

Nhưng nó sẽ không được tốt nếu bản đồ tự động có thể tính toán thiết lập hoạt động

do đó chỉ có thể nói với nó để làm một cái gì đó như

s.intersection("screen_name1$friend_ids", "screen_name1$follower_ids")

để tự động tính toán " bè lẫn nhau" cho một Twitterer (ví dụ, để tìm ra đó của bè của

họ đang theo dõi chúng trở lại)? Vâng, đó là một dự án mã nguồn mở được gọi là Redisthat cung cấp exactlythat loại khả năng Redis là tầm thường để cài đặt,

blazingly nhanh (viết bằng C), quy mô tốt,tích cực được duy trì, và có một khách hàngPython tuyệt vời với đi kèm với tài liệu hướng dẫn có sẵn Tham gia Redis cho một ổ đĩa thử nghiệm đơn giản như cài đặt itand bắt đầu lên máy chủ.(Windows người dùng

có thể lưu bản thân một số đau đầu bởi grabbing một binarythat của bảo trì bởi

servicestack.net.) Sau đó, chỉ cần chạy easy_install redisto có được một khách hàng Python đẹp mà cung cấp truy cập tầm thường để mọi điều nó đã cung cấp Ví dụ, đoạntrước đó dịch để Redis sau

Code:

Ngày đăng: 10/04/2015, 13:21

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w