Lưu trữ đến Neo4j

Một phần của tài liệu Nhận Dạng Key Player trên Mạng Xã Hội Twitter (Trang 31)

Thông qua các API trên ta kết nối tới Twitter và thu thập dữ liệu người dùng. Từ đó ta lưu trữ dữ liệu này xuống graph database neo4j.

Node: User với các thuộc tính sau

Id id của user

Name tên user

Screen_name tên truy cập Twitter của user Description mô tả bản thân

Profile_image_url Đường dẫn ảnh đại diện của user Followers các follower của user

View_Status trạng thái truy cập đến user

Is_Vietnamese có phải là người Việt Nam hay không Last_updated thời gian lần cuối cập nhật thông tin user

Với mối quan hệ giữa các user là “IS_FOLLOWED”

1.3. Tìm Key Player

Với cơ sở dữ liệu trên, ta có thể tìm ra được các key player theo các độ đo:

CD(v) là độ đo degree centrality của nút (đỉnh) v.

deg(v) là số cạnh liên thuộc với nút v

n là số cạnh

Betweenness Centrality

CB(v) là độ đo betweenness centrality của nút (đỉnh) v. s,v,t (tập đỉnh của đồ thị)

σ st = là tổng shortest path từ đỉnh s đến đỉnh t của toàn network σ st(v) = tổng shortest path từ đỉnh s đến đỉnh t đi qua đỉnh v

Closeness Centrality

CC(v) là độ đo closeness centrality của nút (đỉnh) v.

dG (v,t) là số bước đi nhỏ nhất từ đỉnh v tới đỉnh t.

n là số đỉnh

2. Hướng dẫn sử dụng

2.1. Yêu cầu

Chương trình được viết trên máy Pentium® Dual-Core CPU 2.27 GHz, RAM 2GB, OS WIN 7 Professional 64bit.

Ngôn ngữ để viết chương trình là JAVA, do đó máy phải cài JRE/JDK7u4 hoặc phiên bản cao hơn, có thể download tại đây

(http://www.oracle.com/technetwork/java/javase/downloads/jre-7u4-

Máy phải kết nối Internet.

2.2. Thực thi

Đọc file READ_ME.txt trong thư mục Program để chạy chương trình. Giao diện chương trình được chia thành 3 phần chính:

- Connect to Graph Database - Collect Data from Twitter - Find Key Players

Giao diện ban đầu

Đầu tiên, ta phải kết nối tới neo4j, bằng cách click vào button Connect để chọn đường dẫn chứa folder cơ sở dữ liệu (là thư mục TwitterToNeo4jDB chứa kèm theo chương trình)

Chọn đường dẫn tới cơ sở dữ liệu (TwitterToNeo4jDB)

Sau khi kết nối thành công tới cơ sở dữ liệu, chương trình sẽ thông báo “Connected successfully …”

Sau khi kết nối thành công, ta có thể start Web Administrator (là một chương trình để giám sát neo4j, quản lý và tương tác với dữ liệu) bằng cách click vào button Start Web Admin.

Khi khởi động thành công, chương trình sẽ hiển thị địa chỉ URL của Web Admin (mặc định là http://localhost:7474/)

Khởi động Web Admin thành công

Chương trình sẽ tự động mở Web Admin với trình duyệt mặc định.

Một vài hình dưới đây minh họa cho các thao tác, chức năng của Web Admin

Các thuộc tính của node 1

Mối quan hệ của nút 2

http://docs.neo4j.org/chunked/1.8.M06/webadmin-console.html

Giao diện thông tin của Server

Một chức năng được quan tâm khác là thu thập dữ liệu từ Twitter.

Click vào button Execute trong phần “Collect Data from Twitter” để thực hiện việc thu thập dữ liệu

Click button Execute để thực hiện thu thập dữ liệu Trong khung Process Tracker là quá trình thu thập dữ liệu.

Trong khung User is being processed là thông tin của user đang được xử lý, gồm có id, name, screen name, description, avatar, …

Đang thực hiện thu thập dữ liệu từ Twitter

Chú ý: API của Twitter chỉ cho phép 150 request trong 1 giờ. Do đó, nếu hết số request cho phép trong 1 giờ thì chương trình sẽ thông báo lỗi kết nối 400 và thời gian chương trình sẽ tự động kết nối lại với Twitter để tiếp tục thực hiện việc thu thập dữ liệu

Hết số request trong 1 giờ

Để tìm ra các key player, click vào button Execute trong phần Find Key Players để thực hiện quá trình tìm key player.

Graph database vẫn và đang trên đà phát triển, ứng dụng của graph

database là hết sức phong phú, phù hợp với cách (lối) suy nghĩ của con người. Chương trình đã thực hiện được mục tiêu đề ra là thu thập dữ liệu người dùng từ Twitter để tìm ra key player, với phạm vi là những người Việt Nam. Tuy nhiên, thuật toán nhận dạng người Việt còn chưa chính xác lắm, một phần thời gian hạn hẹp và một phần phụ thuộc vào API phát hiện ngôn ngữ tại

http://code.google.com/p/language-detection/. Ngoài ra, với việc giới hạn 150

request 1 giờ của API Twitter thì để giải quyết vấn đề này, ta có thể dựa vào Proxy để thay đổi IP request khi bị giới hạn như “hotspot shield”, “ip changer” … từ đó ta có thể thu thập dữ liệu liên tục mà không bị giới hạn.

Đối với việc key player, chương trình sẽ đánh chỉ mục đường đi ngắn nhất để nâng cao hiệu quả cho việc tìm key player. Ngoài ra, có những key player khác nhau trên những lĩnh vực khác nhau. Ví dụ, đối với lĩnh vực “điện thoại” thì mong muốn là tìm ra những người có liên quan nhiều về điện thoại. Do đó, chương trình có thể mở rộng để tìm key player dựa trên hành vi, nội dung giao tiếp trên mạng xã hội (với Twitter là các tweet) hoặc dựa trên khu vực địa lý, … để tìm key player phù hợp với mục đích nhất.

Một phần của tài liệu Nhận Dạng Key Player trên Mạng Xã Hội Twitter (Trang 31)

Tải bản đầy đủ (DOCX)

(42 trang)
w