Mẫu dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng cơ sở dữ liệu song song trong xử lý dữ liệu cuộc gọi (Trang 27 - 31)

Chƣơng 3 : Thực nghiệm và kết quả

3.3 Mẫu dữ liệu

Dữ liệu được sử dụng trong quá trình thực nghiệm do Telecom Italia cung cấp theo link sau: https://dandelion.eu/datamine/open-big-data/.

Cơ sở dữ liệu bao gồm dữ liệu về các mặt truyền thông, khí hậu, môi trường của thành phố Milano. Danh sách của các bảng cùng với mô tả sơ bộ như bảng sau:

1 Milano Grid Dữ liệu về vị trí các vùng được biểu diễn dưới dạng lưới của thành phố Milano.

2 Telecommunications - SMS, Call,

Internet - MI

Dữ liệu về tin nhắn, thoại và lưu lượng sử dụng internet

3 Telecommunications - MI to

Provinces

Dữ liệu truyền thông giữa thành phố Milano đến các tỉnh khác.

4 Telecommunications - MI to MI Dữ liệu truyền thông trong nội bộ thành phố Milano.

5 Milano Weather Station Data Dữ liệu thời tiết thành phố Milano. 6 Precipitation - Milano Dữ liệu lượng mưa của thành phố

Milano.

7 Air Quality - MI Dữ liệu về mức độ ô nhiễm không khí của thành phố Milano.

8 MilanoToday Dữ liệu về số lượng bài báo xuất bản

trên tạp chí MilanoToday.

9 Social Pulse - Milano Dữ liệu về mức độ sử dụng mạng xã hội của thành phố Milano.

Bảng 3.1: Danh sách dữ liệu do Telecom Italia cung cấp

Chi tiết bảng Telecommunications - SMS, Call, Internet - MI

- Tập dữ liệu cung cấp thông tin về hoạt động truyền thông của thành phố Milano. - Tập dữ liệu là kết quả của sự tính toán với dữ liệu chi tiết của cuộc gọi (call detail

records - CDRs) được tạo ra bởi các nhà mạng di động ở thành phố Milano. Dữ liệu chi tiết các cuộc gọi của người dùng có mục đích tính cước và quản lý mạng. Có rất nhiều kiểu dữ liệu chi tiết cuộc gọi nhung tịu chung lại có các hoạt động sau sẽ tạo ra được tập dữ liệu:

o Nhận được SMS: một CDRs được tạo ra mỗi lần người dùng nhận được một SMS

o Gửi đi SMS: một CDR được tạo ra khi mỗi người sử dụng gửi một tin nhắn SMS

o Nhận được cuộc gọi: một CDR được tạo ra mỗi lần người dùng nhận được một cuộc gọi

o Thực hiện cuộc gọi: CDR được tạo ra mỗi khi người dùng thực hiện một cuộc gọi.

o Internet: CDR được tạo ra mỗi khi có các hành động sau  Người dùng bắt đầu một kết nối internet.

 Một người dùng kết thúc một kết nối internet.

 Trong cùng một kết nối một trong các mức sau đây đã đạt được  15 phút tính từ lần tạo ra CDR cuối cùng

 5 MB tính từ lần tạo ra CDR cuối cùng.

- Thông qua cách tập hợp các dữ liệu như đã trình bày, chúng ta thu được một tập dữ liệu cung cấp các thông tin về SMSs, cuộc gọi và hoạt động kết nối internet. Những dữ liệu này đo lường sự tương tác của người dùng với các nhà mạng di động. Một ví dụ ở mức độ cao hơn là số lượng tin nhắn SMS được gửi bởi người dùng. Cao hơn nữa là hoạt động gửi tin nhắn SMS của người dùng. Các phép đo về cuộc gọi và tin nhắn SMS có quy mô tương tự nhau (do đó có thể so sánh), còn về lượng truy cập internet thì không.

- Dữ liệu được tập hợp theo hai cách sau

o Tập hợp theo không gian: Tập hợp các dữ liệu khác nhau trong mỗi một ô vuông trên bản đồ của thành phố Milano.

o Tập hợp theo thời gian: Tập hợp các dữ liệu được sinh ra trong khoảng thời gian 10 phút.

- Mô tả chi tiết Table

STT Tên Mô tả Kiểu dữ liệu

1 SQUARE_ID ID của hình vuông

là một phần bản đồ thành phố Milano

Numeric

2 TIME_INTERVAL Bắt đầu của

khoảng thời gian lấy dữ liệu, kết thúc của quá trình lấy dữ liệu là công thêm 10 phút vào giá trị này.

Numeric

3 COUNTRY_CODE Mã code điện

thoại của mỗi vùng

và trong khoảng thời gian tương ứng được gửi từ mã vùng

COUNTRY_COD E.

5 SMS_OUT_ACTIVITY Số lượng SMS gửi đi trong vùng QUARE_ID và trong khoảng thời gian tương ứng được gửi từ mã vùng COUNTRY_COD E. Numeric

6 CALL_IN_ACTIVITY Số lượng cuộc gọi nhận được trong vùng QUARE_ID và trong khoảng thời gian tương ứng được gửi từ mã vùng

COUNTRY_COD E.

Numeric

7 CALL_OUT_ACTIVITY Số lượng cuộc gọi gọi đi trong vùng QUARE_ID và trong khoảng thời gian tương ứng được gửi từ mã vùng COUNTRY_COD E. Numeric 8 INTERNET_TRAFFIC_ACTI

VITY Lưu lượng sử dụng internet trong vùng QUARE_ID và trong khoảng thời gian tương ứng

được sử dụng bởi người dùng thuộc COUNTRY_COD E.

Bảng 3.2: mô tả chi tiết các trường trong bảng

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng cơ sở dữ liệu song song trong xử lý dữ liệu cuộc gọi (Trang 27 - 31)

Tải bản đầy đủ (PDF)

(38 trang)