Chƣơng 3 : Thực nghiệm và kết quả
3.3 Mẫu dữ liệu
Dữ liệu được sử dụng trong quá trình thực nghiệm do Telecom Italia cung cấp theo link sau: https://dandelion.eu/datamine/open-big-data/.
Cơ sở dữ liệu bao gồm dữ liệu về các mặt truyền thông, khí hậu, môi trường của thành phố Milano. Danh sách của các bảng cùng với mô tả sơ bộ như bảng sau:
1 Milano Grid Dữ liệu về vị trí các vùng được biểu diễn dưới dạng lưới của thành phố Milano.
2 Telecommunications - SMS, Call,
Internet - MI
Dữ liệu về tin nhắn, thoại và lưu lượng sử dụng internet
3 Telecommunications - MI to
Provinces
Dữ liệu truyền thông giữa thành phố Milano đến các tỉnh khác.
4 Telecommunications - MI to MI Dữ liệu truyền thông trong nội bộ thành phố Milano.
5 Milano Weather Station Data Dữ liệu thời tiết thành phố Milano. 6 Precipitation - Milano Dữ liệu lượng mưa của thành phố
Milano.
7 Air Quality - MI Dữ liệu về mức độ ô nhiễm không khí của thành phố Milano.
8 MilanoToday Dữ liệu về số lượng bài báo xuất bản
trên tạp chí MilanoToday.
9 Social Pulse - Milano Dữ liệu về mức độ sử dụng mạng xã hội của thành phố Milano.
Bảng 3.1: Danh sách dữ liệu do Telecom Italia cung cấp
Chi tiết bảng Telecommunications - SMS, Call, Internet - MI
- Tập dữ liệu cung cấp thông tin về hoạt động truyền thông của thành phố Milano. - Tập dữ liệu là kết quả của sự tính toán với dữ liệu chi tiết của cuộc gọi (call detail
records - CDRs) được tạo ra bởi các nhà mạng di động ở thành phố Milano. Dữ liệu chi tiết các cuộc gọi của người dùng có mục đích tính cước và quản lý mạng. Có rất nhiều kiểu dữ liệu chi tiết cuộc gọi nhung tịu chung lại có các hoạt động sau sẽ tạo ra được tập dữ liệu:
o Nhận được SMS: một CDRs được tạo ra mỗi lần người dùng nhận được một SMS
o Gửi đi SMS: một CDR được tạo ra khi mỗi người sử dụng gửi một tin nhắn SMS
o Nhận được cuộc gọi: một CDR được tạo ra mỗi lần người dùng nhận được một cuộc gọi
o Thực hiện cuộc gọi: CDR được tạo ra mỗi khi người dùng thực hiện một cuộc gọi.
o Internet: CDR được tạo ra mỗi khi có các hành động sau Người dùng bắt đầu một kết nối internet.
Một người dùng kết thúc một kết nối internet.
Trong cùng một kết nối một trong các mức sau đây đã đạt được 15 phút tính từ lần tạo ra CDR cuối cùng
5 MB tính từ lần tạo ra CDR cuối cùng.
- Thông qua cách tập hợp các dữ liệu như đã trình bày, chúng ta thu được một tập dữ liệu cung cấp các thông tin về SMSs, cuộc gọi và hoạt động kết nối internet. Những dữ liệu này đo lường sự tương tác của người dùng với các nhà mạng di động. Một ví dụ ở mức độ cao hơn là số lượng tin nhắn SMS được gửi bởi người dùng. Cao hơn nữa là hoạt động gửi tin nhắn SMS của người dùng. Các phép đo về cuộc gọi và tin nhắn SMS có quy mô tương tự nhau (do đó có thể so sánh), còn về lượng truy cập internet thì không.
- Dữ liệu được tập hợp theo hai cách sau
o Tập hợp theo không gian: Tập hợp các dữ liệu khác nhau trong mỗi một ô vuông trên bản đồ của thành phố Milano.
o Tập hợp theo thời gian: Tập hợp các dữ liệu được sinh ra trong khoảng thời gian 10 phút.
- Mô tả chi tiết Table
STT Tên Mô tả Kiểu dữ liệu
1 SQUARE_ID ID của hình vuông
là một phần bản đồ thành phố Milano
Numeric
2 TIME_INTERVAL Bắt đầu của
khoảng thời gian lấy dữ liệu, kết thúc của quá trình lấy dữ liệu là công thêm 10 phút vào giá trị này.
Numeric
3 COUNTRY_CODE Mã code điện
thoại của mỗi vùng
và trong khoảng thời gian tương ứng được gửi từ mã vùng
COUNTRY_COD E.
5 SMS_OUT_ACTIVITY Số lượng SMS gửi đi trong vùng QUARE_ID và trong khoảng thời gian tương ứng được gửi từ mã vùng COUNTRY_COD E. Numeric
6 CALL_IN_ACTIVITY Số lượng cuộc gọi nhận được trong vùng QUARE_ID và trong khoảng thời gian tương ứng được gửi từ mã vùng
COUNTRY_COD E.
Numeric
7 CALL_OUT_ACTIVITY Số lượng cuộc gọi gọi đi trong vùng QUARE_ID và trong khoảng thời gian tương ứng được gửi từ mã vùng COUNTRY_COD E. Numeric 8 INTERNET_TRAFFIC_ACTI
VITY Lưu lượng sử dụng internet trong vùng QUARE_ID và trong khoảng thời gian tương ứng
được sử dụng bởi người dùng thuộc COUNTRY_COD E.
Bảng 3.2: mô tả chi tiết các trường trong bảng