29
2.2 Công cụ sinh dữ liệu mô phỏng
Trong q trình thực hiện cần nguồn dữ liệu trích xuất tự động các thực thể quan hệ, nhưng khơng có sẵn; do u cầu đặt ra hệ thống cần phải có khả năng lưu trữ số lượng lớn dữ liệu thực thể quan hệ phục vụ việc đánh giá mơ hình và kiểm thử hiệu năng truy vấn, cũng như việc triển khai các dịch vụ. Dạng dữ liệu tiêu chuẩn để đưa vào hệ thống lưu trữ sử dụng được thì yêu cầu dữ liệu đã xử lý từ dạng phi cấu trúc, thơng qua thuật tốn (sử dụng giải pháp tiềm năng cho vấn đề này là ánh xạ văn bản thơ khơng có cấu trúc của các bài báo đã xuất bản vào các mục nhập cơ sở dữ liệu có cấu trúc cho phép truy vấn theo chương trình [6]), thành dạng dữ liệu cấu trúc. Để đáp ứng yêu cầu này cần xây dựng công cụ sinh dữ liệu mơ phỏng đủ lớn và có độ tương đồng với dữ liệu thực tế từ các bài báo mạng cho mơ hình đã chọn.
Đầu vào của cơng cụ là một file cấu hình json, có nội dung là một đối tượng gồm 2 thuộc tính: entities – dùng để xác định số lượng thực thể cần khởi tạo có key là tên nhãn ứng với từng loại thực thể muốn sinh và value là số lượng thực thể cho mỗi loại;
relationships – với fact – là thuộc tính có giá trị là một mảng, mỗi phần tử là một đối
tượng mô tả một loại Fact bao gồm: type - là tên của relationships (quy ước viết hoa toàn bộ tên relationships), subject - chỉ ra nhãn của chủ thể trong relationships; object - chỉ ra nhãn của đối tượng trong relationships và amount - chỉ ra số lượng relationships loại này. Trong file cấu hình được biểu diễn ở Hình 2.6 bên dưới gồm ba loại thực thể là
Person, Location và Country với số lượng mỗi loại tương ứng là 3, 1, 1, và trong quan hệ
của node-fact là MEET, hai node Person và số lượng là 1.