TPC-H bao gồm CSDL mẫu có thể thay đổi về số lượng dữ liệu và một bộ các câu truy vấn mẫu. Các truy vấn mẫu của TPC-H phù hợp với nhiều ngữ cảnh khác nhau. TPC-H hỗ trợ kiểm tra lượng dữ liệu lớn, thực hiện các truy vấn với mức độ phức tạp cao và phản ánh nhiều khía cạnh về khả năng của hệ thống để xử lý các truy vấn. Các khía cạnh này bao gồm kích thước CSDL được chọn dựa vào các truy vấn thực thi, sức mạnh xử lý truy vấn khi các truy vấn được gửi bởi một luồng duy nhất và thông lượng truy vấn khi các truy vấn được gửi bởi nhiều người dùng đồng thời [75]. TPC-H được sử dụng như là dữ liệu chuẩn để đánh giá trong các nghiên cứu đề xuất trước
đây về CSDL nói chung và ODBS nói riêng. CSDL của TPC-H có 8 bảng và các cột trong bảng tương ứng như sau:
1. nation(n_nationkey, n_name, n_regionkey, n_comment); 2. region(r_regionkey, r_name, r_comment);
3. part(p_partkey, p_name, p_mfgr, p_brand, p_type, p_size, p_container, p_retailprice, p_comment);
4. supplier(s_suppkey, s_name, s_address, s_nationkey, s_phone, s_acctbal, s_comment);
5. partsupp(ps_partkey, ps_suppkey, ps_availqty, ps_supplycost, ps_comment);
6. customer(c_custkey, c_name, c_address, c_nationkey, c_phone, c_acctbal, c_mktsegment, c_comment);
7. orders(o_orderkey, o_custkey, o_orderstatus, o_totalprice,
o_orderdate, o_orderpriority, o_clerk,o_shippriority, o_comment); 8. lineitem(l_orderkey, l_partkey, l_suppkey, l_linenumber, l_quantity,
l_extendedprice, l_discount, l_tax, l_returnflag, l_linestatus, l_shipdate, l_commitdate, l_receiptdate, l_shipinstruct, l_shipmode, l_comment); Muốn tạo dữ liệu mẫu của TPC-H thì ta sử dụng lệnh DBGEN. Theo chế độ mặc định, DBGEN sẽ tạo 8 tệp tin chứa dữ liệu tương ứng với 8 bảng được định nghĩa trong lược đồ CSDL TPC-H. Các tệp tin sẽ được tạo trong thư mục hiện tại và có tên là <tên bảng>.tbl. Ví dụ: Tệp region.tbl sẽ chứa dữ liệu cho bảng region. Một số cú pháp mẫu sử dụng DBGEN để tạo dữ liệu:
❼ Tạo 8 bảng dữ liệu mẫu với tỉ lệ là 1: dbgen -s 1. Tỉ lệ có thể thay đổi là: 1, 10, 100, 300, 1000, 3000, 10000, 30000, 100000.
❼ Chỉ tạo bảng lineitem, cho CSDL tỷ lệ 10, và ghi đè lên tệp tin nếu có: dbgen -s 10 -f -T L.
Bảng 1.1: Số lượng bản ghi của các bảng trong TPC-H với dbgen -s 1Tên bảng nation region part supplier partsupp customer orders lineitem Tên bảng nation region part supplier partsupp customer orders lineitem
Số bản ghi 25 5 200000 10000 800000 150000 1500000 6001215