Thông thường trong hệ thống data warehouse, các bảng lưu dữ liệu có kích thước rất lớn. Bảng sự kiện thường chứa đến hàng triệu dòng, các bảng chiều cũng chứa một lượng dữ liệu khổng lồ. Các bảng có kích thước lớn như vậy sẽ ảnh hưởng nhiều đến
hiệu năng của hệ thống. Việc xây dựng chỉ mục cho bảng cũng tiêu tốn thời gian đến hàng giờ. Ngoài ra, các công việc liên quan đến quản trị hệ thống như sao lưu và khôi phục cũng tốn rất nhiều thời gian.
Phân loại dữ liệu (data partitioning) là việc chia dữ liệu bảng và các chỉ mục liên quan đến nó ra thành các phần nhỏ hơn có thể quản lý được. Các hệ quản trị cơ sở hiện nay đều hỗ trợ kỹ thuật này. Việc phân chia có thể được định nghĩa ra khi bảng được tạo, mỗi phân vùng tạo ra sẽ trở thành một đối tượng độc lập. Nếu kích thước của các phân vùng tăng nên thì có thể tiếp tục phân chia các phân vùng đó. Các phân vùng này thường được dàn trải trên các đĩa để làm tăng hiệu năng tối ưu cho hệ thống. Mỗi phân vùng mặcdù có các thuộc tính riêng biệt nhưng tất cả các phân vùng đều có cấu trúc logic giống hệt nhau.
Có 2 tiêu chuẩn phân chia bảng thành các phân vùng nhở hơn là phân chia theo chiều ngang hoặc phân chia theo chiều dọc. Trong cách phân chia theo chiều dọc, bảng được phân tách ra các phân vùng bằng cách nhóm các cột lại với nhau. Mỗi phân vùng đều có chứa số lượng các dòng bằng nhau. Phân chia theo chiều ngang là kỹ thuật đối ngược lại bằng cách nhóm các dòng cùng với nhau. Trong môi trường data warehouse, việc phân chia theo chiều ngang thường dựa theo tiêu chuẩn ngày tháng. Hệ thống có thể phân chia dựa trên các sự kiện hoặc các thời điểm lịch xử. Việc phân chia theo chiều ngang dữ liệu bảng sự kiện thường đem lại những lợi ích to lớn về mặt hiệu năng.
Phân loại dữ liệu là một kỹ thuật phù hợp cho việc quản lý lưu trữ và cải tiến hiệu năng trong môi trường data warehouse. Sau đây là một số tóm tắt về những lợi ích thu được.
Ứng dụng có thể thực hiện truy vấn một cách trong suốt tới các phân vùng riêng biệt. Truy vấn trong ứng dụng có thể thực hiện nhanh hơn khi truy cập trên vùng dữ liệu nhỏ hơn
Một phân vùng nào đó có thể đưa về trạng thái offline để bảo trì cho hệ thống Việc xây dựng hay tái tạo lại chỉ mục sẽ thực hiện nhanh hơn
Tải dữ liệu vào data warehouse cũng dễ dàng hơn và dễ quản lý hơn
Nếu có sự cố lỗi đĩa xảy ra thì nó cũng chỉ ảnh hưởng đến một phân vùng riêng biệt nào đó. Việc sao lưu và phục hồi dữ liệu trên phân vùng đó cũng đơn giản và nhanh hơn
Thông lượng dữ liệu vào, ra được giảm tải bởi ứng dụng thao tác với dữ liệu trên các phân vùng khác nhau nằm trên các ổ đĩa khác nhau