Đặc trưng kho dữ liệu

Một phần của tài liệu Xây dựng kho dữ liệu nâng cao hiệu quả báo cáo phân tích thống kê cho phân hệ mua hàng bán hàng của hệ thống ERP,Khóa luận tốt nghiệp (Trang 33 - 36)

Data warehouse gồm 4 đặc trưng cơ bản (William H. Inmon, 2005) sau:

2.1.2.1 Hướng chủ đề

Hướng chủ đề trong kho dữ liệu là tập trung vào nhu cầu phân tích các lĩnh vực khác nhau trong một tổ chức. Các lĩnh vực này khác nhau tùy thuộc vào loại hình hoạt động kinh doanh được thực hiện bởi tổ chức. Ví dụ, trong trường hợp của một công ty bán lẻ, phân tích có thể tập trung vào các chủ đề như: bán hàng, mua hàng hoặc quản lý hàng tồn kho. Ngược lại, đối với cơ sở dữ liệu hoạt động nghiệp vụ thì trọng tâm lại là các chức năng cụ thể mà các ứng dụng phải thực hiện, ví dụ như: hoạt động đăng ký mua sản phẩm, xử lý đơn hàng bán hoặc bổ sung hàng tồn kho. Do đó, kho dữ liệu sau khi loại bỏ các dữ liệu không có ý nghĩa trong quá trình ra quyết định, sẽ cung cấp khung nhìn đơn giản và ngắn gọn về các đề tài thuộc chủ đề cụ thể.

2.1.2.2 Tích hợp

Tích hợp có nghĩa là dữ liệu thu được từ hoạt động hệ thống và các hệ thống bên ngoài khác phải được kết nối với nhau, như các cơ sở dữ liệu ở các phân hệ khác nhau, các file excel, các flat file, các bản ghi giao dịch trực tuyến,... Bên cạnh

17

Nguyễn Thị Ảnh - K19HTTTB

2.1.2.3 Không thay đổi

Kho dữ liệu là lưu trữ vật lý riêng biệt các dữ liệu được chuyển từ môi trường

tác nghiệp sang. Đặc trưng không thay đổi có nghĩa là độ bền của dữ liệu được đảm bảo bằng cách dữ liệu đã được cập nhật vào trong kho rồi thì không được thay đổi. Và để đảm bảo tính thống nhất dữ liệu theo thời gian thì cần hạn chế tối đa việc sửa đổi hay xóa dữ liệu. Vì vậy, dữ liệu trong data warehouse là dữ liệu chỉ đọc và chỉ

Khóa luận tốt nghiệp

đó, cần giải quyết các xung đột khác nhau giữa tên trường dữ liệu (tên trường giống nhau nhưng dữ liệu khác nhau), giải quyết các sai khác nhau về ý nghĩa dữ liệu (cùng trường giống nhau nhưng dữ liệu hiển thị khác nhau), định dạng dữ liệu (tên và ý nghĩa giống nhau nhưng kiểu dữ liệu khác nhau). Ví dụ như sự biểu diễn giới tính của khách hàng ở mỗi chi nhánh cùng công ty có sự khác nhau, trong khi có nơi dùng giá trị “0” và “1” còn nơi khác lại lưu giá trị “nam” và “nữ”.

Do vậy, trước khi dữ liệu từ các nguồn khác nhau có thể được lưu trữ hữu ích trong kho dữ liệu, cần phải loại bỏ sự không nhất quán trong dữ liệu. Người thiết kế cần phải chuẩn hóa các yếu tố dữ liệu khác nhau và đảm bảo ý nghĩa của tên dữ liệu trong mỗi ứng dụng nguồn. Trước khi di chuyển dữ liệu vào kho dữ liệu, cần thực hiện quá trình chuyển đổi, hợp nhất và tích hợp các dữ liệu nguồn.

2.1.2.1 Thời gian

Đặc trưng thời gian của kho dữ liệu là sự phản ánh những thông tin thay đổi của tổ chức kinh doanh theo thời gian. Khác với hệ thống xử lý dữ liệu tác nghiệp hàng ngày, dữ liệu được lưu trữ chứa các giá trị hiện tại. Trong hệ thống các khoản phải thu, số dư là số dư chưa thanh toán hiện tại trong tài khoản khách hàng. Còn dữ liệu trong kho dữ liệu có ý nghĩa để phân tích và ra quyết định. Nếu người dùng cần phân tích hoạt động mua hàng của một khách hàng cụ thể, người dùng cần dữ liệu không chỉ về giao dịch mua hiện tại mà còn về các giao dịch mua trước đây. Khi người dùng muốn tìm hiểu lý do giảm doanh số bán hàng ở khu vực phía bắc, người dùng cần tất cả dữ liệu bán hàng cho bộ phận đó trong một khoảng thời gian kéo dài.

Kho dữ liệu sẽ cung cấp đầy đủ thông tin theo yếu tố lịch sử (như 5 hay 10 năm quá khứ). Kho dữ liệu gồm nhiều bản ghi khác nhau, phản ánh những khung nhìn trong khoảng thời gian khác nhau. Các thay đổi đối với dữ liệu được theo dõi và ghi lại để nếu cần, các báo cáo có thể được tạo để hiển thị các thay đổi theo thời gian. Dữ liệu của cơ sở dữ liệu tác nghiệp sau khoảng thời gian nhất định (được quy định do người thiết kế), thì cũng sẽ thành dữ liệu lịch sử và được lưu trong data warehouse.

Bản chất biến đổi theo thời gian của dữ liệu trong kho dữ liệu sẽ cho phép phân tích dữ liệu quá khứ, hiển thị thông tin tại thời điểm hiện tại và có thể dự báo cho tương lai.

19

Nguyễn Thị Ảnh - K19HTTTB

có thể được kiểm tra, không được sửa đổi. Thao tác dữ liệu trong kho gồm nạp dữ liệu vào kho (Load of data) và truy nhập vào các vùng trong kho (Access of data). Cũng vì thế mà quy mô dữ liệu trong kho dữ liệu được tăng lên khá lớn so với hệ thống vận hành. Kho dữ liệu tập hợp dữ liệu bao gồm vài năm, trong khi dữ liệu trong cơ sở dữ liệu vận hành thường chỉ được lưu giữ trong một khoảng thời gian ngắn, ví dụ, từ 2 đến 6 tháng, theo yêu cầu cho các hoạt động hàng ngày và có thể được ghi đè khi cần thiết.

Một phần của tài liệu Xây dựng kho dữ liệu nâng cao hiệu quả báo cáo phân tích thống kê cho phân hệ mua hàng bán hàng của hệ thống ERP,Khóa luận tốt nghiệp (Trang 33 - 36)

Tải bản đầy đủ (DOCX)

(111 trang)
w