Script extract_clean : script này có nhiệm vụ lọc dữ liệu hợp lệ từ data source vào stage 1.1 và làm sạch dữ liệu trong stage 1.1.

Một phần của tài liệu những khái niệm về data warehouse (Trang 61 - 63)

• Chọn những yêu cầu bảo hiểm trong bảng YEUCAU có hợp đồng bảo hiểm tương ứng để tải vào bảng STA_YEUCAU, những yêu cầu không có hợp đồng sẽ bị coi là không hợp lệ vỡ yờu cầu mua bảo hiểm đó không được công ty chấp nhận.

• Tiến hành khôi phục lại giá trị giới tính của người tham gia và người được bảo hiểm. Đối với các yêu cầu có người tham gia hoặc người được bảo hiểm không biết giới tính thì cần loại bỏ khỏi staging area và ghi nhận lại lỗi này.

• Tiến hành khôi phục lại giá trị tuổi của người tham gia và người được bảo hiểm. Đối với các yêu cầu có người tham gia hoặc người được bảo hiểm không biết tuổi thì cần loại bỏ khỏi staging area và ghi nhận lại lỗi này.

• Thời gian mà ta quan tâm tới yêu cầu bảo hiểm chính là ngày đầu thu phí được biểu hiện bằng trường NGAY_DAU. Tiến hành sửa trường NGAY_DAU. Do chương trình nhập không kiểm soát nờn cú một số ngày NGAY_DAU bị tăng lên 100 năm, ví dụ như đáng lẽ NGAY_DAU nhận giá trị năm 1999 thì lại có giá trị là năm 2099.

• Đưa dữ liệu từ bảng KHACH của data source vào bảng STA_KHACH của stage 1.1, chỉ chọn những khách là người tham gia hoặc người bảo hiểm của các yêu cầu trong STA_YEUCAU. Loại bỏ các yêu cầu có tình trạng gia đình của người tham gia không xác định được và ghi nhận lại những lỗi này. Tiến hành phân loại thu nhập của khách hàng.

• Đưa dữ liệu từ bảng YCDKR của data source vào bảng STA_YCDKR của stage 1.1, chỉ chọn những yêu cầu điều khoản riêng của những yêu cầu trong bảng STA_YEUCAU. Tiến hành khôi phục các điều khoản riêng có số tiền bảo hiểm nhỏ hơn 1000000. Loại bỏ các yêu cầu điều khoản riêng vẫn còn có số tiền bảo hiểm nhỏ hơn 1000000 vì tất cả các sản phẩm và điều khoản riêng của công ty đều có số tiền bảo hiểm nhỏ

nhất là 1000000. Loại bỏ các yêu cầu tương ứng với các điều khoản riêng này và ghi nhận lỗi.

• Khôi phục lại số tiền đúng phớ của các điều khoản riờng cú phớ là NULL. Loại bỏ các yêu cầu cú phớ là NULL và ghi nhận lại lỗi.

• Loại bỏ các yêu cầu có điều khoản riờng khụng tính được phí chuẩn (vớ dụ : người tham gia đúng phớ luụn 1 lần và mua sản không có thời hạn bảo hiểm như bảo hiểm trọn đời), ghi nhận lại lỗi.

• Tiến hành sửa các lỗi về giá trị các thông số bệnh của khách mà ta quan tâm như chiều cao, cân nặng. Quy chuẩn chiều cao về đơn vị cm và cân nặng về giá trị kg.

• Lọc dữ liệu từ bảng DAILY vào bảng STA_DAILY, chỉ lấy những đại lý có yêu cầu tương ứng trong bảng STA_YEUCAU.

• Do trong quá trình lọc và sửa lỗi ở trên, ta đã loại bỏ một số yêu cầu trong bảng STA_YEUCAU, vì vậy cần phải sửa lại các bảng STA_KHACH, STA_YCDKR, STA_TTSK. Chỉ giữ lại trong bảng STA_KHACH những người hoặc là người tham gia hoặc là người được bảo hiểm trong yêu cầu của bảng STA_YEUCAU. Bảng STA_TTSK chỉ giữ lại những bản ghi sức khoẻ của người khách nào có mặt trong bảng STA_KHACH. Bảng STA_YCDKR chỉ giữ lại những yêu cầu điều khoản riêng nào có yêu cầu tương ứng trong bảng STA_YEUCAU.

Một phần của tài liệu những khái niệm về data warehouse (Trang 61 - 63)

Tải bản đầy đủ (DOC)

(68 trang)
w