1. Trang chủ
  2. » Công Nghệ Thông Tin

XÂY DỰNG HỆ HỖ TRỢ RA QUYẾT ĐỊNH CHO CÔNG TY CREAIN VIETNAM COMPANY LIMITED

88 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 88
Dung lượng 3,2 MB

Nội dung

Đây là báo cáo về project xây dựng hệ hỗ trợ ra quyết định cho công ty Creain VietNam Company Limited. Ở đây chúng tôi thực hiện thiết kế cơ sở dữ liệu, tích hợp dữ liệu giữa các nguồn dữ liệu. Sau đó thiết kế kho dữ liệu và đổ dữ liệu từ các nguồn vào kho dữ liệu

HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ -🙞🙜🕮🙞🙜 - BÁO CÁO KIỂM TRA MÔN HỆ HỖ TRỢ RA QUYẾT ĐỊNH VÀ KINH DOANH THÔNG MINH ĐỀ TÀI: XÂY DỰNG HỆ HỖ TRỢ RA QUYẾT ĐỊNH CHO CÔNG TY CREA-IN VIETNAM COMPANY LIMITED Nhóm thực hiện: Nhóm 11 Giảng viên hướng dẫn: Cơ Nguyễn Thùy Linh Hà nội, tháng 12 năm 2021 NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN ……………………………………………………………………………………………… … ………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… …………………………………… Kết luận:……………………………………………………………………………… Hà Nội, ngày… tháng… năm 2021 Giảng viên hướng dẫn (Ký tên) Nhóm 11 bao gồm thành viên: Tên Mã sinh viên Tỉ lệ đóng góp (%) Cao Hữu Phước (nhóm trưởng) 21A4040088 25% Vũ Văn Thắng 21A4040104 25% Nguyễn Bá Hiếu 21A4040033 25% Phạm Hồng Minh 21A4040074 25% Mục Lục Câu 1: 1.1 Những điểm khác kho liệu sở liệu 1.2 Phân loại kho liệu 1.3 Có cách tiếp cận xây dựng Kho liệu? Sự khác cách tiếp cận này? Câu 2: 2.1 Tại cần phải tích hợp liệu từ nhiều nguồn? 2.2 Một số vấn đề liên quan tới tích hợp liệu Câu 3: 11 3.1 Quản lý chất lượng liệu gì? 11 3.2 Cần quản lý chất lượng liệu vì: 11 Câu 4: 13 4.1 Giới thiệu cơng ty 13 4.2 Quy trình phân tích 13 Câu 5: Giới thiệu hệ thống nguồn 15 5.1 Hệ thống Nguồn (SQL Source) 16 5.2 Hệ thống Nguồn (Oracle Source) 21 5.3 Hệ thống nguồn (Excel) 21 5.4 Hệ thống Nguồn (CRM) 22 Câu 6: 24 6.1 Thiết kế bảng Dim, fact 24 6.2 Mô tả trường liệu bảng Dim, Fact 24 6.3 Sơ đồ hình bơng tuyết 43 6.4 44 Cập nhật liệu vào kho liệu Câu 1: 1.1 Những điểm khác kho liệu sở liệu Tham số Cơ sở liệu Mục đích Chức Phương pháp xử lý Để ghi truy vấn liệu Để xử lý phân tích liệu Hỗ trợ hoạt động hàng Hỗ trợ định mang tính ngày chiến lược Xử lý giao dịch trực Xử lý phân tích trực tuyến(OLTP) tuyến(OLAP) Có độ phức tạp cao chúng Các bảng ghép nối chuẩn hóa (cho RDMS) để giảm liệu thừa, tối ưu hóa dung lượng lưu trữ Tính chất liệu Kho liệu Chi tiết, cập nhật thường xuyên Bảng phép nối dễ dàng kho liệu chúng khơng chuẩn hóa Có tính lịch sử thống kê, thêm không cập nhật Phương pháp tiếp cận quan hệ Phương pháp tiếp cận đa chiều Lưu trữ liệu phẳng, nhiều liệu khác chuẩn hóa, nhiều nguồn tích hợp vào liệu khác tích hợp nguồn định dạng lại Sử dụng Thường xuyên Đơn vị công việc Giao dịch đơn giản, ngắn Trong trường hợp đặc biệt Các câu truy vấn phức tạp Thông lượng giao dịch, Độ đo thực nhiều giao dịch lúc Thông lượng truy vấn trả lời Sự định hướng Định hướng ứng dụng Định hướng chủ đề Mơ hình sử dụng Mơ hình quan hệ – thực thể Mơ hình liệu đa chiều Loại truy vấn Những truy vấn giao dịch đơn giản sử dụng Hiệu suất truy vấn phân tích Thấp Những truy vấn phức tạp áp dụng cho mục đích phân tích Cao 1.2 Phân loại kho liệu - Kho liệu doanh nghiệp (Enterprise Data Warehouse): Là kho tập trung cung cấp dịch vụ hỗ trợ định toàn doanh nghiệp EDW thường tập hợp sở liệu cung cấp cách tiếp cận thống để tổ chức liệu phân loại liệu theo chủ đề - Kho liệu hoạt động (Operational Data Store): Là sở liệu trung tâm sử dụng để báo cáo hoạt động nguồn liệu cho kho liệu doanh nghiệp mô tả ODS yếu tố bổ sung cho EDW sử dụng để báo cáo hoạt động, kiểm soát định ODS làm theo thời gian thực, khiến thích hợp cho hoạt động thường ngày lưu trữ hồ sơ nhân viên Mặt khác, EDW sử dụng để hỗ trợ định chiến thuật chiến lược - Data Mart: coi tập hợp kho liệu thường định hướng cho nhóm cụ thể kinh doanh đường, chẳng hạn tài doanh thu Nó hướng tới chủ đề, làm cho liệu cụ thể có sẵn cho nhóm người dùng xác định nhanh hơn, cung cấp cho họ thơng tin chi tiết quan trọng 1.3 Có cách tiếp cận xây dựng Kho liệu? Sự khác cách tiếp cận này? Có cách tiếp cận xây dựng kho liệu: Top-down Bottom-up a.Top-down: Cách tiếp cận đơn giản dễ hiểu Đầu tiên, ta xây dựng data warehouse trước, sau data mart xây dựng data warehouse cách chọn liệu cần thiết với đôi tượng kinh doanh phòng ban cụ thể - Ưu điểm ● Dễ phát triển data mart mới, thích nghi nhanh với thay đổi môi trường kinh doanh ● Chi phí ban đầu cao, chi phát triển sau thấp ● Cung cấp góc nhìn liệu theo chiều quán data mart( từ nguồn data warehouse mà ra) - Nhược điểm ● Chi phí, thời gian lớn ( dự án implement theo cách thường lớn) ● Team cần có kinh nghiệm kĩ tốt để cài đặt b.Bottom-up: Hướng tiệp cận ngược lại với hướng top-down Ta xây dựng data-mart trước, sau ta tạo xong data mart rồi, xây dựng data warehouse - Ưu điểm ● Các data mart deliver nhanh chóng ● Có khả cung cấp report nhanh ● Mở rộng data warehouse dễ dàng có thay đối, thêm đơn vị phịng ban ● Tiêu tốn thời gian hơn, thiết lập ban đầu nhanh - Nhược điểm ● Chi phí ban dầu có thê thấp, sau đắt ● Khó bảo trì Câu 2: 2.1 Tại cần phải tích hợp liệu từ nhiều nguồn? Dữ liệu lưu Kho liệu không tạo trực tiếp từ người dùng mà lấy từ nguồn liệu sẵn có mục đích phục vụ tạo báo cáo quản trị phải tích hợp từ nhiều nguồn Ví dụ: Tại bệnh viện, phịng khác thực xét nghiệm khác nhau, để có đầy đủ thơng tin phục vụ chẩn đốn cần thu thập kết từ nhiêu nguồn Điều hoàn toàn tương tự doanh nghiệp, liệu cần để phân tích nằm rải rác nhiều hệ thống tác nghiệp khác nhau, cần tích hợp lại Q trình tích hợp thực trình ETL Việc tổng hợp liệu từ nhiều nguồn vào kho liệu cho phép xem đồng thời nhiều số khác (từ nhiều hệ thống nghiệp vụ khác nhau), ví dụ ta xem tiêu doanh thu nhiều mảng nghiệp vụ khác để so sánh tương quan mảng nghiệp vụ Từ đưa thơng tin hữu ích có chiều sâu giúp định kinh doanh, tăng doanh thu tạo lợi cạnh tranh Tích hợp liệu giảm sai sót liệu tồn hệ thống Điều đặc biệt tăng trải nghiệm khách hàng mối quan hệ khách hàng doanh nghiệp 2.2 Một số vấn đề liên quan tới tích hợp liệu 2.2.1 Các vấn đề tích hợp: Tích hợp nhiều hệ thống thơng tin thường nhằm mục đích kết hợp hệ thống thành tổng thể thống nhất, đưa cho người dùng trải nghiệm tương tác với hệ thống Người dùng cung cấp nhìn logic đồng liệu phân phối vật lý nguồn liệu khác Việc tích hợp liệu địi hỏi việc phải phát giải xung đột lược đồ (schema) liệu liên quan đến cấu trúc ngữ nghĩa Bởi hệ thống nguồn thường khơng thiết kế để tích hợp từ đầu Với mục tiêu cung cấp nhìn đồng liệu từ nguồn khác nhau, cơng việc tích hợp dựa trên: ● Khung kiến trúc hệ thống ● Nội dung chức hệ thống thành phần ● Loại thông tin quản lý hệ thống thành phần (chữ số, liệu đa phương tiện, liệu có cấu trúc, bán cấu trúc, phi cấu trúc) ● Mục đích sử dụng (quyền truy cập đọc hay chỉnh sửa) ● Yêu cầu hiệu suất ● Các nguồn lực sẵn có (con người, thời gian, ngân sách, kiến thức,…) Ngồi ra, yếu tố khơng đồng hệ thống cần xem xét: ● Phần cứng hệ điều hành ● Phần mềm quản lý liệu ● Mơ hình liệu, lược đồ ngữ nghĩa liệu ● Phần mềm trung gian ● Giao diện người dùng ● Các quy tắc kinh doanh ràng buộc tính tồn vẹn 2.2.2 Cách tiếp cận: Hình mơ tả việc tích hợp liệu hai hệ thống mức: ● Manual Integration (Tích hợp thủ cơng): Người dùng tương tác trực tiếp với tất hệ thống liên quan, yêu cầu phải có kiến thức chi tiết ngơn ngữ truy vấn vị trí, lược đồ ngữ nghĩa liệu hệ thống ● Common User Interface (Giao diện người dùng chung): Người dùng cung cấp giao diện chung để cung cấp giao diện đồng Dữ liệu trình bày đầy đủ riêng biệt yêu cầu người dùng phải tích hợp (ví dụ: Tìm kiếm,…) ● Intergration by Applications (Tích hợp theo ứng dụng): Cách tiếp cận sử dụng ứng dụng tích hợp liệu từ nguồn liệu khác trả kết tích hợp cho người dùng Giải pháp nhanh rẻ, nhiên ứng dụng ngày lớn cần phát triển phát triển liệu, định dạng liệu hệ thống ● Middleware Integration (Tích hợp dùng phần mềm trung gian): Cung cấp chức giải vấn đề tích hợp Tuy nhiên công cụ trung gian khác cần phải kết hợp để tích hợp xây dựng hệ thống ● Uniform Data Access (Quyền truy cập liệu thống nhất): Tích hợp liệu vật lý thực mức truy cập liệu Việc cung cấp sở liệu đồng nhiên thời gian lâu việc truy cập liệu, đồng tích hợp thực đồng thời ● Common Data Storage: Xây dựng datawarehouse 2.2.3 Từ tích hợp cấu trúc đến ngữ nghĩa: Việc tích hợp liệu khơng tích hợp mặt kỹ thuật hay cấu trúc u cầu cao tích hợp liệu mơ tả mơ hình liệu khác nhau, có trường hợp cịn không đồng ngữ nghĩa Ngữ nghĩa rõ ràng xác yêu cầu quan trọng, không gây tổn thất lớn đến doanh nghiệp, chí dẫn tới phá sản Để giải vấn đề này, thể học (ontologies) - mơ tả xác rõ ràng khái niệm mối quan hệ chúng với từ vựng chia sẻ để khắc phục việc không đồng ngữ nghĩa 2.2.4 Tiêu chí ASME tích hợp liệu: ● Abstraction: Bảo vệ người dùng khỏi không đồng mức độ thấp nguồn liệu ● Selection: Cân nhắc khả người dùng lựa chọn nguồn liệu tích hợp phục vụ cho việc trả lời câu hỏi nào? Mục đích gì? ● Modeling correspond: Mơ hình hóa xác tương ứng với nhận thức mong muốn người dùng miền liệu tích hợp 10 Chọn cài đặt Google Sheets sau đăng nhập tài khoản Google: 74 Cài đặt đường dẫn file sheet drive sheet nguồn: Sau kết nối xong tạo flow với Data Conversion để đổi định dạng task Slowly Changing Dimension nguồn trước đó: 75 ● Union all từ nguồn: Cài đặt chi tiết: 76 Thiết lập Data access mode thành Table and để trigger phân tách địa thành địa phân cấp kích hoạt thực data task 6.4.3 Data flow bảng Dim_Productgroup, Dim_Product, Dim_Promotion, Dim_Platform, Dim_Agegroup, Dim_Gender, Dim_Campaign Các bảng lấy từ nguồn thiết kế cột giống nguồn nên data flow đơn giản, có nguồn đích sau mappings cột sau: 6.4.4 Data flow bảng Fact_Advertising Bảng Fact_Advertising đổ từ bảng ChiTietQC nguồn 1, sau Merge 77 Join Dim_Date để lấy Date_id Dữ liệu nguồn: Data flow xây dựng sau: Bảng Dim_Date ChiTietQC sort theo Date 78 Ngày, sau merge join để lấy giá trị Date_id bảng Dim_Date Sort lại theo ID mapping với bảng đích: Mapping nguồn đích: 79 6.4.5 Data flow bảng Fact_Sales Dữ liệu lấy từ nguồn: Nguồn Nguồn 4: ● Nguồn 1: Dữ liệu bảng Fact_Sales lấy từ hai bảng HoaDon ChiTietHD 80 nguồn Sử dụng task Sort theo MaHD merger join, ta lấy trường thông tin cần thiết từ hai bảng + Bảng HoaDon: + Bảng ChitietHD: 81 ● Nguồn 4: từ Google Sheets xuất thành file Excel báo cáo đơn hàng từ trước đến dung lượng lớn 82 Sử dụng Data Conversion để chuyển đổi kiểu liệu theo định dạng bảng đích ● Union all nguồn: ● Merge join với Dim_Date Dim_Customer: 83 ● Data flow Fact_Sales: 6.4.6 Thực cập nhật liệu: 84 Execute Package thực thành cơng tồn gói Tổng thời gian thực thi hệ thống ghi lại “Elapsed time: 00:00:02.765” Các bảng liệu sau cập nhật: ● Dim_Customer: KH00000 có địa cập nhật vào ô, khách hàng lại trigger thực phân cấp vào cột địa nhỏ thành công ● Dim_Productgroup: 85 ● Dim_Product: ● Dim_Promotion: ● Dim_Platform: ● Dim_Agegroup: ● Dim_Gender: ● Dim_Campaign: 86 ● Fact_Advertising: ● Fact_Sales: 87 Bài viết tham khảo từ nguồn http://ralphkimball.com/su-khac-biet-giua-kho-du-lieu-va-co-so-du-lieu/ https://corporatefinanceinstitute.com/resources/knowledge/data-analysis/data-warehouse/ https://handbook.magestore.com/books/data-warehouse -tutorial/page/data-warehouse-de sign https://searchdatamanagement.techtarget.com/definition/data-quality, By Jack Vaughan, Senior News Write https://www.dqlabs.ai/blog/what-is-data-quality-management/, January 20, 2021 88

Ngày đăng: 16/06/2023, 16:31

w