Kho dữ liệu và khai phá dữ liệu
Trang 1Bài giảng môn học
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
Tài liệu này sử dụng một phần
Trang 2Xác định yêu cầu kinh doanh
Tham khảo chương 4
* Paulraj Ponniah, Data warehousing
fundamentals, John Wiley & Sons Inc., 2001
Trang 3Chương 5
• Nhu cầu kinh doanh là một yếu tố cốt lõi của Dự án DW: vấn
đề DW chủ yếu là vấn đề kinh doanh
• Đội phát triển dự án và tham gia của người dùng
vào Dự án DW
Mục đich của chương 6:
• Xác định yêu cầu: các cách thức khác nhau và lý do
• Nắm được vai trò của kích thước kinh doanh
• Sử dụng các nguồn thông tin xác định yêu cầu
• Phương pháp phỏng vấn
• Nắm trọng tâm của tài liệu xác định yêu cầu hình thức
Trang 4DW: Hệ thống cung cấp thông tin
• giải quyết vấn đề của người dùng
• cung cấp thông tin chiến lược tới người dùng ( hệ tác nghiệp)
• Trong pha xác định yêu cầu: định hướng người dùng (tập trung
vào người dùng cần cái gì), tránh định hướng hệ thống (làm thế nào cung cấp thông tin đòi hỏi)
• Người phát triển DW có xuất phát điểm từ hệ thống OLTP nên càng cần xác định khác biệt OLTP với DW
Trang 5Hai hệ thống OLTP <> DW
• OLTP cung cấp dữ liệu nguyên thủy <> DW cung cấp thông tin
• Người dùng tiếp cận đa dạng tới DW
• OLTP day-to-day <> DW khía cạnh hệ hỗ trợ quyết định
Trang 6Phân tích chiều
• Chiều và các độ đo là hai thành phần cơ sở của khối
• Xây dựng DW <> xây dựng hệ tác nghiệp
• Phương pháp xây dựng hệ tác nghiệp khó áp dụng trong xây dựng DW
Trang 7Lý do sử dụng thông tin không dự báo được
• Hệ tác nghiệp: người dùng cung cấp các thông tin chi tiết, chính xác về các chức năng của hệ thống
<> Hệ DW: người sử dụng không xác định một cách rõ ràng và chính xác yêu cầu
• Người sử dụng thì vẫn như hệ tác nghiệp làm việc hàng ngày: sang DW họ chưa có quan hệ gì với hệ DW sẽ được xây dựng
• Quá trình xác đinh yêu cầu của HW là còn thô
Trang 8Tính tự nhiên chiều của dữ liệu kinh doanh
• Hỗ trợ người dùng xác định rõ ràng và chính xác
• Khởi tạo tập dữ liệu kinh doanh tổng thể của công ty
• kiểm tra tính thực tiễn công nghiệp tốt nhất
• Tập hợp các luật kinh doanh gợi mở việc ra quyết định hàng ngày (khởi tạo tri thức miền ứng dụng)
• Lưu ý: Đây chỉ là khái quát và chưa đầy đủ để xác yêu cầu chi tiết vì đặc thù chuyên môn quản lý
Trang 9Các đối tượng cao cấp trong xác định yêu cầu
Trang 10Các chiều kinh doanh
• Cố gắng nắm vững một cách tự nhiên các chiều của dữ liêu kinh doanh
• Hình dung đơn vị dữ liệu kinh doang dưới dạng một tập các khối
• Trong hình vẽ là 3 chiều theo tính tự nhiên của nó
• Nếu nhiều hơn 3 mở rộng khái niệm chiều phức và khối đa
chiều ảo: siêu khối
Trang 11Ví dụ về các chiều kinh doanh
• Các công ty: Chuỗi siêu thị, công ty sản xuất, kinh doanh bảo hiểm, Hãng hàng không
• Chiều kinh doanh:
• đa dạng
• liên quan mật thiết với ngành công nghiệp
• liên quan tới chủ đề cần phân tích
• Chiều thời gian
• là chiều chung cho mọi công ty ví dụ
• mọi phân tích kinh doang là thực hiện theo thời gian
Trang 12II Gói thông tin - một khái niệm mới
• Là ý tưởng mới để xác định và ghi nhận yêu cầu thông tin đối với DW
• Khái niệm này cho một mẫu cụ thể để nhìn nhận đa dạng, suy nghĩ chưa tường minh, và các quan điểm suốt quá trình tập hợp yêu cầu
Trang 13Vì sao cần gói thông tin
• Nhu cầu không thể xác định một cách đầy đủ
• cấn khái niệm mới, sáng tạo dể nắm bắt và ghi nhận được các yêu cầu
Phương pháp mới:
• dựa trên chiều kinh doanh
• Trên các chiều kinh doanh: nhu cầu của người dùng được phân tích, làm rõ
• Khái niệm mới sáp nhập các độ đo cơ sở và các chiều kinh doanh dựa theo phân tích độ đo cơ sở này
• Đi tới độ đo mới và các chiều liên quan buộc phải nắm giữ và trong DW
• Liên quan tới các chủ đề riêng
Trang 14Ví dụ về gói thông tin: bán hàng tự động
• Các chiều: thời gian, sản phẩm, pp trả tiền, thuộc tính khách hàng (nhân khẩu học), đại lý
• Mục tiêu nguyên thủy trong pha xác định yêu cầu là “biên dịch” các gói thông tin đối với mọi chủ đề đối với DW
• Mỗi khi khẳng định được các gói thông tin nên gắn tới các pha khác
Trang 15Lợi ích của gói thông tin
• Xác định được các miền chủ đề chung
• Thiết kế được thước đo kinh doanh chủ chốt
• Quyết định cách thức dữ liệu được trình diễn
• Xác định cách thức người dùng tán thành / không tán thành
• Quyết định chất lượng dữ liệu mà người dùng phân tích và hỏi
• Quyết định cách truy nhập dữ liệu
• Thiết lập hạt nhân của dữ liệu
• Xác định tần suất làm tươi dữ liệu
• Xác định cách thông tin cần phải “gói”
Trang 16Chiều kinh doanh
• Chiều kinh doanh là mẫu nền tảng của phương pháp mới để xác định yêu cầu Dữ liệu bắt buộc phái lưu giữ để cung cấp cho chiều kinh doanh.
• Chiều kinh doanh và các mức của nó là mẫu của mọi pha tiếp theo.
• Nên định danh được các chiều kinh doanh và các mức kiến trúc của chúng Bắt buộc chọn tập ưu thế và tối ưu các
chiều kinh doanh liên quan tới các độ đo
Trang 17Kiến trúc chiều/phân lớp
• Tiếp cận hướng kinh doanh: đầu tiên xem xét vầ tổng số
(của một năm) sau đó đi tới chi tiết hơn (quý, tháng, ngày) Kiến trúc đa mức
• Kiến trúc chiều thường theo đường dẫn trải xuống hoặc
cuộn lên khi phân tích
• Mỗi chiều kinh doanh chính đều tồn tại phân lớp các phần từ
dữ liệu có thể thuận tiện trong phân tích: ngày cuối tuần,
ngày làm việc, tháng cuối năm, tháng giữa năm
• Một số chiều kinh doanh khác cũng có thể được phân lớp
Trang 18• Một ví dụ về kiến trúc chiều – phân lớp
Trang 19• Một ví dụ khác về kiến trúc chiều – phân lớp
Trang 20Độ đo kinh doanh hoặc sự kiện cốt lõi
• Người kinh doanh nhận định các chủ đề kinh doanh theo nghĩa chiều kinh doanh để nắm bắt thông tin và phân tích.
• Phân tích cái gì số nào ?
• Cái đo được thành công của bộ phận kinh doanh: chỉ dẫn cho người dùng cách thức bộ phận kinh doanh phải làm để đạt tới mục đích kinh doanh
• Độ đo hoặc sự kiện trở thành gốc của gói thông tin.
• Ví dụ, trong cửa hàng bán hàng tự động, các độ đo liên
quan tới bán hàng: cho biết cửa hàng bán hàng ra sao?
Trang 21• Chẳng hạn, đối với hai ví dụ trên:
bán hàng auto-mobile
Actual sale price: giá thực sự
MSRP sale price:
Manufacturer's Suggested Retail Price
Options price: Tùy chọn giá
Full price: Giá đầy đủ
Dealer add-ons: tiện ích đại lý
Dealer credits: Tín dụng đại lý
Dealer invoice: Hóa đơn đại lý
Unavailable rooms: Không chưa có
Number of occupants: Số lượng đặt chỗ
Revenue: Doanh thu
Trang 22III Các phương pháp nắm bắt yêu cầu (1)
• Chuẩn bị được: chiều kinh doanh, gói thông tin, các độ đo các phương pháp nắm bắt yêu cầu hệ DW
• Một số các yêu cầu cần nắm bắt:
• Phần tử dữ liệu: sự kiện, lớp, chiều
• Ghi nhận của dữ liệu theo thời gian
• Trích chọn từ hệ thống nguồn
• Luật kinh doanh: thuộc tính, hạng vùng, miền, bản ghi tác nghiệp
Trang 23III Các phương pháp nắm bắt yêu cầu (1)
• Phân lớp người sử dụng DW:
• Điều hành chính (cả nhà đầu tư): định hướng bản chất và phạm vi của DW; tương tác chính
• Quản lý bộ phận chính yếu: cung cấp mô tả miền định hướng
• Phân tích kinh doanh: chuẩn bị văn bản và phân tích cho đèiu hành chính và quản lý
• Quản trị CSDL hệ thống tác nghiệp: về dữ liệu nguồn
• Những người liên quan danh sách trên:
• Hai kỹ thuật cơ sở hợp chung với các nhóm người
• Phỏng vấn: trực tiếp ngang hàng hoặc trong một nhóm nhỏ
• Phiên phát triển ứng dụng kết nối
Trang 24III Các phương pháp nắm bắt yêu cầu (2)
• Dành thời gian thích hợp cho phỏng vấn; phỏng vấn cần được tổ chức và quản lý tốt
• Các đặc trưng của kỹ thuật phỏng vấn
• Hai, ba người trong một lần; một số trưòng hợp là 1 người
• Dễ lên lịch
• Tiếp cận tốt khi có lịch cụ thể
• Chuẩn bị kỹ, chu đáo
• Luôn nghiên cứu trước phỏng vấn
• Nhắc người dùng chuẩn bị cho buổi phỏng vấn
Trang 25• Phiên theo nhóm
• Phiên theo nhóm không quá 20 người
• Chỉ sử dụng khi đã hiểu rõ được vết cơ sở của yêu cầu
• Không sử dụng để nắm bắt dữ liệu khởi tạo
• Hiệu quả để xác nhận các yêu cầu
• Đảm bảo tính tổ chức tốt
Trang 26• Một số công việc chính cần hoàn thành trước khi phỏng vấn
• Lựa chọn và huấn luyện thành viên đội phát triển quản lý phỏng vấn
• Gắn vai trò riêng của mỗi thành viên chỉ đạo/thư ký phỏng vấn
• Lên danh sách người dùng để phỏng vấn và chuẩn bị lịch rõ ràng
• Lên danh mục các kỳ vóng đối với mỗi tập phỏng vấn
• Hoàn thành việc nghiên cứu tiền phỏng vấn (rất quan trọng)
• Chuẩn bị các câu hỏi khi phỏng vấn
• Chuẩn bị người dùng cho phỏng vấn
• Hướng dẫn ban đầu chung cho tất cả người dùng sẽ được phỏng vấn
Trang 28Một số nội dung nghiên cứu tiền phỏng vấn
• Cấu trúc quá khứ và hiện tại của đơn vị kinh doanh (BU)
• Số lượng chuyên viên của BU, vai trò và trách nhiệm của họ
• Vị trí của người dùng
• Mục đích gốc rễ của BU trong tập đoàn
• Mục đích thứ yếu của BU trong tập đoàn
• Quan hệ giữa BU trong nội bộ tập đoàn và ra bên ngoài
• Sự đóng góp của BU vào thu nhập của tập đoàn và giá thành
• Thị trường của tập đoàn
• Thị phần trong thị trường
Trang 29III Các phương pháp nắm bắt yêu cầu
• Một số điểm nút cần quan tâm khi phỏng vấn
• Nguồn thông tin hiện tại
• Miền chủ đề
• Độ đo hiệu năng chủ yếu
• Tần suất thông tin
• Chuẩn bị biên soạn tài liệu yêu cầu, cần mô tả được
• Tiểu sử (SYLL) người dùng
• Thông tin chung và mục đích
• Yêu cầu thông tin
• Yêu cầu phân tích
• Bộ công cụ hiện có được dùng
• Tiêu chuẩn thành công
• Độ đo kinh doanh hữu dụng
• Các chiều kinh doanh liên quan
Trang 30• Tài nguyên thông tin hiện có
• Các hệ tác nghiệp sinh ra dữ liệu cho miền chủ đề kinh doanh quan trọng
• Các hệ thống máy tính nào hỗ trọ miền chủ đề quan trọng này
• Thông tin nào hiện được cung cấp trong các kết xuất và câu hỏi trực tuyến
• Mức độ chi tiết thông tin được cung cấp
• Miền chủ đề
• Các miền chủ đề có giá trị nhất để phân tích
• Có các chiều kinh doanh nào ? Chúng có cấu trúc tự nhiên hay không ?
• Các thành phần kinh doanh để hỗ trợ quyết định
• Thông tin toàn cục hay cục bộ để hỗ trợ quyết định hoặc kết hợp
• Các sản phẩm và dịch vụ thuộc miền chủ đề
• Độ đo hiệu năng chính yếu
• Cách thức đo hiệu năng của BU
• Các nhân tố chuẩn thành công và cách thức giám sát
• Cách thức độ đo chính yếu cuộn lên
• Mọi thị trường có dùng cách đo này ?
• Tần suất thông tin
• Tính thường xuyên bắt buộc cập nhật dữ liệu để ra quyết định ? Khung thời gian nào?
• Cách thức của mỗi kiểu phân tích theo thời gian
• Nhu cầu thời gian ra sao đối với thông tin trong DW
Trang 31III Các phương pháp nắm bắt yêu cầu
• Kết hợp phương pháp JDA (the Joint Distributional Analysis: phân tích phân bố liên hợp)
• JDA thành công để nắm bắt nhu cầu hệ tác nghiệp
• JDA là quá trình cộng tác, tập trung nhóm cùng nhau cho mục tiêu xác định tốt Trước đây: công tác người dùng với chuyên gia IT
• Thành công phụ thuộc vào tính tích hợp của đội JDA
Mô hình JDA gồm các bước sau:
a.Xác định điểm đánh giá cuối (ví dụ, xác suất thất bại sinh sản một loài cá đặc biệt) theo nghĩa một điểm kiểm tra kết thúc (ví dụ, xác suất vượt quá điểm kết thúc hiệu quả có liên quan)
b Thu nhận dữ liệu có liên quan (dữ liệu nồng độ hiệu quả và khẳng định)
c Tính toán rủi ro theo đó phân bố nồng độ môi trường kỳ vọng vượt quá phân bố của nồng độ hiệu quả
Trang 32III Các phương pháp nắm bắt yêu cầu
• Các thành viên của đội theo phương pháp JDA
• đầu tư điều hành: điều khiển chi trả, định hướng, trao quyền
• người cung cấp phương tiện: hướng dẫn đội suốt quá trình JAD
• Thư ký: ghi nhận mọi biên bản quyết định
• thành viên bán thời gian
• thành viên theo yêu cầu
• thành viên mời
Trang 33III Các phương pháp nắm bắt yêu cầu
• JAD bao gồm tiếp cận 5 pha
• xác định dự án
• Nghiên cứu, khảo sát
• chuẩn bị
• Các phiên làm việc JAD
• Hoàn thiện tài liệu
Trang 34• xác định dự án
• Hoàn thiện phỏng vấn cao cấp
• Tổ chức phỏng vấn quản lý
• Chuẩn bị xác đinh quản lý
• Nghiên cứu, khảo sát
• Tương đồng miền kinh doanh và hệ thống
• Làm tài liệu yêu cầu thông tin ngươpì dùng
• Làm tài liệu quá trình kinh doanh
• Nắm bắt thông tin gốc
• Chuẩn bị chương trình nghị sự cho phiên nhóm
• chuẩn bị
• Khởi tạo tài liệu làm việc từ các pha trước
• Huấn luyện thư ký
• Chuẩn bị hỗ trợ trực quan
• Chỉ đạo các cuộc họp trước phiên chung
• Chuẩn bị không gian cho phiên
• Chuẩn bi danh sách kiểm tra cho mục tiêu
Trang 35• Các phiên làm việc JAD
• Thảo luận chương trình nghị sự và mục đích
• Giả thiết của phỏng vấn
• Phỏng vấn yêu cầu dữ liệu
• Phòng vấn độ đo và chiều kinh doanh
• Thảo luận kiến trúc chiều và cuộn lên
• Giải quyết lại những vấn đề còn mở
• Đóng phiên với danh sách các mục kết luận
• Hoàn thiện tài liệu
• Cải tiến tài liệu làm việc
• Sắp xếp các thông tin đã nắm bắt được
• Lên danh sách các nguồn dữ liệu
• Định danh moi độ đo kinh doanh
• Lên danh sách mọi chiều và kiến trúc kinh doanh
• Thiết kế và biên tập tài liệu
• Quản lý các kết luận phiên
• Đi đến chấp nhận
• Tiến hành thủ tục thay đổi nhu cầu
Trang 36Xem xét tài liệu đã có
• Hầu hết các yêu cầu đwocj nắm bắt qua: phỏng vấn+phiên nhóm; thông tin hữu dụng từ những tài liệu liên quan từ các hoạt động này
• Xem xét lại các tài liệu đã có một cách khách quan (mức khái
niệm) từ BU
Trang 37Xem xét tài liệu đã có (bộ phận người dùng)
• Tài liệu từ BU sẵn có qua quá trình và thủ tục (Các cách thức thực hiện chức năng của BU) Xem xét chi tiết các quá trình và thủ tục
• Thử tìm ra các kiểu phân tích mà BU ưa chuộng Xem xét và tranh luận để nắm bắt tốt các hoạt động
Trang 38Xem xét tài liệu đã có (bộ phận chuyên viên IT)
• Phân tích vị trí nhận dữ liệu để nhận ra các độ đo và chiều kinh doanh
• từ hệ tác nghiệp nội tại
•hệ thống nguồn cho ta những tài nguyên nào
•Quan tâm tới người quản lý CSDL và chuyên gia IT
Trang 39IV Xác định yêu cầu: Phạm vi và nội dung
• Tài liệu hình thức thường không cô đọng trong các dự án hệ thống máy tính
• Bỏ qua tài liệu chi tiết khi xác định yêu cầu
• Vì tài liệu pha xác định yêu cầu là đầu vào các pha tiếp theo cho nên cần xác nhận kết quả của pha xác định yêu cầu
• Biên tập tài liệu có vai trò quan trọng (ví dụ bàn giao)
Trang 40IV Xác định yêu cầu: Phạm vi và nội dung
• Các kiểu thông tin cần trình bày:
•Nguồn dữ liệu
•Các phép biến đổi dữ liệu
•Kho chứa dữ liệu
• Cung cấp thông tin
• Lược đồ gói thông tin
Trang 41• Giới thiệu: Tình trạng và phạm vi của dự án Chứa tính cân bằng của dự án Cung cấp tóm tắt cho các đoạn tiếp theo.
• Mô tả nhu cầu tống quát: Mô tả hệ thống nguồn được phỏng vấn Tóm tắt phỏng vấn Khái quát kiểu nhu cầu thông tin được đặt ra
• Nhu cầu riêng: Chi tiết dữ liệu nguồn cần đến Liệt kê chuyển
dạng dữ liệu và nhu cầu bảo quản Phương pháp cung cấp thông tin tới người dùng
• Gói thông tin: Cung cấp chi tiết nhất có thể được về các gói thông tin cả về sơ đồ gói
• Yêu cầu khác: Phủ các yêu cầu kết hợp như tần suất trích chọn
dữ liệu, phương pháp tải dữ liệu, vị trí mà thông tin được cung cấp
• Kỳ vọng người dùng: Tình trạng: vấn đề và giải quyết Chỉ số hóa hy vọng sử dụng DW của người dùng
• Tham gia và không tham gia của người dùng: Liệt kê các bài toán và các hoạt động mà người dùng có thể tham gia
• Phương án thi hành tổng quát: Mô tả phương án tổng thể để thi hành