1. Trang chủ
  2. » Công Nghệ Thông Tin

Kho dữ liệu và khai phá dữ liệu data mining

29 1,2K 17

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 1,4 MB

Nội dung

Tìm tất cả các cửa hàng cùng với thành phố, bang, số điện thoại, mô tả, kích cỡ, trọng lượng và đơn giá của tất cả các mặt hàng được bán ở kho đó.. Tìm tất cả các cửa hàng cùng với tên t

Trang 1

Đề tài : Kho dữ liệu

Giảng Viên: NGUYỄN QUỲNH CHI

Nhóm: 10

Thành viên : Nguyễn Thị Hương B12DCCN172

Lê Thị Hằng B12DCCN163

Trang 2

M c L c ục Lục ục Lục Lời nói đầu 4

I Giới thiệu 4

1 Mục tiêu 4

2 Phạm vi của bài tập lớn 5

II Yêu cầu nghiệp vụ 5

III Đặc tả chức năng 6

IV Thiết kế kho dữ liệu 6

A Xây dựng mô hình thực thể liên kết mở rộng 6

B Thiết kế lược đồ hình sao 13

1 Lược đồ dải thiên hà 13

2 Ngôn ngữ truy vấn khai phá dữ liệu 14

3 Phân cấp 14

4 Các thao tác xử lý phân tích trực tuyến 15

V Báo cáo phân tích trực tuyến 18

Trang 3

Đến nay những hệ thống cơ sở dữ liệu đã có mặt tại hầu hết các hoạt động

kinh tế xã hội Cùng với sự phát triển của công nghệ phần cứng như vi xử

lý tốc độ cao, ổ đĩa với dung lượng lưu trữ lớn, khả năng sao lưu thì dữ liệu

của các tổ chức, doanh nghiệp trong quá trình hoạt động đã được cập nhật

và lưu giữ một cách đầy đủ Cùng với sự đa dạng hoạt động hàng ngày của

phòng ban, nhân sự cũng như với các đối tác bên ngoài, dữ liệu nghiệp vụ

của tổ chức ngày càng trở nên khổng lồ Dữ liệu có thể là tệp phẳng( không

có cấu trúc ) như hình ảnh, văn bản đến dữ liệu có cấu trúc được lưu giữ tại

các hệ quản trị CSDL Một hãng bán lẻ phải xử lý hàng chục triệu giao

dịch mỗi ngày Dữ liệu ngày qua ngày được tích lũy thay thế dần các hoạt

động giấy tờ Người ta có thể truy cập dữ liệu mình cần một cách nhanh

chóng bằng các phép tìm kiếm hay thông qua sơ đồ thư mục lưu trữ trên hệ

điều hành Với các công nghệ hiện đại đã và đang đáp ứng tốt một giai

đoạn yêu cầu của người dùng Data warehouse, một công nghệ mới ra đời

vào khoảng đầu những năm 90 đã được đón nhận và đưa vào thực tiễn Tại

Việt Nam, khái niệm và công nghệ này đã được làm quen cách đây cũng

được khoảng 5 năm nhưng trên thực tế chúng hầu như chưa được quan tâm

và ứng dụng một cách hiệu quả Điều này cũng bắt nguồn từ nhu cầu quản

lý trong một thế giới cạnh tranh chưa gay gắt, trình độ quản lý không cao

Nắm được điều trên, một công ty bán lẻ đã lập ra kế hoạch thiết kế một

kho dữ liệu( data warehouse) để giao dịch cũng như quản lý hàng hóa được

thuận tiện hơn

1 Mục tiêu

Mục tiêu của bài toán là xây dựng kho dữ liệu tích hợp các dữ liệu của

doanh nghiệp dùng cho phân tích các bài toán kinh doanh để đảm bảo các

tiêu chí:

 Xử lý đặt hàng của khách hàng của doanh nghiệp

 Đáp ứng đầy đủ các yêu cầu của khách hàng từ những cửa hàng nằm

trong thành phố mà khách hàng sinh sống Nếu những yêu cầu đókhông thể đáp ứng thì công ty sẽ chuyển yêu cầu tới các thành phố khiđến khi mặt hàng có đủ để cung cấp

 Nâng cao chất lượng kinh doanh hiện doanh nghiệp đang cung cấp

Trang 4

 Đo lường được sự hiệu quả của các đợt quảng cáo, khuyến mại

 Đặc biệt xác định được tương đối chính xác thị phần của đối thủ cạnh

tranh

 Hỗ trợ để các nhân viên thực hiện tốt, hiệu quả công việc của mình,

như có những quyết định hợp lý, nhanh và bán được nhiều hàng hơn,năng suất cao hơn, thu được lợi nhuận cao hơn v.v

 Kiểm soát được tình hình, số lượng các mặt hàng, cửa hàng và khách

hàng

2 Phạm vi của bài tập lớn

 Quản lý việc kinh doanh của một doanh nghiệp gồm nhiều cửa hàng

nằm rải rác ở nhiều thành phố và bang khác nhau nhằm đáp ứng được nhu cầu của khách hàng

 Nguồn dữ liệu của hệ thống cơ sở dữ liệu quan hệ hiện tại của doanh

nghiệp

 Ứng dụng kỹ thuật OLAP để xây dựng khối dữ liệu phân tích sản

lượng hàng hóa, khách hàng …của doanh nghiệp theo hướng đa chiều

Các đặc tả ứng dụng của kho dữ liệu cho người sử dụng:

1 Tìm tất cả các cửa hàng cùng với thành phố, bang, số điện thoại, mô tả, kích cỡ,

trọng lượng và đơn giá của tất cả các mặt hàng được bán ở kho đó

2 Tìm tất cả các đơn đặt hàng với tên khách hàng và ngày đặt hàng được thực hiện

bởi khách hàng đó

3 Tìm tất cả các cửa hàng cùng với tên thành phố và số điện thoại mà có bán các

mặt hàng được đặt bởi một khách hàng nào đó

4 Tìm địa chỉ văn phòng đại diện với tên thành phố, bang của tất cả các cửa hàng

lưu kho một mặt hàng nào đó với số lượng trên mức cụ thể

5 Với mỗi một đơn đặt hàng của khách, liệt kê các mặt hàng được đặt cùng với mô

tả, mã cửa hàng, tên thành phố và các cửa hàng có bán mặt hàng đó

6 Tìm thành phố và bang mà một khách hàng nào đó sinh sống

Trang 5

phố cụ thể nào đó

8 Tìm các mặt hàng, số lượng đặt, khách hàng, cửa hàng và thành phố của một

đơn đặt hàng

9 Tìm các khách hàng du lịch, khách hàng đặt theo đường bưu điện và khách hàng

thuộc cả hai loại

III Đặc tả chức năng

 Công cụ sử dụng cho bài tập lớn MS SQL Server và Oracle

 Đặc tả đầu vào đầu ra:

 Phương thức quản lý tại các cửa hàng ,văn phòng đại diện, doanhnghiệp

o Đầu ra của kho dữ liệu là các bảng dữ liệu động để hỗ trợ chongười sử dụng ra quyết định thực hiện các phép chiếu chọn, cácthao tác cơ bản như cuộn lên, khoan xuống…

IV Thiết kế kho dữ liệu

A Xây dựng mô hình thực thể liên kết mở rộng.

Lược đồ quan hệ của hệ thống cơ sở dữ liệu quan hệ hiện tại của doanh

nghiệp này như sau:

 Cơ sở dữ liệu Văn phòng đại diện bao gồm những quan hệ với các

lược đồ như sau:

Trang 6

Khách hàng (Mã KH, Tên KH, *Mã Thành phố, Ngày đặt hàng đầu tiên)

Khách hàng du lịch (*Mã KH, Hướng dẫn viên du lịch, Thời gian)

Khách hàng bưu điện (* Mã KH, Địa chỉ bưu điện, Thời gian)

 Cơ sở dữ liệu Bán hàng gồm những quan hệ với lược đồ như sau:

Văn phòng đại diện (Mã Thành phố, Tên Thành phố, Địa chỉ VP, Bang,

Thời gian)

Cửa hàng (Mã cửa hàng, * Mã Thành phố, Số điện thoại, Thời gian)

Mặt hàng (Mã MH, Mô tả, Kích cỡ, Trọng lượng, Giá, Thời gian)

Mặt hàng_được lưu trữ (* Mã cửa hàng, *Mã mặt hàng, Số lượng trong kho,

Thời gian)

Đơn đặt hàng (Mã đơn, Ngày đặt hàng, *Mã Khách hàng)

Mặt hàng được đặt (* Mã đơn, * Mã mặt hàng, Số lượng đặt, Giá đặt, Thời

gian)

 Trong đó những thuộc tính được gạch chân là khóa chính và thuộc

tính đánh dấu (*) là khóa ngoại

1 Xác định kiểu quan hệ, khóa và các trường.

Trang 7

Ma_KH Ma_TP Tên KH Tên thành phố Ngày đặt hàng đầu tiên Địa chỉ VP Bang Thời gian

Ma_CH Ma_MH

Số điện thoại Mô tả Thời gian Kích cỡ Gía Thời gian Ma_Don

Ngày đặt hàng

3 Ánh xạ PR2 sang 1 thực thể lớp con hoặc 1 thực thể yếu.

Mặt hàng Cửa hàng

Đơn đặt hàng

Trang 8

4 Ánh xạ SR1 sang quan hệ 2 ngôi hoặc nhiều ngôi

5 Ánh xạ SR2 sang quan hệ 2 ngôi hoặc nhiều ngôi.

6 Ánh xạ FKA sang một quan hệ.

Trang 9

9

Trang 10

7 Ánh xạ ý nghĩa phụ thuộc bao hàm sang ngữ nghĩa.

DonDatHang.MaKHKhachHang.MaKH Quan hệ n-1 giữa thực

thể đơn đặt hàng vàkhách hàng

MatHang.MaMHMatHangDuocLT.MaMH

CuaHang.MaCuaHangMatHangDuocLT.MaCuaHang

Quan hệ n-m giữa thựcthể Mặt hàng với Cửahàng

MatHang.MaMHMatHangDuocDat.MaMH

DonDatHang.MaDonMatHangDuocDat.MaDon

Quan hệ n-m giữa thựcthể Mặt hàng với Đơnhàng

KhachHang.MaThanhPhoVanPhongDD.MaThanhPh

o

Quan hệ n-1 giữa 2 thưcthể Khách hàng với Vănphòng đại diện

CuaHang.MaThanhPho VanPhongDD.MaThanhPho Quan hệ n-1 giữa 2 thưc

thể Cửa hàng với Vănphòng đại diện

Trang 11

8 Vẽ lược đồ EER

Trang 12

B Thiết kế lược đồ hình sao

1 Lược đồ dải thiên hà

Trang 13

Hàm nguyên thủy định nghĩa sơ đồ dải thiên hà :

define cube Sale1 [CuaHang, VPĐD, MatHang]:

SoLuong = count(*)

define dimension MatHang as (Ma_MH, MoTa, KichCo, TrongLuong, Gia)

define dimension CuaHang as (Ma_CH, Ma_TP, SĐT)

define dimension VPĐD as (Ma_TP, Ten, Bang,DiaChiVP)

define cube Sale2 [DonBanHang, KhachHang, MatHang,CuaHang]:

SoLuongDat= count(*), TongTien=sum(Gia)

define dimension MatHang as MatHang in cube Sale1

define dimension CuaHang as CuaHang in cube Sale1

define dimension DonBanHang as (Ma_Don,Ma_KH,NgayDatHang)

define dimension KhachHang as( Ma_KH,TenKH,Ma_TP)

3 Phân cấp

 Chiều dữ liệu VPĐD có một phân cấp là Thành Phố, Bang Ý nghĩa

của phân cấp này nói rằng một Bang thì có nhiều Thành Phố, và mỗiThành Phố sẽ có một VP đại diện Vì thế nếu biết được số cửa hàngthuộc mỗi văn phòng đại diện thì sẽ tổng hợp được số cửa hàng củatừng thành phố và của từng Bang

Trang 14

Bang

Thành Phố

Văn phòng đại diện

4 Các thao tác xử lý phân tích trực tuyến

Mô hình mạng truy vấn :

Trang 15

1 Tìm tất cả các cửa hàng cùng với thành phố, bang, số điện thoại, mô tả, kích

cỡ, trọng lượng và đơn giá của tất cả các mặt hàng được bán ở kho đó

 Câu truy vấn này lấy dữ liệu theo 3 chiều: Cửa hàng, VPĐD, và Mặt hàng Ở

chiều Mặt hàng là Mặt hàng lưu trữ Ở chiều VPĐD là Thành phố, Bang Ở

chiều Cửa hàng là Cửa hàng chi tiết

2 Tìm tất cả các đơn đặt hàng với tên khách hàng và ngày đặt hàng được thực

hiện bởi khách hàng đó

 Câu truy vấn này lấy dữ liệu theo 2 chiều là : Đơn đặt hàng và Khách hàng

Ở chiều Đơn đặt hàng là Đơn đặt hàng chi tiết Ở chiều Khách hàng là

Khách hàng chi tiết

Trang 16

3 Tìm tất cả các cửa hàng cùng với tên thành phố và số điện thoại mà có bán

các mặt hàng được đặt bởi một khách hàng nào đó

 Câu truy vấn này lấy dữ liệu theo 4 chiều là : Cửa hàng , VPĐD, Khách

hàng,Mặt hàng.Ở chiều Cửa hàng là Cửa hàng chi tiết.Ở chiều VPĐD là

Thành phố Ở chiều Khách hàng là Khách hàng chi tiết Ở chiều Mặt hàng

là Mặt hàng được đặt

4 Tìm địa chỉ văn phòng đại diện với tên thành phố, bang của tất cả các cửa

hàng lưu kho một mặt hàng nào đó với số lượng trên mức cụ thể

 Câu truy vấn này lấy dữ liệu theo 3 chiều : VPĐD, Cửa hàng ,Mặt hàng Ở

chiều VPĐD là Thành phố, Bang Ở Cửa hàng là Cửa hàng chi tiết Ở Mặt

hàng là Mặt hàng lưu trữ

5 Với mỗi một đơn đặt hàng của khách, liệt kê các mặt hàng được đặt cùng với

mô tả, mã cửa hàng, tên thành phố và các cửa hàng có bán mặt hàng đó

 Câu truy vấn này lấy dữ liệu theo 4 chiều :Đơn đặt hàng , VPĐD, Cửa hàng ,

Mặt hàng Ở VPĐD là Thành phố Ở chiều Cửa hàng là Cửa hàng chi tiết

Ở Mặt hàng là Mặt hàng được đặt Ở chiều Đơn đặt hàng là Đơn đặt hàng

chi tiết

6 Tìm thành phố và bang mà một khách hàng nào đó sinh sống

 Câu truy vấn này lấy dữ liệu theo 2 chiều : VPĐD và Khách hàng Ở chiều

VPĐD là Bang và Thành phố Ở chiều Khách hàng là Khách hàng chi tiết

7 Tìm mức độ tồn kho của một mặt hàng cụ thể tại tất cả các cửa hàng ở một

thành phố cụ thể nào đó

 Câu truy vẫn này lấy dữ liệu theo 3 chiều : VPĐD, Cửa hàng , Mặt hàng Ở

chiều VPĐD là Thành phố Ở chiều Cửa hàng là Cửa hàng chi tiết Ở chiều

Mặt hàng là Mặt hàng lưu trữ

Trang 17

đơn đặt hàng

 Câu truy vấn này lấy dữ liệu theo 5 chiều : Mặt hàng,Khách hàng , Cửa

hàng, VPĐD, Đơn đặt hàng

Ở chiều Mặt hàng là Mặt hàng được đặt Ở chiều Khách hàng là Khách

hàng chi tiết Ở Cửa hàng là Cửa hàng chi tiết Ở VPĐD là Thành phố Ở

Đơn đặt hàng là Đơn đặt hàng chi tiết

9 Tìm các khách hàng du lịch, khách hàng đặt theo đường bưu điện và khách

hàng thuộc cả hai loại

 Câu truy vấn này lấy dữ liệu theo 1 chiều : Khách hàng Chiều Khách hàng

là : Khách hàng DL, Khách hàng BĐ

V Báo cáo phân tích trực tuyến

Khởi động SQL Server Management Studio và tạo CSDL có tên DW

như sau và nhập vào các bảng một số records để phân tích

Trang 18

 Khởi động SQL Server Business Intelligence Development Studio

Trang 19

Tạo một Analysis Services Project mới có tên “DW”

Trang 20

Trong của sổ Solution Explorer của Project OLAP_DW, bấm phím

phải chuột vào Data Source để tạo một bộ kết nối đến dữ liệu dùng cho phân tích

Trang 21

 Xác định các tham số kết nối đến kho dữ liệu có tên “DW” đã tạo ra

trong SQL Server Management Studio

Trang 22

 Đặt tên cho Data Source vàm bấm Finish để hoàn thành việc kết nối

đến cơ sở dữ liệu

 Tạo Data Source View để lấy các bảng dữ liệu cần thiêt cần cho phân

tích Bấm phím phải chuột vào Data Source View trong của sổ Solution Explorer chọn New Data Source View

Trang 23

 Xác định nguồn dữ liệu (Data Source) cần lấy là DW mới vừa tạo ra ở bước

trước

Trang 24

 Chọn Next và chọn các bảng cần cho phân tích

Trang 25

Chú ý: Nếu bạn muốn chọn bảng Fact và các bảng Dimension liên quan đến bảng

Fact thì chỉ cần chọn Fact Table đưa qua khung bên phải và bấm nút "Add Related

Tables" để tự động lấy các bảng Dimensions liên quan

 Sau khi hoàn thành, các bảng Fact và Dimension như sau:

Trang 26

 Sau khi tao Data Source và Data Source View ta tạo dữ liệu khối cho phân

tích bằng cách bấm chuột phải lên Cube trong Solution Explorer và chọn

New Cube

Trang 27

27tìm fact và Dimension Tables Khối dữ liệu các chiều được sinh ra :

Trang 28

 Sau khi tạo ra khối dữ liệu cho phân tích, để thực thi OLAP ta bấm phím

phải chuột vào tên project trong Solution Explorer và chọn Deploy

Trang 29

29

Ngày đăng: 14/07/2016, 22:49

TỪ KHÓA LIÊN QUAN

w