1. Trang chủ
  2. » Công Nghệ Thông Tin

Báo cáo đồ án olap ĐH CNTT ĐHQG TPHCM

61 114 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • PHẦN I: TỔNG QUAN ĐỀ TÀI

    • 1. Lý do chọn đề tài

    • 2. Mô tả dữ liệu

      • 2.1 Giới thiệu chung

      • 2.2 Kiểu dữ liệu

    • 3. Tiền xử lý dữ liệu

    • 4. Thiết kế kho dữ liệu

      • 4.1 FACT

      • 4.2 DIM_DATE

      • 4.3 DIM_MATCH

      • 4.4 DIM_SCORE

      • 4.5 DIM_TOURNAMENT

      • 4.6 DIM_LOCATION

  • PHẦN II: XÂY DỰNG KHO DỮ LIỆU (SSIS)

    • 1. Mô tả chủ đề

    • 2. Mô tả nguồn dữ liệu gốc

    • 3. Quá trình SSIS

      • 3.1. Bước 1: Chuẩn bị dữ liệu

      • 3.2. Bước 2: Chuẩn bị công cụ

      • 3.3. Bước 3: Bắt đầu quá trình

      • 3.4. Bước 4: Kiểm tra kết quả

  • PHẦN III: PHÂN TÍCH KHO DỮ LIỆU (SSAS)

    • 1. Bước 1: Tạo project SSAS

    • 2. Bước 2: Tạo Data Source

    • 3. Bước 3: Tạo Data Source View

    • 4. Bước 4: Tạo Cube

    • 5. Bước 5: Chỉnh sửa các Dimension

    • 6. Bước 6: Chạy tiến trình để deployment

  • PHẦN IV: TRUY VẤN MDX

    • 1. Roll up/ Drill down

    • 2. Slice and Dice

    • 3. Privot Excel

  • PHẦN V: REPORT (SSRS)

    • 1. Bước 1: Tạo project SSRS

    • 2. Bước 2: Tạo kết nối đến database

    • 3. Thực hiện Report trên SSRS và PowerBI

    • 4. Report dạng Chart thống kê giải đấu có được phát trực tiếp không

  • PHẦN VI: KHAI PHÁ DỮ LIỆU (DATA MINING)

  • PHẦN VII: KẾT LUẬN

    • 1. Kết quả đạt được

    • 2. Hướng phát triển

  • PHẦN VIII: TÀI LIỆU THAM KHẢO

Nội dung

Đồ án Olap ĐH Công Nghệ Thông Tin ĐHQG TP HCM BÁO CÁO ĐỒ ÁN MÔN HỌC KHO DỮ LIỆU VÀ OLAP Đề tài PHÂN TÍCH KẾT QUẢ BÓNG ĐÁ QUỐC TẾ TỪ 1900 ĐẾN 2019 GIẢNG VIÊN HƯỚNG DẪN ThS Nguyễn Thị Kim Phụng Mô tả dữ liệu Giới thiệu chung Dữ liệu được thu thập từ một số nguồn bao gồm nhưng không giới hạn ở Wikipedia, fifa.com, rsssf.com và các trang web của các hiệp hội bóng đá cá nhân. Bộ dữ liệu này bao gồm 40.838 kết quả của các trận đấu bóng đá quốc tế bắt đầu từ trận đấu chính thức đầu tiên vào năm 1900 đến năm 2019. Các trận đấu từ FIFA World Cup đến Fify Wild Cup đến các trận giao hữu thông thường. Các trận đấu hoàn toàn là quốc tế của nam giới và dữ liệu không bao gồm Thế vận hội hoặc các trận đấu mà ít nhất một trong số các đội là đội B, U23 hoặc đội tuyển chọn của giải đấu. Link dataset: https:www.kaggle.commartj42internationalfootballresultsfrom1872to2017

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN - - BÁO CÁO ĐỒ ÁN MÔN HỌC KHO DỮ LIỆU VÀ OLAP IS217.K11 Đề tài PHÂN TÍCH KẾT QUẢ BĨNG ĐÁ QUỐC TẾ TỪ 1900 ĐẾN 2019 GIẢNG VIÊN HƯỚNG DẪN ThS Nguyễn Thị Kim Phụng NHÓM SINH VIÊN THỰC HIỆN: Bàn Thị Hồng Nhung – 16520898 Hoàng Thị Hải Yến – 16521854 Thành phố Hồ Chí Minh, tháng 10 năm 2019 GVHD: ThS Nguyễn Thị Kim Phụng LỜI CẢM ƠN Đầu tiên, nhóm em xin gởi lời cảm ơn Cô Nguyễn Thị Kim Phụng (Giảng viên môn Kho liệu OLAP) Cảm ơn hướng dẫn tận tình, sửa chữa đóng góp nhiều ý kiến q báu giúp nhóm em hồn thành tốt báo cáo mơn học Trong thời gian học đề tài, nhóm em vận dụng kiến thức tảng tích lũy đồng thời kết hợp với việc học hỏi nghiên cứu kiến thức Từ đó, nhóm tác giả vận dụng tối đa thu thập để hoàn thành báo cáo đồ án tốt Xin chân thành cảm ơn quý Thầy Cô! Nhóm sinh viên thực GVHD: ThS Nguyễn Thị Kim Phụng NHẬN XÉT CỦA GIẢNG VIÊN …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………… GVHD: ThS Nguyễn Thị Kim Phụng MỤC LỤC PHẦN I: TỔNG QUAN ĐỀ TÀI Lý chọn đề tài Mô tả liệu .6 2.1 Giới thiệu chung 2.2 Kiểu liệu Tiền xử lý liệu Thiết kế kho liệu 4.1 FACT .9 4.2 DIM_DATE 10 4.3 DIM_MATCH 10 4.4 DIM_SCORE .10 4.5 DIM_TOURNAMENT 11 4.6 DIM_LOCATION 11 PHẦN II: XÂY DỰNG KHO DỮ LIỆU (SSIS) 12 Mô tả chủ đề 12 Mô tả nguồn liệu gốc 12 Quá trình SSIS 12 3.1.Bước 1: Chuẩn bị liệu 12 3.2.Bước 2: Chuẩn bị công cụ 13 3.3.Bước 3: Bắt đầu trình 13 3.4.Bước 4: Kiểm tra kết 22 PHẦN III: PHÂN TÍCH KHO DỮ LIỆU (SSAS) 28 Bước 1: Tạo project SSAS .28 Bước 2: Tạo Data Source 28 Bước 3: Tạo Data Source View .30 Bước 4: Tạo Cube .32 Bước 5: Chỉnh sửa Dimension 33 Bước 6: Chạy tiến trình để deployment 36 PHẦN IV: TRUY VẤN MDX 37 Roll up/ Drill down 37 GVHD: ThS Nguyễn Thị Kim Phụng Slice and Dice 43 Privot Excel .48 PHẦN V: REPORT (SSRS) .49 Bước 1: Tạo project SSRS .49 Bước 2: Tạo kết nối đến database 50 Thực Report SSRS PowerBI .52 Report dạng Chart thống kê giải đấu có phát trực tiếp khơng 55 PHẦN VI: KHAI PHÁ DỮ LIỆU (DATA MINING) .56 PHẦN VII: KẾT LUẬN 60 Môi trường làm việc 60 Kết đạt 60 Hướng phát triển 60 PHẦN VIII: TÀI LIỆU THAM KHẢO 60 GVHD: ThS Nguyễn Thị Kim Phụng PHẦN I: TỔNG QUAN ĐỀ TÀI Lý chọn đề tài Bóng đá mơn thể thao đồng đội chơi theo quy tắc đề luật bóng đá Các vận động viên tham gia chơi bóng đá gọi cầu thủ, họ sử dụng trái bóng hình cầu gọi đơn giản bóng đá, trái bóng trái banh Trong trận đấu bóng đá, hai đội, đội gồm 11 cầu thủ tìm cách đưa trái bóng vào khung thành, đội đưa bóng vào khung thành đối phương nhiều (ghi nhiều bàn thắng hơn) đội chiến thắng, hai đội có số lần đưa bóng vào khung thành đối phương nhau, khơng đội làm việc trận đấu kết thúc với kết qủa hịa Ngày nay, bóng đá chơi cấp độ chuyên nghiệp khắp giới với hàng triệu người đến sân theo dõi trận đấu hàng tỷ người theo dõi qua truyền hình Khơng mơn thể thao phổ biến giới, bóng đá cịn có ảnh hưởng lớn đến thể thao xã hội nhiều quốc gia Và chắn có nhiều người quan tâm đến:  Những trận đấu diễn địa điểm khác  Số lượng trận đấu thay đổi qua năm  Sự thay đổi đội tham gia - số lượng quốc gia thay đổi nào, đội thích chơi với không  Những đội tham gia tích cực trận chơi giao hữu giải đấu giao hữu - điều có giúp ích cho họ không Để hiểu rõ điều nhóm định chọn đề tài để phân tích, khai thác liệu Mơ tả liệu 2.1 Giới thiệu chung GVHD: ThS Nguyễn Thị Kim Phụng Dữ liệu thu thập từ số nguồn bao gồm không giới hạn Wikipedia, fifa.com, rsssf.com trang web hiệp hội bóng đá cá nhân Bộ liệu bao gồm 40.838 kết trận đấu bóng đá quốc tế trận đấu thức vào năm 1900 đến năm 2019 Các trận đấu từ FIFA World Cup đến Fify Wild Cup đến trận giao hữu thơng thường Các trận đấu hồn tồn quốc tế nam giới liệu không bao gồm Thế vận hội trận đấu mà số đội đội B, U-23 đội tuyển chọn giải đấu Link dataset: https://www.kaggle.com/martj42/international-football-results-from1872-to-2017 2.2 Kiểu liệu ST Tên thuộc tính Ý nghĩa Kiểu liệu The_date Ngày trận đấu Datetime Home_team Tên đội chủ nhà String Away_team Tên đội khách String Home_score Điểm số đội chủ nhà toàn Number T thời gian bao gồm hiệp phụ, Away_score không bao gồm trận sút luân lưu Điểm số đội khách toàn thời Number gian bao gồm hiệp phụ, tournamert không bao gồm trận sút luân lưu Tên giải trận đấu city Tên thành phố/ thị trấn/ đơn vị String String hành nơi trận đấu country diễn Tên quốc gia nơi trận đấu String neutral diễn Cột TRUE / FALSE cho biết Nvarchar trận đấu phát trực tiếp GVHD: ThS Nguyễn Thị Kim Phụng địa điểm Tiền xử lý liệu Làm liệu:  Thêm cột id_fact dataset  Xóa cột có date nhỏ năm 1900 liệu q cũ  Xóa trống liệu bị lỗi  Dữ liệu gốc  Dữ liệu sau tiền xử lý GVHD: ThS Nguyễn Thị Kim Phụng Thiết kế kho liệu 4.1 FACT STT Tên thuộc tính Kiểu Ràng buộc Ý nghĩa / Ghi fact_id int PK Mã Fact the_date datetime FK Mã ngày id_match int FK Mã đội id_score int FK Mã tỷ số trận đấu id_tournament int FK Mã giải trận đấu id_location int FK Mã vị trí netral Nvarchar FK Trận đấu có phát trực tiếp hay khơng 4.2 DIM_DATE STT Tên thuộc tính Kiểu Ràng buộc Ý nghĩa / Ghi GVHD: ThS Nguyễn Thị Kim Phụng The_date datetime Ngày diễn trận đấu the_year int Năm the_month int Tháng the_day int Ngày 4.3 DIM_MATCH STT Tên thuộc tính Kiểu Ràng Ý nghĩa / Ghi buộc Id_match int PK Mã đội Home_team nvarchar(20) Đội chủ nhà Away_team nvarchar(20) Đội khách 4.4 DIM_SCORE STT Tên thuộc tính Kiểu Ràng Ý nghĩa / Ghi buộc Id_score int PK Mã tỷ số trận đấu Home_score int Điểm đội nhà Away_score int Điểm đội khách 4.5 DIM_TOURNAMENT STT Tên thuộc tính Kiểu Id_tournament int Tournament nvarchar(20) Ràng buộc PK 4.6 DIM_LOCATION 10 Ý nghĩa / Ghi Mã giải đấu Tên giải đấu GVHD: ThS Nguyễn Thị Kim Phụng SELECT NON EMPTY ([Measures].[Fact Count]) ON COLUMNS, NON EMPTY (([Dim Tournament].[Tournament].&[AFC Asian Cup], [Dim Match].[Away Team].CHILDREN)*([Dim Match].[Home Team].CHILDREN)) ON ROWS FROM [SSAS_1] 2.5 Thống kê số lượng giải đấu tổ chức “Vietnam” Truy vấn MDX 47 GVHD: ThS Nguyễn Thị Kim Phụng SELECT NON EMPTY ([Measures].[Fact Count]) ON COLUMNS, NON EMPTY ([Dim Location].[Country].&[Vietnam], [Dim Tournament].[Tournament].CHILDREN) ON ROWS FROM [SSAS_1] Privot Excel  Thống kê trận đấu theo giải đấu diễn vào năm 2019 48 GVHD: ThS Nguyễn Thị Kim Phụng  Thống kê trận đấu theo thành phố quốc gia  Thống kê số lượng giải đấu tổ chức Việt Nam 49 GVHD: ThS Nguyễn Thị Kim Phụng PHẦN V: REPORT (SSRS) Bước 1: Tạo project SSRS  Add new reports 50 GVHD: ThS Nguyễn Thị Kim Phụng Bước 2: Tạo kết nối đến database  Kéo thả cột 51 GVHD: ThS Nguyễn Thị Kim Phụng  Thiết kế reports: Tô màu, sửa tên reports,… 52 GVHD: ThS Nguyễn Thị Kim Phụng Thực Report SSRS PowerBI 3.1 Thống kê số lượng trận đấu năm 1900 theo giải đấu Hình 3.1 Report SSRS Hình 3.2 Report PowerBI 3.2 Thống kê trận đấu theo thành phố quốc gia 53 GVHD: ThS Nguyễn Thị Kim Phụng Hình 3.3 Report SSRS Hình 3.4 Report PowerBI 3.3 Thống kê số trận đấu theo năm giải đấu 54 GVHD: ThS Nguyễn Thị Kim Phụng Hình 3.5 Report SSRS Hình 3.6 Report PowerBI 55 GVHD: ThS Nguyễn Thị Kim Phụng Report dạng Chart thống kê giải đấu có phát trực tiếp khơng Hình 3.7.Report dạng Chart PHẦN VI: KHAI PHÁ DỮ LIỆU (DATA MINING) Thực Microsoft Visual Studio 56 GVHD: ThS Nguyễn Thị Kim Phụng  Chọn thuật toán khai phá định (Decision Trees) 57 GVHD: ThS Nguyễn Thị Kim Phụng  Sử dụng bảng Fact để khai phá  Chọn input id_location, output neutral 58 GVHD: ThS Nguyễn Thị Kim Phụng  Click finish để hoàn thành  Kết số luật rút 59 GVHD: ThS Nguyễn Thị Kim Phụng  Background = True  Phát biểu luật:  Background = TRUE  Id Location >= 9874 and < 9879 Netral = TRUE  Id Location >= 9306 and < 9318 Netral = TRUE  Id Location >= 9736 and < 9765 Netral = TRUE  Id Location >= 9136 and < 9155 Netral = TRUE PHẦN VII: KẾT LUẬN Kết đạt  Thực trình SSIS, SSAS  Truy vấn câu lệnh MDX  Thử tính xác câu lệnh MDX công cụ pivot excel liệu  Thực tạo báo cáo cách sử dụng SSRS PowerBI  Thực thao tác Data Mining liệu 60 GVHD: ThS Nguyễn Thị Kim Phụng Hướng phát triển  Thực truy vấn MDX phức tạp hữu ích  Dự đốn kết xảy tương lai sử dụng data mining PHẦN VIII: TÀI LIỆU THAM KHẢO [1] http://amittomars.blogspot.com/2015/11/ssas-hands-on-part-1.html [2] https://faditek.com/nhap-mon-data-warehouse-cac-dang-luu-tru-bang-chieudimension/ [3] http://bis.net.vn/forums/p/450/906.aspx [4] https://www.youtube.com/watch?v=bkXtKlUFs70 [5] https://www.youtube.com/watch?v=MekzqZsSFeU 61 ... liệu OLAP) Cảm ơn hướng dẫn tận tình, sửa chữa đóng góp nhiều ý kiến quý báu giúp nhóm em hồn thành tốt báo cáo mơn học Trong thời gian học đề tài, nhóm em vận dụng kiến thức tảng tích lũy đồng... việc học hỏi nghiên cứu kiến thức Từ đó, nhóm tác giả vận dụng tối đa thu thập để hoàn thành báo cáo đồ án tốt Xin chân thành cảm ơn q Thầy Cơ! Nhóm sinh viên thực GVHD: ThS Nguyễn Thị Kim Phụng... delete from bảng Dim bảng fact 20 GVHD: ThS Nguyễn Thị Kim Phụng  Lược đồ tồn q trình trích xuất liệu bảng Dim  Lược đồ tồn q trình trích xuất liệu bảng Fact 21 GVHD: ThS Nguyễn Thị Kim Phụng

Ngày đăng: 22/08/2021, 02:05

TỪ KHÓA LIÊN QUAN

w