1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu datamining trong microsoft SQL server 2005 integration services

82 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 82
Dung lượng 1,68 MB

Nội dung

Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Chương 1: Khái niệm khai thác liệu Giới thiệu Việc khai thác liệu thường mô tả q trình lấy thơng tin có giá trị, xác thực từ sở liệu lớn Nói cách khác, việc khai thác liệu bắt nguồn từ dạng mẫu khuynh hướng tồn liệu Các mẫu khuynh hướng gom lại với định nghĩa mơ hình khai thác Các mơ hình áp dụng cho kịch nghiệp vụ riêng biệt như: - Dự đoán việc bán hàng - Chuyển thư đến khách hàng định - Xác định sản phẩm có khả bán với - Tìm trình tự mà khách hàng chọn sản phẩm Một khái niệm quan trọng xây dựng mơ hình khai thác phần tiến trình lớn bao gồm từ việc xác định vấn đề mà mô hình giải thích, đến việc triển khai mơ hình vào mơi trường làm việc Tiến trình định nghĩa việc triển khai bước sau: Bước 1: Xác định vấn đề Bước Chỉnh sửa liệu Bước Thăm dò liệu Bước Xây dựng mơ hình Bước Thăm dị thơng qua mơ hình Bước Triển khai cập nhật mơ hình Biểu đồ sau mô tả mối quan hệ bước tiến trình, sử dụng cơng nghệ Microsoft SQL Server 2005 để hoàn thành bước SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Hình 1.1: Mô tả mối quan hệ bước tiến trình Mặc dù tiến trình minh họa biểu đồ hình trịn, bước khơng trực tiếp dẫn đến bước Tạo mô hình khai thác liệu tiến trình động lặp lại Sau thăm dị liệu, nhận liệu không đủ để tạo mơ hình khai thác thích hợp, phải tìm thêm liệu Có thể xây dựng nhiều mơ hình nhận chúng khơng giải vấn đề đưa định nghĩa vấn đề, phải xác định lại vấn đề Có thể cập nhật mơ hình sau chúng triển khai nhiều liệu trở nên hiệu Điều quan trọng để hiểu tạo mơ hình khai thác liệu tiến trình, bước tiến trình lập lại nhiều lần cần thiết để tạo mơ hình tốt SQL Server 2005 cung cấp môi trường hội nhập để tạo làm việc với mơ hình khai thác liệu, gọi Business Intelligence Development Studio Môi trường bao gồm thuật toán khai thác liệu công cụ mà làm cho việc xây dựng giải pháp toàn diện cho dự án khác dễ Các bước tiến trình khai thác liệu 2.1 Xác định vấn đề Bước tiến trình khai thác liệu (được in đậm biểu đồ bên (Hình 1.2)), để xác định rõ ràng vấn đề nghiệp vụ: SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Hình 1.2: Xác định vấn đề Bước bao gồm việc phân tích yêu cầu nghiệp vụ, xác định phạm vi vấn đề, xác định điểm quan trọng mơ hình đánh giá, xác định mục tiêu cuối cho dự án khai thác liệu Những công việc thông dịch thành câu hỏi như: - Đang tìm kiếm gì? - Dự đốn thuộc tính dataset? - Đang tìm dạng quan hệ nào? - Muốn dự đốn từ mơ hình khai thác liệu hay tìm dạng mẫu kết hợp yêu thích - Dữ liệu phân bố nào? - Các cột liên quan nào, hay có nhiều bảng mối quan hệ chúng nào? Để trả lời câu hỏi này, phải tìm hiểu liệu thực tế, điều tra nhu cầu người dùng nghiệp vụ với quan tâm liệu thực tế Nếu liệu không cung cấp cho nhu cầu người dùng, phải xác định lại dự án SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 2.2 Chỉnh sửa liệu Bước thứ hai tiến trình khai thác liệu (được in đậm mơ hình bên (Hình 1.3)), để củng cố chỉnh sửa lại liệu xác định bước xác định vấn đề: Hình 1.3: Chỉnh sữa liệu Microsoft SQL Server 2005 Integration Services (SSI) chứa tất công cụ, bao gồm việc thay đổi liệu rõ ràng vững Dữ liệu chứa nhiều nơi cơng ty định dạng khác nhau, hay có mâu thuẫn bị rạn nứt hay số mục Ví dụ: Dữ liệu khách hàng mua hàng hóa trước khách hàng sinh ra, hay khách hàng mua sắm cửa hàng cách nhà khoảng 2000 dặm Trước bạn bắt đầu xây dựng mô hình, phải sửa chữa vấn đề Điển làm việc với số lượng lớn dataset đọc lướt qua tất giao tác Do đó, phải sử dụng dạng tự động, Integration Services, để khảo sát tất liệu tìm mâu thuẫn 2.3 Khảo sát liệu Bước thứ ba tiến trình khai thác liệu (được in đậm mơ hình bên (Hình 1.4)) khảo sát liệu sửa chữa SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Hình 1.4: Khảo sát liệu Phải hiểu liệu để đưa định thích hợp tạo mơ hình Các kĩ thuật khảo sát bao gồm tính tốn giá trị nhỏ lớn nhất, tính tốn độ trung bình độ chênh lệch, nhìn vào thuộc tính liệu Sau đó, khảo sát liệu, định xem dataset có chứa liệu bị rạn nứt hay khơng, sau nghĩ chiến thuật để giải vấn đề Data Source View Designer BI Develop Studio chứa nhiều công cụ mà sử dụng để khảo sát liệu 2.4 Xây dựng mơ hình Bước thứ tư tiến trình khai thác liệu (được in đậm mơ hình bên (Hình 1.5)) để xây dựng mơ hình khai thác SVTH: Hồng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Hình 1.5: Xây dựng mơ hình Trước xây dựng mơ hình, phải phân chia ngẫu nhiên liệu sửa chữa thành dataset thử Sử dụng dataset thử để xây dựng mơ hình, dataset thử để kiểm tra độ xác mơ hình cách ghi lại query nghi ngờ Có thể sử dụng Percentage Sampling Transformation Integration Services để phân chia dataset Sẽ sử dụng kiến thức thu từ bước khảo sát liệu để giúp cho việc xác định tạo mơ hình khai thác Một mơ hình tiêu biểu chứa cột liệu đưa vào, cột xác định, cột dự đốn Có thể xác định cột sau mơ hình cách sử dụng ngôn ngữ DataMining Extensions (DMX), hay Data Mining Wizard BI Development Studio Sau xác định cấu trúc mơ hình khai thác, xử lý nó, đưa vào cấu trúc với dạng mẫu mơ tả mơ hình Điều hiểu “training” mơ hình Các mẫu mơ hình tìm thấy cách lướt qua liệu gốc thông qua thuật toán SQL Server 2005 chứa thuật tốn khác cho dạng mơ hình mà thường xây dựng Có thể sử dụng tham số để điều chỉnh thuật tốn Mơ hình khai thác xác định đối tượng cấu trúc khai thác liệu, đối tượng mơ hình khai thác liệu, thuật tốn khai thác liệu SVTH: Hồng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Microsoft SQL Server 2005 Analysis Services (SSAS) bao gồm thuật toán sau: - Microsoft Decision Trees Algorithm - Microsoft Clustering Algorithm - Microsoft Naive Bayes Algorithm - Microsoft Association Algorithm - Microsoft Sequence Clustering Algorithm - Microsoft Time Series Algorithm - Microsoft Neural Network Algorithm (SSAS) - Microsoft Logistic Regression Algorithm - Microsoft Linear Regression Algorithm 2.5 Khảo sát thơng qua mơ hình Bước thứ năm tiến trình khai thác liệu (được in đậm mơ hình bên (Hình 1.6)) để khảo sát mơ hình mà xây dựng kiểm tra hiệu chúng Hình 1.6: Khảo sát thơng qua mơ hình SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Khơng muốn đưa mơ hình vào mơi trường sản xuất mà chưa có kiểm tra hoạt động Ngồi ta tạo nhiều mơ hình phải định mơ hình thi hành tốt Nếu khơng có mơ hình tạo bước xây dựng mơ hình sản xuất tốt, phải trở lại bước trước tiến trình, hay phải xác định lại vấn đề hay phải nghiên cứu lại liệu dataset gốc Có thể khảo sát khuynh hướng mẫu mơ hình mà thuật tốn tìm ách sử dụng nhìn tổng quan Data Mining Designer BI Development Studio Cũng kiểm tra mơ hình tạo dự đốn tốt sử dụng công cụ designer lift chart classifivation matrix Những công cụ yêu cầu liệu thử mà phân chia từ dataset gốc bước xây dựng mơ hình 2.6 Triển khai cập nhật mơ hình Bước cuối tiến trình khai thác liệu (được in đậm mơ hình bên (Hình 1.7)) để triển khai vào mơi trường sản xuất mơ hình hoạt động tốt Hình 1.7: Triển khai cập nhật mơ hình Sau mơ hình khai thác tồn mơi trường sản xuất, thực thi nhiều công việc dựa nhu cầu Sau vài cơng việc thi hành: SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp - GVHD: Ths:Võ Đình Bảy Sử dụng mơ hình để tạo dự đốn, mà sử dụng sau để tạo định nghiệp vụ SQL Server cung cấp ngơn ngữ DMX mà dùng để tạo query dự đoán, Prediction Query Builder để giúp xây dựng query - Đưa chức khai thác liệu trực tiếp vào ứng dụng Có thể bao gồm Analysis Management Objects (AMO) hay assembly bao gồm việc thiết lập đối tượng mà ứng dụng sử dụng để tạo, thay đổi, xử lý xóa cấu trúc khai thác mơ hình khai thác Như lựa chọn, gởi XML cho Analysis (XMLA) mẫu tin trực tiếp đến Analysis Service - Sử dụng Integration Service để tạo đóng gói mà mơ hình khai thác sử dụng để phân chia thông minh liệu nguồn vào thành nhiều bảng Ví dụ, sở liệu tiếp tục cập nhật với khách hàng tiềm năng, sử dụng mơ hình khai thác với Integration Services để phân chia liệu đầu vào khách hàng, người chi trả cho sản phẩm khách hàng dường không chi trả cho sản phẩm - Tạo báo cáo để người dùng trực tiếp nêu query với mơ hình khai thác tồn Cập nhật mơ hình phần chiến lược triển khai Khi liệu nhập vào tổ chức nhiều phải xử lý lại mơ hình, cách cải thiện hiệu chúng SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 10 GVHD: Ths:Võ Đình Bảy Chương 2: Các thuật tốn khai thác liệu Giới thiệu chung Thuật toán khai thác liệu kỹ thuật để tạo mơ hình khai thác Để tạo mơ hình, thuật tốn phải phân tích thiết lập liệu, tìm kiếm mẫu đặc trưng xu hướng Thuật tốn sau sử dụng kết việc phân tích để xác định tham số mơ hình khai thác Mơ hình khai thác mà thuật tốn tạo có nhiều dạng khác nhau, bao gồm: - Việc thiết lập luật mô tả làm cách sản phẩm gom nhóm lại với thành thao tác - Cây định dự đoán khách hàng cụ thể mua sản phẩm hay không - Mô hình tốn học dự đốn việc mua bán - Thiết lập nhóm mơ tả case dataset liên quan đến Microsoft SQL Server 2005 Analysis Services (SSAS) cung cấp nhiều thuật toán cho giải pháp khai thác liệu bạn Các thuật toán tập tất thuật tốn dùng cho việc khai thác liệu Bạn sử dụng thuật tốn hãng thứ ba tuân theo đặc tả OLE DB for Data Mining Giới thiệu thuật toán: Microsoft phát triển SQL Server 2005 AS, họ hồn thiện thuật tốn thường sử dụng DataMining cách hoàn chỉnh so với SQL Server 2000 AS, bao gồm : MS(Microsoft) Decision Tree, MS Clustering, MS Naïve Bayes, MS Time Series, MS Association, MS Sequence Clustering, MS Neural Network, MS Linear Regression, MS Logistic Regression Việc ứng dụng thuật toán trình bày phần sau SVTH: Hồng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 68 GVHD: Ths:Võ Đình Bảy Click OK SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 69 GVHD: Ths:Võ Đình Bảy Click Next đặt tên cho data source SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 70 GVHD: Ths:Võ Đình Bảy Click Finish • Tạo Data Source Views Click phải Data Source Views chọn New Data Source View.Chọn Data Source tồn SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 71 GVHD: Ths:Võ Đình Bảy Chọn view chạy chương trình SVTH: Hồng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 72 GVHD: Ths:Võ Đình Bảy Đặt tên cho Data Source View SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 73 GVHD: Ths:Võ Đình Bảy Click Finish • Tạo relationship view: Nếu liệu phục vụ cho việc thực thi mơ hình, ta tạo mối quan hệ many-to-one view Sauk hi tạo quan hệ xong view lồng vào tạo mơ hình • Tạo Mining Structures Click phải Mining Structures chọn New Mining Structures SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 74 GVHD: Ths:Võ Đình Bảy Click Next chọn From existing relational database or data warehouse SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 75 GVHD: Ths:Võ Đình Bảy Click Next Chọn thuật tốn sử dụng SVTH: Hồng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 76 GVHD: Ths:Võ Đình Bảy Chọn Data Source View SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 77 GVHD: Ths:Võ Đình Bảy Click Next chọn bảng Case (cha) bảng Nested (con) SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 78 GVHD: Ths:Võ Đình Bảy Click Next SVTH: Hồng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 79 GVHD: Ths:Võ Đình Bảy Click Next SVTH: Hồng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 80 GVHD: Ths:Võ Đình Bảy Click Next đặt tên SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 81 GVHD: Ths:Võ Đình Bảy Click Finish SVTH: Hồng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ Án Tốt Nghiệp 82 GVHD: Ths:Võ Đình Bảy TÀI LIỆU THAM KHẢO [1] Microsoft Corporation - MSDN – Nhà xb – năm xb [2] Nguyễn Thiện Bằng (Chủ biên) – Phương Lan (Hiệu đính) – Khám phá SQL Server 2005 – Nhà xuất lao động xã hội – 2006 [3] Zhao Hui Tang – Jamie Mac Lennan – Data Mining With SQL Server 2005 SVTH: Hoàng Thị Thu-104102128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... Đình Bảy Microsoft SQL Server 2005 Analysis Services (SSAS) bao gồm thuật toán sau: - Microsoft Decision Trees Algorithm - Microsoft Clustering Algorithm - Microsoft Naive Bayes Algorithm - Microsoft. .. Giới thiệu thuật toán: Microsoft phát triển SQL Server 2005 AS, họ hồn thiện thuật tốn thường sử dụng DataMining cách hoàn chỉnh so với SQL Server 2000 AS, bao gồm : MS (Microsoft) Decision Tree,... cố chỉnh sửa lại liệu xác định bước xác định vấn đề: Hình 1.3: Chỉnh sữa liệu Microsoft SQL Server 2005 Integration Services (SSI) chứa tất công cụ, bao gồm việc thay đổi liệu rõ ràng vững Dữ liệu

Ngày đăng: 01/11/2022, 19:26

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w