1. Trang chủ
  2. » Công Nghệ Thông Tin

Đồ án SQL báo cáo SSAS

39 773 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 39
Dung lượng 816,73 KB

Nội dung

Mục lục Business Intelligence (BI) Hiện nay, khái niệm về Business Intelligence (BI, tạm dịch là Kinh doanh thông minh hay trí tuệ doanh nghiệp) ở Việt Nam còn khá mới mẻ và các doanh nghiệp lớn ở Việt Nam Vẫn chưa triển khai BI vì rất nhiều lý do. Có rất nhiều định nghĩa về BI như dưới đây, mỗi định nghĩa nêu lên một đặc trưng nổi bật của BI nhưng chung qui lại tất cả đều đề cập đến khả năng trợ giúp ra quyết định hiệu quả trong kinh doanh của BI. Dưới đây là một số định nghĩa về BI Business Intelligence đề cập đến các kỹ năng, qui trình, công nghệ, ứng dụng được sử dụng để hỗ trợ ra quyết định (Business Intelligence (BI) refers to skills, processes, technologies, applications and practices used to support decision making). BI là các ứng dụng và công nghệ để chuyển dữ liệu doanh nghiệp thành hành động (BI is the applications and technologies transforming Business Data into Action) Hoặc BI là công nghệ mới giúp doanh nghiệp hiểu biết về quá khứ và dự đoán tương lai (BI is the new technology for understanding the past & predicting the future) Tóm lại: BI là qui trình và công nghệ mà các doanh nghiệp dùng để kiểm soát khối lượng dữ liệu khổng lồ, khai phá tri thức giúp cho các doanh nghiệp có thể đưa các các quyết định hiệu quả hơn trong hoạt động kinh doanh của mình. Công nghệ BI (BI technology) cung cấp một cách nhìn toàn cảnh hoạt động của doanh nghiệp từ quá khứ, hiện tại và các dự đoán tương lai. Mục đích của BI là hỗ trợ cho doanh nghiệp ra quyết định tốt hơn. Vì vậy một hệ thống BI (BI system) còn được gọi là hệ thống hỗ trợ quyết đinh (Decision Support System -DSS) Các thành phần chính của hệ thống BI được mô tả như hình dưới đây Vấn đề cốt lõi trong hệ thống BI là kho dữ liệu (Data Warehouse) và khai phá dữ liệu (Data Mining) vì dữ liệu dùng trong BI là dữ liệu tổng hợp (Nhiều nguồn, nhiều định dạng, phân tán và có tính lịch sử) đó là đặc trung của kho dữ liệu. Đồng thời việc phân tích dữ liệu trong BI không phải là những phân tích đơn giản (query, Filtering) mà là những kỹ thuật trong khai phá dữ liệu (Data Mining) dùng để phân loại (classification) phân cụm (clustering), hay dự đoán (Prediction). Vì vậy BI có mối quan hệ rất chặt chẽ với Data Warehouse và Data mining. Hệ thống BI đơn giản có thể được xem là sự kết hợp của 3 thành phần chính như sau: Trong đó: Data Warehouse (Kho dữ liệu): Chứa dữ liệu tổng hợp của doanh nghiệp Data Mining (Khai phá dữ liệu): Các kỹ thuật dùng để khai phá dữ liệu và phát hiện tri thức như phân loại (Classification), phân nhóm (clustering), phát hiện luật kết hợp (Association Rule), Dự đoán (Predcition),… Business Analyst (Phân tích kinh Doanh: Các nhà lãnh đạo Doanh nghiệp đưa ra những quyết định chiến lược đối với hoạt động kinh doanh của doanh nghiệp. Dưới đây là quan điểm của SAS về BI BI có lợi ích gì? • BI làm tăng khả năng kiểm soát thông tin của doanh nghiệp một cách chính xác, hiệu quả từ đó có thể phân tích, khai phá tri thức giúp doanh nghiệp có thể dự đoán về xu hướng của giá cả dịch vụ, hành vi khách hàng, phát hiện khách hàng tiềm năng để đề ra các chiến lược kinh doanh phù hợp nhằm tăng khả năng cạnh tranh doanh nghiệp. • BI giúp cho các doanh nghiệp sử dụng thông tin một cách hiệu quả, chính xác để thích ứng với môi trường thay đổi liên tục và cạnh tranh khốc liệt trong kinh doanh. • Ra các quyết định kinh doanh hiệu quả hơn • Xác định được vị trí và sức cạnh tranh của DN • Phân tích hành vi khách hàng • Xác định mục đích và chiến lược Marketing • Dự đoán tương lai của doanh nghiệp • Xây dựng chiến lược kinh doanh • Giữ được khách hàng có giá trị và dự đoán khách hành tiềm năng Các công nghệ hỗ trợ BI (Technologies supporting for BI) • Kho dữ liệu (Data warehousing), • Hệ thống hoạch định nguồn lực Doanh nghiệp (Enterprise resource planning (ERP) systems) • Công nghệ truy vấn và lập báo cáo (Query and report writing technologies) • Công cụ khai phá và phân tích dữ liệu (Data mining and analytics tools) • Hệ thống hỗ trợ ra quyết định (Decision support systems) • Quản lý quan hệ khách hàng (Customer relation management) Lưu ý Mặc dù chúng ta gọi là Business Intelligence (BI) nhưng khái niệm và các kỹ thuật của BI có thể dùng được cho hầu hết các tổ chức kinh tế xã hội như giáo dục (Education), chính phủ(Government), chăm sóc sức khỏe (health care)…. Các hoạt động chính của IB (BI Activities) • Hỗ trợ quyết định (decision support), • Truy vấn và báo cáo (query and reporting), • Phân tích xử lý trực tuyến (online analytical processing (OLAP)), • Phân tích thống kê (statistical analysis), • Dự đoán (forecasting), và • Khai phá dữ liệu (data mining). Business Intelligence Development Studio (BIDS) của Microsoft BIDS là công cụ cho phép tổ chức quản lý và khai thác kho dữ liệu (Xử lý phân tích trực tuyến) cũng như xây dựng các mô hình khai phá dữ liệu rất dễ sử dụng và hiệu quả của Microsoft. BIDS cho phép triển khai các mô hình khai phá dữ liệu sau: Micorosft Decision Tree (Cây quyết định) Microsoft Clustering (Phân cụm) Micorosoft Naive Bayes(Phân lớp với Bayes Rules) Micorosoft Time Series (Chuỗi thời gian) Micorosoft Association (Luật kết hợp) Micorsoft Sequence Clustering (Phân tích chuỗi) Microsoft Neural Network (Mạng Neural) Micorsoft Linear Regression(Hồi qui tuyến tính) Micorsoft Logistics Regression(Hồi qui logistics) Qui trình Xây dựng mô hình khai phá dữ liệu với BIDS như sau : • Tạo mới 1 project (Analysis Services Project) • Tạo một Data Source • Tạo một Data Source View • Tạo một Mining model structure. • Tạo các Mining models. • Khai thác Mining models. • Kiểm tra độ chính xác của Mining Models. • Sử dụng Mining Models để dự đoán. Mô tả dữ liệu và mục tiêu khai phá dữ liệu Cơ sở dữ liệu được sử dụng để minh họa trong bài viết này có tên là AdventureWorksDW, đây là kho dữ liệu của công ty Adventure Works chuyên sản xuất xe đạp. Cơ sở dữ liệu mẫu này có sẵn khi bạn cài SQL Server. Mục đích của việc xây dựng các mô hình khai phá dữ liệu nhằm để phân loại khách hàng, tìm ra các khách hàng tiềm năng cũng như dự đoán được khách hàng nào có thể mua sản phẩm của công ty Adventure Works giúp cho bộ phận Marketing xây dựng các chiến lược quảng cáo, tiếp thị nhằm mở rộng thị trường, tìm kiếm khách hàng, mở rộng kinh doanh. Sau đây mô tả chi tiết từng bước quá trình xây dựng mô hình khai phá dữ liệu với BIDS 1.ThuËt to¸n c©y quyÕt ®Þnh (MS Decision Tree): a. Gới thiệu Cây quyết định là một flow-chart có cấu trúc cây. Trong đó mỗi node biểu diễn giá trị của mỗi thuộc tính đầu vào và node lá đại diện cho các phân loại còn các nhánh đại diện cho luật kết hợp các thuộc tính dẫn tới phân loại đó. b. Nguyên tắc cơ bản của giải thuật Nguyên tắc cơ bản của giải thuật cây quyết định là chia dữ liệu một cách đệ quy từ trên xuống và theo cách thức chia để trị thành các tập hợp con. - Ban đầu toàn bộ dữ liệu ở gốc, - Chọn thuộc tính phân loại tốt nhất( mục đích làm tối thiểu hóa, chẳng hạn tối thiểu chiều cao của cây), - Dữ liệu đợc phân chia theo các trạng thái của thuộc tính đợc chọn. Lặp lại quá trình trên với tập dữ liệu ở mỗi nút vừa tạo ra. Điều kiện để dừng phân chia là: - ở một nút tất cả phần tử của dữ liệu tại nút đó thuộc về cùng một lớp. - Không còn thuộc tính nào để thực hiện phân chia tiếp. - Số lợng phần tử của dữ liệu tại một nút bằng không, trong thực tế tập dữ liệu đầu vào rất lớn, với điều kiện dừng này cây quyết định thu đợc rất phức tạp, với những đờng đi dài. Để tránh hiện tợng này trong thuật toán MS Decision tree, đã tích hợp tham số MINIMUM_SUPPORT để thiết lập giá trị ngỡng, không chia một nút nếu tạo ra nút có số phần tử nhỏ hơn ngỡng này. Để chọn thuộc tính hữu ích nhất, chúng ta cần một đại lợng mà có thể đánh giá trờng hợp nào cho ra một sự phân chia cân bằng nhất (với chiều sâu và chiều rộng của cây). Thuật toán MS Decision tree cung cấp 3 phơng pháp tính điểm để đo độ lợi thông tin: Entropy, Bayesian with K2 Prior và Bayesian Dirichlet Equivalent with Uniform prior. Phơng pháp tính điểm Entropy: Phơng pháp tính điểm này dựa trên công thức tính Entropy trong lý thuyết thông tin của nhà vật lý, toán học Shannon. Lý thuyết thông tin của Shannon vào năm 1948 cung cấp khái niệm entropy để đo tính hỗn loạn của một tập hợp. Một tập hợp là thuần nhất nếu tất cả các phần tử của tập hợp đều thuộc cùng một loại, và khi đó độ hỗn loạn của tập hợp này thấp nhất. Khi tập hợp thuần nhất thì ta biết chắc chắn về giá trị của một phân tử cần phần loại có thuộc về tập này hay không? hay ta có lợng thông tin về tập đó là cao nhất, và ngợc lại, khi tập hợp có độ hỗn loạn cao nhất, thì ta không thể cho biết chính xác phần tử kiểm tra thuộc loại nào? hay lợng thông tin ta có đợc về tập này là thấp ít nhất. Giả sử một tập dữ liệu S có hai lớp: lớp N và lớp P, với n phần tử thuộc lớp N và p phần tử thuộc lớp P. Entropy đo độ hỗn loạn của tập S nh sau: Entropy(S) = - )(log 2 pn n pn n ++ - )(log 2 pn p pn p ++ = -p 1 log 2 p 1 - p 2 log 2 p 2 . với p 1 = pn n + là xác suất phần tử bất kỳ thuộc lớp N, p 2 = pn p + là xác suất phần tử bất kỳ thuộc lớp P. Một cách tổng quát hơn, nếu S có c lớp, và p i là xác suất của một phần tử trong tập dữ liệu thuộc lớp thứ i, thì ta có công thức tính entropy tổng quát: Entropy(S)= i c i i pp 2 1 log = . Theo Shannon thì lợng thông tin nhận đợc chính là lợng giảm độ hỗn loạn của tập dữ liệu sau khi phân chia, và ta gọi độ giảm tính hỗn loạn này là độ lợi thông tin. Vậy, điều ta mong muốn ở đây là làm sao chọn đợc thuộc tính mà sau khi phân chia chúng ta đợc các tập con thuần nhất, càng nhanh càng tốt. Tức là chọn thuộc tính mang lại độ lợi thông tin lớn nhất. Giả sử khi ta sử dụng thuộc tính A có v trạng thái{ S 1 , S 2 , , S v }, entropy của tập dữ liệu sau khi phân chia trên thuộc tính này là: Entropy(A) = = v k k S S 1 || || Entropy(S k ). với |S k | là số phần tử thuộc trạng thái S k của thuộc tính A và |S| là số phần tử của tập dữ liệu S. Và độ lợi thông tin có đợc bởi việc phân nhánh trên thuộc tính A là: Gain(A) = Entropy(S) - Entropy(A) Chúng ta có thể minh họa nguyên tắc của thuật toán qua việc xét ví dụ: Phòng Marketing của công ty Adventure Works Cycle muốn dự đoán một khách hàng với những đặc điểm đợc xác định có mua xe tại công ty hay không?, dựa vào những đặc điểm của các khách hàng đã mua sản phẩm của công ty đợc lu trong cơ sở dữ liệu. Bằng cách sử dụng thuật toán MS Decision tree để phân tích những thông tin này, phòng Marketing có thể xây dựng một mô hình khai phá có cấu trúc: Structure TM Decsion Tree CommuteDistance (KC từ nhà đến nơi làm việc) Input BikeBuyer Predict Age Input CustomerKey Key Number Car Owner Input Total Children Input Bảng 2.5: Cấu trúc mô hình TM Decision Tree Từ dữ liệu của công ty ta có các bảng sau; [...]... 3.Thuật toán MS Naive Bayes a Giới thiệu Thuật toán MS Naive Bayes là một thuật toán phân loại đợc Microsoft SQL Server 2005 cung cấp để sử dụng trong mô hình KPDL Khi mô hình KPDL sử dụng thuật toán này, chúng ta có thể xác định một số thuộc tính đầu vào giúp việc phân loại các trạng thái của thuộc tính dự đoán tốt nhất, và giả sử rằng các thuộc tính độc lập với nhau Do giả thiết này nên thuật toán có... Bayes Thuật toán MS Naive Bayes xây dựng mô hình khai phá nhanh hơn các thuật toán khác Thuật toán này chỉ hỗ trợ các thuộc tính rời rạc (discrete, ví dụ: Gới tính), nếu tạo một mô hình Naive Bayes với thuộc tính liên tục (continuous) sẽ sinh ra lỗi b Nguyên tắc cơ bản của giải thuật Thuật toán tính xác suất có điều kiện các trạng thái của mỗi cột đầu vào với mỗi trạng thái của cột dự báo Định nghĩa... g, thì thuật toán chỉ chọn g đầu vào có độ phụ thuộc với thuộc tính đầu ra lớn nhất dựa trên sự đánh giá của số entropy Giá trị mặc định bằng 255 Maximum_Output_Attribute xác định số đầu ra lớn nhất Nếu thiết lập giá trị của tham số này bằng g và số thuộc tính đầu ra lớn hơn g, thì thuật toán chỉ chọn g đầu ra mà độ phụ thuộc của các thuộc tính đầu vào với nó lớn nhất dựa trên sự đánh giá của số entropy... trung tuổi và già - Thiết lập bằng 1 để chỉ ra cây có dạng nhị phân Tức thuật toán phải tách ra thành hai nút với lựa trọng trạng thái là: trẻ và không trẻ - Thiết lập bằng 2 để không hạn chế số phân chia Tức là thuật toán phân tách thành 3 nút với các trạng thái: trẻ, trung tuổi và già - Mặc định thiết lập bằng 3, để thuật toán chọn số phân chia tối u nhất Maximum_Input_Attribute xác định số đầu vào... Biểu đồ thể hiện sự phân loại theo thuộc tính Number Car Owner Bike Buyer 1 0 0 2648 2517 TotalChildren 1 2 3 2172 1929 1061 1447 1850 1133 4 5 875 447 1428 977 Bảng 2.9: Sự phân loại theo thuộc tính Total Children Hình 2.6: Biểu đồ thể hiện sự phân loại theo thuộc tính Total Children Trong các bảng trên mỗi cột là một trạng thái của thuộc tính đầu vào, mỗi dòng là một trạng thái của thuộc tính dự đoán,... thái của thuộc tính dự đoán Các biểu đồ biểu diễn tơng quan đó Cột màu đỏ biểu diễn số khách hàng mua xe và cột màu xanh biểu diễn số khách hàng không mua Dữ liệu của công ty gồm có 18484 khách hàng trong đó có 9132 ngời mua xe, 9352 ngời không mua, nên entropy của tập dữ liệu này là: Entropy(S) = - 9132 18484 log2( 9132 18484 )- 9352 18484 log2( 9352 18484 )= 0,9999 Nếu rẽ nhánh trên thuộc tính đầu... hộp thoại Mining Legned) Mỗi nút chứa một biểu đồ hình cột đại diện cho tỉ lệ các trạng thái của thuộc tính dự đoán thỏa mãn luật tại nút đó (nh hình trên màu xanh biểu diễn số ngời không mua, màu đỏ nhạt biểu diễn số ngời mua xe) Khi một nút đợc chọn trên hộp thoại Mining Legned sẽ hiển thị tổng số phần tử, số phần tử của mỗi trạng thái của thuộc tính dự đoán thỏa mãn luật tại nút đó và xác suất tơng... vùng có thể giúp họ dự đoán sự hởng ứng của khách hàng với chiến dịch quảng cáo, bằng cách xem xét những ngời đã từng mua hay không mua xe đạp tại công ty chủ yếu là thuộc độ tuổi nào, khoảng cách từ nhà đến nơi làm việc bao nhiêu xa Đặc biệt, họ muốn thấy đợc sự khác nhau giữa đặc điểm của các khách hàng đã mua và không mua xe đạp của công ty nh thế nào? Bằng cách sử dụng thuật toán MS Naive Bayes để... Input Input Vùng Tổng số đứa trẻ Bảng 2.1: Cấu trúc của mô hình TM Naive Bayes Thuộc tính dự đoán BikeBuyer với hai trạng thái 0 và 1 tơng ứng với sự không mua và mua xe của khách hàng Nh đã nói ở trên: Thuật toán tính xác suất có điều kiện các trạng thái của mỗi cột đầu vào với mỗi trạng thái của cột dự báo Trong ví dụ này với cột đầu vào CommuteDistance, từ cở sở dữ liệu về 18484 khách hàng của công... B) Ví dụ : Trong chiến lợc quảng cáo về mẫu xe đạp mới của phòng Marketing thuộc công ty Adventure Works Cycle, họ quyết định dùng cách phát tờ rơi Để giảm chi phí, họ muốn chỉ gửi đến những khách hàng quan tâm đến mặt hàng này Công ty đã lu thông tin về những đặc điểm của khách hàng mua sản phẩm của công ty trong một vài năm trớc đây (cơ sở dữ liệu đính kèm bộ cài SQL Server 2005) Họ muốn sử dụng . có thuộc về tập này hay không? hay ta có lợng thông tin về tập đó là cao nhất, và ngợc lại, khi tập hợp có độ hỗn loạn cao nhất, thì ta không thể cho biết chính xác phần tử kiểm tra thuộc loại. gốc, - Chọn thuộc tính phân loại tốt nhất( mục đích làm tối thiểu hóa, chẳng hạn tối thiểu chiều cao của cây), - Dữ liệu đợc phân chia theo các trạng thái của thuộc tính đợc chọn. Lặp lại quá. Viewer phòng Marketing có thể xác định một khách hàng có xác suất sẽ mua xe và không mua xe là bao nhiêu, chẳng hạn với khách hàng có Number Car Owned =4 thì xác suất ngời này không mua lớn

Ngày đăng: 23/10/2014, 22:45

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w