Nghiên cứu datamining trong microsoft sql server 2005 integration services

20 210 0
Nghiên cứu datamining trong microsoft sql server 2005 integration services

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Chương 1: Khái niệm khai thác liệu Giới thiệu Việc khai thác liệu thường mô tả trình lấy thông tin có giá trị, xác thực từ sở liệu lớn Nói cách khác, việc khai thác liệu bắt nguồn từ dạng mẫu khuynh hướng tồn liệu Các mẫu khuynh hướng gom lại với định nghĩa mô hình khai thác Các mô hình áp dụng cho kịch nghiệp vụ riêng biệt như: - Dự đoán việc bán hàng - Chuyển thư đến khách hàng định - Xác định sản phẩm có khả bán với - Tìm trình tự mà khách hàng chọn sản phẩm Một khái niệm quan trọng xây dựng mô hình khai thác phần tiến trình lớn bao gồm từ việc xác định vấn đề mà mô hình giải thích, đến việc triển khai mô hình vào môi trường làm việc Tiến trình định nghĩa việc triển khai bước sau: Bước 1: Xác định vấn đề Bước Chỉnh sửa liệu Bước Thăm dò liệu Bước Xây dựng mô hình Bước Thăm dò thông qua mô hình Bước Triển khai cập nhật mô hình Biểu đồ sau mô tả mối quan hệ bước tiến trình, sử dụng công nghệ Microsoft SQL Server 2005 để hoàn thành bước SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Hình 1.1: Mô tả mối quan hệ bước tiến trình Mặc dù tiến trình minh họa biểu đồ hình tròn, bước không trực tiếp dẫn đến bước Tạo mô hình khai thác liệu tiến trình động lặp lại Sau thăm dò liệu, nhận liệu không đủ để tạo mô hình khai thác thích hợp, phải tìm thêm liệu Có thể xây dựng nhiều mô hình nhận chúng không giải vấn đề đưa định nghĩa vấn đề, phải xác định lại vấn đề Có thể cập nhật mô hình sau chúng triển khai nhiều liệu trở nên hiệu Điều quan trọng để hiểu tạo mô hình khai thác liệu tiến trình, bước tiến trình lập lại nhiều lần cần thiết để tạo mô hình tốt SQL Server 2005 cung cấp môi trường hội nhập để tạo làm việc với mô hình khai thác liệu, gọi Business Intelligence Development Studio Môi trường bao gồm thuật toán khai thác liệu công cụ mà làm cho việc xây dựng giải pháp toàn diện cho dự án khác dễ Các bước tiến trình khai thác liệu 2.1 Xác định vấn đề Bước tiến trình khai thác liệu (được in đậm biểu đồ bên (Hình 1.2)), để xác định rõ ràng vấn đề nghiệp vụ: SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Hình 1.2: Xác định vấn đề Bước bao gồm việc phân tích yêu cầu nghiệp vụ, xác định phạm vi vấn đề, xác định điểm quan trọng mô hình đánh giá, xác định mục tiêu cuối cho dự án khai thác liệu Những công việc thông dịch thành câu hỏi như: - Đang tìm kiếm gì? - Dự đoán thuộc tính dataset? - Đang tìm dạng quan hệ nào? - Muốn dự đoán từ mô hình khai thác liệu hay tìm dạng mẫu kết hợp yêu thích - Dữ liệu phân bố nào? - Các cột liên quan nào, hay có nhiều bảng mối quan hệ chúng nào? Để trả lời câu hỏi này, phải tìm hiểu liệu thực tế, điều tra nhu cầu người dùng nghiệp vụ với quan tâm liệu thực tế Nếu liệu không cung cấp cho nhu cầu người dùng, phải xác định lại dự án SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 2.2 Chỉnh sửa liệu Bước thứ hai tiến trình khai thác liệu (được in đậm mô hình bên (Hình 1.3)), để củng cố chỉnh sửa lại liệu xác định bước xác định vấn đề: Hình 1.3: Chỉnh sữa liệu Microsoft SQL Server 2005 Integration Services (SSI) chứa tất công cụ, bao gồm việc thay đổi liệu rõ ràng vững Dữ liệu chứa nhiều nơi công ty định dạng khác nhau, hay có mâu thuẫn bị rạn nứt hay số mục Ví dụ: Dữ liệu khách hàng mua hàng hóa trước khách hàng sinh ra, hay khách hàng mua sắm cửa hàng cách nhà khoảng 2000 dặm Trước bạn bắt đầu xây dựng mô hình, phải sửa chữa vấn đề Điển làm việc với số lượng lớn dataset đọc lướt qua tất giao tác Do đó, phải sử dụng dạng tự động, Integration Services, để khảo sát tất liệu tìm mâu thuẫn 2.3 Khảo sát liệu Bước thứ ba tiến trình khai thác liệu (được in đậm mô hình bên (Hình 1.4)) khảo sát liệu sửa chữa SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Hình 1.4: Khảo sát liệu Phải hiểu liệu để đưa định thích hợp tạo mô hình Các kĩ thuật khảo sát bao gồm tính toán giá trị nhỏ lớn nhất, tính toán độ trung bình độ chênh lệch, nhìn vào thuộc tính liệu Sau đó, khảo sát liệu, định xem dataset có chứa liệu bị rạn nứt hay không, sau nghĩ chiến thuật để giải vấn đề Data Source View Designer BI Develop Studio chứa nhiều công cụ mà sử dụng để khảo sát liệu 2.4 Xây dựng mô hình Bước thứ tư tiến trình khai thác liệu (được in đậm mô hình bên (Hình 1.5)) để xây dựng mô hình khai thác SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Hình 1.5: Xây dựng mô hình Trước xây dựng mô hình, phải phân chia ngẫu nhiên liệu sửa chữa thành dataset thử Sử dụng dataset thử để xây dựng mô hình, dataset thử để kiểm tra độ xác mô hình cách ghi lại query nghi ngờ Có thể sử dụng Percentage Sampling Transformation Integration Services để phân chia dataset Sẽ sử dụng kiến thức thu từ bước khảo sát liệu để giúp cho việc xác định tạo mô hình khai thác Một mô hình tiêu biểu chứa cột liệu đưa vào, cột xác định, cột dự đoán Có thể xác định cột sau mô hình cách sử dụng ngôn ngữ DataMining Extensions (DMX), hay Data Mining Wizard BI Development Studio Sau xác định cấu trúc mô hình khai thác, xử lý nó, đưa vào cấu trúc với dạng mẫu mô tả mô hình Điều hiểu “training” mô hình Các mẫu mô hình tìm thấy cách lướt qua liệu gốc thông qua thuật toán SQL Server 2005 chứa thuật toán khác cho dạng mô hình mà thường xây dựng Có thể sử dụng tham số để điều chỉnh thuật toán Mô hình khai thác xác định đối tượng cấu trúc khai thác liệu, đối tượng mô hình khai thác liệu, thuật toán khai thác liệu SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Microsoft SQL Server 2005 Analysis Services (SSAS) bao gồm thuật toán sau: - Microsoft Decision Trees Algorithm - Microsoft Clustering Algorithm - Microsoft Naive Bayes Algorithm - Microsoft Association Algorithm - Microsoft Sequence Clustering Algorithm - Microsoft Time Series Algorithm - Microsoft Neural Network Algorithm (SSAS) - Microsoft Logistic Regression Algorithm - Microsoft Linear Regression Algorithm 2.5 Khảo sát thông qua mô hình Bước thứ năm tiến trình khai thác liệu (được in đậm mô hình bên (Hình 1.6)) để khảo sát mô hình mà xây dựng kiểm tra hiệu chúng Hình 1.6: Khảo sát thông qua mô hình SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Không muốn đưa mô hình vào môi trường sản xuất mà chưa có kiểm tra hoạt động Ngoài ta tạo nhiều mô hình phải định mô hình thi hành tốt Nếu mô hình tạo bước xây dựng mô hình sản xuất tốt, phải trở lại bước trước tiến trình, hay phải xác định lại vấn đề hay phải nghiên cứu lại liệu dataset gốc Có thể khảo sát khuynh hướng mẫu mô hình mà thuật toán tìm ách sử dụng nhìn tổng quan Data Mining Designer BI Development Studio Cũng kiểm tra mô hình tạo dự đoán tốt sử dụng công cụ designer lift chart classifivation matrix Những công cụ yêu cầu liệu thử mà phân chia từ dataset gốc bước xây dựng mô hình 2.6 Triển khai cập nhật mô hình Bước cuối tiến trình khai thác liệu (được in đậm mô hình bên (Hình 1.7)) để triển khai vào môi trường sản xuất mô hình hoạt động tốt Hình 1.7: Triển khai cập nhật mô hình Sau mô hình khai thác tồn môi trường sản xuất, thực thi nhiều công việc dựa nhu cầu Sau vài công việc thi hành: SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp - GVHD: Ths:Võ Đình Bảy Sử dụng mô hình để tạo dự đoán, mà sử dụng sau để tạo định nghiệp vụ SQL Server cung cấp ngôn ngữ DMX mà dùng để tạo query dự đoán, Prediction Query Builder để giúp xây dựng query - Đưa chức khai thác liệu trực tiếp vào ứng dụng Có thể bao gồm Analysis Management Objects (AMO) hay assembly bao gồm việc thiết lập đối tượng mà ứng dụng sử dụng để tạo, thay đổi, xử lý xóa cấu trúc khai thác mô hình khai thác Như lựa chọn, gởi XML cho Analysis (XMLA) mẫu tin trực tiếp đến Analysis Service - Sử dụng Integration Service để tạo đóng gói mà mô hình khai thác sử dụng để phân chia thông minh liệu nguồn vào thành nhiều bảng Ví dụ, sở liệu tiếp tục cập nhật với khách hàng tiềm năng, sử dụng mô hình khai thác với Integration Services để phân chia liệu đầu vào khách hàng, người chi trả cho sản phẩm khách hàng dường không chi trả cho sản phẩm - Tạo báo cáo để người dùng trực tiếp nêu query với mô hình khai thác tồn Cập nhật mô hình phần chiến lược triển khai Khi liệu nhập vào tổ chức nhiều phải xử lý lại mô hình, cách cải thiện hiệu chúng SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 10 GVHD: Ths:Võ Đình Bảy Chương 2: Các thuật toán khai thác liệu Giới thiệu chung Thuật toán khai thác liệu kỹ thuật để tạo mô hình khai thác Để tạo mô hình, thuật toán phải phân tích thiết lập liệu, tìm kiếm mẫu đặc trưng xu hướng Thuật toán sau sử dụng kết việc phân tích để xác định tham số mô hình khai thác Mô hình khai thác mà thuật toán tạo có nhiều dạng khác nhau, bao gồm: - Việc thiết lập luật mô tả làm cách sản phẩm gom nhóm lại với thành thao tác - Cây định dự đoán khách hàng cụ thể mua sản phẩm hay không - Mô hình toán học dự đoán việc mua bán - Thiết lập nhóm mô tả case dataset liên quan đến Microsoft SQL Server 2005 Analysis Services (SSAS) cung cấp nhiều thuật toán cho giải pháp khai thác liệu bạn Các thuật toán tập tất thuật toán dùng cho việc khai thác liệu Bạn sử dụng thuật toán hãng thứ ba tuân theo đặc tả OLE DB for Data Mining Giới thiệu thuật toán: Microsoft phát triển SQL Server 2005 AS, họ hoàn thiện thuật toán thường sử dụng DataMining cách hoàn chỉnh so với SQL Server 2000 AS, bao gồm : MS(Microsoft) Decision Tree, MS Clustering, MS Naïve Bayes, MS Time Series, MS Association, MS Sequence Clustering, MS Neural Network, MS Linear Regression, MS Logistic Regression Việc ứng dụng thuật toán trình bày phần sau SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 11 GVHD: Ths:Võ Đình Bảy 2.1 Microsoft Decision Tree: Thuật toán Microsoft Decision Tree hỗ trợ việc phân loại hồi quy, tạo tốt mô hình dự đoán Sử dụng thuật toán dự đoán thuộc tính rời rạc liên tục Trong việc xây dựng mô hình, thuật toán khảo sát ảnh hưởng thuộc tính tập liệu kết thuộc tính dự đoán Và tiếp đến sử dụng thuộc tính input (với quan hệ rõ ràng) để tạo thành nhóm phân hoá gọi node Khi node thêm vào mô hình, cấu trúc thiết lập Node đỉnh cấy miêu tả phân tích (bằng thống kê) thuộc tính dự đoán thông qua mẫu Mỗi node thêm vào tạo dựa xếp trường thuộc tính dự đoán, để so sánh với liệu input Nếu thuộc tính input đựơc coi nguyên nhân thuộc tính dự đoán (to favour one state over another), node thêm vào mô hình Mô hình tiếp tục phát triển lúc không thuộc tính nào, tạo thành phân tách(split) để cung cấp dự báo hoàn chỉnh thông qua node tồn Mô hình đòi hỏi tìm kiếm kết hợp thuộc tính trường nó, nhằm thiết lập phân phối không cân xứng trường thuộc tình dự đoán Vì cho phép dự đoán kết thuộc tính dự đoán cách tốt 2.2 Microsoft Clustering: Thuật toán sử dụng kỹ thuật lặp để nhóm ghi từ tập hợp liệu vào liên cung có đặc điểm giống Sử dụng liên cung khám phá liệu, tìm hiểu quan hệ tồn tại, mà quan hệ không dễ dàng tìm cách hợp lý thông qua quan sát ngẫu nhiên Thêm nữa, dự đoán từ mô hình liên cung tạo bới thuật toán Ví dụ : Xem xét nhóm người sống vùng, có loại xe, ăn loại thức ăn mua sản phẩm Đây liên cung liệu, liên cung khác bao gồm người đến nhà hàng, mức lương, nghỉ nước lần năm Hãy quan sát liên cung phân phối sao? Ta biết rõ ảnh hưởng ghi SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 12 GVHD: Ths:Võ Đình Bảy tập hợp liệu Cũng ảnh hưởng có ảnh hưởng đến kết thuộc tính dự đoán? 2.3 Microsoft Naïve Bayes : Thuật toán xây dựng mô hình khai thác nhanh thuật toán khác, phuc vụ việc phân loại dự đoán Nó tính toán khả xảy trường hợp lệ thuộc tính input, gán cho trường thuộc tính dự đoán Mỗi trường sau sử dụng để dự đoán kết thuộc tính dự đoán dựa vào thuộc tính input biết Các khả sử dụng để sinh mô hình tính toán lưu trữ suốt trình xử lý khối lập phương (cube: mô hình dựng lên từ khối lập phương) Thuật toán hỗ trợ thuộc tính rời rạc liên tục, xem xét tất thuộc tính input độc lập Thuật toán cho ta mô hình khai thác đơn giản (có thể coi điểm xuất phát DataMining), tất tính toán sử dụng thiết lập mô hình, sinh xử lí cube (mô hình kích thước hợp nhất), kết trả nhanh chóng Điều tạo cho mô hình lựa chọn tốt để khai phá liệu khám phá thuộc tính input phân bố trường khác thuộc tính dự đoán nào? 2.4 Microsoft Time Series : (chuỗi thời gian) Thuật toán tạo mô hình sử dụng để dự đoán biến từ OLAP nguồn liệu quan hệ Ví dụ : Sử dụng thuật toán để dự đoán bán hàng lợi nhuận dựa vào liệu khứ cube Sử dụng thuật toán chọn nhiều biến để dự đoán (nhưng biến phải liên tục) Có thể có nhiều trường hợp cho mô hình Tập trường hợp xác định vị trí nhóm, ngày tháng xem việc bán hàng thông qua vài tháng vài năm trước SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 13 GVHD: Ths:Võ Đình Bảy Một trường hợp bao gồm tập biến (ví dụ bán hàng cửa hàng khác ) Thuật toán sử dụng tương quan thay đối biến số (cross-variable) dự đoán Ví dụ : Bán hàng trước cửa hàng hữu ích việc dự báo bán hàng tại cửa hàng 2.5 Microsoft Association : Thuật toán thiết kế đặc biệt để sử dụng phân tích giỏ thị trường (basket market) Market basket (chỉ số rổ thị trường: tức ta dùng tất loại hàng hoá có thị trường (1 siêu thị chẳng hạn ) ta nhân giá với số hàng hoá (ví dụ gạo x 10, thịt x 20…) để tính số CPI (consumer price index ) Nếu số CPI ngày hôm cao so với ngày hôm qua xảy lạm phát ) Thuật toán xem xét cặp biến/giá trị (như sản phẩm/xe đạp) item Itemset tổ hợp item transaction đơn lẻ Thuật toán lướt qua tập hợp liệu để cố gắng tìm kiếm itemset nhằm vào việc xuất nhiếu transaction Tham chiếu Support định nghĩa có transaction mà itemset xuất trước cho quan trọng Ví dụ: itemset phổ biến gồm{Gender="Male", Marital Status = "Married", Age="30-35"} Mỗi itemset có kích thước tổng số item mà có (ở ví dụ 3) Thường mô hình kết hợp làm việc dựa vào tập liệu chứa bảng ẩn, kiểu danh sách khách hàng ẩn (nested) theo sau bảng mua bán Nếu bảng ẩn tồn tập liệu, khoá ẩn (như sản phẩm bảng mua bán ) xem item Thuật toán tìm luật kết hợp với Itemset Một luật mô hình kết hợp kiểu A,B=>C (kết hợp với khả xảy ) Khi tất A, B, C Itemset phổ biến Dấu “=>”nói C dự đoán từ A B Khả SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 14 GVHD: Ths:Võ Đình Bảy giới hạn biến mà xác định khả nhỏ tức luật đựơc xét đến Khả gọi “sự tin cậy” văn phong DataMining Mô hình kết hợp hữu ích cross-sell collaborative-filtering Ví dụ : Bạn sử dụng mô hình kết hợp để dự đoán hạng mục mà khách hàng muốn mua dựa vào danh mục hàng hoá khác basket họ 2.6 Microsoft Sequence Clustering: Thuật toán phân tích đối tượng liệu có trình tự, liệu bao gồm chuỗi giá trị rời rạc Thường thuộc tính trình tự chuỗi ảnh tới tập kiện trật tự rõ ràng Bằng cách phân tích chuyển tiếp tình trạng chuỗi, thuật toán dự đoán tương lai chuỗi có quan hệ với Thuật toán pha trộn thuật toán chuỗi thuật toán liên cung Thuật toán nhóm tất kiện phức tạp với thuộc tính trình tự vào phân đoạn dựa vào giống chuỗi Một đặc trưng sử dụng chuỗi kiên cho thuật toán phân tích khách hàng web cổng thông tin (portal site) Cổng thông tin tập tên miền liên kết như: tin tức, thời tiết, giá tiền, mail, thể thao Mỗi khách hàng liên kết với chuỗi click web tên miền Thuật toán nhóm khách hàng web nhiều nhóm dựa kiểu hành động họ Những nhóm trực quan hoá, cung cấp chi tiết để biết mục đích sử dụng trang web khách hàng 2.7 Microsoft Neural Network: Trong MS SQL server 2005 AS, thuật toán tạo mô hình khai thác hồi quy phân loại cách xây dựng đa lớp perceptom neuron Giống thuật toán định, đưa tình trạng thuộc tính dự đoán Thuật toán tính toán khả trang thái thuộc tính input Thuật toán xử lý toàn thể trường hợp Sự lặp lặp lai so sánh dự đoán phân loại trường với phân loại trường biết Sai số từ phân loại ban đầu (của phép lặp ban đầu) toàn trường hợp trả network sử dụng để thay đổi thực thi network cho phép lặp kế theo,v.v Có thể sau sử dụng khả để dự đoán kết cảu thuộc tính dự đoán, dựa SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 15 GVHD: Ths:Võ Đình Bảy thuộc tính input khác biệt thuật toán thuật toán Cây định kiến thức xử lí tham số network tối ưu nhằm làm nhỏ lỗi định tách luật, mục đích để cực đại hoá thông tin có lợi Thuật toán hỗ trợ thuộc tính rời rạc liên tục 2.8 Microsoft Linear Regression : Thuật toán thể đặc biệt thuật toán định, thu vô hiệu hoá chia tách (toàn công thức hồi quy xây dựng node gốc) Thuật toán hỗ trợ định thuộc tính liên tục 2.9 Microsoft Logistic Regression : Thuật toán thể đặc biệt thuật toán neural network, thu cách loại lớp ẩn Thuật toán hỗ trợ định thuộc tính liên tục không liên tục Tóm lại : AS bao gồm kiểu thuật toán sau: ƒ Thuật toán phân loại: Dự đoán nhiều biến rời rạc (không liên tục), dựa thuộc tính tập hợp liệu (Microsoft Decision Trees Algorithm) ƒ Thuật toán hồi quy: Dự đoán nhiều biến liên tục, kiểu lợi nhuận tổn thất, dựa thuộc tính khác tập hợp DL (Microsoft Time Series Algorithm) ƒ Thuật toán phân đoạn: Chia liệu thành nhóm, liên cung, danh mục có thuộc tính giống (Microsoft Clustering Algorithm) ƒ Thuật toán kết hợp: Tìm tương quan thuộc tính khác tập hợp liệu Ứng dụng phổ biến loại thuật toán tạo luật kết hợp, dùng market basket (Microsoft Association Algorithm) SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 16 GVHD: Ths:Võ Đình Bảy Thuật toán phân tích tiến trình: Tổng kết tiến trình thường xảy xảy liệu (Microsoft Sequence Clustering Algorithm) Đưa thuật toán : Chọn thuật toán để sử dụng cho nghiệp vụ riêng biệt nhiệm vụ khó khăn Khi ta sử dụng thuật toán khác để thực thi nghiệp vụ, thuật toán tạo kết khác nhau, vài thuật toán tạo nhiều kết Ví dụ 1: Có thể sử dụng thuật toán Microsoft Decision Trees không để dự đoán mà cách để giảm số lượng cột dataset, định xác định cột mà không ảnh hưởng đến mô hình khai thác cuối Ta sử dụng thuật toán độc lập giải pháp khai thác liệu đơn giản, sử dụng vài thuật toán để khảo sát liệu, sau sử dụng thuật toán khác để dự đoán kết rời rạc dựa liệu Ví dụ 2: Có thể sử dụng thuật toán gom nhóm, nhận mẫu, đưa liệu vào nhóm đồng nhất, sau sử dụng kết để tạo mô hình định tốt Ví dụ 3: Như cách sử dụng thuật toán hồi quy để lấy thông tin dự đoán tài chính, thuật toán dựa luật để thực thi việc khảo sát thị trường Các mô hình khai thác dự đoán giá trị, đưa bảng tóm tắt liệu, tìm tương quan ẩn Để giúp cho việc lựa chọn thuật toán cho giải pháp khai thác liệu Bảng 2.1 cung cấp gợi ý cho việc lựa chọn thuật toán cho công việc cụ thể nào: SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 17 Bảng 2.1: Lựa chọn thuật toán cho giải pháp khai thác liệu Công việc Thuật toán sử dụng Dự đoán thuộc tính rời rạc Thuật toán Microsoft Decision Trees Ví dụ: Dự đoán người nhận thư Thuật toán Microsoft Naïve Bayes vận động mua sản phẩm hay Thuật toán Microsoft Clustering không Thuật toán Microsoft Neural Network (SSAS) Dự đoán thuộc tính liên tục Thuật toán Microsoft Decision Trees Ví dụ: Dự đoán doanh thu năm tiếp Thuật toán Microsoft Time Series theo Dự đoán trình tự Thuật toán Microsoft Sequence Ví dụ: Thực phân tích Clustering clickstream cho web site công ty Tìm nhóm mục chọn Thuật toán Microsoft Association (item) các giao tác Thuật toán Microsoft Decision Trees (transaction) Ví dụ: Sử dụng phân tích thị trường để đưa thêm sản phẩm cho khách hàng Tìm mục (item) giống Thuật toán Microsoft Clustering Ví dụ: Phân chia liệu vào Thuật toán nhóm để hiểu dễ mối quan Clustering hệ thuộc tin SVTH: Hoàng Thị Thu-104102128 Microsoft Sequence Đồ Án Tốt Nghiệp 18 GVHD: Ths:Võ Đình Bảy Chương 3: Microsoft Association Rules Giới thiệu Microsoft Association Rules Nếu đặt ta vào vai trò người quản lý siêu thị Một trách nhiệm ta đảm bảo phải bán số lượng lớn sản phẩm Mục tiêu việc bán nhiều mang lại nhiều lợi nhuận so với người quản lý khác có vị trí Hiểu nhu cầu mua sắm khách hàng bước để đạt mục tiêu Sử dụng thuật toán luật kết hợp để thực phân tích giỏ hàng giao dịch khách hàng, biết sản phẩm thường bán với làm sản phẩm đặc biệt bán với sản phẩm khác Chẳng hạn, thấy 5% số khách hàng mua cà ketchup, dưa chua( pickles), với hotdogs, 75% khách hàng mua ketchup hot dogs mua dưa chua Hiện với thông tin ta nắm công việc Ta thay đổi cách bố trí để bán nhiều hàng Ta dùng hiểu biết để quản lý cấp độ hàng hóa Ta xác định liệu dưa chua, hot dogs cà ketchup để sẵn giỏ có nhiều lợi nhuận lợi nhuận không xếp chúng sẵn giỏ Nếu mang lại lợi nhuận nhiều hơn, ta thực chương trình đặc biệt để khuyến khích mua loại mặt hàng Thêm vào đó, ta muốn hiểu rõ khách hàng cửa hàng Với thẻ ưu đãi, ta rút trích vài thông tin khách hàng Ta biết khoảng 15% khách hàng nữ bạn có thẻ ưu đãi, 75% khách hàng cho thuê nhà họ dọn đến gần cửa hàng Trong mẫu hàng có nguồn gốc từ truy vấn SQL chuẩn, nên có ghi nhận hàng trăm hàng ngàn câu truy vấn để thăm dò đến tất kết hợp hàng hóa xảy Kiểu liệu thăm dò tạo cách dễ dàng với thuật toán kết hợp SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 19 GVHD: Ths:Võ Đình Bảy Nguyên tắc Microsoft Association Rules Thuật toán kết hợp phương tiện đếm tương quan The Microsoft Association Algorithm liên quan đến priori association family (họ ưu tiên kết hợp), thuật toán phổ biến hiệu việc tìm kiếm danh mục phổ biến (việc thiết lập giá trị thuộc tính phổ biến) Có bước thuật toán kết hợp, ví dụ minh họa hình 3.1 Bước thuật toán, giai đoạn tính toán chuyên sâu, để tìm kiếm danh mục phổ biến (find frequent itemsets ) Bước thứ hai tạo luật kết hợp danh mục phổ biến Bước đòi hỏi tốn thời gian bước đầu Finding frequent itemsets (Việc tìm danh mục phổ biến) SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 20 Thiết lập Hỗ trợ mục chọn STT Sản Phẩm thường Bia, khăn , Bánh xuyên 3.0% Bia, khăn Bia, Bánh mì, sữa 2.5% Bánh ngọt, nước Bánh ngọt, nước ngọt, sữa ngọt, sữa 2.0% Phomát, thịt giăm … Sữa, bánh mì … Tìm nguyên tắc : Xác suất Quy tắc 75.09% Bia => khăn 65.89% Bánh ngọt, nước => sữa 63.59% Thịt giăm bông=>bánh … Hình 3.1 : bước thực thuật toán tìm luật kết hợp * Tìm hiểu thuật toán tìm luật kết hợp: Trước tìm hiểu nguyên tắc thuật toán, phần giới thiệu số khái niệm thuật toán kết hợp Phần trình bày định nghĩa khái SVTH: Hoàng Thị Thu-104102128 [...]... rạc Thuật toán Microsoft Decision Trees Ví dụ: Dự đoán người nhận thư của Thuật toán Microsoft Naïve Bayes cuộc vận động sẽ mua sản phẩm hay Thuật toán Microsoft Clustering không Thuật toán Microsoft Neural Network (SSAS) Dự đoán thuộc tính liên tục Thuật toán Microsoft Decision Trees Ví dụ: Dự đoán doanh thu năm tiếp Thuật toán Microsoft Time Series theo Dự đoán một trình tự Thuật toán Microsoft Sequence... khi 1 luật có thể đựơc xét đến Khả năng này cũng được gọi là 1 “sự tin cậy” trong văn phong DataMining Mô hình kết hợp rất hữu ích trong cross-sell và collaborative-filtering Ví dụ : Bạn có thể sử dụng mô hình kết hợp để dự đoán các hạng mục mà khách hàng muốn mua dựa vào các danh mục hàng hoá khác trong basket của họ 2.6 Microsoft Sequence Clustering: Thuật toán này phân tích các đối tượng dữ liệu... 1 hoặc nhiều nhóm dựa trên kiểu hành động của họ Những nhóm này có thể được trực quan hoá, cung cấp 1 bản chi tiết để biết được mục đích sử dụng trang web này của khách hàng 2.7 Microsoft Neural Network: Trong MS SQL server 2005 AS, thuật toán này tạo các mô hình khai thác hồi quy và phân loại bằng cách xây dựng đa lớp perceptom của các neuron Giống như thuật toán cây quyết định, đưa ra mỗi tình trạng... DL (Microsoft Time Series Algorithm) ƒ Thuật toán phân đoạn: Chia dữ liệu thành 2 nhóm, hoặc các liên cung, hoặc các danh mục có thuộc tính giống nhau (Microsoft Clustering Algorithm) ƒ Thuật toán kết hợp: Tìm những sự tương quan giữa các thuộc tính khác nhau trong 1 tập hợp dữ liệu Ứng dụng phổ biến nhất của loại thuật toán này là tạo ra các luật kết hợp, có thể được dùng trong market basket (Microsoft. .. coi là điểm xuất phát của DataMining) , bởi vì hầu như tất cả các tính toán sử dụng trong khi thiết lập mô hình, được sinh ra trong xử lí của cube (mô hình kích thước hợp nhất), kết quả được trả về nhanh chóng Điều này tạo cho mô hình 1 lựa chọn tốt để khai phá dữ liệu khám phá các thuộc tính input được phân bố trong các trường khác nhau của thuộc tính dự đoán như thế nào? 2.4 Microsoft Time Series :... Thuật toán Microsoft Association (item) trong các các giao tác Thuật toán Microsoft Decision Trees (transaction) Ví dụ: Sử dụng phân tích thị trường để đưa thêm các sản phẩm cho khách hàng Tìm những mục (item) giống nhau Thuật toán Microsoft Clustering Ví dụ: Phân chia các dữ liệu vào các Thuật toán nhóm để hiểu dễ hơn các mối quan Clustering hệ giữa các thuộc tin SVTH: Hoàng Thị Thu-104102128 Microsoft. .. khác nhau ) Thuật toán này có thể sử dụng sự tương quan của thay đối biến số (cross-variable) trong dự đoán của nó Ví dụ : Bán hàng trước kia tại 1 cửa hàng có thể rất hữu ích trong việc dự báo bán hàng hiện tại tại những cửa hàng 2.5 Microsoft Association : Thuật toán này được thiết kế đặc biệt để sử dụng trong phân tích giỏ thị trường (basket market) Market basket (chỉ số rổ thị trường: tức là ta...Đồ Án Tốt Nghiệp 11 GVHD: Ths:Võ Đình Bảy 2.1 Microsoft Decision Tree: Thuật toán Microsoft Decision Tree hỗ trợ cả việc phân loại và hồi quy, và tạo rất tốt các mô hình dự đoán Sử dụng thuật toán này có thể dự đoán cả các thuộc tính rời rạc và liên tục Trong việc xây dựng mô hình, thuật toán này sẽ khảo sát sự ảnh hưởng của mỗi thuộc tính trong tập dữ liệu và kết quả của thuộc tính dự đoán ... hàng, cùng mức lương, và được đi nghỉ ở nước ngoài 2 lần trong năm Hãy quan sát những liên cung này được phân phối ra sao? Ta có thể biết rõ hơn sự ảnh hưởng của các bản ghi SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 12 GVHD: Ths:Võ Đình Bảy trong 1 tập hợp dữ liệu Cũng như sự ảnh hưởng này có ảnh hưởng gì đến kết quả của thuộc tính dự đoán? 2.3 Microsoft Naïve Bayes : Thuật toán này xây dựng mô hình... ít xảy ra trong dữ liệu (Microsoft Sequence Clustering Algorithm) 3 Đưa ra thuật toán : Chọn một thuật toán đúng để sử dụng cho các nghiệp vụ riêng biệt là một nhiệm vụ khó khăn Khi ta có thể sử dụng các thuật toán khác nhau để thực thi cùng một nghiệp vụ, mỗi thuật toán tạo ra một kết quả khác nhau, và một vài thuật toán có thể tạo ra nhiều hơn một kết quả Ví dụ 1: Có thể sử dụng thuật toán Microsoft

Ngày đăng: 07/11/2016, 11:22

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan