Dữ liệu dùng để xây dựng mô hình phát hiện luật kết hợp là kho dữ liệu
AdventureWorksDW của công ty sản xuất xe đạp Adventure Works. Mô hình sử dụng 2 view chứa dữ liệu về bán hàng (xe đạp) của công ty là vAssocSeqOrders và
vAssocSeqLineItems. Cấu trúc 2 views như sau:
3.2.2.1 Tạo mới 1 project (Analysis Services Project)
Khởi động SQL Server Business Intelligence Development Studio tạo 1 project mới có tên “KhoaLuan_KPDL”
3.2.2.2 Tạo 1 Data Source
Tạo Data Source kết nối đến CSDL AdventureWorksDW
3.2.2.3 Tạo một Data Source View
Tạo một Data Source View (Trong Data Source view chọn dữ liệu lấy từ 2 table là vAssocSeqOrders và vAssocSeqLineItems, lick Next.
3.2.2.4. Tạo một Mining Model Structure
Trong cửa sổ Solution Explorer, bấm phải chuột trên mục Mining Structures
chọn New Mining Structure. Bấm Next và chọn From existing relational database or data warehouse và bấm Next và chọn Microsoft Association Rules.
Bấm Next và chọn Data Source View đã tạo AdventureWorksDW. Bấm Next và chọn 7. Chọn Case là vAssocSeqOrders và Nested là vAssocSeqLineItems, lick Next.Về cơ bản thì chỉ cần Case table là đủ nếu như nó chứa đầy đủ các thông tin tuy
nhiên trường hợp này rất hiếm khi xảy ra nên ta thường có ít nhất là 2 table để mô tả một hóa đơn bán hàng ,một table chứa thông tin khách hàng ở đây là vAssocSeqOrders và một table chứa các thông tin về các hàng hóa mà khách hàng mua là vAssocSeqLineItems.
Đặt tên cho Mining Structures và Click Finish Màn hình Mining Models như sau:
Thay đổi các giá trị MinSup và MinConf
Trong cửa sổ Mining Models, bấm phím phải chuột vào
Microsoft_Association_Rules và chọn Set Algorithm Parameters và thiết lập giá trị 2 tham số MINIMUM_PROBABILITY là 0.1 và MINIMUM_SUPPORT là 0.01 như sau,trong các CSDL thực tế thì việc Minsup chiến 40,50% là gần như không thể xảy ra vì với vài chục ngàn mặt hàng khác nhau trong siêu thị không thể có hàng hòa nào có minsup như vậy,ta chọn Minsup 1% và Minconf 40% nhầm khám phá hết những luật kết hợp có trong database trong ví dụ này.
Sau khi hiệu chỉnh các tham số của Mining Models, bấm F5 để thực hiện mô hình
3.2.2.5 Khám phá Mining Models
Kết quả của Microsoft Association Rules thể hiện trong Tab Mining Models Viewer bởi 3 nội dung chính là Itemsets, Rules, và Dependency Net
Rules Tab: Phần này trình bày các luật kết hợp được phát hiện bởi mô hình. Các thông tin về luật kết hợp bao gồm:
Probability (Minconf): Cho biết xác suất xảy ra của luật.
Importance: Đo lường tính hữu dụng của luật, giá trị này càng cao thì luật kết hợp càng tốt.
Các luật này cho biết sự kết hợp giữa các items trong cở sở dữ liệu giao dịch. Chẳn hạn luật kết hợp thứ 2 cho bạn biết rằng nếu một khách hàng nào đó mua các sản phẩm là Road-750, Road Tire Tube thì người đó luôn mua sản phẩm LL Road Tire với xác suất 100%.
Itemsets tab: Itemsets cho biết các thông tin quan trọng của luật kết hợp như Support (độ hỗ trợ của luật kết hợp), Size (Số items trong Itemsets). Để hiển thị các Itemsets có chứa một item nào đó (ví dụ mẫu xe Sport-100) thì nhập Sport-100 trong ô Filter Itemset.
Minsup này dựa trên số lượng chứ không phải %
Hình trên với Itemsets có Support là 616 gồm 2 items đó là Mountain-200 và Sport-100 có nghĩa là trong tất cả các giao dịch thì có 616 giao dịch trong đó có 2 loại xe Mountain-200 và Sport-100.
Dependency Net (Mạng phụ thuộc):
Sử dụng Dependency Net cho phép bạn hiểu được sự tác động của các items khác nhau trong Model. Mỗi Node trong Dependency Net thể hiện một Item, bằng cách chọn một item bạn sẽ thấy được các items khác được xác định bởi Item đã chọn (hoặc dùng để xác định Item đã chọn) trong model.
Trong Dependency Net, nếu chọn Node Mountain bottle Cage ta sẽ thấy rằng Item Mountain bottle Cage có thể được dự đoán bởi 2 items khác đó là water bottle và Mountain-200 hoặc Mountain bottle Cage được dùng để dự đoán 2 Items water bottle và Mountain-200.
Dấu mũi thể hiện rằng sản phẩm ở đầu mũi tên sẽ dự đoán được sản phẩm ở cuối.nếu là mũi tên 2 chiều thì cả 2 sản phẩm đều có thể dự đoán lẫn nhau..Điều này có nghĩa là những sản phẩm này có khả năng được mua cùng nhau. Nếu khách hàng nào đó mua xe đạp thì có khả năng họ mua kẹp để bình đựng nước và bình đựng nước. Các thông tin này có thể giúp cho bộ phận bán hàng đặt các sản phẩm có khả năng mua cùng nhau cạnh nhau để giúp cho khách hàng khỏi mất công tìm kiếm cũng như xây dựng các chiến lược marketing hiệu quả (chẳn hạn không nên khuyến mãi cùng lúc các hằng thường được mua cùng nhau).