Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 20 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
20
Dung lượng
429,88 KB
Nội dung
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Chương 1: Khái niệm khai thác liệu Giới thiệu Việc khai thác liệu thường mô tả q trình lấy thơng tin có giá trị, xác thực từ sở liệu lớn Nói cách khác, việc khai thác liệu bắt nguồn từ dạng mẫu khuynh hướng tồn liệu Các mẫu khuynh hướng gom lại với định nghĩa mơ hình khai thác Các mơ hình áp dụng cho kịch nghiệp vụ riêng biệt như: - Dự đoán việc bán hàng - Chuyển thư đến khách hàng định - Xác định sản phẩm có khả bán với - Tìm trình tự mà khách hàng chọn sản phẩm Một khái niệm quan trọng xây dựng mơ hình khai thác phần tiến trình lớn bao gồm từ việc xác định vấn đề mà mô hình giải thích, đến việc triển khai mơ hình vào mơi trường làm việc Tiến trình định nghĩa việc triển khai bước sau: Bước 1: Xác định vấn đề Bước Chỉnh sửa liệu Bước Thăm dò liệu Bước Xây dựng mơ hình Bước Thăm dị thơng qua mơ hình Bước Triển khai cập nhật mơ hình Biểu đồ sau mô tả mối quan hệ bước tiến trình, sử dụng cơng nghệ Microsoft SQL Server 2005 để hoàn thành bước SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Hình 1.1: Mơ tả mối quan hệ bước tiến trình Mặc dù tiến trình minh họa biểu đồ hình trịn, bước không trực tiếp dẫn đến bước Tạo mơ hình khai thác liệu tiến trình động lặp lại Sau thăm dị liệu, nhận liệu khơng đủ để tạo mơ hình khai thác thích hợp, phải tìm thêm liệu Có thể xây dựng nhiều mơ hình nhận chúng khơng giải vấn đề đưa định nghĩa vấn đề, phải xác định lại vấn đề Có thể cập nhật mơ hình sau chúng triển khai nhiều liệu trở nên hiệu Điều quan trọng để hiểu tạo mơ hình khai thác liệu tiến trình, bước tiến trình lập lại nhiều lần cần thiết để tạo mơ hình tốt SQL Server 2005 cung cấp môi trường hội nhập để tạo làm việc với mơ hình khai thác liệu, gọi Business Intelligence Development Studio Mơi trường bao gồm thuật tốn khai thác liệu công cụ mà làm cho việc xây dựng giải pháp toàn diện cho dự án khác dễ Các bước tiến trình khai thác liệu 2.1 Xác định vấn đề Bước tiến trình khai thác liệu (được in đậm biểu đồ bên (Hình 1.2)), để xác định rõ ràng vấn đề nghiệp vụ: SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Hình 1.2: Xác định vấn đề Bước bao gồm việc phân tích yêu cầu nghiệp vụ, xác định phạm vi vấn đề, xác định điểm quan trọng mơ hình đánh giá, xác định mục tiêu cuối cho dự án khai thác liệu Những công việc thông dịch thành câu hỏi như: - Đang tìm kiếm gì? - Dự đốn thuộc tính dataset? - Đang tìm dạng quan hệ nào? - Muốn dự đốn từ mơ hình khai thác liệu hay tìm dạng mẫu kết hợp u thích - Dữ liệu phân bố nào? - Các cột liên quan nào, hay có nhiều bảng mối quan hệ chúng nào? Để trả lời câu hỏi này, phải tìm hiểu liệu thực tế, điều tra nhu cầu người dùng nghiệp vụ với quan tâm liệu thực tế Nếu liệu khơng cung cấp cho nhu cầu người dùng, phải xác định lại dự án SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 2.2 Chỉnh sửa liệu Bước thứ hai tiến trình khai thác liệu (được in đậm mơ hình bên (Hình 1.3)), để củng cố chỉnh sửa lại liệu xác định bước xác định vấn đề: Hình 1.3: Chỉnh sữa liệu Microsoft SQL Server 2005 Integration Services (SSI) chứa tất công cụ, bao gồm việc thay đổi liệu rõ ràng vững Dữ liệu chứa nhiều nơi công ty định dạng khác nhau, hay có mâu thuẫn bị rạn nứt hay số mục Ví dụ: Dữ liệu khách hàng mua hàng hóa trước khách hàng sinh ra, hay khách hàng mua sắm cửa hàng cách nhà khoảng 2000 dặm Trước bạn bắt đầu xây dựng mơ hình, phải sửa chữa vấn đề Điển làm việc với số lượng lớn dataset đọc lướt qua tất giao tác Do đó, phải sử dụng dạng tự động, Integration Services, để khảo sát tất liệu tìm mâu thuẫn 2.3 Khảo sát liệu Bước thứ ba tiến trình khai thác liệu (được in đậm mơ hình bên (Hình 1.4)) khảo sát liệu sửa chữa SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Hình 1.4: Khảo sát liệu Phải hiểu liệu để đưa định thích hợp tạo mơ hình Các kĩ thuật khảo sát bao gồm tính tốn giá trị nhỏ lớn nhất, tính tốn độ trung bình độ chênh lệch, nhìn vào thuộc tính liệu Sau đó, khảo sát liệu, định xem dataset có chứa liệu bị rạn nứt hay khơng, sau nghĩ chiến thuật để giải vấn đề Data Source View Designer BI Develop Studio chứa nhiều công cụ mà sử dụng để khảo sát liệu 2.4 Xây dựng mơ hình Bước thứ tư tiến trình khai thác liệu (được in đậm mơ hình bên (Hình 1.5)) để xây dựng mơ hình khai thác SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Hình 1.5: Xây dựng mơ hình Trước xây dựng mơ hình, phải phân chia ngẫu nhiên liệu sửa chữa thành dataset thử Sử dụng dataset thử để xây dựng mơ hình, dataset thử để kiểm tra độ xác mơ hình cách ghi lại query nghi ngờ Có thể sử dụng Percentage Sampling Transformation Integration Services để phân chia dataset Sẽ sử dụng kiến thức thu từ bước khảo sát liệu để giúp cho việc xác định tạo mơ hình khai thác Một mơ hình tiêu biểu chứa cột liệu đưa vào, cột xác định, cột dự đốn Có thể xác định cột sau mơ hình cách sử dụng ngôn ngữ DataMining Extensions (DMX), hay Data Mining Wizard BI Development Studio Sau xác định cấu trúc mơ hình khai thác, xử lý nó, đưa vào cấu trúc với dạng mẫu mơ tả mơ hình Điều hiểu “training” mơ hình Các mẫu mơ hình tìm thấy cách lướt qua liệu gốc thông qua thuật toán SQL Server 2005 chứa thuật tốn khác cho dạng mơ hình mà thường xây dựng Có thể sử dụng tham số để điều chỉnh thuật tốn Mơ hình khai thác xác định đối tượng cấu trúc khai thác liệu, đối tượng mơ hình khai thác liệu, thuật tốn khai thác liệu SVTH: Hồng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Microsoft SQL Server 2005 Analysis Services (SSAS) bao gồm thuật toán sau: - Microsoft Decision Trees Algorithm - Microsoft Clustering Algorithm - Microsoft Naive Bayes Algorithm - Microsoft Association Algorithm - Microsoft Sequence Clustering Algorithm - Microsoft Time Series Algorithm - Microsoft Neural Network Algorithm (SSAS) - Microsoft Logistic Regression Algorithm - Microsoft Linear Regression Algorithm 2.5 Khảo sát thơng qua mơ hình Bước thứ năm tiến trình khai thác liệu (được in đậm mơ hình bên (Hình 1.6)) để khảo sát mơ hình mà xây dựng kiểm tra hiệu chúng Hình 1.6: Khảo sát thơng qua mơ hình SVTH: Hồng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy Khơng muốn đưa mơ hình vào mơi trường sản xuất mà chưa có kiểm tra hoạt động Ngồi ta tạo nhiều mơ hình phải định mơ hình thi hành tốt Nếu khơng có mơ hình tạo bước xây dựng mơ hình sản xuất tốt, phải trở lại bước trước tiến trình, hay phải xác định lại vấn đề hay phải nghiên cứu lại liệu dataset gốc Có thể khảo sát khuynh hướng mẫu mơ hình mà thuật tốn tìm ách sử dụng nhìn tổng quan Data Mining Designer BI Development Studio Cũng kiểm tra mơ hình tạo dự đoán tốt sử dụng công cụ designer lift chart classifivation matrix Những công cụ yêu cầu liệu thử mà phân chia từ dataset gốc bước xây dựng mơ hình 2.6 Triển khai cập nhật mơ hình Bước cuối tiến trình khai thác liệu (được in đậm mơ hình bên (Hình 1.7)) để triển khai vào mơi trường sản xuất mơ hình hoạt động tốt Hình 1.7: Triển khai cập nhật mơ hình Sau mơ hình khai thác tồn mơi trường sản xuất, thực thi nhiều cơng việc dựa nhu cầu Sau vài công việc thi hành: SVTH: Hồng Thị Thu-104102128 Đồ Án Tốt Nghiệp - GVHD: Ths:Võ Đình Bảy Sử dụng mơ hình để tạo dự đốn, mà sử dụng sau để tạo định nghiệp vụ SQL Server cung cấp ngôn ngữ DMX mà dùng để tạo query dự đoán, Prediction Query Builder để giúp xây dựng query - Đưa chức khai thác liệu trực tiếp vào ứng dụng Có thể bao gồm Analysis Management Objects (AMO) hay assembly bao gồm việc thiết lập đối tượng mà ứng dụng sử dụng để tạo, thay đổi, xử lý xóa cấu trúc khai thác mơ hình khai thác Như lựa chọn, gởi XML cho Analysis (XMLA) mẫu tin trực tiếp đến Analysis Service - Sử dụng Integration Service để tạo đóng gói mà mơ hình khai thác sử dụng để phân chia thông minh liệu nguồn vào thành nhiều bảng Ví dụ, sở liệu tiếp tục cập nhật với khách hàng tiềm năng, sử dụng mơ hình khai thác với Integration Services để phân chia liệu đầu vào khách hàng, người chi trả cho sản phẩm khách hàng dường không chi trả cho sản phẩm - Tạo báo cáo để người dùng trực tiếp nêu query với mơ hình khai thác tồn Cập nhật mơ hình phần chiến lược triển khai Khi liệu nhập vào tổ chức nhiều phải xử lý lại mơ hình, cách cải thiện hiệu chúng SVTH: Hồng Thị Thu-104102128 Đồ Án Tốt Nghiệp 10 GVHD: Ths:Võ Đình Bảy Chương 2: Các thuật toán khai thác liệu Giới thiệu chung Thuật toán khai thác liệu kỹ thuật để tạo mơ hình khai thác Để tạo mơ hình, thuật tốn phải phân tích thiết lập liệu, tìm kiếm mẫu đặc trưng xu hướng Thuật tốn sau sử dụng kết việc phân tích để xác định tham số mơ hình khai thác Mơ hình khai thác mà thuật tốn tạo có nhiều dạng khác nhau, bao gồm: - Việc thiết lập luật mô tả làm cách sản phẩm gom nhóm lại với thành thao tác - Cây định dự đoán khách hàng cụ thể mua sản phẩm hay khơng - Mơ hình tốn học dự đoán việc mua bán - Thiết lập nhóm mơ tả case dataset liên quan đến Microsoft SQL Server 2005 Analysis Services (SSAS) cung cấp nhiều thuật toán cho giải pháp khai thác liệu bạn Các thuật toán tập tất thuật tốn dùng cho việc khai thác liệu Bạn sử dụng thuật tốn hãng thứ ba tuân theo đặc tả OLE DB for Data Mining Giới thiệu thuật toán: Microsoft phát triển SQL Server 2005 AS, họ hoàn thiện thuật toán thường sử dụng DataMining cách hoàn chỉnh so với SQL Server 2000 AS, bao gồm : MS(Microsoft) Decision Tree, MS Clustering, MS Naïve Bayes, MS Time Series, MS Association, MS Sequence Clustering, MS Neural Network, MS Linear Regression, MS Logistic Regression Việc ứng dụng thuật tốn trình bày phần sau SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 11 GVHD: Ths:Võ Đình Bảy 2.1 Microsoft Decision Tree: Thuật toán Microsoft Decision Tree hỗ trợ việc phân loại hồi quy, tạo tốt mơ hình dự đốn Sử dụng thuật tốn dự đốn thuộc tính rời rạc liên tục Trong việc xây dựng mơ hình, thuật tốn khảo sát ảnh hưởng thuộc tính tập liệu kết thuộc tính dự đốn Và tiếp đến sử dụng thuộc tính input (với quan hệ rõ ràng) để tạo thành nhóm phân hố gọi node Khi node thêm vào mơ hình, cấu trúc thiết lập Node đỉnh cấy miêu tả phân tích (bằng thống kê) thuộc tính dự đốn thơng qua mẫu Mỗi node thêm vào tạo dựa xếp trường thuộc tính dự đoán, để so sánh với liệu input Nếu thuộc tính input đựơc coi nguyên nhân thuộc tính dự đốn (to favour one state over another), node thêm vào mơ hình Mơ hình tiếp tục phát triển lúc khơng cịn thuộc tính nào, tạo thành phân tách(split) để cung cấp dự báo hồn chỉnh thơng qua node tồn Mơ hình địi hỏi tìm kiếm kết hợp thuộc tính trường nó, nhằm thiết lập phân phối không cân xứng trường thuộc tình dự đốn Vì cho phép dự đốn kết thuộc tính dự đoán cách tốt 2.2 Microsoft Clustering: Thuật toán sử dụng kỹ thuật lặp để nhóm ghi từ tập hợp liệu vào liên cung có đặc điểm giống Sử dụng liên cung khám phá liệu, tìm hiểu quan hệ tồn tại, mà quan hệ khơng dễ dàng tìm cách hợp lý thơng qua quan sát ngẫu nhiên Thêm nữa, dự đốn từ mơ hình liên cung tạo bới thuật tốn Ví dụ : Xem xét nhóm người sống vùng, có loại xe, ăn loại thức ăn mua sản phẩm Đây liên cung liệu, liên cung khác bao gồm người đến nhà hàng, mức lương, nghỉ nước lần năm Hãy quan sát liên cung phân phối sao? Ta biết rõ ảnh hưởng ghi SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 12 GVHD: Ths:Võ Đình Bảy tập hợp liệu Cũng ảnh hưởng có ảnh hưởng đến kết thuộc tính dự đốn? 2.3 Microsoft Nạve Bayes : Thuật tốn xây dựng mơ hình khai thác nhanh thuật toán khác, phuc vụ việc phân loại dự đốn Nó tính tốn khả xảy trường hợp lệ thuộc tính input, gán cho trường thuộc tính dự đốn Mỗi trường sau sử dụng để dự đốn kết thuộc tính dự đốn dựa vào thuộc tính input biết Các khả sử dụng để sinh mơ hình tính tốn lưu trữ suốt q trình xử lý khối lập phương (cube: mơ hình dựng lên từ khối lập phương) Thuật toán hỗ trợ thuộc tính rời rạc liên tục, xem xét tất thuộc tính input độc lập Thuật tốn cho ta mơ hình khai thác đơn giản (có thể coi điểm xuất phát DataMining), tất tính tốn sử dụng thiết lập mơ hình, sinh xử lí cube (mơ hình kích thước hợp nhất), kết trả nhanh chóng Điều tạo cho mơ hình lựa chọn tốt để khai phá liệu khám phá thuộc tính input phân bố trường khác thuộc tính dự đốn nào? 2.4 Microsoft Time Series : (chuỗi thời gian) Thuật tốn tạo mơ hình sử dụng để dự đoán biến từ OLAP nguồn liệu quan hệ Ví dụ : Sử dụng thuật toán để dự đoán bán hàng lợi nhuận dựa vào liệu khứ cube Sử dụng thuật toán chọn nhiều biến để dự đốn (nhưng biến phải liên tục) Có thể có nhiều trường hợp cho mơ hình Tập trường hợp xác định vị trí nhóm, ngày tháng xem việc bán hàng thông qua vài tháng vài năm trước SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 13 GVHD: Ths:Võ Đình Bảy Một trường hợp bao gồm tập biến (ví dụ bán hàng cửa hàng khác ) Thuật tốn sử dụng tương quan thay đối biến số (cross-variable) dự đoán Ví dụ : Bán hàng trước cửa hàng hữu ích việc dự báo bán hàng tại cửa hàng 2.5 Microsoft Association : Thuật toán thiết kế đặc biệt để sử dụng phân tích giỏ thị trường (basket market) Market basket (chỉ số rổ thị trường: tức ta dùng tất loại hàng hố có thị trường (1 siêu thị chẳng hạn ) ta nhân giá với số hàng hố (ví dụ gạo x 10, thịt x 20…) để tính số CPI (consumer price index ) Nếu số CPI ngày hôm cao so với ngày hơm qua xảy lạm phát ) Thuật toán xem xét cặp biến/giá trị (như sản phẩm/xe đạp) item Itemset tổ hợp item transaction đơn lẻ Thuật toán lướt qua tập hợp liệu để cố gắng tìm kiếm itemset nhằm vào việc xuất nhiếu transaction Tham chiếu Support định nghĩa có transaction mà itemset xuất trước cho quan trọng Ví dụ: itemset phổ biến gồm{Gender="Male", Marital Status = "Married", Age="30-35"} Mỗi itemset có kích thước tổng số item mà có (ở ví dụ 3) Thường mơ hình kết hợp làm việc dựa vào tập liệu chứa bảng ẩn, kiểu danh sách khách hàng ẩn (nested) theo sau bảng mua bán Nếu bảng ẩn tồn tập liệu, khoá ẩn (như sản phẩm bảng mua bán ) xem item Thuật toán tìm luật kết hợp với Itemset Một luật mơ hình kết hợp kiểu A,B=>C (kết hợp với khả xảy ) Khi tất A, B, C Itemset phổ biến Dấu “=>”nói C dự đốn từ A B Khả SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 14 GVHD: Ths:Võ Đình Bảy giới hạn biến mà xác định khả nhỏ tức luật đựơc xét đến Khả gọi “sự tin cậy” văn phong DataMining Mơ hình kết hợp hữu ích cross-sell collaborative-filtering Ví dụ : Bạn sử dụng mơ hình kết hợp để dự đoán hạng mục mà khách hàng muốn mua dựa vào danh mục hàng hoá khác basket họ 2.6 Microsoft Sequence Clustering: Thuật toán phân tích đối tượng liệu có trình tự, liệu bao gồm chuỗi giá trị rời rạc Thường thuộc tính trình tự chuỗi ảnh tới tập kiện trật tự rõ ràng Bằng cách phân tích chuyển tiếp tình trạng chuỗi, thuật tốn dự đốn tương lai chuỗi có quan hệ với Thuật tốn pha trộn thuật toán chuỗi thuật toán liên cung Thuật tốn nhóm tất kiện phức tạp với thuộc tính trình tự vào phân đoạn dựa vào giống chuỗi Một đặc trưng sử dụng chuỗi kiên cho thuật tốn phân tích khách hàng web cổng thông tin (portal site) Cổng thông tin tập tên miền liên kết như: tin tức, thời tiết, giá tiền, mail, thể thao Mỗi khách hàng liên kết với chuỗi click web tên miền Thuật tốn nhóm khách hàng web nhiều nhóm dựa kiểu hành động họ Những nhóm trực quan hố, cung cấp chi tiết để biết mục đích sử dụng trang web khách hàng 2.7 Microsoft Neural Network: Trong MS SQL server 2005 AS, thuật toán tạo mơ hình khai thác hồi quy phân loại cách xây dựng đa lớp perceptom neuron Giống thuật toán định, đưa tình trạng thuộc tính dự đốn Thuật tốn tính tốn khả trang thái thuộc tính input Thuật tốn xử lý toàn thể trường hợp Sự lặp lặp lai so sánh dự đoán phân loại trường với phân loại trường biết Sai số từ phân loại ban đầu (của phép lặp ban đầu) toàn trường hợp trả network sử dụng để thay đổi thực thi network cho phép lặp kế theo,v.v Có thể sau sử dụng khả để dự đoán kết cảu thuộc tính dự đốn, dựa SVTH: Hồng Thị Thu-104102128 Đồ Án Tốt Nghiệp 15 GVHD: Ths:Võ Đình Bảy thuộc tính input khác biệt thuật tốn thuật toán Cây định kiến thức xử lí tham số network tối ưu nhằm làm nhỏ lỗi định tách luật, mục đích để cực đại hố thơng tin có lợi Thuật tốn hỗ trợ thuộc tính rời rạc liên tục 2.8 Microsoft Linear Regression : Thuật toán thể đặc biệt thuật toán định, thu vơ hiệu hố chia tách (tồn công thức hồi quy xây dựng node gốc) Thuật toán hỗ trợ định thuộc tính liên tục 2.9 Microsoft Logistic Regression : Thuật toán thể đặc biệt thuật toán neural network, thu cách loại lớp ẩn Thuật toán hỗ trợ định thuộc tính liên tục khơng liên tục Tóm lại : AS bao gồm kiểu thuật tốn sau: Thuật toán phân loại: Dự đoán nhiều biến rời rạc (không liên tục), dựa thuộc tính tập hợp liệu (Microsoft Decision Trees Algorithm) Thuật toán hồi quy: Dự đoán nhiều biến liên tục, kiểu lợi nhuận tổn thất, dựa thuộc tính khác tập hợp DL (Microsoft Time Series Algorithm) Thuật tốn phân đoạn: Chia liệu thành nhóm, liên cung, danh mục có thuộc tính giống (Microsoft Clustering Algorithm) Thuật toán kết hợp: Tìm tương quan thuộc tính khác tập hợp liệu Ứng dụng phổ biến loại thuật toán tạo luật kết hợp, dùng market basket (Microsoft Association Algorithm) SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 16 GVHD: Ths:Võ Đình Bảy Thuật tốn phân tích tiến trình: Tổng kết tiến trình thường xảy xảy liệu (Microsoft Sequence Clustering Algorithm) Đưa thuật toán : Chọn thuật toán để sử dụng cho nghiệp vụ riêng biệt nhiệm vụ khó khăn Khi ta sử dụng thuật tốn khác để thực thi nghiệp vụ, thuật toán tạo kết khác nhau, vài thuật tốn tạo nhiều kết Ví dụ 1: Có thể sử dụng thuật tốn Microsoft Decision Trees khơng để dự đốn mà cịn cách để giảm số lượng cột dataset, định xác định cột mà khơng ảnh hưởng đến mơ hình khai thác cuối Ta khơng phải sử dụng thuật tốn độc lập giải pháp khai thác liệu đơn giản, sử dụng vài thuật tốn để khảo sát liệu, sau sử dụng thuật toán khác để dự đoán kết rời rạc dựa liệu Ví dụ 2: Có thể sử dụng thuật tốn gom nhóm, nhận mẫu, đưa liệu vào nhóm đồng nhất, sau sử dụng kết để tạo mơ hình định tốt Ví dụ 3: Như cách sử dụng thuật toán hồi quy để lấy thơng tin dự đốn tài chính, thuật tốn dựa luật để thực thi việc khảo sát thị trường Các mơ hình khai thác dự đốn giá trị, đưa bảng tóm tắt liệu, tìm tương quan ẩn Để giúp cho việc lựa chọn thuật toán cho giải pháp khai thác liệu Bảng 2.1 cung cấp gợi ý cho việc lựa chọn thuật toán cho cơng việc cụ thể nào: SVTH: Hồng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 17 Bảng 2.1: Lựa chọn thuật toán cho giải pháp khai thác liệu Cơng việc Thuật tốn sử dụng Dự đốn thuộc tính rời rạc Thuật tốn Microsoft Decision Trees Ví dụ: Dự đoán người nhận thư Thuật toán Microsoft Naïve Bayes vận động mua sản phẩm hay Thuật tốn Microsoft Clustering khơng Thuật tốn Microsoft Neural Network (SSAS) Dự đốn thuộc tính liên tục Thuật tốn Microsoft Decision Trees Ví dụ: Dự đốn doanh thu năm tiếp Thuật tốn Microsoft Time Series theo Dự đốn trình tự Thuật tốn Microsoft Sequence Ví dụ: Thực phân tích Clustering clickstream cho web site cơng ty Tìm nhóm mục chọn Thuật tốn Microsoft Association (item) các giao tác Thuật toán Microsoft Decision Trees (transaction) Ví dụ: Sử dụng phân tích thị trường để đưa thêm sản phẩm cho khách hàng Tìm mục (item) giống Thuật tốn Microsoft Clustering Ví dụ: Phân chia liệu vào Thuật tốn nhóm để hiểu dễ mối quan Clustering hệ thuộc tin SVTH: Hoàng Thị Thu-104102128 Microsoft Sequence Đồ Án Tốt Nghiệp 18 GVHD: Ths:Võ Đình Bảy Chương 3: Microsoft Association Rules Giới thiệu Microsoft Association Rules Nếu đặt ta vào vai trò người quản lý siêu thị Một trách nhiệm ta đảm bảo phải bán số lượng lớn sản phẩm Mục tiêu việc bán nhiều mang lại nhiều lợi nhuận so với người quản lý khác có vị trí Hiểu nhu cầu mua sắm khách hàng bước để đạt mục tiêu Sử dụng thuật toán luật kết hợp để thực phân tích giỏ hàng giao dịch khách hàng, biết sản phẩm thường bán với làm sản phẩm đặc biệt bán với sản phẩm khác Chẳng hạn, thấy 5% số khách hàng mua cà ketchup, dưa chua( pickles), với hotdogs, 75% khách hàng mua ketchup hot dogs mua dưa chua Hiện với thông tin ta nắm cơng việc Ta thay đổi cách bố trí để bán nhiều hàng Ta dùng hiểu biết để quản lý cấp độ hàng hóa Ta xác định liệu dưa chua, hot dogs cà ketchup để sẵn giỏ có nhiều lợi nhuận lợi nhuận không xếp chúng sẵn giỏ Nếu mang lại lợi nhuận nhiều hơn, ta thực chương trình đặc biệt để khuyến khích mua loại mặt hàng Thêm vào đó, ta muốn hiểu rõ khách hàng cửa hàng Với thẻ ưu đãi, ta rút trích vài thơng tin khách hàng Ta biết khoảng 15% khách hàng nữ bạn có thẻ ưu đãi, 75% khách hàng cho thuê nhà họ dọn đến gần cửa hàng Trong mẫu hàng có nguồn gốc từ truy vấn SQL chuẩn, nên có ghi nhận hàng trăm hàng ngàn câu truy vấn để thăm dò đến tất kết hợp hàng hóa xảy Kiểu liệu thăm dò tạo cách dễ dàng với thuật toán kết hợp SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 19 GVHD: Ths:Võ Đình Bảy Nguyên tắc Microsoft Association Rules Thuật toán kết hợp phương tiện đếm tương quan The Microsoft Association Algorithm liên quan đến priori association family (họ ưu tiên kết hợp), thuật tốn phổ biến hiệu việc tìm kiếm danh mục phổ biến (việc thiết lập giá trị thuộc tính phổ biến) Có bước thuật tốn kết hợp, ví dụ minh họa hình 3.1 Bước thuật toán, giai đoạn tính tốn chun sâu, để tìm kiếm danh mục phổ biến (find frequent itemsets ) Bước thứ hai tạo luật kết hợp danh mục phổ biến Bước địi hỏi tốn thời gian bước đầu Finding frequent itemsets (Việc tìm danh mục phổ biến) SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 20 Thiết lập Hỗ trợ mục chọn STT Sản Phẩm thường Bia, khăn , Bánh xuyên 3.0% Bia, khăn Bia, Bánh mì, sữa 2.5% Bánh ngọt, nước Bánh ngọt, nước ngọt, sữa ngọt, sữa 2.0% Phomát, thịt giăm … Sữa, bánh mì bơng … Tìm ngun tắc : Xác suất Quy tắc 75.09% Bia => khăn 65.89% Bánh ngọt, nước => sữa 63.59% Thịt giăm bơng=>bánh … Hình 3.1 : bước thực thuật tốn tìm luật kết hợp * Tìm hiểu thuật tốn tìm luật kết hợp: Trước tìm hiểu nguyên tắc thuật toán, phần giới thiệu số khái niệm thuật toán kết hợp Phần trình bày định nghĩa khái SVTH: Hoàng Thị Thu-104102128