Khai phá dữ liệu ứng dụng trong hỗ trợ ra quyết định: Phương pháp luật kết hợp

MỤC LỤC

Các phương pháp khai phá dữ liệu

Phương pháp suy diễn / quy nạp

Ví dụ như toán tử liên kết áp dụng cho bảng quan hệ, bảng đầu chứa thông tin về các nhân viên và phòng ban, bảng thứ hai chứa các thông tin về các phòng ban và các trưởng phòng. Việc dùng các miêu tả này, nội dung của vùng lân cận được xác định, trong đó các bản ghi gần nhau trong không gian được xem xét thuộc về lân cận (hàng xóm – láng giềng) của nhau. Ví dụ: Để dự đoán hoạt động của cá thể xác định, K-láng giềng tốt nhất của cá thể được xem xét, và trung bình các hoạt động của các láng giềng gần đưa ra được dự đoán về hoạt động của cá thể đó.

Phương pháp phát hiện luật kết hợp

Thông tin về các tập phổ biến được sử dụng để ước lượng độ tin cậy của các tập luật kết hợp.

Nhiệm vụ chính trong khai thác dữ liệu

    Phát hiện sự biến đổi và độ lệch (change and deviation dectection) Nhiệm vụ này tập trung vào khám phá hầu hết sự thay đổi có nghĩa dưới dạng độ đo đã biết trước hoặc giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội dung của tập con dữ liệu thực và nội dung mong đợi. Độ lệch theo nhóm là sự khác nhau của giữa dữ liệu trong hai tập con dữ liệu, ở đây tính cả trường hợp tập con dữ liệu này thuộc tập con kia, nghĩa xác định dữ liệu trong một nhóm con của đối tượng có khác đáng kể so với toàn bộ đối tượng không?. Vì những nhiệm vụ này yêu cầu số lượng và các dạng thông tin rất khác nhau nên chúng thường ảnh hưởng đến việc thiết kế và chọn phương pháp khai phá dữ liệu khác nhau.

    Các kỹ thuật khai phá dữ liệu

      Vì những nhiệm vụ này yêu cầu số lượng và các dạng thông tin rất khác nhau nên chúng thường ảnh hưởng đến việc thiết kế và chọn phương pháp khai phá dữ liệu khác nhau. Ví dụ như phương pháp cây quyết định tạo ra được một mô tả phân biệt được các mẫu giữa các lớp nhưng không có tính chất và đặc điểm của lớp. Dạng dữ liệu có thể khai phá. Do khai phá dữ liệu được ứng dụng rộng rãi nên nó có thể làm việc với rất nhiều kiểu dữ liệu khác nhau. Sau đây là một số dạng dữ liệu điển hình: CSDL quan hệ, CSDL đa chiều, CSDL dạng giao dịch, CSDL quan hệ - hướng đối tượng, dữ liệu không gian và thời gian, Dữ liệu chuỗi thời gian, CSDL đa phương tiện, dữ liệu Text và Web.. Các ứng dụng của khai phá dữ liệu. Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, CSDL, thuật toán, tính toán song song .. Đặc biệt phát hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình hóa dữ liệu và phát hiện các mẫu. Khai phá dữ liệu có nhiều ứng dụng trong thực tế, ví dụ như:. 1) Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định. 2) Điều trị y học và chăm sóc y tế: một số thông tin về chuẩn đoán bệnh lưu trong các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa các triệu chứng bệnh, chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc, ..). 3) Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một số bệnh di truyền, .. 4) Bảo hiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán. Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận, .. 5) Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sự cố. 6) Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi, sự cố chất lượng dịch vụ, …. 7) Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm tắt văn bản. Ý nghĩa của các luật kết hợp khá dễ nhận thấy: Cho trước một cơ sở dữ liệu có D là tập các giao tác - trong đó mỗi giao tác TD là tập các item - khi đó X  Y diễn đạt ý nghĩa rằng bất cứ khi nào giao tác T có chứa X thì chắc chắn T có chứa Y.

      Hơn nữa, luật kết hợp không chỉ bị giới hạn trong phân tích sự phụ thuộc lẫn nhau trong phạm vi các ứng dụng bán lẻ mà chúng còn được áp dụng thành công trong rất nhiều bài toán kinh doanh. - Phân loại dựa trên loại dữ liệu được khai phá: Các hệ thống KPDL làm việc với CSDL quan hệ, kho dữ liệu , CSDL giao dịch, CSDL hướng đối tượng, CSDL không gian và thời gian, CSDL đa phương tiện, CSDL văn bản và web,. - Phân loại dựa trên loại tri thức khai phá được: Các hệ thống KPDL có thể phân loại dựa theo loại tri thức mà chúng khai phá được, nghĩa là dựa vào các chức năng khai phá như mô tả, tóm tắt, luật kết hợp, phân lớp, dự báo, phân cụm, ….

      - Phân loại dựa trên loại kỹ thuật được sử dụng: Các công cụ KPDL như các hệ thống xử lý phân tích trực tuyến (OLAP), sử dụng kỹ thuật học máy (cây quyết định, mạng nơron nhân tạo, k- maen, máy hỗ trợ vector, tập thô, tập mờ, ..), trực quan hoá dữ liệu, …. - Phân loại dựa trên các lĩnh vực hệ thống KPDL được ứng dụng: Các hệ thống KPDL được sử dụng trong các lĩnh vực khác nhau như: Thương mại (ngành công nghiệp bán lẻ), viễn thông, tin sinh học, điều trị y tế, tài chính và thị trường chứng khoán, bảo hiểm y tế, …. - Khai thác dữ liệu song song và phân tán là một xu hướng nghiên cứu thú vị bởi vì nó sử dụng các hệ thống tính toán mạnh mẽ để giảm thời gian phản ứng.

      Trong các CSDL lớn, các phương pháp KPDL (điển hình là phân cụm, phân lớp) cho phép phát hiện được các mẫu tiềm ẩn và đánh giá giá trị của chúng một cách tự động trong một khoảng thời gian nhanh nhất để hỗ trợ cho người sử dụng.

      LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU

      Khai phá luật kết hợp

      + Liệt kê, đếm tất cả những qui luật chỉ ra sự xuất hiện một số các mục sẽ kéo theo một số mục khác.

      THỬ NGHIỆM KHAI PHÁ LUẬT KẾT HỢP

        Với cách quản lý khách hàng như trên, siêu thị hoàn toàn có các tổng kết đánh giá về các thông tin như: sức mua của khách hàng (theo nghề nghiệp, theo địa bàn, theo thời gian, …). Bài toán phát hiện luật kết hợp trong mua bán các mặt hàng tại siêu thị Với số lượng khách hàng vào mua sắm rất lớn, bình quân 4.000 10.000 lượt/ ngày. Trên hoá đơn có các thông tin sau: Số hoá đơn, mã số khách hàng, tên khách hàng, địa chỉ, người đại diện, ngày, giờ, mã số nhân viên thu ngân, quầy, số trang hoá đơn.

        Các thông tin tiếp theo của hoá đơn có liên quan đến hàng hoá như: mã hàng hoá, tên hàng hoá, số lượng đóng gói, đơn vị tính, số lượng, đơn giá, giá đóng gói, iá trước thuế VAT, % thuế VAT, tiền thuế VAT, thành tiền đã có thuế VAT. Cuối hoá đơn có các thông tin tổng hợp như: tổng tiền phải thanh toán có thuế VAT, tổng tiền thuế VAT, số tiền thanh toán, tiền trong phiếu quà tặng, tiền khách hàng trả, tiền trả lại khách. Có kế hoạch cung ứng các loại mặt hàng phù hợp với nhu cầu của khách hàng theo mức sống, địa bàn dân cư, theo chu kỳ thời gian ví dụ: vào dịp lễ tết, nhu cầu về thực phẩm, thời trang sẽ tăng .v.v….

        Giai đoạn khai phá: Đây là quá trình thực hiện các thuật toán (Apriori, Fp- growth) áp dụng đối với dữ liệu cung cấp sau giai đoạn tiền xử lý. Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association Rule - AR) là tìm ra các mối kết hợp (Association) hay tương quan (Correlation) giữa các đối tượng trong khối lượng lớn dữ liệu. Ứng dụng của luật kết hợp rất phổ biến trong nhiều lĩnh vực, nhất là trong kinh doanh như Market Basket Analysis (Cross selling, Product placement, Affinity promotion, Customer behavior Analysis).

        Khóa luận tốt nghiệp đã trình bày tổng quan và các nét đặc trưng nhất trong lĩnh vực Data Mining bao gồm các vấn đề cần khám phá tri thức, các hướng tiếp cận và nghiên cứu tiểu biểu, trong đó phát hiện luật kết hợp là một phương pháp khám phá tri thức quan trọng trong Data Mining có nhiều ý nghĩa trong khoa học cũng như trong thực tiễn. Về mặt lý thuyết, khai phá tri thức bao gồm các bước: Hình thành, xác định và định nghĩa bài toán; thu thập và tiền xử lý dữ liệu; khai phá dữ liệu, rút ra các tri thức; sử dụng các tri thức phát hiện được. Về thuật toán khai phá tri thức, khóa luận tốt nghiệp trình bày một số thuật toán và minh hoạ một số thuật toán kinh điển về phát hiện tập chỉ báo phổ biến và khai phá luật kết hợp, như: Apriori, FP-growth.

        Hình 3.2: Giao diện phần mềm Weka
        Hình 3.2: Giao diện phần mềm Weka