Giới thiệu

Một phần của tài liệu Khai phá luật kết hợp mờ và ứng dụng trong cơ sở dữ liệu cước điện thoại (Trang 28)

Khai phá luật kết hợp là một kỹ thuật quan trọng của KPDL được ra đời và phát triển mạnh mẽ trong những năm gần đây. Lần đầu tiên được Rakesh

Agrawal, Tomas Imielinski, Arun Swami đề xuất năm 1993. Sau đó năm 1996

được Rakesh Agrawal , Heikki Mannila, Ramakrishnan Srikant, Hanno

Toivonen, A.Inkeri Verkamo tiếp tục phát triển cải tiến. Những nghiên cứu về

luật kết hợp gần đây tập trung xây dựng các thuật toán khai phá luật kết hợp mới, hiệu quả hoặc cải tiến, phát triển các thuật toán hiệu quả hơn từ các thuật toán đã có [29].

Khai phá luật kết hợp là sự KPDL không được định hướng hoặc không có giám sát trên dữ liệu có độ dài thay đổi, nó cho ra các kết quả rõ ràng và dễ hiểu. Mục đích của khai phá luật kết hợp là tìm tất cả các tập con, các đối tượng hoặc các thuộc tính xuất hiện thường xuyên trong nhiều giao dịch hoặc bản ghi trong CSDL, thêm vào đó là rút ra các luật về một tập con đối tượng có ảnh hưởng tới sự xuất hiện của tập con các đối tượng khác như thế nào [12].

Luật kết hợp là một lĩnh vực quan trọng trong khai phá dữ liệu. Luật kết hợp giúp chúng ta tìm được các mối liên hệ giữa các mục dữ liệu (item) của CSDL. Trong ngành viễn thông, các loại dịch vụ cung cấp cho khách hàng ngày càng nhiều, do đó chúng ta có thể tìm mối liên kết giữa việc sử dụng các loại dịch vụ để phục vụ cho việc quảng cáo, tiếp thị. Ví dụ như để tìm hiểu thói quen sử dụng các dịch vụ viễn thông của khách hàng, người ta thường đặt câu hỏi: “Những dịch vụ nào khách hàng thường hay sử dụng cùng lúc với nhau khi đăng ký sử dụng tại trung tâm chăm sóc khách hàng?”. Các kết quả nhận được có thể dùng cho việc tiếp thị dịch vụ như liệt kê các dịch vụ khách hàng hay sử dụng nằm gần nhau, hoặc khuyến mãi dịch vụ kèm theo .v.v.

Luật kết hợp là những luật có dạng “80% khách hàng mua máy điện thoại di động thì mua thêm simcard, 30% có mua cả máy điện thoại di động lẫn simcard” hoặc “75% khách hàng gọi liên tỉnh và sống ở các huyện thì gọi điện thoại IP 171 liên tỉnh, trong đó 25% số khách hàng vừa gọi liên tỉnh và sống ở các huyện vừa gọi điện thoại IP 171 liên tỉnh”. “Mua máy điện thoại di động” hay “gọi liên tỉnh và sống ở các huyện” được xem là vế trái (tiền đề) của luật, còn “mua simcard” hay “gọi điện thoại IP 171 liên tỉnh” là vế phải (kết luận) của luật. Các con số 30% hay 25% là độ hỗ trợ của luật (support - số phần trăm các giao tác chứa cả vế trái và vế phải), còn 80% hay 75% là độ tin cậy của luật (confidence - số phần trăm các giao tác thỏa mãn vế trái thì cũng thỏa mãn vế phải).

Chúng ta nhận thấy rằng tri thức đem lại từ luật kết hợp ở dạng trên có sự khác biệt cơ bản so với thông tin thu được từ các câu lệnh truy vấn dữ liệu thông thường như ngôn ngữ SQL. Đó là những tri thức, những mối liên hệ chưa biết trước và mang tính dự báo đang tiềm ẩn trong dữ liệu. Những tri thức này không đơn giản là kết quả của phép nhóm, tính tổng hay sắp xếp mà là kết quả của một quá trình tính toán khá phức tạp và tốn nhiều thời gian.

Tuy luật kết hợp là dạng luật khá đơn giản nhưng lại mang khá nhiều ý nghĩa. Thông tin mà dạng luật này đem lại là rất đáng kể và hỗ trợ không nhỏ trong quá trình ra quyết định. Tìm kiếm được các luật “quý hiếm” và mang nhiều thông tin từ CSDL là một trong những hướng tiếp cận chính của lĩnh vực khai phá dữ liệu.

Hình 2.1: Minh họa về luật kết hợp

Trong các giao tác mua máy điện di động thì có 80% giao tác mua thêm simcard

Số giao tác mua simcard

Số giao tác mua máy điện thoại di động

30% Số giao tác mua cả hai mặt hàng

Một phần của tài liệu Khai phá luật kết hợp mờ và ứng dụng trong cơ sở dữ liệu cước điện thoại (Trang 28)