MỤC LỤC
Ví dụ, trong bài toán tìm quy luật mua hàng của khách hàng trong một siêu thị, ta tìm xem khách hàng thường cùng mua những mặt hàng nào để sắp xếp những món hàng đó gần nhau. Từ dữ liệu nguồn do siêu thị cung cấp, có thể có nhiều thuộc tính không cần thiết cho khai phá dữ liệu như: Mã khách hàng, nhà cung cấp, đơn giá hàng, người bán hàng… Các dữ liệu này cần cho quản lý bán hàng nhưng không cần cho khai phá dữ liệu, ta loại bỏ các thuộc tính này khỏi dữ liệu trước khi khai phá dữ liệu.
Ứng dụng của hồi quy là rất nhiều, ví dụ: dự đoán số lượng sinh vật phát quang hiện thời trong khi rừng bằng cách dò tìm vi sóng bằng thiết bị cảm biến từ xa; dự đoán khả năng tử vong của bệnh nhân khi biết các kết quả xét nghiệm chuẩn đoán; dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêu quảng cáo… hình 1.5 chỉ ra mẫu kết quả hồi quy tuyến tính đơn giản, ở đây tổng số nợ được điều chỉnh cho phù hợp giống như một hàm thu nhập tuyến tính. Phát hiện sự thay đổi và độ lệch (change and deviation dectection): Nhiệm vụ này tập trung vào khám phá những thay đổi có ý nghĩa trong dữ liệu dựa vào các giá trị chuẩn hay độ đo đã biết trước, phát hiện độ lệch đáng kể giữa nội dung của tập con dữ liệu và nội dung mong đợi.
Giống như cơ sở dữ liệu không gian, cơ sở dữ liệu có yếu tố thời gian bao gồm hai phần: Phần thứ nhất là dữ liệu quan hệ hay giao tác, phần thứ hai là thông tin về thời gian xuất hiện dữ liệu ở phần thứ nhất. Khai phá d ữ liệu web thông thường được chia thành ba phạm trù chính: Khai phá cách dùng web (web usage mining), khai phá c ấu trúc web (web structure mining) và khai phá n ội dung web (web content mining).
Thông tin trên web đang phát triển với tốc độ rất cao, khai phá thông tin trên web (web mining) đ ã tr ở thành một lĩnh vực nghiên cứu chính của khai phá dữ liệu, được các nhà nghiên cứu đặc biệt quan tâm. Khai phá d ữ liệu web thông thường được chia thành ba phạm trù chính: Khai phá cách dùng web (web usage mining), khai phá c ấu trúc web (web structure mining) và khai phá n ội dung web (web content mining). Khai phá cách dùng web tập trung vào việc khai phá thông tin của người truy nhập web. Với những thông tin này người khai phá dữ liệu có thể cung cấp những thông tin hữu ích cho người dùng và các nhà kinh doanh. Các phương pháp chính trong khai phá d ữ liệu. tree), mạng nơron nhân tạo (Neural network).
Kết quả đạt được sau khai phá cũng gây không ít khó khăn cho khai phá dữ liệu, như các mẫu được khai phá ở bước trước , có thể không còn giá trị hay vô nghĩa đối với thời điểm sử dụng, hoặc có thể làm nhiễu hay phát sinh hiệu ứng phụ làm sai lệch kết quả. Những bộ thuộc tính có cấu trúc, phân lớp phức tạp, có mối liên hệ phức tạp với nhau trong CSDL đòi hỏi khai phá dữ liệu phải có các giải pháp, các kỹ thuật để có thể áp dụng được, nhận ra được các mối quan hệ này trong quá trình khai phá dữ liệu.
Trong mỗi giai đoạn tiếp theo, ta bắt đầu với các tập mục phổ biến đã tìm được trong giai đoạn trước, để sinh ra các tập mục có khả năng là tập phổ biến mới (còn gọi là tập mục ứng cử - candidate itemset) và tính độ hỗ trợ cho các tập mục ứng cử này bằng một phép duyệt CSDL. Khi thêm một tập mục ci vào cây, ta bắt đầu duyệt từ nút gốc trên cây cho đến khi tìm được nút lá phù hợp, cách thực hiện như sau: ở mỗi nút trong độ sâu d, chúng ta quyết định đi theo nhánh nào bằng cách sử dụng hàm băm đối với mục thứ d (ci[d] lưu mục thứ d) của tập mục ci.
- Khi thực hiện thủ tục Prune, một k-itemset X ửng cử sẽ được cắt tỉa nếu tất cả các biên j-support của X (j ≤ k) đều lớn hơn số đếm hỗ trợ nhỏ nhất trong số các (k-1)-subset của X, đó là một ước lượng và là một cận trên số đếm hỗ trợ của k-itemset X. Sự khác nhau giữa phương pháp tỉa này và phương pháp tỉa trong hàm apriori_gen() ở chỗ, phương pháp này không cần phải kiểm tra các tập con của các tập mục phổ biến thay vào đó nó sử dụng các giá trị biên support.
- Thủ tụ c Ch eck ing sẽ th ực h iện tương tự n h ư MINVAL(O), chỉ có sự khác biệt, các tâp mục ứng cử còn lại sẽ là tập các tập mục phổ biến Lk và giai đoạn kế tiếp sẽ dựa vào Lk để sinh ra các tập ứng cử. Execute(wminsup, minconf, S, w): Thực hiện một trong hai thuật toán MINVAL(O) hoặc MINVAL(W) trên tập mẫu các giao dịch S.
Định nghĩa 2.16: Cho một tập các luật S và một giá trị quan tâm tối thiểu R, một luật X ⇒Y là luật đáng quan tâm trong S nếu nó không có một tổ tiên nào hoặc nó là một R -quan tâm với ít nhất một tổ tiên đóng trong các tổ tiên đáng quan tâm của nó. (3) Pha cắt tỉa dựa vào độ quan tâm: Cho trước một mức quan tâm (cho bởi người dùng), để xác định được các tập mục có độ hỗ trợ và độ tin cậy lớn hơn giá trị kỳ vọng ta sử dụng mức quan tâm để cắt tỉa các tập mục ứng không cần thiết.
Hư ớng tiếp cận chính trong thiết kế thuật toán khai phá luật kết hợp song.
Các thuật toán song song được thiết kế dựa vào mô hình song song thao tác có độ phức tạp tính toán nhỏ hơn so với các thuật toán tuần tự do thao tác được chia thành những thao tác nhỏ hơn để dễ xử lý. Tuy nhiên, việc thực thi các thuật toán này lại phụ thuộc vào kiến trúc máy tính song song và mang tính chuyên dụng.
Sau khi phân hoạch dữ liệu, công việc tiếp theo là xác định 1- itemset phổ biến ( F1-itemset) trước khi xây dựng một FP-Tree cục bộ, Mỗi bộ xử lý tính toán đếm hỗ trợ (flocal(i)) của mỗi mục i bằng cách quét phân hoạch CSDL cục bộ D N/P, tất cả các bộ xử lý đếm flocal(i) cục bộ đến bộ xử lý Chủ. Ở đây, việc cân đối khối lượng công việc xảy ra trong thời gian thực thi (runtime). Mô hình Chủ - Tớ được duy trì cho đến khi tất cả các tập mục phổ biến được sinh ra ứng với mỗi mục phổ biến trong F1-itemset. Sau đó tất cả các bộ xử lý Tớ này chuyển các tập mục phổ biến mà nó sinh ra đến bộ xử lý Chủ, giai đoạn khai phá kết thúc. Tương ứng với mỗi mục i ∈ F1-itemset, các tập mục phổ biến được sinh đệ quy bởi các mẫu điều kiện cơ sở và các FP -Tree điều kiện được chỉ ra trong hình 3.9. Item Các FP-Tree điều kiện mức 1. Các tập mục. phổ biến Item Các FP-Tree điều kiện mức 1. Các tập mục phổ biến. Mức đệ qui đầu tiên. Vào: Các phân hoạch CSDL DN/P và minsup. Ra: Tập các mục phổ biến. 8) Xây dựng FP-Tree cục bộ FPTlocal của các mục trong F1-itemset bằng cách quét DN/P cục. 9) Duyệt toàn bộ FPTlocal và sinh ra các mẫu điều kiện cơ sở và truyền đến tất cả các bộ xử lý;. 16) Tập hợp các tập mục phổ biến và xuất tất cả các tập mục phổ biến;. 19) Yêu c ầu mục i tiếp theo và sinh FP-Tree đi ều kiện CFPTi cho mục. 2) Sinh tập mục có độ hỗ trợ ≥ minsup đối với mỗi tổ hợp các nút trong đường dẫn. 5) else for mỗi i trong bảng tiêu đề của Cây.
- Nếu tid-List đã được sắp theo thứ tự tăng dần thì độ hỗ trợ của k-itemset ứng cử có thể đã được tính toán bởi phép lấy giaocác tid-List c ủa hai (k-1)- subset b ất kỳ, Với cách tổ chức này, thuật toán không cần phải duy trì cấu trúc dữ liệu phức tạp, không như cây băm và c ũng không phải sinh ra tất cả các -ksubset c ủa các giao dịch hoặc thực hiện các thao tác tìm kiếm trên cây băm. - Các tid-List chứa tất cả các thông tin liên quan về một tập mục, vì vậy, khi tính độ hỗ trợ cho một tập mục không cần phải quét toàn bộ CSDL. Vì tất cả các thông tin về một lớp tương đương là được nhóm cùng nhau nên có thể sinh ra các tập mục phổ biến trước khi chuyển sang lớp tiếp theo. Ta có th ể tính ngay độ hỗ trợ bằng cách đếm số phần tử trong tid-List, n ếu số. phần tử của tid-List l ớn hơn hoặc bằng độ hỗ trợ tối thiểu thì chèn ABC vào L3. 2) Thuật toán song song Eclat Nội dung thuật toán Begin. 1) Duyệt qua các phân hoạch CSDL cục bộ. 2) Tính toán số đếm hỗ trợ cục bộ cho tất cả các 2-itemset. 6) Tổ chức phân hoạch dữ liệu cục bộ theo chiều dọc 7) Truyền các tid-List có liên quan tới các bộ xử lý khác 8) L2 cục bộ = nhận các tid-List từ các bộ xử lý khác. 9) forparallel mỗi lớp tương E2 trong L2 cục bộ. Giải thích thuật toán 1) Phần khởi tạo. Ta sử dụng thông tin này cùng với thông tin của các số đếm hỗ trợ cục bộ để đặt tid-List của các bộ xử lý khác gửi đến vào các khoảng trống thích hợp, vì vậy tid-List toàn cục thu được xuất hiện th eo thứ tự từ điển, Với các lưu giữ này, chú ng ta tiết kiệm được chi phí sắp xếp cho các tid-List các giao dịch được phân tán một cách ngẫu nhiên.
Trong số các thuật toán khai phá dữ liệu luật kết hợp song song, các thuật toán song song được cài đặt dựa trên thuật toán Apriori (chẳng hạn như thuật toán CD, DD, Candidate distribution) đợưc sử dụng phổ biến bởi vì thực thi chúng đơn giản và dễ dàng. Thuật toán FP-Growth xử ký lượng lớn CSDL rất hiệu quả và có tốc độ thực thi tỷ lệ rất hiệu quả so với lượng giao dịch lớn, sự lặp lại nhiều lần hay lặp lại nhiều lần cục bộ các giao dịch sẽ được kết hợp lại tạo thành các nhánh của FP-Tree.