So sánh 2 giải thuật 2P-UF và FUFM

Một phần của tài liệu Đồ án tốt nghiệp đại học nghiên cứu các thuật toán khai phá luật kết hợp có trọng số và ứng dụng (Trang 66 - 70)

b. Thuật toán sinh luật nhanh

2.4.4So sánh 2 giải thuật 2P-UF và FUFM

Bằng trực giác chúng ta có thể nhận thấy trong các vòng lặp đầu tiên của giải thuật 2P-UF có nhiều ứng viên bởi tiêu chuẩn độ hỗ trợ quasi đánh giá quá cao các tập hạng mục. Trong thực tế, 2P-UF chỉ hiệu quả trong trường hợp khi ngưỡng uti rất cao và kết quả là một tập rỗng, trong trường hợp như vậy quá trình khai phá dừng lại tại chính các vòng đầu tiên. Bởi trong giải thuật mới của chúng ta ngưỡng uti không ảnh hưởng tới pha tạo, FUFM thực

hiện tệ hơn trong trường hợp cụ thể này bởi nó phải xem xét tất cả các tập phổ biến bất chấp uti của chúng.

Thử nghiệm 2 giải thuật trên CSDL nhỏ gồm 200 giao dịch. Ngưỡng uti được thiết lập là 17.94 (0.5% tổng uti của CSDL) và ngưỡng độ hỗ trợ được cố định 10%. Cả 2 giải thuật tìm ra tất cả 21 tập uti phổ biến, FUFM thực hiện trong 8.5s và 2P-UF trong 1567.8s. Số các ứng viên còn lại (sau khi cắt tỉa các ứng viên có độ hỗ trợ thấp/không phải quasi-uti phổ biến từ tất cả các ứng viên được tạo ra ) được biểu diễn trên đồ thị ở hình 2.8.

Hình 2.8 Số các ứng viên còn lại sử dụng 2P-UF và FUFM.

2.5 Một số ứng dụng luật kết hợp có trọng số

Như các ví dụ đã nêu ở trên, với ứng dụng giỏ hàng, mỗi sản phẩm được coi là một hạng mục, các hoá đơn mua hàng ở siêu thị tương ứng là các giao dịch, lợi nhuận trên một đơn vị sản phẩm tương ứng là uti bên ngoài của hạng mục, số lượng sản phẩm trong mỗi hoá đơn tương ứng là uti bên trong của hạng mục.

Chúng ta xét thêm ví dụ ứng dụng luật kết hợp có trọng số để tăng tốc độ truy cập Web. Mỗi trang web là một hạng mục, những trang web được thăm cùng nhau trong một lần truy cập mạng của một người sử dụng được coi là một giao dịch.

Lưu lượng truy cập web lớn gây ra sự tắc nghẽn mạng, băng thông chậm, sự tận dụng không hợp lí băng thông và việc load nặng trên các server web và trì hoãn đường truyền làm cho tốc độ truy cập web rất chậm. Giải pháp rõ ràng nhất là tăng băng thông. Nhưng không phải lúc nào cũng thực hiện được do chi phí và các thiết bị cần thiết. Một cách khác để tăng tốc độ truy cập web là nạp trước những trang thể hiện sở thích và thói quen của người sử dụng và đặt chúng vào cache. Khi người sử dụng yêu cầu những trang này, nó sẽ được phục vụ từ cache.

Các url người sử dụng yêu cầu được lưu trữ trong web log. Kỹ thuật khai phá dữ liệu được sử dụng để khai phá các log này và trích ra các luật kết hợp giữa các url được người sử dụng yêu cầu. Điều này có nghĩa là nếu một người sử dụng truy cập url X thì hầu như họ sẽ truy cập url Y. Các công việc trước đó trong lĩnh vực này chỉ tập trung vào tìm ra thói quen của người sử dụng. Luật kết hợp có trọng số có thể nắm bắt tốt cả 2 yếu tố thói quen và sở thích của người sử dụng.

Các mẫu surfing có thể được phân loại thành 2 kiểu: (i) Truy cập thông thường như tin tức, email,…(ii) Các truy cập không thường xuyên dựa trên các sự kiện như Olympic. Cái đầu tiên được gọi là thói quen và cái sau được gọi là sở thích. Sở thích của người sử dụng thay đổi theo các sự kiện xảy ra tại một thời điểm nào đó.

Trước khi chúng ta nói chi tiết về phương pháp này, chúng ta hãy xem xét 2 tình huống sau: người sử dụng A đăng nhập vào hệ thống internet mỗi ngày để đọc các tin tức và kiểm tra email. Anh ta vào trang mail.yahoo.com và rediffmail.com theo thứ tự bất kỳ. Tuy nhiên, bởi mùa Olympic, anh ta bắt đầu thăm website Olympic để xem các sự kiện mới nhất và tỉ số (điểm số). Trong trường hợp này, luật kết hợp đơn giản (PAR: plain associate rule) sẽ đưa ra luật (UserA, mail.yahoo.com) → (UserA, rediffmail.com) ∧ (UserA,

rediffmail.com) → (UserA, mail.yahoo.com). Luật kết hợp thông thường sẽ không phát hiện các luật kết hợp chứa website Olympic bởi người sử dụng A mới bắt đầu xem trang web gần đây và để trở thành luật, nó phải được xem đủ nhiều để độ hỗ trợ có thể lớn hơn minsup. Với phương pháp khai phá luật kết hợp có trọng số, ta gán trọng số cho mỗi url tương ứng với thời gian nó truy cập gần đây nhất. Một cách khác để gán trọng số cho các url, đó là lượng thời gian người sử dụng truy cập chúng trong một lần truy cập internet.

Một phần của tài liệu Đồ án tốt nghiệp đại học nghiên cứu các thuật toán khai phá luật kết hợp có trọng số và ứng dụng (Trang 66 - 70)