Giải pháp nâng cao hiệu quả về thời gian cho dự đoán truy cập Web với CPT+ 1 Phương pháp thực hiện

Một phần của tài liệu Khai phá dữ liệu tuần tự để dự đoán hành vi truy cập web tt (Trang 30 - 31)

4.4.1. Phương pháp thực hiện

Nghiên cứu sinh đã phát triển [CT2] để làm giảm kích cỡ của cơ sở dữ liệu tuần tự ban đầu nhằm làm tăng hiệu quả về thời gian xử lý cho dự đoán truy cập Web. Chi tiết giải pháp đề xuất được thực hiện như sau:

Dữ liệu nhập:

 Chuỗi tuần tự cần dự đoán S_query

 Cơ sở dữ liệu tuần tự SDB

Xử lý:

Khởi tạo thời gian thực hiện việc xử lý. Gọi thời gian khởi tạo này là T1

 Bước 1:

Xét tất cả các chuỗi tuần tự S thuộc SDB, tiến hành loại bỏ các chuỗi tuần tự S nào mà không chứa ít nhất một phần tử thuộc S_query. Gọi cơ sở dữ liệu mới thu được là SDB1

và kích cỡ tương ứng là SDB1_size.

 Bước 2:

Tiếp tục thực hiện trên SDB1: Loại bỏ các chuỗi tuần tự có chứa duy nhất chuỗi tuần tự S_query nằm ở vị trí tận cùng của các chuỗi tuần tự trong SDB1 vì những chuỗi

tuần tự này không có ý nghĩa để dự đoán phần tử kế tiếp. Gọi cơ sở dữ liệu mới thu được sau khi thực hiện bước này là SDB2 và kích cỡ tương ứng là SDB2_size.

 Bước 3:

Áp dụng giải thuật CPT+ để dự đoán truy cập Web trên cơ sở dữ liệu SD2.

Ghi nhận thời gian thực hiện hai bước trên (T1)

Tính độ đo Acc1 [47].

Kết quả thu được:

 Kích cỡ cơ sở dữ liệu tuần tự SD2_size.

 Độ đo Accuracy: Acc1.

 Thời gian thực thi: T1.

Với tiếp cận truyền thống, chỉ sử dụng CPT+ cho dự đoán truy cập Web, Bước 2 sẽ không được thực hiện. Kết quả thu được như sau:

 Kích cỡ cơ sở dữ liệu tuần tự SD_size.

 Độ đo Accuracy: Acc.

 Thời gian thực thi: T. Vấn đề được đặt ra :

+ Thời gian thực thi T1 có nhanh hơn Thời gian thực thi T đáng kể hay không? + Độ chính xác Acc1 có tương đương hay cao hơn độ chính xác Acc?

Một phần của tài liệu Khai phá dữ liệu tuần tự để dự đoán hành vi truy cập web tt (Trang 30 - 31)