4.4.1. Phương pháp thực hiện
Nghiên cứu sinh đã phát triển [CT2] để làm giảm kích cỡ của cơ sở dữ liệu tuần tự ban đầu nhằm làm tăng hiệu quả về thời gian xử lý cho dự đoán truy cập Web. Chi tiết giải pháp đề xuất được thực hiện như sau:
Dữ liệu nhập:
Chuỗi tuần tự cần dự đoán S_query
Cơ sở dữ liệu tuần tự SDB
Xử lý:
Khởi tạo thời gian thực hiện việc xử lý. Gọi thời gian khởi tạo này là T1
Bước 1:
Xét tất cả các chuỗi tuần tự S thuộc SDB, tiến hành loại bỏ các chuỗi tuần tự S nào mà không chứa ít nhất một phần tử thuộc S_query. Gọi cơ sở dữ liệu mới thu được là SDB1
và kích cỡ tương ứng là SDB1_size.
Bước 2:
Tiếp tục thực hiện trên SDB1: Loại bỏ các chuỗi tuần tự có chứa duy nhất chuỗi tuần tự S_query nằm ở vị trí tận cùng của các chuỗi tuần tự trong SDB1 vì những chuỗi
tuần tự này không có ý nghĩa để dự đoán phần tử kế tiếp. Gọi cơ sở dữ liệu mới thu được sau khi thực hiện bước này là SDB2 và kích cỡ tương ứng là SDB2_size.
Bước 3:
Áp dụng giải thuật CPT+ để dự đoán truy cập Web trên cơ sở dữ liệu SD2.
Ghi nhận thời gian thực hiện hai bước trên (T1)
Tính độ đo Acc1 [47].
Kết quả thu được:
Kích cỡ cơ sở dữ liệu tuần tự SD2_size.
Độ đo Accuracy: Acc1.
Thời gian thực thi: T1.
Với tiếp cận truyền thống, chỉ sử dụng CPT+ cho dự đoán truy cập Web, Bước 2 sẽ không được thực hiện. Kết quả thu được như sau:
Kích cỡ cơ sở dữ liệu tuần tự SD_size.
Độ đo Accuracy: Acc.
Thời gian thực thi: T. Vấn đề được đặt ra :
+ Thời gian thực thi T1 có nhanh hơn Thời gian thực thi T đáng kể hay không? + Độ chính xác Acc1 có tương đương hay cao hơn độ chính xác Acc?