Một mô hình cải tiến khác là mô hình dữ liệu hành vi lƣu lƣợng Web của H.Choi & J.Lim [15] đề xuất. Tại đây tác giả đã đề xuất một định nghĩa hoàn toàn mới là Web-request, đơn vị cơ sở để chỉ một trang hay một tập trang đƣợc trả về sau khi nhận đƣợc một yêu cầu truy vấn từ ngƣời dùng. Đây là khái niệm cơ bản dùng khá nhiều cho các công việc liên quan sau này, cả bên trong những ý tƣởng đề xuất của chúng tôi, do đó sau này chúng tôi gọi ngắn gọn là Web-request. Để hiểu hơn về Web-request, chúng ta hãy bắt đầu từ giao thức HTTP. Hiện nay nó có nhiều phiên bản khác nhau, bản 1.0 thì với mỗi đối tƣợng cần đƣợc download, nó yêu cầu một kết nối TCP. Trong phiên bản này, trình duyệt phải mở nhiều kết nối song song để download các trang khác nhau khi hiển thị. Mỗi trình duyệt đều có đặt mặc định một số lƣợng kết nối song song tối đa. Nếu có nhiều trang cần tải hơn số kết nối có thể thực hiện cùng lúc thì nó chỉ đƣợc tải khi các trang khác đã tải xong. Ngoài ra, trong phiên bản này thì một kết nối không đóng lại ngay lập tức khi có yêu cầu kết nối mới đƣợc mở. Trong phiên bản cải tiến HTTP 1.1, thì các kết nối và yêu cầu đƣợc thực hiện xen kẽ nhƣ hình dƣới
28 Hình 3 Mô hình tổng quát của tƣơng tác trình duyệt và máy chủ [15]
Một trang Web cơ bản gồm có một trang văn bản dạng Hypertext. Trang văn bản này có mã nguồn dạng HTML đƣợc gắn tới các trang khác để làm nên tổng thể site. Mỗi đối tƣợng là một thực thể đƣợc máy chủ lƣu trữ nhƣ một file. Có hai loại đối tƣợng, “main-object” và “inline-object”. Tài liệu chứa HTML đƣợc gọi là “main-object” còn các đối tƣợng liên kết bởi trang “main-object” đƣợc gọi là “in- line object”. Nhƣ hình 3, thì một Web-request đƣợc sinh ra ngay khi kết thúc thời gian đọc trang. Kiểm tra mô hình chúng ta cũng có thể chia ra làm hai thời kỳ chính “HTTP - ON” và “HTTP – OFF”. “HTTP – ON” miêu tả thời kỳ Web-request hoạt động để tải dữ liệu về. “HTTP – OFF” miêu tả thời kỳ ngƣng tải sau khi dữ liệu web đã tải xong còn gọi là thời gian đọc. Thời gian này không chỉ là thời gian ngƣời dùng dừng lại để đọc thông tin trên trang mà nó còn bao gồm cả thời gian mà trình duyệt không thực hiện công việc gì khác. Thời gian ON phụ thuộc vào kích thƣớc của trang.
Thông qua ý tƣởng sử dụng mô hình ON – OFF, nghiên cứu đƣa ra các đặc tính chính của một phiên truy cập hợp lệ bao gồm: số lƣợng, kích cỡ của các đối tƣợng “main-object”, “inline-object”, thời gian trình duyệt đọc mã nguồn và trình bày lên khung nhìn cho ngƣời dùng thấy, thời gian ngƣời dùng đọc trang, số các yêu cầu có cache, số các đối tƣợng không cache… nhƣ thống kê bên dƣới.
Hình 4 Thống kê các tham số mô tả đặc tính của phiên truy cập Web [15] Đây là những kết quả nghiên cứu khá chính xác có độ tin cậy cao tại thời điểm bài báo ra đời. Tuy nhiên phƣơng pháp cũng có những hạn chế nhất định khi đặt điều kiện giả thiết trong đó:
Có nhiều kết nối từ nhiều trình duyệt trên cùng một địa chỉ thì mỗi kết nối đƣợc coi là một Web-request độc lập
29 Nếu trong một trang có các yêu cầu tải một trang khác thì yêu cầu đó cũng
đƣợc coi là một Web-request mới. Nhƣng trong thực tế các đối tƣợng đó có thể là các “inline-object” đƣợc tải lẫn khi ngƣời dùng đang đọc trang. Bỏ qua các sự kiện ngƣời dùng bấm vào các trang nhƣ video, ảnh, hay link
đến tệp tin
Nhƣ vậy với giả thuyết bỏ qua một số các điều kiện quan trọng, mô hình Choi & Lim khá đúng tại thời điểm nghiên cứu nhƣng không còn phản ánh hoàn toàn chính xác các sự kiện tƣơng tác giữa trình duyệt ngƣời dùng và máy chủ Web hiện nay.