trờng Đại học Vinh Tạp chí khoa học, tập 41, số 2A-2012 87 DựBáOWEBSITETRUYCậPTIếPTHEODựATRÊNSựKếTHợPTHUậTTOáNPHÂNCụMVàMÔHìNHMARKOV NGUYễN CÔNG NHậT (a) Tóm tắt. Khai phá Web là việc sử dụng các kỹ thuật khai phá dữ liệu để tự động hoá quá trình khám phá và trích rút những thông tin hữu ích từ các tài liệu, các dịch vụ và cấu trúc Web. Dự đoán websitetruycậptiếptheo đạt đợc tầm quan trọng do tần suất truycập máy tìm kiếm web ngày càng gia tăng. Bài viết trình bày sựkếthợp giữa kỹ thuậtphâncụmvàmôhìnhMarkov để dự đoán websitetruycậptiếptheo nhằm giảm thiểu độ trễ và cải thiện hiệu suất máy chủ Web. I. Mở ĐầU Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập niên 80 của thế kỷ 20, là lĩnh vực đợc nghiên cứu nhằm tự động khai thác thông tin, tri thức mới hữu ích. Với sự phát triển nhanh chóng của công nghệ thông tin trên World Wide Web, Khai phá dữ liệu Web đã từng bớc trở nên quan trọng hơn trong lĩnh vực khai phá dữ liệu. Có nhiều khái niệm khác nhau về khai phá Web, nhng có thể tổng quát hoá nh sau: Khai phá Web là việc sử dụng các kỹ thuật Khai phá dữ liệu để tự động hoá quá trình khám phá và trích rút những thông tin hữu ích từ các tài liệu, các dịch vụ và cấu trúc Web. Lĩnh vực khai phá web đã thu hút đợc nhiều quan tâm nghiên cứu và phát triển ứng dụng ([6]). Khai phá Web thờng đợc phân thành ba lĩnh vực chính: Khai phá nội dung Web (Web content mining), khai phá cấu trúc Web (Web structure mining) và Khai phá việc sử dụng Web (Web usage mining) ([6]). Mỗi ngày, máy chủ Web phải thu nhận một số lợng lớn các dữ liệu. Việc rút ra các dấu vết ngời sử dụng và so sánh chúng với mục đích sử dụng web của ngời dùng để dự đoán truycập ngời sử dụng nhằm chuẩn bị sẵn các tài nguyên phù hợp với thao tác tiếptheo của ngời dùng, có thể giúp tối u hóa cấu trúc mạng. Nếu dự đoán chính xác truycậptiếptheo của ngời sử dụng và chuẩn bị sẵn tài nguyên phù hợp thì độ trễ mạng có thể đợc giảm đáng kể ([5]). Trên thực tế đã có rất nhiều kỹ thuật đợc sử dụng để khai phá sử dụng web nhằm dự đoán truycập ngời sử dụng nh môhình Markov, Xích Markov, luật kếthợp ([4]). Tuy nhiên, sử dụng môhìnhMarkov bậc thấp thì cho kết quả dự đoán độ chính xác không cao; sử dụng môhìnhMarkov bậc cao hơn hoặc Xích Markov sẽ cho kết quả dự đoán độ chính xác cao nhng chúng phải tính toán với không gian trạng thái phức tạp; sử dụng luật kếthợp có nhợc điểm là có quá nhiều luật, không dễ dàng để tìm thấy các tập luật thích hợp để đa ra các dự đoán ([5]). Yêu cầu đặt ra là tìm ra một phơng pháp khai phá sử dụng Web nhằm dự đoán web truycậptiếptheo bởi ngời sử dụng cho kết quả dự đoán độ chính xác cao ít ảnh hởng bởi không gian trạng thái phức tạp. II. Kỹ THUậTPHÂNCụMPhâncụm là phơng pháp học không giám sát và thờng không đợc sử dụng để phân loại. Sử dụng kỹ thuậtphâncụm nhóm các phiên ngời dùng có lịch sử Nhận bài ngày 16/3/2012. Sửa chữa xong ngày 11/6/2012. NGUYễN CÔNG NHậT DựBáOWEBSITETRUYCậPTIếP THEO, TR. 87-96 88 duyệt Web tơng tự nhau, các cụm này đợc dùng làm tham số đầu vào cho hệ thống dự báo. Tơng tự với các môhìnhdựbáo khác, môhìnhphâncụm cố gắng khám phá mối tơng quan thống kê giữa các trang Web đợc truycập khai phá từ WebLog. Việc dự đoán đợc thực hiện trên tập các cụm hiệu quả hơn thực hiện trên các phiên cụ thể. Vấn đề chính ảnh hởng đến độ chính xác phâncụm là việc lựa chọn tính năng để phân cụm. Trong môhìnhkếthợpthuậttoánphâncụm K-means do MacQueen đề xuất trong lĩnh vực thống kê năm 1967, là thuậttoán rất quan trọng và đợc sử dụng phổ biến trong kỹ thuậtphân cụm. T tởng chính của thuậttoán K-Means là sinh ra k cụmdữ liệu {C1, C2, ., Ck} từ một tập dữ liệu ban đầu gồm n đối tợng trong không gian d chiều Xi =(x i1 , x i2 ,,x id ) ( ni ,1= ), sao cho hàm tiêu chuẩn: ( ) = = k i Cx i i mxDE 1 2 đạt giá trị tối thiểu, trong đó: m i là trọng tâm của cụm C i , D là khoảng cách giữa hai đối tợng. Trọng tâm của một cụm là một vector, trong đó giá trị của mỗi phần tử là trung bình cộng các thành phần tơng ứng của các đối tợng vector dữ liệu trong cụm đang xét. Tham số đầu vào của thuậttoán là số cụm k, tập cở sở dữ liệu gồm n phần tử và tham số đầu ra của thuậttoán là các trọng tâm của các cụmdữ liệu. Độ đo khoảng cách D giữa các đối tợng dữ liệu thờng đợc sử dụng dụng là khoảng cách Euclide, bởi vì đây là môhình khoảng cách dễ để lấy đạo hàm và xác định các cực trị tối thiểu. Hàm tiêu chuẩn và độ đo khoảng cách có thể đợc xác định cụ thể hơn tuỳ vào ứng dụng hoặc các quan điểm của ngời dùng. Một số hình dạng phâncụmdữ liệu bởi K-Means ([10]). Phâncụm liên quan đến việc phân chia các trang hoặc các phiên vào trong các nhóm có điểm tơng đồng. Việc dự đoán diễn ra dựatrên các nhóm này. Quá trình này dẫn đến giảm độ chính xác bởi vì nó không sử dụng tất cả các trang một cách trực tiếp. Phâncụm đợc xây dựng dựatrên các tính năng cũng nh nội dung, ngữ nghĩa hoặc cấu trúc liên kết cũng đều gặp phải vấn đề này. ([8]) đã chứng minh rằng phơng pháp tối u là các cụm đợc xây dựng dựatrên bit vector. Tuy nhiên, ngay cả việc lựa chọn tính năng đợc cải thiện thì không phải lúc nào cũng đạt đợc các cụm đợc phân chia hợp lý. Tham số K (số Cluster) phải đợc xác định trớc khi triển khai thuật toán. Việc này này hởng rất lớn đến kết quả phâncụm của thuật toán. Một khó khăn là hiện nay cha có giải pháp nào đợc xem là tốt (về tính khoa học) để chọn tham số này. Việc chọn tham số K phù hợp với môhình có thể sử dụng một số phơng pháp sau: Thử với các giá trị của K, từ đó chọn K cho kết quả phâncụm tốt nhất; Sử dụng ý kiến của chuyên gia; Sử dụng kỹ thuật Cross- Validation n-fold để kiểm định môhình từ đó chọn tham số. Tuy nhiên chi phí thực hiện cho các giải pháp này rất lớn do cơ sở dữ liệu đối tợng xử lý là rất lớn. Một giải pháp chọn K thích hợp nhất đợc định nghĩa bởi ([3]). III. MÔHìNHMARKOVTheo [5] môhìnhMarkov thờng đợc sử dụng để xác định trang tiếptheo đợc truycập bởi ngời sử dụng dựatrên chuỗi các trang đợc truycập trớc đó. Các môhìnhMarkov đợc đề xuất để giảm thiểu độ trễ hoặc cải thiện hiệu suất máy chủ trờng Đại học Vinh Tạp chí khoa học, tập 41, số 2A-2012 89 Web ([3]). Các môhình này cũng đợc sử dụng để khám phá các đờng dẫn điều hớng ngời dùng truycập web với xác suất cao. Cho P={P 1 , P 2 , , P m } là tập các thành phần trong một trang Web. Cho W i là một phiên ngời dùng bao gồm một chuỗi các trang đợc truycập bởi ngời dùng trong một lần truy cập. Giả sử ngời dùng truycập l trang thì Prob(P i W i ) là xác suất ngời dùng truycập trang P i tiếp theo. Trang P i+1 mà ngời dùng sẽ truycậptiếptheo đợc ớc tính bằng: P i+1 =argmax{Prob(P i =P/W)}=argmax{Prob(P i =P|P i ,P i-1 ,.,P 1 )}, Xác suất này, Prob(P i W) đợc ớc tính bằng cách sử dụng tất cả các chuỗi W của tất cả các ngời dùng trong quá khứ (hoặc dữ liệu huấn luyện), ký hiệu là W. Vì vậy, i càng dài và W càng rộng thì xác suất Prob(P i W) càng chính xác. Tiến trình Markov đặt ra một giới hạn số trang đợc truycập trớc đó là k. Nói cách khác, xác suất truycập một trang P i không phụ thuộc vào tất cả các trang trong phiên nhng chỉ trên một nhóm nhỏ k trang có trớc, trong đó k<< l. Biểu thức trở thành P i+1 =argmax{Prob(P i+1 =P|P i ,P i-1 , ,P 1 )}. Số k, các trang có trớc là bậc của môhình Markov. Môhìnhkết quả của biểu thức này gọi là môhìnhMarkov bậc k. MôhìnhMarkov thực hiện tính xác suất cao nhất của trang web cuối cùng đợc truycập trong suốt phiên duyệt web. Cho k j S là trạng thái với k trang web có trớc xác định bậc của môhìnhMarkovvà j là số các trang duy nhất trên trang weblog. k j S =(P 1 -(k-1),P 1 -(k-2), ,P 1 ). Sử dụng nguyên tắc khả năng tối đa [9], xác suất điều kiện của P(P i | k j S ) đợc ớc tính từ tập dữ liệu (huấn luyện) trong quá khứ nh sau )( ),( )|( k j i k j k Ji Sfrequency PSfrequency SPP = . Công thức này tính xác suất điều kiện nh là tỷ số giữa tần số của chuỗi xảy ra trong tập huấn luyện và tần số của các trang xảy ra trực tiếp sau chuỗi Các giả định cơ bản của môhìnhdự đoán Markovdự đoán trạng thái tiếptheodựatrên k trạng thái cho trớc. Thực tế k càng lớn thì dự đoán càng chính xác. Tuy nhiên, tăng k dẫn đến 2 vấn đề: Phạm vi hoạt động của môhình bị giới hạn và loại bỏ nhiều trạng thái không đợc xét; Độ phức tạp của môhình trở nên không kiểm soát đợc. Việc đánh giá này cho thấy có đến 90% trạng thái có thể đợc hiệu chỉnh dẫn đến không gian trạng thái ít phức tạp và tăng phạm vi hoạt động nhng độ chính xác vẫn không thay đổi. Giải pháp này đợc đề xuất cho không gian trạng thái phức tạp của môhìnhMarkov k bậc không khả thi trong một vài trờng hợp, đặc biệt khi nó bao gồm các tập dữ liệu rất lớn, đòi hỏi rất nhiều thời gian và công sức để xây dựng các môhình k bậc và hiệu chỉnh các trang theo tiêu chí trên. NGUYễN CÔNG NHậT DựBáOWEBSITETRUYCậPTIếP THEO, TR. 87-96 90 IV. KếTHợPTHUậTTOáNPHÂNCụMVàMÔHìNHMARKOVDự ĐOáN WEBSITETRUYCậPTIếPTHEOMôhìnhMarkovvàphâncụm là 2 kỹ thuật đợc sử dụng để dự đoán trang tiếptheo đợc truycập bởi ngời sử dụng Web. Một số kỹ thuật đợc thể hiện bởi [7], kếthợp hầu hết các môhìnhdựbáo (mô hình Markov, các luật kếthợp tuần tự, luật kếthợpvàphâncụm để cải thiện việc gọi dự đoán). Môhình đợc đề xuất làm tốt hơn các kỹ thuật khai phá web sử dụng các kỹ thuật cổ điển. Tuy nhiên, môhình mới phụ thuộc vào nhiều yếu tố nh sự tồn tại của một cấu trúc liên kết trang web và phụ thuộc ngỡng hỗ trợ. Những yếu tố này ảnh hởng đến thứ tự của môhìnhvà hiệu suất của mô hình. Các bài viết khác kếthợpphâncụm với môhìnhMarkov [1], [2] phân chia các trang ngời dùng sử dụng môhìnhdựatrên phơng pháp phâncụm trong đó họ thực thi môhìnhMarkov bậc 1 sử dụng thuậttoán kỳ vọng cực đại. Sau khi phân vùng các phiên ngời dùng vào trong các cụm, chúng hiển thị đờng dẫn của ngời dùng trong mỗi cụm. Một kỹ thuật khác đợc trình bày bởi [2], xây dựng môhìnhMarkov từ tệp log vàsử dụng việc kếthợpvàkết nối các đặc điểm giống nhau để đo các mối quan hệ khái niệm giữa các trang Web. MôhìnhkếthợpthuậttoánphâncụmvàmôhìnhMarkov đợc thể hiện trong hình 1. Hình 1. Sơ đồ tiến trình phâncụm trớc khi thực thi môhìnhMarkov 4.1. Động cơ của việc kếthợpDự đoán trang Web tiếptheo đợc truycập bởi ngời sử dụng tức là dự đoán liên kết Web mà ngời dùng sẽ click tiếptheo khi duyệt trang web. Ví dụ, sự chuyển đổi mà ngời dùng Web truycập một trang bán máy tính có khả năng sẽ mua một pin dự phòng khi mua một chiếc laptop, hoặc có thể sự thay đổi lớn hơn, ngời sử dụng sẽ mua một ổ mềm bên ngoài để thay thế. Dữ liệu các phiên duyệt web trong quá khứ của ngời dùng là nền tảng trong việc chiết xuất thông tin dự đoán tiếp Lựa chọn tính năng vàphân loại phiên Độ đo tơng tự Số các cụm (k) Gom nhóm Thực thi môhìnhMarkov Phiên ngời dùng Phâncụm trờng Đại học Vinh Tạp chí khoa học, tập 41, số 2A-2012 91 theo. Ví dụ, sử dụng các thuậttoánphân cụm, chúng ta có thể cá nhân hoá ngời sử dụng theo kinh nghiệm duyệt web của họ. Những ngời dùng khác với hành vi duyệt web khác đợc tập hợp lại với nhau và quá trình dự đoán đợc thực hiện dựatrên đờng dẫn liên kết của ngời sử dụng trong cụm thích hợp. Loại dự đoán tơng tự là sử dụng môhình xác xuất có điều kiện Markov. Ví dụ, nếu 50% ngời sử dụng truycập trang D sau khi truycập trang A, B, C, thì có 1/2 khả năng một ngời sử dụng truycập các trang A, B, C sẽ truycập vào trang D tiếp theo. Việc dựbáo trang Web truycậptiếptheotrên trạng thái không gian phức tạp đợc thực hiện bằng cách kếthợp cả môhìnhMarkovvà kỹ thuậtphâncụmdựatrên việc chia các phiên Web thành nhóm theo dịch vụ Web và thực hiện phân tích môhìnhMarkovtrên mỗi cụm của phiên thay vì toàn bộ tập dữ liệu. Việc làm này rất hiệu quả vì sử dụng môhìnhMarkov cho một nhóm nhỏ, đợc giả sử là đồng nhất hơn so với toàn bộ tập dữ liệu. Kết quả là, thực hiện phân tích môhìnhMarkovtrên một phiên liên quan theo chức năng dẫn đến dựbáo chính xác hơn việc thực hiện phân tích trêntoàn bộ tập dữ liệu. MôhìnhMarkov là kỹ thuật hiệu quả để dự đoán trang web truycậpvà rất nhiều nhà nghiên cứu nhấn mạnh tầm quan trọng trong lĩnh vực khai phá dữ liệu của môhìnhMarkov ([4]). Các nhà nghiên cứu khác sử dụng môhìnhmarkov để nâng cao hiệu quả truycập dịch vụ web bằng cách sử dụng phơng pháp tìm nạp. MôhìnhMarkov bậc thấp đợc biết đến với độ chính xác thấp do hạn chế về lịch sử duyệt Web ngời dùng. MôhìnhMarkov bậc cao hơn đạt đợc độ chính xác cao hơn nhng lại đợc kếthợp với không gian trạng thái phức tạp hơn. Mặc dù các kỹ thuậtphâncụm đợc sử dụng cho mục đích cá nhân bằng cách khám phá cấu trúc trang web và trích xuất các thông tin hữu dụng ([2]), thông thờng các kỹ thuật này không thực sự thành công trong việc đạt kết quả tốt. Phâncụm thích hợp nhóm các phiên ngời dùng với lịch sử duyệt Web, điều này thuận tiện cho việc phân loại. Quá trình dự đoán đợc thực hiện trên các tập hợpcụm thay vì các phiên thực tế. Hình 2. Kiến trúc môhìnhkếthợpSử dụng môhìnhMarkov bậc thấp tránh đợc không gian trạng thái phức tạp. Để tăng độ chính xác cho môhìnhMarkov bậc thấp ta sử dụng kỹ thuậtphân Response Web requests Client 1 Client 1 Client 1 Internet WWW Server Web logs PhâncụmMôhìnhMarkovMôhìnhdự đoán NGUYễN CÔNG NHậT DựBáOWEBSITETRUYCậPTIếP THEO, TR. 87-96 92 cụm. Các phiên Web đầu tiên đợc xác định vàphân nhóm theo chức năng vàsử dụng các tính năng có nghĩa. Sau đó, các phiên Web đợc nhóm thành một số các cụm. Tiến trình chính của phâncụm phiên web sử dụng thuậttoán K-Means là xác định số lợng các cụm. Gom nhóm vàphâncụm các phiên web thích hợp giúp tăng độ chính xác dựbáotruycập trang web. Kiến trúc kết nối môhìnhMarkovvàphâncụm đợc mô tả trong Hình 2. 4.2. Các bớc kếthợp Tiến trình huấn luyện diễn ra nh sau: Sử dụng tính năng lựa chọn, phân bổ các phiên Web tơng tự nhau vào các lớp thích hợp. Chọn thuậttoán K- means, độ đo khoảng cách phù hợp. Chọn số cụm k vàphân vùng các phiên Web thành các cụm. For mỗi cụm - Trả về trạng thái ban đầu của dữ liệu cha phâncụmvàphầnmở rộng của nó. - Thực hiện môhìnhMarkovphân tích trên mỗi cụm. EndFor Tiến trình dự đoán hoặc giai đoạn thử nghiệm bao gồm các bớc sau: For mỗi tiến trình đến - Tìm cụm gần nhất. - Sử dụng môhìnhMarkov tơng ứng để dự đoán. EndFor 4.3. Thu thập dữ liệu Sử dụng các tập tin access log trên Web Server, thờng các tập tin này lu tự động theo ngày trong th mục C:\WINDOWS\system32\Logfiles\W3SVC1, các tập tin này ghi nhận khi có ngời dùng truycập đến một trang Web bất kỳ thuộc Web Server, thông tin thờng đợc lu trữ dới dạng các hàng (records) theo chuẩn Apache. Tập dữ liệu D1: WebLog lấy từ http://www.stat.ucla.edu/~cocteau/access_log.txt gồm các thông tin logs truycậpWebsite http://www.stat.ucla.edu/ - là trang thông tin của trờng Đại học UCLA trong ngày 20/2/2012 bao gồm 3387 yêu cầu. Tập dữ liệu D2: WebLog lấy từ http://68.119.15.136/log/access_log.txt gồm các thông tin truycậpWebsite http://68.119.15.136/ từ ngày 03/03/2011 đến ngày 09/08/2011 bao gồm 6500 yêu cầu. Trớc khi sử dụng dữ liệu log, các tập dữ liệu này cần phải đợc tiền xử lý dữ liệu. Trong việc chuẩn bị dữ liệu, chúng tôi loại bỏ các trang sai sót và không hợp lệ. Chúng bao gồm các mã lỗi HTTP 400, 500, lỗi HTTP 1.0 cũng nh các lỗi HTTP 302 và 304 bao gồm các yêu cầu mà không có trả lời từ máy chủ. Chúng tôi cũng loại bỏ các tập tin đa phơng tiện nh gif, jpg và scrip nh js và cgi; lu trữ các truycập này vào cơ sở dữ liệu để thuận tiện cho việc xử lý dữ liệu. Tiền xử lý dữ liệu Sử dụng một công cụ lọc log file trên Web Server: WebLogCleaning [WebCleaner], là một công cụ mã nguồn mở đợc lấy từ trang Web trờng Đại học Vinh Tạp chí khoa học, tập 41, số 2A-2012 93 http://webcleaner.sourceforge.net/ Các chức năng của WebLogCleaning: - Làm sạch và lu trữ dữ liệu từ log file ghi các truycập trang Web trên web server vào cơ sở dữ liệu. - Thu thập và lu trữ tên máy (host name) và địa chỉ IP. - Tạo các tập dữ liệu từ cơ sở dữ liệu theo thời gian, ngời dùng, giao thức . - Tạo, xóa cơ sở dữ liệu. - Tạo Dataset Hình 3. Sơ đồ chức năng của WebLogCleaning Công cụ sẽ lọc các records trong access_log file, loại bỏ các thông tin không hợp lệ và ghi vào các bảng dữ liệu nh sau: - ProtocolDimTbl(ProtocolID,ProtocolName,MethodName,Status): bảng lu các giao thức truycập Web. - PathDimTbl(PathID,PathName,FileName,FileType): chứa mã và các thông tin trang web đợc truy cập. - UserDimTbl(UserID,IPAddress,HostName,UserName): chứa thông tin ngời dùng. - LogFactTbl(Time ID,UserID,ProtocolID,PathID,SessionID,nbyte): chứa các sự kiện truycập web. 4.4. Khám phá mẫu Xác định số cụm k đối với toàn bộ tập dữ liệu là công việc rất khó khăn, theo đánh giá ở trên chúng tôi lựa chọn k theo ([3]). Thực thi môhìnhMarkovMôhìnhMarkov đợc thực thi trên mỗi cụm. Mỗi tập dữ liệu đợc chia vào tập huấn luyện và tập thử nghiệm và độ chính xác của môhìnhMarkov đợc tính toán theo. Sau đó, sử dụng tập thử nghiệm, mỗi trạng thái chuyển đợc xem nh là một điểm và độ đo khoảng cách đợc tính toán để xác định số cụmtheo điểm đó. Tiếp theo, độ chính xác dự đoán môhìnhMarkov bậc 2 đợc lấy lại nh đợc tính toán trong giai đoạn thử nghiệm. Tất cả các dự đoán trong dữ liệu thử nghiệm nếu không tồn tại trong tập dữ liệu huấn luyện đều đợc kết lận là sai và đợc cho giá trị là 0. Output Input Access_log file WebLogCleaning Data set Tables: UserDimTbl ProtocolDimTbl PathDimTbl LogFactTbl Generate NGUYễN CÔNG NHậT DựBáOWEBSITETRUYCậPTIếP THEO, TR. 87-96 94 Hình 4. Phâncụm trong cơ sở dữ liệu (với tậpdữ liệu D1, k=7) 4.5. Kết quả thực nghiệm Chơng trình thực nghiệm MôhìnhMarkovkếthợp với kỹ thuậtphâncụm đợc thực hiện bằng ngôn ngữ C#. Dữ liệu sau khi đã đợc cho vào cơ sở dữ liệu làm đầu vào cho chơng trình. Với bộ dữ liệu D1: WebLog lấy từ http://www.stat.ucla.edu/~cocteau/access_log.txt. Theohình 4, quy trình vận hành của chơng trình thì các dữ liệu thu đợc khi chạy chơng trình nh sau: Xét liên kết http://www.stat.ucla.edu/~frederic/ là trang cá nhân một giảng viên. Với số cụm là 7, các trang có tiền tố ~frederic sẽ đợc phân thành một cụm. Trang http://www.stat.ucla.edu/~frederic/qual2012/data/ có xác suất truycập cao nhất nên đợc dự đoán là trang tiếptheo sẽ đợc truycập trong lần truycậptiếp theo. Tuy nhiên, khi xem xét http://www.stat.ucla.edu/~frederic/ thì không có liên kết trực tiếp đến trang /qual2012/data, có nghĩa là ngời dùng đã qua một số trang trờng Đại học Vinh Tạp chí khoa học, tập 41, số 2A-2012 95 phụ và thờng quay lại xem trang /qual2012/data. Từ đây nếu là một ngời quản trị thì nên tạo liên kết /qual2012/data để tiện cho ngời dùng xem. Với bộ dữ liệu D2: WebLog lấy từ http://68.119.15.136/log/access_log.txt gồm các thông tin truycậpWebsite http://68.119.15.136/ từ ngày 03/03/2011 đến ngày 09/08/2011. Với bộ dữ liệu này, chúng tôi thấy phân thành 15 cụm cho kết quả dự đoán chính xác nhất. Với số cụm 15, các trang có tiền tố phs sẽ đợc phân thành một cụm, bao gồm các trang: /phs/applied-math, /phs/computer, /phs/electronics/, . Xét liên kết http:// http://68.119.15.136/phs, trang http://68.119.15.136/phs/dd có xác suất truycập cao nhất nên sẽ đợc dự đoán là trang sẽ truycậptiếptheo sau khi truycập vào trang phs. V. Kết luận Sau khi tiến hành thực nghiệm trên tập dữ liệu lấy từ 70 mốc thời gian khác nhau chúng tôi nhận thấy kết quả dự đoán của môhìnhkếthợp chỉ ra danh sách các website có khả năng truycậptiếptheo cô đọng hơn. Kết quả này hoàn toàn là tập con của tập kết quả nếu sử dụng môhìnhMarkov để dự đoán websitetruycậptiếp theo. Nh vậy việc kếthợpthuậttoánphâncụmvàmôhìnhMarkov cho kết quả dự đoán chính xác hơn. TàI LIệU THAM KHảO [1] I. Cadez, D. Heckerman, C. Meek, P. Smyth & S. White, Visualization of navigation patterns on a web site using model based clustering, ACM SIGMOD Intl Conf on Knowledge Discover and Data Mining, 2000, pp. 280284. [2] I. Cadez, D. Heckerman, C. Meek, P. Smyth & S. White, Model based clustering and visualization of navigation patterns on a web site, Data Mining and Knowledge Discovery 7(4), 2003, pp. 399424. [3] D. T. Pham, S. S. Dimov and C. D. Nguyen, Selection of K in K-means clustering. Mechanical Engineering Science, vol 219, 2005. [4] M. Deshpande & G. Karypis, Selective markov models for predicting web page accesses, Transactions on Internet Technology 4, 2004, pp. 163184. [5] Habel Kurian, A Markov model for Web request prediction, A report submitted in partial fulfillment of the requirements for the degree Master of Science, Kansas State University, 2008. [6] Hiroyuki Kawano, Applications of Web mining - from Web search engine to P2P filtering, ACM, 2003. [7] D. Kim, N. Adam, V. Alturi, M. Bieber & Y. Yesha, A clickstreambased collaborative filtering personalization model: Towards a better performance, WIDM, 2004, pp. 8895. [8] J. Vellingiri et al., A Survey on Web Usage Mining. [Trực tuyến] Global Journal of Computer Science and Technology, Volume 11 Issue 4 Version 1.0 March 2011. Địa chỉ: http://globaljournals.org/GJCST_Volume11/9-A-Survey-on-Web- Usage-Mining.pdf. NGUYÔN C¤NG NHËT Dù B¸O WEBSITETRUY CËP TIÕP THEO…, TR. 87-96 96 [9] L. Lu, M. Dunham & Y. Meng, Discovery of significant usage patterns from clusters of clickstream data, WebKDD, 2005, pp. 139–142. [10] Vipin Kumar, The k-means algorithm, Parallel Issues in Data Mining, VECPAR 2002. SUMMARY INTEGRATIon of CLUSTERING AND MARKOV MODEL FOR PREDICTING WEB PAGE ACCESSES Web mining is the application of data mining techniques to automate the process of exploring and extracting useful information from documents, services and Web structure. Predicting the next Web page Accesses has gained importance due to the frequency of access to web search engines is increasing. This paper presents an integration of clustering and Markov model for predicting the next Web page access to minimize latency and improve performance of Web server. (a) Khoa C«ng nghÖ th«ng tin, Tr−êng §¹i häc Vinh.