Tìm hiểu và phân tách các phiên truy cập trong dữ liệu sử dụng web

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƢỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN 1 TÌM HIỂU VỀ WEB USAGE MINING VÀ PHÂN TÁCH PHIÊN TRUY CẬP TRONG DỮ LIỆU SỬ DỤNG WEB Ging dn: TH.S LÊ VĂN VANG Sinh viên thc hin: TRƢƠNG HOÀNG HIỆP - 51103038 ĐẶNG MINH CHÂU - 51103007 Lớp : 11050302 Khóa : 15 THÀNH PHỐ HỒ CHÍ MINH, NĂM 2014 TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƢỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN 1 TÌM HIỂU VỀ WEB USAGE MINING VÀ PHÂN TÁCH PHIÊN TRUY CẬP TRONG DỮ LIỆU SỬ DỤNG WEB Ging dn: TH.S LÊ VĂN VANG Sinh viên thc hin: TRƢƠNG HOÀNG HIỆP - 51103038 ĐẶNG MINH CHÂU - 51103007 Lớp : 11050302 Khóa : 15 THÀNH PHỐ HỒ CHÍ MINH, NĂM 2014 i Lời cảm ơn Trƣớc khi trình bày nội dung đồ án, chúng em xin cảm ơn Thầy Lê Văn Vang đã trực tiếp hƣớng dẫn chúng em hoàn thành đồ án này. Chúng em cũng xin gửi lời cảm ơn đến quý thầy cô khoa Công Nghệ Thông Tin trƣờng đại học Tôn Đức Thắng đã truyền đạt cho chúng em tri thức hữu ích trong suốt thời gian học tập qua. Giúp cho chúng em có đủ kiến thức hoàn thành tốt đồ án 1 cũng nhƣ các đồ án của môn học khác. Một lần nữa chúng em xin chân thành cảm ơn. TP.H  Nhóm sinh viên thc hin ng Minh Châu p ii ĐỒ ÁN ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC TÔN ĐỨC THẮNG Chúng tôi xin cam đoan đây là sản phẩm đồ án của riêng chúng tôi và đƣợc sự hƣớng dẫn của TS Lê Văn Vang. Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chƣa công bố dƣới bất kỳ hình thức nào trƣớc đây. Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá đƣợc chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo. Ngoài ra, trong đồ án còn sử dụng một số nhận xét, đánh giá cũng nhƣ số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc. Nếu phát hiện có bất kỳ sự gian lận nào chúng tôi xin hoàn toàn chịu trách nhiệm về nội dung đồ án của mình. Trƣờng đại học Tôn Đức Thắng không liên quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có). TP. H  Tác gi (ký tên và ghi rõ h tên) ng Minh Châu p iii PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN Xác nhận của GV hƣớng dẫn _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _____________________ Tp. Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên) Đánh giá của GV chấm bài _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _____________________ Tp. Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên) iv TÓM TẮT Ngày nay, cùng với sự phát triển của các ngành khoa học, đặc biệt là ngành công nghệ thông tin, mạng Internet ngày càng đƣợc sử dụng rộng rãi. Từ đó, nhiều website đã ra đời và ngày càng phát triển mạnh mẽ kèm theo các công cụ, ứng dụng chạy trên web… Vì vậy nhu cầu khai phá các tài nguyên từ các dữ liệu website ngày càng đƣợc nâng cao và chú trọng. Cho nên đồ án chúng em chọn là “Web usage mining và phân tích các phiên truy cập” nhằm tìm hiểu và biết thêm về cách thức thực hiện cũng nhƣ tầm quan trọng của khai phá dữ liệu web. Với những khả năng ứng dụng thực tiễn, giúp ích vào công việc sau này của một sinh viên Công nghệ thông tin, và mở mang thêm tầm hiểu biết. Chúng em quyết định chọn đề tài này để thực hiện cho đồ án 1 của mình Bài báo cáo này gồm các mục sau: Chƣơng 1: GIỚI THIỆU TỔNG QUÁT Chƣơng 2: CƠ SỞ LÝ THUYẾT Chƣơng 3: ỨNG DỤNG MINH HỌA Chƣơng 4: TỔNG KẾT 1 Mục lục Lời cảm ơn i PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN iii TÓM TẮT iv Mục lục 1 DANH MỤC CHỮ VIẾT TẮT VÀ HÌNH VẼ 3 Chƣơng 1 4 GIỚI THIỆU TỔNG QUÁT 4 I. GIỚI THIỆU : 4 II. BẢNG PHÂN CÔNG CÔNG VIỆC: 5 Chƣơng 2 6 CƠ SỞ LÝ THUYẾT 6 I. Data Mining (Khai thác dữ liệu): 6 1. Giới thiệu: 6 2. Các bƣớc thực hiện: 6 2.2 Data Mining: 7 2.3 Post-processing: 7 II. Web Mining: 8 1. Web Structure Mining (Khai thác cấu trúc web): 9 2. Web content mining (Khai thác nội dung trang web) : 9 3. Web Usage Mining (Khai thác sử dụng web) : 9 III. Server Log: 10 IV. Phân tách Session: 11 1. User Identification: 12 2. PageView Identification: 15 3. Sessionization: 17 4.1 Thuật toán Pattern Recovery Method: 20 V. Wap-tree: 26 1. Giới thiệu chung về WAP: 26 2. Mẫu truy cập tuần tự Apriori: 27 3. WAP-mine và WAP-tree: 28 2 4. Thuật toán WAP-mine: 30 5. Xây dựng WAP-tree: 30 5.1 Cơ sở xây dưng nên WAP-Tree: 30 5.2 Các đặc điểm của WAP-Tree: 30 6. Mining Web Access Patterns from Wap-tree: 34 ỨNG DỤNG MINH HỌA 39 1. Phân tách User: 41 2. Phân tách session bằng phƣơng pháp time oriented: 43 3. Path Completion: 45 Chƣơng 4 48 TỔNG KẾT 48 1. Kết quả đạt đƣợc: 48 1.1 Về phía bản phân: 48 1.2 Về phía đề tài: 48 2. Ƣu điểm và nhƣợc điểm: 48 2.1. Ƣu điểm: 48 2.2. Nhƣợc điểm: 49 3. Hƣớng phát triển đồ án: 49 Tài liệu tham khảo 50 3 DANH MỤC CHỮ VIẾT TẮT VÀ HÌNH VẼ CÁC CHỮ VIẾT TẮT WWW World Wide Web. WM Web Mining. KDD Knowledge Discovery in Databases. PRM Pattern Recovery Method. WAP Web Access Pattern. DANH MỤC HÌNH Hình 1: Các bƣớc trong data mining & KDD Hình 2: Các nội dung trong khai phá dữ liệu Web Hình 3: Các phƣơng pháp xác định User Hình 4: Agent của Browser Hình 5: Ví dụ về xác định user bằng cách sử dụng IP + Agent Hình 6: Ví dụ về bảng User Pageview Hình 7: Ví dụ phân tách session bằng phƣơng pháp time-oriented Hình 8: Ví dụ phân tách session bằng phƣơng pháp time-oriented (h1) Hình 9: Ví dụ phân tách session bằng phƣơng pháp h-ref Hình 10,11,12: Các bƣớc trong thuật toán PRM Hình 13: Bảng Session Hình 14: Sơ đồ Wap-Tree Hình 15: Wap-Tree|c Hình 16: Wap-Tree|ac Hình 17: ServerLog mẫu Hình 18: ServerLog sau khi sắp xếp Hình 19: Kết quả phân tách User Hình 20: Kết quả phân tách Session Hình 21: Kết quả patch completion 4 Chƣơng 1 GIỚI THIỆU TỔNG QUÁT I. GIỚI THIỆU : Kể từ lần đầu tiên xuất hiện, Internet đã có những bƣớc phát triển vƣợt bậc, từ việc chỉ đƣợc sử dụng trong không gian “nhỏ”, ngày nay, internet đã đƣợc phổ biến gần nhƣ khắp thế giới. Đi đôi với sự phát triển đó là một lƣợng lớn các thông tin (tri thức) có trên internet hay nói chính xác hơn là trên WWW (World Wide Web). Lƣợng tri thức này rất đa dang, từ kinh tế, khoa học kỹ thuật, chính trị, tôn giáo,… tất cả chúng đều có thể tìm kiếm trên internet, việc đăng tải thông tin trên internet rất dễ dàng, có thể thực hiện ở mọi nơi, bởi bất kì ai và ngƣời khác có thể truy cập chúng cũng rất dễ dàng, ở bất kì nơi nào, và ở bất kì nơi nào. Hơn thế nữa, chi phí đễ duy trì một trang web trên internet là rất rẻ, rẻ hơn nhiều so với các cách thủ công truyền thống. Tuy nhiên, cũng có một số khó khăn trong chuyện này, đó là việc quản lý các lƣợng tri thức khổng lồ này là một công việc rất khó khăn, và hiện giờ thì không thể quản lý chúng một cách có tối ƣu đƣợc, mà chỉ có thể quản lý ở một mức độ tạm chấp nhận đƣợc. Do đó, thay vì cần một phƣơng pháp quản lý chặt chẽ lƣợng tri thức này, ngƣời ta đã tìm ra các cách khai thác chúng một cách cụ thể hơn : Các phƣơng pháp WEB MINING (Khai phá dữ liệu web) ra đời. Web mining thực chất là việc sử dụng các kỹ thuật của Data mining nhằm tự động khai phá, trích dẫn thông tin từ các tài liệu và các dịch vụ web. Và ngƣời ta đã nhận ra phƣơng pháp này là một hƣớng đi cần thiết và không ngừng đƣợc phát triển, các công trình nghiên cứu về WM đƣợc công bố với các cải tiến từ các thuật toán, các công nghệ hiện đại giúp cho việc khai thác tri thức có hiệu quả tối đa hết mức có thể. Chẳng hạn nhƣ sự ra đời và phát triển của các tập đoàn công nghệ lớn nhƣ IBM, Google, Yahoo,… Về cơ bản, Web mining đƣợc chia thành 3 loại: Web Usage Mining, Web Structure Mining, Web Content Mining. Cụ thể từng phần sẽ đƣợc tìm hiểu ở phần sau. . - Tìm hiểu thêm các dữ liệu trên mạng - Tìm hiểu khái niệm về data mining và web mining. - Tìm hiểu các tài liệu trên mạng - Tìm hiểu các bƣớc thực hiện của data mining và phân loại các. Identification). + Phân tách dữ liệu các phiên truy cập (Sessionization). + Phục hồi thông tin hành trình truy cập (Path Completion). - Sau khi tiến hành phân tách các phiên truy cập của ngƣời sử dụng. . đƣa vào sử dụng trong thế giới thực. Hiện nay với sự phát triển của mạnh của Web và các dữ liệu dạng văn bản. Công cuộc khai thác dữ liệu web và dữ liệu văn bản ngày càng quan trọng và phổ

Định dạng
Số trang	56
Dung lượng	1,8 MB