Tìm hiểu và phân tách các phiên truy cập trong dữ liệu sử dụng web

56 414 0
Tìm hiểu và phân tách các phiên truy cập trong dữ liệu sử dụng web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Lời cảm ơn i PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN iii TÓM TẮT iv Mục lục 1 DANH MỤC CHỮ VIẾT TẮT VÀ HÌNH VẼ 3 Chương 1 4 GIỚI THIỆU TỔNG QUÁT 4 I. GIỚI THIỆU : 4 II. BẢNG PHÂN CÔNG CÔNG VIỆC: 5 Chương 2 6 CƠ SỞ LÝ THUYẾT 6 I. Data Mining (Khai thác dữ liệu): 6 1. Giới thiệu: 6 2. Các bước thực hiện: 6 2.2 Data Mining: 7 2.3 Postprocessing: 7 II. Web Mining: 8 1. Web Structure Mining (Khai thác cấu trúc web): 9 2. Web content mining (Khai thác nội dung trang web) : 9 3. Web Usage Mining (Khai thác sử dụng web) : 9 III. Server Log: 10 IV. Phân tách Session: 11 1. User Identification: 12 2. PageView Identification: 15 3. Sessionization: 17 4.1 Thuật toán Pattern Recovery Method: 20 V. Waptree: 26 1. Giới thiệu chung về WAP: 26 2. Mẫu truy cập tuần tự Apriori: 27 3. WAPmine và WAPtree: 28 4. Thuật toán WAPmine: 30 5. Xây dựng WAPtree: 30 5.1 Cơ sở xây dưng nên WAPTree: 30 5.2 Các đặc điểm của WAPTree: 30 6. Mining Web Access Patterns from Waptree: 34 ỨNG DỤNG MINH HỌA 39 1. Phân tách User: 41 2. Phân tách session bằng phương pháp time oriented: 43 3. Path Completion: 45 Chương 4 48 TỔNG KẾT 48 1. Kết quả đạt được: 48 1.1 Về phía bản phân: 48 1.2 Về phía đề tài: 48 2. Ưu điểm và nhược điểm: 48 2.1. Ưu điểm: 48 2.2. Nhược điểm: 49 3. Hướng phát triển đồ án: 49 Tài liệu tham khảo 50

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƢỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN 1 TÌM HIỂU VỀ WEB USAGE MINING VÀ PHÂN TÁCH PHIÊN TRUY CẬP TRONG DỮ LIỆU SỬ DỤNG WEB Ging dn: TH.S LÊ VĂN VANG Sinh viên thc hin: TRƢƠNG HOÀNG HIỆP - 51103038 ĐẶNG MINH CHÂU - 51103007 Lớp : 11050302 Khóa : 15 THÀNH PHỐ HỒ CHÍ MINH, NĂM 2014 TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƢỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN 1 TÌM HIỂU VỀ WEB USAGE MINING VÀ PHÂN TÁCH PHIÊN TRUY CẬP TRONG DỮ LIỆU SỬ DỤNG WEB Ging dn: TH.S LÊ VĂN VANG Sinh viên thc hin: TRƢƠNG HOÀNG HIỆP - 51103038 ĐẶNG MINH CHÂU - 51103007 Lớp : 11050302 Khóa : 15 THÀNH PHỐ HỒ CHÍ MINH, NĂM 2014 i Lời cảm ơn Trƣớc khi trình bày nội dung đồ án, chúng em xin cảm ơn Thầy Lê Văn Vang đã trực tiếp hƣớng dẫn chúng em hoàn thành đồ án này. Chúng em cũng xin gửi lời cảm ơn đến quý thầy cô khoa Công Nghệ Thông Tin trƣờng đại học Tôn Đức Thắng đã truyền đạt cho chúng em tri thức hữu ích trong suốt thời gian học tập qua. Giúp cho chúng em có đủ kiến thức hoàn thành tốt đồ án 1 cũng nhƣ các đồ án của môn học khác. Một lần nữa chúng em xin chân thành cảm ơn. TP.H  Nhóm sinh viên thc hin ng Minh Châu p ii ĐỒ ÁN ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC TÔN ĐỨC THẮNG Chúng tôi xin cam đoan đây là sản phẩm đồ án của riêng chúng tôi và đƣợc sự hƣớng dẫn của TS Lê Văn Vang. Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chƣa công bố dƣới bất kỳ hình thức nào trƣớc đây. Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá đƣợc chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo. Ngoài ra, trong đồ án còn sử dụng một số nhận xét, đánh giá cũng nhƣ số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc. Nếu phát hiện có bất kỳ sự gian lận nào chúng tôi xin hoàn toàn chịu trách nhiệm về nội dung đồ án của mình. Trƣờng đại học Tôn Đức Thắng không liên quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có). TP. H  Tác gi (ký tên và ghi rõ h tên) ng Minh Châu p iii PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN Xác nhận của GV hƣớng dẫn _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _____________________ Tp. Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên) Đánh giá của GV chấm bài _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _______________________________________________________________ _____________________ Tp. Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên) iv TÓM TẮT Ngày nay, cùng với sự phát triển của các ngành khoa học, đặc biệt là ngành công nghệ thông tin, mạng Internet ngày càng đƣợc sử dụng rộng rãi. Từ đó, nhiều website đã ra đời và ngày càng phát triển mạnh mẽ kèm theo các công cụ, ứng dụng chạy trên web… Vì vậy nhu cầu khai phá các tài nguyên từ các dữ liệu website ngày càng đƣợc nâng cao và chú trọng. Cho nên đồ án chúng em chọn là “Web usage mining và phân tích các phiên truy cập” nhằm tìm hiểu và biết thêm về cách thức thực hiện cũng nhƣ tầm quan trọng của khai phá dữ liệu web. Với những khả năng ứng dụng thực tiễn, giúp ích vào công việc sau này của một sinh viên Công nghệ thông tin, và mở mang thêm tầm hiểu biết. Chúng em quyết định chọn đề tài này để thực hiện cho đồ án 1 của mình Bài báo cáo này gồm các mục sau: Chƣơng 1: GIỚI THIỆU TỔNG QUÁT Chƣơng 2: CƠ SỞ LÝ THUYẾT Chƣơng 3: ỨNG DỤNG MINH HỌA Chƣơng 4: TỔNG KẾT 1 Mục lục Lời cảm ơn i PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN iii TÓM TẮT iv Mục lục 1 DANH MỤC CHỮ VIẾT TẮT VÀ HÌNH VẼ 3 Chƣơng 1 4 GIỚI THIỆU TỔNG QUÁT 4 I. GIỚI THIỆU : 4 II. BẢNG PHÂN CÔNG CÔNG VIỆC: 5 Chƣơng 2 6 CƠ SỞ LÝ THUYẾT 6 I. Data Mining (Khai thác dữ liệu): 6 1. Giới thiệu: 6 2. Các bƣớc thực hiện: 6 2.2 Data Mining: 7 2.3 Post-processing: 7 II. Web Mining: 8 1. Web Structure Mining (Khai thác cấu trúc web): 9 2. Web content mining (Khai thác nội dung trang web) : 9 3. Web Usage Mining (Khai thác sử dụng web) : 9 III. Server Log: 10 IV. Phân tách Session: 11 1. User Identification: 12 2. PageView Identification: 15 3. Sessionization: 17 4.1 Thuật toán Pattern Recovery Method: 20 V. Wap-tree: 26 1. Giới thiệu chung về WAP: 26 2. Mẫu truy cập tuần tự Apriori: 27 3. WAP-mine và WAP-tree: 28 2 4. Thuật toán WAP-mine: 30 5. Xây dựng WAP-tree: 30 5.1 Cơ sở xây dưng nên WAP-Tree: 30 5.2 Các đặc điểm của WAP-Tree: 30 6. Mining Web Access Patterns from Wap-tree: 34 ỨNG DỤNG MINH HỌA 39 1. Phân tách User: 41 2. Phân tách session bằng phƣơng pháp time oriented: 43 3. Path Completion: 45 Chƣơng 4 48 TỔNG KẾT 48 1. Kết quả đạt đƣợc: 48 1.1 Về phía bản phân: 48 1.2 Về phía đề tài: 48 2. Ƣu điểm và nhƣợc điểm: 48 2.1. Ƣu điểm: 48 2.2. Nhƣợc điểm: 49 3. Hƣớng phát triển đồ án: 49 Tài liệu tham khảo 50 3 DANH MỤC CHỮ VIẾT TẮT VÀ HÌNH VẼ CÁC CHỮ VIẾT TẮT WWW World Wide Web. WM Web Mining. KDD Knowledge Discovery in Databases. PRM Pattern Recovery Method. WAP Web Access Pattern. DANH MỤC HÌNH Hình 1: Các bƣớc trong data mining & KDD Hình 2: Các nội dung trong khai phá dữ liệu Web Hình 3: Các phƣơng pháp xác định User Hình 4: Agent của Browser Hình 5: Ví dụ về xác định user bằng cách sử dụng IP + Agent Hình 6: Ví dụ về bảng User Pageview Hình 7: Ví dụ phân tách session bằng phƣơng pháp time-oriented Hình 8: Ví dụ phân tách session bằng phƣơng pháp time-oriented (h1) Hình 9: Ví dụ phân tách session bằng phƣơng pháp h-ref Hình 10,11,12: Các bƣớc trong thuật toán PRM Hình 13: Bảng Session Hình 14: Sơ đồ Wap-Tree Hình 15: Wap-Tree|c Hình 16: Wap-Tree|ac Hình 17: ServerLog mẫu Hình 18: ServerLog sau khi sắp xếp Hình 19: Kết quả phân tách User Hình 20: Kết quả phân tách Session Hình 21: Kết quả patch completion 4 Chƣơng 1 GIỚI THIỆU TỔNG QUÁT I. GIỚI THIỆU : Kể từ lần đầu tiên xuất hiện, Internet đã có những bƣớc phát triển vƣợt bậc, từ việc chỉ đƣợc sử dụng trong không gian “nhỏ”, ngày nay, internet đã đƣợc phổ biến gần nhƣ khắp thế giới. Đi đôi với sự phát triển đó là một lƣợng lớn các thông tin (tri thức) có trên internet hay nói chính xác hơn là trên WWW (World Wide Web). Lƣợng tri thức này rất đa dang, từ kinh tế, khoa học kỹ thuật, chính trị, tôn giáo,… tất cả chúng đều có thể tìm kiếm trên internet, việc đăng tải thông tin trên internet rất dễ dàng, có thể thực hiện ở mọi nơi, bởi bất kì ai và ngƣời khác có thể truy cập chúng cũng rất dễ dàng, ở bất kì nơi nào, và ở bất kì nơi nào. Hơn thế nữa, chi phí đễ duy trì một trang web trên internet là rất rẻ, rẻ hơn nhiều so với các cách thủ công truyền thống. Tuy nhiên, cũng có một số khó khăn trong chuyện này, đó là việc quản lý các lƣợng tri thức khổng lồ này là một công việc rất khó khăn, và hiện giờ thì không thể quản lý chúng một cách có tối ƣu đƣợc, mà chỉ có thể quản lý ở một mức độ tạm chấp nhận đƣợc. Do đó, thay vì cần một phƣơng pháp quản lý chặt chẽ lƣợng tri thức này, ngƣời ta đã tìm ra các cách khai thác chúng một cách cụ thể hơn : Các phƣơng pháp WEB MINING (Khai phá dữ liệu web) ra đời. Web mining thực chất là việc sử dụng các kỹ thuật của Data mining nhằm tự động khai phá, trích dẫn thông tin từ các tài liệu và các dịch vụ web. Và ngƣời ta đã nhận ra phƣơng pháp này là một hƣớng đi cần thiết và không ngừng đƣợc phát triển, các công trình nghiên cứu về WM đƣợc công bố với các cải tiến từ các thuật toán, các công nghệ hiện đại giúp cho việc khai thác tri thức có hiệu quả tối đa hết mức có thể. Chẳng hạn nhƣ sự ra đời và phát triển của các tập đoàn công nghệ lớn nhƣ IBM, Google, Yahoo,… Về cơ bản, Web mining đƣợc chia thành 3 loại: Web Usage Mining, Web Structure Mining, Web Content Mining. Cụ thể từng phần sẽ đƣợc tìm hiểu ở phần sau. [...]... hơi và tách khí Việc ứng dụng các công trình xử lý lý học được tóm tắt trong bảng 2.2 Bảng 2.2 Áp dụng các công trình cơ học trong xử lý nước thải ( Metcalf & Eddy, 1991 ) Công trình Lưới chắn rác Nghiền rác Bể điều hòa Khuấy trộn Áp dụng Tách các chất rắn thô và có thể lắng Nghiền các chất rắn thô đến kích thước nhỏ hơn, đồng nhất Điều hòa lưu lượng và tải trọng BOD và SS Khuấy trộn hóa chất và chất... trị các thông số và nồng độ các chất thành phần được quy định trong các tiêu chuẩn riêng - Nước thải công nghiệp có giá trị các thông số và nồng độ các chất thành phần bằng hoặc nhỏ hơn giá trị quy định trong cột A có thể đổ vào các thủy vực nước được dùng làm nguồn cấp nước sinh hoạt - Nước thải công nghiệp có giá trị các thông số và nồng độ các chất thành phần bằng hoặc nhỏ hơn giá trị quy định trong. .. trọng của nước, hoặc sử dụng để nén bùn sinh học Tách các hạt cặn lơ lửng còn lại sau xử lý sinh học hoặc hóa Màng lọc học Tương tự như quá trình lọc Tách tảo từ nước thải sau hồ ổn định Vận chuyển khí Bổ sung và tách khí Bay hơi và bay khí Bay hơi các hợp chất hữu cơ bay hơi từ nước thải 2.4.2 Phương pháp sử lý hóa học Phương pháp hóa học sử dụng các phản ứng hóa học để xử lý nước thải .Các công trình xử... cột B chỉ được đổ vào các thủy vực nước dùng cho các mục đích giao thông, tưới tiêu, bơi lội, nuôi thủy sản, trồng trọt - Nước thải công nghiệp có giá trị các thông số và nồng độ các chất thành phần lớn hơn giá trị quy định trong cột B nhưng không vượt quá giá trị quy định trong cột C chỉ được phép đổ vào các nơi quy định - Nước thải công nghiệp có giá trị các thông số và nồng độ các chất thành phần... kết hợp với các công trình xử lý lý học Mặc dù có hiệu quả cao, nhưng phương pháp xử lý hóa học thường đắt tiền và đặc biệt thường tạo thành các sản phẩm phụ độc hại Việc ứng dụng các quá trình xử lý hóa học được tóm tắt trong bảng 2.3 Bảng 2.3 Áp dụng các quá trình hóa học trong xử lý nước thải ( Metcalf & Eddy, 1991 ) Quá trình Kết tủa Áp dụng Tách phospho và nâng cao hiệu quả của việc tách cặn lơ... SS Khuấy trộn hóa chất và chất khí với nước thải, và giữ cặn ở Tạo bông trạng thái lơ lửng Giúp cho việc tập hợp của các hạt cặn nhỏ thành các hạt cặn Lắng Tuyển nổi lớn hơn để có thể tách ra bằng lắng trọng lực Tách các cặn lắng và nén bùn Tách các hạt cặn lơ lửng nhỏ và các hạt cặn có tỷ trọng xấp SVTH : Lê Thị Hằng Lớp : 04SH GVHD :Th.S Trần Thế Truy n Đồ án tốt nghiệp 13 Thiết kế hệ thống xử lý... hơn giá trị quy định trong cột C thì không được phép thải ra môi trường - Phương pháp lấy mẫu, phân tích, tính toán, xác định từng thông số, và nồng độ cụ thể được quy định trong các TCVN tương ứng 2.3 Tình hình chung nước thải khu công nghiệp Hoà Khánh Theo yêu cầu, nồng độ các chất gây ô nhiễm trong nước thải ra từ các nhà máy trong khu công nghiệp phải qua xử lý cục bộ và khi vào trạm xử lý nước... nghiệp Với việc phân tích và kiểm soát môi trường thích hợp, hầu hết các loại nước thải đều có thể được xử lý bằng phương pháp sinh học Mục đích của xử lý nước thải bằng phương pháp sinh học là keo tụ và tách các loại keo không lắng và ổn định ( phân hủy ) các chất hữu cơ nhờ hoạt động của vi sinh vật hiếu khí hoặc kỵ khí Sản phẩm cuối cùng của quá trình phân hủy sinh học thường là các chất khí ( CO2,... chất khí ( CO2, N2, H2S, CH4,…), các chất vô cơ ( NH4+, PO43-) và tế bào mới Các quá trình sinh học chính sử dụng trong xử lý nước thải gồm 5 nhóm chính : Quá trình hiếu khí, quá trình thiếu khí, quá trình kị khí, thiếu khí và kị khí kết hợp ,và quá trình hồ sinh vật Mỗi quá trình riêng biệt còn có thể phân chia thành chi tiết hơn, phụ thuộc vào việc xử lý được thực hiện trong hệ thống tăng trưởng lơ lửng,... môi trường Các phương pháp xử lý hoá lý ( các phương pháp phục hồi ) với chi phí cao dùng để thu hồi các chất quý trong nước thải sẽ không có ý nghĩa ứng dụng cho quá trình xử lý nước thải của khu công nghiệp này Các phương pháp hoá học và sinh học thuộc nhóm các phương pháp phân huỷ sẽ được ứng dụng Ở đây, chúng ta xem xét phương pháp xử lý sinh học hiếu khí theo mẻ vì đáp ứng được yêu cầu và có ý nghĩa . Ging dn: TH.S LÊ VĂN VANG Sinh viên thc hin: TRƢƠNG HOÀNG HIỆP - 511 03038 ĐẶNG MINH CHÂU - 511 03007 Lớp : 11 050302 Khóa : 15 THÀNH PHỐ HỒ CHÍ MINH, NĂM 2 014 i Lời cảm ơn Trƣớc. time-oriented (h1) Hình 9: Ví dụ phân tách session bằng phƣơng pháp h-ref Hình 10 ,11 ,12 : Các bƣớc trong thuật toán PRM Hình 13 : Bảng Session Hình 14 : Sơ đồ Wap-Tree Hình 15 : Wap-Tree|c Hình 16 : Wap-Tree|ac. trang web) : 9 3. Web Usage Mining (Khai thác sử dụng web) : 9 III. Server Log: 10 IV. Phân tách Session: 11 1. User Identification: 12 2. PageView Identification: 15 3. Sessionization: 17

Ngày đăng: 19/10/2014, 12:07

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan