ĐỒ án tốt NGHIỆP đại học đề tài NGHIÊN cứu các kỹ THUẬT và CÔNG cụ PHÂN TÍCH WEB LOG

27 21 0
ĐỒ án tốt NGHIỆP đại học đề tài NGHIÊN cứu các kỹ THUẬT và CÔNG cụ PHÂN TÍCH WEB LOG

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BAN CƠ YẾU CHÍNH PHỦ HỌC VIỆN KỸ THUẬT MẬT MÃ ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC ĐỀ TÀI NGHIÊN CỨU CÁC KỸ THUẬT VÀ CƠNG CỤ PHÂN TÍCH WEB LOG Học viên thực hiện: Lê Như Hậu Khóa: 14 Chun ngành: An tồn thơng tin Người hướng dẫn:TS Hồng Xuân Dậu Hà Nội, 2022 BAN CƠ YẾU CHÍNH PHỦ HỌC VIỆN KỸ THUẬT MẬT MÃ ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC ĐỀ TÀI NGHIÊN CỨU CÁC KỸ THUẬT VÀ CƠNG CỤ PHÂN TÍCH WEB LOG Học viên thực hiện: Lê Như Hậu Khóa: 14 Chun ngành: An tồn thơng tin Người hướng dẫn: TS Hoàng Xuân Dậu Hà Nội, 2022 LỜI CẢM ƠN Trong thời gian thực đồ án tốt nghiệp, em nhận nhiều giúp đỡ, đóng góp ý kiến bảo nhiệt tình thầy cơ, gia đình bạn bè Trong thực tế khơng có thành cơng mà khơng gắn liền với hỗ trợ dù hay nhiều, dù trực tiếp hay gián tiếp người khác Với lòng biết ơn sâu sắc, em xin gửi lời cảm ơn chân thành đến cán hướng dẫn Thầy giáo TS Hoàng Xuân Dậu – Khoa CNTT1, Học viện Công nghệ BC-VT người giúp đỡ hướng dẫn em tận tình, bảo cho em suốt trình làm đồ án Em xin cảm ơn tri ân sâu sắc tới thầy cô giáo trường Học viện kỹ thuật mật mã nói chung, thầy khoa An tồn thơng tin nói riêng dạy dỗ, truyền đạt cho em kiến thức môn đại cương môn chuyên ngành, giúp em có sở lý thuyết tốt tạo điều kiện giúp đỡ em suốt trình học tập Cuối cùng, em xin chân thành cảm ơn gia đình, người thân bạn bè, tạo điều kiện, quan tâm, giúp đỡ em từ vấn để nhỏ nhất, tạo cho em điều kiện tốt động viên em suốt trình học tập hoàn thành đồ án tốt nghiệp LỜI CAM ĐOAN Em xin cam đoan toàn nội dung đồ án em tìm hiểu, nghiên cứu dự hướng dẫn TS Hoàng Xuân Dậu Các nội dung trình bày đồ án kết đạt thời gian em thực đề tài hướng dẫn giáo viên hướng dẫn, em không chép nguyên kết nghiên cứu công bố kết trình tìm hiểu, học tập nghiêm túc em suốt trình học đại học Bên cạnh đó, số nội dung đồ án kết phân tích, nghiên cứu, tổng hợp từ nhiều nguồn liệu khác Các thông tin tổng hợp hay kết lấy từ nguồn tài liệu khác em trích dẫn cách đầy đủ hợp lý mục tài liệu tham khảo Nguồn tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Hà Nội, ngày tháng năm 2022 Học viên thực (Ký ghi rõ họ tên) MỞ ĐẦU Cùng phát triển mạnh mẽ thương mại điện tử năm gần đây, trang web bán hàng trực tuyến ngày trở nên phổ biến cạnh tranh ngày trở nên khốc liệt Các doanh nghiệp muốn nắm hành vi người dùng website nhằm đưa sách tiếp thị phù hợp, hay giúp tối ưu hóa website, đưa gợi ý sát với nhu cầu người dùng Hiện có nhiều kỹ thuật khác sử dụng phân tích web log,trên giới có số tảng cơng cụ cho thu thập, xử lý phân tích dạng log phiên thương mại mã mở IBM Qradar SIEM, Splunk, Graylog Logstash, Tuy nhiên, việc nghiên cứu sâu phương pháp xử lý phân tích web log ứng dụng Việt Nam cần tiếp tục thực Đồ án tốt nghiệp với đề tài " NGHIÊN CỨU CÁC KỸ THUẬT VÀ CÔNG CỤ PHÂN TÍCH WEB LOG" theo hướng nghiên cứu có mục đích nghiên cứu kỹ thuật xử lý phân tích web log, sau áp dụng kiến thức tìm hiểu để triển khai thử nghiệm hệ thống phân tích web log có chức thu thập, xử lý phân tích file web log để sinh báo cáo hành vi truy nhập web người dùng Đồ án cấu trúc gồm ba chương với nội dung sau:  Chương 1:Tổng quan web log xử lý web log: giới thiệu khái  niệm web log định dạng web log phổ biến Chương 2: Các kỹ thuật công cụ xử lý, phân tích web log: phân tích kỹ thuật xử lý phân tích web log, giới thiệu số cơng cụ quản lý, phân tích web log  Chương 3: Cài đặt thử nghiệm ứng dụng phân tích web log: triển khai cài đặt thử nghiệm hệ thống thu thập, phân tích web log đưa số kết Chương T ỔNG QUAN VỀ WEB LOG VÀ XỬ LÝ WEB LOG 1.1 Giới thiệu web log 1.1.1 Định nghĩa Một file web log file dùng để ghi lại thông tin hoạt động, thao tác hay nhiều người dùng Web người dùng gửi yêu cầu tài nguyên từ trang web Nó giống nhật ký hay tin trực tuyến nhằm thông báo kiện xảy hàng ngày trang web File web log cung cấp thông tin hữu ích như:  Trang website mà người dùng yêu cầu ?  Các lỗi mà người dùng gặp phải ?  Trạng thái trả máy chủ với yêu cầu người dùng ?  Số lượng byte gửi từ máy chủ đến người dùng ? Web log sử dụng với nhiều mục đích khác : phân tích , thống kê số liệu , hành vi người dùng Từ kết quả, số liệu giúp ích nhiều người quản trị Ngoài ra, hệ thống gặp cố, web log nguồn cung cấp liệu quan trọng cho quản trị viên để tìm hiểu nguyên nhân khắc phục cố 1.1.2 Các loại web server log Có loại server log :  Access logs : liệu tất yêu cầu đến thơng tin phía client tới máy chủ Access log ghi lại tất yêu cầu xử lý máy  chủ Referrer logs: cung cấp thông tin liên kết chuyển hướng người  dùng truy cập đến trang web Agent logs: Lưu trữ thông tin client gửi request tới web server Bao gồm thơng tin trình duyệt hệ điều hành mà người dùng sử dụng để truy cập đến web3  Error logs: Lưu trữ thông tin lỗi xảy với yêu cầu đến máy chủ Access log error log log sử dụng với agent log referrer log log kích hoạt khơng máy chủ 1.1.3 Các nguồn sinh web log  Phía Server Web server log nguồn quan trọng để thực phân tích ghi lại tất hành vi người dùng truy cập web Dữ liệu ghi log máy chủ phản ánh (có thể đồng thời) truy cập trang web nhiều người dùng Các file log lưu trữ định dạng khác Common Log Extended Log Tuy nhiên, liệu ghi lại máy chủ khơng hồn tồn đáng tin cậy cịn có ảnh hưởng từ nhiều yếu tố khác Ví dụ như: Lượt xem trang lưu nhớ cache không ghi lại log máy chủ Ngồi ra, thơng tin quan trọng gửi thông qua phương thức POST không lưu lại server Sử dụng việc chặn gói tin phương pháp thay để thu thập liệu sử dụng thơng qua log máy chủ Các gói tin chặn bắt liệu triết xuất trực tiếp từ gói tin TCP/IP Máy chủ Web lưu trữ loại thơng khác cookie liệu truy vấn Cookie mã thông báo tạo máy chủ Web cho trình duyệt để tự động theo dõi khách truy cập trang web Cookie dựa hợp tác ngầm định người gây mối quan ngại ngày tăng riêng tư người dùng Bên cạnh liệu sử dụng, phía máy chủ cung cấp liệu nội dung, thông tin cấu trúc thông tin meta trang web (chẳng hạn kích thước tệp tin thời gian sửa đổi cuối cùng)  Phía Client Việc thu thập liệu phía client thực cách sử dụng tác nhân từ xa ( ví dụ: Javascript Java applets) cách sửa đổi source code trình duyệt để nâng cao khả thu thập liệu Việc triển khai phương thức thu thập liệu phía client địi hỏi phải có hợp tác người dùng, trình duyệt người dùng phải kích hoạt tính Javascripts Java applets, tự nguyện sử dụng trình duyệt sửa đổi Thu thập phía Client có lợi thu thập phía máy chủ cải thiện vấn đề caching nhận dạng phiên Tuy nhiên, Java applets thực không tốt log phía máy chủ việc xác định thời gian xem thực trang Trong thực tế, phải chịu thêm số chi phí, đặc biệt Java applets tải lần Javascripts bắt tất nhấp chuột người dùng (chẳng hạn nút tải lại quay lại trang trước trình duyệt) Các phương pháp thu thập hành vi duyệt web người dùng Một trình duyệt sửa đổi linh hoạt cho phép thu thập liệu người dùng nhiều trang web Phần khó việc sử dụng phương pháp việc để người dùng sử dụng trình duyệt sửa đổi cho hoạt động duyệt web hàng ngày họ  Phía Proxy Một proxy Web hoạt động nhớ đệm trình duyệt khách hàng máy chủ Web Proxy cache sử dụng để giảm thời gian tải trang Web người dùng tải lưu lượng mạng máy chủ máy khách Hiệu suất proxy cache phụ thuộc vào khả dự đoán yêu cầu trang cách xác Các dấu vết Proxy tiết lộ yêu cầu HTTP thực từ nhiều máy khách tới nhiều máy chủ Web Đây nguồn liệu để mô tả hành vi duyệt web nhóm người dùng ẩn danh, sử dụng máy chủ proxy chung 127.0.0.1 - frank [12/Oct/2010:14:51:40 -0700] “GET /apache_pb.gif HTTP/1.0” 200 2326 “http://www.example.com/start.html” “Mozilla/4.08 [en] (Win98;I;Nav)” Các trường bổ sung bao gồm:  http://www.example.com/start.html (tương ứng kí hiệu \”% {Referer}i\”): Cho biết trang web người dùng thăm trước đến  trang Mozilla/4.08 [en] (Win98; I ;Nav)” (tương ứng kí hiệu \”% {Useragent}i\”): Cho biết thơng tin trình duyệt hệ điều hành máy khách sử dụng 1.2.3 W3C Extended Log Format Hiện nay, W3C Extended Log Format [6] đề xuất The World Wide Web Consortium (W3C) định dạng sử dụng rộng rãi hầu hết máy chủ web hỗ trợ Định dạng web log có khả năng:  Hỗ trợ kiểm sốt thông tin ghi web log  Hỗ trợ định dạng web log chung cho proxy, máy khách máy  chủ web Cung cấp chế mạnh mẽ xử lý vấn đề ký tự thoát (character escaping)  Cho phép trao đổi liệu nhân học (demographic)  Hỗ trợ tổng hợp liệu Một file log theo định dạng W3C Extended Log chứa tập hợp dòng văn gồm ký tự theo chuẩn ASCII (hoặc Unicode) phân tách ký tự xuống dòng (LF CRLF) Các file log khác có ký tự kết thúc dòng khác tùy thuộc vào quy ước kết thúc dòng tảng hoạt động Trên dịng thường có thị (directive) đầu mục (entry) Phần mô tả chi tiết thành phần - Các thị: Các dịng bắt đầu ký tự “#” chứa thị Chúng chứa thông tin mô tả file log Các thị với định dạng W3C Extended Log bao gồm:  Version: .: Chỉ phiên định dạng log  sử dụng Fields: […]: Liệt kê danh sách trường ghi lại      tệp log Software: string: Chỉ phần mềm tạo log: Start-Date: : Ngày bắt đầu ghi log End-Date: : Ngày kết thúc ghi log Date: : Ngày thêm vào đầu mục log Remark: : Các thơng tin thích Thơng thường, cơng cụ phân tích log bỏ qua liệu trường Các thị Version Fields bắt buộc đứng trước tất trường khác file log Chỉ thị Fields liệt kê danh sách định danh trường, xác định thông tin ghi đầu mục Các định danh trường số kiểu sau: Identifier (tên nhận dạng), Prefix-identifier (tiền tố tên nhận dạng) Prefix (header) (tiền tố (đề mục)) Bảng 1.1: Danh sách tiền tố Tiền Ý nghĩa c Client s Server r Remote s Client đến Server sc Server đến Client sr Server đến Remote Server(được dùng proxy) tố rs Remote Server đến Server(được dùng proxy) x Định danh riêng ứng dụng Bảng 1.2: Các định danh không yêu cầu có tiền tố Định danh Ý nghĩa date Ngày giao dịch hoàn thành, kiểu time Thời gian (giờ) giao dịch hoàn thành, kiểu timetaken Thời gian để giao dịch hồn thành tính giây, kiểu bytes Số byte truyền, kiểu cached Ghi lại số lần cache hit, tức cache miss, kiểu Bảng 1.3: Các định danh cần phải có tiền tố Định danh Ý nghĩa ip Địa Ip cổng, kiểu dns Tên DNS, kiểu status Mã trạng thái, kiểu comme nt Mô tả trạng thái trả mã trạng thái, kiểu method Method, kiểu uri URL, kiểu uristem Phần thân URL(bỏ qua phần truy vấn), kiểu uriquery Phần truy vấn URL, kiểu host DNS hostname sử dụng, kiểu Bảng 1.1 liệt kê danh sách tiền tố (Prefix) cho định danh, bảng 1.2 cung cấp danh sách định danh khơng u cầu có tiền tố bảng 1.3 liệt kê danh sách định danh phải có tiền tố Ví dụ, định danh cs-method cho biết method (phương thức) gói tin gửi client đến server, sc(Referer) tương ứng với trường referer gói tin trả lời, định danh c-ip xác định địa IP client - Các đầu mục: Một đầu mục (entry) dãy trường liên quan đến giao dịch HTTP, gồm dãy trường phân cách khoảng trắng ký tự tab, không chứa ký tự ASCII điểu khiển kết thúc ký tự CR CRLF Ý nghĩa trường định nghĩa thị #Fields trường thơng tin mục hiển thị ký tự “-“ Bảng 1.4 mô tả định dạng liệu sử dụng W3C Extended Format bảng 1.5 liệt kê danh sách trường khả dụng định dạng web log Bảng 1.4: Các định dạng liệu sử dụng W3C Extended Format Bảng 1.5: Các trường khả dụng W3C Extended Format 1.2.4 Microsoft IIS Log Format Microsoft IIS máy chủ web chạy hệ điều hành Microsoft Windows Server Máy chủ web IIS hỗ trợ nhiều định dạng web log khác như: NCSA Common Log Format, W3C Extended Log Format Microsoft IIS Log Format Các định dạng NCSA Common Log Format W3C Extended Log Format trình bày mục Mục tập trung mô tả định dạng Microsoft IIS Log Format Microsoft IIS Log Format [7] chứa thông tin như: Địa IP máy khách, tên người dùng, ngày, thực yêu cầu, mã trạng thái dịch vụ, số lượng byte nhận Ngồi ra, cịn chứa thông tin chi tiết hành động thực hiện, file đích, thời gian thực Các trường ghi log phân cách dấu phẩy, trường không chứa thông tin thay dấu ‘-‘, ký tự khơng in thay dấu ‘+’ Ví dụ, với Microsoft IIS Log Format đầu mục web log sau: 192.168.114.201, -, 03/20/01, 7:55:20, W3SVC2, SALE1, 172.21.13.45, 4502, 163, 3223, 200, 0, GET, /DeptLogo.gif, -, Trong đó:  192.168.114.201 địa IP máy khách  03/20/01, 7:55:20 ngày thực yêu cầu  W3SVC2 tiến trình chạy dịch vụ web  SALES1 tên máy chủ web  172.21.13.45 địa IP máy chủ web  4502 thời gian xử lý tính mili giây  163 số byte yêu cầu  3223 số byte phản hồi (kết quả) máy chủ gửi máy khách  200 mã trạng thái thực yêu cầu (thành công)  GET phương thức yêu cầu  /DeptLogo.gif file yêu cầu 1.3 Khái quát xử lý log web 1.3.1 Giới thiệu Mạng World Wide Web phát triển liên tục lượng liệu khổng lồ tạo tương tác nhiều người dùng với trang web Khai thác liệu Web ứng dụng kỹ thuật khai thác liệu để khám phá mẫu hữu ích thú vị từ liệu web Nó hỗ trợ để biết trang thường xuyên truy cập, dự đoán hướng người sử dụng, cải thiện cấu trúc trang web vv… Dữ liệu sử dụng web bao gồm liệu từ log máy chủ web, log trình duyệt, log máy chủ proxy tiểu sử người dùng Các hoạt động duyệt web khách truy cập ghi vào log máy chủ web Bằng cách phân tích file log, câu hỏi khác trả lời như:    Những trang truy cập thường xuyên? Người dùng truy cập từ công cụ tìm kiếm nào? Trình duyệt hệ điều hành thường sử dụng khách truy cập?  Lần truy cập gần cho trang gì? 1.3.2 Mơ hình xử lý phân tích web log Các bước để xử lý phân tích web log:  Tiền xử lý liệu(Preprocessing): - Chuyển liệu thô từ file log thành tập thông tin người  dùng thống - Là bước phức tạp phân tích web log Tìm pattern người dùng (Pattern Discovery): - Phân cụm, phân lớp để tìm pattern người dùng từ liệu xử lý như: Tập hợp trang, nguồn tài nguyên  thường xuyên người dùng truy cập Phân tích pattern người dùng (Pattern Analysis): - Tìm pattern có giá trị nhất, loại bỏ pattern khơng liên quan - Thống kê, hiển thị liệu Trong đó, khâu bước tiền xử lý web log gồm:  Data Integration: Thống định dạng liệu chọn trường  cần trích xuất thơng tin, chuẩn hóa định dạng liệu Data Cleaning: Xóa bỏ trường, thông tin không cần thiết cho  mục đích sử dụng file log User Indentification: Định danh người dùng bao gồm người dùng đăng nhập người dùng ẩn danh  Session Indentification: Xác định phiên làm việc người dùng 1.3.3 Ứng dụng xử lý phân tích web log 1.3.3.1 Phát hành vi truy cập web dựa phân tích web log Hành vi truy cập web người dùng gồm dạng: bình thường bất thường Hành vi bình thường đơn giản vào thăm trang theo chức website Với web log chứa thơng tin truy cập người dùng, dễ dàng để xây dựng tập hành vi người dùng như: Các website quan tâm, thời gian thăm trang web, chủ đề mà người dùng quan tâm… Sau có hành vi người dùng, dùng để đưa chiến lược kinh doanh phù hợp, đưa quảng cáo, khuyến nghị phù hợp với nhu cầu người dùng Hành vi bất thường thường gắn liền với công, xâm nhập vào hệ thống 1.3.3.2 Phát công, xâm nhập dựa phân tích web log Các cơng, xâm nhập vào hệ thống phát dựa web log Các trường web log thường có kiểu liệu giá trị nằm khoảng định Nếu giá trị kiểu liệu nằm ngồi khoảng thơng thường phần cơng vào hệ thống Ví dụ, trường file log chứa ký tự ASCII in được, xuất ký tự không in (biểu diễn ký tự ‘+’ file log) biểu cơng Một ví dụ khác, liệu nhập liệu URL thường chứa ký tự thông thường, chúng có chứa từ khố ngơn ngữ JavaScript SQL hành vi bất thường 1.4 Kết luận chương Chương giới thiệu khái quát web log, định dạng web log phổ biến, quy trình xử lý phân tích web log Trong phần đồ án, Chương sâu phân tích kỹ thuật xử lý phân tích web log, đồng thời giới thiệu số cơng cụ xử lý, phân tích web log tiêu biểu Chương CÁC KỸ THUẬT VÀ CÔNG CỤ XỬ LÝ, PHÂN TÍCH WEB LOG 2.1 Mơ hình xử lý phân tích web log Trong Chương đồ án giới thiệu mô tả vắn tắt mơ hình xử lý phân tích web log Mục mơ tả mơ hình xử lý phân tích web log cách chi tiết Hình 2.1 biểu diễn mơ hình xử lí web log tổng qt Theo đó, mơ hình gồm pha xử lý: Pha tiền xử lý chuẩn hoá (Preprocess): Trong pha này, hệ thống nhận liệu log từ nguồn khác nhau, trích xuất thơng tin cần thiết đưa định dạng thống Ngoài ra, pha chịu trách nhiệm tiền xử lý số thông tin như: người dùng, phiên làm việc… Pha gồm bước sau: Làm hợp liệu; nhận dạng người dùng; nhận dạng phiên làm việc; nhận dạng pageview; hoàn tất đường dẫn (path completion) Pha tìm pattern (Pattern discovery): Pha sử dụng phương pháp thuật toán như: thống kê, học máy, khai phá liệu, nhận dạng mẫu để xác định pattern người dùng Trong phân tích log, pattern cần xác định bao gồm: Các trang web ưa thích, thời gian xem trung bình trang web, lĩnh vực quan tâm… Pha sử dụng kỹ thuật phấn tích liệu như: phân tích thống kê; phân cụm; phân lớp; luật kết hợp; mẫu tuần tự, hay mơ hình hóa phụ thuộc Pha phân tích pattern (Pattern analysis): Pha có nhiệm vụ phân tích pattern tìm pha trước, pattern khơng có nhiều giá trị loại bỏ chúng khỏi q trình phân tích log Pha thực nhờ câu truy vấn SQL, sử dụng phân tích xử lý trực tuyến hay nhờ kỹ thuật hiển thị hố liệu để lọc phân tích pattern Predict User behavior: Sau phân tích lọc pattern, pattern lại dùng để đưa kết luận hành vi người dùng như: Các trang web thường xuyên truy cập, lĩnh vực quan tâm, thời gian trung bình xem trang web… Pha đưa báo cáo thống kê, biểu đồ hình vẽ hành vi người dùng cụ thể tổng quan trang web 2.2 Thu thập web log Web log sinh nhiều vị trí khác mạng, có nhiều cách để thu thập web log Web log nhận từ nhiều nguồn khác như: từ file, từ mạng internet hay từ đầu ứng dụng khác… số nguồn cụ thể kể như:  Nhận kiện từ framework Elastic Beats  Đọc kết truy vấn từ cụm Elasticsearch  Lấy kiện từ file  Nhận cơng cụ dịng lệnh kiện  Tạo kiện dựa tin SNMP  Đọc tin syslog  Đọc kiện từ TCP socket  Đọc kiện thông qua UDP  Đọc kiện thông qua UNIX socket  Đọc kiện từ websoket… 2.3 Tiền xử lý chuẩn hóa Q trình tiền xử lý chuẩn hóa thực việc làm hợp liệu từ nhiều nguồn khác nhau, nhận dạng người dùng, nhận dạng phiên làm việc, nhận dạng pageview… kết hợp liệu clickstream với nội dung trang web hay liệu cá nhân người dùng Quá trình cung cấp liệu tối ưu thống cho q trình phân tích web log 2.3.1 Làm hợp liệu Ở trang web lớn, nội dung log lưu nhiều nguồn khác Hợp liệu cho phép tổng hợp liệu từ file log có dạng khác Trong trường hợp nguồn liệu khơng có chế dùng chung định danh phiên để hợp liệu dùng phương pháp dựa kinh nghiệm dựa trường “referrer” server log, kết hợp với phương pháp nhận dạng người dùng nhận dạng phiên làm việc để thực hợp liệu Làm liệu nhằm xóa bỏ tham chiếu khơng liên quan khơng quan trọng cho mục đích phân tích log như: file CSS trang web, file icon, âm trang web Q trình cịn xóa bỏ trường liệu file log không cung cấp nhiều thơng tin quan trọng cho q trình phân tích log phiên giao thức HTTP Ngoài ra, việc làm liệu cịn xóa bỏ tham chiếu kết crawler công cụ tìm kiếm thực Có thể trì danh sách crawler cơng cụ tìm kiếm phổ biến để phát xóa bỏ kết log chúng Một phương pháp khác để phát crawler dựa vào giao thức hoạt động chúng, bắt đầu phiên làm việc website, truy cập vào file “robot.txt” trang web Dựa vào đặc điểm này, ta xóa bỏ phiên làm việc crawler website 2.3.2 Nhận dạng người dùng Trong trường hợp website truy cập khơng có chế xác thực phương pháp dùng để phân biệt người dùng truy cập dựa vào cookie Phương pháp cho kết với độ xác cao, nhiên lo ngại tính riêng tư nên khơng phải tất người dùng cho phép trình duyệt lưu cookie Nếu dùng địa IP khơng đủ để nhận dạng người dùng riêng biệt Nguyên nhân chủ yếu ISP proxy server gán lại địa IP cho người dùng sau khoảng thời gian định Ngồi ra, có nhiều người dùng mạng LAN sử dụng chung địa public IP Vì vậy, trường hợp hai lần truy cập khác có địa IP lại từ hai người dùng khác hoàn toàn xảy Để tăng tính xác việc nhận dạng người dùng dựa địa IP, ta kết hợp thêm thơng tin khác user agent hay refferer Bảng 2.1 mô tả ví dụ nhận dạng người dùng sử dụng kết hợp địa IP user agent Bảng 2.2, 2.3, 2.4 cho kết sau nhận dạng người dùng riêng biệt Bảng 2.1: Kết hợp địa IP User agent Bảng 2.2: Kết nhận dạng người dùng Bảng 2.3: Kết nhận dạng người dùng Bảng 2.3: Kết nhận dạng người dùng 2.3.3 Nhận dạng phiên làm việc Quá trình nhận dạng phiên làm việc phân ghi hoạt động người dùng thành phiên, phiên biểu diễn lần truy cập website người dùng Với website khơng có chế để xác thực người dùng chế bổ sung khác nhúng thêm định danh phiên (session id) phải dùng phương pháp dựa kinh nghiệm - heuristics methods để nhận dạng phiên làm việc Ta xem tập phiên thực tế người dùng website R Một phân loại phiên dựa kinh nghiệm - sessionization heuristic h thử để ánh xạ R thành tập hợp phiên Ch Thông thường, phân loại phiên dựa kinh nghiệm gồm hai loại chính: dựa vào thời gian dựa vào cấu trúc website Phân loại dựa vào thời gian dựa vào việc ước lượng khoảng thời gian yêu cầu để phân biệt phiên liên tiếp Trong phân loại dựa cấu trúc website dựa cấu trúc trang web trường referrer web log để phân biệt phiên Với hai loại log máy chủ web chia thành phiên dựa phương pháp phân loại cụ thể sau:  h1: Tổng thời gian phiên thường không vượt ngưỡng θ định Cho t0 thời gian yêu cầu phiên S, yêu ... lý phân tích web log ứng dụng Việt Nam cần tiếp tục thực Đồ án tốt nghiệp với đề tài " NGHIÊN CỨU CÁC KỸ THUẬT VÀ CƠNG CỤ PHÂN TÍCH WEB LOG" theo hướng nghiên cứu có mục đích nghiên cứu kỹ thuật. ..BAN CƠ YẾU CHÍNH PHỦ HỌC VIỆN KỸ THUẬT MẬT MÃ ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC ĐỀ TÀI NGHIÊN CỨU CÁC KỸ THUẬT VÀ CƠNG CỤ PHÂN TÍCH WEB LOG Học viên thực hiện: Lê Như Hậu Khóa: 14 Chun... quát web log, định dạng web log phổ biến, quy trình xử lý phân tích web log Trong phần đồ án, Chương sâu phân tích kỹ thuật xử lý phân tích web log, đồng thời giới thiệu số công cụ xử lý, phân tích

Ngày đăng: 25/04/2022, 17:01

Hình ảnh liên quan

Bảng 1.1: Danh sách các tiền tố Tiền - ĐỒ án tốt NGHIỆP đại học đề tài NGHIÊN cứu các kỹ THUẬT và CÔNG cụ PHÂN TÍCH WEB LOG

Bảng 1.1.

Danh sách các tiền tố Tiền Xem tại trang 14 của tài liệu.
Bảng 1.2: Các định danh không yêu cầu có tiền tố Định - ĐỒ án tốt NGHIỆP đại học đề tài NGHIÊN cứu các kỹ THUẬT và CÔNG cụ PHÂN TÍCH WEB LOG

Bảng 1.2.

Các định danh không yêu cầu có tiền tố Định Xem tại trang 15 của tài liệu.
Bảng 1.3: Các định danh cần phải có tiền tố Định - ĐỒ án tốt NGHIỆP đại học đề tài NGHIÊN cứu các kỹ THUẬT và CÔNG cụ PHÂN TÍCH WEB LOG

Bảng 1.3.

Các định danh cần phải có tiền tố Định Xem tại trang 16 của tài liệu.
Bảng 1.4: Các định dạng dữ liệu sử dụng trong W3C Extended Format - ĐỒ án tốt NGHIỆP đại học đề tài NGHIÊN cứu các kỹ THUẬT và CÔNG cụ PHÂN TÍCH WEB LOG

Bảng 1.4.

Các định dạng dữ liệu sử dụng trong W3C Extended Format Xem tại trang 17 của tài liệu.
trường không có thông tin trong mục thì nó sẽ được hiển thị một ký tự “-“. Bảng 1.4 mô tả các định dạng dữ liệu sử dụng trong W3C Extended Format và bảng 1.5 liệt kê danh sách các trường khả dụng trong định dạng web log này. - ĐỒ án tốt NGHIỆP đại học đề tài NGHIÊN cứu các kỹ THUẬT và CÔNG cụ PHÂN TÍCH WEB LOG

tr.

ường không có thông tin trong mục thì nó sẽ được hiển thị một ký tự “-“. Bảng 1.4 mô tả các định dạng dữ liệu sử dụng trong W3C Extended Format và bảng 1.5 liệt kê danh sách các trường khả dụng trong định dạng web log này Xem tại trang 17 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan