Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
2,85 MB
Nội dung
Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ LỜI NÓI ĐẦU CHƯƠNG I TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM GOOGLE 1.1.Giới thiệu Google hệ thống tìm kiếm Google 1.1.1 Tổng quan Google 1.1.2 Giao diện trang web Google 11 1.1.3 Tìm kiếm thơng thường 12 1.1.4 Tìm kiếm nâng cao 17 1.2 Tầm quan trọng hệ thống tìm kiếm Google 22 1.3 Phương pháp khai thác thơng tin qua hệ thống tìm kiếm Google 23 1.3.1 Googlebot , máy thu thập trang web Google 23 1.3.2 Indexer Google 25 1.3.3.Bộ xử lý truy vấn Google 26 CHƯƠNG II: MỘT SỐ KỸ THUẬT KHAI THÁC THƠNG TIN BẬC CAO QUA HỆ THỐNG TÌM KIẾM GOOGLE VÀ CÁC PHƯƠNG PHÁP BẢO VỆ THÔNG TIN 27 2.1 Các cú pháp tìm kiếm nâng cao Google 27 2.1.1 Intitle and Allintitle 28 2.1.2.Inurl Allinurl 30 2.1.3 Filetype 31 2.1.4 Allintext 33 2.1.5 Site 33 2.1.6 Link 34 2.1.7 Cache 35 2.1.8 Info 35 2.1.9 Related 36 2.1.10 Define 37 2.1.11 Phonebook 38 2.1.12 Daterange 40 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thơng qua hệ thống tìm kiếm Google 2.1.13 Inanchor 41 2.1.14 Numrange 41 2.1.15 Author 41 2.1.16 Group 44 2.1.17 Insubject 44 2.1.18 Msgid 45 2.1.19: Stocks 47 2.2 Khai thác thông tin qua hệ thống tìm kiếm Google 47 2.2.1 Liệt kê thư mục (Directory Listings) 48 2.2.2 Kỹ thuật thay gia tăng (Incremental Substitution) 51 2.2.3 Extension Walking 52 2.2.4 Ẩn danh truy cập site với nhớ Caches (Anonymity with Caches) 52 2.3 Các giải pháp bảo vệ thông tin 55 2.3.1 Xây dựng sách bảo mật 55 2.3.2.Những biện pháp bảo vệ máy chủ web 55 2.3.4 Trợ giúp từ Google 61 CHƯƠNG III: ÁP DỤNG MỘT SỐ KỸ THUẬT TẤN CÔNG VÀ KHAI THÁC THÔNG TIN BẬC CAO QUA HỆ THỐNG TÌM KIẾM GOOGLE 63 3.1 Mục đích 63 3.2.Mơ hình triển khai 63 3.3.Các bước thực 64 3.3.1 Áp dụng cú pháp bậc cao để tìm trang web bị lỗi SQL injection 64 3.3.2 Áp dụng cú pháp bậc cao để khai thác thông tin nhạy cảm 66 3.4.Kết 68 3.5.Đánh giá kết 68 KẾT LUẬN 69 TÀI LIỆU THAM KHẢO 70 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thơng qua hệ thống tìm kiếm Google DANH MỤC CÁC BẢNG Bảng 1.1: Chi tiết giao diện Google 12 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google DANH MỤC CÁC HÌNH VẼ Hình 1.1: Trụ sở Google Mountain View, California, USA Hình 1.2: Giao diện Google (www.google.com.vn) 11 Hình 1.3: Google Search với từ khóa "Youtube" 13 Hình 1.4: Google Search hình ảnh với từ khóa "youtube" 14 Hình 1.5 Google Search video với từ khóa "youtube" 15 Hình 1.6: Trang cài đặt tìm kiếm 16 Hình 1.7: Google dịch 17 Hình 1.8: Trang tìm kiếm nâng cao (1) 20 Hình 1.9: Trang tìm kiếm nâng cao (2) 21 Hình 1.10: Trang thêm URL 24 Hình 2.1: Tiêu đề trang web 28 Hình 2.3: Cú pháp intitle 29 Hình 2.4: So sánh kết allintitle 30 Hình 2.5: Tìm kiếm với inurl 30 Hình 2.6: So sánh kết với allinurl 31 Hình 2.7: Một số loại tập tin phổ biến phần mở rộng hệ thống tìm kiếm Google 32 Hình 2.8: 25 loại tập tin phổ biến 32 Hình 2.9: Cú pháp Site 33 Hình 2.10: Cú pháp nâng cao với Site 34 Hình 2.11: Cú pháp Link 35 Hình 2.12: Cú pháp info 36 Hình 2.13: Cú pháp Related 37 Hình 2.14: Cú pháp define 38 Nghiên cứu, tìm hiểu số kỹ thuật cơng khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google Hình 2.15: Cú pháp Phonebook 39 Hình 2.16: Cú pháp Bphonebook 40 Hình 2.17: Cú pháp Author 42 Hình 2.18: Cú pháp author: “Tống Đình Quỳ” 43 Hình 2.19: Cú pháp author:Tống Đình Quỳ 43 Hình 2.20: Cú pháp Group 44 Hình 2.21: Một dạng điển hình Group Message 46 Hình 2.22: Message ID cổng 46 Hình 2.23: Cú pháp Stock 47 Hình 2.24: Kết Directory Listings website http://forum.hocvienact.edu.vn/ 48 Hình 2.25: Kết tìm kiếm thư mục đặc biệt 49 Hình 2.26: Kết hiển thị danh sách thư mục cho đường dẫn…/bpa/acadunits/admin/envr/bowman 50 Hình 2.27: Tất lưu Google cache 53 Hình 2.28: Directory listing tiết lộ vị trí tập tin htaccess 56 Hình 2.29: Cú pháp tìm kiếm tập tin robots.txt 58 Hình 2.30: Nội dung tập tin roots.txt 59 Hình 2.31: Trang web Google dành cho quản trị viên web 62 Hình 2.32: Trang web để loại bỏ URL 62 Hình 3.1: Mơ hình mơ tả q trình tìm kiếm Google 64 Hình 3.2: Các trang web bị lỗi SQL injection 65 Hình 3.3: Trang web bị lỗi SQL injection 65 Hình 3.4: Một số thông tin trang web bị lỗi SQL injection 66 Hình 3.5: Một số trang web có chứa thơng tin nhạy cảm 67 Hình 3.6: Nội dung tập tin backup.sql 67 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google LỜI NĨI ĐẦU Trong thời đại phát triển thông tin nay, mà Internet phát triển tồn cầu việc tìm kiếm thơng tin mạng điều khơng thể thiếu Có cơng cụ tìm kiếm mà giới biết đến sử dụng Google Từ thời điểm mắt tới giờ, Google phát triển trở thành công ty lớn giới, phục vụ hàng triệu người ngày Vậy lại có bước thành cơng to lớn đến vậy, nhờ việc áp dụng thuật tốn thơng minh với việc tích hợp đến 200 thơng tin ràng buộc để đưa kết cách nhanh xác Hơn nữa, có khả chấp nhận lệnh định nghĩa sẵn mà nhập vào đưa lại kết mà tìm kiếm thơng thường khơng có Điều cho phép người dùng có ý xấu tin tặc, cracker, script kiddies v.v sử dụng cỗ máy Google để thu thập thông tin bí mật nhạy cảm hay thơng tin khơng thể tìm thấy phương pháp tìm kiếm thơng thường Trong báo cáo nghiên cứu này,nhóm chúng em phân tích làm rõ đặc điểm, phương pháp khai thác thông tin Google mà người quản trị hay chuyên gia bảo mật phải phịng chống để tránh cho thơng tin bí mật bị tìm khai thác: Những cú pháp tìm kiếm nâng cao với Google Tìm kiếm Site Server(máy chủ) dễ bị công sử dụng cú pháp nâng cao Google Bảo mật cho servers sites khỏi công Google Với hướng dẫn tận tình thầy Phạm Minh Thuấn chúng em hoàn thành báo cáo Tuy cố gắng tìm hiểu, phân tích khơng thể tránh khỏi thiếu sót Chúng em mong nhận thông cảm góp ý thầy Chúng em xin chân thành cảm ơn! Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thơng qua hệ thống tìm kiếm Google CHƯƠNG I TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM GOOGLE Như biết, Google trở thành công cụ hữu ích cho tồn người dùng Internet nhờ vào khả tìm kiếm xử lý thơng tin cách thông minh dễ dàng Trong chương tìm hiểu cách khái quát phát triển Google, giao diện cách hoạt động 1.1.Giới thiệu Google hệ thống tìm kiếm Google 1.1.1 Tổng quan Google Khởi đầu Công ty Google đạt nhiều thành tựu quan trọng cho dù thời gian hoạt động ngắn Từ Google sáng lập năm 1998, Google phát triển, phục vụ hàng trăm nghìn người dùng khách hàng khắp giới Đầu tiên (1996) Google cơng trình nghiên cứu Larry Page Sergey Brin, hai nghiên cứu sinh trường Đại học Stanford Họ có giả thuyết cho cơng cụ tìm kiếm dựa vào phân tích liên hệ website đem lại kết tốt cách hành lúc (1996) Đầu tiên gọi BackRub (Gãi lưng) hệ thống dùng liên kết đến để ước tính tầm quan trọng trang Page Brin tin trang có nhiều liên kết đến từ trang thích hợp khác trang thích hợp Họ định thử nghiệm giả thuyết nghiên cứu họ, tạo móng cho cơng cụ Google đại (http://www.google.com) Tên miền www.google.com đăng ký ngày 15 tháng năm 1997 Họ thức thành lập cơng ty Google, Inc ngày tháng năm 1998 ga nhà Esther Wojcicki (cũng nhân viên thứ 16 Google, Phó Chủ tịch cấp cao, phụ trách phận quảng cáo) Menlo Park, California Trong tháng năm 1999, trụ sở dọn đến Palo Alto, thành phố có nhiều trụ sở công ty công nghệ khác Sau đổi chỗ hai lần cơng ty q lớn, Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google trụ sở đặt Mountain View, California địa 1600 Amphitheater Parkway vào năm 2003 Cơng cụ tìm kiếm Google nhiều người ủng hộ sử dụng có cách trình bày gọn đơn giản đem lại kết thích hợp nâng cao Trong năm 2000, Google bắt đầu bán quảng cáo từ khóa để đem lại kết thích hợp cho người dùng Những quảng cáo dùng văn khơng dùng hình để giữ chất đơn giản trang tránh lộn xộn đồng thời để trang hiển thị nhanh Hình 1.1: Trụ sở Google Mountain View, California, USA Sự phát triển Google Khi thị trường ban đầu công ty thị trường web, Google bắt đầu thử nghiệm số thị trường khác, ví dụ Phát Xuất Ngày 171-2006, Google công bố công ty mua lại công ty quảng cáo phát dMarc, công ty sử dụng hệ thống tự động, cho phép công ty quảng cáo Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google radio Điều giúp Google kết hợp kênh quảng cáo truyền thông Internet Radio, với khả Google, nhắm thẳng vào tâm lý khách hàng Google bắt đầu thử nghiệm bán quảng cáo kênh quảng cáo offline cơng ty, báo tạp chí, với quảng cáo lựa chon Chicago-Sun Times Họ lấp chỗ trống không bán tờ báo mà trước thường dùng vào việc quảng cáo nhà Google đưa vào danh sách 500 S&P index ngày 30 tháng năm 2006, chiếm vị trí Burlington Resources, nhà sản xuất dầu Houston Google tiếng dịch vụ Tìm kiếm nó, nhân tố dẫn đến thành cơng Google Vào tháng 12 năm 2006, Google công cụ tìm kiếm sử dụng nhiều mạng chiếm 50,8% thị phần, vượt xa so với Yahoo (23,6 %) Window Live Search (8,4%) Google liên kết với hàng tỷ trang web, người sử dụng tìm kiếm thơng tin mà họ muốn thơng qua từ khóa tốn tử Google tận dụng cơng nghệ tìm kiếm vào nhiều dịch vụ tìm kiếm khác, bao gồm Image Search (tìm kiếm ảnh), Google News, trang web so sánh giá Froogle, cộng đồng tương tác Google Groups, Google Maps nhiều Năm 2004, Google mắt dịch vụ email web, gọi Gmail Gmail hỗ trợ công nghệ lọc thư rác khả sử dụng Công nghệ tìm kiếm Google để tìm kiếm thư Dịch vụ tạo thu nhập cách hiển thị quảng cáo từ dịch vụ AdWords mà phù hợp với nội dung email hiển thị hình Đầu năm 2006, Google mắt dịch vụ Google Video, dịch vụ khơng cho phép người dùng tìm kiếm xem miễn phí video có sẵn mà cịn cho người sử dụng hay nhà phát hành khả phát hành nội dung mà họ muốn, kể chương trình truyền hình CBS, NBA video ca nhạc Nhưng đến tháng năm 2007 , Google đóng cửa trang web trước cạnh tranh đối thủ Youtube thuộc sở hữu công ty Google phát triển số ứng dụng nhỏ gọn, bao gồm Google Earth, chương trình tương tác sử dụng ảnh vệ tinh Ngồi cơng ty cịn phát Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thơng qua hệ thống tìm kiếm Google triển nhiều gói phần mềm văn phịng ứng dụng web tên Google Docs nhằm cạnh tranh thị phần với Microsoft Office Nhiều ứng dụng khác có Google Labs, sưu tập phần mềm chưa hoàn chỉnh Chúng thử nghiệm để đưa sử dụng cộng đồng Google đẩy mạnh quảng bá sản phẩm họ nhiều cách khác Ở London, Google Space cài đặt sân bay Healthrow, mắt nhiều sản phẩm mới, bao gồm Gmail, Google Earth Picasa Ngoài ra, trang web tương tự mắt cho sinh viên Mỹ tên College Life, Powered by Google Vào ngày tháng năm 2008, Google thông báo xuất Google Chrome, trình duyệt mã nguồn mở Trình duyệt giới phân tích đánh giá đối thủ cạnh tranh thị phần Internet Explorer Firefox Ngày tháng năm 2010, Google cho mắt điện thoại Nexus One, sản phẩm cộng tác với hãng điện thoại HTC Nexus One chạy hệ điều hành Android 2.1 (cũng hãng phát triển), cho đối thủ cạnh tranh ngang hàng với iPhone Apple Một số liên kết tới trang web Google www.Google.com: trang chủ Google, gôm liên kết tới site khác Google www.Google.com/imghp: trang tìm kiếm hình ảnh Google – Google Image www.Google.com/videohp: trang tìm kiếm video Google – Google videos https://news.google.com/: trang tin tức Google – Google News https://mail.google.com/ :trình gửi nhận mail Google - Gmail https://maps.google.com/ : trình đồ Google – Google Map https://drive.google.com/ : Hệ thống lưu trữ file Google Drive 10 Nghiên cứu, tìm hiểu số kỹ thuật cơng khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google nhạy cảm Chúng ta bắt đầu việc xem xét vài biện pháp đơn giản mà thực để khóa máy chủ web từ bên Đây ngun tắc chung, chúng khơng có nghĩa giải pháp hoàn chỉnh mà để nhấn mạnh số khu vực quan trọng thường gặp việc phòng thủ Chúng ta không tập trung vào loại hình máy chủ cụ thể xem xét ý kiến cho nên phổ biến đến máy chủ web Chúng ta không nghiên cứu cách cụ thể để bảo vệ ứng dụng web mà khai thác nhiều phương thức thường gặp chứng minh đặc biệt hiệu để chống lại trình thu thập web 2.3.3.1 Vơ hiệu hóa liệt kê thư mục (directory listing) Hình 2.27: Directory listing tiết lộ vị trí tập tin htaccess Hình 2.27 thể ví dụ directory listing tiết lộ vị trí tập tin htaccess Bình thường, tập tin dùng để bảo vệ nội dung thư mục khỏi bị xem trái phép Tuy nhiên, máy chủ cấu hình sai tập tin cho phép xem danh sách thư mục, chí đọc Directory listing nên bị vơ hiệu hóa trừ ta muốn cho người dùng bình thường đọc tập tin chế độ ftp Trên vài máy chủ danh sách thư mục xuất file index bị thiếu File giống index.html, index.htm hay 56 Nghiên cứu, tìm hiểu số kỹ thuật cơng khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google default.asp nên xuất thư mục nên trình bày trang tới người dùng Trên máy chủ web Apache, ta vơ hiệu hóa directory listing cách đặt dấu gạch ngang dấu trừ trước từ Indexes file httpd.conf Nó giống directory listing (hoặc "indexes") bị vơ hiệu hóa: Options -Indexes FollowSymLinks MultiViews 2.3.2.2 Xây dựng file robots.txt File robots.txt file dạng văn bản, cung cấp danh sách lệnh cho trình thu thập web tự động, gọi robots hay bots Được tiêu chuẩn hóa địa www.robotstxt.org/wc/norobots.html, tập tin thư mục đặt giới hạn cho robots web File robots.txt phải đặt thư mục gốc máy chủ web với quyền cho phép máy chủ web đọc tập tin Dòng file có dấu # xem thích bỏ qua Mỗi dịng không bắt đầu dấu # mà bắt đầu User-agent hay lệnh disallow, theo sau dấu chấm tùy chọn Những dòng viết để khơng cho phép trình thu thập truy cập vào thư mục tập tin định Mỗi trình thu thập web nên gửi trường user-agent, liệt kê tên hay kiểu trình thu thập Giá trị trường user-agent Google Googlebot Muốn bots Google nên sử dụng hướng dẫn để tìm kiếm web ta user-agent nên để sau: User-agent: Googlebot Để áp dụng cho tất bots hệ thống tìm kiếm dùng User-agent: * Để ngăn chặn Googlebot thu thập tất tài liệu PDF ta, dụng lệnh sau file robots.txt Disallow: /*.PDF$ 57 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google Ký tự $ cho biết kết thúc tên Hoặc ta không muốn Googlebot “dịm ngó” đến file thư mục ta cần thay dòng disallow với tên file thư mục mà ta khơng muốn “dịm ngó”, ví dụ ta khơng muốn “lục lọi” thư mục admin cgi-bin: User-agent: Googlebot Disallow: /admin/ Disallow: /cgi-bin/ Khi ta cài đặt file robots.txt, ta kiểm tra tính hợp lệ cách truy cập vào www.sxw.org.uk/computing/robots/check.html Tuy file robots.txt có nhiều ưu điểm lại có nhược điểm lớn kẻ cơng xem file robots.txt website để biết file thư mục ánh xạ máy chủ Dưới ví dụ Hình 2.28: Cú pháp tìm kiếm tập tin robots.txt 58 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thơng qua hệ thống tìm kiếm Google Hình 2.29: Nội dung tập tin roots.txt NOARCHIVE: File robots.txt giúp ngăn chặn việc tìm kiếm Google website ta Tuy nhiên, trường hợp ta muốn Google thu thập trang ta lại không muốn Google chép website lên cache lưu trư liên kết đến cache kết tìm kiếm Có thể thực điều với thẻ META Để chặn tất trình thu thập lưu trữ tài liệu lên cache, đặt thẻ META sau phần HEAD tài liệu: Nếu ta muốn có Google sử dụng thẻ META phần HEAD tài liệu: Bất kỳ trình thu thập phối giải theo cách cách chèn tên META NAME Có thể hiểu rằng, quy định đề cập đến trình thu thập cịn khác truy cập kẻ cơng truy cập trang 59 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google NOSNIPPET: Snippet nội dung liệt kê bên tiêu đề tài liệu liên trang kết Google Có in đậm từ khóa có mặt từ khóa tìm kiếm người dùng truy vấn, snippet tiện lợi ta có hàng đống kết Tuy nhiên, vài trường hợp, snippet cần loại bỏ Xem xét trường hợp thuê bao - dựa vào dịch vụ tin tức Mặc dù website muốn có loại trình bày mà Google cung cấp, cần bảo vệ nội dung (bao gồm nội snippets) từ khách hàng khơng trả phí Trang web thực mục tiêu cách kết hợp thẻ META NOSNIPPET với lọc IP cho phép trình thu thập Google duyệt nội dung Để Google hiển thị snippets, sử dụng đoạn mã sau: Một chức thú vị thẻ NOSNIPPet Google không lưu tài liệu vào cache NOSNIPPET loại bỏ snippet trang cache 2.3.2.3 Cơ chế bảo vệ mật Google không đưa vào hình thức xác thực người dùng Khi gặp form password thông thường, Google dường bỏ qua giữ lại URL trang sở liệu Nếu Google thu thập trang bảo vệ mật trước trang bảo vệ việc bảo vệ mật không hoạt động, Google lưu lại hình ảnh trang bảo vệ Nhấn vào trang gốc hiển thị hộp thoại mật khẩu, trang lưu trữ không cung cấp ảnh mà Google bỏ qua bảo mật trang Trong trường hợp khác, trang tìm kiếm thơng tin Google cung cấp đoạn câu chuyện tin từ trang web đăng ký Nhưng nhấn vào liên kết đến câu chuyện hình lại hộp thoại đăng nhập gồm membername password Bằng cách Google bỏ qua hộp thoại mật hình đăng ký Nếu ta khơng muốn để liệu cách cơng khai (trình thu thập google), ta áp dụng chế xác thực mật Một chế xác thực mật htaccess dành cho Apache File htaccess kết hợp với file htpassword cho phép ta 60 Nghiên cứu, tìm hiểu số kỹ thuật cơng khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google xác định danh sách kết hợp tên người dùng, mật truy cập vào thư mục cụ thể Ta tìm thấy hướng dẫn htaccess dành cho Apache http://httpd.apache.org/docs/howto/htac-cess.html thử tìm kiếm Google sử dụng htaccess nào? 2.3.4 Trợ giúp từ Google Cho đến xem xét nhiều cách khác để kiểm tra khả rị rỉ thơng tin website ta làm phát rị rỉ đó? Đầu tiên quan trọng ta nên loại bỏ nội dung vi phạm website Ta nên tìm nguồn gốc rỏ rỉ, thực điều rắc rối ta nên làm để đảm bảo lỗi tương tự khơng xảy tương lai Rị rỉ thông tin kết số việc xảy Tìm vấn đề, giải ta bắt đầu để ngăn chặn nguồn gốc vấn đề Google tạo trang web tốt giúp trả lời số câu hỏi thường gặp từ góc độ người quản trị web Trang "Google Information for Webmasters" địa www.google.com/webmasters liệt kê tất câu trả lời cho câu hỏi thường gặp Giải vấn đề cục phần Trong số trường hợp, Google có lưu trữ thông tin nhạy cảm ta kẻ công lợi dụng điều để thực điều họ mong muốn 61 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thơng tin bậc cao thơng qua hệ thống tìm kiếm Google Hình 2.30: Trang web Google dành cho quản trị viên web Tiếp theo, sử dụng hệ thống tự động loại bỏ URL trang www.google.com/webmasters/tools/removals Hình 2.31: Trang web để loại bỏ URL 62 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google Như hình yêu cầu xác minh trang web cách nhập từ không cịn có trang có phiên lưu Tuy nhiên tất yêu cầu thành công Công cụ loại bỏ URL hướng dẫn ta thông qua loạt câu hỏi để xác minh quyền sở hữu, xác định mà ta cố gắng để loại bỏ Mỗi tùy chọn dể hiểu, nhiên ta có quyền loại bỏ nội dung tùy ý Phải nội dung ta muốn loại bỏ từ site ta, theo dõi trình loại bỏ URL kiểm tra thủ công CHƯƠNG III: ÁP DỤNG MỘT SỐ KỸ THUẬT TẤN CÔNG VÀ KHAI THÁC THÔNG TIN BẬC CAO QUA HỆ THỐNG TÌM KIẾM GOOGLE 3.1 Mục đích Áp dụng cú pháp nâng cao để khai thác thơng tin nhạy cảm tìm kiếm số trang web bị lỗi SQL injection 3.2.Mơ hình triển khai Khi Attacker nhập cú pháp truy vấn vào trang web Google – Google Web Server, trình sau thực hiện: Quá trình 1: Máy chủ web gửi truy vấn đến Index servers Các nội dung bên Index servers tương tự số mặt sau sách, cho trang chứa từ phù hợp với truy vấn cụ thể Quá trình 2: Truy vấn đến Doc servers, nơi mà tài liệu thực lưu trữ Đoạn tạo để mô tả kết tìm kiếm Quá trình 3: Kết tìm kiếm trả cho Attacker thời gian nhỏ 63 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thơng qua hệ thống tìm kiếm Google Hình 3.1: Mơ hình mơ tả q trình tìm kiếm Google 3.3.Các bước thực 3.3.1 Áp dụng cú pháp bậc cao để tìm trang web bị lỗi SQL injection Trong trường hợp này, dùng cú pháp sau: site:vn inurl:product.php?id= Mục đích cú pháp tìm trang web có tên miền dạng bị lỗi SQL injection, không hẳn tất trang tìm cú pháp bị lỗi, ta tìm tìm trang web có chứa ?id= tham số mà trình duyệt truy vấn đến sở liệu để tải liệu lên, điều dẫn đến bị lỗi trang web khơng kiểm sốt chặt chẽ ký tự nhập vào Như ta thấy hình 3.1 trang mà ta tìm cú pháp 64 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google Hình 3.2: Các trang web bị lỗi SQL injection Ta chọn liên kết http://nhuaphucthinh.com.vn/product.php?id=20 kiểm tra xem trang web có bị lỗi SQL injection cú pháp ta tìm kiếm hay khơng? Sau kiểm tra thấy trang web bị lỗi SQL injection ta thấy hình 3.2 Hình 3.3: Trang web bị lỗi SQL injection 65 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thơng qua hệ thống tìm kiếm Google Trong hình 3.3 ta lấy thơng tin tên user nhuaphucth_inh@localhost, tên database nhuaphucth_inh, phiên SQL server 5.1.68 Hình 3.4: Một số thơng tin trang web bị lỗi SQL injection 3.3.2 Áp dụng cú pháp bậc cao để khai thác thông tin nhạy cảm Ta sử dụng cú pháp filetype:sql insite:pass để khai thác thơng tin Như hình … trang web tìm dựa cú pháp vừa nhập Mục đích cú pháp tìm trang web mà nội dung có chứa từ “pass” tập tin có phần mở rộng sql 66 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google Hình 3.5: Một số trang web có chứa thơng tin nhạy cảm Sau click vào liên kết http://www.igsvn.ac.vn/files/data/backup.sql ta kết hình 3.5 Hình 3.6: Nội dung tập tin backup.sql 67 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google Như ta thấy hình 3.5 nội dung tập tin lưu lệnh SQL, nội dung tập tin thêm user vào bảng admin với số thông tin quan trọng tên user, email mật dạng MD5 3.4.Kết Sau kết hợp cú pháp tìm kiếm nâng cao Google ta tìm trang web http://nhuaphucthinh.com.vn bị lỗi SQL injection lỗi bị khai thác để lấy sở liệu phục vụ cho mục đích Ở cú pháp thứ hai ta tìm tập tin backup.sql trang web http://www.igsvn.ac.vn lưu lệnh cập nhật thông tin user vào sở liệu gồm nhiều thông tin quan trọng tên tài khoản, mật email 3.5.Đánh giá kết Từ kết thu sau kết hợp cú pháp tìm kiếm nâng cao Google, ta thấy kết hợp cú pháp tìm kiếm Google với tìm thấy nhiều thơng tin bí mật quan trọng nhiều thơng tin có lợi với kẻ có mục đích xấu 68 Nghiên cứu, tìm hiểu số kỹ thuật cơng khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google KẾT LUẬN Trong trình tìm hiểu hệ thống tìm kiếm Google, tìm hiểu câu lệnh hệ thống để áp dụng vào tìm kiếm thơng tin bậc cao từ chúng em khai thác lỗ hổng trang web doanh nghiệp tìm kiếm số thơng tin nhạy cảm Tuy nhiên, kiến thức cịn hạn chế nên chúng em khơng thể tránh khỏi thiếu sót, nhóm chúng em mong nhận góp ý chân thành thầy cô bạn để đề tài hồn thiện Nhóm sinh viên nghiên cứu xin chân thành cảm ơn đến Ban Cơ Yếu tạo điều kiện cho chúng em đến với đề tài Chúng em cảm ơn thầy cô Học Viện Kỹ Thuật Mật Mã trang bị kiến thức giúp chúng em thực đề tài, cuối chúng em xin cảm ơn thầy Phạm Minh Thuấn tận tình hướng dẫn , giúp đỡ nhóm suốt thời gian nghiên cứu đề tài khoa học Trong trình làm đề tài nghiên cứu, xin gửi lời cảm ơn đến gia đình, bạn bè người bên cạnh động viên, giúp đỡ tạo điều kiện để đề tài nghiên cứu hoàn thiện Hà Nội, tháng 11 năm 2013 Nhóm sinh viên thực hiện: Nguyễn Thị Thưởng Nguyễn Tuấn Anh Vũ Nhật Tiến Vũ Hoàng Đạt 69 Nghiên cứu, tìm hiểu số kỹ thuật cơng khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google TÀI LIỆU THAM KHẢO A Tài liệu Tiếng Anh [1] Johnny Long (2007), “Google Hacking for Penetration Testers”, Volume [2] Netskill, University of Newcastle(2005), “Advanced Google Search”, Version [3] Nancy Blachman, “Google Guide – Making Searching Even Easier” B Tài liệu Internet [4] http://khanguyen.net/?p=126 [5] http://ceh.vn/@4rum/showthread.php?tid=141 [6] http://mangvn.org/news/Web-Internet/Google-Hacks-toan-tap-111/ [7] CEH version 6, Module Google Hacking 70 ... lệ số thuật ngữ tìm kiếm nâng cao Giao diện 14 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google khác để nâng cao việc đưa nhiều hình ảnh vào... Advanced Search” để tìm kiếm 19 Nghiên cứu, tìm hiểu số kỹ thuật công khai thác thông tin bậc cao thơng qua hệ thống tìm kiếm Google Hình 1.8: Trang tìm kiếm nâng cao (1) Nếu tìm kiếm ta khơng đưa... với thuật ngữ tìm kiếm 43 Nghiên cứu, tìm hiểu số kỹ thuật cơng khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google 2.1.16 Group: Tìm kiếm nhóm tiêu đề Cú pháp cho phép ta tìm kiếm