ĐATN đề tài nghiên cứu trích rút nội dung trang web và xây dựng website tổng hợp thông tin (Có link source code))

54 61 2
ĐATN đề tài nghiên cứu trích rút nội dung trang web và xây dựng website tổng hợp thông tin (Có link source code))

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tài liệu có đầy đủ Bản word, powerpoint và source code của đề tài đồ án tốt nghiệp. Đề tài Nghiên cứu việc trích rút nội dung trang web và ứng dụng để xây dựng website tổng hợp thông tinLƯU Ý : Do kích thước source code lớn không tải lên được, bạn vui lòng GỬI TIN NHẮN để mình GỬI LINK DRIVER download source code. Thanks

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG KHOA CÔNG NGHỆ THÔNG TIN PHẠM THỊ LIÊN NGHIÊN CỨU TRÍCH RÚT DỮ LIỆU TRANG WEB VÀ XÂY DỰNG WEBSITE TỔNG HỢP THÔNG TIN ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH KHOA HỌC MÁY TÍNH THÁI NGUYÊN, NĂM 2020 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH KHOA HỌC MÁY TÍNH Đề tài: NGHIÊN CỨU TRÍCH RÚT DỮ LIỆU TRANG WEB VÀ XÂY DỰNG WEBSITE TỔNG HỢP THÔNG TIN Sinh viên thực hiện: PHẠM THỊ LIÊN Lớp: KHMT K14A Hệ quy Giảng viên hướng dẫn: TS ĐÀM THANH PHƯƠNG THÁI NGUYÊN, NĂM 2020 LỜI CẢM ƠN Sau khoảng thời gian học tập rèn luyện trường Đại Học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên, bảo tận tình thầy phịng khoa chun mơn, chúng em gần hết khố học, giai đoạn hoàn thành luận văn tốt nghiệp sửa trở thành người kỹ sư cơng nghệ thơng tin góp sức xây dựng cho phát triển xã hội, đất nước Để ngày hôm chúng em vô biết ơn tất thầy cô Khoa Công nghệ thông tin thầy cô môn Khoa học máy tính tận tình giảng dạy, hướng dẫn, truyền đạt kiến thức, kinh nghiệm quý báu cho chúng em khoảng thời gian học tập, rèn luyện trường Thầy TS Đàm Thanh Phương, người tận tình hướng dẫn, định hướng, giúp đỡ dạy chúng em nhiều suốt trình thực luận văn tốt nghiệp Các anh chị em sinh viên khoá chúng em học tập chia sẻ kiến thức tiếp thu trình theo học trường Đồng thời chúng em xin gửi lời cảm ơn đến cha mẹ, anh chị, bạn bè người đứng bên cạnh chúng em để động viên, an ủi, ủng hộ vật chất lẫn tinh thần suốt khoảng thời gian qua Với lòng biết ơn chân thành, chúng em xin gởi lời chúc sức khoẻ tốt đẹp đến thầy khoa, nhà trường, bậc cha mẹ, anh chị đáng kính tồn thể bạn bè học trường Đại học Công nghệ thông tin Truyền thông Thái Nguyên Phạm Thị Liên TĨM TẮT LUẬN VĂN Với bùng nổ cơng nghệ thông tin năm gần đây, đặc biệt phát triển mạnh mẽ vũ bão trí tuệ nhận tạo machine learning, sống người ngày trở nên phong phú đa dạng Kho tàng tri thức Internet làm thay đổi đáng kể nhiều lĩnh vực, từ học tập, nghiên cứu kinh doanh thương mại Tuy nhiên người không dừng lại, họ có khát khao tìm tịi phát triển, đặc biệt máy tính Chiếc máy tính cá nhân đời để trợ giúp cho người, họ ln tìm cách làm cho hỗ trợ cho người nhiều nữa, chí làm thay cho người Trong thực tế nay, lượng thông tin Internet ngày khổng lồ, điều khiến việc sử dụng World Wide Web để khai thác thông tin hữu ích, phục vụ cho mục đích cá nhân có khó khăn định Nhất mục đích địi hỏi phải có thu thập thông tin với khối lượng lớn Web, chẳng hạn người muốn tổng hợp thông tin báo có chủ đề (cùng tác giả…) từ nhiều website thông tin khác Những công việc thực thủ cơng sức người nhiều thời gian, công sức, chúng tẻ nhạt tính chất phải lặp lặp vài thao tác việc thu thập liệu Đề tài Luận Văn Tốt Nghiệp cố gắng giải vấn đề nêu trên, cách thu thập liệu từ trang web tinhte.vn sau xây dựng website tổng hợp thông tin thu thập từ trang báo phân loại chúng thành danh mục Website giúp bạn đọc có nhìn tổng qt chủ đề mà khơng cần phải tìm kiếm vất vả MỤC LỤC DANH MỤC HÌNH CHƯƠNG I CƠ SỞ LÝ THUYẾT 1.1 Tìm hiểu phân tích sơ 1.1.1 World Wide Web 1.1.1.1 Khái niệm Hình 1-1: Word Wide Web World Wide Web (www hay gọi tắt Web) ứng dụng phổ biến phát triển mạnh mẽ Internet World Wide Web mạng lưới bao gồm tài liệu siêu văn (hypertext) đặt máy tính nằm mạng Internet Các siêu văn có khả liên kết lẫn thơng qua siêu liên kết (hyperlink) Sử dụng trình duyệt web (web browser), người xem trang web (website, siêu văn bản) hình máy vi tính, nội dung trang web có chữ, hình ảnh, video, chí tương tác với người sử dụng thông qua thiết bị bàn phím, chuột Cũng nhờ hyperlink mà trang web liên kết với thông qua cú click chuột, khả đem lại mở rộng vô lớn cho world wide web Nội dung trang web chủ yếu viết ngôn ngữ HTML XHTML Khi muốn truy cập trang web, trình duyệt web gửi yêu cầu đến máy chủ (web server) chứa trang web Máy chủ hồi đáp nội dung trang web yêu cầu trường hợp trang web thật tồn máy chủ cho phép truy cập Cả hai trình yêu cầu hồi đáp thực dựa giao thức HTTP (Hyper Text Transfer Protocol) Nội dung trang web văn tĩnh (static web page – trang web tĩnh) sinh web server ứng với lượt yêu cầu, yêu cầu khác đến trang web nhận nội dung khác (dynamic web page – trang web động) 1.1.1.2 Phân loại World Wide Web phân loại thành hai loại: trang web tĩnh trang web động Sriram Hector [1] đưa định nghĩa sau trang web động: “Một trang P gọi động phần tất nội dung sinh thời điểm chạy (tức sau yêu cầu máy khách máy chủ nhận) chương trình thực thi nằm máy chủ máy khách Điều ngược lại với trang tĩnh P1, mà toàn nội dung P1 tồn sẵn máy chủ sẵn sàng gửi cho máy khách sau yêu cầu nhận.” Nhiều nghiên cứu cho thấy phần lớn nội dung Web nội dung động Một trang web động có hai kiểu: động nội dung (dynamic content) động hình thức thể (dynamic appearance) Những trang web động hình thức thể chứa nội dung tĩnh, có chứa đoạn mã chạy máy khách, đoạn mã làm thay đổi thể trang web (màu sắc, kích cỡ …) a) Phân loại dựa vào thể tính động Theo thời gian (temporal dynamism): trang web mà nội dung chúng thay đổi, cập nhật theo thời gian Điều đồng nghĩa với việc: yêu cầu đến trang web, gửi hai thời điểm khác nhận hai nội dung khác Theo máy khách (client-based dynamism): trang web có khả tùy biến theo người sử dụng (client) xếp vào mục Ví dụ trang tin tức tổng hợp có khả chọn lọc tin tức khác nhau, tùy thuộc vào sở thích người sử dụng đăng nhập Những trang kiểu thường trực tiếp truy xuất vào mà phải vượt qua bước xác thực danh tính (authentication) Theo truy vấn (input dynamism): trang có nội dung phụ thuộc vào truy vấn người sử dụng Một ví dụ điển hình trang có mẫu nhập liệu (form), chẳng hạn trường nhập liệu để tìm kiếm nhiều hàng sở liệu trang web Những trang kiểu không luôn truy xuất trực tiếp (tùy thuộc vào phương thức truyền tham số GET POST, trang kết nhận thường có số lượng lớn (tùy thuộc số tổ hợp tham số truy vấn) Đây thường trang web crawl hoàn toàn crawler, gọi Web ẩn (hidden Web, deep Web, invisible Web) b) Phân loại dựa vào cách thức tạo tính động Thực thi chương trình nằm máy chủ (server-side programs): Trong kỹ thuật này, chương trình thực thi máy chủ sinh toàn nội dung HTML trang web, sau gửi đến máy khách yêu cầu Ví dụ tiêu biểu cho loại CGI Java Servlet Những chương trình phía máy chủ thường dùng để xử lý truy vấn từ người sử dụng Nhúng mã với thực thi phía máy chủ (embedded code with server-side execution): trang web động chứa nội dung HTML tĩnh với đoạn mã nhúng vào với HTML Khi yêu cầu nhận, đoạn mã nhúng thực thi máy chủ sinh đoạn code HTML thay cho chúng Kỹ thuật khác kỹ thuật chỗ khơng phải tồn mà phần nội dung HTML sinh động Các mã nhúng PHP, Java Scriplet, ASP mã server-side khác Nhúng mã với thực thi phía máy khách (có thể có thực thi phía máy chủ) (embedded code with client-side execution): Với kỹ thuật đoạn mã nhúng khơng chạy server mà chúng máy khách tải thực thi máy khách Nếu mã chạy máy khách JavaScript, Java Applet Flash Nếu vừa có thực thi máy khách máy chủ Ajax, trường hợp mã clien-side trao đổi thông tin với server thông qua đối tượng đặc biệt XMLHttpRequest để thay đổi nội dung trang web cách động mà không cần load trang web 1.1.2 Thu thập liệu  Khái niệm Thu thập nguyên nghĩa tìm kiếm, góp nhặt tập hợp lại Thu thập liệu q trình tập hợp nhiều thơng tin theo tiêu chí cụ thể nhằm làm rõ vấn đề, nội dung liên quan đến lĩnh vực định Thu thập liệu trình xác định nhu cầu thơng tin, tìm nguồn thơng tin, thực tập hợp thông tin theo yêu cầu nhằm đáp ứng mục tiêu định trước  Đặc điểm Thu thập liệu hoạt động có tính mục đích Q trình thu thập liệu phải giải đáp cụ thể câu hỏi: Dữ liệu thu thập để làm gì, phục vụ cho cơng việc gì, liên quan đến khía cạnh vấn đề? Thu thập liệu có tính đa dạng phương pháp, cách thức Tùy theo u cầu thơng tin, nguồn lực mà áp dụng phương pháp, cách thức thu thập thơng tin cho phù hợp Thu thập liệu tìm kiếm từ nguồn, kênh thơng tin khác Mỗi kênh thơng tin có ưu điểm nhược điểm riêng, phù hợp với loại thông tin cần thu thập Việc lựa chọn nguồn thơng tin thích hợp bảo đảm hiệu trình thu thập chất lượng thông tin Thu thập liệu q trình liên tục, nhằm bổ sung, hồn chỉnh thơng tin cần thiết Q trình thu thập chịu tác động nhiều nhân tố kỹ thu thập thông tin, kỹ sử dụng phương pháp, cách thức thu thập thông tin 1.1.3 Web crawler Một web crawler chương trình máy tính “duyệt web” cách tự động theo phương thức xác định trước Vì chương 10 tử HTML cần có thẻ mở thẻ đóng, nhiên điều khơng ln đúng, có nhiều phần tử khơng cần thẻ đóng, ví dụ thẻ ,
  • Ngoài lồng nhau, phần tử HTML không cần thiết phải lồng theo thứ tự (tức thẻ mở trước phải đóng sau) Vì trước lập mơ hình cho mã nguồn HTML cần trình chuyển đổi tài liệu HTML chưa chuẩn thành tài liệu HTML chuẩn, trình chuẩn hóa trang HTML Q trình bao gồm việc chuyển đổi thẻ sang dạng chữ thường, chèn thêm thẻ bị thiếu xếp lại thứ tự thẻ tài liệu HTML Chuẩn hóa trang HTML cần thiết để việc lập mô hình xác Nếu trình thu thập chi cần lấy liên kết văn phần văn ta khơng cần sử dụng tới mơ hình mà cần sử dụng kỹ thuật bóc tách HTML đơn giản Trình bóc tách hỗ trợ nhiều ngôn ngữ lập trình 2.3 Các chiến lược thu thập liệu Phần thảo luận số chiến lược thu thập liệu bao gồm: - Chiến lược thu thập liệu theo chiều sâu - Chiến lược thu thập liệu theo chiều rộng - Chiến lược thu thập liệu theo ngẫu nhiên - Chiến lược thu thập liệu theo lựa chọn tốt ngây thơ Như nói phần trước chất, q trình thu thập web q trình duyệt đệ quy đồ thị Các web xem đồ thị với trang đỉnh (node) siêu liên kết cạnh Chính chiến thuật thu thập liệu xây dựng dựa thuật tốn tìm kiếm đồ thị Các thuật tốn tìm kiếm đồ thị bao gồm: - Tìm kiếm theo chiều sâu (Depth - First Search): Là thuật tốn tìm kiếm cách mở rộng nút đồ thị theo chiều sâu - Tìm kiếm theo chiều rộng (Breath - First Search): Là thuật tốn tìm kiếm cách mở rộng nút đồ thị theo chiều rộng 40 - Tìm kiếm theo lựa chọn tốt (Best - First Search): Là thuật tốn tìm kiếm tối ưu cách mở rộng nút hứa hẹn theo quy tắc 2.3.1 Chiến lược thu thập liệu theo chiều sâu Quá trình thực Bước 1: Lấy URL danh sách (frotier) để thu thập - Nếu có qua bước - Nước khơng có qua bước Bước 2: Lấy trang tương ứng với URL qua HTTP - Nếu có qua bước - Nếu khơng có quay lại bước Bước 3: Kiểm tra xem trang thăm chưa? - Nếu chưa qua bước - Nếu thăm quay lại bước Bước 4: Đánh dấu trang thăm Bóc tách trang tìm liên kết có trang - Nếu có, thêm liên kết vào danh sách frontier Quay lại bước - Nếu không, quay lại bước Bước 5: Kết thúc 2.3.2 Chiến lược thu thập liệu theo chiều rộng Quá trình thực hiện: Bước 1: Lấy URL danh sách để thu thập - Nếu có qua bước - Nếu khơng có qua bước Bước 2: Lấy trang tương ứng với URL qua HTTP - Nếu có qua bước - Nếu khơng có quay lại bước Bước 3: Kiểm tra xem trang thăm chưa? - Nếu chưa qua bước - Nếu quay lại bước 41 Bước 4: Đánh dấu trang thăm Bóc tách trang tìm kiếm liên kết có trang - Nếu có, thêm liên kết vào cuối danh sách Quay lại bước - Nếu không, quay lại bước Bước 5: Kết thúc 2.3.3 Chiến lược thu thập liệu theo ngẫu nhiên Quá trình thực hiện: Bước 1: Lấy URL ngẫu nhiên danh sách để thu thập - Nếu có qua bước - Nếu khơng có qua bước Bước 2: Lấy trang tương ứng với URL qua HTTP - Nếu có qua bước - Nếu khơng quay lại bước Bước 3: Kiểm tra xem trang thăm chưa? - Nếu chưa qua bước - Nếu quay lại bước Bước 4: Đánh dấu trang thăm Bóc tách trang tìm liên kết có trang - Nếu có, thêm liên kết vào cuối danh sách Quay lại bước - Nếu khơng có quay lại bước Bước 5: Kết thúc 2.3.4 Chiến lược thu thập liệu theo lựa chọn tốt ngây thơ Chiến lược thu thập liệu theo lựa chọn tốt ngây thơ sử dụng thuật tốn tìm kiếm theo lựa chọn tốt theo quy tắc tính điểm số cho URL Điểm số URL tính phương pháp độ tương đồng cosin trang web tương ứng truy vấn mà người dùng đưa Độ tương đồng cosin phương pháp tính giá trị tương đồng vecto n chiều cách tìm cosin góc chúng, phương pháp độ tương đồng cosin thường dùng để so sánh truy vấn với 42 trang văn Độ tương đồng cosin trang p truy vấn q tính cơng thức: Độ tương đồng (p,q) = cos() = Trong vecto đại diện tính dựa tần số phát sinh Tần số phát sinh hiểu số lần xuất từ truy vấn q trang p tích vơ hướng vecto; ||v|| giá trị độ dài Euclid vecto v Nếu độ tương đồng (p,q) = -1 tức khác tuyệt đối Nếu độ tương đồng (p,q) = tức độc lập với Nếu độ tương đồng (p,q) = tức xác tuyệt đối 0< độ tương đồng (p,q)
  • Ngày đăng: 04/03/2021, 22:21