Khai thác dữ liệu trên web và xây dựng ứng dụng hỗ trợ nhập liệu

Khai thác dữ liệu trên Web và xây dựng ứng dụng hỗ trợ nhập liệu Nguyễn Bình Minh Viện Công nghệ Thông tin.. Tìm hiểu về các kỹ thuật khai thác dữ liệu tự động từ các website.. Tìm hiể

Trang 1

Khai thác dữ liệu trên Web và xây dựng ứng

dụng hỗ trợ nhập liệu Nguyễn Bình Minh

Viện Công nghệ Thông tin Đại học Quốc gia Hà Nội

Luận văn ThS Công nghệ thông tin Người hướng dẫn : TS Nguyễn Văn Đoàn

Năm bảo vệ: 2014

56 tr

Abstract Tìm hiểu về các kiến thức nền tảng Tìm hiểu về các kỹ thuật khai thác dữ

liệu tự động từ các website Nghiên cứu phương pháp khai thác lượng dữ liệu trên website Tìm hiểu về các công nghệ liên quan và xây dựng ứng dụng khai thác dữ liệu trên một website cụ thể Xây dựng một ứng dụng thu thập dữ liệu tự động từ các website, phục vụ cho các nhu cầu của cá nhân hay tổ chức

Keywords.Quản lý hệ thống thông tin; Hệ thống thông tin; Khai thác dữ liệu; Website

Content

Trong thập kỷ qua, chúng ta đã được chứng kiến sự phát triển đến chóng mặt của Internet mà tiêu biểu là các trang thông tin Internet đã và đang được coi là một nguồn cung cấp tin khổng lồ với mọi chuyên mục, mọi vấn đề mà người sử dụng cần đến Với

sự phát triển này, lượng thông tin từ Internet mang đến cho người sử dụng là quá lớn dẫn tới việc chúng ta cần phải có các ứng dụng Internet thông minh và hiệu quả hơn đối với người sử dụng Tuy nhiên nếu lượng thông tin mà họ cần khai thác là quá nhiều thì quá trình duyệt web, trích xuất và lưu trữ theo cách thủ công lại trở thành một công việc khó khăn, hao tốn nhiều sức lực, thời gian của con người Một số ví dụ có thể kể

ra như: nhu cầu trích xuất thông tin về tất cả các mặt hàng thuộc một chuyên mục của một website bán hàng nào đó nhằm phục vụ mục đích khảo sát thị trường, nhu cầu tổng hợp tin tức từ các website tin tức để xây dựng các trang web thông tin tổng hợp, nhu cầu thu thập thông tin về các doanh nghiệp thuộc một ngành nào đó trên website danh bạ doanh nghiệp để gửi email quảng cáo, tiếp thị, v.v… Chính những ví dụ thực

tế như trên đã nảy sinh ra nhu cầu: cần phải có một phương thức hoặc công cụ nào đó

có khả năng tìm kiếm, trích xuất thông tin trên web và lưu trữ lại thông tin đó theo ý muốn của con người, một cách tự động và hiệu quả, và đó cũng chính là mục tiêu được

Trang 2

đặt ra cho đề tài này Đó là: Tìm hiểu phương pháp khai thác lượng dữ liệu trên, từ đó xây dựng được một ứng dụng thu thập dữ liệu tự động từ các website, phục vụ cho các nhu cầu của cá nhân hay tổ chức

Các nhiệm vụ:

 Tìm hiểu về các kiến thức nền tảng

 Tìm hiểu về các kỹ thuật khai thác dữ liệu tự động từ các website

 Tìm hiểu về các công nghệ liên quan và xây dựng ứng dụng khai thác dữ liệu trên một website cụ thể

Bố cục của luận văn:

Mở đầu: Đặt vấn đề về ý nghĩa , tính cấp thiết, nhiệm vụ và tính thực tiễn của đề

tài

Chương 1: Tổng quan về khai thác dữ liệu trên Web

Trong chương này, chúng ta sẽ tìm hiểu các khái niệm cơ bản về trình thu thập web (web crawler), các chiến lược thu thập dữ liệu, trình bóc tách và trích xuất thông tin (web scraper), sự phân loại các trang web, từ đó vẽ ra bức tranh chung về khai thác

dữ liệu trên web để hiểu hơn về các giá trị thực tiễn mà nó mang lại trong đời sống con người

Chương 2: Phân tích, thiết kế ứng dụng

Phần đầu chương sẽ trình bày về các kiến thức nền tảng và các công nghệ liên quan, ở phần tiếp theo nêu phát biểu cho bài toán khai thác dữ liệu trên web cũng như giải pháp thực hiện, kiến trúc thành phần của ứng dụng

Chương 3: Hiện thực ứng dụng và đánh giá kết quả thu được

Đặc tả thông tin đầu vào cho ứng dụng, lược đồ cơ sở dữ liệu tương ứng và chức năng của các module trong chương trình Phần tiếp theo trình bày ví dụ cụ thể và kết quả thu được khi thực hiện ứng dụng

Kết luận: Phần cuối của luận văn sẽ nhìn lại những điều đã làm được, nêu lên

những hạn chế, từ đó đề ra hướng phát triển sau này

TÀI LIỆU THAM KHẢO

Tiếng Việt

Trang 3

[1] Đinh Mạnh Tường (2000) Cấu trúc dữ liệu và thuật toán Nhà xuất bản khoa

học và kỹ thuật

Tiếng Anh

[2] Michael Schrenk (2007) Webbots, Spiders, and Screen Scrapers No Starch,

San Francisco, USA

[3] Sriram Raghavan, Hector Garcia-Molina (2001) Crawling the Hidden Web

Computer Science Department, Stanford University, USA

[4] Steve Lawrence, C Lee Giles (1998) Searching the World Wide Web

Science, 280(5360):98

[5] Michael K Bergman (2001) White Paper: The Deep Web: Surfacing Hidden

Value University of Michigan, USA

[6] Stephen Soderland Learning to Extract Text-based Information from the

World Wide Web Department of Computer Science & Engineering, University

of Washington

Định dạng
Số trang	3
Dung lượng	428,27 KB