Khai thác dữ liệu trên Web và xây dựng ứng dụng hỗ trợ nhập liệu Nguyễn Bình Minh Viện Công nghệ Thông tin.. Tìm hiểu về các kỹ thuật khai thác dữ liệu tự động từ các website.. Tìm hiể
Trang 1Khai thác dữ liệu trên Web và xây dựng ứng
dụng hỗ trợ nhập liệu Nguyễn Bình Minh
Viện Công nghệ Thông tin Đại học Quốc gia Hà Nội
Luận văn ThS Công nghệ thông tin Người hướng dẫn : TS Nguyễn Văn Đoàn
Năm bảo vệ: 2014
56 tr
Abstract Tìm hiểu về các kiến thức nền tảng Tìm hiểu về các kỹ thuật khai thác dữ
liệu tự động từ các website Nghiên cứu phương pháp khai thác lượng dữ liệu trên website Tìm hiểu về các công nghệ liên quan và xây dựng ứng dụng khai thác dữ liệu trên một website cụ thể Xây dựng một ứng dụng thu thập dữ liệu tự động từ các website, phục vụ cho các nhu cầu của cá nhân hay tổ chức
Keywords.Quản lý hệ thống thông tin; Hệ thống thông tin; Khai thác dữ liệu; Website
Content
Trong thập kỷ qua, chúng ta đã được chứng kiến sự phát triển đến chóng mặt của Internet mà tiêu biểu là các trang thông tin Internet đã và đang được coi là một nguồn cung cấp tin khổng lồ với mọi chuyên mục, mọi vấn đề mà người sử dụng cần đến Với
sự phát triển này, lượng thông tin từ Internet mang đến cho người sử dụng là quá lớn dẫn tới việc chúng ta cần phải có các ứng dụng Internet thông minh và hiệu quả hơn đối với người sử dụng Tuy nhiên nếu lượng thông tin mà họ cần khai thác là quá nhiều thì quá trình duyệt web, trích xuất và lưu trữ theo cách thủ công lại trở thành một công việc khó khăn, hao tốn nhiều sức lực, thời gian của con người Một số ví dụ có thể kể
ra như: nhu cầu trích xuất thông tin về tất cả các mặt hàng thuộc một chuyên mục của một website bán hàng nào đó nhằm phục vụ mục đích khảo sát thị trường, nhu cầu tổng hợp tin tức từ các website tin tức để xây dựng các trang web thông tin tổng hợp, nhu cầu thu thập thông tin về các doanh nghiệp thuộc một ngành nào đó trên website danh bạ doanh nghiệp để gửi email quảng cáo, tiếp thị, v.v… Chính những ví dụ thực
tế như trên đã nảy sinh ra nhu cầu: cần phải có một phương thức hoặc công cụ nào đó
có khả năng tìm kiếm, trích xuất thông tin trên web và lưu trữ lại thông tin đó theo ý muốn của con người, một cách tự động và hiệu quả, và đó cũng chính là mục tiêu được
Trang 2đặt ra cho đề tài này Đó là: Tìm hiểu phương pháp khai thác lượng dữ liệu trên, từ đó xây dựng được một ứng dụng thu thập dữ liệu tự động từ các website, phục vụ cho các nhu cầu của cá nhân hay tổ chức
Các nhiệm vụ:
Tìm hiểu về các kiến thức nền tảng
Tìm hiểu về các kỹ thuật khai thác dữ liệu tự động từ các website
Tìm hiểu về các công nghệ liên quan và xây dựng ứng dụng khai thác dữ liệu trên một website cụ thể
Bố cục của luận văn:
Mở đầu: Đặt vấn đề về ý nghĩa , tính cấp thiết, nhiệm vụ và tính thực tiễn của đề
tài
Chương 1: Tổng quan về khai thác dữ liệu trên Web
Trong chương này, chúng ta sẽ tìm hiểu các khái niệm cơ bản về trình thu thập web (web crawler), các chiến lược thu thập dữ liệu, trình bóc tách và trích xuất thông tin (web scraper), sự phân loại các trang web, từ đó vẽ ra bức tranh chung về khai thác
dữ liệu trên web để hiểu hơn về các giá trị thực tiễn mà nó mang lại trong đời sống con người
Chương 2: Phân tích, thiết kế ứng dụng
Phần đầu chương sẽ trình bày về các kiến thức nền tảng và các công nghệ liên quan, ở phần tiếp theo nêu phát biểu cho bài toán khai thác dữ liệu trên web cũng như giải pháp thực hiện, kiến trúc thành phần của ứng dụng
Chương 3: Hiện thực ứng dụng và đánh giá kết quả thu được
Đặc tả thông tin đầu vào cho ứng dụng, lược đồ cơ sở dữ liệu tương ứng và chức năng của các module trong chương trình Phần tiếp theo trình bày ví dụ cụ thể và kết quả thu được khi thực hiện ứng dụng
Kết luận: Phần cuối của luận văn sẽ nhìn lại những điều đã làm được, nêu lên
những hạn chế, từ đó đề ra hướng phát triển sau này
TÀI LIỆU THAM KHẢO
Tiếng Việt
Trang 3[1] Đinh Mạnh Tường (2000) Cấu trúc dữ liệu và thuật toán Nhà xuất bản khoa
học và kỹ thuật
Tiếng Anh
[2] Michael Schrenk (2007) Webbots, Spiders, and Screen Scrapers No Starch,
San Francisco, USA
[3] Sriram Raghavan, Hector Garcia-Molina (2001) Crawling the Hidden Web
Computer Science Department, Stanford University, USA
[4] Steve Lawrence, C Lee Giles (1998) Searching the World Wide Web
Science, 280(5360):98
[5] Michael K Bergman (2001) White Paper: The Deep Web: Surfacing Hidden
Value University of Michigan, USA
[6] Stephen Soderland Learning to Extract Text-based Information from the
World Wide Web Department of Computer Science & Engineering, University
of Washington