Khai thác dữ liệu trên Web và xây dựng ứng dụng hỗ trợ nhập liệu Nguyễn Bình Minh Viện Công nghệ Thông tin. Đại học Quốc gia Hà Nội Luận văn ThS. Công nghệ thông tin Người hướng dẫn : TS. Nguyễn Văn Đoàn Năm bảo vệ: 2014 56 tr . Abstract. Tìm hiểu về các kiến thức nền tảng. Tìm hiểu về các kỹ thuật khai thác dữ liệu tự động từ các website. Nghiên cứu phương pháp khai thác lượng dữ liệu trên website. Tìm hiểu về các công nghệ liên quan và xây dựng ứng dụng khai thác dữ liệu trên một website cụ thể. Xây dựng một ứng dụng thu thập dữ liệu tự động từ các website, phục vụ cho các nhu cầu của cá nhân hay tổ chức. Keywords.Quản lý hệ thống thông tin; Hệ thống thông tin; Khai thác dữ liệu; Website Content. Trong thập kỷ qua, chúng ta đã được chứng kiến sự phát triển đến chóng mặt của Internet mà tiêu biểu là các trang thông tin. Internet đã và đang được coi là một nguồn cung cấp tin khổng lồ với mọi chuyên mục, mọi vấn đề mà người sử dụng cần đến. Với sự phát triển này, lượng thông tin từ Internet mang đến cho người sử dụng là quá lớn dẫn tới việc chúng ta cần phải có các ứng dụng Internet thông minh và hiệu quả hơn đối với người sử dụng. Tuy nhiên nếu lượng thông tin mà họ cần khai thác là quá nhiều thì quá trình duyệt web, trích xuất và lưu trữ theo cách thủ công lại trở thành một công việc khó khăn, hao tốn nhiều sức lực, thời gian của con người. Một số ví dụ có thể kể ra như: nhu cầu trích xuất thông tin về tất cả các mặt hàng thuộc một chuyên mục của một website bán hàng nào đó nhằm phục vụ mục đích khảo sát thị trường, nhu cầu tổng hợp tin tức từ các website tin tức để xây dựng các trang web thông tin tổng hợp, nhu cầu thu thập thông tin về các doanh nghiệp thuộc một ngành nào đó trên website danh bạ doanh nghiệp để gửi email quảng cáo, tiếp thị, v.v… Chính những ví dụ thực tế như trên đã nảy sinh ra nhu cầu: cần phải có một phương thức hoặc công cụ nào đó có khả năng tìm kiếm, trích xuất thông tin trên web và lưu trữ lại thông tin đó theo ý muốn của con người, một cách tự động và hiệu quả, và đó cũng chính là mục tiêu được đặt ra cho đề tài này. Đó là: Tìm hiểu phương pháp khai thác lượng dữ liệu trên, từ đó xây dựng được một ứng dụng thu thập dữ liệu tự động từ các website, phục vụ cho các nhu cầu của cá nhân hay tổ chức. Các nhiệm vụ: Tìm hiểu về các kiến thức nền tảng Tìm hiểu về các kỹ thuật khai thác dữ liệu tự động từ các website Tìm hiểu về các công nghệ liên quan và xây dựng ứng dụng khai thác dữ liệu trên một website cụ thể Bố cục của luận văn: Mở đầu: Đặt vấn đề về ý nghĩa , tính cấp thiết, nhiệm vụ và tính thực tiễn của đề tài. Chương 1: Tổng quan về khai thác dữ liệu trên Web Trong chương này, chúng ta sẽ tìm hiểu các khái niệm cơ bản về trình thu thập web (web crawler), các chiến lược thu thập dữ liệu, trình bóc tách và trích xuất thông tin (web scraper), sự phân loại các trang web, từ đó vẽ ra bức tranh chung về khai thác dữ liệu trên web để hiểu hơn về các giá trị thực tiễn mà nó mang lại trong đời sống con người. Chương 2: Phân tích, thiết kế ứng dụng Phần đầu chương sẽ trình bày về các kiến thức nền tảng và các công nghệ liên quan, ở phần tiếp theo nêu phát biểu cho bài toán khai thác dữ liệu trên web cũng như giải pháp thực hiện, kiến trúc thành phần của ứng dụng. Chương 3: Hiện thực ứng dụng và đánh giá kết quả thu được Đặc tả thông tin đầu vào cho ứng dụng, lược đồ cơ sở dữ liệu tương ứng và chức năng của các module trong chương trình. Phần tiếp theo trình bày ví dụ cụ thể và kết quả thu được khi thực hiện ứng dụng. Kết luận: Phần cuối của luận văn sẽ nhìn lại những điều đã làm được, nêu lên những hạn chế, từ đó đề ra hướng phát triển sau này. TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đinh Mạnh Tường (2000). Cấu trúc dữ liệu và thuật toán. Nhà xuất bản khoa học và kỹ thuật. Tiếng Anh [2] Michael Schrenk (2007). Webbots, Spiders, and Screen Scrapers. No Starch, San Francisco, USA. [3] Sriram Raghavan, Hector Garcia-Molina (2001). Crawling the Hidden Web. Computer Science Department, Stanford University, USA. [4] Steve Lawrence, C. Lee Giles (1998). Searching the World Wide Web. Science, 280(5360):98. [5] Michael K. Bergman (2001). White Paper: The Deep Web: Surfacing Hidden Value. University of Michigan, USA. [6] Stephen Soderland. Learning to Extract Text-based Information from the World Wide Web. Department of Computer Science & Engineering, University of Washington. . khai thác dữ liệu tự động từ các website. Nghiên cứu phương pháp khai thác lượng dữ liệu trên website. Tìm hiểu về các công nghệ liên quan và xây dựng ứng dụng khai thác dữ liệu trên một website. tảng Tìm hiểu về các kỹ thuật khai thác dữ liệu tự động từ các website Tìm hiểu về các công nghệ liên quan và xây dựng ứng dụng khai thác dữ liệu trên một website cụ thể Bố cục của luận. Khai thác dữ liệu trên Web và xây dựng ứng dụng hỗ trợ nhập liệu Nguyễn Bình Minh Viện Công nghệ Thông tin. Đại học