Nghiên cứu về khai phá dữ liệu WEB và ứng dụng xây dựng WEBSITE tích hợp thông tin

21 1K 2
Nghiên cứu về khai phá dữ liệu WEB và ứng dụng xây dựng WEBSITE tích hợp thông tin

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG NGUYỄN HUY KIÊN NGHIÊN CỨU VỀ KHAI PHÁ DỮ LIỆU WEB ỨNG DỤNG XÂY DỰNG WEBSITE TÍCH HỢP THÔNG TIN NGÀNH : TRUYỀN DỮ LIỆU MẠNG MÁY TÍNH MÃ SỐ : 60.48.15 TÓM TẮT LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. ĐẶNG VĂN CHUYẾT HÀ NỘI 2012 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS.TS. Đặng Văn Chuyết Phản biện 1:………………………………………………… Phản biện 2: ………………………………………………… Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông 1 TÓM TẮT LUẬN VĂN 1. Giới thiệu Trong những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin đã làm tăng số lượng giao dịch thông tin trên mạng Internet một cách đáng kể đặc biệt là thư viện điện tử, tin tức điện tử. Do đó mà thông tin, tin tức xuất hiện trên mạng Internet cũng tăng theo với một tốc độ chóng mặt liên tục có sự thay đổi. Với lượng thông tin đồ sộ như vậy, một yêu cầu lớn đặt ra đối với chúng ta là làm sao tổ chức tìm kiếm thông tin có lợi hiệu quả nhất. Việc thu thập, phân loại trích xuất thông tin thông qua các website khác nhau hiện nay đang có nhu cầu rất lớn trong thực tế. Nhưng một thực tế là khối lượng thông tin quá lớn, việc thu thập và phân loại dữ liệu thủ công là điều rất khó khăn phức tạp. Hướng giải quyết là xây dựng một hệ thống website cho phép thu thập phân loại các thông tin trên. Từ yêu cầu thực tiễn đó, em đã chọn đề tài: “ Nghiên cứu về khai phá dữ liệu web ứng dụng xây dựng website tích hợp thông tin” nhằm tìm hiểu xây dựng các quá trình tìm kiếm rút trích, bóc tách thông tin từ nhiều trang web khác nhau. Qua đó xây dựng một website thông tin để thu thập, đánh giá thông tin tự động trên Internet phục vụ cho người đọc có thể nắm bắt được thông tin một cách dễ dàng, nhanh chóng tiết kiệm thời gian. 2 Mục tiêu của luận văn nhằm tìm hiểu nghiên cứu cách thức, quá trình rút trích bóc tách thông tin tự động từ nội dung của các website trên internet, qua đó xây dựng một website tổng hợp thông tin. Phương pháp nghiên cứu của luận văn, nghiên cứu lý thuyết về khai phá dữ liệu, khai phá dữ liệu web, lý thuyết về rút trích thông tin, các phương pháp rút trích. Phân tích các ưu nhược điểm của từng phương pháp, kết hợp với các kĩ năng xây dựng một trang web lấy tin tức tự động. 2. Nội dung Ngoài Phần Mở đầu, Phần Kết luận các Phụ lục, nội dung luận văn được chia thành 4 chương chính: Chương 1 - Tổng quan về khai phá dữ liệu web Chương này giới thiệu những nội dung cơ bản nhất, cung cấp một cái nhìn khái quát về khai phá dữ liệu, khai phá dữ liệu web, các hướng tiếp cận ứng dụng của khái phá dữ liệu. 1.1 Khai phá dữ liệu 1.1.1 Các dạng dữ liệu 1.1.1.1 Fulltext 1.1.1.2 Hypertext 1.1.2 Các bài toán thông dụng trong Khai phá dữ liệu 1.2 Khai phá dữ liệu web 1.2.1 Dữ liệu Web nhu cầu khai thác thông tin 3 Chúng ta có thể hiểu rằng khai phá Web như là việc trích chọn ra các thành phần được quan tâm hay được đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan tới World-Wide Web. Một cách trực quan có thể quan niệm khai phá Web là sự kết hợp giữa Khai phá dữ liệu, Xử lý ngôn ngữ tự nhiên Công nghệ Web: Khai phá web = Khai phá dữliệu + Xử lý ngôn ngữ tự nhiên + World Wide Web. 1.2.1.1 Khai phá nội dung Web Khai phá nội dung web tập trung vào việc khám phá một cách tự động nguồn thông tin có giá trị trực tuyến. Khai phá nội dung web có thể được tiếp cận theo 2 cách khác nhau: Tìm kiếm thông tin khai phá dữ liệu trong cơ sở dữ liệu lớn. Khai phá dữ liệu đa phương tiện là một phần của khai phá nội dung Web, nó hứa hẹn việc khai thác được các thông tin tri thức ở mức cao từ nguồn đa phương tiện trực tuyến rộng lớn. Khai phá nội dung trang Web gồm hai phần: a. Web Page Content b. Search Result 1.2.1.2 Khai phá văn bản Web Khai phá văn bản Web là việc sử dụng kỹ thuật khai phá dữ liệu đối với các tập văn bản để tìm ra tri thức có ý nghĩa tiềm ẩm trong nó. Dữ liệu của nó có là dữ liệu có cấu trúc hoặc không cấu trúc. Kết quả khai phá không chỉ là trạng thái chung của mỗi tài liệu 4 văn bản mà còn là sự phân loại, phân cụm các tập văn bản phục vụ cho mục đích nào đó. 1.2.2 Đặc điểm của dữ liệu WebWeb dường như quá lớn để tổ chức thành một kho dữ liệu phục vụ Khai phá dữ liệu.  Độ phức tạp của trang Web lớn hơn rất nhiều so với những tài liệu văn bản truyền thống khác.  Web là một nguồn tài nguyên thông tin có độ thay đổi cao  Web phục vụ một cộng đồng người dùng rộng lớn đa dạng  Chỉ một phần rất nhỏ của thông tin trên Web là thực sự hữu ích 1.2.3 Phân cụm dữ liệu web Sự phát triển của Internet dẫn đến nhu cầu tìm kiếm, khai thác, tổ chức, truy cập duy trì thông tin đối với người sử dụng thường xuyên hơn. Những người sử dụng các máy tìm kiếm Web thường bị bắt buộc xem xét chọn lọc thông qua một danh sách thứ tự dài của các mẩu thông tin văn bản được trả trở lại bởi các máy tìm kiếm. Yêu cầu phân loại tài liệu, cụ thể hơn là tài liệu Web trở thành bài toán cho các nhà khoa học nghiên cứu giải quyết. Các chương sau nghiên cứu tiếp các vấn đề liên quan tới quá trình trích lọc thông tin ở trên. Chương 2 - Giới thiệu về rút trích thông tin Nội dung của chương này trình bày các phương pháp sử dụng trong rút trích thông tin từ web phân tích ưu khuyết điểm 5 của các phương pháp này. Qua đó phân tích kiến trúc trang web cách trình bày các bộ dữ liệu từ cơ sở dữ liệu lên trang web, nêu ra các ưu khuyết điểm làm tiền đề xây dựng phương pháp của luận văn. 2.1 Khái niệm 2.2 So sánh rút trích thông tin tìm kiếm thông tin 2.3 Tổng quan về rút trích thông tin trên trang web 2.3.1 Tổng quan Mô hình hệ thống rút trích thong tin trên trang web với các thành phần cụ thể như sau:  Wrapper Generator: hỗ trợ người dùng xây dựng các wrapper  Wrapper executor.  Wrapper repository.  Central Control.  Data transformation.  Data delivery. Luận văn này tập trung vào cách thức rút trích dữ liệu tương ứng với thành phần Wrapper generator trong hệ thống rút trích thông tin trên web. Nội dung bên dưới chỉ mô tả phân tích các phương pháp được ứng dụng trong thành phần này. 2.3.2 Phương pháp bán tự động Các hệ thống sử dụng phương pháp này cần hỗ trợ người dùng lập trình với ngôn ngữ do hệ thống tự định nghĩa hoặc giao diện tương tác thân thiện. Thông qua chỉ dẫn của người dùng để hướng 6 dẫn hệ thống rút trích thông tin cách thao tác trên web để đến được trang chứa dữ liệu cần rút trích. Sau đó, người dùng cần phải chỉ rõ các đối tượng cần rút trích gán nhãn cho các thuộc tính của các đối tượng này. Phương pháp này cho độ chính xác cao nhất tuy nhiên cần sự theo dõi giám sát của con người. Đồng thời phương pháp này có hiệu quả thấp khi cấu trúc của trang web thường xuyên thay đổi. Có rất nhiều loại trang web nhiều cách tổ chức trình bày khác nhau nên tốn nhiều thời gian công sức để xây dựng từng chỉ dẫn riêng cho mỗi loại trang web. 2.3.3 Phương pháp dựa trên cấu trúc HTML DOM của trang web Phương pháp phân tích cấu trúc HTML DOM khá hiệu quả, ít có nội dung thừa giải quyết được vấn đề xử lý các thông tin trùng nhau, bằng cách phân tích lấy dữ liệu từ một website có lượng thông tin tương đối đầy đủ. Tuy nhiên mỗi website lại có định dạng khác nhau. Việc áp dụng phương pháp này thành công trên một website này không có nghĩa là thành công trên website khác. cách lấy dữ liệu bằng phương pháp phân tích mã html nên chỉ có tác dụng trong thời điểm hiện tại chương trình có thể sẽ không hoạt động được khi website thay đổi source code. 2.3.4 Phương pháp sử dụng cách thức trình bày của trang web 2.4 Hệ thống rút trích thông tin từ các trang web 2.4.1 Khái niệm 2.4.2 Phân loại hệ thống rút trích thông tin từ web 7 Dựa vào mức độ can thiệp của con người trong quá trình rút trích thông tin, các hệ thống rút trích thông tin có thể được chia ra làm 4 loại: thủ công, có giám sát, bán giám sát không giám sát. Trong đó, các hệ thống hoàn toàn tự động, không có sự can thiệp của con người đang được các nhà nghiên cứu quan tâm nhất. Dựa vào tầng dữ liệu được rút trích: một trang web sẽ có nhiều trang HTML, một trang HTML sẽ có nhiều record một record sẽ có nhiều thuộc tính. Do đó, dựa vào kết quả thông tin rút trích được ở tầng nào, các hệ thống rút trích được chia ra làm 4 loại: tầng thuộc tính (attribute), tầng record, tầng trang HTML (page) tầng trang web (site). Hiện tại các hệ thống xử lý ở tầng thuộc tính record chiếm đa số. cho đến nay, vẫn chưa thấy xuất hiện các hệ thống rút trích thông tin ở tầng site. Dựa vào các phương pháp rút trích thông tin, các hệ thống rút trích thông tin cũng được chia thành 3 dạng:  Các hệ thống dựa trên các phương pháp thủ công: sử dụng các phương pháp gán nhãn, các cách lấy thông tin trực tiếp từ cơ sở dữ liệu hoặc từ các dịch vụ web (web service).  Các hệ thống dựa trên các phương pháp heuristic: các phương pháp thống kê, tập luật, sử dụng các mẫu thông tin, dựa vào cấu trúc cây… được sử dụng để rút trích thông tin.  Các hệ thống dựa trên các phương pháp học: sử dụng các phương pháp mô hình Markov, ngữ nghĩa, học trên cấu trúc cây,… để giúp cho các hệ thống hiểu rút trích thông tin chính xác hơn. 8 2.4.3 Khảo sát một số ứng dụng rút trích thông tin từ web Rút trích thông tin trên web là một đề tài quan trọng từ giúp chuyển đổi nội dung trang web theo hình thức trình bày phục vụ người duyệt web thành các nguồn thông tin được chuẩn hóa phục vụ nhiều nhu cầu đặc biệt như so sánh sản phẩm, tìm kiếm thông minh, Có rất nhiều phương pháp từ đơn giản như dựa trên xử lý chuỗi HTML của trang web đến phân tích cây HTML DOM của trang web, khai thác hành động của người duyệt web, phân tích cách trình bày. Các phương pháp này cũng có các tiếp cận với nguồn dữ liệu cũng như sự can thiệp của con người khác nhau như: bán tự động phân tích cách trình bày. Các phương pháp này cũng có các tiếp cận với nguồn dữ liệu cũng như sự can thiệp của con người khác nhau như: bán tự động, rút trích tự động sử dụng nguồn là nhiều trang web có cấu trúc tương tự, rút trích tự động sử dụng một trang web duy nhất. 2.4.4 Khảo sát một số chương trình hỗ trợ đọc tin tức RSS hiện nay 2.4.4.1 iCA 2.4.4.2 Google Reader 2.4.4.3 iGoogle Các chương trình hỗ trợ đọc tin RSS ở trên có ưu điểm chạy trên nền web không cần cài đặt, tốc độ cao có nhiều tính năng phong phú, đáp ứng gần như mọi yêu cầu như “add star”, “like”, “share”, “share with note”, “email”, “tagging” trong khi giao diện lại [...]... nội dung về khai phá dữ liệu web, trình bày các phương pháp rút trích bóc tách thông tin web dựa chủ yếu vào quá trình lấy tin từ RSS phân tích cấu trúc HTML DOM Đồng thời tôi cũng phân tích đánh giá điểm mạnh điểm yếu của từng phương pháp Luận văn đã tiến hành nghiên cứu giải pháp trích chọn thông tin trên Web nhằm xây dựng một website thông tin cho phép thu thập đánh giá thông tin tự động... bộ dữ liệu Do bộ dữ liệu mẫu là bộ dữ liệu lớn nhất vì vậy việc đối sánh trở thuộc tính trở thành đối sánh cây với cây biểu diễn bộ dữ liệu mẫu 16 Tương tự như việc xây dựng bộ dữ liệu mẫu ở mục 3.3, tôi tiếp tục sử dụng phương pháp xấp xỉ là đối sánh chuỗi để đối sánh các thuộc tính của các bộ dữ liệu với bộ dữ liệu mẫu Chương 4 - Xây dựng website thông tin dựa trên quá trình trích xuất thông tin. .. pháp trên Sau khi xem xét các khía cạnh, ưu nhược điểm của các công nghệ cho thấy Web Form là một giải pháp tối ưu để phát triển hệ thống Cụ thể ở đây là xây dựng website tổng hợp thông tin, sử dụng ngôn ngữ lập trình PHP hệ quản trị Cơ sở dữ liệu MySql Dựa vào cấu trúc các thẻ HTML lấy về từ link RSS, luận văn sẽ dùng phương pháp dựa trên cấu trúc HTML DOM của trang web để phân tích xây dựng. .. chức năng: - Tạo nhóm tin tức (như: tin giáo dục, xã hội, tin chứng khoán…), sửa nhóm tin xoá nhóm tin - Lựa chọn số tin tức được hiển thị - Người dùng còn có thể tìm kiếm thông tin 4.2 Đánh giá lựa chọn giải pháp Thông qua việc khảo sát một số website, phần mềm hỗ trợ đọc tin tức RSS ở trên, ta thấy có giải pháp để xây dựng hệ thống đó là: Win Form Web Form Sau khi phân tích những thuận lợi... khác kết quả Chương này trình bày nội dung thực nghiệm của phương pháp rút trích thông tin tự động, sử dụng phương pháp bóc tách dữ liệu mô hình trang web đã lấy xử lý thông tin từ một site khác 4.1 Bài toán cần thực hiện Bài toán đặt ra của luận văn là sử dụng các thông tin mà RSS cung cấp như: link, tiêu đề, phần giới thiệu của bài viết Căn cứ vào cấu trúc của website cung cấp tin RSS phương... cấp tin RSS phương pháp phân tích HTML DOM để lấy toàn bộ nội dung của bài viết, sau đó xử lý lưu vào cơ sở dữ liệu phục vụ cho hệ thống website tin tức Mục tiêu của luận văn là xây dựng nên một hệ thống hỗ trợ người dùng chọn kênh tin tức, thu thập tin tức, quản lý các kênh tin, tạo ra một website tin tức cho chính người dùng mà không phải lướt từng website để đọc tin tức Thông qua việc khảo sát... thuộc tính khóa của bộ dữ liệuXây dựng bộ dữ liệu mẫu trong trang web  Tìm kiếm các bộ dữ liệu có trong trang web  Xác định các thuộc tính trong một bộ dữ liệu 3.2 Xác định các thuộc tính khóa của bộ dữ liệu Phần lớn các phương pháp rút trích thông tin trên một trang duy nhất đều có bước đầu tiên là đi tìm vùng dữ liệu chính của trang web để xác định danh sách các bộ dữ liệu Tuy nhiên, bước này vô... chọn phương pháp rút trích thông tin tự động dựa trên một trang web duy nhất Nội dung chương này trình bày chi tiết các bước thực hiện để rút trích đối sánh các bộ dữ liệu có trong trang web 3.1 Giới thiệu 3.1.1 Khái niệm cây DOM 3.1.2 Xây dựng cây DOM Xây dựng cây DOM từ những trang Web đầu vào là một bước cần thiết trang nhiều giải thuật trích xuất dữ liệu Có hai phương pháp cơ bản để xây dựng các... của thuộc tính khóa trong dữ liệu mẫu Ứng với mỗi trường hợp tìm thấy, ta tiếp tục đối sánh cây biểu diễn của bộ dữ liệu mẫu tại vị trí tìm được Nếu độ tương đồng giữa bộ dữ liệu mẫu vị trí đối sánh thỏa ngưỡng tương đồng, ta phát hiện thêm một bộ dữ liệu có trong trang web 3.5 Xác định các thuộc tính trong một bộ dữ liệu Dựa vào bộ dữ liệu mẫu danh sách bộ dữ liệu tìm được ta tiến hành đối sánh... trang web duy nhất là phương pháp độc lập với nội dung trang web Phương pháp này có khả năng áp dụng cao không ảnh hưởng tới sự thay đổi của cấu trúc trang web Hơn nữa, phương pháp này cũng không cần chuẩn bị trước tập huấn luyện cũng như chuẩn bị các trang web liên quan để rút trích thông tin Chương 3 - Bóc tách dữ liệu sử dụng mô hình DOM Từ các phương pháp rút trích thông tin trên trang web đã . VIỄN THÔNG NGUYỄN HUY KIÊN NGHIÊN CỨU VỀ KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG XÂY DỰNG WEBSITE TÍCH HỢP THÔNG TIN NGÀNH : TRUYỀN DỮ LIỆU VÀ MẠNG. khái quát về khai phá dữ liệu, khai phá dữ liệu web, các hướng tiếp cận và ứng dụng của khái phá dữ liệu. 1.1 Khai phá dữ liệu 1.1.1 Các dạng dữ liệu 1.1.1.1

Ngày đăng: 17/02/2014, 09:01

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan