Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 21 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
21
Dung lượng
325,97 KB
Nội dung
Header Page of 113 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG NGUYỄN HUY KIÊN NGHIÊN CỨU VỀ KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG XÂY DỰNG WEBSITE TÍCH HỢP THÔNG TIN NGÀNH : TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ : 60.48.15 TÓM TẮT LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS ĐẶNG VĂN CHUYẾT HÀ NỘI 2012 Luận văn hoàn thành tại: Footer Page of 113 Header Page of 113 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS.TS Đặng Văn Chuyết Phản biện 1:………………………………………………… Phản biện 2: ………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thông Footer Page of 113 Header Page of 113 TÓM TẮT LUẬN VĂN Giới thiệu Trong năm gần đây, phát triển vượt bậc công nghệ thông tin làm tăng số lượng giao dịch thông tin mạng Internet cách đáng kể đặc biệt thư viện điện tử, tin tức điện tử Do mà thông tin, tin tức xuất mạng Internet tăng theo với tốc độ chóng mặt liên tục có thay đổi Với lượng thông tin đồ sộ vậy, yêu cầu lớn đặt tổ chức tìm kiếm thông tin có lợi hiệu Việc thu thập, phân loại trích xuất thông tin thông qua website khác có nhu cầu lớn thực tế Nhưng thực tế khối lượng thông tin lớn, việc thu thập phân loại liệu thủ công điều khó khăn phức tạp Hướng giải xây dựng hệ thống website cho phép thu thập phân loại thông tin Từ yêu cầu thực tiễn đó, em chọn đề tài: “ Nghiên cứu khai phá liệu web ứng dụng xây dựng website tích hợp thông tin” nhằm tìm hiểu xây dựng trình tìm kiếm rút trích, bóc tách thông tin từ nhiều trang web khác Qua xây dựng website thông tin để thu thập, đánh giá thông tin tự động Internet phục vụ cho người đọc nắm bắt thông tin cách dễ dàng, nhanh chóng tiết kiệm thời gian Footer Page of 113 Header Page of 113 Mục tiêu luận văn nhằm tìm hiểu nghiên cứu cách thức, trình rút trích bóc tách thông tin tự động từ nội dung website internet, qua xây dựng website tổng hợp thông tin Phương pháp nghiên cứu luận văn, nghiên cứu lý thuyết khai phá liệu, khai phá liệu web, lý thuyết rút trích thông tin, phương pháp rút trích Phân tích ưu nhược điểm phương pháp, kết hợp với kĩ xây dựng trang web lấy tin tức tự động Nội dung Ngoài Phần Mở đầu, Phần Kết luận Phụ lục, nội dung luận văn chia thành chương chính: Chương - Tổng quan khai phá liệu web Chương giới thiệu nội dung nhất, cung cấp nhìn khái quát khai phá liệu, khai phá liệu web, hướng tiếp cận ứng dụng khái phá liệu 1.1 Khai phá liệu 1.1.1 Các dạng liệu 1.1.1.1 Fulltext 1.1.1.2 Hypertext 1.1.2 Các toán thông dụng Khai phá liệu 1.2 Khai phá liệu web 1.2.1 Dữ liệu Web nhu cầu khai thác thông tin Footer Page of 113 Header Page of 113 Chúng ta hiểu khai phá Web việc trích chọn thành phần quan tâm hay đánh giá có ích thông tin tiềm từ tài nguyên hoạt động liên quan tới World-Wide Web Một cách trực quan quan niệm khai phá Web kết hợp Khai phá liệu, Xử lý ngôn ngữ tự nhiên Công nghệ Web: Khai phá web = Khai phá dữliệu + Xử lý ngôn ngữ tự nhiên + World Wide Web 1.2.1.1 Khai phá nội dung Web Khai phá nội dung web tập trung vào việc khám phá cách tự động nguồn thông tin có giá trị trực tuyến Khai phá nội dung web tiếp cận theo cách khác nhau: Tìm kiếm thông tin khai phá liệu sở liệu lớn Khai phá liệu đa phương tiện phần khai phá nội dung Web, hứa hẹn việc khai thác thông tin tri thức mức cao từ nguồn đa phương tiện trực tuyến rộng lớn Khai phá nội dung trang Web gồm hai phần: a Web Page Content b Search Result 1.2.1.2 Khai phá văn Web Khai phá văn Web việc sử dụng kỹ thuật khai phá liệu tập văn để tìm tri thức có ý nghĩa tiềm ẩm Dữ liệu có liệu có cấu trúc không cấu trúc Kết khai phá không trạng thái chung tài liệu Footer Page of 113 Header Page of 113 văn mà phân loại, phân cụm tập văn phục vụ cho mục đích 1.2.2 Đặc điểm liệu Web Web dường lớn để tổ chức thành kho liệu phục vụ Khai phá liệu Độ phức tạp trang Web lớn nhiều so với tài liệu văn truyền thống khác Web nguồn tài nguyên thông tin có độ thay đổi cao Web phục vụ cộng đồng người dùng rộng lớn đa dạng Chỉ phần nhỏ thông tin Web thực hữu ích 1.2.3 Phân cụm liệu web Sự phát triển Internet dẫn đến nhu cầu tìm kiếm, khai thác, tổ chức, truy cập trì thông tin người sử dụng thường xuyên Những người sử dụng máy tìm kiếm Web thường bị bắt buộc xem xét chọn lọc thông qua danh sách thứ tự dài mẩu thông tin văn trả trở lại máy tìm kiếm Yêu cầu phân loại tài liệu, cụ thể tài liệu Web trở thành toán cho nhà khoa học nghiên cứu giải Các chương sau nghiên cứu tiếp vấn đề liên quan tới trình trích lọc thông tin Chương - Giới thiệu rút trích thông tin Nội dung chương trình bày phương pháp sử dụng rút trích thông tin từ web phân tích ưu khuyết điểm Footer Page of 113 Header Page of 113 phương pháp Qua phân tích kiến trúc trang web cách trình bày liệu từ sở liệu lên trang web, nêu ưu khuyết điểm làm tiền đề xây dựng phương pháp luận văn 2.1 Khái niệm 2.2 So sánh rút trích thông tin tìm kiếm thông tin 2.3 Tổng quan rút trích thông tin trang web 2.3.1 Tổng quan Mô hình hệ thống rút trích thong tin trang web với thành phần cụ thể sau: Wrapper Generator: hỗ trợ người dùng xây dựng wrapper Wrapper executor Wrapper repository Central Control Data transformation Data delivery Luận văn tập trung vào cách thức rút trích liệu tương ứng với thành phần Wrapper generator hệ thống rút trích thông tin web Nội dung bên mô tả phân tích phương pháp ứng dụng thành phần 2.3.2 Phương pháp bán tự động Các hệ thống sử dụng phương pháp cần hỗ trợ người dùng lập trình với ngôn ngữ hệ thống tự định nghĩa giao diện tương tác thân thiện Thông qua dẫn người dùng để hướng Footer Page of 113 Header Page of 113 dẫn hệ thống rút trích thông tin cách thao tác web để đến trang chứa liệu cần rút trích Sau đó, người dùng cần phải rõ đối tượng cần rút trích gán nhãn cho thuộc tính đối tượng Phương pháp cho độ xác cao nhiên cần theo dõi giám sát người Đồng thời phương pháp có hiệu thấp cấu trúc trang web thường xuyên thay đổi Có nhiều loại trang web nhiều cách tổ chức trình bày khác nên tốn nhiều thời gian công sức để xây dựng dẫn riêng cho loại trang web 2.3.3 Phương pháp dựa cấu trúc HTML DOM trang web Phương pháp phân tích cấu trúc HTML DOM hiệu quả, có nội dung thừa giải vấn đề xử lý thông tin trùng nhau, cách phân tích lấy liệu từ website có lượng thông tin tương đối đầy đủ Tuy nhiên website lại có định dạng khác Việc áp dụng phương pháp thành công website nghĩa thành công website khác Và cách lấy liệu phương pháp phân tích mã html nên có tác dụng thời điểm chương trình không hoạt động website thay đổi source code 2.3.4 Phương pháp sử dụng cách thức trình bày trang web 2.4 Hệ thống rút trích thông tin từ trang web 2.4.1 Khái niệm 2.4.2 Phân loại hệ thống rút trích thông tin từ web Footer Page of 113 Header Page of 113 Dựa vào mức độ can thiệp người trình rút trích thông tin, hệ thống rút trích thông tin chia làm loại: thủ công, có giám sát, bán giám sát không giám sát Trong đó, hệ thống hoàn toàn tự động, can thiệp người nhà nghiên cứu quan tâm Dựa vào tầng liệu rút trích: trang web có nhiều trang HTML, trang HTML có nhiều record record có nhiều thuộc tính Do đó, dựa vào kết thông tin rút trích tầng nào, hệ thống rút trích chia làm loại: tầng thuộc tính (attribute), tầng record, tầng trang HTML (page) tầng trang web (site) Hiện hệ thống xử lý tầng thuộc tính record chiếm đa số Và nay, chưa thấy xuất hệ thống rút trích thông tin tầng site Dựa vào phương pháp rút trích thông tin, hệ thống rút trích thông tin chia thành dạng: Các hệ thống dựa phương pháp thủ công: sử dụng phương pháp gán nhãn, cách lấy thông tin trực tiếp từ sở liệu từ dịch vụ web (web service) Các hệ thống dựa phương pháp heuristic: phương pháp thống kê, tập luật, sử dụng mẫu thông tin, dựa vào cấu trúc cây… sử dụng để rút trích thông tin Các hệ thống dựa phương pháp học: sử dụng phương pháp mô hình Markov, ngữ nghĩa, học cấu trúc cây,… để giúp cho hệ thống hiểu rút trích thông tin xác Footer Page of 113 Header Page 10 of 113 2.4.3 Khảo sát số ứng dụng rút trích thông tin từ web Rút trích thông tin web đề tài quan trọng từ giúp chuyển đổi nội dung trang web theo hình thức trình bày phục vụ người duyệt web thành nguồn thông tin chuẩn hóa phục vụ nhiều nhu cầu đặc biệt so sánh sản phẩm, tìm kiếm thông minh, Có nhiều phương pháp từ đơn giản dựa xử lý chuỗi HTML trang web đến phân tích HTML DOM trang web, khai thác hành động người duyệt web, phân tích cách trình bày Các phương pháp có tiếp cận với nguồn liệu can thiệp người khác như: bán tự động phân tích cách trình bày Các phương pháp có tiếp cận với nguồn liệu can thiệp người khác như: bán tự động, rút trích tự động sử dụng nguồn nhiều trang web có cấu trúc tương tự, rút trích tự động sử dụng trang web 2.4.4 Khảo sát số chương trình hỗ trợ đọc tin tức RSS 2.4.4.1 iCA 2.4.4.2 Google Reader 2.4.4.3 iGoogle Các chương trình hỗ trợ đọc tin RSS có ưu điểm chạy web không cần cài đặt, tốc độ cao có nhiều tính phong phú, đáp ứng gần yêu cầu “add star”, “like”, “share”, “share with note”, “email”, “tagging” giao diện lại Footer Page 10 of 113 Header Page 11 of 113 đơn giản, dễ sử dụng, dễ tổ chức theo chuyên đề quan tâm Tuy nhiên, liệu thông tin lấy dạng link, tiêu đề hay nội dung phần giới thiệu tất nội dung viết Muốn đọc đầy đủ thông tin viết phải truy cập vào viết gốc nằm theo đường dẫn (link) mà chương trình lấy lấy Phương pháp rút trích tự động sử dụng trang web phương pháp độc lập với nội dung trang web Phương pháp có khả áp dụng cao không ảnh hưởng tới thay đổi cấu trúc trang web Hơn nữa, phương pháp không cần chuẩn bị trước tập huấn luyện chuẩn bị trang web liên quan để rút trích thông tin Chương - Bóc tách liệu sử dụng mô hình DOM Từ phương pháp rút trích thông tin trang web trình bày chương 2, luận văn chọn phương pháp rút trích thông tin tự động dựa trang web Nội dung chương trình bày chi tiết bước thực để rút trích đối sánh liệu có trang web 3.1 Giới thiệu 3.1.1 Khái niệm DOM 3.1.2 Xây dựng DOM Xây dựng DOM từ trang Web đầu vào bước cần thiết trang nhiều giải thuật trích xuất liệu Có hai phương pháp để xây dựng DOM Footer Page 11 of 113 Header Page 12 of 113 10 Sử dụng thẻ riêng biệt: Trong có việc cần thực hiện: + Làm mã HTML: Một vài thẻ không cần thẻ đóng (như , ) chúng có thẻ đóng + Xây dựng cây: Chúng ta theo khối thẻ HTML để xây dựng DOM Sử dụng thẻ hộp ảo (visual cue): Thay phân tích mã HTML để sửa lỗi, sử dụng biểu diễn thông tin ảo Các bước xử lý sau: + Tìm đường biên hình chữ nhật ứng với phần tử HTML thông qua việc công cụ trình diễn trình duyệt + Theo thẻ mở kiểm tra xem hình chữ nhật có nằm hình chữ nhật khác không, để xây dựng DOM 3.1.3 Sử dụng DOM bóc tách thông tin Để bóc tách thông tin cần thiết node DOM, cần rõ đường từ gốc đến node câng bóc tách thông tin Đương gọi mẫu trích xuất hay mẫu bóc tách (XPath) Trích xuất thông tin web dựa vào DOM trước tiên việc trích xuất hỗ trợ xây dựng DOM cho mã HTML trang Các mẫu trích xuất làm rõ đường dẫn từ gốc DOM đến node chứa nội dung cần trích xuất Với đầu vào trang web có dạng liệt kê danh sách mẩu tin, phương pháp luận văn thực thông qua bước: Footer Page 12 of 113 Header Page 13 of 113 11 Xác định thuộc tính khóa liệu Xây dựng liệu mẫu trang web Tìm kiếm liệu có trang web Xác định thuộc tính liệu 3.2 Xác định thuộc tính khóa liệu Phần lớn phương pháp rút trích thông tin trang có bước tìm vùng liệu trang web để xác định danh sách liệu Tuy nhiên, bước vô hình chung loại bỏ danh sách khác trang web dễ dàng nhận dạng sai vùng liệu Thay vào phương pháp đề xuất không tìm vùng chứa nội dung mà trực tiếp xác định liệu có trang web thông qua tìm kiếm thuộc tính khóa liệu 3.2.1 Cách thức duyệt DOM Do thuộc tính bảo toàn đường dẫn từ nút đến nút danh sách liệu, nên thuật toán nút DOM ngược lên nút gốc Nhằm giảm bớt độ phức tạp tính toán tăng tốc độ duyệt cây, DOM biểu diễn trang web lược giản hóa cách loại bỏ nhánh không dẫn đến nút văn nút văn có nội dung rỗng Footer Page 13 of 113 Header Page 14 of 113 12 3.2.2 Xác định nút ứng cử danh sách danh sách thuộc tính khóa Tại bước ngược lên gốc, ta xét nút DOM xem có phải thể nút chứa danh sách thuộc tính xác định thuộc tính khóa thuộc tính Do tính chất thuộc tính khóa mục, p nút chứa danh sách liệu thuộc tính khóa liệu p phải danh sách nút văn có đường dẫn từ nút đến nút p xuất nhiều (thuộc tính khóa thuộc tính liệu xuất liệu) Hơn nút phải thuộc phân biệt trực tiếp p tính chất liệu bao gồm toàn nhiều trực tiếp nút danh sách Nói cách khác, hai nút thuộc tính khóa xuất trực tiếp p Các bước dựa cấu trúc thuộc tính khóa DOM nên có khả nhận nhầm cấu trúc trang web thành nút danh sách bao gồm thuộc tính khóa thỏa tính chất nêu Vì vậy, cần có lọc kết như: độ tương đồng kích thước liệu danh sách, độ tương đồng cấu trúc liệu danh sách Tùy vào tính chất loại website muốn rút trích thông tin ta bổ sung thêm loại lọc kết để có kết cô đọng xác Sau bước ta có danh sách thuộc tính khóa tương ứng Tuy nhiên, loại liệu xuất Footer Page 14 of 113 Header Page 15 of 113 13 nhiều danh sách khác trang web Vì vậy, ta cần xác định loại liệu có trang web tiến hành gom nhóm loại liệu Các bước gom nhóm gồm: Gom nhóm danh sách liền kề có chung đường dẫn từ khóa lên nút danh sách Ví dụ hai danh sách hai thẻ liên tiếp thẻ Hình 3.6 Gom nhóm danh sách có chung đường dẫn từ nút khóa lên nút danh sách có liệu mẫu tương đồng Tức danh sách có cấu trúc liệu tương đồng Cuối cùng, nhằm xác định liệu trang web, ta cần hàm đánh giá độ mức độ quan trọng danh sách trang web 3.2.3 Thuật toán tìm thuộc tính khóa DOM Gọi R tập hợp loại danh sách thuộc tính khóa trang web Ban đầu R = ∅ Lược giản hóa DOM trang web gọi D, giữ lại nhánh có chứa nút văn Gọi T tập hợp tất nút D văn text có nội dung khác rỗng Gọi P tập hợp tất nút cha D nút t ∈ T Footer Page 15 of 113 Header Page 16 of 113 14 ∀p ∈ P, tập C nút trực tiếp p, tìm nút văn t có đường dẫn tương ứng đến nút phân biệt thuộc C giống Xác định nhóm g nhóm có số lượng nút trực tiếp p nhiều Áp dụng phương pháp lọc kết nhóm g có phải danh sách thuộc tính khóa danh sách p hay không Nếu thỏa bước 6, R = R ∪ g Nếu P ≠ ∅, gán T = P quay lại bước 10 Gom nhóm danh sách thuộc tính khóa R loại liệu 11 Sắp xếp R giảm dần dựa hàm f, hàm đánh giá độ quan trọng danh sách thuộc tính khóa trang web 3.3 Xây dựng liệu mẫu trang web 3.3.1 Tổng quan 3.3.2 Phương pháp Bước Chuyển đổi liệu thành chuỗi phần tử với phần tử đại diện cho tên nút DOM Thực duyệt theo chiều sâu biểu diễn liệu thêm phần tử vào chuỗi phần tử Bước Xác định chuỗi phần tử dài tạm thời đặt làm liệu mẫu m Footer Page 16 of 113 Header Page 17 of 113 15 Bước ∀ti liệu danh sách ti ≠ m Đối sánh ti với m Sau đối sánh, bổ sung vào m phần tử ti chưa đối sánh m 3.4 Tìm kiếm liệu có trang web Dựa liệu mẫu tìm bước trên, ta lần đối sánh liệu mẫu toàn DOM biểu diễn trang web để tìm lại tất liệu có thỏa liệu mẫu Bước quan trọng bước đầu phương pháp bỏ qua thuộc tính khóa trang web có nhiều danh sách riêng biệt Bước giúp tìm đứng riêng lẻ không nằm danh sách mà thuật toán trước không phát Do đường dẫn từ thuộc tính khóa lên tới nút chứa danh sách loại liệu bảo toàn trang web, ta tiếp tục duyệt từ nút ngược trở lên gốc DOM để so sánh với đường dẫn thuộc tính khóa liệu mẫu Ứng với trường hợp tìm thấy, ta tiếp tục đối sánh biểu diễn liệu mẫu vị trí tìm Nếu độ tương đồng liệu mẫu vị trí đối sánh thỏa ngưỡng tương đồng, ta phát thêm liệu có trang web 3.5 Xác định thuộc tính liệu Dựa vào liệu mẫu danh sách liệu tìm ta tiến hành đối sánh để xác định thuộc tính liệu Do liệu mẫu liệu lớn việc đối sánh trở thuộc tính trở thành đối sánh với biểu diễn liệu mẫu Footer Page 17 of 113 Header Page 18 of 113 16 Tương tự việc xây dựng liệu mẫu mục 3.3, tiếp tục sử dụng phương pháp xấp xỉ đối sánh chuỗi để đối sánh thuộc tính liệu với liệu mẫu Chương - Xây dựng website thông tin dựa trình trích xuất thông tin từ site khác kết Chương trình bày nội dung thực nghiệm phương pháp rút trích thông tin tự động, sử dụng phương pháp bóc tách liệu mô hình trang web lấy xử lý thông tin từ site khác 4.1 Bài toán cần thực Bài toán đặt luận văn sử dụng thông tin mà RSS cung cấp như: link, tiêu đề, phần giới thiệu viết Căn vào cấu trúc website cung cấp tin RSS phương pháp phân tích HTML DOM để lấy toàn nội dung viết, sau xử lý lưu vào sở liệu phục vụ cho hệ thống website tin tức Mục tiêu luận văn xây dựng nên hệ thống hỗ trợ người dùng chọn kênh tin tức, thu thập tin tức, quản lý kênh tin, tạo website tin tức cho người dùng mà lướt website để đọc tin tức Thông qua việc khảo sát số phần mềm đọc tin tức nước, yêu cầu từ phía người dùng, tóm tắt yêu cầu người dùng hệ thống bóc tách thông tin sau: - Người dùng tạo kênh tin tức cho riêng cách cần đăng ký tài khoản đăng nhập vào nhập đường dẫn link tới địa trang website cần lấy tin Footer Page 18 of 113 Header Page 19 of 113 17 - Người dùng tổ chức, quản lý kênh tin tức với chức năng: - Tạo nhóm tin tức (như: tin giáo dục, xã hội, tin chứng khoán…), sửa nhóm tin xoá nhóm tin - Lựa chọn số tin tức hiển thị - Người dùng tìm kiếm thông tin 4.2 Đánh giá lựa chọn giải pháp Thông qua việc khảo sát số website, phần mềm hỗ trợ đọc tin tức RSS trên, ta thấy có giải pháp để xây dựng hệ thống là: Win Form Web Form Sau phân tích thuận lợi hay khó khăn hai giải pháp Sau xem xét khía cạnh, ưu nhược điểm công nghệ cho thấy Web Form giải pháp tối ưu để phát triển hệ thống Cụ thể xây dựng website tổng hợp thông tin, sử dụng ngôn ngữ lập trình PHP hệ quản trị Cơ sở liệu MySql Dựa vào cấu trúc thẻ HTML lấy từ link RSS, luận văn dùng phương pháp dựa cấu trúc HTML DOM trang web để phân tích xây dựng cấu trúc DOM Qua trích xuất thông tin xây dựng trang web tổng hợp thông tin 4.3 Phân tích chức hệ thống 4.2.1 Biểu đồ Use case 4.2.2 Đặc tả Use Case 4.2.3 Biểu đồ (Sequence Diagram) 4.4 Thiết kế sở liệu 4.3.1 Đặc tả chi tiết bảng liệu Footer Page 19 of 113 Header Page 20 of 113 18 4.3.2 Mô hình quan hệ 4.5 Cài đặt thử nghiệm 4.5.1 Lấy link có RSS Khi người dùng cung cấp link RSS (Ví dụ: http://www.dantri.com.vn/xa-hoi.rss), nhiệm vụ hệ thống trích rút liệu từ file RSS Bước 1: Thiết kế lớp Article để chứa liệu mà ta trích rút từ RSS Bước 2: Sử dụng lớp DOMDocument để trích rút liệu từ RSS lưu vào mảng đối tượng Article 4.5.2 Bóc tách nội dung chi tiết Sau trích rút thông tin từ RSS lưu vào mảng đối tượng Article Tiến hành bóc tách nội dung chi tiết viết Bước 1: Từ link đến viết, tải nội dung trang HTML website nguồn Bước 2: Sử dụng lớp SimpleHtmlDom biểu thức quy (Regular Expression) để tách phần body viết Bước 3: Sử dụng lớp SimpleHtmlDom biểu thức quy để lấy link ảnh phần body Sau đó, lưu ảnh viết server ảnh Bước 4: Lưu thông tin chi tiết viết vào Cơ sở liệu 4.5.3 Cài đặt 4.5.4 Một số hình giao diện đạt Footer Page 20 of 113 Header Page 21 of 113 19 Kết luận Luận văn cung cấp số nội dung khai phá liệu web, trình bày phương pháp rút trích bóc tách thông tin web dựa chủ yếu vào trình lấy tin từ RSS phân tích cấu trúc HTML DOM Đồng thời phân tích đánh giá điểm mạnh điểm yếu phương pháp Luận văn tiến hành nghiên cứu giải pháp trích chọn thông tin Web nhằm xây dựng website thông tin cho phép thu thập đánh giá thông tin tự động Internet Qua phát triển để xây dựng hệ thống thông tin web tổng hợp phân loại tin tức Footer Page 21 of 113 ... “ Nghiên cứu khai phá liệu web ứng dụng xây dựng website tích hợp thông tin nhằm tìm hiểu xây dựng trình tìm kiếm rút trích, bóc tách thông tin từ nhiều trang web khác Qua xây dựng website thông. .. hiểu nghiên cứu cách thức, trình rút trích bóc tách thông tin tự động từ nội dung website internet, qua xây dựng website tổng hợp thông tin Phương pháp nghiên cứu luận văn, nghiên cứu lý thuyết khai. .. quan khai phá liệu web Chương giới thiệu nội dung nhất, cung cấp nhìn khái quát khai phá liệu, khai phá liệu web, hướng tiếp cận ứng dụng khái phá liệu 1.1 Khai phá liệu 1.1.1 Các dạng liệu 1.1.1.1