1. Trang chủ
  2. » Luận Văn - Báo Cáo

thiết kế phần mềm đọc mặt số đồng hồ nước

99 329 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 99
Dung lượng 614,94 KB

Nội dung

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1. Thông tin về sinh viên Họ và tờn sinh viờn: Trần Đinh Hưng Điện thoại liờn lạc 0979472676 Email:ayukco@yahoo. com Lớp: HTTT - A Khúa 50 Hệ đào tạo:Chính quy Đồ ỏn tốt nghiệp được thực hiện tại: Viện Công nghệ thông tin và Truyền thông Thời gian làm ĐATN: Từ ngày 28 /2 / 2010 đến 28/ 05 / 2010 2. Mục đích nội dung của ĐATN Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn CiteSeerX. 3. Cỏc nhiệm vụ cụ thể của ĐATN Tìm hiểu kiến trúc của hệ tìm kiếm thông tin. Tìm hiểu kiến trúc hệ thống CiteSeerX. Xây dựng hệ thống thu thập, quản lý và tìm kiếm tài liệu dựa trên CiteSeerX. Thêm các chức năng để hoàn thiện hệ thống: Auto Suggestion, hỗ trợ upload tài liệu từ máy người dùng. 4. Lời cam đoan của sinh viờn: Tôi –Trần Đinh Hưng– cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của ThS. Đỗ Bích Diệp Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳ công trình nào khác. Hà Nội, ngày 27 thỏng 05 năm 2010 Tỏc giả ĐATN Trần Đinh Hưng 5. Xỏc nhận của giỏo viờn hướng dẫn về mức độ hoàn thành của ĐATN và cho phộp bảo vệ: Hà Nội, ngày 27 thỏng 05 năm 2010 Giỏo viờn hướng dẫn ThS. Đỗ Bích Diệp Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A TểM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Ngày nay, tìm kiếm thông tin trên Internet đã trở thành công việc không thể thiếu với rất nhiều người, đặc biệt là sinh viên, học sinh, giảng viên, nghiên cứu sinh, … Một trong những đối tượng được họ quan tâm nhiều nhất để phục vụ cho quá trình học tập và nghiên cứu của mình là các tài liệu khoa học, những luận văn, đồ án chuyên sâu … Tuy nhiên những hệ thống tìm kiếm chuyên biệt tài liệu khoa học chưa nhiều, chưa hoàn thiện và chưa hỗ trợ tốt cho ngôn ngữ tiếng Việt. Mục đích của đề tài này là tìm hiểu xây dựng mô hình hệ thống quản lý tài liệu khoa học dựa theo mô hình tìm kiếm thông tin trên Internet. Đồ án đưa ra mô hình kiến trúc tổng quan và các thành phần của hệ quản lý tài liệu khoa học, các kĩ thuật trích rút thông tin đặc trưng (tiờu đề, tỏc giả, nhà xuất bản, …) và tham chiếu (tài liệu tham khảo) của tài liệu, từ đó tổ chức lưu trữ và tìm kiếm tài liệu theo các thông tin đã trích rút. Để hiện thực húa mô hình hoạt động, đồ án sử dụng bộ mã nguồn mở CiteSeerX, một thành phần trong bộ SeerSuit, nhằm xừy dựng hệ thu thập, tìm kiếm tài liệu khoa học và cài đặt những thành phần dịch vụ hỗ trợ cho việc lọc, phân tách, trích rút thông tin đặc trưng và tham chiếu từ tài liệu. Đồng thời, đồ án còn thêm vào các chức năng để hoàn thiện hệ thống từ những dịch vụ cơ bản đã được cung cấp bởi bộ mã nguồn mở CiteSeerX. NỘI DUNG ĐỒ ÁN Chương 1 : Nhu cầu tìm kiếm và tra cứu tài liệu chuyên ngành hiện nay. Chương 2 : Cơ sở lý thuyết về hệ thống tìm kiếm thông tin. Chương 3 : Kiến trúc hệ thống tra cứu tài liệu khoa học Chương 4 : Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn bộ mó nguồn mở CiteSeerX MỤC LỤC PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1 TểM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP 2 NỘI DUNG ĐỒ ÁN 2 Chương 1: Nhu cầu tìm kiếm và tra cứu tài liệu khoa học chuyên ngành hiện nay 8 1. Quản lý và chia sẻ tài liệu khoa học 8 1. 1 Tài liệu khoa học là gì 8 1. 2 Nhu cầu trao đổi và chia sẻ tài liệu khoa học 8 1. 3 Quản lý và tìm kiếm tài liệu khoa học 9 1. 4 Các chức năng cần có của một hệ quản lý và tìm kiếm tài liệu khoa học 9 Chương 2: Cơ sở lý thuyết về hệ tìm kiếm thông tin 9 1. Tổng quan về tìm kiếm thông tin 9 1. 1 Khái niệm cơ bản về hệ tìm kiếm thông tin 9 1. 2 Mô hình của hệ tìm kiếm thông tin 11 2. Các thành phần của hệ tìm kiếm thông tin 12 2. 1 Bộ biểu diễn cừu truy vấn 12 2. 1. 1 Cỏc toỏn tử tìm kiếm cơ bản 12 2. 1. 2 Quá trình biểu diễn cừu truy vấn 13 2. 2 Bộ biểu diễn tài liệu 15 2. 3 Bộ đối sỏnh 16 3. Tìm kiếm thông tin trên web 17 3. 1 Mô hình hệ thống 17 3. 2 Hoạt động của hệ thống 18 3. 3 Một số kỹ thuật được sử dụng 19 3. 3. 1 Xếp hạng trang ( Page Rank ) 19 3. 3. 2 Phừn cụm 19 3. 3. 3 Phừn lớp 20 3. 3. 4 Phản hồi từ người dùng 20 4. Quản lý và tìm kiếm đối với tài liệu khoa học 20 4. 1 Cấu trúc của một tài liệu khoa học 20 4. 2 Quản lý tài liệu khoa học 22 Chương 3: Hệ thống tra cứu tài liệu khoa học 23 1. Kiến trúc tổng quan hệ thống tra cứu tài liệu khoa học 23 2. Kỹ thuật trích chọn thông tin 25 2. 1 Trích chọn đặc trưng tài liệu 25 2. 1. 1 Gỏn nhón 25 2. 1. 2 Phân loại dòng 26 2. 1. 3 Phân loại dòng dựa trên thông tin ngữ cảnh 27 2. 2 Thuật toán trích chọn metadata 27 2. 2. 1 Phân dòng dựa trên Support Vector Machine ( SVM ) 27 2. 2. 2 Đặc trưng trích chọn 28 2. 2. 3 Quá trình phân dòng 29 2. 2. 4 Trích chọn metadata từ dòng đa lớp 30 2. 2. 5 Định biên trên dòng đa tác giả 31 Định biên trên dòng phân cách bởi dấu cách 31 Định biên trên dòng phân cách bởi khoảng trắng 32 2. 3 Thuật toán trích chọn thông tin tham chiếu 33 2.3.1 Đặc trưng miờu tả 33 2. 3. 2 Phân đoạn thông tin tham chiếu ( Citation ) 34 Nhận biết Citations 34 2. 3. 3 Hiệu chỉnh dữ liệu sau khi gỏn nhón ( CRF ) 37 2. 3. 4 Đưa ra ngữ cảnh tham chiếu 38 39 Chương 4: Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn bộ mó nguồn mở CiteSeerX 39 1. Giới thiệu về CiteSeerX 39 1. 1 Dự ỏn SeerSuite 39 1. 2 Dự ỏn CiteSeer 39 1. 3 Dự ỏn CiteSeerX 41 2. Mô hình hệ thống của CiteSeerX 43 3. Phừn tớch chi tiết hệ thống CiteSeerX 45 3. 1 Mô hình cơ sở dữ liệu – Storage Layer 45 3. 2 Cỏc service sử dụng trong CiteSeerX - Application Layer 47 3. 2. 1 Heritrix – Tiện ích để crawl dữ liệu – Crawling Server 47 3. 2. 1. 1 Giới thiệu về Heritrix 47 3. 2. 2. 2 Hoạt động 48 3. 2. 2 Cỏc dịch vụ hỗ trợ cho việc vào ra dữ liệu 49 3. 2. 2. 1 Cỏc dịch vụ phừn tỏch văn bản 50 A. File Converter 51 B. ParsCit 52 C. SVM Header Parse 53 3. 2. 2. 2 Các class xử lý dữ liệu thô 54 3. 2. 3 Cỏc chức năng thờm vào để hoàn thiện hệ thống 54 3. 2. 3. 1 Chức năng Upload từ máy người dùng 54 3. 2. 3. 2 Chức năng Auto Suggestion 55 A. Đặt vấn đề 55 B. Cơ sở dữ liệu 55 C. Hoạt động 55 4. Giao diện và hoạt động của hệ thống 56 4. 1Chức năng search 56 4.2Hỗ trợ người dùng upload tài liệu lên máy chủ 60 4. 3 Sử dụng Heritrix 61 4.4Chức năng Auto Suggestion 61 CÁC KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI 61 1. Cỏc kết quả đạt được 61 2. Những mặt hạn chế 62 3. Hướng phỏt triển trong tương lai 62 TÀI LIỆU THAM KHẢO 62 Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A TểM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Ngày nay, tìm kiếm thông tin trên Internet đã trở thành công việc không thể thiếu với rất nhiều người, đặc biệt là sinh viên, học sinh, giảng viên, nghiên cứu sinh, … Một trong những đối tượng được họ quan tâm nhiều nhất để phục vụ cho quá trình học tập và nghiên cứu của mình là các tài liệu khoa học, những luận văn, đồ án chuyên sâu … Tuy nhiên những hệ thống tìm kiếm chuyên biệt tài liệu khoa học chưa nhiều, chưa hoàn thiện và chưa hỗ trợ tốt cho ngôn ngữ tiếng Việt. Mục đích của đề tài này là tìm hiểu xây dựng mô hình hệ thống quản lý tài liệu khoa học dựa theo mô hình tìm kiếm thông tin trên Internet. Đồ án đưa ra mô hình kiến trúc tổng quan và các thành phần của hệ quản lý tài liệu khoa học, các kĩ thuật trích rút thông tin đặc trưng (tiờu đề, tỏc giả, nhà xuất bản, …) và tham chiếu (tài liệu tham khảo) của tài liệu, từ đó tổ chức lưu trữ và tìm kiếm tài liệu theo các thông tin đã trích rút. Để hiện thực húa mô hình hoạt động, đồ án sử dụng bộ mã nguồn mở CiteSeerX, một thành phần trong bộ SeerSuit, nhằm xừy dựng hệ thu thập, tìm kiếm tài liệu khoa học và cài đặt những thành phần dịch vụ hỗ trợ cho việc lọc, phân tách, trích rút thông tin đặc trưng và tham chiếu từ tài liệu. Đồng thời, đồ án còn thêm vào các chức năng để hoàn thiện hệ thống từ những dịch vụ cơ bản đã được cung cấp bởi bộ mã nguồn mở CiteSeerX. NỘI DUNG ĐỒ ÁN Chương 1 : Nhu cầu tìm kiếm và tra cứu tài liệu chuyên ngành hiện nay. Chương 2 : Cơ sở lý thuyết về hệ thống tìm kiếm thông tin. Chương 3 : Kiến trúc hệ thống tra cứu tài liệu khoa học Chương 4 : Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn bộ mó nguồn mở CiteSeerX MỤC LỤC PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1 TểM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP 2 NỘI DUNG ĐỒ ÁN 2 Chương 1: Nhu cầu tìm kiếm và tra cứu tài liệu khoa học chuyên ngành hiện nay 8 1. Quản lý và chia sẻ tài liệu khoa học 8 1. 1 Tài liệu khoa học là gì 8 1. 2 Nhu cầu trao đổi và chia sẻ tài liệu khoa học 8 1. 3 Quản lý và tìm kiếm tài liệu khoa học 9 1. 4 Các chức năng cần có của một hệ quản lý và tìm kiếm tài liệu khoa học 9 Chương 2: Cơ sở lý thuyết về hệ tìm kiếm thông tin 9 1. Tổng quan về tìm kiếm thông tin 9 1. 1 Khái niệm cơ bản về hệ tìm kiếm thông tin 9 1. 2 Mô hình của hệ tìm kiếm thông tin 11 2. Các thành phần của hệ tìm kiếm thông tin 12 2. 1 Bộ biểu diễn cừu truy vấn 12 2. 1. 1 Cỏc toỏn tử tìm kiếm cơ bản 12 2. 1. 2 Quá trình biểu diễn cừu truy vấn 13 2. 2 Bộ biểu diễn tài liệu 15 2. 3 Bộ đối sỏnh 16 3. Tìm kiếm thông tin trên web 17 3. 1 Mô hình hệ thống 17 3. 2 Hoạt động của hệ thống 18 3. 3 Một số kỹ thuật được sử dụng 19 3. 3. 1 Xếp hạng trang ( Page Rank ) 19 3. 3. 2 Phừn cụm 19 3. 3. 3 Phừn lớp 20 3. 3. 4 Phản hồi từ người dùng 20 4. Quản lý và tìm kiếm đối với tài liệu khoa học 20 4. 1 Cấu trúc của một tài liệu khoa học 20 4. 2 Quản lý tài liệu khoa học 22 Chương 3: Hệ thống tra cứu tài liệu khoa học 23 1. Kiến trúc tổng quan hệ thống tra cứu tài liệu khoa học 23 2. Kỹ thuật trích chọn thông tin 25 2. 1 Trích chọn đặc trưng tài liệu 25 2. 1. 1 Gỏn nhón 25 2. 1. 2 Phân loại dòng 26 2. 1. 3 Phân loại dòng dựa trên thông tin ngữ cảnh 27 2. 2 Thuật toán trích chọn metadata 27 2. 2. 1 Phân dòng dựa trên Support Vector Machine ( SVM ) 27 2. 2. 2 Đặc trưng trích chọn 28 2. 2. 3 Quá trình phân dòng 29 2. 2. 4 Trích chọn metadata từ dòng đa lớp 30 2. 2. 5 Định biên trên dòng đa tác giả 31 Định biên trên dòng phân cách bởi dấu cách 31 Định biên trên dòng phân cách bởi khoảng trắng 32 2. 3 Thuật toán trích chọn thông tin tham chiếu 33 2.3.1 Đặc trưng miờu tả 33 2. 3. 2 Phân đoạn thông tin tham chiếu ( Citation ) 34 Nhận biết Citations 34 2. 3. 3 Hiệu chỉnh dữ liệu sau khi gỏn nhón ( CRF ) 37 2. 3. 4 Đưa ra ngữ cảnh tham chiếu 38 39 Chương 4: Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn bộ mó nguồn mở CiteSeerX 39 1. Giới thiệu về CiteSeerX 39 1. 1 Dự ỏn SeerSuite 39 1. 2 Dự ỏn CiteSeer 39 1. 3 Dự ỏn CiteSeerX 41 2. Mô hình hệ thống của CiteSeerX 43 3. Phừn tớch chi tiết hệ thống CiteSeerX 45 3. 1 Mô hình cơ sở dữ liệu – Storage Layer 45 3. 2 Cỏc service sử dụng trong CiteSeerX - Application Layer 47 3. 2. 1 Heritrix – Tiện ích để crawl dữ liệu – Crawling Server 47 3. 2. 1. 1 Giới thiệu về Heritrix 47 3. 2. 2. 2 Hoạt động 48 3. 2. 2 Cỏc dịch vụ hỗ trợ cho việc vào ra dữ liệu 49 3. 2. 2. 1 Cỏc dịch vụ phừn tỏch văn bản 50 A. File Converter 51 B. ParsCit 52 C. SVM Header Parse 53 3. 2. 2. 2 Các class xử lý dữ liệu thô 54 3. 2. 3 Cỏc chức năng thờm vào để hoàn thiện hệ thống 54 3. 2. 3. 1 Chức năng Upload từ máy người dùng 54 3. 2. 3. 2 Chức năng Auto Suggestion 55 A. Đặt vấn đề 55 B. Cơ sở dữ liệu 55 C. Hoạt động 55 4. Giao diện và hoạt động của hệ thống 56 4. 1Chức năng search 56 4.2Hỗ trợ người dùng upload tài liệu lên máy chủ 60 4. 3 Sử dụng Heritrix 61 4.4Chức năng Auto Suggestion 61 CÁC KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI 61 1. Cỏc kết quả đạt được 61 2. Những mặt hạn chế 62 3. Hướng phỏt triển trong tương lai 62 TÀI LIỆU THAM KHẢO 62 Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A TểM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Ngày nay, tìm kiếm thông tin trên Internet đã trở thành công việc không thể thiếu với rất nhiều người, đặc biệt là sinh viên, học sinh, giảng viên, nghiên cứu sinh, … Một trong những đối tượng được họ quan tâm nhiều nhất để phục vụ cho quá trình học tập và nghiên cứu của mình là các tài liệu khoa học, những luận văn, đồ án chuyên sâu … Tuy nhiên những hệ thống tìm kiếm chuyên biệt tài liệu khoa học chưa nhiều, chưa hoàn thiện và chưa hỗ trợ tốt cho ngôn ngữ tiếng Việt. Mục đích của đề tài này là tìm hiểu xây dựng mô hình hệ thống quản lý tài liệu khoa học dựa theo mô hình tìm kiếm thông tin trên Internet. Đồ án đưa ra mô hình kiến trúc tổng quan và các thành phần của hệ quản lý tài liệu khoa học, các kĩ thuật trích rút thông tin đặc trưng (tiờu đề, tỏc giả, nhà xuất bản, …) và tham chiếu (tài liệu tham khảo) của tài liệu, từ đó tổ chức lưu trữ và tìm kiếm tài liệu theo các thông tin đã trích rút. Để hiện thực húa mô hình hoạt động, đồ án sử dụng bộ mã nguồn mở CiteSeerX, một thành phần trong bộ SeerSuit, nhằm xừy dựng hệ thu thập, tìm kiếm tài liệu khoa học và cài đặt những thành phần dịch vụ hỗ trợ cho việc lọc, phân tách, trích rút thông tin đặc trưng và tham chiếu từ tài liệu. Đồng thời, đồ án còn thêm vào các chức năng để hoàn thiện hệ thống từ những dịch vụ cơ bản đã được cung cấp bởi bộ mã nguồn mở CiteSeerX. NỘI DUNG ĐỒ ÁN Chương 1 : Nhu cầu tìm kiếm và tra cứu tài liệu chuyên ngành hiện nay. Chương 2 : Cơ sở lý thuyết về hệ thống tìm kiếm thông tin. Chương 3 : Kiến trúc hệ thống tra cứu tài liệu khoa học Chương 4 : Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn bộ mó nguồn mở CiteSeerX MỤC LỤC PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1 TểM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP 2 NỘI DUNG ĐỒ ÁN 2 Chương 1: Nhu cầu tìm kiếm và tra cứu tài liệu khoa học chuyên ngành hiện nay 8 1. Quản lý và chia sẻ tài liệu khoa học 8 1. 1 Tài liệu khoa học là gì 8 1. 2 Nhu cầu trao đổi và chia sẻ tài liệu khoa học 8 1. 3 Quản lý và tìm kiếm tài liệu khoa học 9 1. 4 Các chức năng cần có của một hệ quản lý và tìm kiếm tài liệu khoa học 9 Chương 2: Cơ sở lý thuyết về hệ tìm kiếm thông tin 9 1. Tổng quan về tìm kiếm thông tin 9 1. 1 Khái niệm cơ bản về hệ tìm kiếm thông tin 9 1. 2 Mô hình của hệ tìm kiếm thông tin 11 2. Các thành phần của hệ tìm kiếm thông tin 12 2. 1 Bộ biểu diễn cừu truy vấn 12 2. 1. 1 Cỏc toỏn tử tìm kiếm cơ bản 12 2. 1. 2 Quá trình biểu diễn cừu truy vấn 13 2. 2 Bộ biểu diễn tài liệu 15 2. 3 Bộ đối sỏnh 16 3. Tìm kiếm thông tin trên web 17 3. 1 Mô hình hệ thống 17 3. 2 Hoạt động của hệ thống 18 3. 3 Một số kỹ thuật được sử dụng 19 3. 3. 1 Xếp hạng trang ( Page Rank ) 19 3. 3. 2 Phừn cụm 19 3. 3. 3 Phừn lớp 20 3. 3. 4 Phản hồi từ người dùng 20 4. Quản lý và tìm kiếm đối với tài liệu khoa học 20 4. 1 Cấu trúc của một tài liệu khoa học 20 4. 2 Quản lý tài liệu khoa học 22 Chương 3: Hệ thống tra cứu tài liệu khoa học 23 1. Kiến trúc tổng quan hệ thống tra cứu tài liệu khoa học 23 2. Kỹ thuật trích chọn thông tin 25 2. 1 Trích chọn đặc trưng tài liệu 25 2. 1. 1 Gỏn nhón 25 2. 1. 2 Phân loại dòng 26 2. 1. 3 Phân loại dòng dựa trên thông tin ngữ cảnh 27 2. 2 Thuật toán trích chọn metadata 27 2. 2. 1 Phân dòng dựa trên Support Vector Machine ( SVM ) 27 2. 2. 2 Đặc trưng trích chọn 28 2. 2. 3 Quá trình phân dòng 29 2. 2. 4 Trích chọn metadata từ dòng đa lớp 30 2. 2. 5 Định biên trên dòng đa tác giả 31 Định biên trên dòng phân cách bởi dấu cách 31 Định biên trên dòng phân cách bởi khoảng trắng 32 2. 3 Thuật toán trích chọn thông tin tham chiếu 33 2.3.1 Đặc trưng miờu tả 33 2. 3. 2 Phân đoạn thông tin tham chiếu ( Citation ) 34 Nhận biết Citations 34 2. 3. 3 Hiệu chỉnh dữ liệu sau khi gỏn nhón ( CRF ) 37 2. 3. 4 Đưa ra ngữ cảnh tham chiếu 38 39 Chương 4: Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn bộ mó nguồn mở CiteSeerX 39 1. Giới thiệu về CiteSeerX 39 1. 1 Dự ỏn SeerSuite 39 1. 2 Dự ỏn CiteSeer 39 1. 3 Dự ỏn CiteSeerX 41 2. Mô hình hệ thống của CiteSeerX 43 3. Phừn tớch chi tiết hệ thống CiteSeerX 45 3. 1 Mô hình cơ sở dữ liệu – Storage Layer 45 3. 2 Cỏc service sử dụng trong CiteSeerX - Application Layer 47 3. 2. 1 Heritrix – Tiện ích để crawl dữ liệu – Crawling Server 47 3. 2. 1. 1 Giới thiệu về Heritrix 47 3. 2. 2. 2 Hoạt động 48 3. 2. 2 Cỏc dịch vụ hỗ trợ cho việc vào ra dữ liệu 49 3. 2. 2. 1 Cỏc dịch vụ phừn tỏch văn bản 50 A. File Converter 51 B. ParsCit 52 C. SVM Header Parse 53 3. 2. 2. 2 Các class xử lý dữ liệu thô 54 3. 2. 3 Cỏc chức năng thờm vào để hoàn thiện hệ thống 54 3. 2. 3. 1 Chức năng Upload từ máy người dùng 54 3. 2. 3. 2 Chức năng Auto Suggestion 55 A. Đặt vấn đề 55 B. Cơ sở dữ liệu 55 C. Hoạt động 55 4. Giao diện và hoạt động của hệ thống 56 4. 1Chức năng search 56 4.2Hỗ trợ người dùng upload tài liệu lên máy chủ 60 4. 3 Sử dụng Heritrix 61 4.4Chức năng Auto Suggestion 61 CÁC KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI 61 1. Cỏc kết quả đạt được 61 2. Những mặt hạn chế 62 3. Hướng phỏt triển trong tương lai 62 TÀI LIỆU THAM KHẢO 62 Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A [...]... một số thành phần chính theo thứ tự sau : • Tiờu đề (title): miờu tả ngắn gọn nội dung của tài liệu Thông tin về tác giả (author): tên, địa chỉ, email, nơi làm việc, … • Phần tóm tắt (abstract): giới thiệu, tóm tắt một số nội dung chính của bài viết, giúp người đọc hiểu khái quát về tài liệu • Phần nội dung chính của bài viết: đặt vấn đề, giải quyết vấn đề, các phương pháp kĩ thuật thực hiện, kết... citation của nú, đồng thời sắp xếp và hiển thị số lần một citation được liên kết bởi các văn bản khác Điều này giúp người dùng có thể đánh giá độ tin cậy về mặt lý thuyết của kết quả trả về vì tài liệu tham khảo tới những citation có giá trị thì nhìn chung độ tin cậy về mặt lý thuyết của nú sẽ đáng tin • Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A Hình 26: Hiển thị Citations đi kốm kết quả Search... dụng một số thuật giải heuristic nhằm xác định dòng bắt đầu hoặc kết thúc 1 citation Một số thuật giảiđược dùng đoỏn nhận đoạn citation: • Dựa trên độ dài dòng : Độ dài dòng rất nhỏ (chỉ có 1 hay 2 từ ) được bỏ qua • Dòng chứa tên tác giả : đoán nhận là dòng tác giả khi dòng chỉ chứa những từ là chữ cái, không có chữ số, phân cách các từ bằng dấu “, ;” , kết thúc bằng dấu “.” • Coi mỗi dòng của phần citations... cần thiết Hệ thống cần hiệu chỉnh để trích lọc những thông tin cần thiết đưa vào các tag Một số hiệu chỉnh thường dùng : Tỏch tờn : Chuỗi tên gán vào lớp tên có thể bao gồm nhiều tên tác giả Hệ thống sẽ đoán nhận từng cụm tên dựa trên dấu phân cách (dấu , ;) sau đó đưa cụm tên về định dạng chuẩn : ( Họ- Tờn đệm – Tờn ), không có dấu phân cách đi kèm Hiệu chỉnh trường số :hiệu chỉnh một số trường số. .. đề, các phương pháp kĩ thuật thực hiện, kết quả thực hiện, đánh giá tổng kết, kết luận, … Phần tài liệu tham khảo: phần cuối cùng của bài viết, liệt kê các tài liệu được tác giả tham chiếu tới Các thông tin về tài liệu tham khảo bao gồm tựa đề, tác giả, năm xuất bản, số trang, …và theo một định dạng nhất định Tài liệu khoa học là kết tinh của một quá trình làm việc sáng tạo, lâu dài của tác giả, có giá... ra, hệ thống cần thêm những chức năng mới để nâng cao kết quả tìm kiếm • Tìm kiếm theo hướng người dùng: dựa trên những thông tin về người dùng cũng như các kết quả tìm kiếm trong quá khứ để khoanh vùng kết quả, cho ra kết quả chuẩn xác hơn đối với từng người dùng • Hỗ trợ liên kết theo Citation: từ 1 Citation có thể tìm tất cả các tài liệu liên kết tới nú Việc này sẽ giúp người dùng mở rộng hướng tìm... viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A Hình 11 thể hiện cấu trúc một phần tài liệu tham khảo Trong đó mỗi đoạn con chứa thông tin của 1 citation thường được đỏnh dấu ở đầu đoạn Một số cỏch đỏnh dấu 1 đoạn citation là: • Một chuỗi kí tự số hay chữ đươc bao bởi dấu ngoặc: Ví dụ: [1], (1), [Hanm06], … • Chuỗi số đỏnh dấu đơn (nake number) hay đi kốm dấu “.” ví dụ: “1”, “2.”, “3”, … • Các đoạn... bất tiện cho người đọc, tìm kiếm Thực tế trên đã dẫn tới nhu cầu cần có một hệ thống lưu trữ và quản lý các tài liệu khoa học một cách thống nhất Nú không chỉ phải giúp người đọc dễ dàng tìm • Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A kiếm được các tài liệu, đánh giá được chất lượng bài viết mà còn cung cấp cho các tác giả biết được mức độ quan tâm của cộng đồng với kết quả nghiên cứu... tìm kiếm cần có một thành phần có khả năng phân tích xử lý tự động trích lọc các thành phần đặc trưng và tham chiếu của tài liệu 1 4 Các chức năng cần có của một hệ quản lý và tìm kiếm tài liệu khoa học Từ các phân tích trên ta thấy nhu cầu cần xây dựng một hệ thống quản lý tìm kiếm các tài liệu khoa học có một số chức năng chính sau: Tổ chức lưu trữ các tài liệu: Các thành phần được lưu trữ bao gồm... trùng với những từ vừa gõ và có độ tin cậy cao nhất Độ tin cậy được đánh giá dựa vào số lần kết quả đó được gọi trong truy vấn Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A • 1 Bước 2: sau khi người dùng chọn 1 giá trị trong số các từ khúa gợi ý và gửi lên server, server sẽ thực hiện kiểm tra Nếu chưa có kết quả trong cơ sở dữ liệu, từ khúa vừa dùng sẽ được lưu vào cơ sở dữ liệu với name . tắt một số nội dung chính của bài viết, giúp người đọc hiểu khái quát về tài liệu. • Phần nội dung chính của bài viết: đặt vấn đề, giải quyết vấn đề, các phương pháp kĩ thuật thực hiện, kết quả. vấn đề, các phương pháp kĩ thuật thực hiện, kết quả thực hiện, đánh giá tổng kết, kết luận, … Phần tài liệu tham khảo: phần cuối cùng của bài viết, liệt kê các tài liệu được tác giả tham chiếu tới dụng Heritrix 61 4.4Chức năng Auto Suggestion 61 CÁC KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI 61 1. Cỏc kết quả đạt được 61 2. Những mặt hạn chế 62 3. Hướng phỏt triển trong tương lai

Ngày đăng: 07/01/2015, 20:19

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w