1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trên CiteSeerX.

69 428 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 6,62 MB

Nội dung

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Thông tin sinh viên Họ tên sinh viên: Trần Đinh Hưng Điện thoại liên lạc 0979472676 Email: ayukco@yahoo.com Lớp: HTTT - A Khóa 50 Hệ đào tạo:Chính quy Đồ án tốt nghiệp thực tại: Viện Công nghệ thông tin Truyền thông Thời gian làm ĐATN: Từ ngày 28 / /2010 đến 28 / 05 /2010 Mục đích nội dung ĐATN Xây dựng hệ thống thu thập, quản lý tài liệu khoa học dựa CiteSeerX Các nhiệm vụ cụ thể ĐATN Tìm hiểu kiến trúc hệ tìm kiếm thơng tin Tìm hiểu kiến trúc hệ thống CiteSeerX Xây dựng hệ thống thu thập, quản lý tìm kiếm tài liệu dựa CiteSeerX Thêm chức để hoàn thiện hệ thống: Auto Suggestion, hỗ trợ upload tài liệu từ máy người dùng Lời cam đoan sinh viên: Tôi – Trần Đinh Hưng – cam kết ĐATN cơng trình nghiên cứu thân tơi hướng dẫn ThS Đỗ Bích Diệp Các kết nêu ĐATN trung thực, chép tồn văn cơng trình khác Hà Nội, ngày 27 tháng 05 năm 2010 Tác giả ĐATN Trần Đinh Hưng Xác nhận giáo viên hướng dẫn mức độ hoàn thành ĐATN cho phép bảo vệ: Hà Nội, ngày 27 tháng 05 năm 2010 Giáo viên hướng dẫn ThS Đỗ Bích Diệp Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Ngày nay, tìm kiếm thơng tin Internet trở thành công việc thiếu với nhiều người, đặc biệt sinh viên, học sinh, giảng viên, nghiên cứu sinh,… Một đối tượng họ quan tâm nhiều để phục vụ cho trình học tập nghiên cứu tài liệu khoa học, luận văn, đồ án chuyên sâu … Tuy nhiên hệ thống tìm kiếm chuyên biệt tài liệu khoa học chưa nhiều, chưa hoàn thiện chưa hỗ trợ tốt cho ngôn ngữ tiếng Việt Mục đích đề tài tìm hiểu xây dựng mơ hình hệ thống quản lý tài liệu khoa học dựa theo mơ hình tìm kiếm thơng tin Internet Đồ án đưa mơ hình kiến trúc tổng quan thành phần hệ quản lý tài liệu khoa học, kĩ thuật trích rút thơng tin đặc trưng (tiêu đề, tác giả, nhà xuất bản, …) tham chiếu (tài liệu tham khảo) tài liệu, từ tổ chức lưu trữ tìm kiếm tài liệu theo thơng tin trích rút Để thực hóa mơ hình hoạt động, đồ án sử dụng mã nguồn mở CiteSeerX, thành phần SeerSuit, nhằm xây dựng hệ thu thập, tìm kiếm tài liệu khoa học cài đặt thành phần dịch vụ hỗ trợ cho việc lọc, phân tách, trích rút thông tin đặc trưng tham chiếu từ tài liệu Đồng thời, đồ án thêm vào chức để hoàn thiện hệ thống từ dịch vụ cung cấp mã nguồn mở CiteSeerX Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A NỘI DUNG ĐỒ ÁN Chương : Nhu cầu tìm kiếm tra cứu tài liệu chuyên ngành Chương : Cơ sở lý thuyết hệ thống tìm kiếm thơng tin Chương : Kiến trúc hệ thống tra cứu tài liệu khoa học Chương : Xây dựng hệ thống thu thập, quản lý tài liệu khoa học dựa mã nguồn mở CiteSeerX Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A MỤC LỤC PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP .2 NỘI DUNG ĐỒ ÁN Chương 1: Nhu cầu tìm kiếm tra cứu tài liệu khoa học chuyên ngành 12 Quản lý chia sẻ tài liệu khoa học 12 1.1 Tài liệu khoa học 12 1.2 Nhu cầu trao đổi chia sẻ tài liệu khoa học 12 1.3 Quản lý tìm kiếm tài liệu khoa học .13 1.4 Các chức cần có hệ quản lý tìm kiếm tài liệu khoa học .13 Chương 2: Cơ sở lý thuyết hệ tìm kiếm thơng tin 14 Tổng quan tìm kiếm thơng tin 14 1.1 Khái niệm hệ tìm kiếm thơng tin .14 1.2 Mơ hình hệ tìm kiếm thơng tin 15 Các thành phần hệ tìm kiếm thơng tin 16 2.1 Bộ biểu diễn câu truy vấn 16 2.1.1 Các tốn tử tìm kiếm .16 2.1.2 Quá trình biểu diễn câu truy vấn 17 2.2 Bộ biểu diễn tài liệu 19 2.3 Bộ đối sánh 20 Tìm kiếm thơng tin web 21 3.1 Mơ hình hệ thống .21 3.2 Hoạt động hệ thống 22 3.3 Một số kỹ thuật sử dụng 23 3.3.1 Xếp hạng trang ( Page Rank ) 23 3.3.2 Phân cụm 23 Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 3.3.3 Phân lớp 24 3.3.4 Phản hồi từ người dùng 24 Quản lý tìm kiếm tài liệu khoa học 24 4.1 Cấu trúc tài liệu khoa học .24 4.2 Quản lý tài liệu khoa học 26 Chương 3: Hệ thống tra cứu tài liệu khoa học 28 Kiến trúc tổng quan hệ thống tra cứu tài liệu khoa học 28 Kỹ thuật trích chọn thông tin 29 2.1 Trích chọn đặc trưng tài liệu 29 2.1.1 Gán nhãn 29 2.1.2 Phân loại dòng 30 2.1.3 Phân loại dòng dựa thông tin ngữ cảnh 31 2.2 Thuật tốn trích chọn metadata 31 2.2.1 Phân dòng dựa Support Vector Machine ( SVM ) 31 2.2.2 Đặc trưng trích chọn 32 2.2.3 Q trình phân dịng 34 2.2.4 Trích chọn metadata từ dịng đa lớp 35 2.2.5 Định biên dòng đa tác giả 35 Định biên dòng phân cách dấu cách .35 Định biên dòng phân cách khoảng trắng .36 2.3 Thuật tốn trích chọn thơng tin tham chiếu .37 2.3.1 Đặc trưng miêu tả .37 2.3.2 Phân đoạn thông tin tham chiếu ( Citation ) .39 Nhận biết Citations .39 2.3.3 Hiệu chỉnh liệu sau gán nhãn ( CRF ) 42 2.3.4 Đưa ngữ cảnh tham chiếu 42 43 Chương 4: Xây dựng hệ thống thu thập, quản lý tài liệu khoa học dựa mã nguồn mở CiteSeerX 44 Giới thiệu CiteSeerX 44 Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 1.1 Dự án SeerSuite 44 1.2 Dự án CiteSeer 44 1.3 Dự án CiteSeerX 46 Mơ hình hệ thống CiteSeerX .48 Phân tích chi tiết hệ thống CiteSeerX 50 3.1 Mơ hình sở liệu – Storage Layer 50 3.2 Các service sử dụng CiteSeerX - Application Layer .52 3.2.1 Heritrix – Tiện ích để crawl liệu – Crawling Server 52 3.2.1.1 Giới thiệu Heritrix 52 3.2.2.2 Hoạt động 53 3.2.2 Các dịch vụ hỗ trợ cho việc vào liệu 54 3.2.2.1 Các dịch vụ phân tách văn 55 A File Converter 56 B ParsCit 57 C SVM Header Parse 58 3.2.2.2 Các class xử lý liệu thô 59 3.2.3 Các chức thêm vào để hoàn thiện hệ thống 60 3.2.3.1 Chức Upload từ máy người dùng 60 3.2.3.2 Chức Auto Suggestion .60 A Đặt vấn đề .60 B Cơ sở liệu 61 C Hoạt động 61 Giao diện hoạt động hệ thống .62 4.1 Chức search .63 4.2 Hỗ trợ người dùng upload tài liệu lên máy chủ 66 4.3 Sử dụng Heritrix 67 4.4 Chức Auto Suggestion .67 CÁC KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI .68 Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A Các kết đạt .68 Những mặt hạn chế 68 Hướng phát triển tương lai 68 TÀI LIỆU THAM KHẢO 70 Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A DANH MỤC CÁC HÌNH Hình 1: Bản chất tìm kiếm thơng tin 14 Hình 2: Mơ hình hệ tìm kiếm thơng tin 15 Hình 3: Minh họa cho trình biểu diễn câu truy vấn với câu truy vấn ‘java OR programming‘ 17 Hình 4: Quá trình biểu diễn tài liệu 19 Hình 5: Các thành phần hệ tìm kiếm thơng tin Internet 21 Hình 6(a): Cấu trúc tài liệu khoa học 25 Hình 6(b): Cấu trúc tài liệu khoa học .26 Hình 7: Mơ hình tổng quan hệ quản lý tài liệu khoa học 28 Hình 8: Các dịng header metatagged .30 Hình 9: Quá trình phân loại dòng .34 Hinh10(a): Dấu hiệu nhận biết phần tài liệu tham khảo viết 39 Hình 10(b): Dấu hiệu nhận biết tài liệu tham khảo 40 Hình 11: Cấu trúc phần tài liệu tham khảo .41 Hình 12: Ngữ cảnh tham chiếu tài liệu 42 Hình 13: Kiến trúc CiteSeer .45 Hình 14: Virtual Document 46 Hình 15: Vị trí CiteSeerX Web of World Repositories .47 Hình 16: Kiến trúc CiteSeerX 48 Hình 17: Các bảng sở liệu hệ thống 51 Hình 18: Hoạt động Heritrix 54 Hình 19: Hoạt động dịch vụ hỗ trợ vào liệu 55 Hình 20: Mơ hình hoạt động phân tách văn 56 Hình 21: Hoạt động trang upload 60 Hình 22: Giao diện hệ thống 62 Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A Hình 23: Query search theo Documents 63 Hình 24: Search theo Authors 64 Hình 25: Duyệt trước Abstract kết .64 Hình 26: Hiển thị Citations kèm kết .65 Hình 27: Advanced Search .65 Hình 28: Hiển thị văn 66 Hình 29: Giao diện trang submit tài liệu 66 Hình 30: Chạy job Heritrix 67 Hình 31: Chức Auto Suggestion .67 Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A • • • • • • • • • DANH MỤC CÁC TỪ VIẾT TẮT Server : máy chủ Client : máy trạm Query : câu truy vấn Crawl : sử dụng filter để tải liệu Citation : trích dẫn, thường thấy mục Tài liệu tham khảo Logging service : dịch vụ ghi lại thông tin hoạt động hệ thống Header : thông tin thường nằm đầu tài liệu khoa học Abstract : phần tóm tắt văn Submit : tải tài liệu lên máy chủ Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 10 Hình 19: Hoạt động dịch vụ hỗ trợ vào liệu 3.2.2.1 Các dịch vụ phân tách văn Các dịch vụ hướng phân tách liệu dịch vụ hỗ trợ cho việc chuyển định dạng (converter), trích rút phần header, citations, phân tách lấy thông tin đặc trưng (metadata) hay tham chiếu ( refenrences ) tài liệu khoa học cung cấp đầu vào cho việc lưu trữ, phân loại, tìm kiếm tài liệu Tài liệu sau thu thập web qua crawler lưu vào kho liệu hệ thống dịch vụ hệ thống trích rút phân tách lấy thông tin cần thiết Các dịch vụ - module bao gồm : • File Converter : chuyển định dạng file • ParsCit : trích rút thơng tin phần tài liệu tham khảo (citations) • SVM HeaderParser : trích rút thơng tin phần header tài liệu Đầu dịch vụ file body, cite, xml, txt, pdf lưu trữ nội dụng tài liệu, header, citation Đây phần quan trọng cần nghiên cứu sâu để tạo hệ thống hỗ trợ tốt tiếng Việt Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 55 Hình 20: Mơ hình hoạt động phân tách văn A File Converter Tài liệu thu thập web thường có định dạng số pdf, ps, … nén (zip, gzip) Để giúp cho việc xử lý thông tin hiệu file tài liệu chuyển sang định dạng text (txt) module file converter đảm nhiệm vai trị Module sử dụng trình bao (wrapper) chuyển đổi định dạng Converter sử dụng PDFLib TET (có trả phí, free convert tối đa 10 trang) PDFBox (mã nguồn mở, miễn phí) • PDFLib TET: http://www.pdflib.com/products/tet/ • PDFBox: http://www.pdfbox.org/ Bộ converter cài đặt riêng tham chiếu vào module file converter thông qua file config nên linh hoạt dễ dàng thay đổi cần thiết Trong tương lai cài đặt thêm trình chứa khác để module hỗ trợ chuyên đổi nhiều định dạng file Chạy module dạng command line : Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 56 extractText.pl textFile Các tham số modun : • Tham số đầu vào: textfile - Đường dẫn đến file tài liệu cần chuyển đổi dạng pdf, ps • Tham số đầu ra: File text tên file tài liệu gốc mã SHA1- mã checksum để kiểm tra tình trạng file File text sau module dịch vụ cịn lại xử lý trích rút thơng tin B ParsCit Module trích rút phần tài liệu tham khảo viết đưa thông tin tài liệu tham khảo Các thơng tin author (tên tác giả), title (tiêu đề viết), date (ngày xuất bản), year(năm xuất bản), pages (số trang), context (đoạn văn viết tham chiếu đến tài liệu tham khảo) ,… Module sử dụng tookit CRF++ thực thi mô hình trạng thái tuyến tính vơ hướng Conditional Random Fields để phân loại gán nhãn liệu vào trường tương ứng (author, title, year,pages, context ) Để hỗ trợ cho xử lý tìm kiếm, với file text tài liệu phân tích abc.txt ParsCit phân tách thành file abc.cite chứa phần tham chiếu abc.body chứa phần lại tài liệu với file xml miêu tả thành phần trường thông tin tài liệu tham khảo File xml có dạng: Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 57 NAME … TITLE DATE JOURNAL BOOKTITLE TECHREPORT # VOLUME START—END EDITORS PUBLISHER INSTITUTION LOCATION NOTE CONTEXT … MARKER RAW CITATION STRING … File Xml sau hệ thống xử lý, nạp giá trị tag vào đối tượng lưu trữ : author, citations, … dùng cho tìm kiếm sau Chạy Module dạng Command Line : citeExtract.pl textfile [outfile] Tham số vào- textfile: Đường dẫn tới file cần phân tích Đầu -outfile: Tên file xml chưa thông tin Nếu không xác định outfile ,module tự động ghi STDOUT C SVM Header Parse Module trích rút phần header viết, đưa thông tin đặc trưng (metadata) tài liệu Những thơng tin tiêu đề viết (title), thông tin tác giả (author) bao gồm :tên (name), địa (address), nơi chứng nhận tư cách tác giả (affiliation), địa mail (email); từ khóa thể nội dung viết (keyword), thơng tin tóm tắt viết (abstract), thời gian công bố (date) Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 58 Mỗi thông tin tương ứng với lớp phân loại module đưa vào file xml mà thành tố (element) đại diện cho lớp File xml có dạng : TITLE NAME1 AFFILIATION1 ADDRESS1 EMAIL1 NAME2 AFFILIATION2 ADDRESS2 EMAIL2 … KEYWORD1 KEYWORD2 … ABSTRACT DATE File Xml sau hệ thống xử lý, nạp giá trị tag vào đối tượng lưu trữ tương ứng: author, keywords, … dùng cho tìm kiếm sau Chạy Module dạng Command Line : extractHeader.pl textfile [outfile] Đầu vào- textfile : Đường dẫn tới file text cần trích chọn Đầu ra- outfile: file xml lưu thông tin Nếu không miêu tả đầu ra, module tự động ghi STDOUT 3.2.2.2 Các class xử lý liệu thô Đây class JAVA hỗ trợ việc đưa liệu vào sở liệu Nó nhận đầu vào file xml chứa thông tin đặc trưng văn : header, citation, abstract… Sau tách riêng trường file xml, class thông qua Storage Access and Management Interface : lưu liệu vào MySql, đồng thời đưa liệu lên Solr để cập nhật liệu cho search engine Solr Để tiện cho việc sử dụng, em tách class cần dùng vào file citeseerx.jar Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 59 3.2.3 Các chức thêm vào để hoàn thiện hệ thống 3.2.3.1 Chức Upload từ máy người dùng Bộ mã nguồn mở cung cấp IST trọng đến việc thu thập liệu dựa vào Heritrix mà không hỗ trợ người dùng upload tài liệu Nhưng thực tế, số website lớn hạn chế hoạt động crawler, đồng thời nhu cầu nhà nghiên cứu, nhà khoa học - muốn đưa nghiên cứu khoa học lên server chia sẻ với người – thực tế lớn Điều đặc vấn đề cần có chức hỗ trợ người dùng tải tài liệu khoa học Nó khơng tạo tiện lợi cho người dùng mà nguồn để thu thập tài liệu cho hệ thống Hình 21: Hoạt động trang upload Upload.jsp : hỗ trợ việc truyền bite file từ client lên server, sau build lại file từ bite nhận Run.bat : chạy service phân tách văn Citeseerx.jar : chạy class xử lý liệu thô 3.2.3.2 Chức Auto Suggestion A Đặt vấn đề Rất nhiều trường hợp,người dùng khơng có xác định nghĩa tìm kiếm Ví dụ thực tế người dùng muốn tìm “xml parsing using DOM” họ chưa có khái niệm DOM mà muốn tìm cách để parse file xml Khi sử dụng chức Auto Suggestion, cần người dùng nhập vào “xml parsing” có loạt kết để hỗ trợ người dùng tìm kiếm tốt Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 60 B Cơ sở liệu Cấu trúc file xml lưu trữ query phổ biến name : query gửi tới máy chủ count : số lần gửi tới máy chủ C Hoạt động • Bước 1: người dùng nhập từ khóa, JavaScript gọi để lấy 10 giá trị trùng với từ vừa gõ có độ tin cậy cao Độ tin cậy đánh giá dựa vào số lần kết gọi truy vấn • Bước 2: sau người dùng chọn giá trị số từ khóa gợi ý gửi lên server, server thực kiểm tra Nếu chưa có kết sở liệu, từ khóa vừa dùng lưu vào sở liệu với name từ khóa, count Nếu có sở liệu, trả giá trị tăng count lên thêm Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 61 Giao diện hoạt động hệ thống Hình 22: Giao diện hệ thống Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 62 4.1 Chức search Các tùy chọn cho chức search • Search theo Documents Hình 23: Query search theo Documents • Search theo Authors Sự khác search theo Authors, query gửi tới servlet gắn thêm “t=auth” để servlet nhận biết cách search chuyển thêm tham số “title:” vào string gửi tới solr Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 63 Hình 24: Search theo Authors Ngồi ra, hệ thống hỗ trợ người dùng duyệt trước Abstract kết trước định duyệt văn Hình 25: Duyệt trước Abstract kết Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 64 • Search có thêm tùy chọn hiển thị citation - Include Citations Tùy chọn cho phép liệt kê kèm kết citation nó, đồng thời xếp hiển thị số lần citation liên kết văn khác Điều giúp người dùng đánh giá độ tin cậy mặt lý thuyết kết trả tài liệu tham khảo tới citation có giá trị nhìn chung độ tin cậy mặt lý thuyết đáng tin Hình 26: Hiển thị Citations kèm kết • Search theo chế độ metadata - Advanced Search Đây kiểu search mà liệu lấy trực tiếp từ sở liệu Kiểu search có ưu điểm cho kết gần với mong muốn người dùng, tăng thời gian tìm kiếm tăng tải hệ thống Hình 27: Advanced Search Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 65 Hình 28: Hiển thị văn Kết hiển thị citation cho phép người dùng tải để xem tất nội dung văn 4.2 Hỗ trợ người dùng upload tài liệu lên máy chủ Hình 29: Giao diện trang submit tài liệu Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 66 4.3 Sử dụng Heritrix Hình 30: Chạy job Heritrix 4.4 Chức Auto Suggestion Hình 31: Chức Auto Suggestion Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 67 CÁC KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI Các kết đạt Sau thực đồ án, số kết em đạt được: • Hiểu khái niệm hệ thống tìm kiếm tài liệu kiến trúc hệ tìm kiếm tài liệu nói chung • Hiểu khái niệm mơ hình MVC để phục vụ cho việc nghiên cứu mã nguồn mở CiteSeerX • Hiểu kiến trúc cách thức hoạt động service CiteSeerX tích hợp thành cơng vào hệ thống để convert, phân tách gán nhãn cho trường văn • Hiểu mơ hình kiến trúc CiteSeerX mã nguồn mở CiteSeerX hoạt động mã nguồn mở lớp Cài đặt chạy thành công mã nguồn mở CiteSeerX Những mặt hạn chế Do kinh nghiệm làm việc với Framework mã nguồn mở hạn chế, nên đồ án số hạn chế: • Hệ thống cịn thiếu chức để mở rộng kết tìm kiếm đưa kết gần với người dùng • Hệ thống hỗ trợ tài liệu tiếng Anh Hướng phát triển tương lai Các hệ thống thu thập, quản lý hỗ trợ tìm kiếm tài liệu khoa học kỹ thuật hỗ trợ tốt ngôn ngữ tiếng Việt chưa có, đặc biệt hỗ trợ tìm kiếm tiếng Việt theo ngữ nghĩa Với yêu cầu tiếng Việt, ta có hướng phát triển sau: • Cần có server riêng, hỗ trợ tiếng Anh hỗ trợ tiếng Việt • Can thiệp parsing, cụ thể service phân tách văn • Can thiệp indexing, cụ thể solr • Can thiệp đoạn code hiển thị để support tốt mã tiếng Việt Ngoài ra, hệ thống cần thêm chức để nâng cao kết tìm kiếm • Tìm kiếm theo hướng người dùng: dựa thơng tin người dùng kết tìm kiếm khứ để khoanh vùng kết quả, cho kết chuẩn xác người dùng Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 68 • Hỗ trợ liên kết theo Citation: từ Citation tìm tất tài liệu liên kết tới Việc giúp người dùng mở rộng hướng tìm kiếm theo chủ đề quan tâm Sinh viên thực hiện: Trần Đinh Hưng - Khóa 50 Lớp HTTT - A 69 ... - A 27 Chương 3: Hệ thống tra cứu tài liệu khoa học Kiến trúc tổng quan hệ thống tra cứu tài liệu khoa học Ta cần xây dựng hệ thống quản lý tài liệu khoa học dựa mơ hình hệ thống tìm kiếm thơng... tài liệu Nó sử dụng cho việc phân lớp tài liệu Quản lý tìm kiếm tài liệu khoa học 4.1 Cấu trúc tài liệu khoa học Với hệ thống tìm kiếm tài liệu khoa học, đối tượng tìm kiếm tài liệu báo cáo khoa. .. ngành Chương : Cơ sở lý thuyết hệ thống tìm kiếm thơng tin Chương : Kiến trúc hệ thống tra cứu tài liệu khoa học Chương : Xây dựng hệ thống thu thập, quản lý tài liệu khoa học dựa mã nguồn mở CiteSeerX

Ngày đăng: 06/05/2015, 10:36

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Automatic Document Metadata Extraction Using Support Vector Machines, in Proceedings of ACM/IEEE Joint Conference on Digital Libraries (JCDL 2003):37-48, 2003 Sách, tạp chí
Tiêu đề: Proceedings of ACM/IEEE Joint Conference on Digital Libraries
[2] Isaac G. Councill, C. Lee Giles, and Min-Yen Kan. ParsCit: a CRF-based citation parser. In development Khác
[3] CiteSeerX - A Scalable Autonomous Scientific Digital Library, Huajing Li Isaac G. Councill Levent Bolelli Ding Zhou Yang Song Wang-Chien Lee Anand Sivasubramaniam C. Lee Giles Khác
[4] CiteSeer-API: Towards Seamless Resource Location and Interlinking for Digital Libraries, Yves Petinot, C. Lee Giles, Vivek Bhatnagar, Pradeep B.Teregowda, Hui Han, Isaac Councill Khác
[5] Indexing and Retrieval of Scientific Literature, Steve Lawrence, Kurt Boolacker, C.Lee Giles , NEC Research Institute Khác
[6] A Service-Oriented Architecture for Digital Libraries, Yves Petinot, C. Lee Giles, Vivek Bhatnagar, Pradeep B. Teregowda, Hui Han, Isaac Councill Khác
[7] Conditional Random Fields : An Introduction . Hanna M.Wallach ,Feb 24 2004 . [8] Document Transformation System from Papers to XML Data Based on PivotXML Document Method,Yasuto ISHITANI, Corporate Research &Development Center, Toshiba Corporation Khác
[9] Phân loại văn bản bằng phương pháp Support vector machine , Lương Thị Minh Hồng; Người hướng dẫn khoa học: Nguyễn Linh Giang Khác
[10] Tìm kiếm thông tin dựa theo ngữ cảnh trên môi trường di động, Đồ án tốt nghiệp K47, Đỗ thị Ngọc Quỳnh Khác
[17] An Introduction to Heritrix - An open source archival quality web crawler - Gordon Mohr, Michael Stack, Igor Ranitovic, Dan Avery and Michele Kimpton Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w