1. Trang chủ
  2. » Luận Văn - Báo Cáo

thiết kế phần mềm đọc mặt số đồng hồ nước

99 329 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 99
Dung lượng 614,94 KB

Nội dung

Đỗ Bích Diệp Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A TểM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Ngày nay, tìm kiếm thông tin trên Internet đã trở thành công việc không thể thi

Trang 1

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP

1 Thông tin về sinh viên

Họ và tờn sinh viờn: Trần Đinh Hưng

Điện thoại liờn lạc 0979472676 Email:ayukco@yahoo com

Lớp: HTTT - A Khúa 50 Hệ đào tạo:Chính quy

Đồ ỏn tốt nghiệp được thực hiện tại: Viện Công nghệ thông tin và Truyền thông

Thời gian làm ĐATN: Từ ngày 28 /2 / 2010 đến 28/ 05 / 2010

2 Mục đích nội dung của ĐATN

Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn CiteSeerX

3 Cỏc nhiệm vụ cụ thể của ĐATN

Tìm hiểu kiến trúc của hệ tìm kiếm thông tin

Tìm hiểu kiến trúc hệ thống CiteSeerX

Xây dựng hệ thống thu thập, quản lý và tìm kiếm tài liệu dựa trên CiteSeerX

Thêm các chức năng để hoàn thiện hệ thống: Auto Suggestion, hỗ trợ upload tài liệu từ máyngười dùng

4 Lời cam đoan của sinh viờn:

Tôi –Trần Đinh Hưng– cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của ThS Đỗ Bích Diệp

Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳ côngtrình nào khác

Trang 2

Hà Nội, ngày 27 thỏng 05 năm 2010

Giỏo viờn hướng dẫn

ThS Đỗ Bích Diệp

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

TểM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP

Ngày nay, tìm kiếm thông tin trên Internet đã trở thành công việc không thể thiếu với rấtnhiều người, đặc biệt là sinh viên, học sinh, giảng viên, nghiên cứu sinh, … Một trong những đốitượng được họ quan tâm nhiều nhất để phục vụ cho quá trình học tập và nghiên cứu của mình làcác tài liệu khoa học, những luận văn, đồ án chuyên sâu … Tuy nhiên những hệ thống tìm kiếmchuyên biệt tài liệu khoa học chưa nhiều, chưa hoàn thiện và chưa hỗ trợ tốt cho ngôn ngữ tiếngViệt

Mục đích của đề tài này là tìm hiểu xây dựng mô hình hệ thống quản lý tài liệu khoa học dựatheo mô hình tìm kiếm thông tin trên Internet Đồ án đưa ra mô hình kiến trúc tổng quan và cácthành phần của hệ quản lý tài liệu khoa học, các kĩ thuật trích rút thông tin đặc trưng (tiờu đề, tỏcgiả, nhà xuất bản, …) và tham chiếu (tài liệu tham khảo) của tài liệu, từ đó tổ chức lưu trữ và tìmkiếm tài liệu theo các thông tin đã trích rút Để hiện thực húa mô hình hoạt động, đồ án sử dụng

bộ mã nguồn mở CiteSeerX, một thành phần trong bộ SeerSuit, nhằm xừy dựng hệ thu thập, tìmkiếm tài liệu khoa học và cài đặt những thành phần dịch vụ hỗ trợ cho việc lọc, phân tách, tríchrút thông tin đặc trưng và tham chiếu từ tài liệu

Đồng thời, đồ án còn thêm vào các chức năng để hoàn thiện hệ thống từ những dịch vụ cơ bản

đã được cung cấp bởi bộ mã nguồn mở CiteSeerX

NỘI DUNG ĐỒ ÁN

Chương 1 : Nhu cầu tìm kiếm và tra cứu tài liệu chuyên ngành hiện nay

Chương 2 : Cơ sở lý thuyết về hệ thống tìm kiếm thông tin

Chương 3 : Kiến trúc hệ thống tra cứu tài liệu khoa học

Chương 4 : Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn bộ mó nguồn

mở CiteSeerX

MỤC LỤC

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1

TểM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP 2

NỘI DUNG ĐỒ ÁN 2

Trang 3

Chương 1: Nhu cầu tìm kiếm và tra cứu tài liệu khoa học chuyên ngành hiện

nay

8

1 Quản lý và chia sẻ tài liệu khoa học 8

1 1 Tài liệu khoa học là gì 8

1 2 Nhu cầu trao đổi và chia sẻ tài liệu khoa học 8

1 3 Quản lý và tìm kiếm tài liệu khoa học 9

1 4 Các chức năng cần có của một hệ quản lý và tìm kiếm tài liệu khoa học 9

Chương 2: Cơ sở lý thuyết về hệ tìm kiếm thông tin 9

1 Tổng quan về tìm kiếm thông tin 9

1 1 Khái niệm cơ bản về hệ tìm kiếm thông tin 9

1 2 Mô hình của hệ tìm kiếm thông tin 11

2 Các thành phần của hệ tìm kiếm thông tin 12

2 1 Bộ biểu diễn cừu truy vấn 12

2 1 1 Cỏc toỏn tử tìm kiếm cơ bản 12

2 1 2 Quá trình biểu diễn cừu truy vấn 13

2 2 Bộ biểu diễn tài liệu 15

2 3 Bộ đối sỏnh 16

3 Tìm kiếm thông tin trên web 17

3 1 Mô hình hệ thống 17

3 2 Hoạt động của hệ thống 18

3 3 Một số kỹ thuật được sử dụng 19

3 3 1 Xếp hạng trang ( Page Rank ) 19

3 3 2 Phừn cụm 19

3 3 3 Phừn lớp 20

3 3 4 Phản hồi từ người dùng 20

4 Quản lý và tìm kiếm đối với tài liệu khoa học 20

4 1 Cấu trúc của một tài liệu khoa học 20

4 2 Quản lý tài liệu khoa học 22

Chương 3: Hệ thống tra cứu tài liệu khoa học 23

1 Kiến trúc tổng quan hệ thống tra cứu tài liệu khoa học 23

2 Kỹ thuật trích chọn thông tin 25

2 1 Trích chọn đặc trưng tài liệu 25

2 1 1 Gỏn nhón 25

2 1 2 Phân loại dòng 26

2 1 3 Phân loại dòng dựa trên thông tin ngữ cảnh 27

2 2 Thuật toán trích chọn metadata 27

2 2 1 Phân dòng dựa trên Support Vector Machine ( SVM ) 27

2 2 2 Đặc trưng trích chọn 28

2 2 3 Quá trình phân dòng 29

2 2 4 Trích chọn metadata từ dòng đa lớp 30

Trang 4

2 2 5 Định biên trên dòng đa tác giả 31

Định biên trên dòng phân cách bởi dấu cách 31

Định biên trên dòng phân cách bởi khoảng trắng 32

2 3 Thuật toán trích chọn thông tin tham chiếu 33

2.3.1 Đặc trưng miờu tả 33

2 3 2 Phân đoạn thông tin tham chiếu ( Citation ) 34

Nhận biết Citations 34

2 3 3 Hiệu chỉnh dữ liệu sau khi gỏn nhón ( CRF ) 37

2 3 4 Đưa ra ngữ cảnh tham chiếu 38

39

Chương 4: Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn bộ mó nguồn mở CiteSeerX 39

1 Giới thiệu về CiteSeerX 39

1 1 Dự ỏn SeerSuite 39

1 2 Dự ỏn CiteSeer 39

1 3 Dự ỏn CiteSeerX 41

2 Mô hình hệ thống của CiteSeerX 43

3 Phừn tớch chi tiết hệ thống CiteSeerX 45

3 1 Mô hình cơ sở dữ liệu – Storage Layer 45

3 2 Cỏc service sử dụng trong CiteSeerX - Application Layer 47

3 2 1 Heritrix – Tiện ích để crawl dữ liệu – Crawling Server 47

3 2 1 1 Giới thiệu về Heritrix 47

3 2 2 2 Hoạt động 48

3 2 2 Cỏc dịch vụ hỗ trợ cho việc vào ra dữ liệu 49

3 2 2 1 Cỏc dịch vụ phừn tỏch văn bản 50

A File Converter 51

B ParsCit 52

C SVM Header Parse 53

3 2 2 2 Các class xử lý dữ liệu thô 54

3 2 3 Cỏc chức năng thờm vào để hoàn thiện hệ thống 54

3 2 3 1 Chức năng Upload từ máy người dùng 54

3 2 3 2 Chức năng Auto Suggestion 55

A Đặt vấn đề 55

B Cơ sở dữ liệu 55

C Hoạt động 55

4 Giao diện và hoạt động của hệ thống 56

4 1Chức năng search 56

4.2Hỗ trợ người dùng upload tài liệu lên máy chủ 60

4 3 Sử dụng Heritrix 61

4.4Chức năng Auto Suggestion 61

CÁC KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI 61

Trang 5

1 Cỏc kết quả đạt được 61

2 Những mặt hạn chế 62

3 Hướng phỏt triển trong tương lai 62

TÀI LIỆU THAM KHẢO 62

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

TểM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Ngày nay, tìm kiếm thông tin trên Internet đã trở thành công việc không thể thiếu với rất nhiều người, đặc biệt là sinh viên, học sinh, giảng viên, nghiên cứu sinh, … Một trong những đối tượng được họ quan tâm nhiều nhất để phục vụ cho quá trình học tập và nghiên cứu của mình là các tài liệu khoa học, những luận văn, đồ án chuyên sâu … Tuy nhiên những hệ thống tìm kiếm chuyên biệt tài liệu khoa học chưa nhiều, chưa hoàn thiện và chưa hỗ trợ tốt cho ngôn ngữ tiếng Việt Mục đích của đề tài này là tìm hiểu xây dựng mô hình hệ thống quản lý tài liệu khoa học dựa theo mô hình tìm kiếm thông tin trên Internet Đồ án đưa ra mô hình kiến trúc tổng quan và các thành phần của hệ quản lý tài liệu khoa học, các kĩ thuật trích rút thông tin đặc trưng (tiờu đề, tỏc giả, nhà xuất bản, …) và tham chiếu (tài liệu tham khảo) của tài liệu, từ đó tổ chức lưu trữ và tìm kiếm tài liệu theo các thông tin đã trích rút Để hiện thực húa mô hình hoạt động, đồ án sử dụng bộ mã nguồn mở CiteSeerX, một thành phần trong bộ SeerSuit, nhằm xừy dựng hệ thu thập, tìm kiếm tài liệu khoa học và cài đặt những thành phần dịch vụ hỗ trợ cho việc lọc, phân tách, trích rút thông tin đặc trưng và tham chiếu từ tài liệu Đồng thời, đồ án còn thêm vào các chức năng để hoàn thiện hệ thống từ những dịch vụ cơ bản đã được cung cấp bởi bộ mã nguồn mở CiteSeerX NỘI DUNG ĐỒ ÁN Chương 1 : Nhu cầu tìm kiếm và tra cứu tài liệu chuyên ngành hiện nay Chương 2 : Cơ sở lý thuyết về hệ thống tìm kiếm thông tin Chương 3 : Kiến trúc hệ thống tra cứu tài liệu khoa học Chương 4 : Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn bộ mó nguồn mở CiteSeerX MỤC LỤC PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1

TểM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP 2

NỘI DUNG ĐỒ ÁN 2

Chương 1: Nhu cầu tìm kiếm và tra cứu tài liệu khoa học chuyên ngành hiện nay 8

1 Quản lý và chia sẻ tài liệu khoa học 8

1 1 Tài liệu khoa học là gì 8

Trang 6

1 2

Nhu cầu trao đổi và chia sẻ tài liệu khoa học 8

1 3 Quản lý và tìm kiếm tài liệu khoa học 9

1 4 Các chức năng cần có của một hệ quản lý và tìm kiếm tài liệu khoa học 9

Chương 2: Cơ sở lý thuyết về hệ tìm kiếm thông tin 9

1 Tổng quan về tìm kiếm thông tin 9

1 1 Khái niệm cơ bản về hệ tìm kiếm thông tin 9

1 2 Mô hình của hệ tìm kiếm thông tin 11

2 Các thành phần của hệ tìm kiếm thông tin 12

2 1 Bộ biểu diễn cừu truy vấn 12

2 1 1 Cỏc toỏn tử tìm kiếm cơ bản 12

2 1 2 Quá trình biểu diễn cừu truy vấn 13

2 2 Bộ biểu diễn tài liệu 15

2 3 Bộ đối sỏnh 16

3 Tìm kiếm thông tin trên web 17

3 1 Mô hình hệ thống 17

3 2 Hoạt động của hệ thống 18

3 3 Một số kỹ thuật được sử dụng 19

3 3 1 Xếp hạng trang ( Page Rank ) 19

3 3 2 Phừn cụm 19

3 3 3 Phừn lớp 20

3 3 4 Phản hồi từ người dùng 20

4 Quản lý và tìm kiếm đối với tài liệu khoa học 20

4 1 Cấu trúc của một tài liệu khoa học 20

4 2 Quản lý tài liệu khoa học 22

Chương 3: Hệ thống tra cứu tài liệu khoa học 23

1 Kiến trúc tổng quan hệ thống tra cứu tài liệu khoa học 23

2 Kỹ thuật trích chọn thông tin 25

2 1 Trích chọn đặc trưng tài liệu 25

2 1 1 Gỏn nhón 25

2 1 2 Phân loại dòng 26

2 1 3 Phân loại dòng dựa trên thông tin ngữ cảnh 27

2 2 Thuật toán trích chọn metadata 27

2 2 1 Phân dòng dựa trên Support Vector Machine ( SVM ) 27

2 2 2 Đặc trưng trích chọn 28

2 2 3 Quá trình phân dòng 29

2 2 4 Trích chọn metadata từ dòng đa lớp 30

2 2 5 Định biên trên dòng đa tác giả 31

Định biên trên dòng phân cách bởi dấu cách 31

Định biên trên dòng phân cách bởi khoảng trắng 32

2 3 Thuật toán trích chọn thông tin tham chiếu 33

Trang 7

2.3.1 Đặc trưng miờu tả 33

2 3 2 Phân đoạn thông tin tham chiếu ( Citation ) 34

Nhận biết Citations 34

2 3 3 Hiệu chỉnh dữ liệu sau khi gỏn nhón ( CRF ) 37

2 3 4 Đưa ra ngữ cảnh tham chiếu 38

39

Chương 4: Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn bộ mó nguồn mở CiteSeerX 39

1 Giới thiệu về CiteSeerX 39

1 1 Dự ỏn SeerSuite 39

1 2 Dự ỏn CiteSeer 39

1 3 Dự ỏn CiteSeerX 41

2 Mô hình hệ thống của CiteSeerX 43

3 Phừn tớch chi tiết hệ thống CiteSeerX 45

3 1 Mô hình cơ sở dữ liệu – Storage Layer 45

3 2 Cỏc service sử dụng trong CiteSeerX - Application Layer 47

3 2 1 Heritrix – Tiện ích để crawl dữ liệu – Crawling Server 47

3 2 1 1 Giới thiệu về Heritrix 47

3 2 2 2 Hoạt động 48

3 2 2 Cỏc dịch vụ hỗ trợ cho việc vào ra dữ liệu 49

3 2 2 1 Cỏc dịch vụ phừn tỏch văn bản 50

A File Converter 51

B ParsCit 52

C SVM Header Parse 53

3 2 2 2 Các class xử lý dữ liệu thô 54

3 2 3 Cỏc chức năng thờm vào để hoàn thiện hệ thống 54

3 2 3 1 Chức năng Upload từ máy người dùng 54

3 2 3 2 Chức năng Auto Suggestion 55

A Đặt vấn đề 55

B Cơ sở dữ liệu 55

C Hoạt động 55

4 Giao diện và hoạt động của hệ thống 56

4 1Chức năng search 56

4.2Hỗ trợ người dùng upload tài liệu lên máy chủ 60

4 3 Sử dụng Heritrix 61

4.4Chức năng Auto Suggestion 61

CÁC KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI 61

1 Cỏc kết quả đạt được 61

2 Những mặt hạn chế 62

3 Hướng phỏt triển trong tương lai 62

TÀI LIỆU THAM KHẢO 62

Trang 8

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

TểM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP

Ngày nay, tìm kiếm thông tin trên Internet đã trở thành công việc không thể thiếu với rấtnhiều người, đặc biệt là sinh viên, học sinh, giảng viên, nghiên cứu sinh, … Một trong những đốitượng được họ quan tâm nhiều nhất để phục vụ cho quá trình học tập và nghiên cứu của mình làcác tài liệu khoa học, những luận văn, đồ án chuyên sâu … Tuy nhiên những hệ thống tìm kiếmchuyên biệt tài liệu khoa học chưa nhiều, chưa hoàn thiện và chưa hỗ trợ tốt cho ngôn ngữ tiếngViệt

Mục đích của đề tài này là tìm hiểu xây dựng mô hình hệ thống quản lý tài liệu khoa học dựatheo mô hình tìm kiếm thông tin trên Internet Đồ án đưa ra mô hình kiến trúc tổng quan và cácthành phần của hệ quản lý tài liệu khoa học, các kĩ thuật trích rút thông tin đặc trưng (tiờu đề, tỏcgiả, nhà xuất bản, …) và tham chiếu (tài liệu tham khảo) của tài liệu, từ đó tổ chức lưu trữ và tìmkiếm tài liệu theo các thông tin đã trích rút Để hiện thực húa mô hình hoạt động, đồ án sử dụng

bộ mã nguồn mở CiteSeerX, một thành phần trong bộ SeerSuit, nhằm xừy dựng hệ thu thập, tìmkiếm tài liệu khoa học và cài đặt những thành phần dịch vụ hỗ trợ cho việc lọc, phân tách, tríchrút thông tin đặc trưng và tham chiếu từ tài liệu

Đồng thời, đồ án còn thêm vào các chức năng để hoàn thiện hệ thống từ những dịch vụ cơ bản

đã được cung cấp bởi bộ mã nguồn mở CiteSeerX

NỘI DUNG ĐỒ ÁN

Chương 1 : Nhu cầu tìm kiếm và tra cứu tài liệu chuyên ngành hiện nay

Chương 2 : Cơ sở lý thuyết về hệ thống tìm kiếm thông tin

Chương 3 : Kiến trúc hệ thống tra cứu tài liệu khoa học

Chương 4 : Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn bộ mó nguồn

mở CiteSeerX

MỤC LỤC

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1

TểM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP 2

Trang 9

Chương 2: Cơ sở lý thuyết về hệ tìm kiếm thông tin 9

1 Tổng quan về tìm kiếm thông tin 9

1 1 Khái niệm cơ bản về hệ tìm kiếm thông tin 9

1 2 Mô hình của hệ tìm kiếm thông tin 11

2 Các thành phần của hệ tìm kiếm thông tin 12

2 1 Bộ biểu diễn cừu truy vấn 12

2 1 1 Cỏc toỏn tử tìm kiếm cơ bản 12

2 1 2 Quá trình biểu diễn cừu truy vấn 13

2 2 Bộ biểu diễn tài liệu 15

2 3 Bộ đối sỏnh 16

3 Tìm kiếm thông tin trên web 17

3 1 Mô hình hệ thống 17

3 2 Hoạt động của hệ thống 18

3 3 Một số kỹ thuật được sử dụng 19

3 3 1 Xếp hạng trang ( Page Rank ) 19

3 3 2 Phừn cụm 19

3 3 3 Phừn lớp 20

3 3 4 Phản hồi từ người dùng 20

4 Quản lý và tìm kiếm đối với tài liệu khoa học 20

4 1 Cấu trúc của một tài liệu khoa học 20

4 2 Quản lý tài liệu khoa học 22

Chương 3: Hệ thống tra cứu tài liệu khoa học 23

1 Kiến trúc tổng quan hệ thống tra cứu tài liệu khoa học 23

2 Kỹ thuật trích chọn thông tin 25

2 1 Trích chọn đặc trưng tài liệu 25

2 1 1 Gỏn nhón 25

2 1 2 Phân loại dòng 26

2 1 3 Phân loại dòng dựa trên thông tin ngữ cảnh 27

2 2 Thuật toán trích chọn metadata 27

2 2 1 Phân dòng dựa trên Support Vector Machine ( SVM ) 27

2 2 2 Đặc trưng trích chọn 28

2 2 3 Quá trình phân dòng 29

2 2 4 Trích chọn metadata từ dòng đa lớp 30

2 2 5 Định biên trên dòng đa tác giả 31

Định biên trên dòng phân cách bởi dấu cách 31

Định biên trên dòng phân cách bởi khoảng trắng 32

2 3 Thuật toán trích chọn thông tin tham chiếu 33

2.3.1 Đặc trưng miờu tả 33

2 3 2 Phân đoạn thông tin tham chiếu ( Citation ) 34

Nhận biết Citations 34

2 3 3 Hiệu chỉnh dữ liệu sau khi gỏn nhón ( CRF ) 37

Trang 10

2 3 4 Đưa ra ngữ cảnh tham chiếu 38

39

Chương 4: Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn bộ mó nguồn mở CiteSeerX 39

1 Giới thiệu về CiteSeerX 39

1 1 Dự ỏn SeerSuite 39

1 2 Dự ỏn CiteSeer 39

1 3 Dự ỏn CiteSeerX 41

2 Mô hình hệ thống của CiteSeerX 43

3 Phừn tớch chi tiết hệ thống CiteSeerX 45

3 1 Mô hình cơ sở dữ liệu – Storage Layer 45

3 2 Cỏc service sử dụng trong CiteSeerX - Application Layer 47

3 2 1 Heritrix – Tiện ích để crawl dữ liệu – Crawling Server 47

3 2 1 1 Giới thiệu về Heritrix 47

3 2 2 2 Hoạt động 48

3 2 2 Cỏc dịch vụ hỗ trợ cho việc vào ra dữ liệu 49

3 2 2 1 Cỏc dịch vụ phừn tỏch văn bản 50

A File Converter 51

B ParsCit 52

C SVM Header Parse 53

3 2 2 2 Các class xử lý dữ liệu thô 54

3 2 3 Cỏc chức năng thờm vào để hoàn thiện hệ thống 54

3 2 3 1 Chức năng Upload từ máy người dùng 54

3 2 3 2 Chức năng Auto Suggestion 55

A Đặt vấn đề 55

B Cơ sở dữ liệu 55

C Hoạt động 55

4 Giao diện và hoạt động của hệ thống 56

4 1Chức năng search 56

4.2Hỗ trợ người dùng upload tài liệu lên máy chủ 60

4 3 Sử dụng Heritrix 61

4.4Chức năng Auto Suggestion 61

CÁC KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI 61

1 Cỏc kết quả đạt được 61

2 Những mặt hạn chế 62

3 Hướng phỏt triển trong tương lai 62

TÀI LIỆU THAM KHẢO 62

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

Trang 11

TểM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP

Ngày nay, tìm kiếm thông tin trên Internet đã trở thành công việc không thể thiếu với rấtnhiều người, đặc biệt là sinh viên, học sinh, giảng viên, nghiên cứu sinh, … Một trong những đốitượng được họ quan tâm nhiều nhất để phục vụ cho quá trình học tập và nghiên cứu của mình làcác tài liệu khoa học, những luận văn, đồ án chuyên sâu … Tuy nhiên những hệ thống tìm kiếmchuyên biệt tài liệu khoa học chưa nhiều, chưa hoàn thiện và chưa hỗ trợ tốt cho ngôn ngữ tiếngViệt

Mục đích của đề tài này là tìm hiểu xây dựng mô hình hệ thống quản lý tài liệu khoa học dựatheo mô hình tìm kiếm thông tin trên Internet Đồ án đưa ra mô hình kiến trúc tổng quan và cácthành phần của hệ quản lý tài liệu khoa học, các kĩ thuật trích rút thông tin đặc trưng (tiờu đề, tỏcgiả, nhà xuất bản, …) và tham chiếu (tài liệu tham khảo) của tài liệu, từ đó tổ chức lưu trữ và tìmkiếm tài liệu theo các thông tin đã trích rút Để hiện thực húa mô hình hoạt động, đồ án sử dụng

bộ mã nguồn mở CiteSeerX, một thành phần trong bộ SeerSuit, nhằm xừy dựng hệ thu thập, tìmkiếm tài liệu khoa học và cài đặt những thành phần dịch vụ hỗ trợ cho việc lọc, phân tách, tríchrút thông tin đặc trưng và tham chiếu từ tài liệu

Đồng thời, đồ án còn thêm vào các chức năng để hoàn thiện hệ thống từ những dịch vụ cơ bản

đã được cung cấp bởi bộ mã nguồn mở CiteSeerX

NỘI DUNG ĐỒ ÁN

Chương 1 : Nhu cầu tìm kiếm và tra cứu tài liệu chuyên ngành hiện nay

Chương 2 : Cơ sở lý thuyết về hệ thống tìm kiếm thông tin

Chương 3 : Kiến trúc hệ thống tra cứu tài liệu khoa học

Chương 4 : Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn bộ mó nguồn

mở CiteSeerX

MỤC LỤC

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1

TểM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP 2

Trang 12

2 1

Bộ biểu diễn cừu truy vấn 12

2 1 1 Cỏc toỏn tử tìm kiếm cơ bản 12

2 1 2 Quá trình biểu diễn cừu truy vấn 13

2 2 Bộ biểu diễn tài liệu 15

2 3 Bộ đối sỏnh 16

3 Tìm kiếm thông tin trên web 17

3 1 Mô hình hệ thống 17

3 2 Hoạt động của hệ thống 18

3 3 Một số kỹ thuật được sử dụng 19

3 3 1 Xếp hạng trang ( Page Rank ) 19

3 3 2 Phừn cụm 19

3 3 3 Phừn lớp 20

3 3 4 Phản hồi từ người dùng 20

4 Quản lý và tìm kiếm đối với tài liệu khoa học 20

4 1 Cấu trúc của một tài liệu khoa học 20

4 2 Quản lý tài liệu khoa học 22

Chương 3: Hệ thống tra cứu tài liệu khoa học 23

1 Kiến trúc tổng quan hệ thống tra cứu tài liệu khoa học 23

2 Kỹ thuật trích chọn thông tin 25

2 1 Trích chọn đặc trưng tài liệu 25

2 1 1 Gỏn nhón 25

2 1 2 Phân loại dòng 26

2 1 3 Phân loại dòng dựa trên thông tin ngữ cảnh 27

2 2 Thuật toán trích chọn metadata 27

2 2 1 Phân dòng dựa trên Support Vector Machine ( SVM ) 27

2 2 2 Đặc trưng trích chọn 28

2 2 3 Quá trình phân dòng 29

2 2 4 Trích chọn metadata từ dòng đa lớp 30

2 2 5 Định biên trên dòng đa tác giả 31

Định biên trên dòng phân cách bởi dấu cách 31

Định biên trên dòng phân cách bởi khoảng trắng 32

2 3 Thuật toán trích chọn thông tin tham chiếu 33

2.3.1 Đặc trưng miờu tả 33

2 3 2 Phân đoạn thông tin tham chiếu ( Citation ) 34

Nhận biết Citations 34

2 3 3 Hiệu chỉnh dữ liệu sau khi gỏn nhón ( CRF ) 37

2 3 4 Đưa ra ngữ cảnh tham chiếu 38

39

Chương 4: Xừy dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trờn bộ mó nguồn mở CiteSeerX 39

1 Giới thiệu về CiteSeerX 39

Trang 13

1 1

Dự ỏn SeerSuite 39

1 2 Dự ỏn CiteSeer 39

1 3 Dự ỏn CiteSeerX 41

2 Mô hình hệ thống của CiteSeerX 43

3 Phừn tớch chi tiết hệ thống CiteSeerX 45

3 1 Mô hình cơ sở dữ liệu – Storage Layer 45

3 2 Cỏc service sử dụng trong CiteSeerX - Application Layer 47

3 2 1 Heritrix – Tiện ích để crawl dữ liệu – Crawling Server 47

3 2 1 1 Giới thiệu về Heritrix 47

3 2 2 2 Hoạt động 48

3 2 2 Cỏc dịch vụ hỗ trợ cho việc vào ra dữ liệu 49

3 2 2 1 Cỏc dịch vụ phừn tỏch văn bản 50

A File Converter 51

B ParsCit 52

C SVM Header Parse 53

3 2 2 2 Các class xử lý dữ liệu thô 54

3 2 3 Cỏc chức năng thờm vào để hoàn thiện hệ thống 54

3 2 3 1 Chức năng Upload từ máy người dùng 54

3 2 3 2 Chức năng Auto Suggestion 55

A Đặt vấn đề 55

B Cơ sở dữ liệu 55

C Hoạt động 55

4 Giao diện và hoạt động của hệ thống 56

4 1Chức năng search 56

4.2Hỗ trợ người dùng upload tài liệu lên máy chủ 60

4 3 Sử dụng Heritrix 61

4.4Chức năng Auto Suggestion 61

CÁC KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI 61

1 Cỏc kết quả đạt được 61

2 Những mặt hạn chế 62

3 Hướng phỏt triển trong tương lai 62

TÀI LIỆU THAM KHẢO 62

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

DANH MỤC CÁC HốNH Hình 1: Bản chất của tìm kiếm thông tin 10

Trang 14

Hình 2: Mô hình hệ tìm kiếm thông tin 11

Hình 3:Minh họa cho quá trình biểu diễn câu truy vấn với câu truy vấn ‘java OR programming‘ 13

Hình 4: Quá trình biểu diễn tài liệu 15

Hình 5:Cỏc thành phần cơ bản của một hệ tìm kiếm thông tin trên Internet 17

Hình 6(a): Cấu trúc một tài liệu khoa học 21

Hình 6(b): Cấu trúc một tài liệu khoa học 22

Hình 7: Mô hình tổng quan của hệ quản lý tài liệu khoa học 24

Hình 8: Các dòng header được metatagged 26

Hình 9:Quá trình phân loại dòng 30

Hinh10(a): Dấu hiệu nhận biết phần tài liệu tham khảo của bài viết 35

Hình 10(b): Dấu hiệu nhận biết tài liệu tham khảo 35

Hình 11: Cấu trúc phần tài liệu tham khảo 36

Hình 12: Ngữ cảnh tham chiếu tài liệu 38

Hình 13: Kiến trúc CiteSeer 40

Hình 14: Virtual Document 41

Hình 15: Vị trí của CiteSeerX trên Web of World Repositories 42

Hình 16: Kiến trúc CiteSeerX 43

Hình 17: Cỏc bảng cơ sở dữ liệu của hệ thống 46

Hình 18: Hoạt động của Heritrix 49

Hình 19: Hoạt động của cỏc dịch vụ hỗ trợ vào ra dữ liệu 50

Hình 20: Mô hình hoạt động của bộ phân tách văn bản 51

Hình 21: Hoạt động của trang upload 55

Hình 22: Giao diện hệ thống 56

Hình 23: Query khi search theo Documents 57

Hình 24: Search theo Authors. 58

Hình 25: Duyệt trước Abstract của kết quả. 58

Hình 26: Hiển thị Citations đi kốm kết quả. 59

Hình 27: Advanced Search 59

Hình 28: Hiển thị một văn bản 60

Hình 29: Giao diện trang submit tài liệu 60

Hình 30: Chạy một job trong Heritrix 61

Hình 31: Chức năng Auto Suggestion 61

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

DANH MỤC CÁC TỪ VIẾT TẮT

• Server : mỏy chủ

• Client : mỏy trạm

• Query : cừu truy vấn

• Crawl : sử dụng cỏc bộ filter để tải dữ liệu về

Trang 15

• Citation : các trích dẫn, thường thấy ở mục Tài liệu tham khảo.

• Logging service : các dịch vụ ghi lại thông tin hoạt động của hệ thống

• Header : các thông tin thường nằm ở đầu của mỗi tài liệu khoa học

• Abstract : phần tóm tắt của một văn bản

Submit : tải tài liệu lờn mỏy chủ.LỜI NểI ĐẦU

Đồ ỏn tốt nghiệp được thực hiện và hoàn thành sau một thời gian dài tìm hiểu, được hình thành từ ngay những ngày thực tập đầu tiên cho đến giờ Trong quá trình tìm hiểu

đó, ngoài sự tìm tòi, học hỏi và cố gắng của bản thân, còn có rất nhiều người đã giúp đỡ, hướng dẫn em trong việc hoàn thiện đồ án

Trước hết, em xin chừn thành gửi lời cảm ơn đếnThs.Đỗ Bích Diệp và TS Vũ Tuyết Trinh- Bộ môn Các hệ thống Thông tin đã rất tận tình hướng dẫn và chỉ bảo cho em từ những giai đoạn tìm hiểu đầu tiên Cô đã bỏ nhiều thời gian và công sức để giúp em giải quyết những khó khăn mà em gặp phải trong quá trình làm đồ án

Em xin được gửi lời cảm ơn tới các thầy cô trong Viện Công Nghệ Thông Tin và Truyền Thông nói chung cũng như các thầy cô trong bộ môn Cỏchệ Thống Thông Tin nói riêng Các thầy cô đã truyền đạt kiến thức cho em trong suốt những thỏng ngày theo học tại trường, trang bị cho em những kiến thức để em có thể tự tin bước vào môi trường làm việc mới, cuộc sống mới

Cuối cùng em xin gửi lời cảm ơn tới gia đình, người thân và bạn bè Những người luônđộng viên, ủng hộ và giúp đỡ em trong suốt thời gian qua

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

Chương 1: Nhu cầu tìm kiếm và tra cứu tài liệu khoa học chuyên ngành hiện nay

1 Quản lý và chia sẻ tài liệu khoa học

Những năm gần đây sự phát triển như vũ bão của mạng truyền thông và Internet đãgiúp chúng ta tiếp cận với một nền tảng tri thức khổng lồ Tìm kiếm thông tin trênInternet đã trở thành một trong những công việc quen thuộc của rất nhiều người Với họcsinh, sinh viên, giảng viên, nghiên cứu sinh, tìm kiếm thông tin, tài liệu là việc rất quantrọng để hỗ trợ cho công việc học tập, nghiên cứu và tham khảo Một trong những đốitượng tìm kiếm được họ quan tâm nhiều nhất chính là các tài liệu báo cáo khoa học

1 1 Tài liệu khoa học là gì

Tài liệu khoa học là các ấn phẩm, sách, báo cáo kỹ thuật, bài báo hội nghị, bài báo tạpchí, luận văn, các nghiên cứu về một công trình khoa học, một vấn đề khoa học chuyênngành nào đó Các tài liệu này thường có một cấu trúc đặc trưng với một số thành phầnchính theo thứ tự sau :

• Tiờu đề (title): miờu tả ngắn gọn nội dung của tài liệu

Trang 16

• Thông tin về tác giả (author): tên, địa chỉ, email, nơi làm việc, …

• Phần tóm tắt (abstract): giới thiệu, tóm tắt một số nội dung chính củabài viết, giúp người đọc hiểu khái quát về tài liệu

• Phần nội dung chính của bài viết: đặt vấn đề, giải quyết vấn đề, cácphương pháp kĩ thuật thực hiện, kết quả thực hiện, đánh giá tổng kết,kết luận, …

Phần tài liệu tham khảo: phần cuối cùng của bài viết, liệt kê các tài liệu được tác giảtham chiếu tới Các thông tin về tài liệu tham khảo bao gồm tựa đề, tác giả, năm xuất bản,

số trang, …và theo một định dạng nhất định

Tài liệu khoa học là kết tinh của một quá trình làm việc sáng tạo, lâu dài của tác giả, cógiá trị tham khảo lớn với độc giả, nên rất cần được công bố và chia sẻ rộng rãi

1 2 Nhu cầu trao đổi và chia sẻ tài liệu khoa học

Các nghiên cứu khoa học thường được các tác giả công bố trên các tạp chí, tập sankhoa học (journal), trong các hội thảo, hay trên website cá nhân, … dưới nhiều định dạngthông dụng như doc, ps, pdf, txt, … Thế nên để có thể xem, tham khảo nội dung của cáctài liệu khoa học đó ta cần dựa trên nhiều công cụ hệ thống rời rạc, hỗ trợ hoặc không hỗtrợ việc tìm kiếm Việc này sẽ gây nhiều khó khăn, bất tiện cho người đọc, tìm kiếm.Thực tế trên đã dẫn tới nhu cầu cần có một hệ thống lưu trữ và quản lý các tài liệukhoa học một cách thống nhất Nú không chỉ phải giúp người đọc dễ dàng tìm

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

kiếm được các tài liệu, đánh giá được chất lượng bài viết mà còn cung cấp cho các tácgiả biết được mức độ quan tâm của cộng đồng với kết quả nghiên cứu của mình

1 3 Quản lý và tìm kiếm tài liệu khoa học

Với việc quản lý các tài liệu khoa học – là các tài liệu có một số thông tin cấu trúc nhấtđịnh thì việc quản lý và tìm kiếm sẽ bao gồm:

• Quản lý nội dung tài liệu - Tìm kiếm dựa trên các từ khúa

• Quản lý thông tin đặc trưng của tài liệu: các thông tin đặc trưng baogồm tiêu đề, tác giả, tóm tắt bài viết, tài liệu được tham khảo, … Khi

đó việc tìm kiếm sẽ hỗ trợ tìm kiếm theo các thông tin đặc trưng,thông tin tham chiếu tài liệu

Để có thể có được các thông tin đặc trưng trên của tài liệu phục vụ cho quá trình tìmkiếm cần có một thành phần có khả năng phân tích xử lý tự động trích lọc các thành phầnđặc trưng và tham chiếu của tài liệu

1 4 Các chức năng cần có của một hệ quản lý và tìm kiếm tài liệu khoa học

Từ các phân tích trên ta thấy nhu cầu cần xây dựng một hệ thống quản lý tìm kiếm cáctài liệu khoa học có một số chức năng chính sau:

Trang 17

Tổ chức lưu trữ các tài liệu: Các thành phần được lưu trữ bao gồm nội dung bài viết,các đặc trưng như tiêu đề, tác giả, tài liệu tham chiếu đến bài viết Mỗi phần, mỗi đặctrưng có thể được lưu trong các bảng, các trường cơ sở dữ liệu để hỗ trợ tra cứu, tìmkiếm

Thêm/ Sửa/ Xúa tài liệu: Hỗ trợ cho người dùng thêm mới một tài liệu; với mỗi tài liệu

có thể hiệu chỉnh, sửa chữa, chuẩn húa nội dung cho đúng; có thể xúa tài liệu nếu đượcphép

Trích rút thông tin: Thông tin được trích rút bao gồm thông tin về đặc trưng của tàiliệu: tiêu đề, tên tác giả, email, địa chỉ, tóm tắt nội dung chính, … hay phần tham chiếu:các tài liệu được tham khảo đến; các thông tin về tài liệu tham khảo như tên, tác giả, nămxuất bản, số trang, đều được trích lọc lấy ra phân loại

Tìm kiếm: Với các tài liệu khoa học – các tài liệu có cấu trúc thì hệ thống ngoài khảnăng tìm kiếm theo nội dung còn có thể tìm kiếm theo các đặc trưng, tham chiếu của tàiliệu

Ngoài ra hệ thống có thể tìm kiếm nâng cao: theo năm, theo đánh giá xếp hạng, theo

hồ sơ người dùng, … làm tăng kết quả tìm kiếm

Chương 2: Cơ sở lý thuyết về hệ tìm kiếm thông tin

1 Tổng quan về tìm kiếm thông tin

1 1 Khái niệm cơ bản về hệ tìm kiếm thông tin

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

Trang 18

Hình 1: Bản chất của tìm kiếm thông tin

Hình 1 thể hiện bản chất của hệ tìm kiếm thông tin với 2 tỏc nhừn tham gia là người

dùng và người cung cấp dịch vụ tìm kiếm

Người cung cấp dịch vụ tìm kiếm trước hết sẽ lưu trữ thông tin về tài liệu Do số lượng

tài liệu rất lớn nên không thể lưu trữ toàn bộ nội dung tài liệu mà chỉ có thể lưu lại nhữngthông tin quan trọng phục vụ cho quá trình tìm kiếm Các thông tin này có thể là tiêu đề,tác giả, đoạn tóm tắt, đường link hay một số từ khúa quan trọng

Người dùng muốn tìm kiếm phải đưa vào các từ khúa đặc trưng cho tài liệu mình muốn

tìm Hệ thống sẽ thực hiện đối sánh các từ khúa này với các thông tin phục vụ tìm kiếmtài liệu Những tài liệu có kết quả đối sánh tốt nhất sẽ được trả về như là kết quả của quátrình tìm kiếm

Như vậy bản chất của quá trình tìm kiếm thông tin dựa trên cơ chế “đối sỏnh” các tài liệu được lưu trữ trong hệ thống với yêu cầu tìm kiếm của người dùng để tìm ra kết quả cho phù hợp

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

Phần nội dung chính của bài viết : giới thiệu nội dung , cỏc phương

phỏp thực hiện , kết quả thực hiện, hướng phỏt triển , kết luận

Phần tài liệu tham khảo (References, Citations): Phần này có thể có

hoặc không tựy từng bài viết Nú liệt kê các tài liệu được tham chiếu

sử dụng

Trang 19

Hình 8: Các dòng header được metatagged

Hình trên mô tả một header của tài liệu được metatagged Những đoạn text chứa thông tin về tiêu đề, tác giả , … được đặt trong các metatags title, author , …Hệ thống sau đó sẽ dựa vào tên các metagtags mà lấy ra dữ liệu cho phù hợp

về 5 lớp (email, web, affiliation, address, note ).

Các dòng header theo đó được chia ra 2 loại :

Single - class line : Dòng đơn lớp: chứa thông tin một lớp dữ liệu.

Multi - class line : Dòng đa lớp: chứa thông tin về nhiều lớp dữ liệu.

Trang 20

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

Hình 9:Quá trình phân loại dòng

Trang 21

2 2 4 Trích chọn metadata từ dòng đa lớp

Quá trình đoán nhận cụm tin của dòng chứa N lớp là quá trình tìm N - 1 biên cụm trên dòng đó Các dấu hiệu để tìm biên thường là các dấu phân cách: dấu chấm, dấu phẩy, dấu

cỏch…

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

Hình 11 thể hiện cấu trúc một phần tài liệu tham khảo Trong đó mỗi đoạn con chứa

thông tin của 1 citation thường được đỏnh dấu ở đầu đoạn Một số cỏch đỏnh dấu 1 đoạn citation là:

• Một chuỗi kí tự số hay chữ đươc bao bởi dấu ngoặc:

Dựa trên độ dài dòng : Độ dài dòng rất nhỏ (chỉ có 1 hay 2 từ ) được

bỏ qua

Dòng chứa tên tác giả : đoán nhận là dòng tác giả khi dòng chỉ chứa

những từ là chữ cái, không có chữ số, phân cách các từ bằng dấu “, ;” , kết thúc bằng dấu “.”

Coi mỗi dòng của phần citations chứa thông tin về 1 tài liệu : mỗi

dòng sẽ phân cách nhau bởi dấu chấm câu “ “

Mỗi đoạn citation bao gồm thông tin về một tài liệu tham khảo sau khi được phân tách

sẽ được hệ thống trích chọn dữ liệu sử dụng đặc trưng miêu tả và mô hình CRF (được

thực thi bằng công cụ CRF++).

2 3 3 Hiệu chỉnh dữ liệu sau khi gỏn nhón ( CRF )

Sau khi thực hiện gán nhãn dữ liệu vào các lớp, dữ liệu thường chưa được chuẩn húa

và có thể thừa thông tin không cần thiết Hệ thống cần hiệu chỉnh để trích lọc những

thông tin cần thiết đưa vào các tag Một số hiệu chỉnh thường dùng :

Tỏch tờn : Chuỗi tên gán vào lớp tên có thể bao gồm nhiều tên tác giả Hệ thống sẽ

đoán nhận từng cụm tên dựa trên dấu phân cách (dấu , ;) sau đó đưa cụm tên về định

dạng chuẩn : ( Họ- Tờn đệm – Tờn ), không có dấu phân cách đi kèm

Hiệu chỉnh trường số :hiệu chỉnh một số trường số theo từng loại:

Thời gian : Trích chọn, chỉ lấy năm xuất bản.

Số Chương : cụm từ chỉ số chương ví dụ vol 5 được bỏ đi cụm từ

“vol”.

Trang 22

Số trang : ví dụ” pages 666 - 777” được bỏ đi cụm từ “pages”, …

Lọc bỏ phừn cỏch, cỏch trống trong cụm tin: (, ; space )

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

2 3 4 Đưa ra ngữ cảnh tham chiếu

Hình 12: Ngữ cảnh tham chiếu tài liệu

Hình 12thể hiện một đoạn trong bài viết tham khảo đến tài liệu khác Những đoạntham khảo đến thường được đánh dấu theo tài liệu tham khảo tương ứng Dựa trên nhữngdấu hiệu đánh dấu phần tài liệu tham khảo ([1], (1), 1) hệ thống tìm và trích ra Đó gọi là

ngữ cảnh tham chiếu tài liệu (context).

Một số biểu thức chính quy được xây dựng để đối sánh các dấu hiệu đánh dấu với nội dung tài liệu Các số bao trong dấu ngoặc vuông [6] [7] đươc ưu tiên là dấu hiệu nhận

biết Đoạn ngữ cảnh trả về bao gồm dấu hiệu trong phạm vi bán kính được cấu hình tựytheo người phát triển (thường là 200 kí tự liền kề dấu hiệu )

Với những phân đoạn tài liệu tham khảo không có dấu hiệu đánh dấu thông dụng ([1],(1),1) thì hệ thống tự động trích chọn lấy ra dấu hiệu cho phân đoạn đó (Hay dùng là têntác giả , tên tài liệu)

Trang 23

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

bước 2, phân tích kết quả vừa lấy về ở bước 3, và trả các giá trị mới tìm thấy về Frontier

ở bước 4

Hình 18: Hoạt động của Heritrix

3 2 2 Cỏc dịch vụ hỗ trợ cho việc vào ra dữ liệu

Đây là những class nằm ở tầng ứng dụng, hỗ trợ cho việc xử lý dữ liệu sau khi bộ crawler tải dữ liệu về Nú nhận đầu vào là tài liệu ở dạng pdf, doc, ps…

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

</keywords>

Trang 24

<abstract>ABSTRACT</abstract>

<date>DATE</date>

</algorithm>

File Xml sau đó được hệ thống xử lý, nạp giá trị các tag vào đối tượng lưu trữ tương

ứng: author, keywords, … dùng cho tìm kiếm sau này.

Chạy Module ở dạng Command Line :

extractHeader pl textfile [outfile]

Đầu vào- textfile : Đường dẫn tới file text cần trích chọn.

Đầu ra- outfile: file xml lưu thông tin Nếu không miêu tả đầu ra, module tự động ghi

ra STDOUT.

3 2 2 2 Các class xử lý dữ liệu thô

Đây là các class JAVA hỗ trợ việc đưa dữ liệu vào cơ sở dữ liệu Nú nhận đầu vào là file xml chứa các thông tin đặc trưng của văn bản như : header, citation, abstract… Sau khi tách riêng cáctrường trong file xml, các class này thông qua Storage Access and Management Interface : lưu

dữ liệu vào MySql, đồng thời đưa dữ liệu lên Solr để cập nhật dữ liệu cho search engine Solr

Để tiện cho việc sử dụng, em đã tách ra các class cần dùng vào file citeseerx jar

3 2 3 Cỏc chức năng thờm vào để hoàn thiện hệ thống

3 2 3 1 Chức năng Upload từ máy người dùng

Bộ mó nguồn mở được cung cấp bởi IST chỉ chú trọng đến việc thu thập dữ liệu dựa vào Heritrix mà không hỗ trợ người dùng upload các tài liệu của mình Nhưng trên thực

tế, một số website lớn đều hạn chế hoạt động của bộ crawler, đồng thời nhu cầu của các nhà nghiên cứu, các nhà khoa học - muốn đưa các nghiên cứu khoa học của mình lên server và chia sẻ với mọi người – là thực tế và rất lớn

Điều này đặc ra vấn đề cần có chức năng hỗ trợ người dùng tải các tài liệu khoa học của mình Nú không chỉ tạo ra sự tiện lợi cho người dùng mà còn là một nguồn để thu thập tài liệu cho hệ thống

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

Trang 25

Hình 21: Hoạt động của trang upload

Upload jsp : hỗ trợ việc truyền từng bite của file từ client lờn server, sau đấy build lại file từ cỏc bite đó nhận được

Run bat : chạy cỏc service phừn tỏch văn bản

Citeseerx jar : chạy các class xử lý dữ liệu thô

3 2 3 2 Chức năng Auto Suggestion

B Cơ sở dữ liệu

Cấu trúc của file xml lưu trữ các query phổ biến

<?xmlversion="1.0"encoding="UTF-8"?>

<citeseerx>

<csdl name = ”abc” count=”1”></csdl>

<csdl name = ”solr indexing” count=”1”></csdl>

</citeseerx>

name : query được gửi tới mỏy chủ

count : số lần đó được gửi tới mỏy chủ

C Hoạt động

Bước 1: khi người dùng nhập một từ khúa, JavaScript sẽ được gọi để

lấy ra 10 giá trị trùng với những từ vừa gõ và có độ tin cậy cao nhất

Độ tin cậy được đánh giá dựa vào số lần kết quả đó được gọi trong truy vấn

Trang 26

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

Bước 2: sau khi người dùng chọn 1 giá trị trong số các từ khúa gợi ý

và gửi lên server, server sẽ thực hiện kiểm tra Nếu chưa có kết quả trong cơ sở dữ liệu, từ khúa vừa dùng sẽ được lưu vào cơ sở dữ liệu với name là từ khúa, count là 1 Nếu đã có trong cơ sở dữ liệu, sẽ trả

về giá trị và tăng count lên thêm 1

1. Giao diện và hoạt động của hệ thống

Hình 22: Giao diện hệ thống

4 1Chức năng search

Các tựy chọn cơ bản cho chức năng search

• Search theo Documents

Trang 27

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

Hình 23: Query khi search theo Documents

• Search theo Authors

Sự khỏc nhau là khi search theo Authors, trong query gửi tới servlet sẽ gắn thờm “t = auth” để servlet có thể nhận biết cách search này và chuyển thêm tham số “title: ” vào string gửi tới solr

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

Trang 28

Hình 24: Search theo Authors.

Ngoài ra, hệ thống còn hỗ trợ người dùng duyệt trước Abstract của mỗi kết quả trước khi quyết định sẽ duyệt văn bản nào

Hình 25: Duyệt trước Abstract của kết quả.

• Search có thêm tựy chọn hiển thị citation - Include CitationsTựy chọn này cho phép liệt kê kèm mỗi kết quả các citation của nú, đồng thời sắp xếp

và hiển thị số lần một citation được liên kết bởi các văn bản khác Điều này giúp người dùng có thể đánh giá độ tin cậy về mặt lý thuyết của kết quả trả về vì tài liệu tham khảo tới những citation có giá trị thì nhìn chung độ tin cậy về mặt lý thuyết của nú sẽ đáng tin

Trang 29

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

Hình 26: Hiển thị Citations đi kốm kết quả.

• Search theo chế độ metadata - Advanced SearchĐây là kiểu search mà dữ liệu sẽ được lấy trực tiếp từ cơ sở dữ liệu Kiểu search này

có ưu điểm là cho ra kết quả gần nhất với mong muốn của người dùng, nhưng nú sẽ tăng thời gian tìm kiếm và tăng tải đối với hệ thống

Hình 27: Advanced Search

Trang 30

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

Hình 28: Hiển thị một văn bản

Kết quả chỉ hiển thị ra và các citation và cho phép người dùng tải về để xem tất cả nội dung của văn bản

4.2Hỗ trợ người dùng upload tài liệu lên máy chủ

Hình 29: Giao diện trang submit tài liệu

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

Trang 32

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

• Hiểu được các khái niệm cơ bản về hệ thống tìm kiếm tài liệu cũng như kiến trúc của một hệ tìm kiếm tài liệu nói chung

• Hiểu được các khái niệm về mô hình MVC để phục vụ cho việc nghiên cứu bộ mã nguồn mở CiteSeerX

• Hiểu kiến trúc cũng như cách thức hoạt động của các service cơ bản của CiteSeerX và tích hợp thành công vào hệ thống để convert, phừn tỏch và gỏn nhón cho cỏc trường của văn bản

• Hiểu được mô hình kiến trúc của CiteSeerX và bộ mã nguồn mở CiteSeerX cũng như hoạt động của bộ mó nguồn mở ở cả 3 lớp cơ bản Cài đặt và chạy thành công bộ mã nguồn mở CiteSeerX

• Hệ thống chỉ hỗ trợ tài liệu tiếng Anh

3 Hướng phỏt triển trong tương lai

Các hệ thống thu thập, quản lý và hỗ trợ tìm kiếm tài liệu khoa học kỹ thuật hỗ trợ tốt ngôn ngữ tiếng Việt hiện nay vẫn chưa có, đặc biệt là hỗ trợ tìm kiếm tiếng Việt theo ngữnghĩa Với yêu cầu tiếng Việt, ta có những hướng phát triển tiếp theo như sau:

• Cần có 2 server riêng, một hỗ trợ tiếng Anh và 1 hỗ trợ tiếng Việt

• Can thiệp ở bộ parsing, cụ thể là ở cỏc service phừn tỏch văn bản

• Can thiệp ở bộ indexing, cụ thể là solr

• Can thiệp ở cỏc đoạn code hiển thị để support tốt mó tiếng Việt.Ngoài ra, hệ thống cần thêm những chức năng mới để nâng cao kết quả tìm kiếm

• Tìm kiếm theo hướng người dùng: dựa trên những thông tin về ngườidùng cũng như các kết quả tìm kiếm trong quá khứ để khoanh vùng kết quả, cho ra kết quả chuẩn xác hơn đối với từng người dùng

• Hỗ trợ liên kết theo Citation: từ 1 Citation có thể tìm tất cả các tài liệu liên kết tới nú Việc này sẽ giúp người dùng mở rộng hướng tìm kiếm nhưng vẫn theo chủ đề đang quan tâm

TÀI LIỆU THAM KHẢO

[1] Automatic Document Metadata Extraction Using Support Vector

Machines, inProceedings of ACM/ IEEE Joint Conference on Digital Libraries (JCDL 2003): 37-48, 2003.

Trang 33

Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A

Ứng dụng hệ mờ loại hai khoảng trong điều khiển robot.

Đăng bởi thanhcong789789

Trang 34

Tìm hiểu về các hệ thống của máy tính

Đăng bởi analysisstock

CHUYÊN MỤC KHÁC

TÀI LIỆU CHUYÊN NGÀNH

Trang 35

TÀI LIỆU PHỔ THÔNG

Gửi ý kiến, cần hỗ trợ gấp: click vào link này gửi thư admin

E-mail: khotrithucso@gmail.com Skype: khotrithucso

Điện thoại hỗ trợ 24/24: Bạn gọi điện hoặc nhắn tin bất cứ lúc nào 0936.053.911

Theo dõi sự kiện Google Plus của Kho tri thức số

Copyright © 2014 khotailieu.com - All Rights Reserved

Design by khotailieu.com Website đang chờ cấp phép của Bộ Văn hóa Thông tin và Truyền thông

Luận văn, đồ án,

Trang 36

Xây dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trên

CiteSeerX Ngày nay, tìm kiếm thông tin trên Internet đã trở thành công việc không thể thiếu với rất nhiều người, đặc biệt là sinh viên, học sinh, giảng viên,nghiên cứu sinh,… Một trong những đối tượng được họ quan tâm nhiều nhất

để phục vụ cho quá trình học tập và nghiên cứu của mình là các tài

liệu docx Đăng bởi nmdangkhoa284

5 stars

- 133 reviews

Thông tin tài liệu 62 trang Đăng bởi: nmdangkhoa284 - 01/03/2012 Ngôn ngữ: Việt nam, English

5 stars - "Tài

liệu tốt" by Kenny-41, Written on 07/01/2015 Tôi thấy tài liệu này rất chất

lượng, đã giúp ích cho tôi rất nhiều Chia sẻ thông tin với tôi nếu bạn quan tâm đến tài liệu: Xây dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trên CiteSeerX

Trang 38

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘIKHOA CễNG NGHỆ THễNG TIN

Giỏo viờn hướng dẫn: ThSBùi

Quốc Anh

Trang 39

Hiện nay, một công đoạn rất mất thời gian và công sức mà bắt buộc cỏc nhà mỏy cung cấp nước sạch phải thực hiệnđó là việc thu

thập số nước sử dụng hàng thỏng của mỗi hộgia đình Công đoạn này yờu cầu cỏc nhừn viờn đi kiểm tra đồng hồ nước của từng hộgia đình, đọc số nước, tỡm kiếm trong sổ ghi chộp nơi cầnđiền số nước của thỏng vừaqua; sau khi đó thu thậpđược hết tất cả số liệu, cỏc nhừn viờn

này cũn phải thực hiệnnhập toàn bộ số liệu từ sổ ghi chộp này vào mỏy tớnh, rồi mới in hoỏđơn yờu cầu thanh toỏn tiền nước, và cuối cùng lạiđem tới từng hộ gia đình Rừ ràng, cỏc hoạt động thủcông này là rất vất vả và tạo ra một năng suất thấp Trước tình hìnhđó, cùng với những kiến thức đã học được, trong khuôn khổ đồ án tốt nghiệp này, tôi quyết định thực hiện đồ án với đề tài: “Thiết kế phần mềm đọc mặt số đồng hồ nước”.

Để thực hiện được đề tài này, tôi xin gửi lời cảm ơn chân thành tới các thầy cô giáo trường Đại Học Bách Khoa Hà Nội, Khoa Công Nghệ Thông Tin và Bộ Môn Kỹ Thuật Máy Tính đã trang bị cho tôi những kiến thức cơ bản và quý báu trong suốt năm năm họcvừa qua Tôi cũng xin gửi lời cảm ơn tới Thạc sĩ Bùi Quốc Anh đã chia sẻ ý tưởng mới, táo bạo về công việc trong đồ án này và đã tận tâm hướng dẫn, định hướng trong quá trình thực hiện đề tài

Trang 40

Do thời gian có hạn và kiến thức của bản thân còn hạn chế, nên đồ án này chắc chắn còn nhiều thiếu sót Tôi rất mong muốn nhận được những ý kiến góp ý, giúp đỡ để đồ

án nàyhoàn thiện hơn và được ứng dụng tốt vào cuộc sống

Sinh viên lớp Kỹ Thuật Máy Tính K48

Nguyễn Cảnh ToànMục lục

LỜI NểI ĐẦU 2

Phừn tớch nhiệm vụ 101.2.1 Công việc cần thực hiện 101.2.2 Cỏc thiết bị cần thiết 111.2.3 Cỏc công việcđó thực hiện 111.2.4 Tiến trình hoàn thành đồỏn 11

Chương 2: Thiết kế tổng thể 12

2.1

Tổng quan về đề tài 122.2

Miờu tả về hệ thống 132.2.1 Miờu tả về cỏc tớnh năng của hệ thống 132.2.2 Đềxuất cỏc phương ỏn 14

2.2.3 Thiết kế sơ đồ khối 172.2.4 Mô tả hoạt động,

problem of overfitting 243.1.7 Giải thuật lỏng giềng gần nhất 25

Ngày đăng: 07/01/2015, 20:19

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w