A. Đặt vấn đề
Rất nhiều trường hợp, người dùng không có chính xác định nghĩa về những gỡ mình sẽ tìm kiếm. Ví dụ như trên thực tế người dùng muốn tìm “xml parsing using DOM” nhưng họ chưa có khái niệm về DOM mà chỉ muốn tìm một cách để parse file xml. Khi sử dụng chức năng Auto Suggestion, chỉ cần người dùng nhập vào “xml parsing” sẽ có một loạt kết quả hiện ra để hỗ trợ người dùng tìm kiếm tốt hơn.
B. Cơ sở dữ liệu
Cấu trúc của file xml lưu trữ các query phổ biến
<?xmlversion="1.0"encoding="UTF-8"?> <citeseerx>
<csdl name = ”abc” count=”1”></csdl>
<csdl name = ”solr indexing” count=”1”></csdl> </citeseerx>
name : query được gửi tới mỏy chủ. count : số lần đó được gửi tới mỏy chủ.
C. Hoạt động
• Bước 1: khi người dùng nhập một từ khúa, JavaScript sẽ được gọi để lấy ra 10 giá trị trùng với những từ vừa gõ và có độ tin cậy cao nhất. Độ tin cậy được đánh giá dựa vào số lần kết quả đó được gọi trong truy vấn.
Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A
• Bước 2: sau khi người dùng chọn 1 giá trị trong số các từ khúa gợi ý và gửi lên server, server sẽ thực hiện kiểm tra. Nếu chưa có kết quả trong cơ sở dữ liệu, từ khúa vừa dùng sẽ được lưu vào cơ sở dữ liệu với name là từ khúa, count là 1. Nếu đã có trong cơ sở dữ liệu, sẽ trả về giá trị và tăng count lên thêm 1.
1. Giao diện và hoạt động của hệ thống
Hình 22: Giao diện hệ thống 4. 1Chức năng search
Các tựy chọn cơ bản cho chức năng search
Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A
Hình 23: Query khi search theo Documents
• Search theo Authors
Sự khỏc nhau là khi search theo Authors, trong query gửi tới servlet sẽ gắn thờm “t = auth” để servlet có thể nhận biết cách search này và chuyển thêm tham số “title: ” vào string gửi tới solr.
Hình 24: Search theo Authors.
Ngoài ra, hệ thống còn hỗ trợ người dùng duyệt trước Abstract của mỗi kết quả trước khi quyết định sẽ duyệt văn bản nào.
Hình 25: Duyệt trước Abstract của kết quả.
• Search có thêm tựy chọn hiển thị citation - Include Citations
Tựy chọn này cho phép liệt kê kèm mỗi kết quả các citation của nú, đồng thời sắp xếp và hiển thị số lần một citation được liên kết bởi các văn bản khác. Điều này giúp người dùng có thể đánh giá độ tin cậy về mặt lý thuyết của kết quả trả về vì tài liệu tham khảo tới những citation có giá trị thì nhìn chung độ tin cậy về mặt lý thuyết của nú sẽ đáng tin.
Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A
Hình 26: Hiển thị Citations đi kốm kết quả.
• Search theo chế độ metadata - Advanced Search
Đây là kiểu search mà dữ liệu sẽ được lấy trực tiếp từ cơ sở dữ liệu. Kiểu search này có ưu điểm là cho ra kết quả gần nhất với mong muốn của người dùng, nhưng nú sẽ tăng thời gian tìm kiếm và tăng tải đối với hệ thống.
Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A
Hình 28: Hiển thị một văn bản
Kết quả chỉ hiển thị ra và các citation và cho phép người dùng tải về để xem tất cả nội dung của văn bản.
4.2Hỗ trợ người dùng upload tài liệu lên máy chủ
Hình 29: Giao diện trang submit tài liệu
4. 3 Sử dụng Heritrix
Hình 30: Chạy một job trong Heritrix 4.4Chức năng Auto Suggestion
Hình 31: Chức năng Auto Suggestion
CÁC KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI
1. Cỏc kết quả đạt được
Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A
• Hiểu được các khái niệm cơ bản về hệ thống tìm kiếm tài liệu cũng như kiến trúc của một hệ tìm kiếm tài liệu nói chung.
• Hiểu được các khái niệm về mô hình MVC để phục vụ cho việc nghiên cứu bộ mã nguồn mở CiteSeerX.
• Hiểu kiến trúc cũng như cách thức hoạt động của các service cơ bản của CiteSeerX và tích hợp thành công vào hệ thống để convert, phừn tỏch và gỏn nhón cho cỏc trường của văn bản.
• Hiểu được mô hình kiến trúc của CiteSeerX và bộ mã nguồn mở CiteSeerX cũng như hoạt động của bộ mó nguồn mở ở cả 3 lớp cơ bản. Cài đặt và chạy thành công bộ mã nguồn mở CiteSeerX.
2. Những mặt hạn chế
Do kinh nghiệm làm việc với Framework cũng như mã nguồn mở còn hạn chế, nên trong đồ án này vẫn còn một số hạn chế:
• Hệ thống vẫn còn thiếu các chức năng để mở rộng kết quả tìm kiếm cũng như đưa ra kết quả gần nhất với mỗi người dùng.
• Hệ thống chỉ hỗ trợ tài liệu tiếng Anh.
3. Hướng phỏt triển trong tương lai
Các hệ thống thu thập, quản lý và hỗ trợ tìm kiếm tài liệu khoa học kỹ thuật hỗ trợ tốt ngôn ngữ tiếng Việt hiện nay vẫn chưa có, đặc biệt là hỗ trợ tìm kiếm tiếng Việt theo ngữ nghĩa. Với yêu cầu tiếng Việt, ta có những hướng phát triển tiếp theo như sau:
• Cần có 2 server riêng, một hỗ trợ tiếng Anh và 1 hỗ trợ tiếng Việt.
• Can thiệp ở bộ parsing, cụ thể là ở cỏc service phừn tỏch văn bản.
• Can thiệp ở bộ indexing, cụ thể là solr.
• Can thiệp ở cỏc đoạn code hiển thị để support tốt mó tiếng Việt. Ngoài ra, hệ thống cần thêm những chức năng mới để nâng cao kết quả tìm kiếm
• Tìm kiếm theo hướng người dùng: dựa trên những thông tin về người dùng cũng như các kết quả tìm kiếm trong quá khứ để khoanh vùng kết quả, cho ra kết quả chuẩn xác hơn đối với từng người dùng.
• Hỗ trợ liên kết theo Citation: từ 1 Citation có thể tìm tất cả các tài liệu liên kết tới nú. Việc này sẽ giúp người dùng mở rộng hướng tìm kiếm nhưng vẫn theo chủ đề đang quan tâm.
TÀI LIỆU THAM KHẢO
[1] Automatic Document Metadata Extraction Using Support Vector Machines, inProceedings of ACM/ IEEE Joint Conference on Digital Libraries (JCDL 2003): 37-48, 2003.
Sinh viên thực hiện: Trần Đinh Hưng - Khúa 50 Lớp HTTT - A
•
Công nghệ asp
Đăng bởi molaliza
•
Xây dựng mô đun chuyển đổi và dịch vụ cung cấp dữ liệu cho hệ thống tích hợp và khai thác thông tin mạng cáp thành phố hà nội
Đăng bởi chienlasuco_fpts
•
Ứng dụng hệ mờ loại hai khoảng trong điều khiển robot.
•
Nghiên cứu và xây dựng chức năng hội thảo truyền hình và chia sẻ bài thuyết trình cho hệ thống hội thảo trực tuyến HOS
Đăng bởi duongthaithinh
•
Tìm hiểu về các hệ thống của máy tính
Đăng bởi analysisstock
CHUYÊN MỤC KHÁC TÀI LIỆU CHUYÊN NGÀNH
• Các Môn Đại Cương
• Công Nghệ Thông Tin
• Chuyên Ngành Kinh Tế
• Chuyên Ngành Xã Hội
• Kỹ Thuật Công Nghệ
• Tài Liệu Ôn Thi EBOOK • Chính trị, Triết học • Kinh tế • Kỹ thuật, Công nghệ • Khoa học • Ngoại ngữ
• Sử địa, Danh nhân
• Tâm lý, Giáo dục
• Tôn giáo, Tâm linh
• Tổng hợp
• Văn hóa, Nghệ thuật
• Văn học
TÀI LIỆU PHỔ THÔNG
• Âm Nhạc
• Cao đẳng, Đại Học
• Công Nghệ
• Địa Lý
• Giáo dục hướng nghiệp
• Hóa Học
• Lịch sử
• Mẫu giáo, Mầm non
• Ngữ văn
• Sinh Học
• Tổng hợp
KHO TRI THỨC SỐ
KHOTAILIEU.COM - Kho tri thức số: có số lượng khổng lồ luận văn tốt nghiệp khối kinh tế, đồ án tốt nghiệp khối kỹ thuật, các loại báo cáo thực tập, tài liệu chuyên ngành của các trường đại học cao đẳng , tài liệu phổ thông bao gồm mầm non, tiểu học, trung học cơ sở, phổ thông trung học, ebook - sách điện tử của rất nhiều lĩnh vực ...
Tài liệu do các thành viên sưu tầm và chia sẻ do đó số lượng tài liệu không ngừng tăng theo từng ngày.
MENU
• TRANG CHỦ
• ĐIỀU KHOẢN
• THANH TOÁN
• HƯỚNG DẪN
• LUẬN VĂN ĐỒ ÁN BÁO CÁO
• EBOOK • CHUYÊN NGÀNH • PHỔ THÔNG • TÌM KIẾM • SITEMAP LIÊN HỆ
Gửi ý kiến, cần hỗ trợ gấp: click vào link này gửi thư admin E-mail: khotrithucso@gmail.com Skype: khotrithucso
Điện thoại hỗ trợ 24/24: Bạn gọi điện hoặc nhắn tin bất cứ lúc nào 0936.053.911 Theo dõi sự kiện Google Plus của Kho tri thức số
Copyright © 2014 khotailieu.com - All Rights Reserved
Design by khotailieu.com Website đang chờ cấp phép của Bộ Văn hóa Thông tin và Truyền thông
Luận văn, đồ án,
Xây dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trên
CiteSeerX. Ngày nay, tìm kiếm thông tin trên Internet đã trở thành công việc không thể thiếu với rất nhiều người, đặc biệt là sinh viên, học sinh, giảng viên, nghiên cứu sinh,… Một trong những đối tượng được họ quan tâm nhiều nhất để phục vụ cho quá trình học tập và nghiên cứu của mình là các tài
liệu ... docx Đăng bởi nmdangkhoa284
5 stars - 133 reviews
Thông tin tài liệu 62 trang Đăng bởi: nmdangkhoa284 - 01/03/2012 Ngôn ngữ: Việt nam, English
5 stars - "Tài liệu tốt" by Kenny-41, Written on 07/01/2015 Tôi thấy tài liệu này rất chất lượng, đã giúp ích cho tôi rất nhiều. Chia sẻ thông tin với tôi nếu bạn quan tâm đến tài liệu: Xây dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trên CiteSeerX.
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA CễNG NGHỆ THễNG TIN ──────── * ─────── ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CễNG NGHỆ THễNG TIN PHẦN MỀM ĐỌC MẶT SỐ ĐỒNG HỒ NƯỚC
Sinh viờn thực hiện : Nguyễn Cảnh Toàn
Lớp Tin1 - K48
Giỏo viờn hướng dẫn: ThSBùi Quốc Anh
Hà Nội 5 - 2008
Lớp KTMT – Khoa CNTT K48 Nguyễn Cảnh Toàn
LỜI NểI ĐẦU
Ngày nay, trong sự nghiệp công nghiệp húa hiện đại húa đất nước, ngành công nghệ thông tin Việt Nam ngày càng phát triển và tiếp tục khẳng được vai trò quan trọng của mình trong đời sống kinh tế xã hội. Ngày càng có nhiều công ty, tổ chức hoạt động trong lĩnh vực này được thành lập. Nhiều ứng dụng có hàm lượng khoa học và tính ứng dụng cao đã được đưa vào thực tiễn, giúp cải tiến các quy trình sản xuất, nâng cao năng suất, giải phóng sức lao động của con người. Ngành Công nghệ Thông Tin bản thân nú không sản sinh trực tiếp ra của cải vật chất cho xã hội, nú chỉ phát huy tác dụng cao nhất khi được gắn kết với một lĩnh vực ứng dụng cụ thể. Bởi vậy, việc đưa kết quả nghiên cứu vào ứng dụng thực tiễn luôn là ưu tiên hàng đầu của các nhà khoa học trong ngành.
Hiện nay, một công đoạn rất mất thời gian và công sức mà bắt buộc cỏc nhà mỏy cung cấp nước sạch phải thực hiệnđó là việc thu
thập số nước sử dụng hàng thỏng của mỗi hộgia đình. Công đoạn này yờu cầu cỏc nhừn viờn đi kiểm tra đồng hồ nước của từng hộgia đình, đọc số nước, tỡm kiếm trong sổ ghi chộp nơi cầnđiền số nước của thỏng vừaqua; sau khi đó thu thậpđược hết tất cả số liệu, cỏc nhừn viờn
này cũn phải thực hiệnnhập toàn bộ số liệu từ sổ ghi chộp này vào mỏy tớnh, rồi mới in hoỏđơn yờu cầu thanh toỏn tiền nước, và cuối cùng lạiđem tới từng hộ gia đình. Rừ ràng, cỏc hoạt động thủcông này là rất vất vả và tạo ra một năng suất thấp. Trước tình hìnhđó, cùng với những kiến thức đã học được, trong khuôn khổ đồ án tốt nghiệp này, tôi quyết định thực hiện đồ án với đề tài: “Thiết kế phần mềm đọc mặt số đồng hồ nước”.
Để thực hiện được đề tài này, tôi xin gửi lời cảm ơn chân thành tới các thầy cô giáo trường Đại Học Bách Khoa Hà Nội, Khoa Công Nghệ Thông Tin và Bộ Môn Kỹ Thuật Máy Tính đã trang bị cho tôi những kiến thức cơ bản và quý báu trong suốt năm năm học vừa qua. Tôi cũng xin gửi lời cảm ơn tới Thạc sĩ Bùi Quốc Anh đã chia sẻ ý tưởng mới, táo bạo về công việc trong đồ án này và đã tận tâm hướng dẫn, định hướng trong quá trình thực hiện đề tài.
Do thời gian có hạn và kiến thức của bản thân còn hạn chế, nên đồ án này chắc chắn còn nhiều thiếu sót. Tôi rất mong muốn nhận được những ý kiến góp ý, giúp đỡ để đồ
án nàyhoàn thiện hơn và được ứng dụng tốt vào cuộc sống.
Sinh viên lớp Kỹ Thuật Máy Tính K48
Nguyễn Cảnh Toàn
Mục lục
LỜI NểI ĐẦU 2
Mục lục 2
Danh mục hình 4
Danh mục bảng 7
Chương 1: Nhiệm vụvà phừn tớch nhiệm vụ 10 1.1.
Nhiệm vụ 10 1.2.
Phừn tớch nhiệm vụ 10
1.2.1. Công việc cần thực hiện 10
1.2.2. Cỏc thiết bị cần thiết 11 1.2.3. Cỏc công việcđó thực hiện 11
1.2.4. Tiến trình hoàn thành đồỏn 11 Chương 2: Thiết kế tổng thể 12 2.1. Tổng quan về đề tài 12 2.2. Miờu tả về hệ thống 13
2.2.1. Miờu tả về cỏc tớnh năng của hệ thống 13
2.2.2. Đềxuất cỏc phương ỏn 14 2.2.3. Thiết kế sơ đồ khối 17 2.2.4. Mô tả hoạt động,
cỏch thức sử dụng phần mềm 18
Chương 3: Cơ sở lý thuyết liờn quan 19 3.1.
Cỏc khỏi niệm về học mỏy – Machine
Learning 19
3.1.1. Huấn luyện 20
3.1.2. Học vột cặn, học vẹt 21
3.1.3. Thế nào là học 21
3.1.4. Độ lệch qui nạp - Inductive bias 22
3.1.5. Giới thiệu về cừy quyếtđịnh 22
3.1.6. Vấn đề học quỏ tải - The
problem of overfitting 24
3.1.8. Mạng thần kinh nhừn tạo 25
3.1.9. Cỏc phương phỏp học 26
3.2.
Cỏc khỏi niệm về mạng thần kinh nhừn tạo –
Artificial Neural Network 27
3.2.1. Neurons 27
3.2.2. Mạng hồi qui - Recurrent Networks 35
3.3.
Giới thiệu về quan sỏt mỏy – Computer
Vision 39
3.3.1. Giới thiệu 39
3.3.2. Hệ thống quan sỏt của con người 40
3.3.3. Cỏc hệ thống quan sỏt – Vision system 41
3.3.4. Phừn tớch kết cấu - Using texture 46
3.3.5. Xỏc định chuyển động 48
3.3.6. Ứng dụng của cỏc hệ thống quan sỏt 49
3.4.
Phộp biến đổi Hough – Hough Transform 50
3.4.1. Lý thuyết của phộp biến đổi Hough 50
3.4.2. Giải thuật dò tìm đường thẳng 52
3.4.3. Ví dụ về dò tìm đường thẳng 53 3.5. Các phép toán hình thể – Mathematical Morphology 55 3.5.1. Phộp giún ảnh (Dilation) 56 3.5.2. Phộp co ảnh (Erosion) 57 3.5.3. Phộp mở ảnh (Open) 57 3.5.4. Phép đóng ảnh (Close) 58
Chương 4: Thiết kế chi tiết chương trình 58 4.1.
Biểu đồ luồng công việc 59
4.2.
Công đoạn phân vùng ảnh 59
4.2.1. Thuật toán dò tìm hình chữ nhật 60 4.3. Công đoạn phừn tỏch chữ số 66 4.3.1. Thuật toỏn tỏch ký tự 66 4.4. Công đoạn nhận dạng ảnh 68
4.4.1. Mô tả cấu trúc mạng neuron để nhận dạng
ảnh
68
4.4.2. Thiết kế cơ sở dữ liệu huấn luyện 70
4.5.
Thiết kế chi tiết chương trình 73
4.5.1. Sơ đồ khối 73 4.5.2. Biểu đồ UseCase 74 4.6. Biểu đồ lớp 74 4.6.2. Biểu đồ tuần tự 85 4.6.3. Biểu đồ cộng tỏc 85 4.6.4. Biểu đồ hoạt động 85
Chương 5: Thực thi chương trình 85 5.1.
Các phương pháp cải tiến hiệu năng chương trình 86
5.1.1. Lập bảng sin/ cos 86
5.1.2. Giảm thiểu không gian tìm kiếm 86
5.1.3. Hướng tiếp cận phù hợp hơn 90
5.1.4. Giảm thiểu kích thước không gian của phép biến
đổi Hough 90
5.1.5. Cải tiến giải thuật phừn tỏch chữ số 90
5.1.6. Phân ngưỡng thích nghi 92
5.2.
Một số hình ảnh kết quả 92
5.2.1. Quá trình huấn luyện mạng thần kinh – quá trình
học
93
5.2.2. Quá trình phân vùng ảnh 93
5.2.3. Quá trình phân tách ký tự 95
5.2.4. Quá trình nhận dạng ảnh 96
Kết luận và phương hướng phỏt triển 97
Phụ lục: 98
Thiết kế phần mềm đọc mặt số đồng hồ nước
Lớp KTMT – Khoa CNTT K48 Nguyễn Cảnh Toàn