DSpace at VNU: Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER

4 139 0
DSpace at VNU: Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER

Đang tải... (xem toàn văn)

Thông tin tài liệu

Các kỹ thuật xử lý ngơn ngữ số hóa văn tiếng Việt hệ thống FSCANNER Ninh Thị Thu Hà Trường đại học Công nghệ Luận văn ThS Kỹ thuật phần mềm; Mã số: 60 48 01 03 Người hướng dẫn: TS Lê Quang Minh Năm bảo vệ: 2014 Abstract Tìm hiểu kỹ thuật nhận dạng OCR, kỹ thuật kiểm lỗi tả dựa mơ hình n-gram, kỹ thuật trích rút metadata  Nghiên cứu đặc trưng lưu trữ đề xuất xây dựng metadata cho văn số hóa góp phần xác định thuộc tính cần thiết metadata cho việc xây dựng hệ thống FSCANNER  Đề xuất chọn số dpi góc xoay thích hợp cho ảnh qt để nâng cao hiệu nhận dạng OCR Keywords Xử lý ngơn ngữ; Số hóa văn bản; FSCANNER; Nhận dạng hình ảnh; Cơng nghệ thơng tin Content Chương 1: Tổng quan tốn xử lý ngơn ngữ số hóa văn tiếng Việt Nội dung giới thiệu tốn xử lý ngơn ngữ tự nhiên sơ đồ hoạt động việc số hóa văn tiếng Việt hệ thống FSCANNER Chương 2: Các kỹ thuật xử lý ngơn ngữ số hóa văn tiếng Việt Nội dung chương gồm phần: giới thiệu số kỹ thuật nhận dạng OCR; kỹ thuật soát lỗi tả dựa mơ hình ngơn ngữ n-gram; kỹ thuật trích rút metadata, đề xuất xây dựng metadata cho văn số hóa Chương 3: Thực nghiệm – đánh giá: Chạy chương trình với liệu thực nghiệm đưa để chọn ngưỡng số DPI góc xoay thích hợp ảnh quét đầu vào trước nhận dạng OCR, nhằm nâng cao hiệu nhận dạng References Tiếng Việt Hồ Tú Bảo, Lương Chi Mai (2005), “Về xử lý tiếng Việt Công nghệ thông tin” http://www.jaist.ac.jp/~bao/Writings/VLSPwhitepaper%20-%20Final.pdf Bộ Giáo dục (1984), Quy định tả tiếng Việt thuật ngữ tiếng Việt http://thuvienphapluat.vn/archive/Quyet-dinh-240-QD-nam-1984-chinh-ta-thuatngu-tieng-Viet-sach-giao-khoa-bao-van-ban-nganh-giao-duc-vb216818.aspx Bộ Giáo dục Đào tạo (2002), Quy định tạm thời tả sách giáo khoa mới, Nhà Xuất giáo dục Bộ Giáo dục Đào tạo (2003), Quy định tạm thời viết hoa tên riêng sách giáo khoa Bộ nội vụ (2011), Thông tư hướng dẫn thể thức kỹ thuật trình bày văn hành Bộ Thơng tin truyền thơng (2011), Thơng tư quy định việc tạo lập, sử dụng lưu trữ liệu đặc tả trang thông tin điện tử cổng thông tin điện tử quan nhà nước http://xephangvanban.com/ThongtinSukien.aspx?id1=12&id2=15 http://xephangvanban.com/ThongtinSukien.aspx?id1=12&id2=16 http://vtc.vn/394-255965/giat-minh-thuc-trang-loi-chinh-ta-tieng-viet.htm 10 Lê Trung Hiếu, Lê Anh Vũ, Lê Trung Kiên (2013), “Áp dụng xác suất thống kê trình máy tự học cho toán phân tách từ văn tiếng Việt”, Tạp chí khoa học cơng nghệ trường Đại học Duy Tân, (1), tr.32-38 11 Lê Minh Hoàng, Ngô Quốc Tạo, Lương Chi Mai (2002), “Ứng dụng mô hình Markov ẩn nhận dạng chữ”, Tạp chí khoa học công nghệ, tập 40, số ĐB, tr.31-40 12 Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai (2009), “Kết hợp phận phân lớp SVM cho việc nhận dạng chữ việt viết tay rời rạc”, Tạp chí tin học điều khiển, tập 25, (1) ,tr.88-97 13 Ngô Văn Sỹ (2008), “Nhận dạng ký tự quang học mạng nơron” , Tạp chí khoa học cơng nghệ Đại Học Đà nẵng, (4), tr.20-24 14 Văn phòng phủ (1998), Quy định tạm thời viết hoa văn Chính phủ Văn phòng Chính phủ Tiếng Anh 15 Cortes, Corinna, Vapnik, Vladimir (1995), Support-Vector Networks, Machine Learning 16 H Han, C.L Giles, E Manavoglu, H Zha, Z Zhang, E.A Fox (2003), Automatic document metadata extraction using support vector machines, In: Proceedings of the 3rd ACM/IEEECS Joint Conference on Digital Libraries, International Conference on Digital Libraries, pp 37–48 IEEE Computer Society Press, Washington, DC 17 Hao, C X (2000), Vietnamese - Some Questions on Phonetics, Syntax and Semantics, Education Publishing House, Hanoi 18 http://dublincore.org/documents/dces 19 http://help.abbyy.com/FineReader/FineReader12/Vietnamese/Overview/overvie.ht m; 20 http://www.kodakcapturepro.co.uk/products/kodak-capture-pro 21 http://www.nuance.com 22 John C.Platt, Nello Cristianini, John Shawe-Taylor (1999), Large Margin DAGs for Multiclass Classification, NIPS 23 K Nakagawa, A Nomura, and M Suzuki (2004), “Extraction of Logical Structure from Articles in Mathematics”, MKM, LNCS 3119, pp 276-289, Springer Berlin Heidelberg from Articles in Mathematics 24 F Peng, A McCallum (2006), “Accurate Information Extraction from Research Papers using Conditional Random Fields”, Information Processing and Management: an International Journal, pp 963 – 979 25 Rabiner L.R (1989), "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition" , Proceedings of IEEE, VOL.77, NO.2, pp 257-286 26 Rohit Verma, Dr Jahid Ali (2012), “A-Survey of Feature Extraction and Classification Techniques in OCR Systems”, International Journal Applications & Information Technology, Vol.I, Issue III (ISSN: 2278-7720) ... ngưỡng số DPI góc xoay thích hợp ảnh quét đầu vào trước nhận dạng OCR, nhằm nâng cao hiệu nhận dạng References Tiếng Việt Hồ Tú Bảo, Lương Chi Mai (2005), “Về xử lý tiếng Việt Công nghệ thông... http://www.jaist.ac.jp/~bao/Writings/VLSPwhitepaper%20-%20Final.pdf Bộ Giáo dục (1984), Quy định tả tiếng Việt thuật ngữ tiếng Việt http://thuvienphapluat.vn/archive/Quyet-dinh-240-QD-nam-1984-chinh-ta-thuatngu-tieng-Viet-sach-giao-khoa-bao-van-ban-nganh-giao-duc-vb216818.aspx... Structure from Articles in Mathematics”, MKM, LNCS 3119, pp 276-289, Springer Berlin Heidelberg from Articles in Mathematics 24 F Peng, A McCallum (2006), “Accurate Information Extraction from Research

Ngày đăng: 15/12/2017, 11:03

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan