Luận văn các phương pháp trích rút siêu dữ liệu từ văn bản sử dụng các phương pháp tiếp cận: Rulebased, phương pháp trích rút dựa trên máy học SVM, mô hình Markov ẩn, mô hình trường điều kiện ngẫu nhiên và Nghiên cứu thực nghiệm áp dụng phương pháp rulebased
LỜI CẢM ƠN Sau thời gian nghiên cứu cách nghiêm túc đề tài luận văn, hồn thành luận văn theo kế hoạch khoa Sau Đại Học trường Đại học Điện Lực Có kết trước hết tơi muốn gửi lời cảm ơn sâu sắc đến thầy giáo TS Nguyễn Đức Dũng tận tình hướng dẫn, giúp đỡ để tơi hồn thành luận văn Lời thứ hai muốn cảm ơn chân thành tới thầy cô giáo khoa Đào tạo Sau Đại Học, khoa Công Nghệ Thông Tin – Trường Đại học Điện Lực tạo điều kiện cho tơi q trình học tập nghiên cứu trường Tôi xin gửi lời cảm ơn tới thành viên tập thể lớp CH3CNTT ln ủng hộ, động viên, đồn kết giúp đỡ trình học tập nghiên cứu Lời cuối xin cảm ơn tới bố mẹ, anh chị, người yêu thương quan tâm, khích lệ, tạo điều kiện tốt để tơi có thời gian, hội học hỏi nghiên cứu theo mong muốn Trong trình nghiên cứu, báo cáo đề tài khơng tránh khỏi thiếu sót Tơi mong muốn nhận nhiều góp ý, bảo thầy bạn bè để luận văn tơi hồn thiện cách tốt nhất, có giá trị Tơi xin chân thành cảm ơn! LỜI CAM ĐOAN Tôi xin cam đoan luận văn cơng trình nghiên cứu riêng hướng dẫn TS Nguyễn Đức Dũng Tôi xin cam đoan giúp đỡ cho việc thực luận văn cảm ơn thơng tin trích dẫn luận văn rõ nguồn gốc Hà Nội, ngày 10 tháng 09 năm 2016 TÁC GIẢ Nguyễn Thị Thoan MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG BIỂU DANH MỤC TỪ VIẾT TẮT Cụm viết tắt HMM SVM CRF P R F Cụm từ đầy đủ Hidden Markov Model Support Vector Machines Conditional Random Fields Precision Recall F-measure MỞ ĐẦU Lý chọn đề tài Ngày mà công nghệ thông tin dần phát triển mạnh mẽ ứng dụng mặt đời sống, xã hội Chúng ta phủ nhận vai trò tầm ảnh hưởng to lớn đời sống Hơn việc phát triển ứng dụng thông minh sử dụng cho thực tiễn ngày đòi hỏi cao Việc phát triển ứng dụng trích rút liệu quan tâm dần ứng dụng rộng rãi nhiều lĩnh vực: khoa học, ngân hàng, kinh tế, thương mại, Với lượng liệu ngày nhiều mà người cập nhật, xử lý hết thơng tin, điều cần cơng cụ trích rút cách xác liệu mà người quan tâm để sử dụng chúng cách hiệu Với nhu cầu trích rút liệu phát triển mạnh năm gần có nhiều phương pháp công cụ xây dựng để phục vụ cho việc nghiên cứu Xác định tầm quan trọng việc trích rút thơng tin ngày nên tơi lựa chọn đề tài " Nghiên cứu đánh giá phương pháp trích xuất siêu liệu từ văn bản" làm đề tài nghiên cứu Mục đích nghiên cứu luận văn Tìm hiểu phương pháp trích rút siêu liệu ứng dụng xây dựng cơng cụ trích rút siêu liệu từ văn công văn dựa hệ luật Đưa kết đánh giá phương pháp Nhiệm vụ nghiên cứu Tìm hiểu phương pháp trích rút siêu liệu Xây dựng công cụ trích rút siêu liệu với đầu vào công văn dựa phương pháp hệ luật đưa kết đánh giá phương pháp Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: Các văn công văn dạng: doc, pdf, docx Các phương pháp trích rút siêu liệu Phạm vi nghiên cứu: Các văn công văn dạng: doc, pdf, docx Phương pháp nghiên cứu Về lý thuyết Nghiên cứu thuật toán, hướng giải toán trích rút phương pháp trích rút siêu liệu Nghiên cứu chi tiết phương pháp Rule Based, hướng giải tốn, ngơn ngữ lập trình java để áp dụng phương pháp vào xây dựng cơng cụ trích rút thơng tin Về thực nghiệm Tìm hiểu phương pháp trích rút kết thực nghiệm phương pháp Tìm hiểu phương pháp trích rút thơng tin dựa hệ luật Thu thập văn đầu vào gồm 100 văn công văn Xây dựng cơng cụ trích rút Thống kê kết chạy thử nghiệm đánh giá phương pháp Đóng góp luận văn Có nhìn tổng quan trích rút thơng tin nắm rõ hướng tiếp cận để giải tồn trích rút Xây dựng cơng cụ tiện lợi áp dụng cho nhiều người sử dụng để trích rút thơng tin văn cơng văn tài liệu khác đưa kết đánh giá phương pháp Rule based loại văn công văn thực nghiệm Bố cục luận văn Ngoài danh mục bảng biểu, danh mục ký tự , chữ viết tắt, danh mục tài liệu tham khảo, phụ lục Những nội dung luận văn chia làm chương: Chương – Tổng quan trích rút siêu liệu Chương – Các phương pháp trích rút siêu liệu Chương – Mơ hình giải tốn trích rút thông tin văn công văn phương pháp hệ luật Chương – Nghiên cứu thử nghiệm CHƯƠNG 1: TỔNG QUAN VỀ TRÍCH RÚT SIÊU DỮ LIỆU 1.1 Phát biểu tốn trích rút siêu liệu Ngày với lượng thông tin liệu ngày nhiều khiến việc tìm kiếm trở thành yêu cầu cấp thiết người Việc xếp, lưu trữ cần phải hợp lý cho việc tìm kiếm dễ dàng hiệu Với việc xử lý liệu tay lưu liệu giấy khơng phù hợp người cần phải làm nhiều việc lúc việc làm thủ công tốn nhiều công sức thời gian Điều đòi hỏi cơng cụ giúp lưu trữ tìm kiếm nhanh, xác giúp làm việc cách hiệu thời gian ngắn Với liệu siêu liệu thành phần quan trọng hệ thống thơng tin đại giúp phân loại tài liệu liên quan khơng liên quan hoạt động tìm kiếm Đối mặt với nguồn liệu khổng lồ ngày khó khăn việc tìm kiếm phân loại tài liệu Để góp phần quản lý liệu giúp người dễ dàng quản lý, tìm kiếm phân loại, luận văn sâu vào nghiên cứu phương pháp trích rút thơng tin xây dựng cơng cụ trích rút siêu liệu từ văn công văn hướng tiếp cận dựa hệ luật Dữ liệu đầu vào: công văn dạng doc, docx pdf Hình 1.1 Cơng văn liệu đầu vào 10 Bảng 4.1 Kết độ đo thực nghiệm 4.2.2 Đánh giá phương pháp Nhìn chung cơng cụ trích rút cao liệu cần trích rút số cơng văn, ngày tháng, nơi nhận tên người nhìn thấy kết hình 4.9 bảng 3.4 Kết cao bị mắc nhiều trường hợp nhận nhầm sau: Các lỗi xảy q trình trích rút Lỗi tả Số cơng văn tồn khoảng trắng dẫn đến trích rút sai Hình 4.10 Văn viết bị lỗi tả Việc lỗi tả sai dẫn đến việc trích rút sai điều ảnh hưởng trực tiếp tới kết trích rút, dẫn đến trường hợp bỏ sót trích rút sai thơng tin, khơng đủ thơng tin hình bên 54 Hình 4.11 Kết trích rút số công văn bị sai Với liệu tên người hay bị nhầm lần với tên đường, thành phố hay địa danh người dân đặt tên theo tên người Điều gây khó khăn việc cơng cụ nhận định đâu tên người đâu tên địa danh Ví dụ file 06_01.doc từ Hồ Chí Minh tên thành phố Hình 4.12 Nhận dạng tên người sai Nhưng kết trích rút nhầm Hồ Chí Minh tên người hình 55 Hình 4.13 Lỗi trích rút tên người Lỗi tả trích rút nơi nhận Cũng giống với lỗi Số cơng văn, trích rút nơi nhận gặp phải lỗi tả cách trình bày văn có khác biệt điều ảnh hưởng tới kết trích rút khiến cơng cụ khơng nhận dạng liệu trích rút Hình 4.14 Lỗi sai tả nơi nhận Trên hình 4.14 ta thấy chữ Nơi bị viết sai thành Nới 56 Lỗi định dạng thời gian Văn Tiếng Việt khơng có chuẩn chung, người viết có phong cách viết khác nên việc trích rút gặp khó khăn định Cùng nhìn vào hình Hình 4.15 Lỗi định dạng nhận dạng thời gian Cách viết có khoảng cách hai năm tạo khó khăn nhận dạng trích rút thời gian Hình 4.16 cho thấy cơng cụ trích rút bỏ sót thời gian 57 Ưu điểm phương pháp Rule-Based Tính module luật làm cho việc xây dựng bảo trì luật dễ dàng Có thể thực tốt lĩnh vực hạn hẹp Có tiện ích giải thích tốt Các luật ánh xạ cách tự nhiên vào khơng gian tìm kiếm trạng thái Dễ dàng theo dõi chuỗi luật sửa lỗi Nhược điểm phương pháp Rule-Based Các luật heuristic “dễ vỡ”, xử lý trường hợp ngồi dự kiến Vì luật tạo từ kinh nghiệm chuyên gia tình biết, nên gặp phải tình khơng với kinh nghiệm đó, luật khơng giải Có khả giải thích khơng chứng minh Hệ chun gia dựa luật giải thích kết luận suy luận từ luật nào, khơng chứng minh kết luận Các tri thức thường phụ thuộc vào công việc Quá trình thu thập tri thức phức tạp khó khăn, nhiên tri thức có khơng thể sử dụng lại cho cơng việc khác Khó bảo trì sở luật lớn 4.3 Cơng cụ hỗ trợ trích rút Gate 4.3.1 Gate gì? Theo chia sẻ [24] GATE phần mềm ứng dụng cụ thể, mà hệ thống phương pháp công cụ phần mềm để xây dựng phát triển ứng dụng xử lý ngôn ngữ tự nhiên, đặc biệt để rút trích thơng tin GATE phát triển nhóm nghiên cứu Trường 58 Đại học Sheffield, Anh Quốc từ năm 1995 Từ đến nay, có nhiều phiên GATE giới thiệu Phiên GATE 1.0 giới thiệu vào năm 1996 Phiên GATE 3.1 beta1 vừa giới thiệu vào tháng 12 năm 2005 Hiện nay, GATE sử dụng rộng rãi dự án nghiên cứu phát triển lĩnh vực rút trích thơng tin nhiều ngôn ngữ tiếng Anh, Hy Lạp, Tây Ban Nha, Thụy Điển, Đức, Ý, Pháp, GATE hỗ trợ mạnh cho việc phát triển Web có ngữ nghĩa GATE thực ngôn ngữ Java phần mềm mã nguồn mở theo quyền GNU Có thể tải miễn phí GATE từ [25] Hiện nay, phiên GATE 3.1 beta1 hỗ trợ bốn hệ điều hành khác Windows, Linux (x86), Solaris/SPARC, Mac OS X Với Mac OS X, GATE hỗ trợ nhiều ngôn ngữ để người sử dụng lựa chọn cho phù hợp với ngôn ngữ hệ điều hành GATE hỗ trợ nhà nghiên cứu phát triển phần mềm theo ba khía cạnh: - Kiến trúc phần mềm (Software Architecture) - Khung làm việc (Framework) - Môi trường phát triển (Development Environment) Ba hướng phát triển tạo nên sức mạnh GATE, kiến trúc phần mềm hướng hỗ trợ đáng ý Kiến trúc phần mềm liên quan đến cấu trúc tổ chức hệ thống phần mềm Nó định nghĩa hầu hết thứ thuật ngữ thành phần (Component), phân chia hệ thống thành thành phần tương ứng đảm bảo tương tác thành phần phải thoả mãn yêu cầu hệ thống Mỗi thành phần module thực nhiệm vụ cụ thể tái sử dụng cần thiết 59 Là kiến trúc phần mềm, GATE chia thành nhiều thành phần khác nhau, thành phần gọi tài nguyên (Resource) Mỗi tài nguyên thực chức riêng biệt có khả tương tác, hỗ trợ hoạt động với Trong GATE có ba loại tài nguyên là: - Tài nguyên ngôn ngữ (Language Resource - LR) - Tài nguyên xử lý (Processing Resource - PR) - Tài nguyên hiển thị (Visual Resource - VR) Tuy nhiên, GATE chưa hỗ trợ cho tiếng Việt, văn phạm JAPE mà GATE cung cấp để rút trích thơng tin ngơn ngữ tổng quát để đặc tả mẫu nhận dạng Người phát triển ứng dụng sử dụng JAPE để lập trình cho miền sở tri thức cụ thể 4.3.2 Thử nghiệm cơng cụ Gate Công cụ Gate nhiều học giả sinh viên lựa chọn ứng dụng nghiên cứu trích rút vấn đề liên quan đến xử lý văn phủ nhận Gate công cụ mã nguồn mở lớn hỗ trợ, tạo môi trường làm việc, nghiên cứu cho nhiều học giả Để có nhìn tổng quan cơng cụ Gate việc trích rút thơng tin tơi thực nghiệm trích rút cơng cụ Tiếng Việt Tiếng Anh Vì thời hạn không cho phép nên ngôn ngữ lựa chọn tập làm liệu đầu vào Đầu tiên kết thực nghiệm với tập văn Tiếng Anh sử dụng cơng cụ Gate Hình 4.16 Kết độ đo Gate với liệu Tiếng Anh Nhìn vào biểu đồ ta thấy GATE cho kết khả quan trích rút thời gian Kết tên người mức độ trung bình 60 Bảng 4.2 Kết độ đo Gate với liệu Tiếng Anh Độ đo Precision Recall F-measure Thời gian 0,738 0,951 0,831 Tên người 0,484 0,57 0,523 Dữ liệu Thứ hai la kết chạy thực nghiệm GATE với tập văn Tiếng Việt Hình 4.17 Kết đo Gate với liệu Tiếng Việt Đối với văn Tiếng Việt việc trích rút thời gian không tốt văn Tiếng Anh kết mức trung bình Đối với trích rút tên người GATE hồn tồn chưa thu kết Bảng 4.3 Kết độ đo Gate với liệu Tiếng Việt Độ đo Precision Recall F-measure Dữ liệu Thời gian 0,854 0,5 0,631 Tên người 0 Qua hai bảng khảo sát đánh giá ba thước đo: P, R, F ta thấy trích rút thời gian tài liệu Tiếng Anh cao văn Tiếng Việt mức trung bình Về trích chọn thực thể tên người Gate gặp phải khó khăn trích rút F (0,5234375) với văn Tiếng Anh văn Tiếng Việt khơng trích rút 4.4 Kết luận chương Chương trình xây dựng Laptop Asus, Core i3, Ram 4G, sử dụng công cụ NetBeans IDE 8.0.2 với ngơn ngữ lập trình Java Chương trình gồm chức chính: 61 Chức Load liệu đầu vào giúp tải tệp văn đầu vào vào chương trình để xử lý kết hợp với hiển thị danh sách tên văn để dễ dàng theo dõi kết văn sau q trình trích rút Chức Chỉnh sửa luật thay fix cứng luật code việc chỉnh sửa luật, thêm luật chức giúp cho tự tạo thêm luật để trích rút thơng tin cho đạt hiệu Trong chức cho dùng khơng dùng luật nhờ chức tích chọn Enable Trong Chỉnh sửa luật cho phép người dùng tự thêm, sửa, xóa cập nhật luật từ điển đặc trưng cho liệu trích rút Trong chức trích rút xử lý văn đầu vào gồm tiền xử lý văn bản, chuẩn hóa văn Sau văn chuẩn hóa hệ thống dựa vào luật để trích rút thơng tin cần thiết hiển thị kết nội dung trích rút lên danh sách Nhìn vào danh sách mà xem kết trích rút văn cách kích chuột vào tên file văn kết văn hiển thị lên khung bên phải Chức Lưu liệu Sau tệp văn xử lý xong chức giúp lưu lại toàn văn để bảo tồn kết thơng tin trích rút dạng xml để tiện nghiên cứu phát triển sau Chức Tải liệu giúp tải liệu lưu trước lên chương trình cách nhanh chóng để người dùng xem lại tiếp tục thao tác kết mà khơng cần phải chạy chương trình lại từ đầu Chức Làm giúp xóa bỏ tất phiên thao tác trước đó: danh sách chưa tập văn đầu vào kết hiển thị giao diện để tiếp tục thao tác với chức năng, phiên 62 Chức Lọc tên giúp lưu lại danh sách từ, cụm từ không xuất tên người để phục vụ cho việc trích rút tên người đạt hiệu Trong chức người dùng thêm, sửa, xóa cụm từ Với cài đặt chương trình sử dụng ngơn ngữ Java chạy thử nghiệm với 100 tập văn công văn cho kết thử nghiệm với ba độ đo Precision, Recall F-measure với kết ghi bảng 4.1 Chương cài đặt thử nghiệm cơng cụ Gate với liệu đầu vào Tiếng Anh liệu Tiếng Việt 63 KẾT LUẬN Kết đạt được: Việc ứng dụng nghiên cứu vào sống phát triển mạnh mẽ tạo động lực cho kinh tế phát triển Chính mà nhiều nhà kinh tế khơng tiếc tiền mua nghiên cứu để ứng dụng vào lĩnh vực riêng họ Trích rút thơng tin khơng ngoại lệ, mà trí tuệ nhân tạo, nhận dạng đặt yêu cầu, toán áp dụng vào thực tế hay thiết bị điện tử thông minh để mang lại hiệu cao tiện lợi cho người sử dụng Để góp phần nghiên cứu tốn trích rút thơng tin tơi chọn đề tài “Nghiên cứu đánh giá phương pháp trích xuất siêu liệu từ văn bản” Qua q trình mày mò nghiên cứu thực nghiệm cài đặt luận văn đạt số kết sau đây: Thứ nhất, có nhìn tổng quan tốn trích rút hướng tiếp cận tốn trích rút Xây dựng cơng cụ mở cho nhiều người sử dụng dễ dàng để trích rút thơng tin hướng tiếp cận dựa hệ luật mà phương pháp thống lĩnh thị trường thương mại điện tử mang lại nhiều lợi ích cho đời sống với cấu trúc đơn giản, dễ cài đặt hiệu cao Những vấn đề hạn chế: Chưa xử lý vấn đề lỗi text, lỗi tả trích rút nên trích chọn chưa mang lại hiệu 100% 64 Hướng phát triển: Thứ tích hợp thêm chức kiểm lỗi tả xây dựng phần chuẩn hóa xác để việc trích rút hiệu Thứ hai xây dựng thêm liệu huấn luyện để cải tiến phương pháp tự kiểm tra, huấn luyện liệu trích rút trước cho kết cuối 65 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Thị Trang (2013), Nghiên cứu phương pháp trích rút văn từ trang web ứng dụng [2] Wiki Pedia, Mơ hình Markov ẩn Tiếng Anh [3] Conglei Yao(2008), Conditional Random field an overview Computer Networks and Distributed Systems Laboratory Peking University 2008-12-31 in technique report 42 slides [4] Corinna Cortes, Vladimir Vapnik (1995), Support-Vector Networks, Machine Learning [5] Dan Cong (2006), Conditional Random Fields and Its Applications [6] Fredric Brown, Information Extraction: 10-707 and 11-748 (slide) [7] F Peng, A McCallum (2006), Accurate Information Extraction from Research Papers using Conditional Random Fields, Information Processing and Management: an International Journal [8] John Lafferty, Andrew McCallum, and Fernando CN.Pereira (2001), Conditional Random Fields Probabilistic Models for Segmenting and Labeling Sequence Data [9] Hanna M Wallach (2004), Conditional Random Fields: An Introduction February 24, 2004 In University of Pennsylvania CIS Technical Report MSCIS-04-21 [10] H Alani, S Kim, D E Millard, M J Weal, P H Lewis, W Hall and N R Shadbol (2003), Automatic Extraction of Knowledge from Web Documents, 66 In: 2nd International Semantic Web Conference - Workshop on Human Language Technology for the Semantic Web abd Web Services, October 2023, Sanibel Island, Florida, USA [11] H Han, C.L Giles, E Manavoglu, H Zha, Z Zhang, E.A Fox (2003), Automatic document metadata extraction using support vector machines, In: Proceedings of the 3rd ACM/IEEECS Joint Conference on Digital Libraries, International Conference on Digital Libraries, IEEE Computer Society Press, Washington, DC [12] Kedar Bellare, Andrew McCallum (2007), Learning Extractors from Unlabeled Text using Relevant Databases [13] Kepa Joseba Rodriquez, Mike Bryant, Tobias Blanke, Magdalena Luszczynska (2012), Comparison of Named Entity Recognition tools for raw OCR text, Proceedings of KONVENS 2012 (LThist 2012 workshop), Vienna [14] K Seymore, A McCallum, R Rosenfeld (1999), Learning hidden Markov model structure for information extraction, In: AAAI, Workshop on Machine Learning for Information Extraction [15] Laura Chiticariu, Yunyao Li, Fredrick R.Reiss (2013), Rule-based Information Extraction is Dead! Long Live Rule-based Information Extraction Systems!, Association for Computational Linguistics, Seattle, Washington, USA [16] Mario Lipinski, Kevin Yao, Corinna Breitinger, Joeran Beel, Bela Gipp (2013), Evaluation of Header Metadata Extraction Approaches and Tools for Scientific PDF Documents [17] Prof.Dr Carlos Alberto Heuser Advisor, Prof.Dra Viviane Moreira Coadvisor (2014), Metadata extraction from Scientific Documents in PDF 67 [18] P Flynn, L Zhou, K Maly, S Zeil, and M Zubair (2007), Automated Template-Based Metadata Extraction Architecture, ICADL 2007, LNCS 4822, pages 327–336, 2007 © Springer-Verlag Berlin Heidelberg [19] Somchai Chatvichienchai (2016), A rule-Based Semantic Metadata Extraction System for Speadsheets, International journal of Computer Theory and Engineering [20] S Marina (2009), Metadata Extraction from PDF Papers for Digital Library Ingest, 10th International Conference on Document Analysis and Recognition ICDAR-IEEE [21] Trausti Kristjansson & Aron Culotta & PaulViola & Andrew McCallum, InteractiveInformationExtraction with Constrained Conditional Random Fields, in Microsoft Research [22].From Wikipedia, the free encyclopedia, https://en.wikipedia.org/wiki/Machine_learning [23] http://www.chinhphu.vn [24] https://gate.ac.uk [25] http://gate.ac.uk/download [26] http://jvntextpro.sourceforge.net [27] http://www.most.gov.vn [28] http://www.slideshare.net/cutin96/bao-caohmm [29].https://vi.wikipedia.org/wiki 68 Machine learning, ... dung luận văn chia làm chương: Chương – Tổng quan trích rút siêu liệu Chương – Các phương pháp trích rút siêu liệu Chương – Mơ hình giải tốn trích rút thơng tin văn cơng văn phương pháp hệ luật... phương pháp trích rút siêu liệu Phạm vi nghiên cứu: Các văn công văn dạng: doc, pdf, docx Phương pháp nghiên cứu Về lý thuyết Nghiên cứu thuật toán, hướng giải tốn trích rút phương pháp trích rút siêu. .. pháp trích rút siêu liệu ứng dụng xây dựng cơng cụ trích rút siêu liệu từ văn công văn dựa hệ luật Đưa kết đánh giá phương pháp Nhiệm vụ nghiên cứu Tìm hiểu phương pháp trích rút siêu liệu Xây dựng