Tìm kiếm văn bản dựa vào cụm từ và chuyển vào cơ sở dữ liệu

11 288 0
Tìm kiếm văn bản dựa vào cụm từ và chuyển vào cơ sở dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THỊ LOAN TÌM KIẾM VĂN BẢN DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THỊ LOAN TÌM KIẾM VĂN BẢN DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU Ngành: Công nghệ Thông tin Chuyên ngành: Kỹ Thuật Phần Mềm Mã số: 60.48.01.03 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ HUY THẬP Hà Nội - 2015 LỜI CẢM ƠN Để hoàn thành luận văn Thạc sĩ xin gửi lời cảm ơn sâu sắc đến thầy PGS.TS Lê Huy Thập định hướng khoa học, quan tâm tạo điều kiện thuận lợi suốt trình nghiên cứu hoàn thành luận văn Tôi xin gửi lời cảm ơn đến thầy, cô Bộ môn Kỹ thuật Phần Mềm Khoa Công nghệ Thông tin truyền đạt cho kiến thức quý giá bổ ích trình theo học trường Tôi xin chân thành cảm ơn đến gia đình quan tâm, động viên bố mẹ, chồng em giúp có thêm nghị lực, cố gắng để hoàn thành luận văn Cuối cùng, xin gửi lời cảm ơn chân thành đến bạn học K19, K20 giúp đỡ suốt năm học tập Do thời gian kiến thức có hạn nên luận văn không tránh khỏi thiếu sót định Tôi mong nhận góp ý quý báu thầy cô bạn Hà Nội, ngày 18 tháng 11 năm 2015 Đỗ Thị Loan LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Tìm kiếm văn dựa vào cụm từ chuyển vào sở liệu” công trình nghiên cứu cá nhân hướng dẫn PGS TS Lê Huy Thập, trung thực không chép tác giả khác Trong toàn nội dung nghiên cứu luận văn, vấn đề trình bày tìm hiểu nghiên cứu cá nhân trích dẫn từ nguồn tài liệu có ghi tham khảo rõ ràng, hợp pháp Tôi xin chịu trách nhiệm hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 18 tháng 11 năm 2015 Đỗ Thị Loan MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH SÁCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ DANH SÁCH BẢNG BIỂU MỞ ĐẦU Chương TỔNG QUAN 1.1 Cơ sở liệu 1.1.1 Khái niệm văn phi cấu trúc có cấu trúc 1.1.2 Giới thiệu sở liệu quan hệ 10 1.2 Toán rời rạc 16 1.2.1 Mệnh đề đơn giản CSDL 16 1.2.1.1 Định nghĩa mệnh đề toán học 16 1.2.1.2 Các phép toán mệnh đề 16 1.2.2 Mệnh đề hội tuyển sơ cấp, mệnh đề chuẩn hội chuẩn tuyển 18 1.2.3 Tính tương đương biểu thức logic mệnh đề chuẩnhội/chuẩn tuyển 21 1.3 Các phần mềm tìm kiếm 21 1.3.1 Google search 22 1.3.2 Yahoo search 22 Chương TÌM KIẾM VĂN BẢN DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CSDL 24 2.1 Tạo xâu tìm kiếm 24 2.1.1 Tạo xâu tìm kiếm dựa vào mode xâu 24 2.1.2 Tạo xâu tìm kiếm dựa vào toán tử OR AND 27 2.2.Cơ sở liệu quan hệ 28 2.3 Các thuật toán 31 2.3.1 Thuật toán 1(Gom địa Website có chứa “cụm từ” vào Collection) 31 2.3.2 Thuật toán 2(Truy cập Website đưa đoạn văn có "cụm từ") 33 2.3.3 Tinh chế lại bảng TongHop.dbf 36 2.3.4 Thống kê tổng hợp liệu từ số liệu bảng TongHop.dbf 36 2.4 Tiền xử lý thông tin thao tác hỗ trợ thuật toán 37 2.4.1 Máy chủ Công nghệ sử dụng 37 2.4.1.1 Máy chủ Apache 37 2.4.1.2 Ngôn ngữ PHP (Hypertext Preprocessor) 37 2.4.1.3 MySQL 37 2.4.2 Web Crawler phương pháp tìm kiếm liệu Internet 38 2.4.2.1 Dữ liệu thu thập thông tin Internet 38 2.4.2.2 Phân loại nguồn thông tin từ Internet 39 2.4.2.3 Module Crawler 41 Chương THỬ NGHIỆM CHƯƠNG TRÌNH TÌM KIẾM CÁC ĐOẠN VĂN BẢN TRÊN MỘT MÁY TÍNH DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU 47 3.1 Quản lý chủ đề 47 3.2 Tìm kiếm thu thập dự liệu theo chủ đề 49 3.3 Nội dung tổng hợp 50 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 55 a, Tầm quan trọng vấn đề lấy tin tự động Internet 55 b, Các vấn đề tìm hiểu đề tài 55 Luận văn đạt hai kêt chính: 55 TÀI LIỆU THAM KHẢO 56 DANH SÁCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Thuật ngữ Diễn giải CSDL Cơ sở liệu KQTC Kết tài BCTN Báo cáo thường niên BCTC Báo cáo tài HĐQT Hội đồng quản trị URL Uniform Resource Locator, dùng đề tham chiếu tới tài nguyên Internet HTTP HyperText Transfer Protocol DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2.1 Lớp mode cụm từ 27 Hình 2.2 Mối quan hệ thực thể mô hình liệu 31 Hình 2.3 Kết tìm kiếm 33 Hình 2.4 Danh sách URL tìm 35 Hình 2.5 Danh sách báo cần xử lý chuẩn hóa liệu 36 Hình 2.6 Quá trình tìm kiếm xử lý thông tin 41 Hình 2.7 Sơ đồ thu thập thông tin 44 Hình 2.8 Sơ đồ xử lý liệu từ hàng đợi 45 Hình 2.9 Sơ đồ bóc tách liệu 46 Hình 3.1 Quản lý chủ đề 47 Hình 3.2 Thêm chủ đề 48 Hình 3.3 Sửa chủ đề 49 Hình 3.4 Màn hình quét thu thập thông tin từ Internet 50 Hình 3.5 Quản lý viết thu thập 51 Hình 3.6 Thêm viết 52 Hình 3.7 Sửa viết 53 Hình 3.8 Xem chi tiết viết 54 DANH SÁCH BẢNG BIỂU Bảng 1.1 Chân trị phép toán mệnh đề 17 Bảng 1.2 Bảng ưu tiên phép toán mệnh đề 17 Bảng 2.1 Quan hệ cụm từ viết 26 Bảng 2.2 Tần số tần số tích lũy 26 Bảng 2.3 Các ký hiệu biến mệnh đề 28 Bảng 2.5 Nội dung bảng chủ đề tìm kiếm 29 Bảng 2.6 Cấu trúc bảngtổng hợp tin tức 30 Bảng 2.7 Ví dụ nội dung thu thập 30 MỞ ĐẦU Ngày cách mạng Khoa học – Công nghệ phát triển cách chóng mặt, làm thay đổi kinh tế toàn cầu trở thành lực lượng sản xuất trực tiếp Khoa học – Công nghệ đưa nhân loại chuyển dần từ văn minh công nghiệp sang kinh tế tri thức; công nghệ thông tin ngành mũi nhọn Nó có tầm quan trọng cho quốc gia nước phát triển muốn hòa nhập với kinh tế giới Một ứng dụng quan trọng công nghệ thông tin việc áp dụng vào quản lý, đặc biệt lĩnh vực quản lý nhà nước, quản lý kinh tế -xã hội Nó giúp cho nhà quản lý đưa định xác, kịp thời, xử lý nhanh chóng tình nhằm nâng cao hiệu quản lý Với phát triển mạnh mẽ internet, World Wide Web phương pháp tìm kiếm tìm thấy thông tin cần thiết cho mục đích sử dụng cho cá nhân tập thể Tuy nhiên, với khối lượng thông tin khổng lồ thông tin hữu ích tất số website ngày nhiều nên nội dung ngày phong phú đa dạng Làm để tìm kiếm thông tin có ích cho lĩnh vực mà quan tâm khối lượng thông tin đồ sộ Internet bao gồm: Kinh tế, trị, khoa học kỹ thuật, giáo trình,… Chúng ta tìm mạng đoạn văn hay viết có chứa “cụm từ” thuộc chủ đề mà quan tâm cho trước Mục đích luận văn: - Tổng hợp nhanh thông tin theo chủ đề để hỗ trợ cho nhà lãnh đạo định kịp thời “Thời gian đắt vàng” - Ngăn chặn không cho văn độc hại chuyển vào mạng khỏi mạng - Ghi lại nội dung đoạn văn hay toàn viết với tác giả, ngày upload, địa kết nối,… Các liệu lưu vào sở liệu quan hệ có cấu trúc tiền định nhằm hỗ trợ cho công tác lưu trữ sử dụng Có thể sử dụng thuật toán đề tài để tạo nhanh chóng báo cáo tổng quan chuyên đề đặc biệt hữu dụng để chọn lựa tài liệu xây dựng giáo trình giáo trình điện tử 7 Chương TỔNG QUAN Chương trình bày khái niệm văn phi cấu trúc có cấu trúc Giới thiệu sở liệu quan hệ, mệnh đề đơn giản sở liệu, mệnh đề hội tuyển sơ cấp, dạng chuẩn tắc, tính tương đương biểu thức logic mệnh đề chuẩn hội, chuẩn tuyển, sau công cụ tìm kiếm Google search, Yahoo search, số lệnh tìm kiếm ngôn ngữ lập trình bậc cao 1.1 Cơ sở liệu [2][9][10] Nếu liệu lưu máy theo quy định (để cập nhật: truy nhập, truy xuất) gọi Cơ Sở Dữ Liệu - Database (sẽ viết tắt CSDL) Các mô hình Cơ Sở Dữ Liệu: i- Mô hình đẳng cấp Mô hình đẳng cấp thiế tkế theo dạng hình (Tree) nên gọi mô hình ii- Mô hình mạng Một Cơ Sở Dữ Liệu mạng tập hợp mắt xích (nodes) mối nối (links), mắt xích nối với mắt xích khác, nối nhiều lần Tuy nhiên tác vụ nhập liệu xuất liệu trường hợp phức tạp iii- Mô hình quan hệ Các liệu cấp tổ chức thành bảng, bảng đặt quan hệ khoá Khi gọi đến khoá bảng mẹ, liệu bảng tương ứng với khoá tham chiếu đến Kiến trúc hệ Cơ Sở Dữ Liệu Một Cơ Sở Dữ Liệu phân thành mức: - Phần Cơ Sở Dữ Liệu Vật lý (mức Vật lý) tệp liệu theo cấu trúc lưu thiết bị nhớ thứ cấp (đĩa từ, băng từ, ) Phần Cơ Sở Dữ Liệu khái niệm biểu diễn trừu tượng Cơ Sở Dữ Liệu Vật lý, Phần Khung nhìn cách nhìn, quan niệm sử dụng Cơ Sở Dữ Liệu mức khái niệm 56 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đỗ Thị Loan, et al…, Chuẩn hóa xác định mối quan hệ cụm từ tìm lấy thông tin liên quan đến cụm từ lưu vào CSDL quan hệ Kỷ yếu hội thảo Quốc gia “Một số vấn đề chọn lọc CNTT truyến thông”, Huế, Nhà XB Khoa học Kỹ thuật, 47-58, 2008 [2] Lê Tiến Vương, Nhập môn sở liệu quan hệ, NXB Thống Kê, 2000 [3] Lê Huy Thập, Tập giảng toán rời rạc, Khoa CNTT, Học viện Công nghệ BCVT Hà Nội 2, 2011 [4] Lê Huy Thập (2008), Giáo trình Kỹ thuật lập trình, Tập 1, NXB Khoa học tự nhiên công nghệ [5] Lê Huy Thập, Tìm thông tin máy tính cách dùng chuỗi để so sánh, Kỷ yếu hội nghị khoa học kỷ niệm 30 năm thành lập Viện công nghệ thông tin, NXB Khoa học tự nhiên Công nghệ, Hà Nội 2007, 422-427 [6] Đặng Hữu Đạo, Lê Huy Thập, Nguyễn Minh Tuấn, Nguyễn Gia Đăng, Mô hình hệ thống thông tin phòng giao dịch cửa quan hành nhà nước, Kỷ yếu hội nghị khoa học kỷ niệm 30 năm thành lập Viện công nghệ thông tin, NXB Khoa học tự nhiên Công nghệ, Hà Nội 2007, 232- 244 [7] Lê Huy Thập, Thuật toán thăm dò mạng, lấy văn cần thiết chuyển thành văn có cấu trúc, Các báo cáo toàn văn “Hội nghị Khoa học ITMATH-06, 10/2006”.p128-135, Học viện Quân [8] Kenneth H.Rosen, Toán rời rạc ứng dụng tin học, NXB khoa học kỹ thuật [9] Đỗ Xuân Lôi, Cấu trúc liệu giải thuật, NXB Khoa học Kỹ thuật,1996 Tiếng Anh: [10] Robert Sedgewick, Cẩm nang thuật toán Vol.1 and vol.2, NXB Khoa học Kỹ Japan Information Processing Development Corporation, Central Academy of Information Technology, Internal Design And Programming, 1978 [11] Cecchini, M (2010),“Making words work: Using financial text as a predictor of financial events”, Decision Support Systems, Vol 50, 164-175 [12] Healy, P, M and Palepu, K (2000), “Information Asymmetry, Corporate Disclosure and the Capitan Markets: A review of Empirical Disclosure Literature”, Journal of Accounting and Economics, Volume 31 (1), 405-440 [...]...56 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đỗ Thị Loan, et al…, Chuẩn hóa và xác định mối quan hệ giữa các cụm từ tìm và lấy thông tin liên quan đến cụm từ lưu vào CSDL quan hệ Kỷ yếu hội thảo Quốc gia “Một số vấn đề chọn lọc của CNTT và truyến thông”, Huế, Nhà XB Khoa học và Kỹ thuật, 47-58, 2008 [2] Lê Tiến Vương, Nhập môn cơ sở dữ liệu quan hệ, NXB Thống Kê, 2000 [3] Lê... tự nhiên và Công nghệ, Hà Nội 2007, 232- 244 [7] Lê Huy Thập, Thuật toán thăm dò mạng, lấy về các văn bản cần thiết và chuyển thành văn bản có cấu trúc, Các báo cáo toàn văn tại “Hội nghị Khoa học ITMATH-06, 10/2006”.p128-135, Học viện Quân sự [8] Kenneth H.Rosen, Toán rời rạc và ứng dụng trong tin học, NXB khoa học và kỹ thuật [9] Đỗ Xuân Lôi, Cấu trúc dữ liệu và giải thuật, NXB Khoa học và Kỹ thuật,1996... NXB Khoa học tự nhiên và công nghệ [5] Lê Huy Thập, Tìm thông tin trên các máy tính bằng cách dùng các chuỗi để so sánh, Kỷ yếu hội nghị khoa học kỷ niệm 30 năm thành lập Viện công nghệ thông tin, NXB Khoa học tự nhiên và Công nghệ, Hà Nội 2007, 422-427 [6] Đặng Hữu Đạo, Lê Huy Thập, Nguyễn Minh Tuấn, Nguyễn Gia Đăng, Mô hình hệ thống thông tin phòng giao dịch một cửa tại các cơ quan hành chính nhà... trong tin học, NXB khoa học và kỹ thuật [9] Đỗ Xuân Lôi, Cấu trúc dữ liệu và giải thuật, NXB Khoa học và Kỹ thuật,1996 Tiếng Anh: [10] Robert Sedgewick, Cẩm nang thuật toán Vol.1 and vol.2, NXB Khoa học và Kỹ Japan Information Processing Development Corporation, Central Academy of Information Technology, Internal Design And Programming, 1978 [11] Cecchini, M (2010),“Making words work: Using financial

Ngày đăng: 27/08/2016, 23:01