1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tìm kiếm văn bản dựa vào cụm từ và chuyển vào cơ sở dữ liệu

61 18 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THỊ LOAN TÌM KIẾM VĂN BẢN DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ ĐỖ THỊ LOAN TÌM KIẾM VĂN BẢN DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU Ngành: Công nghệ Thông tin Chuyên ngành: Kỹ Thuật Phần Mềm Mã số: 60.48.01.03 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ HUY THẬP Hà Nội - 2015 LỜI CẢM ƠN Để hồn thành luận văn Thạc sĩ tơi xin gửi lời cảm ơn sâu sắc đến thầy PGS.TS Lê Huy Thập định hướng khoa học, quan tâm tạo điều kiện thuận lợi suốt trình nghiên cứu hồn thành luận văn Tơi xin gửi lời cảm ơn đến thầy, cô Bộ môn Kỹ thuật Phần Mềm Khoa Công nghệ Thông tin truyền đạt cho kiến thức quý giá bổ ích q trình theo học trường Tôi xin chân thành cảm ơn đến gia đình tơi quan tâm, động viên bố mẹ, chồng em giúp tơi có thêm nghị lực, cố gắng để hoàn thành luận văn Cuối cùng, xin gửi lời cảm ơn chân thành đến bạn học K19, K20 giúp đỡ suốt năm học tập Do thời gian kiến thức có hạn nên luận văn khơng tránh khỏi thiếu sót định Tơi mong nhận góp ý q báu thầy bạn Hà Nội, ngày 18 tháng 11 năm 2015 Đỗ Thị Loan LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Tìm kiếm văn dựa vào cụm từ chuyển vào sở liệu” cơng trình nghiên cứu cá nhân tơi hướng dẫn PGS TS Lê Huy Thập, trung thực khơng chép tác giả khác Trong tồn nội dung nghiên cứu luận văn, vấn đề trình bày tìm hiểu nghiên cứu cá nhân tơi trích dẫn từ nguồn tài liệu có ghi tham khảo rõ ràng, hợp pháp Tôi xin chịu trách nhiệm hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 18 tháng 11 năm 2015 Đỗ Thị Loan MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH SÁCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ DANH SÁCH BẢNG BIỂU MỞ ĐẦU Chương TỔNG QUAN 1.1 Cơ sở liệu 1.1.1 Khái niệm văn phi cấu trúc có cấu trúc 1.1.2 Giới thiệu sở liệu quan hệ 1.2 Toán rời rạc 1.2.1 Mệnh đề đơn giản CSDL 1.2.1.1 Định nghĩa mệnh đề toán học 1.2.1.2 Các phép toán mệnh đề 1.2.2 Mệnh đề hội tuyển sơ cấp, mệnh đề chuẩn hội chuẩn tuyển 1.2.3 Tính tương đương biểu thức logic mệnh đề chuẩnhội/chuẩn tuyển 1.3 Các phần mềm tìm kiếm 1.3.1 Google search 1.3.2 Yahoo search Chương TÌM KIẾM VĂN BẢN DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CSDL 2.1 Tạo xâu tìm kiếm 2.1.1 Tạo xâu tìm kiếm dựa vào mode xâu 2.1.2 Tạo xâu tìm kiếm dựa vào toán tử OR AND 2.2.Cơ sở liệu quan hệ 2.3 Các thuật toán 2.3.1 Thuật toán 1(Gom địa Website có chứa “cụm từ” vào Collection) 2.3.2 Thuật toán 2(Truy cập Website đưa đoạn văn có "cụm từ") 2.3.3 Tinh chế lại bảng TongHop.dbf 2.3.4 Thống kê tổng hợp liệu từ số liệu bảng TongHop.dbf 2.4 Tiền xử lý thông tin thao tác hỗ trợ thuật toán 2.4.1 Máy chủ Công nghệ sử dụng 2.4.1.1 Máy chủ Apache 2.4.1.2 Ngôn ngữ PHP (Hypertext Preprocessor) 2.4.1.3 MySQL 2.4.2 Web Crawler phương pháp tìm kiếm liệu Internet 2.4.2.1 Dữ liệu thu thập thông tin Internet 2.4.2.2 Phân loại nguồn thông tin từ Internet 2.4.2.3 Module Crawler Chương THỬ NGHIỆM CHƯƠNG TRÌNH TÌM KIẾM CÁC ĐOẠN VĂN BẢN TRÊN MỘT MÁY TÍNH DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU 3.1 Quản lý chủ đề 3.2 Tìm kiếm thu thập dự liệu theo chủ đề 3.3 Nội dung tổng hợp KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN a, Tầm quan trọng vấn đề lấy tin tự động Internet b, Các vấn đề tìm hiểu đề tài Luận văn đạt hai kêt chính: TÀI LIỆU THAM KHẢO DANH SÁCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Thuật ngữ CSDL KQTC BCTN BCTC HĐQT URL HTTP DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2.1 Lớp mode cụm từ Hình 2.2 Mối quan hệ thực thể mô hình liệu Hình 2.3 Kết tìm kiếm Hình 2.4 Danh sách URL tìm Hình 2.5 Danh sách báo cần xử lý chuẩn hóa liệu Hình 2.6 Quá trình tìm kiếm xử lý thông tin Hình 2.7 Sơ đồ thu thập thơng tin Hình 2.8 Sơ đồ xử lý liệu từ hàng đợi Hình 2.9 Sơ đồ bóc tách liệu Hình 3.1 Quản lý chủ đề Hình 3.2 Thêm chủ đề Hình 3.3 Sửa chủ đề Hình 3.4 Màn hình quét thu thập thơng tin từ Internet Hình 3.5 Quản lý viết thu thập Hình 3.6 Thêm viết Hình 3.7 Sửa viết Hình 3.8 Xem chi tiết viết DANH SÁCH BẢNG BIỂU Bảng 1.1 Chân trị phép toán mệnh đề Bảng 1.2 Bảng ưu tiên phép toán mệnh đề Bảng 2.1 Quan hệ cụm từ viết Bảng 2.2 Tần số tần số tích lũy Bảng 2.3 Các ký hiệu biến mệnh đề Bảng 2.5 Nội dung bảng chủ đề tìm kiếm Bảng 2.6 Cấu trúc bảngtổng hợp tin tức Bảng 2.7 Ví dụ nội dung thu thập MỞ ĐẦU Ngày cách mạng Khoa học – Công nghệ phát triển cách chóng mặt, làm thay đổi kinh tế toàn cầu trở thành lực lượng sản xuất trực tiếp Khoa học – Công nghệ đưa nhân loại chuyển dần từ văn minh công nghiệp sang kinh tế tri thức; cơng nghệ thơng tin ngành mũi nhọn Nó có tầm quan trọng cho quốc gia nước phát triển muốn hòa nhập với kinh tế giới Một ứng dụng quan trọng công nghệ thông tin việc áp dụng vào quản lý, đặc biệt lĩnh vực quản lý nhà nước, quản lý kinh tế -xã hội Nó giúp cho nhà quản lý đưa định xác, kịp thời, xử lý nhanh chóng tình nhằm nâng cao hiệu quản lý Với phát triển mạnh mẽ internet, World Wide Web phương pháp tìm kiếm tìm thấy thơng tin cần thiết cho mục đích sử dụng cho cá nhân tập thể Tuy nhiên, với khối lượng thông tin khổng lồ thơng tin hữu ích khơng phải tất số website ngày nhiều nên nội dung ngày phong phú đa dạng Làm để tìm kiếm thơng tin có ích cho lĩnh vực mà quan tâm khối lượng thông tin đồ sộ Internet bao gồm: Kinh tế, trị, khoa học kỹ thuật, giáo trình,… Chúng ta tìm mạng đoạn văn hay viết có chứa “cụm từ” thuộc chủ đề mà quan tâm cho trước Mục đích luận văn: -Tổng hợp nhanh thông tin theo chủ đề để hỗ trợ cho nhà lãnh đạo định kịp thời “Thời gian đắt vàng” -Ngăn chặn không cho văn độc hại chuyển vào mạng khỏi mạng -Ghi lại nội dung đoạn văn hay toàn viết với tác giả, ngày upload, địa kết nối,… Các liệu lưu vào sở liệu quan hệ có cấu trúc tiền định nhằm hỗ trợ cho công tác lưu trữ sử dụng Có thể sử dụng thuật tốn đề tài để tạo nhanh chóng báo cáo tổng quan chuyên đề đặc biệt hữu dụng để chọn lựa tài liệu xây dựng giáo trình giáo trình điện tử Chương TỔNG QUAN Chương trình bày khái niệm văn phi cấu trúc có cấu trúc Giới thiệu sở liệu quan hệ, mệnh đề đơn giản sở liệu, mệnh đề hội tuyển sơ cấp, dạng chuẩn tắc, tính tương đương biểu thức logic mệnh đề chuẩn hội, chuẩn tuyển, sau cơng cụ tìm kiếm Google search, Yahoo search, số lệnh tìm kiếm ngơn ngữ lập trình bậc cao 1.1 Cơ sở liệu [2][9][10] Nếu liệu lưu máy theo quy định (để cập nhật: truy nhập, truy xuất) gọi Cơ Sở Dữ Liệu - Database (sẽ viết tắt CSDL) Các mơ hình Cơ Sở Dữ Liệu: i- Mơ hình đẳng cấp Mơ hình đẳng cấp thiế tkế theo dạng hình (Tree) nên đơi cịn gọi mơ hình ii- Mơ hình mạng Một Cơ Sở Dữ Liệu mạng tập hợp mắt xích (nodes) mối nối (links), mắt xích nối với mắt xích khác, nối nhiều lần Tuy nhiên tác vụ nhập liệu xuất liệu trường hợp phức tạp iii- Mơ hình quan hệ Các liệu cấp tổ chức thành bảng, bảng đặt quan hệ khoá Khi gọi đến khoá bảng mẹ, liệu bảng tương ứng với khố tham chiếu đến Kiến trúc hệ Cơ Sở Dữ Liệu Một Cơ Sở Dữ Liệu phân thành mức: - Phần Cơ Sở Dữ Liệu Vật lý (mức Vật lý) tệp liệu theo cấu trúc lưu thiết bị nhớ thứ cấp (đĩa từ, băng từ, ) - Phần Cơ Sở Dữ Liệu khái niệm biểu diễn trừu tượng Cơ Sở Dữ Liệu Vật lý, - Phần Khung nhìn cách nhìn, quan niệm sử dụng Cơ Sở Dữ Liệu mức khái niệm 43 +) Tiêu đề website thông thường đặt cặp thẻ cặp thẻ Header … +) Mô tả ngắn thường đặt thẻ Meta description +) Date thường có định dạng YYYY-MM-DD DD/MM/YYYY … +) Nội dung web đặt cặp thẻ nội dung cụ thể chi tiết thường đặt thẻ Div, Table… Nhìn chung với liệu và cấu trúc website khơng giống việc phân tích thơng tin sau thu thập công việc dễ dàng người sử dụng chưa nói đến máy tính Thơng thường cải thiện thơng tin thu thập cách xây dựng từ điển dấu hiệu nhận biết thông tin dựa việc lặp lại thơng tin theo tên miền thói quen chung xây dựng website lập trình viên từ đưa định lấy thông tin website 44 Sơ đồ thu thập thơng tin chương trình Demo: S Từ, Cụm từ tìm kiếm Crawler Google Tổng hợp URL theo kết Chưa thêm vào hàng đợi Hàng đợi E Hình 2.7 Sơ đồ thu thập thơng tin 45 S Dữ liệu hàng đợi Lấy URL chưa xử lý Lấy nội dung N Y Phân tích & Bóc tách liệu Lưu CSDL E Hình 2.8 Sơ đồ xử lý liệu từ hàng đợi 46 S Dữ liệu thô HTML Html Phaser Tiêu đề Mô tả Tổng hợp dự liệu Lưu CSDL E Hình 2.9 Sơ đồ bóc tách liệu 2.5 Kết luận chương Trong chương 2, tác giả đã giới thiệu cách tạo xâu tìm kiếm dựa vào mode xâu, ghép xâu sử dụng mệnh đề phức hợp dạng chuẩn hội hay chuẩn tuyển Giới thiệu sở liệu quan hệ, giới thiệu hai thuật toán tảng tìm kiếm văn website dựa vào cụm từ Giới thiệu thao tác tiền xử lý thông tin thao tác hỗ trợ thuậ tốn 47 Chương THỬ NGHIỆM CHƯƠNG TRÌNH TÌM KIẾM CÁC ĐOẠN VĂN BẢN TRÊN MỘT MÁY TÍNH DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU 3.1 Quản lý chủ đề Màn hình quản lý chủ đề tìm kiếm cho phép người sử dụng quản lý chủ đề tìm kiếm, Người dùng nhập tên chủ đề từ khóa sử dụng chủ đề để tìm kiếm sau nhấn vào tên chủ đề để thực gọi Crawler module để khai thác tìm kiếm thơng tin thơng qua Internet Dưới hình quản lý tất chủ đề cần tìm kiếm thơng tin Hình 3.1 Quản lý chủ đề 48 Hình 3.2 Thêm chủ đề 49 Hình 3.3 Sửa chủ đề 3.2 Tìm kiếm thu thập dự liệu theo chủ đề Từ từ khóa nhập vào hệ thống phân tích tìm kiếm dựa search Engine để thu thập liệu theo cấp độ ưu tiên khác +) Tất từ khóa xác nằm điều kiện tìm kiếm +) Các cụm từ nhiều từ xếp ưu tiênđược tìm kiếm xác +) Các cụm từ khơng cần tìm kiếm xác Các url thu thập gửi vào hàng đợi để nhận dạng phân tích liệu thực lưu vào bảng tổng hợp sau phân tích xong 50 Hình 3.4 Màn hình qt thu thập thơng tin từ Internet 3.3 Nội dung tổng hợp Là hình giúp quản lý xem chi tiết thông tin thu thập được, bao gồm tiêu đề, nội dung mô tả nội dung chi tiết báo Người dùng tự nhập vào hệ thống viết từ nguồn khác 51 Hình 3.5 Quản lý viết thu thập 52 Hình 3.6 Thêm viết 53 Hình 3.7 Sửa viết 54 Hình 3.8 Xem chi tiết viết 55 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận a, Tầm quan trọng vấn đề lấy tin tự động Internet Với phát triển nhanh chóng Internet ngày nay, ngày,tuần, tháng, quý, năm người phải xử lý hàng trăm, triệu, tỷ thông tin, liệu khác nhau, điều có nghĩa gặp phải rắc rối không mong muốn thời đại cơng nghệ số Vì vậy, tốn tìm kiếm phân tích liệu theo chủ đề ứng dụng thực tế, đặc biệt ứng dụng Web Trên sở liệu thu thập từ internet cần phải tiến hành phân loại, nhóm phân cụm thành cụm khác theo chủ đề khác từđó phục vụ cho việc phân tích liệu dự báo kinh tế b, Các vấn đề tìm hiểu đề tài Luận văn đạt hai kêt chính: - Nghiên cứu tài liệu để trình bày vấn đề sau: Giới thiệu tổng quan hệ sở liệu, sở toán ứng dụng tin học để áp dụng giai đoạn tìm kiếm - Xây dựng chương trình demo tìm kiếm văn website dựa vào cụm từ đó, lưu thơng tin có Website như: địa chỉ, nội dung, ngày truy cập, tác giả,…vào bảng sở liệu Trên sở liệu bảng thống kê, kết xuất thơng tin theo tiêu điều kiện mà người sử dụng mong muốn 2.Hướng nghiên cứu - Tiếp tục nghiên cứu kỹ thuật phân tích từ khóa xây dựng từ điển người dùng nhằm kiết xuất thơng tin xác linh hoạt - Đề xuất giải pháp xây dựng quy trình công nghệ phát triển hệ thống phần mềm thu thập, đánh giá thông tin tự động Internet phục vụ cho việc nghiên cứu, học tập giảng dạy áp dụng vào ngành khác nhằm phân tích, tổng hợp, xử lý liệu dự báo phát triển kinh tế xã hội - Dùng phương pháp khai phá liệu dạng text web để nâng cao khả chất lượng tìm kiếm 56 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đỗ Thị Loan, et al…, Chuẩn hóa xác định mối quan hệ cụm từ tìm lấy thơng tin liên quan đến cụm từ lưu vào CSDL quan hệ Kỷ yếu hội thảo Quốc gia “Một số vấn đề chọn lọc CNTT truyến thông”, Huế, Nhà XB Khoa học Kỹ thuật, 47-58, 2008 [2] Lê Tiến Vương, Nhập môn sở liệu quan hệ, NXB Thống Kê, 2000 [3] Lê Huy Thập, Tập giảng tốn rời rạc, Khoa CNTT, Học viện Cơng nghệ BCVT Hà Nội 2, 2011 [4] Lê Huy Thập (2008), Giáo trình Kỹ thuật lập trình, Tập 1, NXB Khoa học tự nhiên công nghệ [5] Lê Huy Thập, Tìm thơng tin máy tính cách dùng chuỗi để so sánh, Kỷ yếu hội nghị khoa học kỷ niệm 30 năm thành lập Viện công nghệ thông tin, NXB Khoa học tự nhiên Công nghệ, Hà Nội 2007, 422-427 [6] Đặng Hữu Đạo, Lê Huy Thập, Nguyễn Minh Tuấn, Nguyễn Gia Đăng, Mơ hình hệ thống thơng tin phịng giao dịch cửa quan hành nhà nước, Kỷ yếu hội nghị khoa học kỷ niệm 30 năm thành lập Viện công nghệ thông tin, NXB Khoa học tự nhiên Công nghệ, Hà Nội 2007, 232- 244 [7] Lê Huy Thập, Thuật tốn thăm dị mạng, lấy văn cần thiết chuyển thành văn có cấu trúc, Các báo cáo toàn văn “Hội nghị Khoa học ITMATH-06, 10/2006”.p128-135, Học viện Quân [8] Kenneth H.Rosen, Toán rời rạc ứng dụng tin học, NXB khoa học kỹ thuật [9] Đỗ Xuân Lôi, Cấu trúc liệu giải thuật, NXB Khoa học Kỹ thuật,1996 [10] Robert Sedgewick, Cẩm nang thuật toán Vol.1 and vol.2, NXB Khoa học Kỹ Japan Information Processing Development Corporation, Central Academy of Information Technology, Internal Design And Programming, 1978 [11] Cecchini, M (2010),“Making words work: Using financial text as a predictor of financial events”, Decision Support Systems, Vol 50, 164-175 [12] Healy, P, M and Palepu, K (2000), “Information Asymmetry, Corporate Disclosure and the Capitan Markets: A review of Empirical Disclosure Literature”, Journal of Accounting and Economics, Volume 31 (1), 405-440 ... vào cụm từ ứng dụng sở lý thuyết cho chương trình tìm kiếm văn dựa vào cụm từ chuyển vào sở liệu Đây nội dung trọng tâm luận văn 24 Chương TÌM KIẾM VĂN BẢN DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CSDL... NGHIỆM CHƯƠNG TRÌNH TÌM KIẾM CÁC ĐOẠN VĂN BẢN TRÊN MỘT MÁY TÍNH DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU 3.1 Quản lý chủ đề 3.2 Tìm kiếm thu thập dự liệu theo chủ đề... Kiến trúc hệ Cơ Sở Dữ Liệu Một Cơ Sở Dữ Liệu phân thành mức: - Phần Cơ Sở Dữ Liệu Vật lý (mức Vật lý) tệp liệu theo cấu trúc lưu thiết bị nhớ thứ cấp (đĩa từ, băng từ, ) - Phần Cơ Sở Dữ Liệu khái

Ngày đăng: 11/11/2020, 22:24

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w