Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
1,89 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THỊ LOAN TÌM KIẾM VĂN BẢN DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ ĐỖ THỊ LOAN TÌM KIẾM VĂN BẢN DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU Ngành: Công nghệ Thông tin Chuyên ngành: Kỹ Thuật Phần Mềm Mã số: 60.48.01.03 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ HUY THẬP Hà Nội - 2015 LỜI CẢM ƠN Để hồn thành luận văn Thạc sĩ tơi xin gửi lời cảm ơn sâu sắc đến thầy PGS.TS Lê Huy Thập định hướng khoa học, quan tâm tạo điều kiện thuận lợi suốt trình nghiên cứu hồn thành luận văn Tơi xin gửi lời cảm ơn đến thầy, cô Bộ môn Kỹ thuật Phần Mềm Khoa Công nghệ Thông tin truyền đạt cho kiến thức quý giá bổ ích q trình theo học trường Tôi xin chân thành cảm ơn đến gia đình tơi quan tâm, động viên bố mẹ, chồng em giúp tơi có thêm nghị lực, cố gắng để hoàn thành luận văn Cuối cùng, xin gửi lời cảm ơn chân thành đến bạn học K19, K20 giúp đỡ suốt năm học tập Do thời gian kiến thức có hạn nên luận văn khơng tránh khỏi thiếu sót định Tơi mong nhận góp ý q báu thầy bạn Hà Nội, ngày 18 tháng 11 năm 2015 Đỗ Thị Loan LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Tìm kiếm văn dựa vào cụm từ chuyển vào sở liệu” cơng trình nghiên cứu cá nhân tơi hướng dẫn PGS TS Lê Huy Thập, trung thực khơng chép tác giả khác Trong tồn nội dung nghiên cứu luận văn, vấn đề trình bày tìm hiểu nghiên cứu cá nhân tơi trích dẫn từ nguồn tài liệu có ghi tham khảo rõ ràng, hợp pháp Tôi xin chịu trách nhiệm hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 18 tháng 11 năm 2015 Đỗ Thị Loan MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH SÁCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ DANH SÁCH BẢNG BIỂU MỞ ĐẦU Chương TỔNG QUAN 1.1 Cơ sở liệu 1.1.1 Khái niệm văn phi cấu trúc có cấu trúc 1.1.2 Giới thiệu sở liệu quan hệ 10 1.2 Toán rời rạc 16 1.2.1 Mệnh đề đơn giản CSDL 16 1.2.1.1 Định nghĩa mệnh đề toán học 16 1.2.1.2 Các phép toán mệnh đề 16 1.2.2 Mệnh đề hội tuyển sơ cấp, mệnh đề chuẩn hội chuẩn tuyển 18 1.2.3 Tính tương đương biểu thức logic mệnh đề chuẩnhội/chuẩn tuyển 21 1.3 Các phần mềm tìm kiếm 21 1.3.1 Google search 22 1.3.2 Yahoo search 22 Chương TÌM KIẾM VĂN BẢN DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CSDL 24 2.1 Tạo xâu tìm kiếm 24 2.1.1 Tạo xâu tìm kiếm dựa vào mode xâu 24 2.1.2 Tạo xâu tìm kiếm dựa vào toán tử OR AND 27 2.2.Cơ sở liệu quan hệ 28 2.3 Các thuật toán 31 2.3.1 Thuật tốn 1(Gom địa Website có chứa “cụm từ” vào Collection) 31 2.3.2 Thuật toán 2(Truy cập Website đưa đoạn văn có "cụm từ") 33 2.3.3 Tinh chế lại bảng TongHop.dbf 36 2.3.4 Thống kê tổng hợp liệu từ số liệu bảng TongHop.dbf 36 2.4 Tiền xử lý thơng tin thao tác hỗ trợ thuật tốn 37 2.4.1 Máy chủ Công nghệ sử dụng 37 2.4.1.1 Máy chủ Apache 37 2.4.1.2 Ngôn ngữ PHP (Hypertext Preprocessor) 37 2.4.1.3 MySQL 37 2.4.2 Web Crawler phương pháp tìm kiếm liệu Internet 38 2.4.2.1 Dữ liệu thu thập thông tin Internet 38 2.4.2.2 Phân loại nguồn thông tin từ Internet 39 2.4.2.3 Module Crawler 41 Chương THỬ NGHIỆM CHƯƠNG TRÌNH TÌM KIẾM CÁC ĐOẠN VĂN BẢN TRÊN MỘT MÁY TÍNH DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU 47 3.1 Quản lý chủ đề 47 3.2 Tìm kiếm thu thập dự liệu theo chủ đề 49 3.3 Nội dung tổng hợp 50 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 55 a, Tầm quan trọng vấn đề lấy tin tự động Internet 55 b, Các vấn đề tìm hiểu đề tài 55 Luận văn đạt hai kêt chính: 55 TÀI LIỆU THAM KHẢO 56 DANH SÁCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Thuật ngữ Diễn giải CSDL Cơ sở liệu KQTC Kết tài BCTN Báo cáo thường niên BCTC Báo cáo tài HĐQT Hội đồng quản trị URL Uniform Resource Locator, dùng đề tham chiếu tới tài nguyên Internet HTTP HyperText Transfer Protocol DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2.1 Lớp mode cụm từ 27 Hình 2.2 Mối quan hệ thực thể mơ hình liệu 31 Hình 2.3 Kết tìm kiếm 33 Hình 2.4 Danh sách URL tìm 35 Hình 2.5 Danh sách báo cần xử lý chuẩn hóa liệu 36 Hình 2.6 Q trình tìm kiếm xử lý thơng tin 41 Hình 2.7 Sơ đồ thu thập thơng tin 44 Hình 2.8 Sơ đồ xử lý liệu từ hàng đợi 45 Hình 2.9 Sơ đồ bóc tách liệu 46 Hình 3.1 Quản lý chủ đề 47 Hình 3.2 Thêm chủ đề 48 Hình 3.3 Sửa chủ đề 49 Hình 3.4 Màn hình quét thu thập thông tin từ Internet 50 Hình 3.5 Quản lý viết thu thập 51 Hình 3.6 Thêm viết 52 Hình 3.7 Sửa viết 53 Hình 3.8 Xem chi tiết viết 54 DANH SÁCH BẢNG BIỂU Bảng 1.1 Chân trị phép toán mệnh đề 17 Bảng 1.2 Bảng ưu tiên phép toán mệnh đề 17 Bảng 2.1 Quan hệ cụm từ viết 26 Bảng 2.2 Tần số tần số tích lũy 26 Bảng 2.3 Các ký hiệu biến mệnh đề 28 Bảng 2.5 Nội dung bảng chủ đề tìm kiếm 29 Bảng 2.6 Cấu trúc bảngtổng hợp tin tức 30 Bảng 2.7 Ví dụ nội dung thu thập 30 MỞ ĐẦU Ngày cách mạng Khoa học – Công nghệ phát triển cách chóng mặt, làm thay đổi kinh tế toàn cầu trở thành lực lượng sản xuất trực tiếp Khoa học – Công nghệ đưa nhân loại chuyển dần từ văn minh công nghiệp sang kinh tế tri thức; cơng nghệ thơng tin ngành mũi nhọn Nó có tầm quan trọng cho quốc gia nước phát triển muốn hòa nhập với kinh tế giới Một ứng dụng quan trọng công nghệ thông tin việc áp dụng vào quản lý, đặc biệt lĩnh vực quản lý nhà nước, quản lý kinh tế -xã hội Nó giúp cho nhà quản lý đưa định xác, kịp thời, xử lý nhanh chóng tình nhằm nâng cao hiệu quản lý Với phát triển mạnh mẽ internet, World Wide Web phương pháp tìm kiếm tìm thấy thơng tin cần thiết cho mục đích sử dụng cho cá nhân tập thể Tuy nhiên, với khối lượng thông tin khổng lồ thơng tin hữu ích khơng phải tất số website ngày nhiều nên nội dung ngày phong phú đa dạng Làm để tìm kiếm thơng tin có ích cho lĩnh vực mà quan tâm khối lượng thông tin đồ sộ Internet bao gồm: Kinh tế, trị, khoa học kỹ thuật, giáo trình,… Chúng ta tìm mạng đoạn văn hay viết có chứa “cụm từ” thuộc chủ đề mà quan tâm cho trước Mục đích luận văn: - Tổng hợp nhanh thông tin theo chủ đề để hỗ trợ cho nhà lãnh đạo định kịp thời “Thời gian đắt vàng” - Ngăn chặn không cho văn độc hại chuyển vào mạng khỏi mạng - Ghi lại nội dung đoạn văn hay toàn viết với tác giả, ngày upload, địa kết nối,… Các liệu lưu vào sở liệu quan hệ có cấu trúc tiền định nhằm hỗ trợ cho cơng tác lưu trữ sử dụng Có thể sử dụng thuật toán đề tài để tạo nhanh chóng báo cáo tổng quan chuyên đề đặc biệt hữu dụng để chọn lựa tài liệu xây dựng giáo trình giáo trình điện tử Chương TỔNG QUAN Chương trình bày khái niệm văn phi cấu trúc có cấu trúc Giới thiệu sở liệu quan hệ, mệnh đề đơn giản sở liệu, mệnh đề hội tuyển sơ cấp, dạng chuẩn tắc, tính tương đương biểu thức logic mệnh đề chuẩn hội, chuẩn tuyển, sau cơng cụ tìm kiếm Google search, Yahoo search, số lệnh tìm kiếm ngơn ngữ lập trình bậc cao 1.1 Cơ sở liệu [2][9][10] Nếu liệu lưu máy theo quy định (để cập nhật: truy nhập, truy xuất) gọi Cơ Sở Dữ Liệu - Database (sẽ viết tắt CSDL) Các mơ hình Cơ Sở Dữ Liệu: i- Mơ hình đẳng cấp Mơ hình đẳng cấp thiế tkế theo dạng hình (Tree) nên đơi cịn gọi mơ hình ii- Mơ hình mạng Một Cơ Sở Dữ Liệu mạng tập hợp mắt xích (nodes) mối nối (links), mắt xích nối với mắt xích khác, nối nhiều lần Tuy nhiên tác vụ nhập liệu xuất liệu trường hợp phức tạp iii- Mơ hình quan hệ Các liệu cấp tổ chức thành bảng, bảng đặt quan hệ khoá Khi gọi đến khoá bảng mẹ, liệu bảng tương ứng với khoá tham chiếu đến Kiến trúc hệ Cơ Sở Dữ Liệu Một Cơ Sở Dữ Liệu phân thành mức: - Phần Cơ Sở Dữ Liệu Vật lý (mức Vật lý) tệp liệu theo cấu trúc lưu thiết bị nhớ thứ cấp (đĩa từ, băng từ, ) Phần Cơ Sở Dữ Liệu khái niệm biểu diễn trừu tượng Cơ Sở Dữ Liệu Vật lý, Phần Khung nhìn cách nhìn, quan niệm sử dụng Cơ Sở Dữ Liệu mức khái niệm 42 engine tìm kiếm mạnh giới Việt Nam Google, Yahoo, Bing Altavista, Lycos, Vinaseek, Các engine ngày cố gắng để tương tác với người sử dụng nhiều thông minh hơn, khơng phải khơng có yếu điểm Một hệ thống thu thập thông tin lý tưởng phải hệ thống thu thập thông tin phù hợp với yêu cầu người sử dụng (yêu cầu diễn giải câu truy vấn) Đây thật tác vụ vơ phức tạp khó khăn mà hầu hết hệ thống thu thập thông tin chưa thực triệt để, phần nhiều kể đến tính phi ngữ nghĩa ngơn ngữ HTML Hầu hết hệ thống thu thập thông tin trọng tới tốc độ, số lượng thông tin mà hệ thống mang lại cho người dùng với câu truy vấn tương đối đơn giản Phân tích bóc tách liệu Khi thông tin thu thập lấy về, việc phải lấy thông tin cần thiết thơng tin mà cần cách tự động không cần tới thao tác người sử dụng tiêu đề, nội dung, tác giả….Hầu hết thuật tốn bóc tách thơng tin dựa vào công cụ khác kỹ thuật “wrapper” Wrapper hiểu hàm để tách thông tin từ tài nguyên Web Các hàm viết dựa luật (quy luật) đúc rút sau khảo sát trang Web chứa thông tin cần lấy Các Wrapper xây dựng dựa nhiều quy luật khác tuỳ thuộc vào mục đích người sử dụng Có lẽ giới hạn lớn tác vụ bóc tách thơng tin wrapper lại sử dụng cho mục đích định khơng liên quan đến Do vậy, tính khả mở wrapper thật không tốt cho Trong tác vụ này, kỹ thuật nhận diện theo mẫu (pattern recognition) học máy (machine learning) thường sử dụng thơng tin bóc tách Hầu hết hệ thống học máy Web học ý thích người sử dụng (tổng quát thông tin người sử dụng) nhiều học trang Web mà hệ thống cài đặt Vấn đề xuất phát từ nguyên nhân liệu dư thừa Web lại khơng (khơng có chế) phân loại theo mặt ngữ nghĩa cách tự động Ví dụ, có chế để xác định hai tập hợp trang Web trang chủ cá nhân khơng phải trang chủ cá nhân khác có khả tiên đốn trang Web liệu có phải trang chủ hay khơng Tuy vậy, với tính phi-ngữ nghĩa HTML, khó phân loại trang Web Ví dụ: 43 +) Tiêu đề website thông thường đặt cặp thẻ cặp thẻ Header … +) Mô tả ngắn thường đặt thẻ Meta description +) Date thường có định dạng YYYY-MM-DD DD/MM/YYYY … +) Nội dung web đặt cặp thẻ nội dung cụ thể chi tiết thường đặt thẻ Div, Table… Nhìn chung với liệu và cấu trúc website khơng giống việc phân tích thơng tin sau thu thập công việc dễ dàng người sử dụng chưa nói đến máy tính Thơng thường cải thiện thông tin thu thập cách xây dựng từ điển dấu hiệu nhận biết thông tin dựa việc lặp lại thơng tin theo tên miền thói quen chung xây dựng website lập trình viên từ đưa định lấy thơng tin website 44 Sơ đồ thu thập thông tin chương trình Demo: S Từ, Cụm từ tìm kiếm Crawler Google Bing Yahoo Tổng hợp URL theo kết Chưa thêm vào hàng đợi Hàng đợi E E Hình 2.7 Sơ đồ thu thập thông tin … 45 S Dữ liệu hàng đợi Lấy URL chưa xử lý Lấy nội dung N Y Phân tích & Bóc tách liệu Lưu CSDL E E Hình 2.8 Sơ đồ xử lý liệu từ hàng đợi 46 S Dữ liệu thô HTML Html Phaser Tiêu đề Tác giả Mô tả Chi tiết Tổng hợp dự liệu Lưu CSDL E E Hình 2.9 Sơ đồ bóc tách liệu 2.5 Kết luận chương Trong chương 2, tác giả đã giới thiệu cách tạo xâu tìm kiếm dựa vào mode xâu, ghép xâu sử dụng mệnh đề phức hợp dạng chuẩn hội hay chuẩn tuyển Giới thiệu sở liệu quan hệ, giới thiệu hai thuật tốn tảng tìm kiếm văn website dựa vào cụm từ Giới thiệu thao tác tiền xử lý thông tin thao tác hỗ trợ thuậ toán 47 Chương THỬ NGHIỆM CHƯƠNG TRÌNH TÌM KIẾM CÁC ĐOẠN VĂN BẢN TRÊN MỘT MÁY TÍNH DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU 3.1 Quản lý chủ đề Màn hình quản lý chủ đề tìm kiếm cho phép người sử dụng quản lý chủ đề tìm kiếm, Người dùng nhập tên chủ đề từ khóa sử dụng chủ đề để tìm kiếm sau nhấn vào tên chủ đề để thực gọi Crawler module để khai thác tìm kiếm thơng tin thơng qua Internet Dưới hình quản lý tất chủ đề cần tìm kiếm thơng tin Hình 3.1 Quản lý chủ đề 48 Hình 3.2 Thêm chủ đề 49 Hình 3.3 Sửa chủ đề 3.2 Tìm kiếm thu thập dự liệu theo chủ đề Từ từ khóa nhập vào hệ thống phân tích tìm kiếm dựa search Engine để thu thập liệu theo cấp độ ưu tiên khác +) Tất từ khóa xác nằm điều kiện tìm kiếm +) Các cụm từ nhiều từ xếp ưu tiênđược tìm kiếm xác +) Các cụm từ khơng cần tìm kiếm xác Các url thu thập gửi vào hàng đợi để nhận dạng phân tích liệu thực lưu vào bảng tổng hợp sau phân tích xong 50 Hình 3.4 Màn hình qt thu thập thơng tin từ Internet 3.3 Nội dung tổng hợp Là hình giúp quản lý xem chi tiết thơng tin thu thập được, bao gồm tiêu đề, nội dung mô tả nội dung chi tiết báo Người dùng tự nhập vào hệ thống viết từ nguồn khác 51 Hình 3.5 Quản lý viết thu thập 52 Hình 3.6 Thêm viết 53 Hình 3.7 Sửa viết 54 Hình 3.8 Xem chi tiết viết 55 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận a, Tầm quan trọng vấn đề lấy tin tự động Internet Với phát triển nhanh chóng Internet ngày nay, ngày,tuần, tháng, quý, năm người phải xử lý hàng trăm, triệu, tỷ thông tin, liệu khác nhau, điều có nghĩa gặp phải rắc rối không mong muốn thời đại công nghệ số Vì vậy, tốn tìm kiếm phân tích liệu theo chủ đề ứng dụng thực tế, đặc biệt ứng dụng Web Trên sở liệu thu thập từ internet cần phải tiến hành phân loại, nhóm phân cụm thành cụm khác theo chủ đề khác từđó phục vụ cho việc phân tích liệu dự báo kinh tế b, Các vấn đề tìm hiểu đề tài Luận văn đạt hai kêt chính: - Nghiên cứu tài liệu để trình bày vấn đề sau: Giới thiệu tổng quan hệ sở liệu, sở toán ứng dụng tin học để áp dụng giai đoạn tìm kiếm - Xây dựng chương trình demo tìm kiếm văn website dựa vào cụm từ đó, lưu thơng tin có Website như: địa chỉ, nội dung, ngày truy cập, tác giả,…vào bảng sở liệu Trên sở liệu bảng thống kê, kết xuất thông tin theo tiêu điều kiện mà người sử dụng mong muốn Hướng nghiên cứu - Tiếp tục nghiên cứu kỹ thuật phân tích từ khóa xây dựng từ điển người dùng nhằm kiết xuất thơng tin xác linh hoạt - Đề xuất giải pháp xây dựng quy trình cơng nghệ phát triển hệ thống phần mềm thu thập, đánh giá thông tin tự động Internet phục vụ cho việc nghiên cứu, học tập giảng dạy áp dụng vào ngành khác nhằm phân tích, tổng hợp, xử lý liệu dự báo phát triển kinh tế xã hội - Dùng phương pháp khai phá liệu dạng text web để nâng cao khả chất lượng tìm kiếm 56 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đỗ Thị Loan, et al…, Chuẩn hóa xác định mối quan hệ cụm từ tìm lấy thông tin liên quan đến cụm từ lưu vào CSDL quan hệ Kỷ yếu hội thảo Quốc gia “Một số vấn đề chọn lọc CNTT truyến thông”, Huế, Nhà XB Khoa học Kỹ thuật, 47-58, 2008 [2] Lê Tiến Vương, Nhập môn sở liệu quan hệ, NXB Thống Kê, 2000 [3] Lê Huy Thập, Tập giảng toán rời rạc, Khoa CNTT, Học viện Công nghệ BCVT Hà Nội 2, 2011 [4] Lê Huy Thập (2008), Giáo trình Kỹ thuật lập trình, Tập 1, NXB Khoa học tự nhiên công nghệ [5] Lê Huy Thập, Tìm thơng tin máy tính cách dùng chuỗi để so sánh, Kỷ yếu hội nghị khoa học kỷ niệm 30 năm thành lập Viện công nghệ thông tin, NXB Khoa học tự nhiên Công nghệ, Hà Nội 2007, 422-427 [6] Đặng Hữu Đạo, Lê Huy Thập, Nguyễn Minh Tuấn, Nguyễn Gia Đăng, Mơ hình hệ thống thơng tin phịng giao dịch cửa quan hành nhà nước, Kỷ yếu hội nghị khoa học kỷ niệm 30 năm thành lập Viện công nghệ thông tin, NXB Khoa học tự nhiên Công nghệ, Hà Nội 2007, 232- 244 [7] Lê Huy Thập, Thuật tốn thăm dị mạng, lấy văn cần thiết chuyển thành văn có cấu trúc, Các báo cáo tồn văn “Hội nghị Khoa học ITMATH-06, 10/2006”.p128-135, Học viện Quân [8] Kenneth H.Rosen, Toán rời rạc ứng dụng tin học, NXB khoa học kỹ thuật [9] Đỗ Xuân Lôi, Cấu trúc liệu giải thuật, NXB Khoa học Kỹ thuật,1996 Tiếng Anh: [10] Robert Sedgewick, Cẩm nang thuật toán Vol.1 and vol.2, NXB Khoa học Kỹ Japan Information Processing Development Corporation, Central Academy of Information Technology, Internal Design And Programming, 1978 [11] Cecchini, M (2010),“Making words work: Using financial text as a predictor of financial events”, Decision Support Systems, Vol 50, 164-175 [12] Healy, P, M and Palepu, K (2000), “Information Asymmetry, Corporate Disclosure and the Capitan Markets: A review of Empirical Disclosure Literature”, Journal of Accounting and Economics, Volume 31 (1), 405-440