Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
1,89 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THỊ LOAN TÌM KIẾM VĂN BẢN DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THỊ LOAN TÌM KIẾM VĂN BẢN DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU Ngành: Công nghệ Thông tin Chuyên ngành: Kỹ Thuật Phần Mềm Mã số: 60.48.01.03 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ HUY THẬP Hà Nội - 2015 LỜI CẢM ƠN Để hoàn thành luận văn Thạc sĩ xin gửi lời cảm ơn sâu sắc đến thầy PGS.TS Lê Huy Thập định hướng khoa học, quan tâm tạo điều kiện thuận lợi suốt trình nghiên cứu hoàn thành luận văn Tôi xin gửi lời cảm ơn đến thầy, cô Bộ môn Kỹ thuật Phần Mềm Khoa Công nghệ Thông tin truyền đạt cho kiến thức quý giá bổ ích trình theo học trường Tôi xin chân thành cảm ơn đến gia đình quan tâm, động viên bố mẹ, chồng em giúp có thêm nghị lực, cố gắng để hoàn thành luận văn Cuối cùng, xin gửi lời cảm ơn chân thành đến bạn học K19, K20 giúp đỡ suốt năm học tập Do thời gian kiến thức có hạn nên luận văn không tránh khỏi thiếu sót định Tôi mong nhận góp ý quý báu thầy cô bạn Hà Nội, ngày 18 tháng 11 năm 2015 Đỗ Thị Loan LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Tìm kiếm văn dựa vào cụm từ chuyển vào sở liệu” công trình nghiên cứu cá nhân hướng dẫn PGS TS Lê Huy Thập, trung thực không chép tác giả khác Trong toàn nội dung nghiên cứu luận văn, vấn đề trình bày tìm hiểu nghiên cứu cá nhân trích dẫn từ nguồn tài liệu có ghi tham khảo rõ ràng, hợp pháp Tôi xin chịu trách nhiệm hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 18 tháng 11 năm 2015 Đỗ Thị Loan MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH SÁCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ DANH SÁCH BẢNG BIỂU MỞ ĐẦU Chương TỔNG QUAN 1.1 Cơ sở liệu 1.1.1 Khái niệm văn phi cấu trúc có cấu trúc 1.1.2 Giới thiệu sở liệu quan hệ 10 1.2 Toán rời rạc 16 1.2.1 Mệnh đề đơn giản CSDL 16 1.2.1.1 Định nghĩa mệnh đề toán học 16 1.2.1.2 Các phép toán mệnh đề 16 1.2.2 Mệnh đề hội tuyển sơ cấp, mệnh đề chuẩn hội chuẩn tuyển 18 1.2.3 Tính tương đương biểu thức logic mệnh đề chuẩnhội/chuẩn tuyển 21 1.3 Các phần mềm tìm kiếm 21 1.3.1 Google search 22 1.3.2 Yahoo search 22 Chương TÌM KIẾM VĂN BẢN DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CSDL 24 2.1 Tạo xâu tìm kiếm 24 2.1.1 Tạo xâu tìm kiếm dựa vào mode xâu 24 2.1.2 Tạo xâu tìm kiếm dựa vào toán tử OR AND 27 2.2.Cơ sở liệu quan hệ 28 2.3 Các thuật toán 31 2.3.1 Thuật toán 1(Gom địa Website có chứa “cụm từ” vào Collection) 31 2.3.2 Thuật toán 2(Truy cập Website đưa đoạn văn có "cụm từ") 33 2.3.3 Tinh chế lại bảng TongHop.dbf 36 2.3.4 Thống kê tổng hợp liệu từ số liệu bảng TongHop.dbf 36 2.4 Tiền xử lý thông tin thao tác hỗ trợ thuật toán 37 2.4.1 Máy chủ Công nghệ sử dụng 37 2.4.1.1 Máy chủ Apache 37 2.4.1.2 Ngôn ngữ PHP (Hypertext Preprocessor) 37 2.4.1.3 MySQL 37 2.4.2 Web Crawler phương pháp tìm kiếm liệu Internet 38 2.4.2.1 Dữ liệu thu thập thông tin Internet 38 2.4.2.2 Phân loại nguồn thông tin từ Internet 39 2.4.2.3 Module Crawler 41 Chương THỬ NGHIỆM CHƯƠNG TRÌNH TÌM KIẾM CÁC ĐOẠN VĂN BẢN TRÊN MỘT MÁY TÍNH DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU 47 3.1 Quản lý chủ đề 47 3.2 Tìm kiếm thu thập dự liệu theo chủ đề 49 3.3 Nội dung tổng hợp 50 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 55 a, Tầm quan trọng vấn đề lấy tin tự động Internet 55 b, Các vấn đề tìm hiểu đề tài 55 Luận văn đạt hai kêt chính: 55 TÀI LIỆU THAM KHẢO 56 DANH SÁCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Thuật ngữ Diễn giải CSDL Cơ sở liệu KQTC Kết tài BCTN Báo cáo thường niên BCTC Báo cáo tài HĐQT Hội đồng quản trị URL Uniform Resource Locator, dùng đề tham chiếu tới tài nguyên Internet HTTP HyperText Transfer Protocol DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2.1 Lớp mode cụm từ 27 Hình 2.2 Mối quan hệ thực thể mô hình liệu 31 Hình 2.3 Kết tìm kiếm 33 Hình 2.4 Danh sách URL tìm 35 Hình 2.5 Danh sách báo cần xử lý chuẩn hóa liệu 36 Hình 2.6 Quá trình tìm kiếm xử lý thông tin 41 Hình 2.7 Sơ đồ thu thập thông tin 44 Hình 2.8 Sơ đồ xử lý liệu từ hàng đợi 45 Hình 2.9 Sơ đồ bóc tách liệu 46 Hình 3.1 Quản lý chủ đề 47 Hình 3.2 Thêm chủ đề 48 Hình 3.3 Sửa chủ đề 49 Hình 3.4 Màn hình quét thu thập thông tin từ Internet 50 Hình 3.5 Quản lý viết thu thập 51 Hình 3.6 Thêm viết 52 Hình 3.7 Sửa viết 53 Hình 3.8 Xem chi tiết viết 54 DANH SÁCH BẢNG BIỂU Bảng 1.1 Chân trị phép toán mệnh đề 17 Bảng 1.2 Bảng ưu tiên phép toán mệnh đề 17 Bảng 2.1 Quan hệ cụm từ viết 26 Bảng 2.2 Tần số tần số tích lũy 26 Bảng 2.3 Các ký hiệu biến mệnh đề 28 Bảng 2.5 Nội dung bảng chủ đề tìm kiếm 29 Bảng 2.6 Cấu trúc bảngtổng hợp tin tức 30 Bảng 2.7 Ví dụ nội dung thu thập 30 MỞ ĐẦU Ngày cách mạng Khoa học – Công nghệ phát triển cách chóng mặt, làm thay đổi kinh tế toàn cầu trở thành lực lượng sản xuất trực tiếp Khoa học – Công nghệ đưa nhân loại chuyển dần từ văn minh công nghiệp sang kinh tế tri thức; công nghệ thông tin ngành mũi nhọn Nó có tầm quan trọng cho quốc gia nước phát triển muốn hòa nhập với kinh tế giới Một ứng dụng quan trọng công nghệ thông tin việc áp dụng vào quản lý, đặc biệt lĩnh vực quản lý nhà nước, quản lý kinh tế -xã hội Nó giúp cho nhà quản lý đưa định xác, kịp thời, xử lý nhanh chóng tình nhằm nâng cao hiệu quản lý Với phát triển mạnh mẽ internet, World Wide Web phương pháp tìm kiếm tìm thấy thông tin cần thiết cho mục đích sử dụng cho cá nhân tập thể Tuy nhiên, với khối lượng thông tin khổng lồ thông tin hữu ích tất số website ngày nhiều nên nội dung ngày phong phú đa dạng Làm để tìm kiếm thông tin có ích cho lĩnh vực mà quan tâm khối lượng thông tin đồ sộ Internet bao gồm: Kinh tế, trị, khoa học kỹ thuật, giáo trình,… Chúng ta tìm mạng đoạn văn hay viết có chứa “cụm từ” thuộc chủ đề mà quan tâm cho trước Mục đích luận văn: - Tổng hợp nhanh thông tin theo chủ đề để hỗ trợ cho nhà lãnh đạo định kịp thời “Thời gian đắt vàng” - Ngăn chặn không cho văn độc hại chuyển vào mạng khỏi mạng - Ghi lại nội dung đoạn văn hay toàn viết với tác giả, ngày upload, địa kết nối,… Các liệu lưu vào sở liệu quan hệ có cấu trúc tiền định nhằm hỗ trợ cho công tác lưu trữ sử dụng Có thể sử dụng thuật toán đề tài để tạo nhanh chóng báo cáo tổng quan chuyên đề đặc biệt hữu dụng để chọn lựa tài liệu xây dựng giáo trình giáo trình điện tử Chương TỔNG QUAN Chương trình bày khái niệm văn phi cấu trúc có cấu trúc Giới thiệu sở liệu quan hệ, mệnh đề đơn giản sở liệu, mệnh đề hội tuyển sơ cấp, dạng chuẩn tắc, tính tương đương biểu thức logic mệnh đề chuẩn hội, chuẩn tuyển, sau công cụ tìm kiếm Google search, Yahoo search, số lệnh tìm kiếm ngôn ngữ lập trình bậc cao 1.1 Cơ sở liệu [2][9][10] Nếu liệu lưu máy theo quy định (để cập nhật: truy nhập, truy xuất) gọi Cơ Sở Dữ Liệu - Database (sẽ viết tắt CSDL) Các mô hình Cơ Sở Dữ Liệu: i- Mô hình đẳng cấp Mô hình đẳng cấp thiế tkế theo dạng hình (Tree) nên gọi mô hình ii- Mô hình mạng Một Cơ Sở Dữ Liệu mạng tập hợp mắt xích (nodes) mối nối (links), mắt xích nối với mắt xích khác, nối nhiều lần Tuy nhiên tác vụ nhập liệu xuất liệu trường hợp phức tạp iii- Mô hình quan hệ Các liệu cấp tổ chức thành bảng, bảng đặt quan hệ khoá Khi gọi đến khoá bảng mẹ, liệu bảng tương ứng với khoá tham chiếu đến Kiến trúc hệ Cơ Sở Dữ Liệu Một Cơ Sở Dữ Liệu phân thành mức: - Phần Cơ Sở Dữ Liệu Vật lý (mức Vật lý) tệp liệu theo cấu trúc lưu thiết bị nhớ thứ cấp (đĩa từ, băng từ, ) Phần Cơ Sở Dữ Liệu khái niệm biểu diễn trừu tượng Cơ Sở Dữ Liệu Vật lý, Phần Khung nhìn cách nhìn, quan niệm sử dụng Cơ Sở Dữ Liệu mức khái niệm 42 engine tìm kiếm mạnh giới Việt Nam Google, Yahoo, Bing Altavista, Lycos, Vinaseek, Các engine ngày cố gắng để tương tác với người sử dụng nhiều thông minh hơn, yếu điểm Một hệ thống thu thập thông tin lý tưởng phải hệ thống thu thập thông tin phù hợp với yêu cầu người sử dụng (yêu cầu diễn giải câu truy vấn) Đây thật tác vụ vô phức tạp khó khăn mà hầu hết hệ thống thu thập thông tin chưa thực triệt để, phần nhiều kể đến tính phi ngữ nghĩa ngôn ngữ HTML Hầu hết hệ thống thu thập thông tin trọng tới tốc độ, số lượng thông tin mà hệ thống mang lại cho người dùng với câu truy vấn tương đối đơn giản Phân tích bóc tách liệu Khi thông tin thu thập lấy về, việc phải lấy thông tin cần thiết thông tin mà cần cách tự động không cần tới thao tác người sử dụng tiêu đề, nội dung, tác giả….Hầu hết thuật toán bóc tách thông tin dựa vào công cụ khác kỹ thuật “wrapper” Wrapper hiểu hàm để tách thông tin từ tài nguyên Web Các hàm viết dựa luật (quy luật) đúc rút sau khảo sát trang Web chứa thông tin cần lấy Các Wrapper xây dựng dựa nhiều quy luật khác tuỳ thuộc vào mục đích người sử dụng Có lẽ giới hạn lớn tác vụ bóc tách thông tin wrapper lại sử dụng cho mục đích định không liên quan đến Do vậy, tính khả mở wrapper thật không tốt cho Trong tác vụ này, kỹ thuật nhận diện theo mẫu (pattern recognition) học máy (machine learning) thường sử dụng thông tin bóc tách Hầu hết hệ thống học máy Web học ý thích người sử dụng (tổng quát thông tin người sử dụng) nhiều học trang Web mà hệ thống cài đặt Vấn đề xuất phát từ nguyên nhân liệu dư thừa Web lại không (không có chế) phân loại theo mặt ngữ nghĩa cách tự động Ví dụ, có chế để xác định hai tập hợp trang Web trang chủ cá nhân trang chủ cá nhân khác có khả tiên đoán trang Web liệu có phải trang chủ hay không Tuy vậy, với tính phi-ngữ nghĩa HTML, khó phân loại trang Web Ví dụ: 43 +) Tiêu đề website thông thường đặt cặp thẻ cặp thẻ Header … +) Mô tả ngắn thường đặt thẻ Meta description +) Date thường có định dạng YYYY-MM-DD DD/MM/YYYY … +) Nội dung web đặt cặp thẻ nội dung cụ thể chi tiết thường đặt thẻ Div, Table… Nhìn chung với liệu và cấu trúc website không giống việc phân tích thông tin sau thu thập công việc dễ dàng người sử dụng chưa nói đến máy tính Thông thường cải thiện thông tin thu thập cách xây dựng từ điển dấu hiệu nhận biết thông tin dựa việc lặp lại thông tin theo tên miền thói quen chung xây dựng website lập trình viên từ đưa định lấy thông tin website 44 Sơ đồ thu thập thông tin chương trình Demo: S Từ, Cụm từ tìm kiếm Crawler Google Bing Yahoo Tổng hợp URL theo kết Chưa thêm vào hàng đợi Hàng đợi E E Hình 2.7 Sơ đồ thu thập thông tin … 45 S Dữ liệu hàng đợi Lấy URL chưa xử lý Lấy nội dung N Y Phân tích & Bóc tách liệu Lưu CSDL E E Hình 2.8 Sơ đồ xử lý liệu từ hàng đợi 46 S Dữ liệu thô HTML Html Phaser Tiêu đề Tác giả Mô tả Chi tiết Tổng hợp dự liệu Lưu CSDL E E Hình 2.9 Sơ đồ bóc tách liệu 2.5 Kết luận chương Trong chương 2, tác giả đã giới thiệu cách tạo xâu tìm kiếm dựa vào mode xâu, ghép xâu sử dụng mệnh đề phức hợp dạng chuẩn hội hay chuẩn tuyển Giới thiệu sở liệu quan hệ, giới thiệu hai thuật toán tảng tìm kiếm văn website dựa vào cụm từ Giới thiệu thao tác tiền xử lý thông tin thao tác hỗ trợ thuậ toán 47 Chương THỬ NGHIỆM CHƯƠNG TRÌNH TÌM KIẾM CÁC ĐOẠN VĂN BẢN TRÊN MỘT MÁY TÍNH DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU 3.1 Quản lý chủ đề Màn hình quản lý chủ đề tìm kiếm cho phép người sử dụng quản lý chủ đề tìm kiếm, Người dùng nhập tên chủ đề từ khóa sử dụng chủ đề để tìm kiếm sau nhấn vào tên chủ đề để thực gọi Crawler module để khai thác tìm kiếm thông tin thông qua Internet Dưới hình quản lý tất chủ đề cần tìm kiếm thông tin Hình 3.1 Quản lý chủ đề 48 Hình 3.2 Thêm chủ đề 49 Hình 3.3 Sửa chủ đề 3.2 Tìm kiếm thu thập dự liệu theo chủ đề Từ từ khóa nhập vào hệ thống phân tích tìm kiếm dựa search Engine để thu thập liệu theo cấp độ ưu tiên khác +) Tất từ khóa xác nằm điều kiện tìm kiếm +) Các cụm từ nhiều từ xếp ưu tiênđược tìm kiếm xác +) Các cụm từ không cần tìm kiếm xác Các url thu thập gửi vào hàng đợi để nhận dạng phân tích liệu thực lưu vào bảng tổng hợp sau phân tích xong 50 Hình 3.4 Màn hình quét thu thập thông tin từ Internet 3.3 Nội dung tổng hợp Là hình giúp quản lý xem chi tiết thông tin thu thập được, bao gồm tiêu đề, nội dung mô tả nội dung chi tiết báo Người dùng tự nhập vào hệ thống viết từ nguồn khác 51 Hình 3.5 Quản lý viết thu thập 52 Hình 3.6 Thêm viết 53 Hình 3.7 Sửa viết 54 Hình 3.8 Xem chi tiết viết 55 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận a, Tầm quan trọng vấn đề lấy tin tự động Internet Với phát triển nhanh chóng Internet ngày nay, ngày,tuần, tháng, quý, năm người phải xử lý hàng trăm, triệu, tỷ thông tin, liệu khác nhau, điều có nghĩa gặp phải rắc rối không mong muốn thời đại công nghệ số Vì vậy, toán tìm kiếm phân tích liệu theo chủ đề ứng dụng thực tế, đặc biệt ứng dụng Web Trên sở liệu thu thập từ internet cần phải tiến hành phân loại, nhóm phân cụm thành cụm khác theo chủ đề khác từđó phục vụ cho việc phân tích liệu dự báo kinh tế b, Các vấn đề tìm hiểu đề tài Luận văn đạt hai kêt chính: - Nghiên cứu tài liệu để trình bày vấn đề sau: Giới thiệu tổng quan hệ sở liệu, sở toán ứng dụng tin học để áp dụng giai đoạn tìm kiếm - Xây dựng chương trình demo tìm kiếm văn website dựa vào cụm từ đó, lưu thông tin có Website như: địa chỉ, nội dung, ngày truy cập, tác giả,…vào bảng sở liệu Trên sở liệu bảng thống kê, kết xuất thông tin theo tiêu điều kiện mà người sử dụng mong muốn Hướng nghiên cứu - Tiếp tục nghiên cứu kỹ thuật phân tích từ khóa xây dựng từ điển người dùng nhằm kiết xuất thông tin xác linh hoạt - Đề xuất giải pháp xây dựng quy trình công nghệ phát triển hệ thống phần mềm thu thập, đánh giá thông tin tự động Internet phục vụ cho việc nghiên cứu, học tập giảng dạy áp dụng vào ngành khác nhằm phân tích, tổng hợp, xử lý liệu dự báo phát triển kinh tế xã hội - Dùng phương pháp khai phá liệu dạng text web để nâng cao khả chất lượng tìm kiếm 56 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đỗ Thị Loan, et al…, Chuẩn hóa xác định mối quan hệ cụm từ tìm lấy thông tin liên quan đến cụm từ lưu vào CSDL quan hệ Kỷ yếu hội thảo Quốc gia “Một số vấn đề chọn lọc CNTT truyến thông”, Huế, Nhà XB Khoa học Kỹ thuật, 47-58, 2008 [2] Lê Tiến Vương, Nhập môn sở liệu quan hệ, NXB Thống Kê, 2000 [3] Lê Huy Thập, Tập giảng toán rời rạc, Khoa CNTT, Học viện Công nghệ BCVT Hà Nội 2, 2011 [4] Lê Huy Thập (2008), Giáo trình Kỹ thuật lập trình, Tập 1, NXB Khoa học tự nhiên công nghệ [5] Lê Huy Thập, Tìm thông tin máy tính cách dùng chuỗi để so sánh, Kỷ yếu hội nghị khoa học kỷ niệm 30 năm thành lập Viện công nghệ thông tin, NXB Khoa học tự nhiên Công nghệ, Hà Nội 2007, 422-427 [6] Đặng Hữu Đạo, Lê Huy Thập, Nguyễn Minh Tuấn, Nguyễn Gia Đăng, Mô hình hệ thống thông tin phòng giao dịch cửa quan hành nhà nước, Kỷ yếu hội nghị khoa học kỷ niệm 30 năm thành lập Viện công nghệ thông tin, NXB Khoa học tự nhiên Công nghệ, Hà Nội 2007, 232- 244 [7] Lê Huy Thập, Thuật toán thăm dò mạng, lấy văn cần thiết chuyển thành văn có cấu trúc, Các báo cáo toàn văn “Hội nghị Khoa học ITMATH-06, 10/2006”.p128-135, Học viện Quân [8] Kenneth H.Rosen, Toán rời rạc ứng dụng tin học, NXB khoa học kỹ thuật [9] Đỗ Xuân Lôi, Cấu trúc liệu giải thuật, NXB Khoa học Kỹ thuật,1996 Tiếng Anh: [10] Robert Sedgewick, Cẩm nang thuật toán Vol.1 and vol.2, NXB Khoa học Kỹ Japan Information Processing Development Corporation, Central Academy of Information Technology, Internal Design And Programming, 1978 [11] Cecchini, M (2010),“Making words work: Using financial text as a predictor of financial events”, Decision Support Systems, Vol 50, 164-175 [12] Healy, P, M and Palepu, K (2000), “Information Asymmetry, Corporate Disclosure and the Capitan Markets: A review of Empirical Disclosure Literature”, Journal of Accounting and Economics, Volume 31 (1), 405-440 [...]... vào nghiên cứu các thuật toán nền tảng trong tìm kiếm văn bản dựa vào cụm từ và ứng dụng cơ sở lý thuyết cho chương trình tìm kiếm văn bản dựa vào cụm từ và chuyển vào cơ sở dữ liệu Đây là nội dung trọng tâm của luận văn 24 Chương 2 TÌM KIẾM VĂN BẢN DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CSDL 2.1 Tạo các xâu tìm kiếm[ 5][6][7][10][11][12] Tạo các xâu tìm kiếmnhằm mục đích tạo dựng, bổ sung các xâu trong cơ sở. .. điều tra dân số, …Đặc điểm của loại văn bản này là chúng ta có thể cơ sở dữ liệu hóa theo các chuẩn Cơ sở dữ liệu quan hệ, Cơ sở dữ liệu hướng đối tượng và Cơ sở dữ liệu dạng khối,… Các văn bản ngược với loại văn bản trên được gọi là phi cấu trúc Trong thời đại bùng nổ công nghệ thông tin, nhiều linh vực trên thế giới đã và đang tận dụng giá trị thông diệp của nguồn dữ liệu phi cấu trúc khổng lồ mà linh... định và hợp lệ thì bị ràng buộc là NOT NULL c) Cơ sở dữ liệu quan hệ và lược đồ cơ sở dữ liệu quan hệ 13 Ở trên, chúng ta đã nói đến các lược đồ quan hệ đơn lẻ và các quan hệ đơn lẻ Một cơ sở dữ liệu quan hệ thường gồm nhiều quan hệ với các bộ giá trị trong các quan hệ được liên kết với nhau theo nhiều cách Trong phần này chúng ta sẽ định nghĩa một cơ sở dữ liệu quan hệ và một lược đồ cơ sở dữ liệu. .. cơ sở dữ liệu tìm kiếm cho các máy chủ của mình, khi có người truy cập và thực hiện tìm kiếm, kết quả tìm kiếm sẽ được lấy ra từ đây Google search cũng cho phép người sử dụng khai báo trang web của họ với máy chủ của google, sau đó các máy chủ này sẽ sắp xếp thời gian để tạo chỉ mục cho các trang web được khai báo Để tìm kiếm, người sử dụng gõ vào ô tìm kiếm một hoặc một vài cụm từ gọi là từ khóa tìm. .. đã giới thiệu tổng quan về văn bản phi cấu trúc, có cấu trúc, cơ sở dữ liệu quan hệ, các mệnh đề đơn giản trong cơ sở dữ liệu, mệnh đề hội, tuyển sơ cấp, mệnh đề chuẩn hội, chuẩn tuyển sơ cấp, tính tương đương giữa các biểu thức logic và mệnh đề chuẩn tắc Bên canh đó, tác giả cũng tìm hiểu về các phần mềm tìm kiếm cơ bản như: Google search, Yahoo search và một số lệnh tìm kiếm trong ngôn ngữ lập trình... tại Việt Nam, đồng thời việc kết hợp giữa dữ liệu này và dữ liệu cấu trúc đại diện bởi các nhân tố truyền thống (tỷ số tài chính, đặc điểm quản trị công ty, chỉ số vi mô) giúp cải thiện độ chính xác của dự báo Theo Petersen (2004), dữ liệu được chia thành dữ liệu cấu trúc (dữ liệu cứng) và dữ liệu phi cấu trúc (dữ liệu mềm) Dữ liệu có cấu trúc, thuờng là số liệu kế toán, giá cổ phiếu, dòng tiền, chỉ... Bảng 2.5 Nội dung bảng chủ đề tìm kiếm Bảng tổng hợp tin tức (Article_content) Bảng này được dùng để lưu giữ các văn bản có chứa cụm từ thuộc chủ đề đã tạo Với các thông tin dữ liệu thu thập thì các thông tin chính căn bản được mô tả dựa trên các trường theo bảng mô tả dưới đây Tùy vào mục đích thu thập người dùng có thể sửa đổi cho phù hợp Ví dụ bảng 2.6 30 Độ rộng 10 Khóa chính 1 articleId Kiểu dữ. .. OR và toán tử AND 2.1.1 Tạo các xâu tìm kiếm dựa vào mode của xâu Chuẩn hóa và xác định mối quan hệ giữa các cụm từ tìm và lấy thông tin liên quan đến cụm từ Xâu được tác giả thành lập và thu thập với mục đích làm căn cứ để tìm kiếm xâu với nội dung tài liệu được tải về theo URL Tác giả tiến hành xây dựng xây dựng tập các mod xâu theo một số tiêu trí nhất định được phân định theo danh mục - Danh từ: ... lưu trữ trong các cơ sở dữ liệu quan hệ (Relational Database), trong đó các thực thể và thuộc tính đã được định nghĩa sẵn, thuờng được thu thập trên Báo cáo tài chính (BCTC) Nguợc lại với dữ liệu cấu trúc, dữ liệu phi cấu trúc được định nghĩa là dạng dữ liệu không có cấu trúc định nghĩa sẵn và không thể biểu diễn duới dạng bảng số liệu quan hệ Phổ biến nhất là các dạng dữ liệu văn bản dạng chữ (Text),...8 Một Cơ Sở Dữ Liệu đã được thiết kế, người ta thường quan tâm đến bộ khung (cấu trúc – Structure) của Cơ Sở Dữ Liệu đó (ví dụ cấu trúc của bảng DBF trong FOXPRO chẳng hạn) 1.1.1 Khái niệm văn bản phi cấu trúc và có cấu trúc Văn bản dạng có cấu trúc là loại văn bản mà khi cập nhật bằng thủ công hay máy tính đều có khuôn mẫu sẵn ví dụ như các công văn, quyết định, các mẫu biểu ... vào cụm từ ứng dụng sở lý thuyết cho chương trình tìm kiếm văn dựa vào cụm từ chuyển vào sở liệu Đây nội dung trọng tâm luận văn 24 Chương TÌM KIẾM VĂN BẢN DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CSDL... TRÌNH TÌM KIẾM CÁC ĐOẠN VĂN BẢN TRÊN MỘT MÁY TÍNH DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU 3.1 Quản lý chủ đề Màn hình quản lý chủ đề tìm kiếm cho phép người sử dụng quản lý chủ đề tìm kiếm, ... CHƯƠNG TRÌNH TÌM KIẾM CÁC ĐOẠN VĂN BẢN TRÊN MỘT MÁY TÍNH DỰA VÀO CỤM TỪ VÀ CHUYỂN VÀO CƠ SỞ DỮ LIỆU 47 3.1 Quản lý chủ đề 47 3.2 Tìm kiếm thu thập dự liệu theo chủ