Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
371,93 KB
Nội dung
LỜI MỞ ĐẦU Ngày việc ứng dụng công nghệ kĩ thuật cao vào đời sống đòi hỏi thiết.Một lĩnh vực trí tuệ nhân tạo, mà phần quan trọng Hệ chuyên gia Hệ chuyên gia hệ thống chương trình máy tính chứa thông tin tri thức trình suy diễn lĩnh vực cụ thể dể giải toán khó màđòi hỏi uyên bác chuyên gia ngành Hiện hệ chuyên gia ứng dụng nhiều lĩnh vực khác nhau: ví dụ công nghệp, nông nghiệp, khoa học máy tính, thương mại khí tượng, y học, quân sự, hoá học Đặc biệt giai đoạn gần việc ứng dụng hệ chuyên gia vào xây dựng hệ thống trích rút thực thể ứng dụng phân tích kinh tế phát triển mạnh Thông tin kinh tế yếu tố quan trọng cho doanh nghiệp để nắm bắt tin tức thị trường, xu kinh tế giúp bắt kịp với doanh nghiệp khác Hiện có nhiều website đăng tải nhiều thông tin, tin tức kinh tế tin tức khác.Nhiều nguồn tin gây lẫn với trùng lặp tin Với nguồn thông tin vô phong phú cần phải có phương thức công cụ có khả tìm kiếm, trích xuất thông tin web lưu trữ lại thông tin theo ý muốn người, cách tự động hiệu Vì chúng em lựa chọn đề tài Tên đề tài :“Hệ thống trích rút thông tin kinh tế, thời ngày” Trong trình làm đề tài,do chúng em kinh nghiệm nên không tránh khỏi nhiều sai sót.Kính mong thầy,cô giáo thông cảm bổ sung,đóng góp ý kiến đề tài chúng em hoàn thiện hơn, nhóm chúng em xin chân thành cảm ơn ! HỆ CHUYÊN GIA NHẬN XÉT (của giảng viên hướng dẫn) HỆ CHUYÊN GIA MỤC LỤC HỆ CHUYÊN GIA DANH MỤC HÌNH ẢNH HỆ CHUYÊN GIA DANH MỤC BẢNG BIỂU HỆ CHUYÊN GIA CHƯƠNG 1: TỔNG QUAN VỀ HỆ CHUYÊN GIA 1.1 Hệ chuyên gia gì? Theo E Feigenbaum : «Hệ chuyên gia (Expert System) chương trình máy tính thông minh sử dụng tri thức (knowledge) thủ tục suy luận (inference procedures) để giải toán tương đối khó khăn đòi hỏi chuyên gia giải được» Hệ chuyên gia hệ thống tin học mô (emulates) lực đoán (decision) hành động (making abilily) chuyên gia (con người) Hệ chuyên gia lĩnh vực ứng dụng trí tuệ nhân tạo (Artificial Intelligence) Hệ chuyên gia sử dụng tri thức chuyên gia để giải vấn đề (bài toán) khác thuộc lĩnh vực Tri thức (knowledge) hệ chuyên gia phản ánh tinh thông tích tụ từ sách vở, tạp chí, từ chuyên gia hay nhà bác học Các thuật ngữ hệ chuyên gia, hệ thống dựa tri thức (knowledge−based system) hay hệ chuyên gia dựa tri thức (knowledge−based expert system) thường có nghĩa Một hệ chuyên gia gồm ba thành phần sở tri thức (knowledge base), máy suy diễn hay môtơ suy diễn (inference engine), hệ thống giao tiếp với người sử dụng (user nterface) Cơ sở tri thức chứa tri thức để từ đó, máy suy diễn tạo câu trả lời cho người sử dụng qua hệ thống giao tiếp Người sử dụng (user) cung cấp kiện (facts) biết, có thật hay thông tin có ích cho hệ chuyên gia, nhận câu trả lời lời khuyên hay gợi ý đắn (expertise) HỆ CHUYÊN GIA Hoạt động hệ chuyên gia dựa tri thức minh họa sau : Hình :Hoạt động hệ chuyên gia Mỗi hệ chuyên gia đặc trưng cho lĩnh vực vấn đề (problem domain) đó, y học, tài chính, khoa học hay công nghệ, v.v , mà cho lĩnh vực vấn đề Tri thức chuyên gia để giải vấn đề đặc trưng gọi lĩnh vực tri thức (knowledge domain) Hình Quan hệ lĩnh vực vấn đề lĩnh vực tri thức Chú ý lĩnh vực tri thức hoàn toàn nằm lĩnh vực vấn đề Phần bên HỆ CHUYÊN GIA lĩnh vực tri thức nói lên tri thức cho tất vấn đề Tùy theo yêu cầu người sử dụng mà có nhiều cách nhìn nhận khác hệ chuyên gia Loại người sử Vấn đề đặt Người quản trị Kỹ thuật viên Nhà nghiên cứu Người sử dụng cuối Tôi dùng để làm ? Làm cách để vận hành tốt ? Làm để mở rộng ? Nó giúp ? Nó có rắc rối tốn không ? Nó có đáng tin cậy không ? dụng 1.2 Đặc trưng ưu điểm hệ chuyên gia Có bốn đặc trưng hệ chuyên gia : • Hiệu cao (high performance) Khả trả lời với mức độ tinh thông cao so với chuyên gia (người) lĩnh vực • Thời gian trả lời thoả đáng (adequate response time) Thời gian trả lời hợp lý, nhanh so với chuyên gia (người) để đến định Hệ chuyên gia hệ thống thời gian thực (real time system) • Độ tin cậy cao (good reliability) Không thể xảy cố giảm sút độ tin cậy sử dụng • Dễ hiểu (understandable) Hệ chuyên gia giải thích bước suy luận cách dễ hiểu quán, không giống cách trả lời bí ẩn hộp đen (black box) Những ưu điểm hệ chuyên gia : • Phổ cập (increased availability) Là sản phẩm chuyên gia, phát triển không ngừng với hiệu sử dụng phủ nhận • Giảm giá thành (reduced cost) • Giảm rủi ro (reduced dangers) Giúp người tránh môi trường rủi ro, nguy hiểm • Tính thường trực (Permanance) Bất kể lúc khai thác sử dụng người mệt mỏi, nghỉ ngơi hay vắng mặt • Đa lĩnh vực (multiple expertise) chuyên gia nhiều lĩnh vực khác HỆ CHUYÊN GIA khai thác đồng thời thời gian sử dụng • Độ tin cậy (increased relialility) Luôn đảm bảo độ tin cậy khai thác • Khả giảng giải (explanation) Câu trả lời với mức độ tinh thông giảng giải rõ ràng chi tiết, dễ hiểu • Khả trả lời (fast reponse) Trả lời theo thời gian thực, khách quan • Tính ổn định, suy luận có lý đầy đủ lúc nơi (steady, une motional, and complete response at all times) • Trợ giúp thông minh người hướng dẫn (intelligent-tutor) • Có thể truy cập sở liệu thông minh (intelligent database) 1.3 Các lĩnh vực hệ chuyên gia Cho đến nay, hàng trăm hệ chuyên gia xây dựng báo cáo thường xuyên tạp chí, sách, báo hội thảo khoa học Ngoài hệ chuyên gia sử dụng công ty, tổ chức quân mà không công bố lý bảo mật Bảng liệt kê số lĩnh vực ứng dụng diện rộng hệ chuyên gia Lĩnh vực Cấu hình (Configuration) Chuẩn đoán (Diagnosis) Truyền đạt Mở (Instruction) đầu Giải thích (Interpretation) Kiểmtra (Monitoring) Lập kế hoạch (Planning) Dự đoán (Prognosis) Chữa trị (Remedy) Ứng dụng diện rộng Tập hợp thích đáng thành phần hệ thống theo cách riêng Lập luận dựa chứng quan sát Dạy học kiểu thông minh cho sinh viên hỏi (why?), (how?) (what if?) giống hỏi người thầy giáo Giải thích liệu thu nhận So sánh liệu thu lượm với liệu chuyên môn để đánh giá hiệu Lập kế hoạch sản xuất theo yêu cầu Dự đoán hậu từ tình xảy Chỉđịnh cách thụ lý vấn đề HỆ CHUYÊN GIA Điều khiển (Control) Điều khiển trình, đòi hỏi diễn giải, chẩn đoán, kiểm tra, lập kế hoạch, dự đoán chữa trị 10 HỆ CHUYÊN GIA CHƯƠNG :TÌM HIỂU VỀ RÚT TRÍCH THÔNG TIN 2.1 Tổng quan rút trích thông tin Không giống việc hiểu toàn văn bản, hệ thống trích chọn thông tin cố gắng nhận biết số dạng thông tin đáng quan tâm Có nhiều mức độ trích chọn thông tin từ văn xác định thực thể (Element Extraction), xác định quan hệ thực thể (Relation Extraction), Extraction), xác định theo dõi kiện vàcác kịch (Event and Scenario Extraction and Tracking), xác định đồng tham chiếu(Co-reference Resolution) Các kĩ thuật sử dụng trích chọn thông tin gồmcó: phân đoạn, phân lớp, kết hợp phân cụm Hình 2.3:Minh họa hệ thống trích chọn thông tin Kết hệ thống trích chọn thông tin thường mẫu (template) chứa mộtsốlượng xác định trường (slots) điền thông tin Rút trích thông tin không đòi hỏi hệ thống phải đọc hiểu nội dung tài liệu văn bản, hệ thống phải có khả phân tích tài liệu tìm kiếm thông tin liên quan mà hệ thống mong muốn tìm thấy Để có hệ thống trích chọn thông tin phải có hệthống nhận dạng thực thể tiếp sau tính đến phân loại quan hệ Bài toán nhận biết loại thực thể toán đơn giản số toán trích chọn thông tin, lại 11 HỆ CHUYÊN GIA bước trước tính đến việc giải toán phức tạp lĩnh vực Ngoài ứng dụng hệ thống trích chọn thông tin, áp dụng tìm kiếm thông tin (Information Retrieval), dịch máy (machine translation) hệ thống hỏi đáp (question answering) Các kỹ thuật rút trích thông tin áp dụng cho tập tài liệu mà cần rút thông tin yếu, cần thiết kiện liên quan Các kho liệu văn lĩnh vực internet ví dụ điển hình, thông tin tồn nhiều nơi khác nhau, nhiều định dạng khác Sẽ hữu ích cho khảo sát, ứng dụng liên quan đến lĩnh vực thông tin lĩnh vực liên quan rút trích tích hợp lại thành hình thức thống biểu diễn cách có cấu trúc Khi thông tin internet chuyển vào sở liệu có cấu trúc phục vụ cho ứng phân tích khai thác khác Rút trích thông tin web đề tài quan trọng từ giúp chuyển đổi nội dungtrang web theo hình thức trình bày phục vụ người duyệt web thành nguồn thôngtin chuẩn hóa phục vụ nhiều nhu cầu đặc biệt so sánh sản phẩm, tìm kiếm thông minh, chuyển đổi nội dung phục vụ thiết bị di động, mashup 2.2 Giới thiệu Rút trích thông tin 2.2.1 Khái niệm Rút trích thông tin (IE – Information Extraction) trình lấy thông tin từ nguồn định dạng không đồng chuyển thành dạng đồng Dữ liệu sau rút trích sử dụng, trình bày trực tiếp cho người dùng, lưu vào sở liệu để xử lý sau hay sử dụng cho hệ thống tìm kiếm thông tin liệu qua bước tiền xử lý 2.2.2 So sánh rút trích thông tin tìm kiếm thông tin Tìm kiếm thông tin (IR – Information Retreival) phương pháp tìm kiếm tài liệu có thông tin phù hợp với tiêu chí đặt ban đầu khối lượng lớn tài liệu IE IR có điểm chung đem đến cho người dùng thông tin cần thiết IE IR hoàn toàn khác : + Hệ thống IR tập trung vào việc tìm kiếm văn liên quan đem đến cho người dùng + Hệ thống IE phân tích văn mang đến cho người dùng mẫu tin phù hợp mà người dùng quan tâm 12 HỆ CHUYÊN GIA Ví dụ: lấy bối cảnh nhà sách, hệ thống IE tìm kiếm tất tên địa công ty có tất tài liệu nhà sách Thông tin định dạng rõ ràng theo cấu trúc trình bày cho người dùng Trong đó, hệ thống IR tìm kiếm sách có liên quan đến công ty Thông tin công ty đưa vào tức yêu cầu người dùng kết thu từ hệ thống IR tập hợp sách thỏa mãn yêu cầu Tùy vào ngữ cảnh, toán mà độ phức tạp hệ thống khác có trường hợp IE kết hợp với IR hệ thống 2.2.3 Hệ thống rút trích thông tin từ trang web 2.2.3.1 Khái niệm Rút trích thông tin từ web trình lấy thông tin từ trang web chuyển thành thành dạng đồng Nhiệm vụ trang web tìm kiếm trả cho người dùng tài liệu có tương thích cao với từ khóa mà người dùng đưa vào Tuy nhiên, khối lượng thông tin vô khổng lồ web nay, tồn nhiều đối tượng trang web Nn mà người dùng mong muốn như: thông tin người, sản phẩm, báo, thông tin tổ chức, kiện,… Nếu đối tượng rút trích từ web tổng hợp lại cho người dùng tìm kiếm theo tiêu chí theo chủ đề đó, người dùng có công cụ tìm kiếm hướng đối tượng hiệu thỏa mãn 1.2.3.2Phân loại hệ thống rút trích thông tin từ web Ngày nay, có nhiều hệ thống rút trích thông tin từ web nhà phát triển nghiên cứu xây dựng Các tiêu chí để phân loại hệ thống rút trích thông tin từ web sau : - Dựa vào mức độ can thiệp người trình rút trích thông tin : hệ thống rút trích thông tin chia làm loại: thủ công, có giám sát, bán giám sát không giám sát Trong đó, hệ thống hoàn toàn tự động, can thiệp người nhà nghiên cứu quan tâm - Dựa vào tầng liệu rút trích: trang web có nhiều trang HTML, trang HTML có nhiều record record có nhiều thuộc tính Do đó, dựa vào kết thông tin rút trích tầng nào, hệ thống rút trích chia làm loại: tầng thuộc tính (attribute), tầng record, tầng trang HTML (page) tầng trang web (site) 13 HỆ CHUYÊN GIA Hiện hệ thống xử lý tầng thuộc tính record chiếm đa số Và nay, chưa thấy xuất hệ thống rút trích thông tin tầng site - Dựa vào phương pháp rút trích thông tin : hệ thống rút trích thông tin chia thành dạng : + Các hệ thống dựa phương pháp thủ công: sử dụng phương pháp gán nhãn, cách lấy thông tin trực tiếp từ sở liệu từ dịch vụ web (web service) + Các hệ thống dựa phương pháp heuristic: phương pháp thống kê, tập luật, sử dụng mẫu thông tin, dựa vào cấu trúc cây,… sử dụng để rút trích thông tin + Các hệ thống dựa phương pháp học: sử dụng phương pháp mô hình Markov, ngữ nghĩa, học cấu trúc cây,… để giúp cho hệ thống hiểu rút trích thông tin xác 1.2.3.3 Khảo sát số ứng dụng rút trích thông tin từ web Web-Harvest công cụ mã nguồn mở để rút trích liệu Web Công cụ cung cấp phương pháp để thu thập trang Web mong muốn rút trích liệu hữu ích từ chúng Đó sử dụng kỹ thuật thao tác text/xml XSLT, XQuery biểu thức quy tắc Do sử dụng số logic nên cần thiết để mô tả trình làm để lấy liệu mong muốn từ nội dung hỗn hợp Tất thủ tục rút trích Web-Harvest người dùng định nghĩa thông qua tệp tin cấu hình XML.Mỗi tập tin cấu hình mô tả trình tự xử lý thực số nhiệm vụ để mục tiêu cuối RoadRunner hoạt động dựa thuật toán học không giám sát Mục đích công cụ rút trích liệu từ trang web có lượng lớn liệu cấu trúc thay đổi.RoadRunner hoạt động cách so sánh cấu trúc HTML trang mẫu loại tạo lược đồ cho liệu chứa trang từ thẻ HTML Dynamo nhấn mạnh việc rút trích liệu qua trang web trang HTML tĩnh cung cấp dịch vụ Những công cụ rút trích hoàn tất thường gặp nhiều khó khăn để quản lý việc tạo tập 25 liệu hiển thị cách đơn giản (RSS feeds) lại gặp số hạn chế nguồn cấp liệu cũ không quan tâm thường bị xóa từ máy chủ máy chủ truyền thống thực truy vấn trực tiếp Ngược lại, với Dynamo : + Tự động phát sinh RSS từ liệu trang web tĩnh 14 HỆ CHUYÊN GIA + Lưu trữ nguồn cung cấp liệu theo thứ tự thời gian + Truy vấn tổng hợp thành dịch vụ web Nhận xét: Các công cụ rút trích thông tin từ web phần lớn áp dụng cho trang web Vậy trang web ẩn, sử dụng lại công cụ hay phải xây dựng hệ thống Nếu công cụ tái sử dụng nhà phát triển, việc tái sử dụng tiến hành nào? 2.3 Bài toán cần giải Rút trích thông tin từ trang web dựa chủ đề hướng nghiên cứu nhận nhiều quan tâm Vấn đề trở nên quan trọng trang web ngày gia tăng nhu cầu sử dụng thông tin người dùng nâng cao Những công cụ phân tích luồng chủ đề thông tin trở nên cần thiết giúp người dùng có nhìn tổng quát định hướng thông tin tốt Những nhân viên làm việc với tập liệu văn lớn nhà làm luật, nhà báo, nhà thống kê … có thêm công cụ để duyệt qua mảng thông tin dễ dàng theo chủ đề Đối với trang web ẩn với nội dung động, thông thường người dùng phải sử dụng trang tìm kiếm thông tin trang web đó.Điều làm cho người dùng phải tốn nhiều thời gian chi phí để có thông tin muốn đặc biệt thông tin từ trang web ẩn Hiện có nhiều công cụ nhà nghiên cứu phát triển Tuy nhiên công cụ thường dùng với chủ đề cụ thể kèm số trang web Nn thuật toán cố định “Chuyến bay”, “Việc làm”… Điều làm cho nhà phát triển khó khăn mở rộng hay thay đổi thành phần hệ thống Các nhà phát triển mong muốn có hệ thống dễ dàng bổ sung hay thay đổi chủ đề, trang web, thuật toán… dễ dàng cho công tác bảo trì mở rộng từ thành phần hệ thống So Máy tìm kiếm liên hợp Sánh Giố ng Hệ thống xây dựng Gửi yêu cầu đến Gửi yêu cầu đến đối tượng đối tượng web xử lý kết web xử lý kết trả quảtrả Là thành phần trung Là thành phần trung gian nên gian nên lưu lưu liệu trang web liệu trang web 15 HỆ CHUYÊN GIA Khá c Dữ liệu trả xử lý hiển thị cho người dùng lưu trữ Tìm kiếm thông tin Đối tượng gửi yêu cầu trang tìm kiếm Số lượng đối tượng cần gửi yêu cầu Gửi từ khóa tìm kiếm Tốn chi phí cho việc xây dựng thuộc tính form Tập trung vào thuật toán xử lí kết từ máy tìm kiếm khác tổng hợp xếp hạng Dữ liệu trả xử lý hiển thị cho người dùng lưu trữ Rút trích thông tin Đối tượng gửi yêu cầu trang web ẩn Số lượng trang web Nn cần gửi yêu cầu nhiều Gửi thuộc tính ứng với chủ đề rút trích Tốn nhiều chi phí tài nguyên cho việc xây dựng lưu trữ thuộc tính form Tập trung vào cách thức xây dựng thuộc tính form, gửi yêu cầu đến trang web Nn rút trích kết trảvề Bảng 1: So sánh hệ thống xây dựng máy tìm kiếmliên hợp 2.4 Các kỹ thuật rút trích thông tin Dữ liệu đầu vào cho toán trích rút thông tin đa dạng phong phú.Dữ liệu dạng không cấu trúc, bán cấu trúc có cấu trúc, liệu trích rút trực tuyến (on-line) ngoại tuyến (off-line) Chi tiết sau: Dữ liệu không cấu trúc: Dữ liệu không cấu trúc thường dùng để liệu dạng tự không cần có cấu trúc định nghĩa sẵn ví dụ ngôn ngữ tự nhiên Dữ liệu có cấu trúc: Dữ liệu có cấu trúc thường dùng để liệu lưu trữ hệ quản trị sở liệu quan hệ MS SQL Server hay MySQL, thực thể thuộc tính định nghĩa sẵn Dữ liệu bán cấu trúc: Là liệu có cấu trúc không hoàn toàn tường minh, không tuân theo cấu trúc, cách thức cấu trúc bảng mô hình liệu sở liệu chứa thẻ, đánh dấu tới phần tử ngữ nghĩa riêng biệt ghi trường riêng biệt bên liệu Dữ liệu từ trang web dạng tiêu biểu cho liệu bán cấu trúc Trong luận văn tập trung vào giải toán trích rút thông tin từ liệu bán cấu trúc ngoại tuyến (thu thập liệu trích rút thông tin) 16 HỆ CHUYÊN GIA Có nhiều cách tiếp cận để giải toán trích rút thông tin, nhiên dựa đặc trưng liệu toán trích rút thông tin giải số kỹ thuật sau: Dữ liệu có cấu trúc: Được lưu trữ CSDL, việc lấy thông tin thông qua truy vấn người dùng (mệnh đề SELECT) Dữ liệu bán cấu trúc: Các trang web đại diện cho liệu loại Có hai kỹ thuật thường xuyên dùng để trích rút thông tin web sử dụng cấu trúc DOM sử dụng biểu thức quy Dữ liệu cấu trúc: Với liệu cấu trúc, toán trích rút thông tin coi toán nhận dạng trích rút thực thể như: tên người, tên tổ chức, vị trí, ngày tháng, số… 17 HỆ CHUYÊN GIA CHƯƠNG : HỆ THỐNG TRÍCH RÚT THỰC THỂ ỨNG DỤNG TRONG PHÂN TÍCH KINH TẾ 3.1 Bài toán trích rút thông tin Phát biểu toán trích rút thông tin: Trích rút thông tin (Information Extraction – IE) lĩnh vực khai phá liệu (Data Mining) có nhiệm vụ lấy mẫu thông tin “có ích” người dùng Theo Jaeyoung Yang cộng sự, trích rút/trích xuất thông tin (IE) toán nhận dạng thành phần thông tin cụ thể văn bản, thành phần hạt nhân tạo nên nội dung ngữ nghĩa văn [8] Nói cách đơn giản, trích rút/trích xuất thông tin trình xử lý thông tin, đầu vào văn đầu thông tin “có giá trị” với người dùng Thông tin “có giá trị” hiểu thực thể, thuộc tính mô tả thực thể mối quan hệ thực thể Dữ liệu trích rút có nội dung cấu trúc thỏa mãn yêu cầu người dùng Có thể phát biểu toán trích rút thông tin sau: Đầu vào: Văn có cấu trúc Đầu ra: Thông tin “có ích” tổ chức dạng cấu trúc 3.2 Yêu cầu mục tiêu hệ thống • Yêu cầu: - Đề tài : Xây dựng hệ thống trích rút thực thể ứng dụng phân tích kinh tế • Mục tiêu: - Xây dựng hệ thống tổng hợp tin kinh tế từ trang web (chỉ lấy tin kinh tế) - Tổng hợp lại thành bảng bao gồm: tên công ty, địa chỉ, doanh thu năm 3.3 Xây dựng website tổng hợp tin kinh tế 3.3.1.RSS ? RSS (Really Simple Syndication) dạng thức công nghệ cung cấp khai thác thông tin Internet theo nhu cầu người dùng, tạm dịch “Giao thức 18 HỆ CHUYÊN GIA cung cấp thông tin đơn giản theo thời gian thực” Đây dạng công nghệ săn tin “giùm” cho người đọc toàn trang web có tích hợp RSS, thay thời gian bật hết trang web đến trang web khác để đọc tin Công nghệ RSS cho phép người dùng Internet đặt mua thông tin từ websites có cung cấp khả RSS (RSS feeds).Chúng thường site có nội dung thay đổi thêm vào thường xuyên Định dạng RSS cung cấp nội dung web tóm lược nội dụng web với liên kết đến phiên đầy đủ nội dung tin đó, siêu-dữ-liệu (meta-data) khác Thông tin cung cấp dạng tập tin XML gọi RSS feed, webfeed, RSS stream, hay RSS channel Cùng với việc hỗ trợ cung cấp chia sẻ thông tin, RSS cho phép độc giả thường xuyên website theo dõi cập nhật site dùng aggregator 3.3.2 Hệ thống tổng hợp tin kinh tế • Hệ thống chúng emthực trích rút tin kinh tế từ website có hỗ trợ đọc tin thông qua RSS Dantri, Vnexpress, Vietnamnet, • Các bước lấy tin tự động qua RSS : - Bước 1: Lấy link rss mục kinh tế website hỗ trợ rss - Bước 2: Xem cấu trúc xml - Bước 3: Hiển thị trang web theo cấu trúc 3.4 Trích rút thực thể dựa theo mẫu biểu thức qui Trích chọn thông tin lĩnh vực quan trọng khai phá liệu, trích chọn thực thể toán con, đóng vai trò quan trọng.Nó sử dụng để hỗ trợ cho phương pháp tìm kiếm – tìm kiếm hướng thực thể, góp phần quan trọng cho việc xây dựng web ngữ nghĩa Đôi bạn cần kiểm tra liệu nhập vào có với cấu trúc nội dung quy định trước hay không hay bạn muốn trích rút nội dung theo quy chuẩn văn Ví dụ, bạn muốn bảo đảm người dùng nhập địa IP, số điện thoại, hay địa e-mail hợp lệ Khi đó, bạn cần tới Regular Expression (RegEx), hay gọi 'Biểu thức quy" Ngoài việc kiểm tra liệu đầu vào biểu thức quy dùng để giải toàn rút trích dữ liệu liệu bán cấu trúc (các trang web) 19 HỆ CHUYÊN GIA 3.4.1 Biểu thức quy Biểu thức quy (tiếng Anh: regular expression, viết tắt regexp, regex hay regxp) chuỗi miêu tả chuỗi khác, theo quy tắc cú pháp định Biểu thức quy thường dùng trình biên tập văn tiện ích tìm kiếm xử lý văn dựa mẫu quy định.Nhiều ngôn ngữ lập trình hỗ trợ biểu thức quy việc xử lý chuỗi, chẳng hạn Perl có máy mạnh mẽ để xử lý biểu thức quy xây dựng trực tiếp cú pháp chúng Bộ trình tiện ích (gồm trình biên tập sed trình lọc grep) kèm phân phối Unix có vai trò việc phổ biến khái niệm biểu thức quy Việc sử dụng Regex giúp ta loại bỏ liệu không hợp lệ trình nhập liệu Khi ứng dụng nhận liệu từ người dùng đọc liệu từ file, bạn nên giả định liệu chưa xác cần kiểm tra lại Một nhu cầu kiểm tra phổ biến xác định số điện thoại, số thẻ tín dụng, địa e-mail có dạng hay không Việc kiểm tra cấu trúc nội dung liệu không đảm bảo liệu xác giúp loại bỏ nhiều liệu sai đơn giản hóa việc kiểm tra sau Biểu thức quy (regular expression) cung cấp chế tốt để kiểm tra chuỗi có với cấu trúc quy định trước hay không, bạn lợi dụng tính cho mục đích kiểm tra liệu nhập 3.4.2 Xây dựng biểu thức quy Trước tiên, bạn phải xác định cú pháp biểu thức quy cho phù hợp với cấu trúc nội dung liệu cần kiểm tra, phần khó sử dụng biểu thức quy Biểu thức quy xây dựng hai yếu tố: trực kiện (literal) siêu ký tự (metacharacter) : - Trực kiện mô tả ký tự xuất mẫu mà bạn muốn so trùng Siêu ký tự hỗ trợ việc so trùng ký tự đại diện (wildcard), tầm trị, nhóm, lặp, điều kiện, chế điều khiển khác Dưới bảng liệt kê siêu ký tự thường dùng : Siêu ký tự Mô tả Mọi ký tự trừ ký tự xuống dòng (\n) 20 HỆ CHUYÊN GIA \d \D \s Ký tự chữ số thập phân (digit) Ký tự chữ số (non-digit) Ký tự whitespace (như khoảng trắng, tab ) \S \w \W ^ \A $ \z Ký tự non-whitespace Ký tự word (gồm mẫu tự, chữ số, dấu gạch dưới) Ký tự non-word Bắt đầu chuỗi dòng Bắt đầu chuỗi Kết thúc chuỗi dòng Kết thúc chuỗi Ngăn cách biểu thức so trùng, ví dụ AAA|ABA|ABB | so trùng với AAA, ABA, ABB (các biểu thức so trùng từ trái sang) [abc So trùng với ký tự nhóm, ví dụ [AbC] so ] trùng với A, b, C [^ab So trùng với ký tự không thuộc ký tự nhóm, c] ví dụ [^AbC] không so trùng với A, b, or C so trùng với B, F,… So trùng với ký tự thuộc khoảng này, ví dụ [A-C] so [a-z] trùng với A, B, C Xác định biểu thức cho xem yếu tố () đơn lẻ yếu tố trình bày bảng Xác định có ký tự biểu thức đứng ? trước nó, ví dụ A?B so trùng với B, AB, không so trùng với AAB Xác định có nhiều ký tự biểu thức đứng * trước nó, ví dụ A*B so trùng với B, AB, AAB, AAAB,… Xác định có có nhiều ký tự biểu thức đứng trước + nó, ví dụ A+B so trùng với AB, AAB, AAAB,… không so trùng với B Xác định có n ký tự biểu thức đứng trước nó, ví dụ {n} A{2} so trùng với AA Xác định có n ký tự biểu thức đứng trước nó, ví dụ {n,} A{2,} so trùng với AA, AAA, AAAA,… không so trùng với A {n, Xác định có từ n đến m ký tự đứng trước nó, ví dụ A{2,4} so trùng m} với AA, AAA, AAAA không so trùng với A AAAAA Bảng 3.2: Bảng liệt kê siêu ký tự thường dùng Khi liệu cần kiểm tra phức tạp cú pháp biểu thức quy phức tạp.Ví dụ, dễ dàng kiểm tra liệu nhập chứa số hay có chiều dài tối thiểu, kiểm tra URL phức tạp 21 HỆ CHUYÊN GIA 3.4.3 Sử dụng biểu thức quy C# Một biết cú pháp biểu thức quy, bạn tạo đối tượng Regex (nằm namespace System.Text.RegularExpression ) cách truyền cho phương thức khởi dựng chuỗi chứa biểu thức quy Sau đó, gọi phương thức IsMatch đối tượng Regex truyền chuỗi cần kiểm tra, phương thức trả giá trị luận lý cho biết chuỗi có hợp lệ không Cú pháp biểu thức quy định Regex so trùng toàn chuỗi hay so trùng phần chuỗi Ta sử dụng đối tượng Regex để kiểm tra nhiều chuỗi, thay đổi biểu thức quy gắn cho nó; bạn phải tạo đối tượng Regex tương ứng với cấu trúc 3.4.4 Biểu thức quy trích rút thực thể Với biểu thức qui, otomat hữu hạn trạng thái xây dựng sử dụng để so khớp xuất chuỗi trang web.Trong trình này, liệu trích xuất Ví dụ: Với mã HTML sau: Tinh Tong cua cac so tu 1->n Để lấy phần tiêu đề đoạn mã ta xây dựng biểu thức qui sau: .*?(#text) 22 HỆ CHUYÊN GIA CHƯƠNG 4: XÂY DỰNG CHƯƠNG TRÌNH * Một số giao diện chương trình - Giao diện tổng hợp tin kinh tế Hình 3.4:Giao diện tổng hợp tin kinh tế - Giao diện trích rút thông tin 23 HỆ CHUYÊN GIA Hình 3.5: Giao diện trích rút thông tin 24 HỆ CHUYÊN GIA KẾT LUẬN Những kết đạt : Xây dựng hệ thống trích rút thực thể ứng dụng phân tích kinh tế đảm bảo số công việc : + + + Xây dựng hệ thống trích rút thông tin Tổng hợp tin tức kinh tế từ mộ số trang web có hỗ trợ đọc tin rss Trích rút thông tin kinh tế , thời ngày Hướng phát triển : Trong tương lai chúng em cố gắng phát triển hệ thống nhằm mục đích tổng hợp tin tức từ nhiều trang web trích xuất thông tin cách xác Tổng kết : Mặc dù cố gắng, xong kiến thức hạn hẹp nên tránh khỏi sai sót Nhìn chung, chương trình đáp ứng yêu cầu đề ra, tổng hợp tin tức kinh tế từ số trang web trích rút tên công ty, địa chỉ, doanh thu xuất nội dung báo Chúng em mong nhận nhiều ý kiến đóng góp, góp ý đề tài thầy cô bạn để chúng em rút kinh nghiệm kiến thức chưa rõ, để cách nghiên cứu phát triển hoàn thiện 25 HỆ CHUYÊN GIA [...]... nhau Hệ thống xây dựng Gửi yêu cầu đến các Gửi yêu cầu đến các đối tượng đối tượng web và xử lý kết web và xử lý kết quả trả về quảtrả về Là thành phần trung Là thành phần trung gian nên gian nên không có lưu dữ không có lưu dữ liệu trang web liệu trang web 15 HỆ CHUYÊN GIA Khá c nhau Dữ liệu trả về được xử lý có thể hiển thị cho người dùng hoặc lưu trữ Tìm kiếm thông tin Đối tượng gửi yêu cầu là các... cú pháp nhất định Biểu thức chính quy thường được dùng trong các trình biên tập văn bản và các tiện ích tìm kiếm và xử lý văn bản dựa trên các mẫu được quy định.Nhiều ngôn ngữ lập trình cũng hỗ trợ biểu thức chính quy trong việc xử lý chuỗi, chẳng hạn như Perl có bộ máy mạnh mẽ để xử lý biểu thức chính quy được xây dựng trực tiếp trong cú pháp của chúng Bộ các trình tiện ích (gồm trình biên tập sed và... không đồng nhất và chuyển thành một dạng đồng nhất Dữ liệu sau khi rút trích được sử dụng, trình bày trực tiếp cho người dùng, lưu vào cơ sở dữ liệu để xử lý sau đó hay sử dụng cho những hệ thống tìm kiếm thông tin như một dữ liệu đã qua bước tiền xử lý 2.2.2 So sánh rút trích thông tin và tìm kiếm thông tin Tìm kiếm thông tin (IR – Information Retreival) là phương pháp tìm kiếm những tài liệu có thông... từ những thẻ HTML Dynamo nhấn mạnh việc rút trích dữ liệu qua các trang web ở những trang HTML tĩnh và cung cấp dịch vụ mới Những công cụ hiện nay khi rút trích hoàn tất thường gặp nhiều khó khăn để quản lý việc tạo ra các tập dữ 25 liệu có thể hiển thị một cách đơn giản nhất (RSS feeds) nhưng lại gặp một số hạn chế như nguồn cấp dữ liệu cũ có thể không được quan tâm và thường bị xóa từ các máy chủ... thế nào để lấy dữ liệu mong muốn từ nội dung hỗn hợp Tất cả các thủ tục rút trích trong Web-Harvest là người dùng định nghĩa thông qua các tệp tin cấu hình XML.Mỗi tập tin cấu hình mô tả các trình tự xử lý thực hiện một số nhiệm vụ để được mục tiêu cuối cùng RoadRunner hoạt động dựa trên thuật toán học không giám sát Mục đích của công cụ là rút trích được các dữ liệu từ những trang web có lượng lớn dữ... cầu là ít Gửi từ khóa tìm kiếm Tốn ít chi phí cho việc xây dựng các thuộc tính form Tập trung vào các thuật toán xử lí kết quả từ các máy tìm kiếm khác như tổng hợp và xếp hạng Dữ liệu trả về được xử lý có thể hiển thị cho người dùng hoặc lưu trữ Rút trích thông tin Đối tượng gửi yêu cầu là các trang web ẩn Số lượng các trang web Nn cần gửi yêu cầu là nhiều Gửi các thuộc tính ứng với chủ đề rút trích... trúc thường dùng để chỉ dữ liệu ở dạng tự do và không cần có cấu trúc định nghĩa sẵn ví dụ như ngôn ngữ tự nhiên Dữ liệu có cấu trúc: Dữ liệu có cấu trúc thường dùng để chỉ dữ liệu lưu trữ trong các hệ quản trị cơ sở dữ liệu quan hệ như MS SQL Server hay MySQL, trong đó các thực thể và các thuộc tính được định nghĩa sẵn Dữ liệu bán cấu trúc: Là dữ liệu có cấu trúc nhưng không hoàn toàn tường minh,... thành phần thông tin cụ thể của một văn bản, những thành phần này chính là hạt nhân tạo nên nội dung ngữ nghĩa của văn bản đó [8] Nói một cách đơn giản, trích rút/trích xuất thông tin là quá trình xử lý thông tin, đầu vào là một văn bản và đầu ra là các thông tin “có giá trị” với người dùng Thông tin “có giá trị” ở đây có thể hiểu là các thực thể, các thuộc tính mô tả thực thể và mối quan hệ giữa các... trích được ở tầng nào, các hệ thống rút trích được chia ra làm 4 loại: tầng thuộc tính (attribute), tầng record, tầng trang HTML (page) và tầng trang web (site) 13 HỆ CHUYÊN GIA Hiện tại các hệ thống xử lý ở tầng thuộc tính và record chiếm đa số Và cho đến nay, vẫn chưa thấy xuất hiện các hệ thống rút trích thông tin ở tầng site - Dựa vào các phương pháp rút trích thông tin : các hệ thống rút trích thông... bằng cách truyền cho phương thức khởi dựng của nó chuỗi chứa biểu thức chính quy Sau đó, gọi phương thức IsMatch của đối tượng Regex và truyền chuỗi cần kiểm tra, phương thức này trả về một giá trị luận lý cho biết chuỗi có hợp lệ không Cú pháp của biểu thức chính quy sẽ chỉ định Regex so trùng toàn bộ chuỗi hay chỉ so trùng một phần của chuỗi Ta có thể sử dụng đối tượng Regex để kiểm tra nhiều chuỗi, ... 1.2.3.2Phân loại hệ thống rút trích thông tin từ web Ngày nay, có nhiều hệ thống rút trích thông tin từ web nhà phát triển nghiên cứu xây dựng Các tiêu chí để phân loại hệ thống rút trích thông tin từ... 13 HỆ CHUYÊN GIA Hiện hệ thống xử lý tầng thuộc tính record chiếm đa số Và nay, chưa thấy xuất hệ thống rút trích thông tin tầng site - Dựa vào phương pháp rút trích thông tin : hệ thống rút trích. .. THÔNG TIN 2.1 Tổng quan rút trích thông tin Không giống việc hiểu toàn văn bản, hệ thống trích chọn thông tin cố gắng nhận biết số dạng thông tin đáng quan tâm Có nhiều mức độ trích chọn thông tin