Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
793,51 KB
Nội dung
Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế MỤC LỤC Trang 1 Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế DANH MỤC HÌNH ẢNH Trang 2 Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế DANH MỤCBẢNG Trang 3 Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế LỜI MỞ ĐẦU Ngày nay việc ứng dụng công nghệ kĩ thuật cao vào đời sống đang là một đòi hỏi bức thiết.Một trong những lĩnh vực đó là trí tuệ nhân tạo, mà một phần quan trọng của nó là Hệ chuyên gia. Hệ chuyên gia là một hệ thống chương trình máy tính chứa các thông tin tri thức và các quá trình suy diễn về một lĩnh vực cụ thể nào đó dể giải quyết các bài toán khó màđòi hỏi sự uyên bác của các chuyên gia trong ngành. Hiện nay hệ chuyên gia được ứng dụng trong nhiều lĩnh vực khác nhau: ví dụ như công nghệp, nông nghiệp, khoa học máy tính, thương mại khí tượng, y học, quân sự, hoá học Đặc biệt trong giai đoạn gần đây việc ứng dụng hệ chuyên gia vào xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế đang được phát triển mạnh. Thông tin kinh tế là yếu tố cực kỳ quan trọng cho doanh nghiệp để nắm bắt được tin tức thị trường, xu thế kinh tế giúp bắt kịp với các doanh nghiệp khác. Hiện nay có rất nhiều website đăng tải rất nhiều các thông tin, tin tức về kinh tế và các tin tức khác.Nhiều nguồn tin có thể gây lẫn với nhau hoặc có thể trùng lặp tin. Với nguồn thông tin vô cùng phong phú như vậy cần phải có một phương thức hoặc công cụ nào đó có khả năng tìm kiếm, trích xuất thông tin trên web và lưu trữ lại thông tin đó theo ý muốn của con người, một cách tự động và hiệu quả. Vì thế chúng em đã lựa chọn đề tài này. Tên đề tài : “Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế” Trong quá trình làm đề tài,do chúng em còn ít kinh nghiệm nên không tránh khỏi nhiều sai sót.Kính mong các thầy,cô giáo thông cảm và bổ sung,đóng góp ý kiến để cho đề tài của chúng em được hoàn thiện hơn, nhóm chúng em xin chân thành cảm ơn ! Trang 4 Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế CHƯƠNG 1 :TỔNG QUAN VỀ RÚT TRÍCH THÔNG TIN 1.1 Tổng quan về rút trích thông tin. Không giống như việc hiểu toàn bộ văn bản, các hệ thống trích chọn thông tinchỉ cốgắng nhận biết một số dạng thông tin đáng quan tâm. Có nhiều mức độ tríchchọn thông tin từ văn bản như xác định các thực thể (Element Extraction), xác địnhquan hệ giữa các thực thể (Relation Extraction), Extraction), xác định và theo dõi các sự kiện vàcác kịch bản (Event and Scenario Extraction and Tracking), xác định đồng tham chiếu(Co- reference Resolution) Các kĩ thuật được sử dụng trong trích chọn thông tin gồmcó: phân đoạn, phân lớp, kết hợp và phân cụm. Hình 1Minh họa một hệ thống trích chọn thông tin. Kết quả của một hệ thống trích chọn thông tin thường là các mẫu (template) chứa mộtsốlượng xác định các trường (slots) đã được điền thông tin. Rút trích thông tin không đòi hỏi hệ thống phải đọc hiểu nội dung của tài liệu văn bản, nhưng hệ thống phải có khả năng phân tích tài liệu và tìm kiếm các thông tin liên quan mà hệ thống mong muốn được tìm thấy. Để có một hệ thống trích chọn thông tin đầu tiên chúng ta phải có một hệthống nhận dạng thực thể và tiếp sau mới tính đến phân loại quan hệ. Bài toán nhận biết các loại thực thể là bài toán đơn giản nhất trong số các bài toán trích chọn thông tin, tuy vậy nó lại là bước cơ bản nhất trước khi tính đến việc giải quyết các bài toán phức tạp hơn trong lĩnh vực Trang 5 Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế này. Ngoài ứng dụng trong hệ thống trích chọn thông tin, nó còn có thể được áp dụng trong tìm kiếm thông tin (Information Retrieval), dịch máy (machine translation) và hệ thống hỏi đáp (question answering). Các kỹ thuật rút trích thông tin có thể áp dụng cho bất kỳ tập tài liệu nào mà chúng ta cần rút ra những thông tin chính yếu, cần thiết cũng như các sự kiện liên quan. Các kho dữ liệu văn bản về một lĩnh vực trên internet là ví dụ điển hình, thông tin trên đó có thể tồn tại ở nhiều nơi khác nhau, dưới nhiều định dạng khác nhau. Sẽ rất hữu ích cho các khảo sát, ứng dụng liên quan đến một lĩnh vực nếu như những thông tin lĩnh vực liên quan được rút trích và tích hợp lại thành một hình thức thống nhất và biểu diễn một cách có cấu trúc. Khi đó thông tin trên internet sẽ được chuyển vào một cơ sở dữ liệu có cấu trúc phục vụ cho các ứng phân tích và khai thác khác nhau. Rút trích thông tin trên web là một đề tài quan trọng từ giúp chuyển đổi nội dungtrang web theo hình thức trình bày phục vụ người duyệt web thành các nguồn thôngtin được chuẩn hóa phục vụ nhiều nhu cầu đặc biệt như so sánh sản phẩm, tìm kiếm thông minh, chuyển đổi nội dung phục vụ thiết bị di động, mashup 1.2 Giới thiệu về Rút trích thông tin. 1.2.1 Khái niệm. Rút trích thông tin (IE – Information Extraction) là quá trình lấy thông tin từ các nguồn ở những định dạng không đồng nhất và chuyển thành một dạng đồng nhất. Dữ liệu sau khi rút trích được sử dụng, trình bày trực tiếp cho người dùng, lưu vào cơ sở dữ liệu để xử lý sau đó hay sử dụng cho những hệ thống tìm kiếm thông tin như một dữ liệu đã qua bước tiền xử lý. 1.2.2 So sánh rút trích thông tin và tìm kiếm thông tin. Tìm kiếm thông tin (IR – Information Retreival) là phương pháp tìm kiếm những tài liệu có thông tin phù hợp với những tiêu chí đặt ra ban đầu trong một khối lượng lớn tài liệu. IE và IR có điểm chung là đem đến cho người dùng những thông tin cần thiết nhưng IE và IR hoàn toàn khác nhau : + Hệ thống IR tập trung vào việc tìm kiếm những văn bản liên quan và đem đến cho người dùng. + Hệ thống IE là phân tích văn bản và chỉ mang đến cho người dùng những mẫu tin phù hợp mà người dùng quan tâm. Ví dụ: lấy bối cảnh trong nhà sách, một hệ thống IE sẽ tìm kiếm tất cả các tên và địa chỉ công ty có trong tất cả những tài liệu trong nhà sách. Thông tin này sẽ được định Trang 6 Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế dạng rõ ràng theo một cấu trúc nào đó và trình bày cho người dùng. Trong khi đó, hệ thống IR sẽ tìm kiếm ra những cuốn sách có liên quan đến một công ty nào đó. Thông tin công ty đưa vào tức là yêu cầu của người dùng và kết quả thu được từ hệ thống IR là tập hợp những cuốn sách thỏa mãn yêu cầu đó. Tùy vào từng ngữ cảnh, từng bài toán mà độ phức tạp của hệ thống sẽ khác nhau nhưng cũng có trường hợp IE kết hợp với IR trong một hệ thống nào đó. 1.2.3 Hệ thống rút trích thông tin từ các trang web. 1.2.3.1 Khái niệm. Rút trích thông tin từ web là quá trình lấy thông tin từ các trang web và chuyển thành thành dạng đồng nhất. Nhiệm vụ chính của các trang web tìm kiếm hiện nay trả về cho người dùng những tài liệu có sự tương thích cao với những từ khóa mà người dùng đưa vào. Tuy nhiên, trong khối lượng thông tin vô cùng khổng lồ trên web như hiện nay, tồn tại rất nhiều các đối tượng trong những trang web nổi hoặc Nn mà người dùng mong muốn như: thông tin con người, sản phẩm, bài báo, thông tin về tổ chức, các sự kiện,…. Nếu như các đối tượng này được rút trích ra từ web rồi tổng hợp lại và cho người dùng tìm kiếm theo một tiêu chí hoặc theo một chủ đề nào đó, người dùng sẽ có được một công cụ tìm kiếm hướng đối tượng hiệu quả và thỏa mãn hơn. 1.2.3.2Phân loại hệ thống rút trích thông tin từ web. Ngày nay, có rất nhiều hệ thống rút trích thông tin từ web được các nhà phát triển nghiên cứu và xây dựng. Các tiêu chí để phân loại một hệ thống rút trích thông tin từ web như sau : - Dựa vào mức độ can thiệp của con người trong quá trình rút trích thông tin : các hệ thống rút trích thông tin có thể được chia ra làm 4 loại: thủ công, có giám sát, bán giám sát và không giám sát. Trong đó, các hệ thống hoàn toàn tự động, không có sự can thiệp của con người đang được các nhà nghiên cứu quan tâm nhất - Dựa vào tầng dữ liệu được rút trích: một trang web sẽ có nhiều trang HTML, một trang HTML sẽ có nhiều record và một record sẽ có nhiều thuộc tính. Do đó, dựa vào kết quả thông tin rút trích được ở tầng nào, các hệ thống rút trích được chia ra làm 4 loại: tầng thuộc tính (attribute), tầng record, tầng trang HTML (page) và tầng trang web (site). Hiện tại các hệ thống xử lý ở tầng thuộc tính và record chiếm đa số. Và cho đến nay, vẫn chưa thấy xuất hiện các hệ thống rút trích thông tin ở tầng site. Trang 7 Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế - Dựa vào các phương pháp rút trích thông tin : các hệ thống rút trích thông tin cũng được chia thành 3 dạng : + Các hệ thống dựa trên các phương pháp thủ công: sử dụng các phương pháp gán nhãn, các cách lấy thông tin trực tiếp từ cơ sở dữ liệu hoặc từ các dịch vụ web (web service). + Các hệ thống dựa trên các phương pháp heuristic: các phương pháp thống kê, tập luật, sử dụng các mẫu thông tin, dựa vào cấu trúc cây,… được sử dụng để rút trích thông tin. + Các hệ thống dựa trên các phương pháp học: sử dụng các phương pháp mô hình Markov, ngữ nghĩa, học trên cấu trúc cây,… để giúp cho các hệ thống hiểu và rút trích thông tin chính xác hơn. 1.2.3.3 Khảo sát một số ứng dụng rút trích thông tin từ web. Web-Harvest là công cụ mã nguồn mở để rút trích dữ liệu Web. Công cụ cung cấp một phương pháp để thu thập các trang Web mong muốn và rút trích dữ liệu hữu ích từ chúng. Đó là sử dụng các kỹ thuật thao tác trên text/xml như XSLT, XQuery và biểu thức quy tắc. Do các sử dụng một số logic nên cần thiết để mô tả quá trình làm thế nào để lấy dữ liệu mong muốn từ nội dung hỗn hợp. Tất cả các thủ tục rút trích trong Web-Harvest là người dùng định nghĩa thông qua các tệp tin cấu hình XML.Mỗi tập tin cấu hình mô tả các trình tự xử lý thực hiện một số nhiệm vụ để được mục tiêu cuối cùng. RoadRunner hoạt động dựa trên thuật toán học không giám sát. Mục đích của công cụ là rút trích được các dữ liệu từ những trang web có lượng lớn dữ liệu và cấu trúc ít thay đổi.RoadRunner hoạt động bằng cách so sánh cấu trúc HTML của các trang mẫu cùng loại và tạo ra một lược đồ cho các dữ liệu chứa trong các trang từ những thẻ HTML. Dynamo nhấn mạnh việc rút trích dữ liệu qua các trang web ở những trang HTML tĩnh và cung cấp dịch vụ mới. Những công cụ hiện nay khi rút trích hoàn tất thường gặp nhiều khó khăn để quản lý việc tạo ra các tập dữ 25 liệu có thể hiển thị một cách đơn giản nhất (RSS feeds) nhưng lại gặp một số hạn chế như nguồn cấp dữ liệu cũ có thể không được quan tâm và thường bị xóa từ các máy chủ và máy chủ truyền thống không thể thực hiện các truy vấn trực tiếp. Ngược lại, với Dynamo sẽ : + Tự động phát sinh RSS từ những dữ liệu của trang web tĩnh. + Lưu trữ các nguồn cung cấp dữ liệu theo thứ tự thời gian. + Truy vấn và tổng hợp thành các dịch vụ web. Trang 8 Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế Nhận xét: Các công cụ rút trích thông tin từ web này phần lớn chỉ có thể áp dụng cho các trang web nổi. Vậy đối với các trang web ẩn, chúng ta có thể sử dụng lại các công cụ này hay phải xây dựng một hệ thống mới. Nếu các công cụ này có thể tái sử dụng thì đối với các nhà phát triển, việc tái sử dụng sẽ được tiến hành như thế nào? 1.3 Bài toán cần giải quyết. Rút trích thông tin từ các trang web dựa trên chủ đề là một trong những hướng nghiên cứu nhận được nhiều quan tâm. Vấn đề trở nên quan trọng khi các trang web đang ngày một gia tăng và nhu cầu sử dụng thông tin của người dùng được nâng cao. Những công cụ phân tích các luồng và các chủ đề thông tin trở nên cần thiết khi giúp người dùng có một cái nhìn tổng quát và định hướng thông tin tốt hơn. Những nhân viên làm việc với các tập dữ liệu văn bản lớn như các nhà làm luật, các nhà báo, những nhà thống kê … có thêm công cụ để duyệt qua các mảng thông tin dễ dàng hơn theo các chủ đề. Đối với những trang web ẩn với nội dung động, thông thường người dùng phải sử dụng các trang tìm kiếm thông tin của trang web đó.Điều này làm cho người dùng phải tốn rất nhiều thời gian và chi phí để có thể có được thông tin mình muốn đặc biệt là các thông tin từ các trang web ẩn. Hiện nay có nhiều công cụ đã được các nhà nghiên cứu phát triển. Tuy nhiên các công cụ này thường được dùng với 1 chủ đề cụ thể kèm một số ít trang web Nn và một thuật toán cố định như về “Chuyến bay”, về “Việc làm”… Điều này làm cho các nhà phát triển rất khó khăn khi mở rộng hay thay đổi các thành phần trong hệ thống. Các nhà phát triển mong muốn có được một hệ thống có thể dễ dàng bổ sung hay thay đổi các chủ đề, các trang web, các thuật toán… cũng như dễ dàng cho công tác bảo trì và mở rộng từ các thành phần trong hệ thống. Bảng 1 So sánh hệ thống xây dựng và máy tìm kiếmliên hợp So Sánh Máy tìm kiếm liên hợp Hệ thống xây dựng Giống nhau Gửi yêu cầu đến các đối tượng web và xử lý kết quảtrả về Gửi yêu cầu đến các đối tượng web và xử lý kết quả trả về Là thành phần trung gian nên không có lưu dữ liệu trang web Là thành phần trung gian nên không có lưu dữ liệu trang web Dữ liệu trả về được xử lý có thể hiển thị cho Dữ liệu trả về được xử lý có thể hiển thị cho người dùng hoặc lưu Trang 9 Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế người dùng hoặc lưu trữ trữ Khác nhau Tìm kiếm thông tin Rút trích thông tin Đối tượng gửi yêu cầu là các trang tìm kiếm Đối tượng gửi yêu cầu là các trang web ẩn Số lượng đối tượng cần gửi yêu cầu là ít Số lượng các trang web Nn cần gửi yêu cầu là nhiều Gửi từ khóa tìm kiếm Gửi các thuộc tính ứng với chủ đề rút trích Tốn ít chi phí cho việc xây dựng các thuộc tính form Tốn nhiều chi phí và tài nguyên cho việc xây dựng và lưu trữ các thuộc tính form Tập trung vào các thuật toán xử lí kết quả từ các máy tìm kiếm khác như tổng hợp và xếp hạng. Tập trung vào cách thức xây dựng các thuộc tính form, gửi các yêu cầu đến các trang web Nn và rút trích kết quả trảvề 1.4 Các kỹ thuật rút trích thông tin. Dữ liệu đầu vào cho bài toán trích rút thông tin rất đa dạng và phong phú.Dữ liệu có thể là dạng không cấu trúc, bán cấu trúc hoặc có cấu trúc, dữ liệu có thể được trích rút trực tuyến (on-line) hoặc ngoại tuyến (off-line). Chi tiết như sau: Dữ liệu không cấu trúc: Dữ liệu không cấu trúc thường dùng để chỉ dữ liệu ở dạng tự do và không cần có cấu trúc định nghĩa sẵn ví dụ như ngôn ngữ tự nhiên. Dữ liệu có cấu trúc: Dữ liệu có cấu trúc thường dùng để chỉ dữ liệu lưu trữ trong các hệ quản trị cơ sở dữ liệu quan hệ như MS SQL Server hay MySQL, trong đó các thực thể và các thuộc tính được định nghĩa sẵn. Dữ liệu bán cấu trúc: Là dữ liệu có cấu trúc nhưng không hoàn toàn tường minh, nó không tuân theo những cấu trúc, cách thức cấu trúc của bảng và các mô hình dữ liệu trong cơ sở dữ liệu nhưng nó chứa những thẻ, những đánh dấu tới những phần tử ngữ nghĩa riêng biệt của các bản ghi và các trường riêng biệt bên trong dữ liệu .Dữ liệu từ các trang web là một dạng tiêu biểu cho dữ liệu bán cấu trúc. Trong luận văn này tập trung vào giải quyết bài toán trích rút thông tin từ dữ liệu bán cấu trúc ngoại tuyến (thu thập dữ liệu về và trích rút thông tin). Có nhiều cách tiếp cận để giải quyết bài toán trích rút thông tin, tuy nhiên nếu dựa trên đặc trưng dữ liệu thì bài toán trích rút thông tin có thể giải quyết bằng một số kỹ thuật sau: Trang 10 [...]... trúc, bài toán trích rút thông tin có thể coi là bài toán nhận dạng và trích rút thực thể như: tên người, tên tổ chức, vị trí, ngày tháng, số… Trang 11 Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế CHƯƠNG 2 : HỆ THỐNG TRÍCH RÚT THỰC THỂ ỨNG DỤNG TRONG PHÂN TÍCH KINH TẾ 2.1 Bài toán trích rút thông tin Phát biểu bài toán trích rút thông tin: Trích rút thông tin (Information... mẫu thông tin “có ích” đối với người dùng Theo Jaeyoung Yang và cộng sự, trích rút/ trích xuất thông tin (IE) là bài toán nhận dạng những thành phần thông tin cụ thể của một văn bản, những thành phần này chính là hạt nhân tạo nên nội dung ngữ nghĩa của văn bản đó [8] Nói một cách đơn giản, trích rút/ trích xuất thông tin là quá trình xử lý thông tin, đầu vào là một văn bản và đầu ra là các thông tin. .. trình - Giao diện tổng hợp về các tin kinh tế Hình 3.Giao diện tổng hợp về các tin kinh tế Trang 20 Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế - Giao diện trích rút thông tin Hình 3: Giao diện trích rút thực thể Trang 21 Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế KẾT LUẬN Những kết quả đã đạt được : Xây dựng được hệ thống trích rút thực thể ứng dụng... công việc như : + + + Xây dựng được hệ thống trích rút thông tin Tổng hợp tin tức kinh tế từ mộ số trang web có hỗ trợ đọc tin rss Trích rút thực thể Tên công ty, Địa chỉ, Doanh thu Hướng phát triển : Trong tương lai chúng em sẽ cố gắng phát triển hệ thống nhằm mục đích tổng hợp được tin tức từ nhiều trang web hơn và trích xuất thông tin một cách chính xác hơn Tổng kết : Mặc dù đã rất cố gắng, xong do... chúng emthực hiện trích rút tin kinh tế từ các website có hỗ trợ đọc tin thông qua RSS như Dantri, Vnexpress, Vietnamnet, • Các bước lấy tin tự động qua RSS : - Bước 1: Lấy link rss mục kinh tế của website hỗ trợ rss - Bước 2: Xem cấu trúc xml - Bước 3: Hiển thị trang web theo cấu trúc 2.4 Trích rút thực thể dựa theo các mẫu biểu thức chính qui Trích chọn thông tin là lĩnh vực quan trọng trong khai... mà hệ thống trích rút được là:“địa chỉ 379 Trần Hưng Đạo, P Mỹ Long, Thành phố Long Xuyên, An Giang” • Trích rút doanh thu : • Quá trình trích rút địa chỉ cũng được thực hiện tương tự như trích rút tên tổ chức Thông thường, đi kèm với một chuỗi địa chỉ được đề cập đến trong văn bản tiếng Việt là các từ như “Địa chỉ, tới, dc, Đc, ” và địa chỉ thường được Trang 18 Xây dựng hệ thống trích rút thực thể... ra là các thông tin “có giá trị” với người dùng Thông tin “có giá trị” ở đây có thể hiểu là các thực thể, các thuộc tính mô tả thực thể và mối quan hệ giữa các thực thể Dữ liệu được trích rút ra có nội dung và cấu trúc thỏa mãn yêu cầu người dùng Có thể phát biểu bài toán trích rút thông tin như sau: Đầu vào: Văn bản có cấu trúc bất kỳ Đầu ra: Thông tin “có ích” được tổ chức dưới dạng cấu trúc 2.2... cầu: - Đề tài : Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế • Mục tiêu: - Xây dựng hệ thống tổng hợp tin kinh tế từ trang web (chỉ lấy những tin về kinh tế) - Tổng hợp lại thành bảng bao gồm: tên công ty, địa chỉ, doanh thu trong từng năm Trang 12 Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế 2.3 Xây dựng website tổng hợp tin kinh tế 2.3.1RSS là gì ? RSS... dung tin đó, và các siêu-dữ-liệu (meta-data) khác Thông tin này được cung cấp dưới dạng một tập tin XML được gọi là một RSS feed, webfeed, RSS stream, hay RSS channel Cùng với việc hỗ trợ cung cấp chia sẻ thông tin, RSS cho phép những độc giả thường xuyên của một website có thể theo dõi các cập nhật của site đó dùng một aggregator 2.3.2 Hệ thống tổng hợp tin kinh tế • Hệ thống của chúng emthực hiện trích. ..Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế Dữ liệu có cấu trúc: Được lưu trữ trong CSDL, việc lấy thông tin thông qua các truy vấn người dùng (mệnh đề SELECT) Dữ liệu bán cấu trúc: Các trang web đại diện cho dữ liệu loại này Có hai kỹ thuật thường xuyên được dùng để trích rút thông tin trên web đó là sử dụng cấu trúc cây DOM và sử dụng