TỔNG QUAN VỀ TÍCH HỢP THƠNG TIN

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Ứng dụng AGENT phần mềm trong tích hợp thông tin về phương tiện giao thông (Trang 33)

2.1.1 Khái niệm tích hợp thơng tin

Tích hợp thông tin là một khái niệm khá trừu tượng thậm chí là hơi mơ hồ khiến nhiều người khơng thể định nghĩa được chính xác và cụ thể, thơng thường tích hợp thơng tin có thể được hiểu là q trình kết hợp dữ liệu từ các nguồn thông tin khác nhau nhằm cung cấp cho người dùng một cái nhìn tổng quan và duy nhất về các dữ liệu này [36]. Các đặc điểm của hệ thống tích hợp thông tin bao gồm:

Các nguồn thông tin là phân tán. Các nguồn thơng tin này có thể các cơ sở dữ

liệu trong các hệ thống khác nhau, cũng có thể là các trang Web ở các địa chỉ khác nhau, hoặc cũng có thể là những con người với các quan điểm khác nhau về một vấn đề nào đó.

Các nguồn thông tin là không đồng nhất. Sự không đồng nhất này thể hiện ở cả

ngôn ngữ biểu diễn và từ vựng biểu diễn thơng tin. Các nguồn thơng tin có thể có ngơn ngữ biểu diễn khác nhau, ví dụ CSDL của một nguồn được biểu diễn theo dạng XML nhưng một nguồn thông tin khác lại được biểu diễn theo CSDL quan hệ. Các nguồn thơng tin cũng có thể sử dụng các từ vựng khác nhau để cùng biểu diễn một thông tin. Ví dụ, cùng là khái niệm giá tiền nhưng khi đó là thơng tin về ơ tơ thì giá được biểu

diễn là giá ơ tơ (car_cost), cịn nếu đó là thông tin vé của tàu hoả lại được biểu diễn là

giá vé (ticket_price).

Một hệ tích hợp thơng tin thường khơng cần tồn bộ thông tin trong các nguồn cần tích hợp. Với mỗi nhiệm vụ cụ thể, hệ thống chỉ cần những thông tin liên quan đến

việc thực hiện nhiệm vụ đó. Như vậy, nếu tập hợp tồn bộ các nguồn thơng tin vào hệ thống trước khi tích hợp thì sẽ rất lãng phí và nhiều khi khơng thể thực hiện được.

Với các đặc điểm như trên, việc xây dựng các hệ tích hợp thơng tin u cầu kiến thức về nhiều lĩnh vực khác nhau như lý thuyết về CSDL, các phương pháp ước lượng, lý thuyết về ngôn ngữ và biểu diễn thông tin, …

28

2.1.2 Các mức độ tích hợp thơng tin

Theo Khaled Bashir Shaban [31], tích hợp thơng tin được chia thành ba mức dựa trên đặc điểm đầu vào và đầu ra của q trình tích hợp như sau:

Mức 1: Tích hợp dữ liệu (Data Fusion). Đây là mức thấp nhất. Trong mức này,

đầu vào là các bản ghi dữ liệu. Đầu ra cũng có dạng các bản ghi hoặc một dạng cao hơn nhưng vẫn đóng vai trị là dữ liệu cung cấp cho một ứng dụng nào đó.

Mức 2: Tích hợp thơng tin (Information Fusion). Trong mức này, cả đầu vào và

đầu ra của q trình tích hợp đều là thông tin (information), tức là một cấu trúc đầy đủ, tập hợp từ các bản ghi dữ liệu. Mức này xảy ra với các hệ thống nhiều nguồn dữ liệu mà cấu trúc của các nguồn dữ liệu này là khác nhau và mỗi nguồn thông tin không thể tách ra từ một nguồn khác.

Mức 3: Tích hợp quyết định (Decision Fusion). Đây là mức tích hợp thơng tin

cao nhất. Đầu vào của hệ thống này có thể là thơng tin, dữ liệu, hoặc các quyết định

(được biểu diễn theo một dạng cụ thể nào đó) từ các hệ thống khác nhau. Nhiệm vụ của hệ tích hợp thơng tin ở mức này là phải đưa ra tập quyết định phục vụ yêu cầu đặt ra của hệ thống. Có thể nói tích hợp quyết định ở mức trừu tượng cao hơn hai mức trước, do đó nó bao hàm cả hai mức trên. Một điểm khác nhau nữa, nếu như ở mức 1 và mức 2 vẫn có những trường hợp q trình tích hợp thơng tin khơng thực hiện được (do không thoả mãn các điều kiện nào đó) thì mức 3 sẽ ln được thực hiện vì nó khơng phụ thuộc vào bản chất và đặc điểm của các nguồn thông tin.

Tuy chia làm ba mức như trên nhưng trên thực tế một hệ tích hợp thơng tin thường có đủ cả ba mức. Các mức thấp, do đó, sẽ làm cơ sở cho các mức cao hơn. Luận văn dùng thuật ngữ tích hợp thơng tin để thay cho cả ba mức tích hợp thơng tin

trên.

2.1.3 Các phương pháp tích hợp thơng tin

Nhu cầu tích hợp thơng tin trong các hệ thống thông tin, nhất là trên môi trường Internet, rất lớn. Nhiều nghiên cứu về tích hợp thơng tin đã được tiến hành [3], [5], [4], [20], [48], [49]. Các nghiên cứu này đưa ra một loạt các phương pháp tích hợp thơng tin, mỗi phương pháp lại phù hợp với một dạng hệ thống (và các nguồn thơng tin) cụ thể nào đó. Trong phần này, luận văn sẽ trình bày một số phương pháp tích hợp thơng tin theo cách phân loại dựa trên kỹ thuật tích hợp.

29

2.1.3.1 Tích hợp thơng tin dựa trên ước lượng không chắc chắn

Hiểu một cách đơn giản, tích hợp thơng tin dựa trên ước lượng khơng chắc chắn là phương pháp tính tốn độ phù hợp của các thông tin thu thập được với yêu cầu của người dùng hoặc ứng dụng cụ thể, sau đó chọn ra thơng tin có độ phù hợp cao nhất. Để tính tốn độ phù hợp, các phương pháp thuộc dạng này sử dụng các ước lượng không chắc chắn.

Trong các ứng dụng tìm kiếm truy xuất thông tin trên Web quen thuộc như Yahoo, Google, Alta Vista… độ phù hợp của một thơng tin được tính qua hai tham số

độ chính xác (precision) khả năng thu hồi (recall) [38]. Từ yêu cầu tìm kiếm thơng tin của người dùng, hai tham số trên sẽ được tính tốn. Độ chính xác thay thế

cho các văn bản phù hợp nhất với người dùng trong tập các văn bản ban đầu. Khả năng thu hồi thay thế cho phần phù hợp nhất bên trong các văn bản tìm được đó. Kết

quả trả về sẽ dựa trên cả hai tham số này.

Trong [31] lại trình bày một phương pháp tích hợp thơng tin khác sử dụng hệ đa agent. Với mục đích tích hợp và truy xuất các nguồn thơng tin trên Internet nhằm tìm ra thơng tin phù hợp nhất với người dùng, hệ tích hợp thơng tin sẽ được tổ chức thành một nhóm các agent khác nhau, mỗi agent có chức năng thu thập thông tin tại một nguồn nhất định. Phương pháp tích hợp thơng tin được đưa ra là tổ chức các agent thành các nhóm đồng hướng (team consensus) bao gồm các agent cùng thu thập thông tin cho một yêu cầu của người dùng. Các agent trong mỗi nhóm này sẽ thu thập thơng tin từ nguồn của mình sau đó thơng tin sẽ được ước lượng giá trị theo một phương pháp ước lượng không chắc chắn (ước lượng mờ) dựa trên các điều kiện không chắc chắn của agent đó. Cuối cùng, các giá trị thơng tin sẽ được tính tốn, so sánh và lựa chọn theo một thuật tốn tích hợp và hệ thống sẽ đưa ra quyết định lựa chọn thông tin phù hợp nhất với người dùng.

Nói chung, các phương pháp tích hợp thơng tin sử dụng ước lượng khơng chắc chắn đều cần thuật tốn tích hợp thơng tin phức tạp. Mặt khác, việc tính tốn độ phù hợp của thơng tin chưa tính đến sự khơng đồng nhất về ngữ nghĩa thông tin. Theo nhận định của Morgan Benton và Benjamin K.Ngugi [38] thì phương pháp tính tốn độ phù hợp dựa trên hai độ đo: độ phù hợp và khả năng thu hồi có bản chất là so sánh từng

30

2.1.3.2 Tích hợp thơng tin dựa trên các ràng buộc dữ liệu

Một dạng phương pháp tích hợp thông tin khác là dựa trên các ràng buộc dữ liệu. Các phương pháp thuộc dạng này được áp dụng cho hệ thống bao gồm các nguồn thông tin biểu diễn dưới dạng các hệ CSDL và cấu trúc, ràng buộc trong các hệ CSDL này là có thể biết được. Mục đích của các hệ thống này là trả lời các truy vấn của người dùng về thông tin trong nhiều nguồn khác nhau mà không cần truy nhập trực tiếp vào tất cả các nguồn thơng tin này. Tiêu biểu cho phương pháp tích hợp thơng tin thuộc loại này là phương pháp dùng cho hệ thống IBIS (Internet_based Information

System) [5].

Phương pháp tích hợp thơng tin được đưa ra dựa trên bộ ba lược đồ (G, S, M) được xây dựng từ các nguồn thơng tin cần tích hợp:

Lược đồ toàn cục (global schema) G: giống như lược đồ quan hệ trong lý thuyết

về CSDL, mô tả các ràng buộc nhất quán, các ràng buộc khoá và các yêu cầu về tính độc lập giữa các nguồn thơng tin.

Lược đồ nguồn thông tin (source schema) S: Mô tả cấu trúc của tập các nguồn

thơng tin cần tích hợp trong hệ thống.

Các ánh xạ M : bao gồm các ánh xạ được thiết lập giữa lược đồ tồn cục và các

lược đồ nguồn thơng tin.

Trên cơ sở xem xét các ràng buộc được định nghĩa trong G và cấu trúc biểu diễn trong S, người thiết kế hệ thống sẽ xác định các ánh xạ tương ứng giữa các thực thể thông tin trong các nguồn thông tin (ở đây là các CSDL).

Phương pháp này có ưu điểm là biểu diễn được ngữ nghĩa thông tin thông qua bộ ba (G, S, M) nhưng nhược điểm là cần biết cấu trúc và ràng buộc của các CSDL trong hệ thống. Điều này không phải lúc nào cũng thực hiện được.

2.1.3.3 Tích hợp thông tin tự động dựa trên ontology

Nhiều nghiên cứu khác nhau đã khẳng định phương pháp tích hợp thơng tin dựa trên ontology có một số ưu điểm so với hai dạng phương pháp đã trình bày ở trên [3], [20], [49]. Thay vì sử dụng các ước lượng khơng chắc chắn hoặc các lược đồ CSDL, các phương pháp dựa trên ontology sử dụng một cấu trúc phân lớp các khái niệm,

31

thuật ngữ và các quan hệ giữa các khái niệm đó gọi là ontology để biểu diễn các

nguồn thơng tin cần tích hợp (cả nội dung và ngữ nghĩa thông tin). Thông qua tương tác giữa các thành phần dựa trên ontology, thông tin từ các nguồn được tích hợp.

Vì ontology biểu diễn ngữ nghĩa thông tin thông qua các khái niệm và các mối quan hệ giữa các khái niệm nên phương pháp tích hợp thơng tin dựa trên ontology giải quyết được vấn đề không đồng nhất về ngữ nghĩa thơng tin. Q trình tích hợp thơng tin sẽ diễn ra một cách tự động thông qua việc xác định các ánh xạ tương đương hoặc

không tương đương giữa các khái niệm trong các ontology khác nhau.

Có nhiều nghiên cứu khác nhau về tích hợp thơng tin dựa trên ontology trong hệ đa agent [3], [29], [20], [49]. Trong các nghiên cứu này, Agustina Buccella [3] và H. Stuckenschmidt [20] xây dựng phương pháp tích hợp thơng tin sử dụng bộ từ vựng chung (shared vocabulary) còn Soe-Tsyr Yuan [49] xây dựng phương pháp tích hợp thơng tin sử dụng agent trung gian. Luận văn sẽ tập trung tìm hiểu ontology và mơ hình tích hợp thông tin dựa trên ontology sử dụng bộ từ vựng chung của H. Stuckenschmidt [20].

2.2 HỆ ĐA AGENT VÀ TÍCH HỢP THƠNG TIN

2.2.1 Hệ đa agent

Nhiều agent thương mại trước đây được phát triển để tìm kiếm thơng tin. Mỗi agent riêng biệt chạy trong một phạm vi để thu thập một số kiểu thông tin nhất định nào đó và trả về thơng tin tới người u cầu. Nói cách khác, các agent này hoạt động đơn lẻ một mình và rất ít khi tương tác với các agent khác (nếu có). Cách tiếp cận như vậy chắc chắn sẽ có những lợi ích của nó. Tuy nhiên, nếu nhìn vào thế giới con người thực, cách tiếp cận đơn độc như thế sẽ không thể xây dựng được mạng xã hội hoặc có khả năng hỗ trợ mọi người đến và tham gia các tổ chức. Thay vào đó, chúng ta thiết lập các mạng có thể tương tác lẫn nhau phục vụ cho nhiều mục đích. Tương tác giữa các agent chưa đủ để xây dựng xã hội agent, chúng ta cần các agent có thể phối hợp với nhau – dù là cộng tác, cạnh tranh hay tổ hợp của cả hai. Các “xã hội” agent này được gọi là hệ đa agent (multiagent systems – MAS). Vậy các hệ đa agent là các hệ thống bao gồm các agent kết hợp trong mối quan hệ với các agent khác và tương tác với nhau theo một cách nào đó.

32

Một agent có thể làm mọi thứ, nhưng các agent chậm chạp (fat agents) sẽ giảm về tốc độ, độ tin cậy, khả năng bảo trì, v.v…(tức là khơng có các agent tuyệt đối). Phân chia chức năng giữa các agent sẽ tăng tính mơ đun, tính linh động, dễ sửa đổi và mở rộng.

Các tri thức đặc biệt thường khơng có sẵn trong một agent đơn, khi cần có thể kết hợp tri thức từ rất nhiều nguồn (agent) khác nhau.

Các ứng dụng địi hỏi tính tốn phân tán thường được hỗ trợ tốt hơn bởi MAS. Khi đó, có thể thiết kế các agent như là các thành phần tự chủ và hoạt động song song. Các quá trình xử lý và giải quyết vấn đề đồng thời có thể cung cấp các giải pháp cho nhiều vấn đề.

Để hỗ trợ các hệ đa agent cần phải thiết lập một mơi trường thích hợp. Các mơi trường MAS phải cung cấp một cơ sở hạ tầng có các giao thức tương tác và truyền thông, thường xuyên mở hoặc thiết kế tập trung và có các agent tự chủ, thích nghi, phối hợp.

2.2.2 Mối quan hệ giữa hệ đa agent và tích hợp thơng tin

Như đã trình bày trong chương 1, các hệ đa agent là các hệ thống bao gồm các agent kết hợp trong mối quan hệ với các agent khác hoạt động tự chủ, thích nghi và phối hợp với nhau, các hệ đa agent hỗ trợ tốt các ứng dụng địi hỏi tính tốn phân tán và cũng rất phù hợp với các ứng dụng tích hợp thơng tin bởi các nguyên nhân sau:

Mỗi agent trong hệ đa agent thường đại diện cho một thành phần hay một nguồn thơng tin nào đó trong hệ thống. Do đó, các mơ hình tương tác giữa các agent sẽ là cơ sở để tích hợp thơng tin trong hệ thống.

Đặc điểm của mỗi agent trong hệ đa agent là chủ động và hướng đích. Các

agent trong hệ thống do vậy sẽ ln hành động hướng tới đích riêng của mình và chủ động trong việc tìm các thơng tin cần thiết để quyết định hành động tiếp theo cần thực hiện. Đó cũng là một trong những đặc trưng của hệ tích hợp thơng tin.

Tương tác trong hệ đa agent sử dụng ontology. Ontology có vai trị quan trọng

trong việc biểu diễn thông tin và tri thức của miền tri thức mà agent quan tâm. Do đó, thơng qua tương tác, các agent sẽ trao đổi thông tin và tri thức giữa các nguồn thơng

33

tin. Đây chính là cơ sở để giải quyết vấn đề không đồng nhất giữa các nguồn thông tin trong tích hợp thơng tin.

Hệ đa agent có tính động. Điều này phù hợp với sự thay đổi, thêm bớt các

nguồn thơng tin trong hệ thống tích hợp thơng tin. Hơn nữa, các agent luôn sống (chạy

không ngừng). Do vậy hệ đa agent sẽ luôn cập nhật được những thay đổi của các

nguồn thơng tin cần cho việc tích hợp.

Xét theo chiều ngược lại, tích hợp thơng tin cũng là một yêu cầu tất yếu đặt ra cho các hệ phần mềm đa agent. Điều này được thể hiện qua các điểm sau:

Các agent trong hệ đa agent là độc lập và nắm giữ một nguồn thông tin hạn chế (hoặc một tài nguyên hạn chế). Chúng bắt buộc phải tương tác với các agent khác để

hướng tới đích riêng của mình. Bản chất của các tương tác này chính là q trình gửi và nhận thơng tin giúp các agent ra quyết định về hành động tiếp theo nhằm hướng tới đích.

Các đích riêng của các agent là rất khác nhau (có khi trái ngược nhau như

trong hệ thương mại điện tử) nhưng cuối cùng các agent đều phải hướng tới đích chung của xã hội các agent. Điều này cần một chiến lược tích hợp thơng tin hiệu quả để tập hợp các thông tin được biểu diễn khác nhau trong các nguồn thông tin do các agent đơn quản lý để ra quyết định chung cho cả hệ thống.

Các giao thức tương tác trong hệ đa agent đều cần sự phối hợp và trao đổi qua lại giữa các agent. Một trong các yêu cầu đặt ra là hệ thống phải quản lý được số

lượng, tính chất và khả năng của các agent trong “xã hội agent”. Do vậy, cần phải tích hợp các thơng tin liên quan đến tính chất, khả năng của các agent trong hệ thống cũng như các nguồn thông tin mà các agent nắm giữ.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Ứng dụng AGENT phần mềm trong tích hợp thông tin về phương tiện giao thông (Trang 33)

Tải bản đầy đủ (PDF)

(82 trang)