Tích hợp thông tin không thuần nhất về ngữ nghĩa trong môi trường phân tán Nguyễn Thế Cường Trường Đại học Công nghệ Luận văn ThS chuyên ngành: Công nghệ thông tin; Mã số: 1 01 10 Người hướng dẫn: PGS.TS. Trần Đình Quế Năm bảo vệ: 2007 Abstract: Tổng quan về tích hợp thông tin và phân lớp dữ liệu phân tán: nhu cầu tích hợp thông tin, những vấn đề cần quan tâm trong xây dựng hệ tích hợp dữ liệu, những phương pháp tích hợp thông tin. Giới thiệu Ontology và vai trò biểu diễn ngữ nghĩa dữ liệu của Ontology trong việc tích hợp thông tin phân tán và không thuần nhất. Giới thiệu một số giải thuật thường được sử dụng trong phân lớp dữ liệu. Khảo sát về phân lớp NB, phân lớp TANB trong môi trường tập trung và phân tán do sự đơn giản trong cài đặt và độ chính xác chấp nhận được của các phân lớp này đối với những nguồn dữ liệu cần phân lớp. Trình bày kết quả thực nghiệm cho phân lớp NB và TANB. Đưa ra kết luận, đánh giá về phân lớp NB và TANB. Keywords: Công nghệ thông tin, Dữ liệu, Môi trường phân tán, Tích hợp thông tin Content MỞ ĐẦU Đặt vấn đề Những phát triển trong công nghệ truyền thông và trong công nghệ lưu trữ dữ liệu dưới dạng số cùng với sự phát triển về khả năng thu nhận và lưu trữ dữ liệu tạo nên sự phong phú và đa dạng về các dạng và các nguồn dữ liệu. Hiện nay, chúng ta đã có khả năng thu thập các nguồn dữ liệu lớn thuộc nhiều lĩnh vực khác nhau, như trong y học (dữ liệu về ADN, dữ liệu về các chuỗi protein, dữ liệu về các chuỗi gen), trong thương mại (dữ liệu về hàng hoá, dữ liệu khách hàng, dữ liệu về các giao dịch), trong địa lý (dữ liệu về thông tin bề mặt trái đất). Sự đa dạng về nguồn thông tin trong cùng một lĩnh vực đặt ra khó khăn cho nhu cầu kết hợp các nguồn dữ liệu để cung cấp những thông tin cần thiết cho người sử dụng. Xét ví dụ về một người dùng muốn tìm mua một máy tính xách tay trên mạng. Để có thể đưa ra được quyết định cuối cùng, người dùng sẽ truy cập đến nhiều trang web khác nhau. Tại mỗi trang web, người dùng có thông tin về giá thành, chế độ bảo hành, thời gian bảo hành. Sau khi so sánh các thông số trên, người dùng sẽ đưa ra được loại máy tính mà mình cần mua. Trong tự động hóa quá trình tìm kiếm thông tin, các hệ thống trợ giúp người dùng sẽ lấy thông tin từ các nguồn dữ liệu tại các trang web khác nhau, thực hiện việc so sánh và đưa ra gợi ý cho người dùng. Thông thường dữ liệu từ các nguồn này có các đặc trưng phân tán, tự trị và không thuần nhất. Tính phân tán: Các nguồn dữ liệu thường được lưu trữ phân tán tại các vị trí khác nhau và hoàn toàn độc lập với nhau. Do vậy, khi cần lấy thông tin, hệ thống phải xác định được vị trí lưu trữ của các nguồn dữ liệu. Tính không thuần nhất: Thể hiện dưới nhiều dạng: không thuần nhất về cấu trúc, không thuần nhất về khuôn dạng dữ liệu và không thuần nhất về ngữ nghĩa. Không thuần nhất về cấu trúc có nghĩa là mỗi nguồn dữ liệu khác nhau sử dụng một cấu trúc khác nhau để lưu trữ dữ liệu. Không thuần nhất về khuôn dạng dữ liệu là các nguồn dữ liệu không sử dụng cùng một khuôn dạng trong quá trình lưu trữ dữ liệu. Đặc biệt là không thuần nhất về ngữ nghĩa, đó là việc sử dụng những biểu diễn khác nhau cho một đối tượng. Dạng đơn giản của không thuần nhất ngữ nghĩa là sử dụng các tên gọi khác nhau cho một đối tượng xác định. Xét ví dụ về hai bảng dữ liệu của công ty kinh doanh thiết bị xe máy Honda. Khi muốn so sánh giá của các thiết bị thuộc hai nguồn dữ liệu D1 và D2, hệ thống cần hiểu rằng “Lốp sau” ở nguồn D1 và “Lốp 2.75” ở nguồn D2 là cùng chỉ đến một đối tượng. Trong quá trình lưu trữ, “Thiết bị” ở nguồn D1 và “Mặt hàng” ở nguồn D2 đều là tên trường dữ liệu lưu trữ tên của các đối tượng. Thiết bị Giá bán VAT Lốp trước 137.060 13.706 Lốp sau 155.100 15.510 Đĩa phanh 750.000 75.000 Dây phanh 28.500 2.850 Hộp dầu 160.000 16.000 … … … Bảng 1: Nguồn dữ liệu D1 Mặt hàng Giá Thuế Lốp 2.75 155.100 15.500 Vành đúc 1.150.000 115.000 Phanh đĩa 1.000.000 100.000 Má phanh 61.000 6.100 Vành nan 169.000 16.900 … … … Bảng 2: Nguồn dữ liệu D2 Tính tự trị: Các nguồn dữ liệu xác định cấu trúc và định dạng lưu trữ khi xây dựng. Các hệ thống khác khi muốn sử dụng thông tin của các nguồn chỉ có thể lấy thông tin mà không thể thay đổi về cấu trúc cũng như định dạng. Hoạt động của các nguồn dữ liệu là hoàn toàn độc lập với các đối tượng khác. Để có thể tích hợp thông tin trong môi trường phân tán và không thuần nhất, cần phải đưa ra các giải pháp cho vấn đề phân tán và không thuần nhất về ngữ nghĩa. Trong phần tiếp theo, luận văn tập trung trình bày các nghiên cứu về tích hợp thông tin và giải pháp thuần nhất ngữ nghĩa cho các nguồn dữ liệu. Những nghiên cứu về tích hợp và phân lớp dữ liệu phân tán Tích hợp thông tin là cách tiếp cận thông tin bằng cách kết hợp các thành phần dữ liệu từ các hệ thống quản lý dữ liệu, các hệ thống quản lí nội dung, các kho dữ liệu và các ứng dụng thương mại khác vào một miền chung. Tích hợp thông tin được nghiên cứu và sử dụng rộng rãi trong lĩnh vực tài chính [21] với giải pháp quản lí các biểu diễn ngữ nghĩa dựa trên EOC (Equational Ontological Conflicts), nhằm tạo ra sự thuần nhất trong việc biểu diễn và tính toán dữ liệu tại các nguồn dữ liệu khác nhau. Trong sinh học [8], Caragea (2005) cùng các cộng sự xây dựng INDUS (Intelligent Data Understanding System) như một hệ thống trả lời các truy vấn người dùng từ các nguồn dữ liệu phân tán và không thuần nhất về ngữ nghĩa. INDUS xây dựng một hệ thống các ontology cho quá trình thuần nhất ngữ nghĩa các nguồn dữ liệu. Để giải quyết vấn đề mất thông tin trong việc sử dụng định dạng dựa trên CAD như DXF để biểu diễn dữ liệu cho bài toán tích hợp thông tin địa lý, F. Fonseca đưa ra một hướng tiếp cận dựa trên role [22]. Ở đây, role thực hiện vai trò cầu nối giữa các cấp độ chi tiết khác nhau trong một cấu trúc ontology. Một trong lớp những giải thuật học máy, phân lớp dữ liệu nhận được sự quan tâm của nhiều nhà nghiên cứu. Caragea [10] trình bày các giải thuật học từ dữ liệu thông qua việc cải tiến các giải thuật phân lớp tập trung thành các giải thuật phân lớp phân tán trong môi trường không thuần nhất về ngữ nghĩa. Ferrari [20] khi nghiên cứu về gien liên quan đến công việc quản gia đã sử dụng phân lớp Naïve Bayes để phân lớp dữ liệu. Phân lớp được sử dụng trong việc phân loại các văn bản trong các công việc văn phòng ([36],[43]) và phân loại thư điện tử [54]. Trong lĩnh vực tài chính, việc nhận dạng giả mạo cũng cần đến các giải thuật phân lớp dữ liệu ([13],[47]). ([1],[27]) đã xây dựng hệ thống phân lớp dữ liệu về bệnh nhân nhằm xác định các trường hợp có khả năng mắc bệnh ung thư cho các nghiên cứu về y học. Mục tiêu của luận văn Với nguồn dữ liệu huấn luyện sử dụng trong giai đoạn xây dựng mô hình và nguồn dữ liệu kiểm thử sử dụng trong giai đoạn phân lớp, bài toán phân lớp dữ liệu trong môi trường phân tán được chia thành các lớp bài toán sau: Bài toán 1: Phân lớp dữ liệu với nguồn dữ liệu huấn luyện ở dạng phân tán và nguồn dữ liệu kiểm thử ở dạng tập trung. Bài toán 2: Phân lớp dữ liệu với nguồn dữ liệu huấn luyện ở dạng tập trung và nguồn dữ liệu kiểm thử ở dạng phân tán. Bài toán 3: Phân lớp dữ liệu với nguồn dữ liệu huấn luyện ở dạng phân tán và nguồn dữ liệu kiểm thử ở dạng phân tán. Luận văn tập trung giải quyết bài toán 1 với nguồn dữ liệu huấn luyện ở dạng phân tán và nguồn dữ liệu kiểm thử ở dạng tập trung. Sau khi giải quyết xong bài toán 1, bằng cách xây dựng nguồn dữ liệu tập trung dựa trên những dữ liệu huấn luyện phân tán và phân tán nguồn dữ liệu kiểm thử ta có được hướng giải quyết cho bài toán 2. Giải pháp cho bài toán 3 dựa vào giải pháp cho vấn đề phân tán của nguồn dữ liệu huấn luyện (bài toán 1) và giải pháp cho vấn đề phân tán của nguồn dữ liệu kiểm thử (bài toán 2). Mục tiêu nghiên cứu cụ thể của luận văn: Tìm hiểu sự không thuần nhất về ngữ nghĩa tồn tại giữa những nguồn dữ liệu tự trị, phân tán cho việc tích hợp dữ liệu. Dựa trên cách tiếp cận ontology, luận văn tích hợp các nguồn dữ liệu phân tán và không thuần nhất về ngữ nghĩa thông qua việc tích hợp các ontology. Tìm hiểu về phân lớp, các phương pháp phân lớp dữ liệu. Nghiên cứu các phương pháp dựa trên xác suất là Naïve Bayes (NB) và Tree Augmented Naïve Bayes (TANB). Trình bày việc áp dụng phân lớp NB, TANB cho các nguồn dữ liệu tập trung và phân tán. Tóm tắt nội dung luận văn Phần còn lại của luận văn được tổ chức như sau: Chương 1: Tổng quan về tích hợp thông tin và phân lớp dữ liệu phân tán. Trong chương này, luận văn sẽ trình bày về nhu cầu tích hợp thông tin cũng như những vấn đề cần quan tâm và phương pháp tích hợp thông tin từ các nguồn dữ liệu phân tán. Đồng thời, giới thiệu về phân lớp dữ liệu phân tán và các phương pháp được sử dụng trong phân lớp dữ liệu. Chương 2: Ontology trong tích hợp thông tin phân tán và không thuần nhất. Trình bày phương pháp tích hợp thông tin dựa trên tích hợp các ontology của các nguồn dữ liệu mở rộng với ontology. Trong đó, luận văn cũng đưa ra được vai trò biểu diễn ngữ nghĩa dữ liệu của ontology trong việc tích hợp thông tin phân tán và không thuần nhất. Chương 3: Phân lớp dữ liệu tập trung và phân tán. Nội dung chương này nhằm trình bày một số giải thuật thường được sử dụng trong phân lớp dữ liệu. Luận văn tập trung trình bày về phân lớp NB, phân lớp TANB trong môi trường tập trung và phân tán do sự đơn giản trong cài đặt và độ chính xác chấp nhận được của các phân lớp này đối với những nguồn dữ liệu cần phân lớp. Chương 4: Cài đặt thử nghiệm. Phần này trình bày kết quả thực nghiệm cho phân lớp NB và TANB. Sau đó, luận văn đưa ra kết luận, đánh giá về phân lớp NB, TANB và hiệu quả của các phân lớp này đối với dữ liệu phân tán. Kết luận trình bày những nghiên cứu về tích hợp thông tin không thuần nhất về ngữ nghĩa, những đóng góp của luận văn và những định hướng nghiên cứu sắp tới. References [1] C.F. Aliferis, D. Hardin, P. P. Massion (2002) “Machine Learning Models For Lung Cancer Classification Using Array Comparative Genomic Hybridization”. In: Proceedings of the 2002 American Medical Informatics Association (AMIA) Annual Symposium, 2002, pp. 7-11 [2] An Introduction to Data Mining. http://www.thearling.com/dmintro/dmintro.htm [3] A. Atramentov (2003) “Multi-relational decision tree algorithm - implementation and experiments”. MS. Thesis. Iowa State University, Ames, Iowa. [4] F. Baader, I. Horrocks, U. Sattler (2001) “Description Logics as Ontology Languages for the Semantic Web”. In D. Hutter and W. Stephan, editors, Festschrift in honor of Jorg Siekmann, Lecture Notes in Artificial Intelligence. Springer, 2003. [5] A. Berson, S. Smith, K. Thearling “An Overview of Data Mining Techniques”: http://www.thearling.com/index.htm. [6] Piero Bonatti, Yu Deng, V.S. Subrahmanian (2003) “An Ontology-Extended Relational Algebra”, Proceedings of the IEEE Conference on Information Integration and Reuse, IEEE Press. [7] D. Caragea, J. Pathak, V.G. Honavar (2004) “Learning Classifiers from Semantically Heterogeneous Data”. Conference on Cooperative Information Systems. [8] D. Caragea, J. Pathak, J. Bao, A. Silvescu, C. Andorf, D. Dobbs, V. Honavar (2004) “Information Integration and Knowledge Acquisition from Semantically Heterogeneous Biological Data Sources”. In: Proceedings of the 2nd International Workshop on Data Integration in Life Sciences (DILS'05), San Diego, CA. [9] D. Caragea, J. Reinoso, A. Silvescu, V. Honavar (2003) “Statistics Gathering for Learning from Distributed, Heterogeneous and Autonomous Data Sources”. In International Workshop on Information Integration on the Web, IJCAI 2003. [10] D. Caragea (2004) “Learning classifiers from distributed, semantically heterogeneous, autonomous data sources”. Ph.D Thesis. Iowa State University. [11] G. Casella and R.L. Berger. Statistical Inference. Duxbury Press, Belmont, CA, 2001. [12] J. Cerquides, R. L´opez de M`antaras (2003) “Tractable Bayesian Learning of Tree Augmented Naive Bayes Models”. In : Proceedings of the Twentieth International Conference on Machine Learning (ICML 2000), pages 75-82, 2003 [13] P. K. Chan, Wei Fan, A. L. Prodromidis, S. J. Stolfo (1999) “Distributed Data Mining in Credit Card Fraud Detection”. IEEE Intelligent Systems, Bd. 14, Nr. 6, S. 67 74, 1999. [14] Ningjiang “Jay” Cheng (2001) “An Integration Framework for Airport Automation Systems”. The MITRE Corporation, McLean, Virginia. [15] J. Davies , D. Fensel, F. V. Harmelen (2002) ―TOWARDS THE SEMANTIC WEB‖. ISBN:0470848677. John Wiley & Sons, Inc. New York, NY, USA. [16] “Digital Human Ontology” (2002) A EC/NSF Workshop of Scientists. National Institutes of Health Bethesda, Marryland, 20894 USA. [17] Y. Ding, S. Foo (2000) “Ontology Research and Development Part 1 – A Review of Ontology Generation”. Journal of Information Science 28(2), pages 123-136. [18] Oliver M. Duschka (1997) “Query planning and optimization in information integration“, Ph.D Thesis. Stanford University, December 1997. [19] Charles Elkan (1997) “Naïve Bayesian Learning”. Department of Computer Science - Harvard University. [20] L. De Ferrari (2005) “Mining housekeeping genes with a Naive Bayes classifier” Master of Science Thesis, School of Informatics University of Edinburgh. [21] A. Firat, S. Madnick, B. Grosof (2002) “Financial Information Integration In the Presence of Equational Ontological Conflicts”, MIT Sloan School of Management Cambridge, MA USA.(Proceedings of the Workshop on Information Technology and Systems (WITS), Barcelona, Spain, December 14-15, 2002, pp. 211-216 ) [22] F. T. Fonseca (2001) “Role-Based Geographic Information Integration”. Geoinfo 2001—III Workshop Brasileiro de Geoinformatica, Rio de Janeiro, Brazil, pp. 31-38. [23] N. Friedman, D. Geiger, M. Goldszmidt (1997) “Bayesian Network Classifiers”. Journal of Machine Learning, volume 29, number (2-3), p.p (131-163). 1997. [24] J.A. Goguen (2004) “Data, Schema, Ontology and Logic Integration”. University of California, Sandiego. In: Proceedings, CombLog'04 Workshop. Lisbon, 2830 July 2004. [25] Cheng H. Goh (1997) ―Representing and Reasoning about Semantic Conflicts in Heterogeneous Information Sources‖. PhD. Thesis, MIT. [26] Nicola Guarino (1998) “Formal Ontology and Information Systems”. National Research Council, LADSEB-CNR, Corso Stati Uniti 4, I-35127 Padova, Italy. [27] I. Guyon, J. Weston, S. Barnhill, V. Vapnik (2000) “Gene Selection for Cancer Classification using Support Vector Machines”. Journey of Machine Learning Volume 46 , Issue 1-3 Pages: 389 – 422. ISSN:0885-6125 ( 2002).) [28] A. Haller, E. Oren (2006) “A process ontology to represent semantics of different process and choreography meta-models”. DERI – Digital Enterprise Research Institute. [29] J. Heflin, J. Hendler, S. Luke: “Applying Ontology to the Web: A Case Study”. In: Proceedings of the International Work-Conference on Artificial and Natural Neural Networks, IWANN'99. [30] D. Heimbigner, D. McLeod (1985) “A Federated Architecture for Information Management”. ACM Transaction on Office Information Systems 3(3):253-278. 1985. [31] M. O. Jewell, F. Lawrence, M. M. Tuffield (2005) “OntoMedia: An Ontology for the Representation of Heterogeneous Media”.In: Proceedings of Multimedia Information Retrieval Workshop (MMIR 2005) SIGIR, Brazil. [32] Thorsten Joachims (2001) “A Statistical Learning Model of Text Classification for Support Vector Machines”. In: Proceedings of {SIGIR}-01, 24th {ACM} International Conference on Research and Development in Information Retrieval. [33] Eamonn J. Keogh, Michael J. Pazzani (1999) “Learning Augmented Bayesian Classifiers: A Comparison of Distribution-based and Classification-based Approaches”. In: Proceedings of the Seventh International Workshop on Artificial Intelligence and Statistics (Ft. Lauderdale, FL, 1999) 225-230. [34] R. Knappe, H. Bulskov, T. Andreasen (2003) “On Similarity Measures for Concept – based Querying” In: Proceedings IFSA'03 International Fuzzy Systems Association World Congress, Istanbul, Turkey, June 29 - July 2 2003 [35] C. Knoblock, S. Kambhampati (2002) “Information Integration on Web”. AAAI Tutorial (MA1). [36] Xiaoli Li, Bing Liu (2002) “Learning to Classify Texts Using Positive and Unlabeled Data”. In: Proceedings of Eighteenth International Joint Conference on Artificial Intelligence (IJCAI-03). [37] Xiao Li (2003) “Augmented Naïve Bayesian Classifiers for Mixed-Mode Data”. http://ssli.ee.washington.edu/~lixiao/ [38] P. McBrien, A. Poulovassilis (2001) “A Semantic Approach to Integrating XML and Structured Data Sources”. In: Proceedings of the 13th International Conference on Advanced Information Systems Engineering. [39] K. McGarry, S. Garfield, N. Morris, S. Wermter (2007) “Integration of Hybrid Bio- Ontologies using Bayesian Networks for Knowledge Discovery”. NESYS-07, Workshop on Neuro-Symbolic Learning and Reasoning, International Joint Conference on Artificial Intelligence (IJCAI-07), Hydrabad, India, January 6-12, 2007 [40] Christopher Menzel (2004) “Basic Semantic Integration”. In: Proceedings of Dagstuhl Seminar 04391, Dagstuhl, Germany (2004). [41] Tom M. Mitchell (1997): ―Machine Learning‖. 414 pages. ISBN 0070428077 - WCB/McGraw-Hill. [42] María Auxilio Medina Nieto (2003) “An Overview of Ontologies”. Technical report. Universidad De Las Américas Puebla. [43] K. Nigam, A.K. Mccallum, S. Thrun, T. Mitchell: “Text Classification from Labeled and Unlabeled Documents using EM”. Journal of Machine Learning, volume 39, number 2/3, pages = 103-134, 2000. [44] Natalya F. Noy, Deborah L. McGuinness (2000) “Ontology Development 101: A Guide to Creating Your First Ontology”. Stanford University, Stanford, CA, 94305. [45] N. F. Noy (2004) “Semantic Integration: A Survey Of Ontology-Based Approaches”. SIGMOD Record, 2004, 33(4):65-70. [46] Chris Partridge (2002) ―The Role of Ontology in Integrating Semantically Heterogeneous Databases‖, Technical LADSEB-CNR Technical Report 05/2002, June 2002. Italy. [47] C. Phua, D. Alahakoon, V. Lee (2004) “Minority Report in Fraud Detection: Classification of Skewed Data”. ACM SIGKDD Explorations Newsletter Volume 6, Issue 1 (June 2004) Special issue on learning from imbalanced datasets. Pages: 50 – 59. 2004. [48] M. A. Roth, D. C. Wolfson, J. C. Kleewein, C. J. Nelin (2002) ―Information integration: A new generation of information technology‖, IBM SYSTEMS JOURNAL. [49] N. Sebe, M.S. Lew, I. Cohen, A. Garg, T.S. Huang (2002) “Emotion Recognition Using a Cauchy Naive Bayes Classifier”. In ICPR, 2002. [50] Jeffrey W. Seifert (2004) “Data Mining: An Overview”. Analyst in Information Science and Technology Policy, Resources, Science, and Industry Division. [51] “Semantic Integration: Strategies and Tools” (2003) TopQuadrant Technology Briefing. TopQuadrant, Inc. USA. [52] E. T. M. Spanaki (2004) “From ontology design to ontology implementation: A web tool for building geographic ontologies”. In: 8th AGILE Conference on Geographic Information Science, Estoril, Portugal, May 26 – 28, 2005. [53] H. Stuckenschmidt, F. van Harmelen (2001) “Ontology-Based Metadata Generation from Semi-Structured Information”. In: Proceedings of the first intenational conference on knowledge capture (K-CAP'01), pages 440-444. [54] R. Tailby, R. Dean, B. Milner, D. Smith (2006) “Email classification for automated service handling”. In: Proceedings of the 2006 ACM symposium on Applied computing, Dijon, France SESSION: Information access and retrieval (IAR) Pages: 1073 – 1077. 2006 [55] “The Data Warehousing Information Center”. http://www.dwinfocenter.org [56] K. Thearling: “An Introduction to Data Mining”. http://www.thearling.com [57] O. Udrea, Yu Deng, A. Hung, V.S. Subrahmania (2001) “Probabilistic Ontologies and Relational Databases”. In: Proceedings of the Fourth International Conference on Ontologies, Databases and Applications of Semantics (ODBASE), Agia Napa, Cyprus, Oct 31 - Nov 4, 2005. [58] H. Wache, T. Vogele, U. Visser (2001) “Ontology-based Integration of Information – A Survey of Existing Approaches”. In: Proceedings of the IJCAI-01 Workshop: Ontologies and Information Sharing. [59] Z. Wang, G.I. Webb, F. Zheng (2004) “Selective Augmented Bayesian Network Classifiers Based on Rough Set Theory”. In: Proceedings of the Eight Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD 04) pages 319-328. [60] G.I. Webb, J.R. Boughton, Z. Wang (2005) “Not so Naïve Bayes: Aggregating One- Dependence Estimators”. Journey of Machine Learning, 58, 5–24. [61] Zhijun Zhang (2005) “Ontology Query Languages for The Semantic Web: A Performance Evaluation”. Master Thesis. The University of Georgia. [62] D. Zuev, A. W. Moore (2005) “Traffic Classification using a Statistical Approach”. In: Proceedings of Sixth Passive and Active Measurement Workshop (PAM 2005), March/April 2005, Boston, MA. . Tính không thuần nhất: Thể hiện dưới nhiều dạng: không thuần nhất về cấu trúc, không thuần nhất về khuôn dạng dữ liệu và không thuần nhất về ngữ nghĩa. Không thuần nhất về cấu trúc có nghĩa. tượng khác. Để có thể tích hợp thông tin trong môi trường phân tán và không thuần nhất, cần phải đưa ra các giải pháp cho vấn đề phân tán và không thuần nhất về ngữ nghĩa. Trong phần tiếp theo,. cứu về tích hợp thông tin và giải pháp thuần nhất ngữ nghĩa cho các nguồn dữ liệu. Những nghiên cứu về tích hợp và phân lớp dữ liệu phân tán Tích hợp thông tin là cách tiếp cận thông tin bằng