luận văn, khóa luận, chuyên đề, đề tài, báo cáo,
Bài tập lớn Công Nghệ Tri Thức MỤC LỤC PHẦN I :GIỚI THIỆU 2 1.1. Giới thiệu đề tài 2 1.2. Mục đích của đề tài 2 1.3. Bố cục trình bày 2 PHẦN II:CƠ SỞ LÝ THUYẾT 3 1. Giới thiệu hệ chuyên gia (Expert System) 3 1.1 Hệ chuyên gia là gì ? .3 1.2 Đặc trưng của hệ chuyên gia .3 1.2 Kiến trúc tổng quát của hệ chuyên gia 3 1.3 Biểu diễn tri thức trong các hệ chuyên gia 4 2. Công nghệ tri thức .5 2.1 Lịch sử công nghệ tri thức .5 2.2 Dữ liệu đầu vào 5 2.3 OUT PUT .16 2.3.1data model 16 2.3.2 meta data .16 2.3.3 Ontology .16 2.3.4 Knowledge representation and reasoning 17 2.3.5 Knowledge tags 17 2.3.6 business rule .17 2.3.7 Knowledge Discovery Metamodel (KDM) .18 2.3.8 Business Process Modeling Notation (BPMN) .18 2.3.9 Intermediate representation 19 2.3.10 Resource Description Framework (RDF) 19 2.3.11 Software metrics .19 PHẦN II : BÀI TẬP 20 2.1 Phát biểu bài toán 20 2.2. Các sự kiện 20 2.3. Các luật liên quan .21 2.4. Chuyển các sự kiện và luật trên thành công thức chỉnh theo vị từ bậc một .21 PHẦN III: THỰC HIỆN VÀ MỘT SỐ KẾT QUẢ .23 3.1. Thực hiện 23 3.2. Một số kết quả khi chạy chương trình .23 a. Chương trình chạy .23 b. Các câu hỏi của chương trình đặt ra .23 c. Kết quả chạy chương trình 24 PHẦN IV:KẾT LUẬN 25 2. Nhược điểm : 25 3. Hướng phát triển của chương trình : .25 PHẦN V. TÀI LIỆU THAM KHẢO 26 Nhóm Thực Hiện: Trương Thị Thanh-Trần Thị Hà Khuê-Lê Công Võ - 1 - PHẦN I :GIỚI THIỆU 1.1. Giới thiệu đề tài Chúng ta đang sống trong một thời kỳ rất phát triển trên tất cả các lĩnh vực, đăc biệt là lĩnh vực công nghệ thông tin. Ngày nay chúng ta đã hoà nhập vào thị trường toàn cầu, lĩnh vực công nghệ thông tin sẽ là một lĩnh vực quan trọng thúc đẩy các lĩnh vực khác cùng phát triển. Mỗi lĩnh vực hoạt động cần có một chuyên gia để hỗ trợ tư vấn trong quá trình hoạt động. Việc áp dụng hệ chuyên gia là một việc rất quan trọng, chúng ta có thể tạo ra một chuyên gia thật sự trên một lĩnh vực nào đó. Từ đó chúng ta có thể xây dựng nhiều chuyên gia khác nhau trên tất cả các lĩnh vực để phục vụ đời sống xã hội. Hiện nay, chăm sóc sắc đẹp là một lĩnh vực được phái nữ ưa chuộng và quan tâm nhất. Xuất phát từ nhu cầu đó hệ chuyên gia chăm sóc sắc đẹp từ thiên nhiên được xây dựng. Có nhiều hình thức để chăm sóc sắc đẹp: dùng mỹ phẩm, dùng hoa quả tự nhiên…Hệ chuyên gia chăm sóc sắc đẹp từ tự nhiên là một hệ chuyên gia tư vấn và hướng dẫn chăm sóc sắc đẹp từ thiên nhiên. Đến với hệ chuyên gia này bạn được tư vấn và hướng dẫn hai phương pháp chăm sóc sắc đẹp từ những loại hoa quả trong tự nhiên. Bạn có thể dùng các loại hoa quả tự nhiên để làm mặt nạ hoặc sử dụng trực tiếp các loại hoa quả tự nhiên. 1.2. Mục đích của đề tài Từ những kiến thức đã học được ta đi áp dụng vào bài toán thực tế. Thấy rõ được tầm quan trọng của môn hệ chuyên gia, nâng cao kỹ năng về lập trình logic, biết cách sử dụng thao tác với ngôn ngữ lập trình prolog. Từ đề tài này chúng ta có thể phát triển được hệ chuyên gia với những đề tài phức tạp và khó hơn. 1.3. Bố cục trình bày Báo cáo được trình bày thành 5 phần chính: * Phần I : Giới thiệu về đề tài và nêu lên mục đích chính của đề tài. * Phần II : Những cơ sở lý thuyết liên quan cần để thực hiện đề tài. * Phần III : Phân tích các yêu cầu của chương trình từ đó ta đi thiết kế và xây dựng chương trình. * Phần IV : Thực hiện chương trình và một số kết quả đạt được. * Phần V : Kết luận nêu lên những gì làm được và những gì chưa làm được. Bài tập lớn Công Nghệ Tri Thức PHẦN II:CƠ SỞ LÝ THUYẾT 1. Giới thiệu hệ chuyên gia (Expert System) 1.1 Hệ chuyên gia là gì ? Là một chương trình máy tính biểu diễn và lập luận dựa trên tri thức trong một chủ đề thuộc lĩnh vực cụ thể nào đó nhằm giải quyết vấn đề hoặc đưa ra những lời khuyên. Quá trình xây dựng một hệ chuyên gia thường được gọi là công nghệ hoá tri thức và nó được xem là một ứng dụng của trí tuệ nhân tạo. 1.2 Đặc trưng của hệ chuyên gia Có 4 đặc trưng cơ bản của một hệ chuyên gia: - Hiệu quả cao (high performance): khả năng trả lời với mức độ tinh thông bằng hoặc cao hơn so với chuyên gia (người) trong cùng lĩnh vực. - Thời gian trả lời thoả đáng (adequate response time): thời gian trả lời hợp lý, bằng hoặc nhanh hơn so với chuyên gia (người) để đi đến cùng một quyết định. Hệ chuyên gia là một hệ thống thời gian thực (real time system). - Độ tin cậy cao (good reliability): không thể xảy ra sự cố hoặc giảm sút độ tin cậy khi sử dụng. - Dễ hiểu (understanable): hệ chuyên gia giải thích các bước suy luận một cách dễ hiểu và nhất quán, không giống như cách trả lời bí ẩn của các hộp đen (black box). 1.2 Kiến trúc tổng quát của hệ chuyên gia hình 1. Những thành phần cơ bản của một hệ chuyên gia * Cơ sở tri thức (knowledge dase): gồm các phần tử tri thức, thông thường được gọi là luật (rule), được tổ chức như một cơ sở dữ liệu. * Máy suy diễn (inference engine): công cụ tạo ra sự suy luận bằng cách quyết định xem những luật nào sẽ làm thỏa mãn các sự kiện, các đối tượng, chọn ưu tiên các luật thoả mãn, thực hiện các luật có tính ưu tiên cao nhất. * Lịch công việc (agenda) : danh sách các luật ưu tiên cho máy suy diễn tạo ra thỏa mãn các sự kiện, các đối tượng có mặt trong bộ nhớ làm việc. Nhóm Thực Hiện: Trương Thị Thanh-Trần Thị Hà Khuê-Lê Công Võ - 3 - Máy suy diễn Lịch công việc Cơ sở tri thức Các luật Bộ nhớ làm việc Khả năng giải thích Khả năng thu nhận tri thức Giao diện người sử dụng * Bộ nhớ làm việc (working memory): cơ sở dữ liệu toàn cục chứa các sự kiện phục vụ cho các luật. * Khả năng giải thích (explanation facility): giải nghĩa cách lập luận của hệ thống cho người sử dụng. * Khả năng thu nhận tri thức (Knowleged Acquisition facility): cho phép người sử dụng bổ sung các tri thức vào hệ thống một cách tự động thay vì tiếp nhận tri thức bằng cách mã hoá tường minh. Khả năng thu nhận tri thức là yếu tố mặc nhiên của nhiều hệ chuyên gia. * Giao diện người sử dụng (user interface) là nơi người sử dụng và hệ chuyên gia trao đổi với nhau . 1.3 Biểu diễn tri thức trong các hệ chuyên gia 1.3.1. Logic mệnh đề: Người ta sử dụng các ký hiệu để thể hiện tri thức và các phép toán logic tác động lên các ký hiệu để thể hiện suy luận lôgic. Logic mệnh đề nghiên cứu cách xử lý các phát biểu. Một mệnh đề mô tả một sự kiện, quan hệ giữa các đối tượng của thế giới thực trong một lĩnh vực hẹp nào đó. Sau khi diễn giải thì mệnh đề đúng hoặc sai. Ví dụ: - Hôm nay trời nắng. - Maskov là đàn ông. 1.3.2 Logic vị từ: Khắc phục các hạn chế của logic mệnh đề: Logic vị từ không chỉ biểu diễn sự kiện mà còn biểu diễn tính chất của các đối tượng. Logic vị từ là sự mở rộng của logic mệnh đề. Các vị từ thường chứa biến hằng hay hàm. Người ta gọi các vị từ không chứa biến là mệnh đề. Mỗi vị từ có thể là một sự kiện hay một luật. Luật vị từ gồm hai vế trái và phải được nối với nhau bằng dấu mũi tên (). Các vị từ không có chứa mũi tên được gọi là sự kiện. Ví dụ: Man(tom). : Tom là đàn ông. Child(mary). : Mary là đứa trẻ. 2. Công nghệ tri thức 2.1 Lịch sử công nghệ tri thức Công nghệ tri thức phát hiện ra là một khái niệm về lĩnh vực khoa học máy tính m à n ó mô tả quá trình tự động tìm kiếm khối lượng lớn dữ liệu cho các mô hình có thể được coi là kiến thức về dữ liệu. Nó thường được mô tả như là bắt nguồn tri thức từ dữ liệu đầu vào. Chủ đề này phức tạp có thể được phân loại theo. 1) Loại dữ liệu được tìm kiếm 2) Trong cái hình thức là đại diện cho kết quả của tìm kiếm. Phát triển nhất là công nghệ khám phá tri thức hay nó được biết như cơ sở dữ liệu khám phá tri thức. Cũng giống như nhiều hình thức khác của việc khám phá công nghệ tri thức, nó tạo ra một cách trừu tượng các dữ liệu đầu vào Những kiến thức thu được qua quá trình này có thể trở thành dữ liệu bổ sung có thể được sử dụng cho việc sử dụng dữ liệu trong tương lai. Một ứng dụng khác đầy hứa hẹn của công nghệ tri thức thuộc về việc hiện đại hoá phần mềm trong đó có những phần mềm đã thể hiện trước đó. Quá trình này liên quan đến một khái niệm về kỹ thuật đảo ngược. Thông thường các kiến thức thu được từ các phần mềm hiện tại được trình bày ở dạng các mô hình mà các truy vấn cụ thể có thể được thực hiện khi cần thiết. Một quan hệ thực thể là một định dạng thường xuyên đại diện cho kiến thức thu được từ các phần mềm hiện có. Object Management Group (OMG) được phát triển đặc điểm kỹ thuật Kiến thức Discovery Metamodel (KDM) định nghĩa một ontology cho các tài sản phần mềm và các mối quan hệ của họ với mục đích khám phá kiến thức thực hiện của các mã hiện có. Kiến thức phát hiện từ các hệ thống phần mềm hiện có, còn được gọi là phần mềm khai thác mà liên quan chặt chẽ đến khai thác dữ liệu, phần mềm đã có từ trước đố có giá trị kinh doanh rất lớn, chìa khóa cho sự tiến triển của các hệ thống phần mềm. Thay vì khai thác dữ liệu cá nhân tập hợp, phần mềm khai thác tập trung vấn đề siêu dữ liệu, chẳng hạn như cơ sở dữ liệu schema. 2.2 Dữ liệu đầu vào 2.1.1 Data mining Data mining là quá trình giải nén các mẫu từ dữ liệu. Data mining đang trở thành một công cụ ngày càng quan trọng để biến đổi dữ liệu này thành thông tin. Nó thường được sử dụng trong một loạt các hồ sơ thực hành, chẳng hạn như tiếp thị, giám sát, phát hiện gian lận và phát hiện khoa học. Data mining khai thác dạng dữ liệu có thể được sử dụng để phát hiện ra các mẫu trong dữ liệu, nhưng thường được thực hiện chỉ trên mẫu dữ liệu. Quá trình khai thác sẽ không có hiệu quả nếu các mẫu không phải là một đại diện tốt của tập thực thể lớn hơn của dữ liệu. Data mining không thể phát hiện ra mẫu mà có thể có mặt trong cơ thể lớn hơn nếu những mô hình dữ liệu không có mặt trong mẫu được "khai thác". Không có khả năng tìm thấy các mô hình có thể trở thành một nguyên nhân cho một số tranh chấp giữa khách hàng và nhà cung cấp dịch vụ. Do đó khai thác dữ liệu là không đơn giản nhưng có thể hữu ích nếu đủ dữ liệu được thu thập mẫu đại diện. Việc phát hiện ra một mô hình cụ thể trong một tập hợp các dữ liệu không nhất thiết có nghĩa là một mô hình được tìm thấy ở nơi khác trong dữ liệu lớn hơn từ đó mẫu được rút ra. Một phần quan trọng của quá trình này là việc xác minh và xác nhận của các mô hình trên các mẫu khác của dữ liệu. Các điều khoản liên quan đến dữ liệu nạo vét, khai thác dữ liệu và dữ liệu snooping chỉ đến việc sử dụng các kỹ thuật khai thác dữ liệu cỡ mẫu được (hoặc có thể được) quá nhỏ để suy luận thống kê được thực hiện về tính hợp lệ của bất kỳ các mẫu phát hiện (xem thêm dữ liệu- snooping thiên vị). nạo vét luồng dữ liệu có thể, tuy nhiên, được sử dụng để phát triển các giả thuyết mới, mà sau đó phải được xác nhận với đầy đủ bộ mẫu lớn. 2.1.2 Background Con người đã được "thủ công" các mẫu chiết xuất từ dữ liệu trong nhiều thế kỷ, nhưng khối lượng ngày càng tăng của dữ liệu trong thời hiện đại đã kêu gọi thêm các cách tiếp cận tự động. Đầu phương pháp xác định các mẫu trong dữ liệu bao gồm định lý Bayes (năm 1700) và phân tích hồi quy (năm 1800). Sự gia tăng, có mặt khắp nơi và sức mạnh ngày càng tăng của công nghệ máy tính đã tăng thu thập dữ liệu và lưu trữ. Khi tập hợp dữ liệu đã phát triển về quy mô và phức tạp, chỉ đạo thực hành phân tích dữ liệu ngày càng được tăng cường với gián tiếp, xử lý dữ liệu tự động. Điều này đã được hỗ trợ bởi những khám phá khác trong khoa học máy tính, chẳng hạn như các mạng thần kinh, clustering, thuật toán di truyền (năm 1950), cây quyết định (năm 1960) và hỗ trợ máy vector (năm 1980). Khai thác dữ liệu là quá trình áp dụng những phương pháp này vào dữ liệu với mục đích khám phá ra các mô hình ẩn [1] Nó đã được sử dụng trong nhiều năm của các doanh nghiệp., Các nhà khoa học và các chính phủ để sift thông qua khối lượng của dữ liệu như hồ sơ hãng hàng không của chuyến đi hành khách, số liệu điều tra dân số và siêu thị máy quét dữ liệu để sản xuất các báo cáo nghiên cứu thị trường. (Lưu ý, tuy nhiên, báo cáo đó không phải là luôn luôn được coi là khai thác dữ liệu.) Một lý do chính để sử dụng khai thác dữ liệu là hỗ trợ trong việc phân tích các bộ sưu tập của các quan sát về hành vi. Những dữ liệu này là dễ bị tổn thương collinearity vì interrelations chưa biết. Một thực tế không thể tránh khỏi của khai thác dữ liệu là (và phụ) thiết lập (s) của dữ liệu đang được phân tích có thể không được đại diện của toàn bộ miền, và do đó không thể chứa một số ví dụ về các mối quan hệ quan trọng và hành vi tồn tại trên các phần khác của tên miền . Để giải quyết vấn đề này loại, phân tích có thể được tăng cường bằng cách sử dụng phương pháp tiếp cận dựa trên thử nghiệm và khác, chẳng hạn như lựa chọn mô hình cho dữ liệu do con người tạo ra. Trong những tình huống này, tương quan cố hữu có thể kiểm soát được, hoặc cho, hoặc gỡ bỏ hoàn toàn, trong khi xây dựng thiết kế thực nghiệm. Đã có một số nỗ lực để xác định các tiêu chuẩn cho khai thác dữ liệu, ví dụ năm 1999 Công nghiệp châu Âu Cross trình chuẩn cho khai thác dữ liệu (CRISP-DM 1,0) và Java 2.004 tiêu chuẩn dữ liệu Khai khoáng (JDM 1,0). Đây là những phát triển tiêu chuẩn; các phiên bản sau này của các tiêu chuẩn này đang được phát triển. Độc lập của những nỗ lực tiêu chuẩn hóa, tự do có sẵn hệ thống phần mềm mã nguồn mở như các dự án R, Weka, KNIME, RapidMiner và những người khác đã trở thành một tiêu chuẩn để xác định dữ liệu, quy trình khai thác mỏ. Ba tập đầu của các hệ thống này có khả năng nhập khẩu và xuất khẩu các mô hình trong PMML (Predictive Model Markup Language) mà cung cấp một cách tiêu chuẩn để đại diện cho các mô hình khai thác dữ liệu để chúng có thể được chia sẻ giữa các ứng dụng khác nhau thống kê. PMML là một ngôn ngữ dựa trên XML được phát triển bởi Tập đoàn Dữ liệu Khai khoáng (DMG) [2], một nhóm độc lập gồm các công ty khai thác nhiều dữ liệu. PMML phiên bản 4.0 được phát hành vào tháng 6 năm 2009. 2.1.3 Process a. Pre-process Trước khi thuật toán có thể được sử dụng, một dữ liệu mục tiêu phải được lắp ráp. Khi khai thác dữ liệu chỉ có thể phát hiện ra các mẫu đã có trong dữ liệu, các số liệu mục tiêu phải đủ lớn để chứa những mô hình trong khi vẫn ngắn gọn, đủ để được khai thác trong một khoảng thời gian chấp nhận được. Một nguồn tin phổ biến cho các dữ liệu là một datamart hoặc kho dữ liệu. Các thiết lập mục tiêu là sau đó rửa sạch. Làm sạch loại bỏ các quan sát với tiếng ồn và dữ liệu bị mất tích. Các dữ liệu sạch sẽ được giảm vào vectơ tính năng, một vector cho mỗi quan sát. Một tính năng vector là một phiên bản tóm tắt của các quan sát dữ liệu thô. Ví dụ, một hình ảnh đen trắng của một khuôn mặt mà là 100px của 100px sẽ chứa 10.000 bit của dữ liệu thô. Điều này có thể được biến thành một vector tính năng bằng cách định vị mắt và miệng trong hình ảnh. Làm như vậy sẽ làm giảm các dữ liệu cho mỗi bit vector từ 10.000 đến ba mã số cho các vị trí, làm giảm đáng kể kích thước của tập dữ liệu để được khai thác, và do đó làm giảm nỗ lực chế biến. Các tính năng (s) được lựa chọn sẽ phụ thuộc vào những gì các mục tiêu (s) là / là; rõ ràng, chọn "đúng" tính năng (s) là cơ bản để khai thác dữ liệu thành công. Các vectơ tính năng được chia thành hai bộ, các "đào tạo thiết lập" và tập "thử nghiệm". Tập huấn luyện được sử dụng để "đào tạo" các thuật toán khai thác dữ liệu (s), trong khi các thiết lập thử nghiệm được sử dụng để xác minh tính chính xác của bất kỳ mô hình được tìm thấy. b. Data mining Khai thác dữ liệu thường bao gồm bốn lớp học của nhiệm vụ: * Phân loại - Giữ gìn các dữ liệu thành các nhóm được xác định trước. Ví dụ, một chương trình email có thể cố gắng để phân loại một email như là hợp pháp hay thư rác. thuật toán thường bao gồm cây quyết định học tập, hàng xóm gần nhất, phân loại Bayes ngây thơ và mạng nơron. * Clustering - Có như phân loại, nhưng các nhóm này không được xác định trước, do đó, thuật toán sẽ cố gắng nhóm tương tự như các mục với nhau. * Regression - Cố gắng tìm một chức năng mà các mô hình dữ liệu với các lỗi ít nhất. * Hiệp hội quy tắc học tập - tìm kiếm cho các mối quan hệ giữa các biến. Thí dụ, một siêu thị có thể thu thập dữ liệu về thói quen mua sắm của khách hàng. Sử dụng quy tắc hiệp hội học tập, các siêu thị có thể xác định sản phẩm được mua thường xuyên với nhau và sử dụng thông tin này cho mục đích tiếp thị. Điều này đôi khi được gọi là phân tích thị trường trong giỏ hàng. c. Research and evolution Nghiên cứu và tiến hóa Ngoài các ngành công nghiệp định hướng nhu cầu về tiêu chuẩn và khả năng tương tác, hoạt động chuyên nghiệp và học thuật cũng đã có những đóng góp đáng kể vào việc phát triển và sự chặt chẽ trong các phương pháp và các mô hình, một bài báo xuất bản trong một vấn đề năm 2008 của Tạp chí Quốc tế về Công nghệ thông tin và ra quyết định tóm tắt kết quả của một cuộc khảo sát văn học mà dấu vết và phân tích sự tiến hóa này. Các cơ quan chuyên môn hàng đầu trong lĩnh vực này là Hiệp hội cho các nhóm quan đặc biệt Computing Machinery về kiến thức khám phá và khai thác dữ liệu (SIGKDD). [Cần dẫn nguồn] Kể từ năm 1989 họ đã tổ chức một hội nghị hàng năm của quốc tế và công bố thủ tục tố tụng của mình, và từ năm 1999 đã xuất bản một tạp chí định kỳ sáu tháng học tập mang tên "SIGKDD Những khám phá".Hội nghị Khoa học máy tính khác về khai thác dữ liệu bao gồm: *DMIN - Hội nghị quốc tế về khai thác dữ liệu; *DMKD - Nghiên cứu Các vấn đề về khai thác dữ liệu và khám phá kiến thức; *ECML-PKDD - Hội nghị châu Âu học tập trên máy và nguyên tắc và thực hành của Discovery kiến thức trong cơ sở dữ liệu; * ICDM - IEEE Hội nghị Quốc tế về khai thác dữ liệu; * MLDM - Máy Học tập và Khai khoáng dữ liệu trong công nhận Hoa văn; * SDM - SIAM Hội nghị Quốc tế về khai thác dữ liệu * EDM - Hội nghị quốc tế về giáo dục Khai khoáng dữ liệu 2.1.4 Game Kể từ đầu những năm 1960, với sự sẵn có của sấm truyền cho các trò chơi tổ hợp nhất định, còn được gọi là tablebases (ví dụ như cho cờ vua-3x3) với bất kỳ cấu hình mới bắt đầu, hội đồng chấm nhỏ-và-box, nhỏ-Ban-hex, và endgames nhất định trong cờ vua , dấu chấm-và-ô, và hex, một khu vực mới để khai thác dữ liệu đã được mở lên. Đây là chiến lược khai thác của con người-có thể sử dụng từ những sấm truyền. Hiện nay phương pháp tiếp cận mô hình công nhận dường như không có đầy đủ các cấp độ yêu cầu cao trừu tượng để được áp dụng thành công. Thay vào đó, có nhiều thử nghiệm với tablebases, kết hợp với một nghiên cứu chuyên sâu của tablebase-câu trả lời cho vấn đề cũng được thiết kế và kiến thức về nghệ thuật trước, tức là kiến thức trước tablebase, được sử dụng để sản lượng các mẫu sâu sắc. Berlekamp trong dấu chấm- vv-hộp và và John Nunn tại endgames cờ là những ví dụ đáng chú ý của các nhà nghiên cứu đang làm công việc này, mặc dù họ không và không tham gia vào thế hệ tablebase. 2.1.5 Bussiness Doanh nghiệp sử dụng khai thác dữ liệu có thể thấy một lợi tức đầu tư, mà còn họ nhận ra rằng số lượng các mô hình tiên đoán có thể nhanh chóng trở nên rất lớn. Thay vì một mô hình để dự đoán mà khách hàng sẽ khuấy, một doanh nghiệp có thể xây dựng một mô hình riêng cho từng khu vực và loại hình khách hàng. Sau đó, thay vì gửi một cung cấp cho tất cả mọi người có khả năng khuấy, nó chỉ có thể muốn gửi cung cấp cho khách hàng rằng sẽ có khả năng thực hiện để cung cấp. Và cuối cùng, nó cũng có thể muốn xác định khách hàng sẽ được lợi nhuận trên một cửa sổ thời gian và chỉ gửi cung cấp cho những người có khả năng được lợi nhuận. Để duy trì số lượng của các mô hình này, họ cần để quản lý các phiên bản mô hình và chuyển sang khai thác dữ liệu tự động. Khai thác dữ liệu cũng có thể hữu ích cho con người-nguồn tài nguyên phòng ban trong việc xác định các đặc tính của nhân viên của họ thành công nhất. Thông tin thu được, chẳng hạn như các trường đại học tham dự của nhân viên rất thành công, có thể giúp nhân sự tập trung nỗ lực tuyển dụng phù hợp. Ngoài ra, chiến lược Quản lý doanh nghiệp ứng dụng giúp một công ty dịch của công ty mục tiêu cấp, chẳng hạn như chia sẻ lợi nhuận và mục tiêu lợi nhuận, thành quyết định hoạt động, chẳng hạn như kế hoạch sản xuất, các cấp lực lượng lao động. Một ví dụ khác khai thác dữ liệu, thường được gọi là phân tích giỏ thị trường, liên quan đến sử dụng của nó trong doanh số bán lẻ. Nếu một cửa hàng quần áo ghi lại mua hàng của khách hàng, một hệ thống dữ liệu, khai thác có thể xác định được những khách hàng đã ủng hộ áo sơ mi lụa trên những bông. Mặc dù một số giải thích về mối quan hệ có thể khó khăn, lợi dụng nó được dễ dàng hơn. Ví dụ đề với nguyên tắc liên kết trong giao dịch dựa trên dữ liệu. Không phải tất cả các dữ liệu được giao dịch dựa trên các quy tắc và hợp lý hoặc không chính xác cũng có thể có mặt trong cơ sở dữ liệu. 2.1.6 Science and engineering Trong những năm gần đây, khai thác dữ liệu đã được sử dụng rộng rãi trong khu vực của khoa học và kỹ thuật, chẳng hạn như sinh học, di truyền học, y học, giáo dục và kỹ thuật điện. Trong lĩnh vực nghiên cứu về di truyền con người, mục đích quan trọng là phải hiểu được mối quan hệ ánh xạ giữa các biến thể liên cá nhân trong chuỗi DNA của con người và biến đổi trong tính nhạy cảm bệnh tật. Trong điều khoản đặt, nó là để tìm hiểu cách thức thay đổi trong chuỗi DNA của một cá nhân ảnh hưởng đến nguy cơ phát triển bệnh thông thường như ung thư. Điều này là rất quan trọng để giúp cải thiện việc chẩn đoán, phòng ngừa và điều trị của bệnh. Việc khai thác dữ liệu kỹ thuật được sử dụng để thực hiện nhiệm vụ này được biết đến như giảm đa chiều multifactor. Trong khu vực của kỹ thuật điện, kỹ thuật khai thác dữ liệu đã được sử dụng rộng rãi để theo dõi tình trạng của thiết bị điện điện áp cao. Mục đích của việc giám sát điều kiện hiện có để có được thông tin giá trị về tình trạng sức khoẻ của vật liệu cách nhiệt của thiết bị. Dữ liệu phân nhóm như bản đồ tự tổ chức (SOM) đã được áp dụng vào việc theo dõi và phân tích độ rung của máy biến áp tải trên tap-đổi (OLTCS). Sử dụng giám sát độ rung, nó có thể được quan sát thấy rằng mỗi thay đổi hoạt động khai thác tạo ra một tín hiệu có chứa thông tin về các điều kiện của các địa chỉ liên lạc changer khai thác, cơ chế ổ đĩa. Rõ ràng, vị trí khai thác khác nhau sẽ tạo ra các tín hiệu khác nhau. Tuy nhiên, đã có nhiều thay đổi đáng kể giữa các tín hiệu điều kiện bình thường cho vị trí chính xác cùng một vòi nước. SOM đã được áp dụng để phát hiện các điều kiện bất thường và để ước tính bản chất của các bất thường. Dữ liệu kỹ thuật khai thác mỏ cũng đã được áp dụng để phân tích khí hòa tan (DGA) trên máy biến áp điện. DGA, như là một chẩn đoán cho máy biến áp điện, đã có sẵn trong nhiều năm. Kỹ thuật khai thác dữ liệu như SOM đã được áp dụng để phân tích dữ liệu và để xác định xu hướng không được rõ ràng cho các kỹ thuật DGA tỷ lệ chuẩn như Duval Triangle. Một khu vực thứ tư áp dụng cho khai thác dữ liệu khoa học / kỹ thuật hiện có trong nghiên cứu giáo dục, nơi khai thác dữ liệu đã được sử dụng để nghiên cứu các yếu tố hàng đầu để lựa chọn sinh viên tham gia vào các hành vi mà giảm học tập của mình và để hiểu những yếu tố ảnh hưởng đến sinh viên đại học duy trì. Một ví dụ tương tự của các ứng dụng xã hội của khai thác dữ liệu của nó là sử dụng trong các hệ thống chuyên môn tìm kiếm, trong đó miêu tả chuyên môn của con người được trích xuất, bình thường hóa và phân loại để tạo thuận lợi cho việc tìm kiếm của các chuyên gia, đặc biệt là trong lĩnh vực khoa học và kỹ thuật. Bằng cách này, khai thác dữ liệu có thể tạo điều kiện cho bộ nhớ thể chế. Các ví dụ khác của việc áp dụng dữ liệu ứng dụng kỹ thuật khai thác được dữ liệu y sinh tạo điều kiện của bản thể học miền, khai thác dữ liệu thử nghiệm lâm sàng, phân tích lưu lượng bằng cách sử dụng SOM, vv. 2.1.7 Spatial data mining Khai thác dữ liệu không gian là việc áp dụng các kỹ thuật khai thác dữ liệu để dữ liệu không gian. Khai thác dữ liệu không gian sau cùng các chức năng tương tự trong khai thác dữ liệu, với mục tiêu cuối cùng để tìm mô hình trong địa lý. Cho đến nay, khai thác dữ liệu và Hệ thống thông tin địa lý (GIS) đã tồn tại như là hai công nghệ riêng biệt, mỗi phương pháp riêng, truyền thống của nó và cách tiếp cận để hình dung và phân tích dữ liệu. Đặc biệt, GIS hiện đại nhất chỉ có chức năng phân tích rất cơ bản không gian. Sự bùng nổ to lớn trong dữ liệu địa lý tham chiếu occasioned bởi sự phát triển của CNTT, lập bản đồ kỹ thuật số, viễn thám, và phổ biến toàn cầu của GIS nhấn mạnh tầm quan trọng của phát triển phương pháp quy nạp dữ liệu hướng đến những phân tích địa lý và mô hình hóa. Khai thác dữ liệu, mà là việc tìm kiếm tự động từng phần cho các mô hình ẩn trong cơ sở dữ liệu lớn, cung cấp các lợi ích tiềm năng lớn cho các ứng dụng GIS dựa trên quyết định làm. Gần đây, nhiệm vụ của việc tích hợp hai công nghệ này đã trở thành quan trọng, đặc biệt là các tổ chức khu vực công và tư nhân sở hữu cơ sở dữ liệu rất lớn với các dữ liệu chuyên đề và tham chiếu địa lý bắt đầu nhận ra tiềm năng rất lớn của các thông tin ẩn ở đó. Trong số những người tổ chức là: * Văn phòng đòi hỏi phải phân tích, phổ biến của địa tham chiếu số liệu thống kê * Công cộng dịch vụ y tế tìm kiếm các giải thích của các cụm bệnh * Môi trường các cơ quan đánh giá tác động của thay đổi mô hình sử dụng đất vào biến đổi khí hậu * Geo-tiếp thị các công ty làm phân khúc khách hàng dựa trên vị trí không gian. 2.1.8 Challenges Dữ liệu không gian địa lý kho có xu hướng được rất lớn. Hơn nữa, hiện GIS datasets thường splintered vào tính năng và các thành phần thuộc tính, đó là quy ước lưu trữ trong các hệ thống quản lý dữ liệu hybrid. Thuật toán yêu cầu khác nhau đáng kể cho các thuộc tính (quan hệ) quản lý dữ liệu và cho tô pô (tính năng) quản lý dữ liệu. Liên quan đến điều này là phạm vi và tính đa dạng của các định dạng dữ liệu địa lý, mà cũng trình bày những thách thức duy nhất. Các cuộc cách mạng kỹ thuật số dữ liệu địa lý đang tạo ra các kiểu mới của định dạng