Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
0,91 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN -oOo - BÁO CÁO ĐỀ ÁN MÔN HỌC PHƯƠNG PHÁP LUẬN NGHIÊN CỨU KHOA HỌC Đề tài : NGHIÊN CỨU SỰ PHÁT TRIỂN CỦA CÔNG NGHỆ CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU Giảng viên hướng dẫn: GS.TSKH Hoàng Kiếm Học viên thực hiện: CH1101021 – Đỗ Văn Luyện Tp.Hồ Chí Minh ngày 13 tháng 04 năm 2012 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com GIỚI THIỆU ĐỀ TÀI 3 Sự phát triển công nghệ sở liệu tầm quan trọng khai phá liệu 1.1 Sự phát triển công nghệ sở liệu đời công nghệ khai phá liệu 1.2 Tầm quan trọng khai phá liệu Khai thác liệu ? 2.1 Các bước để khai phá liệu 2.2 Kiến trúc hệ thống khai thác liệu điển hình 10 Kiểu liệu khai thác khai thác liệu 13 3.1 Nguyên tắc 13 3.2 Những thách thức khai thác liệu hệ thống lưu trữ điển hình 13 Các nguyên tắc sáng tạo điển hình dùng phát triển cơng nghệ sở liệu khai phá liệu 17 4.1 Nguyên tắc phân nhỏ 17 4.2 Nguyên tắc “tách khỏi ” 17 4.3 Nguyên tắc chép 17 4.4 Nguyên tắc phản hồi 18 4.5 Nguyên tắc kết hợp 18 Tổng kết 18 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com GIỚI THIỆU ĐỀ TÀI Cùng với phát triển khoa học kỹ thuật bùng nổ công nghệ liệu World Wide Web, data stream… đặt yêu cầu cấp thiết cho kỹ thuật công nghệ tự động để chuyển đổi lượng lớn liệu thành thơng tin hữu ích đưa dự báo hữu ích cho người sử dụng, Khai thác liệu đời nhằm giải vấn đề Vì thơng tin thay đổi liên tục rộng lớn nên ngành khoa học đỏi hỏi phải nâng cấp tối ưu hóa tri thức có để phục vụ tốt nhu cầu người sử dụng Trong tiểu luận em xin trình bày phát triển công nghệ sở liệu từ lúc hình thành ngày để thấy vai trị cơng nghệ khai phá liệu to lớn Tiếp đến em xin kể thách thức mà ngành khoa học gặp phải trình nghiên cứu phát triển Tại thời gian khơng cho em nghiên cứu nhiều nghiên cứu sâu em xin trình kể thách thức mà nhà khoa học gặp phải Hiện có số công ty lớn Facebook, Google…đã giải số thách thức khai phá liệu Search Engine Social Network họ thành công lĩnh vực LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Sự phát triển công nghệ sở liệu tầm quan trọng khai phá liệu 1.1 Sự phát triển công nghệ sở liệu đời công nghệ khai phá liệu Khai thác liệu ngành khoa học thu hút nhiều ý năm gần đây, có số lượng liệu lớn cần thiết để chuyển liệu thành thơng tin hữu ích Các thơng tin kiến thức thu sử dụng ứng dụng khác từ phân tích thị trường, phát gian lận, kiểm soát sản xuất khoa học thăm dị Khai thác liệu xem kết tiến hoá tự nhiên công nghệ thông tin Sự phát triển công nghiệp sở liệu cho ta biết khai phá liệu đóng vai trị quan trọng phát triển công nghiệp công nghệ thông tin ngày Kể từ công nghệ năm 1960, sở liệu thông tin phát triển từ hệ thông xử lý tập tin nguyên thuỷ Việc nghiên cứu phát triển hệ thống sở liệu từ năm 1970 có q trình phát triển từ hệ thống sở liệu mạng lưới phân cấp tới phát triển hệ thống sở liệu quan hệ (nơi liệu lưu trữ cấu trúc bảng quan hệ ), công cụ mô hình hố liệu lập mục Ngồi người sử dụng bước đầu sử dụng ngôn ngữ truy vấn để truy xuất liệu cách linh hoạt thuận tiện Lúc để phương pháp xử lý giao dịch trực tuyến (OLTP) nơi truy vấn truy xuất liệu xem giao tác người dùng bắt đầu phải tối ưu hoá xử lý truy vấn để ứng dụng sử dụng cách hiệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Data Collection and Database Creation ( 1960s and earlier) -Dữ liệu xử lý file tuý Database Management System ( 1970s – 1980s) -Phát triển hệ thống sở liệu : Dữ liệu lưu trữ cấu trúc bảng quan hệ - Phát triển cơng cụ mơ hình hố liệu : Mơ hình quan hệ đối tượng, thực thể… - Lập mục phương pháp truy xuất liệu : Cây B-Tree, bảng băm, … - Các ngôn ngữ truy vấn liệu ( query languages) : SQL,…và tối ưu hoá xử lý truy vấn - Phát triển hệ thống giao tiếp người dùng : User interfaces, forms, report… Advanced Database System Advanced Data Analysis : Data Warehousing and Data Mining Web-based database (mid - 1980s - present) (late 1980s - present) - Phát triển mơ hình quan hệ đối tượng mở rộng, hướng đối tượng mở rộng đối tượng quan hệ - Data warehousing OLAP - Phát triển dựa XML database - Phát triển sở liệu theo định hướng ứng dụng chuyên sâu : Web mining, text mining, time-series analysis… - Khai phá liệu tìm kiếm tri thức - Phát triển ứng dụng khai phá liệu ( 1990s - present) - Thông tin liệu tích hợp New Generation of Integrated Data and Information Systems ( present - future) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Công nghệ sở liệu từ năm 1980 đặc trưng bới áp dụng phổ biến công nghệ quan hệ, nghiên cứu độc lập phát triển hoạt động hệ thống sở liệu Sự đời mơ hình quan hệ mở rộng, hướng đối tượng mơ hình suy luận thúc đẩy phát triển hệ sở liệu tiên tiến hệ thống sở liệu theo định hướng ứng dụng, bao gồm không gian, đa phương tiện, cảm biến sở liệu khoa học kỹ thuật, sở tri thức ứng dụng thơng tin văn phịng phát triển mạnh mẽ thời kỳ Các vấn đề liên quan đến phân phối liệu, chia sẻ liệu đươc nghiên cứu rộng rãi Lúc hệ thống sở liệu Internet dựa hệ thống thông tin World Wide Web (WWW) xuất đóng vai trị quan trọng phát triển ngành công nghiệp thông tin 1.2 Tầm quan trọng khai phá liệu Các tiến vượt bậc cơng nghệ phần cứng máy tính dẫn đến nguồn cung cấp lớn máy tính mạnh mẽ, dung lượng lưu trữ thiết bị ngày lớn Công nghệ thúc đẩy phát triển ngành công nghiệp sở liệu thông tin, làm cho số lượng lớn sở liệu kho thơng tin có sẵn cho quản lý giao dịch, thơng tin truy hồi phân tích liệu Dữ liệu lưu trữ nhiều loại khác sở liệu kho thông tin Một kho lưu trữ nhiều nguồn liệu không đồng tổ chức theo lược đồ thống trang web để tạo điều kiện thuận lợi cho việc định quản lý Công nghệ dataWarehousing bao gồm liệu, tích hợp làm liệu, phân tích liệu trực tuyến (OLAP), kỹ thuật phân tích chức năng, hợp tập hợp khả xem xét thông tin nhiều nhiều góc khác LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Ngoài lượng lớn liệu tích luỹ vượt q kiến trúc sở liệu kho liệu Ví dụ điển hình dịng data World Wide Web, nơi có dịng liệu liên tục, ứng dụng mạng cảm biến, phân tích định tuyến Router… phân tích sử dụng liệu hiệu trở thành nhiệm vụ đầy thử thách Sự phong phú liệu với cần thiết cho cơng cụ phân tích liệu mạnh mẽ, thu thập lưu trữ kho liệu lớn nhiều ứng dụng khác vượt xa khả người để hiểu cẩn phải có cơng cụ mạnh mẽ để làm việc Kết liệu thu thập kho liệu lớn trở thành liệu lưu trữ sử dụng truy cập Do định quan trọng thường thực không dựa liệu thông tin phong phú lưu trữ kho liệu mà định mang tính trực giác, đơn giản nhà sản xuất khơng có đủ cơng cụ trích xuất kiến thức từ kho liệu lớn => Công cụ khai thác liệu đời để thực việc phân tích liệu phát cá mơ hình liệu quan trọng góp phần lớn phát triển doanh nghiệp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khai thác liệu ? 2.1 Các bước để khai phá liệu Nói cách đơn giản khai thác liệu dùng để “giải nén” “khai thác” kiến thức từ số lượng lớn liệu Các bước để khai phá liệu: Làm liệu: loại bỏ thành phần gây nhiễu, khó xác định quy luật) Tích hợp liệu : Dữ liệu tích hợp từ nhiều nguồn khác LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lựa chọn liệu : Chọn lựa liệu có liên quan đến q trình phân tích lấy từ sở liệu Chuyển đổi liệu: Dữ liệu chuyển đổi thành hình thức thích hợp với hệ sở tri thức, sở liệu khác nhau… Khai thác liệu: Các phương pháp thông minh áp dụng để trích xuất mẫu liệu, mơ hình liệu Đánh giá mẫu, mơ hình: Đánh giá mơ hình đại diện cho kiến thức thu Trình bày tri thức Flat files Databases Cleaning and integration Data Warehouse Data mining Patterns Evaluation and Presentation Knowledge LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hai bước đầu trình tiền xử lý cho việc khai phá liệu Khai phá liệu cần phải hỗ trợ từ người dùng sở tri thức có Các mẫu, phát thể cho người sử dụng lưu trữ kiến thức sở tri thức Khai thác liệu lúc bước tồn q trình, bước cần thiết phát mơ hình ẩn để đánh giá 2.2 Kiến trúc hệ thống khai thác liệu điển hình DataMining với tên gọi với nghĩa phát kiến thức Tuy nhiên ngành công nghiệp, công nghệ truyền thông nnghiên cứu sở liệu khai thác liệu dần phổ biến so với thuật ngữ ban đầu Rộng DataMining trình phát kiến thức từ lượng lớn liệu lưu trữ sở liệu, kho liệu kho lưu trữ thông tin khác Kiến trúc hệ thống khai thác liệu điển hình có thành phần sau : Cơ sở liệu, kho liệu, World Wide Web, kho lưu trữ thông tin khác: Trên hệ thống liệu phải làm liệu (loại bỏ thành phần gây nhiễu liệu), sử dụng kỹ thuật tích hợp liệu để sử dụng liệu cách hiệu Hệ quản trị sở liệu máy chủ kho liệu : Có nhiệm vụ việc lấy liệu có liên quan dựa yêu cầu khai thác liệu người dùng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Cơ sở tri thức (knowledge base): Đây kiến thức tên miền (domain) sử dụng để hướng dẫn tìm kiếm đánh giá mẫu tìm kiếm thú vị Những kiến thức bao gồm khái niệm phân cấp sử dụng để tổ chức thuộc tính giá trị thuộc tính thành cấp độ trừu tượng khác Kiến thức chẳng hạn niềm tin người sử dụng sử dụng để đánh giá mức độ lý thú sản phẩm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Datamining engine: Engine cần thiết để hệ thống khai thác liệu bao gồm tập hợp phân hệ chức cho nhiệm vụ chẳng hạn tính chất, phân loại, dự báo, phân tích cụm, phân tích định tuyến phân tích tiến hóa… Các mơ hình đánh giá (Pattern evaluation module): Thành phần thường sử dụng để so sánh, tương tác với module khai thác liệu để tập trung tìm kiếm mơ hình thú vị Nó sử dụng phương pháp khác để lọc mẫu phảt Giao diện người dùng ( User interface): Là giao tiếp người dùng hệ thống khai thác liệu, cho phép người dùng tương tác với hệ thống cách thiết lập truy vấn khai thác liệu , cung cấp thông tin để giúp tập trung tìm kiếm thực thăm dị khai thác liệu dựa khai thác liệu trung gian kết Ngoài thành phần cho phép người dùng duyệt lược đồ sở liệu kho liệu cấu trúc liệu, đánh giá mô hình khai thác, hình dung mơ hình hình thức khác Từ quan điểm kho liệu (data warehouse), khai thác liệu xem giai đoạn tiên tiến xử lý phân tích trực tuyến (OLAP) Mặc dù có nhiều hệ thống khai thác liệu thị trường khơng phải tất số thể thực khai thác liệu cách hiệu Một phân tích liệu hệ thống khơng thể xử lý lượng lớn liệu phải phân loại cách thích hợp Một hệ thống có kiểu liệu truy thơng tin, bao gồm việc tìm kiếm giá trị tổng hợp thực truy vấn trả lời suy luận sở liệu lớn cần phân loại cách thích hợp hệ thống sở liệu, hệ thống truy xuất thông tin, hệ thống sở liệu suy luận Khai thác liệu liên quan đến việc tích hợp kỹ thuật lừ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com nhiều lĩnh vực sở liệu, công nghệ kho liệu, số liệu thống kê, máy học, máy tính hiệu suất cao, nhận dạng mẫu, mạng neural, phân tích liệu trực quan, thu hồi thơng tin, hình ảnh xử lý tín hiệu phân tích liệu khơng gian thời gian Kiểu liệu khai thác khai thác liệu 3.1 Nguyên tắc Về nguyên tắc khai thác liệu nên áp dụng loại kho liệu, liệu tạm thời chẳng hạn liệu dịng (data stream) Do phạm vi kiểm tra thường quan hệ sở liệu, kho liệu, dòng liệu, World Wide Web…Hệ thống sở liệu cao cấp bao gồm đối tượng sở liệu quan hệ sở liệu theo định hướng ứng dụng cụ thể chẳng hạn sở liệu không gian, sở liệu chuỗi thời gian (time-series databases), cở sở liệu văn bản, sở liệu đa phương tiện 3.2 Những thách thức khai thác liệu hệ thống lưu trữ điển hình Những thách thức kỹ thuật khai thác khác cho hệ thống lưu trữ Cơ sở liệu quan hệ : Hệ quản trị sở liệu (DBMS) bao gồm tập liệu có liên quan đến nhau, biết đến sở liệu, thiết lập chương trình phần mềm quản lý truy cập liệu Thách thức mà khai phá liệu sở liệu quan hệ là tối ưu hóa xử lý truy vấn liệu Data Warehouses : Là kho lưu trữ thông tin thu thập từ nhiều nguồn, lưu trữ thành cấu trúc thống Các thách thức LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com mà khai phá liệu kho thông tin rộng lớn việc tối ưu hóa xử lý truy vấn liệu kho liệu Các hệ thống thông tin liệu nâng cao: Hệ thống sở liệu quan hệ sử dụng rộng rãi ứng dụng (Applications) Với tiến công nghệ sở liệu, loại khác liệu thông tin hệ thống tập tin gốc lên phát triển để giải yêu cầu ứng dụng Các ứng dụng sở liệu bao gồm xử lý liệu không gian (như đồ), liệu thiết kế kỹ thuật (như thiết kế tòa nhà, thành phần hệ thống), siêu văn liệu đa phương tiện (bao gồm văn bản, video, hình ảnh, liệu âm thanh), liệu thời gian thực (dữ liệu chứng khốn), dịng liệu (như video, liệu cảm biến), World Wide Web (được phân bố rộng rãi kho lưu trữ thông tin cung cấp mạng Internet) Các ứng dụng yêu cầu cấu trúc liệu hiệu khả mở rộng phương pháp để xử lý cấu trúc đối tượng phức tạp Để đáp ứng nhu cầu hệ thống sở liệu tiên tiến ứng dụng theo định hướng hệ thống sở liệu cụ thể phát triển bao gồm hệ thống sở liệu quan hệ hướng đối tượng (object-relational database systems), hệ thống liệu thời gian thực (time-series database systems), hệ thống sở liệu xử lý văn (text database system) liệu đa phương tiện (multimedia database system), hệ thống liệu dịng (data stream management systems), hệ thống thơng tin tồn cầu Web-based ( Web-bases global information systems) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Cơ sở liệu quan hệ hướng đối tượng ( Object-Relational Databases) Mơ hình xây dựng dựa mơ hình liệu đối tượng – quan hệ Nó kế thừa từ khái niệm sở liệu hướng đối tượng Mỗi thực thể xem đối tượng Các hành động thực thể coi thược tính đối tượng Dữ liệu dòng thời gian ( Time-Series Databases and Sequence Databases) Một sở liệu thời gian lưu trữ liệu quan hệ bao gồm thuộc tính liên quan đến thời gian Ví dụ Google muốn biết từ khóa ngày hôm phổ biến ngày hôm qua Yahoo muốn biết trang họ quan tâm qua, hay nhân viên siêu thị muốn kiểm soát hàng tồn kho, cập nhật giá (thị trường chứng khoán)… Cơ sở liệu không gian (Spatial Databases and Spatiotemporal Databases) Không gian sở liệu lưu trữ thông tin liên quan đến khơng gian Ví dụ sở liệu địa lý (bản đồ), sở liệu hình ảnh y tế, vệ tinh… LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Text Databases and Multimedia Databases Cơ sở liệu văn khơng có cấu trúc sở liệu văn có cấu trúc XML/HTML Việc phát triển khai thác liệu văn có cấu trúc thường sử dụng thường xuyên thực cách sử dụng hệ thống sở liệu quan hệ Cơ sở liệu đa phương tiện lưu trữ hình ảnh, âm thanh, video Nhu cầu người sử dụng sở liệu nhiều nên thách thức khai phá liệu phải hỗ trợ nhiều người dùng phải tích hợp với phương pháp khai thác liệu khác, khai thác nhiều tính từ liệu đa phương tiện… Data Stream Nhiều ứng dụng sử dụng loại liệu để phân tích, khám phá mơ hình dịng liệu Ví dụ phát xâm lấn mạng máy tính dựa bất thường dịng tin nhắn phát cách phân nhóm dịng liệu The World Wide Web World Wide Web dịch vụ phân phối chuyển tải thông tin chẳng hạn Yahoo!, Google,Microsoft, Apple… đối tượng liệu liên kết với để tạo điều kiện truy cập tương tác Người dùng tìm kiếm thơng tin từ một thành phần đến thành phần khác thông qua liên kết (tương tác) với nhau.Các dịch vụ Web đựa từ khóa tìm kiếm mà khơng có hiểu biết cấu trúc trang web nội dung đưa thơng tin hạn chế cho người sử dụng Vì khai thác liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com World Wide Web thách thức lớn mà người gặp phải thu hút quan tâm từ nhiều tổ chức khác Các nguyên tắc sáng tạo điển hình dùng phát triển công nghệ sở liệu khai phá liệu 4.1 Nguyên tắc phân nhỏ Phát triển công nghệ sở liệu chia thành nhiều hướng phát triển khác Mỗi hướng phát triển có vấn đề thách thức riêng Trong khai phá liệu nguyên tắc thể rõ ràng Với từ kiểu liệu cụ thể người ta phân chia hướng khai phá liệu riêng Ví dụ hệ thống khai phá liệu thời gian thực (time series data), khai thác liệu dòng (data stream)… 4.2 Nguyên tắc “tách khỏi ” Trong khai phá liệu nguyên tắc sử dụng để làm liệu (tách thành phần gây nhiễu, không tuân theo quy luật) khỏi liệu để tìm quy luật hay sở tri thức cách dễ dàng Trong phát triển công nghệ sở liệu nguyên tắc sử dụng để làm liệu, tách thành phần không cần thiết khỏi đối tượng,ra khỏi lược đồ quan hệ 4.3 Nguyên tắc chép Trong phát triển công nghệ sở liệu cơng nghệ đời kế thừa từ công nghệ trước Cơng nghệ sau đời thường có xu hướng tối ưu hơn, giải vấn đề phát sinh từ vấn đề cũ Khi mà khai phá liệu khác từ công nghệ khác phải sử dụng lại hệ thống sở tri thức (knowledge base) trước để làm tảng cho phát hiện, thăm dò mẫu hay tri thức LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.4 Nguyên tắc phản hồi Đối với phát triển cơng nghệ ngun tắc đóng vai trị quan trọng để đánh giá chất lượng dòng sản phẩm sinh Nhờ áp dụng nguyên tắc mà công nghệ ngày hoàn thiện phát thách thức cần phải xử lý 4.5 Nguyên tắc kết hợp Sự phát triển công nghệ sở liệu kết hợp nhiều ngành khoa học khác ngành công nghiệp phần cứng, công nghiệp phần mềm, khoa học từ ngành toán, lý để phát triển toàn diện đồng Trong khai phá liệu hệ thống tích hợp để khai phá nhiều loại liệu khác từ người dùng phải kết hợp sở tri thức từ nguồn liệu để hệ thống hoạt động cách hiệu Tổng kết Đi với phát triển khoa học kỹ thuật phát triển cơng nghệ liệu đóng vai trị quan trọng đời sống kinh tế xã hội Với rộng lớn liệu khoa học liệu nảy sinh vấn đề phải phát minh cơng cụ có khả phân tích liệu, tự động phân loại, tự động tổng hợp đưa dự báo có lợi cho người sử dụng Lúc khai phá liệu đời (data mining) với vai trò giải vấn đề Đây ngành khoa học với thách thức thu hút quan tâm nhiều nhà khoa học LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... 3 Sự phát triển công nghệ sở liệu tầm quan trọng khai phá liệu 1.1 Sự phát triển công nghệ sở liệu đời công nghệ khai phá liệu 1.2 Tầm quan trọng khai phá liệu Khai thác liệu. .. thành cơng lĩnh vực LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Sự phát triển công nghệ sở liệu tầm quan trọng khai phá liệu 1.1 Sự phát triển công nghệ sở liệu đời công nghệ khai phá. .. dùng phát triển cơng nghệ sở liệu khai phá liệu 4.1 Nguyên tắc phân nhỏ Phát triển công nghệ sở liệu chia thành nhiều hướng phát triển khác Mỗi hướng phát triển có vấn đề thách thức riêng Trong khai