Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
0,92 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNGNGHỆ THÔNG TIN
oOo
BÁO CÁO ĐỀ ÁN MÔN HỌC
PHƯƠNG PHÁP LUẬN NGHIÊNCỨU KHOA HỌC
Đề tài :
NGHIÊN CỨUSỰPHÁTTRIỂNCỦACÔNGNGHỆ
CƠ SỞDỮLIỆUVÀKHAIPHÁDỮLIỆU
Giảng viên hướng dẫn:
GS.TSKH Hoàng Kiếm
Học viên thực hiện:
CH1101021 – Đỗ Văn Luyện
Tp.Hồ Chí Minh ngày 13 tháng 04 năm 2012
GIỚI THIỆU ĐỀ TÀI. 3
1. Sựpháttriểncôngnghệcơsởdữliệuvà tầm quan trọng củakhaiphádữ liệu. 4
1.1 Sựpháttriểncôngnghệcơsởdữliệuvàsự ra đời củacôngnghệkhaiphádữ liệu. 4
1.2 Tầm quan trọng củakhaiphádữ liệu. 6
2. Khai thác dữliệu là gì ? 8
2.1 Các bước để khaiphádữliệu 8
2.2 Kiến trúc một hệ thống khai thác dữliệu điển hình. 10
3. Kiểu dữliệukhai thác trong khai thác dữ liệu. 13
3.1 Nguyên tắc. 13
3.2 Những thách thức khai thác dữliệu trong các hệ thống lưu trữ điển hình. 13
4. Các nguyên tắc sáng tạo điển hình dùng trong pháttriểncôngnghệcơsởdữliệuvàkhaiphá
dữ liệu. 17
4.1 Nguyên tắc phân nhỏ 17
4.2 Nguyên tắc “tách khỏi ” 17
4.3 Nguyên tắc sao chép. 17
4.4 Nguyên tắc phản hồi. 18
4.5 Nguyên tắc kết hợp 18
5. Tổng kết 18
GIỚI THIỆU ĐỀ TÀI.
Cùng với sựpháttriểncủa khoa học kỹ thuật là sự bùng nổ củacôngnghệdữliệu
mới như World Wide Web, data stream… đã đặt ra một yêu cầu cấp thiết cho các kỹ
thuật mới vàcôngnghệ tự động để có thể chuyển đổi một lượng lớn dữliệu thành các
thông tin hữu ích và đưa ra các dự báo hữu ích cho người sử dụng, Khai thác dữliệu ra
đời nhằm giải quyết những vấn đề trên. Vì thông tin có thể thay đổi liên tục và rộng lớn
nên đây là một ngành khoa học đỏi hỏi phải luôn nâng cấp và tối ưu hóa tri thức hiện có
để có thể phục vụ tốt hơn nhu cầu của người sử dụng.
Trong bài tiểu luận này em xin được trình bày sựpháttriểncủacôngnghệcơsở
dữ liệu từ lúc hình thành cho đến ngày nay để thấy được vai trò củacôngnghệkhaiphá
dữ liệu là to lớn như thế nào. Tiếp đến em xin được kể ra những thách thức mà ngành
khoa học này gặp phải trong quá trình nghiêncứuvàphát triển.
Tại vì thời gian không cho em được nghiêncứu nhiều vànghiêncứu sâu em xin
chỉ trình kể ra những thách thức mà hiện nay các nhà khoa học đang gặp phải. Hiện nay
có một sốcông ty lớn như Facebook, Google…đã và đang giải quyết được một trong số
các thách thức trong khaiphádữliệu như là Search Engine và Social Network và họ cũng
đã đang và rất thành công trong lĩnh vực của mình.
1. Sựpháttriểncôngnghệcơsởdữliệuvà tầm quan trọng củakhaiphádữ
liệu.
1.1 Sựpháttriểncôngnghệcơsởdữliệuvàsự ra đời củacôngnghệkhai
phá dữ liệu.
Khai thác dữliệu là một trong những ngành khoa học thu hút rất
nhiều sự chú ý trong những năm gần đây, do có một số lượng dữliệu lớn và
cần thiết để chuyển các dữliệu đó thành thông tin hữu ích. Các thông tin và
kiến thức thu được có thể sử dụng trong các ứng dụng khác nhau từ phân
tích thị trường, phát hiện gian lận, kiểm soát sản xuất và khoa học thăm dò.
Khai thác dữliệucó thể xem như là một kết quả củasự tiến hoá tự
nhiên củacôngnghệ thông tin. Sựpháttriểncủacông nghiệp cơsởdữliệu
cho ta biết tại sao khaiphádữliệu đóng một vai trò quan trọng trong sự
phát triểncủa nền công nghiệp côngnghệ thông tin ngày nay.
Kể từ khi côngnghệ năm 1960, cơsởdữliệuvà thông tin đã được
phát triển từ hệ thông xử lý tập tin nguyên thuỷ. Việc nghiêncứuvàphát
triển trong các hệ thống cơsởdữliệu từ những năm 1970 đã có một quá
trình pháttriển từ các hệ thống cơsởdữliệuvà mạng lưới phân cấp tới sự
phát triểncủa hệ thống cơsởdữliệu quan hệ (nơi dữliệu được lưu trữ
trong các cấu trúc bảng quan hệ ), các công cụ mô hình hoá dữliệuvà lập
chỉ mục. Ngoài ra người sử dụng đã bước đầu sử dụng ngôn ngữ truy vấn
để truy xuất dữliệu một cách linh hoạt và thuận tiện. Lúc này để các
phương pháp xử lý giao dịch trực tuyến (OLTP) nơi truy vấn truy xuất dữ
liệu được xem như một giao tác cơ bản thì người dùng bắt đầu phải tối ưu
hoá các xử lý truy vấn để các ứng dụng được sử dụng một cách hiệu quả.
Data Collection and Database Creation
( 1960s and earlier)
-Dữ liệu xử lý trên file thuần tuý
Database Management System
( 1970s – 1980s)
-Phát triển hệ thống cơsởdữliệu : Dữliệu được lưu trữ trong cấu trúc
bảng quan hệ.
- Pháttriểncông cụ mô hình hoá dữliệu : Mô hình quan hệ giữa các
đối tượng, thực thể…
- Lập chỉ mục và các phương pháp truy xuất dữliệu : Cây B-Tree,
bảng băm, …
- Các ngôn ngữ truy vấn dữliệu ( query languages) : SQL,…và tối ưu
hoá xử lý truy vấn.
- Pháttriển hệ thống giao tiếp người dùng : User interfaces, forms,
report…
Advanced Database
System
(mid - 1980s - present)
- Pháttriển mô hình quan
hệ đối tượng mở rộng,
hướng đối tượng mở rộng
và đối tượng quan hệ.
- Pháttriểncơsởdữliệu
theo đ
ị
nh hư
ớ
ng
ứ
ng d
ụ
ng
Advanced Data Analysis : Data
Warehousing and Data Mining
(late 1980s - present)
- Data warehousing và OLAP
- Khaiphádữliệuvà tìm kiếm tri thức.
- Pháttriển các ứng dụng khaiphádữliệu
chuyên sâu : Web mining, text mining,
time-series analysis….
Web-based database
( 1990s - present)
- Pháttriển dựa trên
XML database.
- Thông tin vàdữliệu
được tích hợp cùng
nhau.
New Generation of Integrated Data and
Information Systems.
( present - future)
Công nghệcơsởdữliệu từ những năm 1980 đã được đặc trưng bới
sự áp dụng phổ biến các côngnghệ quan hệ, các nghiêncứu độc lập vàsự
phát triển hoạt động trên các hệ thống cơsởdữliệu mới. Sự ra đời của các
mô hình quan hệ mở rộng, hướng đối tượng và các mô hình suy luận đã
thúc đẩy sựpháttriểncủa các hệ cơsởdữliệu tiên tiến hơn như các hệ
thống cơsởdữliệu theo định hướng ứng dụng, bao gồm cả không gian, đa
phương tiện, cảm biến vàcơsởdữliệu khoa học kỹ thuật, cơsở tri thức và
các ứng dụng thông tin văn phòng pháttriển mạnh mẽ trong thời kỳ này.
Các vấn đề liên quan đến phân phối dữ liệu, chia sẻ dữliệu đươc nghiên
cứu rộng rãi. Lúc này hệ thống cơsởdữliệuvà Internet dựa trên hệ thống
thông tin World Wide Web (WWW) cũng đã xuất hiện và đóng một vai trò
quan trọng sựpháttriểncủa ngành công nghiệp thông tin.
1.2 Tầm quan trọng củakhaiphádữ liệu.
Các tiến bộ vượt bậc trong côngnghệ phần cứng máy tính đã dẫn
đến nguồn cung cấp lớn các máy tính mạnh mẽ, dung lượng lưu trữ trong
các thiết bị ngày càng lớn. Côngnghệ này thúc đẩy sựpháttriển ngành
công nghiệp cơsởdữliệuvà thông tin, làm cho một số lượng lớn các cơsở
dữ liệuvà kho thông tin có sẵn cho quản lý giao dịch, thông tin truy hồi và
phân tích dữ liệu.
Dữ liệucó thể được lưu trữ trong nhiều loại khác nhau củacơsởdữ
liệu và kho thông tin. Một kho lưu trữ nhiều nguồn dữliệu không đồng nhất
tổ chức theo một lược đồ thống nhất tại một trang web duy nhất để tạo điều
kiện thuận lợi cho việc ra quyết định quản lý. Côngnghệ dataWarehousing
bao gồm dữ liệu, tích hợp và làm sạch dữ liệu, phân tích dữliệu trực tuyến
(OLAP), kỹ thuật phân tích các chức năng, hợp nhất và tập hợp cũng như
khả năng xem xét thông tin ở nhiều ở nhiều góc khác nhau.
Ngoài ra một lượng lớn dữliệucó thể được tích luỹ vượt quá kiến
trúc cơsởdữliệuvà kho dữ liệu. Ví dụ điển hình là các dòng data trong
World Wide Web, nơi có các dòng dữliệu liên tục, trong các ứng dụng như
các mạng cảm biến, phân tích định tuyến Router… thì phân tích vàsử dụng
dữ liệu hiệu quả trở thành một nhiệm vụ đầy thử thách.
Sự phong phú củadữliệu cùng với sự cần thiết cho các công cụ
phân tích dữliệu mạnh mẽ, thu thập và lưu trữ trong kho dữliệu lớn và rất
nhiều các ứng dụng khác vượt xa khả năng của con người để hiểu và cẩn
phải có một công cụ mạnh mẽ để làm những việc như vậy
Kết quả là các dữliệu thu thập trong các kho dữliệu lớn trở thành
những dữliệu lưu trữ rất hiếm khi sử dụng và truy cập. Do đó các quyết
định quan trọng thường được thực hiện không dựa trên các dữliệu thông tin
phong phú được lưu trữ trong kho dữliệu mà là những quyết định mang
tính trực giác, đơn giản là vì các nhà sản xuất không cóđủ các công cụ trích
xuất các kiến thức từ một kho dữliệu lớn.
=> Công cụ khai thác dữliệu được ra đời để thực hiện việc phân tích dữ
liệu vàcó thể phát hiện ra cá mô hình dữliệu quan trọng góp phần rất lớn
trong sựpháttriểncủa doanh nghiệp.
2. Khai thác dữliệu là gì ?
2.1 Các bước để khaiphádữliệu
Nói một cách đơn giản khai thác dữliệu dùng để “giải nén” hoặc
“khai thác” kiến thức từ một số lượng lớn dữ liệu. Các bước để khaiphádữ
liệu:
Làm sạch dữ liệu: loại bỏ những thành phần gây nhiễu, khó xác
định quy luật).
Tích hợp dữliệu : Dữliệucó thể được tích hợp từ nhiều nguồn khác
nhau.
Lựa chọn dữliệu : Chọn lựa dữliệucó liên quan đến quá trình phân
tích được lấy từ cơsởdữ liệu.
Chuyển đổi dữ liệu: Dữliệu được chuyển đổi thành các hình thức
thích hợp với các hệ cơsở tri thức, cơsởdữliệu khác nhau…
Khai thác dữ liệu: Các phương pháp thông minh được áp dụng để
trích xuất ra các mẫu dữ liệu, các mô hình dữ liệu.
Đánh giá các mẫu, mô hình: Đánh giá mô hình đại diện cho kiến
thức thu được.
Trình bày tri thức.
Flat files
Databases
D
ata Warehouse
Patterns
Knowledge
Cleaning and integration
Data mining
Evaluation and Presentation
Hai bước đầu là quá trình tiền xử lý cho việc khaiphádữ liệu. Khai
phá dữliệu cần phải được hỗ trợ từ người dùng và các cơsở tri thức hiện
có. Các mẫu, phát hiện mới được thể hiện cho người sử dụng và được lưu
trữ như là kiến thức mới trong cơsở tri thức. Khai thác dữliệu lúc này chỉ
là một bước trong toàn bộ quá trình, là một trong những bước cần thiết bởi
vì nó phát hiện ra các mô hình ẩn để đánh giá.
2.2 Kiến trúc một hệ thống khai thác dữliệu điển hình.
DataMining với tên gọi của nó với nghĩa cơ bản là phát hiện kiến
thức. Tuy nhiên trong ngành công nghiệp, trong các côngnghệ truyền
thông và trong nnghiên cứucơsởdữliệukhai thác dữliệu đang dần phổ
biến hơn so với thuật ngữ ban đầu. Rộng hơn thì DataMining là quá trình
phát hiện kiến thức từ một lượng lớn dữliệu được lưu trữ trong cơsởdữ
liệu, kho dữliệu hoặc kho lưu trữ các thông tin khác.
Kiến trúc của một hệ thống khai thác dữliệu điển hình có các thành
phần chính như sau :
Cơsởdữ liệu, kho dữ liệu, World Wide Web, hoặc kho lưu trữ các
thông tin khác: Trên các hệ thống dữliệu này phải làm sạch dữliệu
(loại bỏ những thành phần gây nhiễu trong dữ liệu), sử dụng kỹ thuật
tích hợp dữliệu để có thể sử dụng dữliệu một cách hiệu quả.
Hệ quản trị cơsởdữliệu hoặc máy chủ kho dữliệu : Có nhiệm vụ
trong việc lấy dữliệucó liên quan dựa trên yêu cầu khai thác dữliệu
của người dùng.
[...]... nguyên tắc khai thác dữliệu nên được áp dụng đối với bất kỳ loại kho dữ liệu, cũng như dữliệu tạm thời chẳng hạn như dữliệu dòng (data stream) Do đó phạm vi kiểm tra thường trên các quan hệ cơsởdữ liệu, kho dữ liệu, các dòng dữ liệu, World Wide Web…Hệ thống cơsởdữliệu cao cấp bao gồm các đối tượng cơsởdữliệu quan hệ vàcơsởdữliệu theo định hướng ứng dụng cụ thể chẳng hạn như cơsởdữliệu không... dữliệu trên các kho dữliệu Các hệ thống thông tin vàdữliệu nâng cao: Hệ thống cơsởdữliệu quan hệ đã được sử dụng rộng rãi trong các ứng dụng (Applications) Với sự tiến bộ củacôngnghệcơsởdữ liệu, các loại khác nhau củadữliệu mới và thông tin hệ thống tập tin gốc đã nổi lên và đang pháttriển để giải quyết yêu cầu của các ứng dụng mới Các ứng dụng cơsởdữliệu mới bao gồm xử lý dữ liệu. .. nhỏ Phát triểncôngnghệ cơ sởdữliệu được chia thành nhiều hướng pháttriển khác nhau Mỗi hướng pháttriểncó những vấn đề và thách thức riêng Trong khaiphádữliệu thì nguyên tắc này càng được thể hiện rõ ràng hơn Với từ những kiểu dữliệu cụ thể người ta có thể phân chia ra những hướng khaiphádữliệu riêng Ví dụ như hệ thống khaiphádữliệu thời gian thực (time series data), khai thác dữ liệu. .. Databases Cơsởdữliệu văn bản không có cấu trúc vàcơsởdữliệu văn bản có cấu trúc như XML/HTML Việc pháttriểnvàkhai thác dữliệu văn bản có cấu trúc thường được sử dụng thường xuyên vàcó thể được thực hiện bằng cách sử dụng hệ thống cơsởdữliệu quan hệ Cơsởdữliệu đa phương tiện như lưu trữ hình ảnh, âm thanh, video Nhu cầu của người sử dụng trên cơsởdữliệu này nhiều nên thách thức trong khai. .. cơsởdữliệu chuỗi thời gian (time-series databases), cởsởdữliệu văn bản, cơsởdữliệu đa phương tiện 3.2 Những thách thức khai thác dữliệu trong các hệ thống lưu trữ điển hình Những thách thức và kỹ thuật khai thác có thể khác nhau cho mỗi hệ thống lưu trữ Cơsởdữliệu quan hệ : Hệ quản trị cơsởdữliệu (DBMS) bao gồm tập dữliệucó liên quan đến nhau, được biết đến như là một cơsởdữ liệu, ... các ngành toán, lý để pháttriển một toàn diện và đồng bộ Trong khaiphádữliệu thì một hệ thống có thể được tích hợp để khaiphá nhiều loại dữliệu khác nhau từ người dùng như vậy nó sẽ phải kết hợp cơsở tri thức từ những nguồn dữliệu này để hệ thống hoạt động một cách hiệu quả nhất 5 Tổng kết Đi cùng với sựpháttriểncủa khoa học kỹ thuật thì sự pháttriểncủacôngnghệ dữ liệu đóng vai trò quan... Trong phát triểncủacôngnghệ cơ sởdữliệu thì mỗi côngnghệ mới ra đời đều được kế thừa từ những côngnghệ trước đó Côngnghệ sau ra đời thường có xu hướng tối ưu hơn, giải quyết những vấn đề mới phát sinh từ những vấn đề cũ Khi mà khaiphádữliệu khác nhau từ những côngnghệ khác nhau thì vẫn phải sử dụng lại những hệ thống cơsở tri thức (knowledge base) trước đó để làm nền tảng cho sựphát hiện,... thống cơsởdữliệu suy luận Khai thác dữliệu liên quan đến việc tích hợp các kỹ thuật lừ nhiều lĩnh vực như cơsởdữ liệu, côngnghệ kho dữ liệu, sốliệu thống kê, máy học, máy tính hiệu suất cao, nhận dạng mẫu, mạng neural, phân tích dữliệu trực quan, thu hồi thông tin, hình ảnh và xử lý tín hiệu và phân tích các dữliệu không gian và thời gian 3 Kiểu dữliệukhai thác trong khai thác dữliệu 3.1... sự pháttriểncủa một côngnghệ thì nguyên tắc này đóng vai trò quan trọng để đánh giá chất lượng của một dòng sản phẩm đã được sinh ra Nhờ áp dụng nguyên tắc này mà côngnghệ ngày càng hoàn thiện hơn vàphát hiện ra những thách thức mới cần phải xử lý 4.5 Nguyên tắc kết hợp Sự pháttriểncủacôngnghệ cơ sởdữliệu là sự kết hợp của nhiều ngành khoa học khác nhau như ngành công nghiệp phần cứng, công. .. trúc dữliệu hiệu quả và khả năng mở rộng các phương pháp để xử lý cấu trúc đối tượng phức tạp Để đáp ứng những nhu cầu này thì hệ thống cơsởdữliệu tiên tiến và ứng dụng theo định hướng hệ thống cơsởdữliệu cụ thể đã được pháttriển bao gồm hệ thống cơsởdữliệu quan hệ hướng đối tượng (object-relational database systems), hệ thống dữliệu thời gian thực (time-series database systems), hệ thống cơ . Sự phát triển công nghệ cơ sở dữ liệu và tầm quan trọng của khai phá dữ liệu. 4
1.1 Sự phát triển công nghệ cơ sở dữ liệu và sự ra đời của công nghệ khai. của khai phá dữ
liệu.
1.1 Sự phát triển công nghệ cơ sở dữ liệu và sự ra đời của công nghệ khai
phá dữ liệu.
Khai thác dữ liệu là một trong những ngành