Hướng nghiên cứu tiếp theo

Một phần của tài liệu Khám phá tri thức - khai phá dữ liệu (Trang 41 - 47)

Hiện nay Khai phá dữ liệu - Khám phá tri thức trong các hệ CSDL lớn và các bài toán về CSDL thời gian là những vấn đề đang được nhiều nhà khoa học tập trung nghiên cứu bởi các kết quả của nó rất có giá trị để ứng dụng trong nhiều lĩnh vực, nhất là trong các lĩnh vực kinh doanh và các lĩnh vực khoa học mang tính thời đại. Trong luận văn mới chỉ nghiên cứu tìm hiểu một cách cơ bản nhất quy trình khám phá tri thức – khai phá dữ liệu, cũng như đề cập đến một phương án cụ thể có thể áp dụng vào công đoạn khai phá dữ liệu. Vì vậy, trong thời gian tới tôi sẽ tập chung nghiên cứu một cách tổng thể về CSDL thời gian, xem xét các hướng tiếp cận mới đối với CSDL chuỗi thời gian, tìm hiểu và nghiên cứu rộng hơn nữa về các giải pháp khai phá dữ liệu, đặc biệt là trong vấn đề dự báo. Từ đó góp phần phát triển một hướng mới trong ngành công nghệ thông tin nước nhà đó là Khám phá tri thức – Khai phá dữ liệu.

Tài liệu tham khảo

1. Bao Ho Tu (1998), Introduction to Knowledge Discovery and Data mining, Institute of Information Technology National Center for Natural Science and Technology.

2. Heikki Mannila(1998), Knowledge discovery in Databases, the search for frequent patterns, Hannu Toivonen.

3. Solange Oliveira Rezende, Robson Butaca T. de Oliveira, Luis Carlos Molina, FÐlix Claudio Alex Jorge da Rocha (2002); Visualization for Knowledge Discovery in Database; Department of Computer Science and Statistics Institute of Mathematical and Computer Sciences University of S·o Paulo, Brazil.

4. M. Goebel, L. Gruenwald (1999), “A Survey Of Data Mining And Knowledge Discovery Software Tools”, SIGKDD Explorations, Vol. 1, No. 1, P. 20-33.

5. U. M. Fayyad (1998), “Mining Databases: Towards Algorithms for Knowledge Discovery”, Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, Vol. 21, No. 1, P. 39-48 6. П. И. Васькин, Нгуен Доан Куонг (2005), “Анализ баз данных с применением временных рядов”, International Conference on Soft Computing and Measurements, Ses. 5, P. 239-241.

7. Dreyer W., Kotz Dittrich A., Schmidt D., “Research Perspectives for Time Series Management Systems”, Data Mining and Knowledge Discovery. 1994. Vol. 23, N 1. P. 10-15.

8. Nguyễn Kim Anh (2006), Nguyên lý của các hệ Cơ sở dữ liệu, Nhà xuất bản Đại học Quốc gia Hà nội .

Danh mục các ký hiệu, các từ viết tắt

Từ viết tắt Tiếng Anh Tiếng Việt

AI Artificial Intelligence Trí tuệ nhân tạo

CNTT Information Technology Công nghệ thông tin

CSDL Database Cơ sở dữ liệu

EMA Exponential Moving Average Trung bình trượt hàm mũ DSSs Decision Support Systems Các hệ hỗ trợ ra quyết định EDA Exploratory Data Analysis Phân tích dữ liệu khám phá HQTCSDL Database management System –

DBMS Hệ quản trị Cơ sở dữ liệu

KDD Knowledge Discovery in Databases Khám phá tri thức trong các cơ sở dữ liệu

LPF Low Pass Filter Lọc tần số thấp

OLAM OnLine Analytical Mining Khai phá phân tích trực tuyến OLAP On-Line Analytical Processing Xử lý phân tích trực tuyến

SQL Standard Query Language Ngôn ngữ vấn tin chuẩn

TSDB Time Series DataBase CSDL chuỗi thời gian

TTCK Securities Market Thị trường chứng khoán

MỞ ĐẦU ...1

CHƯƠNG I : GIỚI THIỆU CHUNG...1

1.1. Sự cần thiết của việc nghiến cứu quy trình khám phá tri thức – khai phá dữ liệu...2

1.2. Mục đích nghiên cứu của đề tài. ...2

1.3. Phạm vi nghiên cứu của đề tài ... ...2

1.4. Cách thiết kế các phần nội dung chính trong bản thuyết minh...3

CHƯƠNG II : TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC – KHAI PHÁ DỮ LIỆU

2.1. Thế nào là Khám phá tri thức - Khai phá dữ liệu...4

2.2. Sự cần thiết của Khám phá tri thức...5

2.3. Khám phá tri thức và các lĩnh vực liên quan...6

2.4 Thế nào là khai phá dữ liệu...7

2.5. Định nghĩa Khai phá dữ liệu...7

CHƯƠNG III : NGHIÊN CỨU QUY TRÌNH KHÁM PHÁ TRI THỨC 3.1. Các giai đoạn của quá trình Khám phá tri thức...10

3. 2. Nhiệm vụ của quá trình Khám phá tri thức...12

3.3. Quy trình Khám phá tri thức...14

3.4. Hướng tiếp cận và kỹ thuật chính trong Khai phá dữ liệu...15

3.4.1.Các dạng dữ liệu có thể khai phá...15

3.4.2.Các phương pháp,kĩ thuật chính trong khai phá dữ liệu...16

3.4.2.1. Phân lớp và dự đoán (Classification & Prediction)...17

3.4.2.2. Phân tích luật kết hợp (Association Rules)...19

3.4.2.3. Khai thác mẫu tuần tự (Sequential / Temporal patterns)...20

3.4.2.4. Phân nhóm- đoạn (Clustering / Segmentation)...20

3.4.2.5. Hồi quy (Regression)...21

3.4.2.6. Tổng hợp hóa (Summarization)...22

3.4.2.7. Mô hình hóa sự phụ thuộc (dependency modeling) ...22

3.4.2.8. Phát hiện sự biến đổi và độ lệch (Change and deviation detection)...22

3.4.3. Những vấn đề khó khăn trong Khai phá dữ liệu. 3.4.3.1. Vấn đề về CSDL...23

3.4.3.1.1. CSDL lớn...23

3.4.3.1.2. Số chiều dữ liệu lớn...23

3.4.3.1.3. Dữ liệu thay đổi liên tục...24

3.4.3.1.4. Các thuộc tính dữ liệu không phù hợp...24

3.4.3.1.5. Dữ liệu bị thiếu không đầy đủ...24

3.4.3.1.6. Dữ liệu bị nhiễu và không chắc chắn...24

3.4.3.1.7. Mối quan hệ phức tạp giữa các thuộc tính...25

3.4.3.2. Các vấn đề khác...25

3.4.3.2.1. Vấn đề Overfitting...25

3.4.3.2.2. Khả năng biểu đạt của mẫu...26

3.4.3.2.3. Khả năng tương tác với người sử dụng...26

3.4.3.2.4. Khả năng tích hợp với các hệ thống khác...26

3.5. So sánh Khai phá dữ liệu với một số phương pháp cổ điển...26

3.6. Hướng nghiên cứu và việc ứng dụng của Khai phá dữ liệu hiện nay...27

CHƯƠNG IV : ỨNG DỤNG QUY TRÌNH KHÁM PHÁ TRI THỨC VÀO VIỆC PHÂN TÍCH CSDL CHƯNG KHOÁN (CSDL CHUỖI THỜI GIAN)

4.1. Các khái niệm về CSDL chuỗi thời gian...30

4.2. CSDL thị trường chứng khoán:...30

4.3 Các đặc điểm của CSDL chứng khoán...31

4.4 Tiền xử lý dữ liệu chuỗi thời gian...32

4.5 Chỉ số xu hướng tổng quát ...35

4.6 Phân loại trạng thái của hệ thống nhiễu loạn – tích lũy thông tin thống kê...36

4.7. Dự báo trạng thái của hệ thống nhiễu loạn. ...38

KẾT LUẬN 1. Kết quả đạt được...41

Một phần của tài liệu Khám phá tri thức - khai phá dữ liệu (Trang 41 - 47)

Tải bản đầy đủ (DOC)

(47 trang)
w