Ứng dụng khai phá dữ liệu trong khai thác cơ sở dữ liệu tích hợp nghành giao thông vận tải

13 9 0
Ứng dụng khai phá dữ liệu trong khai thác cơ sở dữ liệu tích hợp nghành giao thông vận tải

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Còn các nhà thống kê thì xem Khai phá dữ liệu nhƣ là một qui trình phân tích đƣợc thiết kế để thăm dò một lƣợng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/hoặc các mối [r]

(1)

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN HẠNH PHÚC

ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG KHAI THÁC CƠ SỞ DỮ LIỆU TÍCH HỢP

NGÀNH GIAO THÔNG VẬN TẢI

Ngành : CÔNG NGHỆ THÔNG TIN

Mã số : 1.01.10

LUẬN VĂN THẠC SĨ

Ngƣời hƣớng dẫn khoa học: T.S PHÙNG VĂN ỔN

(2)

LỜI CẢM ƠN

Tác giả xin chân thành cảm ơn thầy giáo, cô giáo khoa Công nghệ thông tin - Đại học Công nghệ, Đại học Quốc gia Hà nội, tận tâm giảng dạy kiến thức hai năm học qua với cố gắng thân

Đặc biệt xin bày tỏ biết ơn sâu sắc đến thầy giáo Tiến sĩ Phùng Văn Ổn, ngƣời tận tình hƣớng dẫn, động viên thực luận văn

Tác giả xin chân thành cảm ơn Ban chủ nhiệm khoa Công nghệ thông tin - Trƣờng đại học Hàng Hải, bạn đồng nghiệp, bạn lớp cao học K10T2 tạo điều kiện, giúp đỡ suốt thời gian qua

Rất mong nhận đƣợc góp ý tất thầy cơ, bạn bè đồng nghiệp để luận văn phát triển hoàn thiện

Hà Nội, tháng 11 năm 2006

NGƢỜI THỰC HIỆN

(3)

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

MỞ ĐẦU

CHƢƠNG - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1 Tổ chức khai thác sở liệu truyền thống

2 Tổng quan kỹ thuật phát tri thức khai phá liệu

2.1 Phát tri thức khai phá liệu gì?

2.2 Qui trình phát tri thức [7] 10 2.3 Các phƣơng pháp khai phá liệu [7] Error! Bookmark not defined. 2.4 Các lĩnh vực liên quan đến phát tri thức khai phá liệu [7] Error! Bookmark not defined.

3 Các nhiệm vụ khai phá liệu Error! Bookmark not defined. 3.1 Phát luật tối ƣu truy vấn ngữ nghĩa Error! Bookmark not defined. 3.2 Phát phụ thuộc CSDL (Database Dependencies)Error! Bookmark not defined.

3.3 Phát sai lệch (Deviation) Error! Bookmark not defined. 3.4 Phát luật kết hợp (Association Rules) Error! Bookmark not defined. 3.5 Mơ hình hố phụ thuộc (Dependence Modeling) Error! Bookmark not defined.

(4)

6 Đánh giá, nhận xét Error! Bookmark not defined. CHƢƠNG - ỨNG DỤNG LUẬT KẾT HỢP VÀO KHAI PHÁ DỮ LIỆUError! Bookmark not defined.

1 Lý thuyết luật kết hợp Error! Bookmark not defined. 1.1 Luật kết hợp Error! Bookmark not defined. 1.2 Một số tính chất luật kết hợp [6] Error! Bookmark not defined. 1.3 Phân loại luật kết hợp Error! Bookmark not defined. 1.4 Đặc tả toán khai phá liệu Error! Bookmark not defined. Các đặc trƣng luật kết hợp Error! Bookmark not defined. 2.1 Khơng gian tìm kiếm luật Error! Bookmark not defined. 2.2 Độ hỗ trợ luật Error! Bookmark not defined. Một số giải thuật khai phá tập phổ biến Error! Bookmark not defined.

3.1 Giải thuật BFS (BFS – breadth first search) Error! Bookmark not defined. 3.2 Giải thuật DFS (Depth First Search) Error! Bookmark not defined. 3.3 Giải thuật DHP (Direct Hashing and Pruning)Error! Bookmark not defined. 3.4 Giải thuật PHP (Perfect Hashing and Pruning)Error! Bookmark not defined. Phát sinh luật từ tập phổ biến Error! Bookmark not defined. 4.1 Cải tiến - Giảm số lƣợng luật đƣợc phát sinh & cần phải kiểm traError! Bookmark not defined.

4.2 Cải tiến 1.a – Tránh phát sinh luật khơng có ý nghĩaError! Bookmark not defined.

4.3 Một số kỹ thuật khác việc tối ƣu hóa chi phí tính độ confident Error! Bookmark not defined.

(5)

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Từ viết tắt Tiếng Anh Tiếng Việt

Ck Ck Tập K – itemset ứng cử

Conf confidence Độ tin cậy

CSDL Database Cơ sở liệu

DW Data Warehouse Kho liệu

Item item Khoản mục

Itemset itemset Tập khoản mục

K- itemset K- itemset Tập gồm K mục KDD Knowledge Discovery and Data

Mining

Kỹ thuật phát tri thức khai phá liệu

Lk Lk Tập K - itemset phổ biến

Minconf Minimum Confidence Độ tin cậy tối thiểu Minsup Minimum Support Độ hỗ trợ tối thiểu OLAP On Line Analytical Processing Phân tích trực tuyến

MOLAP Multidimensional OLAP Phân tích đa chiều trực tuyến ROLAP Relational OLAP Phân tích quân hệ trực tuyến pre(k, s) pre(k, s) Tiếp đầu dãy có độ dài k s

Record record Bản ghi

Supp suppport Độ hỗ trợ

TID Transaction Indentification Định danh giao tác SQL Structured Query Language Ngôn ngữ vấn đáp chuẩn SQO Sematics Query Optimization

DBSCAN Density Based Spatial Clustering of Application with Noise

Thuật tốn phân lớp dựa vào vị trí địa phƣơng

DENCLUE DENsity Based CLUstEring Thuật toán phân lớp (tổng quát)

TC Tính chất

ADO Activate X Data Object

DFS Depth First Search Tìm kiếm theo độ sâu BFS Breadth First Search Tìm kiếm theo bề rộng

DHP Direct Hashing and Pruning Bảng băm trực tiếp cắt tỉa PHP Perfect Hashing and Pruning Bảng băm lý tƣởng cắt tỉa

(6)

MỞ ĐẦU

Trong năm gần đây, việc nắm bắt đƣợc thông tin đƣợc coi sở hoạt động sản xuất, kinh doanh Cá nhân tổ chức thu thập hiểu đƣợc thông tin, hành động dựa thông tin đƣợc kết xuất từ thơng tin có đạt đƣợc thành cơng hoạt động Chính lý đó, việc tạo thơng tin, tổ chức lƣu trữ khai thác ngày trở nên quan trọng gia tăng không ngừng

Sự tăng trƣởng vƣợt bậc sở liệu (CSDL) sống nhƣ: thƣơng mại, quản lý khoa học làm nảy sinh thúc đẩy phát triển kỹ thuật thu thập, lƣu trữ, phân tích khai phá liệu… không phép tốn đơn giản thơng thƣờng nhƣ: phép đếm, thống kê… mà địi hỏi cách xử lý thơng minh hơn, hiệu Từ nhà quản lý có đƣợc thơng tin có ích để tác động lại q trình sản xuất, kinh doanh mình… tri thức Các kỹ thuật cho phép ta khai thác đƣợc tri

thức hữu dụng từ CSDL (lớn) đƣợc gọi kỹ thuật khai phá liệu (DM – Data

Mining) Khai phá luật kết hợp nội dung quan trọng khai phá liệu

Luận văn nghiên cứu khái niệm khai phá liệu, luật kết hợp ứng dụng số thuật toán khai phá luật kết hợp CSDL lớn

Luận văn có cấu trúc nhƣ sau:

CHƢƠNG I - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC

Trình bày kiến thức tổng quan khai thác xử lý thông tin

Định nghĩa kho liệu, khai phá liệu, phƣơng pháp khai phá liệu phổ biến ứng dụng chúng

CHƢƠNG II - CƠ SỞ LÝ THUYẾT LUẬT KẾT HỢP ỨNG DỤNG LUẬT KẾT HỢP VÀO KHAI PHÁ DỮ LIỆU

Trình bày toán khai phá liệu, phát luật kết hợp Khái niệm luật kết hợp phƣơng pháp khai phá luật kết hợp Khai phá luật kết hợp dựa phân chia khơng gian tìm kiếm

(7)

Nội dung chƣơng áp dụng kỹ thuật khai phá liệu vào tốn thống kê tình hình gia tăng loại ôtô nƣớcvà dự báo tốc độ gia tăng loại ôtô

(8)

CHƢƠNG - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC

Tổ chức khai thác sở liệu truyền thống

(9)

hình CSDL truyền thống ngơn ngữ SQL cho thấy khơng có khả thực cơng việc Để lấy thơng tin có tính “tri thức” khối liệu khổng lồ này, ngƣời ta tìm kỹ thuật có khả hợp liệu từ hệ thống giao dịch khác nhau, chuyển đổi thành tập hợp CSDL ổn định, có chất lƣợng đƣợc sử dụng cho riêng vài mục đích Các kỹ thuật gọi chung kỹ thuật tạo kho liệu (data warehousing) mơi trƣờng liệu có đƣợc gọi kho liệu (data warehouse)

Nhƣng có kho liệu thơi chƣa đủ để có tri thức Các kho liệu đƣợc sử dụng theo số cách nhƣ:

Theo cách khai thác truyền thống: tức kho liệu đƣợc sử dụng để khai thác thông tin công cụ truy vấn báo cáo

Các kho liệu đƣợc sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP- OnLine Analytical Processing) Việc phân tích trực tuyến có khả phân tích liệu, xác định xem giả thuyết hay sai Tuy nhiên, phân tích trực tuyến lại khơng có khả đƣa giả thuyết

Công nghệ khai phá liệu (data mining) đời đáp ứng đòi hỏi khoa học nhƣ hoạt động thực tiễn Đây ứng dụng kho liệu

Tổng quan kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining)

Phát tri thức khai phá liệu gì?

Nếu cho điện tử sóng điện tử chất cơng nghệ điện tử truyền thống liệu, thơng tin tri thức tiêu điểm lĩnh vực nghiên cứu ứng dụng phát tri thức (Knowledge Discovery) khai phá liệu (Data Mining)

(10)

mối quan hệ đƣợc hiểu ra, đƣợc phát hiện, đƣợc học Nói cách khác, tri thức đƣợc coi liệu có độ trừu tƣợng tổ chức cao

Phát tri thức sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu đƣợc Cịn khai thác liệu bƣớc qui trình phát tri thức gồm có thuật tốn khai thác liệu chuyên dùng dƣới số qui định hiệu tính tốn chấp nhận đƣợc để tìm mẫu mơ hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu và/hoặc mơ hình tồn sở liệu nhƣng bị che khuất hàng núi liệu

Định nghĩa: “KDD trình khơng tầm thƣờng nhận mẫu có giá trị, mới, hữu ích tiềm hiểu đƣợc liệu” [7]

Cịn nhà thống kê xem Khai phá liệu nhƣ qui trình phân tích đƣợc thiết kế để thăm dị lƣợng cực lớn liệu nhằm phát mẫu thích hợp và/hoặc mối quan hệ mang tính hệ thống biến sau hợp thức hố kết tìm đƣọc cách áp dụng mẫu phát đƣợc cho tập liệu Qui trình bao gồm ba giai đoạn bản: thăm dị, xây dựng mơ hình định nghĩa mẫu, hợp thức/kiểm chứng

Qui trình phát tri thức [7]

(11)

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1]. Một số vấn đề chọn lọc công nghệ thông tin - Thái Nguyên, 29 – 31 tháng

năm 2003, Nhà xuất Khoa học Kỹ thuật, 2005

[2] Nguyễn Cơng Cƣờng, Nguyễn Dỗn Phƣớc, Hệ mờ, mạng nơron ứng dụng

-NXB Khoa học Kỹ thuật, 2001

[3] Hoàng Kiếm - Đỗ Phúc, Giáo trình khai phá liệu - Trung tâm nghiên cứu

phát triển công nghệ thông tin, Đại học Quốc gia thành phố Hồ Chí Minh, 2005

[4] Nguyễn Lƣơng Thục, Một số phương pháp khai phá luật kết hợp cài đặt thử nghiệm - Luận văn thạc sỹ ngành CNTT, Khoa Tin học, Đại học Sƣ phạm Huế, 2002

[5] Cục đăng kiểm Việt Nam, Tổng hợp số liệu phương tiện giao thông lưu hành nước, 12-2004

Tiếng Anh

[6] John Wiley & Sons (2003) - Data Mining-Concepts Models Methods And Algorithms, Copyright © 2003 The Institute of Electrical and Electronics Engineers, Inc

[7] Bao Ho Tu (1998), Introduction to Knowledge Discovery and Data mining,

Institute of Information Technology National Center for Natural Science and Technology

[8] Jean – Marc Adamo, Data Mining for Association Rules and Sequential

Patterns, Sequential and Parallel Algorithms, 2001Springer – Verlag New York, Inc

[9] Mohammet J Zaki and Chin Jui Hasiao CHAM - An efficient Algorithm for

Close Itemset Mining.

[10] Jean-Marc Adamo (2001), Data Mining for Association Rule and

Sequential Pattens, With 54 Illustrations ISBN0-95048-6.

[11] John Wiley & Son, Visual Data Mining: Techniques and Tools for Data

Visualization and Mining, by Tom Soukup and Ian Davidson, ISBN: 0471149993

[12] John Wiley & Sons (2003), Data Mining: Concepts, Models, Methods, and

(12)

[13] Patrick BOSC - Didier DUBOIS - Henri PRADE, Fuzzy functional dependencies

[14] W H Inmon, R D Hackthon, Using the Data Warehouse, A Wiley-QEA

(13)

Ngày đăng: 14/05/2021, 08:09

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan