Còn các nhà thống kê thì xem Khai phá dữ liệu nhƣ là một qui trình phân tích đƣợc thiết kế để thăm dò một lƣợng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/hoặc các mối [r]
(1)ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN HẠNH PHÚC
ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG KHAI THÁC CƠ SỞ DỮ LIỆU TÍCH HỢP
NGÀNH GIAO THÔNG VẬN TẢI
Ngành : CÔNG NGHỆ THÔNG TIN
Mã số : 1.01.10
LUẬN VĂN THẠC SĨ
Ngƣời hƣớng dẫn khoa học: T.S PHÙNG VĂN ỔN
(2)LỜI CẢM ƠN
Tác giả xin chân thành cảm ơn thầy giáo, cô giáo khoa Công nghệ thông tin - Đại học Công nghệ, Đại học Quốc gia Hà nội, tận tâm giảng dạy kiến thức hai năm học qua với cố gắng thân
Đặc biệt xin bày tỏ biết ơn sâu sắc đến thầy giáo Tiến sĩ Phùng Văn Ổn, ngƣời tận tình hƣớng dẫn, động viên thực luận văn
Tác giả xin chân thành cảm ơn Ban chủ nhiệm khoa Công nghệ thông tin - Trƣờng đại học Hàng Hải, bạn đồng nghiệp, bạn lớp cao học K10T2 tạo điều kiện, giúp đỡ suốt thời gian qua
Rất mong nhận đƣợc góp ý tất thầy cơ, bạn bè đồng nghiệp để luận văn phát triển hoàn thiện
Hà Nội, tháng 11 năm 2006
NGƢỜI THỰC HIỆN
(3)MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
MỞ ĐẦU
CHƢƠNG - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1 Tổ chức khai thác sở liệu truyền thống
2 Tổng quan kỹ thuật phát tri thức khai phá liệu
2.1 Phát tri thức khai phá liệu gì?
2.2 Qui trình phát tri thức [7] 10 2.3 Các phƣơng pháp khai phá liệu [7] Error! Bookmark not defined. 2.4 Các lĩnh vực liên quan đến phát tri thức khai phá liệu [7] Error! Bookmark not defined.
3 Các nhiệm vụ khai phá liệu Error! Bookmark not defined. 3.1 Phát luật tối ƣu truy vấn ngữ nghĩa Error! Bookmark not defined. 3.2 Phát phụ thuộc CSDL (Database Dependencies)Error! Bookmark not defined.
3.3 Phát sai lệch (Deviation) Error! Bookmark not defined. 3.4 Phát luật kết hợp (Association Rules) Error! Bookmark not defined. 3.5 Mơ hình hố phụ thuộc (Dependence Modeling) Error! Bookmark not defined.
(4)6 Đánh giá, nhận xét Error! Bookmark not defined. CHƢƠNG - ỨNG DỤNG LUẬT KẾT HỢP VÀO KHAI PHÁ DỮ LIỆUError! Bookmark not defined.
1 Lý thuyết luật kết hợp Error! Bookmark not defined. 1.1 Luật kết hợp Error! Bookmark not defined. 1.2 Một số tính chất luật kết hợp [6] Error! Bookmark not defined. 1.3 Phân loại luật kết hợp Error! Bookmark not defined. 1.4 Đặc tả toán khai phá liệu Error! Bookmark not defined. Các đặc trƣng luật kết hợp Error! Bookmark not defined. 2.1 Khơng gian tìm kiếm luật Error! Bookmark not defined. 2.2 Độ hỗ trợ luật Error! Bookmark not defined. Một số giải thuật khai phá tập phổ biến Error! Bookmark not defined.
3.1 Giải thuật BFS (BFS – breadth first search) Error! Bookmark not defined. 3.2 Giải thuật DFS (Depth First Search) Error! Bookmark not defined. 3.3 Giải thuật DHP (Direct Hashing and Pruning)Error! Bookmark not defined. 3.4 Giải thuật PHP (Perfect Hashing and Pruning)Error! Bookmark not defined. Phát sinh luật từ tập phổ biến Error! Bookmark not defined. 4.1 Cải tiến - Giảm số lƣợng luật đƣợc phát sinh & cần phải kiểm traError! Bookmark not defined.
4.2 Cải tiến 1.a – Tránh phát sinh luật khơng có ý nghĩaError! Bookmark not defined.
4.3 Một số kỹ thuật khác việc tối ƣu hóa chi phí tính độ confident Error! Bookmark not defined.
(5)DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Từ viết tắt Tiếng Anh Tiếng Việt
Ck Ck Tập K – itemset ứng cử
Conf confidence Độ tin cậy
CSDL Database Cơ sở liệu
DW Data Warehouse Kho liệu
Item item Khoản mục
Itemset itemset Tập khoản mục
K- itemset K- itemset Tập gồm K mục KDD Knowledge Discovery and Data
Mining
Kỹ thuật phát tri thức khai phá liệu
Lk Lk Tập K - itemset phổ biến
Minconf Minimum Confidence Độ tin cậy tối thiểu Minsup Minimum Support Độ hỗ trợ tối thiểu OLAP On Line Analytical Processing Phân tích trực tuyến
MOLAP Multidimensional OLAP Phân tích đa chiều trực tuyến ROLAP Relational OLAP Phân tích quân hệ trực tuyến pre(k, s) pre(k, s) Tiếp đầu dãy có độ dài k s
Record record Bản ghi
Supp suppport Độ hỗ trợ
TID Transaction Indentification Định danh giao tác SQL Structured Query Language Ngôn ngữ vấn đáp chuẩn SQO Sematics Query Optimization
DBSCAN Density Based Spatial Clustering of Application with Noise
Thuật tốn phân lớp dựa vào vị trí địa phƣơng
DENCLUE DENsity Based CLUstEring Thuật toán phân lớp (tổng quát)
TC Tính chất
ADO Activate X Data Object
DFS Depth First Search Tìm kiếm theo độ sâu BFS Breadth First Search Tìm kiếm theo bề rộng
DHP Direct Hashing and Pruning Bảng băm trực tiếp cắt tỉa PHP Perfect Hashing and Pruning Bảng băm lý tƣởng cắt tỉa
(6)MỞ ĐẦU
Trong năm gần đây, việc nắm bắt đƣợc thông tin đƣợc coi sở hoạt động sản xuất, kinh doanh Cá nhân tổ chức thu thập hiểu đƣợc thông tin, hành động dựa thông tin đƣợc kết xuất từ thơng tin có đạt đƣợc thành cơng hoạt động Chính lý đó, việc tạo thơng tin, tổ chức lƣu trữ khai thác ngày trở nên quan trọng gia tăng không ngừng
Sự tăng trƣởng vƣợt bậc sở liệu (CSDL) sống nhƣ: thƣơng mại, quản lý khoa học làm nảy sinh thúc đẩy phát triển kỹ thuật thu thập, lƣu trữ, phân tích khai phá liệu… không phép tốn đơn giản thơng thƣờng nhƣ: phép đếm, thống kê… mà địi hỏi cách xử lý thơng minh hơn, hiệu Từ nhà quản lý có đƣợc thơng tin có ích để tác động lại q trình sản xuất, kinh doanh mình… tri thức Các kỹ thuật cho phép ta khai thác đƣợc tri
thức hữu dụng từ CSDL (lớn) đƣợc gọi kỹ thuật khai phá liệu (DM – Data
Mining) Khai phá luật kết hợp nội dung quan trọng khai phá liệu
Luận văn nghiên cứu khái niệm khai phá liệu, luật kết hợp ứng dụng số thuật toán khai phá luật kết hợp CSDL lớn
Luận văn có cấu trúc nhƣ sau:
CHƢƠNG I - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC
Trình bày kiến thức tổng quan khai thác xử lý thông tin
Định nghĩa kho liệu, khai phá liệu, phƣơng pháp khai phá liệu phổ biến ứng dụng chúng
CHƢƠNG II - CƠ SỞ LÝ THUYẾT LUẬT KẾT HỢP ỨNG DỤNG LUẬT KẾT HỢP VÀO KHAI PHÁ DỮ LIỆU
Trình bày toán khai phá liệu, phát luật kết hợp Khái niệm luật kết hợp phƣơng pháp khai phá luật kết hợp Khai phá luật kết hợp dựa phân chia khơng gian tìm kiếm
(7)Nội dung chƣơng áp dụng kỹ thuật khai phá liệu vào tốn thống kê tình hình gia tăng loại ôtô nƣớcvà dự báo tốc độ gia tăng loại ôtô
(8)CHƢƠNG - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC
Tổ chức khai thác sở liệu truyền thống
(9)hình CSDL truyền thống ngơn ngữ SQL cho thấy khơng có khả thực cơng việc Để lấy thơng tin có tính “tri thức” khối liệu khổng lồ này, ngƣời ta tìm kỹ thuật có khả hợp liệu từ hệ thống giao dịch khác nhau, chuyển đổi thành tập hợp CSDL ổn định, có chất lƣợng đƣợc sử dụng cho riêng vài mục đích Các kỹ thuật gọi chung kỹ thuật tạo kho liệu (data warehousing) mơi trƣờng liệu có đƣợc gọi kho liệu (data warehouse)
Nhƣng có kho liệu thơi chƣa đủ để có tri thức Các kho liệu đƣợc sử dụng theo số cách nhƣ:
Theo cách khai thác truyền thống: tức kho liệu đƣợc sử dụng để khai thác thông tin công cụ truy vấn báo cáo
Các kho liệu đƣợc sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP- OnLine Analytical Processing) Việc phân tích trực tuyến có khả phân tích liệu, xác định xem giả thuyết hay sai Tuy nhiên, phân tích trực tuyến lại khơng có khả đƣa giả thuyết
Công nghệ khai phá liệu (data mining) đời đáp ứng đòi hỏi khoa học nhƣ hoạt động thực tiễn Đây ứng dụng kho liệu
Tổng quan kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining)
Phát tri thức khai phá liệu gì?
Nếu cho điện tử sóng điện tử chất cơng nghệ điện tử truyền thống liệu, thơng tin tri thức tiêu điểm lĩnh vực nghiên cứu ứng dụng phát tri thức (Knowledge Discovery) khai phá liệu (Data Mining)
(10)mối quan hệ đƣợc hiểu ra, đƣợc phát hiện, đƣợc học Nói cách khác, tri thức đƣợc coi liệu có độ trừu tƣợng tổ chức cao
Phát tri thức sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu đƣợc Cịn khai thác liệu bƣớc qui trình phát tri thức gồm có thuật tốn khai thác liệu chuyên dùng dƣới số qui định hiệu tính tốn chấp nhận đƣợc để tìm mẫu mơ hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu và/hoặc mơ hình tồn sở liệu nhƣng bị che khuất hàng núi liệu
Định nghĩa: “KDD trình khơng tầm thƣờng nhận mẫu có giá trị, mới, hữu ích tiềm hiểu đƣợc liệu” [7]
Cịn nhà thống kê xem Khai phá liệu nhƣ qui trình phân tích đƣợc thiết kế để thăm dị lƣợng cực lớn liệu nhằm phát mẫu thích hợp và/hoặc mối quan hệ mang tính hệ thống biến sau hợp thức hố kết tìm đƣọc cách áp dụng mẫu phát đƣợc cho tập liệu Qui trình bao gồm ba giai đoạn bản: thăm dị, xây dựng mơ hình định nghĩa mẫu, hợp thức/kiểm chứng
Qui trình phát tri thức [7]
(11)TÀI LIỆU THAM KHẢO
Tiếng Việt
[1]. Một số vấn đề chọn lọc công nghệ thông tin - Thái Nguyên, 29 – 31 tháng
năm 2003, Nhà xuất Khoa học Kỹ thuật, 2005
[2] Nguyễn Cơng Cƣờng, Nguyễn Dỗn Phƣớc, Hệ mờ, mạng nơron ứng dụng
-NXB Khoa học Kỹ thuật, 2001
[3] Hoàng Kiếm - Đỗ Phúc, Giáo trình khai phá liệu - Trung tâm nghiên cứu
phát triển công nghệ thông tin, Đại học Quốc gia thành phố Hồ Chí Minh, 2005
[4] Nguyễn Lƣơng Thục, Một số phương pháp khai phá luật kết hợp cài đặt thử nghiệm - Luận văn thạc sỹ ngành CNTT, Khoa Tin học, Đại học Sƣ phạm Huế, 2002
[5] Cục đăng kiểm Việt Nam, Tổng hợp số liệu phương tiện giao thông lưu hành nước, 12-2004
Tiếng Anh
[6] John Wiley & Sons (2003) - Data Mining-Concepts Models Methods And Algorithms, Copyright © 2003 The Institute of Electrical and Electronics Engineers, Inc
[7] Bao Ho Tu (1998), Introduction to Knowledge Discovery and Data mining,
Institute of Information Technology National Center for Natural Science and Technology
[8] Jean – Marc Adamo, Data Mining for Association Rules and Sequential
Patterns, Sequential and Parallel Algorithms, 2001Springer – Verlag New York, Inc
[9] Mohammet J Zaki and Chin Jui Hasiao CHAM - An efficient Algorithm for
Close Itemset Mining.
[10] Jean-Marc Adamo (2001), Data Mining for Association Rule and
Sequential Pattens, With 54 Illustrations ISBN0-95048-6.
[11] John Wiley & Son, Visual Data Mining: Techniques and Tools for Data
Visualization and Mining, by Tom Soukup and Ian Davidson, ISBN: 0471149993
[12] John Wiley & Sons (2003), Data Mining: Concepts, Models, Methods, and
(12)[13] Patrick BOSC - Didier DUBOIS - Henri PRADE, Fuzzy functional dependencies
[14] W H Inmon, R D Hackthon, Using the Data Warehouse, A Wiley-QEA
(13)