Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
554 KB
Nội dung
Tr-ờng đại học công nghệ Nguyn Ngc Long KHAI PH DỮ LIỆU SỬ DỤNG LUẬT KẾT HỢP Ngành: Công Nghệ Thông Tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ Người hướng dẫn khoa học: PGS TS Vũ Đức Thi Kiến trúc kho liệu 13 Hình 1.2 Quá trình phát tri thức 14 Hình 2.1 Mẫu kết với nhiệm vụ phân nhóm 19 Hình 2.2 Kiến trúc hệ thống khai phá liệu 20 Hình 2.3 Quá trình khai phá liệu 21 Hình 2.4 Mơ tả định cho khái niệm chơi tennis 25 Hình 3.1 Cơ sở liệu D 36 Hình 3.2 Độ hỗ trợ mục 36 Hình 3.3 Độ hỗ trợ tập mục 36 Hình 3.4 Độ tin cậy luật 36 Hình 3.5 Cơ sở liệu D minh họa cho thuật tốn Apriori 42 Hình 3.6: Q trình thực thuật tốn Apriori với độ hỗ trợ 2/9 (2 lần ) Hình 3.7 Cây băm 43 48 Hình 3.8: Sơ đồ trình khai phá phân 49 Hình 3.9: CSDL tác vụ D minh họa cho thuật tốn FP-Growth 55 Hình 3.10: Bảng mục phổ biến theo thứ tự 56 Hình 3.11: FP-Tree xây dựng dần thêm tác vụ T100, T200, T300 56 Hình 3.12: FP-Tree xây dựng dần thêm tác vụ T400, T500 57 Hình 3.13: Cây FP-Tree CSDL 57 Hình 3.14: Thực thuật tốn FP-Growth với có chứa đường đơn 60 Hình 3.15 Dữ liệu điều tra dân số 62 Hình 3.16- Mơ tả khái niệm phân cấp mục 65 Hình 3.17 – Khai phá nhiều mức với độ hỗ trợ 66 Hình 3.18 – Khai phá nhiều mức với độ hỗ trợ khác 67 Hình 3.19 – Khai phá nhiều mức với giảm độ hỗ trợ, lọc mục đơn 68 Hình 3.20 – Khai phá nhiều mức với giảm độ hỗ trợ, lọc k-mục 68 Hình 3.21: CSDL bán sách minh họa cho tập mục phổ biến đóng 70 Hình 3.22 Các tập mục phổ biến 73 Hình 3.23 Dàn tập đầy đủ cho CSDL hình 3.21 76 Hình 3.24 Thuật tốn Charm theo thứ tự từ điển 77 LỜI MỞ ĐẦU Sự bùng nổ thông tin yếu tố lớn cho phát triển xã hội Cùng với phát triển vượt bậc yêu cầu đòi hỏi ngày cao việc xử lý tìm kiếm thơng tin cho nhanh đạt hiệu tối ưu Cùng với phát triển đó, cơng nghệ phần cứng với xử lý tốc độ cao, ổ cứng, thiết bị băng từ dung lượng lớn song hành với phát triển không ngừng thiết bị viễn thông hỗ trợ đắc lực cho công phát triển thông tin Tâm điểm hệ thống khai thác thông tin phục vụ việc tự động hóa lĩnh vực kinh doanh quản lý điều hành định Hiện tượng ―bùng nổ thông tin‖ đời hàng loạt hệ quản trị sở liệu mạnh với công cụ phong phú thuận tiện đời giúp người khai thác hiệu nguồn tài nguyên liệu phức tạp Từ phát triển với tốc độ kinh ngạc HTTT, việc khai phá liệu phục vụ cho yêu cầu trợ giúp định cao hơn, xác nhanh chóng ngày nhiều, có ý nghĩa ngày quan trọng yếu tố định lĩnh vực hoạt động kinh doanh quản lý Những thông tin bổ ích, ―tri thức‖ thơng minh hiệu rút từ nguồn liệu phức tạp rộng lớn trở thành yếu tố sống hoạt động thường ngày tổ chức kinh doanh, quản lý ―Khai phá liệu‖ trở thành trung tâm hàng loạt nghiên cứu thảo luận sơi động nhằm tìm kiếm khám phá nhiều cách thức, phương pháp hiệu với mong muốn tìm ngày nhiều tri thức mới, quan trọng bổ ích Điểm qua tình hình phát triển thơng tin năm gần đây, ta có loạt lĩnh vực nghiên cứu tổ chức kho liệu (data ware house, information ware house), hệ hỗ trợ định (DSS) , phương pháp phát tri thức phương pháp khai phá liệu (data mining) Xét khía cạnh nhu cầu mức trung bình hay phạm vi nhỏ hẹp, kho liệu giúp khai thác thông tin công cụ truy vấn báo cáo dùng để hỗ trợ phân tích Khai phá liệu sử dụng luật kết hợp Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ trực tuyến, kiểm định giả thuyết Tuy nhiên điều người ta thấy thiếu vấn đề tri thức (thơng tin thơng minh), điều có nghĩa liệu kho liệu phân tích cách thơng minh chúng nguồn tài ngun vơ giá Việc tự động phân tích tìm kiếm thơng tin tiềm ẩn có giá trị, chưa phát hiện, xu hướng phát triển yếu tố tác động lên chúng từ liệu khổng lồ có sẵn việc thực trình phát tri thức sở liệu (Knowledge Discovery in Database-KDD) Là kết hợp nhiều thành tựu nghiên cứu lĩnh vực đời sông xã hội lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, phát tri thức CSDL trình tìm tri thức tiềm ẩn, khơng biết trước tiềm có lợi từ liệu CSDL lớn Bằng cách thức này, KDD có tồn diện đầy đủ cách tìm kiếm xử lý thơng tin cách tiên tiến hiệu Với nhiều giai đoạn nhiều phương pháp cụ thể, KDD tiến hành theo thứ tự có bổ xung hỗ trợ lẫn Vai trò KDD đưa vào hai mảng sau đây: - Xác định, định nghĩa vấn đề, tìm hiểu lĩnh vực ứng dụng, nhiệm vụ … - Tinh lọc tiền xử lý, nhằm tìm mẫu, xu hướng có ý nghĩa từ tập liệu Chỉ có mẫu, xu hướng xem đáng quan tâm (xét theo khía cạnh đó) coi tri thức tri thức có ích giúp đạt mục đích hệ thống người dùng Khai phá liệu (Data mining - DM) coi giai đoạn quan trọng KDD Tiến trình KDD bao gồm bước sau đâyđược : Formatted: Bullets and Numbering Phân lớp/phân cụm liệu Các luật kết hợp Khai phá chuỗi Đánh giá Khai phá liệu sử dụng luật kết hợp Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 5 Sử dụng tri thức có Luận văn khái qt trình bày khái quát số vấn đề phát tri thức, khai phá liệu tập trung trình bàylàm rõ vấn đề khai phá luật kết hợp để khai thác CSDL lớn.: Luận văn gồm chương: Chương 1: Tổng quan tổ chức khai thác CSDL : Phân tích nhìn nhận lại cách thức tổ chức lưu trữ CSDL truyền thống Từ có nhận xét đánh giá nhu cầu thông tin bước phát triển mtới Trong chương trình bày giai đoạn trình phát tri thức, xem xét tới kiến trúc lưu trữ CSDL Data warehouse với việc sử dụng cho khai phá liệu - giai đoạn chủ yếu.của trình phát tri thức Chương : Tổng quan khai phá liệu: tổng quan mục tiêu, nhiệm vụ trình khai phá liệu Nêu khái quát vấn đề khai phá liệu, phương pháp, kỹ thuật khai phá liệu chính, phổ biến Chương 3: Khai phá liệu sử dụng luật kết hợp: chương trình bày chi tiết vấn đề yếu khai phá luật kết hợp: toán xuất phát, mơ hình hình thức, thuật tốn điển hình luật kết hợp giải vấn đề khai phá liệu Chương 4: Thử nghiệm khai phá luật kết hợp Xây dựng ứng dụng ―Tìm hiểu nhu cầu mơn học‖ Khai phá liệu sử dụng luật kết hợp Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ CHƯƠNG TỔNG QUAN VỀ TỔ CHỨC - KHAI THÁC CSDL VÀ PHÁT HIỆN TRI THỨC 1.1 Nhu cầu, cách nhìn nhận thực hệ CSLD CSDL truyền thống Trong tình hình phát triển CNTT vũ bão nay, hầu hết hoạt động mình, người có nhu cầu ―máy tính‖ hóa mong muốn thơng tin lĩnh vực cơng việc, giải trí … lưu trữ mong muốn dễ dàng tìm lại có nhu cầu cần thiết Trong tổ chức vậy, nhu cầu cao nhiều trở thành xu hướng chính, chủ đạo việc tin học hóa hoạt động Hòa theo xu hướng này, hàng loạt hệ thống CSDL tổ chức, phát triển khai thác quy mô khắp lĩnh vực hoạt động người xã hội Nhu cầu ngày lớn tăng trưởng với tốc độ lớn mà loại hình sánh kịp Với giúp sức ngành công nghệ điện tử mạng truyền thông Nhu cầu trao đổi thông tin người trở nên dễ dàng nhiều khiến trở nên trào lưu công cụ hữu ích để người chia sẻ thơng tin với Với giúp sức công nghệ, việc trao đổi gần ngày khơng có giới hạn Khi lượng thông tin nhiều trở nên lớn mạnh Người ta hiểu nắm giữ nhiều thông tin người trở thành thủ lĩnh Chính điều thúc đẩy việc tăng lên không ngừng thông tin việc tổ chức dần đưa hoạt động kinh doanh, định dựa việc phân tích thơng tin trở thành phổ biến quen thuộc Nhiều hệ quản trị mạnh với công cụ phong phú thuận tiện giúp cho người khai thác có hiệu nguồn tài ngun liệu Mơ hình CSDL quan hệ ngôn ngữ vấn đáp (SQL) có vai trò quan trọng việc tổ chức khai thác Khai phá liệu sử dụng luật kết hợp Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ CSDL Cho đến nay, khơng tổ chức kinh tế không sử dụng hệ thống quản trị CSDL hệ thống báo cáo, ngôn ngữ hỏi đáp nhằm khai thác CSDL phục vụ cho hoạt động tác nghiệp 1.2 Các vấn đề hạn chế mục tiêu cần có Với cách thực vậy, hệ thống thông tin có tổ chức mang tính chất lưu trữ chưa có mà người ta gọi thông tin ―thông minh‖ Khi có nhu cầu thơng tin, hầu hết hệ thống hỗ trợ công việc tra cứu không hỗ trợ việc đánh giá, nhìn nhận cách khoa học Các vấn đề lại chủ yếu mang tính chất chủ quan trình độ lực người tổ chức Trong vấn đề tổ chức lại phụ thuộc yếu tố người Điều khiến nhà tổ chức quản lý kinh doanh mong muốn có thơng tin quan trọng hữu ích cách tự động từ hệ thống thông tin CSDL lớn không theo cách đánh giá chủ quan số cá nhân Để có điều này, cần có nhiều cách khám phá mới, cách nhìn nhận khác tiến nhiều 1.3 Tìm kiếm bước phát triển tổ chức khai thác CSDL Sự phát triển kinh ngạc công nghệ phần cứng máy tính thập kỷ qua tạo cho máy tính có sức mạnh lớn Điều cho phép tạo số lượng khổng lồ CSDL thông tin cất giữ để quản lý kinh doanh, tìm thơng tin, phân tích liệu Ngày liệu lưu trữ nhiều kiểu khác Một kiến trúc CSDL gần bật lên kho liệu (data warehowse), lưu liệu từ nhiều nguồn khác nhau, tổ chức thống để tạo định Cơng nghệ kho liệu bao gồm: làm liệu, tích hợp liệu, phân tích trực tuyến (OLAP- Online analytical processingthuật ngữ tiếng Anh ),… kỹ thuật phân tích với chức tóm tắt, hợp nhất, tập hợp,… để xem thơng tin từ góc độ khác Các cơng cụ OLAP hỗ trợ phân tích đa chiều tạo định, thêm vào Khai phá liệu sử dụng luật kết hợp Formatted: Default Paragraph Font, Font: Times New Roman, 13 pt, No underline, Font color: Auto Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ công cụ phân tích liệu đòi hỏi phân tích sâu phân lớp liệu, phân nhóm, tìm đặc tính liệu.u… Bên cạnh chức khai thác liệu có tính chất tác nghiệp, thành cơng kinh doanh khơng suất hệ thơng tin mà tính linh hoạt sẵn sàng đáp ứng lại yêu cầu thức tế, CSDL cần đem lại tri thức liệu Các định cần phải xác, nhanh tốt hệ thống CSDL ngày lớn, mà mơ hình CSDL truyền thống ngơn ngữ SQL cho thấy không đáp ứng điều Để lấy thơng tin mang tính tri thức khối liệu khổng lồ người ta tìm kỹ thuật có khả hợp liệu từ hệ thống giao dịch khác nhau, chuyển đổi thành tập hợp CSDL ổn định, có chất lượng sử dụng riêng cho vài mục đích Các kỹ thuật gọi tạo kho liệu (data warehousing) v môi trường liệu gọi kho liệu (data warehouse) Định nghĩa data warehouse : Có thể định nghĩa kho liệu sau: ―Một kho liệu tập hợp liệu tích hợp, hướng chủ đề có tính ổn định (?? ổn định lại thay đổi nào?), thay đổi theo thời gian nhằm hỗ trợ cho việc tạo định‖ Một kho liệu bao gồm: - - Một nhiều công cụ để chiết truy xuấtkết xuất liệu từ dạng cấu trúc liệu - Cơ sở liệu tích hợp hướng chủ đề, ổn định, tổng hợp từ liệu cách lập bảng liệu Đặc tính - Là sở liệu thiết kế có nhiệm vụ phân tích, sử dụng liệu từ ứng dụng khác - Hỗ trợ cho sốnhiều người dùng, có liên quan với thơng tin liên quan - Là liệu đọc Khai phá liệu sử dụng luật kết hợp Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ - Nội dung cập nhật thường xun theo cách thêm thơng tin - Chứa liệu lịch sử để cung cấp xu hướng thông tin - Chứa bảng liệu với kích thước lớn - Một câu hỏi thường trả tập kết liên quan đến toàn bảng liên kết nhiều bảng TÀI LIỆU THAM KHẢO Tiếng Việt [1] Vũ Đức Thi, Cơ sở liệu – Kiến trúc thực hành, Nhà xuất thống kê năm 1997 [2] Vũ Đức Thi, Lê Hải Khôi (1999), Một số nguyên lý hoạt động kho liệu, Tạp chí Tin học Điều khiển, Tr 27, 29-32 [3] Nguyễn Thanh Thủy, Khai phá liệu – Kĩ thuật ứng dụng tháng 8- 2001 [4] Phan Đình Diệu, Logic hệ tri thức, Hà Nội 1999 Tiếng Anh [5] Alan Rea (1995), Data Mining-An Introduction, The Parallel Computer Centre, The Queen’s University of Belfast [6] Ashoka Savasere, Edward Omiecinski, and Shamkant B Navathe: Algorithm for Mining Association Rules in Large Database, VLDB 1995: 432-444 [7] C.J.Matheus and P.K.Chan and G.Piatetsky-Shapiro, System for knowledge discovery in database, Ieee Trans On Knowledge and Data Engineering, vol 5, pp 903-913, 1993 url = http://eiteseer.nj.nec.com/177052.html [8] Jiawei Han and Yongjian Fu, Dynamic Generation and Refinement of Concept Hierachies for Knowledge Discovery in Database KDD Khai phá liệu sử dụng luật kết hợp Nguyễn Ngọc Long, K9T3 Workshop, Luận văn thạc sỹ 10 pp 157-158, 1994, url = http://eiteseer.nj.nec.com/han94dynamic.html [9] Jiawei Han and Micheline Kamber: Data mining: Concepts and Techniques Academic Press 2001 [10] J.Han, Y.Cai, and N.Cercone: Data-driven Discovery of Quantitative Rules n Relational Databases IEEE Trans Knowledge and Data Eng., 5:29—40, 1993 url = http://eiteseer.nj.nec.com/agrawal93mining.html [11] R.Agrawal and S.Srikant Fast algorithmsfor mining association rules In Proc 1994 int Conf VLDB, Santiago, Chile, Sept, 1994 url = http://eiteseer.nj.nec.com/article/agrawal94fast.html [12] R: Agrawal, T Imielinski, and A Swami Mining Association Rules Between Sets of Items in Large Databases In Proc 1993 ACM-SIGMOD Int Conf Management of Data, Washington, D.C., May 1993 [13] W.J Frawley and G.Piatetsky-Shapiro and C.J.Matheus, Knowledge discovery in databases – an overview, Ai Magazine, vol 13, 1992, url = http://eitetseer.nj.nec.com/frawley192knowledge.html [14] Zaki M., Pathasarathy S., Ogihara M.: New algorithms for fast discovery of association rules, KDDM 1998 [15] Mohammed J.Zaki and Ching-Jui Hsiao: CHARM – An Efficent Algorithm for Closed Association Rule Mining, 2000 [16] M.J.Zaki, S.Parthasarathy, M.Ogihara, and W.Li New Algorithms for fast discovery of association rules In Proceedings of 3rd International Conference on KDD and Data Mining (KDD ’97), Newport Beach, California, August 1997 [17] R.Agrawal and R.Srikant: Mining quantitative Association Rules in Large Relationals Tables Khai phá liệu sử dụng luật kết hợp Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 11 [18] Jochen Hipp, Ulrich Gauntzer, Gholamreze Nakhaeizadeh, Algorithms for Asscociation Rule Mining – Ageneral Survey and Comparision, ACM SGKDD, July 2000 Một số địa Internet [1] www.cs.waikato.ac.nz/ml/weka [2] www.sgi.com/tech/mlc/-25k [3] www.visual-basic-data-mining.net/forum/showForum.aspx [4] www.Dmoz.org/Computers/software/ [5] www.planet-source-code.com/vb/scripts/showcode.asp [6] www.cs.concordia/db/dbdm/dm.html [7] http://citeser.nj.nec.com/agrawa193mining.html Khai phá liệu sử dụng luật kết hợp ... quan khai phá liệu: tổng quan mục tiêu, nhiệm vụ trình khai phá liệu Nêu khái quát vấn đề khai phá liệu, phương pháp, kỹ thuật khai phá liệu chính, phổ biến Chương 3: Khai phá liệu sử dụng luật kết. .. đâyđược : Formatted: Bullets and Numbering Phân lớp/phân cụm liệu Các luật kết hợp Khai phá chuỗi Đánh giá Khai phá liệu sử dụng luật kết hợp Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 5 Sử dụng tri... kết hợp: chương trình bày chi tiết vấn đề yếu khai phá luật kết hợp: tốn xuất phát, mơ hình hình thức, thuật tốn điển hình luật kết hợp giải vấn đề khai phá liệu Chương 4: Thử nghiệm khai phá luật