Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
795,03 KB
Nội dung
ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN LÊ THU HÀ PHƯƠNG PHÁP LUẬN KẾT HỢP VÀ ỨNG DỤNG Luận văn thạc sỹ : Khoa học máy tính Thái Nguyên - 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN LÊ THU HÀ PHƯƠNG PHÁP LUẬN KẾT HỢP VÀ ỨNG DỤNG Chuyên ngành: : Khoa học máy tính Mã số: 60 48 01 Luận văn Thạc sỹ Khoa học máy tính NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS VŨ ĐỨC THI Thái Nguyên - 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC LỜI CẢM ƠN i DANH MỤC CÁC HÌNH .ii MỞ ĐẦU Chƣơng TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Phát tri thức khai phá liệu 1.2 Quá trình phát tri thức từ sở liệu 1.2.1 Xác định vấn đề 1.2.2.Thu thập tiền xử lý liệu 1.2.3 Khai thác liệu 11 1.2.4 Minh họa đánh giá 11 1.2.5 Đưa kết vào thực tế 11 1.3 Khai phá liệu 12 1.3.1 Các quan niệm khai phá liệu 12 1.3.2 Nhiệm vụ khai phá liệu 13 1.3.3 Triển khai việc khai phá liệu 15 1.3.4 Một số ứng dụng khai phá liệu 15 1.3.5 Các kỹ thuật khai phá liệu 17 1.3.6 Kiến trúc hệ thống khai phá liệu 19 1.3.7 Quá trình khai phá liệu 21 1.3.8 Những khó khăn khai phá liệu 22 Chƣơng LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 25 2.1 Bài toán kinh điển dẫn đến việc khai phá luật kết hợp 25 2.2 Định nghĩa luật kết hợp 26 2.3 Một số hướng tiếp cận khai phá luật kết hợp 32 Chƣơng MỘT SỐ THUẬT TOÁN PHÁT HIỆN LUẬT KẾT HỢP 35 3.1 Thuật toán AIS 35 3.2 Thuật toán SETM 36 3.3 Thuật toán Apriori 37 3.4 Thuật toán Apriori-TID 44 3.5.Thuật toán Apriori-Hybrid 46 3.6 Thuật toán FP_growth 47 3.7 Thuật toán PARTITION [Savasere 95] 55 Chƣơng KHAI THÁC LUẬT KẾT HỢP TRONG BÀI TOÁN QUẢN LÝ THIẾT BỊ TRƢỜNG THPT CHU VĂN AN- THÁI NGUYÊN 58 4.1 Phát biểu toán 58 4.2 Cơ sở liệu toán 59 4.3 Rời rạc thuộc tính gốc để tạo thành thuộc tính nhị phân 60 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4.4 Cơ sở liệu dạng nhị phân 62 4.5 Kết khai thác luật kết hợp thuật toán Apriori 62 4.6 Kết khai thác sở liệu quản lý thiết bị Trường THPT Chu Văn An – Thái Nguyên 63 KẾT LUẬN 64 TÀI LIỆU THAM KHẢO 66 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên2 http://www.lrc-tnu.edu.vn MỞ ĐẦU Trong năm gần đây, phát triển mạnh mẽ công nghệ thông tin làm cho khả thu thập lưu trữ thông tin hệ thống thông tin tăng nhanh cách nhanh chóng Bên cạnh đó, việc tin học hóa cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu cần lưu trữ khổng lồ Hàng triệu sở liệu sử dụng hoạt động sản xuất, kinh doanh, quản lý , có nhiều sở liệu cực lớn cỡ Gigabyte, chí Terabyte Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kỹ thuật công cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, kỹ thuật khai phá liệu trở thành lĩnh vực thời CNTT giới nói chung Việt Nam nói riêng Khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác nhau: marketing, tài chính, ngân hàng bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn Mục đích nghiên cứu đề tài tìm hiểu kỹ thuật khai phá liệu; vấn đề liên quan đến khai phá luật kết hợp nhằm phát đưa mối liên hệ giá trị liệu CSDL áp dụng chúng vào toán quản lý trang thiết bị đồ dùng trường THPT Chu Văn An – Tỉnh Thái Nguyên Mục tiêu nghiên cứu đề tài: - Tổng kết kiến thức liên quan đến phát luật kết hợp tìm kiếm tri thức từ liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên3 http://www.lrc-tnu.edu.vn - Dựa lý thuyết tổng kết được, sâu vào tìm hiểu, nghiên cứu phương pháp luật kết hợp làm chương trình thử nghiệm dựa thuật tốn Apriori Ý nghĩa khoa học đề tài: - Đây phương pháp nhiều nhà khoa học nghiên cứu có đóng góp thực tiễn - Có thể coi đề tài tài liệu tham khảo đầy đủ, rõ ràng kiến thức phương pháp phát luật kết hợp Phương pháp nghiên cứu: - Lập kế hoạch, lên qui trình, tiến độ thực - Tham khảo nhiều tài liệu có liên quan, tham khảo ý kiến chuyên gia lĩnh vực nghiên cứu Phạm vi nghiên cứu: Các kiến thức phương pháp phát luật kết hợp sở làm luận văn thạc sỹ Các kết nghiên cứu đạt được: - Tổng kết kiến thức phương pháp khai phá luật kết hợp - Luận văn trở thành tài liệu tham khảo cho người muốn tìm hiểu khai phá liệu phương pháp khai phá luật kết hợp - Xây dựng phần mềm thử nghiệm dựa thuật toán Apriori Luận văn bao gồm chương, với nội dung: Chương 1: Trình bày tổng quan khám phá tri thức khai phá liệu, có đề cập đến khái niệm tri thức, liệu, trình khám phá tri thức, nhiệm vụ kỹ thuật khám phá tri thức Số hóa Trung tâm Học liệu – Đại học Thái Nguyên4 http://www.lrc-tnu.edu.vn Chương 2: Trình bày luật kết hợp, trình bày khái niệm, định nghĩa, tính chất luật kết hợp Chương 3: Trình bày số kỹ thuật khai thác luật kết hợp Chương 4: Cài đặt chương trình tìm luật kết hợp, ứng dụng quản lý trang thiết bị, đồ dùng trường THPT Chu Văn An – Tỉnh Thái Nguyên Luận văn hoàn thành khoảng thời gian không dài Tuy nhiên, đạt số kết tốt, nghiên cứu để hồn thiện đưa chương trình luận văn vào ứng dụng thực tiễn quản lý trang thiết bị trường THPT Chu Văn An – Tỉnh Thái Nguyên, mong nhận góp ý thầy cơ, đồng nghiệp bạn bè để luận văn chương trình hồn thiện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên5 http://www.lrc-tnu.edu.vn Chƣơng TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Phát tri thức khai phá liệu Trong thời đại bùng nổ công nghệ thông tin, công nghệ lưu trữ liệu ngày phát triển tạo điều kiện cho đơn vị thu thập liệu tốt Đặc biệt lĩnh vực kinh doanh, doanh nghiệp nhận thức tầm quan trọng việc nắm bắt xử lý thông tin, nhằm giúp chủ doanh nghiệp việc vạch chiến lược kinh doanh kịp thời mang lại lợi nhuận to lớn cho doanh nghiệp Tất lí khiến cho quan, đơn vị doanh nghiệp tạo lượng liệu khổng lồ cỡ Gigabyte chí Terabyte cho riêng Khi lưu trữ liệu khổng lồ thấy chắn chúng phải chứa giá trị định Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) ln phân tích, số cịn lại họ khơng biết phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Mặt khác, môi trường cạnh tranh, người ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Thông thường coi liệu dãy bit, số ký hiệu, “đối tượng” với ý nghĩa gửi cho chương trình dạng định Chúng ta sử dụng bit để đo Số hóa Trung tâm Học liệu – Đại học Thái Ngun6 http://www.lrc-tnu.edu.vn lường thơng tin xem liệu lọc bỏ dư thừa, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Chúng ta xem tri thức thơng tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ hiểu ra, phát hiện, học Nói cách khác, tri thức coi liệu có độ trừu tượng tổ chức cao Phát tri thức sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu Còn khai thác liệu bước qui trình phát tri thức gồm có thuật toán khai thác liệu chuyên dùng số qui định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu và/hoặc mơ hình tồn sở liệu bị che khuất hàng “núi” liệu Nhiều người coi khai phá liệu khám phá tri thức sở liệu Tuy nhiên thực tế, khai phá liệu bước thiết yếu trình phát tri thức sở liệu 1.2 Quá trình phát tri thức từ sở liệu Quá trình phát tri thức chia thành bước sau: - Làm liệu (Data cleaning): Loại bỏ liệu nhiễu liệu khơng thích hợp - Tích hợp liệu (Data integration): Tích hợp liệu từ nguồn khác - Chọn liệu (Data Selection): Chọn liệu liên quan trực tiếp đến nhiệm vụ - Chuyển đổi liệu (Data Transformation): Chuyển liệu dạng phù hợp cho viẹc khai phá Số hóa Trung tâm Học liệu – Đại học Thái Nguyên7 http://www.lrc-tnu.edu.vn - Khai phá liệu (Data mining): Các kỹ thuật áp dụng để trích xuất thơng tin có ích mẫu điển hình liệu - Đánh giá mẫu (Pattern evaluation): Đánh giá mẫu tri thức thu - Trình diễn liệu (Knowledge Presentation): Biểu diễn tri thức khai phá cho người sử dụng Đưa kết vào thực tiễn Minh họa đánh giá tri thức Khai thác liệu–trích mẫu/mơ hình Thu thập tiền xử lý liệu Hiểu xác định vấn đề Hình 1.1 Quá trình khám phá tri thức từ sở liệu Hình 1.1 mơ tả giai đoạn q trình khám phá tri thức từ sở liệu Mặc dù có giai đoạn xong trình khám phá tri thức từ sở liệu trình tương tác lặp di lặp lại theo chu trình liên tục kiểu xốy trơn ốc, lần lặp sau hồn chỉnh lần lặp trước Ngoài ra, giai đoạn sau lại dựa kết thu giai đoạn trước theo kiểu thác nước Đây q trình biện chứng mang tính chất khoa học lĩnh vực phát tri thức phương pháp luận việc xây dựng hệ thống phát tri thức 1.2.1 Xác định vấn đề Đây q trình mang tính định tính với mục đích xác định lĩnh vực yêu cầu phát tri thức xây dựng toán tổng kết Trong thực tế, Số hóa Trung tâm Học liệu – Đại học Thái Nguyên8 http://www.lrc-tnu.edu.vn Tính chất: Khi tìm mẫu có chứa mục cần tính toán cho nút tiền tố P số lần xuất nút đường dẫn tiền tố số lần xuất nút Thuật toán FP_Growth thực sau: Bắt đầu từ lên bảng header cây, mục A dùng nút liên kết để duyệt qua tất nút mà xuất A, với nút N có n.Item_name = A tìm tất đường dẫn nút N xuất phát từ gốc tới nút N Từ đường dẫn ta xây dựng mẫu (partten tree) phụ thuộc cho A Sau tìm mục thường xuyên có chứa A từ mẫu phụ thuộc Ví dụ xét mục theo thứ tự từ lên p, m, , f sau: Xuất phát từ mục p:chiếu vào FP_Tree hình 3.7 ta có hai đường dẫn có chứa p là: f:4, c:3, a:3, m:2, p:2 c:1, b:1, p:1 Theo đường dẫn ta có tập mục fcam xuất lần với p, cb xuất lần với p Số lần xuất mục p 2+1= lần Vì ta tìm mục thường xuyên có chứa p mà có tần suất xuất p Từ ta có hai tiền đường dẫn p là: {(f:2, c:2, a:2, m:2)}, {(c:1, b:1)} sở mẫu phụ thuộc Khởi tạo mẫu thường xuyên sở mẫu phụ thuộc ta FP_Tree phụ thuộc thực hiên khai thác đệ quy ta thu kết quả, có nhánh (c:3) nên ta có tập mục thường xuyên (cp) thỏa mãn ngưỡng minsup=3/5 Mục m có tần suất xuất 3, có hai đường dẫn có chứa mục m (f:4, c:3, a:3, m:2) (f:4, c:3, b:1, m:1) (Ta không cần xét mục p tất tập mục thường xun có chứa p tìm thấy xử lý với mục p) Từ hai đường dẫn ta có hai sở mẫu phụ thuộc {(f:2, c:2, a:2), f:1, c:1, a:1, b:1} Khởi tạo điều kiện ta đường dẫn đơn sau thực khai thác đệ quy mẫu thường xuyên Hình 3.8 thể trình khai thác tập mục thường xuyên Bắt đầu thực khai thác với nút có nhãn a, c, f thu tập mục thường xuyên am, cm, fm, Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 53 http://www.lrc-tnu.edu.vn tiếp đến thực với mẫu thường xuyên (am:3) thu tập mục cam, fam fcm Thực với fcam Như với đường dẫn đơn kết khai thác tổ hợp tất mục đường dẫn Cơ sở mẫu phụ thuộc m (f:2, c:2, a:2) (f:1, c:2, a:1, b:1) Bảng tiêu đề Root f:4 c:4 c:3 b:1 Root f:4 Mục f:4 a:3 Head of node link f:3 f c b:1 c:2 a m:2 FP_Tree phụ thuộc m p:2 a:2 m:1 FP_Tree tổng quát Cơ sở mẫu phụ thuộc “cam”(f:3) FP_Tree phụ thuộc “cam”(f:3) Root Cơ sở mẫu phụ thuộc “am”: (f:3, c:3) FP_Tree phụ thuộc “am” f:3 Root Cơ sở mẫu phụ thuộc “cm”(f:3) FP_Tree phụ thuộc “cm”(f:3) f:3 Root f:3 c:3 Hình 3.11 Các FP_Tree phụ thuộc Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 54 http://www.lrc-tnu.edu.vn Thuật toán FP_Growth Procedue FP_Growth(tree, ) { If (cây chứa đường đơn P) then For tổ hợp (kí hiệu ) nút đường dẫn P Do Sinh mẫu với support = độ hỗ trợ nhỏ nút Else For header Do { Sinh mẫu =i support= i support Tìm sở mẫu phụ thuộc khởi tạo FP_Tree phụ thuộc Tree If Tree Then FP_Growth(Tree, ) } Thuật toán FP_growth hiệu chỗ duyệt qua sở liệu hai lần để xác định mục thường xuyên tạo FP_Tree Nhờ sử dụng cấu trúc FP_Tree mà trình khai thác mẫu thường xuyên không cần phải duyệt lại sở liệu mà cần xuất phát từ mục a i bảng tiêu đề, sinh sở mẫu phụ thuộc, xử lý khơng xem xét xử lý sau Thuật tốn phân hoạch khơng gian tìm kiếm để thu nhỏ khơng gian tìm kiếm, dùng phương pháp chia để trị để phân rã thành nhiệm vụ nhỏ tạo nên hiệu Sắp xếp mục giảm dần theo tần suất xuất mục dẫn đến mục thường xuyên chia sẻ nhiều Thuật tốn phù hợp với liệu thưa, dày mẫu dài Đồng thời thuật tốn loại bỏ mục khơng phổ biến từ đầu 3.7 Thuật toán PARTITION [Savasere 95] Thuật tốn Partition dùng kỹ thuật tìm kiếm theo bề rộng giao tập hợp biến nhận dạng (TID-List Intersection) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 55 http://www.lrc-tnu.edu.vn Thuật toán Partition thuật toán tựa Apriori dùng tập giao để xác định giá trị support Như trình bày thuật toán Apriori xác định giá trị support tất k-1 candidate trước tính k candidate Vấn đề đặt thuật toán Partition muốn dùng TIDList tập phổ biến (k1)-item để phát sinh IDList k candidate Một điều hiển nhiên kích thước phát sinh kết vượt giới hạn nhớ vật lý máy tính thơng thường cách dễ dàng Để giải vấn đề thuật toán Partition chia sở liệu thành nhiều phần chúng xử lý độc lập Kích thước phần chọn cách thức TIDList lưu nhớ Sau xác định tập hổ biến cho phần sở liệu, cần phải có motọ tao tác duyệt lại toàn sở liệu để đảm bảo tập phổ biến cục tập phổ biến tồn cục Thuật tốn Partition làm giảm số lần quét liệu [18] Nó chia sở liệu thành phần nhỏ phần lưu trử nhớ chính, giả sử phàn D1 , D2 ,…., Dp Trong lần qt đầu tiên, tìm large-itemset đại phương Di (1 i p), với large-itemset địa phương Li tìm cách sử dụng thuật toán Level-wise chẳng hạn Apriori Từ phần điều chỉnh nhớ Trong lần quét thứ hai, phần đếm candidate-itemset Input: I, , D1 , D2 ,…., Dp Output: L Algorithm: //Tìm tập xuất – thường xuyên lần phân hoạch 1) for I from to p 2) Li = Apriori (I, Di, ); //Li tập xuất – thường xuyên Di // Ghép tập lại để tạo tập ứng cử viên 3) C= i Li 4) count (C,D)= i Di; Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 56 http://www.lrc-tnu.edu.vn 5) return L= {x | x C, x.count x|D|}; Thuật toán tỏ hiệu phân bố liệu sở liệu bị lệch Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 57 http://www.lrc-tnu.edu.vn Chƣơng KHAI THÁC LUẬT KẾT HỢP TRONG BÀI TOÁN QUẢN LÝ THIẾT BỊ TRƢỜNG THPT CHU VĂN AN- THÁI NGUYÊN 4.1 Phát biểu toán Trường THPT Chu Văn An – Tỉnh Thái Nguyên trường THPT Bộ Giáo dục Đào tạo công nhận trường đạt chuẩn Quốc gia giai đoạn 20012010 tỉnh Thái Nguyên, trường số 16 toàn quốc đạt chuẩn thời điểm (năm 2003) Hiện trường đơn vị đầu trường THPT ứng dụng có hiệu Cơng nghệ thơng tin truyền thông việc quản lý giảng dạy Để có thành tích đáng trân trọng nhờ vào đội ngũ giáo viên 100% đạt chuẩn sở vật chất đại Nhà trường Ngoài sở vật chất (lớp học, bàn, ghế…) trường khác trường THPT Chu Văn An cịn quản lý 150 máy vi tính, 27 máy chiếu projector, máy in, Trong 100% lớp học trang bị đầy đủ máy tính máy chiếu Với số lượng trang thiết bị đại nhiều đến vấn đề quản lý tồn trang thiết bị, đồ dùng trường sổ sách công việc nặng nhọc dành cho người quản lý Để giảm bớt khó khăn cần có chương trình quản lý trang thiết bị nhằm hỗ trợ cho người quản lý cơng việc ví dụ như: lựa chọn thiết bị, đồ dùng cần mua: mua thiết bị liên quan? mua số lượng bao nhiêu? cần thay có nhóm thiết bị để tránh lãng phí? Diện tích phịng thực hành 70m2 cần có thiết bị gì? Việc ứng dụng khai thác luật kết hợp quản lý trang thiết bị giúp người quản lý nắm bắt đặc thù trang thiết bị loại phòng, danh sách thiết bị hay liên quan tới nhau, từ cần mua sắm hay sửa chữa thay người quản lý có cơng cụ hỗ trợ đắc lực giúp đưa nhanh định Chương trình cài đặt thuật toán Apriori nhị phân biết, thuật toán Apriori nhị phân dựa nhận xét đơn giản tập tập xuất –thường xuyên tập xuất –thường xuyên Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 58 http://www.lrc-tnu.edu.vn Do đó, q trình tìm tập ứng cử viên, cần dùng đến tập ứng cử viên vừa xuất bước trước đó, khơng cần tất tập ứng cử viên (cho đến thời điểm đó) Nhờ vậy, nhớ giải phóng đáng kể 4.2 Cơ sở liệu toán - Bảng danh mục phòng cần quản lý thiết bị Hình 4.1.Bảng danh mục phịng Cấu trúc ví dụ liệu bảng sau: + Maphong: Ghi mã phòng + Loaiphong: Ghi loại phòng phòng họp, phòng học hay phòng thực hành… + Tenphong: Ghi tên cụ thể phịng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 59 http://www.lrc-tnu.edu.vn + Nha: Ghi tên dãy nhà phòng + Tang: Ghi tên tầng - Bảng thống kê chi tiết thiết bị phịng Hình 4.2.Bảng thống kê chi tiết thiết bị phòng + Trường Maphong: Ghi mã phòng + Các trường lại tên thiết bị cần quản lý như: Attomat, Ampli, Banhs (bàn học sinh), DieuHoa (điều hoà), liệu ghi số lượng thiết bị Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 60 http://www.lrc-tnu.edu.vn 4.3 Rời rạc thuộc tính gốc để tạo thành thuộc tính nhị phân Hình 4.3.Bảng đăng ký tên thuộc tính rời rạc Bảng gồm trường + Mã TT gốc: ghi mã thuộc tính gốc + Mã TT rời rạc: ghi mã thuộc tính tách (rời rạc) từ thuộc tính gốc Một thuộc tính gốc tách thành n thuộc tính kiểu nhị phân (thuộc tính mà liệu có giá trị 1) Ví dụ: thuộc tính gốc Auttomat ta tạo thành ba thuộc tính At1, At2 At3 Nếu số lượng Attomat =3 < At2=1, At1, At3 = Nếu số lượng Attomat >=6 trường At3=1, cịn At1, At2 =0 Cụ thể, trường Attomat có giá trị 1, 3, trường At1, At2 At3 có giá trị hình sau: Attomat At1 0 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên At2 1 61 At3 0 http://www.lrc-tnu.edu.vn Tương tự ta rời rạc cho trường lưu trữ thiết bị khác như: rèm cửa, máy tính điều hồ,… 4.4 Cơ sở liệu dạng nhị phân Sau biến đổi bảng liệu gốc chi tiết tên số lượng thiết bị phòng quan thành bảng liệu dạng nhị phân, ta bảng liệu nhị phân sau: Hình 4.4.Bảng sở liệu dạng nhị phân 4.5 Kết khai thác luật kết hợp thuật toán Apriori Với độ hỗ trợ (Min Support) = 0.65, độ tin cậy (Min Confidence) = 0.7 Tổng số giao tác = 18 Tổng số thuộc tính = 35 Tổng số tập phổ biến 32 tập Tổng số luật 180 luật Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 62 http://www.lrc-tnu.edu.vn 4.6 Kết khai thác sở liệu quản lý thiết bị Trƣờng THPT Chu Văn An – Thái Nguyên Kết khai thác luật kết hợp sở liệu thống kê phịng: có 100 giao tác tương ứng với thơng ting 100 phịng có 43 thuộc tính Độ hỗ trợ tối Độ tin cậy tối Thời gian thực Tổng số tập Tổng số thiểu Minsupp thiểu Min luật phổ biến confidence 60 0,7 phút 29 giây 63 602 50 0,7 phút 12 giây 126 1932 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 63 http://www.lrc-tnu.edu.vn KẾT LUẬN Có thể nói rằng, khai phá liệu kỹ thuật quan trọng, mang tính thời khơng Việt Nam mà CNTT giới Sự bùng nổ thông tin, liệu toàn cầu, mặt đời sống xã hội với phát triển ứng dụng ngày rộng rãi công nghệ thông tin lĩnh vực khiến cho nhu cầu xử lý khối liệu khổng lồ để kết xuất thông tin, tri thức hữu ích cho người sử dụng cách tự động, nhanh chóng xác trở thành nhân tố quan trọng hàng đầu cho thành công quan, tổ chức cá nhân giới Khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác nhau: marketing, tài chính, ngân hàng bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn Một phương pháp quan trọng kỹ thuật khai phá liệu mà đề tài sâu tìm hiểu khai phá luật kết hợp Mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu sở liệu Mẫu đầu giải thuật khai phá liệu luật kết hợp tìm Phương pháp sử dụng hiệu lĩnh vực maketing có chủ đích, phân tích định, quản lý kinh doanh, phân tích giá thị trường … Trong khoảng thời gian không dài song đề tài tổng kết kiến thức phương pháp khai phá luật kết hợp Có thể coi đề tài tài liệu tham khảo đầy đủ, rõ ràng kiến thức phương pháp phát luật kết hợp Đồng thời, từ việc tìm hiểu kỹ thuật khai phá liệu; vấn đề liên quan đến khai phá luật kết hợp nhằm phát đưa mối liên hệ giá trị liệu CSDL đề tài áp dụng chúng vào toán thử nghiệm quản lý trang thiết bị đồ dùng trường THPT Chu Văn An – Tỉnh Thái Ngun dựa thuật tốn Apriori Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 64 http://www.lrc-tnu.edu.vn Hƣớng phát triển luận văn: Một công việc quan trọng khai phá luật kết hợp tìm tất tập phổ biến sở liệu, nên thời gian tới luận văn mở rộng nghiên cứu theo hướng: ứng dụng thuật toán song song áp dụng cho toán khai phá luật kết hợp mờ, luật kết hợp tập thuộc tính mờ Thuật tốn song song chia sở liệu tập ứng viên cho vi xử lý tập ứng viên sau chia cho sử lý hoàn toàn độc lập với mục đích cải thiện chi phí tìm luật kết hợp mờ thời gian hoá liệu Tiếp tục hoàn thiện hệ thống quản lý trang thiết bị ứng dụng thêm vào lĩnh vực khác đào tạo, ngân hàng, siêu thị Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 65 http://www.lrc-tnu.edu.vn TÀI LIỆU THAM KHẢO [1] Lê Hoài Bắc (2002), Bài giảng khám phá tri thức khai thác liệu – tìm luật kết hợp theo mục đích người dùng, Đại học Quốc gia TP Hồ Chí Minh [2] Đỗ Phúc (2002), Nghiên cứu phát triển số thuật giải, mơ hình ứng dụng khai thác liệu (data mining) Luận án tiến sĩ tốn học, Đại học Quốc gia TP Hồ Chí Minh [3] Rakesh Agrawal, Tomasz Imielinski, and Arun Swami (1993), “Mining association rules between sets of items in large database”, In proc of the ACM SIGMOD Conference on Management of Data, Washington, D.C [4] Rakesh Agrawal, Ramakrishnan Srikant (1996), “Mining Quantilative Association in Large Rilation Table”, In proc of the ACM SIGMOD Conference on Management of Data, Montreal, Canada [5] Usama M.Fayyad, Gregory Piatetsky-Shapiro (1996), Advances in knowledge discovery and data mining, AAAI press/the MIT press [6] Krzystof J.Cios, and Witold Perdrycz and Roman W.Swiniarski (1998), Data Mining Methods for Knowledge Discovery, Kluwer Acsdemic Publicshers, Boston/Dordrecht/London [7] R Agrawal and R Srikant (1994) Fast algorithms for mining association rules The International Conference on Very Large Databases, pages 487–499 [8] D.Phuc, H Kiem (2000), Discovering the binary and fuzzy association rules from database, In proc of Int’l ConfAfss2000, Tsukuba, Japan, pp 981-986 [9] R Agrawal and R Srikant (1995) Mining sequential patterns In P S Yu and A L P Chen, editors, Proc 11th Int Conf Data Engineering, ICDE [10] N F.Ayan, A U Tansel, and M E Arkun (1999) An efficient algorithm to update large itemsets with early pruning In Knowledge Discovery and Data Mining [11] John Wang (Idea Group Publishing) (2003) Data Mining: Opportunities and Challenges Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 66 http://www.lrc-tnu.edu.vn [12] Jiawei Han and Micheline Kamber 2002, Data Mining: Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers [13] N Pqaquier et al (1999), Discovering frequent closed item sets for association rules, In proc of the 7th intl conference ICDT’99, pp 398-410, Israel [14] Osmar R.Zaiane, Mohammad EI-Haij, and PaulLu (200), Fast paralled Association Rule Mining without Cadidacy Generation, University of Alberta, Edmonton, Alberta, Canada Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 67 http://www.lrc-tnu.edu.vn ... nghiên cứu: Các kiến thức phương pháp phát luật kết hợp sở làm luận văn thạc sỹ Các kết nghiên cứu đạt được: - Tổng kết kiến thức phương pháp khai phá luật kết hợp - Luận văn trở thành tài liệu... bày luật kết hợp, trình bày khái niệm, định nghĩa, tính chất luật kết hợp Chương 3: Trình bày số kỹ thuật khai thác luật kết hợp Chương 4: Cài đặt chương trình tìm luật kết hợp, ứng dụng quản... số phương pháp thông dụng là: Phân cụm liệu, phân lớp liệu, phương pháp hồi quy khai phá luật kết hợp a Phân cụm liệu: Mục tiêu phương pháp phân cụm liệu nhóm đối tượng tương tự tập liệu vào