Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 60 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
60
Dung lượng
1,34 MB
Nội dung
NHIỆM VỤ ĐỒ ÁN Họ Tên: Vũ Thị Tuyến Mã số sinh viên: E05351 Chuyên ngành: Hệ Thống Thông Tin Lớp: Hệ Thống Thông Tin Tên đồ án: Tích hợp khai thác liệu với hệ thống quản lý giao dịch công ty trách nhiệm hữu hạn Thiên Trường Nhiệm vụ đồ án: - Khảo sát hệ thống quản lý giao dịch công ty trách nhiệm hữu hạn Thiên Trường - Tìm hiểu khai phá liệu luật kết hợp khai phá liệu - Xây dựng hệ thống tích hợp khai thác liệu với hệ thống quản lý giao dịch công ty trách nhiệm hữu hạn Thiên Trường Ngày giao đồ án: Ngày 22 tháng 03 năm 2011 Ngày hoàn thành đồ án: Ngày 13 tháng 06 năm 2011 MỤC LỤC MỞ ĐẦU Trong năm gần đây, phát triển mạnh mẽ công nghệ thông tin làm cho khả thu thập lưu trữ thông tin hệ thống thông tin tăng nhanh cách nhanh chóng Bên cạnh đó, việc tin học hóa cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu cần lưu trữ khổng lồ Hàng triệu sở liệu sử dụng hoạt động sản xuất, kinh doanh, quản lý , có nhiều sở liệu cực lớn cỡ Gigabyte, chí Terabyte Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kỹ thuật công cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, kỹ thuật khai phá liệu trở thành lĩnh vực thời CNTT (công nghệ thông tin) giới nói chung Việt Nam nói riêng Khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác nhau: marketing, tài chính, ngân hàng bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn Mục đích nghiên cứu đề tài tìm hiểu kỹ thuật khai phá liệu vấn đề liên quan đến khai phá liệu sử dụng luật kết hợp xây dựng ứng dụng tích hợp khai thác liệu với hệ thống quản lý giao dịch công ty trách nhiệm hữu hạn Thiên Trường Nội dung nghiên cứu gồm chương chính: Chương 1: Tổng quan khai phá liệu Trình bày tổng quan khám phá tri thức khai phá liệu, có đề cập đến khái niệm tri thức, liệu, trình khám phá tri thức, nhiệm vụ kỹ thuật khám phá tri thức Chương 2: Luật kết hợp Trình bày luật kết hợp, trình bày khái niệm, định nghĩa, tính chất luật kết hợp Chương 3: Xây dựng chương trình tích hợp khai thác liệu với hệ thống quản lý giao dịch công ty TNHH Thiên trường DANH MỤC CÁC KÝ HIỆU VIẾT TẮT Ký hiệu Diễn giải Ck Tập k-itemset ứng viên C’k Tập k-itemset ứng viên mà TID giao dịch sinh liên kết với tập mục ứng viên Conf D Item Itemset I KDD Độ tin cậy (Confidence Cơ sở liệu giao dịch Mục Tập mục Tập mục Phát tri thức sở liệu (Knowledge Discovery in CSDL Database) Cơ sở liệu (Database) k-itemset Lk k-itemset Tập k-itemset phổ biến minconf Ngưỡng tin cậy tối thiểu minsup Ngưỡng hỗ trợ tối thiểu sup Độ hỗ trợ (support) T Giao dịch (transaction) Tid Định danh giao dịch Tid-List X ⇒Y Danh sách định danh giao dịch Luật kết hợp (với X tiền đề, Y hệ quả) DANH MỤC CÁC HÌNH VẼ VÀ BẢNG CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Phát tri thức khai phá liệu Trong thời đại bùng nổ công nghệ thông tin, công nghệ lưu trữ liệu ngày phát triển tạo điều kiện cho đơn vị thu thập liệu tốt Đặc biệt lĩnh vực kinh doanh, doanh nghiệp nhận thức tầm quan trọng việc nắm bắt xử lý thông tin, nhằm giúp chủ doanh nghiệp việc vạch chiến lược kinh doanh kịp thời mang lại lợi nhuận to lớn cho doanh nghiệp Tất lý khiến cho quan, đơn vị doanh nghiệp tạo lượng liệu khổng lồ cỡ Gigabyte chí Terabyte cho riêng Khi lưu trữ liệu khổng lồ thấy chắn phải chứa giá trị định Tuy nhiên có số lượng nhỏ liệu phân tích, số lại phải làm với chúng, họ tiếp tục trình thu thập kiến thức với chi phí tốn Trong môi trường cạnh tranh nay, ngày cần nhiều thông tin với tốc độ nhanh để trợ giúp việc định Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm, khuynh hướng phát triển kỹ thuật phát tri thức khai phá liệu Thông thường coi liệu dãy bit, số ký hiệu, “đối tượng” với ý nghĩa gửi cho chương trình dạng định Chúng ta sử dụng bit để đo lường thông tin xem liệu lọc bỏ dư thừa, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Chúng ta xem tri thức thông tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ hiểu ra, phát hiện, học Nói cách khác, tri thức coi liệu có độ trừu tượng tổ chức cao Phát tri thức sở liệu qui trình nhận biết mẫu mô hình liệu với tính năng: hợp thức, mới, khả ích, hiểu Còn khai thác liệu bước qui trình phát tri thức gồm có thuật toán khai thác liệu chuyên dùng số qui định hiệu tính toán chấp nhận để tìm mẫu mô hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu mô hình tồn sở liệu bị che khuất hàng “núi” liệu Khai phá liệu trình tìm kiếm mẫu mới, thông tin tiềm ẩn mang tính dự đoán khối liệu lớn Những công cụ khai phá liệu dự đoán xu hướng tương lai, tri thức mà khai phá liệu mang lại giúp cho công ty kinh doanh định kịp thời trả lời câu hỏi lĩnh vực kinh doanh, mà trước tốn nhiều thời gian để xử lý Sự phân tích cách tự động mang tính dự báo khai thác liệu có ưu hẳn so với phân tích thông thường dựa kiện khứ hệ hỗ trợ định trước Với tất ưu điểm trên, khai phá liệu chứng tỏ tính hữu dụng cúa môi trường kinh doanh đầy tính cạnh tranh ngày ứng dụng rộng rãi lĩnh vực thương mại, tài chính, điều trị y học, giáo dục, viễn thông v v 1.2 Quá trình phát tri thức từ sở liệu Quá trình phát tri thức chia thành bước sau: Hình 1.1: Các bước trình phát tri thức - Làm liệu (Data cleaning): Loại bỏ liệu nhiễu liệu không thích hợp - Tích hợp liệu (Data integration): Tích hợp liệu từ nguồn khác - Chọn liệu (Data Selection): Chọn liệu liên quan trực tiếp đến nhiệm vụ - Chuyển đổi liệu (Data Transformation): Chuyển liệu dạng phù hợp cho việc khai phá - Khai phá liệu (Data mining): Các kỹ thuật áp dụng để trích xuất thông tin có ích mẫu điển hình liệu - Đánh giá mẫu (Pattern evaluation): Đánh giá mẫu tri thức thu - Trình diễn liệu (Knowledge Presentation): Biểu diễn tri thức khai phá cho người sử dụng 1.3 Các giai đoạn trình khám phá tri thức từ sở liệu Quá trình khám phá tri thức chia thành giai đoạn: Đưa kết vào thực tiễn Minh họa đánh giá tri thức Khai thác liệu–trích mẫu/mô hình 2.Thu thập tiền xử lý liệu Hiểu xác định vấn đề Hình 1.2: Quá trình khám phá tri thức từ sở liệu a) Giai đoạn 1: Hiểu xác định vấn đề Đây trình mang tính định tính với mục đích xác định lĩnh vực yêu cầu phát tri thức xây dựng toán tổng kết Trong thực tế sở liệu chuyên môn hóa phân chia theo lĩnh vực khác sản phẩm, kinh doanh, tài chính, Với tri thức phát có giá trị lĩnh vực lại không mang nhiều ý nghĩa lĩnh vực khác Như vậy, việc xác định lĩnh vực định nghĩa toán giúp định hướng cho giai đoạn thu thập tiền xử lý liệu b) Giai đoạn 2: Thu thập tiền xử lý liệu Các sở liệu thu thường chứa nhiều thuộc tính lại không đầy đủ, không ,có nhiều lỗi giá trị đặc biệt Vì vậy, giai đoạn thu thập tiền xử lý liệu trở lên quan trọng trình phát tri thức từ sở liệu Người ta chia giai đoạn thành công đoạn như: lựa chọn, làm sạch, làm giàu, mã hóa liệu: - Chọn lọc liệu: Đây bước chọn lọc liệu có liên quan nguồn liệu khác Các thông tin chọn lọc cho có chứa nhiều thông tin liên quan đến lĩnh vực cần phát tri thức mà xác định giai đoạn đặt vấn đề - Làm liệu: Trên thực tế liệu lấy từ nhiều nguồn khác thường không đồng Do đó, cần có biện pháp xử lý để đưa sở liệu thống phục vụ cho việc khai thác Nhiệm vụ làm liệu bao gồm: + Điều hòa liệu: Nhằm giảm bớt tính không quán liệu lấy từ nhiều nguồn khác Thông thường sử dụng phương pháp khử trường hợp trùng lặp liệu thống liệu + Xử lý giá trị khuyết: Tính không đầy đủ liệu gây tượng liệu chứa giá trị khuyết.Thông thường lựa chọn phương pháp khác để thực việc xử lý giá trị khuyết như:bỏ qua có giá trị khuyết,điểm bổ sung tay,… 10 trước có nhiều hàng tồn kho,hoặc khách hàng có nhu cầu mua hàng hàng lại chưa nhập Vấn đề cấp thiết cho công ty cần có phần mềm hỗ trợ cho việc bán hàng có hiệu Ví dụ qua việc phân tích thói quen mua hàng khách hàng, phần mềm hỗ trợ biết mặt hàng bán kèm với hàng để từ mà nhập xếp với cho có hiệu Như mua laptop người ta mua thêm chuột ngoài… Việc ứng dụng luật kết hợp phân tích thói quen mua hàng khách hàng nhờ giúp cho công ty nắm bắt mặt hàng bán chạy nhất, mặt hàng kèm với mặt hàng để tăng doanh thu bán hàng 3.2 Yêu cầu cài đặt thuật toán - Về máy tính: + Cấu hình tối thiểu Ram 512 + Ổ cứng 2G trống + CPU P4 1.7Ghz - Về phần mềm: + Cài đặt Visual Studio 2005 Visual Studio 2008 + SQL sever 2005 + DOT.NET 2.0 46 3.3 Giao diện sở liệu 3.3.1 Giao diện sở liệu Hình 3.1: Giao diện nhập CSDL Mô tả số chức giao diện: 47 Hệ Thống: Có chức thoát khỏi chương trình Quản Lý Khách : Có chức thêm, lưu, sửa, xóa liệu cho khách hàng Quản Lý Hàng: : Có chức thêm, lưu, sửa, xóa liệu cho hàng hóa Lập Hóa Đơn: : Có chức thêm, lưu, sửa, xóa liệu cho hóa đơn DM Nhà CC: : Có chức thêm, lưu, sửa, xóa liệu cho nhà cung cấp GHI DL: Có chức ghi liệu vào file XML Khai Phá DL : Có chức khai phá liệu ghi dạng XML 3.3.2 Bảng danh mục nhà cung cấp Hình 3.2: Danh mục nhà cung cấp Một số thuộc tính bảng là: 48 MaNCC: Mã nhà cung cấp hàng hóa TenNCC: Tên nhà cung cấp hàng hóa DiaChi: Địa nhà cung cấp hàng hóa DienThoai: Điện thoại nhà cung cấp Email: Email cua nhà cung cấp 3.3.3 Bảng danh mục khách hàng Hình 3.3: Danh mục khách hàng 49 Một số thuộc tính bảng là: MaKH: Mã khách hàng TenKH: Tên khách hàng SoCMND: Số chứng minh nhân dân DiaChi: Địa khách hàng DienThoai: Điện thoại khách hàng Email: Email khách hàng 3.3.4 Bảng danh mục hàng hóa 50 Hình 3.4: Danh mục hàng hóa Một số thuộc tính bảng là: MaHang: Mã hàng hoá MaNCC: Mã nhà cung cấp hàng hoá TenHang: Tên hàng hoá MoTa: Mô tả hàng ChungLoai: Chủng loại hàng hóa 51 3.3.5 Bảng danh mục hóa đơn Hình 3.5: Danh mục hóa đơn Một số thuộc tính bảng là: MaHD: Mã hoá đơn MaKH: Mã khách hàng NgayHD: Ngày nhập hoá đơn Ghichu: Ghi hóa đơn 52 3.3.6 Bảng chi tiết hóa đơn Hình 3.6: Chi tiết hóa đơn Một số thuộc tính bảng là: MaHD: Mã hoá đơn MaHang: Mã hàng hóa SoLuong: Số lượng hàng hóa 53 3.3.7 Ghi liệu dạng XML Hình 3.7 Ghi DL XML 54 3.4 Giao diện khai phá liệu Hình 3.8: Giao diện khai phá liệu 55 3.4.1 Kết nối liệu Hình 3.9 Kết nối liệu 56 3.4.2 Dữ liệu XML thêm Hình 3.10: Thêm liệu xml 57 3.4.3 Kết sau phân tích Minsup =10, Minconf=20 58 KẾT LUẬN Có thể nói rằng, khai phá liệu kỹ thuật quan trọng, mang tính thời không Việt Nam mà CNTT giới Sự bùng nổ thông tin, liệu toàn cầu, mặt đời sống xã hội với phát triển ứng dụng ngày rộng rãi công nghệ thông tin lĩnh vực khiến cho nhu cầu xử lý khối liệu khổng lồ để kết xuất thông tin, tri thức hữu ích cho người sử dụng cách tự động, nhanh chóng xác trở thành nhân tố quan trọng hàng đầu cho thành công quan, tổ chức cá nhân giới Khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác nhau: marketing, tài chính, ngân hàng bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn Một phương pháp quan trọng kỹ thuật khai phá liệu mà đề tài sâu tìm hiểu khai phá luật kết hợp Mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu sở liệu Mẫu đầu giải thuật khai phá liệu luật kết hợp tìm Phương pháp sử dụng hiệu lĩnh vực maketing có chủ đích, phân tích định, quản lý kinh doanh, phân tích giá thị trường … Do thời gian làm đề tài có giới hạn khả hạn chế, nên đề tài nhiều khiếm khuyết Tôi kính mong đóng góp bảo tận tình thầy cô để đề tài em hoàn thiện Cuối xin chân thành cảm ơn thầy cô nhà trường, thầy cô môn hệ thống thông tin đặc biệt cô Đỗ Thị Bắc tận tình bảo giúp đỡ để hoàn thành đồ án tốt nghiệp 59 TÀI LIỆU THAM KHẢO [1] TS Đỗ Phúc, Khai thác liệu, Nhà xuất Đại Học Quốc Gia TP HCM 2005) [2] Nguyễn Đức Cường, Tổng quan khai phá liệu ( Đại học Bách Khoa TPHCM) [3] Ths Nguyễn Hoàng Tú Anh, Khai thác liệu ứng dụng ( Đại học khoa học tự nhiên TPHCM) [4] Ho Tu Bao, Introduction to Knowledge Discovery and Data Mining, Institute of Information Technology [5] cô Đỗ Thị Bắc, Bài giảng môn nhà kho khai phá liệu [6] phạm Hữu Khang, Kỹ thuật lập trình C#.Net, Nhà xuất Lao ĐộngXã Hội [7] Từng bước học lập trình Visual C#.Net, Nhà xuất Lao Động- Xã Hội [8] Ky_Thuat_Lap_Trinh_CSharp_2.0 dịch từ Professional C#, 2nd Edition, Xuất Wrox Press Ltd [10] C# 2005 Tap Lap Trinh Windows Forms [11] Đỗ Phúc (2002), Nghiên cứu phát triển số thuật giải, mô hình ứng dụng khai thác liệu (data mining) Luận án tiến sĩ toán học, Đại học Quốc gia TP.Hồ Chí Minh [12] R Agrawal and R Srikant (1994) Fast algorithms for mining association rules The International Conference on Very Large Databases, pages 487– 499 60 [...]... Kiến trúc của hệ thống khai phá dữ liệu Kiến trúc của hệ thống khai phá dữ liệu có các thành phần sau: – Cơ sở dữ liệu, Kho dữ liệu (Database, data warehouse): Đó là một hoặc tuyển tập các cơ sở dữ liệu, kho dữ liệu Các kỹ thuật làm sạch, tích hợp, lọc dữ liệu có thể thực hiện trên dữ liệu – Cơ sở dữ liệu hoặc kho dữ liệu phục vụ (Database or data warehouse server): Là kết quả lấy dữ liệu có liên quan... kiết xuất, biến đổi và di chuyển dữ liệu Các hệ thống con đó có thể thực thi định kỳ làm tươi dữ liệu phục vụ cho việc phân tích c) Giai đoạn 3: Khai thác dữ liệu Giai đoạn này được bắt đầu sau khi dữ liệu đã thu thập được và tiến hành xử lý Công việc chủ yếu ở giai đoạn này là xác định được bài toán khai thác dữ liệu tiến hành lựa chọn phương pháp khai thác phù hợp với dữ liệu được tách ra từ tri thức... cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác b) Phân lớp dữ liệu: Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình phân lớp dữ liệu gồm hai bước: Xây dựng mô hình và sử dụng mô hình để phân lớp dữ liệu – Bước 1: Một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu sẵn có Mỗi mẫu dữ liệu. .. thuật toán khai phá dữ liệu chuyên dùng dưới một số quy định hiệu quả tính toán chấp nhận được để tìm ra các mẫu và các mô hình trong dữ liệu Như vậy, mục đích của khám phá tri thức và khai phá dữ liệu là quá trình tìm ra các mẫu hoặc mô hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi số lượng dữ liệu khổng lồ 1.4.2 Nhiệm vụ của khai phá dữ liệu Mục đích của khai phá dữ liệu là... được Quá trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần giải quyết Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu được Bước tiếp theo là chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá dữ liệu để tìm được... các dữ liệu mô phỏng và quan sát được (Stolorz et al.1994) Ngoài ra, khai phá dữ liệu còn được ứng dụng trong các lĩnh vực như: trong y tế, marketing, ngân hàng, viễn thông, du lịch, internet,… 1.4.4 Các kỹ thuật khai phá dữ liệu Kỹ thuật khai phá dữ liệu được chia làm 2 nhóm chính: - Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả về tính chất hoặc các đặc tính chung của dữ liệu trong cơ sở dữ liệu. .. độ đo và tương tác với modul khai phá dữ liệu để tập trung vào tìm các mẫu quan tâm – Giao diện người dùng ( Graphical user interface): Đây là modul giữa người dùng và hệ thống khai phá dữ liệu Cho phép người dùng tương tác với hệ thống trên cơ sở những truy vấn hay tác vụ, cung cấp thông tin cho việc tìm kiếm 1.4.6 Quá trình khai phá dữ liệu Các giải thuật khai phá dữ liệu thường được mô tả như những... sử dụng rất hiệu quả trong các lĩnh vực như maketing có chủ đích, phân tích quyết định, quản lý kinh doanh, phân tích giá thị trường 1.4.5 Kiến trúc của hệ thống khai phá dữ liệu 17 Khai phá dữ liệu là một giai đoạn trong quá trình phát hiện tri thức từ số lượng lớn dữ liệu lưu trữ trong cơ sở dữ liệu, kho dữ liệu hoặc các nơi lưu trữ khác Bước này có thể tương tác lẫn nhau giữa người sử dụng hoặc... pháp thống kê cần có sự hướng dẫn của người dùng để xác định phân tích dữ liệu như thế nào và ở đâu Sự khác nhau cơ bản giữa khai phá dữ liệu và thống kê ở chỗ khai phá dữ liệu là một phương tiện được dùng bởi người sử dụng đầu cuối chứ không phải là các nhà thống kê Khai phá dữ liệu tự động quá trình thống kê một cách có hiệu quả, vì vậy làm nhẹ bớt công việc của người dùng đầu cuối, tạo ra một công. .. quả thu được của giai đoạn trước theo kiểu thác nước 1.4 Khai phá dữ liệu 1.4.1 Khái niệm Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 80 Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu) Về bản chất khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các ... liệu thưa, với sở liệu dạy thuật toán hiệu 44 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH TÍCH HỢP KHAI THÁC DỮ LIỆU VỚI HỆ THỐNG QUẢN LÝ GIAO DỊCH TẠI CÔNG TY TNHH THIÊN TRƯỜNG 3.1 Phát biểu toán Với phát... khái niệm, định nghĩa, tính chất luật kết hợp Chương 3: Xây dựng chương trình tích hợp khai thác liệu với hệ thống quản lý giao dịch công ty TNHH Thiên trường DANH MỤC CÁC KÝ HIỆU VIẾT TẮT Ký hiệu... dựng ứng dụng tích hợp khai thác liệu với hệ thống quản lý giao dịch công ty trách nhiệm hữu hạn Thiên Trường Nội dung nghiên cứu gồm chương chính: Chương 1: Tổng quan khai phá liệu Trình bày