1. Trang chủ
  2. » Luận Văn - Báo Cáo

KHAI PHÁ DỮ LIỆU TÌM RA TRI THỨC VÀ ỨNG DỤNG THUẬT TOÁN APRIORI NHẰM TÌM KIẾM CÁC GIẢI PHÁP KINH DOANH CHO CÔNG TY UNILEVER VIỆT NAM

53 1,3K 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 53
Dung lượng 536,77 KB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN    NGUYỄN NGỌC LÂM Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 KHAI PHÁ DỮ LIỆU TÌM RA TRI THỨC VÀ ỨNG DỤNG THUẬT TOÁN APRIORI NHẰM TÌM KIẾM CÁC GIẢI PHÁP KINH DOANH CHO CÔNG TY UNILEVER VIỆT NAM BÁO CÁO CHUYÊN ĐỀ CÔNG NGHỆ TRI THỨC KHÓA LUẬN TỐT NGHIỆP THẠC SĨ TP. Hồ Chí Minh – Năm 2015 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN    HỌC VIÊN: NGUYỄN NGỌC LÂM MÃ SỐ: CH1101098 Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 GVPT: GS.TSKH. HOÀNG VĂN KIẾM BÁO CÁO CHUYÊN ĐỀ CÔNG NGHỆ TRI THỨC KHÓA LUẬN TỐT NGHIỆP THẠC SĨ LỜI MỞ ĐẦU “We are drowning in data, but starving for knowledge” (Tạm dịch: Chúng ta đang chết chìm trong dữ liệu nhưng chết đói vì tri thức) Trong vài thập niên gần đây, cùng với sự thay đổi và phát triển không ngừng của ngành công nghệ thông tin, luồng thông tin được lưu trữ tăng chóng mặt, ước tính cứ khoảng 20 tháng lượng thông tin trên thế giới lại tăng gấp đôi. Do đó, dẫn đến sự bùng nổ thông tin. Chính vì vậy, các chuyên gia cho rằng, hiện nay “Chúng ta đang chết chìm trong dữ liệu nhưng chết đói vì tri thức”. Những người ra quyết định trong các tổ chức tài chính, thương mại, khoa học, … Không muốn bỏ sót bất cứ thông tin nào, họ thu thập, lưu trữ tất cả mọi thông tin vì cho rằng trong nó ẩn chứa những giá trị nhất định nào đó. Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích. Từ đó, các kỹ thuật khai phá dữ liệu đã trở thành một lĩnh vực quan trọng của nền CNTT thế giới hiện nay nói chung và Việt Nam nói riêng. Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống như: marketing, tài chính, ngân hàng, bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích to lớn. Mục tiêu của chuyên đề là tìm hiểu các kỹ thuật khai phá dữ liệu, các vấn đề liên quan đến khai phá luật kết hợp nhằm phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu và tri thức phục vụ cho việc hoạch định chiến lược kinh doanh của công ty Unilever Việt Nam. Nội dung của chuyên đề bao gồm 4 chương, chủ yếu phân tích, tổng hợp và sắp xếp những nội dung then chốt nhất trong khoảng thời gian cho phép.  Chương 1- KHAI PHÁ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC Trình bày tổng quan về khai phá dữ liệu và khám phá tri thức, trong đó có đề cập đến các khái niệm, vai trò, quá trình, các kỹ thuật và những thách thức trong khai phá dữ liệu.  Chương 2- KHAI THÁC TẬP PHỔ BIẾN & LUẬT KẾT HỢP Trình bày các định nghĩa, tính chất và thuật toán Apriori để khai thác tập phổ biến & luật kết hợp.  Chương 3- ỨNG DỤNG THUẬT TOÁN APRIORI NHẰM TÌM KIẾM CÁC GIẢI PHÁP KINH DOANH CHO CÔNG TY UNILEVER VN Phân tích, cài đặt thuật toán Apriori nhằm tìm kiếm các giải pháp kinh doanh cho công ty Unilever Việt Nam.  Chương 4- KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Tổng kết lại những kết quả đạt được cũng như chưa đạt được trong chuyên đề này. Đồng thời, khắc phục những vấn đề chưa đạt được và đề ra những mục tiêu mới để phát triển chuyên đề trong thời giai tới. LỜI CẢM ƠN Với lòng biết ơn sâu sắc nhất, em xin gửi đến quý Thầy Cô Khoa Học Máy Tính - Trường Đại Học Công Nghệ Thông Tin đã đem hết tâm huyết của mình truyền đạt vốn kiến thức quý báu cho chúng em. Em xin chân thành cảm ơn GS.TSKH Hoàng Văn Kiếm đã truyền đạt kiến thức chuyên đề môn Công nghệ tri thức & ứng dụng qua đó giúp em có đầy đủ kiến thức để hoàn thành chuyên đề này. Nhân đây em cũng xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, đồng nghiệp đã động viên tinh thần cho em trong suốt quá trình học tập của mình. Sau cùng, em xin kính chúc quý Thầy Cô Khoa Học Máy Tính cùng GS.TSKH Hoàng Văn Kiếm dồi dào sức khỏe để thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau. Một lần nữa em xin chân thành cảm ơn ! TP. HCM, ngày 23 tháng 10 năm 2013 Học viên thực hiện (ký và ghi rõ họ tên) Nguyễn Ngọc Lâm NHẬN XÉT CỦA GIẢNG VIÊN PHỤ TRÁCH ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… TP. HCM, ngày tháng năm 2013 Giảng viên phụ trách (ký và ghi rõ họ tên) GS. TSKH Hoàng Văn Kiếm MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT ST Từ viết tắt Giải nghĩa T 1 CSDL Cơ sở dữ liệu 2 I Tập các mục dữ liệu 3 Minsup Độ hỗ trợ tối thiểu 4 Minconf Độ tin cậy tối thiểu 5 KDD Knowledge Discovery in Database 6 TID Định danh của giao tác 7 T Giao tác 8 k-itemset Một itemset có k items 9 L k Tập phổ biến k-itemsets 10 C k Tập ứng viên k-itemsets 11 k C Tập ứng viên k-itemsets mà tập giao tác có chứa nó. DANH MỤC CÁC BẢNG Số hiệu Tên Trang 2.1 CSDL giao dịch D 21 2.2 Tập phổ biến thỏa minsupp = 50% 26 2.3 Luật kết hợp thỏa minconf = 100% 27 2.4 CSDL giao dịch 31 2.5 Ma trận nhị phân biểu diễn CSDL D 33 2.6 Vector biểu diễn nhị phân cho tập 1 thuộc tính 33 2.7 Vector biểu diễn nhị phân cho tập 2 thuộc tính 34 2.8 Vector biểu diễn nhị phân cho tập 3 thuộc tính 34 3.1 Hệ thống các sản phẩm của công ty 40 DANH SÁCH CÁC HÌNH VẼ Số hiệu Tên Trang 1.1 Các giai đoạn của qui trình khám phá tri thức 2 1.2 Qui trình khám phá tri thức 4 1.3 Đồ thị phương trình hồi quy tuyến tính 9 2.1 Sơ đồ so sánh thuật toán Apriori_TID và Apriori 36 3.1 Form màn hình chính khi chạy ứng dụng 42 3.2 Form giao diện thuật toán Apriori 43 3.3 Nhập dữ liệu bằng Textbox 43 3.4 Danh sách các mặt hàng 43 3.5 Nhập liệu trực tiếp vào lưới dataGridView 44 3.6 Ma trận dữ liệu dạng nhị phân 45 3.7 Tập phổ biến 45 3.8 Tập luật kết hợp 45 [...]... – KHAI PHÁ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC 1.1 Định nghĩa 1.1.1 Khai phá dữ liệu (Data Mining) Khai phá dữ liệu là một khái niệm ra đời vào cuối những năm 80 của thế kỷ XX Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tìm ẩn trong các tập dữ liệu lớn (các kho dữ liệu) Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các. .. lượng lớn dữ liệu để khám phá ra các  mẫu và các luật” Định nghĩa của Wegman: Khai phá dữ liệu là sử dụng các kỹ thuật tính toán để phân tích dữ liệu với sự tác động rất ít của con người” Tóm lại, Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu... trong tập dữ liệu đó” Khai phá dữ liệu là một bước chủ chốt trong các bước của quá trình khám phá tri thức (Knowledge Discovery in Database – KDD) 1.1.2 Khám phá tri thức (Knowledge Discovery in Database – KDD) Khám phá tri thức là quá trình tìm ra các tri thức mới, các tri thức hữu ích ở dạng tìm năng trong một tập dữ liệu khổng lồ và phức tạp Có thể coi khai phá dữ liệu và khám phá tri thức như hai... phá tri thức có thể chia thành 6 bước: bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra 14 Hình 1.2 Qui trình khám phá tri thức Bước 1: Gom dữ liệu (Gathering) Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu Đây là bước được khai phá trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web Bước 2: Trích lọc dữ liệu. .. sau khi dữ liệu đã được thu thập và tiến hành xử lý Trong giai đoạn này, công việc chủ yếu là xác định được bài toán khai phá dữ liệu, tiến hành lựa chọn các phương pháp khai thác phù hợp với dữ liệu có được và rút trích các tri thức cần thiết Khai phá dữ liệu là giai đoạn thiết yếu, trong đó các phương pháp khai thác phù hợp sẽ được áp dụng để trích xuất ra các mẫu dữ liệu 1.1.4 Phân tích và kiểm... số ứng dụng trong lĩnh vực khai phá dữ liệu Khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực như: Thống kê, trí tuệ nhân tạo, hệ chuyên gia, CSDL, Đặc biệt, khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu, luật, Khai phá dữ liệu được sử dụng rất nhiều trong các lĩnh vực khoa học, kinh doanh, , đặc biệt trong các. .. tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong cơ sở dữ liệu (CSDL) lớn” 11  Định nghĩa của Mitchell: Khai phá dữ liệu là việc sử dụng các dữ liệu đã có để khám phá các quy tắc và đưa đến các quyết định”  Định nghĩa của Groth: Khai phá dữ liệu là một quá trình xác định các  mẫu ẩn, xu thế và mối quan hệ của dữ liệu Định nghĩa của Berry & Linoff: Khai phá dữ liệu là quá trình khám phá và. .. tập dữ liệu Một số định nghĩa được các nhà khoa học nghiên cứu trong lĩnh vực khai phá dữ liệu đưa ra như sau:  Định nghĩa của Ferrurra: Khai phá dữ liệu là tập hợp các phương pháp được dùng trong tiến trình khám phá tri thức để tìm ra sự khác biệt các mối liên hệ và các mẫu chưa biết bên trong dữ liệu  Định nghĩa của Parsaye: Khai phá dữ liệu là quá trình trợ giúp quyết định, trong đó chúng ta tìm. .. cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra 1.4 Các nhiệm vụ chính của khai phá dữ liệu Khai phá dữ liệu là chiết xuất ra các tri thức có lợi phục vụ cho kinh doanh hay cho nghiên cứu khoa học Do đó, ta có thể xem mục đích của khai phá dữ liệu sẽ là mô tả các sự kiện và dự... mô tả từ các tập luật, mô hình đồ thị hoặc ngôn ngữ tự nhiên hay sử dụng các kỹ thuật trực quan hóa dữ liệu và tri thức, 1.1.1.3 Khả năng tương tác với người sử dụng Rất nhiều công cụ và phương pháp khai phá dữ liệu không thực sự có khả năng tương tác với người sử dụng và không dễ dàng kết hợp với các tri thức đã biết trước đó Việc sử dụng tri thức miền là rất quan trọng trong khai phá dữ liệu Có nhiều . DỤNG THUẬT TOÁN APRIORI NHẰM TÌM KIẾM CÁC GIẢI PHÁP KINH DOANH CHO CÔNG TY UNILEVER VN Phân tích, cài đặt thuật toán Apriori nhằm tìm kiếm các giải pháp kinh doanh cho công ty Unilever Việt Nam. . HỌC CÔNG NGHỆ THÔNG TIN    NGUYỄN NGỌC LÂM Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 KHAI PHÁ DỮ LIỆU TÌM RA TRI THỨC VÀ ỨNG DỤNG THUẬT TOÁN APRIORI NHẰM TÌM KIẾM CÁC GIẢI PHÁP KINH DOANH. thuật nhằm phát hiện ra các thông tin có giá trị tìm ẩn trong các tập dữ liệu lớn (các kho dữ liệu) . Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật

Ngày đăng: 04/07/2015, 03:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w