Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 66 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
66
Dung lượng
2,83 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THỦY ỨNG DỤNG BUSINESS INTELLIGENCE SQL SERVER 2008 TRONG THƢƠNG MẠI ĐIỆN TỬ LUẬN VĂN THẠC SĨ Hà Nội - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ o0o NGUYỄN THỊ THỦY ỨNG DỤNG BUSINESS INTELLIGENCE SQL SERVER 2008 TRONG THƢƠNG MẠI ĐIỆN TỬ Ngành : Công nghệ thông tin Chuyên ngành : Kỹ thuật phần mềm Mã số : 60480103 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS.NGUYỄN HÀ NAM Hà Nội - 2014 LỜI CAM ĐOAN Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân tôi, không sao chép lại của người khác. Trong toàn bộ nội dung của luận văn, những điều đã trình bày là của cá nhân tôi hoặc là được tôi tổng hợp từ nhiều nguồn tài liệu. Tất cả các nguồn tài liệu tham khảo có xuất xứ rõ ràng và được trích dẫn hợp pháp. Tôi xin chịu toàn bộ trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của tôi. Hà Nội, tháng 10 năm 2014 Nguyễn Thị Thủy LỜI CẢM ƠN Lời đầu tiên tôi xin gửi lời cảm ơn chân thành nhất tới PGS.TS.Nguyễn Hà Nam, Đại học Công Nghệ, Đại học Quốc Gia Hà Nội - đã dành rất nhiều thời gian quý báu để tận tình hướng dẫn, chỉ bảo và định hướng cho tôi trong suốt thời gian hoàn thành luận văn. Tôi xin bày tỏ lòng biết ơn tới các thầy cô giáo Khoa Công nghệ thông tin - Trường Đại học Công nghệ- ĐHQGHN đã truyền đạt cho tôi những kiến thức, kinh nghiệm quý báu trong suốt thời gian học tập tại trường. Tôi xin chân thành cảm ơn bạn bè và gia đình tôi, những người thân yêu luôn luôn ở bên khuyến khích, động viên và ủng hộ tôi trong học tập cũng như trong cuộc sống. Do thời gian có hạn nên luận văn này không thể tránh khỏi những thiếu sót. Rất mong nhận được sự đóng góp ý kiến của các thầy cô giáo, bạn bè, các quý vị quan tâm tới vấn đề này để luận văn được hoàn thiện hơn. Trân trọng cảm ơn! Hà Nội, tháng 10 năm 2014 Nguyễn Thị Thủy MỤC LỤC DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ x BẢNG CÁC CHỮ VIẾT TẮT xii LỜI MỞ ĐẦU 1 Chƣơng 1. Giới thiệu 3 1.1. Tổng quan về Business Intelligence 3 1.2. Một số hệ thống BI đang đƣợc ứng dụng 5 1.3. Hƣớng tiếp cận 6 1.3.1. Ứng dụng Business Intellegence trong thương mại điện tử 6 1.3.2. Hướng nghiên cứu của đề tài 8 1.3.3. Đề tài đã thực hiện được một số nội dung sau 8 Chƣơng 2. Các khái niệm liên quan đến Business Intelligence 9 2.1. Cơ sở lý thuyết 9 2.1.1. Kho dữ liệu 9 2.1.2. Tổng quan về khai phá dữ liệu 14 2.2. Giới thiệu bộ công cụ BI trong hệ quản trị Ms Sql Server 2008 16 2.3.1. Dịch vụ tích hợp (Integration services) 17 2.3.2. Dịch vụ báo cáo (Reporting service) 17 2.3.3. Dịch vụ phân tích (Analysis Services) 18 2.3. Một số kỹ thuật khai phá dữ liệu 18 2.3.1. Thuật toán hồi quy tự động (Auto Regression Algorithm) 20 2.3.2. Luật kết hợp (Association Rule) 21 Chƣơng 3. Ứng dụng BI Sql Server trong bài toán thƣơng mại điện tử 25 3.1. Bài toán thực tế và giải pháp giải quyết 25 3.2. Mô tả và chuyển đổi dữ liệu 25 3.3. Xây dựng kho dữ liệu 26 3.4. Xây dựng các báo cáo biểu diễn dữ liệu bằng Ms Reporting Service 28 3.4.1. Báo cáo tổng hợp kinh doanh 29 3.4.2. Một vài dạng báo cáo động khác 34 3.5. Xây dựng các mô hình khai phá dữ liệu 40 3.5.1. Mô hình khai phá dữ liệu dự đoán xu hướng 40 3.5.2. Mô hình khai phá dữ liệu phân tích giỏ hàng 46 Kết luận – Hƣớng nghiên cứu 55 Tài liệu tham khảo 56 DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ Hình 1.1. Mô hình chung của BI 3 Hình 1.2. Thành phần chính hệ thống BI 5 Hình 2.1. Kiến trúc kho dữ liệu 9 Hình 2.2. Sơ đồ hình sao 11 Hình 2.3. Sơ đồ bông tuyết 12 Hình 2.4. Ví dụ về mô hình dữ liệu 3 chiều 13 Hình 2.5 Mô tả chi tiết các bước của quá trình khám phá tri thức 15 Bảng 2.6. Ứng dụng của các giải thuật khai phá trong Sql Server 2008 19 Hình 3.1. Cơ sở dữ liệu thương mại điện tử 26 Bảng 3.2. Mô tả cơ sở dữ liệu thương mại điện tử 27 Hình 3.3. Kho dữ liệu giao dịch mua bán 27 Hình 3.4. Báo cáo tổng hợp kinh doanh 29 Hình 3.5. Biểu đồ báo cáo tổng hợp doanh thu 30 Hình 3.6. Thay đổi group, series trong Reporting service 30 Hình 3.7. Biểu đồ báo cáo tổng hợp theo các quý của năm 31 Hình 3.8. Biểu đồ báo cáo tổng hợp giao dịch mua bán theo độ tuổi và giới tính 32 Hình 3.9. Biểu đồ báo cáo doanh số bán hàng theo đặc tính khách hàng 33 Hình 3.10. Biểu đồ mối liên hệ giữa sở thích và độ tuổi 34 Hình 3.11. Báo cáo số lượng sản phẩm đã bán theo danh mục sản phẩm 35 Hình 3.12. So sánh số lượng khách hàng theo tuần của 2 tháng 36 Hình 3.13. Biểu đồ so sánh số lượng khách hàng theo tháng của năm 36 Hình 3.14. Các tham số trong báo cáo 37 Hình 3.15. Báo cáo kinh doanh theo khu vực 37 Hình 3.16. Biểu đồ số lượng khách hàng theo loại sản phẩm và giới tính 38 Hình 3.17. Báo cáo số lượng tiêu thụ theo thể loại sản phẩm trên từng quốc gia 39 Hình 3.18. Dữ liệu huấn luyện mô hình dự đoán xu hướng kinh doanh 41 Hình 3.19. Biểu đồ dự đoán xu hướng kinh doanh 41 Hình 3.20. Biểu đồ doanh số kinh doanh 42 Hình 3.21. So sánh kết quả dự báo và giá trị thật sự 43 Hình 3.22. Dữ liệu huấn luyện dự đoán xu hướng theo thể loại và vùng 43 Hình 3.23. Biểu đồ dự đoán xu hướng năm tiếp theo theo thể loại và khu vực 44 Hình 3.24 : Kết quả dự báo Time Series dưới dạng bảng 45 Hình 3.25. So sánh kết quả dự đoán và thực tế cho thể loại Action 46 Hình 3.26. Dữ liệu huấn luyện 1 cho mô hình dự đoán phân tích giỏ hàng 47 Hình 3.27. Dữ liệu huấn luyện 2 cho mô hình dự đoán phân tích giỏ hàng 47 Hình 3.28. Mô hình khai phá Microsoft Association Rules 48 Bảng 3.3. Thống kê một số luật từ mô hình 49 Hình 3.29. Rule Tab trong mô hình khai phá Microsoft Association Rules 50 Hình 3.30. Mạng phụ thuộc trong mô hình khai phá Microsoft Association Rules 51 Hình 3.31. Mạng phụ thuộc-2 trong mô hình khai phá Microsoft Association Rules 51 Hình 3.32. Dữ liệu test cho mô hình phân tích giỏ hàng 52 Hình 3.33. Dữ liệu test cho mô hình phân tích giỏ hàng 53 Hình 3.34. Kết quả chạy dữ liệu test qua mô hình phân tích giỏ hàng 53 Hình 3.35. Dữ liệu test mô hình phân tích giỏ hàng 54 BẢNG CÁC CHỮ VIẾT TẮT Viết tắt Tên đầy đủ BI Business Intelligence CSDL Cơ sở dữ liệu KPDL Khai phá dữ liệu OLAP Online Analytical Processing SQL Structured Query Language T - SQL Transact - Structured Query Language TMĐT Thương mại điện tử C2C Consumer-to-Consumer ARTXP Auto Regression Trees with Cross Predict ARIMA Auto Regressive Integrated Moving Average 1 LỜI MỞ ĐẦU Trong gần hai thập kỷ qua, các hệ thống cơ sở dữ liệu đã đem lại những lợi ích vô cùng to lớn cho nhân loại. Cùng với sự phát triển của công nghệ thông tin và ứng dụng của nó trong đời sống- kinh tế- xã hội, lượng dữ liệu thu thập được ngày càng nhiều theo thời gian, làm xuất hiện ngày càng nhiều các hệ thống cơ sở dữ liệu có kích thước lớn. Trong tình hình hiện nay, khi thông tin đang trở thành yếu tố quyết định trong kinh doanh thì vấn đề tìm ra các thông tin hữu ích trong các cơ sở dữ liệu khổng lồ ngày càng trở nên mục tiêu quan trọng của các doanh nghiệp và khai phá dữ liệu dần trở thành thành phần chính để thực thi nhiệm vụ khai phá tri thức. Được đánh giá sẽ tạo ra cuộc cách mạng trong thế kỷ 21, khai phá dữ liệu sẽ ngày càng được ứng dụng phổ biến trong các lĩnh vực kinh tế, xã hội: ngân hàng, truyền thông, quảng cáo, … Theo thống kê năm 2013, tỉ lệ dân số dùng Internet là 36%, trong đó 57% sử dụng thương mại điện tử để mua sắm online. Nếu chỉ tính riêng số liệu của Việt Nam, năm 2011, tỉ trọng thương mại điện tử chiếm 0.25% thị trường, đạt 154 triệu USD. Đến cuối 2016, dự kiến tỉ trọng này tăng gần gấp 3 lần, đạt 0.71% với giá trị vốn hoá tăng gấp 6 lần đạt trên 900 triệu USD (tương đương 18,000 tỷ VNĐ). Con số này hoàn toàn trùng khớp với sự phát triển của xu thế bán lẻ trực tuyến khi Nguyễn Kim đặt kế hoạch doanh số eCommerce năm 2014 là trên 200 tỷ, thegioididong.com là trên 1000 tỷ, FPT Retail là trên 500 tỷ… Bên cạnh đó, sàn TMĐT Sendo.vn vừa tuyên bố sẽ chiếm lĩnh vị trí số 1 trong mảng C2C, hiện tại giao dịch qua hệ thống của họ (nếu giữ ở mức hiện tại) trên dưới 500 tỷ trong năm 2014 [3]. Có thể thấy thương mại điện tử phát triển nhanh theo xu thế toàn cầu hóa. Việc giao dịch thông qua các website thương mại đện tử tạo ra lượng dữ liệu vô cùng lớn. Dữ liệu chính là thông tin về khách hàng cũng như các sản phẩm giao dịch. Nếu có thể khai thác nguồn dữ liệu này thì chúng ta sẽ có một hệ thống thông tin rất giá trị phục vụ cho phát triển thương mại điện tử. Do đó nhu cầu xây dựng kho dữ liệu, mô hình khai phá dữ liệu là thiết yếu cho việc tổng hợp, báo cáo và đưa ra quyết định kinh doanh. Nhằm xác lập chỗ đứng trong thị trường giải pháp thông tin doanh nghiệp (Business Intelligence - BI), Microsoft SQL Server 2008 cung cấp các công cụ có khả năng quản lý báo cáo và phân tích đủ mọi cấp độ, tích hợp chặt chẽ với Microsoft Office, cho phép đưa thông tin doanh nghiệp đến tất cả nhân viên, giúp ra quyết định nhanh hơn và tốt hơn. Với cơ sở hạ tầng mạnh, linh hoạt và có thể mở mở rộng, tích hợp chặt chẽ với Microsoft Office, giải pháp BI trong SQL Server 2008 trở nên linh động và tin cậy đối với những khách hàng lựa chọn Microsoft. Với lý do trên, luận văn tìm hiểu về các vấn đề, kỹ thuật trong Business Intelligence và ứng dụng trong thương mại điện tử bằng công cụ Microsoft Sql Server 2008. [...]... ngắn gọn hướng nghiên cứu của luận văn Chương 2 Các khái niệm liên quan đến Business Intelligence Chương này trình bày cơ sở lý thuyết về kho dữ liệu, khai phá dữ liệu, giới thiệu bộ công cụ BI Sql Server Chương 3 Ứng dụng BI Sql Server trong bài toán thương mại điện tử Chương này trình bày về bài toán thực tế thương mại điện tử, xây dựng kho dữ liệu, xây dựng các báo cáo tổng hợp, báo cáo động, xây... IBM) Trong luận văn này chúng tôi lựa chọn hệ thống BI của Microsoft vì các cơ sở dữ liệu thương mại điện tử đa phần lưu trữ trên hệ quản trị cơ sở dữ liệu Microsoft Sql Server cũng như Microsoft đã và đang là công cụ mà tôi vẫn thường dùng trong công việc của mình và về cơ bản đáp ứng đầy đủ các yêu cầu của luận văn 1.3 Hƣớng tiếp cận 1.3.1 Ứng dụng Business Intellegence trong thương mại điện tử ... kỹ thuật khai phá dữ liệu vào kho dữ liệu đã làm tăng tính khả dụng cũng như hiệu quả của công nghệ BI Trong chương tiếp theo chúng tôi sẽ trình bày nội dung phân tích dựa trên BI trong bài toán thương mại điện tử 24 Chƣơng 3 Ứng dụng BI Sql Server trong bài toán thƣơng mại điện tử 3.1 Bài toán thực tế và giải pháp giải quyết Dữ liệu dùng trong luận văn là dữ liệu từ công ty chuyên bán DVD trực tuyến... số hƣớng tiếp cận chính của khai phá dữ liệu Hiện nay, ứng dụng của KPDL rất đa dạng và rộng lớn, từ kinh doanh, chống gian lận, giảm giá thành sản xuất, tăng doanh thu, phân tích hành vi sử dụng người dùng internet để mục tiêu đúng nhu cầu, đúng đối tượng hay ứng dụng hỗ trợ ra quyết định, nhiều lĩnh vực khác nhau v.v Trong đó thương mại điện tử không phải ngoại lệ Một số hướng tiếp cận chính của... nội dung sau Hiểu được các kiến thức về BI, kho dữ liệu, khai phá dữ liệu, một số thuật toán khai phá dữ liệu trong bộ công cụ BI của hệ quản trị SQL Server 2008 Xây dựng kho dữ liệu về mua bán trong thương mại điện tử Thiết kế các báo cáo tổng hợp và báo cáo động theo yêu cầu Sử dụng một số thuật toán khai phá để dự đoán, ra quyết định cho việc kinh doanh, có thể trả lời cho các vấn đề bên... viên Trong hệ quản trị cơ sở dữ liệu SQL Server 2008 có bộ công cụ hỗ trợ và phát triển các ứng dụng BI bao gồm dịch vụ báo cáo và dịch vụ tích hợp, xây dựng kho dữ liệu nhưng nền tảng là dịch vụ phân tích Business Intelligence Development Studio (BIDS) là công cụ cho phép tổ chức quản lý và khai thác kho dữ liệu (Xử lý phân tích trực tuyến) cũng như xây dựng các mô hình khai phá dữ liệu rất dễ sử dụng. .. mối quan hệ giữa các thuộc tính Bảng 2.6 Ứng dụng của các giải thuật khai phá trong Sql Server 2008 Trong phạm vi luận văn này chúng tôi sẽ dùng hai kỹ thuật đó là: Microsoft Time series: Dự đoán xu hướng Microsoft Association Rule: Phân tích giỏ hàng 19 2.3.1 Thuật toán hồi quy tự động (Auto Regression Algorithm) a Khái niệm Hồi quy tự động là một kỹ thuật trong việc xử lý dãy thời gian Một quá... rule), dự đoán (prediction), … Business Analyst (Phân tích kinh Doanh): Các nhà lãnh đạo doanh nghiệp đưa ra những quyết định chiến lược đối với hoạt động kinh doanh của doanh nghiệp Chúng ta sẽ đi vào tìm hiểu chi tiết các khái niệm kho dữ liệu, khai phá ở chương 2 1.2 Một số hệ thống BI đang đƣợc ứng dụng Hệ thống BI trong những năm gần đây đã và đang được ứng dụng rộng rãi trong nhiều lĩnh vực như: ngân... dùng của doanh nghiệp thường có xu hướng tăng các báo cáo phức tạp SQL Server Reporting Services cung cấp các tính năng cho phép dễ dàng hơn trong việc xây dựng các giải pháp báo cáo: Giao diện phát triển báo cáo dựa trên Visual Studio trong Business Intelligence Development Studio cho phép các chuyên gia phát triển phần mềm có thể sử dụng để xây dựng, gỡ rối và triển khai các báo cáo Công cụ phát... dùng trong doanh nghiệp có thể sử dụng nó để tạo và triển khai các báo cáo Có thể hiển thị dữ liệu bằng các bảng, ma trận, danh sách và các biểu đồ Dịch vụ báo cáo của BI trong hệ quản trị cơ sở dữ liệu SQL Server cho phép các đơn vị truy cập, định dạng và phân phối thông tin dễ dàng đến nhân viên và các đối tác 17 Linh hoạt trong triển khai từ những báo cáo đơn đến các báo cáo dạng web tích hợp trong . dụng trong thương mại điện tử bằng công cụ Microsoft Sql Server 2008. 2 Nội dung chính của luận văn trình bày những tìm hiểu của mình về Business Intelligence trong thương mại điện tử. thức 15 Bảng 2.6. Ứng dụng của các giải thuật khai phá trong Sql Server 2008 19 Hình 3.1. Cơ sở dữ liệu thương mại điện tử 26 Bảng 3.2. Mô tả cơ sở dữ liệu thương mại điện tử 27 Hình 3.3. Kho. 1.1. Tổng quan về Business Intelligence 3 1.2. Một số hệ thống BI đang đƣợc ứng dụng 5 1.3. Hƣớng tiếp cận 6 1.3.1. Ứng dụng Business Intellegence trong thương mại điện tử 6 1.3.2. Hướng