- 22 - NGHIÊN CỨUKỸTHUẬTKHAIPHÁDỮLIỆUVÀỨNGDỤNGTRONGHỆTHỐNGBÁNSÁCH TRỰC TUYẾN 1. Thông tin về sinh viên, người hướng dẫn • Nhóm sinh viên thực hiện (K47CB): ¾ Tạ Thanh Hùng ¾ Đinh Tiến Đức ¾ Nguyễn Văn Công • Giáo viên hướng dẫn: PGS.TS. Đỗ Trung Tuấn (ĐH Khoa Học Tự Nhiên - ĐHQGHN) • Giáo viên đồng hướng dẫn: Ths. Đào Kiến Quốc (ĐH Công Nghệ - ĐHQGHN) 2. Giới thiệu Trong gần hai thập kỷ qua, các hệthống cơ sở dữliệu đã đem lại những lợi ích vô cùng to lớn cho nhân loại. Cùng với sự phát triển của công nghệ thông tin vàứngdụng của nó trong đời sống - kinh tế - xã hội, lượng dữliệu thu thập được ngày càng nhiều theo thời gian, làm xuất hiện ngày càng nhiều các hệthống cơ sở dữliệu có kích thước lớn. Trong tình hình hiện nay, khi thông tin đang trở thành yếu tố quyết định trong kinh doanh thì vấn đề tìm ra các thông tin hữu ích trong các cơ sở dữliệu khổng lồ ngày càng trở thành mục tiêu quan trọng của các doanh nghiệp vàkhaiphádữliệu dần trở thành thành phần chính để thực thi nhiệm vụ khaiphá tri thức. Được đánh giá sẽ tạo ra cuộc cách mạng trong thế kỷ 21, khaiphádữliệu sẽ ngày càng được ứngdụng phổ biến trong các lĩnh vực kinh tế, xã hội: ngân hàng, truyền thông, quảng cáo…. Trong quá trình nghiên cứu, học tập tại trường, được sự chỉ bảo và hướng dẫn trực tiếp của thầy Đỗ Trung Tuấn và thầy Đào Kiến Quốc, cũng như sự giúp đỡ, động viên của các thầy, cô giáo trong trường ĐH Công Nghệ - ĐHQGHN, chúng tôi đã quyế t định làm khóa luận tốt nghiệp với đề tài “Nghiên cứukỹthuậtkhaiphádữliệuvàứngdụngtronghệthốngbánsách trực tuyến”. Khóa luận được chia thành 4 chương: - Chương 1: Tổng quan về khaiphádữ liệu. - Chương 2: Một số thuật toán KPDL. - Chương 3: Áp dụng một số kỹthuật KPDL vào hệthốngbánsách trực tuyến. - Chương 4: K ết luận. 3. Các mục nội dung Trước tiên, khóa luận xin trình bày tổng quan về khai phádữ liệu, bao gồm sự cần thiết, khái niệm và các bước xây dựng một hệthống khai phádữ liệu, kiến trúc điển hình của một hệthống khai phádữliệu và vấn đề bánsách trực tuyến liên quan đến khai phádữ liệu. Tiếp theo, khóa luận giới thiệu một vài thuật toán khaiphádữ liệu: thuật toán kinh điển vàthuật toán của Microsoft tích hợp trong công cụ MSSQL Server 2005 nhằm mục tiêu giải quyết ba nhóm bài toán của khai phádữliệu là bài toán phân loại, bài toán phân tích luật kết hợp và bài toán dự đoán. Khóa luận cũng xin trình bày việc xây dựng một ứngdụng nhỏ – hệthốngbánsách trực tuyến – để minh họa triển khai, áp dụng thử nghiệm kỹthuậtkhaiphádữliệu vào bài toán trên. Cuối cùng, qua bài toán, khóa luận cũng xin được giới thiệu một số kỹ thuật, công nghệ liên quan đến vấn đề xây dựng một ứngdụng có áp dụngkhaiphádữliệu với 2 công cụ là ASP.NET 2.0 (VS.NET 2005) và MSSQL Server 2005. 4. Kết luận Qua thời gian thực hiện khoá luận này, chúng tôi đã nghiên cứu một số kỹthuậtkhaiphádữliệu theo hướng ứngdụng từ đó áp dụng vào triển khaihệthốngbánsách trực tuyến http://www.SieuThiSachViet.com. Mục tiêu đặt ra ở đầu khoá luận đã đạt được thành công tuy còn ở mức đơn giản: - Nắm được các ý tưởng chủ đạo về khaiphádữ liệu. - Áp dụngkỹthuậtkhaiphádữliệutrong các chức năng: phân loại khách hàng, gợi ý sách mua kèm theo và lập các báo cáo dự đoán. - 23 - - Áp dụng các công nghệ mới trong việc cài đặt hệ thống, sử dụng ASP.NET tích hợp trong VS.NET 2005 vàhệ quản trị cơ sở dữliệu MSSQL Server 2005. Để hệthống có thể đưa hệthống vào vận hành thực sự trên thực tế cần có thêm thời gian và công sức nghiên cứu kiểm thử, hoàn thiện giải pháp và xây dựng phần mềm hoàn chỉnh. Hướng phát triển: - Bổ sung và hoàn thiện các dịch vụ để khai thác hệ thống. - Cần kiểm định với lượng dữliệu chương trình lớn, thực tế và bổ xung, nâng cao nghiệp vụ kinh doanh để đạt được một hệthống có hiệu suất xử lý tốt cũng như độ chính xác về các kết quả hệthống suy luận vàdự đoán Trong phạm vi của một khoá luận tốt nghiệp, đề tài này không thể tránh khỏi những thiếu sót. Chúng tôi mong nhận được những ý kiến phê bình, đóng góp, sự chỉ bảo chân tình của các thầy cô và các bạn để có thể tiếp tục phát triển đề tài này trong thời gian tới. Một lần nữa tôi xin chân thành cảm ơn Công ty Công nghệ Tin học Tinh Vân đã tạo điều kiện cho chúng tôi phát triển đề tài. Cảm ơn các thầy cô giáo bộ môn Công Nghệ Phầ n Mềm và bộ môn Các HệThốngThông Tin. Đặc biệt là thầy Đỗ Trung Tuấn và thầy Đào Kiến Quốc, hai thầy đã định hướng và trực tiếp giúp đỡ tôi hoàn thành khoá luận này. 5. Tài liệu tham khảo Tài liệu tiếng Việt: [1] Đào Kiến Quốc, “Phân tích thiết kế hệthốngthông tin tin học hóa”, NXB Đại Học Quốc Gia Hà Nội, 1998. [2] Trần Mạnh Tuấn, “Xác suất thống kê” (Giáo trình). [3] Đỗ Trung Tuấn, “Cơ sở dữ liệu, Giáo trình dùng cho sinh viên, kỹ sư, cử nhân chuyên nghành công nghệ thông tin”, NXB Giáo dục, 1997. [4] Đỗ Trung Tuấn, Thầy Trần Thọ Châu , “Trí tuệ nhân tạo“ (Bài giảng). [5] Nguyễn Tuệ, “SQL cơ bản” (Giáo trình). [6] Nguyễn Tuệ, “SQL nâng cao” (Giáo trình). [7] Đinh M ạnh Tường, “Nhập môn Trí tuệ nhân tạo”, NXB Khoa học kỹ thuật, 2002 . [8] Nguyễn Văn Vỵ, “Giáo trình phân tích thiết kế hệthốngthông tin” , NXB Đại Học Quốc Gia TP. Hồ Chí Minh, 2004. [9] Nguyễn Văn Vỵ. “Phân tích và thiết kế hệthốngthông tin quản lý”, NXB Thống kê, 2004. Tài liệu tiếng Anh: [1] Nguyễn Hùng Sơn, “Giáo trình Dataming” (Slide). [2] Wiley.IEEE.Press.DANIEL T. LAROSE Data Mining Methods and Models Jan 2006. [3] (By Laxxus) Data Mining Cookbook - Modeling Data for Marketing, Risk, and Customer Relationship Management (OCR) – 2001. [4] Micheal J.A.Berry, Gordon S.Linoff.Data mining technique, 2006. [5] Ykie Go, Robert Grossman, High Performent data mining Scaling Algorithms, Applications and Systems, 2003. [6] Hewett R., Leuchner J. Restructuring decision tables for elucidation of knowledge. Data & Knowledge Engineering 46(3), 2003. . luận này, chúng tôi đã nghiên cứu một số kỹ thuật khai phá dữ liệu theo hướng ứng dụng từ đó áp dụng vào triển khai hệ thống bán sách trực tuyến http://www.SieuThiSachViet.com về khai phá dữ liệu, bao gồm sự cần thiết, khái niệm và các bước xây dựng một hệ thống khai phá dữ liệu, kiến trúc điển hình của một hệ thống khai phá dữ