1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu xây dựng và đưa vào sử dụng một hệ thống ứng dụng kỹ thuật nhà kho dữ liệu datawarehouse và khai mỏ dữ liệu data mining để quản lý phát triển tri thức từ csdl lớn báo cáo tổng kết

120 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ỦY BẠN NHÂN DÂN THÀNH PHỐ HỒ CHÍ MINH SỞ KHOA HỌC CÔNG NGHỆ BÁO CÁO TỔNG KẾT Đề tài nghiên cứu khoa học: Nghiên cứu, xây dựng đưa vòo sử dụng hệ thống ứng dụng kỹ thuột nhà kho liệu (dataworehouse) khơi phá liệu (dofa mining) để quản lý phát tri thức từ CSDL lớn Chi nhiém dé tai: 75 £6 Minh Chương THANG 12 NAM 2001 DANH SÁCH NHỮNG NGƯỜI THAM GIA CHÍNH Chủ nhiệm: TS Lê Minh Chương Trung tâm xử lý số liệu thống kê COSIS Th.Sĩ Đỗ Phúc Khoa CNTT, TT Phát triển Công nghệ Thông tin, ĐHQG-HCM Th.ST Nguyễn Thụy Khánh Quang Trung tâm xử lý số liệu thống kê COSIS Hoàng Xuân Thiéu Trung tâm xử lý số liệu thống kê COSIS Trần Phước Võ Trung tâm xử lý số liệu thống kẻ COSIS Nguyễn Quốc Khanh Trung tâm xử lý số liệu thếng kê COSIS CN Nguyễn Hà Giang TT Phái triển Công nghệ Thông tin, ĐHQG -HCM CN Hoàng Ngọc Bảo Quốc TT Phát Phát triển Công nghệ Théng tin, BHOG-HCM MỤC LỤC PHAN1 DAN NHAP Hiện trạng Nội dụng công việc nghiên cứu Kết nghiên cứu phái triển phần I-3 PHAN2 CONG NGHE NHA KHO DU LIEU (DATA WAREHOUSING) CHUONG I LÝ THUYẾT NHÀ KHO DỮ LIỆU Nhà kho liệu ( DataWareHouse ) phén IL-1 Kiển trúc Một Nhà kha dif lige Các thành phân phần mềm Công nghệ Nhà kho liệu CHUONG 11 LÝ THUYẾT MƠ HÌNH HỐ DỮ LIỆU Kỹ thuật mơ hình hố Cơ sở đỡ liệu nhiều chiều Kỹ thuật mơ hình hố liệu thời gian — lịch sử .phân 1-4 phân 1-7 CHƯƠNG II LÝ THUYẾT PHÂN TÍCH, THIẾT KẾ NHÀ KHO DỮ LIỆU Quan hệ bước phân tích, thiết kế Nhà kho lệ Kỹ thuật phân tích yêu câu xây dựng nhà kho đữ liệu Thiết kế Nhà kho Dữ liệu Kiểm chứng thiét ké' (Validation the Design) CHƯƠNG IV CÔNG NGHỆ NHÀ KHO DỮ LIỆU Công nghệ Nhà kho liệu cla MicroSoft Công nghệ Nhà kho dã liệu OracÌe Bồi dudng Data Warehouse: „phân 1-23 PHAN3 KBAI PHA DU LIEU (DATA MINING) Tổng quan phần IH-T Các giai đoạn tiến trình khai phá đỡ liệu phân HI-3 PHAN CHUONG UNG DUNG THIẾT KẾ, CẢI ĐẶT, KHAI THÁC NHÀ KHO DỮ LIỆU DÂN CƯ Hiện trạng Cø sở đữ liệu tác nghiệp ~ Dân cư Phân tích, thiết kế mơ hình quan niệm CSDL nhiều chiều phần IV-] phần IV-5 Cài đặt Nhà kho liệu Dân cư CHUONG I - PHÂN MỀM TIẾNG VIỆT KHAI THÁC NHÀ KHO DỮ LIỆU Giới thiệu Môi trường vận hành Mai trudng, ngon ngit phat triển ứng đụng Các chức năng: phan 1V-22 „phân [V-22 phần 1-23 Viên hành chương trình _ phẫn 1V-25 PHAN KẾT LUẬN PHAN NHA KHO DU LIBU Il PHAN KHAI PHA DU LIEU PHU LUC PHẨN! DẪN NHẬP Hiện trạng 1.1 Hiện việc gia tăng áp dụng rộng rãi CNTT vào mặt quản lý, sản xuất kinh doanh dẫn đến ngày xuất nhiều CSDL lớn Những CSDL thiết xây dựng phục vụ chủ yếu cho hoạt động tác nghiệp, chưa đáp ứng nhu cầu khai thác thông tin hỗ trợ việc định Hệ thống hỗ trợ định (đecision support system ) giới nghiên cứu triển khai xây dựng lâu hệ thống máy tính lớn, dựa nhà kho liệu ( data warebouse), Theo thống kê IBM, phương pháp khai thác thông tin truyền thống lấy chừng 80% lượng thơng tin có CSDL Kỹ thuật khai mé liệu ( Datamining ) đáp ứng yêu cầu khai thác 20% lượng tỉa cịn lại Mặc dù lượng thơng tin chiếm tỉ lê nhổ so với lượng thông tin khai thác phương pháp truyền thống, chúng lại ẩp chứa thơng tin q gía có khả yễm trợ tiến trình định Vấn để xây dựng hệ thống tích hợp kỹ thuật quần trị CSDL lớn khai mô đữ liệu cho phép mở hướng ứng dụng kỹ thuật tín học tiên tiến yếm trợ tích cực cho tiến trình vạch định chiến lược, định sử đụng biệu qảa nguồn liệu có 1.2 Tình hình nghiên cứu, ứng dụng ngồi nước Ngoài nước: Khoảng vài năm trở lại kỹ thuật nhà kho liệu khai mỏ liệu ứng dụng rộng rãi nhiều lĩnh vực sẵn xuất kinh doanh Một số phần mềm nhà kho liệu hãng phần mềm hàng đầu giới sẵn xuất IBM, Oracle, MicroSoft Céc phan mém thường gia đất, chưa có điều kiện triển khai Việt nam Trong lĩnh vực khai mỏ liệu, việc tích hợp thuật toán học, thống kê, CSDL hướng đầu tư nghiên cứu nhiều nhà khoa học giới PHAN]1-! Trong rước: chưa thấy cơng bổ thức hệ thống phan mém Tia học ứng dụng kỹ thuật nhà kho liệu khai mỏ đữ liệu vào ứng dụng thực diễn Một số phần mềm xây dựng theo tiếp cận tác nghiệp thống kê, thuờng thích hợp để khám phá trí thức bể nỗi chưa tích hợp tốt với điểu kiên CSDL lớn, Vài năm qua, số chuyên gia nước quan tâm đến lĩnh vực này, số kết qủa cơng bố hội thảo va ngồi nước 1.3 Tại Thành phổ Hồ Chí Minh xây dựng nhiều CSĐL lớn CSDI dân số ( triệu nngười), CSDL công chức viên chức (trăm ngàn hổ sơ), CSDL lao động hợp đồng(vài trăm ngàn hồ sơ), CSDL nhà đất, CSDL đẳng viên, CSDL kinh tế xã hội, CSDL, thương mại Các CSDL có đặc điểm: thuộc tính tiêu chưa chuẩn hoá, triển khai nhiều phẩn cứng hệ thống vi tính khơng nhất, đa số xây dựng phần mềm Foxpro “Tuy có nhược điểm định CSDL kho liệu qui báu việc đóng góp xây dựng cung cấp thơng tin q giá hỗ trợ cơng tác hoạch định sách kinh tế xã hội TP, Trong năm gần đây, nhiều sản phẩm thương mại kỹ thuật nhà kho liệu xuất Việt Nam, chủ yếu hỗ trợ cho hệ trợ giúp định; sản phẩm thiếu chưa đáp ứng cho kỹ thuât khai mồ liệu Xuất phát từ đặc điểm cho phép tiến hành nghiên cứu triển khai áp dụng kỹ thuật nhà kho đữ liệu khai mỏ liệu, Nội dung công việc nghiên cứu 2.1 Nghiên cứu trạng : » Nghiên cứu trạng kho liệu TP, nhu cẩu khai thác phục vụ việc hoạch định sách cấp lãnh đạo « Nghiên cứu, triển khai kỹ thuật khai mỏ liệu để khám phá trị thức từ CSDL lớn, cung cấp trí thức Các tri thức bao gầm luật kết hợp liệu, luật PHANI-2 phân lợp đối tượng, khám phá clustez, mồ hình; thông ún chủ yếu đạng biểu, đổ hoạ » Phát triển số giải pháp, thuật toán xây dựng quần lý nhà kho liệu, ý đến thực trạng thiếu chuẩn hoá chưa đồng kỹ thuật, Phát triển thuật toán khai mổ đữ liệu, cấp thông tin phù hợp với điểu kiện hồn cảnh CSDL lớn có Tp Hồ Chí Minh 2.2 Ứng dụng phát triển cơng nghệ : s — Các mơ hình tổ chức, khai thác, quản lý hiệu qúa nhà kho liêu; cụ thể mơ hình thử nghiệm khoảng hai đến ba kho liệu TP công chức viên chức, dân « _ Qui trình, phương pháp phẩn mềm máy tính để quản trị nhà kho liệu khai mổ đữ liệu; phẫn mềm xây dựng nhà kho liệu từ CSDL Foxpro, có khả với loại CSDL khác + Phương pháp tìm kiếm trì thức, cung cấp trí thức yễm trợ tiến trình hoạch định chiến lược, định; phẩn mềm máy tính cung cấp dạng trì thức cư, hữu ích mơ hình kho đữ liệu thử nghiệm công chức viên chức, dân Kết nghiên cứu phát triển 3.1 Xây dựng nhà kho (rên nến Foxpro), liệu (Datamart) dân cử từ CSDL (tác nghiệp) đân cư chứa thông tin khoảng 1000.000 hộ, 5.000.000 nhân đến) khẩu,và thông tin biến động hô, nhân như: tăng giảm (sinh, tử, thay đổi tính chất khác Nhà kho liệu dân cư có khả đáp ứng trực tiếp khoảng 60 câu hỏi (bảng tổng hợp - phân tích) BCP Để án Nhân lao động dần số Viện Kinh tế Ngồi ra, với mơ hình Nhà kho liệu này, nhiều cầu hỏi tổng hợp phân tích khác (ngồi 60 câu hồi trên) dễ dàng khai thác thời gian nhanh PHANI-3 3.2 Xây dựng Nhà kho di liệu (Datamart) Lao động từ CSDL hợp đồng lao động chứa thông tin gần 4800 đơn vị, 280.000 người lao động, thông tỉn biến động đơn vị, người lao động Nhà kho liệu lao động có khả đáp ứng trực tiếp khoảng 10 câu hỏi (bằng tổng hợp - phân tích) BCĐ Để án Nhân lao động dân số Sở LÐ - TBXH cho phép trả lời nhiễu câu hỏi tổng hợp phân tích khác (ngoài 10 câu hỏi trên) thời gian nhanh 3.3 Pần mềm OLÁPClient: Nhà kho liệu cài đặt khai thác sẵn phẩm (công nghệ) đại nước ngồi, khơng thuận tiện cho người dùng Để tăng cường tính phổ biến cho người dùng Việt nam, nhóm để tài phát triển thêm phần mềm KT_KPL giao diện hoàn toàn tiếng Việt, cớ khả khai thác NKDL nén SQL server + OLAP service 3.4 Phần mềm Dataraining (Khai mỏ đữ liệu) xây dựng để cung cấp thông tỉn tỉnh vi hơn, cơng cụ phân tích trực tuyến (OLAP) khơng thể cung cấp, dựa luật phân tích liệu : luật kết hợp (Association Rules), Luat phan I¢p (Classification Rules), Phân nhóm dựa mức tưởng (Clustering) PHAN1-4 PHẨN2 CÔNG NGHỆ NHÀ KHO DỮ LIỆU (ĐATA WAREHOUSING) CHƯƠNG } LÝ THUYẾT NHÀ KHO DỮ LIỆU Nhà kho liệu ( DataWareHouse } 1.1 Định nghĩa : Nhà kbo liệu thiết kế để hỗ trợ việc định chiến lược; kho đữ liệu trung tâm cẩn thành từ sở liệu tác nghiệp, dung lượng liệu cực lớn 1.2 Tỉnh chất : 5ˆ Dữ liệu phụ thuộc thời gian (Time dependent) + _ Thơng tin có bổ sung, khơng " cập nhật " (Never updated) + _ Định hướng theo chi dé (Subject oriented ) «_ Có tính tích hợp (Intergrated) Kiến trúc Một Nhà kho đữ liệu Một nhà kho đữ liệu gồm thành phan chủ yếu sau : «_ Siêu liêu (meta data): MD « _ Dữ liệu tiết hién hanh (current detail data ) : CDD ôâ Di liu chi tiột quỏ kh ( older detail data ) : ODD « Di liệu tổng hợp sơ cấp (lightly summarized data ) : LSD « Dữ liệu tổng hợp cao cấp (hightly summarized data) : HSD 2.1 Siêu đữ liệu : Siêu liệu gồm dẫn giúp nhà phân tích hiểu nội đụng Nhà kho đữ liệu, báng dẫn ánh xạ chuyển đạng liệu từ Cơ sỡ đữ liệu tác nghiệp vào Nhà kho liệu, bảng dẫn thuật toán tổng hợp CDD với LSD, LSD với HSD 2.2 Thành phần Dữ liệu chí tiết hành ( CDD ) : ‘Thanh phan ghỉ nhận kiện Dữ liệu thường mức thô, dung lượng lớn, cần lưu trữ đĩa cứng để truy xuất nhanh PHAN 2-1 2.3 Thành phần Đữ liệu tiết khứ (ODD ) : Thành phần lưu trữ liệu mức chí tiết phù hợp với thành phẩn CDD Thường dung lượng liệu cực lớn, lấn suất truy cập nên cần lưu trữ nhiều môi trường lưu trữ dung lượng lớn, khác 2.4, Thành phẩn Dữ liệu tổng hợp sơ cấp ( LSD ) : “Thành phần gém liệu thiết kế liệu gổm : thời điểm tổng hợp nội dung ~ thuộc tính Dung lượng liệu thường lớn, cẩn truy xuất nhanh nên thường lưu trữ đĩa cứng 2.5 Thành phần Dữ liệu tổng hợp cao cấp ( HSD ) : Thanh phan gồm liệu trích từ Nhà kho đữ liệu nguồn khác Dữ liệu thường dạng nén, truy xuất nhanh, 2.6 Dang truy cập đữ liệu : Dịng truy cập đữ liệu gồm, tiến trình cập nhật, lưu trữ, tổng hợp thành phần nhà kho liệu, gồm tiến trình : Cập nhật liệu: Dữ liệu từ Cơ sở liệu tác nghiệp chuyển dang đưa vào CDD Dữ liệu nằm CDD biến cố sau xảy : Xoá đi, Được tổng hợp, và/hoặc nén lại kích hoạt hai tiến trình sau Lưu trữ (Aging process) : đưa liệu từ CDD vào ODD Tổng bop (Summarization process) : dùng liệu tiết (mức hành, mức khứ dé tao LSD hoc HSD Minh hoạ dong try xudt da liéu bing hinh Các thành phần phần mềm Công nghệ Nhà kho đữ liệu Co sé di liệu tác nghiệp (Operating Database) “ Công cụ hỗ trợ chuyển dạng liệu (Data Transform Service) Cơ sở liệu quản trị Nhà kho liệu (Data WareHouse) Công cụ phân tích trực tuyến ( On Line Analysis Process- OLAP} Công cụ hỗ trợ khai phá liệu (Data Mining) Minh hoạ vai tò thành phân hình PHAN 2-2 3/3 Cài đặt, khai thác CSDL nhigu chiéu với Công nghệ Oracle— Oraele Server 3.3.1 Cài đặt, xử lý Sumumnary = Chay Summary véi m6 hinh 4a cdi bling Oracle Discoverer Administration * Bang Fact :2 bang Bắng Ho Bang Dancu Summary Hộ Dân Cư Số chiệu 40 Size 46303 Kb 108,280 Mb Time ~5 phút ~90 phút 3.3.2 Khai thác phân tích liệu : Oracle Discoverer User Edition : «Si dung chifc nang Pivot Table and Pivot Chart Report = DE dang tao céc bang biéu, bidu dé “_ Thời gian đáp ứng tác vụ cube ( xoay, cắt lát, drili-down roll-up ) nhanh, từ vài giây 2,3 phút / tác vụ Oracle Rreports : = Chon loai Report 18 OLAP tạo report =_ Công cụ tạo báo cáo chun nghiệp, có nhiều tính mạnh, sử dụng tương đối phức tạp PHAN 4-21 CHƯƠNG II PHÂN MÊM TIẾNG VIỆT KHAI THÁC NHÀ KHO DỮ LIỆU Giới thiệu 1.1 Chức năng: OlapChent phần mềm đành cho máy “khách” cho phép truy vấn có sở đữ liệu OLAP quản tị Microsoft OLAP Service hay cube file (*.cub) Kết đuợc thể dạng lưới dạng đổ thi 1-2 Đặc điểm: Sử dung đơn giản, cần số động tác kéo thả có kết Mơi trường vận hành 2.1 Phần cứng: Tối thiểu PC Pentium 166-16 Mb RAM Hiéu Pendum II - 64 Mb RAM trở lên Đĩa cứng cồn trống 2Mb 2.2 Hệ điêu hành: Windows 9x, Me, 2000, 2.3 Mạng : Nếu kết nối khách-chủ thơng qua mơi trường mạng cục tốc độ mạng 100 Môi trường, ngôn ngữ phát triển ứng dụng: Mội trường phát triển ứng dụng công cung Microsoft Visual C++ 6.0 Trong cuơng trình có sử dụng số thành phần COM : ADO MD mô rộng ADO cho co sd div igu OLAP, Microsoft Graphs Active X Control TreeView, FlexGrid Sơ đổ khối chương trình Chủ trình thực chương trình trình bày Hình PHAN 4-22 Sơ đồ khối chương trình Kết nối server cødl olap Tao va phat sinh » Chọn sổ Trinh liệu/chọn bày Tạo kết Ra resultset Khơng Trình bày resullset Trình bày 46 thi Các chức năng: Khởi động(mục OlapClient) :Cửa sổ ứng dụng ƠLAP Client xuất Kết nối : chọn kết nối vào server quản trị sở liệu OLAP hay cube file Chọn CSĐL nhiều chiểu (OLAP/cube file): xuất danh sách khối (cube) CSDL; chọn khối để làm việc Trinh bay Cấu trúc khối: Cấu trúc khối đuợc trình bày dạng điều khiển cây, nầm bên trái cửa sổ ứng dụng Cây có hai nhánh : Dimensions (các chiếu) Measures(các số đo) Mỗi chiểu đuợc phân theo nhiều cấp (level) Một cấp chứa cấp khác ,cho đến thành phần hạt Khai báo hàng, cột: PHAN 4-33 Sử dụng chuột kéo (drag) thả (drop) nút chiểu cấu trúc khối sang danh sách “Các dòng”/”Các cột”, Khai báo độ đo : Kéo nút tương ứng từ cấu trúc khối sang điều khiển “Độ đo" nằm bên phải cửa sổ ứng dụng, Khai báo lát cất: Kéo thả nút từ chiếu cấu trúc khối sang đanh sách “Các chiều” Xuất kết dang bảng chiên Click vào biểu tượng Kết xuất kết : kết trình bày lưới (bằng chiều), xuất bên phải, phía cửa sổ ứng dụng Xem đỗ thị: Click vào Để thị : kết qua (tinh bay lưới) biểu diễn dạng để thị - “Đão hàng cột”: chọn lại cách lấy dãy liệu hàng hay cột lưới - “Kiểu đồ thị”: chọn kiểu đồ thị biểu diễn kết PHAN 4-24 Yận hành chương trình 5.1 CẢI ĐẶT: Chạy chương trình Setop.exe địa cài đặt trả lời câu hỏi chương trình cài đặt §.2 SỬ DỤNG: 5.2.1 Khởi động: Chọn mục OlapClient folder OlapClient trén Start Menu Cửa sổ ứng dung OLAP Client xuất 5.2.2 Kết nối : Ctck vào “Kết nối” toolbar hay trình đơn Thao tác\Kết nối Xuất hộp thoại chọn kiểu kết nối Để chọn kết nối vào server quản trị sở liệu OLAP hay cube file PHAN 4-25 Nếu chọn OLAP Server xuất hộp thoại khai báo tên server tên nhà cung cấp OLAP services, Mac định MSOLAP (Microsoft) /AREHOUSE MSOLAP Nếu chọn kiểu kết nối cob file thi xuất hộp thoại chọn 6le chuẩn Windows để chọn file cub Cbe Fê [ou 5.2.3, Chon co sé dit ligu OLAP/eube file: Nếu kết nối thành công kiểu kết nối chọn server combo box “Cơ sở liệu “ xuất danh sách sở liệu QLÁP có server, Hãy chọn sở liệu Chọn xong combo box “Khối” xuất đanh sách khối (cube) sở liện chọn, Hãy chọn khối, từ làm việc với khối PHAN 4-26 5.2.4 Cấu trúc khối: Cấu trúc khối đuợc trình bày dạng điểu khiển cây, nằm bên trái cửa sổ ứng dụng Cây có hai nhánh : Dimensions (cdc chiéu) va Measures(ốc số ¿o) Mỗi chiều đuợc phân theo nhiễu cấp (level) Một cấp chứa cấp khác ,cho đến thành phần hạt + Taa0uenHuye + TeAPhưagXe a tense lý khuogheldwu Í BẾP #hhanghendben Ì 8-i ghưanglo ơng 9k tints GIẢI long: 5.2.4 Khai báo hàng, cột, độ đo các lát cất: Hàng cột tạo thành chiểu, để khai báo hàng cột đơn giản kéo (đrag) thả (drop) nút chiểu cấu trúc khối sang danh sách “Các đồng”/”Các cột” cho hàng/cột tương ứng bền phải cửa sổ ứng dụng Đối với phiên chọn nhiều nút cấu trúc khối cho hàng/cột nhiên phải chiều PHAN 4-27 Để chọn độ đo cần xem xét , kéo nút tương ng từ cấu trúc khối sang điểu khiển “Độ đo” nằm bên phải cửa sổ ứng dụng Đối với phiên chứng ta chọn độ đo mà ong cap] (To Sang Carhmenbare J> e2 dư an BoE crue ton dow lee dnt leoun Sido ghen Ba cota tng or + Teno Teitat lò &nsen ce eR pitch a al + Toni Tok ga beam at Wt maar too Na XS d2 nhe ngêo eet traeCn L2Rhđề gương arty Gee oe eo fo ter oo dom lTenbe Tas lTer use pension wee ñ : PHAN 4-28 5.2.6 Xuất kết quả: kết lưới, xuất Click vào biểu tượng Kết xuất kết truy vấn cho bên phải, phía đưới cửa sổ ứng dụng — tư £ Banc De eS Hệ tị oe aTene Tei tet GF Osten ne | L8 tmNg bac Ì c2 Trng eo dư) | be motile ị Tents kếB+ ca d Scone el |: ta catin yoo dea in eae rom te ace det |2 dễ nguànkhn £ nang làgene: tees erated pees 5.2.7, Xem đồ thị: vấn trình bày Click vào Để thị xuất để thị biểu điển cho kết truy lưới PHAN 4-29 Lúc đầu dãy dử liệu đổ thị cột lưới, nhiên chứng ta có thé chon lại cách lấy đãy liệu hàng hay cột lưới cách nhấn vào nút "Đảo hàng cột”, Ngồi lựa chọn kiểu đổ thị cách chọn vào mục tương ứng điều khiển combo box “Kiểu để thi” PHAN 4-30 PHAN V KẾT LUẬN PHẲN NHÀ KHO DỮ LIỆU Đánh giá lý thuyết xây dựng Nhà kho liệu «_ Lý thuyết Datamart (Nhà kho đữ liệu chuyên để, OLAP Serviee) : Có tương đối đủ phương pháp luận xây dựng hệ thống, từ giai đoạn ban đấu (ầm hiểu nhu cẩu), đến giai đoạn thiết kế logic mồ hình « Lý thuyết thiết kế sở đữ liệu thời gian - lịch sử : kỹ thuật thiết kế phức tạp, phương pháp chưa hoàn chỉnh Đánh giá kết hệ thống đạt « Giải đáp tất câu hỏi (biểu mẫu) theo yêu cầu; đồng thời cung cấp thêm kết (biểu mẫu), đạng thức kết xuất (biểu đổ) mà không tốn thềm công lập trình © _ Thời gian khai thác nhanh; đáp ứng nhiều cấp độ phân tích liệu khác nhau., chất lượng thông tin xử lý tốt v.v « _ Hệ thống nhiều ưu điểm mềm dẻo, có tính tích hợp, tính phù hợp với nhiều qui mồ khác nhau, tính mỡ © Đối với kho liệu Foxpro, ứng dụng công nghệ NKDL có giảm nhiều phí cơng sức lập trình khai thác.:Tuy nhiên địi hỏi tốn thêm phí đầu tư hạ tầng (phần cứng, phẩn mềm NKĐL); phí cịn cao Xi nghiệp, Cơng ty nhỏ, chí phí vừa phải cấp độ Thành phố lớn Một số định hướng »_ Nghiên cứu kỹ thuật mô hình thời gian để thiết kế hồn chỉnh mồ hình nhà kho liệu gồm: Dữ liệu tiết, liệu lịch sử, liệu tổng hợp (sơ cấp, thứ cấp) « _ Ứng dụng kết thu thập để xây dựng Nhà kho liệu Lý lịch công chức viên chức PHAN 5-1 Nghiên cứu ứng dụng công nghệ phổ biến liêu WEB Mỏ rộng khã công cụ phần mềm OLAPClient Nghiên cứu xây đựng công cụ ( tools ) cho moduie DTS SQL Server (hoặc Oracle ) áp dung cho trường hợp nguồn bỂ sung liệu cho Nhà kho liệu thiết kế theo đạng tập tin bổ sung Nghiên cứu công cụ hỗ trợ xây dựng mô hình nhiều chiều theo hai phương pháp phân tích top-down va bottom-up U PHAN KHAI PHÁ DỮ LIỆU Nhóm để tài tiến hành công việc nghiên cứu mơ hình, thuật tốn xây dung phan mểm khai phá đữ liệu DATAMINER2000 có khả triển khai tác vụ khai phá liệu nhừ : khai phá luật kết hợp, tình tự theo thời gian, phân lớp, khai phá cụm Các chức bước đầu triển khai thử nghiệm CSDL thực Phần khai phá đử liệu phát triển theo hudng triển khai ứng đụng vào CSDI, doanh nghiệp, mở khóa tập huấn khai phá liệu, Các giảng khai phá liêu chức sử dụng chương ưình nhóm để tài đính kèm phần phụ lục PHAN 5-2 PHỤ LỤC TÀI LIỆU THAM KHẢO ĐANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN PHAN KHAI PHA DU LIZU [I]Hoang Kiem, Do Phuc: Application data mining to education and taining, science and technology development magazine, VNU-HCM, Volume 4&5, 1999 [2} Hoang Kiem, Do Phu: Using rough genetic and Kohonen neural network for conceptual cluster discovery in data mining, In proceedings of the RSFDGRC’99 international conference, Yamaguhci-YBE, Japan, 1999 [3] Hoang Kiem and Do Phuc: Discovering binary and fuzzy association rules from database, In proceedings of the AFSS2000 international conference, Tsukuba, Japan, 2000 [4] Hoang Kiem and Do Phuc: On the extension of the lower approximation of rough set theory for the classification in data mining In proceedings of the WCC2000 international conterence, Beijing, China, May, 2000 [5] Hoang Kiem and Do Phục ; Developing the motif based algorithm for discovering the knowledge from DNA sequences, In proceedings of the SCI 2000 international conference Florida, USA, July, 2000 ILDANH MUC TAI LIEU THAM KHAO PHAN KHAI PHA DU LIEU [1] A Surasere, E Omiccinsky An efficient algorithm for mining association niles in large database In Pore 21" VLDB,(1995) [2] Hoang Kiem, Do Phuc, Using MDDM for mining association rules in a large database, proceedings of conference, VNU-HCMC, Vietnam, (1998) {3] Hoang Kiem, Do Phuc, A combined multi-dimensional data model, selflearning algorithm and genetic algorithm for cluster discovery in data miningProceedings of the third international conference in KDD, Bejing, China, (1999) 14], Hoang Kiem, Do Phuc, Using data mining in education and training, Magazine of science and technology development, Vol I, No, 4, VNU-HCM, Vietnam, (1999) [5] Jun Yan, Using Fuzzy Logic, Prentice Hall, (1994) 16] K Rajamani, Sam Sung Extending the applicability of Association rule In Proc of PAKDD 99, Bejing, China, (1999) (7] Pieter Adrians, Dolf Zantige, Data Mining, Addison Wesley, Longman, 1996 [8] Timothy J Ross, Fuzzy logic with engineer application, Mac Graw-Hill, (1995) (9] R Agrawal , R Srikant Fast Algorithm for mining association rules in large database, Research report RJ, IBM Almaden Research Center, San Jose, CA (1994) [10] R Agrawal , R Srikant Mining generalized association rules In proceedings of 21" ne'l conference on VLDB, Zurich, Switchzerland (1995) HH] 2.Pawlak, Rough Sct Int, Journal of information and computer Cciences 11(1982) Il DANH MUC TAI LUSU THAM KHAO PHAN NHA KHODU LIỆU (I] Chuck Ballard, Ditk Hierreman, Don Schau, Rhonda Bell, “ Data Modeling techniques for Data WarcHousing”, International Technical Support Organization ~ IBM,1998 {2} W.H Inmon, Ken Rudin, Christopher K.Buss, Ryan Sousa, “Data Warchouse Performace”,1999 {3] Prims, “What is Data Warchouse”, 1998 [4] Bemard (Bernie) Boar, “Understanding Data Warehousing Strategically”, 1999 [5] Vivek R Gupta, “An introduction to Data Warehousing”, 1999 (6] Joerg Reinschchmidt, Helena Gottaschalk, “Intelligence Miner for |D:ta: Hosung Kim, Damiaan Enhance your Business Intelligence”, 1999 [7] Oracle, “Oracte Express - Database Administration Guide” 1998 TL-2 Zwitering {8} Oracle “ Oracle Express, Database Design and Control, Volumn one - Volumn two", 1998 [9] Microft, “OLAP Services — SQL 7.0” [10] Ban Chi Dao Xay dung thống thông tin nhân ~ lao động - dân số TP HCM “Những văn để án Quản lý dân số lao động hệ thống máy tính TP HCM”, 1999 [11] Sở Lao động Thương Binh Xã hội TP.HCM, “ Kế hoạch qui tình thực đăng ký quản lý hợp đồng lao động, Sổ lao động địa bàn TP HCM”, 1995 (121 Ban Chỉ Đạo Xây dựng hệ thống thông tin nhân — lao động - dân số TP HCM.” Tư liệu Số dân thực tế cư trú TP HCM năm 1998, 1999, 2000.” {13] Viện Kinh tế, *Công văn số 47/HQH ngày 17/02/1997 Viện Kinh Tế Tp HCM v/ cung cấp số liệu phục vụ chương trình hậu qui hoạch “ {14j Viên Kinh tế TP, HCM, “ Biểu khai thác liệu đân nhập cư ngày 01/07/1995” số tài liệu sắn phẩm Microft, Oracle có liên quan TL-3

Ngày đăng: 05/10/2023, 20:08

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN