Luận Văn Báo Cáo Khoa Học Ứng Dụng Công Nghệ Olap Trong Khai Thác Số Liệu Dịch Hại Trên Lúa Tại Trà Vinh.pdf

15 3 0
Luận Văn Báo Cáo Khoa Học Ứng Dụng Công Nghệ Olap Trong Khai Thác Số Liệu Dịch Hại Trên Lúa Tại Trà Vinh.pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ỨNG DỤNG CÔNG NGHỆ OLAP TRONG KHAI THÁC SỐ LIỆU DỊCH HẠI TRÊN LÚA TẠI TRÀ VINH ABSTRACT Online Analytical Processing is used in wide variety of business applications to analyze the data and this helps[.]

ỨNG DỤNG CÔNG NGHỆ OLAP TRONG KHAI THÁC SỐ LIỆU DỊCH HẠI TRÊN LÚA TẠI TRÀ VINH ABSTRACT Online Analytical Processing is used in wide variety of business applications to analyze the data and this helps in querying multidimensional data This thesis describes the design and the implementation of OLAP Reporting Application in rice diseases Data Warehouse by using the architecture of Data Warehouse, OLAP technology and web structure It helps to build and to exploit a Data Warehouse of rice diseases To get this goal, some modern tools to build and to organize many parts of the system needed are used in its practice such as SQL Server 2005 for Analysis Services 2005 for an OLAP database and Microsoft Office Web Components for a web based OLAP Reporting Applications The user can analyze directly and flexibly the rice disease data on the Web pages Keywords: Data Warehouse, Online Analytical Processing (OLAP), web structure, OLAP database, web based OLAP Reporting TĨM TẮT Kỹ thuật phân tích liệu trực tuyến OLAP (Online Analytical Processing) sử dụng rộng rãi nhiều ứng dụng kinh doanh để phân tích liệu giúp truy vấn liệu đa chiều nhằm hỗ trợ việc định nhà quản lý Bài báo mô tả xây dựng ứng dụng thống kê trực tuyến kho liệu dịch hại lúa cách sử dụng kiến trúc kho liệu (Data Warehouse), kỹ thuật phân tích trực tuyến OLAP cấu trúc web Ứng dụng hỗ trợ khai thác hiệu kho liệu dịch hại lúa ngành Trồng trọt Bảo vệ Thực vật Trà Vinh tích tụ nhiều năm qua Để đạt mục đích này, vài cơng cụ sử dụng để xây dựng thành công ứng dụng như: SQL Server 2005 cho kho liệu, Analysis Services 2005 cho CSDL đa chiều OLAP Microsoft Office Web Components cho báo cáo dựa web Với kết đạt được, ứng dụng cho phép người sử dụng phân tích trực tuyến linh hoạt liệu dịch hại lúa trực tiếp trang web, điều cho thấy công nghệ OLAP công cụ áp dụng hiệu ứng dụng hỗ trợ kinh doanh mà cần áp dụng mạnh mẽ hệ thống tin học hỗ trợ lĩnh vực nơng nghiệp Từ khóa: kho liệu, kỹ thuật phân tích trực tuyến, cấu trúc web, CSDL đa chiều OLAP, báo cáo dựa web 1 GIỚI THIỆU Nông nghiệp ngành kinh tế quan trọng kinh tế quốc gia, đặc biệt giai đoạn nay, mà vấn đề an ninh lương thực đặt lên hàng đầu Ở nước ta, kinh tế phát triển lên từ nước nơng nghiệp nên kinh tế nơng nghiệp có vai trò quan trọng phát triển kinh tế đất nước Điều chứng minh thực tế khủng hoảng giá lương thực năm 2008, làm ảnh hưởng nghiêm trọng đến nhiều thành phần kinh tế khác đời sống hàng triệu người Đồng Sông Cửu Long (ĐBSCL) vựa lúa lớn nước ta, năm gần đây, với việc thâm canh tăng vụ áp dụng tiến khoa học kỹ thuật vào sản xuất lúa làm cho suất sản lượng lúa ngày nâng lên Hơn mười năm qua, ĐBSCL xem vùng kinh tế trọng điểm quốc gia sản xuất lương thực phục vụ xuất bảo đảm an ninh lương thực quốc gia Tuy nhiên, với việc thâm canh lúa nhiều năm liền tạo nguy cho bộc phát dịch hại lúa, đặc biệt năm 2006 dịch rầy nâu xuất tất tỉnh thuộc vùng ĐBSCL Để chống lại bộc phát dịch hại, nâng cao suất sản lượng lúa Các nhà khoa học nghiên cứu đưa nhiều biện pháp hữu hiệu như: lai tạo giống lúa có khả kháng dịch hại, thực phương pháp quảng canh, gieo trồng né tránh dịch hại, phun thuốc phòng trị dịch hại nhiều phương pháp khác Dù áp dụng phương pháp nhu cầu tìm kiếm thơng tin dịch hại nhà nông, nhà quản lý nông nghiệp nhà khoa học cần thiết Tại Chi cục Trồng trọt Bảo vệ thực vật Trà Vinh, nhu cầu phân tích số liệu dựa khối lượng liệu khổng lồ để hỗ trợ thông tin nhanh dịch hại lúa cho nông dân, cán quản lý nông nghiệp, cán nghiên cứu mục tiêu đặt Các kết phân tích có ý nghĩa quan trọng cơng tác phòng trị dịch hại Để đạt mục tiêu này, việc xây dụng ứng dụng thống kê trực tuyến sử dụng kỹ thuật phân tích trực tuyến (OLAP – OnLine Analytical Processing) giải pháp tốt Để thể báo cáo dựa nhiều tiêu, theo yêu cầu người sử dụng, người ta thường nhiều thời gian cho việc thu thập liệu, tích hợp số liệu, thực số cơng thức tính tốn, thiết kế mẫu báo cáo mới, chí sửa đổi lại cấu trúc sở liệu (CSDL) thay đổi mã nguồn phần mềm Chính bước phức tạp làm chậm trình cung cấp thông tin nhanh để đáp ứng kịp thời cho cơng tác phịng chống dịch hại Vì vậy, việc thay phương pháp cần thiết Từ yêu cầu thực tế, toán xây dựng ứng dụng thống kê trực tuyến web phục vụ công tác phân tích trực tuyến liệu dịch hại lúa thật thiết thực Ứng dụng thiết kế cho cung cấp thơng tin xác, đáp ứng yêu cầu phân tích số liệu nhiều tiêu, theo yêu cầu người dùng phân tích liệu Để đáp ứng u cầu việc áp dụng cơng nghệ như: kho liệu (Data Warehouse), kỹ thuật phân tích trực tuyến (OLAP) công nghệ liên quan đến web vào việc xây dựng ứng dụng giải pháp khả thi Bài báo tiến hành mô tả xây dựng ứng dụng thống kê số liệu dịch hại lúa Trà Vinh sử dụng kiến trúc kho liệu, kỹ thuật phân tích trực tuyến OLAP kiến trúc web Bài báo nghiên cứu tiêu chí mà người dùng sử dụng phân tích liệu dịch hại lúa trực tuyến web CƠNG NGHỆ OLAP 2.1 OLAP gì? Thuật ngữ OLAP E F Codd đưa báo có tên “Providing On-Line Analytical Processing to User Analysts” công bố vào tháng năm 1993 Trong báo ông đưa 12 quy tắc mà hệ thống OLAP phải tuân theo Từ OLAP biết đến kỹ thuật phân tích liệu sử dụng thể liệu đa chiều gọi khối (cube) OLAP cung cấp khả tạo khối liệu thực truy vấn tinh vi ứng dụng người dùng 12 tiêu chuẩn để đánh giá hệ thống OLAP E F Codd: Khung nhìn khái niệm đa chiều (Multidimensional Conceptual View): Dữ liệu trình bày cho người dùng khuân mẫu đa chiều Trong suốt (Transparency): Người dùng không cần biết họ sử dụng CSDL đa chiều OLAP Tính truy cập (Accessibility): Các công cụ OLAP nên chọn liệu nguồn tốt để hỗ trợ truy vấn Nhất quán thực thi báo cáo (Consistent Reporting Performance): Sự thực thi báo cáo phải không phụ thuộc vào dung lượng CSDL số chiều sử dụng Có kiến trúc khách – chủ (Client-Server Architecture): Các công cụ OLAP triển khai mơ hình khách hàng – phục vụ Phân chiều tổng quát (Generic Dimensionality): Đảm bảo chiều liệu cấu trúc tính tốn Khơng thiên vị việc truy cập chiều Xử lý động Ma trận liệu thừa (Dynamic Sparse Matrix Handling): Các giá trị null tổ chức lưu trữ hiệu ma trận động Hỗ trợ đa người dùng (Multi-User Support): Công cụ OLAP phải hỗ trợ nhiều người dùng đồng thời Các tốn tử qua chiều khơng giới hạn (Unrestricted Cross-Dimensional Operations): Quy tắc kết hợp áp dụng tất chiều 10 Thao tác liệu trực giác (Intuitive Data Manipulation): Người dùng nhìn thấy liệu cần thiết giao diện, tránh phải sử dụng qua menu qua nhiều thao tác mở giao diện 11 Lập báo cáo động (Flexible Reporting): Cho phép người dùng trình bày báo cáo liệu theo cách mà họ thích 12 Mức độ kết hợp số chiều không hạn chế (Unlimited Dimensions and Aggregation Levels): Sẽ khơng có giới hạn số chiều mức kết hợp mơ hình OLAP 2.2 Mơ hình liệu đa chiều Trong thực tế người ta có khuynh hướng suy nghĩ theo “đa chiều” Ví dụ nhà quản lý nơng nghiệp dự đốn dịch hại xảy mơ tả sau: “Có khả dịch rầy nâu bùng phát trở lại tỉnh Trà Vinh, Vĩnh Long, An Giang khoảng tháng năm 2009 ” Dự đoán người thiết kế khối liệu mơ tả lại sau: Hình 1: Mơ chiều mô tả dịch hại Khối liệu (cube): Khối thành phần cấu trúc OLAP sử dụng để lưu trữ liệt kê liệu Nó tương tự khái niệm bảng (table) hệ thống CSDL quan hệ Ví dụ: Để quản lý dịch hại lúa ta tạo khối liệu DICHHAI nhằm lưu lại thông tin liên quan đến dịch hại lúa có xét đến chiều thời gian, loại dịch hại, thời tiết, giai đoạn sinh trưởng, địa điểm Những chiều cho phép người dùng theo dõi thông tin liên quan đến dịch hại dịch hại xảy đâu, điều kiện thời tiết nào, khoảng thời gian giai đoạn sinh trưởng lúa Hình Error! No text of specified style in document.: Lược đồ cấu trúc khối DICHHAI Chiều liệu (Dimension): Chiều thuộc tính cấu trúc tạo nên khối Một chiều nằm khối chia sẻ cho nhiều khối Chiều tạo tạo khối Mỗi chiều ánh xạ thông tin đến bảng kho liệu gọi bảng chiều Ví dụ hình gồm chiều thời gian, loại dịch hại, thời tiết, giai đoạn sinh trưởng, địa điểm Phân cấp (hierarchy): Phân cấp cột sống việc tổng hợp liệu hay nói cách khác dựa vào phân cấp mà việc tổng hợp liệu thực Phần lớn chiều có cấu trúc đa mức hay phân cấp Hình 3: Phân cấp chiều địa điểm Các độ đo (Measures): Các độ đo liệu dạng số người dùng quan tâm liệt kê khối Độ đo lựa chọn dựa loại thông tin người dùng yêu cầu Độ đo tạo tạo khối Một độ đo thuộc khối ngược lại khối có nhiều 1024 độ đo Ví dụ khối hình chứa bốn độ đo Dtnhiemnang, Dtnhiemtb, Dtnhiemnhe, Dtphongtri 2.3 Các lược đồ cho CSDL đa chiều Lược đồ hình (star schema): Lược đồ hình bao gồm bảng kiện (Fact table) nằm trung tâm, số bảng chiều (dimension table) kết nối bao quanh bảng kiện tạo thành hình ngơi Hình 4: Lược đồ hình Lược đồ tuyết (Snowflake schema): Lược đồ tuyết biến thể lược đồ hình sao, số bảng chiều chuẩn hóa, từ có tiếp tục chia liệu thành nhiều bảng khác Lược đồ có hình dạng bơng tuyết Hình 5: Lược đồ bơng tuyết Lược đồ chịm kiện (fact constellation): Các ứng dụng phức tạp đòi hỏi nhiều bảng kiện chia sẻ bảng chiều Loại lược đồ xét tập hợp lược đồ hình Vì thế, gọi lược đồ chịm kiện Hình 6: Lược đồ chịm kiện 2.4 Các mơ hình OLAP thơng dụng Hai mơ hình OLAP thông dụng nhiều nhà cung cấp dịch vụ OLAP hỗ trợ MOLAP ROLAP Sự phân biệt hai mơ hình dựa cách thức lưu trữ liệu ROLAP đại diện cho xử lý phân tích trực tuyến CSDL quan hệ MOLAP đại diện cho xử lý phân tích trực tuyến CSDL đa chiều 2.4.1 Mơ hình MOLAP Trong mơ hình MOLAP, liệu phân tích lưu trữ CSDL đa chiều chuyên dụng nhằm phục vụ tốt cho truy vấn tổng hợp liệu thường xuyên mà cần thời gian truy xuất nhanh Số liệu tính tốn trước chiều khối liệu lưu CSDL đa chiều Động MOLAP tầng ứng dụng đẩy liệu đa chiều từ CSDL đa chiều đến người dùng phân tích liệu Hình trình bày kiến trúc mơ hình MOLAP Hình 7: Mơ hình MOLAP Ưu điểm MOLAP: - Thực thi nhanh câu truy vấn nhờ vào việc tối ưu hóa lưu trữ, lập mục đa chiều chế nhớ cache - Áp dụng tốt cho hệ thống có yêu cầu tính tốn phức tạp thời gian truy xuất nhanh tất liệu cần tính tốn thực tạo khối liệu - Khơng sử dụng chế khố liệu đọc - Dữ liệu dễ dàng chép đến người dùng cho phân tích offline Nhược điểm MOLAP: - Chi phí nhiều thời gian để xử lý liệu (nạp liệu), đặc biệt trường hợp khối liệu có dung lượng lớn Để khắc phục nhược điểm công cụ MOLAP cho phép xử lý phần liệu có thay đổi thay xử lý lại tồn khối liệu - MOLAP lưu trữ nhiều liệu dư thừa nhằm đáp ứng thời gian truy xuất nhanh - Bị giới hạn dung lượng liệu hệ thống tất liệu tính tốn trước lưu trữ khối Điều làm cho liệu khối có phinh hướng tổng hợp chi tiết - Tăng thêm chi phí cơng nghệ đa chiều khơng có sẵn hệ thống nên phải đầu tư chi phí cho cơng nghệ huấn luyện người 2.4.2 Mơ hình ROLAP Trong mơ hình ROLAP, liệu lưu trữ bảng theo định dạng CSDL quan hệ đáp ứng tốt cho truy vấn liệu không thường xuyên Để giấu kiến trúc lưu trữ theo định dạng quan hệ trình bày liệu đa chiều, ROLAP tạo lớp liệu ngữ nghĩa gọi Metadata Lớp Metadata hỗ trợ việc ánh xạ chiều đến bảng CSDL quan hệ đồng thời hỗ trợ việc tổng hợp kết hợp liệu Metadata lưu trữ CSDL quan hệ Hình 8: Mơ hình ROLAP Ưu điểm ROLAP: - Có thể áp dụng với hệ thống có dung lượng lớn kích cỡ ROLAP kích cỡ CSDL quan hệ - Tiết kiệm không gian lưu trữ liệu lưu trữ CSDL quan hệ truyền thống trùng lắp - ROLAP kỹ thuật hiệu cho hệ quản trị CSDL quan hệ trì chức truyền thơng đồng thời thực thi phép toán hệ thống OLAP - Dữ liệu chứa CSDL quan hệ chuẩn nên truy cập công cụ SQL Nhược điểm ROLAP: - ROLAP chạy chậm ROLAP report câu truy vấn nguyên thủy CSDL quan hệ - Tất tính tốn ROLAP dựa hàm SQL, chúng khơng thích hợp mơ hình có nhiều tính tốn dự tốn ngân sách, báo cáo tài 2.4.3 So sánh MOLAP ROLAP Việc chọn lựa mơ hình ROLAP MOLAP phụ thuộc vào độ phức tạp câu truy vấn hệ thông yêu cầu thời gian truy xuất liệu MOLAP lựa chọn hệ thống cần thời gian truy xuất nhanh câu truy vấn có u cầu tính tốn phức tạp ROLAP lựa chọn hệ thống có dung lượng liệu lớn, không yêu cầu thời gian đáp ứng cao tầng xuất truy cập liệu không thường xuyên Tuy nhiên, việc định chọn MOLAP hay ROLAP dựa vào việc so sánh chi tiết góc độ kỹ thuật lưu trữ, công nghệ ứng dụng đặc trưng mơ hình Hình 9: So sánh MOLAP ROLAP 2.4.4 Mơ hình HOLAP Mơ hình HOLAP kết hợp MOLAP ROLAP, lưu trữ khối cấu trúc HOLAP tốt cho truy vấn tổng hợp liệu thường xuyên dựa lượng lớn liệu sở Ví dụ, lưu trữ liệu bán hàng theo hàng quý, hàng năm cấu MOLAP liệu hàng tháng, hàng tuần hàng ngày cấu trúc ROLAP Hình 10: Mơ hình HOLAP 2.5 Các thao tác OLAP mơ hình liệu đa chiều - Roll up: Thao tác theo hướng cao cấu trúc phân cấp, nhằm tổng hợp số liệu mức cao - Drill-down: Thao tác ngược với Roll-up, theo hướng cấp thấp cấu trúc phân cấp, nhằm trình bày liệu mức chi tiết - Slice and Dice: Thao tác thực phép chọn chiếu nhiều chiều khối liệu cho, kết thu khối liệu - Pivot (hay rotate): Thao tác pivot thao tác minh họa, quay trục liệu khung nhìn nhằm cung cấp dạng biểu diễn khác liệu để chọn lựa cách biểu diễn Drill- Roll up Hình 11: Minh họa thao tác Roll up, Drill down Pivot (hay rotate) Hình 12: Minh họa thao tác Pivot Hình 13: Minh họa thao tác Slice and Dice ỨNG DỤNG OLAP TRONG THỐNG KÊ DỊCH HẠI TRÊN LÚA TẠI TRÀ VINH Microsoft hỗ trợ nhà xây dựng ứng hệ thống công cụ sẵn dùng cho phép xây dựng ứng dụng OLAP mơi trường Web nhanh chóng dễ dàng Các cơng cụ tích hợp môi trường thống việc kết nối chúng dễ thực thông qua giao diện đồ họa Các cơng cụ chia thành nhóm chính: nhóm cơng cụ tổ chức lưu trữ kho liệu, nhóm cơng cụ tổ chức lưu trữ CSDL đa chiều nhóm cơng cụ hỗ trợ hiển thị khối liệu 3.1 Sơ đồ kết nối nhóm cơng cụ Hình 14: Sơ đồ kết nối nhóm cơng cụ 3.2 Cấu trúc ứng dụng web Ứng dụng xây dựng theo mơ hình website cung cấp thông tin bao gồm: quản trị hệ thống, trang cung cấp dịch vụ thống kê dịch hại lúa hướng dẫn người dùng Hình 15: Cấu trúc ứng dụng 3.3 Trang đăng nhập ứng dụng Để sử dụng ứng dụng người dùng bắt buộc phải đăng nhập vào hệ thông tài khoản password cấp người quản trị Hình 16: Cửa sổ đăng nhập ứng dụng 3.4 Giao diện ứng dụng web Khi người dùng đăng nhập hệ thống thành công ứng dụng mở trang giao diện Giao diện người dùng thực tất thao tác ứng dụng Hình 17: Giao diện website 3.5 Trang thống kê trực tuyến số liệu hại Trên trang giao diện thông kê liệu dịch hại, người dùng tự tạo báo cáo động theo yêu cầu cách kéo thả cột cần thiết vào vùng cửa sổ Và người dùng cịn chọn hàm thống kê (sum, max, min, average) để tính số liệu theo yêu cầu Ví dụ: Để tổng hợp diện tích nhiễm nặng dịch hại: Đạo ơn cổ bơng, Lùn xoắn lá, Rầy cánh trắng, Rầy nâu, Sâu nhỏ Vàng lùn tỉnh Trà Vinh năm 2008 phân bố theo mùa năm ta thao tác sau: - Kéo rê cột Tenthuong (tên dịch hại) từ PivotTable vào vùng Row Field, trích lọc theo tiêu chuẩn dịch hại cần tổng hợp hình 18 Kéo rê cột Mua vào vùng Column Field Kéo rê cột Dtnhiemnang vào vùng Totals or Detail fields Kéo rê cột Tentinh vào vùng Filter Fields, trích lọc theo tiêu chuẩn “Trà Vinh” Kéo rê cột Nam vào vùng Filter Fields, trích lọc theo tiêu chuẩn “2008” Hình 182: Minh họa thống kê liệu theo mùa 3.6 Trang vẽ biểu đồ thống kê số liệu mẫu dịch hại Trên trang giao diện vẽ biểu đồ thông kê số liệu dịch hại, người dùng tạo biểu đồ động theo yêu cầu cách kéo thả cột cần thiết vào vùng trình bày biểu đồ cửa sổ Ví dụ: Để vẽ biểu đồ thể số lượng rầy nâu vào bẫy đèn huyện thuộc tỉnh Trà Vinh năm 2008 ta thao tác sau: - Kéo rê cột Tenhuyen vào vùng Category Fields Kéo rê cột Soluong vào vùng Categories Kéo rê cột Tentinh vào vùng Filter Fields, trích lọc theo chuẩn “Trà Vinh” Kéo rê cột Nam vào vùng Series Fields, trích lọc theo chuẩn “2008” Hình 19: Biểu đồ thể số lượng rầy nâu vào bẫy đèn KẾT LUẬN Nghiên cứu xây dựng thành công ứng dụng thống kê trực tuyến số liệu dịch hại lúa Trà Vinh dùng kỹ thuật OLAP Kết cho thấy khả ứng dụng thực tế tốt kỹ thuật OLAP cho ứng dụng cung cấp thông tin lĩnh vực nông nghiệp Tuy nhiên, để triển khai ứng dụng vào thực tế cần phát triển thêm nội dung sau: xây dựng khối liệu dựa ý kiến chuyên gia quản lý dịch hại lúa; Triển khai ứng dụng công cụ mã nguồn mở Đây giải pháp giúp giảm chi phí đưa ứng dụng vào áp dụng thực tế TÀI LIỆU THAM KHẢO Huỳnh Tuấn Anh (2008), Bài giảng Datawarehouse and data mining, Trường Đại Học Nha Trang Phạm Văn Kim (2009), Giáo trình Các nguyên lý bệnh hại trồng, Trường Đại Học Cần Thơ Dave Stearns (1999), Introducing the Office Web Components, Microsoft Corporation Erik Thomsen (2002), OLAP Solutions Building Multidimensional Information Systems, Wiley Eric (2005), Implementing Office Web Component Pivot Tables with ASP.NET, Microsoft Corporation Murugan Anandarajan, Asokan Anandarajan, Cadambi A Srinivasan (2004), Business Intelligence Techniques: A Perspective from Accounting and Finance, Springer Paulraj Ponniah (2001), Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals, Wiley Robert Wrembel, Christian Koncilia (2007), Data Warehouses and OLAP: Concepts, Architectures and Solutions, IRM Press

Ngày đăng: 22/06/2023, 08:57

Tài liệu cùng người dùng

Tài liệu liên quan