1. Trang chủ
  2. » Công Nghệ Thông Tin

Đánh giá biến động lớp phủ thực vật dựa trên phân tích chuỗi thời gian với Apache Spark và RasterFrames

11 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Bài viết giới thiệu phương pháp xử lý dữ liệu ảnh vệ tinh sử dụng thư viện RasterFrames trên nền tảng Apache Spark. Thư viện RasterFrames xử lý dữ liệu raster cho Python, Scala và SQL, mang sức mạnh của Spark DataFrames vào việc truy cập dữ liệu quan sát Trái đất (Earth Observation), điện toán đám mây và khoa học dữ liệu. Trong phần thực nghiệm, chỉ số thực vật NDVI và sự thay đổi giá trị trung bình của NDVI theo chuỗi thời gian đã được tính toán để chỉ ra sự biến đổi lớp phủ thực vật tại khu vực tỉnh Phú Thọ từ năm 2013-2015.

42 Journal of Mining and Earth Sciences Vol 62, Issue (2021) 42 - 52 Vegetation change detection based on time series analysis by Apache Spark and RasterFrame Dung Mai Thi Nguyen*, Thu Hoai Thi Vu Faculty of Information Technology, Hanoi University of Mining and Geology, Viet Nam ARTICLE INFO ABSTRACT Article history: Received 18th Sept 2020 Accepted 09th Jan 2021 Available online 28th Feb 2021 Spatial big data has a large scale and complex, therefore, it cannot be collected, managed, and analyzed by traditional data analytic software shortly These platforms in many situations are restricted to vectors data However, the raster data generated by the sensors on the enormous number of satellites now needs to be processed in parallel on the cluster environment The article introduces the satellite image data analyzing method using the RasterFrames library on the Apache Spark platform The RasterFrames library examines raster data for Python, Scala, and SQL, bringing the power of Spark DataFrames to access to Earth Observation, cloud computing, and data science In the experimental part, the NDVI and the change in the average value of NDVI in the time series are calculated to demonstrate the vegetation mantle changes in Phu Tho province These results are the reference data source in the assessment of weather, climate, and environmental changes in the study area during that time Keywords: Apache Spark, MODIS, NDVI, RasterFrames, Spatial bigdata, Time series analysis Copyright © 2021 Hanoi University of Mining and Geology All rights reserved _ *Corresponding author E - mail: nguyenthimaidung@humg.edu.vn DOI: 10.46326/JMES.2021.62(1).06 Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất Tập 62, Kỳ (2021) 42 - 52 43 Đánh giá biến động lớp phủ thực vật dựa phân tích chuỗi thời gian với Apache Spark RasterFrames Nguyễn Thị Mai Dung*, Vũ Thị Hồi Thu Khoa Cơng nghệ Thơng tin, Trường Đại học Mỏ - Địa chất, Việt Nam THÔNG TIN BÀI BÁO TĨM TẮT Q trình: Nhận 18/9/2020 Chấp nhận 09/01/2021 Đăng online 28/02/2021 Dữ liệu khơng gian lớn có khối lượng lớn phức tạp, thu thập, quản lý xử lý phần mềm xử lý liệu truyền thống thời gian ngắn Các tảng xử lý liệu nhiều trường hợp giới hạn liệu vectơ Tuy nhiên, liệu raster tạo cảm biến số lượng lớn vệ tinh cần xử lý song song môi trường cụm Bài báo giới thiệu phương pháp xử lý liệu ảnh vệ tinh sử dụng thư viện RasterFrames tảng Apache Spark Thư viện RasterFrames xử lý liệu raster cho Python, Scala SQL, mang sức mạnh Spark DataFrames vào việc truy cập liệu quan sát Trái đất (Earth Observation), điện toán đám mây khoa học liệu Trong phần thực nghiệm, số thực vật NDVI thay đổi giá trị trung bình NDVI theo chuỗi thời gian tính tốn để biến đổi lớp phủ thực vật khu vực tỉnh Phú Thọ từ năm 2013÷2015 Các kết nguồn liệu tham khảo đánh giá biến đổi thời tiết, khí hậu, mơi trường khu vực nghiên cứu khoảng thời gian Từ khóa: Apache Spark, Dữ liệu khơng gian lớn, MODIS, NDVI, Phân tích chuỗi thời gian, RasterFrames © 2021 Trường Đại học Mỏ - Địa chất Tất quyền bảo đảm Mở đầu Tập liệu hình ảnh vệ tinh lớn phức tạp khó xử lý chúng cơng cụ quản lý sở liệu có sẵn ứng dụng xử lý liệu truyền thống Việc phân tích liệu lớn địi hỏi thuật tốn phức tạp dựa kỹ thuật học máy học sâu để xử lý liệu theo thời gian thực với độ xác hiệu cao Truy vấn liệu từ hệ thống vệ tinh quan sát Trái đất thường gặp phải vấn đề khó khăn như: đặc tính đa _ *Tác giả liên hệ E - mail: nguyenthimaidung@humg.edu.vn DOI: 10.46326/JMES.2021.62(1).06 nguồn, đa tỷ lệ, tỷ lệ lớn động phi tuyến tính Vấn đề nằm việc truy cập liệu kích thước khổng lồ hình ảnh vệ tinh thực tế việc phân tích chúng gặp vấn đề cần phải tháo gỡ Đã có nhiều nghiên cứu việc truy cập phân tích liệu vệ tinh, đặc biệt nghiên cứu mức độ ô nhiễm quốc gia, tình hình lũ lụt cháy rừng Trong báo này, nhóm nghiên cứu giới thiệu tảng phân tích xử lý liệu ảnh vệ tinh dựa cụm Apache Spark kết hợp với RasterFrames thư viện xử lý liệu không gian địa lý cho Python SQL RasterFrames cung cấp chế độ hiển thị liệu vào DataFrame kiểu liệu ảnh vệ tinh quan sát Trái đất, cho phép truy vấn không 44 Nguyễn Thị Mai Dung, Vũ Thị Hồi Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52 gian, thời gian, thực phép toán số học tương thích với hệ sinh thái thuật tốn Spark ML Cụ thể, báo sử dụng RasterFrames Apache Spark để tính tốn số NDVI, sau trích xuất thay đổi NDVI khoảng thời gian định để theo dõi biến đổi lớp phủ thực vật khu vực nghiên cứu Cơ sở lý thuyết vùng thực nghiệm 2.1 Nền tảng Apache Spark Apache Spark tảng tính toán phân cụm mã nguồn mở phát triển sơ khởi vào năm 2009 Matei Zaharia Đại học California, Berkeley RAD Lab Spark ban đầu mở nguồn theo chương trình BSD (Berkeley Software Distribution) Spark trao cho Apache Software Foundation vào năm 2013, trở thành dự án cao cấp ASF vào năm 2014 phát triển Spark có 400 cộng tác viên nhà quản lý riêng biệt từ công ty Facebook, Yahoo, Intel, Netflix, Databricks,… cho phép xây dựng mơ hình dự đốn nhanh chóng với việc tính tốn thực nhóm máy tính, tính tốn lúc tồn tập liệu mà khơng cần phải trích xuất mẫu tính tốn thử nghiệm Tốc độ xử lý Spark có việc tính tốn thực lúc nhiều máy khác Đồng thời việc tính tốn thực nhớ (inmemories) hay thực hoàn toàn RAM Apache Spark biết đến giải pháp hiệu cho xử lý liệu lớn hầu hết ngành công nghiệp cộng đồng chấp nhận (Databricks) Apache Spark cung cấp mơ hình lập trình hỗ trợ nhiều loại ứng dụng, bao gồm ETL, học máy, xử lý luồng liệu tính tốn đồ thị Spark bổ sung hai tính cho MapReduce lặp lại, tương tác ứng dụng trực tuyến Nhờ xử lý in-memory nên Spark cung cấp phân tích liệu thời gian thực cho chiến dịch quảng cáo, máy học (machine learning), hay website mạng xã hội Một ưu điểm lớn Spark tính dễ sử dụng Spark có giao diện người dùng thân thiện Spark cung cấp API thân thiện cho Scala Java, Python Spark SQL (hay gọi Shark) Việc Spark xây dựng từ khối đơn giản giúp tạo hàm người dùng xác định cách dễ dàng Nền tảng Apache Spark mã nguồn mở, sử dụng server chung, chạy đám mây (cloud) Spark cần lượng lớn RAM xử lý thứ nhớ Việc thiết lập Spark Cluster tốn yêu cầu xử lý liệu thời gian thực Spark lựa chọn tối ưu cần hệ thống cho xử lý lượng lớn liệu với thời gian ngắn Một lựa chọn khác để giảm chi phí sử dụng nhà cung cấp cho Spark DataBricks, EarthAI chạy quy trình EMR/Mapreduce đám mây với AWS Trong năm gần đây, số giải pháp xử lý liệu không gian tảng liệu lớn công bố MD-HBase (Nishimura nnk., 2011), Parallel-Secondo (Lu Guting, 2012), Hadoop-GIS (Ablimit nnk., 2013), GeoTrellis (Kini Emanuele, 2014), GeoMesa (Hughes nnk., 2015), SpatialHadoop (Eldawy Mokbel, 2015), GeoSpark (Yu nnk., 2015) SpatialSpark (You nnk., 2015) Các nghiên cứu tập trung xử lý vấn đề liệu không gian địa lý lớn, nhiên tồn khác biệt thách thức đặt yêu cầu kỹ thuật cụ thể Magellan (Ram Sriharsha) giải pháp thực thi phân tán phân tích liệu không gian địa lý lớn Công cụ triển khai Apache Spark khai thác triệt để kỹ thuật sở liệu đại xếp lớp liệu hiệu quả, tổng quát hóa, tìm kiếm tối ưu Nó hỗ trợ đầy đủ tính OpenGIS hàm dự báo khơng gian SQL, thuật tốn khơng gian topology Một phần mềm xử lý liệu không gian lớn khác phát triển tảng Apache Spark SparkSpatialSDK (Shangguan nnk., 2017), xem xét đặc trưng liệu không gian, bổ sung cấu trúc liệu không gian API cho phép người dùng dễ dàng thực phép phân tích khơng gian với liệu không gian địa lý lớn Một số nghiên cứu tiến hành so sánh việc triển khai số phép truy vấn sở liệu không gian truyền thống PostGIS/PostgreSQL GeoSpark SQL Kết PostGIS/PostgreSQL hoạt động tốt so với GeoSpark SQL truy vấn khơng gian có tính chọn lọc cao truy vấn dạng điểm truy vấn theo cửa sổ Nhìn chung, GeoSpark SQL hoạt động tốt thực phép truy vấn không gian kNN kết nối không gian (Huang nnk., 2017) STARK (Hagedorn nnk., 2017), thực phân tích liệu khơng gian-thời gian Nguyễn Thị Mai Dung, Vũ Thị Hồi Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52 Spark, tảng thích hợp chặt chẽ với Apache Spark, hỗ trợ kiểu liệu không gian thời gian thuật toán xử lý Fei Xiao (2018) đề xuất hệ thống xử lý liệu không gian lớn áp dụng cho giám sát điều kiện địa lý Trung Quốc, gồm bốn lớp lưu trữ liệu khơng gian, RDDs khơng gian, phép tốn xử lý liệu không gian ngôn ngữ truy vấn không gian Mục tiêu báo nghiên cứu giải pháp xử lý ảnh vệ tinh tảng liệu lớn Apache Spark Dữ liệu ảnh vệ tinh tải xử lý công cụ Apache Spark Sự phát triển DataFrame tiếp tục với Spark SQL, đưa DataFrames vào tính tốn phân tán liệu khơng gian lớn Thơng qua số cải tiến mới, Spark SQL cho phép nhà khoa học liệu làm việc với DataFrames lớn so với nhớ máy tính Các DataFrames thao tác qua SQL tiêu chuẩn, ngơn ngữ lập trình Python, R, Java, Scala (Hình 1) 2.2 RasterFrames 45 RasterFrames dự án Eclipse Foundation LocationTech, kết hợp phân tích liệu quan sát Trái đất, điện toán đám mây khoa học liệu dựa DataFrame RasterFrames kết hợp truy cập liệu quan sát Trái đất, điện toán đám mây khoa học liệu dựa tảng DataFrames Cung cấp khả truy cập hiển thị liệu raster qua DataFrames, thực truy vấn khơng gian thời gian, phép tốn đại số liệu raster khả tương thích với thuật toán Spark ML Bằng cách sử dụng DataFrames mơ hình tính tốn thống nhất, RasterFrames cho phép nhà phân tích, nhà khoa học liệu, chuyên gia khoa học không gian dễ dàng làm việc với liệu quan sát Trái đất cấu trúc liệu DataFrames quen thuộc (Hình 2) Ngoài RasterFrames xây dựng tảng Apache Spark, giải pháp thử nghiệm máy tính từ khai phá liệu đến xử lý tập liệu lớn dễ dàng giới hạn tỷ lệ để chạy tài ngun tính tốn phân cụm đám mây Hình Xử lý liệu khơng gian tảng Apache Spark Hình Các thành phần cấu thành nên RasterFrames 46 Nguyễn Thị Mai Dung, Vũ Thị Hồi Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52 Thông qua Spark DataSource, RasterFrames đọc định dạng raster khác - bao gồm GeoTIFF, JP2000, MRF HDF - từ loạt dịch vụ, HTTP, FTP, HDFS, S3 WASB Nó hỗ trợ đọc định dạng vector GeoJSON WKT / WKB RasterFrame thực phép lọc, chuyển đổi, tổng qt hóa, tái chia mẫu phân loại thơng qua 200 hàm raster vector Là phần dự án LocationTech, RasterFrames xây dựng dựa tảng vững cung cấp GeoMesa (phép tốn khơng gian), GeoTrellis (phép tốn raster), JTS (mơ hình hình học) SFCurve (lập mục khơng gian thời gian), tích hợp khía cạnh khác dự án thành thể thống nhất, phân tích liệu dựa DataFrame Hình mơ tả thành phần cấu thành nên RasterFrames RasterFrames giới thiệu kiểu liệu riêng gọi tile cho Spark SQL Mỗi ô tile chứa ma trận chiều gồm giá trị “cell” (pixel) với thông tin giải thích số lượng Một “RasterFrames” Spark DataFrame với hay nhiều cột kiểu tile (Hình 3) Một cột tile thường biểu thị kênh ảnh độc lập liệu ảnh viễn thám tương ứng với dải sóng dải quang phổ, phân tách thành mảng có kích thước định RasterFrames hỗ trợ để làm việc với liệu vectơ với định dạng GeoJSON Ngồi cột tile, cịn quản lý thêm cột geometry (giới hạn phạm vi/đường bao) xác định vị trí liệu, thơng tin hệ thống tọa độ (crs) cột timestamp biểu thị thời gian thu nhận liệu Các cột sử dụng câu lệnh WHERE thực truy vấn ảnh Dữ liệu raster đọc từ số nguồn Thông qua API Spark SQL DataSource, RasterFrames xây dựng từ tập hợp GeoTIFFs, GeoTrellis Layers danh mục liệu thực nghiệm từ liệu Landsat MODIS Amazon Web Services (AWS) Public Data Set (PDS) (Hình 4) 2.3 Dữ liệu vùng thực nghiệm Dữ liệu đầu vào sử dụng nghiên cứu ảnh vệ tinh MODIS Nadir BRDF-Adjusted Surface Reflectance Data Product 500m với định dạng liệu GeoTIFFs lấy từ nguồn Amazon Web Services PDS Hình Kiểu liệu Tile sử dụng RasterFrame Hình Các nguồn liệu raster sử dụng RasterFrames Nguyễn Thị Mai Dung, Vũ Thị Hồi Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52 Dữ liệu ảnh MODIS thu nhận khoảng thời từ tháng 01/1/2013 đến tháng 31/12/2015 cho khu vực tỉnh Phú Thọ (Hình 5) Số lượng ảnh cung cấp Amazone Web Services PDS cảnh ảnh ngày thuộc tính ảnh thể dạng lược đồ: col_name data_type product_id string acquisition_date gid b01 b01qa b02 … b07qa Hình Khu vực nghiên cứu Hình Lưu đồ giải thuật chi tiết phân tích chuỗi thời gian NDVI timestamp string string string string … String 47 48 Nguyễn Thị Mai Dung, Vũ Thị Hồi Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52 Phương pháp phân tích chuỗi thời gian 3.1 Phân tích chuỗi thời gian giá trị NDVI Hình mô tả lưu đồ giải thuật xử lý phân tích chuỗi thời gian giá trị NDVI tập liệu đầu vào Phương pháp tóm tắt bước sau: Sử dụng RasterFrames kết nối đến nguồn liệu từ dịch vụ đám mây Amazon Xác định vùng liệu vùng quan tâm thời gian thu thập liệu ảnh Thực tính tốn giá trị DataFrames Thực phân tích theo chuỗi thời gian Biểu diễn kết phân tích biểu đồ 3.2 Cài đặt chương trình Ở phần báo trình bày cài đặt giải thuật phân tích chuỗi thời gian với ngơn ngữ Python, bước phương pháp cài đặt sau: - Kết nối đến nguồn liệu Amazon path='RG_PhuTho_offset1km_1.geojson' PT_vector=spark.read.geojson(path) cat=spark.read.format('aws-pds-modiscatalog').load().repartition(50) PT_cat = cat\ filter( (cat.granule_id =='h27v06')& (cat.acquisition_date >= lit('2013-01-01'))& (cat.acquisition_date < lit('2013-12-01')) )\ crossJoin(PT_vector) - Xác định vùng liệu thời gian thu nhận ảnh raster_cols = ['B01', 'B02',] # red and nearinfrared để tính tốn NDVI PT_rf = spark.read.raster( PT_cat.select(['acquisition_date', 'granule_id'] + raster_cols + PT_vector.columns), catalog_col_names=['B01', 'B02']) \ withColumn('PT_native', st_reproject('geo_simp', lit('EPSG:4326'), rf_crs('B01'))) \ filter(st_intersects('PT_native', rf_geometry('B01')))\ - Tính tốn NDVI rf_PT_tile = PT_rf\ withColumn('dims', rf_dimensions('B01')) \ withColumn('PT_tile', rf_rasterize('PT_native', rf_geometry('B01'),'OBJECTID', 'dims.cols', 'dims.rows')) \ persist() rf_ndvi = rf_PT_tile \ withColumn('ndvi', rf_normalized_difference('B02', 'B01')) \ withColumn('ndvi_masked', rf_mask('ndvi', 'PT_tile')) - Phân tích chuỗi thời gian time_series = rf_ndvi\ groupby( year('acquisition_date').alias('year'), weekofyear('acquisition_date').alias('week'))\ agg(rf_agg_mean('ndvi_masked').alias('ndvi')) - Biểu diễn kết phân tích ts_pd = time_series.toPandas() ts_pd.sort_values(['year', 'week'], inplace=True) plt.figure(figsize=(20,8)) plt.plot(ts_pd['year_week'], ts_pd['ndvi'],'go') Kết thực nghiệm Chỉ số thực vật NDVI thay đổi giá trị trung bình NDVI khoảng thời gian định tính tốn để biến đổi lớp phủ thực vật khu vực tỉnh Phú Thọ NDVI thường sử dụng để theo dõi hạn hán, dự đốn sản xuất nơng nghiệp, hỗ trợ dự đoán khu vực cháy rừng lập đồ xâm lấn sa mạc NDVI để theo dõi thảm thực vật tồn cầu giúp làm cân cho việc thay đổi điều kiện chiếu sáng, độ dốc bề mặt, hướng yếu tố ngoại lai khác (Lillesand 2004) Chỉ số NDVI tính tốn theo tỷ số kênh sóng đỏ (Red) kênh cận hồng ngoại (NIR) 𝑁𝐷𝑉𝐼 = 𝐵𝑎𝑛𝑑 (𝑁𝐼𝑅) − 𝐵𝑎𝑛𝑑 (𝑅𝑒𝑑) 𝐵𝑎𝑛𝑑 (𝑁𝐼𝑅) + 𝐵𝑎𝑛𝑑 (𝑅𝑒𝑑) Quá trình xử lý liệu thay thực liệu raster độc lập, RasterFrames cung cấp khả xử lý tập hợp Nguyễn Thị Mai Dung, Vũ Thị Hồi Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52 liệu raster Tập hợp danh sách URL tham chiếu đến tệp raster Spark DataFrame, Pandas DataFrame, tệp CSV chuỗi CSV Thực nghiệm kết hợp liệu ranh giới khu vực nghiên cứu với danh mục tệp raster 49 xử lý kênh ảnh dùng để tính tốn số NDVI (Hình 7) Chỉ số thực vật NDVI khoảng thời gian từ 1/1/2013 đến 30/12/2015 tính tốn cho tồn liệu Hình thể giá trị tháng 12/2013 tính tốn, kết xuất từ chương trình Hình Tập hợp liệu raster sử dụng tính tốn số NDVI (Kênh sóng Đỏ cận hồng ngoại) ảnh MODIS Hình NIDV 12/2013 đồ trạng 50 Nguyễn Thị Mai Dung, Vũ Thị Hồi Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52 đồ trạng lớp phủ thực vật năm 2013 tỉnh Phú Thọ Kết cho thấy độ xác phương pháp tính tốn đề xuất Khu vực ảnh có giá trị NDVI cao (>0.6) tương ứng với vùng lớp phủ rừng (mầu vàng) đồ lớp phủ Tiếp theo, phân tích theo chuỗi thời gian thiết lập cách sử dụng giá trị NDVI trung bình theo tuần khoảng thời gian khu vực tỉnh Phú Thọ việc sử dụng hàm tính tốn dựa nhóm thời gian tích hợp sẵn Pyspark hàm tập hợp RasterFrames để thực việc tính tốn Hình biểu diễn giá trị biến động NDVI theo tuần năm 2013 2015 Kết cho thấy độ biến động năm đồng Giá trị NDVI trung bình có xu hướng giảm mạnh từ khoảng tháng 11÷3 năm sau chứng tỏ thực vật trút thời điểm mùa khơ Từ tháng 4÷10 giá trị NDVI trung bình tăng chứng tỏ thực vật dần phát triển ổn định thời điểm mùa mưa không bị hạn hán, cháy rừng, nhiều ánh nắng mặt trời giúp thực vật quang hợp tốt Kết luận Phương pháp xử lý phân tích liệu ảnh vệ tinh dựa tảng Apache Spark kết hợp với thư viện xử lý liệu không gian RasterFrames Dữ liệu đầu vào tập ảnh Hình Đồ thị biểu diễn xu hướng chuỗi thời gian NDVI (1/2013-12/2013 1/2015- 12/2015) Nguyễn Thị Mai Dung, Vũ Thị Hồi Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52 vệ tinh MODIS thu nhận khoảng thời gian từ tháng 1/2013 đến tháng 12/2015 khu vực tỉnh Phú Thọ Chỉ số NDVI theo chuỗi thời gian tính tốn phân tích để đánh giá biến đổi lớp phủ thực vât khu vực nghiên cứu Phương pháp đề xuất cho thấy khả mở rộng để xử lý lượng liệu lớn kết nối từ nguồn liệu phong phú Các kết thực nghiệm thực máy tính, nhiên mở rộng thành cụm tính tốn dựa tảng Apache Spark Kết báo góp phần khẳng định vai trị tảng công nghệ liệu lớn, điện toán đám mây, khoa học liệu toán liên quan đến quản lý, giám sát tài nguyên thiên nhiên mơi trường Thực phân tích đa thời gian phức tạp để có đánh giá chi tiết mở rộng nguồn liệu ảnh đầu vào hướng nghiên cứu Lời cảm ơn Kết nghiên cứu nội nghiên cứu đề tài “Xử lý ảnh vệ tinh tảng liệu lớn ”, Mã số T19-29 Nhóm nghiên cứu xin chân thành cảm ơn Đề tài hỗ trợ cho nghiên cứu Những đóng góp tác giả Nội dung khoa học báo có đóng góp tất tác giả, cụ thể: Nguyễn Thị Mai Dung: đề xuất phương pháp, chỉnh sửa thảo báo; Vũ Thị Hồi Thu: cài đặt chương trình, viết thảo báo Tài liệu tham khảo Aji, A., Sun, X., Vo, H., Liu, Q., Lee, R., Zhang, X., Saltz, J and Wang, F., (2013) Demonstration of Hadoop-GIS: a spatial data warehousing system over MapReduce In Proceedings of the 21st ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems (pp 528-531) ACM Boyi Shangguan, Peng Yue, Zhaoyan Wu and Liangcun Jiang, (2017) Big spatial data processing with Apache Spark In AgroGeoinformatics, 2017 IEEE Eldawy, A and Mokbel, M F., (2015) SpatialHadoop: A MapReduce framework for 51 spatial data In Data Engineering (ICDE), 2015 IEEE 31st International Conference on (pp 1352- 1363) IEEE Databricks Apache Spark – What is Spark http://databricks.com/spark Fei Xiao, (2017) A Big Spatial Data Processing Framework Applying to National Geographic Conditions Monitoring The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, Volume XLII-3, 2018 ISPRS TC III Mid-term Symposium “Developments, Technologies and Applications in Remote Sensing”, 7-10 May, Beijing, China Huang, Z., Chen, Y., Wan, L., and Peng, X., (2017) GeoSpark SQL: An Effective Framework Enabling Spatial Queries on Spark In ISPRS International Journal of Geo- Information, 6(9), 285 Hughes, J N., Annex, A., Eichelberger, C N., Fox, A., Hulbert, A and Ronquest, M., (2015) Geomesa: a distributed architecture for spatio-temporal fusion In SPIE Defense+ Security (pp 94730F94730F) International Society for Optics and Photonics Kini, A., and R., (2014) Emanuele Geotrellis: Adding geospatial capabilities to spark In Spark Summit Lu, J and Guting, R H., (2012) Parallel secondo: boosting database engines with hadoop In Parallel and Distributed Systems (ICPADS), (2012) IEEE 18th International Conference on (pp 738-743) IEEE MODIS on AWS https://docs.opendata.aws/ modis -pds/readme.html Nishimura, S., Das, S., Agrawal, D and El Abbadi, A., (2011), June Md-hbase: A scalable multidimensional data infrastructure for location aware services In Mobile Data Management (MDM), 2011 12th IEEE International Conference on (Vol 1, pp 7-16) IEEE Ram Sriharsha, https://github.com/harsha2010 /magellan RasterFrames http://rasterframes.io/ Stefan Hagedorn, Philipp Gö tze, Kai-Uwe Sattler, 52 Nguyễn Thị Mai Dung, Vũ Thị Hồi Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52 (2017) Big Spatial Data Processing Frameworks: Feature and Performance Evaluation In 20th International Conference on Extending Database Technology (EDBT) Thomas Lillesand, Ralph W., (2004) Kiefer, Jonathan Chipman Remote sensing and image interpretation Wiley You, S., Zhang, J and Gruenwald, L., (2015) Largescale spatial join query processing in cloud In Data Engineering Workshops (ICDEW), 2015 31st IEEE International Conference on (pp 3441) IEEE Yu, J., Wu, J and Sarwat, M., (2015) Geospark: A cluster computing framework for processing large-scale spatial data In Proceedings of the 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems (p.70) ACM ... học Kỹ thuật Mỏ - Địa chất Tập 62, Kỳ (2021) 42 - 52 43 Đánh giá biến động lớp phủ thực vật dựa phân tích chuỗi thời gian với Apache Spark RasterFrames Nguyễn Thị Mai Dung*, Vũ Thị Hồi Thu Khoa... 52 Phương pháp phân tích chuỗi thời gian 3.1 Phân tích chuỗi thời gian giá trị NDVI Hình mơ tả lưu đồ giải thuật xử lý phân tích chuỗi thời gian giá trị NDVI tập liệu đầu vào Phương pháp tóm... theo, phân tích theo chuỗi thời gian thiết lập cách sử dụng giá trị NDVI trung bình theo tuần khoảng thời gian khu vực tỉnh Phú Thọ việc sử dụng hàm tính tốn dựa nhóm thời gian tích hợp sẵn Pyspark

Ngày đăng: 07/05/2021, 13:37

Xem thêm:

w