Khai phỏ dữ liệu trong Cơ sở dữ liệu địa chất.

Một phần của tài liệu Phương pháp phân cụm và ứng dụng (Trang 85 - 91)

4. Khai phỏ dữ liệu

4.3Khai phỏ dữ liệu trong Cơ sở dữ liệu địa chất.

Khai phỏ cơ sở dữ liệu là một nguồn lực quan trọng trong việc thăm dũ dầu mỏ và sản xuất. Nú được phổ biến kiến thức trong ngành cụng nghiệp dầu mà chi phớ điển hỡnh của một khoan mới ra nước ngoài cũng là trong khoảng $ 3-40, nhưng cơ hội của trang web đú là một thành cụng kinh tế là 1 trong 10. Thờm thụng tin và cú hệ thống khoan quyết định một cỏch đỏng kể cú thể làm giảm chi phớ sản xuất chung.

Tiến bộ trong cụng nghệ khoan và cỏc phương phỏp thu thập dữ liệu cú dẫn đến cỏc cụng ty dầu mỏ và ancillaries của họ thu thập một lượng lớn địa vật lý / dữ liệu địa chất từ giếng sản xuất và cỏc trang web thăm dũ, và sau đú tổ chức chỳng thành cỏc cơ sở dữ liệu lớn. Kỹ thuật khai thỏc dữ liệu gần đõy đó được sử dụng để lấy được chớnh xỏc phõn tớch mối quan hệ giữa cỏc hiện tượng quan sỏt và cỏc thụng số. Những mối quan hệ sau đú cú thể được sử dụng để định lượng dầu và khớ đốt.

Về chất lượng, trữ lượng tốt phục hồi cú bóo hũa hydrocarbon cao đang mắc kẹt bởi trầm tớch rất xốp (chứa porosity) và bao quanh bởi số lượng lớn cỏc loại đỏ cứng cú ngăn chặn sự rũ rỉ dầu khớ từ xa. Một khối lượng lớn cỏc trầm tớch xốp là rất quan trọng để tỡm dự trữ phục hồi tốt, do đú phỏt triển đỏng tin cậy và chớnh xỏc cỏc phương phỏp cho dự toỏn của porosities trầm tớch từ cỏc dữ liệu thu thập là chỡa khúa để ước tớnh tiềm năng dầu khớ. Cỏc quy tắc chung của cỏc chuyờn gia ngún cỏi sử dụng cho tớnh toỏn độ xốp, rỗng là nú là một chức năng luật số mũ của chiều sõu:

Độ xốp = Fx x xmDepth

e

K.  1, 2,, . (4)

Một số yếu tố như cỏc loại đỏ, cấu trỳc, và xõy bằng xi măng như cỏc thụng số của F chức năng bối rối mối quan hệ này. Điều này đũi định nghĩa của ngữ cảnh thớch hợp, trong đú cố gắng khỏm phỏ ra cụng thức đo độ xốp. Bối cảnh địa chất được thể hiện trong điều khoản của hiện tượng địa chất, như là hỡnh học, lithology, nộn chặt, và lỳn, liờn kết với khu vực. Nú nổi tiếng rằng những thay đổi bối cảnh địa chất từ lưu vực để lưu vực (cỏc khu vực địa lý khỏc nhau trờn thế giới) và cũng từ khu vực tới khu vực trong một lưu vực [Allen và Allen 1990; Biswas 1995]. Hơn nữa, tớnh năng tiềm ẩn trong bối cảnh cú thể khỏc nhau rất nhiều. Mụ hỡnh kết hợp cỏc kỹ thuật đơn giản, mà làm việc trong lĩnh vực kỹ thuật mà là hạn chế bởi hành vi của con người gõy ra hệ thống và cũng thành lập luật của vật lý, khụng thể ỏp dụng trong lĩnh vực thăm dũ dầu khớ. Đến địa chỉ này, phõn nhúm dữ liệu đó được sử dụng để xỏc định ngữ cảnh cú liờn quan, và sau đú phỏt hiện ra phương trỡnh được thực hiện trong bối cảnh mỗi. Mục đớch là để lấy cỏc tập con x1, x2, ..., xm từ một tập lớn cỏc tớnh năng địa chất, và F mối quan hệ chức năng nhất định chức năng đo độ rỗng, xốp trong khu vực.

Cỏc phương phỏp tổng thể minh hoạ trong Hỡnh 35, bao gồm hai bước chớnh: (i) Bối cảnh định nghĩa bằng cỏch sử dụng cỏc kỹ thuật Phõn cụm khụng giỏm sỏt, và (ii) phỏt hiện bằng cỏch phõn tớch Phương trỡnh hồi quy [Li và Biswas 1995]. Bất thăm dũ dữ liệu thu thập từ một vựng ở lưu vực Alaska được phõn tớch bằng cỏch sử dụng phương phỏp phỏt triển. Cỏc đối tượng dữ liệu (mẫu) được mụ tả về 37 đặc điểm địa chất, như độ xốp, tớnh thấm, mật độ kớch thước hạt, và phõn loại, số lượng cỏc mảnh khoỏng sản khỏc nhau (vớ dụ, thạch anh, Chert, fenspat) hiện nay, tớnh chất của cỏc mảnh

đỏ , lỗ chõn lụng đặc điểm, và xõy bằng xi măng. Tất cả những tớnh năng cỏc giỏ trị được đo bằng số được thực hiện trờn mẫu được lấy từ cỏc bản ghi tốt trong quỏ trỡnh khoan thăm dũ.

Thuật toỏn phõn cụm dữ liệu K-means đó được sử dụng để xỏc định một tập cỏc đồng nhất cấu trỳc địa chất nguyờn thủy (g1, g2, ..., gm). Những nguyờn thủy này sau đú đó được ỏnh xạ vào mó đơn vị so với bản đồ đơn vị địa tầng học. Hỡnh 36 mụ tả một bản đồ một phần cho một tập hợp cỏc giếng và bốn cấu trỳc nguyờn thủy. Bước tiếp theo trong quỏ trỡnh phỏt hiện được xỏc định phần của khu vực giếng được tạo thành từ cựng một trỡnh tự của địa chất nguyờn thủy. Mỗi trỡnh tự quy định một Ci ngữ cảnh. Từ một phần của bản đồ Hỡnh 36, trong bối cảnh C1 = g2 . g1 . g2 . g3 đó được xỏc định tại hai khu vực tốt (của 300 và 600 series). Sau khi bối cảnh đó được xỏc định, dữ liệu điểm thuộc bối cảnh từng được nhúm lại với nhau cho derivation phương trỡnh. Thủ tục dẫn xuất derivation làm việc phõn tớch hồi qui [Sen và Srivastava 1990].

Phương phỏp này được ỏp dụng cho một tập dữ liệu của khoảng 2.600 đối tượng tương ứng với mẫu đo thu thập từ giếng là cỏc lưu vực Alaska.

K-means đó nhúm dữ liệu này đặt thành bảy nhúm. Như minh hoạ, Chỳng ta chọn một bộ 138 đối tượng đại diện cho một bối cảnh để phõn tớch. Cỏc tớnh năng nhất định nghĩa cụm này đó được lựa chọn, và cỏc chuyờn gia surmised rằng bối cảnh đại diện cho một vựng độ xốp rỗng thấp, được mụ hỡnh bằng cỏch sử dụng cỏc thủ tục hồi qui.

4.4 Túm tắt

Cú rất nhiều ứng dụng, nơi ra quyết định và phõn tớch mẫu thăm dũ đó được thực hiện trờn dữ liệu lớn đặt ra. Vớ dụ, trong lấy tài liệu, một tập hợp cỏc tài liệu cú liờn quan cú thể tỡm thấy một vài trong số hàng triệu tài liệu của cỏc chiều của hơn 1000. Cú thể xử lý những vấn đề này rất hữu ớch nếu một số trừu tượng của dữ liệu được thu được và được sử dụng trong việc ra quyết định, hơn là trực tiếp bằng cỏch sử dụng dữ liệu toàn bộ thiết lập. Bởi trừu tượng húa dữ liệu, chỳng tụi cú nghĩa là một đại diện đơn giản và gọn nhẹ của dữ liệu. Đơn giản này giỳp mỏy chế biến cú hiệu quả hay một con người trong comprehending cấu trỳc trong dữ liệu một cỏch dễ dàng. Thuật toỏn phõn cụm dữ liệu rất lý tưởng cho việc đạt được cỏc dữ liệu trừu tượng.

Trong bài này, chỳng ta đó kiểm tra cỏc bước khỏc nhau trong phõn nhúm: (1) mụ hỡnh đại diện, (2) tớnh toỏn tương tự, (3) nhúm quy trỡnh, và (4) đại diện cụm. Ngoài ra, cũng đề cập đếnận thống kờ, mờ, thần kinh, tiến húa, và kiến thức dựa trờn phương phỏp tiếp cận để phõn cụm dữ liệu. Chỳng ta cú bốn mụ tả cỏc ứng dụng của phõn nhúm: (1) Phõn đoạn ảnh, (2) nhận diện đối tượng, (3) truy hồi tài liệu, và (4) khai phỏ dữ liệu.

Hỡnh 36. Mó vựng so với bản đồ đơn vị địa tầng một phần của khu vực nghiờn cứu.

Phõn cụm dữ liệu là một quỏ trỡnh của cỏc nhúm dữ liệu dựa trờn một thước đo tương tự. Phõn cụm dữ liệu là một quỏ trỡnh chủ quan; cựng một bộ cỏc dữ liệu thường xuyờn cần phải được phõn vựng khỏc nhau cho cỏc ứng dụng khỏc nhau. Chủ quan này làm cho quỏ trỡnh phõn nhúm khú khăn. Điều này là do một thuật toỏn đơn hoặc phương phỏp tiếp cận là khụng đủ để giải quyết mọi vấn đề phõn cụm dữ liệu. Một giải phỏp cú thể nằm trong chủ quan này phản ỏnh trong cỏc hỡnh thức kiến thức. Kiến thức này được sử dụng hoặc ngầm hoặc rừ ràng trong một hoặc nhiều giai đoạn của Phõn cụm dữ liệu. Kiến thức dựa trờn thuật toỏn phõn nhúm sử dụng kiến thức một cỏch rừ ràng. Bước khú khăn nhất trong phõn nhúm là tớnh năng khai thỏc hoặc mẫu đại diện. Cỏc nhà nghiờn cứu mẫu nhận diện cụng nhận thuận tiện trỏnh bước

này bằng cỏch giả sử rằng cỏc đại diện được khuụn mẫu cú sẵn như là đầu vào của thuật toỏn phõn cụm dữ liệu. Kớch thước nhỏ, tập hợp dữ liệu, đại diện mụ hỡnh cú thể thu được dựa trờn kinh nghiệm trước đõy của người dựng với vấn đề này. Tuy nhiờn, trong trường hợp cỏc bộ dữ liệu lớn, đú là khú khăn cho người sử dụng để theo dừi sự quan trọng của mỗi tớnh năng trong phõn cụm dữ liệ. Một giải phỏp là làm cho cỏc phộp đo như nhiều trờn cỏc mẫu càng tốt và sử dụng chỳng trong khuụn mẫu đại diện. Nhưng nú khụng thể sử dụng một bộ sưu tập lớn cỏc phộp đo trực tiếp trong phõn cụm dữ liệu vỡ chi phớ tớnh toỏn. Vỡ vậy, một số tớnh năng khai thỏc / lựa chọn phương phỏp tiếp cận đó được thiết kế để cú được kết hợp tuyến tớnh hoặc phi tuyến của cỏc phộp đo cú thể được dựng để đại diện cho cỏc mẫu. Hầu hết cỏc đề ỏn đề nghị cho khai thỏc tớnh năng / lựa chọn thường được lập lại trong tự nhiờn và khụng thể được sử dụng trờn cỏc tập dữ liệu lớn do chi phớ tớnh toỏn.

Bước thứ hai trong phõn nhúm là giống nhau tớnh toỏn. Một loạt cỏc đề ỏn đó được sử dụng để tớnh toỏn giống nhau giữa hai mụ hỡnh. Họ sử dụng kiến thức hoặc ngầm hoặc rừ ràng. Hầu hết cỏc kiến thức dựa trờn thuật toỏn phõn nhúm sử dụng kiến thức rừ ràng trong tớnh toỏn tương tự. Tuy nhiờn, nếu khụng phải là đại diện cho cỏc mẫu bằng cỏch sử dụng cỏc tớnh năng phự hợp, sau đú nú khụng phải là cú thể làm cho một phõn vựng cú ý nghĩa khụng phõn biệt chất lượng và số lượng kiến thức được sử dụng trong tớnh toỏn tương tự. Khụng cú đề ỏn phổ chấp nhận được đối với mỏy tớnh giống nhau giữa cỏc mẫu đại diện bằng cỏch sử dụng một hỗn hợp của cả hai tớnh năng định lượng. Khụng giụ́ng nhau giữa một cặp mẫu được đại diện bằng cỏch sử dụng một thước đo khoảng cỏch đú cú thể hoặc khụng thể cú một số liệu.

Bước tiếp theo trong phõn nhúm là nhúm cỏc bước lại với nhau. Cú hai nhúm đề ỏn rộng rói: đề ỏn theo kế thừa và phõn vựng. Cỏc đề ỏn cú nhiều thứ bậc linh hoạt, và cỏc đề ỏn phõn vựng ớt tốn kộm. Cỏc thuật toỏn phõn vựng nhằm tối đa húa khả năng lụi tiờu chớ bỡnh phương. Thỳc đẩy bởi sự thất bại của cỏc lỗi bỡnh phương thuật toỏn phõn cụm dữ liệu phõn vựng trong việc tỡm kiếm cỏc giải phỏp tối ưu cho vấn đề này, một bộ sưu tập lớn cỏc phương phỏp đó được đề xuất và được sử dụng để cú được một giải phỏp toàn cầu tối ưu cho vấn đề này. Tuy nhiờn, cỏc đề ỏn được giới hạn cho phộp về mặt tớnh toỏn trờn dữ liệu lớn đặt ra. Đề ỏn phõn cụm dữ liệu dựa trờn mạng

nowrron(ANN) được triển khai thần kinh của cỏc thuật toỏn phõn nhúm, và họ chia sẻ cỏc tài sản khụng mong muốn của cỏc thuật toỏn. Tuy nhiờn, ANNs cú khả năng tự động bỡnh thường húa dữ liệu và trớch xuất cỏc tớnh năng. Một quan sỏt quan trọng là ngay cả khi một đề ỏn cú thể tỡm thấy giải phỏp tối ưu cho vấn đề phõn vựng bỡnh phương lỗi, nú vẫn cú thể thu ngắn của cỏc yờu cầu vỡ khụng thể-đẳng hướng bản chất của cỏc cụm.

Trong một số ứng dụng, vớ dụ trong truy hồi tài liệu, nú cú thể hữu ớch để cú một phõn nhúm đú khụng phải là một phõn vựng. Điều này cú nghĩa là cỏc cụm chồng chộo. Phõn cụm dữ liệu mờ Fuzzy là chức năng rất lý tưởng cho mục đớch này. Ngoài ra, cỏc thuật toỏn phõn nhúm mờ cú thể xử lý dữ liệu hỗn hợp cỏc loại. Tuy nhiờn, một vấn đề lớn với phõn cụm dữ liệu mờ là nú rất khú để cú được cỏc giỏ trị thành viờn. Một cỏch tiếp cận tổng hợp cú thể khụng làm việc vỡ bản chất chủ quan của phõn cụm dữ liệu. Nú là cần thiết để đại diện cho cỏc cụm thu được trong một hỡnh thức thớch hợp để giỳp nhà sản xuất quyết định. Kiến thức dựa trờn phõn nhúm đề ỏn tạo ra cỏc mụ tả bằng trực giỏc hấp dẫn của cỏc cụm. Họ cú thể được sử dụng ngay cả khi cỏc mụ hỡnh được đại diện bằng cỏch sử dụng một sự kết hợp cỏc đặc tớnh và định lượng, miễn là kiến thức liờn kết một khỏi niệm và cỏc tớnh năng hỗn hợp cú sẵn. Tuy nhiờn, việc triển khai cỏc đề ỏn về khỏi niệm phõn cụm dữ liệu cú ước tớnh rất đắt tiền và khụng phự hợp cho nhúm tập hợp dữ liệu lớn.

Thuật toỏn K-means và giải thuật dựa trờn mạng nowrron thần kinh của , lưới Kohonen, là thành cụng nhất được sử dụng trờn bộ dữ liệu lớn. Điều này là do là thuật toỏn K-means đơn giản để thực hiện và ước tớnh hấp dẫn vỡ thời gian tuyến tớnh phức tạp của nú. Tuy nhiờn, nú khụng khả thi để sử dụng ngay cả thuật toỏn này thời gian tuyến tớnh trờn dữ liệu lớn đặt ra. Thuật toỏn gia tăng như lónh đạo và thực hiện thần kinh của nú, mạng Art, cú thể được sử dụng để cụm tập dữ liệu lớn. Nhưng họ cú xu hướng tự phụ thuộc. Phõn chia và chinh phục là một heuristic mà đó được khai thỏc theo đỳng thiết kế thuật toỏn mỏy tớnh để giảm chi phớ tớnh toỏn. Tuy nhiờn, cần khụn ngoan sử dụng trong cỏc phõn nhúm để đạt được kết quả cú ý nghĩa.

Túm lại, Phõn cụm dữ liệu là một vấn đề thỳ vị, hữu ớch, và đầy thỏch thức. Nú cú tiềm năng lớn trong cỏc ứng dụng như nhận điện đối tượng, phõn đoạn hỡnh ảnh, và cỏc chọn lọc và truy hồi thụng tin. Tuy nhiờn cần cẩn thận thiết kế một vài lựa chọn cú thể để khai thỏc tiềm năng này.

Một phần của tài liệu Phương pháp phân cụm và ứng dụng (Trang 85 - 91)