Khai phá dữliệu có cấu trúc lớn

II. KHAI PHÁ D LIỆU

2.2. Khai phá dữliệu có cấu trúc lớn

Khai thác dữ liệu thƣờng đƣợc thực hiện trên cơ sở dữ liệu quan hệ giao dịch và cũng đã xác định các lĩnh vực mà có thể đƣợc sử dụng nhƣ là các tính năng, nhƣng đã đƣợc nghiên cứu gần đây về cơ sở dữ liệu có cấu trúc lớn nhƣ World Wide Web [Etzioni 1996].

Ví dụ về các nỗ lực gần đây để phân loại các văn bản web bằng cách sử dụng từ ngữ hoặc các chức năng của các từ nhƣ tính năng bao gồm Maarek và Shaul [1996] và Chekuri et al. [1999]. Tuy nhiên, bộ tƣơng đối nhỏ các mẫu đào tạo có nhãn và chiều hạn chế rất lớn sự thành công cuối cùng của tự động phân loại tài liệu web dựa trên những từ nhƣ tính năng.Chứ không phải là nhóm tài liệu trong một không gian tính từ,Wulfekuhler và Punch [1997] cụm từ từ một bộ sƣu tập nhỏ của World Wide Web tài liệu trong không gian văn bản. Các dữ liệu mẫu thiết lập bao gồm 85 tài liệu từ các miền trong sản xuất ngƣời dùng khác nhau 4-xác

79 định loại (laođộng, luật pháp, chính phủ, và thiết kế). 85 tài liệu chứa 5.190 thân cây khác biệt từ sau khi các từ thông dụng (các, và, trong) đã đƣợc gỡ bỏ. Kể từ từđƣợc chắc chắn không phải không tƣơng quan, họ sẽ rơi vào nơi cụm từ đƣợc sử dụng một cách thống nhất trên toàn bộ tài liệu có giá trị tƣơng tự nhƣ của tần số trong mỗi tài liệu.

Phƣơng pháp phân cụm bằng K-means có nghĩa là phân nhóm đã đƣợc sử dụng để nhóm các từ 5.190 thành 10 nhóm. Một kết quả đáng ngạc nhiên là trung bình 92% trong các từ rơi vào một cụm duy nhất, mà sau đó có thể đƣợc loại bỏ để khai thác dữ liệu mục đích. Các cụm nhỏ nhất có điều khoản đó vào một con ngƣời có vẻ ngữ nghĩa liên quan. Các cụm 7 nhỏ nhất từ một hoạt động tiêu biểu đƣợc thể hiện trong hình 34.

Điều khoản đƣợc sử dụng trong ngữ cảnh bình thƣờng, hoặc điều kiện duy nhất mà không xảy ra thƣờng xuyên trên toàn bộ tài liệu đào tạo sẽ có xu hƣớng cụm thành nhóm thành viên lớn 4000. Điều này sẽ chăm sóc các lỗi chính tả, tên riêng mà không thƣờng xuyên, và các điều khoản đƣợc sử dụng theo cách tƣơng tự trong suốt đặt toàn bộ tài liệu. Điều khoản sử dụng trong bối cảnh cụ thể (nhƣ tập tin trong bối cảnh nộp đơn sáng chế, hơn là một tập tin máy tính) sẽ xuất hiện trong các tài liệu phù hợp với điều kiện thích hợp khác cho rằng bằng sáng chế (bối cảnh đó, phát minh ra) và do đó sẽ có xu hƣớng cụm lại với nhau. Trong số các nhóm từ, ngữ cảnh đặc biệt nổi bật so với đám đông.

Sau khi discarding cluster lớn nhất, các thiết lập nhỏ hơn các tính năng có thể đƣợc sử dụng để xây dựng các truy vấn để tìm ra các tài liệu khác có liên quan trên Web tiêu chuẩn sử dụng công cụ tìm kiếm web (ví dụ, Lycos,Alta Vista, mở văn bản). Tìm kiếm trên Web với các điều khoản lấy từ cụm từ cho phép phát hiện ra các chủ đề hạt mịn (ví dụ, gia đình y tế để lại) trong vòng loại đƣợc định nghĩa rộng rãi (ví dụ, lao động).

2.3. Khai phá dữ liệu trong Cơ ở dữ liệu địa chất.

Khai phá cơ sở dữ liệu là một nguồn lực quan trọng trong việc thăm dò dầu mỏ và sản xuất. Nó đƣợc phổ biến kiến thức trong ngành công nghiệp dầu mà chi phí điển hình của một khoan mới ra nƣớc ngoài cũng là trong khoảng 3-40, nhƣng cơ hội của trang web đó là một thành công kinh tế là 1 trong10. Thêm thông tin và có hệ thống khoan quyết định một cách đáng kể có thể làm giảm chi phí sản xuất chung.

Tiến bộ trong công nghệ khoan và các phƣơng pháp thu thập dữ liệu códẫn đến các công ty dầu mỏ và ancillaries của họ thu thập một lƣợng lớn địa vật lý / dữ liệu địa chất từ giếng sản xuất và các trang web thăm dò, và sau đó tổ chức chúng thành các cơ sở dữ liệu lớn. K thuật khai thác dữ liệu gần đây đã đƣợc sử dụng để lấy đƣợc chính xác phân tích mối quan hệ giữa các hiện tƣợng quan sát và các thông số. Những mối quan hệ sau đó có thể đƣợc sử dụng để định lƣợng dầu và khí đốt.

Về chất lƣợng, trữ lƣợng tốt phục hồi có bão hòa hydrocarbon cao đang mắc kẹt bởi trầm tích rất xốp (chứa porosity) và bao quanh bởi số lƣợng lớn các loại đá cứng có ngăn chặn sự rò rỉ dầu khí từ xa. Một khối lƣợng lớn các trầm tích xốp là rất quan trọng để tìm dự trữ phục hồi tốt, do đó phát triển đáng tin cậy và chính xác các phƣơng pháp cho dự toán của porosities trầm tích từ các dữ liệu thu thập là chìa khóa để ƣớc tính tiềm năng dầu khí. Cácquy tắc chung của các chuyên gia ngón cái sử dụng cho tính toán độ xốp, rỗnglà nó là một chức năng luật số mũ của chiều sâu:

Độ xốp =K. e Fx x xm Depth

(4)

Một số yếu tố nhƣ các loại đá, cấu trúc, và xây bă ng xi măng nhƣ các thông số của F chức năng bối rối mối quan hệ này. Điều này đòi định nghĩa của ngữ cảnh thích hợp, trong đó cố gắng khám phá ra công thức đo độ xốp.Bối cảnh địa chất đƣợc thể hiện trong điều khoản của hiện tƣợng địa chất, nhƣ là hình học, lithology,

81 nén chặt, và lún, liên kết với khu vực. Nó nổi tiếng rằng những thay đổi bối cảnh địa chất từ lƣu vực để lƣu vực (các khu vực địa lý khác nhau trên thế giới) và cũng từ khu vực tới khu vực trong một lƣu vực [Allen và Allen 1990; Biswas 1995]. Hơn nữa, tính năng tiềm ẩn trong bối cảnh có thể khác nhau rất nhiều. Mô hình kết hợp các k thuật đơn giản, mà làm việc trong lĩnh vực k thuật mà là hạn chế bởi hành vi của con ngƣời gây ra hệ thống và cũng thành lập luật của vật lý, không thể áp dụng trong lĩnh vực thăm dò dầu khí. Đến địa chỉ này, phân nhóm dữ liệu đã đƣợc sử dụng đểxác định ngữ cảnh có liên quan, và sau đó phát hiện ra phƣơng trình đƣợc thực hiện trong bối cảnh mỗi. Mục đích là để lấy các tập con x1, x2, ..., xm từ một tập lớn các tính năng địa chất, và F mối quan hệ chức năng nhất định chức năng đo độ rỗng, xốp trong khu vực.

Các phƣơng pháp tổng thể minh hoạ trong Hình 35, bao gồm hai bƣớc chính: (i) Bối cảnh định nghĩa bằng cách sử dụng các k thuật Phân cụm không giám sát, và (ii) phát hiện bằng cách phân tích Phƣơng trình hồi quy [Li và Biswas 1995]. Bất thăm dò dữ liệu thu thập từ một vùng ở lƣu vực laska đƣợc phân tích bằng cách sử dụng phƣơng pháp phát triển. Các đối tƣợng dữ liệu (mẫu) đƣợc mô tả về 37 đặc điểm địa chất, nhƣ độ xốp, tính thấm, mật độ kích thƣớc hạt, và phân loại, số lƣợng các mảnh khoáng sản khác nhau (ví dụ, thạch anh, Chert, fenspat) hiện nay, tính chất của các mảnh đá , lỗ chân lông đặc điểm, và xây bă ng xi măng. Tất cả những tính năng các giá trị đƣợc đo bằng số đƣợc thực hiện trên mẫu đƣợc lấy từ các bản ghi tốt trong quá trình khoan thăm dò.

Thuật toán phân cụm dữ liệu K-means đã đƣợc sử dụng để xác địnhmột tập các đồng nhất cấu trúc địa chất nguyên thủy(g1, g2, ..., gm). Những nguyên thủy này sau đó đã đƣợc ánh xạ vào mã đơn vịso với bản đồ đơn vị địa tầng học. Hình 36 mô tả một bản đồ một phần chomột tập hợp các giếng và bốn cấu trúc nguyên thủy. Bƣớc tiếp theo trong quátrình phát hiện đƣợc xác định phần của khu vực giếng đƣợc tạo thành từ cùng một trình tự của địa chất nguyên thủy. Mỗi trình tự

82 quy định một Ci ngữ cảnh.Từ một phần của bản đồ Hình 6, trong bối cảnh C1 = g2 . g1 . g2 . g3 đã đƣợc xác định tại hai khu vực tốt (của 300 và 600 series). Sau khi bối cảnh đã đƣợc xác định, dữ liệu điểm thuộc bối cảnh từng đƣợc nhóm lại với nhau choderivation phƣơng trình. Thủ tục dẫn xuất derivation làm việc phân tích hồi qui [Sen và Srivastava 1990].

Phƣơng pháp này đƣợc áp dụng cho một tập dữ liệu của khoảng 2.600đối tƣợng tƣơng ứng với mẫu đo thu thập từ giếng là các lƣu vực Alaska.K-means đã nhóm dữ liệu này đặt thành bảy nhóm. Nhƣ minh hoạ, chúng ta chọn một bộ 138 đối tƣợng đại diện cho một bối cảnh để phân tích.

Các tính năng nhất định nghĩa cụm này đã đƣợc lựa chọn, và các chuyên giasurmised rằng bối cảnh đại diện cho một vùng độ xốp rỗng thấp, đƣợc mô hình bằng cách sử dụng các thủ tục hồi qui.

2.4. T tắt

Có rất nhiều ứng dụng, nơi ra quyết định và phân tích mẫu thăm dò đãđƣợc thực hiện trên dữ liệu lớn đặt ra. Ví dụ, trong lấy tài liệu, một tập hợp các tài liệu có liên quan có thể tìm thấy một vài trong số hàng triệu tài liệu của các chiều của hơn 1000. Có thể xử lý những vấn đề này rất hữu ích nếu một số trừu tƣợng của dữ liệu đƣợc thu đƣợc và đƣợc sử dụng trong việc ra quyếtđịnh, hơn là trực tiếp bằng cách sử dụng dữ liệu toàn bộ thiết lập. Bởi trừu tƣợng hóa dữ liệu, chúng tôi có nghĩa là một đại diện đơn giản và gọn nhẹ của dữ liệu. Đơn giản này giúp máy chế biến có hiệu quả hay một con ngƣời trong comprehending cấu trúc trong dữ liệu một cách dễ dàng. Thuật toán phân cụm dữ liệu rất lý tƣởng cho việc đạt đƣợc các dữ liệu trừu tƣợng.Trong bài này, chúng ta đã kiểm tra các bƣớc khác nhau trong phân nhóm: (1) mô hình đại diện, (2) tính toán tƣơng tự, (3) nhóm quy trình, và (4)đại diện cụm. Ngoài ra, cũng đề cập đến thống kê, mờ, thần kinh, tiến hóa,và kiến thức dựa trên phƣơng pháp tiếp cận để phân cụm dữ liệu. Chúng ta có bốn mô

83 tả các ứng dụng của phân nhóm: (1) Phân đoạn ảnh, (2) nhận diện đối tƣợng, (3) truy hồi tài liệu, và (4) khai phá dữ liệu.

Hình 6. Mã vùng so với bản đồ đơn vị địa tầng một phần của khu vực nghiên cứu.

Phân cụm dữ liệu là một quá trình của các nhóm dữ liệu dựa trên một thƣớc đo tƣơng tự. Phân cụm dữ liệu là một quá trình chủ quan; cùng một bộ các dữ liệu thƣờng xuyên cần phải đƣợc phân vùng khác nhau cho các ứng dụng khác nhau. Chủ quan này làm cho quá trình phân nhóm khó khăn. Điều này là do một thuật toán đơn hoặc phƣơng pháp tiếp cận là không đủ để giải quyết mọi vấn đề phân cụm dữ liệu. Một giải pháp có thể nằm trong chủ quan này phản ánh trong các hình thức kiến thức. Kiến thức này đƣợc sử dụng hoặc ngầm hoặc rõ ràng trong một hoặc nhiều giai đoạn của Phân cụm dữ liệu.

Kiến thức dựa trên thuật toán phân nhóm sử dụng kiến thức một cách rõ ràng.Bƣớc khó khăn nhất trong phân nhóm là tính năng khai thác hoặc mẫuđại diện. Các nhà nghiên cứu mẫu nhận diện công nhận thuận tiện tránh bƣớc này

84 bằng cách giả sử rằng các đại diện đƣợc khuôn mẫu có sẵn nhƣ là đầu vào của thuật toán phân cụm dữ liệu. Kích thƣớc nhỏ, tập hợp dữ liệu, đại diện mô hình có thể thu đƣợc dựa trên kinh nghiệm trƣớc đây của ngƣời dùng với vấn đề này. Tuy nhiên, trong trƣờng hợp các bộ dữ liệu lớn, đó là khó khăn cho ngƣời sử dụng để theo dõi sự quan trọng của mỗi tính năng trong phân cụm dữ liệu. Một giải pháp là làm cho các phép đo nhƣ nhiều trên các mẫu càng tốt và sử dụng chúng trong khuôn mẫu đại diện. Nhƣng nó không thể sử dụng một bộ sƣu tập lớn các phép đo trực tiếp trong phân cụm dữ liệu vì chi phí tính toán. Vì vậy, một số tính năng khai thác / lựa chọn phƣơng pháp tiếp cận đã đƣợc thiết kế để có đƣợc kết hợp tuyến tính hoặc phi tuyến của các phép đo có thể đƣợc dùng để đại diện cho các mẫu. Hầu hết các đề án đề nghị cho khai thác tính năng / lựa chọn thƣờng đƣợc lập lại trong tự nhiên và không thể đƣợc sử dụng trên các tập dữ liệu lớn do chi phí tính toán.

Bƣớc thứ hai trong phân nhóm là giống nhau tính toán. Một loạt các đề án đã đƣợc sử dụng để tính toán giống nhau giữa hai mô hình. Họ sử dụng kiến thức hoặc ngầm hoặc rõ ràng. Hầu hết các kiến thức dựa trên thuật toán phân nhóm sử dụng kiến thức rõ ràng trong tính toán tƣơng tự. Tuy nhiên, nếu không phải là đại diện cho các mẫu bằng cách sử dụng các tính năng phù hợp,sau đó nó không phải là có thể làm cho một phân vùng có ý nghĩa không phân biệt chất lƣợng và số lƣợng kiến thức đƣợc sử dụng trong tính toán tƣơng tự.Không có đề án phổ chấp nhận đƣợc đối với máy tính giống nhau giữa cácmẫu đại diện bằng cách sử dụng một hỗn hợp của cả hai tính năng định lƣợng.Không giô ng nhau giữa một cặp mẫu đƣợc đại diện bằng cách sử dụng một thƣớc đo khoảng cách đó có thể hoặc không thể có một số liệu.Bƣớc tiếp theo trong phân nhóm là nhóm các bƣớc lại với nhau. Có hai nhóm đề án rộng rãi: đề án theo kế thừa và phân vùng. Các đề án có nhiều thứ bậc linh hoạt, và các đề án phân vùng ít tốn kém. Các thuật toán phân vùng nhằm tối đa hóa khả năng lôi tiêu chí bình phƣơng. Thúc đẩy bởi sự thất bại của các lỗi bình phƣơng thuật toán phân cụm dữ liệu phân vùng trong việc tìm

85 kiếm các giải pháp tối ƣu cho vấn đề này, một bộ sƣu tập lớn các phƣơng pháp đã đƣợc đề xuất và đƣợc sử dụng để có đƣợc một giải pháp toàn cầu tối ƣu cho vấn đề này. Tuy nhiên, các đề án đƣợc giới hạn cho phép về mặt tính toán trên dữ liệu lớn đặt ra. Đề án phân cụm dữ liệu dựa trên mạngnowrron( NN) đƣợc triển khai thần kinh của các thuật toán phân nhóm, và họ chia sẻ các tài sản không mong muốn của các thuật toán. Tuy nhiên, ANNs có khả năng tự động bình thƣờng hóa dữ liệu và trích xuất các tính năng. Một quan sát quan trọng là ngay cả khi một đề án có thể tìm thấy giải pháp tối ƣu cho vấn đề phân vùng bình phƣơng lỗi, nó vẫn có thể thu ngắn của các yêu cầu vì không thể-đẳng hƣớng bản chất của các cụm.

Trong một số ứng dụng, ví dụ trong truy hồi tài liệu, nó có thể hữu ích để có một phân nhóm đó không phải là một phân vùng. Điều này có nghĩa là các cụm chồng chéo. Phân cụm dữ liệu mờ Fuzzy là chức năng rất lý tƣởng cho mục đích này. Ngoài ra, các thuật toán phân nhóm mờ có thể xử lý dữ liệu hỗn hợp các loại. Tuy nhiên, một vấn đề lớn với phân cụm dữ liệu mờ là nó rất khó để có đƣợc các giá trị thành viên. Một cách tiếp cận tổng hợp có thể không làm việc vì bản chất chủ quan của phân cụm dữ liệu. Nó là cần thiết để đại diện cho các cụm thu đƣợc trong một hình thức thích hợp để giúp nhà sản xuất quyết định. Kiến thức dựa trên phân nhóm đề án tạo ra các mô tả bằng trực giác hấp dẫn của các cụm. Họ có thể đƣợc sử dụng ngay cả khi các mô hình đƣợc đại diện bằng cách sử dụng một sự kết hợp các đặc tính và định lƣợng, miễn là kiến thức liên kết một khái niệm và các tính năng hỗn hợp có sẵn. Tuy nhiên, việc triển khai các đề án về khái niệm phân cụm dữ liệu có ƣớc tính rất đắt tiền và không phù hợp cho nhóm tập hợp dữ liệu lớn.

Thuật toán K-means và giải thuật dựa trên mạng nowrron thần kinh của , lƣới Kohonen, là thành công nhất đƣợc sử dụng trên bộ dữ liệu lớn. Điều này là do là thuật toán K-means đơn giản để thực hiện và ƣớc tính hấp dẫn vì thời gian tuyến tính phức tạp của nó. Tuy nhiên, nó không khả thi để sử dụng ngay cả thuật toán này thời gian tuyến tính trên dữ liệu lớn đặt ra. Thuật toán gia tăng nhƣ lãnh đạo

86 và thực hiện thần kinh của nó, mạng Art, có thể đƣợc sử dụng để cụm tập dữ liệu lớn. Nhƣng họ có xu hƣớng tự phụ thuộc.Phân chia và chinh phục là một heuristic mà đã đƣợc khai thác theo đúng thiết kế thuật toán máy tính để giảm chi phí tính toán. Tuy nhiên, cần khôn ngoan sử dụng trong các phân nhóm để đạt đƣợc kết quả có ý nghĩa.Tóm lại, Phân cụm dữ liệu là một vấn đề thú vị, hữu ích, và đầy thách thức. Nó có tiềm năng lớn trong các ứng dụng nhƣ nhận điện đối tƣợng, phân đoạn hình ảnh, và các chọn lọc và truy hồi thông tin. Tuy nhiên cần cẩn thận thiết kế một vài lựa chọn có thể để khai thác tiềm năng này.

TÀI LIỆU THAM KHẢO Các tài liệu tiếng Anh:

[1] Nils J. Nilson “Introduction to machine learning”, December 4, 1996. [2] Tom M. Mitchel, “Machine Learning”.

[3] M.R Anderber, Cluster analysis of application, A cademic Press, New York, 1973.

[4] B.S. Everitt, Cluster Analysis, Edward Amold coblished by Haisted Press and imprint of john Wiley & Sons Inc., 3rd edition, 1993.

[5] D.Fisher, Knowledged acquisition via incremental conceptual clustering, in Machine Learing

[6] Raymond J. Mooney, “Slide Machine Learning Introduction”

Các tài liệu tiếng Việt:

[5] Slide _ Công nghệ tri thức và ứng dụng _ GS.TSKH. Hoàng Kiếm

[6] Phan Đình Diệu (1999), “Lô Gích trong Các Hệ Tri Thức”, NXB Đại học Quốc gia Hà Nội, Hà Nội.

Chọn số cụm cho thuậttoán K-means