phát hiện các quan hệ từ csdl text

Phát hiện các quan hệ từ CSDL Text MỤC LỤC MỤC LỤC 1 MỞ ĐẦU 3 CHƯƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KHAI PHÁ TEXT 5 1.1.Khai phá dữ liệu và phát hiện tri thức trong cơ sở dữ liệu 5 1.1.1Khái niệm 5 1.1.2.Các phương pháp khai phá dữ liệu 8 1.1.2.1.Các bài toán chủ yếu của khai phá dữ liệu 8 1.1.2.2.Các thành phần của thuật toán khai phá dữ liệu 9 1.1.2.3.Các phương pháp khai phá dữ liệu phổ biến 10 1.1.3. Ứng dụng của Khai phá dữ liệu 12 1.2. Khai phá dữ liệu Text 12 1.2.1. Giới thiệu 12 1.2.2. Các bài toán trong Khai phá Dữ liệu Text 14 1.2.3. Các vấn đề quan trọng trong Khai phá Dữ liệu Text 17 1.2.4. Phân loại các hệ thống Khai phá Text 18 1.3.Kết luận chương 1 26 CHƯƠNG 2. QUAN HỆ NGUYÊN NHÂN - KẾT QUẢ VÀ THUẬT TOÁN PHÁT HIỆN QUAN HỆ NGUYÊN NHÂN - KẾT QUẢ 27 2.1. Giới thiệu 27 2.2. Các quan hệ ngữ nghĩa trong cơ sở tri thức ngữ nghĩa từ vựng 28 2.3. Quan hệ nguyên nhân - kết quả 29 2.4. Biểu diễn các quan hệ nguyên nhân - kết quả trong Tiếng Anh 32 2.4.1.Các cấu trúc nhân quả tường minh 33 2.4.1.1.Các từ nối chỉ nguyên nhân 33 2.4.1.2.Các động từ chỉ nguyên nhân 34 2.4.1.3.Các mệnh đề điều kiện 36 2.4.1.4.Các tính từ và trạng từ chỉ nguyên nhân 37 2.4.2.Các cấu trúc nhân quả không tường minh 38 2.4.2.1 Các danh từ phức biểu diễn quan hệ nguyên nhân - kết quả 38 2.4.2.2 Các động từ trong quan hệ nguyên nhân - kết quả không tường minh 39 2.4.2.3 Cấu trúc ngôn từ 40 2.5. Thuật toán phát hiện quan hệ nguyên nhân - kết quả 41 2.5.1. Các công trình liên quan 41 2.5.2. Thuật toán phát hiện quan hệ nguyên nhân - kết quả 41 -1- Phát hiện các quan hệ từ CSDL Text 2.6.Kết luận chương 2 44 CHƯƠNG 3 : KẾT QUẢ THỬ NGHIỆM THUẬT TOÁN 44 3.1. Giới thiệu 44 3.2. Mô tả dữ liệu 45 3.3. Xây dựng chương trình 47 3.4. Kết quả thử nghiệm 50 3.5. Nhận xét 52 3.6. Kết luận chương 3 52 KẾT LUẬN 53 TÀI LIỆU THAM KHẢO 54 -2- Phát hiện các quan hệ từ CSDL Text MỞ ĐẦU Trong những năm gần đõy, trên cơ sở phát triển và ứng dụng công nghệ Internet, khối lượng dữ liệu trên máy tính đã tăng trưởng không ngừng theo cả phương diện tạo mới và thu thập thông tin. Việc mở rộng các dữ liệu khoa học về khoa học địa lý, địa chất, khí tượng do vệ tinh thu thập lại, việc giới thiệu quảng bá mã vạch đối với hầu hết các sản phẩm thương mại, việc tin học hoá sâu rộng các thương vụ và giao dịch, việc phát triển ứng dụng công nghệ thông tin trong quản lý hành chính nhà nước đã phát sinh ra một khối lượng dữ liệu khổng lồ. Mặt khác, trong xã hội công nghệ thông tin hiện nay, nhu cầu nhận được thông tin một cách nhanh chóng, chính xác cũng như nhu cầu thu nhận được những tri thức hữu ích từ khối lượng thông tin khổng lồ nói trên đã trở nên cấp thiết. Nói một cách hình ảnh là chúng ta đang “ngập” trong dữ liệu nhưng lại “đúi” tri thức. Bối cảnh đó đã đòi hỏi phải có những phương pháp tiếp cận mới, điển hình nhất là các phương pháp thuộc lĩnh vực khai phá dữ liệu. Sự tăng trưởng hàng năm về số lượng các công trình nghiên cứu được công bố, các hội thảo khoa học quốc tế liên quan đến việc giải quyết các bài toán điển hình thuộc lĩnh vực này đã thể hiện đầy đủ sự phát triển vượt bậc của KPDL. Các phương pháp KPDL đang ngày càng phát triển mạnh mẽ và thu hút nhiều sự quan tâm chú ý của các nhà nghiên cứu trong các ứng dụng thực tiễn của nó như : khai phá text và khai phá web, tin-sinh học, tài chính và thị trường chứng khoán Khai phá Text là một trong những ứng dụng điển hình của KPDL, hiện đang một lĩnh vực khá nổi bật và chủ yếu liên quan tới việc trớch rỳt cỏc khái niệm, các quan hệ và các tri thức tiềm ẩn từ các tài liệu văn bản. Trạng thái nghệ thuật của khai phá Text hiện nay dựa trên sự trình diễn các tài liệu văn bản đi cùng với các kỹ thuật khai phá dữ liệu thống kê. Hướng tiếp cận này bị hạn chế do ngôn ngữ tự nhiên có độ nhập nhằng rất cao. Luận văn này đi sâu nghiên cứu về mối quan hệ ngữ nghĩa nguyên nhân - kết quả trong ngôn ngữ tự nhiên và trình bày một thuật toán khai phá nhằm phát hiện các quan hệ này dựa trên tần suất xuất hiện của các cặp danh từ có quan hệ nhân quả với nhau Luận văn bao gồm phần mở đầu, ba chương nội dung và phần kết luận. Nội dung các chương được trình bày như sau : Chương 1: Trong chương này trình bày một cách khái quát nhất về khai phá dữ liệu và khai phá Text, các bài toán chủ yếu, các phương pháp điển hình cũng như các ứng dụng trong thực tiễn. -3- Phát hiện các quan hệ từ CSDL Text Chương 2 : Nội dung chương hai giới thiệu sơ qua một số các quan hệ ngữ nghĩa trong cơ sở tri thức ngữ nghĩa từ vựng và cụ thể đi sâu vào nghiên cứu quan hệ ngữ nghĩa nguyờn nhõn-kết quả: nêu khái niệm, ý nghĩa và cấu trúc của các quan hệ này biểu diễn trong tiếng Anh. Trong phần này cũng đã trình bày một thuật toán nhằm phát hiện các cặp danh từ nguyên nhân và kết quả trong các mối quan hệ nguyên nhân kết quả tường minh dựa trên trọng số của động từ chỉ nguyên nhân và tần suất xuất hiện của các cặp danh từ trong các cấu trúc câu thể hiện quan hệ nguyên nhân - kết quả đó. Chương 3: Trình bày về hệ thống thử nghiệm của thuật toán phát hiện quan hệ ngữ nghĩa nguyên nhân - kết quả được trình bày trong chương hai. Đưa ra một số kết quả ban đầu, những nhận xét, kết luận và một số hướng phát triển nghiên cứu trong tương lai. -4- Phát hiện các quan hệ từ CSDL Text CHƯƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KHAI PHÁ TEXT 1.1.Khai phá dữ liệu và phát hiện tri thức trong cơ sở dữ liệu 1.1.1Khái niệm Xu thế “bựng nổ thông tin” hiện nay với sự tăng trưởng vượt bậc cả về số lượng lẫn về dung lượng của các hệ thống dữ liệu (bao gồm cơ sở dữ liệu (CSDL) thương mại, khoa học trong các tổ chức thuộc phạm vi quốc gia hay liên quốc gia và hệ thống tài liệu Internet) ngày càng nhiều. Do nhu cầu trích lọc các dữ liệu đó thành các thông tin và tri thức có ích cho các ứng dụng rộng rãi như phân tích thị trường, quản trị doanh nghiệp, hỗ trợ quyết định ngày càng tăng, các hệ thống dữ liệu đòi hỏi một thế hệ mới các kỹ thuật và công cụ phân tích dữ liệu tự động và thông minh. Các kỹ thuật và công cụ như vậy thuộc vào một lĩnh vực nghiên cứu và triển khai nhanh chóng trở thành nổi bật và ngày càng được quan tâm trong ngành công nghệ thông tin những năm gần đõy, đó là lĩnh vực phát hiện tri thức trong CSDL (Knowledge Discovery in Databases : KDD). Định nghĩa [1]: Phát hiện tri thức trong cơ sở dữ liệu (KDD – Knowledge Discovery in Database) là một quá trình không tầm thường nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và hiểu được trong dữ liệu. (William J Frawley, Gregory Piatetsky-Shapiro, và Christopher J Matheus 1991 [FSSU96]) Trong định nghĩa trên: Dữ liệu là một tập F gồm các sự kiện ( tức là F gồm nhiều trường hợp) và tương ứng với tập F là một ngôn ngữ L được sử dụng để biểu diễn sự kiện theo tập con của F. Mẫu là một biểu thức E trong ngôn ngữ L được dùng để biểu diễn sự kiện trong một tập con F E của F. Biểu thức này phải đơn giản hơn là việc liệt kê tất cả các sự kiện trong F. Thông thường, quá trình KDD bao gồm nhiều bước, thường là các bước chuẩn bị dữ liệu, tìm kiếm mẫu, ước lượng tri thức, tinh chế tương tác nội tại sau khi biến đổi dạng trình bày. Quá trình được thừa nhận là không tầm thường (non-trivial) theo nghĩa là quá trình đó bao hàm tìm kiếm tự động ở mức độ nhất định. Mẫu cần phải cú các tính chất sau : -5- Phát hiện các quan hệ từ CSDL Text Tính có giá trị : mẫu được phát hiện cần có giá trị đối với dữ liệu sẽ bổ sung (mới) theo một mức độ chân thực nào đấy. Độ đo chân thực c của biểu thức E trong L : c = C(E,F). Tính mới : mẫu là mới nếu có các thay đổi trong dữ liệu khi so sánh giá trị hiện tại với giá trị cũ hoặc giá trị dự đoán, hoặc cho thấy các giá trị mới tìm được liên quan thế nào với các giá trị cũ, đo bằng hàm N(E,F). Tính hữu ích tiềm năng : Mẫu cần có khả năng chỉ dẫn tới cỏc tác động hữu dụng và được đo bởi một hàm tiện ích U(E,F). Tính hiểu được : tạo ra các mẫu cho con người hiểu dễ dàng hơn các dữ liệu cơ sở. Độ đo dễ dàng : S(E,F). Điều quan trọng là tính hấp dẫn, thường được cho như độ đo tổng thể về mẫu : tính giá trị, tính mới, tính hữu ích và tính dễ hiểu và có thể được đo bằng một hàm I trong không gian đo được M i : i= I(E,F,C,N,U,S). Mẫu E∈ L được gọi là tri thức nếu với ngưỡng i do người dùng định nghĩa ta có I(E,F,C,N,U,S) >i. Khai phá dữ liệu (data mining) được định nghĩa như là một quá trình chắt lọc hay khai phá tri thức từ một lượng lớn dữ liệu. Một ví dụ hay được sử dụng là là việc khai thác vàng từ đá và cát, Khai phá dữ liệu được ví như công việc “Đói cỏt tỡm vàng” trong một tập hợp lớn các dữ liệu cho trước. Thuật ngữ Khai phá dữ liệu ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ Khai phá dữ liệu như Khai phá tri thức (Knowledge Mining ), chắt lọc tri thức (knowledge extraction), phân tích dữ liệu/mẫu (data/patern analysis), khảo cổ dữ liệu (data archaeoloogy), nạo vét dữ liệu (data dredging ), Tóm lại, có rất nhiều định nghĩa về khai phá dữ liệu, các định nghĩa này đều mang tính mô tả, tuy nhiên có thể tạm hiểu rằng Khai phá dữ liệu như là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó. Dưới đõy tôi xin đưa ra một trong số các định nghĩa về khai phá dữ liệu như sau: Định nghĩa [27] : Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó. -6- Phát hiện các quan hệ từ CSDL Text Nhìn chung, quá trình phát hiện tri thức là một chuỗi nối tiếp và lặp lại các bước còn khai phá dữ liệu là một trong các bước đó : 1.Làm sạch dữ liệu : xử lý các dữ liệu có lỗi, bị nhiễu, thiếu dữ liệu hoặc dữ liệu không thích hợp. 2.Tích hợp dữ liệu : các nguồn dữ liệu bị lặp lại, không đồng nhất có thể được tích hợp làm một. 3.Chọn lọc dữ liệu : là bước trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu lớn (databases, data warehouses, data repositories) ban đầu theo một số tiêu chí nhất định. 4.Tiền xử lý dữ liệu : là bước làm sạch dữ liệu (xử lý với dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, .v.v.), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu, .v.v.), rời rạc hóa dữ liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng, .v.v.). Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa. 5.Biến đổi dữ liệu : đây là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước sau. 6.Khai phá dữ liệu : đây là bước áp dụng những kỹ thuật khai phá (phần nhiều là các kỹ thuật của machine learning) để khai phá, trích chọn được những mẫu (patterns) thông tin, những mối liên hệ (relationships) đặc biệt trong dữ liệu. Đây được xem là bước quan trọng và tốn nhiều thời gian nhất của toàn quá trình KDD. 7.Trình diễn và đánh giá tri thức: những mẫu thông tin và mối liên hệ trong dữ liệu đã được khai phá ở bước trên được chuyển dạng và biểu diễn ở một dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật, .v.v. Đồng thời bước này cũng đánh giá những tri thức khám phá được theo những tiêu chí nhất định. -7- Phát hiện các quan hệ từ CSDL Text Hình 1.Các bước trong quá trình KDD 1.1.2.Các phương pháp khai phá dữ liệu Thành phần khai phá dữ liệu của quá trình KDD thường bao gồm việc áp dụng từng phần lặp của các phương pháp khai phá dữ liệu riêng. Chúng ta sử dụng thuật ngữ mẫu và mô hình mở rộng xuyên suốt trong mục này : một mẫu có thể được suy nghĩ như là một thuyết minh của một mô hình, tức là f(x) = 3x 2 + x là một mẫu trong khi f(x) = ax 2 +bx được coi là một mô hình. Hầu hết các phương pháp khai phá dữ liệu dựa theo các nội dung từ vấn đề học máy, tổ chức mẫu và thống kê : phân lớp, tách đoạn, thống kê, mô hình đồ thị v.v. 1.1.2.1.Các bài toán chủ yếu của khai phá dữ liệu • Phân lớp : là việc học một hàm ánh xạ (các lớp) của các tên gọi dữ liệu vào một trong số lớp đã biết trước. (Hand 1981; Weiss và Kulikowsk 1991; Maclachlan 1992). Quá trình này phân tích một tập dữ liệu huấn luyện (tức là một tập các đối tượng mà ta đã biết tên lớp của nó) và xây dựng một mô hình cho mỗi lớp dựa trên các đặc tính trong dữ liệu. Một cây quyết định hoặc một tập các luật phân lớp được tạo ra từ quá trình phân lớp đú, nó có thể được dùng để hiểu rõ hơn mỗi lớp trong cơ sở dữ liệu và để phân loại dữ liệu trong tương lai. Ví dụ, người ta có thể phân loại các bệnh và giúp dự đoán bệnh dựa trên các triệu chứng của bệnh nhân. Phân lớp được dùng trong việc phân nhóm khách hàng, mô hình hóa doanh nghiệp và phân tích tín dụng • Hồi quy : là việc học máy một hàm ánh xạ từ một tên dữ liệu sang một biến khẳng định giá trị thực. Có rất nhiều các ứng dụng khai phá dữ liệu với nhiệm vụ hồi -8- Phát hiện các quan hệ từ CSDL Text quy, ví dụ như đỏnh giá khả năng tử vong của bệnh nhân dựa trên các kết quả xét nghiệm chẩn đoán, dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêu quảng cáo. • Phân cụm : là bài toán mô tả chung để tìm ra một tập hữu hạn các loại hoặc các đoạn để mô tả dữ liệu. (Titterington, Smith và Makov 1985; Jain và Dubes 1988). Cỏc nhúm có thể tách rời hoặc phân cấp hoặc chồng chéo lên nhau (vừa thuộc nhóm này vừa thuộc nhúm khỏc). Cỏc ứng dụng khai phá dữ liệu có nhiệm vụ phân nhóm như phát hiện tập khách hàng có phản ứng giống nhau trong cơ sở dữ liệu tiếp thị, xác định các loại quang phổ từ các phương pháp đo tia hồng ngoại. • Tóm lược : bao gồm các phương phỏp tỡm một mô tả cô đọng đối với một tập con dữ liệu. Ví dụ điển hình là bảng kỳ vọng và độ lệch chuẩn của mọi trường. Kỹ thuật tóm lược thường được áp dụng trong việc phân tích dữ liệu tương tác có tính thăm dò và báo cáo tự động. • Mô hình hoá phụ thuộc : bao gồm việc tìm một mô hình mô tả sự phụ thuộc có ý nghĩa giữa các biến. Các mô hình phụ thuộc gồm hai mức, mức cấu trúc của mô hình (thường dưới dạng đồ thị) mô tả những biến nào là phụ thuộc cục bộ với nhau và mức định lượng của một mô hình mô tả sức mạnh sự phụ thuộc theo một thước đo nào đó. • Phát hiện sự thay đổi và độ lệch : tập trung vào việc phát hiện hầu hết sự thay đổi có ý nghĩa dưới dạng độ đo đã biết trước hoặc giá trị chuẩn (Bemdt và Clifort, Bassen ville và Nikitov 1993 ) Các bài toán khác nhau này đỏi hỏi số lượng và dạng thông tin khác nhau nên chúng thường ảnh hưởng đến việc thiết kế và chọn thuật toán khai phá dữ liệu khác nhau. 1.1.2.2.Các thành phần của thuật toán khai phá dữ liệu Ba thành phần chủ yếu trong một thuật toán khai phá dữ liệu là trình diễn mô hình, đỏnh giá mô hình và phương pháp tìm kiếm. Trình diễn mô hình : là việc xây dựng ngôn ngữ L để miêu tả các mẫu có thể được khám phá. Nếu sự mô tả này bị giới hạn quá thì sẽ không xây dựng được mô hình chính xác cho dữ liệu, vì thế người phân tích dữ liệu phải hiểu đầy đủ các khả năng tiêu biểu của phương pháp được dùng. Ngoài ra người thiết kế thuật toán cũng cần chỉ rõ giả thiết mô tả nào được tạo bởi thuật toán nào.Sự trình diễn càng mạnh thì -9- Phát hiện các quan hệ từ CSDL Text độ nguy hiểm đối với mô hình càng tăng bao trùm lên kết quả dữ liệu dạy, giảm bớt độ chính xác dự báo trên dữ liệu chưa biết và còn làm cho việc tìm kiếm trở nên phức tạp và việc giải thích mô hình khó hơn. Đỏnh giá mô hình : ước lượng các mẫu riêng (mô hình và các tham số của nó) là tốt đến mức độ nào theo tiêu chuẩn của quá trình KDD. Việc đánh giá độ chính xác của dự báo dựa trên sự đỏnh giỏ chéo. Đỏnh giá chất lượng dự báo bao gồm độ chính xác dự báo, tính mới, tính tiện ích, và tính dễ hiểu của mô hình phù hợp. Cả hai tiêu chuẩn logic và thống kê có thể được dùng để đỏnh giá mô hình. Phương pháp tìm kiếm : bao gồm hai thành phần là tìm kiếm tham số và tìm kiếm mô hình. Trong tìm kiếm tham số, thuật toán bắt buộc tìm kiếm tham số sao cho tối ưu mô hình theo tiêu chuẩn đỏnh giá được cho theo dữ liệu quan sát và cách trình bày mô hình đã định. Trong tìm kiếm mô hình, miêu tả mô hình được thay đổi để xét một họ các mô hình mới. Với mỗi cách biểu diễn mô hình, phương pháp tìm kiếm tham số được áp dụng để đỏnh giá chất lượng mô hình. Các phương pháp tìm kiếm mô hình thường sử dụng các kỹ thuật tìm kiếm heristic do kích thước lớn của không gian các mô hình thường cản trở việc tìm kiếm toàn diện. 1.1.2.3.Các phương pháp khai phá dữ liệu phổ biến Có rất nhiều các phương pháp khai phá dữ liệu, mỗi phương phỏp có đặc điểm riêng về trình diễn mô hình, đỏnh giá mô hình và cách tìm kiếm, phù hợp với một lớp các bài toán với các dạng dữ liệu và miền dữ liệu nhất định. Dưới đõy là một số phương pháp phổ biến thường dùng :  Cây quyết định và luật : sử dụng sự phân chia đa dạng có một trình bày đơn giản, tạo ra các mô hình phỏng đoán dễ dàng liên quan tới hiểu biết của người sử dụng.  Phương pháp phân lớp và hồi quy phi tuyến : các phương pháp này bao gồm một họ các kỹ thuật để quyết định là một tổ hợp tuyến tính hoặc phi tuyến của các hàm cơ sở (sigma, đa thức, ) theo tổ hợp của các biến vào.  Phương pháp dựa trên ví dụ :dựng các ví dụ đại diện từ một CSDL để xấp xỉ một mô hình, chẳng hạn, dự đoỏn các ví dụ mới nhận được từ các tính chất của các ví dụ “tương tự” trong mô hình đã biết để dự báo. Các kỹ thuật là : kỹ thuật phân lớp người láng giềng gần nhất và thuật toán -10- [...]... nghĩa và các tri thức ẩn giấu bên trong các tài liệu text Phương pháp này được -12- Phát hiện các quan hệ từ CSDL Text gọi là Khai phá Dữ liệu Text (Text Data Mining – TDM) và nó quan tâm đến việc trớch rỳt cỏc mối quan hệ hay các kết hợp mới và không tường minh giữa nhiều thực thể text khác nhau từ các cơ sở dữ liệu text lớn Khái niệm Khai phá text là việc thúc đẩy các nguồn tài nguyên text hiện hành... phát hiện các quan hệ nguyên nhân - kết quả đó trong các tài liệu văn bản CHƯƠNG 2 QUAN HỆ NGUYÊN NHÂN - KẾT QUẢ VÀ THUẬT TOÁN PHÁT HIỆN QUAN HỆ NGUYÊN NHÂN - KẾT QUẢ 2.1 Giới thiệu Trong việc hiểu ngôn ngữ tự nhiên, các kiểu thông tin khác nhau như : từ vựng, cú pháp, ngữ nghĩa, các kiến thức xã hội và thực tế giữ một vai trò quan trọng -27- Phát hiện các quan hệ từ CSDL Text trong việc xây dựng cách... bằng các thông tin trích lọc sử dụng các mẫu được nghiên cứu bởi hệ thống học máy (machine learning system) gọi là RAPIER -20- Phát hiện các quan hệ từ CSDL Text [3] RAPIER là một hệ thống nghiên cứu luật quan hệ bottom- up, nó tìm được các luật từ một corpus của các mẫu huấn luyện được gỏn nhón bằng cách sử dụng các thông tin cú pháp có giới hạn (ví dụ như từ loại) Để phát hiện các luật dự báo, các. .. quan trọng nhất và tiêu tốn nhiều thời gian nhất Trong một tập lớn các tài liệu văn bản thì giữa các đoạn văn bản có mối liên hệ với nhau bằng các quan hệ ngữ nghĩa, các quan hệ này cũng được sử dụng rất rộng rãi trong ngôn ngữ nói và viết -26- Phát hiện các quan hệ từ CSDL Text Trong phần sau sẽ trình bày chi tiết về khái niệm, ý nghĩa và cấu trúc của một trong những quan hệ ngữ nghĩa này - quan hệ. .. dụng các miêu tả ngữ nghĩa phức tạp -23- Phát hiện các quan hệ từ CSDL Text hơn trong tìm hiểu văn bản một cách tự động Họ tập trung vào phân tích chi tiết hơn các thông tin được mó hoỏ trong mỗi tài liệu để lấy ra được các mẫu đỏng giá từ các tài liệu phức tạp Hệ thống TAKMI sử dụng ba miêu tả ngữ nghĩa trong các mođun trình bày văn bản của nó : • Các miêu tả ngữ nghĩa cho các từ hay cụm từ quan trọng... chức trong các cấu trúc hệ đẳng cấp và liên kết bởi các quan hệ ngữ nghĩa Các khái niệm sắp xếp theo thứ tự từ các đơn vị text đơn giản, như các từ, tới các cấu trúc phức tạp hơn, chẳng hạn là các cụm danh từ phức Cỏc quan hệ nghĩa từ vựng rất quan trọng trong xây dựng dữ liệu từ vựng, đặc biệt là trong một tổ chức có thứ bậc Chúng được dùng rộng rãi và được định giá trong cơ sở tri thức từ vựng, ví... vào các cấu trúc phân cấp Các cấu trúc này rất mạnh -28- Phát hiện các quan hệ từ CSDL Text vỡ cỏc thuộc tính ở các mức đỉnh có thể được thừa kế bởi một số lượng lớn các từ có liên quan (trực tiếp hoặc gián tiếp) tới chúng Tổng thể - Bộ phận : Là quan hệ ngữ nghĩa biểu diễn mối quan hệ tổng thể bộ phận giữa hai khái niệm Ví dụ, “hand” (“tay”) là một bộ phận của “human body” (“cơ thể người”) Mối quan hệ. .. hỏi, tìm kiếm thụng tin,…Cỏc quan hệ này được sử dụng rộng rãi và được đánh giá trong các cơ sở tri thức từ vựng như : MindNet [21], và WordNet[22] 2.3 Quan hệ nguyên nhân - kết quả Nhân quả là một trong những quan hệ ngữ nghĩa quan trọng nhất góp phần tạo nên tính chặt chẽ của văn bản Các quan hệ nguyên nhân - kết quả là một đặc tính của -29- Phát hiện các quan hệ từ CSDL Text nhiều quá trình trong... cỏc quan hệ nguyên nhân - kết quả inter-sentential không tường minh từ văn bản bằng cách dựng cỏc suy luận dựa trên tri thức Các nghiên cứu này dựa trên lập trình bằng tay (hand-coded), các cơ sở tri thức trong một lĩnh vực cụ thể thường khó để tăng cường cho các ứng dụng thực tế -31- Phát hiện các quan hệ từ CSDL Text Các nhà nghiên cứu khác [10], [17] sử dụng các mẫu ngôn ngữ để xác định các quan hệ. .. biểu diễn các mẫu từ vựng-cỳ phỏp nguyờn nhõn-kết quả theo những cách sau : • Các từ nối chỉ nguyên nhân • Các động từ chỉ nguyên nhân • Các mệnh đề điều kiện • Các tính từ và trạng từ chỉ nguyên nhân 2.4.1.1 .Các từ nối chỉ nguyên nhân Có thể phân loại các từ nối chỉ nguyên nhân thành các kiểu sau : A Các kết nối nhân quả kiểu phó từ( Adverbial causal link ) B Các kết nối nhân quả kiểu giới từ (Preposition . từ 40 2.5. Thuật toán phát hiện quan hệ nguyên nhân - kết quả 41 2.5.1. Các công trình liên quan 41 2.5.2. Thuật toán phát hiện quan hệ nguyên nhân - kết quả 41 -1- Phát hiện các quan hệ từ CSDL. ý nghĩa và các tri thức ẩn giấu bên trong các tài liệu text. Phương pháp này được -12- Phát hiện các quan hệ từ CSDL Text gọi là Khai phá Dữ liệu Text (Text Data Mining – TDM) và nó quan tâm đến. tất cả các nước là thành viên của G7 (hình 2). -19- Phát hiện các quan hệ từ CSDL Text Khi các tài liệu đã được chú thích bởi các từ khóa đã có trong hệ đẳng cấp, bước tiếp theo là áp dụng các kỹ

Định dạng
Số trang	57
Dung lượng	2,9 MB

phát hiện các quan hệ từ csdl text

Quan hệ nguyên nhân kết quả

Các công trình liên quan