Làm mịn kết quả tìm kiếm văn bản sử dụng kỹ thuật khai phá văn bản

Trong phạm vi của đề tài luận văn, em xin được trình bày về một số vấn đề sau: - Tìm hiểu chung về khai phá dữ liệu và một số kỹ thuật khai phá dữ liệu- Tìm hiểu chung về khai phá văn bả

Trang 1

NGUYỄN THỊ MINH ĐỨC

LÀM MỊN KẾT QUẢ TÌM KIẾM VĂN BẢN

SỬ DỤNG KỸ THUẬT KHAI PHÁ VĂN BẢN

LUẬN VĂN THẠC SĨ

NGÀNH : XỬ LÝ THÔNG TIN VÀ TRUYỀN THÔNG

MÃ SỐ: ./ /

Người hướng dẫn khoa học:

PGS Nguyễn Thị Kim Anh

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

***

Hà Nội 200 9

Tai ngay!!! Ban co the xoa dong chu nay!!! 17057205161481000000

Trang 2

Em xin chân thành cảm ơn PGS Nguyễn Thị Kim Anh, Trưởng Bộ môn Các hệ thống thông tin, Viện CNTT TT, Trường Đại học Bách Khoa Hà - Nội Em đã nhận được sự hướng dẫn tận tình, các góp ý cụ thể của PGS trong quá trình nghiên cứu và viết luận văn

Em cũng xin được gửi lời cám ơn chân thành đến các thầy cô giáo giảng dạy lớp CH XLTT&TT 2007 đã cung cấp cho em những kiến thức bổ ích, hỗ trợ em trong việc làm luận văn, và việc tiếp tục nghiên cứu sau này.

Em xin chân thành cảm ơn Ban giám đốc Dự án Hỗ trợ và phát triển đào tạo đại học và sau đại học về CNTT TT, Viện đào tạo Sau đại học -

đã tạo điều kiện cho phép em tham gia lớp cao học XLTT - TT khóa 2007

-2009 Em cũng xin gửi lời cám ơn đến các bạn đồng nghiệp và các anh chị học viên lớp cao học XLTT TT 2007 đã hỗ trợ, động viên để em hoàn thành - luận văn này.

Cuối cùng, em xin bày tỏ lòng biết ơn đến gia đình, bạn bè, những người luôn động viên và giúp đỡ em trong quá trình học tập và công tác

Hà nội, ngày 26 tháng 11 năm 2009

Học viên

Nguyễn Thị Minh Đức

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này là công trình nghiên cứu của chính bản thân Các nghiên cứu trong luận văn này dựa trên những tổng hợp lý thuyết và hiểu biết thực

tế, không sao chép.

Tác giả

Nguyễn Thị Minh Đức

Trang 4

DANH M C TỤ Ừ VI T TẮT 1 Ế

DANH M C BỤ ẢNG, S Ơ ĐỒ, HÌNH VẼ 2

M Ở ĐẦ 3U Chương I Tổng quan v khai phá d ề ữ ệ li u và các kỹ thuật dùng trong khai phá dữ ệ li u 4

1.1 Tổng quan về khai phá dữ liệ u……… 4

1.2 Khai phá dữ ệ li u sử ụ d ng cây quyết định……….6

1.2.1 Khái ni m khai phá dệ ữ ệ li u sử ụ d ng cây quyết định 6

1.2.2 Điểm mạnh c a cây quy ủ ế ị t đ nh 8

1.2.3 Điểm yếu của cây quyế ị t đ nh 9

1.3 Khai phá dữ ệ li u sử ụ d ng luật kết hợp………10

1.3.1 Khái niệm về khai phá dữ ệ li u sử ụ d ng luật k t h ế ợp 10

1.3.2 Điểm mạnh c a ph ng pháp phân tích lu ủ ươ ật k t h ế ợ 11p: 1.3.3 Điểm yếu của ph ng pháp phân tích luươ ật k t h ế ợp 12

1.4 Khai phá dữ ệ li u sử ụ d ng gom cụm………14

1.4.1 Khái ni m khai phá dệ ữ ệ li u sử ụ d ng gom cụm 14

1.4.2 Điểm mạnh c a dò tìm gom c ủ ụm t ự động 15

1.4.3 Điểm yếu của ph ng pháp dò tìm t ươ ự động gom cụm 16

1.5 Khai phá dữ ệ li u sử ụ d ng m ng neuralạ ……… 16

1.5.1 Khái ni m khai phá dệ ữ ệ li u sử ụ d ng m ng neuralạ 16

1.5.2 Điểm mạnh c a m ng neural ủ ạ 17

1.5.3 Điểm yếu của ph ng pháp m ng neuralươ ạ 18

Chương II. C s d ơ ở ữ liệ u (CSDL) văn b n và khai phá CSDL văn ả

b n………ả 21

Trang 5

2.1.1 Vấn đề ể bi u diễn văn bản 21

2.1.2 Trích chọn thông tin 23

2.2 Khai phá CSDL văn bản 26 2.2.2 Khai phá văn bản và khai phá dữ ệ li u 31

2.2.3 Các bài toán trong khai phá văn bản và ứng dụng 33

2.2.3 K ỹ thuật phân tích khái ni m hình th ệ ức (FCA) và ứng dụng 38 2.3 Kết chương……….53

Chương III Làm mịn kết qu ả tìm ki m văn b ế ản sử ụ d ng FCA 54

3.1 Tổng quan về tìm kiếm thông tin……… 54

3.2 Làm mịn kết quả tìm ki m sử ụ ế d ng FCA……….57

3.2.1 Vấn đề làm m n kết quả tìm kiếm và các hướng ti p c ị ế ận 57

3.2.2 Cách tiếp c n bi ậ ế n đ i câu truy vấ ổ n, có sử ụ d ng phân tích khái ni m hình th c và giàn khái niệ ứ ệm 58

3.3 Kết luận và h ướng nghiên cứu tiếp theo………62

3.3.1 Cách tiếp cận biế n đ i câu truy vấn dựa trên ngữ ả ổ c nh người dùng 62

3.3.2 Đánh giá, kết luận và hướng nghiên cứu tiếp theo 64

TÀI LIỆU THAM KH O 66Ả

Trang 6

DANH MỤC TỪ VIẾ T T T Ắ

CSDL: Cơ sở dữ liệu

DM: Data Mining – Khai phá dữ liệu

SQL: Structured Query Language - Ngôn ngữ truy vấn có cấu trúc

IR: Information Retrieval – Tìm kiếm thông tin

NLP: Natural Language Processing – Xử lý ngôn ngữ tự nhiênIE: Information Extraction – Trích chọn thông tin

FCA: Formal Concept Analysis – Phân tích khái niệm hình thức

Trang 7

DANH MỤC BẢNG, SƠ ĐỒ , HÌNH V Ẽ

Hình 1.1: Sơ đồ mô tả quá trình khai phá dữ liệu (trang 5)

Hình 1.2 Phân loại các kỹ thuật khai phá văn bản ( trang 6) Hình 1.3: Mẫu kết với phương pháp cây quyết định (trang 6) Hình 1.4 Sơ đồ biểu diễn kết quả gom cụm dữ liệu ( trang14) Hình 2.1: Ví dụ về biểu diễn văn bản (trang 21)

Hình 2.2: Sơ đồ khái niệm trích chọn thông tin (trang 23)

Hình 2.3 Sơ đồ quy trình khai phá văn bản (trang 27)

Hình 2.4: Các bài toán khai phá văn bản và các cách tiếp cận (trang 32)

Hình 2.5 :Ví dụ về phân loại văn bản (trang 34)

Hình 2.6 : Khái niệm về phân cụm văn bản (trang 36)

Hình 2.7 Hiển thị dendogram trong phân cấp tích tụ (trang 39)Bảng 2.1: Bảng ngữ cảnh ví dụ (trang 43)

Hình 2.8: Giàn khái niệm xây dựng cho bảng ngữ cảnh ví dụ (trang 43)

Hình 2.9: Biểu diễn rút gọn khái niệm cho giàn khái niệm ở hình 2.8 (trang 44)

Hình 2.10: Lưu đồ thuật toán cho giải thuật Bayes s khai ơ(trang 46)

Hình 3.1 Sơ đồ mô tả hệ thống tìm kiếm thông tin (trang 55) Hình 3.2: Ví dụ hiển thị các gợi ý làm mịn câu truy vấn của hệ thống REFINER (trang 62)

Trang 8

M Ở ĐẦ U

Xã hội hiện đại là một xã hội của thông tin và xử lý thông tin, cùng với sự phát triển của mạng Internet, nguồn thông tin hiện nay vô cùng đa dạng, phong phú và nhiều về số lượng Tuy nhiên, để sử dụng hiệu quả nguồn thông tin, cần phải có phương pháp, thuật toán, quy trình, rồi đến cả những phần mềm, những công cụ để khai phá dữ liệu nói chung và khai phá văn bản nói riêng

Nghiên cứu về khai phá dữ liệu, khai phá văn bản ngày càng phát triển, đem lại những tiềm năng to lớn cho con người Đặc biệt, khai phá văn bản trên Internet được chú ý, do đây là nguồn thông tin chia sẻ cực lớn Cũng do khối lượng thông tin chia sẻ rất lớn mà việc tìm kiếm thông tin trên đó cũng gặp một số trở ngại Trong phạm vi của đề tài luận văn, em xin được trình bày về một số vấn đề sau:

- Tìm hiểu chung về khai phá dữ liệu và một số kỹ

thuật khai phá dữ liệu

- Tìm hiểu chung về khai phá văn bản và các bài toán

khai phá văn bản, giới thiệu kỹ thuật phân tích khái niệm hình thức, ứng dụng trong khai phá văn bản

- Vấn đề tìm kiếm thông tin, làm mịn kết quả tìm

kiếm văn bản, hướng nghiên cứu đề xuất

Với hiểu biết của bản thân, và thời gian nghiên cứu, nội dung luận văn mới dừng lại ở nghiên cứu lý thuyết và thuật toán Chính vì vậy,

em rất mong nhận được góp ý và hướng dẫn thêm của các thầy cô và các bạn, để việc nghiên cứu được thực hiện triệt để và mang tính ứng dụng cụ thể hơn nữa

Trang 9

Chương I T ổng quan về khai phá dữ ệ li u và cá c k ỹ thu ật

1.1 Tổng quan về khai phá dữ liệ u

Khai phá dữ liệu (Data mining-DM) là một khái niệm ra đời vào những năm cuối của thập kỷ 80 Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu) Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để phát hiện ra các mẫu, các quy luật trong tập dữ liệu

Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái

niệm Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in

Database – KDD) để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn Trong đó, khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu

từ cơ sở dữ liệu

Các giải thuật khai phá dữ liệu thường được mô tả như những chương trình hoạt động trực tiếp trên file dữ liệu Với các phương pháp học máy và thống kê trước đây, thường thì bước đầu tiên là cácgiải thuật nạp toàn bộ file dữ liệu vào trong bộ nhớ Khi chuyển sang các ứng dụng công nghiệp liên quan đến việc khai phá các kho dữ liệu lớn, mô hình này không thể đáp ứng được Không chỉ bởi vì nó không thể nạp hết dữ liệu vào trong bộ nhớ mà còn vì khó có thể chiết xuất dữ liệu ra các file đơn giản để phân tích được

Quá trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định

chính xác vấn đề cần giải quyết Sau đó sẽ xác định các dữ liệu liên

quan dùng để xây dựng giải pháp Bước tiếp theo là thu thập các dữ liệu

có liên quan và xử lý chúng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu được Về lý thuyết thì có vẻ rất đơn giản nhưng khi thực hiện thì đây thực sự là một quá trình rất khó khăn, gặp phải nhiều vướng

Trang 10

mắc như: các dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi),…

Sẽ là quá cồng kềnh với một giải thuật khai phá dữ liệu nếu phải truy cập vào toàn bộ nội dung của cơ sở dữ liệu và làm những việc như trên Vả lại, điều này cũng không cần thiết Có rất nhiều các giải thuật khai phá dữ liệu thực hiện dựa trên những thống kê tóm tắt khá đơn giản của cơ sở dữ liệu, khi mà toàn bộ thông tin trong cơ sở dữ liệu là quá

dư thừa đối với mục đích của việc khai phá dữ liệu

Bước tiếp theo là chọn thuật toán khai phá dữ liệu thích hợp

và thực hiện việc khai phá dữ liệu để tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa đó (thường thì được biểu diễn dưới dạng các luật phân loại, cây quyết định, phát hiện luật kết hợp, biểu thức hồi quy,…)

Hình 1.1 Sơ đồ mô tả quá trình khai phá dữ liệu

Các kĩ thuật khai phá dữ liệu được chia thành hai nhóm chính, nhóm dự báo, và nhóm mô tả Trong nhóm dự báo gồm một số kỹ thuật chính là phân loại, hồi quy, phân tích loạt thời gian, cây quyết định, mạng neural Nhóm này có tên gọi như vậy vì các kỹ thuật này sẽ có khả năng

dự báo tính chất của một tập dữ liệu sau khi hệ thống đã được huấn luyện với các tập dữ liệu mẫu Nhóm thứ hai là nhóm mô tả, gồm có các kỹ thuật chính sau: Gom cụm, Tổng kết, Phát hiện luật kết hợp, Phát hiện trình tự Nhóm này có tên là mô tả vì sau khi thực hiện kỹ thuật trên tập

Lu t ậ

Th ống kê

D ữ liệu trực tiếp

Trang 11

dữ liệu, hệ thống sẽ đưa ra được các đặc trưng của các tập dữ liệu Phân loại các kỹ thuật khai phá văn bản được thể hiện trong hình dưới đây Một số kỹ thuật sẽ được đề cập rõ hơn ở các phần sau

Hình 1.2 Phân loại các kỹ thuật khai phá văn bản

1.2 Khai phá dữ ệ li u sử ụ d ng cây quyết định

1.2.1 Khái niệm khai phá dữ ệ li u sử ụ d ng cây quyế ị t đ nh

Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn

giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định Các nút của cây được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá miêu tả các lớp khác nhau Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương ứng với giá trị của thuộc tính của đối tượng tới lá Hình sau đây mô tả một mẫu đầu ra có thể của quá trình khai phá dữ liệu khách hàng xin vay vốn

Hình 1.3 Mẫu kết với phương pháp cây quyết định

Trang 12

Cây quyết định là một công cụ mạnh và khá phổ biến trong việc phân loại và dự đoán Điều đáng chú ý ở phương pháp dựa trên cây nằm ở chỗ , đối lập với mạng neural, thì cây quyết định thể hiện các luật Các luật được thể hiện rõ ràng, do đó, con người có thể hiểu chúng thông qua một ngôn ngữ truy cập cơ sở dữ liệu như là SQL, nhờ đó các bản ghi thuộc một chủng loại nhất định sẽ được phát hiện

Quy nạp dùng cây quyết định là một phương pháp quy nạp truyền thống để tìm ra tri thức trên tập phân loại Các yêu cầu chính để khai phá dữ liệu sử dụng cây quyết định là:

• Mô tả giá tr -thu c tính: đốị ộ i tư ng ho c trư ng h p ph i đư c ợ ặ ờ ợ ả ợ

diễn đạt thành các thuật ngữ ặc một tập hợp cho ố định các đặc điểm, thu c tính ộ

• Các lớ p đ nh trư c: Các chủ ị ớ ng lo i s dùng gán cho các trư ng ạ ẽ ờ

hợp phải đư c thiết lậợ p trư c đó ữ liệu có giám sát) ớ (d

• Các lớp r i r c: Mộờ ạ t trư ng hợp phải thuộc hoặc không thuộc ờ

v mề ột lớp nhấ ịt đ nh, và có nhiều trư ng hợp hơn là ố ớ ờ s l p

• D ữ liệ u đ y đ : Thườ ầ ủ ng có quá trình h c v i hàng trăm ho c ọ ớ ặhàng nghìn trường hợp

• Mô hình phân loại “Logical”: Việc phân lo i chạ ỉ được thể ệ hi n theo cây quyế ịt đ nh hoặc tập luật

Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ

liệu có ý nghĩa về mặt thống kê Các luật có dạng Nếu P thì Q với P là

mệnh đề đúng với phần dữ liệu trong cơ sở dữ liệu, Q là mệnh đề dự đoán Ví dụ ta có một mẫu phát hiện được bằng phương pháp tạo luật: Nếu giá 1 cân táo thấp hơn 5000 đồng thì số lượng táo bán ra sẽ tăng 5% Những luật như thế này được sử dụng rất rộng rãi trong việc miêu tả tri thức trong hệ chuyên gia Chúng có thuận lợi là dễ hiểu đối với người sử dụng

Trang 13

1.2.2 Điểm mạnh c a cây quy ủ ế ị t đnh

• Cây quyế ịt đ nh cung c p m t ch th rõ ràng cho khía c nh nào ấ ộ ỉ ị ạ

là quan trọng cho việc dự đoán và phân loại

Khả năng tạo các luật dễ hiểu: Cây quyết định có thể tạo nên

các luật, mà từ đó dễ chuyển thành ngôn ngữ tự nhiên hoặc SQL, và đây chính là điểm mạnh của kỹ thuật này Thậm chí kể cả khi xuất hiện một vùng phức tạp hoặc một vùng dễ được chia tách thành các miền chữ nhật, dẫn đến cây quyết định bị phức tạp hơn, và lớn hơn, vẫn dễ dàng đi theo từng đường dẫn của cây Do đó có thể giải thích rõ ràng cho bất kỳ phân lớp hoặc dự báo nào

Khả năng thao tác trên các miền hướng theo luật Nghe có vẻ

là hiển nhiên, nhưng quy nạp luật nói chung, và cây quyết định nói riêng,

là cách lựa chọn tuyệt vời trong khi làm việc với các miền nơi phát hiện

ra các luật Cây quyết định là một lựa chọn tự nhiên khi bạn nghi ngờ có

sự hiện diện của các luật ẩn chứa

Dễ dàng tính toán được thời gian phân loại Một cây quyết

định có thể có nhiều dạng, trong thực tế, thuật giải được sử dụng để tạo cây quyết định thường sinh ra các cây với hệ số phân nhánh nhỏ và có kiểm thử đơn giản tại mỗi nút Các kiểm thử đặc trưng bao gồm so sánh

số học, tập thành viên, và kết nối đơn giản Khi triển khai trên máy tính, các kiểm thử này được dịch thành các toán tử số nguyên và Boolean khá nhanh và không tốn nhiều thời gian Đây là một điểm mạnh cơ bản của kỹ thuật này vì trong môi trường thương mại, mô hình dự đoán thường được dùng để phân loại hàng triệu hay thậm chí hàng tỉ bản ghi, nên yêu cầu về tính toán phải được tối thiểu hóa

Trang 14

Khả năng xử lý các biến kiểu liên tục và theo chủng loại Phương pháp cây quyết định xử lý các biến kiểu liên tục và biến chủng loại theo kiểu ngang bằng với nhau Các biến chủng loại, thường gây rắc rối với mạng neural và các kỹ thuật thống kê, sẽ trở nên sẵn sàng với tiêu chí chia tách sẵn có của nó: một nhánh cho mỗi chủng loại Các biến liên tục cũng dễ chia tách như vậy bằng cách chọn một số trong dải biến thiên giá trị của chúng

Khả năng chỉ thị rõ ràng các khía cạnh tốt nhất Các thuật

toán xây dựng từ cây quyết định đưa khía cạnh có thể chia tách tốt nhất đối với các bản ghi dùng để học lên gốc của cây

1.2.3 Điểm yếu của cây quyế ị t đnh

Các cây quyết định không thích hợp lắm cho các nhiệm vụ ước lượng, khi chúng có mục đích là dự đoán giá trị của một biến liên tục, như là thu nhập, huyết áp, hoặc lãi suất Các cây quyết định cũng gặp vấn

đề khi áp dụng cho dữ liệu theo thời gian trừ phi bỏ khá nhiều công sức

để biểu diễn dữ liệu sao cho dễ nhìn thấy xu hướng và kiểu biến thiên

Dễ sinh ra lỗi kh có nhiều lớp Một số giải thuật cây quyết i định chỉ có thể xử lý với các lớp đích với giá trị nhị phân (có/không, chấp nhận/phủ nhận) Một số giải thuật khác có thể gán các bản ghi là một tập các lớp có thứ tự nhưng sẽ dễ xẩy ra lỗi khi số lượng v dụ để học trên í một lớp là nhỏ Điều này có thể xẩy ra khá nhanh chóng trong một cây có nhiều tầng và/hoặc nhiều nhánh tại một nút

Việc huấn luyện tốn nhiều tính toán Quá trình xây dựng cây

tốn nhiều tính toán Tại mỗi nút, mỗi khía cạnh dùng để chia tách sẽ được sắp xếp trước khi tìm ra cách chia tách tối ưu nhất Trong một số thuật toán, sự kết hợp các khía cạnh được dùng và việc tìm kiếm phải thực hiện trên việc tối ưu kết hợp các trọng số Các thuật toán tỉa bớt cũng có thể mất nhiều công tính toán vì sẽ tạo ra và so sánh các cây con

Trang 15

Rắc rối với các miền phi chữ nhật Hầu hết các thuật toán cho

cây quyết định chỉ kiểm tra một khía cạnh đơn tại một thời điểm Điều này dẫn đến các hộp phân loại hình chữ nhật, có thể sẽ không tương ứng tốt với phân bố thực tế của các bản ghi trong không gian quyết định

1.3 Khai phá dữ ệ li u sử ụ d ng luật kết hợp

1.3.1 Khái niệm v ềkhai phá dữ ệ li u sử ụ d ng luật k t h ế ợp

Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá

dữ liệu là tập luật kết hợp tìm được Ta có thể lấy một số ví dụ đơn giản

về luật kết hợp như sau: Sự kết hợp giữa hai thành phần A và B có nghĩa

là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B trong cùng bản ghi đó: A ⇒ B

Cho một lược đồ R = {A1,…Ap} các thuộc tính với miền giá trị {0,1}, và một quan hệ r trên R Một tập luật kết hợp trên r được mô tả dưới dạng X ⇒ B với X ⊆ R và B R\∈ X Về mặt trực giác, ta có thể phát biểu ý nghĩa của luật như sau: nếu một bản ghi của bảng r có giá trị 1 tại mỗi thuộc tính thuộc X thì giá trị của thuộc tính B cũng là 1 trong cùng bản ghi đó Ví dụ như ta có tập cơ sở dữ liệu về các mặt hàng bán trong siêu thị, các dòng tương ứng với các ngày bán hàng, các cột tương ứng với các mặt hàng thì giá trị 1 tại ô (20/10, bánh mì) xác định rằng bánh mì

đã được bán ngày hôm đó và cũng kéo theo sự xuất hiện giá trị 1 tại ô (20/10, bơ)

Cho W⊆R, đặt s(W,r) là tần số xuất hiện của W trong r được tính bằng tỷ lệ của các dòng trong r có giá trị 1 tại mỗi cột thuộc W Tần

số xuất hiện của luật X ⇒ B trong r được định nghĩa là s(X∪{B},r) còn gọi là độ hỗ trợ của luật, độ tin cậy của luật là s(X {B},r)/s(X,r), ở đây X ∪

có thể gồm nhiều thuộc tính, B là giá trị không cố định Nhờ vậy mà

Trang 16

không xảy ra việc tạo ra các luật không mong muốn trước khi quá trình tìm kiếm bắt đầu Điều đó cũng cho thấy không gian tìm kiếm có kích thước tăng theo hàm mũ của số lượng các thuộc tính ở đầu vào Do vậy cần phải chú ý khi thiết kế dữ liệu cho việc tìm kiếm các luật kết hợp

Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X ⇒ B sao cho tần số của luật không nhỏ hơn ngưỡng σ cho trước và độ tin cậy của luật không nhỏ hơn ngưỡng θ cho trước Từ một

cơ sở dữ liệu ta có thể tìm được hàng nghìn thậm chí hàng trăm nghìn các luật kết hợp

Ta gọi một tập con X ⊆ R là thường xuyên trong r nếu thoả mãn điều kiện s(X,r) ≥ σ Nếu biết tất cả các tập thường xuyên trong r thì việc tìm kiếm các luật kết hợp rất dễ dàng Vì vậy, giải thuật tìm kiếm các luật kết hợp trước tiên đi tìm tất cả các tập thường xuyên này, sau đó tạo dựng dần các luật kết hợp bằng cách ghép dần các tập thuộc tính dựa trên mức độ thường xuyên

Các luật kết hợp có thể là một cách hình thức hoá đơn giản Chúng rất thích hợp cho việc tạo ra các kết quả có dữ liệu dạng nhị phân

Giới hạn cơ bản của phương pháp này là ở chỗ các quan hệ cần phải thưa

theo nghĩa không có tập thường xuyên nào chứa nhiều hơn 15 thuộc tính Giải thuật tìm kiếm các luật kết hợp tạo ra số luật ít nhất phải bằng số các tập thường xuyên và nếu như một tập thường xuyên có kích thước K thì phải có ít nhất là 2K luật kết hợp Thông tin về các tập thường xuyên được

sử dụng để ước lượng độ tin cậy của các tập luật kết hợp

1.3.2 Điểm mạnh của phương pháp phân tích luật kết hợp:

Trang 17

Kết quả là dễ hiểu Kết quả của phân tích luật kết hợp là các

luật kết hợp, dễ dàng biểu diễn bằng ngôn ngữ tự nhiên hoặc phát biểu của ngôn ngữ truy vấn như là SQL Diễn tả dưới dạng “nếu –thì” nên khá

dễ hiểu và dễ chuyển thành các câu lệnh Trong một số trường hợp, chỉ cần các tập các đối tượng liên quan, và không cần xây dựng luật

Phân tích luật kết hợp hỗ trợ mạnh cho khai phá dữ liệu

không giám sát Khai phá dữ liệu không giám sát là rất quan trọng khi tiếp cận tập dữ liệu lớn và không biết phải bắt đầu từ đâu Phân tích luật kết hợp là một kĩ thuật phù hợp khi áp dụng ở đây Hầu hết các kĩ thuật khai phá dữ liệu không được dùng chủ yếu cho bài toán khai phá dữ liệu không giám sát Phân tích luật kết hợp được dùng trong trường hợp này

mà không làm mất bất kỳ thông tin nào

Độ đơn giản tính toán Việc tính toán cần thiết để áp dụng

phân tích luật kết hợp là khá đơn giản, mặc dù số lượng phép tính tăng rất nhanh cùng với số lượng giao dịch và số lượng đối tượng sẽ phân tích Các bài toán nhỏ hơn có thể được thiết lập trên máy tính sử dụng bảng tính Điều này giúp cho kỹ thuật dùng luật kết hợp sử dụng thuận tiện hơn

so với các kỹ thuật phức tạp, như là thuật toán di truyền hay là mạng neural

1.3.3 Điểm yếu của phương pháp phân tích luật k t h ế ợ p

Các điểm y u c a phân tích lu t k t h p là: ế ủ ậ ế ợ

Trang 18

• Khi kích thước bài toán tăng, yêu c u v tính toán s tăng lên ầ ề ẽtheo hàm số mũ

• H ỗ trợ ạn chế đối với các thuộc tính của dữ liệu h

Hỗ trợ hạn chế đối với các thuộc tính của dữ liệu Phân tích

luật kết hợp là kỹ thuật đặc biệt dành cho các đối tượng trong một giao dịch Các đối tượng được giả định là giống hệt chỉ ngoại trừ một đặc điểm riêng biệt, như là loại sản phẩm Khi áp dụng được, phân tích luật kết hợp là công cụ khá mạnh Tuy nhiên, không phải mọi vấn đề được giải quyết bằng cách tiếp cận này Khi sử dụng các đối tượng được phân loại và các đối tượng ảo sẽ hỗ trợ tạo các luật có tính diễn đạt tốt hơn

Xác định đúng đối tượng Có thể vấn đề khó khăn nhất khi áp

dụng phân tích luật kết hợp là xác định đúng tập đối tượng cần sử dụng trong phân tích Bằng việc tổng quát hóa các đối tượng đến chủng loại của chúng, bạn có thể chắc chắn rằng tần suất của đối tượng được sử dụng trong phân tích sẽ gần tương đương nhau Mặc dù quá trình tổng quát hóa sẽ làm mất một số thông tin, các đối tượng ảo sẽ được chèn vào sau trong quá trình phân tích để thu được các thông tin trải ra trên các đối tượng đã được tổng quát hóa

Phân tích luật kết hợp gặp vấn đề với các đối tượng hiếm

Phân tích luật kết hợp làm việc tốt nhất khi các đối tượng có tần suất tương đương nhau Các đối tượng hiếm khi xuất hiệ trong rất ít các giao n

Trang 19

dịch sẽ được lược bớt Điều chỉnh ngưỡng hỗ trợ tối thiểu để tính đến giá trị tích là một cách để đảm bảo là các đối tượng đắt giá sẽ vẫn được quan tâm, mặc dù chúng hiếm khi xuất hiện trong dữ liệu Sử dụng chủng loại đối tượng có thể đảm bảo là các đối tượng hiếm được bao trùm và bao gồm trong việc phân tích một số dạng thức

1.4 Khai phá dữ ệ li u sử ụ d ng gom cụm

1.4.1 Khái niệm khai phá ữ liệu sử ụng gom cụ d d m

Kỹ thuật phân nhóm và phân đoạn là những kỹ thuật phân chia

dữ liệu sao cho mỗi phần hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó

;

Hình 1.4 Sơ đồ biểu diễn kết quả gom cụm dữ liệu

Mối quan hệ thành viên của các nhóm có thể dựa trên mức độ giống nhau của các thành viên và từ đó xây dựng nên các luật ràng buộc giữa các thành viên trong nhóm Một kỹ thuật phân nhóm khác là xây dựng nên các hàm đánh giá thuộc tính của các thành phần như là hàm của các tham số của các thành phần Phương pháp này được gọi là phương pháp phân hoạch tối ưu (optimal partitioning) Một ví dụ ứng dụng của phương pháp phân nhóm theo độ giống nhau là cơ sở dữ liệu khách hàng, ứng dụng của phương pháp tối ưu ví dụ như phân nhóm khách hàng theo

D ữ liệu thô Thuật toán gom cụm Các cụm d u ữ liệ

Trang 20

số các tham số và các nhóm thuế tối ưu có được khi thiết lập biểu thuế bảo hiểm

Mẫu đầu ra của quá trình khai phá dữ liệu sử dụng kỹ thuật này

là các tập mẫu chứa các dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ liệu Khi các mẫu được thiết lập, chúng có thể được

sử dụng để tái tạo các tập dữ liệu ở dạng dễ hiểu hơn, đồng thời cũng cung cấp các nhóm dữ liệu cho các hoạt động cũng như công việc phân tích Đối với cơ sở dữ liệu lớn, việc lấy ra các nhóm này là rất quan trọng 1.4.2 Điểm mạnh c a dò tìm gom c ủ ụm t ng ự độ

Điểm mạnh chính c a phương pháp dò tìm gom cụủ m t ng là: ự độ

• Dò tìm gom cụm t ự động là phương pháp khai phá tri thức không giám sát

• Dò tìm gom cụm tự động làm việc rất tốt với các ữ liệu phi số, d

d ữ liệu ố và dữ liệs u văn bản

• D ễ áp dụng

Khai phá tri thức không giám sát Điểm mạnh lớn nhất của

phương pháp dò tìm gom cụm tự động là tính chất không giám sát Có thể

áp dụng phương pháp này kể cả khi bạn không có thông tin về cấu trúc dữ liệu Phương pháp này được dùng để khai phá các cấu trúc ẩn, và được dùng để tăng cường hiệu quả của các kĩ thuật có giám sát

Việc phân cụm được thực hiện được trên nhiều loại dữ liệu

Bằng cách chọn các phương pháp khoảng cách đo khác nhau, phân cụm

tự động có thể áp dụng cho hầu hết các loại dữ liệu Có thể dùng phương phaáp này để phân cụm cho các tin tức mới, hoặc khiếu nại về bảo hiểm,

số liệu thiên văn học hoặc số liệu tài chính

Dễ áp dụng Hầu hết các kỹ thuật dò tìm đều yêu cầu rất ít cho

việc xử lý dữ liệu đầu vào, và không cần xác định các khía cạnh cụ thể làm đầu vào và các khía cạnh khác làm đầu ra

Trang 21

1.4.3 Điểm yếu của phương pháp dò tìm tự độ ng gom cụm

Các nhược đi m c a phương pháp này là: ể ủ

• Khó lựa ch n phương pháp đo kho ng cách và tr ng s h p lý nh t ọ ả ọ ố ợ ấ

• Khá nhậy c m v i các thông s kh i đ u ả ớ ố ở ầ

• Khó giải thích v k t qu các c m thu đư c ề ế ả ụ ợ

Gặp khó khăn với các trọng số và độ đo khoảng cách Hiệu

quả của thuật toán dò tìm gom cụm tự động phụ thuộc nhiều vào việc chọn lựa thông số khoảng cách hoặc các phương pháp lựa chọn tương tự Nhiều khi rất khó để xác định độ đo khoảng cách cho dữ liệu chứa nhiều loại dữ liệu Và cũng rất khó để xác định một cơ chế đánh trọng số phù hợp nhất với các dạng dữ liệu khác nhau

Khá nhậy cảm với các thông số khởi đầu Trong phương

pháp K-trung bình, lựa chọn đầu tiên của giá trị K xác định số lượng các cụm sẽ được tìm thấy Nếu số này không khớp với bản chất cấu trúc dữ liệu, kĩ thuật này sẽ không đem đến kết quả tốt

Khó giải thích về kết quả các cụm thu được Mặc dù điểm

mạnh của phương pháp này là kĩ thuật khai phá tri thức không giám sát,

nó lại dẫn đến hạn chế là: khi người ta không biết phải tìm cái gì, thì khi tìm thấy nó cũng không nhận ra được Các cụm dữ liệu tìm được không đảm bảo là có giá trị sử dụng tốt

1.5 Khai phá dữ ệ li u sử ụ d ng mạng neural

1.5.1 Khái niệm khai phá dữ liệu sử ụng mạng neural d

Mạng neural là một tiếp cận tính toán mới liên quan đến việc phát triển các cấu trúc toán học với khả năng lọc Các phương pháp là kết quả của việc nghiên cứu mô hình học của hệ thống thần kinh con người Mạng neural có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác và có thể được sử dụng để chiết xuất các mẫu và phát hiện ra

Trang 22

các xu hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính khác không thể phát hiện được

Khi đề cập đến khai thác dữ liệu, người ta thường đề cập nhiều đến mạng neural Tuy mạng neural có một số hạn chế gây khó khăn trong việc áp dụng và triển khai nhưng nó cũng có những ưu điểm đáng kể Một trong số những ưu điểm phải kể đến của mạng neural là khả năng tạo

ra các mô hình dự đoán có độ chính xác cao, có thể áp dụng được cho rất nhiều loại bài toán khác nhau đáp ứng được các nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp, phân nhóm, mô hình hoá, dự báo các sự kiện phụ thuộc vào thời gian,…

Đặc điểm của mạng neural là không cần gia công dữ liệu nhiều trước khi bắt đầu quá trình học như các phương pháp khác Tuy nhiên, để

có thể sử dụng mạng neural có hiệu quả cần phải xác định các yếu tố khi thiết kế mạng như:

- Mô hình mạng là gì?

- Mạng cần có bao nhiêu nút?

- Khi nào thì việc học dừng để tránh bị “học quá”?

- …

Ngoài ra còn có rất nhiều bước quan trọng cần phải làm để tiền xử lý

dữ liệu trước khi đưa vào mạng neural để mạng có thể hiểu được (ví dụ như việc chuẩn hoá dữ liệu, đưa tất cả các tiêu chuẩn dự đoán về dạng số)

Mạng neural được đóng gói với những thông tin trợ giúp của các chuyên gia đáng tin cậy và được các chuyên gia đảm bảo các mô hình này làm việc tốt Sau khi học, mạng có thể được coi là một chuyên gia trong lĩnh vực thông tin mà nó vừa được học

1.5.2 Điểm mạnh c a m ủ ạng neural

Trang 23

Mạng neural là rất linh hoạt Mạng neural cung cấp một cách tổng quát để tiếp cận các vấn đề Khi đầu ra của mạng là dạng liên tục, thì mạng thực hiện chức năng dự đoán như là định giá nhà cửa Khi đầu ra ,

có các giá trị rời rạc, thì mạng thực hiện chức năng phân loại Việc dò tìm các cụm cũng sử dụng bằng cách sắp xếp lại mạng neural Thực tế mạng neural là rất linh hoạt vì mức độ phổ biến của chúng Nỗ lực cần có để hiểu được các sử dụng mạng neural, và cách làm sạch dữ liệu là không uổng phí, vì tri thức đó có thể áp dụng bất cứ khi nào thích hợp

Mạng neural có thể xử lý cả dữ liệu dạng liên tục và dạng

dữ liệu phi số Mặc dù dữ liệu có thể được tinh chỉnh, mạng neural đã

chứng tỏ khả năng xử lý của mình bằng cả hai dạng dữ liệu liên tục và dữ liệu phi số, cả ở đầu vào và đầu ra Các dữ liệu phi số có thể được xử lý theo hai cách, hoặc là với một neural và mỗi một chủng loại được gán cho một tập con trong khoảng từ 0 đến 1 hoặc dùng các neural riêng biệt cho mỗi chủng loại Dữ liệu dạng liên tục dễ dàng được ánh xạ vào khoảng cần thiết

1.5.3 Điểm yếu củ a phương pháp m ng neural ạ

Cả đầu vào và đầu ra phải được tinh chỉnh trong khoảng

[0.1] Các đầu vào của mạng neural phải được tinh chỉnh vào một khoảng

cụ thể, thường là giữa 0 và 1 Điều này yêu cầu các biến đổi và thao tác thêm với dữ liệu, đồng nghĩa với việc cần thêm thời gian, công suất bộ xử

lý trung tâm, và không gian lưu trữ Thêm vào đó, việc chọn lựa phương pháp biến đổi có thể ảnh hưởng đến kết quả của mạng neural Các công

cụ may mắn cố gắng làm thế nào để quá trình biến đổi này càng đơn giản càng tốt Các công cụ tốt cung cấp các lược đồ để xem xét giá trị các biến chủng loại và tự động biến đổi các giá trị số học vào khoảng cần thiết Mặc dù vậy, các phân bố lệch với rất ít giá trị nằm ngoài có thể dẫn đến hiệu quả rất tối của mạng neural Yêu cầu phải điều chỉnh dữ liệu thực tế

Trang 24

là pha trọn sự may mắn Điều này cần đến việc phân tích tập học để chuẩn hóa giá trị và khoảng của chúng Vì chất lượng dữ liệu là vấn đề số một trong khai phá dữ liệu, việc nghiên cứu thêm về dữ liệu có thể ngăn chặn trước các vấn đề có thể xảy ra sau đó trong phân tích

Mạng neural không thể giải thích các kết quả Đây là nhược điểm lớn nhất của mạng neural Trong những miền mà giải thích các quy luật là tối cần thiết, thì không nên chọn mạng neural làm công cụ phân tích Chỉ nên chọn mạng neural khi cần xử lý các luật hơn là hiểu chúng.Mặc dù mạng neural không tạo ra các luật tường minh, các phân tích khá nhậy sẽ cho phép dùng các luật để giải thích việc đánh giá mức độ quan trọng giữa các đầu vào khác nhau Phân tích này có thể thực hiện ở phía trong mạng, bằng việc lan truyền ngược sai số, hoặc được thể hiện phía ngoài bằng việc tác động vào mạng bằng các đầu vào nhất định

Mạng neural có thể hội tụ với một giải pháp cấp thấp Mạng neural thường hội tụ với một vài giải pháp đối với bất kỳ tập học cho trước nào Thật không may là, không có đảm bảo nào cho thấy giải pháp này đem lại mô hình dữ liệu tốt nhất Sử dụng tập kiểm thử để xác định là một mô hình có cung cấp hiệu năng đủ tốt để dùng cho dữ liệu chưa biết hay không

Kết luận:

Ngoài các phương pháp trên, còn có một số phương pháp khác như: sử dụng thuật giải di truyền, mô hình học quan hệ, mô hình phụ thuộc dựa trên đồ thị xác suất, phân lớp và hồi quy phi tuyến, hay quy nạp

Như vậy, nhìn vào các phương pháp giới thiệu ở trên, chúng ta thấy có rất nhiều các phương pháp khai phá dữ liệu Mỗi phương pháp có những đặc điểm riêng phù hợp với một lớp các bài toán với các dạng dữ liệu và miền dữ liệu nhất định Giả sử đối với bài toán dự đoán theo thời gian, trước kia người ta thường đặt nhiệm vụ cho việc khai phá các mẫu

Trang 25

dạng này là hồi quy dự đoán hoặc các mô hình hồi quy t động dựa trên ự thống kê,… Mới đây, các mô hình khác như các hàm phi tuyến, phương pháp dựa trên mẫu, mạng neural đã được áp dụng để giải loại bài toán này Mặc dù nhìn bề ngoài ta thấy có rất nhiều các phương pháp và ứng dụng khai phá dữ liệu nhưng cũng không có gì là lạ khi nhận thấy chúng

có một số thành phần chung Hiểu quá trình khai phá dữ liệu và suy diễn được mô hình dựa trên những thành phần này là ta đã thực hiện được nhiệm vụ của khai phá dữ liệu

Trang 26

Chương II Cơ sở ữ ệ d li u (CSDL) văn b ản và khai phá CSDL văn bản

2.1 Vấ n đ biểu diễ ề n văn b n và trích c ọn thông tin trong văn ả h

b n ả

2.1.1 Vấn đề ể bi u diễ n văn b n ả

Bước đầu tiên của mọi ph ng pháp phân loại là chuyển việc ươ

mô tả văn ột dạng mô tả khác, phù hợp với các thuật toán học theo mẫu và phân lớp Hầu hết các thuật toán đều sử dụng cách biểu diễn văn bản sử dụng vector đặc tr ng, sự khác nhau có ưchăng là việc chọn không gian đặc trưng khác nhau Ý tưởng chính là xem mỗi văn bản di tương ứng là một vector đặc trưng trong không gian các từ Wn(wi là một từ, một đặc trưng, tương ứng một chiều của không gian) Giá trị của TF (wi) chính là số lần xuất hiện của từ wi trong văn bản di Từ được chọn là một đặc tr ng khi nó xuất hiện trong ít nhất ư

3 văn bản [Joachims, 1997] Để không bị phụ thuộc vào chiều dài văn bản vector đặc trưng sẽ được chuẩn hóa về chiều dài đơn vị:

Hình 2.1: Ví dụ về biểu diễn văn bản

Trang 27

Trong thực tế để cải thiện tốc độ và kết quả người ta th ờng sử ưdụng IDF (wi) hoặc TFIDF (wi) thay cho TF (wi):

et al,1995] hoặc Term Strength [Yang & Wilbur,1997] Ph ng pháp ươInformation Gain sử dụng độ đo Mutual Information(MI) [Yang & Petersen, 1997] để chọn ra tập đặc tr ng con f gồm những từ có giá trị ư

MI cao nhất

Các đặc trưng của văn bản khi biểu diễn d ới dạng vector: ư

• Số chiều không gian đặc trưng th ờng rất lớn (trên ư10000)

• Có các đặc trưng độc lập nhau, sự kết hợp các đặc tr ng ưnày thường không có ý nghĩa trong phân loại

• Đặc trưng rời rạc : vector di có rất nhiều giá trị 0 do có nhiều đặc tr ng không xuất hiện trong văn bản dư i

• Hầu hết các văn bản có thể được phân chia một cách tuyến tính bằng các hàm tuyến tính

Trang 28

2.1.2 Trích chọn thông tin

Hình 2.2: Sơ đồ khái niệm trích chọn thông tinTrích chọn thông tin (information extraction - IE): từ một nguồn rất nhiều tệp văn bản hay tiếng nói, tìm ra những đoạn bên trong một số tệp liên quan đến một vấn đề (câu hỏi) ta cần biết hay cần trả lời Một hệ trích chọn thông tin có thể vào từng trang Web liên quan, phân tích bên trong và trích ra các thông tin cần thiết, khác với tìm kiếm thông tin là tìm ra các văn bản có thể chứa đựng thông tin cần thiết Trích chọn thông tin là một công nghệ mới hơn và chưa phát triển bằng so với tìm kiếm thông tin (Information Retrieval - IR) Trích chọn thông tin (IE) là quá trình tự động thu nhận các dữ liệu có cấu trúc từ văn bản ngôn ngữ tự nhiên phi cấu trúc Thường thì quá trình này liên quan đến việc xác định mẫu chung của thông tin mà người ta quan tâm đến, mẫu này thường là một hoặc vài templates, mà sau đó được dùng để hướng dẫn cho quá trình trích chọn

Trích chọn thông tin có thể được sử dụng như là bước tiền xử

lý cho nhiệm vụ phân cụm, phân loại văn bản Từ tập văn bản ban đầu, quá trình trích chọn thông tin sẽ tách ra các thuật ngữ, các sự kiện, các

Trang 29

thực tế, tóm lại là những đoạn văn bản có thể đại diện cho văn bản đó Thông qua các đoạn văn bản đại diện này, sẽ thực hiện gán nhãn cho văn bản, nhờ đó, việc phân cụm, phân loại văn bản sẽ có độ chính xác tăng lên

Trích chọn thông tin được áp dụng trên các kiểu dạng văn bản,

có thể có cấu trúc, bán cấu trúc, hoặc chưa có cấu trúc Nhưng dù là ở dạng nào, thì cuối cùng, quá trình trích chọn thông tin cũng phải đem lại một số cụm từ có thể dùng để mô tả cho văn bản đó Quá trình trích chọn thông tin phụ thuộc vào khâu xử lý ngôn ngữ tự nhiên, và thuật toán sử dụng sẽ tùy thuộc vào yêu cầu về thông tin cần được lấy ra

Để thực hiện được việc trích chọn thông tin, hệ thống phải bao gồm một số khối nhất định, xử lý văn bản theo các luật nhất định Khối

xử lý đầu tiên, nhận văn bản đầu vào, chia tách văn bản thành các đoạn có thể được nhận biết, phân biệt với nhau Khối xử lý tiếp theo, sẽ gán nhãn

từ loại, và ngữ nghĩa cho mỗi từ thuộc từng đoạn đã tách ra ở trên Để thực hiện việc gán nhãn, cần sử dụng một từ điển thuật ngữ Sau quá trình này, mỗi đoạn văn bản sẽ có thêm khá nhiều thông tin, cần có khối xử lý với chức năng lọc, sẽ loại bớt các đoạn chứa thông tin không tương thích với yêu cầu Tiếp đó, các khối xử lý với chức năng tiền phân tích cú pháp,

và kết hợp các đoạn, sẽ phân tích mối quan hệ ngữ pháp giữa các từ, trên

cơ sở đó tạo ra cấu trúc dữ liệu nhằm làm sáng tỏ nghĩa của cả câu Sau giai đoạn này, khối phân tích cú pháp sẽ phân tích về thứ tự các từ và các cụm từ, để thấy được các mối quan hệ giữa các thành phần của câu Kết quả phân tích có thể là câu đã được gán nhãn cho toàn bộ hoặc một số thành phần Nhờ có mối quan hệ ngữ pháp đã được gán nhãn trên các thành phần của câu, khối chức năng tiếp theo sẽ xử lý các thành phần của câu, và biểu diễn chúng dưới một dạng thức thể hiện chung, chuẩn hóa cho tất cả các câu Dựa trên các thể hiện về nghĩa này, khối xử lý với chức năng phân giải đồng tham khảo, sẽ so sánh xem các sự kiện, hoặc

Trang 30

các thực thể xuất hiện trong từng câu với nhau, xem chúng có cùng tham chiếu đến một sự kiện hoặc thực thể trong thế giới thực hay không, bước này để loại bỏ sự trùng lặp trong cơ sở dữ liệu Cuối cùng, các thể hiện có được sau bước phiên dịch nghĩa và phân giải đồng tham khảo sẽ được trình bày như là dữ liệu điền vào một dạng mẫu mong muốn

Ngoài chức năng chủ yếu là trích chọn thông tin để điền vào mẫu theo yêu cầu, đã được trình bày ở trên, một hệ thống trích chọn thông tin còn có thể được thiết kế để thực hiện các nhiệm vụ khác như: gán nhã cho văn bản, chỉ thị, cảnh báo Việc thiết kế hệ thống IE trong các trường hợp này có thể là thay đổi số lượng, vị trí các khối chức năng, hoặc thậm chí điều chỉnh trong từng khối chức năng để thực hiện được các nhiệm vụ theo yêu cầu

Ví dụ về nhiệm vụ gán nhãn văn bản, hệ thống sẽ xác định thông tin có dạng cụ thể riêng, như là tên người, tên công ty, hoặc ngày tháng Những thông tin kiểu như vậy thường xuất hiện với các lĩnh vực khá rộng Thông tin được xác định tại khối chức năng tiền phân tích cú pháp, có thể phải qua xử lý tại khối phân giải đồng tham khảo đối với một

số dạng nhất định để tránh việc đa tham khảo Kết quả thu được có thể được sử dụng để tạo chỉ mục cho các văn bản, phục vụ cho các ứng dụng tìm kiếm thông tin sau đó Hoặc một cách sử dụng kết quả khác, trực quan với người dùng, đó là hiển thị văn bản gốc, với các dạng thông tin vừa xác định được đánh dấu hoặc làm nổi bật theo một cách nào đó

Với nhiệm vụ chỉ thị và cảnh báo, một nhà phân tích cố ắng xác g

định các thông tin th hi n b ng ch ng là có m t hay nhi u s ki n đ c ể ệ ằ ứ ộ ề ự ệ ặbiệt đã xảy ra C u trúc của hệấ th ng khá tương đ ng với hệ thống có ố ồnhiệm vụ điền thông tin vào dạng mẫu theo yêu cầu, chỉ khác nhau ở ối kh

tạo dạng mẫu Dạng mẫu hiển thị thông tin tìm được trong trư ng hợp ờnày c n phầ ải linh hoạt, cho phép hiển thị ữ d liệu chỉ ịth và cảnh báo một cách thuận tiện nhất cho nhà phân tích Trong trường hợp này, th c tự ế là

Trang 31

nhà phân tích muốn tìm kiếm thông tin, muốn xác đ nh các sự kiệị n cụ ể th theo một số ạ d ng chung, tuy nhiên l i không mu n theo d u thông tin ạ ố ấbằng cách duyệt cơ sở ữ ệ d li u, mà h th ng trích ch n thông tin có th ệ ố ọ ểcảnh báo nhà phân tích về s ự hiện diện của một số ạng dữ liệu nhấ ị d t đ nh.

Hệ thống IE có thể thực hiện các nhiệm vụ sau:

- Phân tích thuật ngữ, nhiệm vụ này sẽ xác định các thuật ngữ trong một văn bản, một thuật ngữ có thể bao gồm một hay vài từ Việc này đặc biệt hữu ích cho các văn bản chữa nhiều thuật ngữ đa từ phức hợp, như là các bài báo nghiên cứu khoa học

- Nhận dạng các thực thể dạng tên riêng, nhiệm vụ này sẽ xác định các tên có trong văn bản, như là tên riêng của người hoặc các tổ chức Một số hệ thống cũng có thể nhận ra ngày tháng và biểu diễ của thời gian, số lượng và các đơn vị tương đối, phần trăm, v.v

- Trích chọn nhanh, nhiệm vụ này sẽ xác định và trích chọn các thực tế phức tạp từ văn bản Các thực tế này có thể là các mối quan hệ giữa các thực thể hoặc các sự kiện

2.2 Khai phá CSDL văn bản

2.2.1 Khái niệm khai phá CSDL văn bản

Khai phá văn bản liên quan đến việc ứng dụng các kỹ thuật từ các lĩnh vực như tìm kiếm thông tin, xử lý ngôn ngữ tự nhiên, trích chọn thông tin Mục đích chính của khai phá văn bản là cho phép người dùng tách thông tin từ nguồn dữ liệu lớn Xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và kỹ thuật học máy kết hợp cùng nhau để tự động khám phá ra các dạng mẫu từ các văn bản Hầu hết các đối tượng khai phá văn bản rơi vào các loại hoạt động sau đây: Tìm kiếm và Truy xuất Phân thành chủng , loại Phân loại có giám sát Phân cụm ( ), (Phân loại không giám sát), Tổng kết, Phân tích xu hướng, Phân tích sự kết hợp, Hình thức hóa , vv

Các tiêu chí cần có khi khai phá văn b n: ả

Trang 32

 Với mức chi tiết hợp lý

T ừ các tiêu chí, dẫ n đ n các nhiệm vụ ủ ế c a khai phá văn b ản

 “…đúng thông tin” – Tìm kiếm thông tin các cơ chế( tìm ki m) ế

 “…đúng người - ” phân lo i, đ nh tuyến ạ ị

 “…đúng lúc” - phân tích trước h n ạ

 “…đúng phương thức” - trích ch n thông tin, bài phát biểu ọ

 “…đúng ngôn ngữ” - D ch máy ị

 “…đúng mức đ chi ti tộ ế ” - Tổng kết

Hình 2.3 Sơ đồ quy trình khai phá văn bản

Quy trình khai phá văn bản thường trải qua một số bước cơ bản như: tiền xử lý, biến đổi văn bản, lựa chọn đặc trưng, phát hiện, diễn giải Dưới đây xin được trình bày cụ thể hơn về các bước này

Trang 33

• Tiền x ửlý

Quá trình tiền xử lý thực hiện các thao tác phân tích văn bản về mặt ngữ nghĩa, cú pháp Việc phân tích cú pháp được thực hiện nhờ các

kỹ thuật đánh dấu từ loại (Part Of Speech - pos), loạ ỏi b tính mơ h c a ồ ủ

t ừ ngữ ựa trên ngữ ảnh hoặc từ ầ d c g n nghĩa, và t o cây cú pháp cho từng ạcâu đơn lẻ

Tạo thẻ

Quá trình tạo thẻ, đơn giản là đánh nhãn các từ riêng biệt hoặc đôi khi là một phần của từ, việc này hiếm dùng với tiếng Việt do tiếng Việt được coi là đơn âm tiết Việc này rất quan trọng vì các thành phần xây dựng tiếp theo sau cần các thẻ này phải được xác định rõ khi phân tích Các thẻ cũng được lưu thành các chú thích trong tập chú thích riêng của văn bản

sẽ được ghi lại thành các chú thích trong tập chú thích của chính nó

• Biế n đ i văn b n ổ ả

Văn bản được biến đổi thành túi từ, bao gồm các từ xuất hiện trong văn bản và số lần xuất hiện của từ đó, như đã trình bày trong phần biểu diễn văn bản Đồng thời các từ cũng được phân tích để xác định đâu

là từ gốc (đối với các ngôn ngữ có thể áp dụng việc phân tích này, như

Trang 34

tiếng Anh) Mỗi từ duy nhất trong một văn bản tạo thành một thuộc tính (một vị trí trong vector Số lần xuất hiện của một từ trong một bản ghi) (tần số uất hiện) là giá trị của thuộc tính cho văn bản đóx Văn bản được biểu diễn bằng cácvectơ của các thuộc tính số trong đó mỗi giá trị thuộc , tính là tần số xuất hiện của một thuật ngữ khác biệt ập hợp các vector Tvăn bản như vậy thường đ ợc gọi là một không gian vect Thuật toán ư orthao tác trên các biểu diễn văn bản như vậy đ ợc gọi là sử dụng các mô ưhình không gian vector của dữ liệu

Thậm chí đối với tập hợp văn bản có kích thước khá khiêm tốn, thì

số lượng các thuật ngữ khác biệt cũng có thể khá lớn, thường là hàng chục nghìn Đối với bất kỳ bản ghi đơn lẻ nào, số lượng thuật ngữ lại khá nhỏ Kết quả là, phần lớn các giá trị thuộc tính của vector sẽ là bằng 0 (khái niệm rỗng) vì các thuật ngữ đó không có trong bản ghi Bảng các vector với các giá trị thuộc tính hầu hết bằng 0, do đó thường sử dụng một triển khai bảng đặc biệt chỉ lưu trữ các giá trị khác rỗng, nhờ đó tiết kiệm được không gian lưu trữ và giảm đáng kể thời gian chạy chương trình cho nhiều giải thuật phải truy cập đến dữ liệu Trong hầu hết các ví

dụ, nếu triển khai đặc biệt không được sử dụng, bảng vector sẽ trở nên quá lớn để lưu trữ trong bộ nhớ truyền thống

Thường thường, việc trích chọn ra các thuật ngữ có tính duy nhất, hoặc các thẻ, không phải là cách hiệu quả để lấy được các thuộc tính dùng cho khai phá văn bản Nhiều thẻ thậm chí không phải là từ ngữ - có thể gây ra nhiễu trong khi xử lý và cần được loại bỏ Hơn nữa, một vài kiểu từ, hoặc loại từ, có thể dễ học hơn Ví dụ, thường là các danh từ, hoặc cụm danh từ được đánh giá cao hơn Các thuật toán xác định từ loại

và các từ điển ngữ nghĩa/ngôn ngữ học thường được dùng để cung cấp thông tin bổ sung về các thuật ngữ Các từ rất chung như “và” và

“cái”/”con” cũng thường được loại bỏ để tăng cường hiệu quả xử lý Quá trình này được gọi là loại bỏ từ dừng Một cách tiếp cận cơ bản là loại bỏ

Trang 35

tất cả các từ xuất hiện trong một danh sách các từ chung dư thừa Một cách tiếp cận khác là loại bỏ các từ xuất hiện tần suất lớn trên hầu hết các văn bản kiểu thuật ngữ như vậy gây ra nhiễu, làm cho bản ghi văn bản – giảm đi tính phân biệt Bộ lọc từ dừng sẽ loại bỏ các chú thích thẻ từ tập chú thích thẻ của văn bản hoặc chúng có thể đánh dấu các chú thích tương ứng là “dừng”

• Lựa chọn thuộc tính

Với các vector có số thành phần thường là rất lớn thu được sau bước biến đổi văn bản, cần phải thực hiện bước lựa chọn thuộc tính để giảm bớt số chiều trong không gian vector Quá trình lựa chọn thuộc tính nhằm mục đích loại bỏ các thông tin dư thừa, gây nhiễu Để thực hiện việc này, có các hướng tiếp cận là giám sát và không giám sát Cách tiếp cận giám sát, cần có tập thuộc tính học mẫu đã được gán nhãn, dựa trên

đó để xác định các thuộc tính được giữ lại cho các văn bản mới Do việc

so sánh giữa tập học mẫu và tập kiểm tra (các thuộc tính của văn bản mới) cần phải đạt đến một ngưỡng nào đó về độ tương đồng, cách tiếp cận này không thực sự linh hoạt Ngược lại, cách tiếp cận không giám sát không cần có tập học mẫu, thay vào đó, đánh giá kinh nghiệm được dùng

để ước lượng chất lượng của thuộc tính Nhờ đó, tiết kiệm thời gian và tránh các rắc rối như đối với cách tiếp cận có giám sát

Tiếp theo quá trình lựa chọn thuộc tính, hai bài toán lớn nhất của khai phá văn bản là bài toán phân loại, và phân cụm Dựa trên các thuộc tính của văn bản đã lựa chọn được, tiến hành phân loại theo cách tiếp cận học có giám sát, hoặc phân cụm theo cách tiếp cận học không giám sát Hai bài toán này sẽ được trình bày kỹ hơn trong phần tiếp theo đây

Tiêu đề	Làm Mịn Kết Quả Tìm Kiếm Văn Bản Sử Dụng Kỹ Thuật Khai Phá Văn Bản
Tác giả	Nguyễn Thị Minh Đức
Người hướng dẫn	PGS. Nguyễn Thị Kim Anh
Trường học	Trường Đại học Bách Khoa Hà Nội
Chuyên ngành	Xử Lý Thông Tin Và Truyền Thông
Thể loại	luận văn thạc sĩ
Năm xuất bản	2009
Thành phố	Hà Nội

Định dạng
Số trang	71
Dung lượng	3,21 MB