BÀI TẬP LỚN MÔN XỬ LÝ NGÔN NGỮ TỰ NHIÊN Tìm hiểu về bài toán phân loại văn bản và thu thập thông tin

Trong bài tìm hiểu này nhóm em xin trình bày các vấn đề đã tìm hiểu về vấn đề thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản... Ví dụ với dữ liệu của một công ty, quá

Trang 2

M c l c ục lục ục lục

  1

1 Đặt vấn đề 5

2 Cơ sở lý thuyết 5

2.1 Khái niệm Text Mining 5

2.1.1 Khai phá dữ li u (Data Mining) ệu (Data Mining) 5

2.1.2 Khai phá dữ li u văn bản (Text Mining) ệu (Data Mining) 7

2.2 Bài toán phân loại văn bản (Text categorization) 9

2.2.1 Khái niệm phân loại văn bản 9

2.2.2 Các phương pháp phân loại văn bản 9

2.3 Bài toán thu thập thông tin (Information retrieval - IR) 13

2.3.1 Khái niệm thu thập thông tin 13

2.3.2 Các phương pháp thu thập thông tin 15

3 Các giải pháp áp dụng cho Vietnamese Text Mining 26

3.1 Đặc trưng của văn bản tiếng Việt 26

3.1.1 Các đơn vị của tiếng Vi t ệu (Data Mining) 26

3.1.2 Các phương ti n ngữ pháp của tiếng vi t ệu (Data Mining) ệu (Data Mining) 28

3.1.3 Từ tiếng vi t ệu (Data Mining) 29

3.1.4 Câu tiếng vi t ệu (Data Mining) 31

3.1.5 Các đ c điểm chính tả và văn bản tiếng Vi t ặc điểm chính tả và văn bản tiếng Việt ệu (Data Mining) 33

3.2 Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt.33 3.2.1 Bài toán phân loại văn bản tiếng Việt 34

3.2.2 Bài toán thu thập thông tin từ văn bản tiếng Việt 34

TÀI LIỆU THAM KHẢO 35

PHÂN CÔNG CÔNG VIỆC 35

1 Lan+Khánh: Tìm hiểu bài toán phân loại văn bản và phân loại văn bản Tiếng Việt 35 2 Lương+Phương: Tìm hiểu bài toán thu thập thông tin và thu thập thông tin văn bản Tiếng Việt 35

3 Trung: Tìm hiểu về các đặc trưng của văn bản Tiếng Việt 35

Trang 3

BẢNG DANH MỤC HÌNH HOẠ

Hình 1: Một ví dụ về cây quyết địnhHình 2 Mô hình thu thập thông tin chuẩn

Hình 4: Đồ thị biểu diễn quan hệ giữa truy vấn (query) và các tài liệu D1, D2Hình 5 Mạng nơ-ron: toán tử AND (a) và toán tử OR (b)

Hình 6 Mạng nơ-ron với lớp ẩn: toán tử NORHình 7: Mô hình biểu diễn mạng nơ-ron

Trang 4

LỜI GIỚI THIỆU

Ngày nay, cơ sở dữ liệu đã trở thành một phần không thể thiếu của xã hội loàingười Trong kỉ nguyên thông tin này, các thông tin được lưu trữ và xử lý hiệu quảhầu hết là thông qua cơ sở dữ liệu Sau gần 50 năm phát triển, cơ sở dữ liệu đã cónhững bước tiến vô cùng quan trọng trong lịch sử Công nghệ thông tin Từ mô hình

Cơ sở dữ liệu quan hệ do E.Codd đề xuất từ những năm 60, các ứng dụng côngnghệ thông tin đã thực sự biến việc lưu trữ dữ liệu trở thành lưu trữ thông tin thôngqua các công cụ quản lý và xử lý cơ sở dữ liệu Ngày nay, nhu cầu lưu trữ và xử lýthông tin có mặt ở khắp mọi nơi Ở bất cứ một tổ chức nào, với bất kỳ một mô hìnhhay quy mô nào cũng đều có những nhu cầu về lưu trữ và khai thác thông tin Kháiniệm thông tin ở đây bao gồm cả thông tin về nội tại của tổ chức và thông tin vềmôi trường và tổ chức hoạt động

Khi các mô hình dữ liệu phát triển ở mức độ cao hơn, các thông tin lưu trữdưới dạng dữ liệu phong phú đa dạng hơn, người ta nhận ra còn rất nhiều tri thứccòn tiềm ẩn trong dữ liệu mà các mức phân tích trước đó không phát hiện ra Lý docủa vấn đề này là các phân tích trước đó chỉ mới hướng mục đích cụ thể của conngười Các mục đích này là cố định và các phân tích này hoàn toàn do con ngườiđưa ra trong hoàn cảnh cụ thể Khi các thông tin phản ánh môi trường thay đổi thìcon người không nhận ra để điều chỉnh các phân tích và đưa ra các phân tích mới.Các tri thức đó có thể là hướng kinh doanh, các dự báo thị trường, cũng có thể làmối quan hệ giữa các trường hay nội dung dữ liệu mà con người không hình dung

ra được khi tiến hành mô hình hoá các hệ thống Vì thế, ngành nghiên cứu về Pháthiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database) ra đời với bàitoán Khai phá dữ liệu (DataMining) làm trung tâm nghiên cứu Các tư tưởng nghiêncứu và các thuật toán về Trí tuệ nhân tạo và Hệ chuyên gia đã được áp dụng và thuđược những kết quả rất quan trọng như: cây quyết định, mạng nơ-ron

Một số bài toán quan trọng trong Khai phá dữ liệu văn bản hay được xét đếnnhư là các bài toán “Text Classification”, “Text Sumarization”, và “TextCategorization”

Trên thế giới đã có rất nhiều thành công trong đề tài phân lớp văn bản như cácnghiên cứu của hãng IBM, trong các phòng thí nghiệm ở MIT hay ở các việnnghiên cứu của các trường đại học ở Mỹ, Pháp, Nhật Bản, Canada Tuy nhiên, cácthành công đó chủ yếu tập trung vào vấn đề nghiên cứu về các văn bản tiếng Anh,tiếng Pháp Những ngôn ngữ này là các ngôn ngữ tương đối thuận lợi khi xử lý.Hiện nay, chưa có một công cụ nào được coi là hiệu quả trong lĩnh vực khaiphá văn bản tiếng Việt Nền Công nghệ thông tin của nước ta được phát triển hếtsức mạnh mẽ Do nhu cầu hội nhập, nhu cầu phát triển kinh tế, văn hoá, Xã hộingày càng tăng, các thông tin được xử lý thông qua văn bản điện tử, qua web, quaemail phát triển với tốc độ chóng mặt Từ đó, nhu cầu nghiên cứu và xây dựng cáccông cụ Khai phá dữ liệu văn bản tiếng Việt đang được hết sức coi trọng Trong bài

tìm hiểu này nhóm em xin trình bày các vấn đề đã tìm hiểu về vấn đề thu thập

thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản.

Trang 5

1 Đặt vấn đề

Như chúng ta đã biết, hầu hết các thông tin được trao đổi hiện nay nằm dướidạng tài liệu văn bản Các thông tin đó có thể là các bài báo, các tài liệu kinh doanh,các thông tin kinh tế, các bài nghiên cứu khoa học Dù áp dụng Cơ sở dữ liệu vàotrong hoạt động của tổ chức là rất phổ biến và đem lại nhiều lợi ích khi lưu trữ và

xử lý, nhưng ta không thể quên được rằng còn rất nhiều dạng thông tin khác đượclưu trữ dưới dạng văn bản Thậm chí ngay cả trong các thông tin được lưu trong các

cơ sở dữ liệu thì phần lớn trong số chúng cũng được tổ chức dưới dạng văn bản.Hiện nay, các tổ chức đã áp dụng công nghệ thông tin vào quản lý hệ thống côngvăn giấy tờ, ví dụ các hệ thống sử dụng Lotus Node Tuy nhiên đó chỉ thực sự làcách quản lý luồng dữ liệu văn bản, cung cấp các công cụ kho chứa, còn dữ liệu vẫnthực sự nằm dưới dạng văn bản Chúng ta chưa có các giải thuật phân loại, tìm kiếmtài liệu, các công cụ trích lọc thông tin nhằm mục đích thống kê, phát hiện tri thức,

ra quyết định trực tiếp trên các nguồn dữ liệu kiểu này

Với thực tế đó, vấn đề đặt ra là làm thế nào chúng ta có thể khai thác đượcnhững thông tin hữu ích từ các nguồn tài liệu văn bản nói chung Các nguồn dữ liệunày phải được xử lý như thế nào để người dùng có thể có những công cụ tự độnghoá trợ giúp trong việc phát hiện tri thức và khai thác thông tin Rõ ràng, chúng taphải hiểu rõ bản chất của dữ liệu văn bản, hiểu rõ các đặc trưng của các dữ liệu loạinày để có thể có được những phương pháp luận cần thiết

Việc khai thác thông tin từ các nguồn dữ liệu văn bản trong các tổ chức ViệtNam chắc chắn phải dựa vào những kết quả nghiên cứu về văn bản nói chung, về

dữ liệu văn bản và các kỹ thuật xử lý đã được phát triển trên thế giới Tuy nhiên,những văn bản tiếng Việt lại có những đặc trưng riêng của nó Ta có thể nhận thấyđược ngay sự khác biệt về mặt kí pháp, cú pháp và ngữ pháp tiếng Việt trong cácvăn bản so với các ngôn ngữ phổ biến trên thế giới như tiếng Anh, tiếng Pháp Vậythì những đặc trưng này ảnh hưởng thế nào đến các kỹ thuật khai phá dữ liệu vănbản, ta cần phải có những ký thuật mới nào để có thể tận dụng được những ưu thếcủa tiếng Việt cũng như giải quyết được những phức tạp trong tiếng Việt

2 Cơ sở lý thuyết 2.1 Khái niệm Text Mining

2.1.1 Khai phá dữ liệu (Data Mining)

Việc sử dụng cơ sở dữ liệu vào hoạt động của một tổ chức đã được phát triểntrong vòng 60 năm trở lại đây Với dữ liệu được thu thập trong suốt quá trình hoạtđộng của một tổ chức, một nhu cầu được đặt ra là tìm kiếm và khai thác tri thức từnhững dữ liệu đó Đó chính là xuất phát điểm của bài toán Phát hiện tri thức từ cơ

sở dữ liệu Người ta nhận thấy rằng có rất nhiều tri thức mà chúng ta không lường

Trang 6

trước đang còn tiềm ẩn trong dữ liệu, nhiệm vụ của chúng ta là phát hiện, khám phácác tri thức đó, phục vụ cho những nhu cầu sử dụng thông tin cao hơn, ví dụ nhưtrong các hệ chuyên gia hay hệ hỗ trợ quyết định.

Khai phá dữ liệu là giai đoạn chủ yếu của quá trình Phát hiện tri thức từ cơ sở

dữ liệu Quá trình khai phá tri thức được thực hiện sau các quá trình thu thập vàtinh lọc dữ liệu, có nghĩa là chỉ tìm các mẫu tri thức (pattern) có ý nghĩa trên tập dữliệu có hy vọng chứ không phải là trên toàn bộ CSDL như các phương pháp thống

kê trước đây

Vì vậy khai phá dữ liệu bao gồm việc thử tìm mô hình phù hợp với dữ liệu

và tìm kiếm các mẫu hình tri thức từ dữ liệu theo mô hình đó Mặc dù mẫu hình

có thể tìm được từ bất kì một CSDL nào nhưng chỉ những mẫu phù hợp với mụcđích tìm kiếm mới được gọi là tri thức Ta sẽ có những hàm số để đánh giá các tiêu

chí mẫu như mới, có lợi, đáng được xem xét.

Độ mới của mẫu hình phụ thuộc vào khung phạm vi quy chiếu, có thể đối với

hệ thống hoặc đối với người dùng Ví dụ với dữ liệu của một công ty, quá trìnhKhai phá dữ liệu tìm ra được một luật như Lợi tức thu được giảm vào mùa thu ởvùng phía Bắc, đối với hệ thống thì rất mới, trước kia chưa hề có nhưng bất cứ mộtcán bộ lập kế hoạch nào cũng nhận ra được điều này qua các báo cáo tài chính.Tính hữu dụng của mẫu có thể đo được qua sự liên quan đến mục đích tìmkiếm Với một cán bộ phụ trách bảo trì máy tính ở công ty thì luật trên không có giátrị, mặc dù là mới đối với anh ta

Có thể qua công đoạn khai phá tri thức có rất nhiều mẫu được lấy ra nhưngkhông phải mẫu nào cũng có giá trị, có thể là mới, hữu ích nhưng lại tầm thường,đặc biệt là khi áp dụng các kỹ thuật dựa trên thống kê Do đó luôn phải có các tiêuchí và các hàm đánh các mẫu đáng xem xét, không tầm thường

Tóm lại, Khai phá dữ liệu thực ra có thể coi là một quá trình xác định mẫu từcác Datawarehouse, sử dụng các kỹ thuật sẵn có như học máy, nhận dạng, thống kê,phân oại và các kỹ thuật được phát triển bởi ngành nghiên cứu trí tuệ nhân tạonhư Mạng nơ-ron nhân tạo (neutral network), các thuật toán di truyền (genericalgorithm), quy nạp luật rule reduction)

Ta có thể xét đến một số bài toán chính đối với nghiên cứu về Khai phá dữliệu

- Bài toán phân lớp (classification): Tìm một ánh xạ (phân loại) từ một mẫu

dữ liệu vào một trong các lớp cho trước

- Bài toán hồi quy (regression): Tìm một ánh xạ hồi quy từ một mẫu dữ liệu

vào một biến dự đoán có giá trị thực

Trang 7

- Bài toán lập nhóm ( clustering): Là việc mô tả chung để tìm ra các tập xác

định hữu hạn các nhóm hay các loại để mô tả dữ liệu

- Bài toán tổng kết (summarization): Là việc đi tìm kiếm một mô tả chung

tóm tắt cho một tập con dữ liệu

2.1.2 Khai phá dữ liệu văn bản (Text Mining)

Khai phá dữ liệu văn bản hay phát hiện tri thức từ các cơ sở dữ liệu văn bản(textual databases) đề cập đến tiến trình trích lọc các mẫu hình thông tin (pattern)hay tri thức (knowledge) đáng quan tâm hoặc có giá trị (non-trivial) từ các tài liệuvăn bản phi cấu trúc Quá trình này có thể được coi là việc mở rộng kỹ thuật Khaiphá dữ liệu truyền thống, vì như ch úng ta đã thấy (đã được đề cập ở trên) kỹ thuậtKhai phá dữ liệu truyền thống (DataMining) hướng tới việc phát hiện tri thức từ các

cơ sở dữ liệu có cấu trúc

Thông tin được lưu trữ dưới dạng nguyên sơ nhất chính là văn bản Thậm chí

ta có thể thấy rằng dữ liệu tồn tại dưới dạng văn bản còn có khối lượng lớn hơn rấtnhiều so với các dữ liệu có cấu trúc khác Thực tế, những nghiên cứu gần đây đãcho thấy rằng có đến 80% thông tin của một tổ chức nằm dưới dạng văn bản Đó cóthể là các công văn giấy tờ, các biểu mẫu điều tra, các phiếu đặt hàng, các yêu cầukhiếu nại, giải quyết quyền lợi, các thư tín điện tử (email), các thông tin trên cácwebsite thương mại Khi các nghiên cứu về cơ sở dữ liệu ra đời vào những năm

60, người ta tưởng rằng có thể lưu mọi loại thông tin dưới dạng dữ liệu có cấu trúc.Nhưng trên thực tế sau gần 50 năm phát triển, người ta vẫn dùng các hệ thống lưutrữ ở dạng văn bản và thậm trí còn có xu hướng dùng thường xuyên hơn Từ đóngười ta có thể tin rằng các sản phẩm Khai phá dữ liệu văn bản có thể có giá trịthương mại cao hơn rất nhiều lần so với các sản phẩm Khai phá dữ liệu truyềnthống khác Tuy nhiên ta cũng có thể thấy ngay rằng các kỹ thuật Khai phá dữ liệuvăn bản phức tạp hơn nhiều so với các kỹ thuật Khai phá dữ liệu truyền thống bởi vìphải thực hiện trên dữ liệu văn bản vốn đã ở dạng phi cấu trúc và có tính mờ(fuzzy)

Một ví dụ cho bài toán khai phá dữ liệu văn bản, khi phân tích các bài báonghiên cứu khoa học, ta có các thông tin sau:

Sau khi phân tích các thông tin quan trọng này, hệ thống cần phải đưa ra cácsuy luân cụ thể mang tính cách mạng:

Rõ ràng ở đây có sự phân tích suy luận ở mức độ cao Để đạt được khà năngnhư vậy cần phải có những công trình nghiên cứu về trí tuệ nhân tạo tiên tiến hơn

Trang 8

Bài toán Khai phá dữ liệu văn bản là một bài toán nghiên cứu đa lĩnh vực, baogồm rất nhiều kỹ thuật cũng như các hướng nghiên cứu khác nhau: thu thập thôngtin (information retrieval), phân tích văn bản (text analysis), chiết xuất thông tin(information extraction), lập đoạn (clustering), phân loại văn bản (categorization),hiển thị trực quan (visualization), công nghệ cơ sở dữ liệu, học máy (machinelearning) và bản thân các kỹ thuật Khai phá dữ liệu.

Với một hệ thống Khai phá văn bản thường bao gồm ba bước chính:

phi cấu trúc về dạng có cấu trúc Ví dụ, với văn bản Tổ chức này to

lắm, hệ thống sẽ cố gắng phân tích thành Tổ chức|này|to|lắm Các từ

được lưu riêng rẽ một cách có cấu trúc để tiện cho việc xử lý

cách loại bỏ các thông tin vô ích từ văn bản Bước này phụ thuộc rấtnhiều vào ngôn ngữ đang được phân tích và kỹ thuật sẽ được dùng

để phân tích ỏ bước tiếp theo Ví dụ, nếu kỹ thuật phân tích văn bảnchỉ dựa vào xác xuất xuất hiện từ khoá, khi đó ta có thể loại bỏ các

từ phụ như: nếu, thì, thế nhưng, như vậy…

(data mining) truyền thống

Có rất nhiều kỹ thuật và phương pháp tốt được sử dụng cho Text Mining để tìm ra các kiến trúc mới, các mẫu mới, và các liên kết mới Các bước tiền xử lý là các kỹ thuật rất phức tạp nhằm phân tích một phân lớp đặc biệt thành các thuộc tính đặc biệt, sau đó tiến hành áp dụng các phương pháp khai phá dữ liệu kinh điển tức là phân tích thống kê và phân tích các liên kết Các bước còn lại sẽ khai phá cả văn bản đầy đủ từ tập các văn bản, ví dụ như phân lớp văn bản

Mục tiêu cuối cùng của Text Mining thường là đường lối hiệu quả, hoàn thiện, và đặc trưng để trình diễn và tìm kiếm các tập hợp rộng lớn của các văn bản Do đó, các kỹ thuật chính của Text Mining có thể được phân phân ra thành các nhiệm vụ

mà chúng thực hiện khi xử lý khai phá văn bản: loại thông tin mà chúng có thể trích

ra và loại phân tích được thực hiện bởi chúng

Các loại thông tin được trích ra có thể là:

thao tác khai phá tri thức được thực hiện trên các nhãn của mỗi vănbản Nói chung, có thể giả sử rằng các nhãn tương ứng với các từkhoá, mỗi một từ khoá có quan hệ với một chủ đề cụ thể nào đó

xuất hiện trong văn bản đó

từ đó thuộc về một lĩnh vực nào đó và do đó việc tìm khai phá vănbản được thực hiện trên các khai niệm được gán nhãn cho mỗi văn

Trang 9

bản Ưu điểm của phương pháp này là các thuật ngữ được tách ra ít

và có xu hướng tập trung vào các thông tin quan trọng của văn bảnhơn hai phương pháp trước đây

Các loại kết hợp:

liệu nguyên mẫu được tạo lập chú dân để trợ giúp cho các kỹ thuật

xử lý ngôn ngữ tự nhiên Các cấu trúc có chú dẫn trên thực tế có thểđược sử dụng như một cơ sở cho việc xử lý khai phá tri thức

thuật ngữ lấy ra từ một phân cấp các thuật ngữ Sau đó, một hệ thống

sẽ phân tích sự phân bố nội dung của các thuật ngữ hậu duệ của từngthuật ngữ liện quan đến các hậu duệ khác do các phân bố liên kết vàcác phép đo khác nhằm khai thác các quan hệ mới giữa chúng Loạiliên kết này có thể cũng được sử dụng để lọc và tổng hợp chủ đề củacác tin tức

thường thực hiện thao tác mù quáng trên các chú dẫn của văn bản, kỹthuật này sử dụng lợi thế của nội dụng nguyên mẫu của các văn bản.Kỹ thuật này được gọi là “trích văn bản nguyên mẫu”

2.2 Bài toán phân loại văn bản (Text categorization)

2.2.1 Khái niệm phân loại văn bản

Phân loại văn bản (Text categorization) là xử lý nhóm các tài liệu thành cáclớp khác nhau hay các phân nhóm (categories) Đây là một tác vụ phân lớp liênquan đến việc ra quyết định xử lý Với mỗi xử lý phân nhóm, khi đưa ra một tàiliệu, một quyết định được đưa ra nó có thuộc một lớp nào hay không Nếu nó thuộcmột phân lớp nào đó thì phải chỉ ra phân lớp mà nó thuộc vào Ví dụ, đưa ra một

chủ đề về thể thao, cần phải đưa ra quyết định rằng chủ đề đó thuộc các phân lớp cờ

vua, quần vợtt, cầu lông, bơi lội hay bất cứ một môn thể thao nào khác Các hệ

thống phân loại văn bản thường làm việc với một thuật toán tự học (learning

algorithm) Thuật toán đó được cung cấp một tập mẫu để phục vụ cho việc dạy học.Tập mẫu này bao gồm một tập các thực thể có gán nhãn được phân lớp trước códạng (x, y) ở đó x là thực thể được phân lớp, y là nhãn (hay phân lớp) được gán cho

nó Với cơ cấu cơ sở như vậy, khi một thực thể được cung cấp cho hệ thống, nó sẽ

cố gắng suy ra một hàm toán học từ tập đào tạo mẫu và ánh xạ thực thể mới đó vàomột phân lớp Phân lớp văn bản là bài toán hay và đang có những bước phát triểnhết sức quan trọng mà nguyên nhân chủ yếu do sự phát triển mạnh mẽ gần đây củacác thông tin nguyên trực tuyến

2.2.2 Các phương pháp phân loại văn bản 2.2.2.1 Sử dụng từ điển phân cấp chủ đề

Một phương pháp thống kê phân lớp văn bản được điều khiển bởi một từ điểnchủ đề có phân cấp được đề xuất Phương pháp này sử dụng một từ điển với mộtcấu trúc đơn giản Từ điển này có thể dạy được dễ dàng trên một tập hợp tài liệu

Trang 10

được phân lớp bằng tay và có thể dịch được tự động sang nhiều ngôn ngữ khácnhau

Chúng ta xem xét nhiệm vụ phân loại văn bản bởi chủ đề của tài liệu: ví dụ,một số tài liệu về những động vật, và một số khác nói về vấn đề công nghiệp.Chúng ta giả sử rằng danh sách chủ đề là lớn nhưng cố định Giải thuật của chúng takhông thu được những chủ đề từ thân của tài liệu nhưng thay vào đó, nó liên hệ tàiliệu với một trong những chủ đề được liệt kê trong từ điển hệ thống Kết quả làphép đo (về phần trăm) sự tương ứng của tài liệu với mỗi từngchủ đề có sẵn

Có một vấn về xuất hiện là độ tối ưu, hay độ hợp lý, độ chi tiết cho phân loạinhư vậy Ví dụ, khi phân loại tin tức trên internet với một người đọc “bình thường”,những phân loại như các loài động vật hoặc nghành công nghiệp thì khá phù hợp,trong khi phân lớp các chủ đề về động vật học giống như một cuốn từ điển như vậy

sẽ đưa ra một câu trả lời chung chung rằng tất cả các chủ đề đó đều nói về động vật.Hay nói cách khác, với một người đọc tin tức trên internet bình thường, thật khôngthích hợp dùng để phân loại những tài liệu với những chủ đề chi tiết hơn như nhữngđộng vật có vú, động vật có xương sống, động vật thân nhiệt

Trong bài nghiên cứu này, chúng ta sẽ bàn luận về cấu trúc của từ điển chủ

đề, cách chọn lựa và cách sử dụng các trọng số của các nút riêng lẻ trong phân cấp,

và một số khía thực tế về việc biên soạn điển chủ đề

2.2.2.1.1 Giải thuật phân lớp và phân cấp chủ đề

Trong bài nghiên cứu của các tác giả Guzmán và Arenas vào năm 1997 và

1998, hai ông đề xuất việc sử dụng một từ điển có phân cấp để xác định những đềtài chính của một tài liệu [1] Về mặt kỹ thuật, từ điển bao gồm hai phần: các nhómtừ khóa đại diện cho các chủ đề riêng biệt, và một biểu diễn phân cấp của các chủ

đề này

Một nhóm từ khóa là một danh sách các từ hoặc các biểu thức liên quan đếntình trạng tham chiếu bởi tên của chủ đề Ví dụ, chủ đề tôn giáo liệt kê các từ nhưnhà thờ, thầy tu, nến, kinh thánh, cầu nguyện, người hành hương,…Chú ý rằngnhững từ này không được liên kết với đầu mục tôn giáo hay liên kết với nhau bởibất kỳ quan hệ ngữ nghĩa tiêu chuẩn nào như kiểu con, phần,…

Cây chủ đề được tổ chức thành một phân cấp, hay nói chung là tổ chức thànhmột mạng (khi đó một số chủ đề có thể thuộc một vài nút của cây phân cấp)

Giải thuật tìm kiếm chủ đề trên từ điển cũng gồm có hai phần : tìm kiếm chủ

đề đơn (chủ đề lá) và sự truyền lan trọng số của chủ đề trên cây Thực tế, nó trả lời,cho câu hỏi sau: tới mức độ nào thì tài liệu này sẽ phù với chủ đề đã cho? Một câuhỏi như vậy được trả lời cho mỗi chủ đề riêng biệt Trong trường hợp đơn giản nhất,trọng số của một chủ đề là số (tần suất) các từ tương ứng, trong danh sách từ, đượctìm thấy trong tài liệu [1]

Phần thứ hai của giải thuật có trách nhiệm lan truyền các t ần suất tìm thấytrên cây [1] Với phần giải thuật này, chúng ta có thể chỉ ra rằng một tài liệu đề cậpđến chủ về những động vật có vú, những động vật thân mềm, những động vật giápsát ở nút lá, phù hợp với chủ đề về những động vật, các sinh vật sống và tự nhiênkhông ở nút lá

Trang 11

2.2.2.1.2 Sự phù hợp và sự phân biệt của các trọng số

Thay vì các danh sách từ đơn giản, một số trọng số có thể được sử dụng bởigiải thuật để định nghĩa (1) phép đo định lượng sự phù hợp của các từ với các chủ

đề và (2) đo mức quan trọng của các nút của thuộc cây phân cấp [1]

Loại trọng số đầu tiên, chúng ta gọi là các trọng số sự phù hợp, có liên hệ vớicác liên kết giữa các từ và các chủ đề và các liên kết giữa các nút trên cây Ví dụ,

nếu tài liệu đề cập đến từ “bộ chế hòa khí” thì nó đang nói về ô tô Làm sao phù hợp hoá từ “bộ chế hòa khí” hoặc “bánh lái” cho những chủ đề về ô tô, độ mạnh trong các quan hệ này như thế nào? Về trực giác, đóng góp của từ “bộ chế hòa khí” vào chủ đề ô tô lớn hơn sự đóng góp của từ “bánh lái”; như vậy, mối liên kết giữa

“bánh lái” và chủ đề ô tô được gán một trọng số nhỏ hơn.

k

chủ đề j, hay giữa một chủ đề k và chủ đề cha j của nó trên cây) có thể được địnhnghĩa như độ phù hợp trung bình cho chủ đề của những tài liệu được đưa ra chứa từ

k i

D i

k i

j i j

k

n

n r

hiện của từ hay chủ đề k trong tài liệu i

Không may, chúng ta không thành thạo bất cứ giải thuật đáng tin cậy nào để

i

Thay vào đó, một phép đo như vậy được đánh giá bằng tay bởi chuyên gia, và sau

đó hệ thống được huấn luyện trên hợp các tài liệu Các chuyên gia có thể phảithường xuyên gán những trọng số thích hợp bằng tay cho các tài liệu

Cả hai cách tiếp cận này yêu cầu rằng được làm băng tay Để tránh điều đó,với một phép toán gần đúng, với những đề tài đủ hẹp, có thể giả thiết rằng nhữngvăn bản trên về chủ đề này gần như không bao giờ xuất hiện trong những văn bảnthông thường Khi đó biểu thức của các trọng số có thể được đơn giản hóa:







D i

k i

j k

n

Yêu cầu chính cho loại thứ hai của các trọng số - sự phân biệt các trọng số - làkhả năng phân biệt giữa chúng: một chủ đề cần phải tương ứng tới một tập con(đáng kể) những tài liệu Mặt khác, những chủ đề mà tương ứng với gần như tất cảcác tài liệu trong cơ sở dữ liệu thì chúng là vô ích vì chúng không cho phép đưa rabất kỳ kết luận phù hợp nào với các tài liệu tương ứng

giản để tính toán một khả năng phân biệt là đo nó một cách rời rạc:

j i

j

i D r

Trang 12

w j Trong một yêu cầu chính xác hơn, lý thuyết thông tin có thể được áp dụng chophép tính các trọng số Ở đây chúng ta không bàn luận về ý tưởng này.

Với cách tiếp cận này, với một cơ sở dữ liệu sinh vật, trọng số của các chủ đềnhư các động vật, các sinh vật sống, thiên nhiên sẽ thấp vì tất cả các tài liệu đề cậpbằng nhau về các chủ đề này Mặt khác, do có sự pha trộn trong các tờ báo trọng s ốcủa chúng sẽ cao, do nhiều tài liệu trong đó không tương ứng tới những chủ đề này,nhưng vẫn góp phần đề cập đáng kể đến các chủ đề này

2.2.2.2 Phương pháp cây quyết định (Decision tree)

Phương pháp phân lớp văn bản Cây quyết định (decision tree - DT) được

Mitchell đưa ra vào năm 1996 [2] Trên cây gồm các nút trong được gán nhãn bởicác thuật ngữ, các nhánh cây chứa nút được gán nhãn bằng các trọng số của thuậtngữ tương ứng đối với tài liệu mẫu, và các lá cây được gắn nhãn bởi các phân lớp

pháp phân loại như vậy sử dụng biểu diễn văn bản ở dạng nhị phân, và như vậy cáccây cũng được biểu diễn dưới dạng nhị phân Một ví dụ về cây quyết định đượcminh hoạ trong Hình 1

nằm ở chiến lược “chia và trị” [2] Chiến lược này sẽ kiểm tra xem liệu tất cả các

Trang 13

một khái niệm t k , phân chia cây thành các lớp tài liệu có cùng giá trị t k và chèn vàomỗi lớp như vậy một cây con riêng biệt Quá trình đệ quy lặp lại trên các cây concho đến khi mỗi lá của cây phát sinh chứa các khái niệm huấn luyên gán cho cùng

theo lợi ích thông tin hay entropi Tuy nhiên, một cây "quá lớn lên" có thể bị sập,nếu như các nhánh cây quá đặc biệt với dữ liệu huấn luyện

Đa số các phướng pháp dạy cây quyết định như vậy bao gồm một phươngpháp thêm cây và một phương pháp xén bớt cây để loại bỏ những nhánh quá đặcbiệt [2]

2.3 Bài toán thu thập thông tin (Information retrieval - IR)

2.3.1 Khái niệm thu thập thông tin

Thu thập thông tin (Information Retrieval) là một trong những bài toán khaiphá dữ liệu văn bản Bài toán này chủ yếu tập trung vào việc tìm ra các tài liệutrong một tập hợp các tài liệu có sẵn theo một điều kiện nào đó Các điều kiện này

có thể là một truy vấn hay một văn bản

Khi điều kiện đưa vào là một truy vấn, bài toán sẽ đưa ra các suy luận để tìm

ra đặc trưng của câu truy vấn đó, sau đó so sánh với các đặc trưng của các tài liệu

có sẵn để tìm ra các tài liệu phù hợp nhất với câu truy vấn đó Trong bài toán này,

mô hình của bài toán gần với bài toán Search Engine Tuy nhiên, bài toán thu thậpthông tin là bài toán được phát triển ở mức độ cao hơn Đối với bài toán SearchEngine, câu truy vấn đưa vào là tập hợp các niệm Nhưng với bài toán thu thậpthông tin, câu truy vấn đưa vào có thể là một câu văn có ngữ nghĩa Hệ thống sẽ tìmcách phân tích ngữ nghĩa của câu truy vấn để tìm ra đặc trưng của nó

Trang 14

Khi thu thập dữ liệu, chúng ta thường cố gắng tìm kiếm các dữ liệu chính xác.Trong các trường hợp khác, chúng ta kiểm tra để xem một thông tin có trong mộttệp tin hay không Khi thu thập thông tin, kết quả chính xác thường được quan tâm,nhưng thông thường chúng ta muốn tìm kiếm một cách tương đối chính xác với mộtthông tin đặc biệt được đưa vào Sau đó chúng ta sẽ tự chọn thông tin phù hợp nhấttừ các kết quả của phép xử lý trước đó Nếu chúng ta so sánh nó với các kiểu hệthống khác nhau, chúng ta sẽ thấy rằng trong nội dung các truy vấn cơ sở dữ liệu,một phép tìm kiếm thực chất là để làm thoả mãn một truy vấn, là câu hỏi để tìm racâu trả lời (được biết đến với khái niệm trích xuất thông tin) đặc biệt là với một câuhỏi đặc biệt Trong thu thập thông tin, một phép tìm kiếm nhằm tìm ra một tài liệu

mà người dùng đang cần Các hệ thống thu thập thông tin (IR systems) được sửdụng để thu thập các tài liệu liên quan đến các yêu cầu rõ ràng Vấn đề với thu thậpthông tin là việc xử lý các văn bản có nội dung liên quan nội tại đến các văn bảnđược sử dụng trước đó Hình 2 đưa ra một mô hình tương tác thu thập thông tinchuẩn Hiển nhiên, việc thu thập thông tin là quá trình xử lý lặp lại, với xử lý đầuvào và đầu ra bao gồm vòng lặp tính toán lại yêu cầu

Thao tác này chuyển đổi truy vấn theo một chiến lược có sẵn nhằm tăng tínhphù hợp của tài liệu đã nhận được

Thông tin cần thiết

Trang 15

Việc thu thập thông tin có thể được định nghĩa cho bất cứ một loại thông tinnào ví dụ như kiểu văn bản, hình ảnh, âm thanh Tuy nhiên, ở đây chúng ta chỉ đềcập đến việc thu thập văn bản bởi văn bản là một loại thông tin mà phương thứcthực hiện và kỹ thuật xử lý đơn giản hơn Có thể nhấn mạnh rằng các kỹ thuật nàycũng có thể được áp dụng cho thu thập thông tin đa phương tiện.

Các kỹ thuật thu thập thông tin có thể được chia ra thành hai loại:

Nhóm đầu tiên bao gồm các kỹ thuật dựa trên các phương thức thuật toán vàtoán học truyền thống Nhóm thứ hai cố gắng thu thập tri thức bằng các kỹ thuật ápdụng trí tuệ nhân tạo để giành được các kết quả tốt hơn

2.3.2 Các phương pháp thu thập thông tin

Ngày nay, các thông tin đang được phát triển mạnh mẽ về số lượng và chủyếu là từ Internet Internet đã trở thành nơi lưu trữ, quản lý và đặc biệt là nơi thunhận thông tin nhanh chóng và tiện lợi Lợi ích trung tâm là các thông tin thu nhậnđược phù hợp với nhu cầu người dùng Đó là lý do của các nghiên cứu chuyên sâutrong các lĩnh vực như khai phá dữ liệu (DataMining), trích xuất thông tin(Information Extraction), thu thập thông tin (Information Retrieval)

Rất nhiều các phương pháp thu thập thông tin được phát triển và kết quả màchúng đem lại khá tốt Trong đó có rất nhiều phương pháp tồn tại ở dạng chuẩn.Các phương pháp này thường dựa theo các phương pháp toán học cổ điển Một sốphương pháp khác được phát triển theo hướng dựa trí tuệ nhân tạo Sau đây, chúng

ta sẽ tìm hiểu sâu hơn về các phương pháp thu thập thông tin

2.3.2.1 Các phương pháp chuẩn

Phần lớn các kỹ thuật chuẩn được phát triển từ những năm 1960 đến nhữngnăm 1970, và phần lớn trong số chúng dựa trên các thuật toán và công thức toán

học truyền thống Trong bài nghiên cứu này chỉ đề cập đến các mô hình mô hình

Boolean (Boolean model), mô hình không gian vec-tơ (vector space model).

2.3.2.1.1 Mô hình Boolean

Boolean là mô hình nghiên cứu chiến lượng, đơn giản nhất, và được thể hiện

để đưa ra ý tưởng cơ bản cho các chiến lượng xa hơn [4] Hầu hết đồng ý rằng tất cảcác chiến lược nghiên cứu dựa trên việc so sánh giữa câu truy vấn và các tài liệuđược lưu trữ Mô hình Boolean nghiên cứu chiến lược thu thập các tài liệu được gán

truy vấn được biểu diễn bằng một biểu thức logic của các thuật ngữ bao gồm cáctoán tử AND, OR, và NOT

Ví dụ với truy vấn:

Q=(K1 AND (NOT K2)) OR K3

Trang 16

Ở đây phép tìm kiếm Boolean sẽ nhận được tất cả các tài liệu có liên kết vớiK1 nhưng không liên kết với K2 hoặc các tài liệu có liên kết với K3.

Cụ thể hơn, với một câu truy vấn:

Q=(“TextMining” AND ((“Information Retrieval”) AND (NOT

“Categorization”))

Hệ thống sẽ cố gắng tìm ra tất cả các tài liệu thuộc chủ đề “TextMining”, mà

cụ thể hơn là các phương pháp thu thập thông tin chứ không phải là các phươngpháp phân lớp văn bản

2.3.2.1.1.1 Các hàm so sánh

Liên kết giữa truy vấn và tài liệu có thể được hiểu theo nghĩa một hàm so

sánh Các hàm này thường rất đơn giản Một triến lược được sử dụng gọi là chiến

lược đơn giản hoá phép so sánh.

Chiến lược này được sử dụng trong bộ biến đổi của phép tìm kiếm Boolean, ở

đó chỉ có các toán tử logic AND Ý tưởng chính của chiến lược này được đưa ra khixem xét số lượng của các thuật ngữ chung trong câu truy vấn và trong tài liệu Sốnày được gọi là mức đồng sắp xếp và có thể được sử dụng như một hàm so sánh

Ví dụ, các từ khoá K1, K2, K3 được liên kết với các tài liệu D1, D2, D3, D4theo cách sau:

K1 liên kết với D1, D2, D3, D4K2 liên kết vơi D1, D2

K3 liên kết với D2, D3

và Q = K1 AND K2 AND K3Với truy vấn Q, chúng ta sẽ có các mức đồng sắp xếp như sau:

3 D2

2 D1, D3

1 D4

2.3.2.1.2 Tìm kiếm tuần tự

Kỹ thuât tìm kiếm tuần tự là cơ sở của mô hình Boolean Tuy nhiên ngày nay

nó rất thường xuyên được sử dụng mặc dù nó khá chậm Nhưng với bất cứ cáchnào, nó cho thấy cách mà các hàm so sánh được sử dụng [4]

liên quan, chúng ta cần sắp xếp các tài liệu giảm dần của hàm so sánh và bỏ đi tất cả

các tài liệu ứng với hàm so sánh nhỏ hơn một ngưỡng cắt cho trước Ngưỡng này

có thể được định nghĩa như một giá trị hàm so sánh M hoặc là một gí trị so sánh với

một văn bản nào đó Thách thức lớn nhất của kỹ thuật này là tìm được cách chọngiá trị ngưỡng cắt phù hợp

Để thực hiện mô hình tìm kiếm Boolean, chúng ta có thể sử dụng một số kỹthuật hiệu quả Tuy nhiên, các thuật toán đó không được đề cập trong bài nghiêncứu này

Trang 17

2.3.2.1.3 Thực hiện

Mỗi một tài liệu cần được đánh chỉ mục (index) bởi một số thuật ngữ, mỗithuật ngữ này miêu tả nội dung của tài liêu Các thuật ngữ này thường được gọi làcác thuật ngữ đã gắn chỉ mục hay các từ khoá Để việc thu thập được thực hiện

nhanh chóng, chúng ta nên sắp xếp các từ này Các từ khoá được lưu trữ trong tệp

tin chỉ mục, và với mỗi từ khoá thuộc bộ từ vựng sẽ có danh sách các tài liệu chứa

từ khoá này Để thoả mãn một truy vấn, chúng ta sẽ thực hiện tìm kiếm trên file chỉmục này

Kỹ thuật này được sử dụng bởi nhiều hệ thống thương mại với các độ tối ưukhác nhau của tệp tin chỉ mục tìm kiếm (ví dụ B-trees)

Các nhược điểm của kỹ thuật này là:

kích thước ban đầu)

Tuy nhiên, chúng cũng có các ưu điểm riêng:

2.3.2.1.2 Mô hình không gian vec-tơ (Vector space model - VSM)

Mô hình không gian vec-tơ được mở rộng từ mô hình Boolean trong việcthể hiện các thuật ngữ của tài liệu [4] Giống như mô hình Boolean, chúng ta gánnhãn các tài liệu bởi tập các thuật ngữ Nhưng trên thực tế, điểm khác nhau được

ẩn trong việc biểu diễn tài liêu Tài liệu D được biểu diễn bởi một vec-tơ

m-chiều với các thông số ứng với mỗi m-chiều là trọng số ứng với từng thuật ngữ cụ

thể Trong trường hợp này, m là tổng sô thuật ngữ được đinh nghĩa để xác địnhnội dung của tài liệu Trọng số được tính bởi xác suất xuất hiện và độ quan trọngcủa từ khoá

D=(w 1 , w 2 , , w N )

đến bệnh đâu đầu, ta có hai vec-tơ được hinh hoạ trên đồ thị 2-chiều như sau:

Định dạng
Số trang	35
Dung lượng	449,5 KB