xây dựng thử chương trình tách thuật ngữ tiếng việt theo phương pháp cổ điển

Nhữngtri thức tưởng trừng như vô ích trong quá khứ nhưng có thể được phát hiện để sử dụngcho các mục đích sau này.Một số bài toán quan trọng trong Khai phá dữ liệu văn bản hay được

Trang 1

Website: http://www.docs.vn Email : lienhe@docs.vn Tel (: 0918.775.368

MỤC LỤC

MỤC LỤC 1

Website: http://www.docs.vn Email : lienhe@docs.vn Tel (: 0918.775.368 1

BẢNG DANH MỤC HÌNH HOẠ 4

LỜI GIỚI THIỆU 5

I Đặt vấn đề 7

II Cơ sở lý thuyết 8

1 Khái niệm Text Mining 8

a Khai phá dữ liệu (Data Mining) 8

b Khai phá dữ liệu văn bản (Text Mining) 9

2 Bài toán phân loại văn bản (Text categorization) 11

a Khái niệm phân loại văn bản 11

b Các phương pháp phân loại văn bản 12

b.1 Sử dụng từ điển phân cấp chủ đề 12

b.1.1 Giải thuật phân lớp và phân cấp chủ đề 12

b.1.2 Sự phù hợp và sự phân biệt của các trọng số 13

b.2 Phương pháp cây quyết định (Decision tree) 14

3 Bài toán thu thập thông tin (Information retrieval - IR) 15

a Khái niệm thu thập thông tin 15

b Các phương pháp thu thập thông tin 17

b.1 Các phương pháp chuẩn 17

b.1.1 Mô hình Boolean 17

b.1.2 Mô hình không gian vec-tơ (Vector space model - VSM) 19

b.2 Các phương pháp dựa trí tuệ nhân tạo (AI-based method) 22

b.2.1 Kỹ thuật mạng Nơ-ron (Neural network) 23

4 Một số công cụ phân tích văn bản tiếng Anh 27

III Các giải pháp áp dụng cho Vietnamese Text Mining 30

1 Đặc trưng của văn bản tiếng Việt 30

a Các đơn vị của tiếng Việt 30

a.1 Tiếng và đặc điểm của tiếng 30

a.1.1 Tiếng và giá trị ngữ âm 30

a.1.2 Tiếng và giá trị ngữ nghĩa 30

Trang 2

a.1.3 Tiếng và giá trị ngữ pháp 30

a.2 Từ và các đặc điểm của từ 31

a.2.1 Từ là đơn vị nhỏ nhất để đặt câu 31

a.2.2 Từ có nghĩa hoàn chỉnh và cấu tạo ổn định 31

a.3 Câu và các đặc điểm của câu 31

a.3.1 Câu có ý nghĩa hoàn chỉnh 31

a.3.2 Câu có cấu tạo đa dạng 31

b Các phương tiện ngữ pháp của tiếng việt 32

b.1 Trong phạm vi cấu tạo từ 32

b.2 Trong phạm vi cấu tạo câu 32

c Từ tiếng việt 33

c.1 Từ đơn - từ ghép 33

c.2 Từ loại 33

c.3 Dùng từ cấu tạo ngữ 34

d Câu tiếng việt 35

d.1 Câu đơn 35

d.2 Câu ghép 36

d.2.1 Câu ghép song song 36

d.2.2 Câu ghép qua lại 36

d.2.3 Các thành phần câu 36

e Các đặc điểm chính tả và văn bản tiếng Việt 37

2 Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt 37

a Bài toán phân loại văn bản tiếng Việt 37

b Bài toán thu thập thông tin từ văn bản tiếng Việt 38

IV Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển 39

1 Chương trình và bài toán được giải quyết 39

2 Kết quả chạy chương trình 39

TÀI LIỆU THAM KHẢO 40

PHỤ LỤC 41

Các thông tin về báo cáo 41

Cách chạy chương trình demo 41

Trang 3

TỪ ĐIỂN THUẬT NGỮ 42

Trang 4

BẢNG DANH MỤC HÌNH HOẠ

Hình 1: Một ví dụ về cây quyết định

Hình 2 Mô hình thu thập thông tin chuẩn

Hình 3 Đồ thị biểu diễn các vec-tơ của bài báo D 1 và D 2

Hình 4: Đồ thị biểu diễn quan hệ giữa truy vấn (query) và các tài liệu D1, D2Hình 5 Mạng nơ-ron: toán tử AND (a) và toán tử OR (b)

Hình 6 Mạng nơ-ron với lớp ẩn: toán tử NOR

Hình 7: Mô hình biểu diễn mạng nơ-ron

Hình 8: Minh hoạ công cụ TextAnalyst

Hình 9: Minh hoạ công cụ TextAnalyst nhúng trên Internet Explorer

Trang 5

LỜI GIỚI THIỆU

Ngày nay, cơ sở dữ liệu đã trở thành một phần không thể thiếu của xã hội loàingười Trong kỉ nguyên thông tin này, các thông tin được lưu trữ và xử lý hiệu quả hầuhết là thông qua cơ sở dữ liệu Sau gần 50 năm phát triển, cơ sở dữ liệu đã có những bướctiến vô cùng quan trọng trong lịch sử Công nghệ thông tin Từ mô hình Cơ sở dữ liệuquan hệ do E.Codd đề xuất từ những năm 60, các ứng dụng công nghệ thông tin đã thực

sự biến việc lưu trữ dữ liệu trở thành lưu trữ thông tin thông qua các công cụ quản lý và

xử lý cơ sở dữ liệu Ngày nay, nhu cầu lưu trữ và xử lý thông tin có mặt ở khắp mọi nơi

Ở bất cứ một tổ chức nào, với bất kỳ một mô hình hay quy mô nào cũng đều có nhữngnhu cầu về lưu trữ và khai thác thông tin Khái niệm thông tin ở đây bao gồm cả thông tin

về nội tại của tổ chức và thông tin về môi trường và tổ chức hoạt động

Việc nghiên cứu lý thuyết về cơ sở dữ liêu đã trở thành một ngành khoa học ứngdụng Do những tiến bộ vượt bậc trong nghiên cứu lý thuyết cũng như cài đặt thực tế, các

hệ quản trị cơ sở dữ liệu đã trở thành nền tảng, là phần cốt yếu trong hoạt động của các tổchức Nhờ chúng mà các tổ chức hoạt động hiệu quả hơn Việc ứng dụng cơ sở dữ liệu đãgiúp làm giảm rất nhiều công sức lao động của con người và nhờ đó hiệu suất lao độngcủa họ cao hơn Hệ quản trị cơ sở dữ liệu ngày nay không còn đơn thuần chỉ là một cơcấu cho phép lưu trữ số liệu mà còn kèm theo đó là các công cụ, tiện ích hay các phươngpháp luận để chuyển đổi số liệu thành thông tin Tập tất cả các công cụ do người dùngphát triển hoặc do các nhà cung cấp phần mềm tung ra để phục vụ cho mục đích hoạtđộng của tổ chức, được tối ưu theo những yêu cầu nghiệp vụ của tổ chức được gọi là cácứng dụng hỗ trợ xử lý tác nghiệp Cao hơn nữa, khi các nhu cầu sử dụng thông tin ở mứccao cấp hơn để hỗ trợ các nhu cầu phân tích của các nhà lãnh đạo, các nhà lập chiến lượctrong một tổ chức, một loại ứng dụng mới ra đời phục vụ cho các mục đích này với têngọi “hệ phân tích và xử lý trực tuyến” Ở các ứng dụng này, thông tin được lưu trữ, xử lý

và kết xuất theo các mục đích cụ thể dưới dạng hướng chủ đề Nhờ các thông tin ở dạngnày mà các phân tích, các nhà lãnh có thể đưa ra các quyết định hoạt động một cách hiệuquả nhất

Khi các mô hình dữ liệu phát triển ở mức độ cao hơn, các thông tin lưu trữ dướidạng dữ liệu phong phú đa dạng hơn, người ta nhận ra còn rất nhiều tri thức còn tiềm ẩntrong dữ liệu mà các mức phân tích trước đó không phát hiện ra Lý do của vấn đề này làcác phân tích trước đó chỉ mới hướng mục đích cụ thể của con người Các mục đích này

là cố định và các phân tích này hoàn toàn do con người đưa ra trong hoàn cảnh cụ thể.Khi các thông tin phản ánh môi trường thay đổi thì con người không nhận ra để điềuchỉnh các phân tích và đưa ra các phân tích mới Các tri thức đó có thể là hướng kinhdoanh, các dự báo thị trường, cũng có thể là mối quan hệ giữa các trường hay nội dungdữ liệu mà con người không hình dung ra được khi tiến hành mô hình hoá các hệ thống

Vì thế, ngành nghiên cứu về Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery

in Database) ra đời với bài toán Khai phá dữ liệu (DataMining) làm trung tâm nghiêncứu Các tư tưởng nghiên cứu và các thuật toán về Trí tuệ nhân tạo và Hệ chuyên gia đãđược áp dụng và thu được những kết quả rất quan trọng như: cây quyết định, mạng nơ-ron

Hầu hết các thuật toán nghiên cứu cho DataMining là tập trung trên các nguồn sốliệu có cấu trúc (structured data) Nhưng phần lớn thông tin mà chúng ta lưu trữ và trao

Trang 6

đổi hằng ngày lại được lưu trữ dưới các dạng dữ liệu bán cấu trúc (semi-structured data)hoặc phi cấu trúc (non-structured data) Ví dụ như trong các nhà xuất bản, hệ thống cáctrang web trên một website, tập các công văn, giấy tờ, báo cáo, thư tín điện tử trong mộtcông ty Thậm chí ta có thể nhận thấy rằng trong một hệ quản trị cơ sở dữ liệu (nơi mà dữliệu được lưu trữ có cấu trúc) thì dữ liệu kiểu text vẫn chiếm một tỷ lệ cao Do đó mộtvấn đề đặt ra là làm thế nào để có thể tìm kiếm và khai thác tri thức từ nguồn dữ liệu nhưvậy Các kỹ thuật để giải quyết vấn đề này được gọi là kỹ thuật "TextMining" hay Khaiphá dữ liệu văn bản Bài toán Khai phá dữ liệu văn bản không chỉ tập trung vào một haymột nhóm các thông tin được lưu trữ dưới dạng văn bản, vấn đề đặt ra là làm thế nào cóthể Khai phá được các thông tin theo lịch sử, từ quá khứ hướng dự đoán tương lai Nhữngtri thức tưởng trừng như vô ích trong quá khứ nhưng có thể được phát hiện để sử dụngcho các mục đích sau này.

Một số bài toán quan trọng trong Khai phá dữ liệu văn bản hay được xét đến như làcác bài toán “Text Classification”, “Text Sumarization”, và “Text Categorization”.Trên thế giới đã có rất nhiều thành công trong đề tài phân lớp văn bản như cácnghiên cứu của hãng IBM, trong các phòng thí nghiệm ở MIT hay ở các viện nghiên cứucủa các trường đại học ở Mỹ, Pháp, Nhật Bản, Canada Tuy nhiên, các thành công đó chủyếu tập trung vào vấn đề nghiên cứu về các văn bản tiếng Anh, tiếng Pháp Những ngônngữ này là các ngôn ngữ tương đối thuận lợi khi xử lý

Hiện nay, chưa có một công cụ nào được coi là hiệu quả trong lĩnh vực khai phávăn bản tiếng Việt Nền Công nghệ thông tin của nước ta được phát triển hết sức mạnh

mẽ Do nhu cầu hội nhập, nhu cầu phát triển kinh tế, văn hoá, Xã hội ngày càng tăng, cácthông tin được xử lý thông qua văn bản điện tử, qua web, qua email phát triển với tốc độchóng mặt Từ đó, nhu cầu nghiên cứu và xây dựng các công cụ Khai phá dữ liệu văn bảntiếng Việt đang được hết sức coi trọng

Trong đề tài thực tập này, em xin trình bày các nghiên cứu tổng quan của em về

Text Mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân

loại dữ liệu văn bản Mục đích của đề tài là hướng tới phát triển các công cụ phân loại

văn bản tiếng Việt ở các nghiên cứu sau trong đề tài luận văn tốt nghiệp

Em xin chân thành cảm ơn thầy Nguyễn Ngọc Bình đã giúp em rất nhiều trong quátrình hướng dẫn em nghiên cứu về đề tài Em xin cảm ơn anh Lưu Anh Tuấn đã giúp emmột số định hướng trong quá trình nghiên cứu đề tài

Trang 7

I Đặt vấn đề

Như chúng ta đã biết, hầu hết các thông tin được trao đổi hiện nay nằm dưới dạngtài liệu văn bản Các thông tin đó có thể là các bài báo, các tài liệu kinh doanh, các thôngtin kinh tế, các bài nghiên cứu khoa học Dù áp dụng Cơ sở dữ liệu vào trong hoạt độngcủa tổ chức là rất phổ biến và đem lại nhiều lợi ích khi lưu trữ và xử lý, nhưng ta khôngthể quên được rằng còn rất nhiều dạng thông tin khác được lưu trữ dưới dạng văn bản.Thậm chí ngay cả trong các thông tin được lưu trong các cơ sở dữ liệu thì phần lớn trong

số chúng cũng được tổ chức dưới dạng văn bản Hiện nay, các tổ chức đã áp dụng côngnghệ thông tin vào quản lý hệ thống công văn giấy tờ, ví dụ các hệ thống sử dụng LotusNode Tuy nhiên đó chỉ thực sự là cách quản lý luồng dữ liệu văn bản, cung cấp các công

cụ kho chứa, còn dữ liệu vẫn thực sự nằm dưới dạng văn bản Chúng ta chưa có các giảithuật phân loại, tìm kiếm tài liệu, các công cụ trích lọc thông tin nhằm mục đích thống kê,phát hiện tri thức, ra quyết định trực tiếp trên các nguồn dữ liệu kiểu này

Với thực tế đó, vấn đề đặt ra là làm thế nào chúng ta có thể khai thác được nhữngthông tin hữu ích từ các nguồn tài liệu văn bản nói chung Các nguồn dữ liệu này phảiđược xử lý như thế nào để người dùng có thể có những công cụ tự động hoá trợ giúptrong việc phát hiện tri thức và khai thác thông tin Rõ ràng, chúng ta phải hiểu rõ bảnchất của dữ liệu văn bản, hiểu rõ các đặc trưng của các dữ liệu loại này để có thể có đượcnhững phương pháp luận cần thiết

Việc khai thác thông tin từ các nguồn dữ liệu văn bản trong các tổ chức Việt Namchắc chắn phải dựa vào những kết quả nghiên cứu về văn bản nói chung, về dữ liệu vănbản và các kỹ thuật xử lý đã được phát triển trên thế giới Tuy nhiên, những văn bản tiếngViệt lại có những đặc trưng riêng của nó Ta có thể nhận thấy được ngay sự khác biệt vềmặt kí pháp, cú pháp và ngữ pháp tiếng Việt trong các văn bản so với các ngôn ngữ phổbiến trên thế giới như tiếng Anh, tiếng Pháp Vậy thì những đặc trưng này ảnh hưởng thếnào đến các kỹ thuật khai phá dữ liệu văn bản, ta cần phải có những ký thuật mới nào đểcó thể tận dụng được những ưu thế của tiếng Việt cũng như giải quyết được những phứctạp trong tiếng Việt

Để trả lời được những câu hỏi này, đồ án sẽ đi từ những bước nghiên cứu về Khaiphá dữ liệu văn bản, tìm hiểu những đặc trưng của tiếng Việt, từ đó đề ra phương hướnggiúp giải quyết bài toán phân loại văn bản tiếng Việt phức tạp ở các nghiên cứu cao hơn.Các kết quả của nghiên cứu trong đề tài thực tập này sẽ là nhưng bước tiến đầu tiên cho

luận văn tốt nghiệp của em với đề tài “Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp.”

Trang 8

II Cơ sở lý thuyết

1 Khái niệm Text Mining

a Khai phá dữ liệu (Data Mining)

Việc sử dụng cơ sở dữ liệu vào hoạt động của một tổ chức đã được phát triển trongvòng 60 năm trở lại đây Với dữ liệu được thu thập trong suốt quá trình hoạt động củamột tổ chức, một nhu cầu được đặt ra là tìm kiếm và khai thác tri thức từ những dữ liệuđó Đó chính là xuất phát điểm của bài toán Phát hiện tri thức từ cơ sở dữ liệu Người tanhận thấy rằng có rất nhiều tri thức mà chúng ta không lường trước đang còn tiềm ẩntrong dữ liệu, nhiệm vụ của chúng ta là phát hiện, khám phá các tri thức đó, phục vụ chonhững nhu cầu sử dụng thông tin cao hơn, ví dụ như trong các hệ chuyên gia hay hệ hỗtrợ quyết định

Khai phá dữ liệu là giai đoạn chủ yếu của quá trình Phát hiện tri thức từ cơ sở dữliệu Quá trình khai phá tri thức được thực hiện sau các quá trình thu thập và tinh lọc dữliệu, có nghĩa là chỉ tìm các mẫu tri thức (pattern) có ý nghĩa trên tập dữ liệu có hy vọngchứ không phải là trên toàn bộ CSDL như các phương pháp thống kê trước đây

Vì vậy khai phá dữ liệu bao gồm việc thử tìm mô hình phù hợp với dữ liệu và

tìm kiếm các mẫu hình tri thức từ dữ liệu theo mô hình đo Mặc dù mẫu hình có thể

tìm được từ bất kì một CSDL nào nhưng chỉ những mẫu phù hợp với mục đích tìm kiếm

mới được gọi là tri thức Ta sẽ có những hàm số để đánh giá các tiêu chí mẫu như mới, co

lợi, đáng được xem xét.

Độ mới của mẫu hình phụ thuộc vào khung phạm vi quy chiếu, có thể đối với hệthống hoặc đối với người dùng Ví dụ với dữ liệu của một công ty, quá trình Khai phá dữliệu tìm ra được một luật như Lợi tức thu được giảm vào mùa thu ở vùng phía Bắc, đốivới hệ thống thì rất mới, trước kia chưa hề có nhưng bất cứ một cán bộ lập kế hoạch nàocũng nhận ra được điều này qua các báo cáo tài chính

Tính hữu dụng của mẫu có thể đo được qua sự liên quan đến mục đích tìm kiếm.Với một cán bộ phụ trách bảo trì máy tính ở công ty thì luật trên không có giá trị, mặc dù

là mới đối với anh ta

Có thể qua công đoạn khai phá tri thức có rất nhiều mẫu được lấy ra nhưng khôngphải mẫu nào cũng có giá trị, có thể là mới, hữu ích nhưng lại tầm thường, đặc biệt là khi

áp dụng các kỹ thuật dựa trên thống kê Do đó luôn phải có các tiêu chí và các hàm đánhcác mẫu đáng xem xét, không tầm thường

Tóm lại, Khai phá dữ liệu thực ra có thể coi là một quá trình xác định mẫu từ cácDatawarehouse, sử dụng các kỹ thuật sẵn có như học máy, nhận dạng, thống kê, phânoại và các kỹ thuật được phát triển bởi ngành nghiên cứu trí tuệ nhân tạo như Mạng nơ-

Trang 9

ron nhân tạo (neutral network), các thuật toán di truyền (generic algorithm), quy nạp luậtrule reduction)

Ta có thể xét đến một số bài toán chính đối với nghiên cứu về Khai phá dữ liệu

- Bài toán phân lớp (classification): Tìm một ánh xạ (phân loại) từ một mẫu dữ

liệu vào một trong các lớp cho trước

- Bài toán hồi quy (regression): Tìm một ánh xạ hồi quy từ một mẫu dữ liệu vào

một biến dự đoán có giá trị thực

- Bài toán lập nhóm ( clustering): Là việc mô tả chung để tìm ra các tập xác định

hữu hạn các nhóm hay các loại để mô tả dữ liệu

- Bài toán tổng kết (summarization): Là việc đi tìm kiếm một mô tả chung tóm tắt

cho một tập con dữ liệu

b Khai phá dữ liệu văn bản (Text Mining)

Khai phá dữ liệu văn bản hay phát hiện tri thức từ các cơ sở dữ liệu văn bản (textualdatabases) đề cập đến tiến trình trích lọc các mẫu hình thông tin (pattern) hay tri thức(knowledge) đáng quan tâm hoặc có giá trị (non-trivial) từ các tài liệu văn bản phi cấutrúc Quá trình này có thể được coi là việc mở rộng kỹ thuật Khai phá dữ liệu truyềnthống, vì như ch úng ta đã thấy (đã được đề cập ở trên) kỹ thuật Khai phá dữ liệu truyềnthống (DataMining) hướng tới việc phát hiện tri thức từ các cơ sở dữ liệu có cấu trúc.Thông tin được lưu trữ dưới dạng nguyên sơ nhất chính là văn bản Thậm chí ta cóthể thấy rằng dữ liệu tồn tại dưới dạng văn bản còn có khối lượng lớn hơn rất nhiều sovới các dữ liệu có cấu trúc khác Thực tế, những nghiên cứu gần đây đã cho thấy rằng cóđến 80% thông tin của một tổ chức nằm dưới dạng văn bản Đó có thể là các công văngiấy tờ, các biểu mẫu điều tra, các phiếu đặt hàng, các yêu cầu khiếu nại, giải quyếtquyền lợi, các thư tín điện tử (email), các thông tin trên các website thương mại Khicác nghiên cứu về cơ sở dữ liệu ra đời vào những năm 60, người ta tưởng rằng có thể lưumọi loại thông tin dưới dạng dữ liệu có cấu trúc Nhưng trên thực tế sau gần 50 năm pháttriển, người ta vẫn dùng các hệ thống lưu trữ ở dạng văn bản và thậm trí còn có xu hướngdùng thường xuyên hơn Từ đó người ta có thể tin rằng các sản phẩm Khai phá dữ liệuvăn bản có thể có giá trị thương mại cao hơn rất nhiều lần so với các sản phẩm Khai phádữ liệu truyền thống khác Tuy nhiên ta cũng có thể thấy ngay rằng các kỹ thuật Khai phádữ liệu văn bản phức tạp hơn nhiều so với các kỹ thuật Khai phá dữ liệu truyền thống bởi

vì phải thực hiện trên dữ liệu văn bản vốn đã ở dạng phi cấu trúc và có tính mờ (fuzzy) Một ví dụ cho bài toán khai phá dữ liệu văn bản, khi phân tích các bài báo nghiêncứu khoa học, ta có các thông tin sau:

- “stress là một bệnh liên quan đến đau đầu”

- “stress xuất hiện có thể do thiếu Magê trong máu”

- “Canxi có thể ngăn cản một số chứng đau đầu”

- “Magê là một nguyên tố điều hoà canxi tự nhiên trong máu”

Trang 10

Sau khi phân tích các thông tin quan trọng này, hệ thống cần phải đưa ra các suyluân cụ thể mang tính cách mạng:

- “Thiếu hụt Magê có thể gây ra một số bệnh đau đầu”

Rõ ràng ở đây có sự phân tích suy luận ở mức độ cao Để đạt được khà năng nhưvậy cần phải có những công trình nghiên cứu về trí tuệ nhân tạo tiên tiến hơn

Bài toán Khai phá dữ liệu văn bản là một bài toán nghiên cứu đa lĩnh vực, bao gồmrất nhiều kỹ thuật cũng như các hướng nghiên cứu khác nhau: thu thập thông tin(information retrieval), phân tích văn bản (text analysis), chiết xuất thông tin (informationextraction), lập đoạn (clustering), phân loại văn bản (categorization), hiển thị trực quan(visualization), công nghệ cơ sở dữ liệu, học máy (machine learning) và bản thân các kỹthuật Khai phá dữ liệu

Trong đề tài này em chủ yếu đề cập đến hai bài toán cụ thể, đó là bài toán phân loại

dữ liệu văn bản (Text categorization) và bài toán thu thập thông tin (information

retrieval) Các nghiên cứu mới chỉ dừng lại ở bước tìm hiểu, khảo sát, so sánh là tiền đềcho các nghiên cứu cụ thể sau này mà mục đích trước mắt là phục vụ cho luận văn tốtnghiệp

Với một hệ thống Khai phá văn bản thường bao gồm ba bước chính:

- Bước tiền xử lý: Ở bước này, hệ thống sẽ chuyển văn bản từ dạng phi cấu

trúc về dạng có cấu trúc Ví dụ, với văn bản Tổ chức này to lắm, hệ thống

sẽ cố gắng phân tích thành Tổ chức|này|to|lắm Các từ được lưu riêng rẽ

một cách có cấu trúc để tiện cho việc xử lý

- Loại bỏ các thông tin không cần thiết Ở bước này, bộ phân tích tìm cáchloại bỏ các thông tin vô ích từ văn bản Bước này phụ thuộc rất nhiều vàongôn ngữ đang được phân tích và kỹ thuật sẽ được dùng để phân tích ỏbước tiếp theo Ví dụ, nếu kỹ thuật phân tích văn bản chỉ dựa vào xác xuất

xuất hiện từ khoá, khi đó ta có thể loại bỏ các từ phụ như: nếu, thì, thế

nhưng, như vậy…

- Khai phá dữ liệu đã được giản lược với các kỹ thuật khai phá dữ liệu (datamining) truyền thống

Có rất nhiều kỹ thuật và phương pháp tốt được sử dụng cho Text Mining để tìm racác kiến trúc mới, các mẫu mới, và các liên kết mới Các bước tiền xử lý là các kỹ thuậtrất phức tạp nhằm phân tích một phân lớp đặc biệt thành các thuộc tính đặc biệt, sau đótiến hành áp dụng các phương pháp khai phá dữ liệu kinh điển tức là phân tích thống kê

và phân tích các liên kết Các bước còn lại sẽ khai phá cả văn bản đầy đủ từ tập các vănbản, ví dụ như phân lớp văn bản

Mục tiêu cuối cùng của Text Mining thường là đường lối hiệu quả, hoàn thiện, vàđặc trưng để trình diễn và tìm kiếm các tập hợp rộng lớn của các văn bản Do đó, các kỹthuật chính của Text Mining có thể được phân phân ra thành các nhiệm vụ mà chúng thựchiện khi xử lý khai phá văn bản: loại thông tin mà chúng có thể trích ra và loại phân tíchđược thực hiện bởi chúng

Trang 11

Các loại thông tin được trích ra có thể là:

tác khai phá tri thức được thực hiện trên các nhãn của mỗi văn bản Nóichung, có thể giả sử rằng các nhãn tương ứng với các từ khoá, mỗi một từkhoá có quan hệ với một chủ đề cụ thể nào đó

hiện trong văn bản đó

thuộc về một lĩnh vực nào đó và do đó việc tìm khai phá văn bản đượcthực hiện trên các khai niệm được gán nhãn cho mỗi văn bản Ưu điểmcủa phương pháp này là các thuật ngữ được tách ra ít và có xu hướng tậptrung vào các thông tin quan trọng của văn bản hơn hai phương pháp trướcđây

Các loại kết hợp:

nguyên mẫu được tạo lập chú dân để trợ giúp cho các kỹ thuật xử lý ngônngữ tự nhiên Các cấu trúc có chú dẫn trên thực tế có thể được sử dụngnhư một cơ sở cho việc xử lý khai phá tri thức

lấy ra từ một phân cấp các thuật ngữ Sau đó, một hệ thống sẽ phân tích sựphân bố nội dung của các thuật ngữ hậu duệ của từng thuật ngữ liện quanđến các hậu duệ khác do các phân bố liên kết và các phép đo khác nhằmkhai thác các quan hệ mới giữa chúng Loại liên kết này có thể cũng được

sử dụng để lọc và tổng hợp chủ đề của các tin tức

thực hiện thao tác mù quáng trên các chú dẫn của văn bản, kỹ thuật này sửdụng lợi thế của nội dụng nguyên mẫu của các văn bản Kỹ thuật này đượcgọi là “trích văn bản nguyên mẫu”

2 Bài toán phân loại văn bản (Text categorization)

a Khái niệm phân loại văn bản

Phân loại văn bản (Text categorization) là xử lý nhóm các tài liệu thành các lớpkhác nhau hay các phân nhóm (categories) Đây là một tác vụ phân lớp liên quan đến việc

ra quyết định xử lý Với mỗi xử lý phân nhóm, khi đưa ra một tài liệu, một quyết địnhđược đưa ra nó có thuộc một lớp nào hay không Nếu nó thuộc một phân lớp nào đó thìphải chỉ ra phân lớp mà nó thuộc vào Ví dụ, đưa ra một chủ đề về thể thao, cần phải đưa

ra quyết định rằng chủ đề đó thuộc các phân lớp cờ vua, quần vợtt, cầu lông, bơi lội hay

bất cứ một môn thể thao nào khác Các hệ thống phân loại văn bản thường làm việc với

một thuật toán tự học (learning algorithm) Thuật toán đó được cung cấp một tập mẫu để

phục vụ cho việc dạy học Tập mẫu này bao gồm một tập các thực thể có gán nhãn đượcphân lớp trước có dạng (x, y) ở đó x là thực thể được phân lớp, y là nhãn (hay phân lớp)được gán cho nó Với cơ cấu cơ sở như vậy, khi một thực thể được cung cấp cho hệthống, nó sẽ cố gắng suy ra một hàm toán học từ tập đào tạo mẫu và ánh xạ thực thể mới

Trang 12

đó vào một phân lớp Phân lớp văn bản là bài toán hay và đang có những bước phát triểnhết sức quan trọng mà nguyên nhân chủ yếu do sự phát triển mạnh mẽ gần đây của cácthông tin nguyên trực tuyến.

b Các phương pháp phân loại văn bản

b.1 Sử dụng từ điển phân cấp chủ đề

Một phương pháp thống kê phân lớp văn bản được điều khiển bởi một từ điển chủ

đề có phân cấp được đề xuất Phương pháp này sử dụng một từ điển với một cấu trúc đơngiản Từ điển này có thể dạy được dễ dàng trên một tập hợp tài liệu được phân lớp bằngtay và có thể dịch được tự động sang nhiều ngôn ngữ khác nhau

Chúng ta xem xét nhiệm vụ phân loại văn bản bởi chủ đề của tài liệu: ví dụ, một sốtài liệu về những động vật, và một số khác nói về vấn đề công nghiệp Chúng ta giả sửrằng danh sách chủ đề là lớn nhưng cố định Giải thuật của chúng ta không thu đượcnhững chủ đề từ thân của tài liệu nhưng thay vào đó, nó liên hệ tài liệu với một trongnhững chủ đề được liệt kê trong từ điển hệ thống Kết quả là phép đo (về phần trăm) sựtương ứng của tài liệu với mỗi từngchủ đề có sẵn

Có một vấn về xuất hiện là độ tối ưu, hay độ hợp lý, độ chi tiết cho phân loại nhưvậy Ví dụ, khi phân loại tin tức trên internet với một người đọc “bình thường”, nhữngphân loại như các loài động vật hoặc nghành công nghiệp thì khá phù hợp, trong khi phânlớp các chủ đề về động vật học giống như một cuốn từ điển như vậy sẽ đưa ra một câutrả lời chung chung rằng tất cả các chủ đề đó đều nói về động vật Hay nói cách khác, vớimột người đọc tin tức trên internet bình thường, thật không thích hợp dùng để phân loạinhững tài liệu với những chủ đề chi tiết hơn như những động vật có vú, động vật cóxương sống, động vật thân nhiệt

Trong bài nghiên cứu này, chúng ta sẽ bàn luận về cấu trúc của từ điển chủ đề, cáchchọn lựa và cách sử dụng các trọng số của các nút riêng lẻ trong phân cấp, và một số khíathực tế về việc biên soạn điển chủ đề

b.1.1 Giải thuật phân lớp và phân cấp chủ đê

Trong bài nghiên cứu của các tác giả Guzmán và Arenas vào năm 1997 và 1998,hai ông đề xuất việc sử dụng một từ điển có phân cấp để xác định những đề tài chính củamột tài liệu [1] Về mặt kỹ thuật, từ điển bao gồm hai phần: các nhóm từ khóa đại diệncho các chủ đề riêng biệt, và một biểu diễn phân cấp của các chủ đề này

Một nhóm từ khóa là một danh sách các từ hoặc các biểu thức liên quan đến tìnhtrạng tham chiếu bởi tên của chủ đề Ví dụ, chủ đề tôn giáo liệt kê các từ như nhà thờ,thầy tu, nến, kinh thánh, cầu nguyện, người hành hương,…Chú ý rằng những từ nàykhông được liên kết với đầu mục tôn giáo hay liên kết với nhau bởi bất kỳ quan hệ ngữnghĩa tiêu chuẩn nào như kiểu con, phần,…

Cây chủ đề được tổ chức thành một phân cấp, hay nói chung là tổ chức thành mộtmạng (khi đó một số chủ đề có thể thuộc một vài nút của cây phân cấp)

Giải thuật tìm kiếm chủ đề trên từ điển cũng gồm có hai phần : tìm kiếm chủ đề đơn(chủ đề lá) và sự truyền lan trọng số của chủ đề trên cây Thực tế, nó trả lời, cho câu hỏisau: tới mức độ nào thì tài liệu này sẽ phù với chủ đề đã cho? Một câu hỏi như vậy được

Trang 13

trả lời cho mỗi chủ đề riêng biệt Trong trường hợp đơn giản nhất, trọng số của một chủ

đề là số (tần suất) các từ tương ứng, trong danh sách từ, được tìm thấy trong tài liệu [1].Phần thứ hai của giải thuật có trách nhiệm lan truyền các tần suất tìm thấy trên cây[1] Với phần giải thuật này, chúng ta có thể chỉ ra rằng một tài liệu đề cập đến chủ vềnhững động vật có vú, những động vật thân mềm, những động vật giáp sát ở nút lá, phùhợp với chủ đề về những động vật, các sinh vật sống và tự nhiên không ở nút lá

b.1.2 Sự phù hợp và sự phân biệt của các trọng số

Thay vì các danh sách từ đơn giản, một số trọng số có thể được sử dụng bởi giảithuật để định nghĩa (1) phép đo định lượng sự phù hợp của các từ với các chủ đề và (2)

đo mức quan trọng của các nút của thuộc cây phân cấp [1]

Loại trọng số đầu tiên, chúng ta gọi là các trọng số sự phù hợp, có liên hệ với cácliên kết giữa các từ và các chủ đề và các liên kết giữa các nút trên cây Ví dụ, nếu tài liệu

đề cập đến từ “bộ chế hòa khí” thì nó đang nói về ô tô Làm sao phù hợp hoá từ “bộ chế

hòa khí” hoặc “bánh lái” cho những chủ đề về ô tô, độ mạnh trong các quan hệ này như

thế nào? Về trực giác, đóng góp của từ “bộ chế hòa khí” vào chủ đề ô tô lớn hơn sự đóng góp của từ “bánh lái”; như vậy, mối liên kết giữa “bánh lái” và chủ đề ô tô được gán

một trọng số nhỏ hơn

Có thể thấy rằng, trọng số i

k

w của một liên kết như vậy (giữa một từ k và một chủ

đề j, hay giữa một chủ đề k và chủ đề cha j của nó trên cây) có thể được định nghĩa như

độ phù hợp trung bình cho chủ đề của những tài liệu được đưa ra chứa từ này:

phép đo sự phù hợp của tài liệu i với chủ đề j, và n là số lần xuất hiện của từ hay chủ đề i k

k trong tài liệu i

Không may, chúng ta không thành thạo bất cứ giải thuật đáng tin cậy nào để tìm raphép đo độ phù hợp r của các tài liệu cho các lĩnh vực một cách độc lập Thay vào đó, i j

một phép đo như vậy được đánh giá bằng tay bởi chuyên gia, và sau đó hệ thống đượchuấn luyện trên hợp các tài liệu Các chuyên gia có thể phải thường xuyên gán nhữngtrọng số thích hợp bằng tay cho các tài liệu

Cả hai cách tiếp cận này yêu cầu rằng được làm băng tay Để tránh điều đó, với mộtphép toán gần đúng, với những đề tài đủ hẹp, có thể giả thiết rằng những văn bản trên vềchủ đề này gần như không bao giờ xuất hiện trong những văn bản thông thường Khi đóbiểu thức của các trọng số có thể được đơn giản hóa: ∑

∈

=

D i

k i

j k

cơ sở dữ liệu thì chúng là vô ích vì chúng không cho phép đưa ra bất kỳ kết luận phù hợpnào với các tài liệu tương ứng

Trang 14

Như vậy, trọng số w của một nút j trên cây có thể được đánh giá như độ biến đổi j

của độ phù hợp w j chủ đề qua những tài liệu trong cơ sở dữ liệu Một cách đơn giản đểtính toán một khả năng phân biệt là đo nó một cách rời rạc: ∑

∈

−

=

D i

j i

Với cách tiếp cận này, với một cơ sở dữ liệu sinh vật, trọng số của các chủ đề nhưcác động vật, các sinh vật sống, thiên nhiên sẽ thấp vì tất cả các tài liệu đề cập bằng nhau

về các chủ đề này Mặt khác, do có sự pha trộn trong các tờ báo trọng số của chúng sẽcao, do nhiều tài liệu trong đó không tương ứng tới những chủ đề này, nhưng vẫn gópphần đề cập đáng kể đến các chủ đề này

b.2 Phương pháp cây quyết định (Decision tree)

Phương pháp phân lớp văn bản Cây quyết định (decision tree - DT) được Mitchell

đưa ra vào năm 1996 [2] Trên cây gồm các nút trong được gán nhãn bởi các thuật ngữ,các nhánh cây chứa nút được gán nhãn bằng các trọng số của thuật ngữ tương ứng đối vớitài liệu mẫu, và các lá cây được gắn nhãn bởi các phân lớp Một hệ thống phân lớp như

vậy sẽ phân loại một tài liệu d j bởi phép thử đệ quy các trọng số mà các thuật ngữ đượcgán nhãn cho các nút trong với vec-tơ d cho đến khi với tới một nút lá Khi đó, nhãn→j

của nút này được gán cho d j Đa số các phướng pháp phân loại như vậy sử dụng biểu diễn

lúa mìlúa mì

Trang 15

văn bản ở dạng nhị phân, và như vậy các cây cũng được biểu diễn dưới dạng nhị phân.Một ví dụ về cây quyết định được minh hoạ trong Hình 1

Một phương pháp khả thi dùng để huấn luyện một cây quyết định phân loại c i nằm

ở chiến lược “chia và trị” [2] Chiến lược này sẽ kiểm tra xem liệu tất cả các khái niệm

huấn luyện có cùng nhãn với nó (hoặc c hoặc i c ); nếu không, lựa chọn một khái niệm→i

t k , phân chia cây thành các lớp tài liệu có cùng giá trị t k và chèn vào mỗi lớp như vậy mộtcây con riêng biệt Quá trình đệ quy lặp lại trên các cây con cho đến khi mỗi lá của cây

phát sinh chứa các khái niệm huấn luyên gán cho cùng phạm trù c i, khi đó nó được chọn

như là nhãn của lá đó Bước quyết định là việc chọn thuật ngữ t k ở đó sẽ xảy ra thao tác

chia, một phương pháp lựa chọn là chọn theo lợi ích thông tin hay entropi Tuy nhiên,

một cây "quá lớn lên" có thể bị sập, nếu như các nhánh cây quá đặc biệt với dữ liệu huấnluyện

Đa số các phướng pháp dạy cây quyết định như vậy bao gồm một phương phápthêm cây và một phương pháp xén bớt cây để loại bỏ những nhánh quá đặc biệt [2]

3 Bài toán thu thập thông tin (Information retrieval - IR)

a Khái niệm thu thập thông tin

Thu thập thông tin (Information Retrieval) là một trong những bài toán khai phá dữliệu văn bản Bài toán này chủ yếu tập trung vào việc tìm ra các tài liệu trong một tập hợpcác tài liệu có sẵn theo một điều kiện nào đó Các điều kiện này có thể là một truy vấnhay một văn bản

Khi điều kiện đưa vào là một truy vấn, bài toán sẽ đưa ra các suy luận để tìm ra đặctrưng của câu truy vấn đó, sau đó so sánh với các đặc trưng của các tài liệu có sẵn để tìm

ra các tài liệu phù hợp nhất với câu truy vấn đó Trong bài toán này, mô hình của bài toángần với bài toán Search Engine Tuy nhiên, bài toán thu thập thông tin là bài toán đượcphát triển ở mức độ cao hơn Đối với bài toán Search Engine, câu truy vấn đưa vào là tậphợp các niệm Nhưng với bài toán thu thập thông tin, câu truy vấn đưa vào có thể là mộtcâu văn có ngữ nghĩa Hệ thống sẽ tìm cách phân tích ngữ nghĩa của câu truy vấn để tìm

ra đặc trưng của nó

Trang 16

Khi thu thập dữ liệu, chúng ta thường cố gắng tìm kiếm các dữ liệu chính xác.Trong các trường hợp khác, chúng ta kiểm tra để xem một thông tin có trong một tệp tinhay không Khi thu thập thông tin, kết quả chính xác thường được quan tâm, nhưng thôngthường chúng ta muốn tìm kiếm một cách tương đối chính xác với một thông tin đặc biệtđược đưa vào Sau đó chúng ta sẽ tự chọn thông tin phù hợp nhất từ các kết quả của phép

xử lý trước đó Nếu chúng ta so sánh nó với các kiểu hệ thống khác nhau, chúng ta sẽthấy rằng trong nội dung các truy vấn cơ sở dữ liệu, một phép tìm kiếm thực chất là đểlàm thoả mãn một truy vấn, là câu hỏi để tìm ra câu trả lời (được biết đến với khái niệmtrích xuất thông tin) đặc biệt là với một câu hỏi đặc biệt Trong thu thập thông tin, mộtphép tìm kiếm nhằm tìm ra một tài liệu mà người dùng đang cần Các hệ thống thu thậpthông tin (IR systems) được sử dụng để thu thập các tài liệu liên quan đến các yêu cầu rõràng Vấn đề với thu thập thông tin là việc xử lý các văn bản có nội dung liên quan nội tạiđến các văn bản được sử dụng trước đó Hình 2 đưa ra một mô hình tương tác thu thậpthông tin chuẩn Hiển nhiên, việc thu thập thông tin là quá trình xử lý lặp lại, với xử lýđầu vào và đầu ra bao gồm vòng lặp tính toán lại yêu cầu

Thao tác này chuyển đổi truy vấn theo một chiến lược có sẵn nhằm tăng tính phùhợp của tài liệu đã nhận được

Việc thu thập thông tin có thể được định nghĩa cho bất cứ một loại thông tin nào ví

dụ như kiểu văn bản, hình ảnh, âm thanh Tuy nhiên, ở đây chúng ta chỉ đề cập đến việc

Thông tin cần thiết

Trang 17

thu thập văn bản bởi văn bản là một loại thông tin mà phương thức thực hiện và kỹ thuật

xử lý đơn giản hơn Có thể nhấn mạnh rằng các kỹ thuật này cũng có thể được áp dụngcho thu thập thông tin đa phương tiện

Các kỹ thuật thu thập thông tin có thể được chia ra thành hai loại:

- Các kỹ thuật chuẩn

- Các kỹ thuật có áp dụng trí tuệ nhân tạo

Nhóm đầu tiên bao gồm các kỹ thuật dựa trên các phương thức thuật toán và toánhọc truyền thống Nhóm thứ hai cố gắng thu thập tri thức bằng các kỹ thuật áp dụng trítuệ nhân tạo để giành được các kết quả tốt hơn

b Các phương pháp thu thập thông tin

Ngày nay, các thông tin đang được phát triển mạnh mẽ về số lượng và chủ yếu là từInternet Internet đã trở thành nơi lưu trữ, quản lý và đặc biệt là nơi thu nhận thông tinnhanh chóng và tiện lợi Lợi ích trung tâm là các thông tin thu nhận được phù hợp vớinhu cầu người dùng Đó là lý do của các nghiên cứu chuyên sâu trong các lĩnh vực nhưkhai phá dữ liệu (DataMining), trích xuất thông tin (Information Extraction), thu thậpthông tin (Information Retrieval)

Rất nhiều các phương pháp thu thập thông tin được phát triển và kết quả mà chúngđem lại khá tốt Trong đó có rất nhiều phương pháp tồn tại ở dạng chuẩn Các phươngpháp này thường dựa theo các phương pháp toán học cổ điển Một số phương pháp khácđược phát triển theo hướng dựa trí tuệ nhân tạo Sau đây, chúng ta sẽ tìm hiểu sâu hơn vềcác phương pháp thu thập thông tin

b.1 Các phương pháp chuẩn

Phần lớn các kỹ thuật chuẩn được phát triển từ những năm 1960 đến những năm

1970, và phần lớn trong số chúng dựa trên các thuật toán và công thức toán học truyền

thống Trong bài nghiên cứu này chỉ đề cập đến các mô hình mô hình Boolean (Boolean

model), mô hình không gian vec-tơ (vector space model).

b.1.1 Mô hình Boolean

Boolean là mô hình nghiên cứu chiến lượng, đơn giản nhất, và được thể hiện để đưa

ra ý tưởng cơ bản cho các chiến lượng xa hơn [4] Hầu hết đồng ý rằng tất cả các chiếnlược nghiên cứu dựa trên việc so sánh giữa câu truy vấn và các tài liệu được lưu trữ Mô

hình Boolean nghiên cứu chiến lược thu thập các tài liệu được gán giá trị “true” ứng với

truy vấn đó Giả sử tài liệu dj được biểu diễn thành tập các thuật ngữ d j ={t1,t2, ,t k}, ở

đó ti là một thuật ngữ xuất hiện trong tài liệu d j Một truy vấn được biểu diễn bằng mộtbiểu thức logic của các thuật ngữ bao gồm các toán tử AND, OR, và NOT

Trang 18

Q=(“TextMining” AND ((“Information Retrieval”) AND (NOT “Categorization”))

Hệ thống sẽ cố gắng tìm ra tất cả các tài liệu thuộc chủ đề “TextMining”, mà cụ thể

hơn là các phương pháp thu thập thông tin chứ không phải là các phương pháp phân lớpvăn bản

b.1.1.1 Các hàm so sánh

Liên kết giữa truy vấn và tài liệu có thể được hiểu theo nghĩa một hàm so sánh Các

hàm này thường rất đơn giản Một triến lược được sử dụng gọi là chiến lược đơn giản

Đưa ra một tập các tài liệu và một truy vấn {D1,D2, ,D N} và một truy vấn Q,

chúng ta đi tính N giá trị của hàm so sánh M(Q,D i ) Để nhận được các tài liệu liên quan,

chúng ta cần sắp xếp các tài liệu giảm dần của hàm so sánh và bỏ đi tất cả các tài liệu ứng

với hàm so sánh nhỏ hơn một ngưỡng cắt cho trước Ngưỡng này có thể được định nghĩa như một giá trị hàm so sánh M hoặc là một gí trị so sánh với một văn bản nào đó Thách

thức lớn nhất của kỹ thuật này là tìm được cách chọn giá trị ngưỡng cắt phù hợp

Để thực hiện mô hình tìm kiếm Boolean, chúng ta có thể sử dụng một số kỹ thuậthiệu quả Tuy nhiên, các thuật toán đó không được đề cập trong bài nghiên cứu này

b.1.1.3 Thực hiện

Mỗi một tài liệu cần được đánh chỉ mục (index) bởi một số thuật ngữ, mỗi thuậtngữ này miêu tả nội dung của tài liêu Các thuật ngữ này thường được gọi là các thuậtngữ đã gắn chỉ mục hay các từ khoá Để việc thu thập được thực hiện nhanh chóng,

chúng ta nên sắp xếp các từ này Các từ khoá được lưu trữ trong tệp tin chỉ mục, và với

Trang 19

mỗi từ khoá thuộc bộ từ vựng sẽ có danh sách các tài liệu chứa từ khoá này Để thoả mãnmột truy vấn, chúng ta sẽ thực hiện tìm kiếm trên file chỉ mục này.

Kỹ thuật này được sử dụng bởi nhiều hệ thống thương mại với các độ tối ưu khácnhau của tệp tin chỉ mục tìm kiếm (ví dụ B-trees)

Các nhược điểm của kỹ thuật này là:

- Lưu trữ quá nhiều (có thể cần không gian lưu trữ lên đến 300% so với kíchthước ban đầu)

- Giá thành cập nhật và tổ chức lại chỉ mục cao

- Giá thành hợp các danh sách tài liệu cao nếu chúng quá dài

Tuy nhiên, chúng cũng có các ưu điểm riêng:

- Dễ dàng hỗ trợ các từ đồng nghĩa

b.1.2 Mô hình không gian vec-tơ (Vector space model - VSM)

Mô hình không gian vec-tơ được mở rộng từ mô hình Boolean trong việc thểhiện các thuật ngữ của tài liệu [4] Giống như mô hình Boolean, chúng ta gán nhãn cáctài liệu bởi tập các thuật ngữ Nhưng trên thực tế, điểm khác nhau được ẩn trong việc

biểu diễn tài liêu Tài liệu D được biểu diễn bởi một vec-tơ m-chiêu với các thông số

ứng với mỗi chiều là trọng số ứng với từng thuật ngữ cụ thể Trong trường hợp này, m

là tổng sô thuật ngữ được đinh nghĩa để xác định nội dung của tài liệu Trọng số đượctính bởi xác suất xuất hiện và độ quan trọng của từ khoá

D=(w 1 , w 2 , , w N )

Ví dụ, khi phân tích hai tài liệu D 1 và D 2 là hai bài nghiên cứu, liên quan đếnbệnh đâu đầu, ta có hai vec-tơ được hinh hoạ trên đồ thị 2-chiều như sau:

Các trọng số trên mỗi vec-tơ biểu diễn xác suất xuất hiện của các thuật ngữ trong

mỗi bài báo Tài liệu D 1 , thuật ngữ Đau đầu, Magê xuất hiện với xác suất lần lượt là

Trang 20

0.75, 0.25 Tài liệu D 2 , thuật ngữ Đau đầu, Magê xuất hiện với xác suất lần lượt là 0.2,

0.6

Trong mô hình này, một truy vấn được đối xử như một tài liệu [4] (xem hình 4).Hay nói cách khác, chúng ta sẽ biểu câu truy vấn bởi một vec-tơ trọng số của các thuậtngữ Sau khi thực hiện việc phân tích câu truy vấn ta sẽ thu được một vec-tơ Việc thựchiện câu truy vấn này thực chất là việc so sách vec-tơ của câu truy vấn với các vec-tơ đạidiện cho các tài liệu theo một tiêu chuẩn nào đó Kết quả ta sẽ thu được một danh sách

các tài liệu có quan hệ “gần” với câu truy vấn đã đưa ra Tất nhiên, các tài liệu đó sẽ được sắp xếp theo trình tự giảm dần và sẽ bị cắt ở một ngưỡng nào đó.

Để tính vec-tơ biểu diễn một tài liệu, các từ riêng biệt trong tài liệu được tổ hợp lại.Trên thực tế, việc thực hiện được thực hiện theo cách sau:

- Các từ phụ được soá đi

- Phân biệt các từ bởi khoảng trắng

Đối với Anh ngữ hoặc Pháp ngữ, mỗi từ được tách biệt bởi các khoảng trắng.Nhưng ngôn ngữ tiếng Việt lại nảy sinh vấn đề từ đơn và từ ghép Đây cũng là một vấn

đề khó khăn khi phân tách từ trong tiếng Việt Ví dụ, với từ company trong tiếng Anh, ứng với nó là từ công ty trong tiếng Việt Do vấn đề về từ ghép nên gay nhiều hiểu nhầm trong tiếng Việt Các vấn đề đó gọi là sự mập mờ trong tiếng Việt Ví dụ, với câu thuộc

địa bàn, ta có thể có hai cách phân tách thuộc địa|bàn và thuộc|địa bàn.

Như vậy, đối với tiếng Việt, chúng ta cần có các phương pháp tách từ đặc biệt hơn

b.1.2.1 Tiếp cận phương thức TF * IDF

Trọng số của một thuật ngữ có thể được xác định theo nhiều cách Cách tiếp cận

chung là sử dụng phương thức tf * idf, ở đó trọng số được tổng hợp bởi hai yếu tố:

- Xác suất thuật ngữ (term frequency - tf) - đặc trưng cho xác suất xuất hiệnthuật ngữ trong tài liệu

- Nghịch đảo xác suất của tài liệu (inverse document frequency - idf) - đặctrưng cho xác suất của thuật ngữ trong toàn bộ tập hợp các tài liệu Hay nói

Hình 4: Đồ thị biểu diễn quan hệ giữa truy vấn (query) và các

tài liệu D1, D2

Trang 21

cách khác, một thuật ngữ hiếm khi xuất hiện trong các tài liệu thì idf sẽ cao, còn nếu nó xuất hiện thường xuyên trong các tài liệu thì idf sẽ thấp.

Ví dụ: công thức dưới đây được đề xuất có thể được dùng để tính các giá trị đã nói

ở trên [4]:

j f i

f

tf i

max5.05

i xlieu voi tai

cacle

ở đó f i là xác suất xuất hiện thuật ngữ x i trong tài liệu Phân số trong idf được tính

toán bằng phương pháp giải tích với khả năng xuất hiện x i trong tài liệu này

b.1.2.2 Độ tương đồng (similarity)

Khi các trọng số các thuật ngữ được xác định, chúng ta cần một hàm sắp xếp đểđịnh giá độ tương đồng giữa các vec-tơ truy vấn và tài liệu Một số phép đo độ tươngđồng được thể hiện dưới đây Ở đó Q và D lần lượt là các tập thuật ngữ trong truy vấn vàtrong văn bản:

/

1

D Q

+

∩

hệ số consin

),

m

i i i

u w

u w Q

D