Bảng 1.1: Sự khác nhau giữa tri thức hiện và tri thức ẩn Quản trị tri thức Trong lịch sử, các hệ thống thông tin quản lý tập trung vào việc nắm bắt, lưu trữ, quản lý và báo cáo tri thức
TỔNG QUAN VỀ QUẢN TRỊ TRI THỨC
Các khái niệm
Tri thức khác biệt so với dữ liệu và thông tin (Hình 2.1) Dữ liệu là những sự kiện chưa được xử lý như số liệu, hình ảnh, văn bản, âm thanh… có được từ các quan sát hoặc đo lường Thông tin là dữ liệu được xử lý và tổ chức thành những dạng hoặc cấu trúc phù hợp cho việc sử dụng của con người Tri thức thường được định nghĩa là sự hiểu biết (nhận thức) về thông tin, nghĩa là thông tin theo ngữ cảnh, có liên quan và có khả năng hành động
• Bản đồ cung cấp chỉ dẫn lái xe chi tiết từ vị trí A sang một vị trí
B khác A có thể được coi là dữ liệu
• Một thông báo giao thông theo từng phút cho biết một tuyến đường cần đi qua để đến B có sự suy giảm lưu lượng do có công trường xây dựng được coi là thông tin
• Khi đó, sự nhận thức về một tuyến đường thay thế được coi là tri thức
Trong trường hợp này, bản đồ được coi là dữ liệu vì nó không chứa thông tin có ảnh hưởng đến thời gian và điều kiện lái xe từ A đến B Tuy nhiên, các điều kiện hiện tại về tuyến đường chính là thông tin hữu ích nếu biết vận dụng tri thức để tránh ra khu vực xây dựng Từ đó có thể thấy tri thức có các yếu tố kinh nghiệm và tính ứng biến để phân biệt nó với thông tin trong một bối cảnh nhất định Có tri thức có nghĩa rằng nó có thể được sử dụng để giải quyết vấn đề, trong khi có thông tin không mang ý nghĩa tương tự
Khả năng hành động là một phần không thể thiếu của tri thức Ví dụ: hai người trong cùng một bối cảnh có cùng thông tin chưa chắc đã có cùng khả năng sử dụng thông tin thành công Do đó, sự khác biệt trong
2 khả năng của con người giúp gia tăng thêm giá trị Sự khác biệt về khả năng có thể là do kinh nghiệm khác nhau, đào tạo khác nhau, quan điểm khác nhau và các yếu tố khác
Hình 1.1: Mối quan hệ giữ Dữ liệu, Thông tin và Tri thức
Tri thức có một số đặc trưng sau:
• Lợi ích phi thường và giúp gia tăng lợi nhuận: Tri thức không phải đối tượng bị mất đi Khi tri thức được sử dụng, tri thức không bị giảm (hay cạn kiệt), thay vào đó, tri thức được tăng lên (hoặc cải thiện) Người dùng có thể bổ sung tri thức, do đó giúp gia tăng giá trị của tri thức Lợi ích của tri thức chỉ thu được nếu nó được áp dụng
• Sự phân mảnh và cần được làm mới: Khi tri thức phát triển, nó phân nhánh và phân mảnh Tri thức có tính linh động vì nó chính là “thông tin trong hành động” Các giá trị của tri thức có thể thay đổi theo thời gian Do đó, một tổ chức phải liên tục làm mới cơ sở tri thức của mình để duy trì nó như một nguồn lợi thế cạnh tranh
• Giá trị không chắc chắn: Tri thức được phát triển thông qua quá trình học tập, có thể khó chuyển giao, nắm bắt và phân phối tri thức, phụ thuộc vào trí nhớ, kinh nghiệm quá khứ, chuyên môn và cơ chế chuyển giao tri thức
• Tri thức giúp học tập tốt hơn, nó tạo điều kiện cho sự hiệu quả và sáng tạo, việc tạo ra và sử dụng tri thức được nâng cao cùng với công nghệ
Tri thức hiện và tri thức ẩn
Có 2 loại tri thức là:
Khái niệm về sự khác biệt giữa tri thức hiện và tri thức ẩn lần đầu được đưa ra vào năm bởi Michael Polanyi vào năm 1958
• Tri thức hiện: tri thức được hệ thống hóa và số hóa trong sách, tài liệu, báo cáo, bản ghi nhớ… Tri thức được xác định rõ ràng, chia sẻ và sử dụng một cách dễ dàng
• Tri thức ẩn: tri thức được lưu trong tâm trí con người thông qua kinh nghiệm làm việc: trí tuệ hay kinh nghiệm cá nhân (theo từng ngữ cảnh cụ thể) Dĩ nhiên, tri thức ẩn khó trích xuất và hệ thống hóa hơn Tri thức ẩn bao gồm những hiểu biết sâu sắc và trực giác
Sự khác nhau của tri thức hiện và tri thức ẩn:
Tri thức hiện Tri thức ẩn
Có tính khách quan, kĩ thuật và hợp lý
Có tính chủ quan dựa theo nhận thức, trải nghiệm
Có cấu trúc Không có cấu trúc rõ ràng
Không phụ thuộc vào ngữ cảnh Phụ thuộc vào ngữ cảnh cụ thể
Dễ dàng ghi lại và mã hóa Khó nắm bắt và mã hóa
Dễ dàng chia sẻ Khó chia sẻ
Dễ dàng chuyển giao/dạy/học Khó chuyển giao/dạy/học
Tồn tại với khối lượng lớn Tồn tại với khối lượng nhỏ hơn tri thức hiện nhiều lần
Bảng 1.1: Sự khác nhau giữa tri thức hiện và tri thức ẩn
Trong lịch sử, các hệ thống thông tin quản lý tập trung vào việc nắm bắt, lưu trữ, quản lý và báo cáo tri thức hiện Ngày nay, các tổ chức nhận ra sự cần thiết phải tích hợp cả hai loại tri thức trong các hệ thống thông tin chính thức Ý tưởng về quản trị tri thức không phải là mới, tuy nhiên, việc áp dụng các công cụ CNTT để tạo lợi nhuận cho việc tạo, lưu trữ, chuyển giao và áp dụng tri thức là một sáng kiến mới Các nhà quản lý thành công từ lâu
4 đã sử dụng tài sản trí tuệ và công nhận giá trị của chúng Nhưng những nỗ lực này không mang tính hệ thống, họ cũng không đảm bảo rằng tri thức thu được sẽ được chia sẻ và phân tán một cách thích hợp để mang lại lợi ích tối đa cho tổ chức
Quản trị tri thức là một quá trình giúp các tổ chức xác định, lựa chọn, tổ chức, phổ biến và chuyển giao thông tin và chuyên môn quan trọng Quản trị tri thức là quản trị có hệ thống và chủ động các ý tưởng, thông tin và tri thức của nhân viên trong tổ chức Cấu trúc của tri thức cho phép giải quyết vấn đề hiệu quả, hoạch định chiến lược và ra quyết định Các sáng kiến của quản trị tri thức tập trung vào việc xác định tri thức, khám phá tri thức theo cách mà nó có thể chia sẻ và tận dụng giá trị của nó thông qua việc tái sử dụng Công nghệ thông tin làm cho quản trị tri thức có sẵn trong toàn tổ chức được gọi là hệ thống quản trị tri thức
Tập hợp các hoạt động chuyên sâu bao gồm việc thu thập tri thức (từ các chuyên gia và các nguồn thông tin khác) và chuyển đổi tri thức này thành một kho lữu trữ (thường là cơ sở tri thức) được gọi là kỹ nghệ tri thức (Knowledge Engineering) Thuật ngữ kỹ nghệ tri thức lần đầu tiên được định nghĩa trong công trình của Feigenbaum và McCorduck (1983) là hoạt động đưa các nguyên tắc và phương pháp nghiên cứu trí tuệ nhân tạo vào các vấn đề ứng dụng khó khăn đòi hỏi tri thức của các chuyên gia cho các giải pháp của họ Kỹ nghệ tri thức đòi hỏi sự hợp tác và giao tiếp chặt chẽ giữa các chuyên gia và kỹ sư để số hóa thành công và trình bày rõ ràng các quy tắc để chuyên gia sử dụng để giải quyết một vấn để trong một lĩnh vực ứng dụng cụ thể Các tri thức được sở hữu bởi các chuyên gia thường không có cấu trúc rõ ràng và không được thể hiện rõ ràng Mục tiêu chính của kỹ nghệ tri thức giúp chuyên gia nói rõ cách những gì họ làm và ghi lại tri thức này dưới dạng có thể tái sử dụng
Các tiếp cận quản trị tri thức
Hai cách tiếp cận cơ bản để quản lý tri thức là cách tiếp cận quá trình và tiếp cận thực hành
Tiếp cận quá trình Tiếp cận thực hành
Loại tri thức được hỗ trợ
Tri thức hiện Tri thức ẩn
Các thủ tục, quy trình vận hành theo tiêu chuẩn, chú trọng nhiều vào công nghệ thông tin để hỗ trợ tạo ra tri thức, hệ thống hóa và chuyển giao tri thức
Các cá nhân hoặc các nhóm không chính thức trong xã hội tham gia trao đổi và truyền đạt với nhau
Lợi ích Cung cấp cấu trúc rõ ràng để khai thác các ý tưởng giúp tạo ra tri thức
Hỗ trợ việc tái sử dụng tri thức
Linh động trong việc phản ứng với ý tưởng mới khi môi trường thay đổi
Cung cấp môi trường để tạo ra và chuyển giao tri thức ẩn giá trị cao
Khó khai thác và triển khai tri thức ẩn
Có thể hạn chế sự đổi mới những người tham gia và khiến họ hướng tư duy theo khuôn mẫu
Có thể không hiệu quả
Không có cấu trúc rõ ràng để thực hiện các ý tưởng phong phú
CNTT Đòi hỏi đầu tư nhiều vào CNTT để kết nối mọi người và tri thức Đòi hỏi đầu tư vừa phải vào CNTT để tạo điều kiện cho các cuộc trao đổi và chuyển giao tri thức ẩn
Bảng 1.2: Tiếp cận quá trình và tiếp cận thực hành trong quản trị tri thức
Tiếp cận quá trình là cách tiếp cận quản trị tri thức bằng cách cố gắng hệ thống hóa tri thức thông qua các biện pháp kiểm soát, xử lý thông qua các công nghệ
Các tổ chức áp dụng các phương pháp tiếp cận quá trình có thể thực hiện các chính sách điều chỉnh cách thức thu thập, lưu trữ và phổ biến tri thức trong toàn tổ chức Cách tiếp cận quá trình thường xuyên liên quan đến
8 việc sử dụng CNTT như mạng nội bộ, kho dữ liệu, kho tri thức, công cụ hỗ trợ quyết định và phầm mềm làm việc nhóm để nâng cao chất lượng, tốc độ sáng tạo và phân phối tri thức trong tổ chức Nhược điểm chính của cách tiếp cận quá trình là nó không nắm bắt được nhiều tri thức ẩn
Trái ngược với cách tiếp cận quá trình, cách tiếp cận thực hành đối với quản lý tri thức giả định rằng những tri thức của tổ chức là tri thức ẩn và các công nghệ, các biện pháp kiểm soát, xử lý không phù hợp để truyền tải loại hiểu biết này Thay vì xây dựng các hệ thống chính thức để quản trị tri thức, trọng tâm của cách tiếp cận này là xây dựng các môi trường xã hội hoặc cộng đồng thực hành cần thiết để tạo điều kiện cho việc chia sẻ tri thức ẩn Các cộng đồng này là các nhóm trong xã hội, gặp gỡ thường xuyên để chia sẻ ý tưởng, hiểu biết và các phương pháp hay nhất Tri thức được chia sẻ chủ yếu thông qua tiếp xúc giữa người với người
Tri thức có giá trị đối với các công ty là tự nhiên, rất khó để thể hiện, nắm bắt và quản lý Trong trường hợp này, môi trường và bản chất của các vấn đề đang gặp phải là vô cùng khó nắm bắt Bởi vì tri thức ẩn khó trích xuất, lưu trữ và quản lý
Ngoài ra, nhiều tổ chức sử dụng kết hợp cả hai phương pháp tiếp cận quá trình và tiếp cận thực hành, gọi là tiếp cận lai, trong báo cáo này sẽ không trình bày cụ thể tiếp cận lai
Kho lưu trữ tri thức không phải cơ sở dữ liệu, nó có thể coi là cơ sở tri thức của tổ chức Có thể sẽ có những sự nhầm lẫn nó với cơ sở tri thức của một hệ chuyên gia Cơ sở tri thức của một hệ chuyên gia chứa những tri thức để giải quyết một vấn đề cụ thể, còn cơ sở tri thức tổ chức chứa tất cả tri thức về tổ chức Nắm bắt và lưu trữ tri thức là mục tiêu của kho lưu trữ tri thức Cấu trúc của kho lưu trữ phụ thuộc rất nhiều vào loại tri thức mà nó lưu trữ Kho lưu trữ có thể bao gồm danh sách các câu hỏi và giải pháp, cho đến danh sách các cá nhân có chuyên môn và thông tin liên hệ của họ, đến các phương pháp chi tiết nhất cho một tổ chức lớn… Hầu hết các kho lưu trữ tri thức được phát triển bằng cách sử dụng một số cơ chế lưu trữ khác nhau, tùy thuộc vào loại và lượng tri thức được dùng đến Mỗi loại kho lưu trữ tri thức có điểm mạnh và điểm yếu riêng khi sử dụng cho các mục đích khác nhau trong KMS
Hình 1.3: Kho tri thức trong nền tảng quản trị tri thức
Hệ thống quản trị tri thức
Hệ thống quản trị tri thức (Knowledge Management System) đề cập đến việc sử dụng CNTT hiện đại (ví dụ: Internet, intranets, kho dữ liệu, Web 2.0) để hệ thống hóa, nâng cao và đẩy nhanh quá trình can thiệp vào quản trị tri thức Các hệ thống quản trị tri thức giúp tổ chức đối phó với doanh thu, thay đổi nhanh chóng để phù hợp Các hệ thống quản trị tri thức đang được xây dựng với áp lực ngày càng tăng trong việc duy trì lực lượng lao động có năng suất tốt và thông tin đầy đủ Hơn nữa, các hệ thống này được xây dựng để giúp các tổ chức có sự nhất quán về dịch vụ khách hàng
Vòng đời của hệ thống
Một hệ thống quản trị tri thức hoạt động theo chu trình sáu bước Lý do của chu trình này là tri thức được tinh chỉnh theo thời gian Tri thức trong một hệ thống quản trị tri thức không bao giờ kết thúc vì môi trường thay đổi theo thời gian và tri thức phải được cập nhật để phản ánh các thay đổi Chu trình hoạt động như sau:
• Tạo tri thức (Create knowledge): Tri thức được tạo ra khi con người xác định được các tri thức mới để thực hiện công việc hoặc phát triển các bí quyết đã có
• Nắm bắt tri thức (Capture knowledge): Tri thức mới phải được xác định là có giá trị và được trình bày một cách hợp lý
• Tinh chỉnh tri thức (Refine knowledge): Tri thức mới phải được đặt trong bối cảnh mà nó có khả năng hoạt động Đây là nơi những hiểu biết của con người phải được nắm bắt cùng với thực tế rõ ràng
• Lưu trữ tri thức (Store knowledge): Tri thức hữu ích phải được lưu trữ ở định dạng hợp lý trong kho lưu trữ tri thức để những người khác trong tổ chức có thể truy cập
• Quản lý tri thức (Manage knowledge): Giống như một thư viện, một cơ sở tri thức phải mang tính thời đại Tri thức phải được xem xét để xác minh rằng nó có liên quan và chính xác
• Phổ biến tri thức (Disseminate knowledge): Tri thức phải được cung cấp ở định dạng hữu ích cho bất kỳ ai trong tổ chức cần nó, bất cứ nơi đâu và bất cứ lúc nào
Hình 1.4: Vòng đời của hệ thống quản trị tri thức
Các thành phần của hệ quản trị tri thức
Công nghệ thông tin đóng vai trò rất quan trọng đối với sự thành công của mọi hệ thống quản trị tri thức CNTT cho phép quản trị tri thức bằng cách cung cấp kiến trúc doanh nghiệp mà nó được xây dựng
Hệ thống quản trị tri thức được phát triển nhờ bộ ba công nghệ: giao tiếp, cộng tác và lưu trữ - truy xuất
Web tác động Tác động đến Web
Giao tiếp Giao diện nhất quán, thân thiện
Cải thiện các công cụ giao tiếp
Cho phép các cá nhân truy cập nhanh chóng và thuận tiện
Truy cập trực tiếp với tri thức trên máy chủ
Tri thức được nắm bắt và chia sẻ được sử dụng trong việc cải thiện giao tiếp, quản lý giao tiếp và công nghệ truyền thông
Cộng tác Cải tiến các công cụ cộng tác
Cho phép cộng tác mọi lúc, mọi nơi
Cho phép cộng tác giữa các công ty, khách hàng và nhà cung cấp
Cho phép chia sẻ tài liệu
Cải thiện cộng tác nhanh chóng và liên kết đến các nguồn tri thức
Tri thức được nắm bắt và chia sẻ được sử dụng trong việc cải thiện sự cộng tác, quản lý cộng tác và công nghệ cộng tác
Lưu trữ và truy xuất
Giao diện người dùng thân thiện, nhất quán
Cung cấp lưu trữ và truy xuất hiệu quả
Tri thức được nắm bắt và chia sẻ được sử dụng trong việc cải thiện hệ thống lưu trữ và truy xuất dữ liệu, quản trị cơ sở dữ liệu/quản trị kho tri thức và các công nghệ cơ sở dữ liệu và kho tri thức
Bảng 1.3: Công nghệ quản trị tri thức và tác động Web
Các công nghệ giao tiếp cho phép người dùng truy cập tri thức cần thiết và giao tiếp với nhau, đặc biệt là với các chuyên gia E-mail, Internet, mang nội bộ của công ty và các công cụ dựa trên Web khác cung cấp khả năng giao tiếp, ngay cả máy fax và điện thoại cũng được sử dụng để liên lạc
Công nghệ cộng tác cung cấp phương tiện để thực hiện hoạt động nhóm Các nhóm có thể làm việc cùng nhau trên các tài liệu chung cùng
12 một lúc (nghĩa là đồng bộ) hoặc tại các thời điểm khác nhau (nghĩa là không đồng bộ); họ có thể làm việc ở cùng một nơi hoặc ở những nơi khác nhau Cộng tác đặc biệt quan trọng đối với các thành viên của một cộng đồng trong việc đóng góp tri thức Các hình thức làm việc nhóm liên quan đến các chuyên gia có chuyên môn cần thiết đang cố gắng áp dụng kiến thức của họ để tạo ra kết quả cuối cùng tốt nhất có thể, điều này đòi hỏi sự cộng tác ở mức độ khá cao Các hệ thống máy tính cộng tác cho phép một tổ chức tạo ra một không gian ảo để các cá nhân có thể làm việc trực tuyến ở mọi lúc và mọi nơi Ở thời điểm đầu, công nghệ lưu trữ - truy xuất sử dụng hệ thống quản trị cơ sở dữ liệu để lưu trữ và quản trị tri thức Điều này hoạt động tốt ở thời điểm đầu Tuy nhiên, nó lại gặp khó khăn đối với tri thức ẩn (khó nắm bắt, lưu trữ và quản lý), do đó hệ quản trị tài liệu điện tử và hệ thống lưu trữ chuyên dụng (là một phần của hệ thống kết nối các máy tính) giúp giải quyết vấn đề này, các hệ thống lưu trữ chuyên dụng được gọi là kho lưu trữ tri thức
Các công nghệ hỗ trợ
Một số công nghệ đã đóng góp vào những tiến bộ đáng kể trong các công cụ quản trị tri thức Trí tuệ nhân tạo, tác nhân thông minh, khám phá tri thức trong cơ sở dữ liệu, eXtensible Markup Language (XML) và Web 2.0 là những ví dụ về công nghệ mô hình hóa các hệ quản trị tri thức hiện đại và là cơ sở cho những đổi mới trong tương lai trong lĩnh vực quản trị tri thức
Trí tuệ nhân tạo (Artificial Intelligent):
Trong định nghĩa về quản trị tri thức, trí tuệ nhân tạo hiếm khi được đề cập đến Tuy nhiên, phát biểu một cách thực tế, các phương pháp và công cụ AI được tích hợp vào một số KMS bởi các nhà cung cấp hoặc các nhà phát triển hệ thống Trí tuệ nhân tạo có thể hỗ trợ xác định chuyên môn, gợi ý những tri thức một cách tự động và bán tự động, có thể kể đến như xử lý thông qua quá trình xử lý ngôn ngữ tự nhiên và tìm kiếm thông minh thông qua các tác nhân thông minh
Những công dụng của trí tuệ nhân tạo trong hệ thống quản trị tri thức:
• Hỗ trợ và nâng cao tri thức tìm kiếm
• Giúp thiết lập hồ sơ tri thức của cá nhân và nhóm
• Giúp xác định tầm quan trọng tương đối của tri thức khi nó được đóng góp và truy cập từ kho tri thức
• Quét tài liệu và cơ sở tri thức để thực hiện khám phá tri thức, xác định mối quan hệ có ý nghĩa, thu thập tri thức hoặc tạo ra các quy tắc cho các hệ chuyên gia
• Dự báo kết quả trong tương lai nhờ sử dụng tri thức hiện có
• Cung cấp lời khuyên trực tiếp từ tri thức bằng cách sử dụng
NN hoặc hệ chuyên gia
• Cung cấp ngôn ngữ tự nhiên hoặc giao diện người dùng điều khiển bằng giọng nói cho KMS
Web đã phát triển từ một công cụ dùng để phổ biến thông tin và tiến hành kinh doanh tới một nền tảng để tạo điều kiện cho những cách thức mới để chia sẻ thông tin, cộng tác và giao tiếp trong thời đại kỹ thuật số Những thuật ngữ mới xuất hiện như mạng xã hội, các trang web chia sẻ, blog và wiki đã trở thành đặc trưng của ứng dụng tương tác được gọi chung là Web 2.0 Những công nghệ này đã thúc đẩy mạnh mẽ việc quản trị tri thức bằng cách giúp mọi người chia sẻ tri thức một cách dễ dàng và tự nhiên Một trong những điểm nhược điểm của thực tiễn quản trị tri thức là những người không có kĩ thuật sẽ gặp khó khăn trong việc chia sẻ tri thức của họ một cách tự nhiên Do đó, giá trị cuối của của Web 2.0 là thúc đẩy khả năng đáp ứng cao hơn, nắm bắt và chia sẻ tri thức tốt hơn và cuối cùng là tạo ra trí tuệ tập thể hiệu quả hơn
BÀI TOÁN TRÍCH RÚT THÔNG TIN VĂN BẢN
Bài toán trích rút thông tin văn bản
Các dạng dữ liệu văn bản
Với sự phát triển của Internet, khối lượng dữ liệu cũng gia tăng rất nhanh, đặc biệt là dữ dạng văn bản, cho tới hiện tại, có 3 loại dữ liệu dạng văn bản đó là:
• Dữ liệu có cấu trúc: Là loại dữ liệu có mức độ tổ chức cao, thường được lưu trữ bằng cách thức giống như bảng tính, một số ví dụ về định dạng dữ liệu có cấu trúc như: bảng tính Excel, tập tin csv, bảng cơ sở dữ liệu quan hệ… Ngày nay, phần lớn những loại dữ liệu được cho là có cấu trúc chỉ chiếm ít hơn 20% tổng số dữ liệu thu được
• Dữ liệu phi cấu trúc: Là loại dữ liệu không có hình thức tổ chức xác định trước và không có định dạng cụ thể nào cả, một số ví dụ về định dạng về dữ liệu có cấu trúc có thể kể đến như: tập tin ảnh, video, âm thanh, tệp văn bản thuần túy, word file hay pdf…, hầu hết dữ liệu được tạo ra ngày nay là dữ liệu phi cấu trúc
• Dữ liệu bán cấu trúc: Ngoài dữ liệu có cấu trúc và dữ liệu không có cấu trúc, còn một loại dữ liệu nữa được pha trộn từ 2 loại dữ liệu trên, một phần dữ liệu có mức độ tổ chức cao, một phần dữ liệu không có tổ chức xác định, ví dụ những tập tin văn bản Email, HTML, JSON,…
Vì dữ liệu có cấu trúc được tổ chức theo hình thức nhất định nên có ưu điểm phù hợp với việc tìm kiếm, xử lý hay phân tích, còn dữ liệu phi cấu trúc thì ngược lại Vì thế chúng ta cần chuyển dữ liệu phi cấu trúc thành dữ liệu có cấu trúc
Giới thiệu bài toán trích rút thông tin văn bản
Một trong những kĩ thuật chuyển dữ liệu phi cấu trúc sang dữ liệu có cấu trúc là trích rút thông tin từ văn bản (Information extraction - IE) Bài toán trích rút thông tin là một nhánh nghiên cứu nâng cao thiên về trích rút
15 thông tin ngữ nghĩa trong văn bản Mục đích của bài toán trích rút thông tin văn bản là:
• Tổ chức lại thông tin giúp ích cho con người ví dụ như trích rút giá bán của 1 sản phẩm, sản phẩm đang hot, các chủ đề nóng,…
• Chuyển dữ liệu phi cấu trúc thành dữ liệu có cấu trúc dùng để thực hiện các thuật toán máy tính
Từ bài toán trích rút thông tin ta sẽ đơn giản hóa thành các bài toán con là: Bài toán nhận dạng thực thể định danh (Named entity recognition – NER), Bài toán trích rút quan hệ giữa các thực thể (Relation extraction – RE) và Bài toán phân giải đồng tham chiếu (Coreference resolution)
Một ví dụ về trích rút thông tin trong câu:
“Vào năm 1998, Larry Page và Sergery Brin đã sáng lập ra Google Inc.”
Khi xét đoạn văn bản này, nếu các nhãn của nhận dạng thực thể định danh trong này gồm 3 nhãn là Thời gian, Người, Tổ chức thì đầu ra sẽ là:
4 Google Inc.: Tổ chức Đầu ra của trích rút quan hệ sẽ là:
1 Người_sáng_lập_của(Larry Page, Google Inc.)
2 Người_sáng_lập_của (Sergery Brin, Google Inc.)
3 Được_sáng_lập_vào(Google Inc., 1998)
Thách thức: Bị nhập nhằng thực thể, ví dụ “Lê Duẩn” có thể mang nhãn tên người hoặc mang nhãn địa chỉ (đường Lê Duẩn) Hoặc giữa hai thực thể xuất hiện nhiều mối quan hệ khác nhau nên chọn được mối quan hệ chính xác là một thách thức lớn
Bài toán nhận dạng thực thể định danh NER
Bài toán nhận dạng thực thể định danh (NER) là một bài toán con của bài toán trích rút thông tin từ văn bản và được xem là tiền xử lý cho bài toán phức tạp hơn là Trích rút quan hệ giữa các thực thể Nhận dạng thực thể định danh tìm và phân loại các cụm từ trong văn bản và phân loại chúng vào các lớp đã được định nghĩa trước ví dụ như: tên người, địa điểm, tổ chức, thời gian, nhãn hiệu…
Hình 2.1: Ví dụ mô tả nhận dạng thực thể định danh
Từ kết quả của nhận dạng thực thể định danh có thể xử lý cho nhiều bài toán phức tạp hơn trong xử lý ngôn ngữ tự nhiên như tìm kiếm (search), trả lời câu hỏi (question answering), chatbot…
Có nhiều cách để tiếp cận bài toán nhận dạng thực thể định danh như hướng tiếp cận dựa trên luật (Rule-based), hướng tiếp cận dựa theo học máy (Machine Learning-based) và hướng tiếp cận kết hợp cả hai phương pháp trên [7] Đồ án này được thực hiện theo hướng tiếp cận Rule-based, vì thế báo cáo này chỉ trình bày phương pháp tiếp cận Rule-based
Về phương pháp tiếp cận Rule-based, có một cách đơn giản là sử dụng gazetteer (danh sách những thực thể như tên người, địa điểm tổ chức… được xác định bằng định nghĩa trước hoặc được đánh nhãn sẵn) để tìm kiếm ngay trong văn bản cho trước Ưu điểm của cách tiếp cận này là đơn giản, dễ thực hiện, nhưng nhược điểm là không thể xác định được giới hạn giá trị của thực thể và dễ bị nhập nhằng tên hoặc nhãn của thực thể
Rule-based trong NER hoạt động bằng cách định nghĩa ra tập các luật Văn bản đầu vào sẽ được so sánh với tập các luật này, nếu hợp lệ thì sẽ tiến hành trích rút Mỗi một luật bao gồm mẫu (pattern) và hành động (action) Pattern thường là một biểu thức chính quy (regular expression -
17 regex) Khi pattern hợp lệ thì action được kích hoạt, action có thể là gán nhãn thực thể cho các từ, hoặc thêm nhãn bắt đầu/kết thúc (vị trí bắt đầu và vị trí kết thúc của thực thể trong văn bản) cho thực thể hoặc xác định nhiều thực thể cùng một lúc
“Vào năm 1998, Larry Page và Sergery Brin đã sáng lập ra Google Inc.”
Pattern có thể là : “Vào năm (.*), (.*) và (.*) đã sáng lập ra (.*)” sẽ thỏa mãn với đoạn văn bản ở trên
Khi đó khi xử lý trong ngôn ngữ lập trình, ví dụ như Python ta gán kết quả với câu lệnh re.match() thì kết quả sẽ trả về một danh sách (list) gồm 5 phần tử trong đó phần tử đầu tiên là đoạn văn bản đã cho, 4 phần tử còn lại theo thứ tự tương ứng là: “1998”, “Larry Page”, “Sergery Brin”, “Google Inc.”) Action ở đây là gán nhãn cho từng thực thể trên: “1998”: thời gian, “Larry Page”: người, “Sergery Brin”: người, và “Google Inc.” có nhãn là tổ chức
Trong khi làm việc sẽ bắt gặp trường hợp đoạn văn bản có thể thỏa mãn cho nhiều pattern khác nhau, vì thế cần phải sắp xếp thứ tự các pattern sao cho phù hợp.
Bóc tách thực thể từ tài liệu giải đoán tử vi
Lá số tử vi và vấn đề giải đoán [6]
Tử vi (Tử vi đẩu số) là một bộ môn huyền học được dùng xem vận mệnh con người, cụ thể như luận đoán về tính cách, hoàn cảnh, dự đoán về các vận hạn trong cuộc đời của một người đồng thời nghiên cứu tương tác của một người với các sự kiện, nhân sự… Tử vi xuất phát từ Trung Quốc, tuy không được nổi bật so với các bộ môn khác nhưng khi du nhập về Việt Nam, nó trở thành môn học khá được ưa chuộng Có khá nhiều học giả Việt Nam đã tìm hiểu và cống hiến cho bộ môn này, trong đó có Nguyễn Bỉnh Khiêm và Lê Quý Đôn
Một số thuật ngữ trong tử vi:
• Cung chủ: bao gồm 12 cung, mỗi cung phản ánh một vấn đề, một mặt của đời sống như công danh, tiền bạc, bạn bè, vợ con, phúc đức, cha mẹ… Các cung lần lượt có tên là: Mệnh, Phụ mẫu, Phúc đức, Điền trạch, Quan lộc, Nô bộc, Thiên di, Tật ách, Tài bạch, Tử tức, Phu thê, Huynh đệ
• Địa chi: có tổng cộng 12 địa chi lần lượt là: Tí, Sửu, Dần, Mão, Thìn, Tỵ, Ngọ, Mùi, Thân, Dậu, Tuất, Hợi
• Sao: có nhiều tài liệu khác nhau về số lượng sao, nhưng phần lớn tài liệu ghi lại 108 sao (không kể đến sao Lưu) phân loại
18 thành Chính tinh, Phụ tinh, Cát tinh, Phúc tinh, Sát tinh, Hung tinh, Bàng tinh… một số sao có thể kể đến như: Tử vi, Liêm Trinh, Vũ Khúc, Thái Dương, Thái Âm…
• Thiên can: tổng cộng 10 can bao gồm: Quý, Nhâm, Tân, Canh,
Kỷ, Mậu, Đinh, Bính, Ất, Giáp
• Ngũ hành: bao gồm Kim, Mộc, Thủy, Hỏa, Thổ
• Cục: được dùng chung với danh từ chỉ Hành, ví dụ Kim Cục, Thủy Cục… Cục được đánh giá sự tương sinh hay tương khắc với Bản Mệnh để tìm ý nghĩa tổng quát nào đó của con người Tại tử vi, để xem vận mệnh con người thì cần phải lập lá số tử vi Lá số tử vi được chia thành hai phần:
• Một phần gọi là Thiên bàn nằm ngay trung tâm của lá số, dùng để ghi các thông tin chi tiết về cá nhân như họ và tên, giới tính, năm, tháng, ngày, giờ sinh, mệnh và cục
• Phần còn lại gọi là Địa bàn gồm 12 cung cố định được đặt tên theo 12 địa chi Những phương thức để xác định vị trí của các sao lên Địa bàn được gọi là “an sao”
Hình 2.2: Ví dụ một lá số tử vi
Bóc tách thực thể từ tài liệu giải đoán tử vi
Mục tiêu của đồ án là số hóa tài liệu giải đoán tử vi thành cơ sở tri thức Tài liệu giải đoán tử vi là những câu phú giải liên quan đến các sao được lấy từ cuốn “Tử Vi Đẩu Số Tân Biên” của Vân Đằng Thái Thứ Lang [8], “Tử Vi Đẩu Số Phú Giải” của Thái Vân Trình [9] và “Tử Vi Đẩu Số” của Nguyễn Mạnh Bảo [10]
Hình 2.3: Ví dụ về câu phú và lời giải
Nhìn vào hình ta thấy những cặp câu phú và lời giải đi cùng nhau (lời giải là những câu bắt đầu bằng từ “Giải:”) Tại cuối mỗi câu phú có chú thích về tài liệu được trích dẫn, cụ thể như sau:
• Trích dẫn từ “Tử Vi Đẩu Số Tân Biên” của Vân Đằng Thái Thứ Lang, thì ghi TTL, không ghi số trang kèm theo (TTL)
• Toàn bộ phần trích dẫn từ “Tử Vi Đẩu Số Phú Giải” của Thái Vân Trình thì chỉ ghi số trang, ví dụ: (16)
• Trích dẫn từ “Tử Vi Đẩu Số” của Nguyễn Mạnh Bảo thì ghi B kèm theo số trang, ví dụ: (B61)
• Tất cả câu phú có sự trùng lập giữa các tác giả thì đều ghi đầy đủ nguồn trích dẫn, ví dụ: (30, TTL, B56)
Hình 2.4: Quy trình số hóa tri thức
Tài liệu giải đoán lá số tử vi ban đầu (định dạng pdf) được thu thập và lưu dưới dạng txt
Sau khi thu thập được tài liệu giải đoán tử vi ta tiến hành bóc tách bằng cách sử dụng Rule-based như đã trình bày ở mục 2.2.2 Mục tiêu của bóc tách là thu được một tập tin lưu trữ gồm các mục: mục lục (cung của lời giải đoán), câu phú, lời giải đoán, tham khảo (nguồn trích dẫn) và một tập tin lưu trữ các thực thể của các luật
Hình 2.5: Quy trình bóc tách
Từ các cặp câu phú và lời giải bóc tách được những câu phú và những lời giải Sau đó tiến hành bóc tách song song:
• Đối với câu phú, tách câu phú thành 2 phần gồm câu phú và tham khảo, sau đó lưu vào file excel gồm id, câu phú và tham khảo
Hình 2.6: Tập tin lưu trữ câu phú được bóc tách
• Đối với lời giải, tiến hành tách lời giải thành 2 phần là lời giải nếu và lời giải thì
Ví dụ: Cho lời giải
“Tử Vi tại Mão, Dậu gặp Kiếp, Không, Kình, Đà, Hỏa, Linh thì đa số là người tu hành, hoặc người có tâm tu hành thoát tục”
Khi đó lời giải sẽ được tách thành 2 phần: o Lời giải nếu: “Tử Vi tại Mão, Dậu gặp Kiếp, Không, Kình, Đà,
Hỏa, Linh” Lời giải nếu sẽ được phục vụ cho bóc tách ở pha 2 o Lời giải thì: “đa số là người tu hành, hoặc người có tâm tu hành thoát tục”
Sau đó lưu vào một file excel gồm có id lời giải, id câu phú, lời giải nếu, lời giải thì và tham khảo
Hình 2.7: Tập tin lưu trữ lời giải được bóc tách
Từ lời giải nếu, tiến hành bóc tách những thực thể như: Cung chủ, Địa chi, Sao
Hình 2.8: Tập tin lữu trữ các thực thể được bóc tách
“Mệnh tại Hợi, Tí có Tử Vi gặp Khoa, Quyền, Lộc”
Khi bóc tách câu này ta được:
Lý do không gộp tất cả các Sao trong câu vào một cột là để phục vụ cho việc biểu diễn tri thức dưới dạng luật (mục 3.1.1)
XÂY DỰNG HỆ QUẢN TRỊ TRI THỨC GIẢI ĐOÁN TỬ VI
Biểu diễn tri thức
Biểu diễn tri thức dưới dạng luật
Ví dụ với lời giải nếu:
“Mệnh tại Hợi, Tí có Tử Vi, Thiên Phủ gặp Khoa, Quyền, Lộc”
Biểu diễn lại mệnh đề điều kiện theo cơ sở lý thuyết ở phần “Biểu diễn tri thức” mục 1.1.4 ta có:
“Mệnh tại (Hợi OR Tí) có (Tử Vi AND Thiên Phủ) gặp (Khoa OR Quyền
Khi đó mệnh đề điều kiện trên được tách lại thành 6 mệnh đề như sau:
1 “Mệnh tại Hợi có Tử Vi gặp Khoa AND Mệnh tại Hợi có Thiên Phủ gặp Khoa”
2 “Mệnh tại Hợi có Tử Vi gặp Quyền AND Mệnh tại Hợi có Thiên Phủ gặp Quyền”
3 “Mệnh tại Hợi có Tử Vi gặp Lộc AND Mệnh tại Hợi có Thiên Phủ gặp Lộc”
4 “Mệnh tại Tí có Tử Vi gặp Khoa AND Mệnh tại Tí có Thiên Phủ gặp Khoa”
5 “Mệnh tại Tí có Tử Vi gặp Quyền AND Mệnh tại Tí có Thiên Phủ gặp Quyền”
6 “Mệnh tại Tí có Tử Vi gặp Lộc AND Mệnh tại Tí có Thiên Phủ gặp Lộc”
Mệnh đề điều kiện thu được chỉ còn toán tử AND, khi đó ta đánh dấu những điều kiện trong cùng mệnh đề điều kiện sẽ có cùng chỉ số Khi đó, từ hình 2.8, sau khi biểu diễn tri thức và tổ chức lại thì ta được hình 3.1
Hình 3.1: Tập tin lưu trữ tập các luật
Sau khi có được tập tin lưu trữ các thực thể sau khi biểu diễn tri thức, để xây dựng được cơ sở tri thức và phục vụ cho truy vấn dữ liệu thì cần mã hóa tập tin trên trước khi đưa vào cơ sở tri thức Cụ thể, tiến hành chuyển đổi tên thực thể từ dạng chuỗi kí tự chữ cái về dạng số Để thực hiện điều này thì cần phải có từ điển các thực thể với các cặp key – value, với key là tên thực thể và value là chỉ số tương ứng (ví dụ hình 3.2) Sau khi chuyển đổi thành công sẽ thu được tập tin có dạng như hình 3.3
Hình 3.2: Ví dụ từ điển các cung chủ
Hình 3.3: Tập tin lưu trữ tập các luật sau khi được mã hóa
Xây dựng cơ sở tri thức
Từ những kết quả ở trên, tiến hành xây dựng và lưu trữ cơ sở tri thức bao gồm các bảng:
• Bảng Rules: dùng để lưu trữ những lời giải đoán của lá số bao gồm các trường: chỉ số của luật (ruleid), mục lục (mucluc), mệnh đề điều kiện nếu (nguyennhan), câu phú (cauphu), lời giải đoán (ketqua) và trích dẫn tham khảo (thamkhao)
Hình 3.4: Bảng lưu trữ lời giải đoán
• Bảng CungChu: dùng để lưu trữ các cung chủ của lá số tử vi gồm các trường: chỉ số cung (cungId), tên cung (tenCung), mô tả cung (Description)
• Bảng DiaChi: dùng để lưu trữ các chi của lá số tử vi gồm các trường: chỉ số chi (id), tên chi (tenChi), tên hành (tenHanh), mệnh chủ (menhChu), thân chủ (thanChu) và âm dương (amDuong)
• Bảng Sao: dùng để lưu trữ thông tin các sao của lá số tử vi gồm các trường: chỉ số sao (saoID), tên sao (saoTen), tên hành (saoNguHanh), loại sao chính tinh hay phụ tinh (saoLoai), sao phương vị (saoPhuongVi), âm dương (saoAmDuong) và có thuộc vòng tràng sinh hay không (vongTrangSinh)
• Cuối cùng là bảng RuleInput: dữ liệu của bảng (hình 3.8) được tải lên từ tập tin lưu trữ tập các luật (hình 3.3) gồm chỉ số luật (ruleId), chỉ số cung (cungId), chỉ số địa chi (diachiId), chỉ số sao (saoId) và
28 trường marker dùng để đánh dấu phục vụ cho truy vấn giải đoán lá số tử vi
Hình 3.8: Bảng lưu trữ tập các luật
• Lược đồ quan hệ cơ sở tri thức:
Hình 3.9: Lược đồ quan hệ
Xây dựng chương trình
Chương trình hệ quản trị tri thức giải đoán tử vi được xây dựng trên ứng dụng Web, gồm hai chức năng: lập lá số tử vi và giải đoán lá số tử vi Dưới đây là mô hình hệ quản trị tri thức giải đoán lá số tử vi:
Hình 3.10: Mô hình hệ quản trị tri thức giải đoán tử vi
Xây dựng chương trình lập lá số tử vi
Chương trình lập lá số tử vi cho phép người dùng lập lá số tử vi Sau khi nhập các thông tin cá nhân như: Họ và tên, giới tính, ngày, tháng, năm sinh, giờ sinh chương trình lập lá số tử vi gồm hai phần thiên bàn và địa bàn đã trình bày ở 2.3.1, quy tắc lập lá số như xác định các cung, xác định cục và bản mệnh, an sao được trình bày ở sách tử vi [6]
Dưới đây là ví dụ lập lá số với thông tin như hình 3.11:
Hình 3.11: Giao diện lập lá số tử vi
Sau khi điền thông tin, bấm vào nút “Lập lá số” chương trình sẽ lập lá số tử vi tương ứng với thông tin đã điền (Hình 3.12)
Hình 3.12: Giao diện lá số tử vi
Giải đoán lá số dựa trên cơ sở tri thức
Sau khi xây dựng chương trình lập lá số tử vi, phần core của lá số sẽ lưu trữ và trả về thiên bàn và địa bàn Như đã trình bày ở trên, ở thiên bàn gồm các thông tin cá nhân và phần địa bàn gồm 12 cung, trên mỗi cung sẽ xác định cung chủ, cung Thân và các sao được an trên chi Từ đó ta dựa vào các thông tin ở thiên bàn và địa bàn để giải đoán lá số
Hình 3.13: Thông tin của một lá số
Từ những thông tin ở trên, ta tiến hành truy vấn cơ sở dữ liệu để đánh dấu những luật thỏa mãn thông qua giá trị marker ở bảng RulesInput trả về ruleId Hai bảng Rules và RulesInput liên kết với nhau thông qua trường ruleId, từ giá trị ruleId trả về ta tiến hành lấy ra những bản ghi của bảng RulesInput thỏa mãn, những bản ghi này bao gồm mucluc, nguyennhan, cauphu, ketqua, thamkhao và hiển thị ra màn hình cho người dùng
Ví dụ: Hình 3.13 trả lại thông tin của một lá số, ở phần Địa bàn, ví dụ: cung Mệnh an tại Ngọ và có các sao như Tham Lang, Tiểu Hao, Tử Phù, Nguyệt Đức, Dưỡng, Hữu Bật, Thiên Khôi, Thai Phụ, Đào Hoa, Thiên Trù Khi đó, máy suy diễn dựa vào các thông tin này để giải đoán và hiển thị ra màn hình mục giải đoán lá số (Hình 3.14)
Hình 3.14: Giao diện giải đoán lá số tử vi
Trong đồ án tôi đã trình bày được các khái niệm cơ bản về tri thức, các loại tri thức, các cách tiếp cận tri thức, các kiến thức liên quan đến hệ quản trị tri thức và bài toán trích rút thông tin văn bản Đồng thời tôi cũng đã tiến hành bóc tách dữ liệu, xây dựng được cơ sở tri thức phục vụ cho hệ quản trị tri thức và xây dựng chương trình giúp người dùng lập lá số và giải đoán lá số tử vi Đồ án đã giúp tôi có thêm nhiều kiến thức và học thêm được nhiều kỹ năng như tìm kiếm tài liệu, tổng hợp kiến thức, trình bày báo cáo
Do hạn chế về thời gian nên đồ án mới chỉ dùng dữ liệu là những câu phú giải, trong tương lai đồ án sẽ thu thập thêm nhiều dữ liệu để gia tăng sự đa dạng, phong phú tri thức Đồng thời, chương trình có thể áp dụng thuật toán hiện đại như máy học để trích rút thông tin văn bản, tích hợp chatbot vào ứng dụng giúp tự động giải đáp và giao tiếp được với người dùng.