TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
1.1.1 Khái niệm về xử lý ngôn ngữ tự nhiên
Hầu hết tri thức, hiểu biết và giao tiếp của con người được mô tả và biểu diễn thông qua ngôn ngữ Các dữ liệu liên quan đến ngôn ngữ viết và ngôn ngữ nói đang dần dần trở thành kiểu dữ liệu chính được con người sử dụng Các kiểu dữ liệu này được lưu trữ dưới dạng điện tử, đặc điểm chính của chúng là không có cấu trúc (non-structured) hoặc nửa cấu trúc (semi-structured) và không thể lưu trữ trong các khuôn dạng cố định Theo đánh giá của công ty Oracle, trong lượng dữ liệu mà loài người đang có, có đến 80% dữ liệu là không cấu trúc Các thành tựu vượt bậc trong viễn thông, công nghệ thông tin; tốc độ phát triển nhanh chóng của các thiết bị phần cứng; sự ra ra đời và phát triển mạnh mẽ của Internet, sách báo điện tử, máy tính cá nhân, …vv đã làm thay đổi cuộc sống của con người trên mọi phương diện Giờ đây ai cũng có thể tạo ra các dữ liệu dạng văn bản hay tiếng nói Vấn đề là làm thế nào để có thể xử lý các dữ liệu này, tức chuyển chúng từ các dạng đơn giản ban đầu thành các dạng có thể hiểu và giải thích được, nhằm tìm ra các thông tin, tri thức hữu ích Các công nghệ xử lý ngôn ngữ cho phép máy tính xử lý ngôn ngữ của con người một cách tự động, trích xuất ra các thông tin, tri thức hữu ích từ dữ liệu thô ban đầu Bằng cách cung cấp các giao diện ngày càng thân thiện hơn giữa con người và máy tính và các phương pháp tinh vi hơn để lưu trữ thông tin, xử lý ngôn ngữ ngày càng giữ vai trò quan trọng trong nhiều lĩnh vực khác nhau.
Xử lý ngôn ngữ tự nhiên (Natural language processing – NLP) là một lĩnh vực liên quan đến trí tuệ nhân tạo (Artificial intelligence – AI) và ngôn ngữ học có sử dụng máy tính (Computational Linguistics – CL 1 ) Xử lý ngôn ngữ tự nhiên nghiên cứu các vấn đề về tự động sinh và hiểu ngôn ngữ tự nhiên của con người Các hệ thống sinh ngôn ngữ tự nhiên chuyển đổi thông tin từ cơ sở dữ liệu của máy tính sang ngôn ngữ thông thường của con người Các hệ thống hiểu ngôn ngữ tự nhiên chuyển đổi các tập mẫu trong ngôn ngữ tự nhiên của con người thành dạng biểu diễn có cấu trúc nhằm giúp các chương trình máy tính xử lý thuận tiện hơn Việc hiểu ngôn ngữ tự nhiên đôi khi được xem như là một vấn đề hoàn toàn thuộc về trí tuệ nhân tạo, bởi vì việc hiểu được ngôn ngữ tự nhiên cần sự hiểu biết rất rộng về thế giới bên ngoài và khả năng tính toán trên nó Khái niệm “hiểu như thế nào” là một trong những vấn đề chính trong xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên hiện đang là một lĩnh vực rất được quan tâm trong các hướng nghiên cứu và phát triển, không chỉ ở khía cạnh giao tiếp của con người mà ở một vài khía cạnh khác, nó còn là một phần trong các thể hiện hiểu biết và tri thức của con người Xử lý ngôn ngữ tự nhiên là hướng tiếp cận máy tính hóa nhằm phân tích văn bản dựa trên cả lý thuyết và công nghệ Có thể định nghĩa: “xử lý ngôn ngữ tự nhiên là học thuyết thúc đẩy sự phát triển các công nghệ tính toán khác nhau phục vụ cho việc phân tích và biểu diễn các văn bản Việc phân tích và biểu diễn văn bản có thể được thực hiện ở một hoặc một vài mức độ khác nhau nhằm xử lý ngôn ngữ của con người từ dạng tự nhiên thành các định dạng nhất định cho từng công việc hoặc ứng dụng cụ thể” Trong định nghĩa trên, phân tích ngôn ngữ có thể lựa chọn rất nhiều phương pháp và công nghệ khác nhau Các văn bản có thể là bất cứ ngôn ngữ nào, mô hình nào, hoặc dạng nào, …vv Các văn bản có thể là văn nói hay văn viết Chỉ có một điều kiện ràng buộc cần thiết là chúng phải là ngôn ngữ được sử dụng bởi con người để giao tiếp với người khác Ngoài ra, để phục vụ cho việc phân tích thì văn bản không cần phải có cấu trúc đặc biệt, nó sẽ được thu thập từ những tình huống sử dụng trong thực tế Các mức độ khác nhau trong việc phân tích ngôn ngữ phản ánh một thực tế rằng có rất nhiều các dạng xử lý ngôn ngữ khác nhau khi con người tạo ra và sử dụng ngôn ngữ Vì vậy thông thường con người sử dụng hầu hết các mức độ khác nhau này khi giao tiếp hoặc khi biểu diễn tri thức, bởi vì mỗi mức độ trong việc phân tích và biểu diễn truyền đạt các mức ý nghĩa khác nhau Mỗi hệ thống xử lý ngôn ngữ tự nhiên sẽ sử dụng các mức khác nhau hoặc kết hợp các mức độ trong phân tích ngôn ngữ, điều này có thể nhận thấy thông qua sự khác nhau trong các hệ thống ứng dụng ngôn ngữ tự nhiên Việc sử dụng các mức khác nhau hoặc kết hợp các mức trong phân tích ngôn ngữ tự nhiên có thể còn dẫn tới rất nhiều sự nhầm lẫn trong các lĩnh vực không phải là NLP cụ thể, bởi vì một hệ thống sử dụng một tập nhỏ các mức bất kỳ nào đó trong việc phân tích ngôn ngữ đều có thể xem như là một hệ thống dựa trên NLP Vì vậy sự khác nhau thực sự giữa chúng có thể chỉ là hệ thống sử dụng NLP “ít” hay “nhiều” Xử lý ngôn ngữ tự nhiên nghĩa là xử lý các ngôn ngữ của con người, điều này cho thấy xử lý ngôn ngữ tự nhiên được xem như là một lĩnh vực nằm trong lĩnh vực trí tuệ nhân tạo Và trong khi nguồn gốc ra đời của xử lý ngôn ngữ tự còn phụ thuộc trên một vài lĩnh vực khác ngoài trí tuệ nhân tạo thì việc NLP cố gắng thể hiện xử lý tương tự như con người phù hợp với khía cạnh có thể xem xét nó như là một lĩnh vực nằm trong trí tuệ nhân tạo Xử lý ngôn ngữ tự nhiên không chỉ phục vụ giải quyết các bài toán của chính bản thân nó (ví dụ, một hệ thống dịch máy, hoặc một hệ thống hỏi đáp).
1 Computational Linguistics: liên quan đến nhiều lĩnh vực học thuật, xử lý các mô hình ngôn ngữ tự nhiên Đối với những lĩnh vực khác NLP có thể hoàn toàn được xem như một ứng dụng cụ thể (ví dụ, có thể có một hệ thống thu thập thông tin ứng dụng NLP).
Mục đích của NLP như đã đề cập ở trên là “nhằm thực hiện xử lý ngôn ngữ của con người” Khái niệm xử lý ngôn ngữ tự nhiên không thể được thay thế bởi khái niệm “hiểu ngôn ngữ tự nhiên” Một hệ thống hiểu ngôn ngữ tự nhiên (Natural language understanding – NLU) đầy đủ sẽ có khả năng:
Phân tích một văn bản đầu vào
Dịch văn bản sang ngôn ngữ khác
Trả lời các câu hỏi về nội dung của văn bản
Rút ra kết luận từ văn bản
Các nghiên cứu trong NLP chỉ tập trung vào ba khả năng đầu trong số bốn khả năng cần phải có của một hệ thống NLU đầy đủ Bản thân NLP không thể trích xuất thông tin để rút ra các kết luận từ văn bản đầu vào, do đó khái niệm NLP không thể được thay thế bằng khái niệm NLU Các mục tiêu cụ thể của NLP thường liên quan đến mục tiêu của các ứng dụng sử dụng NLP Ví dụ, một hệ thống tìm kiếm thông tin (Information retrieval – IR) dựa trên NLP sẽ cung cấp thông tin rõ ràng, chính xác và đầy đủ hơn trong việc hồi đáp lại thông tin mà người sử dụng thực sự cần. Mục đích của hệ thống NLP ở đây là biểu diễn ý nghĩa và mục đích thực sự đối với câu truy vấn của người dùng, nó có thể biểu diễn ở dạng tự nhiên trong ngôn ngữ hàng ngày mà người dùng sử dụng Ngoài ra, nội dung của các văn bản được tìm kiếm sẽ được biểu diễn ở tất cả các mức ngữ nghĩa của chúng để tìm ra sự phù hợp nhất giữa các yêu cầu và các câu phản hồi, do đó sẽ giải quyết được vấn đề biểu diễn nội dung của các văn bản được tìm kiếm ở định dạng nào.
Tương tự như hầu hết các lĩnh vực khác, nguồn gốc tạo ra NLP là sự pha trộn của nhiều lĩnh vực nhiều nghành khác nhau Tuy nhiên, các lĩnh vực chính ảnh hưởng chủ yếu đến các quy tắc và cách xử lý của NLP là ngôn ngữ học, khoa học máy tính và tâm lý học nhận thức Ngôn ngữ học tập trung trên các mô hình, các dạng kiến trúc của ngôn ngữ và khám phá ngôn ngữ nói chung Trên thực tế NLP nhiều khi được xem như có nguồn gốc bắt nguồn từ ngôn ngữ học có sử dụng máy tính (Computational Linguistics) Khoa học máy tính liên quan đến việc phát triển các kiến trúc biểu diễn bên trong của dữ liệu và việc xử lý một cách hiệu quả các kiến trúc này Tâm lý học nhận thức xem việc sử dụng ngôn ngữ như một cánh cửa mở đường dẫn vào việc xử lý nhận thức của con người, và mục đích của nó là mô hình hóa việc sử dụng ngôn ngữ theo tâm lý học con người.
Trong khi hầu hết các lĩnh vực đều chỉ xem xét khái niệm xử lý ngôn ngữ tự nhiên, thì trên thực tế có hai hướng tập trung khác nhau – xử lý ngôn ngữ và sinh ngôn ngữ Hướng đầu tiên trong hai hướng trên – xử lý ngôn ngữ tự nhiên – được xem như là việc phân tích ngôn ngữ nhằm tạo ra thể hiện về nghĩa thực sự, trong khi hướng tiếp cận sau – sinh ngôn ngữ tự nhiên – nhằm tạo ra ngôn ngữ từ các thể hiện được tạo ra ở trên Nhiệm vụ của xử lý ngôn ngữ tự nhiên tương đương với vai trò của người đọc hay người nghe, trong khi nhiệm vụ của sinh ngôn ngữ tự nhiên tương đương như vai trò của người viết hay người nói Rất nhiều các học thuyết và công nghệ đều nghiên cứu và phát triển trên cả hai hướng xử lý ngôn ngữ và sinh ngôn ngữ, tuy nhiên việc sinh ngôn ngữ tự nhiên cần phải có được quy hoạch trước. Điều này có nghĩa là các hệ thống sinh ngôn ngữ tự nhiên cần một sơ đồ hoặc một mô hình của các mục tiêu cũng như các tác động ảnh hưởng qua lại lẫn nhau giữa chúng để quyết định hệ thống sẽ sinh ra cái gì ở mỗi thời điểm trong một tương tác nhất định Do đó, các hướng phát triển, nghiên cứu được biết đến chủ yếu là đề cập về khái niệm xử lý ngôn ngữ tự nhiên.
1.1.2 Các khó khăn trong xử lý ngôn ngữ tự nhiên
Khi tiến hành xử lý ngôn ngữ tự nhiên, các hệ thống thường gặp phải rất nhiều khó khăn, có thể là những khó khăn xuất phát từ bản chất của ngôn ngữ tự nhiên, có thể là các khó khăn trong việc biểu diễn, mô hình hóa ngôn ngữ, vv… Nhưng các khó khăn chủ yếu gặp phải trong quá trình xử lý bắt nguồn từ chính sự phức tạp, phong phú của ngôn ngữ tự nhiên.
Trong việc phân đoạn tiếng nói: hầu hết các ngôn ngữ nói, âm thanh đại diện cho các ký tự liên tiếp kết hợp cạnh nhau, bởi thế sự chuyển đổi từ tín hiệu analog thành các ký tự rời rạc là một tiến trình rất khó khăn Thêm nữa, trong tiếng nói tự nhiên, rất khó để xác định vị trí ngắt hoặc dừng giữa các từ liên tiếp; vị trí của các giới hạn đó luôn luôn phải phụ thuộc vào các điều kiện ràng buộc ngữ pháp và ngữ nghĩa, và thậm chí phụ thuộc vào các điều kiện văn cảnh.
Trong việc phân đoạn văn bản: một số ngôn ngữ viết như tiếng Trung, tiếng Nhật, tiếng Thái rất khó để xác định khi nào là kết thúc một từ, dấu hiệu để nhận ra khi nào kết thúc một từ và bắt đầu một từ mới là không có, vì vậy bất cứ bộ phân tích văn bản nào khi thao tác trên các ngôn ngữ này đều luôn luôn cần phải xác định các giới hạn của các từ, đây là một công việc không phải đơn giản Do không có dấu hiệu để nhận ra sự phân cách giữa các từ nên muốn xác định chính xác sự kết thúc của một từ cần phải có các thông tin về ngữ cảnh hiện tại mà từ đó đang được sử dụng, ngoài ra cần phải có thông tin về các điều kiện ràng buộc ngữ pháp, ngữ nghĩa, cách sử dụng từ trong ngôn ngữ cụ thể.
Sự nhập nhằng nghĩa: Trong một ngôn ngữ bất kỳ, một từ không phải lúc nào cũng chỉ có một nghĩa Từ có thể có nhiều nghĩa khác nhau, tùy thuộc vào hoàn cảnh mà nó sẽ mang nghĩa cụ thể phù hợp Một hệ thống phân tích ngôn ngữ tự nhiên sẽ phải lựa chọn nghĩa thích hợp nhất trong số các nghĩa có thể của từ đối với ngữ cảnh sử dụng từ.
Sự nhập nhằng cú pháp: cấu trúc cú pháp của ngôn ngữ tự nhiên là nhập nhằng, trường hợp hay gặp nhất trong xử lý ngôn ngữ tự nhiên là thường có khả năng có rất nhiều các cây cú pháp phân tích khác nhau đối với một câu nhất định Hệ thống xử lý ngôn ngữ tự nhiên lại phải thực hiện việc lựa chọn một cây cú pháp hợp lý nhất, căn cứ vào các thông tin về ngữ nghĩa và ngữ cảnh Các thông tin này không phải bao giờ cũng có sẵn một cách đầy đủ Đặc biệt là việc nhập nhằng cú pháp có thể bao gồm cả việc nhập nhằng về giới hạn của các câu Vì mỗi ngôn ngữ khác nhau có thể có các cách phân tách các câu khác nhau, thậm chí trong cùng một ngôn ngữ, việc xác định khi nào kết thúc một câu để bắt đầu một câu mới nhiều khi cũng có thể gây ra sự nhập nhằng.
Dữ liệu đầu vào không hoàn hảo hoặc bất thường: dữ liệu đầu vào của một hệ thống xử lý ngôn ngữ tự nhiên thường là không đồng nhất Đối với xử lý ngôn ngữ nói, khó khăn gặp phải đối với dữ liệu đầu vào là những giọng địa phương, tiếng nước ngoài và những sự trở ngại phát âm trong tiếng nói Mỗi khu vực có thể có các ngôn ngữ nói khác nhau, thậm chí trong một khu vực có cùng ngôn ngữ thì cũng có thể có các cách phát âm, giọng điệu khác nhau Đối với xử lý ngôn ngữ viết, dữ liệu đầu vào bất thường có thể xuất phát từ sự đánh máy lỗi, những lỗi văn phạm, những lỗi nhận dạng (OCR 1 ), vv… trong các văn bản.
Một hệ thống xử lý ngôn ngữ tự nhiên còn có thể gặp phải rất nhiều các khó khăn khác Ở trên là một số các khó khăn chủ yếu mà bất cứ một hệ thống xử lý ngôn ngữ tự nhiên nào cũng phải tìm cách xử lý khi xây dựng nếu muốn có được kết quả tốt.
1.1.3 Các bài toán chính trong xử lý ngôn ngữ tự nhiên
TÓM TẮT LỊCH SỬ PHÁT TRIỂN CỦA NLP
Các hướng nghiên cứu về NLP bắt đầu vào những năm cuối thập kỷ 40 Ứng dụng đầu tiên trên máy tính liên quan tới xử lý ngôn ngữ tự nhiên là dịch máy (Machine Translation - MT 1 ) Hai nhà khoa học Weaver và Booth là những người đã khởi tạo một trong các dự án sớm nhất vào năm 1946, với việc sử dụng máy tính để dịch dựa trên những kinh nghiệm của Weaver trong việc giải mã 2 Có một sự thống nhất chung trong lĩnh vực dịch máy khi cho rằng bản ghi nhớ của Weaver năm 1949 đã mang lại ý tưởng đầu tiên về dịch máy Ông đã tuyên bố sử dụng các ý tưởng từ các học thuyết về mã hóa và thông tin để áp dụng vào việc dịch ngôn ngữ. Trong những năm sau đó, các hướng nghiên cứu bắt đầu được triển khai trong các viện nghiên cứu khác nhau ở khắp nước Mỹ Hiệp hội RAND 3 bắt đầu nghiên cứu về dịch máy vào năm 1950, trường đại học MIT 4 vào năm 1951 Tiếp theo, trường đại học Georgetown (năm 1952) và trường đại học nổi tiếng Harvard (năm 1953) cũng tham gia vào cộng đồng dịch máy Không chỉ phát triển ở nước Mỹ, các nước khác trên thế giới cũng bị cuốn hút vào lĩnh vực này, USSR 5 tiến hành nghiên cứu dịch máy vào năm 1955 Năm 1958, Italia và Isarel bắt đầu các nghiên cứu đầu tiên về dịch máy Đến đầu tháng 4 năm 1959, trên toàn nước Mỹ đã có 11 nhóm nghiên cứu, ở Nga có 7 nhóm và 4 nhóm ở các nước khác, với sự tham gia của khoảng 220 nhà nghiên cứu và phát triển về dịch máy.
Các hướng nghiên cứu và các sản phẩm đầu tiên trong lĩnh vực dịch máy có một cái nhìn hết sức đơn giản: sự khác nhau giữa các ngôn ngữ chỉ tập trung vào tập các từ vựng của ngôn ngữ và quy tắc sắp xếp các từ Do đó, các hệ thống dịch dựa trên cách nhìn này đều được phát triển theo hướng sử dụng từ điển song ngữ để tìm kiếm các từ thích hợp cho việc dịch, sau đó sắp xếp lại thứ tự các từ sau khi dịch nhằm phù hợp với các luật về thứ tự của các từ trong ngôn ngữ đích Cách dịch này không quan tâm tới việc nhập nhằng từ vựng – là một yếu tố vốn có trong ngôn ngữ tự
1 Machine Translation: Dịch máy là một thuật ngữ để chỉ các hệ thống máy tính thực hiện việc chuyển đổi từ một ngôn ngữ này sang một ngôn ngữ khác, có thể có hoặc không có sự hỗ trợ của con người.
2 Warren Weaver là một chuyên gia về giải mật mã trong chiến tranh thế giới lần thứ hai.
3 Được thành lập ban đầu là một tổ chức phi chính phủ thực hiện đề nghị nghiên cứu của Quân đội Mỹ Sau đó tổ chức được mở rộng làm việc với nhiều tổ chức khác.
4 Massachusettes Institute of Technology: Học viện kỹ thuật Massachusettes nhiên, bởi vậy những hệ thống này thường mang lại các kết quả khá nghèo nàn Các kết quả không được như mong muốn này làm các nhà nghiên cứu nhận ra các công việc cần làm trong dịch máy là khó khăn hơn rất nhiều so với những dự tính trước đó, ngôn ngữ không chỉ đơn giản là tập các từ vựng và quy tắc sắp xếp các từ mà rất phức tạp, và cần phải có các học thuyết đầy đủ hơn về ngôn ngữ.
Các lý thuyết về cú pháp trong ngôn ngữ và các giải thuật phân tích phát triển mạnh mẽ vào cuối những năm 50 Tuy nhiên, phải đến năm 1957 khi Chomsky công bố cuốn sách có tựa đề Syntactic Structures giới thiệu ý tưởng về văn phạm sinh, thì những câu hỏi như ngôn ngữ học có thể trợ giúp cho dịch máy hay không, và làm thế nào ngôn ngữ học có thể trợ giúp cho dịch máy mới có lời giải đáp. Trong cuốn sách Syntactic Structures, Chomsky đã tạo ra văn phạm sinh nhằm mô tả hình thức ngôn ngữ tự nhiên Thông qua văn phạm sinh một số khái niệm của ngôn ngữ tự nhiên được biểu diễn rất đơn giản, dưới dạng máy tính có thể hiểu được Rất nhiều hệ dịch máy, phần lớn là theo hướng tiếp cận dựa trên luật đã sử dụng văn phạm Chomsky để mô tả ngôn ngữ và các quy tắc biến đổi ngữ pháp. Trong khoảng thời gian này, xử lý ngôn ngữ tự nhiên gần như tập trung vào tư tưởng sử dụng văn phạm sinh của Chomsky để mô hình hoá và xử lý ngôn ngữ.
Song song với dịch máy, các lĩnh vực ứng dụng NLP khác cũng bắt đầu xuất hiện, trong đó nổi bật lên là việc nhận dạng tiếng nói Xử lý ngôn ngữ và xử lý tiếng nói được chia thành hai hướng phát triển riêng biệt: các nghiên cứu trong lĩnh vực xử lý ngôn ngữ được chi phối bởi các học thuyết ngôn ngữ sinh văn phạm và không sử dụng các phương pháp thống kê; trong khi đó các hướng nghiên cứu trong lĩnh vực xử lý tiếng nói lại sử dụng các học thuyết thông tin thống kê, và không dùng đến các học thuyết về ngôn ngữ.
Sự phát triển của các giải thuật phân tích cú pháp trong các học thuyết về ngôn ngữ, đã dẫn đến sự phát triển mạnh mẽ của các hệ thống dịch máy vào những năm cuối thập niên 50 Và với việc giành được một số thành tựu ban đầu, người ta đã tin tưởng rằng các hệ thống dịch hoàn toàn tự động chất lượng cao có thể tạo ra các kết quả dịch không khác gì việc dịch của con người, và các hệ thống như thế sẽ được vận hành trong một tương lai rất gần Tuy nhiên, điều này không chỉ phi thực tế đối với các kiến thức ngôn ngữ và các hệ thống máy tính hiện có mà nó còn không khả thi về mặt lý thuyết Các hệ thống ra đời không đáp ứng được các kỳ vọng trước đó, văn phạm Chomsky cũng thể hiện rõ những hạn chế trong việc mô tả về xử lý ngữ nghĩa trong ngôn ngữ tự nhiên Sự không tương xứng giữa các hệ thống đang tồn tại cộng với các thất bại về dịch máy trong giai đoạn này đã dẫn đến bản báo cáo của ALPAC 1 vào năm 1966 Báo cáo kết luận rằng việc dịch máy không thể đạt được các thành quả ngay lập tức và khuyến nghị rằng nó không nên tiếp tục nhận được sự bảo hộ của chính phủ Điều này đã khiến hầu hết các dự án, các công trình nghiên cứu về dịch máy bị chững lại và kéo theo nó là sự dừng lại của hầu hết các ứng dụng khác trong NLP.
Mặc dù có sự giảm đi đáng kể các dự án và các nghiên cứu về NLP vào những năm sau báo cáo của APAC, vẫn có một vài thành tựu đáng chú ý, kể cả trong các vấn đề về lý thuyết và trong việc xây dựng các hệ thống thử nghiệm Các nghiên cứu về lý thuyết vào cuối những năm 60, đầu những năm 70 tập trung vào việc làm
1 Automatic Language Processing Advisory Committee of the National Academy of Science - NationalResearch Council: là tổ chức được thành lập năm 1964 bởi chính phủ Mỹ, bao gồm 7 nhà khoa học, đứng thế nào để biểu diễn ngữ nghĩa và phát triển các giải pháp dễ tính toán mà các học thuyết về cấu trúc cú pháp đã tồn tại trước đó chưa giải quyết được Năm 1965, Chomsky đã đề cập đến khả năng về một mô hình chuyển đổi ngôn ngữ Tuy nhiên, văn phạm sinh chuyển đổi là hướng cấu trúc cú pháp, nên không cho phép biều diễn được các vấn đề ngữ nghĩa Bản thân văn phạm sinh chuyển đổi cũng chưa đưa ra được mô hình phổ quát cho việc chuyển đổi bất kỳ cặp ngôn ngữ nào Ngoài ra chúng cũng không hỗ trợ cho việc tính toán Như một sự phản ứng lại học thuyết của Chomsky và các hướng nghiên cứu văn phạm sinh chuyển đổi, các lý thuyết khác như văn phạm cảm ngữ cảnh của Fillmore 1 , mạng ngữ nghĩa của Quillian 2 và lý thuyết phụ thuộc khái niệm của Schank 3 , được phát triển để giải thích sự bất thường về cấu trúc cú pháp và cung cấp các cách thể hiện ngữ nghĩa Mạng chuyển đổi bổ sung của Woods mở rộng thêm khả năng của việc phân tích cấu trúc cú pháp bằng cách kết hợp chặt chẽ kỹ thuật từ các ngôn ngữ lập trình như LISP Các dạng hình thức thể hiện khác bao gồm: biểu diễn ngữ nghĩa của Wilks và cấu trúc cú pháp theo chức năng của Kay.
Song song với việc phát triển các học thuyết, rất nhiều các hệ thống thử nghiệm cũng được phát triển để chứng minh cho tính hiệu quả của các nguyên lý cụ thể. Chương trình ELIZA của Weizenbaum được xây dựng năm 1966 nhằm tạo ra một bản mô phỏng cuộc đàm thoại giữa một bác sỹ tâm lý với bệnh nhân Hệ thống này hoạt động khá đơn giản, bằng việc hoán vị các từ hoặc bắt chước theo câu mà người dùng đưa vào Hệ thống SHRDLU của Terry Winograd năm 1972 tại trường đại học MIT mô phỏng một con robot có thể di chuyển đồ vật theo yêu cầu Mặc dù còn có nhiều hạn chế nhưng nó đã cho thấy việc hiểu ngôn ngữ tự nhiên là hoàn toàn có thể đối với máy tính PARRY là ứng dụng được viết năm 1972 bởi nhà tâm lý Kenneth Colby, chức năng của nó tương tự như ELIZA, nó là một hệ thống thể hiện các lý thuyết về bệnh hoang tưởng Tuy nhiên, thay vì các từ khóa đơn, nó đã sử dụng một nhóm các từ khóa và đã sử dụng các từ đồng nghĩa nếu từ khóa không được tìm thấy Năm 1973 nhà khoa học Woods phát triển hệ thống LUNAR, đây là một hệ thống giao tiếp với cơ sở dữ liệu lưu trữ các thông về các mẫu đá trên mặt trăng Hệ thống LUNAR sử dụng mạng chuyển đổi có các tham số bổ sung và biểu diễn các ngữ nghĩa theo luật.
Vào những năm cuối của thập kỷ 70, các mối quan tâm chuyển sang các vấn đề về ngữ nghĩa, về văn cảnh, các mục tiêu và dàn ý trong hoạt động trong giao tiếp. Grosz đã phân tích các đoạn hội thoại theo hướng tác vụ và đề xuất một lý thuyết nhằm phân đoạn văn cảnh thành các đơn vị dựa trên dấu hiệu mà bà đã tìm ra Các dấu hiệu này chính là mối quan hệ về cấu trúc của một tác vụ với cấu trúc của các đoạn hội thoại hướng tác vụ Mann and Thompson đã phát triển học thuyết
“Rhetorical Structure Theory”, chuyển đổi các kiến trúc thừa kế về các văn cảnh cụ thể Ngoài ra, các hướng nghiên cứu khác của Hobbs và Rosenschein, Polanyi và Scha, Reichman cũng có những đóng góp rất đáng kể vào sự phát triển của NLP. Bên cạnh các mối quan tâm về NLP, trong giai đoạn này còn các mối quan tâm khá đáng kể đến các nghiên cứu trong việc tạo ra ngôn ngữ tự nhiên Bản thiết kế văn cảnh – TEXT – của McKeown và công cụ sinh phản hồi – MUMMBLE – của McDonald đã sử dụng các dự đoán thuộc tu từ học để tạo ra các đoạn tường thuật
1 Charles J Fillmore sinh năm 1929, là nhà ngôn ngữ học người Mỹ.
2 M Ross Quillian, giáo sư khoa khoa học chính trị, trường đại học California.
3 Roger C.Schank, giáo sư khoa khoa học máy tính trường đại học Carnegie Mellon là một trong những nhà luôn luôn là các đoạn văn dưới dạng các đoạn văn bản ngắn Khả năng được xem như thành quả chính của TEXT là sinh ra một cách trực tuyến các phản hồi mạch lạc có cấu trúc rất chặt chẽ.
Vào đầu những năm 80, có được động lực bởi khả năng sẵn có về giới hạn của các nguồn tài nguyên tính toán, các thành quả trong việc giải quyết các vấn đề của NLP mà trước đó bị hạn chế, và nhìn chung các ứng dụng hướng tới thực hiện xử lý trên các ngôn ngữ trong một lĩnh vực rộng hơn, văn cảnh gần thế giới thực hơn, thì các hướng nghiên cứu trong NLP đã bắt đầu xem xét lại các hướng tiếp cận bất đối xứng đã bị mất tính phổ biến ở trong giai đoạn trước Vào cuối những năm 80, các vấn đề trong NLP phần lớn được giải quyết bằng hướng tiếp cận đối xứng và các hướng tiếp cận thống kê được xem như là một công cụ để hoàn thành rất nhiều các khía cạnh khác nhau trong các hướng tiếp cận đối xứng.
CÁC MỨC TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Phương pháp giải thích rõ ràng nhất cho những gì thực sự xảy ra trong các hệ thống NLP là phương pháp tiếp cận theo “các mức của ngôn ngữ” Hướng tiếp cận này được xem như là mô hình đồng bộ của ngôn ngữ, và nó biểu lộ những đặc tính vượt trội hơn so với các mô hình tuần tự trước đó; điều này đưa ra một giả thuyết rằng các mức trong xử lý ngôn ngữ tự nhiên đều theo sau một mức khác theo một thứ tự chặt chẽ Các hướng nghiên cứu thuộc ngôn ngữ tâm lý chỉ ra rằng việc xử lý ngôn ngữ có khả năng có sự linh động rất cao, các mức có thể tương tác theo rất nhiều các mức độ, cấp bậc khác nhau Khi xem xét khía cạnh nội tâm các nhà khoa học đã khám phá ra rằng: con người thường sử dụng thông tin mà họ có được từ những trường hợp riêng khi suy nghĩ ở các mức cao trong quá trình xử lý để hỗ trợ cho việc việc phân tích ở mức thấp hơn Ví dụ, khi bắt gặp một từ cụ thể có nhiều nghĩa khác nhau, nếu trước đó họ có những hiểu biết thực tế đối với văn cảnh sử dụng của tài liệu chứa từ đó thì từ đó sẽ được hiểu theo nghĩa tương ứng.
Mô tả về các mức ngôn ngữ khác nhau sẽ được trình bày lần lượt dưới đây.Điểm chính ở đây là ngữ nghĩa sẽ được chuyển qua lần lượt tất cả các mức của ngôn ngữ và bởi vậy con người đã được dẫn dắt để sử dụng tất cả các mức của ngôn ngữ nhằm đạt được sự hiểu biết nhiều hơn về khả năng của một hệ thống NLP, cũng như hiểu nhiều hơn về các mức ngôn ngữ mà nó sử dụng.
Mức này xử lý các thể hiện của ngôn ngữ nói thông qua các từ Trong thực tế có ba dạng luật được sử dụng trong việc phân tích âm vị đó là: các quy luật ngữ âm, các quy luật âm vị, và các luật ngôn điệu.
Các quy luật ngữ âm: là các quy luật được áp dụng đối với các âm trong các từ.
Các quy luật âm vị: quy luật này được sử dụng đối với các cách phát âm khác nhau khi các từ được phát âm cạnh nhau.
Các luật ngôn điệu: là các quy định về sự thay đổi ngữ điệu khi phát âm đối với các câu.
Trong một hệ thống NLP chấp nhận đầu vào là giọng nói, sóng âm được phân tích mà mã hóa thành tín hiệu số thông qua các luật khác nhau hoặc bằng cách so sánh các mô hình ngôn ngữ cụ thể được áp dụng.
Mức hình thái học xử lý các thành phần hợp thành tự nhiên của các từ, nó bao gồm các hình vị – đơn vị nhỏ nhất có nghĩa Ví dụ từ “preregistration” trong tiếng Anh có thể được phân tích hình thái thành ba hình vị khác nhau: tiền tố “pre”, từ gốc “registra”, và hậu tố “tion” Vì vậy nghĩa của mỗi hình vị phản ánh một phần nào đó nghĩa của từ Một từ chưa biết nghĩa có thể được phân tích thành các hình vị cấu thành lên nó sau đó nghĩa của nó sẽ được hiểu thông qua nghĩa của các hình vị thành phần Theo cách hoàn toàn tương tự, một hệ thống NLP có thể nhận ra nghĩa được truyền đạt bởi mỗi hình vị để thu được và biểu diễn nghĩa của từ Ví dụ, việc thêm hậu tố “ed” vào sau động từ trong tiếng Anh, cung cấp thông tin rằng hành động đó được thực hiện trong quá khứ Đây là điểm nhấn cốt lõi của ngữ nghĩa, và thông thường trong thực tế các động từ thể hiện các hành động trong quá khứ chỉ được nhận ra trong văn bản bằng việc sử dụng hình vị “ed”.
1.3.3 Mức từ vựng Ở mức từ vựng, con người cũng như các hệ thống NLP đều làm việc với ngữ nghĩa của các từ đơn Một vài dạng khác nhau của tiến trình xử lý góp phần vào việc “hiểu” ở mức từ vựng (word – level) – dạng đầu tiên trong số các dạng này là gán một nhãn từ loại đơn (part of speech) tới mỗi từ Trong dạng xử lý này, các từ có thể được gán nhiều hơn một nhãn từ loại Trong trường hợp từ được gán nhiều hơn một từ loại thì nó sẽ được gán một nhãn từ loại phù hợp nhất – trong số các nhãn từ loại có thể gán cho nó – dựa vào ngữ cảnh mà nó xuất hiện Ngoài ra, khi xử lý ở mức từ vựng, các từ có thể được gán nhiều hơn một từ loại chỉ có thể có một ngữ nghĩa hoặc ngữ nghĩa sẽ được thay thế bằng một mô tả ngữ nghĩa của nghĩa đó. Các dạng mô tả ngữ nghĩa khác nhau tuân theo học thuyết ngữ nghĩa được sử dụng trong hệ thống NLP Ví dụ, trong tiếng Anh, mô tả ngữ nghĩa của từ “lauch” dưới đây là một dạng vị ngữ logic Như được trình bày trong ví dụ bên dưới, một đơn vị từ vựng đơn có thể được phân tách thành các thuộc tính cơ bản hơn của nó Dựa vào đó, có một tập các nguyên tố ngữ nghĩa được sử dụng cho tất cả các từ Thông qua các biểu diễn từ vựng đơn giản này, tất cả các từ sẽ thống nhất về mặt ngữ nghĩa và đem lại khả năng có thể tạo ra các thể hiện phức tạp hơn từ các thuộc tính cơ bản,tương tự như cách mà con người làm. launch (a large boat used for carrying people on rivers, lakes harbors, etc.) ((CLASS BOAT) (PROPERTIES (LARGE)
(PURPOSE (PREDICATION (CLASS CARRY) (OBJECT PEOPLE))))
Xử lý ở mức từ vựng có thể cần một tập các từ vựng, và cách tiếp cận cụ thể của một hệ thống NLP sẽ xác định tập từ vựng đó có được sử dụng hay không, cũng như có sử dụng hay không các thông tin vốn có, các thông tin mở rộng mà từ vựng mang lại Các từ có thể khá đơn giản, chỉ bao gồm các từ và từ loại của chúng, hoặc có thể có một chút phức tạp hơn như chứa các thông tin về các lớp ngữ nghĩa của từ, những tham số gì mà nó có và các giới hạn ngữ nghĩa dựa trên các tham số đó, sự định nghĩa của các nghĩa trong mô tả ngữ nghĩa được sử dụng trong các hệ thống cụ thể, và thậm chí là các trường ngữ nghĩa trong đó mỗi một nghĩa trong số các nghĩa có thể của một từ đa nghĩa được sử dụng.
Xứ lý ở mức cú pháp tập trung vào việc phân tích các từ trong các câu khi phát hiện ra cấu trúc cú pháp của câu Để thực hiện việc phân tích các từ hệ thống cần phải có một bộ văn phạm của ngôn ngữ tương ứng và một bộ phân tích cấu trúc cú pháp Kết quả của tiến trình xử lý ở mức này là một mô tả thể hiện cho các mối quan hệ giữa các từ phụ thuộc cấu trúc của câu Có nhiều dạng cấu trúc cú pháp khác nhau có thể được sử dụng, và việc lựa chọn cấu trúc cú pháp nào sẽ ảnh hưởng đến việc lựa chọn bộ phân tích Không phải tất cả các ứng dụng NLP có thể có một bộ phân tích đầy đủ các câu, bởi vậy cần phải giải quyết các khó khăn gặp phải khi thực hiện việc gán và kết hợp phạm vi trong việc phân tích các mệnh đề trước đó. Điều này càng trở lên khó khăn hơn khi có sự phụ thuộc chặt chẽ, đầy đủ vào các mệnh đề và các câu Cấu trúc cú pháp phản ánh ngữ nghĩa trong hầu hết các ngôn ngữ tuân theo cấp bậc và sự phụ thuộc vào các thành phần cấu thành lên ngữ nghĩa.
Ví dụ, xem xét hai câu trong tiếng Anh: “The dog chased the cat” và “The cat chased the dog”, hai câu này có cấu trúc cú pháp khác nhau và từ đó dẫn đến ngữ nghĩa của chúng là khác nhau.
Hầu hết mọi người đều nghĩ ở mức này ngữ nghĩa mới được xác định, tuy nhiên theo định nghĩa về các mức trong xử lý ngôn ngữ tự nhiên thì tất cả các mức đều góp phần vào việc hình thành lên ngữ nghĩa Xử lý ngữ nghĩa sẽ xác định các ngữ nghĩa có thể của một câu bằng cách xử lý tập trung trên sự tác động tương tác qua lại, ảnh hưởng lẫn nhau giữa các ngữ nghĩa ở mức từ (word - level) trong câu Mức này của tiến trình xử lý có thể chứa sự nhập nhằng về ngữ nghĩa của các từ đa nghĩa; hoàn toàn tương tự như thế có thể có sự nhập nhằng về cú pháp của các từ.Điều này được xuất hiện khi có nhiều từ loại có thể gán cho một từ ở mức cú pháp.Giải quyết sự nhập nhằng ngữ nghĩa có nghĩa là cho phép một và chỉ một nghĩa trong số các nghĩa có thể của các từ đa nghĩa được lựa chọn và được đưa vào trong các thể hiện ngữ nghĩa của câu Ví dụ, từ “file” trong tiếng Anh có thể có nhiều nghĩa khác nhau, “file” có thể là một danh từ dùng để mô tả một mục chứa các bài báo, hoặc nó cũng có thể là một công cụ để chỉnh sửa, định dạng móng tay, hoặc nó còn có thế mang nghĩa là một dòng đơn trong hàng đợi Nếu những thông tin trong phần còn lại của câu là cần thiết cho việc giải quyết, làm rõ sự nhập nhằng thì, việc giải quyết nhập nhằng ở đây được thực hiện ở mức ngữ nghĩa chứ không phải ở mức từ vựng Có rất nhiều các phương pháp khác nhau có thể được áp dụng để giải quyết sự nhập nhằng Một số phương pháp cần thông tin về tần suất xuất hiện của mỗi câu trong tập mẫu cụ thể, hoặc thông tin về các cách sử dụng thông thường của câu Một số phương pháp cần xem xét văn cảnh cục bộ, còn một số khác lại cần sử dụng các thông tin về hiểu biết thực tế đối với ngữ cảnh sử dụng hiện tại của văn bản có chứa câu cần giải quyết sự nhập nhằng.
Trong khi xử lý ở các mức cú pháp và mức ngữ nghĩa làm việc với đơn vị là độ dài của câu (sentence – length), thì mức văn cảnh trong xử lý ngôn ngữ tự nhiên làm việc với các đơn vị là các đoạn văn bản dài hơn một câu Điều này có nghĩa là không thể xem xét một đoạn văn bản bao gồm nhiều câu chỉ là sự ghép nối đơn giản của các câu Mỗi câu trong đoạn văn bản không thể chỉ được hiểu đơn thuần một cách độc lập mà phải xem xét chúng trong các mối quan hệ ràng buộc với các câu khác trong cùng đoạn văn bản Hay nói cách khác, các xử lý ở mức văn cảnh xử lý trên các thuộc tính của văn bản, xem xét văn bản như một tổng thể được cấu thành bởi các câu thành phần và các mối quan hệ ràng buộc giữa chúng Ở mức này có thể có một vài dạng xử lý khác nhau, hai dạng xử lý phổ biến là giải quyết trùng lặp và nhận diện cấu trúc của văn cảnh Giải quyết trùng lặp sẽ thay thế các từ như các đại từ, với các nghĩa bị khuyết, bằng các thực thể thích hợp mà chúng tham chiếu đến Ví dụ, trong tiếng Anh, các đại từ như “they”, “it”, vv… có thể được sử dụng để thay thế cho các đối tượng khác nhau đã được đề cập đến ở tình huống trước đó trong văn cảnh, nhiệm vụ của giải quyết trùng lặp là xác định xem các đại từ đó thực sự tham chiếu đến đối tượng nào trong số các đối tượng đã được đề cập Sự nhận diện cấu trúc của văn cảnh sẽ xác định chức năng của các câu trong văn bản, bổ sung các biểu diễn có ý nghĩa đầy đủ của văn bản Ví dụ, các bài báo có thể được cấu trúc thành các thành phần khác nhau như: phần đầu, phần thân chính, các sự kiện trước đó, các đánh giá, các đoạn trích dẫn và các đề xuất, góp ý.
Việc xử lý ở mức ngữ cảnh tập trung quan tâm đến mục đích sử dụng của ngôn ngữ trong các tình huống và văn cảnh dựa trên hiểu biết, hướng nhìn tổng quan về nội dung của văn bản Mục đích của nó là giải thích cách làm thế nào để mở rộng phạm vi nhìn nhận để có được ngữ nghĩa trong các văn bản mà không được chỉ căn cứ vào những gì mà nó thực sự diễn đạt Hay nói cách khác, để hiểu được ngữ nghĩa của một đoạn văn nào đó không chỉ căn cứ vào các thông tin bản thân đoạn văn đó cung cấp, mà cần sử dụng thêm các thông tin bên ngoài Điều này cần sự hiểu biết rất nhiều về thế giới bên ngoài bao gồm những hiểu biết về các khái niệm, các dàn ý, dự kiến, kế hoạch, mục đích của đoạn văn Một vài ứng dụng NLP có thể sử dụng các tri thức nền tảng hoặc các tri thức được rút ra từ các module Ví dụ, hai câu sau trong tiếng Anh dưới đây cần giải quyết sự trùng lặp của từ “they”, tuy nhiên không thể chỉ căn cứ vào văn cảnh mà đoạn văn cung cấp để giải quyết vấn đề này Để giải quyết được sự trùng lặp trong tình huống này cần phải sử dụng các thông tin, các hiểu biết về thực tế, cũng như các kiến thức thế giới bên ngoài.
Câu thứ nhất: “The city councilors refused the demonstrators a permit because they feared violence”. Câu thứ hai: “The city councilors refused the demonstrators a permit because they advocated revolution”
Tóm lại, đối với các mức trong xử lý ngôn ngữ tự nhiên, các hệ thống xử lý ngôn ngữ tự nhiên hiện tại đang hướng tới việc cài đặt các module để thực hiện các công việc chính ở các mức thấp hơn trong quá trình xử lý Việc cài đặt các module để thưucj hiện các công việc ở mức thấp là bởi một ba lý do cơ bản Trước tiên, các ứng dụng ở mức cao không cần thiết phải hiểu quá sâu sắc và rõ ràng những gì được thực hiện ở mức thấp, các ứng dụng chỉ cần quan tâm tới việc mức dưới cung cấp cho chúng những chức năng gì, mà không cần biết đến cách thức thực hiện cụ thể để hoàn thành chức năng đó Thứ hai, xử lý ở các mức thấp hơn đã được nghiên cứu thấu đáo và đầy đủ hơn, do đó có thể được đóng gói thành các module để cung cấp chức năng cho các lớp cao hơn, và dễ dàng cho việc tái sử dụng Thứ ba, các mức thấp hơn xử lý phân tích với các đơn vị nhỏ hơn, ví dụ như hình vị, các từ và các câu, việc xử lý trên các đơn vị này bị chi phối bởi luật, điều này hoàn toàn đối lập với mức cao trong tiến trình xử lý ngôn ngữ - các mức này xử lý các văn bản dựa trên các hiểu biết về thực tế và thế giới bên ngoài.
Xử lý ngôn ngữ tự nhiên có một số hướng tiếp cận khác nhau Hiện nay, các hướng tiếp cận thống kê (statistical approache) là hướng tiếp cận được sử dụng chủ yếu để phân tích ở mức thấp trong quá trình xử lý Trong khi đó ở hướng tiếp cận biểu tượng (symbolic approache) việc xử lý được thực hiện trên tất cả các mức, mặc dù ở hướng tiếp cận này vẫn có một vài hệ thống tích hợp việc xử lý với các mức cao hơn Phần tiếp theo sẽ trình bày chi tiết về các hướng tiếp cận trong xử lý ngôn ngữ tự nhiên.
CÁC HƯỚNG TIẾP CẬN TRONG NLP
Các hướng tiếp cận trong xử lý ngôn ngữ tự nhiên được chia thành bốn loại: hướng tiếp cận biểu tượng, hướng tiếp cận thống kê, hướng tiếp cận kết nối và hướng tiếp cận lai ghép Các hướng tiếp cận biểu tượng và thống kê đã đồng thời tồn tại từ khi bắt đầu xuất hiện lĩnh vực xử lý ngôn ngữ tự nhiên Hướng tiếp cận kết nối trong NLP xuất hiện đầu tiên vào những năm 60 Trong một thời gian dài hướng tiếp cận biểu tượng chiếm ưu thế vượt trội và là hướng tiếp cận có ảnh hưởng lớn trong trong lĩnh NLP Tuy nhiên, vào những năm 80, với sự phát triển mạnh mẽ của các nghành khoa học tính toán, các hướng tiếp cận thống kê dần dần giành lại được ưu thế và tầm ảnh hưởng dựa trên tính sẵn có của các nguồn tài nguyên tính toán và các yêu cầu đặt ra trong NLP là phải xử lý ngôn ngữ ở các ngữ cảnh rộng hơn và gần với thế giới thực hơn Các hướng tiếp cận kết nối được khôi phục lại – hướng tiếp cận này đã bị tạm dừng từ giai đoạn trước do các chỉ trích – thông qua việc mô phỏng ứng dụng mạng thần kinh trong NLP Các phần tiếp theo dưới đây sẽ nghiên cứu mỗi hướng tiếp cận về bản chất, các công nghệ tiêu biểu, sự khác nhau về khía cạnh xử lý và hệ thống, các mặt mạnh, tính mềm dẻo, và sự phù hợp của mỗi hướng tiếp cận với các yêu cầu cụ thể khác nhau.
1.4.1 Hướng tiếp cận biểu tượng
Hướng tiếp cận biểu tượng phân tích ngôn ngữ tự nhiên theo chiều sâu và dựa trên các mô tả rõ ràng các cách sử dụng thực tế về ngôn ngữ thông qua các lược đồ mô tả tri thức đã biết trước đó các lược đồ và kết hợp các thuật toán Trong thực tế, mô tả về các mức phân tích ngôn ngữ trong phần trước được xem xét từ khía cạnh biểu tượng Dấu hiệu chính để nhận biết ra các hệ thống xử lý ngôn ngữ tự nhiên dựa trên hướng tiếp cận biểu tượng là tập các luật và tập các từ vựng.
Các ví dụ về hướng tiếp cận biểu tượng có thể được tìm thấy trong các hệ thống dựa trên logic (logic – based system) hoặc các hệ thống dựa trên luật (rule – based system) Trong các hệ thống dựa trên logic, cấu trúc biểu tượng được mô tả dưới dạng các mệnh đề logic Việc thao tác của các cấu trúc như thế được xác định bằng việc tham chiếu đến các phép toán, các thủ tục có sẵn Các hệ thống dựa trên luật, luôn luôn bao gồm một tập các luật, một bộ giao diện, và một không gian làm việc trong bộ nhớ Trong các hệ thống dựa trên luật, tri thức được biểu diễn thông qua các luật Hệ thống sẽ thực hiện lặp qua tập các luật và lựa chọn luật thỏa mãn một điều kiện nào đó, sau đó luật đã lựa chọn sẽ được thực hiện Một ví dụ khác cho hướng tiếp cận dựa trên biểu tượng là mạng ngữ nghĩa Mạng ngữ nghĩa lần đầu tiên được đề xuất bởi Quilliant nhằm mô hình hóa sự kết hợp trí nhớ trong tâm lý học. Mạng ngữ nghĩa biểu diễn tri thức thông qua một tập các nút đại diện cho các đối tượng hoặc các khái niệm và các liên kết được gán nhãn nhằm mô tả mối quan hệ giữa các nút Cấu tạo tổ chức ngữ nghĩa được phản ánh thông qua các dạng mẫu hình kết nối khác nhau Các khái niệm có sự kết hợp chặt chẽ sẽ được liên kết trực tiếp trong khi các khái niệm có mối liên quan ở mức độ vừa phải hoặc yếu sẽ được liên kết thông qua các khái niệm trung gian Mạng ngữ nghĩa được sử dụng rộng rãi để biểu diễn cho tri thức có cấu trúc và đây là một mô hình rất hay được sử dụng đối với hướng tiếp cận biểu tượng.
Hướng tiếp cận biểu tượng đã được sử dụng trong một vài thập kỷ khác nhau, trong các lĩnh vực nghiên cứu và các ứng dụng như trích xuất thông tin, phân loại văn bản, giải quyết nhập nhằng và thu nhận từ vựng, vv… Phát triển theo hướng tiếp cận này có nhiều công nghệ khác nhau, các công nghệ tiêu biểu phát triển theo hướng tiếp cận này bao gồm:
Học dựa trên ví dụ
Chương trình quy nạp logic
Các giải thuật, giải thuật K láng giềng gần nhất
1.4.2 Hướng tiếp cận thống kê
Hướng tiếp cận thống kê sử dụng các công nghệ khác nhau trong lĩnh vực toán học Hướng tiếp cận này thường sử dụng một tập mẫu văn bản rất lớn để phát triển các mô hình tổng quát gần đúng của hiện tượng thuộc ngôn ngữ học dựa trên các tập mẫu thực sự của các hiện tượng này được cung cấp bởi tập mẫu văn bản, do đó hướng tiếp cận thống kê trong xử lý ngôn ngữ tự nhiên không cần phải có sự bổ sung thêm các hiểu biết về ngôn ngữ hoặc các tri thức về thế giới bên ngoài Đối lập với hướng tiếp cận dựa trên hình tượng – hướng tiếp cận dựa trên dựa trên cách sử dụng thực tế của ngôn ngữ, hướng tiếp cận dựa trên thống kê sử dụng các dữ liệu trong tập mẫu văn bản làm cơ sở chính để thực hiện các thao tác xử lý.
Mô hình thống kê thường được sử dụng là mô hình Markov ẩn (Hidden Markov Model – HMM) được kế thừa từ các nghiên cứu trong lĩnh vực tiếng nói Mô hình Markov ẩn là một máy automat hữu hạn, nó có một tập các trạng thái, và một tập các xác suất về khả năng dịch chuyển giữa các trạng thái Mặc dù đầu ra có thể quan sát được, nhưng bản thân các trạng thái lại không thể quan sát một cách trực tiếp. Bởi vậy, nó được coi là “ẩn” đối với các quan sát từ bên ngoài Mỗi trạng thái tạo ra một đầu ra có thể nhìn thấy với một xác suất nhất định.
Các hướng tiếp cận thống kê hiện đang là hướng tiếp cận được sử dụng nhiều và tầm ảnh hưởng lớn, do những thành tựu to lớn mà nó đã giải quyết được trong xử lý ngôn ngữ tự nhiên Rất nhiều vấn đề trong xử lý ngôn ngữ tự nhiên đã được giải quyết bằng cách tiếp cận thống kê, và các ứng dụng phát triển theo hướng tiếp cận này rất phong phú và đa dạng Các ứng dụng tiêu biểu phát triển theo hướng này bao gồm:
Phân tích, gán nhãn từ loại.
Học ngữ pháp thống kê
1.4.3 Hướng tiếp cận kết nối
Tương tự như hướng tiếp cận thống kê, các hướng tiếp cận kết nối tạo ra các mô hình tổng quát từ tập mẫu trong các hiện tượng thuộc ngôn ngữ học Tuy nhiên, điều tạo ra sự khác biệt giữa các phương pháp kết nối với các phương pháp thống kê là các mô hình kết nối kết hợp các lý thuyết trong thống kê với các dạng học thuyết mô tả khác nhau, bởi thế các mô tả kết nối cho phép chuyển đổi, rút ra kết luận và tính toán dựa trên các công thức logic Ngoài ra, trong các hệ thống kết nối, việc xem xét các mô hình ngôn ngữ là khó hơn vì sự thật là các kiến trúc kết nối có ít ràng buộc hơn các kiến trúc thống kê Trong trường hợp tổng quát, một mô hình kết nối là một mạng kết nối của các đơn vị xử lý đơn, với trọng số của đường liên kết giữa các đơn vị là lượng tri thức cần lưu trữ Để thu được kết quả xử lý toàn cục trong hệ thống, quá trình xử lý cần phải thông qua các tương tác cục bộ giữa các đơn vị đơn trong hệ thống với các mối liên hệ đã được xác định trước.
Một vài mô hình kết nối được gọi là các mô hình liên kết danh sách cục bộ, các mô hình này giả định rằng mỗi đơn vị mô tả cho một khái niệm cụ thể Ví dụ, trong tiếng Anh, một đơn vị có thể mô tả cho khái niệm “mammal”, trong khi một đơn vị khác có thể biểu diễn cho khái niệm “whale” Mối quan hệ giữa các khái niệm được lưu trữ thành trọng số kết nối giữa các khái niệm này Tri thức trong các mô hình này được trải rộng, phân tán thông qua mạng, và sự liên kết giữa các đơn vị phản ánh mối quan hệ cấu trúc của chúng Các mô hình danh sách cục bộ thường khá giống với các mạng ngữ nghĩa, nhưng các liên kết giữa các đơn vị trong các mô hình danh sách cục bộ không được gán nhãn như trong các mạng ngữ nghĩa Các mô hình danh sách cục bộ thực hiện tốt công việc như:
Giải quyết nhập nhằng từ.
Giải quyết nhập nhằng nghĩa.
Khắc phục giới hạn của các kết luận.
Ngoài các mô hình liên kết danh sách cục bộ, có một dạng các mô hình kết nối khác được gọi là các mô hình phân tán Khác với các mô hình cục bộ, mỗi khái niệm trong mô hình phân tán được mô tả bằng một hàm của các hoạt động đồng thời trong nhiều đơn vị đơn Một đơn vị riêng biệt chỉ tham gia mô tả cho một khái niệm Các mô hình này là phù hợp với các công việc trong NLP như:
Phân tích cấu trúc cú pháp.
Nhiệm vụ dịch trong các miền bị giới hạn.
Tìm kiếm sự kết hợp.
1.4.4 So sánh các hướng tiếp cận
Từ các phần đã trình bày ở trên về các hướng tiếp cận trong NLP, có thể thấy rằng: sự giống nhau hay khác nhau giữa các hướng tiếp cận nằm ở khái niệm về các giả định của chúng, bản chất và tập nguồn dữ liệu được sử dụng Ngoài ra sự giống nhau hay khác nhau giữa các hướng tiếp cận có thể được phản ánh trong quá trình xử lý của mỗi hướng tiếp cận, cũng như về khía cạnh hệ thống, tính ưu, nhược điểm, sự mềm dẻo và sự phù hợp với từng tác vụ cụ thể. a) Tiến trình xử lý: mặc dù các hướng tiếp cận có các đặc điểm khác nhau nhưng việc sử dụng các hướng tiếp cận này đều tuân theo một tập các bước chung, cụ thể là, thu thập dữ liệu, xây dựng mô hình/ phân tích dữ liệu, xây dựng cấu trúc dữ liệu/ các luật, và áp dụng các luật/ dữ liệu trong hệ thống Giai đoạn thu thập dữ liệu đóng vai trò then chốt đối với cả ba hướng tiếp cận mặc dù các hướng tiếp cận thống kê và các hướng tiếp cận kết nối cần nhiều dữ liệu hơn các hướng tiếp cận biểu tượng Trong giai đoạn xây dựng mô hình/ phân tích dữ liệu, các hướng tiếp cận biểu tượng dựa trên sự phân tích dữ liệu để thiết lập giả thuyết, trong khi các hướng tiếp cận thống kê là việc xác định thủ công một mô hình thống kê, mô hình thống kê này là một tổng hợp gần đúng của các dữ liệu đã được thu thập Các hướng tiếp cận kết nối xây dựng một mô hình kết nối từ dữ liệu thu thập được trong giai đoạn trước – giai đoạn thu thập dữ liệu Trong giai đoạn xây dựng luật/ dữ liệu, các công việc thủ công ảnh hưởng cụ thể đến hướng tiếp cận biểu tượng và các giả thuyết đã được thiết lập trong bước trước có thể được cải tiến khi gặp phải một trường hợp mới Đối lập với hướng tiếp cận biểu tượng, các hướng tiếp cận thống kê và các hướng tiếp cận kết nối sử dụng mô hình thống kê và mô hình kết nối như một sự chỉ đạo, hướng dẫn và xây dựng các luật hoặc các phần tử dữ liệu một cách tự động Sau khi xây dựng các luật và các mục dữ liệu, tất cả các hướng tiếp cận sau đó tự động sử dụng chúng vào các nhiệm vụ cụ thể trong hệ thống Ví dụ, các hướng tiếp cận kết nối có thể áp dụng các luật để làm mịn dần các trọng số của các đường liên kết giữa các đơn vị. b) Các khía cạnh hệ thống: khi xem xét các khía cạnh hệ thống chúng ta quan tâm đến nguồn gốc của dữ liệu, các học thuyết hoặc mô hình được thiết lập từ việc phân tích dữ liệu, các luật và nền tảng cho việc đánh giá.
Dữ liệu: các hướng tiếp cận biểu tượng sử dụng dữ liệu theo hướng phân tích chiều sâu nội tâm của con người, do đó dữ liệu không thể nhìn thấy một cách trực tiếp Các hướng tiếp cận thống kê và các hướng tiếp cận kết nối được xây dựng dựa trên việc xem xét các dữ liệu sẵn có, thông tin luôn luôn được trích xuất ra từ một tập văn bản mẫu.
Giả thuyết hoặc mô hình dựa trên phân tích dữ liệu: giả thuyết hoặc mô hình được thiết lập trong các hướng tiếp cận là kết quả của việc phân tích dữ liệu Một giả thuyết được thiết lập cho các hướng tiếp cận biểu tượng, trong khi một mô hình toán học được thiết lập cho các hướng tiếp cận thống kê và một mô hình kết nối được thiết lập cho các hướng tiếp cận kết nối.
Các luật: đối với các hướng tiếp cận biểu tượng, giai đoạn xây dựng các luật luôn luôn đưa ra kết quả là các luật với các điều kiện cụ thể mà các luật được sử dụng Đối với các hướng tiếp cận thống kê, điều kiện áp dụng các luật luôn luôn được thể hiện ở mức bề mặt ngoài hoặc được xác định ở mức lý thuyết Đối với các hướng tiếp cận kết nối, có thể không nhận ra các luật đối với từng đơn vị đơn lẻ.
Cơ sở cho việc đánh giá: việc đánh giá trong các hệ thống biểu tượng được xác đinh dựa trên sự đánh giá trực giác về các chủ đề không liên kết và có thể sử dụng các độ đo thuộc về bản thân nội tại hệ thống – ví dụ: sự gia tăng về số lượng các luật – để để thực hiện việc đánh giá Ngược lại, cơ sở cho việc đánh giá trong các hệ thống thống kê và kết nối luôn luôn thiết lập cách tính điểm số đánh giá dựa trên một số hàm đánh giá khác nhau Tuy nhiên, nếu tất cả các hướng tiếp cận được sử dụng để thực hiện cùng một thao tác xử lý thì các kết quả của các quá trình xử lý có thể được đánh giá theo cả hai mặt về mặt số lượng và về chất lượng, và sau đó các đánh giá này được so sánh với nhau để có được đánh giá, so sánh các kết quả của các hướng tiếp cận. c) Ưu, nhược điểm: khi xem xét khả năng cũng như các hạn chế của các hướng tiếp cận khác nhau Các hệ thống dựa trên hướng tiếp cận biểu tượng có thể dễ đổ vỡ khi được sử dụng để xử lý dữ liệu đầu vào không thông dụng hoặc dữ liệu đầu vào có chứa nhiều thông tin thừa Để xử lý sự dị thường của dữ liệu đầu vào trong các hệ thống biểu tượng, có thể ngăn chặn trước các trở ngại này bằng cách tạo ra các cấu trúc cú pháp chung đối với định đạng của tất cả các dữ liệu đầu vào Dữ liệu đầu vào sẽ được định dạng theo các cấu trúc có sẵn, do đó sẽ ngăn chặn được sự không đồng nhất của dữ liệu đầu vào khi xử lý theo hướng tiếp cận biểu tượng Khi so sánh với các hệ thống biểu tượng, các hệ thống thống kê tỏ ra hiệu quả hơn khi xử lý với các dữ liệu đầu vào không theo định dạng mong muốn muốn Tuy nhiên việc xử lý trong các hệ thống thống kê sẽ chỉ thực sự hiệu quả khi mà dữ liệu huấn luyện đã đủ, để đảm bảo chắc chắn điều kiện này là một trở ngại không nhỏ vì ngôn ngữ tự nhiên luôn luôn có tính biến động không ngừng, các từ mới, các quy luật mới có thể được bổ sung, mở rộng Do đó việc chắc chắn một tập dữ liệu huấn luyện là đầy đủ chỉ có tính chất tạm thời, thậm chí việc hình thành được một tập dữ liệu huấn luyện đầy đủ tạm thời cũng không phải là một công việc đơn giản Các hệ thống kết nối có thể xử lý tốt hơn và hạn chế các khiếm khuyết nhờ việc lưu trữ tri thức trong những hệ thống kết nối được thực hiện thông qua mạng Khi hướng tiếp cận kết nối được sử dụng để xử lý dữ liệu đầu vào có nhiễu, các thông tin dư thừa sẽ được loại bỏ dẫn dần thông qua các tri thức trên mạng. d) Tính mềm dẻo: các mô hình biểu tượng được xây dựng bởi sự phân tích của con người dựa trên tập các mẫu đã đúng định dạng, do đó các hệ thống biểu tượng có thể thiếu tính mềm dẻo để phù hợp với các xử lý dựa trên kinh nghiệm Ngược lại, hướng tiếp cận thống kê phù hợp với các xử lý dựa trên kinh nghiệm Các hệ thống thống kê cho phép áp dụng trên một khoảng rộng, và có thể có khả năng tốt hơn khi xử lý với các văn bản không hạn chế Hướng tiếp cận này tạo ra cách xử lý hiệu quả hơn đối với các công việc được thực hiện thủ công Các hệ thống kết nối thể hiện tính mềm dẻo thông qua việc sử dụng các thao tác xử lý phù hợp dựa trên dữ liệu đầu vào Ví dụ, các trọng số của các đường kết nối giữa các đơn vị trong một mạng kết nối có thể được điều chỉnh thích ứng với thời gian thực để cải thiện hiệu năng của hệ thống Tuy nhiên những hệ thống như thế có thể gặp phải khó khăn khi biểu diễn các kiến trúc cần thiết để xử lý các mối quan hệ khái niệm phức tạp, vì vậy hạn chế của nó là chỉ xử lý ngôn ngữ tự nhiên ở mức cao. e) Các tác vụ thích hợp: Mỗi hướng tiếp cận có các ưu điểm khi xem xét ở mặt này nhưng có thể lại có các hạn chế khi nhìn từ khía cạnh khác, do đó mỗi hướng tiếp cận chỉ phù hợp với các tác vụ cụ thể nào đó Các hướng tiếp cận biểu tượng phù hợp với các hiện tượng mô tả hành vi ngôn ngữ có thể nhận biết Chúng có thể được sử dụng để mô hình hóa hiện tượng thuộc ngôn ngữ học ở tất cả các mức ngôn ngữ khác nhau Các hướng tiếp cận thống kê đã được kiểm chứng là rất hiệu quả trong việc hô hình hóa các hiện tượng thuộc ngôn ngữ học dựa trên tần số sử dụng của ngôn ngữ, tần số sử dụng của ngôn ngữ được phản ánh trong tập mẫu văn bản. Các hiện tượng thuộc ngôn ngữ học mà chưa được hiểu một cách thấu đáo hoặc không được thể hiện rõ ràng thường là các ứng cử viên cho các hướng tiếp cận thống kê Tương tự như các hướng tiếp cận thống kê, các hướng tiếp cận kết nối có khả năng xử lý đối với các hiện tượng thuộc ngôn ngữ học được “hiểu” không tốt. Các hướng tiếp cận kết nối thường hữu dụng đối với các tác vụ NLP ở mức thấp, thông thường các tác vụ này là nhằm giải quyết các tác vụ nhỏ thuộc về các vấn đề lớn hơn.
CÁC ỨNG DỤNG CỦA NLP
Các nghiên cứu và thành tựu đạt được trong xử lý ngôn ngữ tự nhiên đã cung cấp cơ sở nền tảng cả về học thuyết cũng như các cách cài đặt cho các ứng dụng trên một phạm vi rất rộng lớn Trong thực tế, bất cứ ứng dụng nào có sử dụng văn bản đều có thể trở thành một ứng cử viên cho việc sử dụng các thành tựu trong NLP Các ứng dụng tiêu biểu áp dụng NLP như tìm kiếm thông tin, trích xuất thông tin, hệ thống hỏi đáp, sự tổng hợp, dịch máy, các hệ thống đối thoại.
Tìm kiếm thông tin: như đã đề cập trong phần trên, tìm kiếm nhằm mục đích thu được thông tin cần thiết từ các nguồn khác nhau Nguồn tìm kiếm thông tin có thể là từ các văn bản, từ cơ sở dữ liệu, từ mạng, hoặc từ các nguồn tài nguyên liên quan khác Sự xuất hiện ngày càng nhiều của các văn bản, dẫn đến việc có những yêu cầu đáp ứng thông tin không thể được thực hiện một cách nhanh chóng, thêm vào đó là số lượng kết quả trả về quá nhiều, có thể không thực sự sát với các yêu cầu truy vấn thông tin ban đầu Điều này đã đặt ra yêu cầu cần phải áp dụng NLP vào các tiến trình xử lý tìm kiếm thông tin nhằm cải thiện hiệu năng và chất lượng trong việc tìm kiếm Với những thành công to lớn mà các hướng tiếp cận thống kê mang lại, rất nhiều các hệ thống đã được phát triển dựa trên nền tảng xử lý ngôn ngữ tự nhiên, ví dụ như các hệ thống được phát triển bởi Liddy và Strzalkowski.
Tìm kiếm văn bản: Lĩnh vực nằm trong tìm kiếm thông tin, cung cấp các phương pháp tìm kiếm đối với nguồn tài nguyên cụ thể là các văn bản
Trích xuất thông tin: hầu hết các văn bản là phi cấu trúc, sự phong phú cả về nội dung lẫn định dạng trong các kết quả trả về khi tìm kiếm thông tin gây ra những khó khăn để có được các thông tin cần thiết Trích xuất thông tin là một dạng tìm kiếm thông tin Mục đích của nó là trích xuất tự động thông tin có cấu trúc Ví dụ, từ rất nhiều nguồn khác nhau tìm ra những đoạn thành phần bên trong các nguồn đó liên quan đến một lĩnh vực cụ thể Các ứng dụng về trích xuất thông tin xuất hiện ngày càng nhiều do các yêu cầu tìm kiếm thông tin một cách nhanh chóng, chính xác nhất có thể của con người Trích xuất thông tin tập trung trên việc nhận diện, gán nhãn và trích xuất thông tin thành mô tả có cấu trúc, tất nhiên là các thành phần chính của nó vẫn là thông tin Sau đó, kết quả của việc trích xuất thông tin này có thể được sử dụng vào nhiều ứng dụng khác nhau như: hệ thống hỏi đáp, khai phá dữ liệu, vv…
Hệ thống hỏi – đáp: các hệ thống hỏi đáp cũng là một dạng tìm kiếm thông tin.
Tuy nhiên khác với các hệ thống tìm kiếm thông tin – hệ thống tìm kiếm thông tin trả về một danh sách tất cả các văn bản, tài liệu có liên quan với yêu cầu truy vấn – hệ thống hỏi – đáp sẽ chỉ trả về các câu trả lời, các đoạn văn tương ứng với câu truy vấn Hệ thống hỏi – đáp cũng sẽ phải có khả năng tìm kiếm các câu trả lời từ một tập các văn bản, tài liệu, cũng như nhận biết được các câu hỏi được đưa vào dưới dạng ngôn ngữ tự nhiên.
Sự tổng hợp, rút gọn thông tin: các tài liệu ngày càng nhiều, thông tin cung cấp ngày càng phong phú thì việc có được các thông tin cô đọng, súc tích càng trở thành yêu cầu cấp bách Công việc của các ứng dụng tổng hợp, rút gọn thông tin là làm thế nào để rút ngắn các văn bản lớn thành đoạn văn bản ngắn hơn, loại bỏ bớt các thành phần không cần thiết trong biểu diễn của văn bản gốc, tuy nhiên vẫn phải giữ lại được các thông tin chính mà văn bản gốc thể hiện Việc tổng hợp thông tin được thực hiện ở các mức cao trong tiến trình xử lý ngôn ngữ tự nhiên, đặc biệt là mức văn cảnh.
Dịch máy: đây có lẽ là ứng dụng lâu đời nhất trong tất cả các ứng dụng NLP.
Các hệ thống máy tính thực hiện việc chuyển đổi từ một ngôn ngữ này sang một ngôn ngữ khác Các mức khác nhau trong tiến trình xử lý ngôn ngữ tự nhiên đều được áp dụng trong các hệ thống dịch máy Phạm vi của các ứng dụng dịch máy rất phong phú, đa dạng từ các ứng dụng sử dụng hướng tiếp cận phân tích dựa trên từng từ đơn (word – base) đến các ứng dụng sử dụng hướng tiếp cận phân tích trên các mức cao hơn như mức cú pháp, mức ngữ nghĩa, mức văn cảnh, ….
Các hệ thống đối thoại: đây có lẽ là các ứng dụng sẽ xuất hiện trong tương lai.
Trong kế hoạch, dự định và mong muốn của đa số các ứng dụng trong tương lai, các hệ thống đối thoại sẽ được áp dụng trên một ứng dụng cụ thể Con người có thể sử dụng chính ngôn ngữ tự nhiên mà họ giao tiếp hàng ngày để điều khiển các thiết bị.
Nhận dạng tiếng nói: chuyển dữ liệu từ dạng âm thanh thành dạng dữ liệu mà máy tính có thể “hiểu” được Nghĩa là từ đầu vào là sóng tiếng nói, hệ thống sẽ nhận biết và chuyển chúng thành dữ liệu văn bản tương ứng.
Tổng hợp tiếng nói: từ dữ liệu văn bản, phân tích và chuyển đổi thành dạng âm thanh trong ngôn ngữ nói.
Kiểm lỗi văn bản: nhằm phát hiện các lỗi trong văn bản, như các lỗi về từ, lỗi về cú pháp, vv…