1. Trang chủ
  2. » Giáo Dục - Đào Tạo

ĐỒ án lập TRÌNH WEB NÂNG CAO đề tài xây dựng chương trình qa của một cuộc hội thoại chatbot tiếng việt sử dụng BERT

23 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 23
Dung lượng 1,14 MB

Nội dung

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN LẬP TRÌNH WEB NÂNG CAO ĐỀ TÀI: Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT Sinh viên thực Ngành Chuyên ngành Lớp Khóa PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: STT Họ Nguyễn Văn Anh Mã SV: 19810310265 LỜI MỞ ĐẦU Lý chọn đề tài Từ lâu người có suy nghĩ muốn tạo cỗ máy tự suy nghĩ hành động Chính thế, trí tuệ nhân tạo (AI) trở thành một lĩnh vực thời đại công nghệ thông tin ngày Các ngành nghề xã hội có xu hướng xử dụng AI để khiến máy móc thơng minh Trong giải trí, y tế, hay giáo dục, nhiều robot thông minh tạo thay người dạy học, giúp đỡ người già, thực công đoạn cơng nghiệp, Vì ứng dụng hữu ích nó, em xin trình bày đề tài” Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT.”.Mong muốn thông qua đề tài này, em có nhìn cụ thể AI, từ mở rộng để nghiên cứu phát triển thêm Mục tiêu nhiệm vụ -Mục tiêu: +Tìm hiểu định nghĩa, lịch sử phát triển trí tuệ nhân tạo +Tìm hiểu cấu trúc, thuật tốn cách hoạt động AI -Nhiệm vụ: +Ứng dụng nghiên cứu để lập trình Q&A hội thoại chatbot tiếng việt sử dụng BERT Đối tượng phạm vi nghiêm cứu - Đối tượng nghiên cứu: Lĩnh vực AI -Phạm vi nghiên cứu: hội thoại người máy Phương pháp nghiên cứu -Nghiên cứu dựa trên: +Tài liệu +Tham khảo từ giáo viên hướng dẫn +Thực hành viết mã máy tính python Dự kiến kết Đạt mục tiêu nêu ra, lập trình thành cơng Q&A hội thoại chatbot tiếng việt sử dụng BERT Dự kiến hoàn thành khoảng tháng Do kiên thưc còn han chê nên bai bao cao không tranh khỏi sai sot, kinh mong thầy cô day bô môn đưa nhân xét va gop y đê bai bao cao đươc hoan chỉnh Em xin chân cam ơn! CHƯƠNG I: GIỚI THIỆU VỀỀ̀ AI 1.1 GIỚI THIỆU VỀỀ̀ AI 1.1.1 Tìm hiểu khái niệm Cơng nghệ AI (viết tắt Artifical Intelligence) trí thông minh nhân tạo công nghệ mô phỏỏ̉ng trình suy nghĩ học tập người cho máy móc, đặc biệt hệ thống máy tính Các q trình bao gồm việc học tập (thu thập thông tin quy tắc sử dụng thông tin), lập luận (sử dụng quy tắc để đạt kết luận gầầ̀n xác định), tự sửa lỗi Các ứng dụng đặc biệt AI bao gồm hệ thống chuyên gia, nhận dạng tiếng nói thị giác máy tính (nhận diện khn mặt, vật thể chữ viết) Định nghĩa trí tuệ nhân tạo: (AI: Artificial Intelligence) định nghĩa ngành khoa học máy tính liên quan đến việc tự động hóa hành vi thơng minh AI phận khoa học máy tính phải đặt nguyên lý lý thuyết vững chắc, có khả ứng dụng lĩnh vực Khái niệm công nghệ AI xuất đầầ̀u tiên John McCarthy, nhà khoa học máy tính Mỹ, vào năm 1956 Hội nghị The Dartmouth Ngày nay, công nghệ AI thuật ngữ bao gồm tất thứ từ trình tự động hố robot đến người máy thực tế Cơng nghệ AI gầầ̀n trở nên tiếng, nhận quan tâm nhiều người nhờ Dữ liệu lớn (Big Data), mối quan tâm doanh nghiệp tầầ̀m quan trọng liệu với công nghệ phầầ̀n cứng phát triển mạnh mẽ hơn, cho phéé́p xử lý công nghệ AI với tốc độ nhanh hết thời điểm tại, Thuật ngữ thường dùng để nói đến MÁY TÍNH có mục đích khơng định ngành khoa học nghiên cứu lý thuyết ứng dụng trí tuệ nhân tạo Tức loại trí tuệ nhân tạo dừng lại mức độ máy tính siêu máy tính dùng để xử lý loại cơng việc điều khiển ngơi nhà, nghiên cứu nhận diện hình ảnh, xử lý liệu bệnh nhân để đưa phác đồ điều trị, xử lý liệu để tự học hỏỏ̉i, khả trả lời câu hỏỏ̉i chẩn đoán bệnh, trả lời khách hàng sản phẩm công ty, Ở AI phận khoa học máy tính phải đặt nguyên lý lý thuyết vững Nói nơm na cho dễ hiểu: trí tuệ máy móc tạo người Trí tuệ tư duy, suy nghĩ, học hỏỏ̉i, trí tuệ người Xử lý liệu mức rộng lớn hơn, quy mô hơn, hệ thống, khoa học nhanh so với người Trí tuệ nhân tạo mang lại nhiều giá trị cho sống loài người, tiềm ẩn nguy Rất nhiều chuyên gia lo lắng trí tuệ nhân tạo đạt tới ngưỡng tiến hóa thời điểm lồi người bị tận diệt Rất nhiều phim khai thác đề tài với nhiều góc nhìn, qua muốn cảnh báo loài người mối nguy đặc biệt 1.1.2 Lịch sử phát triển Thực nguồn gốc đời trí tuệ nhân tạo AI khơng sớm nói, thành tất yếu phát triển khoa học công nghệ, giải pháp giải tốn khó phát triển loài người tương lai Dưới điểm lại cột mốc lịch sử phát triển trí tuệ nhân tạo AI Ngày nay, việc tiếp tục nghiên cứu cải tiến trí tuệ nhân tạo AI công nghệ tảng thể rõ kỹ tự động hóa lý luận tích hợp điện thoại, máy tính máy móc… Trí tuệ nhân tạo AI theo cách trở thành thực tế tảng giới Nghiên cứu lịch sử trí tuệ nhân tạo AI sớm vào năm thập niên 60 khám phá vấn đề mà cơng nghệ giải Vào năm 1960, Bộ Quốc phòầ̀ng Hoa Kỳ quan tâm đến loại công việc bắt đầầ̀u đào tạo máy tính để bắt chước lý luận người Ví dụ, Cơ quan Dự án Nghiên cứu Quốc phòầ̀ng Tiên tiến (DARPA) hoàn thành dự án lập đồ đường phố vào năm 1970 Và DARPA sản xuất trợ lý cá nhân thông minh vào năm 2003… Công việc ban đầầ̀u mở đường cho tự động hóa lý luận thức mà thấy máy tính ngày nay, bao gồm hệ thống hỗ trợ định hệ thống tìm kiếm thơng minh thiết kế để bổ sung tăng cường khả người 1943 Warren McCullough Walter Pitts xuất “A Logical Calculus of Ideas Immanent in Nervous Activity”, dịch “Một tính tốn logic ý tưởng tiềm ẩn hoạt động thầầ̀n kinh” Bài viết đề xuất mơ hình tốn học đầầ̀u tiên để xây dựng mạng lưới thầầ̀n kinh 1949 Trong sách “The Organization of Behavior: A Neuropsychological Theory”- Tổ chức hành vi: Một lý thuyết thần kinh học,Donald Hebb đề xuất lý thuyết hệ thống đường thầầ̀n kinh tạo từ kết nối tế bào thầầ̀n kinh trở nên mạnh mẽ 1950 Alan Turing xuất “Computing Machinery and Intelligence” – Máy tính trí thơng minh, đề xuất Thử nghiệm Turing, phương pháp để xác định xem máy tính có thông minh hay không Alan Turing Phéé́p thử Turing (1950) Đại học Harvard Marvin Minsky Dean Edmonds xây dựng SNARC, máy tính mạng thầầ̀n kinh đầầ̀u tiên Claude Shannon xuất báo “Lập trình máy tính để chơi cờ” Isaac Asimov xuất “Ba định luật robot” 1952 Arthur Samuel phát triển chương trình tự học để chơi cờ 1954 Thí nghiệm dịch máy Georgetown-IBM tự động dịch 60 câu tiếng Nga chọn cẩn thận sang tiếng Anh 1956 Cụm từ trí tuệ nhân tạo lầầ̀n đầầ̀u tiên nói đến “Dự án nghiên cứu mùa hè trí tuệ nhân tạo” Với dẫn đầầ̀u John McCarthy, hội nghị, xác định phạm vi mục tiêu AI, coi đời trí tuệ nhân tạo biết ngày Hội nghị Dartmouth với dẫn đầầ̀u John McCarthy Allen Newell Herbert Simon trình diễn Nhà lý luận logic (LT), chương trình lý luận đầầ̀u tiên 1958 John McCarthy phát triển ngôn ngữ lập trình AI Lisp xuất báo “Programs with Common Sense” Bài viết đề xuất nhà tư vấn giả thuyết, hệ thống AI hoàn chỉỏ̉nh với khả học hỏỏ̉i kinh nghiệm hiệu người 1959 Allen Newell, Herbert Simon JC Shaw giải vấn đề chung (GPS), chương trình thiết kế để bắt chước giải vấn đề người Herbert Gelernter phát triển chương trình Định lý hình học Arthur Samuel đồng xu với thuật ngữ học máy còầ̀n IBM John McCarthy Marvin Minsky tìm thấy Dự án Trí tuệ nhân tạo MIT 1963 John McCarthy bắt đầầ̀u Phòầ̀ng thí nghiệm AI Stanford 1966 Báo cáo Ủy ban Tư vấn xử lý ngơn ngữ tự động (ALPAC) phủ Hoa Kỳ nêu chi tiết thiếu tiến nghiên cứu dịch máy, sáng kiến lớn chiến tranh lạnh với lời hứa dịch tự động tiếng Nga Báo cáo ALPAC dẫn đến việc hủy bỏỏ̉ tất dự án MT phủ tài trợ 1969 Các hệ thống chuyên gia thành công đầầ̀u tiên phát triển DENDRAL, chương trình XX MYCIN, thiết kế để chẩn đoán nhiễm trùng máu, tạo Stanford Năm 1972 Ngơn ngữ lập trình logic PRITAL tạo Năm 1973 “Báo cáo Lighthill”, nêu chi tiết thất bại nghiên cứu AI, phủ Anh cơng bố, từ dẫn đến việc cắt giảm nghiêm trọng tài trợ cho dự án trí tuệ nhân tạo 1974-1980 Liên tiếp thất vọng với phát triển AI dẫn đến cắt giảm DARPA lớn khoản trợ cấp học thuật Kết hợp với báo cáo ALPAC trước “Báo cáo Lighthill” năm trước, tài trợ trí tuệ nhân tạo làm khô quầầ̀y nghiên cứu Thời kỳ gọi “Mùa đông AI đầầ̀u tiên.” 1980 Tập đoàn thiết bị kỹ thuật số phát triển R1 (còầ̀n gọi XCON), hệ thống chuyên gia thương mại thành công đầầ̀u tiên Được thiết kế để định cấu hình đơn đặt hàng cho hệ thống máy tính mới, R1 khởi đầầ̀u bùng nổ đầầ̀u tư vào hệ thống chuyên gia tồn phầầ̀n lớn thập kỷ, kết thúc hiệu “Mùa đông AI” đầầ̀u tiên 1982 Bộ Thương mại Quốc tế Công nghiệp Nhật Bản khởi động dự án Hệ thống máy tính hệ thứ năm đầầ̀y tham vọng Mục tiêu FGCS phát triển hiệu giống siêu máy tính tảng để phát triển trí tuệ nhân tạo AI 1983 Đáp lại FGCS Nhật Bản, phủ Hoa Kỳ khởi động Sáng kiến điện toán chiến lược để cung cấp nghiên cứu tài trợ DARPA điện toán tiên tiến trí tuệ nhân tạo 1985 Các cơng ty chi tỷ đô la năm cho hệ thống chuyên gia toàn ngành công nghiệp gọi thị trường máy Lisp mọc lên để hỗ trợ họ Các công ty Symbolics Lisp Machines Inc xây dựng máy tính chuyên dụng để chạy ngơn ngữ lập trình AI Lisp 1987-1993 Khi cơng nghệ điện tốn đám mây cải thiện, có nhiều lựa chọn thay rẻ xuất thị trường máy Lisp sụp đổ vào năm 1987, mở “Mùa đông AI thứ hai” Các chuyên gia AI chật vật không ủng hộ giai đoạn DARPA kết thúc Sáng kiến Điện toán Chiến lược vào năm 1993 sau chi gầầ̀n tỷ đô la không đạt kỳ vọng tính tốn 1991 Lực lượng Hoa Kỳ triển khai DART, công cụ lập kế hoạch lập kế hoạch hậu cầầ̀n tự động, Chiến tranh vùng Vịnh 2005 STANLEY, xe tự lái, chiến thắng DARPA Grand Challenge Quân đội Hoa Kỳ bắt đầầ̀u đầầ̀u tư vào robot tự hành “Big Dog” Boston Dynamic “PackBot” iRobot 2008 Google tạo bước đột phá nhận dạng giọng nói giới thiệu tính ứng dụng iPhone 2011 Watson IBM tuyên bố cạnh tranh Jeopardy! 2012 Andrew Ng, người sáng lập dự án Google Brain Deep Learning, cung cấp mạng lưới thầầ̀n kinh cách sử dụng thuật toán 10 triệu video YouTube dạng tập huấn luyện Mạng lưới thầầ̀n kinh học cách nhận mèo mà không cho biết mèo 2014 Google tạo xe tự lái đầầ̀u tiên để vượt qua kiểm tra lái xe nhà nước 2016 AlphaGo Google DeepMind đánh bại nhà vô địch giới cờ vây Lee Sedol Sự phức tạp tròầ̀ chơi Trung Quốc cổ đại coi trở ngại lớn để giải tỏỏ̉a AI 1.1.3 Ứng dụng AI AI chăm sóc sức khỏe – Ứng dụng bật trí tuệ nhân tạo AI cải thiện sức khỏỏ̉e người giảm chi phí Các bệnh viện áp dụng máy để chẩn đoán tốt nhanh người Một biết cơng nghệ tốt chăm sóc sức khỏỏ̉e IBM Watson Nó hiểu ngơn ngữ tự nhiên có khả trả lời câu hỏỏ̉i Hệ thống khai thác liệu bệnh nhân nguồn liệu có sẵn khác để tạo thành giả thuyết, sau đưa lược đồ chấm điểm tin cậy – Các ứng dụng AI khác bao gồm chatbot , chương trình máy tính sử dụng trực tuyến để trả lời câu hỏỏ̉i hỗ trợ khách hàng, giúp xếp hẹn theo dõi hỗ trợ bệnh nhân thơng qua quy trình tốn trợ lý sức khỏỏ̉e ảo cung cấp phản hồi y tế AI kinh doanh – Tự động hóa q trình robot áp dụng cho cơng việc có tính chất lặp lặp lại – Các thuật tốn tích hợp vào tảng phân tích CRM để khám phá thơng tin cách phục vụ khách hàng tốt – Chatbots kết hợp vào trang web để cung cấp dịch vụ cho khách hàng AI giáo dục AI tự động hóa việc chấm điểm, giúp giáo viên có thêm thời gian AI đánh giá lực quản lý sinh viên Gia sư AI cung cấp hỗ trợ cho sinh viên, đảm bảo họ hoàn thành theo giáo trình từ trước Thậm AI thay số giáo viên AI tài AI ứng dụng lĩnh vực tài chính, ứng dụng thu thập liệu cá nhân cung cấp tư vấn tài AI pháp luật Q trình khám phá, sàng lọc thơng tin tài liệu pháp luật thường công việc dành cho người Tuy nhiên tự động hóa trình giúp người sử dụng thời gian hiệu AI sản xuất Đây lĩnh vực đầầ̀u việc kết hợp robot vào quy trình làm việc Robot cơng nghiệp sử dụng để thực nhiệm vụ đơn lẻ giải phóng sức lao động người 1.1.4 Các lĩnh vực nghiên cứu AI Trí tuệ người (Human Intelligence): Cho đến có hai khái niệm trí tuệ người chấp nhận sử dụng nhiều nhất, là: Khái niệm trí tuệ theo quan điểm Turing “Trí tuệ đánh giá thơng qua trắc nghiệm thơng minh” Khái niệm trí tuệ đưa tụ điển bách khoa tồn thư: “Trí tuệ khả năng: Phản ứng cách thích hợp tình thơng qua hiệu chỉỏ̉nh hành vi cách thích đáng Hiểu rõ mối liên hệ qua lại kiện giới bên nhằm đưa hành động phù hợp đạt tới mục đích Những nghiên cứu chuyên gia tâm lý học nhận thức chỉỏ̉ trình hoạt động trí tuệ người bao gồm thao tác bản: 1- Xác định tập đích (goals) 2- Thu thập kiện (facts) luật suy diễn (inference rules) để đạt đích đặt 3- Thu gọn (pruning) trình suy luận nhằm xác định tập suy diễn sử dụng 4- Áp dụng chế suy diễn cụ thể (inference mechanisms) để đưa kiện ban đầầ̀u đến đích Trí tuệ máy: khơng có định nghĩa tổng quat, nêu đặc trưng chính: 1- Khả học 2- Khả mô phỏỏ̉ng hành vi người 3- Khả trừu tượng hoá, tổng quát hoá suy diễn 4- Khả tự giải thích hành vi 5- Khả thích nghi tình kể thu nạp tri thức liệu 6- Khả xử lý biểu diễn hình thức ký hiệu tượng trưng 7- Khả sử dụng tri thức heuristic 8- Khả xử lý thơng tin khơng đầầ̀y đủ, khơng xác 1.2 NHỮNG VẤN ĐỀỀ̀ CHƯA ĐƯỢC GIẢI QUYẾT CỦA TRÍ TUỆ NHÂN TẠO Những thành tựu nghiên cứu ứng dụng kỹ thuật Trí tuệ nhân tạo khẳng định tính thực tiễn dự án xây dựng máy tính có khả suy nghĩ Tuy số phạm vi, máy tính cịn thua xa so với hoạt động hệ thần kinh người: Sự khác hoạt động máy tính não người, điều thể ưu máy tính so với não người khả tính tốn lớn (nhất chương trình xử lý liệu lớn) Xử lý song song: công nghệ điện tử đại cho phéé́p xây dựng đa xử lý, song máy tính khơng thể hoạt động song song não người Khả diễn giải: người xem xéé́t vấn đề theo phương pháp khác nhau, từ diễn giải theo cách dễ hiểu Ngược lại, linh hoạt mô phỏỏ̉ng hệ thống Trí tuệ nhân tạo Lơgic rời rạc tính liên tục: thách đố lớn với hệ thống Trí tuệ nhân tạo khả kết hợp phương pháp xử lý thông tin môi trường liên tục với thao tác xử lý thông tin rời rạc Khả học: máy tính có nhiều tính cao khơng thể mơ phỏỏ̉ng hồn tồn khả học giống não người Khả tự tổ chức: nay, người ta chưa thể tạo lập hệ thống Trí tuệ nhân tạo có khả tự tổ chức, tự điều khiển hoạt động để thích nghi với mơi trường 1.3 NHỮNG ƯU ĐIỂM VÀỀ̀ RỦI RO 1.3.1 Ưu điểm Công nghệ Ai nghiên cứu phát triển sâu rộng Đặc biệt nước phát triển, điều thực nhiều Trí tuệ nhân tạo xử lý khối lượng lớn công việc Với liệu lớn hơn, rắc rối công nghệ Ai đưa dự đốn xác người Điều ưu điểm lớn công nghệ Ai Thông thường xử lý lượng liệu lớn, người khó xác hồn tồn Tuy nhiên điều thực cơng nghệ trí tuệ nhân tạo Ngay nhà khoa học cảm thấy khó khăn giải số lượng liệu lớn AI sử dụng học máy để lấy liệu nhanh chóng biến thành thơng tin thực Đây lời giải đáp cho ưu điểm cơng nghệ AI gì? 1.3.2 Rủi ro Rủi ro tự động hóa thất nghiệp Trong thành cơng gầầ̀n lĩnh vực máy học (Machine Learning) robot, dường chỉỏ̉ còầ̀n vấn đề thời gian cơng việc phức tạp đòầ̀i hỏỏ̉i trí thơng minh cao tiếp quản tồn diện máy móc Những người hưởng lợi nhiều từ công nghệ tiến người dân quốc gia hiểu tận dụng hội công nghệ ảnh hưởng liệu lớn mạng Trong ngành cơng nghiệp giải trí có hội quan trọng để phát triển giáo dục tốt thơng qua cá nhân hóa dạy học AI ứng dụng hóa tài liệu học tập, đồng thời làm tăng nguy tỷ lệ người trẻ tuổi gặp khó khăn việc hồn thành giáo dục họ nghiện bệnh lý tròầ̀ chơi video và/hoặc internet Tiến công nghệ làm tăng suất xã hội, lầầ̀n lượt nâng mức sống trung bình Nếu cơng việc thực máy móc nhiều hơn, thời gian rảnh rỗi người dành cho giải trí tự phát triển cho người tang lên (một ưu điểm sử dụng AI) Tuy nhiên, nhược điểm công nghệ AI tăng tự động hóa gia tăng suất dẫn tới bất bình đẳng xã hội ngày tăng gia tăng mức sống trung bình khơng có trùng hợp với gia tăng chất lượng trung bình sống Các chuyên gia kinh tế học MIT giáo sư Erik Brynjolfsson chí lo lắng công nghệ tiến đe dọa làm cho sống đa số người tồi tệ Rủi ro tình báo siêu trí tuệ nói chung Trí thơng minh chung khả đạt mục tiêu chung môi trường khác Trí thơng minh gây rủi ro (thảm khốc) mục tiêu máy móc khơng phù hợp với người Nếu trí thơng minh chung đạt đến mức độ siêu phàm, trở thành siêu trí tuệ; là, thuật tốn vượt trội so với trí thơng minh người cách, kể sáng tạo khoa học, phổ biến, cảm giác, lực xã hội Lưu ý định nghĩa để ngỏỏ̉ câu hỏỏ̉i việc có hay khơng siêu trí tuệ có ý thức Trong trường hợp tốt nhất, siêu trí tuệ giải vơ số vấn đề cho nhân loại, giúp vượt qua đạt thành tựu khoa học, đạo đức, sinh thái kinh tế trước thách thức tương lai Tuy nhiên, mục tiêu siêu trí tuệ khơng tương thích với sở thích người sinh vật khác, AI mang tới mối đe dọa tồn chưa có, có khả gây hậu nhiều so với kiện trước vũ trụ Rủi ro y thức nhân tạo Hai câu hỏỏ̉i liên quan phải phân biệt thực sự: Thứ nhất, liệu máy móc phát triển ý thức khả đau đớn; thứ hai, câu trả lời cho câu hỏỏ̉i đầầ̀u tiên có, loại máy (sẽ) có ý thức Nhìn lướt qua tình trạng nghiên cứu cho thấy câu hỏỏ̉i đầầ̀u tiên dễ trả lời thứ hai Hiện có đồng thuận đáng kể, khơng phải tồn số chuyên gia máy móc nguyên tắc có ý thức, thầầ̀n kinh máy tính Những cân nhắc có hậu đạo đức sâu rộng Nếu máy móc có ý thức, mặt đạo đức vô lương tâm khai thác chúng lực lượng lao động sử dụng chúng cho công việc rủi ro gỡ rối mìn xử lý chất nguy hiểm Triển vọng đặc biệt đáng lo ngại hình dung AI tạo số khổng lồ trường hợp xấu nhất, số nạn nhân thiên văn, đông thảm họa biết đến khứ Hiện nay, chứng kiến lan rộng công nghệ AI với tiềm đáng ngạc nhiên Công nghệ AI đứng sau xe không người lái, y tế hỗ trợ Watson chẩn đoán, máy bay không người lái quân đội Hoa Kỳ dầầ̀n dầầ̀n trở thành sản phẩm thực tiễn tương lai gầầ̀n Điều cốt yếu khung pháp lý xây dựng cẩn thận diễn trước điều xảy ra, để nhận tiềm công nghệ theo cách giảm thiểu rủi ro cách an toàn phát triển tổng thể tiêu cực Càng tiến lĩnh vực công nghệ AI, nhấn mạnh cách tiếp cận hợp lý, tầầ̀m nhìn xa thách thức liên quan trở thành Bởi trị tiến pháp lý có xu hướng tụt hậu so với phát triển cơng nghệ, có trách nhiệm đặc biệt lớn dựa nhà nghiên cứu nhà phát triển cá nhân trực tiếp tham gia vào tiến trình thực Tuy nhiên, cầầ̀n khuyến khích kinh tế mạnh mẽ cho phát triển cơng nghệ diễn nhanh mà khơng làm lãng phí thời gian phân tích rủi ro CHƯƠNG II: CHƯƠNG TRÌNH Q&A CỦA MỘT CUỘC HỘI THOẠI CHATBOT TIẾNG VIỆT SỬ DỤNG BERT 2.1 GIỚI THIỆU VỀỀ̀ BERT 2.1.1 Khái niệm BERT BERT viết tắt “Bidirectional Encoder Representations from Transformers ”, kiến trúc cho lớp tốn Language Representation đươc Google cơng bố vào đầầ̀u tháng 11 vừa qua Không giống mơ hình trước đó, BERT thiết kế để đào tạo vector đại diện cho ngôn ngữ văn thông qua ngữ cảnh chiều (trái phải) chúng Kết là, vector đại diện sinh từ mơ hình BERT tính chỉỏ̉nh với lớp đầầ̀u bổ sung tạo nhiều kiến trúc cải tiến đáng kể cho nhiệm vụ xử lý ngôn ngữ tự nhiên Question Answering, Language Inference, mà không cầầ̀n thay đổi nhiều từ kiến trúc cũ BERT khái niệm đơn giản lại mang lại hiệu cực lớn thực tế Nó thu kết tối ưu cho 11 nhiệm vụ xử lý ngôn ngữ tự nhiên, bao gồm việc đẩy kết nhiệm vụ GLUE benchmark lên 80.4%(cải tiến thêm 7.6%) SQuAD v.1.1 với F1 score tập test đạt 93.2%(cải tiến thêm 1.5%), tốt người 2% Lớp toán Representation cho mơ hình ngơn ngữ cho thấy hiệu việc cải thiện nhiều nhiệm vụ lĩnh vực xử lí ngơn ngữ tự nhiên Những nhiệm vụ nhiệm vụ cấp câu Natural language inference, Paraphrasing nhằm dự đoán mối quan hệ câu cách phân tích tổng thể chúng nhiệm vụ cấp từ nhận dạng thực thể có tên(NER), Question Answering với yêu cầầ̀u trả kết xác cho câu hỏỏ̉i dạng từ, Có chiến lược để sử dụng biểu diễn ngôn ngữ huấn luyện trước cho nhiệm vụ sau, gồm feature-based fine-tuning Tuy nhiên, kỹ thuật bị hạn chế nhiều việc thể khả mơ hình vector đại diện, đặc biệt hướng tiếp cận finetuning Hạn chế mơ hình ngơn ngữ xây dựng dựa ngữ cảnh chiều gây nên hạn chế việc lựa chọn mơ hình kiến trúc sử dụng q trình sử dụng pre-training Ví dụ OpenAI GPT, tác giả sử dụng kiến trúc left-to-right, nghĩa tokens chỉỏ̉ phụ thuộc vào token trước Trong kiến trúc này, cung cấp hướng tiếp cận dựa fine-tuning khắc phục hạn chế đó, gọi “Bidirectional Encoder Representations from Transformers” 2.1.2 Sự đời BERT Các nhà nghiên cứu làm việc Google AI tái khẳng định, thiếu hụt liệu đào tạo thách thức lớn lĩnh vực xử lý ngôn ngữ tự nhiên Đây lĩnh vực rộng lớn đa dạng với nhiều nhiệm vụ riêng biệt, hầầ̀u hết tập liệu chỉỏ̉ đặc thù cho nhiệm vụ Để thực tốt nhiệm vụ ta cầầ̀n liệu lớn chứa hàng triệu chí hàng tỷ ví dụ mẫu Tuy nhiên, thực tế hầầ̀u hết tập liệu chỉỏ̉ chứa vài nghìn vài trăm nghìn mẫu đánh nhãn tay người(các chuyên gia ngôn ngữ học) Sự thiếu hụt liệu có nhãn chất lượng cao để đào tạo mơ hình gây cản trở lớn cho phát triển NLP nói chung Để giải thách thức này, mơ hình xử lý ngơn ngữ tự nhiên sử dụng chế tiền xử lý liệu huấn luyện việc transfer từ mô hình chung đào tạo từ lượng lớn liệu khơng gán nhãn Ví dụ số mơ hình nghiên cứu trước để thực nhiệm vụ Word2vec, Glove hay FastText Việc nghiên cứu mơ hình giúp thu hẹp khoảng cách tập liệu chuyên biệt cho đào tạo việc xây dựng mơ hình tìm đại diện chung ngôn ngữ sử dụng số lượng lớn văn chưa gán nhãn lấy từ trang web Các pre-train model tinh chỉỏ̉nh lại nhiệm vụ khác với liệu nhỏỏ̉ Question Answering, Sentiment Analysis, dẫn đến cải thiện đáng kể độ xác cho so với mơ hình huấn luyện trước với liệu Tuy nhiên, mơ hình kể có yếu điểm riêng nó, đặc biệt khơng thể đại diện theo ngữ cảnh cụ thể từ lĩnh vực hay văn cảnh cụ thể Tiếp nối thành cơng định mơ hình trước đó, Google công bố thêm kỹ thuật gọi Bidirectional Encoder Representations from Transformers(BERT) Với lầầ̀n công bố này(kèm mã nguồn dự án), Google khẳng định giới đào tạo hệ thống hỏỏ̉i đáp(Question Answering) cải tiến cho riêng nhiều mơ hình NLP khác chỉỏ̉ vài GPU chỉỏ̉ khoảng 30p TPU(có thể bạn chưa biết, Google cho phéé́p bạn sử dụng TPU họ cách miễn phí Google Colab) Một số trích dẫn từ nhà nghiên cứu Google AI cho bạn nhìn khái quát hơn: "BERT is the first deeply bidirectional, unsupervised language representation, pre-trained using only a plain text corpus (in this case, Wikipedia)" "Integrating a bidirectional model supports access to context from both past, future and unsupervised directions of data – it can consume data that has not yet been categorized." Hiện tại, BERT có sẵn Github chỉỏ̉ hỗ trợ tiếng Anh mục tiêu Google phát hành mô hình đào tạo nhiều ngơn ngữ khác tương lai 2.1.3 Kết mà BERT đạt Để đánh giá hiệu mà BERT đem lại, kỹ sư thuộc Google AI so sánh BERT với mơ hình tốt NLP trước Điều quan trọng chỉỏ̉ việc sử dụng BERT thay cho pre-train model trước mà không cầầ̀n thực thay đổi kiến trúc mạng neural sâu Kết là, SQUAD v1.1, BERT đạt kết F1_score = 93.2%, vượt kết tốt trước 91.6% hiệu mà người đạt 91.2% Trên SQUAD v2.0, Top kết tốt toàn BERT BERT cải thiện hiệu tốt thách thức GLUE benchmark, nhiệm vụ Natural Language Understanding (NLU) BERT gầầ̀n chiếm top tất nhiệm vụ xử lý ngôn ngữ tự nhiên từ trước đến lầầ̀n khẳng định lại sức mạnh Đây coi bước nhảy vượt bậc Google lĩnh vực xử lý ngôn ngữ tự nhiên tự hỏỏ̉i phải cú hích lớn để cải tiến tốn xử lí ngơn ngữ tự nhiên cho tiếng Việt 2.2 Áp dụng vào tốn Khi mơ hình nhận input đầầ̀u vào thực trích xuất dựa theo câu hỏỏ̉i data có sẵn cách encode câu hỏỏ̉i đoạn văn tính độ tương đồng, sau lấy tập câu trả lời có độ tương đồng với câu hỏỏ̉i cao Tiếp đến đưa qua mơ hình rerank để đánh giá lại khả đoạn văn câu trả lời cho câu hỏỏ̉i, tính xác suất xếp theo điểm số Câu trả lời đưa câu có điểm số cao 2.3 Kêt Qua 2.4 Rui ro Do data còn han chê nên se xay trương hơp kêt qua in bi lêch vơi câu hỏi ... nghiệp, Vì ứng dụng hữu ích nó, em xin trình bày đề tài? ?? Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT. ”.Mong muốn thơng qua đề tài này, em có nhìn cụ thể AI, từ mở rộng... nghĩa, lịch sử phát triển trí tuệ nhân tạo +Tìm hiểu cấu trúc, thuật toán cách hoạt động AI -Nhiệm vụ: +Ứng dụng nghiên cứu để lập trình Q&A hội thoại chatbot tiếng việt sử dụng BERT Đối tượng... mục tiêu nêu ra, lập trình thành cơng Q&A hội thoại chatbot tiếng việt sử dụng BERT Dự kiến hoàn thành khoảng tháng Do kiên thưc còn han chê nên bai bao cao không tranh khỏi sai sot, kinh mong

Ngày đăng: 10/12/2022, 07:09

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w