ĐỒ ÁN LẬP TRÌNH WEB NÂNG CAO ĐỀ TÀI Xây dựng chương trình Q&A của một cuộc hội thoại Chatbot tiếng việt sử dụng BERT

Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CƠNG NGHỆ THƠNG TIN ĐỒ ÁN LẬP TRÌNH WEB NÂNG CAO ĐỀ TÀI: Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT Sinh viên thực : NGUYỄN VĂN ANH Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : CÔNG NGHỆ PHẦN MỀM Lớp : D14CNPM4 Khóa : 2019-2023 Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: STT Họ tên Nguyễn Văn Anh Mã SV: 19810310265 Chữ ký Nhiệm vụ Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT LỜI MỞ ĐẦU Lý chọn đề tài Từ lâu người có suy nghĩ muốn tạo cỗ máy tự suy nghĩ hành động Chính thế, trí tuệ nhân tạo (AI) trở thành một lĩnh vực thời đại công nghệ thông tin ngày Các ngành nghề xã hội có xu hướng xử dụng AI để khiến máy móc thơng minh Trong giải trí, y tế, hay giáo dục, nhiều robot thơng minh tạo thay người dạy học, giúp đỡ người già, thực cơng đoạn cơng nghiệp, Vì ứng dụng hữu ích nó, em xin trình bày đề tài” Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT.”.Mong muốn thông qua đề tài này, em có nhìn cụ thể AI, từ mở rộng để nghiên cứu phát triển thêm Mục tiêu nhiệm vụ -Mục tiêu: +Tìm hiểu định nghĩa, lịch sử phát triển trí tuệ nhân tạo +Tìm hiểu cấu trúc, thuật toán cách hoạt động AI -Nhiệm vụ: +Ứng dụng nghiên cứu để lập trình Q&A hội thoại chatbot tiếng việt sử dụng BERT Đối tượng phạm vi nghiêm cứu - Đối tượng nghiên cứu: Lĩnh vực AI -Phạm vi nghiên cứu: hội thoại người máy Phương pháp nghiên cứu -Nghiên cứu dựa trên: +Tài liệu +Tham khảo từ giáo viên hướng dẫn +Thực hành viết mã máy tính python Dự kiến kết Đạt mục tiêu nêu ra, lập trình thành công Q&A hội thoại chatbot tiếng việt sử dụng BERT Dự kiến hoàn thành khoảng tháng Do kiến thức còn hạn chế nên báo cáo khơng tránh khỏi sai sót, kính mong thầy cô dạy môn đưa nhận xét góp ý để báo cáo hồn chỉnh Em xin chân thành cảm ơn! CHƯƠNG I: GIỚI THIỆU VỀ AI Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT 1.1 GIỚI THIỆU VỀ AI 1.1.1 Tìm hiểu khái niệm Cơng nghệ AI (viết tắt Artifical Intelligence) trí thơng minh nhân tạo cơng nghệ mơ phỏng q trình suy nghĩ học tập người cho máy móc, đặc biệt hệ thống máy tính Các trình bao gồm việc học tập (thu thập thông tin quy tắc sử dụng thông tin), lập luận (sử dụng quy tắc để đạt kết luận gần xác định), tự sửa lỗi Các ứng dụng đặc biệt AI bao gồm hệ thống chuyên gia, nhận dạng tiếng nói thị giác máy tính (nhận diện khn mặt, vật thể chữ viết) Định nghĩa trí tuệ nhân tạo: (AI: Artificial Intelligence) định nghĩa ngành khoa học máy tính liên quan đến việc tự động hóa hành vi thơng minh AI phận khoa học máy tính phải đặt nguyên lý lý thuyết vững chắc, có khả ứng dụng lĩnh vực Khái niệm công nghệ AI xuất đầu tiên John McCarthy, nhà khoa học máy tính Mỹ, vào năm 1956 Hội nghị The Dartmouth Ngày nay, công nghệ AI thuật ngữ bao gồm tất thứ từ trình tự động hố robot đến người máy thực tế Cơng nghệ AI gần trở nên tiếng, nhận quan tâm nhiều người nhờ Dữ liệu lớn (Big Data), mối quan tâm doanh nghiệp tầm quan trọng liệu với công nghệ phần cứng phát triển mạnh mẽ hơn, cho phép xử lý công nghệ AI với tốc độ nhanh hết Ở thời điểm tại, Thuật ngữ thường dùng để nói đến MÁY TÍNH có mục đích khơng định ngành khoa học nghiên cứu lý thuyết ứng dụng trí tuệ nhân tạo Tức loại trí tuệ nhân tạo dừng lại mức độ máy tính siêu máy tính dùng để xử lý loại cơng việc điều khiển ngơi nhà, nghiên cứu nhận diện hình ảnh, xử lý liệu bệnh nhân để đưa phác đồ điều trị, xử lý liệu để tự học hỏi, khả trả lời câu hỏi chẩn đoán bệnh, trả lời khách hàng sản phẩm công ty, AI phận khoa học máy tính phải đặt ngun lý lý thuyết vững Nói nơm na cho dễ hiểu: trí tuệ máy móc tạo người Trí tuệ tư duy, suy nghĩ, học hỏi, trí tuệ người Xử lý liệu mức rộng lớn hơn, quy mô hơn, hệ thống, khoa học nhanh so với người Trí tuệ nhân tạo mang lại nhiều giá trị cho sống loài người, tiềm ẩn nguy Rất nhiều chuyên gia lo lắng trí tuệ nhân tạo Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT đạt tới ngưỡng tiến hóa thời điểm loài người bị tận diệt Rất nhiều phim khai thác đề tài với nhiều góc nhìn, qua muốn cảnh báo lồi người mối nguy đặc biệt 1.1.2 Lịch sử phát triển Thực nguồn gốc đời trí tuệ nhân tạo AI khơng sớm nói, thành tất yếu phát triển khoa học công nghệ, giải pháp giải tốn khó phát triển lồi người tương lai Dưới điểm lại cột mốc lịch sử phát triển trí tuệ nhân tạo AI Ngày nay, việc tiếp tục nghiên cứu cải tiến trí tuệ nhân tạo AI cơng nghệ tảng thể rõ kỹ tự động hóa lý luận tích hợp điện thoại, máy tính máy móc… Trí tuệ nhân tạo AI theo cách trở thành thực tế tảng giới Nghiên cứu lịch sử trí tuệ nhân tạo AI sớm vào năm thập niên 60 khám phá vấn đề mà cơng nghệ giải Vào năm 1960, Bộ Quốc phòng Hoa Kỳ quan tâm đến loại công việc bắt đầu đào tạo máy tính để bắt chước lý luận người Ví dụ, Cơ quan Dự án Nghiên cứu Quốc phòng Tiên tiến (DARPA) hoàn thành dự án lập đồ đường phố vào năm 1970 Và DARPA sản xuất trợ lý cá nhân thông minh vào năm 2003… Công việc ban đầu mở đường cho tự động hóa lý luận thức mà thấy máy tính ngày nay, bao gồm hệ thống hỗ trợ định hệ thống tìm kiếm thơng minh thiết kế để bổ sung tăng cường khả người 1943 ● Warren McCullough Walter Pitts xuất “A Logical Calculus of Ideas Immanent in Nervous Activity”, dịch “Một tính toán logic ý tưởng tiềm ẩn hoạt động thần kinh” Bài viết đề xuất mơ hình tốn học đầu tiên để xây dựng mạng lưới thần kinh 1949 ● 1950 Trong sách “The Organization of Behavior: A Neuropsychological Theory”- Tổ chức hành vi: Một lý thuyết thần kinh học,Donald Hebb đề xuất lý thuyết hệ thống đường thần kinh tạo từ kết nối tế bào thần kinh trở nên mạnh mẽ Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT ● Alan Turing xuất “Computing Machinery and Intelligence” – Máy tính trí thơng minh, đề xuất Thử nghiệm Turing, phương pháp để xác định xem máy tính có thơng minh hay khơng Alan Turing Phép thử Turing (1950) ● ● ● Đại học Harvard Marvin Minsky Dean Edmonds xây dựng SNARC, máy tính mạng thần kinh đầu tiên Claude Shannon xuất báo “Lập trình máy tính để chơi cờ” Isaac Asimov xuất “Ba định luật robot” Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT 1952 ● Arthur Samuel phát triển chương trình tự học để chơi cờ 1954 ● Thí nghiệm dịch máy Georgetown-IBM tự động dịch 60 câu tiếng Nga chọn cẩn thận sang tiếng Anh 1956 ● Cụm từ trí tuệ nhân tạo lần đầu tiên nói đến “Dự án nghiên cứu mùa hè trí tuệ nhân tạo” Với dẫn đầu John McCarthy, hội nghị, xác định phạm vi mục tiêu AI, coi đời trí tuệ nhân tạo biết ngày Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT Hội nghị Dartmouth với dẫn đầu John McCarthy ● Allen Newell Herbert Simon trình diễn Nhà lý luận logic (LT), chương trình lý luận đầu tiên 1958 ● John McCarthy phát triển ngơn ngữ lập trình AI Lisp xuất báo “Programs with Common Sense” Bài viết đề xuất nhà tư vấn giả thuyết, hệ thống AI hoàn chỉnh với khả học hỏi kinh nghiệm hiệu người 1959 ● ● ● ● Allen Newell, Herbert Simon JC Shaw giải vấn đề chung (GPS), chương trình thiết kế để bắt chước giải vấn đề người Herbert Gelernter phát triển chương trình Định lý hình học Arthur Samuel đồng xu với thuật ngữ học máy còn IBM John McCarthy Marvin Minsky tìm thấy Dự án Trí tuệ nhân tạo MIT 1963 ● John McCarthy bắt đầu Phòng thí nghiệm AI Stanford Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT 1966 ● Báo cáo Ủy ban Tư vấn xử lý ngôn ngữ tự động (ALPAC) phủ Hoa Kỳ nêu chi tiết thiếu tiến nghiên cứu dịch máy, sáng kiến lớn chiến tranh lạnh với lời hứa dịch tự động tiếng Nga Báo cáo ALPAC dẫn đến việc hủy bỏ tất dự án MT phủ tài trợ 1969 ● Các hệ thống chuyên gia thành công đầu tiên phát triển DENDRAL, chương trình XX MYCIN, thiết kế để chẩn đoán nhiễm trùng máu, tạo Stanford Năm 1972 ● Ngơn ngữ lập trình logic PRITAL tạo Năm 1973 ● “Báo cáo Lighthill”, nêu chi tiết thất bại nghiên cứu AI, phủ Anh cơng bố, từ dẫn đến việc cắt giảm nghiêm trọng tài trợ cho dự án trí tuệ nhân tạo 1974-1980 ● Liên tiếp thất vọng với phát triển AI dẫn đến cắt giảm DARPA lớn khoản trợ cấp học thuật Kết hợp với báo cáo ALPAC trước “Báo cáo Lighthill” năm trước, tài trợ trí tuệ nhân tạo làm khô quầy nghiên cứu Thời kỳ gọi “Mùa đông AI đầu tiên.” 1980 ● Tập đoàn thiết bị kỹ thuật số phát triển R1 (còn gọi XCON), hệ thống chuyên gia thương mại thành công đầu tiên Được thiết kế để định cấu hình đơn đặt hàng cho hệ thống máy tính mới, R1 khởi đầu bùng nổ đầu tư vào hệ thống chuyên gia tồn phần lớn thập kỷ, kết thúc hiệu “Mùa đông AI” đầu tiên 1982 ● Bộ Thương mại Quốc tế Công nghiệp Nhật Bản khởi động dự án Hệ thống máy tính hệ thứ năm đầy tham vọng Mục tiêu FGCS Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT phát triển hiệu giống siêu máy tính tảng để phát triển trí tuệ nhân tạo AI 1983 ● Đáp lại FGCS Nhật Bản, phủ Hoa Kỳ khởi động Sáng kiến điện toán chiến lược để cung cấp nghiên cứu tài trợ DARPA điện toán tiên tiến trí tuệ nhân tạo 1985 ● Các cơng ty chi tỷ đô la năm cho hệ thống chun gia tồn ngành cơng nghiệp gọi thị trường máy Lisp mọc lên để hỗ trợ họ Các công ty Symbolics Lisp Machines Inc xây dựng máy tính chuyên dụng để chạy ngơn ngữ lập trình AI Lisp 1987-1993 ● ● Khi cơng nghệ điện tốn đám mây cải thiện, có nhiều lựa chọn thay rẻ xuất thị trường máy Lisp sụp đổ vào năm 1987, mở “Mùa đông AI thứ hai” Các chuyên gia AI chật vật không ủng hộ giai đoạn DARPA kết thúc Sáng kiến Điện toán Chiến lược vào năm 1993 sau chi gần tỷ đô la không đạt kỳ vọng tính tốn Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT 1991 ● Lực lượng Hoa Kỳ triển khai DART, công cụ lập kế hoạch lập kế hoạch hậu cần tự động, Chiến tranh vùng Vịnh 2005 ● ● STANLEY, xe tự lái, chiến thắng DARPA Grand Challenge Quân đội Hoa Kỳ bắt đầu đầu tư vào robot tự hành “Big Dog” Boston Dynamic “PackBot” iRobot 2008 ● Google tạo bước đột phá nhận dạng giọng nói giới thiệu tính ứng dụng iPhone 2011 ● 2012 Watson IBM tuyên bố cạnh tranh Jeopardy! Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT ● Andrew Ng, người sáng lập dự án Google Brain Deep Learning, cung cấp mạng lưới thần kinh cách sử dụng thuật toán 10 triệu video YouTube dạng tập huấn luyện Mạng lưới thần kinh học cách nhận mèo mà không cho biết mèo 2014 ● Google tạo xe tự lái đầu tiên để vượt qua kiểm tra lái xe nhà nước 2016 ● AlphaGo Google DeepMind đánh bại nhà vô địch giới cờ vây Lee Sedol Sự phức tạp trò chơi Trung Quốc cổ đại coi trở ngại lớn để giải tỏa AI 1.1.3 Ứng dụng AI AI chăm sóc sức khỏe – Ứng dụng bật trí tuệ nhân tạo AI cải thiện sức khỏe người giảm chi phí Các bệnh viện áp dụng máy để chẩn đoán tốt nhanh người Một biết cơng nghệ tốt chăm sóc sức khỏe IBM Watson Nó hiểu ngơn ngữ tự nhiên có khả trả lời câu hỏi Hệ thống khai thác liệu bệnh nhân nguồn liệu có sẵn khác để tạo thành giả thuyết, sau đưa lược đồ chấm điểm tin cậy – Các ứng dụng AI khác bao gồm chatbot , chương trình máy tính sử dụng trực tuyến để trả lời câu hỏi hỗ trợ khách hàng, giúp xếp hẹn theo dõi hỗ trợ bệnh nhân thơng qua quy trình toán trợ lý sức khỏe ảo cung cấp phản hồi y tế AI kinh doanh – Tự động hóa q trình robot áp dụng cho cơng việc có tính chất lặp lặp lại – Các thuật tốn tích hợp vào tảng phân tích CRM để khám phá thông tin cách phục vụ khách hàng tốt – Chatbots kết hợp vào trang web để cung cấp dịch vụ cho khách hàng AI giáo dục Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT AI tự động hóa việc chấm điểm, giúp giáo viên có thêm thời gian AI đánh giá lực quản lý sinh viên Gia sư AI cung cấp hỗ trợ cho sinh viên, đảm bảo họ hoàn thành theo giáo trình từ trước Thậm AI thay số giáo viên AI tài AI ứng dụng lĩnh vực tài chính, ứng dụng thu thập liệu cá nhân cung cấp tư vấn tài AI pháp luật Q trình khám phá, sàng lọc thơng tin tài liệu pháp luật thường công việc dành cho người Tuy nhiên tự động hóa q trình giúp người sử dụng thời gian hiệu AI sản xuất Đây lĩnh vực đầu việc kết hợp robot vào quy trình làm việc Robot cơng nghiệp sử dụng để thực nhiệm vụ đơn lẻ giải phóng sức lao động người 1.1.4 Các lĩnh vực nghiên cứu AI Trí tuệ người (Human Intelligence): Cho đến có hai khái niệm trí tuệ người chấp nhận sử dụng nhiều nhất, là: ● Khái niệm trí tuệ theo quan điểm Turing “Trí tuệ đánh giá thông qua trắc nghiệm thông minh” ● Khái niệm trí tuệ đưa tụ điển bách khoa tồn thư: “Trí tuệ khả năng: Phản ứng cách thích hợp tình thơng qua hiệu chỉnh hành vi cách thích đáng Hiểu rõ mối liên hệ qua lại kiện giới bên nhằm đưa hành động phù hợp đạt tới mục đích Những nghiên cứu chuyên gia tâm lý học nhận thức chỉ q trình hoạt động trí tuệ người bao gồm thao tác bản: Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT 1- Xác định tập đích (goals) 2- Thu thập kiện (facts) luật suy diễn (inference rules) để đạt đích đặt 3- Thu gọn (pruning) q trình suy luận nhằm xác định tập suy diễn sử dụng 4- Áp dụng chế suy diễn cụ thể (inference mechanisms) để đưa kiện ban đầu đến đích Trí tuệ máy: khơng có định nghĩa tổng quat, nêu đặc trưng chính: 1- Khả học 2- Khả mô phỏng hành vi người 3- Khả trừu tượng hoá, tổng quát hoá suy diễn 4- Khả tự giải thích hành vi 5- Khả thích nghi tình kể thu nạp tri thức liệu 6- Khả xử lý biểu diễn hình thức ký hiệu tượng trưng 7- Khả sử dụng tri thức heuristic 8- Khả xử lý thông tin không đầy đủ, khơng xác 1.2 NHỮNG VẤN ĐỀ CHƯA ĐƯỢC GIẢI QUYẾT CỦA TRÍ TUỆ NHÂN TẠO Những thành tựu nghiên cứu ứng dụng kỹ thuật Trí tuệ nhân tạo khẳng định tính thực tiễn dự án xây dựng máy tính có khả suy nghĩ Tuy số phạm vi, máy tính cịn thua xa so với hoạt động hệ thần kinh người: Sự khác hoạt động máy tính não người, điều thể ưu máy tính so với não người khả tính tốn lớn (nhất chương trình xử lý liệu lớn) Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT Xử lý song song: công nghệ điện tử đại cho phép xây dựng đa xử lý, song máy tính hoạt động song song não người Khả diễn giải: người xem xét vấn đề theo phương pháp khác nhau, từ diễn giải theo cách dễ hiểu Ngược lại, linh hoạt mô phỏng hệ thống Trí tuệ nhân tạo Lơgic rời rạc tính liên tục: thách đố lớn với hệ thống Trí tuệ nhân tạo khả kết hợp phương pháp xử lý thông tin môi trường liên tục với thao tác xử lý thông tin rời rạc Khả học: máy tính có nhiều tính cao khơng thể mơ phỏng hồn tồn khả học giống não người Khả tự tổ chức: nay, người ta chưa thể tạo lập hệ thống Trí tuệ nhân tạo có khả tự tổ chức, tự điều khiển hoạt động để thích nghi với mơi trường 1.3 NHỮNG ƯU ĐIỂM VÀ RỦI RO 1.3.1 Ưu điểm Công nghệ Ai nghiên cứu phát triển sâu rộng Đặc biệt nước phát triển, điều thực nhiều Trí tuệ nhân tạo xử lý khối lượng lớn công việc Với liệu lớn hơn, rắc rối công nghệ Ai đưa dự đốn xác người Điều ưu điểm lớn công nghệ Ai Thông thường xử lý lượng liệu lớn, người khó xác hồn tồn Tuy nhiên điều thực cơng nghệ trí tuệ nhân tạo Ngay nhà khoa học cảm thấy khó khăn giải số lượng liệu lớn AI sử dụng học máy để lấy liệu nhanh chóng biến thành thơng tin thực Đây lời giải đáp cho ưu điểm cơng nghệ AI gì? 1.3.2 Rủi ro Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT Rủi ro tự động hóa thất nghiệp Trong thành công gần lĩnh vực máy học (Machine Learning) robot, dường chỉ còn vấn đề thời gian công việc phức tạp đòi hỏi trí thơng minh cao tiếp quản tồn diện máy móc Những người hưởng lợi nhiều từ công nghệ tiến người dân quốc gia hiểu tận dụng hội công nghệ ảnh hưởng liệu lớn mạng Trong ngành cơng nghiệp giải trí có hội quan trọng để phát triển giáo dục tốt thông qua cá nhân hóa dạy học AI ứng dụng hóa tài liệu học tập, đồng thời làm tăng nguy tỷ lệ người trẻ tuổi gặp khó khăn việc hồn thành giáo dục họ nghiện bệnh lý trò chơi video và/hoặc internet Tiến công nghệ làm tăng suất xã hội, lần lượt nâng mức sống trung bình Nếu cơng việc thực máy móc nhiều hơn, thời gian rảnh rỗi người dành cho giải trí tự phát triển cho người tang lên (một ưu điểm sử dụng AI) Tuy nhiên, nhược điểm cơng nghệ AI tăng tự động hóa gia tăng suất dẫn tới bất bình đẳng xã hội ngày tăng gia tăng mức sống trung bình khơng có trùng hợp với gia tăng chất lượng trung bình sống Các chuyên gia kinh tế học MIT giáo sư Erik Brynjolfsson chí lo lắng công nghệ tiến đe dọa làm cho sống đa số người tồi tệ Rủi ro tình báo siêu trí tuệ nói chung Trí thông minh chung khả đạt mục tiêu chung mơi trường khác Trí thơng minh gây rủi ro (thảm khốc) mục tiêu máy móc khơng phù hợp với người Nếu trí thơng minh chung đạt đến mức độ siêu phàm, trở thành siêu trí tuệ; là, thuật tốn vượt trội so với trí thơng minh người cách, kể sáng tạo khoa học, phổ biến, cảm giác, lực xã hội Lưu ý định nghĩa để ngỏ câu hỏi việc có hay khơng siêu trí tuệ có ý thức Trong trường hợp tốt nhất, siêu trí tuệ giải vô số vấn đề cho nhân loại, giúp vượt qua đạt thành tựu khoa học, đạo đức, sinh thái kinh tế trước thách thức tương lai Tuy nhiên, mục tiêu siêu trí tuệ khơng tương thích với sở thích người sinh vật khác, AI mang tới mối đe dọa tồn chưa có, có khả gây hậu nhiều so với kiện trước vũ trụ Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT Rủi ro y thức nhân tạo Hai câu hỏi liên quan phải phân biệt thực sự: Thứ nhất, liệu máy móc phát triển ý thức khả đau đớn; thứ hai, câu trả lời cho câu hỏi đầu tiên có, loại máy (sẽ) có ý thức Nhìn lướt qua tình trạng nghiên cứu cho thấy câu hỏi đầu tiên dễ trả lời thứ hai Hiện có đồng thuận đáng kể, khơng phải tồn số chuyên gia máy móc nguyên tắc có ý thức, thần kinh máy tính Những cân nhắc có hậu đạo đức sâu rộng Nếu máy móc có ý thức, mặt đạo đức vô lương tâm khai thác chúng lực lượng lao động sử dụng chúng cho cơng việc rủi ro gỡ rối mìn xử lý chất nguy hiểm Triển vọng đặc biệt đáng lo ngại hình dung AI tạo số khổng lồ trường hợp xấu nhất, số nạn nhân thiên văn, đông thảm họa biết đến khứ Hiện nay, chứng kiến lan rộng công nghệ AI với tiềm đáng ngạc nhiên Công nghệ AI đứng sau xe không người lái, y tế hỗ trợ Watson chẩn đốn, máy bay khơng người lái qn đội Hoa Kỳ dần dần trở thành sản phẩm thực tiễn tương lai gần Điều cốt yếu khung pháp lý xây dựng cẩn thận diễn trước điều xảy ra, để nhận tiềm công nghệ theo cách giảm thiểu rủi ro cách an toàn phát triển tổng thể tiêu cực Càng tiến lĩnh vực công nghệ AI, nhấn mạnh cách tiếp cận hợp lý, tầm nhìn xa thách thức liên quan trở thành Bởi trị tiến pháp lý có xu hướng tụt hậu so với phát triển cơng nghệ, có trách nhiệm đặc biệt lớn dựa nhà nghiên cứu nhà phát triển cá nhân trực tiếp tham gia vào tiến trình thực Tuy nhiên, cần khuyến khích kinh tế mạnh mẽ cho phát triển công nghệ diễn nhanh mà khơng làm lãng phí thời gian phân tích rủi ro Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT CHƯƠNG II: CHƯƠNG TRÌNH Q&A CỦA MỘT CUỘC HỘI THOẠI CHATBOT TIẾNG VIỆT SỬ DỤNG BERT 2.1 GIỚI THIỆU VỀ BERT 2.1.1 Khái niệm BERT BERT viết tắt “Bidirectional Encoder Representations from Transformers”, kiến trúc cho lớp tốn Language Representation đươc Google cơng bố vào đầu tháng 11 vừa qua Không giống mô hình trước đó, BERT thiết kế để đào tạo vector đại diện cho ngôn ngữ văn thông qua ngữ cảnh chiều (trái phải) chúng Kết là, vector đại diện sinh từ mơ hình BERT tính chỉnh với lớp đầu bổ sung tạo nhiều kiến trúc cải tiến đáng kể cho nhiệm vụ xử lý ngôn ngữ tự nhiên Question Answering, Language Inference, mà không cần thay đổi nhiều từ kiến trúc cũ BERT khái niệm đơn giản lại mang lại hiệu cực lớn thực tế Nó thu kết tối ưu cho 11 nhiệm vụ xử lý ngôn ngữ tự nhiên, bao gồm việc đẩy kết nhiệm vụ GLUE benchmark lên 80.4%(cải tiến thêm 7.6%) SQuAD v.1.1 với F1 score tập test đạt 93.2%(cải tiến thêm 1.5%), tốt người 2% Lớp tốn Representation cho mơ hình ngơn ngữ cho thấy hiệu việc cải thiện nhiều nhiệm vụ lĩnh vực xử lí ngơn ngữ tự nhiên Những nhiệm vụ nhiệm vụ cấp câu Natural language inference, Paraphrasing nhằm dự đoán mối quan hệ câu cách phân tích tổng thể chúng nhiệm vụ cấp từ nhận dạng thực thể có tên(NER), Question Answering với yêu cầu trả kết xác cho câu hỏi dạng từ, Có chiến lược để sử dụng biểu diễn ngôn ngữ huấn luyện trước cho nhiệm vụ sau, gồm feature-based fine-tuning Tuy nhiên, kỹ thuật bị hạn chế nhiều việc thể khả mô hình vector đại diện, đặc biệt hướng tiếp cận finetuning Hạn chế mơ hình ngơn ngữ xây dựng dựa ngữ cảnh chiều gây nên hạn chế việc lựa chọn mơ hình kiến trúc sử dụng q trình sử dụng pre-training Ví dụ OpenAI GPT, tác giả sử dụng kiến trúc left-to-right, nghĩa tokens chỉ phụ thuộc vào token trước Trong kiến trúc này, cung cấp hướng tiếp cận dựa fine-tuning khắc phục hạn chế đó, gọi “Bidirectional Encoder Representations from Transformers” Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT 2.1.2 Sự đời BERT Các nhà nghiên cứu làm việc Google AI tái khẳng định, thiếu hụt liệu đào tạo thách thức lớn lĩnh vực xử lý ngôn ngữ tự nhiên Đây lĩnh vực rộng lớn đa dạng với nhiều nhiệm vụ riêng biệt, hầu hết tập liệu chỉ đặc thù cho nhiệm vụ Để thực tốt nhiệm vụ ta cần liệu lớn chứa hàng triệu chí hàng tỷ ví dụ mẫu Tuy nhiên, thực tế hầu hết tập liệu chỉ chứa vài nghìn vài trăm nghìn mẫu đánh nhãn tay người(các chuyên gia ngơn ngữ học) Sự thiếu hụt liệu có nhãn chất lượng cao để đào tạo mơ hình gây cản trở lớn cho phát triển NLP nói chung Để giải thách thức này, mơ hình xử lý ngôn ngữ tự nhiên sử dụng chế tiền xử lý liệu huấn luyện việc transfer từ mơ hình chung đào tạo từ lượng lớn liệu không gán nhãn Ví dụ số mơ hình nghiên cứu trước để thực nhiệm vụ Word2vec, Glove hay FastText Việc nghiên cứu mơ hình giúp thu hẹp khoảng cách tập liệu chuyên biệt cho đào tạo việc xây dựng mơ hình tìm đại diện chung ngơn ngữ sử dụng số lượng lớn văn chưa gán nhãn lấy từ trang web Các pre-train model tinh chỉnh lại nhiệm vụ khác với liệu nhỏ Question Answering, Sentiment Analysis, dẫn đến cải thiện đáng kể độ xác cho so với mơ hình huấn luyện trước với liệu Tuy nhiên, mơ hình kể có yếu điểm riêng nó, đặc biệt khơng thể đại diện theo ngữ cảnh cụ thể từ lĩnh vực hay văn cảnh cụ thể Tiếp nối thành công định mơ hình trước đó, Google cơng bố thêm kỹ thuật gọi Bidirectional Encoder Representations from Transformers(BERT) Với lần công bố này(kèm mã nguồn dự án), Google khẳng định giới đào tạo hệ thống hỏi đáp(Question Answering) cải tiến cho riêng nhiều mơ hình NLP khác chỉ vài GPU chỉ khoảng 30p TPU(có thể bạn chưa biết, Google cho phép bạn sử dụng TPU họ cách miễn phí Google Colab) Một số trích dẫn từ nhà nghiên cứu Google AI cho bạn nhìn khái quát hơn: Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT "BERT is the first deeply bidirectional, unsupervised language representation, pre-trained using only a plain text corpus (in this case, Wikipedia)" "Integrating a bidirectional model supports access to context from both past, future and unsupervised directions of data – it can consume data that has not yet been categorized." Hiện tại, BERT có sẵn Github chỉ hỗ trợ tiếng Anh mục tiêu Google phát hành mô hình đào tạo nhiều ngơn ngữ khác tương lai 2.1.3 Kết mà BERT đạt Để đánh giá hiệu mà BERT đem lại, kỹ sư thuộc Google AI so sánh BERT với mơ hình tốt NLP trước Điều quan trọng chỉ việc sử dụng BERT thay cho pre-train model trước mà không cần thực thay đổi kiến trúc mạng neural sâu Kết là, SQUAD v1.1, BERT đạt kết F1_score = 93.2%, vượt kết tốt trước 91.6% hiệu mà người đạt 91.2% Trên SQUAD v2.0, Top kết tốt toàn BERT Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT BERT cải thiện hiệu tốt thách thức GLUE benchmark, nhiệm vụ Natural Language Understanding (NLU) BERT gần chiếm top tất nhiệm vụ xử lý ngôn ngữ tự nhiên từ trước đến lần khẳng định lại sức mạnh Đây coi bước nhảy vượt bậc Google lĩnh vực xử lý ngơn ngữ tự nhiên tự hỏi phải cú hích lớn để cải tiến tốn xử lí ngơn ngữ tự nhiên cho tiếng Việt Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT 2.2 Áp dụng vào tốn Khi mơ hình nhận input đầu vào thực trích xuất dựa theo câu hỏi data có sẵn cách encode câu hỏi đoạn văn tính độ tương đồng, sau lấy tập câu trả lời có độ tương đồng với câu hỏi cao Tiếp đến đưa qua mơ hình rerank để đánh giá lại khả đoạn văn câu trả lời cho câu hỏi, tính xác suất xếp theo điểm số Câu trả lời đưa câu có điểm số cao Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT 2.3 Kết Quả 2.4 Rủi ro Do data còn hạn chế nên xảy trường hợp kết in bị lệch với câu hỏi TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THƠNG TIN ĐỀ TÀI: Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT Chuyên ngành : CÔNG NGHỆ PHẦN MỀM Lớp PHIẾU CHẤM ĐIỂM LỜI MỞ ĐẦU CHƯƠNG I: GIỚI THIỆU VỀ AI Tìm hiểu khái niệm Lịch sử phát triển 1943 1949 1950 1952 1954 1956 1958 1959 1963 1966 1969 Năm 1972 Năm 1973 1974-1980 1980 : D14CNPM4 Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT 1982 1983 1985 1987-1993 1991 2005 2008 2011 2012 2014 2016 Ứng dụng AI AI kinh doanh AI giáo dục AI tài AI pháp luật AI sản xuất 1.1.4 Các lĩnh vực nghiên cứu AI NHỮNG VẤN ĐỀ CHƯA ĐƯỢC GIẢI QUYẾT CỦA TRÍ TUỆ NHÂN TẠO NHỮNG ƯU ĐIỂM VÀ RỦI RO Rủi ro Rủi ro y thức nhân tạo CHƯƠNG II: CHƯƠNG TRÌNH Q&A CỦA MỘT CUỘC HỘI THOẠI CHATBOT TIẾNG VIỆT SỬ DỤNG BERT Khái niệm BERT Sự đời BERT Kết mà BERT đạt Áp dụng vào toán Kết Quả Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT ... tạo CHƯƠNG II: CHƯƠNG TRÌNH Q&A CỦA MỘT CUỘC HỘI THOẠI CHATBOT TIẾNG VIỆT SỬ DỤNG BERT Khái niệm BERT Sự đời BERT Kết mà BERT đạt Áp dụng vào tốn Kết Quả Xây dựng chương trình Q&A hội thoại Chatbot. .. hội thoại Chatbot tiếng việt sử dụng BERT CHƯƠNG II: CHƯƠNG TRÌNH Q&A CỦA MỘT CUỘC HỘI THOẠI CHATBOT TIẾNG VIỆT SỬ DỤNG BERT 2.1 GIỚI THIỆU VỀ BERT 2.1.1 Khái niệm BERT BERT viết tắt “Bidirectional.. .Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: STT Họ tên Nguyễn Văn Anh Mã SV: 19810310265 Chữ ký Nhiệm vụ Xây dựng chương trình Q&A

Định dạng
Số trang	24
Dung lượng	2,39 MB