“Đại chiến trí tuệ nhân tạo: Nhà khoa học cảnh báo tương lai của Web!”

The future of the web is being called into question as AI-on-AI mayhem becomes more prevalent. While the internet has long been a reliable source of information and news, the development of artificial intelligence (AI) has created a new dynamic. Thanks to AI tools such as OpenAI’s ChatGPT, content creation has become faster and more scalable. However, a recent study has highlighted the drawbacks of AI-generated content on the web. As more and more of this content floods the internet, there are growing concerns that AI models trained on this material may become meaningless. The impact of AI on the internet and the trajectory of large language models is a topic of debate in the field of AI.
A recent study by scientists from the UK and Canada sheds light on this alarming phenomenon. AI models, such as the Large Language Model (LLM) like ChatGPT and OpenAI, are powerful tools trained on large amounts of data gathered from the internet. Initially, this data was mostly created by humans. However, as more people use AI tools to create content, AI-generated content will become a significant part of the data used to train large language models in the future. In an unreviewed paper, researchers describe the concept of a “model collapse,” where the quality of the output text and images rapidly decreases, leading to an influx of garbage content on the internet.
AI, lacking the ability to differentiate between reality and fiction, may need to understand more accurately what they believe to be true, reinforcing their confidence. The main author, Dr. Ilia Shumailov of Oxford University, explains that the problem lies in the way AI perceives probability. With each repetition, uncertain events are less likely to be reflected in the output, narrowing AI’s understanding of what might happen. This shrinking effect limits creativity, adaptability, and effective processing of complex topics.
To illustrate this issue, researchers conducted a test involving an AI trained on AI-generated content. In one case, a ninth-generation AI created meaningless sentences about rabbits when the source material was about medieval architecture. The text became increasingly meaningless with each subsequent generation of AI, losing its comprehensibility.
The significance of garbage content generated by AI is enormous. Researchers have compared this phenomenon to pollution, imagining the internet filled with meaningless information, much like the oceans filled with plastic waste. As AI-generated content becomes more prevalent, it poses a challenge in differentiating reliable information from noise. Furthermore, the study raises concerns about potential consequences for various industries. AI-generated content is already available online, with news outlets and marketing agencies widely using AI. The impact on journalism, content creation, and the job market is significant, as AI chatbots increasingly replace human writers.
Although AI-generated content presents challenges, researchers emphasize the importance of human-created data to train AI. Human data provides natural variations, errors, and anomalous results, contributing to a more comprehensive understanding of language. While human data is not an absolute requirement, incorporating it will help create more diverse and reliable AI output.
In conclusion, as the dependence on AI for content creation continues to increase, it is important to address the concerns of scientists about the possibility of AI products degrading over generations. Balancing the use of AI models with data and expertise created by humans is the key to maintaining the reliability and usefulness of information on the internet. By understanding the risks and taking proactive steps, we can navigate the context of developing AI and ensure a future where AI remains a valuable tool without falling into the trap of creating meaningless output.
AI-on-AI Mayhem: Các nhà khoa học gióng lên hồi chuông cảnh báo về tương lai của web!
Internet từ lâu đã được coi là một nguồn thông tin và tin tức đáng tin cậy, nhưng sự phát triển của trí tuệ nhân tạo (AI) đã tạo ra một động lực mới. Nhờ các công cụ AI tổng quát như ChatGPT của OpenAI, việc tạo nội dung trở nên nhanh hơn và có thể mở rộng hơn. Tuy nhiên, một nghiên cứu gần đây đã nêu bật những nhược điểm của nội dung do AI tạo ra trên web. Khi ngày càng nhiều nội dung này tràn ngập Internet, ngày càng có nhiều lo ngại rằng các mô hình AI trong tương lai được đào tạo trên tài liệu này có thể trở nên vô nghĩa. Tác động của AI trên Internet và quỹ đạo của các mô hình ngôn ngữ lớn là một chủ đề thảo luận đang diễn ra trong lĩnh vực trí tuệ nhân tạo.
Tiến thoái lưỡng nan trong đào tạo AI:
Một nghiên cứu mới đây của các nhà khoa học Anh và Canada đã làm sáng tỏ hiện tượng đáng báo động này. Các mô hình AI, chẳng hạn như Mô hình ngôn ngữ lớn (LLM) như ChatGPT và OpenAI, là những công cụ mạnh mẽ được đào tạo dựa trên lượng lớn dữ liệu từ Internet. Ban đầu, dữ liệu này chủ yếu do con người tạo ra. Tuy nhiên, khi ngày càng có nhiều người tạo nội dung sử dụng các công cụ AI để tạo nội dung, nội dung do AI tạo sẽ trở thành một phần lớn dữ liệu đào tạo cho các Mô hình ngôn ngữ lớn trong tương lai.
Trong một bài báo chưa được đánh giá ngang hàng, các nhà nghiên cứu mô tả khái niệm “sụp đổ mô hình”, trong đó chất lượng văn bản và hình ảnh đầu ra giảm nhanh chóng, dẫn đến nhiều nội dung rác trên Internet. AI, thiếu khả năng phân biệt giữa thực tế và hư cấu, có thể cần hiểu chính xác hơn những gì họ tin là có thật, củng cố niềm tin của họ.
Tác giả chính Dr. Ilia Shumailov của Đại học Oxford giải thích rằng vấn đề nằm ở cách AI nhìn nhận xác suất. Với mỗi lần lặp lại, các sự kiện không chắc chắn sẽ ít có khả năng được phản ánh trong đầu ra hơn, thu hẹp hiểu biết của AI về những gì có thể xảy ra. Hiệu ứng thu hẹp này hạn chế sự sáng tạo, khả năng thay đổi và khả năng xử lý các chủ đề phức tạp một cách hiệu quả.
Ví dụ thực tế cuộc sống:
Để minh họa cho vấn đề này, các nhà nghiên cứu đã tiến hành một thử nghiệm liên quan đến một AI được đào tạo trước về nội dung do AI tạo ra. Trong một trường hợp, AI thế hệ thứ chín đã tạo ra những điều vô nghĩa về thỏ rừng khi tài liệu nguồn là về kiến trúc thời trung cổ. Văn bản ngày càng trở nên vô nghĩa với mỗi thế hệ AI tiếp theo, mất đi tính dễ hiểu.
Ý nghĩa đối với Internet và Hơn thế nữa:
Ý nghĩa của nội dung rác do AI tạo ra là rất lớn. Các nhà nghiên cứu đã so sánh hiện tượng này với ô nhiễm, tưởng tượng Internet chứa đầy thông tin vô nghĩa, giống như lấp đầy các đại dương bằng rác nhựa. Khi nội dung do AI tạo ra ngày càng nhiều, nó đặt ra thách thức trong việc phân biệt thông tin đáng tin cậy với thông tin nhiễu.
Ngoài ra, nghiên cứu làm dấy lên lo ngại về những hậu quả tiềm ẩn đối với các ngành công nghiệp khác nhau. Nội dung do AI tạo ra đã có sẵn trực tuyến, với các trang tin tức và cơ quan tiếp thị sử dụng AI rộng rãi. Tác động đối với báo chí, sáng tạo nội dung và thị trường việc làm là rất lớn, khi các chatbot do AI hỗ trợ ngày càng thay thế các nhà văn của con người.
Vai trò của dữ liệu do con người tạo ra:
Mặc dù nội dung do AI tạo ra đặt ra những thách thức, nhưng các nhà nghiên cứu nhấn mạnh tầm quan trọng của dữ liệu do con người tạo ra để đào tạo AI. Dữ liệu con người cung cấp các biến thể tự nhiên, lỗi và kết quả bất thường, góp phần hiểu biết toàn diện hơn về ngôn ngữ. Mặc dù dữ liệu con người không phải là một yêu cầu tuyệt đối, nhưng việc đưa dữ liệu vào sẽ giúp tạo ra đầu ra AI đa dạng và đáng tin cậy hơn.
Tóm lại là:
Khi sự phụ thuộc vào AI để tạo nội dung tiếp tục tăng lên, điều quan trọng là phải giải quyết những lo ngại của các nhà khoa học về khả năng xuống cấp của sản phẩm AI qua các thế hệ. Cân bằng giữa việc sử dụng các mô hình AI với dữ liệu và chuyên môn do con người tạo ra là chìa khóa để duy trì độ tin cậy và tính hữu ích của thông tin trên Internet. Bằng cách hiểu những rủi ro và thực hiện các bước chủ động, chúng ta có thể điều hướng bối cảnh AI đang phát triển và đảm bảo một tương lai nơi AI vẫn là một công cụ có giá trị mà không mắc phải cái bẫy tạo ra những điều vô nghĩa.