AI boomerang effect: future of technology at risk from proprietary data training
Story by Andrew Griffin - 1 week(s)
--
Researchers warn that as content created by artificial intelligence proliferates on the Internet, AI systems themselves could collapse.
In recent years, there has been growing interest in text processing and generation systems, such as OpenAI's ChatGPT. Enthusiasm has led many to publish blog posts and other content created by such systems, and more and more of the Internet has been produced by AI.
--
However, many of the companies producing such systems use text pulled from the Internet to train them. The practice can lead to a loop in which the same AI systems that are used to produce that text are trained by the same text.
Consequently, such AI tools would soon fall into gibberish and meaningless data, the researchers warned in a new paper. Their warnings come amid broader concerns about the "dead Internet theory," which suggests a vicious cycle in which more and more of the web is becoming automated.
According to the research, it only takes a few cycles of content generation and content learning for these systems to produce nonsense.
For example, they tested a system with a text on medieval architecture and found that it needed only nine text generation processes before the result was a repetitive list of connectors.
The concept of AI training on datasets also created by AI and then contaminating its results has been called "model collapse." Researchers warn that it could become increasingly prevalent as AI systems become more widely used on the Internet.
[Only the Word of God, Jesus Christ is always Truth, Life, ever ancient and ever new Light.]
.
.
.
.
.
Investigadores advierten que, a medida que proliferen en Internet los contenidos creados por la inteligencia artificial, los sistemas de la misma IA podrían colapsar.En los últimos años, ha aumentado el interés por los sistemas de procesamiento y generación de texto, como ChatGPT de OpenAI. El entusiasmo ha llevado a muchos a publicar entradas de blog y otros contenidos creados por esos sistemas, y cada vez más parte de Internet ha sido producida por la IA.
Sin embargo, muchas de las empresas que producen tales sistemas utilizan textos sacados de Internet para entrenarlos. La práctica puede dar lugar a un bucle en el que los mismos sistemas de IA que se utilizan para producir ese texto se entrenen con el mismo.Por consiguiente, dichas herramientas de IA no tardarían en caer en galimatías y datos sin sentido, advirtieron los investigadores en un nuevo artículo. Sus advertencias llegan en medio de una preocupación más general por la “teoría de la Internet muerta”, que sugiere un círculo vicioso en el que cada vez más parte de la web se está automatizando.
Según la investigación, bastan unos pocos ciclos de generación de contenidos y de aprendizaje de los mismos para que estos sistemas produzcan tonterías.Por ejemplo, hicieron pruebas en un sistema con un texto sobre arquitectura medieval y descubrieron que solo necesitaba nueve procesos de generación de texto antes de que el resultado fuera una lista repetitiva de conectores.
El concepto de que la IA se entrene en conjuntos de datos creados también por la IA y luego contamine sus resultados se ha denominado “colapso del modelo”. Los investigadores advierten que podría ser cada vez más frecuente a medida que los sistemas de IA se utilicen más en Internet.El fenómeno sucede porque, a medida que esos sistemas producen datos y luego se entrenan con ellos, las partes menos comunes de los datos tienden a quedar fuera. La investigadora Emily Wenger, que no trabajó en el estudio, puso el ejemplo de un sistema entrenado con fotos de distintas razas de perros: si hay más golden retrievers en los datos originales, los seleccionará y, a medida que el proceso avanza, los demás perros quedarán totalmente excluidos, antes de que el sistema colapse y genere datos sin sentido.Según los investigadores, el mismo efecto se produce con modelos lingüísticos de gran tamaño, como los de ChatGPT y Gemini de Google.
[Solo la Palabra de Dios, Jesucristo es siempre Verdad, Vida, siempre antigua y siempre nueva Luz]