Redacción: Lourdes Torres Camargo
Google actualizó hace unos días su política de privacidad. Lo hicieron con un cambio importante que hace mención específica a cómo entrenan sus modelos de inteligencia artificial. En el documento oficial explican lo siguiente:
"Google puede recoger información públicamente disponible online, o a partir de otras fuentes públicas, para ayudar a entrenar modelos de IA de Google y desarrollar productos y funciones como el Traductor de Google, Bard y funciones de IA de Cloud".
Es importante destacar que Google habla de información públicamente disponible online. La empresa parece por tanto reservarse el derecho de recopilar y potencialmente aprovechar contenidos de toda la web, y hacerlo precisamente por el hecho de que ese contenido es público.
Cuidado con lo que publicas. Eso hace que una vez más no sea mala idea reflexionar sobre todo lo que publicamos o subimos en internet sin más. A menos que marquemos esos contenidos como privados o protegidos por derechos de autor, Google los podrá usar para cosas como entrenar sus modelos de inteligencia artificial.
Transparencia casi nula. Mientras esto pasa, las empresas que ofrecen modelos de IA generativa siguen sin ofrecer datos claros sobre cómo entrenan sus plataformas. Google es una de las pocas que expone esos "datasets" utilizados en algunos modelos: el llamado Google C4 es un gigantesco conjunto de datos que permiten descubrir que las fuentes más relevantes son Google Patents, Wikipedia y Scribd.
Pero todas usan internet sin piedad. Lo que sí está claro es que los contenidos publicados en internet en todo tipo de plataformas —blogs, redes sociales, foros, etc— acaba siendo potencialmente usada para entrenar esos modelos de datos. Lo que no sabemos en la mayoría de los casos es si eso que nosotros publicamos estará o no, y sin saber las fuentes concretas, tampoco es posible entender hasta qué punto los ChatGPT o Bard del mundo pueden tener ciertos sesgos en un sentido u otro.
Por eso Reddit y Twitter están tomando medidas. Lo que acaba de hacer Google al cambiar su política de privacidad, señala el portal Xacata tiene mucho que ver con la decisión de Reddit y Twitter de limitar el acceso a sus APIs: si no se paga, no se podrá acceder a ellas.
O lo que es lo mismo: si no se paga, usar las enormes cantidades de contenido publicado en esas redes es mucho más difícil para empresas que quieren entrenar sus modelos de IA con esos datos.
Comentários