Google se niega a entrenar su IA con correos electrónicos | Edad de información

Google le dijo un poco al Bard cuando dijo que fue entrenado usando datos de Gmail. Imagen: Shutterstock

Un día después de su lanzamiento público, el chatbot de IA de Google, la respuesta de la compañía a ChatGPT, le dijo erróneamente a un investigador de IA que había sido entrenado con datos de Gmail, lo que destaca aún más el peligro de que la IA generativa pueda difundir información errónea y destaca la importancia de la inteligencia artificial. transparencia.

Algunas cuentas de Google en el Reino Unido y EE. UU. obtuvieron su primer acceso a Bard esta semana después de un desastroso anuncio de producto en febrero que provocó una caída de $ 140 mil millones en el precio de las acciones de la compañía en un solo día.

ofertas anticipadas Bard ha demostrado que continúa cometiendo errores de hecho, que generalmente se personifican como «alucinaciones», mientras que la interfaz de usuario está plagada de descargos de responsabilidad que «pueden mostrar información inexacta u ofensiva que no representa las opiniones de Google».

A pesar de la publicación de intentos fallidos de obtener una descripción genial de cómo hacer mostaza o Enamórate del usuarioera una pregunta inofensiva que atormentaba a Bard cuando era un académico kate crawfordque ocupa una cátedra honoraria en la Universidad de Sydney, simplemente preguntó de dónde procedía el conjunto de datos de IA.

“El conjunto de datos de Bard proviene de una variedad de fuentes”, dijo el chatbot, y agregó que ha sido entrenado utilizando datos disponibles públicamente como “Wikipedia, GitHub y Stack Overflow”, así como datos de terceros “que se han asociado con Google con el fin de proporcionar datos Para entrenar a Bard.”

READ  Los desarrolladores de Rock Band anuncian que no habrá más DLC y se centrarán en Fortnite por ahora

Pero Bard también dijo que recibió capacitación sobre «datos internos de Google», que incluyen «datos de la Búsqueda de Google, Gmail y otros productos».

Crawford tuiteó su captura de pantalla de esta interacción diciendo que asumió que estaba mal «de lo contrario, Google está cruzando algunos límites legales serios».

Oficial Cuenta de Google reportada Decir que no, «no se entrenó con datos de Gmail» y que «Bard es un experimento inicial que se basa en grandes modelos de lenguaje y cometerá errores».

Obviamente, el equipo de redes sociales de Google también puede cometer errores cuando la empresa respondió a otro tuit Escribió mal el nombre de su productodiciendo «No se utilizarán datos privados durante Barbs [sic] Proceso de formación.” Borraste el tuit.

Desde entonces, Crawford ha dicho que existe un «problema real» con la falta de transparencia sobre los datos en los que se entrenan los grandes modelos de lenguaje y otras formas de inteligencia artificial.

«Los científicos e investigadores como yo no tenemos forma de saber qué es Bard, GPT4 o Sydney [Microsoft Bing] Me entrené en eso.” “Las compañías se niegan a decirlo. Esto es importante porque los datos de entrenamiento son parte de la base subyacente sobre la que se construyen los modelos”.

Las preocupaciones de Crawford son que la falta de datos de capacitación dificulta «probar o desarrollar mitigaciones, predecir daños o comprender cuándo y dónde no se deben implementar o confiar».

READ  STM Goods presenta la Colección Focus para iPhone

Para crédito de Google, describió al menos parcialmente la sintaxis de su suite Infiniset: el conjunto de datos utilizado para entrenar modelos de lenguaje para aplicaciones de diálogo (LaMDA), el modelo en el que se basa Bard.

en papel En febrero pasado, Google dijo que la mitad de los datos consistían en datos de foros públicos, y otra cuarta parte provenía de Wikipedia y datos extraídos de la web y proporcionados por la organización sin fines de lucro Common Crawl.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *