Databricks lanza datos gratuitos para entrenar modelos de IA para uso comercial

Escrito por Stephen Nelis y Crystal Hu

(Reuters) – Databricks, una startup con sede en San Francisco valorada por última vez en 38.000 millones de dólares, publicó el miércoles un conjunto de datos que dice que las empresas y los investigadores pueden usar para entrenar chatbots similares a ChatGPT.

Los datos, basados ​​en encuestas de empleados de Databricks, llenan un vacío importante en los esfuerzos de la compañía para crear herramientas comercialmente utilizables para entrenar sistemas de IA que podrían ofrecer alternativas a OpenAI respaldado por Microsoft.

Databricks dijo que pasó las últimas semanas recopilando 15,000 preguntas y respuestas de 5,000 empleados en 40 países y luego verificó la calidad de los datos, un esfuerzo que el director ejecutivo Ali Qudsi estima que le ha costado a la compañía millones de dólares.

Databricks vende herramientas de software para construir sistemas de IA.

Qudsi dijo a Reuters que la compañía está publicando datos de capacitación gratuitos con la esperanza de que otras compañías los usen para crear sus propios sistemas de IA, posiblemente usando Databricks para hacerlo.

El conjunto de datos gratuito se produjo después de que Databricks lanzara el mes pasado Dolly, un gran modelo de lenguaje de código abierto que es la base tecnológica para los chatbots. Pero no se puede utilizar en productos comerciales porque los datos utilizados para entrenar el modelo fueron generados por ChatGPT de OpenAI, cuyos términos de servicio impiden que sus datos se utilicen para desarrollar sistemas comerciales de IA que puedan competir con OpenAI.

READ  World of Warcraft: Dragonflight 10.0.7 parche Notas de revisión del 3 de abril

El uso de datos generados por IA para entrenar otros sistemas de IA se está volviendo común. Por ejemplo, los nuevos chatbots publicados por la Universidad de Stanford y UC Berkeley utilizaron estos datos generados por máquinas de ChatGPT, pero ambos han dejado en claro que sus modelos no se pueden usar con fines comerciales.

Qudsi reconoce que el conjunto de datos está lejos de ser perfecto porque consiste solo en la base de empleados de Databricks, lo que, según él, sesga a los hombres. Los usuarios podrán examinar los datos de entrenamiento por sí mismos, lo que no pueden hacer con modelos como ChatGPT o Bard de Alphabet Inc, cuyos datos de entrenamiento no han sido publicados.

“No afirmamos que se trata de un conjunto de datos imparcial”, dijo Qudsi. “Solo estamos tratando de hacer que la sociedad vaya en esa dirección de más transparencia, más de todos con sus propios modelos a seguir en lugar de solo unos pocos en los que tenemos que confiar”.

(Reporte de Stephen Nelis en San Francisco y Crystal Hu en Nueva York; Editado por Robert Purcell)

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *