EleutherAI’s GPT-J an open source NLP tool/GPT-J de EleutherAI una herramienta NLP de código abierto

in #science3 years ago


Source

We have already recently commented on this blog about the excellence of GPT-3, the natural language processing (NLP) tool developed by OpenAI which, contrary to what its name suggests, has little openness since only Microsoft has access to it after having invested 1 billion dollars in the project, although it is true that the GPT versions 1 and 2 are free to use although less powerful.

Ya hemos comentado recientemente en este blog las excelencias de GPT-3 la herramienta de procesamiento de lenguaje natural (NLP) desarrollada por OpenAI que, al contrario de lo que su nombre indica, tiene poco de open puesto que solo Microsoft tiene acceso a ella tras haber invertido 1.000 millones de dólares en el proyecto, aunque es cierto que las versiones GPT 1 y 2 son de uso libre aunque menos potentes.

With the idea of changing this situation and giving open access to the code, the company EleutherAI has developed an NLP tool called GPT-J, the project began in July 2020 with the idea of emulating the already famous GPT-3 and thus ending it Microsoft's monopoly on these types of language processing tools.

Con la idea de cambiar esta situación y dar acceso acceso abierto al código la empresa EleutherAI ha desarrollado una herramienta NLP llamada GPT-J , el proyecto comenzó en julio de 2020 con la idea de emular al ya famoso GPT-3 y así acabar con el monopolio de Microsoft sobre este tipo de herramientas de procesamiento de lenguaje.


Source

In March of this year the company launched two GPT-Neo models powered respectively with 1,300 and 2,700 million parameters, the figures are not bad but they are still far from the 175,000,000,000 parameters that the OpenAI GPT-3 uses and many years light away from the 1.75 trillion parameters of the Chinese WuDao 2.0 model.

En marzo de este año la compañía lanzó dos modelos GPT-Neo alimentados respectivamente con 1.300 y 2.700 millones de parámetros, las cifras no están mal pero aún están lejos de los 175.000.000.000 de parámetros que utiliza el GPT-3 de OpenAI y a muchos años luz de los 1,75 billones de parámetros del modelo chino WuDao 2.0.

But to be able to get close to these figures, huge capacities of computational work are needed that in the end translates into a lot of money, at the moment EleutherAI is funded by Google and by CoreWave, a provider of cloud computing that has offered high performance computing in the cloud for future development.

Pero para poder acercarse a estas cifras se necesitan ingentes capacidades de trabajo computacional que al final se traduce en mucho dinero, por el momento EleutherAI está financiada por Google y por CoreWave, una empresa proveedora de computación en la nube que ha ofrecido computación de alto rendimiento en la nube para futuros desarrollos.


Source

In the research group they have created a set of 825 Gb language modeling datasets called The Pile that has been fed with data taken from among others arXiv, GitHub, Wikipedia, StackExchange and HackerNews, with this data they have developed the latest GPT version -J which is close to 7,000 million parameters.

En el grupo de investigación han creado un conjunto de datasets de modelado de lenguaje de 825 Gb llamado The Pile que ha sido alimentado con datos tomados entre otros de arXiv, GitHub, Wikipedia, StackExchange y HackerNews, con estos datos han desarrollado la última versión GPT-J que se acerca a los 7.000 millones de parámetros.

According to its designers, despite the great difference in performance, GPT-J has surpassed GPT-3 in code generation since it has been trained with more data-oriented data, in any case it is very good to have tools like this in open source to democratize as much as possible the access to this type of exceptionally expensive technologies.

Según sus diseñadores, a pesar de las grandes diferencia en prestaciones, GPT-J ha superado a GPT-3 en la generación de código ya que ha sido entrenado con datos más orientados a ello, de cualquier manera es muy bueno poder contar con herramientas de este tipo de código abierto para democratizar lo más posible el acceso a este tipo de tecnologías excepcionalmente costosas.

More information/Más Información
https://analyticsindiamag.com/eleutherais-gpt-j-vs-openais-gpt-3/

https://noticiasmoviles.com/eleutherai-afirma-que-el-nuevo-modelo-de-pnl-se-acerca-al-rendimiento-al-nivel-de-gpt-3/

Sort:  

Hola @mauromar, esto es mucho dinero con mucha inteligencia y mucho trabajo…
Dudas-+.jpg
Espero en un futuro me sirva de algo esta herramienta.

No lo dudes.

Ya la tecnología nos aplasto.

Pues todavía lo hará más...

Saludos @mauromar, un primer e importante paso, ya se sumaran colaboradores.