Algoritmos descubren conocimiento oculto escaneando estudios científicos

• Fecha: 31 de julio, 2019

Algoritmos descubren conocimiento oculto escaneando estudios científicos

Un algoritmo sin capacitación en ciencia de materiales ha demostrado que puede escanear el texto de millones de artículos y descubrir nuevos conocimientos científicos

Buenos Aires-(Nomyc)-Un equipo liderado por Anubhav Jain, un científico de la División de Recursos de Almacenamiento y Distribución de Energía de Berkeley Lab, recolectó 3,3 millones de resúmenes de artículos científicos publicados sobre materiales y los introdujo en un algoritmo llamado ‘Word2vec’ y al analizar las relaciones entre las palabras, el algoritmo fue capaz de predecir los descubrimientos de nuevos materiales termoeléctricos con años de antelación y sugerir materiales aún no conocidos como candidatos para materiales termoeléctricos.

“Sin contarle nada sobre ciencia de materiales, aprendió conceptos como la tabla periódica y la estructura cristalina de los metales” –dice Jain en un comunicado, lo que sugirió el potencial de la técnica y agrega que “de manera probable, lo más interesante que descubrimos es que se puede usar este algoritmo para abordar las brechas en la investigación de materiales, cosas que las personas deberían estudiar pero que no lo han hecho hasta ahora”.

“Incrustaciones de palabras no supervisadas, captura el conocimiento latente de la literatura de ciencia de materiales”, Vahe Tshitoyan, becario postdoctoral del Laboratorio de Berkeley que ahora trabaja en Google y es el autor principal del estudio junto con Jain, los científicos del Laboratorio de Berkeley, Kristin Persson y Gerbrand Ceder, quienes ayudaron a dirigir el estudio.

“El documento establece que la minería de textos de la literatura científica puede descubrir conocimiento oculto, y que la extracción basada en texto puro puede establecer conocimientos científicos básicos”, señala Ceder, del Departamento de Ciencia e Ingeniería de Materiales de la UC Berkeley.

Tshitoyan señala que el proyecto estaba motivado por la dificultad de dar Sentido a la gran cantidad de estudios publicados porque “en cada campo de investigación hay 100 años de publicaciones de investigación anteriores, y cada semana salen más estudios. Un investigador puede acceder solo a una fracción de eso. Pensamos, ¿el aprendizaje automático puede hacer algo para utilizar todo este conocimiento colectivo de una manera no supervisada, sin la necesidad de orientación de investigadores humanos?».

El equipo recolectó los 3,3 millones de resúmenes de artículos publicados en más de 1.000 revistas entre 1922 y 2018. ‘Word2vec’ tomó cada una de las aproximadamente 500.000 palabras distintas en esos resúmenes y las convirtió en un vector de 200 dimensiones, o una serie de 200 números.

“Lo importante no es cada número, pero usar los números para ver cómo se relacionan las palabras entre sí”, señala Jain, quien encabeza a un grupo que trabaja en el descubrimiento y diseño de nuevos materiales para aplicaciones energéticas usando una combinación de teoría, cálculo y minería de datos.

Cuando se entrenó en textos de ciencia de materiales, el algoritmo pudo aprender el significado de términos y conceptos científicos, como la estructura cristalina de los metales, basada simplemente en las posiciones de las palabras en los resúmenes y su co-ocurrencia con otras palabras. Incluso pudo aprender las relaciones entre los elementos en la tabla periódica cuando el vector para cada elemento químico se proyectó en dos dimensiones.

Predecir los descubrimientos entonces, si ‘Word vec’ es tan inteligente, ¿podría predecir nuevos materiales termoeléctricos? Un buen material termoeléctrico puede convertir eficientemente el calor en electricidad y está hecho de materiales seguros, abundantes y fáciles de producir.

El equipo del laboratorio de Berkeley tomó los mejores candidatos termoeléctricos sugeridos por el algoritmo, que clasificó cada compuesto por la similitud de su vector palabra con el de la palabra “termoeléctrico” y luego hicieron cálculos para verificar las predicciones del algoritmo.

De las 10 mejores predicciones, encontraron que todos los factores de potencia calculados eran ligeramente más altos que el promedio de las termoeléctricas conocidas; los tres candidatos principales tenían factores de poder en el percentil 95 de las termoeléctricas conocidas.

A continuación, probaron si el algoritmo podía realizar experimentos «en el pasado» dándole resúmenes solo hasta, digamos, el año 2000 y de nuevo, de las predicciones principales, un número significativo apareció en estudios posteriores, cuatro veces más que si los materiales acabaran de ser elegidos al azar.

Por ejemplo, tres de las cinco principales predicciones entrenadas con datos hasta el año 2008 han sido descubiertas y las dos restantes contienen elementos raros o tóxicos.

Los resultados fueron sorprendentes ya que según Jain “honestamente, no esperaba que el algoritmo fuera tan predictivo de resultados futuros y pensé que tal vez el algoritmo podría ser descriptivo de lo que la gente había hecho antes pero no tener estas conexiones diferentes. Me sorprendió bastante cuando vi no solo las predicciones, sino también el razonamiento detrás de las predicciones”.

“Este estudio –concluye– muestra que si este algoritmo estuviera en su lugar antes, es probable que algunos materiales se hayan descubierto años antes”.

Junto con el estudio, los investigadores están lanzando los 50 materiales termoeléctricos principales pronosticados por el algoritmo y también lanzarán la palabra incrustaciones necesarias para que las personas realicen sus propias aplicaciones si desean buscar, por ejemplo, un mejor material aislante topológico.

El equipo está trabajando ahora en un motor de búsqueda más inteligente y poderoso, que permite a los investigadores buscar resúmenes de una manera más útil.

Nomyc-31-7-19