VENTAJAS Y RIESGOS DE LAS REDES GENERATIVAS ANTAGÓNICAS

La capacidad de las GAN es enorme.

12 febrero 2020

Arturo Moncada

Todo menos politica

Los avances en Inteligencia Artificial (IA) son cada vez más impresionantes y las innovaciones en este campo adquieren cada vez más velocidad.

Hace apenas unos años la IA parecía un asunto futurista que difícilmente podría alterar el día a día en el corto plazo, pero hoy es ya una realidad que aspira a revolucionar diversos aspectos de nuestra sociedad.

Muestra de ello son las Generative Adversary Networks (GAN, en español Redes Generativas Antagónicas o Adversas), dos sistemas de IA que pueden interactuar entre sí.

Dichas redes antagónicas se utilizan en el aprendizaje no supervisado, implementado por un sistema de dos redes neuronales que compiten mutuamente entre sí. Fueron propuestas en 2014 por Ian Goodfellow y sus colegas de la Universidad de Montreal, en Canadá, quienes desarrollaron un nuevo sistema de aprendizaje automático utilizando la teoría de juegos para convertir esta debilidad en una ventaja.

El objetivo principal de las GAN es generar datos desde cero. Para ello ambas redes neuronales artificiales se enfrentan mutuamente. La primera red es conocida como “generador” y la segunda como “discriminador”.

Las dos redes fueron entrenadas con un mismo conjunto de datos pero la primera, generador, debe intentar crear variaciones de los datos que ya ha visto; por ejemplo, de rostros de personas que no existen: debe crear variaciones de rostros que ya ha visto.

Por su parte la red discriminatoria debe identificar si el rostro que observa forma parte del entrenamiento original o si es un rostro falso que creó la red generativa. Mientras más lo hace la red generativa se hace mejor creando y a la red discriminadora se le hace más difícil detectar si el rostro es falso.

Eventualmente el discriminador será capaz de identificar la más pequeña diferencia entre lo que es real y lo que fue generado; y la red generativa será capaz de crear imágenes que el discriminador no puede distinguir.

Un ejemplo de esto dado por expertos es el siguiente: imagine que quiere comprar buenos relojes. Si nunca los compra es muy probable que no pueda distinguir los relojes de marca de los falsos. Se tiene que tener experiencia para no dejarse engañar por un vendedor. A medida que se comience a etiquetar la mayoría de los relojes como falsos —después de varios errores— el vendedor comenzará a generar copias más convincentes de los relojes. Este ejemplo demuestra el comportamiento de las redes de confrontación antagónicas: discriminador —comprador de relojes— y generador —vendedor de relojes falsos.

Estas dos redes, discriminador y generador, ayudan a resolver tareas como la generación de imágenes a partir de descripciones, obtener imágenes de alta resolución de las de baja resolución y/o recuperar imágenes que contienen un patrón determinado. La técnica también puede generar fotografías que parecen auténticas para observadores humanos.

Potencial

La capacidad de las GAN es enorme porque pueden aprender a imitar cualquier distribución de datos.

Es decir, se puede enseñar a las GAN a crear mundos similares al nuestro en cualquier dominio: imágenes, música, discurso, prosa. Su producción es impresionante. Se espera que en un futuro cercano se puedan utilizar en distintas disciplinas, como diseño de medicamentos, chips más rápidos, edificios resistentes a los terremotos, vehículos más eficientes o edificios con construcciones económicas.

No obstante también se pueden usar para generar contenido multimedia falso, y son la tecnología que sustenta los deepfakes.

Falsificación

El nombre deepfake es un término inglés que significa “falsedad profunda”. Las GAN son en muchas ocasiones utilizadas como un generador de mentiras, de noticias falsas, una herramienta perfecta para la manipulación política o la difamación.

Un ejemplo de esto va desde videos pornográficos protagonizados por rostros famosos sobrepuestos, a un video del ex presidente de Estados Unidos, Barack Obama, haciendo declaraciones que nunca dijo. O el rostro de alguna persona en el cuerpo de un artista o personaje de ficción.

Todos tienen un realismo impresionante que deja en evidencia lo fácil que es actualmente hacer que alguien diga cualquier cosa y lo difícil que será para las personas distinguir lo que es real.

Para esto deepfake utiliza fotografías de una persona desde diferentes ángulos, posturas y con diferentes expresiones faciales. Tras analizar estas imágenes genera nuevas reproducciones y luego las combinan en un video falso.

Hace apenas unos meses, con una técnica desarrollada en los laboratorios de Inteligencia Artificial de Samsung, se hizo posible producir video a partir de una sola foto.

Además de las imágenes las GAN ya manipulan voces. Para ello generan audios utilizando la voz de gente real. Con diversos programas logran obtener una grabación, analizarla y crear una copia realista, pero con diferentes frases.

Uno de los principales peligros de esta tecnología deepfake es que las herramientas que permiten realizar todo esto se encuentran disponibles para la gente común.

Hace unos años Google presentó TensorFlow, un conjunto de herramientas de software disponibles al público que ayudan a capacitar redes neuronales antagónicas y que también se utilizan para crear videos deepfake.

Periodistas como Kevin Roose, del diario The New York Times, señalan que “con tales falacias será muy difícil distinguir la verdad de la falsificación. No solamente se trata de la propaganda política o comercial: deepfake es también una herramienta potente para la manipulación de la opinión pública: fácilmente puede provocar odio, miedo o pánico, la pueden utilizar para desacreditar a un rival y oponente”.

Sin embargo en este momento ya existen algunas técnicas para determinar un ultrafalso y, más recientemente, han aparecido herramientas para identificarlas.

Algunas aplicaciones GAN

Generar fotografías de rostros humanos.

Generar fotografías realistas.

Generar personajes de dibujos animados.

Traducción de imagen a imagen.

Traducción de texto a imagen.

Recuperación de imágenes para archivos históricos.

Fotos de Emojis.

Edición de fotografía.

Envejecimiento facial.

Superresolución.

Síntesis y creación de video.

Generador de audio, voz y música

Fabricación de ropa.

Generación de objetos 3D.

Generador de medicamentos (fármacos contra cáncer).

Diseño de chips.

Diseño de edificios económicos o contra terremotos.

Eficiencia para la Inteligencia Artificial automotriz.

Detección de falsificación profunda.

Fuente: arxiv.org