Entre algoritmos, lentes y sensores, la Visión Artificial: ¿Qué ves cuando me ves?

POR María Ximena Perez para AGENCIA DE NOTICIAS CIENTÍFICAS UNQ

Este subcampo de la Inteligencia Artificial tiene por objetivo replicar las capacidades de la visión humana. Puede ayudar a desarrollar proyectos que aporten soluciones a la vida cotidiana.

La vertiginosa transformación digital trae avances hasta hace poco impensables en las Tecnologías de la Información y la Comunicación (TIC), un concepto amplio que engloba, también, a las herramientas y soluciones sustentadas en la Inteligencia Artificial (IA). A partir de sus bondades, la Visión Artificial o Visión por Computador, engloba todos los procesos y elementos que proporcionan ojos a una máquina. Esta tecnología se centra en el desarrollo y perfeccionamiento de técnicas que permiten a las máquinas ver, identificar y procesar imágenes, de la misma manera que lo hace la visión del ser humano, pero con la capacidad de evaluar detalles de objetos demasiado pequeños para el ojo humano e inspeccionarlos con mayor confiabilidad y menos errores. Y lo hace a una velocidad de cientos o miles de piezas por minuto.

¿Cómo funciona?

Tanto para el ser humano como para una máquina, la visión consta, principalmente, de dos fases: captar una imagen e interpretarla. El ojo de la computadora es la cámara de video, y su retina un sensor que es sensible a la intensidad luminosa. Lo que resta es interpretar las imágenes, distinguir los objetos de la escena, extraer información de ellos y resolver aspectos más particulares, según las necesidades que se desean satisfacer. Técnicamente, las máquinas intentan recuperar la información visual, manejarla e interpretar los resultados a través de algoritmos de software especiales.

Los algoritmos que se usan se basan en el reconocimiento de patrones: se entrena a las computadoras en una gran cantidad de datos visuales, estas procesan imágenes, etiquetan los objetos en ellos y encuentran referencias en esos objetos. Por ejemplo, si se envían un millón de imágenes de árboles, la computadora las analizará, identificará patrones que son similares y, al final de este proceso, creará un modelo “árbol”. Como resultado, la computadora será capaz de detectar con precisión si una imagen en particular es un árbol cada vez que se le envíe imágenes.

La visión artificial imita algunas de las funciones de los ojos y el cerebro para, a través de algoritmos y el procesamiento de imágenes, reproducir nuestras decisiones. Crédito: TECNALIA.

La Visión Artificial se basa en un conjunto de tareas diversas, combinadas para lograr aplicaciones altamente sofisticadas. Las más frecuentes son el reconocimiento de imágenes y video, que básicamente consisten en determinar los diferentes objetos que contiene una imagen. 

¿Para qué se usa?

Los usos de la Visión Artificial son numerosos y abarcan desde el campo industrial, médico, automovilístico, agropecuario hasta el de seguridad y de defensa, entre otros. Existen casos populares de uso comercial. Por ejemplo, Apple Photos y Google Photos tienen acceso a colecciones de fotos y agregan automáticamente etiquetas a las fotos y permiten navegar por una colección de fotografías más estructurada. Estas aplicaciones crean una vista curada de “los mejores momentos”. 

Los motores de búsqueda visual también usan esta tecnología, que se puso a disposición del público con la aparición de Google Images en 2001. Es capaz de recuperar imágenes que cumplen con ciertos criterios de contenido. La búsqueda de palabras clave es un caso de uso común, pero a veces se puede presentar una imagen de origen y solicitar que se encuentren imágenes similares.

Otro uso diario de esta tecnología es el reconocimiento facial: se utiliza para hacer coincidir las fotos de los rostros de las personas con sus identidades. Muchos dispositivos móviles disponibles en el mercado permiten a los usuarios desbloquear los dispositivos mostrando sus caras. Para el reconocimiento facial se utiliza una cámara frontal, los dispositivos móviles procesan esta imagen y, basándose en el análisis, pueden decir si la persona que tiene el dispositivo está autorizada en él. 

Otro ejemplo es el caso de la Realidad Aumentada: la Visión Artificial ayuda a estas aplicaciones a detectar objetos físicos, tanto superficies como objetos individuales dentro de un espacio físico determinado, en tiempo real y a utilizar esta información para colocar objetos virtuales dentro del entorno físico. 

Por el lado del automovilismo, permite a los coches dar sentido a su entorno. Un vehículo inteligente tiene unas cuántas cámaras que capturan videos desde diferentes ángulos y los envían como señal de entrada al software de Visión Artificial. El sistema procesa el video en tiempo real y detecta marcas en la carretera, o bien, objetos cercanos al auto, como peatones, otros autos y semáforos. Uno de los ejemplos más notables de las aplicaciones de esta tecnología es el piloto automático en los automóviles.

En el caso de la salud, muchos diagnósticos médicos se basan en el procesamiento de imágenes, rayos X, resonancia magnética y mamografía. Y la segmentación de las imágenes demostró su eficacia durante el análisis de las exploraciones médicas. Por ejemplo, los algoritmos de Visión Artificial pueden detectar la retinopatía diabética, la causa de ceguera de más rápido crecimiento, al procesar imágenes de la parte posterior del ojo y clasificarlas según la presencia y la gravedad de la enfermedad.

 

Fuente: Agencia de Noticias Científicas UNQ

GPT4, el chatbot más potente impulsado por inteligencia artificial

Por SINC.

El GPT-4 puede analizar imágenes y tiene una mayor capacidad de razonamiento. Según sus creadores, la actualización de ChatGPT es capaz de procesar preguntas y órdenes así como generar respuestas más largas, hasta ocho veces más que la primera versión. Los expertos señalan que no debemos dejarnos engañar por su fluidez, ya que siguen basándose en correlaciones estadísticas.

La compañía OpenAI, que adquirió fama con ChatGPT, un chatbot impulsado por inteligencia artificial (IA), ha lanzado recientemente GPT-4, una actualización más potente de su modelo anterior que puede analizar imágenes y tiene una mayor capacidad de razonamiento.

La empresa de investigación de inteligencia artificial indicó que GPT-4 “supera a ChatGPT en sus capacidades de razonamiento avanzadas”.

La nueva versión es capaz de procesar preguntas y órdenes así como generar respuestas más largas, de hasta 25.000 palabras, esto es, ocho veces más que la primera versión de ChatGPT.

La nueva herramienta GPT-4 cuenta con la capacidad de describir, analizar y entender imágenes / EFE / EPA / WU HAO

El presidente y cofundador de OpenAI, Greg Brockman, ejemplificó en un evento virtual que esta novedosa herramienta puede desde crear una página web a partir de la foto de un borrador escrito a mano de esa misma web hasta resolver preguntas complejas relacionadas con la declaración de impuestos.

“GPT no es un profesional de impuestos certificado, ni yo tampoco, por lo que siempre debe consultar con su asesor fiscal. Pero puede ser útil para comprender un contenido complejo y poder empoderarse con el fin de resolver problemas”, según explicó Brockman en una presentación.

En lo referente a los posibles errores, el directivo de la compañía recalcó que no es una herramienta perfecta, así como nadie es perfecto, graficó, para resaltar la contribución de «esta herramienta de amplificación».

Otra novedad es que GPT-4 cuenta con la capacidad de describir, analizar y entender imágenes gracias al útil informático Be My Eyes. 

Por ejemplo, Brockman preguntó a GPT-4 por qué era gracioso un dibujo de una ardilla sonriente, haciendo fotos, y el chatbot le contestó: “La imagen es graciosa porque muestra a una ardilla sosteniendo una cámara y fotografiando una nuez como si fuera un fotógrafo profesional. Es una situación graciosa porque las ardillas generalmente comen nueces y no esperamos que usen una cámara o actúen como humanos”.

Avances y limitaciones

Según Mike Wooldridge, catedrático de informática de la Universidad de Oxford y director de Investigación Fundacional sobre IA del Instituto Alan Turing, en declaraciones al SMC UK, “la mayor novedad de GPT-4 es que es multimodal: puede tratar no solo texto, sino también imágenes”. Wolldridge destaca, asimismo, «las impresionantes capacidades lingüísticas de ChatGPT, que nos abrieron los ojos a toda una serie de nuevas posibilidades: la IA generativa multimodal va a multiplicarlas”.

Por su parte, el catedrático de IA de la Universidad de Bath, Nello Cristianini, indica que la nueva herramienta “da un paso más hacia una IA más realista, explotando las correlaciones entre distintas ‘modalidades’ de datos, como imágenes y texto. Llamarlos ‘modelos lingüísticos’ ya no es apropiado, pues también son modelos de visión, como mínimo”.

Sin embargo, tal y como expresa Cristianini, “debemos recordar que los modelos lingüísticos como GPT-4 no piensan de forma similar a los humanos, y no debemos dejarnos engañar por su fluidez con el lenguaje. Siguen basándose en correlaciones estadísticas descubiertas en los datos, un atajo que les evita la necesidad de representaciones explícitas del mundo. Esto no significa que no puedan ser útiles, al contrario, seguro que lo serán”.

De otro lado, Peter Bannister, presidente ejecutivo de Sanidad de la Institution of Engineering and Technology, afirma que “GP4 incluye varias funciones nuevas, entre ellas la capacidad de generar respuestas escritas similares a las humanas a consultas que vienen en forma de imágenes, no sólo de texto, y ya está integrado en el navegador web de Microsoft”.

Sin embargo, tal como recuerda Bannister, los creadores de OpenAI advierten de que “la tecnología aún puede producir respuestas que, aunque muy convincentes, contengan errores». Y añade: “Por eso es aún más importante que se creen, a un ritmo tan sorprendente como este, mecanismos para gestionar el riesgo de desinformación, así como educar a los usuarios para garantizar que sean conscientes de las limitaciones de estas herramientas de inteligencia artificial y acerca de cómo emplearlas con eficacia”. 

El experto enfatiza en que “deberíamos insistir en que se realicen pruebas continuas con las fuentes de información existentes y validadas para garantizar que no se erosiona la precisión de nuestra base colectiva de conocimientos”.

Se anuncian nuevas funciones de IA

El nuevo modelo está disponible para el público en general a través de ChatGPT Plus, la suscripción mensual de ChatGPT de 20 dólares de OpenAI y es la herramienta que está detrás del chatbot de Microsoft, Bing, según los medios especializados.

OpenAI anunció también que se ha asociado con varias empresas, como Duolingo, Stripe y Khan Academy, para integrar GPT-4 en sus productos.

Además, y en el campo de los chatbots impulsados por IA, el gigante Google anunció un conjunto de próximas funciones generativas de inteligencia artificial para Google Docs, Gmail, Sheets y Slides. Las funciones que ofrecerán serán similares a las que brinda ChatGPT de OpenAI, pero usando otra tecnología.

Asimismo, los usuarios podrán servirse de IA para obtener resúmenes o ideas en Google Docs o generar correos electrónicos completos en Gmail, entre otras cosas.

Fuente: Science

El Papa trapero, Trump detenido y Biden de fiesta: ¿cómo desinforma la inteligencia artificial?

POR Luciana Mazzini Puga para AGENCIA DE NOTICIAS CIENTÍFICAS UNQ

Si bien existen algunas técnicas para detectar una imagen manipulada, esta tecnología se perfecciona cada día y vuelve necesaria la regulación estatal.

La Inteligencia Artificial avanza y a través de sus herramientas genera fotografías que se asemejan mucho a la realidad. Esto se evidencia, por ejemplo, con las fotos del Papa vistiendo un abrigo blanco similar al que usan los traperos; o con las del supuesto arresto de Donald Trump. Estas imágenes, publicadas de manera reciente, dieron lugar a discusiones en las redes sociales y abren un interrogante: ¿de qué manera la Inteligencia Artificial contribuye a la desinformación? La Agencia de Noticias Científicas de la UNQ dialogó con Emmanuel Iarussi, científico de Conicet y miembro del Laboratorio de Inteligencia Artificial de la Universidad Torcuato Di Tella, que afirma: “No hay antecedentes de una tecnología que nos permita crear imágenes tan reales y de manera tan masiva”.

Las imágenes son creadas por inteligencia artificial y buscan imitar de manera exacta la realidad. Créditos: Midjourney.

Así, el sistema de aprendizaje sale de lo tradicional y varía según las edades de los alumnos y alumnas. En el caso de las infancias, aprenden contenidos relacionados con el diseño, la electrónica y la programación mediante el juego y técnicas dinámicas. Luego, los alumnos más grandes aprenden mediante proyectos, esto es, pensar una situación de la vida cotidiana, identificar una necesidad y pensar una solución tecnológica en función de ella. 

“Imágenes photoshopeadas tenemos desde principios del 2000. Hay algunos expertos que controlaban esas tecnologías y que las personas requerían de varias habilidades para poder crear cosas, entonces no todo el mundo podía manipular una imagen”, explica Iarussi y continúa: “Ahora con solo saber escribir y tener la tecnología ya podes hacer cosas. Pones un texto de lo que querés y después de un par de pruebas generás la imagen”.

Imágenes hechas con inteligencia artificial de Mickey y Daisy. Créditos: Midjourney

 

 

 

 

 

 

 

 

Si bien la viralización de la foto del Papa terminó siendo algo lúdico, la manipulación de imágenes pueden incluir personalidades de gran relevancia en el mundo que lleve a la confusión y a la desinformación. Tal es el caso de las fotos de la supuesta detención del expresidente estadounidense Donald Trump o el video que circuló en 2022 en el que se ve al presidente ucraniano Volodymyr Zelensky pidiendo a sus tropas que se rindan en la guerra con Rusia, donde tanto su voz como su imagen habían sido alteradas.

Se llaman deepfakes porque son creadas con redes neuronales profundas que buscan imitar la apariencia humana. En Argentina, por ejemplo, está el usuario Tutanka que sube vídeos de Cristina Fernández cantando canciones de moda”, ejemplifica el científico. Además, explica que el uso de la Inteligencia Artificial puede ser peligroso al contribuir a manipular la realidad y desacreditar a ciertas instituciones o personas y “sobretodo si existe algún tipo de polarización preexistente. No sería raro que esto contribuya a profundizar esas diferencias porque hay una porción de la sociedad dispuesta a creer cierto contenido de la contraparte aunque sea falso”, detalla a la Agencia.

Una distopía muy cercana

Hoy en día existen algunas técnicas para detectar si una imagen es real o fue hecha por inteligencia artificial, como prestar atención a las manos que suelen ser algo deformes o mirar los ojos ya que los iris no son tan redondos si fue manipulada la imagen. Sin embargo, el especialista considera que se trata de algo transitorio hasta que esta tecnología mejore.

“Nos pueden servir para detectar algunas cosas pero estamos obligados a pensar que estas imágenes pueden llegar a ser perfectas. Los algoritmos están siendo entrenados para ser indistinguibles, entonces es necesario que guardemos una dosis sana de escepticismo. Quizás de acá a 20 años estemos tan acostumbrados que digamos ‘Ah, sí, esto está generado’ pero ahora estamos viviendo un momento de transición y debemos acostumbrarnos a dudar de la verdad. La tecnología va avanzar y van a existir cada vez menos contenidos reales”, manifiesta.

 
Imagen creada por inteligencia artificial. Créditos: Midjourney.

De la misma manera sucede con el texto, un ejemplo claro es el Chat GPT: “Uno lee los textos y parece que lo escribió cualquier persona porque justamente están entrenados con textos que escribió cualquiera en internet. Son buenos en hacerse pasar por alguien, en imitar”, dice. 

Por su parte, las redes sociales que ocupan un lugar central en la viralización de estos contenidos pusieron en funcionamiento algunas herramientas (aunque suena a poco) para detectar contenidos falsos, como advertencias o repreguntas en casos de compartir contenido sin leerlo.

 

¿Cuál es el límite?

Casi como si fuera un capítulo de la serie Black Mirror, la tecnología avanza sin control y a disposición de todo el mundo. Según Iarussi, hay un cambio de paradigma que sucede de una manera muy veloz.

“Si hace cinco años nos preguntaban si veíamos esto posible, hubiésemos dicho que no. El cambio está pasando aunque casi no lo podamos ver porque es muy fuerte. Mi consejo es no creer de manera impulsiva todo lo que vemos ni compartir aquello que nos genere dudas, pero la responsabilidad mayor la tienen los Estados y las empresas que hacen disponibles estas tecnologías y que impactan fuertemente en el trabajo, la economía, la educación y en el modo de informarse”, sostiene el especialista.

Imagen creada por inteligencia artificial. Créditos: Midjourney.

 

Y agrega: “Nuestro rol tiene que estar en exigir una regulación. ¿Cuántas decisiones de los gobiernos tardan años en los parlamentos pero estas tecnologías las pone una empresa a disposición y pone el mundo patas para arriba sin ningún tipo de regulación? Está bueno que la tecnología exista pero no hay ningún límite ni horizonte temporal de ponerlas a disposición cada cierto tiempo para evaluar los impactos. Es un ‘tenemos esta tecnología, vamos a jugar’. Al no haber una planificación, vamos juntando por atrás los pedacitos de las cosas que se rompen”. 

La inteligencia artificial es una herramienta poderosa que invita (y obliga) a la sociedad a informarse y plantear discusiones: ¿Cómo se usa esta tecnología? ¿Para qué? ¿Vale todo? A simple vista parecen interrogantes del futuro, pero en verdad corresponden a un presente que se escribe de modo continuo.

Fuente: Agencia de Noticias Científicas UNQ