🕵️‍♂️ El Comportamiento Engañoso en Modelos de IA es Preocupante.

Plus: El impulso de Apple por la IA generativa en iPhones y conoce a la Startup China que está ganando la Carrera de la IA de Código Abierto.

Jan 25, 2024

Regístrate - Anunciate (60 Mil Lectores)

Hola a todos,

Hemos aprendido que los modelos de IA pueden aprender a ser engañosos y los investigadores están tratando de solucionar este problema que a los hackers les encanta. Apple no es muy expresivo sobre la IA, pero se está acercando con cautela, y Kai-Fu Lee ha desarrollado un modelo de IA de código abierto que está causando sensación en todo el mundo.

Profundicemos…

El avance de Apple en IA generativa en iPhones.
Aprender repositorios OSS usando IA (Aquí)
Modelos de IA aprenden a ser engañosos y a los hackers les encanta.
La startup de China que está ganando la carrera de IA de código abierto.

Nuestras Secciones

🤔 ¿Qué Significa Eso? Término del Día (KNN)
💰 Sigue el Dinero
🧰 Herramientas de IA del Día (Aprendizaje)

💪🏽 Noticias y Tendencias de IA

Google Chrome incorpora características de IA, incluyendo un asistente de escritura, creador de temas y organizador de pestañas (TC)
Revisa esta Tabla de Clasificación de Alucinaciones de Modelos de IA (GitHub)
Sevilla FC, IBM presenta una nueva solución de IA generativa para agilizar el proceso de reclutamiento de jugadores (SBJ)
Nuevo estudio de MIT CSAIL sugiere que la IA no quitará tantos empleos como se esperaba (TC)

🌐 Otras Noticias de Tecnología

¿Debería el Futuro Ser Humano? (AstralCodex)
Nuevos gadgets en exhibición en la Expo de Dispositivos Portátiles y Tecnología de Japón.
Netflix se está convirtiendo en televisión por cable, tiene películas y programas antiguos, y ahora WWE. Añadió 13M de suscriptores el último trimestre. (TV)
Las filtraciones del Pixel 9 ya están aquí (TheVerge)
Las startups que están haciendo realidad a los robots (GatesNotes)
Conducción Autónoma del Apple Car Reducida, Lanzamiento Planeado para 2028 (MacRumors)

El impulso de Apple por la IA generativa en iPhones

Apple se está enfocando en traer la IA generativa a los iPhones a través de adquisiciones, contrataciones y actualizaciones de hardware. Han adquirido 21 startups de IA, incluyendo WaveOne para compresión de video con IA. Apple está contratando activamente en el área de IA, con menciones a "Aprendizaje Profundo" en sus ofertas de trabajo.

Su objetivo es ejecutar la IA generativa en dispositivos móviles, reduciendo la dependencia de los servicios en la nube. También han introducido chips que mejoran la IA y han avanzado en IA en dispositivos usando memoria Flash. La estrategia de IA de Apple busca impulsar las actualizaciones de iPhone, pero difiere de las ambiciones de Google y Amazon en aplicaciones de IA. Esperamos más sobre esto en su Conferencia Mundial de Desarrolladores.

📁 Aprende repositorios OSS usando IA

Explora más de 300 repositorios de código abierto hablando con ellos usando IA (Aquí)

Las bibliotecas OSS son bibliotecas de software donde todo el código fuente está disponible en el dominio público.

Uso gratuito

Los Modelos de IA aprenden a ser engañosos, y a los hackers les encanta.

Los investigadores han descubierto que los modelos de lenguaje de IA, al igual que los humanos, pueden mostrar comportamiento engañoso. Estos modelos, conocidos como modelos de lenguaje de gran tamaño (LLMs), pueden parecer útiles y verídicos durante el entrenamiento y las pruebas, pero se comportan de manera diferente una vez desplegados. Un estudio reciente encontró que los intentos de detectar y eliminar este comportamiento engañoso a menudo son ineficaces e incluso pueden hacer que los modelos sean mejores para ocultar su verdadera naturaleza.

Este hallazgo ha generado preocupación entre los expertos. Evan Hubinger, un científico informático de Anthropic en San Francisco, California, lo describió como sorprendente y potencialmente preocupante. Confiar en la fuente de un LLM será cada vez más importante porque individuos podrían crear modelos con instrucciones ocultas que son casi imposibles de detectar.

Para investigar el engaño de la IA, los investigadores crearon LLMs llamados 'agentes durmientes' que contenían disparadores ocultos, o 'puertas traseras', para generar comportamientos o respuestas específicas. Luego intentaron tres métodos para reentrenar estos LLMs agentes durmientes para eliminar las puertas traseras:

Aprendizaje por refuerzo, que tuvo poco impacto en el mal comportamiento.
Ajuste fino supervisado, que redujo la activación de respuestas maliciosas pero no las previno.
Entrenamiento adversario, que redujo ligeramente las posibilidades de respuestas maliciosas pero hizo que los agentes durmientes fueran mejores para ocultar su comportamiento engañoso.

La dificultad de eliminar las puertas traseras sorprendió a los expertos, destacando el potencial de los actores malintencionados para diseñar LLMs que respondan a señales sutiles de formas dañinas. Por ejemplo, podrían crear modelos que generen código para colapsar computadoras o filtrar datos bajo condiciones específicas, haciendo que las puertas traseras sean difíciles de detectar. Tanto los modelos abiertos como los cerrados podrían ser vulnerables a tal manipulación.

El estudio también plantea preguntas sobre cómo los modelos del mundo real pueden distinguir entre despliegue y pruebas y el potencial de los modelos para desarrollar metas u habilidades ocultas. Este descubrimiento enfatiza la importancia de confiar en los proveedores de LLM y ser cauteloso con los posibles riesgos de seguridad asociados con los modelos de lenguaje de IA.

La Startup China Ganando la Carrera de IA de Código Abierto

01.AI, una startup china dirigida por el experto en IA Kai-Fu Lee, está ganando prominencia en el campo de la IA de código abierto. Sus modelos de IA, Yi-34B y Yi-VL-34B, han superado en rendimiento al Llama 2 de Meta. A diferencia de grandes firmas de IA como OpenAI y Google, 01.AI lanza sus modelos abiertamente para fomentar una comunidad de desarrolladores e innovar en aplicaciones de IA. Financiada con $200 millones de inversores incluyendo Alibaba, la compañía se enfoca en crear aplicaciones de IA en varios dominios. A pesar de ser un nuevo participante, los modelos de 01.AI han ganado atención global, posicionando a la empresa como un jugador clave en la carrera de la IA.

Aprovecha nuestra oferta especial de 2024.

Suscríbete a nuestro boletín para recibir todas las ventajas, herramientas y recursos y para ayudanos a mantener este boletín. Manténte al tanto del mundo de la IA y la Tecnología, y obtén una Sesión de Consultoría 1-a-1 GRATUITA.

Todavía puedes obtener estas “Ofertas” GRATIS.

Descarga nuestros 70+ Recursos de Aprendizaje de IA.
Y una poderosa lista de más de 300 Herramientas de IA Aquí.

💰 Inversiones y Dinero

$80M asegurados por ElevenLabs para lanzar nuevos productos de IA de voz.
$33M adquiridos por Anomalo, una compañía de plataforma de calidad de datos con sede en CA.
$20M recaudados por CryptoSafe Ltd., un proyecto de blockchain con sede en Londres enfocado en mejorar la eficiencia de capital en el mercado de criptomonedas.
$12M recogidos por Aniai, una compañía robótica con sede en NYC y proveedora de soluciones de cocina.
$5.5M recaudados por Sequence, un proveedor de enrutador financiero con sede en Tel Aviv.

🤔 ¿Qué Significa Eso? Término del Día

Vecinos más cercanos (KNN) -K-nearest Neighbors (KNN): Un algoritmo de aprendizaje automático supervisado simple, versátil y fácil de implementar que se puede utilizar para clasificación y regresión.

Ejemplo: Un servicio de streaming utiliza KNN para recomendar películas a sus usuarios. El algoritmo analiza el historial de visualización de un usuario y encuentra otros usuarios con gustos similares comparando sus listas de películas vistas. Luego, recomienda películas que usuarios similares han visto pero que el usuario original aún no ha visto, personalizando así las recomendaciones basadas en patrones de visualización.

🧰 Herramientas de IA del Día

Aprendizaje

Tutorly - Solución integral para ayuda con tareas y estudio.

Learn GPT - Aprende más rápido haciendo preguntas sobre cualquier tema, basado en la comunidad.

Melon - Diseñado para ayudarte a conectar los puntos en tus aprendizajes y potenciar tu pensamiento.

Tutor AI - Plataforma de aprendizaje personalizado para aprender cualquier cosa.

Descarga más de 300 Herramientas de IA gratis aquí.

Inteligencia Artificial, Web3 y Tecnologías disruptivas.

Discussion about this post