Pages

Secretos de ciberanzuelo expuestos! Los humanos y la IA se unen para mejorar la detección de cebo de clics


Los humanos y las máquinas trabajaron juntos para ayudar a entrenar un modelo de inteligencia artificial, la IA, que superó a otros detectores de cebo, según investigadores de Penn State y de la Universidad Estatal de Arizona. Además, la nueva solución basada en la IA también fue capaz de diferenciar entre los titulares de clickbait generados por máquinas (o bots) y los escritos por personas, apuntaron.

En un estudio, los investigadores pidieron a la gente que escribiera su propio cebo, un titular de noticias interesante, pero engañoso, diseñado para atraer a los lectores a hacer clic en enlaces a otras historias en línea. Los investigadores también programaron máquinas para generar cebos artificiales. Luego, los titulares hechos por personas y máquinas fueron utilizados como datos para entrenar un algoritmo de detección de cebo.

La capacidad del algoritmo resultante para predecir los titulares de los cibercafés fue alrededor de 14.5 por ciento mejor que la de otros sistemas, según los investigadores, que publicaron sus hallazgos hoy (28 de agosto) en la Conferencia Internacional sobre Avances en el Análisis de Redes Sociales (ASONAM) 2019 de IEEE/ACM en Vancouver, Canadá.

Más allá de su uso en la detección de cebo, el enfoque del equipo podría ayudar a mejorar el rendimiento del aprendizaje automático en general, dijo Dongwon Lee, investigador principal del proyecto y profesor asociado de la Facultad de Ciencias y Tecnología de la Información. Lee también está afiliado al Instituto de Ciberciencia de Penn State (ICS), que proporciona a los investigadores de Penn State acceso a recursos de supercomputación.

"Este resultado es muy interesante, ya que hemos demostrado con éxito que los datos de formación de cebo electrónico generados por las máquinas se pueden retroalimentar en el proceso de formación para formar a una amplia variedad de modelos de aprendizaje de máquinas con el fin de mejorar el rendimiento", dijo Lee. "Este es el paso para abordar el cuello de botella fundamental del aprendizaje supervisado de máquinas que requiere una gran cantidad de datos de formación de alta calidad."

Según Thai Le, estudiante de doctorado en la Facultad de Ciencias y Tecnología de la Información de Penn State, uno de los desafíos que enfrenta el desarrollo de la detección de cebo es la falta de datos etiquetados. Así como la gente necesita maestros y guías de estudio que le ayuden a aprender, los modelos de IA necesitan datos que estén etiquetados para ayudarles a aprender a hacer las conexiones y asociaciones correctas.

"Una de las cosas que nos dimos cuenta cuando comenzamos este proyecto es que no tenemos muchos puntos de datos positivos", dijo Le. "Para identificar el cebo, necesitamos que los humanos etiqueten los datos de entrenamiento. Es necesario aumentar la cantidad de puntos de datos positivos para que, más adelante, podamos entrenar mejores modelos".

Aunque encontrar clickbait en Internet puede ser fácil, las muchas variaciones de clickbait añaden otra capa de dificultad, según S. Shyam Sundar, James P. Jimirro, profesor de Efectos Mediáticos y codirector del Laboratorio de Investigación de Efectos Mediáticos en el Donald P. Bellisario College of Communications, y un afiliado de ICS.

"Hay clickbaits que son listas, o listiclos; hay clickbaits que se formulan como preguntas; hay otros que empiezan con quién, qué, dónde y cuándo; y todo tipo de otras variaciones de clickbaits que hemos identificado en nuestra investigación a lo largo de los años", dijo Sundar. "Por lo tanto, encontrar suficientes muestras de todos estos tipos de cebo es un reto. A pesar de que todos nos quejamos por el número de "clickbaits", cuando se trata de obtenerlos y etiquetarlos, no hay muchos de esos conjuntos de datos".

Según los investigadores, el estudio reveló diferencias en la forma en que las personas y las máquinas enfocaban la creación de titulares. En comparación con el cebo generado por la máquina, los titulares generados por la gente tendían a tener más determinantes -- palabras como "qué" y "qué" -- en sus titulares.

El entrenamiento también pareció provocar diferencias en la creación de cebo. Por ejemplo, los escritores capacitados, como los periodistas, tendían a utilizar palabras más largas y más pronombres que otros participantes. También era probable que los periodistas utilizaran los números para comenzar sus titulares.

Los investigadores planean usar estos hallazgos para guiar sus investigaciones hacia un sistema de detección de noticias falsas más robusto, entre otras aplicaciones, según Sundar.

"Para nosotros, clickbait es sólo uno de los muchos elementos que componen las noticias falsas, pero esta investigación es un paso preparatorio útil para asegurarnos de que tenemos un buen sistema de detección de clickbait", dijo Sundar.

Para encontrar escritores humanos de cebo para el estudio, los investigadores reclutaron estudiantes de periodismo y trabajadores de Amazon Turk, un sitio en línea de fuentes públicas. Reclutaron a 125 estudiantes y 85 trabajadores de la obra. Los participantes leyeron primero una definición de "clickbait" y luego se les pidió que leyeran un artículo corto, de unas 500 palabras. A continuación, se pidió a los participantes que escribieran un título de cebo para cada artículo.

Los titulares generados por la máquina fueron desarrollados usando un modelo de aprendizaje automático llamado Autocodificadores Variacionales -- o VAE -- modelo generativo, que se basa en las probabilidades de encontrar patrones en los datos.

Los investigadores probaron su algoritmo contra sistemas de alto rendimiento de Clickbait Challenge 2017, una competencia en línea de detección de cebo.

###

También contribuyeron al estudio Maria Molina, candidata a doctorado en comunicaciones de masas de Penn State; y Huan Liu, profesor de ciencias de la computación e ingeniería, y Kai Shu, candidato a doctorado en ciencias de la computación e ingeniería, ambos de la Universidad Estatal de Arizona.

La Fundación Nacional de Ciencias, las Universidades Asociadas de Oak Ridge y la Oficina de Investigación Naval apoyaron este trabajo.

Enlace Web - Fuente

CompuTekni

¡Suscríbete a nuestro RSS a tráves de: Follow it y accede al mejor contenido tecnológico!

¡Apóyanos con un donativo PayPal ¡Gracias por tu contribución!

No hay comentarios.:

Publicar un comentario