Cómo calcula hCaptcha las recompensas (version latina)

hCaptcha

utiliza modelos sofisticados de aprendizaje automático para determinar si sus visitantes son humanos y si las respuestas que brindan son correctas.

Cada respuesta correcta de un visitante que agrega más confianza a nuestra estimación de la respuesta correcta se compensa a una tasa determinada por un sistema de licitación en tiempo real para cada tipo de tarea simple ofrecida por el servicio.

Fórmula aproximada: Recompensa final = Respuestas “útiles” [1] * Recompensa por tarea * Tasa de llenado

[1] Respuestas correctas de humanos que respondieron correctamente la mayoría de las preguntas que recibieron.

Fondo

hCaptcha crea una nueva fuente de ingresos para los sitios web al recompensarlos cuando sus usuarios resuelven un hCaptcha. Cada hCaptcha es una tarea simple que proporciona trabajo humano a las empresas que crean conjuntos de datos de aprendizaje automático.

La historia completa

Operar el servicio hCaptcha plantea un desafío matemático interesante.

Nuestros sistemas deben combinar múltiples respuestas al mismo conjunto de preguntas de diferentes personas con un pequeño porcentaje de respuestas conocidas («verdad de fondo») para determinar la «respuesta correcta probable» con alta precisión.

A mí me parece un midi. La mayoría de la gente estuvo de acuerdo.

Considere este escenario:

El Visitante 1 responde todas las preguntas de manera idéntica al Visitante 2, y ambos responden la pregunta 1 de la misma manera que los datos de la verdad básica. Ahora comenzamos a desarrollar nuestra confianza en varias propiedades tanto de los visitantes como de las preguntas con respuestas desconocidas:

  1. Son un poco más propensos a ser humanos, ya que respondieron correctamente la pregunta de la verdad básica.
  2. Es más probable que sean iguales (humanos o bot) ya que están de acuerdo con las respuestas a las preguntas desconocidas.
  3. Las respuestas a las preguntas 2 y 3 son ligeramente más propensas a ser B y C, ya que ambas dijeron lo mismo y estuvieron de acuerdo con la verdad básica.

Nuestro trabajo es calcular la «respuesta correcta probable» para cada pregunta que hacen los clientes, utilizando el menor número de repeticiones por pregunta para alcanzar la confianza en esa respuesta.

Nuestro objetivo es poder utilizar las respuestas de los visitantes que tienen menos del 100% de precisión, lo que aumenta la eficiencia del sistema. Esto aumenta nuestra capacidad de trabajo y, por lo tanto, las recompensas que podemos otorgar a cada sitio web por la misma cantidad de tráfico.

Comparación de Línea de Base: Plataformas de Microwork

En general, las plataformas de microtrabajo ofrecen la capacidad de establecer requisitos para una tasa mínima de precisión del trabajador y una cantidad de trabajo previa específica. Esto se hace para limitar a los trabajadores que completan una tarea a aquellos que probablemente sean correctos.

Una encuesta de estos sitios muestra que muchos trabajos solo aceptan respuestas de los trabajadores con al menos el 95% de precisión y 50-100 tareas previas completadas.

hCaptcha no tiene este lujo. Debemos hacer preguntas a los robots, a los seres humanos maliciosos y, lo que es más importante, a los usuarios para los que no tenemos antecedentes.

Tenemos que ser lo más precisos posible a nuestro juicio para mantenernos alejados de los robots, y lo más eficientes posible en el número de veces que hacemos una pregunta para maximizar las ganancias del sitio y el rendimiento del sistema.

También debemos evitar que la colusión y otros ataques automáticos engañen a nuestros sistemas para que acepten una respuesta incorrecta solo porque varias personas dicen que es cierto.

Hacer esto sin una gran cantidad de respuestas previas del mismo visitante también es complicado. De hecho, solo podemos obtener 3 o 9 respuestas de un visitante en particular.

¿Te diste cuenta de que esta pantalla está haciendo nueve preguntas separadas?

Esta es una tarea difícil en la teoría de la probabilidad aplicada, pero hemos logrado avances sustanciales.

Nuestros modelos de confianza ya son bastante buenos y se refinan continuamente a medida que entran más datos.

Esto nos permite asignar valor a las respuestas de los usuarios que no son 100% correctos, o 95% correctos. Incluso los usuarios que son solo un 90%o un poco menos correctos siguen siendo útiles dentro de nuestros modelos.

¡Y podemos hacerlo con solo algunas respuestas de ellos! Mucho más eficiente que requerir el 95% de precisión en 50 a 100 respuestas.

Esto es importante porque nos preocupamos por la privacidad del visitante .

Estamos vendiendo trabajo en lugar de anuncios, por lo que no tenemos la necesidad de identificar y rastrear eternamente a los visitantes en los sitios, dispositivos, navegadores, etc. para compartir esa información con los anunciantes que necesitan información demográfica del usuario.

Un visitante de Indonesia es tan valioso como un visitante de Alemania siempre que pueda responder una pregunta simple con la misma precisión.

Nuestros modelos también pueden detectar el mal comportamiento con muy pocos datos históricos. Por lo tanto, preferimos conservar la cantidad mínima de información sobre los visitantes necesaria para que el sistema funcione mientras les brinda una buena experiencia, es decir, no volver a preguntar demasiado una vez que creemos que probablemente sean seres humanos no maliciosos.

Manteniendo fuera a los malos actores

A pesar de las restricciones anteriores, lo que no queremos hacer es compensar a los malos actores o las personas que intentan controlar el sistema.

Considera lo siguiente:

Ambos visitantes en el Escenario 1 deben recibir una recompensa: sus respuestas agregaron confianza a los resultados cuando ejecutamos los cálculos finales.

Si un visitante solo tiene una corrección del 50% como en el Escenario 2, no proporciona ningún aumento de la confianza (es decir, el valor) en absoluto: sus respuestas no son mejores que la posibilidad aleatoria.

Dándoles una recompensa reduciría la cantidad total disponible para los buenos actores, por lo que nuestra métrica para recompensas es » Respuestas humanas útiles «; Las respuestas que se determina que son de bots no son recompensadas. Las respuestas de seres humanos maliciosos o ineptos tampoco son valiosas para el sistema, y ​​tienen un valor igual a cero.

Tasa de relleno

Finalmente, debemos considerar una propiedad única del sistema hCaptcha: ¡nuestros usuarios dependen de él para mantener a los actores maliciosos!

No podemos desactivarlo cuando nos quedamos sin tareas compensadas o cuando un sitio nos envía un gran volumen de tráfico malo.

De manera similar, necesitamos utilizar parte del trabajo que fluye para asegurar la precisión y calibrar nuestros sistemas: si nunca hiciéramos preguntas para las cuales ya sabemos la respuesta, no podríamos lograr la misma confianza. Esto significa que cada trimestre ajustamos las recompensas de ese período en función del porcentaje de tareas realizadas por los clientes que pagan frente a la calibración del sistema.

Las redes publicitarias utilizan el término «tasa de relleno» para referirse al porcentaje de espacios publicitarios disponibles que llenan los clientes que pagan. En nuestro caso, esto se refiere al porcentaje de “espacios de trabajo” disponibles que se usan para el trabajo premiado.

Retiro vs. Gasto en Servicios

Con la creciente popularidad del aprendizaje automático, hemos visto a muchos editores mostrar interés en aplicar sus recompensas directamente a los servicios de anotación. Planeamos hacer esto más fácil en los próximos meses.

Para los editores que desean simplemente canjear sus recompensas por USD, operamos trimestralmente. Esta línea de tiempo es impulsada por los ritmos subyacentes del negocio. Debido a que trabajamos con clientes de grandes empresas, los ciclos de pago rara vez son cortos. Alinear los pagos con las cuentas por cobrar reduce el riesgo comercial y hace que nuestro modelo operativo sea seguro y sostenible, lo que en última instancia beneficia a todos.

El futuro

En el momento en que el trabajo solicitado supera el suministro, tenemos una tasa de llenado del 100% aparte de las tareas de calibración del sistema. Los desequilibrios temporales en la oferta y la demanda son una ocurrencia común en los mercados bilaterales, por lo que esperamos que en el futuro esto pueda disminuir: la mayoría de las redes publicitarias prometen una tasa de llenado del 25 al 50%, por ejemplo.

Sin embargo, a medida que nuestros modelos mejoran, el potencial de ganancias de cada sitio aumenta: esto se debe a que cada vez se obtiene más confianza de cada visitante y cada respuesta aumenta efectivamente los espacios de trabajo  para un sitio determinado.

También estamos introduciendo nuevos tipos de trabajos en una cadencia regular para satisfacer la demanda de los clientes, y trabajamos constantemente para hacer que nuestros productos sean más útiles y oportunos para el cliente, lo que también debería aumentar los ingresos de los editores.

Gracias

Finalmente, nos gustaría agradecerle por apoyarnos en este viaje.

Estamos trabajando duro para crear una nueva fuente de ingresos que no requiera vender la identidad de sus visitantes como producto. Hacer que este servicio funcione tanto para los usuarios como para los clientes es una misión emocionante pero desafiante, y su paciencia y aliento le ayudarán mucho.

Sus comentarios, preguntas y sugerencias también son bienvenidos: envíenos un correo electrónico en cualquier momento a support@hcaptcha.com .

Espero sea de ayuda para algunos que no conocen este medio ! Choy12

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *