El FloC de Google es una idea terrible
Por Bennett Cyphers,
03.03.2021
Original:
https://www.eff.org/deeplinks/2021/03/googles-floc-terrible-idea
Las cookies de terceros están muriendo, y Google está tratando de
buscarle un reemplazo.
Nadie debería llorar la muerte de la cookie tal y como la conocemos. Durante más de dos décadas, la cookie de terceros ha sido el eje de una industria de vigilancia publicitaria oscura, sórdida y multimillonaria en la web; la eliminación gradual de las cookies de seguimiento y otros identificadores persistentes de terceros debería haberse producido hace tiempo. Sin embargo, a medida que los cimientos se desplazan bajo la industria publicitaria, sus principales actores están decididos a caer de pie.
Google está liderando la iniciativa de sustituir las cookies de terceros por un nuevo conjunto de tecnologías para orientar los anuncios en la web. Y algunas de sus propuestas demuestran que no ha aprendido las lecciones correctas de la actual reacción contra el modelo de negocio de la vigilancia. Este artículo se centrará en una de esas propuestas, el Aprendizaje Federado de Cohortes (FLoC), que es quizás la más ambiciosa y potencialmente la más perjudicial.
El FLoC pretende ser una nueva forma de hacer que el navegador realice el perfil que los rastreadores de terceros solían hacer por sí mismos: en este caso, reducir su actividad de navegación reciente a una etiqueta de comportamiento, y luego compartirla con sitios web y anunciantes. La tecnología evitará los riesgos de privacidad de las cookies de terceros, pero creará otros nuevos en el proceso. También puede agravar muchos de los peores problemas no relacionados con la privacidad de los anuncios comportamentales, como la discriminación y la segmentación predatoria.
El argumento de Google para los defensores de la privacidad es que un mundo con FLoC (y otros elementos de la \"caja de arena de la privacidad\", "privacy sandbox") será mejor que el mundo actual, donde los corredores de datos y los gigantes de la tecnología publicitaria rastrean y perfilan con impunidad. Pero ese planteamiento se basa en la falsa premisa de que tenemos que elegir entre el \"viejo rastreo\" y el \"nuevo rastreo\". No es una cosa u otra. En lugar de reinventar la rueda del rastreo, deberíamos imaginar un mundo mejor sin los innumerables problemas de los anuncios dirigidos.
Nos encontramos en una bifurcación del camino. Atrás queda la era de las cookies de terceros, quizá el mayor error de la Web. Por delante tenemos dos futuros posibles.
En uno, los usuarios pueden decidir qué información compartir con cada sitio con el que deciden interactuar. Nadie tiene que preocuparse de que su navegación anterior se utilice en su contra -o se aproveche para manipularlo- la próxima vez que abra una pestaña.
En el otro, el comportamiento de cada usuario le sigue de un sitio a otro como una etiqueta, inescrutable a simple vista, pero rica en
significado para los conocedores. Su historia reciente, destilada en unos pocos bits, se \"democratiza\" y se comparte con decenas de actores sin nombre que participan en el servicio de cada página web. Los usuarios comienzan cada interacción con una confesión: esto es lo que he hecho esta semana, por favor, trátenme como tal.
Los usuarios y los defensores deben rechazar el FLoC y otros intentos equivocados de reinventar la segmentación por comportamiento. Imploramos a Google que abandone el FLoC y reoriente sus esfuerzos hacia la construcción de una Web verdaderamente amigable para el usuario.
¿Qué es FloC?
En 2019, Google presentó el Privacy Sandbox, su visión del futuro de la privacidad en la web. En el centro del proyecto se encuentra un conjunto de protocolos sin cookies diseñados para satisfacer los innumerables casos de uso que las cookies de terceros proporcionan actualmente a los anunciantes. Google llevó sus propuestas al W3C, el organismo que elabora los estándares de la web, donde se han debatido principalmente en el Grupo Empresarial de Publicidad en la Web, un organismo formado principalmente por proveedores de tecnología publicitaria. En los meses transcurridos, Google y otros anunciantes han propuesto docenas de normas técnicas con temática de aves: PIGIN, TURTLEDOVE,
SPARROW, SWAN, SPURFOWL, PELICAN, PARROT... Y la lista continúa. En serio, cada una de las propuestas de \"pájaros\" está diseñada para realizar una de las funciones del ecosistema de la publicidad dirigida que actualmente realizan las cookies.
FLoC está diseñado para ayudar a los anunciantes a realizar la segmentación por comportamiento sin cookies de terceros. Un navegador con FLoC habilitado recogería información sobre los hábitos de navegación de su usuario, y luego utilizaría esa información para asignar a su usuario a una \"cohorte\" o grupo. Los usuarios con hábitos de navegación similares -por alguna definición de \"similares\"- se agruparían en la misma cohorte. El navegador de cada usuario compartirá con los sitios web y los anunciantes un ID de cohorte que indicará a qué grupo pertenece. Según la propuesta, al menos unos cuantos miles de usuarios deberían pertenecer a cada cohorte (aunque eso no es una garantía).
Si eso suena denso, piénsalo así: tu ID de FLoC será como un resumen sucinto de tu actividad reciente en la web.
La prueba de concepto de Google utilizó los dominios de los sitios que visitó cada usuario como base para agrupar a las personas. A continuación, utilizó un algoritmo llamado SimHash para crear los grupos. SimHash puede calcularse localmente en la máquina de cada usuario, por lo que no es necesario un servidor central para recoger los datos de comportamiento. Sin embargo, un administrador central podría tener un papel en la aplicación de las garantías de privacidad. Para evitar que cualquier cohorte sea demasiado pequeña (es decir, demasiado identificada), Google propone que un actor central pueda contar el número de usuarios asignados a cada cohorte. Si alguna es demasiado pequeña, puede combinarse con otras cohortes similares hasta que haya suficientes usuarios representados en cada una.
Según la propuesta, la mayoría de los detalles están todavía en el aire. El borrador de la especificación afirma que el ID de cohorte de un usuario estará disponible a través de Javascript, pero no está claro si habrá alguna restricción sobre quién puede acceder a él, o si el ID se compartirá de alguna otra manera. FLoC podría realizar una agrupación basada en las URL o en el contenido de las páginas en lugar de en los dominios; también podría utilizar un sistema basado en el aprendizaje federado (como implica el nombre FLoC) para generar los grupos en lugar de SimHash. Tampoco está claro cuántas cohortes posibles habrá. El experimento de Google utilizó identificadores de cohortes de 8 bits, lo que significa que sólo había 256 cohortes posibles. En la práctica, ese número podría ser mucho mayor; la documentación sugiere un identificador de cohorte de 16 bits compuesto por 4 caracteres hexadecimales. Cuantas más cohortes haya, más específicas serán; los identificadores de cohorte más largos significarán que los anunciantes aprenden más sobre los intereses de cada usuario y tienen más facilidad para tomar sus huellas digitales.
Una cosa que se especifica es la duración. Las cohortes de FLoC se recalcularán semanalmente, utilizando cada vez los datos de navegación de la semana anterior. Esto hace que las cohortes FLoC sean menos útiles como identificadores a largo plazo, pero también las convierte en medidas más potentes de cómo se comportan los usuarios a lo largo del
tiempo.
Nuevos problemas de privacidad
FLoC forma parte de un conjunto que pretende llevar los anuncios dirigidos a un futuro que preserve la privacidad. Pero el diseño central implica compartir nueva información con los anunciantes. Como es lógico, esto también crea nuevos riesgos para la privacidad.
Huellas dactilares
El primer problema es la huella digital (fingerprint). La toma de huellas digitales de los navegadores es la práctica de recopilar muchos datos discretos del navegador de un usuario para crear un identificador único y estable para ese navegador. El proyecto Cover Your Tracks de la EFF demuestra cómo funciona el proceso: en pocas palabras, cuantas más formas tenga tu navegador de ser diferente al de los demás, más fácil será tomar una huella digital.
Google ha prometido que la gran mayoría de las cohortes de FLoC comprenderán miles de usuarios cada una, por lo que un ID de cohorte por sí solo no debería distinguirte de otros miles de personas como tú. Sin embargo, eso sigue dando a los rastreadores una enorme ventaja. Si un rastreador comienza con su cohorte FLoC, sólo tiene que distinguir su navegador de otros pocos miles (en lugar de unos cientos de millones). En términos de teoría de la información, las cohortes FLoC contendrán varios bits de entropía, hasta 8 bits, en la prueba de concepto de Google. Esta información es aún más potente dado que es poco probable que esté correlacionada con otra información que el navegador expone. Esto facilitará a los rastreadores la creación de una huella digital única para los usuarios de FLoC.
Google ha reconocido que esto es un reto, pero se ha comprometido a solucionarlo como parte del plan más amplio \"Privacy Budget\" que tiene para hacer frente a la huella digital a largo plazo. Resolver el problema de las huellas dactilares es un objetivo admirable, y su propuesta es una vía prometedora. Pero, según las FAQ, ese plan es \"una propuesta en fase inicial y aún no tiene una implementación en el navegador\". Mientras tanto, Google va a empezar a probar el FLoC este mismo mes.
El fingerprinting es notoriamente difícil de detener. Navegadores como Safari y Tor han participado durante años en guerras de desgaste contra los rastreadores, sacrificando grandes franjas de sus propios conjuntos de características con el fin de reducir las superficies de ataque de las huellas digitales. La mitigación de las huellas dactilares suele implicar la eliminación o la restricción de fuentes innecesarias de entropía, que es lo que es el FLoC. Google no debería crear nuevos riesgos de fingerprinting hasta que no haya averiguado cómo tratar los existentes.
Exposición cruzada de contextos
El segundo problema es menos fácil de explicar: la tecnología compartirá nuevos datos personales con rastreadores que ya pueden identificar a los usuarios. Para que FLoC sea útil para los anunciantes, la cohorte de un usuario revelará necesariamente información sobre su comportamiento.
La página de Github del proyecto aborda esta cuestión desde el principio:
Esta API democratiza el acceso a cierta información sobre el historial de navegación general de un individuo (y, por tanto, sus intereses generales) a cualquier sitio que opte por ella. ... Los sitios que conocen la IIP de una persona (por ejemplo, cuando la gente se registra utilizando su dirección de correo electrónico) podrían registrar y revelar su cohorte. Esto significa que la información sobre los intereses de un individuo puede llegar a ser pública.
Como se ha descrito anteriormente, las cohortes FLoC no deberían funcionar como identificadores por sí mismas. Sin embargo, cualquier empresa capaz de identificar a un usuario de otras maneras -por ejemplo, ofreciendo servicios de \"inicio de sesión con Google\" a sitios de Internet- podrá vincular la información que obtenga de FLoC al perfil del usuario.
Dos categorías de información pueden ser expuestas de esta manera:
1. Información específica sobre el historial de navegación. Los rastreadores pueden ser capaces de aplicar ingeniería inversa al algoritmo de asignación de cohortes para determinar que cualquier usuario que pertenezca a una cohorte específica probablemente o definitivamente ha visitado sitios específicos.
2. Información general sobre datos demográficos o intereses. Los observadores pueden saber que, en general, los miembros de una cohorte específica tienen muchas probabilidades de ser un tipo específico de persona. Por ejemplo, una cohorte concreta puede tener una representación excesiva de usuarios jóvenes, mujeres y negros; otra cohorte, votantes republicanos de mediana edad; una tercera, jóvenes LGBTQ+.
Esto significa que todos los sitios que visites tendrán una buena idea de qué tipo de persona eres en el primer contacto, sin tener que hacer el trabajo de rastrearte a través de la web. Además, como tu cohorte FLoC se actualizará con el tiempo, los sitios que puedan identificarte de otras maneras también podrán seguir la evolución de tu navegación. Recuerde que una cohorte FLoC no es ni más ni menos que un resumen de su actividad de navegación reciente.
Usted debe tener derecho a presentar diferentes aspectos de su identidad en diferentes contextos. Si visita un sitio para obtener información médica, puede confiarle información sobre su salud, pero no hay razón para que tenga que saber cuál es su política. Del mismo modo, si visitas un sitio web de venta al por menor, no debería necesitar saber si has leído recientemente sobre el tratamiento de la depresión. El FLoC erosiona esta separación de contextos y, en su lugar, presenta el mismo resumen de comportamiento a todas las personas con las que interactúas.
Más allá de la privacidad
El FLoC está diseñado para evitar una amenaza muy específica: el tipo de perfil individualizado que permiten los identificadores de contexto cruzado en la actualidad. El objetivo del FLoC y de otras propuestas es evitar que los rastreadores accedan a información específica que puedan relacionar con personas concretas. Como hemos demostrado, el FLoC puede ayudar a los rastreadores en muchos contextos. Pero incluso si Google es capaz de repetir su diseño y evitar estos riesgos, los daños de la publicidad dirigida no se limitan a las violaciones de la privacidad. El objetivo principal de FLoC está en contradicción con otras libertades civiles.
El poder de segmentar es el poder de discriminar. Por definición, los anuncios dirigidos permiten a los anunciantes llegar a algunos tipos de personas y excluir a otras. Un sistema de segmentación puede utilizarse para decidir quién puede ver anuncios de empleo u ofertas de préstamo con la misma facilidad que para anunciar zapatos.
A lo largo de los años, la maquinaria de la publicidad dirigida se ha utilizado con frecuencia para la explotación, la discriminación y el daño. La posibilidad de segmentar a las personas en función de su origen étnico, religión, sexo, edad o capacidad permite la publicación de anuncios discriminatorios para el empleo, la vivienda y el crédito. La segmentación basada en el historial crediticio -o en las características asociadas sistemáticamente a él- permite la publicación de anuncios abusivos para obtener préstamos de alto interés. La segmentación basada en datos demográficos, ubicación y afiliación política ayuda a los proveedores de desinformación por motivos políticos y a la supresión de votantes. Todos los tipos de segmentación por comportamiento aumentan el
riesgo de estafas convincentes.
Google, Facebook y muchas otras plataformas publicitarias ya intentan frenar ciertos usos de sus plataformas de segmentación. Google, por ejemplo, limita la capacidad de los anunciantes para dirigirse a personas en \"categorías de intereses sensibles\". Sin embargo, estos esfuerzos a menudo se quedan cortos; los actores
decididos suelen encontrar soluciones a las restricciones de toda la plataforma sobre ciertos tipos de segmentación o ciertos tipos de anuncios.
Incluso con un poder absoluto sobre la información que se puede utilizarpara dirigirse a quién, las plataformas son demasiado a menudo incapaces de evitar el abuso de su tecnología. Pero FLoC utilizará un algoritmono supervisado para crear sus grupos. Eso significa que nadie tendrá control directo sobre cómo se agrupan las personas. En el mejor de los casos (para los anunciantes), FLoC creará grupos que tengan comportamientos e intereses significativos en común. Pero el comportamiento en línea está vinculado a todo tipo de características sensibles: datos demográficos como el sexo, la etnia, la edad y los ingresos; los \"5 grandes\" rasgos de personalidad; incluso la salud mental. Es muy probable que el FLoC también agrupe a los usuarios según algunos de estos ejes. Las agrupaciones de FLoC también pueden reflejar directamente las visitas a sitios web relacionados con el abuso de sustancias, las dificultades económicas o el apoyo a los supervivientes de traumas.
Google ha propuesto que puede supervisar los resultados del sistema para comprobar si existen correlaciones con sus categorías sensibles. Si descubre que una cohorte concreta está demasiado relacionada con un grupo protegido determinado, el servidor administrativo puede elegir nuevos parámetros para el algoritmo y decir a los navegadores de los usuarios que se agrupen de nuevo.
Esta solución parece tanto orwelliana como un nuevo Sísifo. Para controlar la correlación de los grupos FLoC con las categorías sensibles, Google tendrá que realizar auditorías masivas utilizando datos sobre la raza, el sexo, la religión, la edad, la salud y la situación económica de los usuarios. Cada vez que encuentre una cohorte que se correlacione demasiado a lo largo de cualquiera de esos ejes, tendrá que reconfigurar todo el algoritmo y volver a intentarlo, esperando que no haya otras \"categorías sensibles\" implicadas en la nueva versión. Se trata de una versión mucho más difícil del problema que ya está intentando resolver, y que a menudo fracasa.
En un mundo con FLoC, puede ser más difícil dirigirse directamente a los usuarios en función de la edad, el sexo o los ingresos. Pero no será imposible. Los rastreadores con acceso a información auxiliar sobre los usuarios podrán aprender qué \"significan\" las agrupaciones de FLoC -qué tipo de personas contienen- mediante la observación y la experimentación. Los que se empeñen en hacerlo podrán seguir discriminando. Además, este tipo de comportamiento será más difícil de controlar para las plataformas de lo que ya es. Los anunciantes con malas intenciones podrán negarlas, ya que no se dirigen directamente a las categorías protegidas, sino que se dirigen a las personas en función de su comportamiento. Y todo el sistema será más opaco para los usuarios
y los reguladores.
Google, por favor, no lo hagas
Escribimos sobre FLoC y el otro lote inicial de propuestas cuando se presentaron por primera vez, llamando a FLoC \"lo opuesto a la tecnología de preservación de la privacidad\". Esperábamos que el proceso de normalización arrojara luz sobre los defectos fundamentales de FLoC, haciendo que Google reconsiderara su impulso. De hecho, varias cuestiones en la página oficial de Github plantean exactamente las mismas preocupaciones que destacamos aquí. Sin embargo, Google ha seguido desarrollando el sistema, dejando los fundamentos casi sin cambios. Ha empezado a presentar el FLoC a los anunciantes, presumiendo de que el FLoC es un sustituto \"95% efectivo\" del targeting basado en cookies. Y a partir de Chrome 89, lanzado el 2 de marzo, está desplegando la tecnología para una prueba. Una pequeña parte de los usuarios de Chrome, probablemente millones de personas, serán (o han sido) asignados para probar la nueva tecnología.
No te equivoques, si Google lleva a cabo su plan de implantar FLoC en Chrome, probablemente dará \"opciones\" a todos los implicados. El sistema será probablemente opt-in para los anunciantes que se beneficien de él, y opt-out para los usuarios que se vean perjudicados. Seguramente, Google lo promocionará como un paso adelante hacia la \"transparencia y el control del usuario\", sabiendo perfectamente que la gran mayoría de sus usuarios no entenderá cómo funciona el FLoC y que muy pocos se esforzarán por desactivarlo. Se dará una palmadita en la espalda por haber inaugurado una nueva era privada en la web, libre de la malvada cookie de terceros, tecnología que Google ayudó a extender mucho más allá de su vida útil, ganando miles de millones de dólares en
el proceso.
No tiene por qué ser así. Las partes más importantes de la "privacy sandbox", como la eliminación de los identificadores de terceros y la lucha contra las huellas dactilares, cambiarán realmente la Web para mejor. Google puede optar por desmantelar el viejo andamiaje de la vigilancia sin sustituirlo por algo nuevo y singularmente perjudicial.
Rechazamos rotundamente el futuro de FLoC. Ese no es el mundo que queremos, ni el que los usuarios merecen. Google tiene que aprender las lecciones correctas de la era del rastreo de terceros y diseñar su navegador para que funcione para los usuarios, no para los anunciantes.
**Nota:* Nos hemos puesto en contacto con Google para verificar ciertos hechos presentados en este artículo, así como para solicitar más información sobre el próximo lanzamiento en pruebas. No habíamos recibido respuesta al momento de publicar este artículo.*
**Traducido al español por* Luis Fajardo \@lfajardo\@txs.es, con asistencia de Deepl.com.*
#FLoC #privacidad #RGPD #futuro #vigilencia #economía #Google #PrivacySandbox #navegadores #NavegadoresWeb #FSF