¿El ‘scraping’ como herramienta para la vulneración de privacidad? Sobre la filtración de datos personales a través de soluciones de inteligencia artificial: Una mirada desde la regulación de la protección de datos personales

Picture of Ana Lucía Taboada

Ana Lucía Taboada

Bachiller de Derecho de la Universidad del Pacífico. Experta Certificada en Protección de Datos Personales por el Institute of Audit and IT-Governance [IAITG], Co Funder de ALaw (legaltech de automatización de documentos legales) y Co Creadora de La Cápsula, espacio para la creación de proyectos de innovación legal. Analista legal en Diphasac.

“I do not fear computers. I fear the lack of them.”

Isaac Isamov

I. Introducción

Cada vez es más frecuente escuchar sobre la filtración de datos personales a nivel global por parte de hackeadores o “ciberdelincuentes” debido al débil y escaso sistema de seguridad de la información que tienen los responsables del tratamiento de datos personales a través de sus plataformas digitales y/o páginas webs. Esto acarrea la gran posibilidad de exposición de millones de datos personales y, en la mayoría de los casos, datos sensibles. Por ejemplo, el 20 de enero de 2021 se descubrió la mayor filtración de datos personales a nivel latinoamérica, en tanto se expusieron nombres, identificadores fiscales, imágenes faciales, direcciones, números de teléfono, salarios y correos electrónicos de aproximadamente 223 millones brasileños[1].

Perú no es ajeno a la escasa brecha de seguridad digital. En octubre de 2021 se denunció en un medio televisivo[2] que el personal supervisor de Migraciones se encontraba filtrando datos personales de pasajeros provenientes desde el aeropuerto internacional Jorge Chávez a través de canales digitales, en tanto tales supervisores contaban con acceso a las herramientas de escaneo de los pasaportes. Asimismo, recientemente el Centro Nacional de Seguridad Digital, dependencia de la Secretaría de Gobierno y Transformación Digital responsable de detectar y responder por los incidentes de seguridad digital a nivel nacional, identificó que, a través del dominio “https://zorritorun.run/” se realizaban consultas ilegales sobre datos personales y sensibles de millones de ciudadanos, cuya titularidad recaía en el Registro Nacional de Identificación y Estado Civil (RENIEC). La situación se agravaba aún más en tanto se podía acceder a dicha información a través de credenciales legítimas de RENIEC[3].

Ambos casos resultan ser los más resaltantes durante este último año, mas no son los únicos[4]. Así, si bien tales casos son investigados por parte de la Unidad Fiscal Especializada en Ciberdelincuencia y por la Dirección de Fiscalización e Instrucción de la Autoridad de Protección de Datos Personales (en adelante, “APDP”), la exposición de los datos personales de los usuarios ya se ha configurado y, en ese sentido, se han podido utilizar para fines ilícitos.

Sin embargo, ¿qué sucede cuando los ciberdelincuentes no hackean una plataforma y/o cuentan con empleados dentro de la empresa para extraer la información, sino que, a través de sistemas automatizados, descargan los datos personales publicados por los mismos usuarios y, con ello, tal data es recopilada y procesada para fines ilícitos? Aunque tal situación podría catalogarse como un supuesto de ficción, ello es una realidad. A través del web scraping (en adelante, “scraping”) y el manejo de big data, el ciberdelincuente recopila, procesa y almacena datos personales – los cuales se encuentran públicos en la web por voluntad del usuario – y, de ese modo, obtiene una gran base de datos en el que puede comercializar y/o utilizar para propósitos ilegales.

Ante esta situación descrita previamente, cabe preguntarse, ¿quién es el responsable por el scraping?: ¿la persona que publicó su información como pública dentro de la red social? ¿la persona que realiza el scrapeo? o ¿la red social quien no tomó las medidas técnicas preventivas para que no se configuren este tipo de eventos de seguridad? Estas preguntas serán analizadas al amparo de la regulación de protección de datos personales peruana en el presente paper.

Así, la estructura del presente trabajo inicia detallando la naturaleza del scraping a la luz de la inteligencia artificial y el big data. Seguidamente, se realizará el análisis correspondiente en materia de protección de datos personales a fin de determinar la responsabilidad sobre la data extraída a través de las páginas públicas. Luego, se detalla un caso recientemente dado a conocer en el que se utilizaron herramientas de scraping para elaborar miles de bases de datos. Finalmente, expondremos nuestras conclusiones sobre lo argumentado en el presente trabajo.

II. La naturaleza del scraping al amparo de la inteligencia artificial y el big data

Determinar una única definición aplicable a la inteligencia artificial en sí ha sido una tarea difícil a lo largo del tiempo, en tanto se le ha atribuido distintos significados por las vasta gama de funciones que se pueden ejecutar gracias a la misma. Sin embargo, coincidimos con lo señalado por Bellman, en el cual es la automatización de actividades que vinculamos con procesos de pensamiento humano, actividades como la toma de decisión, resolución de problemas y aprendizaje[5].  En esa línea, podemos considerar a la inteligencia artificial como una gran ejecución de procesos por parte de sistemas o máquinas creados o que simulen el comportamiento humano.

Aterrizando dicho concepto al scraping, esta simulación de aprendizajes se relaciona con la aproximación planteada de Russel & Norvig[6] denominada “Actuar como humano”, en el cual se asemeja a tipos de programación, tales como el razonamiento automatizado, procesamiento de lenguaje natural, representación del conocimiento, visión computacional, entre otros. Así, el proceso de scraping es una solución de inteligencia artificial, pues el scraping es la técnica en la cual se usa un software que automáticamente recopila información deseada de un sitio web, la normaliza en un formato que sea útil para el propósito previsto, y posteriormente la almacena en una base de datos fuera de línea para su uso[7]. Dicho ello, se trata de un procesamiento y/o razonamiento automatizado a gran escala.

El software programado para scrapear se le suele llamar bot, spider o crawler, y permite examinar las páginas web automáticamente y recopilar datos. El proceso de scraping funciona de la siguiente manera[8]:

  • El fragmento de código utilizado para extraer la información, que llamamos bot de extracción, envía una solicitud HTTP GET a un sitio web específico.
  • Cuando el sitio web responde, el scraper analiza el documento HTML para buscar un patrón de datos específico.
  • Una vez se hayan extraído los datos, se convierten a cualquier formato específico proyectado por el autor del bot de scraper.


Fuente: DataOX.

En esa línea, el scraping tiene una serie de aplicaciones prácticas positivas[9], tales como:

  • Caza de tendencias (cool hunting): gracias al scraping se puede conocer qué marcas y productos están en constante movimiento en una página web (por ejemplo, Facebook marketplace), por lo que puede ser una oportunidad para que la empresa defina sus estrategias de marketing.
  • Optimización de precios: el scraping consecutivo de diferentes competidores permite generar históricos sobre el pricing de los productos públicos y, de ese modo, definir un óptimo de venta.
  • Monitorización de la competencia: se puede controlar y generar alertas para saber cuándo los competidores actualizan sus catálogos de productos o realizan algún cambio dentro de su página web.

Sin embargo, la data obtenida a través de scraping puede ser utilizada para prácticas ilegales, tales como el envío de spam o correos electrónicos no deseados o venderlos como bases de datos al público en general.

Por otro lado, el scraping permite extraer información en cuestión de segundos, agrupando una gran cantidad de datos en un solo lugar en formato legible y estructurado.  Por ello, también se relaciona con el concepto de big data, en tanto este último se le entiende como aquel análisis masivo de datos[10] y que, a diferencia de otros conceptos relacionados (tales como análisis de datos o ciencia de datos) cuenta con cinco características esenciales (denominadas también las “5Vs”) propuestas por Doug Laney[11]: volumen (cantidad de data disponible y almacenada), variedad (formatos distintos y tipos de data), veracidad (calidad de la data), velocidad (rapidez de la data procesada) y valor (utilidad de la data).

En esa misma línea, el scraping permite analizar todo tipo de datos procesados, tales como los estructurados, no estructurados, semi-estructurados y meta data, en cuyo caso cumple con agrupar una gran variedad y cantidad de datos, los cuales son elementos característicos de las soluciones con big data.

III. Aplicación de la regulación peruana en materia de protección de datos personales en supuestos de scraping

A fin de poder entender los posibles efectos que se pueden configurar en un supuesto de scraping, corresponde analizar el marco normativo vigente. En el Perú se cuenta con la Ley No. 29733, Ley de Protección de Datos Personales (“Ley”), su Reglamento, el Decreto Supremo No. 003-2013-JUS (“Reglamento” y en conjunto, “Normativa de protección de datos”), y una Directiva de Seguridad, cuya naturaleza es meramente orientativa.

Así, la Normativa de protección de datos regula el tratamiento de datos personales y sensibles realizados dentro del territorio nacional[12], en el cual se define a “dato personal” como toda información sobre una persona que la identifica o la hace identificable a través de medios que pueden ser razonablemente utilizados[13]. Por otro lado, un “dato sensible” es toda aquella información referida a las características físicas, morales o emocionales; los hechos o circunstancias de su vida afectiva o familiar; los hábitos personales que corresponden a la esfera más íntima; la información relativa a la salud física o mental u otras similares que afecten su intimidad[14]. Del mismo modo, el artículo 2.5 de la Ley define a un “dato sensible” como aquel constituido por los datos biométricos que por sí mismos pueden identificar al titular de datos personales; datos referidos al origen racial y étnico; ingresos económicos; opiniones o convicciones políticas, religiosas, filosóficas o morales; afiliación sindical; e información relacionada a la salud[15] o a la vida sexual.

En esa línea, se entiende como tratamiento de datos personales a cualquier operación o procedimiento técnico, automatizado o no, que permite la recopilación, registro, organización, almacenamiento, conservación, elaboración, modificación, extracción, consulta, utilización, bloqueo, supresión, comunicación por transferencia o por difusión o cualquier otra forma de procesamiento que facilite el acceso, correlación o interconexión de los Datos Personales.

Según lo previsto en la Normativa de protección de datos, un titular de banco de datos es aquella persona natural, jurídica o entidad pública que determina el tratamiento de datos personales, su finalidad y las medidas de seguridad aplicables y, por tanto, es quién deberá tratar los datos personales de los que es responsable de conformidad con las disposiciones de la normativa vigente.

Un requisito esencial para realizar el tratamiento de los datos personales es que se obtenga el consentimiento del titular de los datos personales de forma informada, libre[16], previa[17], expresa e inequívoca[18], salvo que se encuentre en uno de los supuestos de excepción detallados en el artículo 14 de la Ley. En el caso de datos sensibles, el consentimiento deberá ser obtenido por escrito a través de una firma manuscrita, firma digital o cualquier otro mecanismo de autenticación que garantice la voluntad inequívoca del titular.

De otro lado, el titular de los datos personales debe cumplir con el deber de información previsto en el artículo 18 de la Ley y, mediante el cual se requiere que se informe al titular de datos personales sobre: (i) la finalidad para la que sus datos personales serán tratados; (ii) quiénes son o pueden ser sus destinatarios, (iii) la existencia del banco de datos en que se almacenarán, así como (iv) la identidad y domicilio de su titular y, de ser el caso, del o de los encargados del tratamiento de sus datos personales; (v) el carácter obligatorio o facultativo de sus respuestas al cuestionario que se le proponga, en especial en cuanto a los datos sensibles; (vi) la transferencia de los datos personales; (vii) las consecuencias de proporcionar sus datos personales y de su negativa a hacerlo; (viii) el tiempo durante el cual se conserven sus datos personales; y (ix) la posibilidad de ejercer los derechos que la ley le concede y los medios previstos para ello. En el marco de páginas webs o plataformas digitales, esta obligación puede ser cumplida mediante una política de privacidad de fácil acceso para el usuario.

Del mismo modo, el tratamiento debe cumplir con una serie de principios elementales tipificados en la Normativa de protección de datos. Por ejemplo, se debe cumplir con el principio de finalidad, en cuyo caso la recopilación debe ser para una finalidad determinada, explícita y lícita, por lo que no debe extenderse. Asimismo, el principio de calidad sostiene que los datos deben ser exactos, veraces, actualizados, necesarios y pertinentes para la finalidad que motivó su recopilación; mientras que el principio de proporcionalidad dispone que el tratamiento debe ser adecuado, relevante y no excesivo a la finalidad para la que hubiesen sido recopilados. Finalmente, el principio de seguridad advierte que el titular del banco de datos personales y el encargado de su tratamiento deberán adoptar las medidas técnicas, organizativas y legales necesarias para garantizar la seguridad de los datos personales.

Dentro de un scraping se pueden configurar supuestos de tratamiento de datos personales y/o datos sensibles, pues se trata de recopilar (o “raspar”) la información que encuentra a su paso dentro de la página web, en cuyo caso pueden ser nombres y apellidos, correos electrónicos, nombre de la cuenta, dirección, entre otros equivalentes.

Así, la persona – a nombre personal o a nombre de una empresa – que realiza el raspado de la información puede ser (i) el propio titular del banco de datos personales; (ii) un encargado de tratamiento, entendido como aquel sujeto que realiza el tratamiento de los datos personales por encargo del titular del banco de datos; o (iii) un sub encargado de tratamiento, quien es un tercero diferente al encargado del tratamiento y que previamente ha pactado con el titular del banco de datos personales para realizar el tratamiento de datos personales. Para estos efectos, tanto el encargado de tratamiento como el sub encargado deberán cumplir con la Normativa de protección de datos, siendo además que el titular del banco de personales será el responsable por el tratamiento efectuado del encargado de tratamiento.

De lo mencionado, si es que la persona (natural o jurídica) que va a realizar el scraping no obtiene el consentimiento libre previo, informado, expreso e inequívoco del titular del dato, entonces el proceso de scraping es ilícito y contraviene con las disposiciones de la Normativa de protección de datos. Ello en tanto, como se ha mencionado previamente, el scraping involucra la recopilación, extracción y almacenamiento de los datos personales y, con ello, tal recopilación es para una finalidad en que el usuario no ha consentido y/o informado sobre sus alcances ni objetivos, lo cual a su vez contraviene con el principio de finalidad, calidad y consentimiento.

En esa línea, nuestra postura es que la responsabilidad total del scraping se le atribuye única y exclusivamente al titular del banco de datos personales, es decir quien ejecuta el scraping, pues el usuario tiene la libertad de publicar la información o datos personales/sensibles en las redes sociales y/o páginas webs con la finalidad que se mantengan en dicha red, mas no sean recopiladas para una finalidad distinta y no consentida. Por ello, en caso el titular del banco de datos desee ejecutar un scraping, este debe solicitar el consentimiento oportuno e informar debidamente al usuario sobre el tratamiento de sus datos personales/sensibles para la finalidad de tratamiento que corresponda de acuerdo al artículo 18 de la Ley, ya que de lo contrario se estaría configurando una infracción grave conforme con el Reglamento[19], cuya sanción asciende entre 5 Unidades Impositivas Tributarias (UIT) a 50 UIT por parte de la APDP, sin perjuicio del daño reputacional o imagen corporativa en caso que el titular del banco de datos sea una persona jurídica.

Finalmente, cabe preguntarnos, ¿el usuario habría publicado o mantenido sus datos personales/sensibles en la plataforma o en la web de conocer que se iba a generar una recopilación con su información sin su consentimiento? Es muy poco probable que muchos usuarios mantengan una cuenta en las redes sociales y/o datos personales en las páginas webs de conocer que se realizará este tipo de tratamiento sin su consentimiento; por ello, corresponde que el titular del banco de datos personales solicite el consentimiento de forma informada, libre, previa, expresa e inequívoca, según corresponda[20].

IV. El efecto del scraping desde otras legislaciones: el caso del GDPR

Si bien es cierto que nuestra APDP no ha emitido opinión alguna respecto al fenómeno del scraping, sea para usos ilegales o no, en Europa el tal escenario es distinto. En principio, el Reglamento Europeo de Protección de Datos (por su siglas en inglés “GDPR”) 2016/679 es una norma de la Unión Europea (UE) que regula el tratamiento de los datos personales dentro de la jurisdicción europea y que, a su vez, tiene como finalidades principales hacer de conocimiento a los ciudadanos de la jurisdicción el tratamiento de sus datos personales ;y  simplificar el entorno normativo para las empresas de la UE.

Por ello, si se realiza algún tipo de tratamiento de datos personales (sea recopilación, registro, organización, almacenamiento, elaboración, modificación, extracción, consulta, utilización, almacenamiento, entre otros equivalentes) se deberá cumplir con el GDPR y normas conexas. Así, aterrizando dicha normativa al caso del scraping, se podrá realizar la extracción de data, cumpliendo con el GDPR, siempre que se configure uno de los siguientes supuestos[21]:

  • El interesado dio su consentimiento para el tratamiento de sus datos personales para uno o varios fines específicos;
  • El tratamiento es necesario para la ejecución de un contrato en el que el interesado es parte o para la aplicación a petición de este de medidas precontractuales;
  • El tratamiento es necesario para el cumplimiento de una obligación legal aplicable al responsable del tratamiento;
  • El tratamiento es necesario para proteger intereses vitales del interesado o de otra persona física;
  • El tratamiento es necesario para el cumplimiento de una misión realizada en interés público o en el ejercicio de poderes públicos conferidos al responsable del tratamiento;
  • El tratamiento es necesario para la satisfacción de intereses legítimos perseguidos por el responsable del tratamiento o por un tercero, siempre que sobre dichos intereses no prevalezcan los intereses o los derechos y libertades fundamentales del interesado que requieran la protección de datos personales, en particular cuando el interesado sea un niño. Ello no será de aplicación al tratamiento realizado por las autoridades públicas en el ejercicio de sus funciones.

Además de cumplir con uno de los supuestos anteriormente detallados, el titular del banco de datos personales debe cumplir con lo siguiente:

  • Informar sobre el tratamiento de datos conforme con el artículo 14 del GDPR.
  • Atender y cumplir con la solicitud del titular del dato en caso desee ejercer sus derechos de acceso, rectificación, oposición o cancelación (eliminación).
  • Informar si es que ha existido una violación de datos ante la autoridad dentro de un plazo de tres (03) días conforme con el artículo 33 del GDPR. Salvo que dicha violación de datos no constituya una amenaza para los derechos fundamentales de la persona.

Del mismo modo, bajo la legislación europea, el scraping puede transgredir los derechos de autor (copyright), en tanto al momento de realizar el raspado de información de una base de datos, esta puede contener un rasgo de originalidad. Conforme con la Sentencia del TJUE de 1 de marzo de 2012, asunto C-604/10, Football Dataco Ltd contra Yahoo! UK Ltd[22], el criterio de originalidad se cumple cuando, a través de la selección o la disposición de los datos que contiene, su autor expresa su capacidad creativa de manera original mediante elecciones libres y creativas, teniendo su “toque personal”. .Incluso en la sentencia del Tribunal de Justicia de la Unión Europea de 16 de julio de 2009, C-5/08, Infopaq International A/S contra Danske Dagblades Forening[23], se consideró que incluso un extracto de 11 palabras podría estar protegido.

Así, los derechos de autor protegen la estructura y organización de la base de datos, mas no los datos incluidos en ella. En ese sentido, el rasgo de originalidad no se cumple cuando la configuración de la base de datos viene dictada por cuestiones técnicas, normas o limitaciones que no dejan margen para la capacidad creativa. Tal situación suele ser común, por lo que es poco probable que una base de datos sea objeto de derechos de autor. Sin perjuicio de ello, el riesgo existe, por lo que la persona jurídica/natural que realiza el scraping debe considerar los pronunciamientos emitidos en materia de propiedad intelectual sobre el scraping.

Por otro lado, el contenido de la base de datos puede estar protegida a pesar de que no sea original. De acuerdo con la Directiva 96/9 del Parlamento Europeo y del Consejo sobre la protección jurídica de las bases de datos[24], se concede una protección «sui generis» al creador de una base de datos que demuestre que ha realizado una inversión cualitativa y/o cuantitativa sustancial en la obtención, verificación o presentación de los contenidos. Por ello, dicho creador tiene derecho a impedir la extracción (en cuyo caso califica el scraping) y/o reutilización de la totalidad o de una parte sustancial, evaluada cualitativa y/o cuantitativamente, del contenido de dicha base de datos.

Tal protección automática, si es que se cumplen con los elementos mencionados previamente, es de quince (15) años a partir de la fecha de creación o de la primera puesta a disposición del público de la base de datos. Aterrizando al caso del scraping, ello se puede ejecutar siempre que siempre que se cumpla uno de los siguientes supuestos:

  • No se haga scraping de una «parte sustancial, evaluada cualitativa y/o cuantitativamente, del contenido de esa base de datos» y no la reutilice (es decir, venderla o publicarla);
  • El scraping entre dentro de la excepción del Text and Data Mining (TDM)[25];
  • Se haya obtenido una licencia para ello.

De lo indicado previamente, el fenómeno del scraping no produce efectos únicamente en el ámbito de protección de datos personales, sino también se extiende a propiedad intelectual y disposiciones normativas referidos a bases de datos.

V. ¿Robo de privacidad? El mayor caso de scraping sobre 214 millones de cuentas

A fin de aterrizar lo anteriormente analizado, comentaremos brevemente un caso sumamente famoso considerado como uno de los mayores casos de scraping de la historia.

Hasta antes del 2021, Sociolarks era una empresa dedicada al rubro de medios digitales, marketing digital y manejo de redes sociales[26] en China. Siendo que como parte de su rubro de negocio era el perfilamiento de cuentas dentro de las redes sociales, esta empresa optó por realizar un scraping a partir de la información pública contenida en las cuentas de Facebook, Instagram y LinkedIn por parte de millones de usuarios a nivel global.

Sin embargo, meses después Socialarks sufrió una filtración de más de 408 GB de datos personales provenientes de 214 millones de cuentas de Facebook, Instagram y LinkedIn en todo el mundo. Esta filtración fue denunciada por SafetyDetectives[27], quien precisó que a pesar de que no se había revelado datos sensibles inherentes de la plataforma, tales como la contraseña o información financiera,  este incidente de seguridad ocasionaba grave peligro para los usuarios de tales cuentas, en tanto se había elaborado una base de datos sumamente detallada en el que se encontraba la siguiente información:

InstagramLinkedinFacebook
Nombre completo, números de teléfono (6 millones de usuarios), correo electrónico (11 millones de usuarios), enlace de perfil, nombre de usuario, foto de perfil, descripción del perfil, recuento promedio de comentarios, número de seguidores y recuento de seguidores, país de ubicación, localidad (en algunos casos) y hashtags de uso frecuente.

Nombre completo,  texto «Acerca de», correos electrónicos, números de teléfono, país de ubicación

Me gusta, seguimiento y recuento de calificaciones, ID de Messenger, enlace de Facebook con fotos de perfil, enlace de página web y descripción del perfil.

Nombre completo, correos electrónicos, perfil del puesto, incluido el cargo y el nivel de antigüedad, enlace de perfil de LinkedIn, etiquetas de usuario, nombre de dominio, nombres de inicio de sesión de cuentas de redes sociales conectadas(p.e. Twitter), nombre de la empresa y margen de ingresos.

Fuente: Elaboración propia.

El siguiente cuadro detalla en orden de países el número de cuentas que recopilaba Socialarks:

Fuente: SafetyDetectives.

Además de contar con la gran cantidad de datos personales recopilados a través de los perfiles de Facebook, Instagram y Linkedin, el servidor de la empresa estaba expuesto públicamente sin protección con contraseña o cifrado, por lo que significaba que cualquier persona en posesión de la dirección IP del servidor podría haber accedido a la base de datos respectivamente.

Trasladando este caso a Perú, este incidente de seguridad hubiera sido sancionado por la APDP por los siguientes motivos:

  • No haber obtenido el consentimiento de los usuarios. Como hemos mencionado en el acápite anterior, el scraping es un tipo de tratamiento de datos personales al recopilar y extraer datos personales y/o sensibles con lo cual correspondía que se exija el consentimiento respectivo a los titulares de datos personales para efectuar dicho tratamiento. Tal evento configura una infracción grave al amparo de la Normativa de protección de datos, por lo que se impondría una sanción entre 5 a 50 UITs al ser una infracción grave.
  • No haber cumplido con el deber de información. Una de las características del consentimiento es que este sea informado, es decir, se detalle el proceso de tratamiento, los destinatarios, el periodo de conservación, entre otros aspectos mencionados en el presente acápite y regulados en el artículo 18 de la Ley. Incumplir con el deber de información configura una infracción grave y sujeta a una sanción entre 5 a 50 UITs.
  • No contar con las medidas de seguridad. La empresa no contaba con protecciones mínimas de seguridad técnicas, tales como la contraseña y cifrado, con lo cual se traduce en una infracción grave y una sanción ascendente entre 5 a 50 UITs, pues se trataba de datos sensibles.

De ese modo, este incidente de seguridad hubiera sido sancionado por la APDP por las infracciones detalladas previamente, sin perjuicio de las investigaciones por parte de la Fiscalía respectivamente.

VI. ¿Es posible prevenir el scrapping?

De acuerdo a lo que se ha analizado hasta ahora, la responsabilidad por el mal uso del scraping, sin obtener el consentimiento debido del titular del dato, recae exclusivamente en el titular del banco de datos personales. Sin perjuicio de ello, es posible evitar el scraping dentro de las plataformas y/o páginas web si es que se cuenta con las medidas técnicas oportunas de acuerdo a cada tipo de sitio web.

Para ello, se pueden emplear Captchas en el inicio de sesión o un corto tiempo de caducidad para tal inicio de sesión, pues permite que el tiempo que toma para realizar el raspado del sitio sea menor y, de ese modo, se dificulte exponencialmente la ejecución de tal scrapeo. Tal método es sumamente común y usado por distintas páginas web; aunque no el único.

Por ejemplo, se pueden utilizar restricciones de acceso, en cuyo caso se le solicita información de contacto, el número de teléfono u otro mecanismo de identificación que permita la validación a través de un SMS o llamada, para completar el registro. Asimismo, existe la posibilidad de crear links (“malicious links”) que sean únicamente detectados por rastreadores automáticos y, de ese modo, se restrinja el acceso automáticamente.

Así, también es posible “banear” ciertas cuentas de usuario de sitios web. Usualmente los sitios web revisan sus patrones de navegación para encontrar comportamientos sospechosos, como el caso que un usuario navegue rápidamente (sin posibilidad de tener un tiempo razonable para revisar el contenido de la página web) o que un usuario navegue por todos los íconos de la página web en un orden predecible, lo cual da lugar a que sea un robot en su mayoría. Del mismo modo, los usuarios que se mueven entre páginas sin ningún enlace suelen ser sospechosos y, por tanto, posibles de ser baneados.

Finalmente, los sitios web pueden aplicar restricciones técnicas para evitar el scrapeo, como es el caso que pueden proporcionar varios desafíos al navegador, en cuyo caso intentan identificar a los usuarios no humanos y restringir su acceso. Por lo general, se trata de solicitudes de Javascript o de establecimiento de cookies, que serán gestionadas automáticamente por cualquier navegador estándar sin la interacción del usuario[28].

VII. Conclusiones

De acuerdo a lo que hemos analizado a lo largo del presente trabajo, hemos señalado que una práctica bastante utilizada por parte de empresas y/o ingenieros es el scraping, pues proporciona una serie de beneficios para la misma. Sin embargo, podemos concluir lo siguiente:

  1. El scraping es una técnica en la cual se utiliza un software que automáticamente recopila información deseada de un sitio web, la normaliza en un formato que sea útil para el propósito previsto, y posteriormente la almacena en una base de datos fuera de línea para su uso.
  2. Cuando se realiza scraping sobre datos personales y/o datos sensibles dentro de una plataforma o página web, entonces nos encontramos frente a un supuesto de tratamiento de datos personales, en tanto este proceso involucra la recopilación, extracción y almacenamiento de tales datos personales y/o sensibles.
  3. La responsabilidad total del scraping se le atribuye única y exclusivamente al titular del banco de datos personales, pues el usuario tiene la libertad de publicar la información o datos personales/sensibles que considere pertinentes. De ese modo, el titular deberá solicitar el consentimiento libre, expreso, inequívoco, previo e informado del titular, salvo nos encontremos frente a una de las excepciones del consentimiento. Ello también aplica en caso el titular del banco encargue el tratamiento a un tercero denominado “encargado de tratamiento”.
  4. El titular del banco de datos personales deberá cumplir con el deber de información a fin de que el titular conozca a cabalidad los alcances del tratamiento y la posibilidad de ejercer sus derecho de acceso, rectificación, oposición y cancelación, de ser el caso, conforme con el artículo 18 de la Ley.
  5. En caso de incumplir con solicitar el consentimiento al titular, además de no informar los alcances del tratamiento de acuerdo al artículo 18 de la Ley, entonces se configurará un supuesto de infracción grave y sujeta a una sanción entre 5 a 50 UITs.
  6. El análisis de responsabilidad realizado en el presente trabajo recae cuando se traten de empresas privadas, mas no de las excepciones del ámbito de aplicación de la Ley y Reglamento, los cuales son, por ejemplo, seguridad pública, defensa nacional y actividades para la investigación penal.
  7. En el caso del GDPR, se debe cumplir con lo dispuesto en el artículo 6 del mismo cuerpo normativo a fin de realizar el scraping. Asimismo, se debe tomar en cuenta que la actividad del scraping involucra otros aspectos a tomar en cuenta, como la regulación aplicable a bases de datos y aspectos legales de propiedad intelectual.
  8. Las páginas webs pueden prevenir que se realicen scrapeos dentro de su sitio web, salvaguardando la privacidad de sus usuarios. Por ejemplo, se pueden emplear Captchas en el inicio de sesión o un corto tiempo de caducidad para tal inicio de sesión, así como también otros mecanismos técnicos que permitan banear la posibilidad de ejecutar el scraping.

[1] Open Democracy. La mayor filtración de datos personales en la historia de Brasil (2021). Recuperado de: https://www.opendemocracy.net/es/mayor-filtracion-datos-personales-historia-brasil/.

[2] RPP. Migraciones: Fiscalía inició investigación preliminar por filtración de datos personales (2021). Recuperado de: https://rpp.pe/lima/judiciales/migraciones-fiscalia-inicio-investigacion-preliminar-por-filtracion-de-datos-personales-noticia-1364441

[3] Comunicado No. 007-2022-PCM/SGTD/CNSD.

[4] Un ejemplo de ello es que la Asociación de Bancos del Perú (ASBANC) denunció que se vendían datos personales y sensibles de millones de ciudadanos a través de redes sociales, tales como Facebook, Telegram y Whatsapp. Los datos involucrados incluían el  nombre, dirección, documento de identidad, datos de familiares, bienes, deudas y huellas digitales. Fuente: https://larepublica.pe/sociedad/2022/05/20/asbanc-alerta-sobre-filtracion-y-venta-de-datos-personales-robos-estafas-redes-sociales/

[5] Extraído de Russell, S.J.; Norvig ,P (2004). Inteligencia Artificial: Un enfoque Moderno. Segunda edición. Madrid, España; Pearson Educación S.A. Recuperado de: https://luismejias21.files.wordpress.com/2017/09/inteligencia-artificial-un-enfoque-moderno-stuart-j-russell.pdf

[6] Russell, S.J.; Norvig ,P (2004). Inteligencia Artificial: Un enfoque Moderno. Segunda edición. Madrid, España; Pearson Educación S.A. Recuperado de: https://luismejias21.files.wordpress.com/2017/09/inteligencia-artificial-un-enfoque-moderno-stuart-j-russell.pdf

[7] Jingtian Jiang, Xinying Song, Nenghai Yu, and Chin-Yew Lin. Focus: learning to crawl web forums. IEEE Transactions on knowledge and Data Engineering, 25(6):1293–1306, 2012.

[8] Cloudflare. What is data scraping? Recuperado de:  https://www.cloudflare.com/es-es/learning/bots/what-is-data-scraping/

[9] Aukera. Qué es el web scraping. Recuperado de: https://aukera.es/blog/web-scraping/.

[10] Facultad de Estudios Estadísticos – Universidad Complutense de Madrid. ¿Qué es el big data? Recuperado de: https://www.masterbigdataucm.com/que-es-big-data/.

[11] Rob Kitchin, Gavin McArdle. What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets. Recuperado de: https://journals.sagepub.com/doi/pdf/10.1177/2053951716631130.

[12] Ley No. 29733, Ley de Protección de Datos Personales:

Artículo 3. Ámbito de aplicación

La presente Ley es de aplicación a los datos personales contenidos o destinados a ser contenidos en bancos de datos personales de administración pública y de administración privada, cuyo tratamiento se realiza en el territorio nacional. Son objeto de especial protección los datos sensibles (…).

[13] Ley No. 29733, Ley de Protección de Datos Personales:

Artículo 2. Definiciones

Para todos los efectos de la presente Ley, se entiende por:

  1. Datos personales. Toda información sobre una persona natural que la identifica o la hace identificable a través de medios que pueden ser razonablemente utilizados (…).

[14] Decreto Supremo No. 003-2013-JUS, Reglamento de la Ley de Protección de Datos Personales:

Artículo 2.- Definiciones

Para los efectos de la aplicación del presente reglamento, sin perjuicio de las definiciones contenidas en la Ley, complementariamente, se entiende las siguientes definiciones:

  1. Datos sensibles: Es aquella información relativa a datos personales referidos a las características físicas, morales o emocionales, hechos o circunstancias de su vida afectiva o familiar, los hábitos personales que corresponden a la esfera más íntima, la información relativa a la salud física o mental u otras análogas que afecten su intimidad.

[15] Asimismo, en el artículo 2.5 del Reglamento, se define a los “datos personales relacionados con la salud” como aquella información concerniente a la salud pasada, presente o pronosticada, física o mental, de una persona, incluyendo el grado de discapacidad y su información genética.

[16] Se refiere a otorgar el consentimiento sin que medie error, mala fe, violencia o dolo en la manifestación de voluntad del titular de los datos personales. La entrega de obsequios o el otorgamiento de beneficios al titular de los datos personales con ocasión de su consentimiento, no afectarán la condición de libertad, salvo en el caso de menores de edad; sin embargo, el condicionar de la prestación de un servicio, o la advertencia o amenaza de denegar el acceso a beneficios o servicios que normalmente son de acceso no restringido, sí afecta dicha libertad si los datos solicitados no son indispensables para la prestación de los beneficios o servicios.

[17] Implica con anterioridad a la recopilación de los datos o en su caso, anterior al tratamiento distinto a aquel por el cual ya se recopilaron.

[18] Alude a que el consentimiento haya sido manifestado en condiciones que no admiten dudas de su otorgamiento. Tratándose del entorno digital, también se considera expresa la manifestación consistente en “hacer clic”, “cliquear” o “pinchar”, “dar un toque”, “touch” o “pad” u otros similares.

[19]  Decreto Supremo No. 003-2013-JUS, Reglamento de la Ley de Protección de Datos Personales

Artículo 132.- Infracciones

Las infracciones a la Ley No. 29733, Ley de Protección de Datos Personales, o su Reglamento se califican como leves, graves y muy graves y se sancionan con multa de acuerdo al artículo 39 de la citada Ley.

2.Son infracciones graves:

Dar tratamiento a los datos personales sin el consentimiento libre, expreso, inequívoco, previo e informado del titular, cuando el mismo sea necesario conforme a lo dispuesto en la Ley No. 29733 y su Reglamento

[20] Cabe señalar que el supuesto analizado de responsabilidad realizado en el presente trabajo aplica cuando se traten de empresas o personas jurídicas del ámbito privado, mas no de las excepciones del ámbito de aplicación de la Ley y Reglamento, los cuales son, por ejemplo, seguridad pública, defensa nacional y actividades para la investigación penal

[21] Reglamento Europeo de Protección de Datos (GDPR). Artículo 6 – Licitud del tratamiento.

[22]Disponible en:  https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A62010CJ0604&qid=1621456651551

[23]Disponible en: https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=CELEX:62008CJ0005&from=IT.

[24]Disponible en: https://eur-lex.europa.eu/legal-content/ES/TXT/PDF/?uri=CELEX:31996L0009&from=ES.

[25] La Directiva (UE) 2019/790 sobre derechos de autor y derechos afines en el mercado único digital o «Directiva DSM») permite el scraping (reproducción y extracción) de datos de las bases de datos para fines de minería de textos y datos (definida en el considerando 8 como «análisis computacional automatizado de la información en forma digital»), incluso si se les concede protección de derechos de autor o sui generis; sin embargo, no será posible publicar o vender esos datos, ya que puede llegar a ser ilegítimo si viola los derechos de los propietarios de las bases de datos.

Si bien es un gran beneficio para los que realizan scraping, tal excepción se encuentra limitada, pues los propietarios de las bases de datos tienen la posibilidad de restringir la reproducción y extracción de las bases de datos y su contenido. Así,  dicha restricción debe ser visible a terceros, sea bots, crawlers y otros equivalentes. En cualquier caso, tal restricción debería permitir el scraping realizado con fines de investigación científica.

[26] Newsbeezer. Leaked Facebook, Instagram and LinkedIn user data. Recuperado de: https://newsbeezer.com/indonesiaeng/leaked-facebook-instagram-and-linkedin-user-data/

[27] SafetyDetectives. Chinese start-up leaked 400GB of scraped data exposing 200+ million Facebook, Instagram and LinkedIn users. Recuperado de: https://www.safetydetectives.com/blog/socialarks-leak-report/.

[28] Turk, Pastrana, Collier. A tight scrape: methodological approaches to cybercrime research data collection in adversarial environments. Recuperado de: https://bit.ly/3KI7fbP