El agujero negro del web scraping

Web scraping

18 Abr El agujero negro del web scraping

La obtención de datos es una estrategia clave para múltiples tipos de negocios, desde el sector financiero, pasando por la aeronáutica, hasta el periodismo.

Los datos han sido fundamentales desde hace siglos, pero la revolución actual en este ámbito se debe a que Internet y las nuevas tecnologías pusieron a disposición de cualquiera cantidades ingentes de información, que antes eran imposible de obtener y gestionar.

Sin embargo, no toda la información de Internet está disponible en formatos accesibles y reutilizables. Y para solucionar este problema surgió la técnica web scraping y las herramientas para llevarlo a cabo.

¿Qué es el web scraping?

Se trata de una técnica de extracción de datos que están publicados en línea, mediante el uso de robots o bots, que escanean las webs y obtienen los datos, ya sea de toda la página o de los apartados que el usuario indique. De esta manera, se pueden trasladar a documentos en formatos accesibles y reutilizables.

Siguen la siguiente estructura básica:

  • El rastreador recorre las URLs que conforman el sitio. Parte de la URL inicial y, según la ruta que esta indique, pasa a la siguiente URL, como si estuviera recorriendo un árbol.
  • Una vez que ha recorrido las URL y ha reconocido el mapa de la web comienza a recorrer página a página extrayendo los datos.
  • Acumula los datos obtenidos en un repositorio, pero aún no son reutilizables.
  • El software de scrapeo está programado para analizar esos datos, eliminar los inservibles o duplicados y extraer los que puedan servir.
  • Los datos identificados como útiles son trasladados, por ejemplo, a tablas de Excel donde ya pueden ser reutilizados.

¿Es legal el web scraping en España?

El web scraping es una técnica informática completamente legal en España, ya que consiste en la obtención de información publicada en la web. No obstante, esta técnica sí puede ser utilizada de forma ilegal. La violación de las leyes se produce o bien cuando se usan técnicas informáticas adicionales al software de web scraping para superar filtros de seguridad y acceder a datos que no son de carácter público o cuando, pese a haber obtenido los datos de forma legal, se utilizan con un fin ilícito.

Pese a la legalidad de esta práctica, en ActionsDATA seguimos las recomendaciones de la Agencia Española de Protección de Datos, en su Informe 0342/2008, donde indica que las páginas web no podrán ser consideradas en ningún caso fuentes accesibles al público, al no figurar en el listado exhaustivo y limitativo del artículo 7 del Real Decreto 1720/2007, de 21 de diciembre, por el que se aprueba el Reglamento de Desarrollo de la LOPD. Esto quiere decir que aunque los datos sean públicos y cualquiera pueda acceder a los mismos, éticamente, estos no deberían utilizarse para cualquier finalidad incluso aunque esta sea legal. Esta práctica puede ir en contra del interés del autor de estos datos o no contar con el consentimiento de su titular.

¿Por qué es polémico?

En torno al web scraping han surgido múltiples denuncias tanto por violación de derechos de autor, como por acceder a información privada o por competencia desleal.

En España, por ejemplo, Ryanair demandó a Atrápalo por scrapear su web para obtener datos sobre sus vuelos y ofertarlos en su propia web. Pero, el Tribunal Supremo dictó su sentencia a favor del buscador de vuelos, declarando que la técnica de scraping era legal.

En Estados Unidos hubo un caso muy polémico, en el que el activista Andrew “Weev” Auernheimer fue arrestado por obtener, mediante web scraping, cientos de miles de direcciones de e-mail de usuarios de la compañía telefónica AT&T, los cuales habían sido publicados por error de la compañía en un apartado de su web.

Aunque el gobierno estadounidense defendió desde el inicio su actuación al arrestar a Weev, numerosos activistas y defensores de la libertad en Internet, hicieron campaña contra su encarcelamiento. Estos alegaban que era información que AT&T había hecho pública y Weev simplemente la había recabado.

Sin embargo, Weev había usado una técnica informática cuestionada. El sitio de AT&T donde se habían publicado los datos solo era accesible a través de un IPAD. Para poder scrapear los datos, Weev desarrollo un programa para engañar a la web de AT&T, para que entendiera que se estaba accediendo desde un IPAD, en lugar de un ordenador. Y, por esto, se consideró la obtención de datos ilegal.

Weev fue condenado por conspirar para acceder a un sistema informático de manera ilegal y por robo de datos de carácter privado. Pero, cuando estaba cumpliendo su condena en cárcel, fue absuelto ya que, tras un recurso de sus abogados, la Corte consideró que no había accedido mediante el uso fraudulento de claves, y que los datos habían sido hechos públicos por AT&T.

En definitiva, el web scraping es una herramienta útil para realizar investigación y análisis de mercado, pero la complejidad de Internet provoca que su utilización cause polémica, como evidencian los dos casos mencionados.

Te recomendamos:

Directiva de Copyright ¿y ahora qué?

(R)evolución tecnológica de procesos

No hay comentarios

Escribe tu comentario