HiQ Labs vs Linkedin – czy crawling i scraping danych osobowych jest dozwolony?

Paweł Tobiczyk

Artykuł bazy wiedzy, 14 września 2017

Wszystkie teksty umieszczane na Linkedin lub naszych stronach internetowych są naszą opinią. Prosimy nie traktować ich jako porady prawnej w konkretnej sprawie, ponieważ konkretna sprawa zawsze wymaga indywidualnej analizy.

Wyrok w sprawie HiQ Labs vs. LinkedIn (o którym pisaliśmy, link poniżej), w którym District Court for Northern District of Carolina nakazał Linkedinowi udostępnienie danych użytkowników swojego portalu na rzecz HiQ Labs, nie będzie miał raczej istotnego znaczenia dla podejścia do data scrapingu oraz crawlowania danych ze stron internetowych.

https://www.linkedin.com/pulse/hiq-labs-vs-linkedin-nowym-otwarciem-dla-data-scrapingu-piotr-galka/

W szczególności gdy w grę wchodzi używanie internetowych botów do pozyskiwania danych osobowych użytkowników serwisów internetowych. Europejskie prawo o ochronie danych osobowych istotnie różni się bowiem od amerykańskich regulacji.

Pozyskiwanie danych osobowych ze źródeł powszechnie dostępnych

Spór w sprawie przeciwko LinkedIn dotyczył publicznych danych użytkowników (czyli takich danych, które widoczne są dla każdego użytkownika Internetu, niezależnie od tego, czy posiada własne konto w serwisie LinkedIn). Tworzenie baz danych w oparciu o takie dane już teraz nie jest na gruncie prawa europejskiego zasadniczo zabronione. Podmiot, który decyduje się na takie działania w celach komercyjnych musi jednak spełnić szereg wymagań.

Przepisy prawa z zakresu ochrony danych osobowych nie regulują wprost data scrapingu oraz crawlingu. Zastosowanie znajdują więc w tym przypadku ogólne zasady przetwarzania danych osobowych. W przypadku gdy podmiot stosujący tego rodzaju technologie, wykorzystuje pozyskane dane osobowe dla własnych celów – jak w przypadku HiQ Labs – powinien być na gruncie przepisów o ochronie danych osobowych traktowany jako ich administrator. To rodzi określone konsekwencje, które w pewnych przypadkach mogą ograniczyć lub nawet wykluczyć możliwość legalnego przetwarzania pozyskanych w ten sposób danych.

Pozyskiwanie danych z publicznych stron internetowych w celu wzbogacania rekordów dotyczących konkretnych osób jest przetwarzaniem ich danych osobowych. Przetwarzanie danych jest dozwolone wyłącznie wtedy, gdy administrator może wykazać podstawę dla takiego działania. Może nią być np. zgoda osoby, której dane są pozyskiwane albo prawnie usprawiedliwiony interes administratora.

Podmioty z branży tzw. „drapaczy danych” z reguły pozyskują i zestawiają ze sobą dane w oparciu o tę drugą przesłankę. Takie działanie budzi jednak pewne wątpliwości.

Czy można bowiem uznać, że pozyskiwanie danych osobowych z publicznego źródła – np. portalu społecznościowego czy publicznego rejestru, takiego jak CEIDG – może służyć przetwarzaniu nie mającemu żadnego związku z celem funkcjonowania bazy, będącej źródłem danych?

Czy przetwarzanie danych w celu, którego osoba korzystająca z portalu lub wpisana do rejestru nie może się spodziewać nie narusza w sposób nieuzasadniony jej praw i wolności, co wykluczałoby możliwość powołania się na przesłankę prawnie usprawiedliwionego interesu?

Odpowiedź na te pytania może być odmienna w każdym konkretnym przypadku – wiele będzie zależeć od tego, jakie dane są zbierane i w jakim celu mają być wykorzystane.

Co ważne, nawet jeśli takie działania okażą się legalne, należy pamiętać, że administrator musi co do zasady poinformować osoby, których dane pozyskał m.in. o swojej nazwie i siedzibie, celach przetwarzania oraz – co w tym przypadku szczególnie istotne – źródle pochodzenia danych. Zwłaszcza ten ostatni wymóg może stanowić istotne wyzwanie dla branży – technologia stosowana przez podmioty zajmujące się data scrapingiem oraz web crawlingiem musi bowiem umożliwiać identyfikowanie źródła (czyli np. administratora konkretnego portalu, z którego pochodzą dane).

Ponadto, informowanie osób, których dane dotyczą o wykorzystaniu ich dostępnych publicznie danych dla celów komercyjnych może skutkować masowymi skargami do organu nadzorczego.

Czy coś się zmieni, gdy zacznie obowiązywać RODO?

W kontekście samego data scrapingu oraz crawlingu zmiany nie będą przełomowe. Ogólne rozporządzenie o ochronie danych osobowych (RODO), które zacznie być stosowane od 25 maja 2018 r. i zastąpi obecne przepisy z zakresu ochrony danych osobowych, również nie odnosi się bezpośrednio do takich działań. Istotne zmiany dotyczą jednak konsekwencji, jakie mogą spotkać podmioty, które wykorzystują technologię data scrapingu oraz web crawlingu w sytuacji, gdy takie działania zostaną uznane za niezgodne z RODO. Możliwość nałożenia bardzo wysokich kar finansowych – do 4% obrotu lub 20 000 000 euro – sprawia, że podmioty te powinny wnikliwie przeanalizować swój model biznesowy pod kątem zgodności z nowymi regulacjami.

Ochrona baz danych

Niezależnie od ryzyka związanego z przetwarzaniem danych osobowych nie należy zapominać, że wykorzystywanie technologii opartej na scrapingu i crawlingu danych może naruszać także inne regulacje prawne. Działania takie prowadzą do uzyskiwania dostępu oraz kopiowania części baz danych należących do innych podmiotów (często po uprzednim przełamaniu tzw. CAPTCHA, co samo w sobie może zostać uznane za nielegalne). W pewnych przypadkach działania takie mogą zostać uznane za naruszenie tzw. praw sui generis do bazy danych, co rodzi ryzyko poniesienia odpowiedzialności prawnej, w tym odszkodowawczej.

Zobacz artykuły związane z tematyką RODO

RODO, the day after

Projekt ePrivacy

Przetwarzanie danych osobowych w procesie rekrutacji