Webscraping er en af de mest almindelige dataindsamlingsmetoder, men dens lovlighed er stadig et meget omdiskuteret emne. Er webscraping så lovligt? Svaret er ikke så ligetil, men i dette indlæg ser vi på, hvad webscraping er, dets juridiske konsekvenser og bedste praksis. 👀 Lad os dykke ned i det!
Webscraping indebærer udtræk af data fra et websted, og de indsamlede oplysninger eksporteres derefter i et format, der er mere nyttigt for brugeren.
I mere tekniske termer bruger scraperen HTML-, CSS- eller JavaScript-koden/elementerne på en webside og udtrækker alle de data, der er til stede, eller udvælger nogle specifikke oplysninger af værdi. Faktisk giver webscraping dig mulighed for at målrette specifikke oplysninger (f.eks. scrape en Amazon-side for priser, men ikke for produktanmeldelser).
🔍 Generelt udføres webscraping via dedikerede og automatiserede værktøjer, der arbejder hurtigere end at udføre webscraping manuelt.
Selv om webscraping involverer udviklere, da det kan være ret teknisk, er det et værdifuldt værktøj for forskere, journalister, akademikere og andre.
Webscraping kan bruges til:
Ligesom de fleste, der undersøger dette emne, tænker du måske: Er det lovligt at scrape data? Bliv nu ikke for begejstret, for hele emnet er desværre stadig en gråzone.
Webscraping er generelt tilladt, hvor:
Generelt kræver ansvarlig webscraping, at du er forsigtig med gældende servicevilkår, ophavsretligt beskyttede data og persondata (da persondata typisk er beskyttet af love om privatlivets fred).
🔍 Se vores detaljerede guide til, hvad der betragtes som personlige oplysninger i de vigtigste love om beskyttelse af personlige oplysninger.
De vigtigste love om privatlivets fred i EU ( GDPR) og USA ( CPRA) har til formål at beskytte brugernes personlige data og sætte rammer for, hvordan disse data kan bruges.
De henviser ikke til webscraping eller siger, at det er ulovligt. Men de regulerer virksomheders indsamling af persondata, og hvad de kan gøre med dem. Kort sagt – for ja, loven er meget mere kompliceret end som så! – involverer det normalt:
🔍 Kort sagt, hvis dine webscraping-aktiviteter involverer scraping af personlige oplysninger, skal du sørge for, at du overholder lovgivningen om databeskyttelse.
Bemærk, at selv om denne vejledning kommer fra den italienske Garante, er forslagene nyttige for alle lande.
I maj 2024 offentliggjorde Garante en vejledning, der indeholder instruktioner til at forsvare personoplysninger, der er offentliggjort online af offentlige og private enheder som dataansvarlige, mod webscraping i forbindelse med generativ AI-træning. Garante foreslår en række konkrete foranstaltninger, der skal vedtages, herunder:
Ved at træffe disse foranstaltninger, som dog ikke er udtømmende med hensyn til hverken metode eller resultat, kan operatører af websteder og onlineplatforme begrænse virkningerne af scraping, der har til formål at træne generative kunstige intelligensalgoritmer.
Nogle bemærkelsesværdige tilfælde, hvor webscraping er ulovligt, og som du bør være opmærksom på, omfatter enkeltpersoner eller virksomheder, der misbruger webscraping og overtræder servicevilkår eller ophavsretlige normer.
📌 Afgørelse fra den amerikanske Ninth Circuit of Appeals Court – LinkedIn vs. HiQ
LinkedIn indledte en kamp for at forhindre en konkurrent, HiQ, i at skrabe personlige oplysninger fra brugernes offentlige LinkedIn-profiler.
I 2020 fastslog afgørelsen, at CFAA ikke blev overtrådt, da de data, der blev skrabet fra LinkedIn, var offentlige (ikke bag en adgangskodevæg).
📌 Clearview AI Fine
Ansigtsgenkendelsesfirmaet fik en stor bøde for at skrabe millioner af billeder af folks ansigter fra sociale medier.
Det blev erklæret, at Clearview AI behandlede følsomme data uden et gyldigt retsgrundlag. Læs hele historien på vores blog.
✅ Vær forsigtig, hvis du downloader data fra et websted, der kræver, at du logger ind, da det kan betyde, at du har accepteret servicevilkår, som kan forbyde webscraping-aktiviteter.
✅ Sørg for at tjekke webstedets vilkår og betingelser for at sikre, at du ikke er i strid med kontrakten.
✅ Selv om det er offentligt tilgængelige data, skal du sikre dig, at de ikke er beskyttet af ophavsret. Det kan være artikler, videoer og design.
✅ Endelig, og vigtigst af alt, skal du overveje den involverede etik. Selv om en aktivitet ikke er ulovlig, kan den stadig forårsage skade på dit eller andres omdømme.
Du kan beskytte din hjemmeside mod, at dens oplysninger bliver scrapet:
🔒 Tag copyright på dit website, og skriv en copyright-klausul;
🔒 Du bør tilføje begrænsninger for webscraping til dit websteds vilkår og betingelser. Når du gør det, skal du sørge for, at sproget er specifikt og forbyder tredjeparter at scrape oplysninger og bruge dem til f.eks. kommercielle formål.
👋 Sådan gør du det nemt med iubenda-softwareløsninger:
🚀 Brug iubenda’s Terms and Conditions Generator;
🚀 O pret dit tilpassede dokument med vilkår og betingelser;
🚀 Opreten brugerdefineret klausul, eller vælg vores forhåndsudformede klausuler, herunder klausuler om indholdsrettigheder;
🚀 Tilføj nemt en klausul mod skrabning: Acceptabel brug → Personlig klausul om acceptabel brug (liste med specifikke udsagn om acceptable/forbudte anvendelser, der går i dybden med eksempler og udsagn) → Tilføj en liste med begrænsninger for scraping
🚀 Følg vores instruktioner for hurtigt at installere dokumentet på din hjemmeside!
Attorney-level solutions to make your websites and apps compliant with the law across multiple countries and legislations.