Web kazıma çoğunlukla yasaldır.
Araba kullanmak da öyle... ta ki yasaları çiğneyene kadar.
Ancak, web kazıma konusunda kurallar, trafik kanunları gibi bir konuda olduğu kadar net değildir.
Bu makale, yasallığı, nasıl çalıştığı ve web kazıma ile ilgili bazı yaygın yanlış anlamalar da dahil olmak üzere web kazıma hakkında bilmeniz gerekenleri kapsayacaktır.
Web kazıma nedir?
Web kazıma, internetten bilgi almak için kullanabileceğiniz bir veri toplama tekniğidir.
For a simple introduction to web scraping, this blog post lays the groundwork.
In a nutshell, automated scripts or programs gather data by crawling, APIs, HTML parsing tools, and screen capturing software.
Bir HTML kaynak kodunu takip ederek, yapılandırılmamış verileri çıkararak ve bunları yapılandırılmış verilere ayrıştırarak çalışır. Web tarayıcısı, her web sayfasının nasıl gezilmesi gerektiği, hangi öğelerin çıkarılması gerektiği ve bu sonuçların kendi uygulamaları içinde nereye gitmesi gerektiğine ilişkin talimatları izler.
Özünde bu, bilgisayar programlama dili talimatları yazmak ve bir HTML belgesinin hangi bölümlerinin ayıklama için belirli içerik türlerini içerdiğini anlamak anlamına gelir. Metin dizeleri, sayılar/tarihler/para birimi değerleri, sosyal medya bağlantıları vb. gibi...
Neden web kazıyıcıları kullanılmalı?
Karar vermeye yardımcı olan veriler değerlidir. Bu nedenle, otomatik veri toplamanın tüm nedenlerini sıralamaya kalksam uzun sürer. Ancak burada birkaç yaygın örnek var:
- Rakiplerin web siteleri veya çevrimiçi hizmetleri hakkında veri toplayarak onlara karşı avantaj elde edin
- Bağlantı analizi yoluyla arama motoru sıralamalarını iyileştirin. Örneğin, web tarayıcıları, kullanıcıların belirli konulara nasıl tepki verdiğine dair değerli bilgiler sağlayan sosyal medya gönderileri arasındaki bağlantıları takip edecek şekilde ayarlanabilir.
- Büyük miktarda yapılandırılmamış metni, analiz etmeyi kolaylaştıran elektronik tablolar gibi yapılandırılmış bir biçimde düzenleyin.
- Birçok farklı web sayfasından çeşitli içerik türlerini tek bir yerde bir araya getirerek kullanıcıların web'de arama yapmaları ve gezinmeleri için web portalları oluşturun.
- Video, ses, görüntü vb. gibi API'ler veya formlar aracılığıyla kullanılamayan verileri toplayın....
- Belirli bir konunun veya rakibin web sayfalarını değişiklikler için izleyin ve diğer uygulamalardaki verileri otomatik olarak güncelleyin
Neden kötü şöhret?
Web kazıma, veri çıkarma işlemi hedefleri yöneten herhangi bir kural veya yasayı ihlal etmeden gerçekleşiyorsa zararsızdır. Ancak durum her zaman böyle değildir. Kötü niyetli kişiler veya bilgisayar korsanları web kazıma yöntemini her zaman kasıtlı olarak kullanmaktadır. Tüm ihlaller arasında veri hırsızlığı en yaygın olanıdır.
Site sahibini kızdırmak için hacker olmanıza gerek yok.
Web kazıma işleminde, bilgi edinmek için bir web sitesine birçok istek gönderirsiniz. Tipik bir kullanıcıdan çok daha fazla. Siteyi dikkate almadan, büyük bir yüke neden olabilir ve bazı durumlarda bir sunucuyu çökertebilir.
Bu da pahalı olabilir.
DDOS saldırıları aşırı yüklenme nedeniyle gerçekleşir, bu nedenle istek-mutlu web kazıyıcılarının hoş karşılanmaması şaşırtıcı değildir.
Web kazıma çok faydalı olsa da, yasal sınırlar içinde kalmak çok önemlidir, böylece herhangi bir yasayı ihlal etme riskiniz olmaz!
Bununla birlikte, web kazıma yazılımının telif hakkı ihlali oluşturup oluşturmadığına dair nihai bir karar (en azından ABD'de) bekliyoruz. Bazı mahkemeler buna karşı karar verirken, diğer mahkemeler yasallığını destekliyor.
Dolayısıyla, bu mesele çözülene kadar tedbirli olmalısınız.
Web kazıma davaları
Mahkeme davalarından çıkan kararlar, gelecekteki davalar için yasal emsal teşkil eder. Şu an itibariyle, web kazımanın yasallığı biraz belirsiz görünüyor, ancak hangi kararların alındığından haberdar olmak iyidir.
Telif hakkı ihlali veya Bilgisayar Dolandırıcılığı ve Kötüye Kullanımı Yasası (CFAA) gibi gelecekteki kazıma yasal talepleri için zemin hazırlayan amiral gemisi kazıma davalarına odaklanacağım.
Facebook vs. Power Ventures (2011)
Bu, Google ile gizlilik politikaları açısından oldukça tartışmalı birçok anlaşmazlıktan biri. Facebook, Power Ventures'a kullanıcılarının verilerini topladığı ve kendi web sitesinde gösterdiği için dava açtı.
Karar, Power Ventures'ın CAN-SPAM Yasası, CFAA, DMCA ve telif hakkı yasalarını ihlal ettiğine dair şikayette bulunan Facebook'a gitti.
Associated Press and Meltwater (2013)
Mayıs 2010'da Associated Press, haber aramak için web tarama teknolojisini kullanan Meltwater adlı bir dijital medya izleme şirketine dava açtı.
A.P. çalışmaları çoğaltıldığı için kendilerine ödeme yapılmadığını ve bu sayede ücretsiz içeriğe erişebildiklerini iddia etti.
Bu davada, web kazıyıcıları, A.P.'nin çalışmasını ücretsiz hale getirerek değerini düşürdükleri için yasadışı ilan edilmiştir.
Ryanair v. PR Aviation (2015)
P.R. Aviation, Ryanair'in çevrimiçi site fiyatlarını yakalamak için ekran kazıma yöntemini kullanan bir uçuş fiyatı toplama hizmetidir. 15 Ocak'ta Avrupa Birliği Adalet Divanı, hem web sitesi veritabanı operatörlerini hem de "ekran kazıma" işlemini gerçekleştirenleri (fiyat karşılaştırma siteleri gibi) önemli ölçüde etkileme potansiyeline sahip bir karar yayınladı.
Karar, site sahiplerinin sözleşmeye dayalı anlaşmalar yoluyla web sitelerinin şartlarını uygulayabileceklerini göstermektedir. Bu, kamuya açık verilerin bile korunabileceği anlamına geliyor.
HiQ Labs v. LinkedIn (2019)
HiQ laboratuvarları, çalışanların bakış açılarını öğrenmek için işletmeye araçlar sunmak üzere herkese açık LinkedIn profillerinden veri toplayabilir. HiQ mahkemeden tedbir kararı talep etti. Bu talep kabul edildi ve LinkedIn'in HiQ'ya karşı C&D mektupları göndermeyi ve engelleme tedbirleri uygulamayı durdurmasına yol açtı.
LinkedIn bir gün sonra CFAA'nın 2. Bölümünü ihlal ettiğini söyleyerek kararı bozdu. Karar, kazıma şirketlerinin lehine oldu ve yasanın uygulanabilirliğine ilişkin yakın zamanda benimsenen mahkeme uygulamasının kesinliğini yeniden teyit etti.
Veri kazıma konusunda başınız gerçekten derde girebilir mi?
Kısa cevap evet! Web sitelerinde içerik sahibi olan şirketleri, kazıma botları veya diğer otomatik yazılım programları gibi üçüncü tarafların yetkisiz erişimine karşı koruyan yasalar vardır.
Uzun cevap yaşadığınız yere göre değişir, ancak genel olarak bilmeniz gereken en az beş yasal konu vardır:
- Telif hakkı ihlali
- Kişiliğe veya ticari uygulamalara hakaret
- Özel hayatın gizliliği/aleniyet hakkı
- Web içeriğinin kötüye kullanılması (çalınması)
- Web içeriğine erişmek için bilgisayar korsanlığı teknikleri
Bunlar, veri toplamayı sürdürürken farkında olmanız gereken en kritik yasal konulardır. Ancak, bu kapsamlı bir liste değil, nerede yaşadığınıza ve söz konusu web sitesinin kime ait olduğuna bağlı olarak değişebilecek genel bir özettir.
Coğrafi konumunuz hakkında daha ayrıntılı bilgi için, lütfen yetki alanınızdaki internet hukuku konusunda uzman bir avukata danışın. Bu makale profesyonel hukuki tavsiye niteliğinde DEĞİLDİR!
Bu yasalardan herhangi birini potansiyel olarak ihlal etmekten kaçınmak için, hangi bilgilerin herkese açık ve özel olduğundan ve web sitelerinde web hasadı yapılmasını nasıl istediklerinden emin olmalısınız. Örneğin bir web formu veya API anahtarı aracılığıyla.
Web siteleri genellikle bunun gibi yasal bildirimler yayınlar:
"Bu site, sahiplerinden izin alınarak kullanılmış telif hakkıyla korunan materyaller içerebilir." Böyle bir uyarı görürseniz, bu sayfanın sahibinin önceden yazılı izni veya ilgili taraflar arasında bir anlaşma olmadan web kazımasına izin vermediği anlamına gelir.
Aynı şey, kazıyıcı botlardan hiç bahsedilmemesi durumunda da geçerlidir. Web yöneticileri web sitelerinde veri kazımayı yasaklamış olabilir. Bu gibi durumlarda, sahip(ler)inden yazılı izin almadan bunlara erişmeye çalışmamalısınız. Önce izin istemek her zaman en iyi uygulamadır!
Web kazıma ile ilgili yasalar
Bazı mahkeme davalarını ve bunlardan nasıl özel yasalar çıkabileceğini ele aldık. İşte bir sonraki web kazıma projelerinize başlamadan önce göz önünde bulundurabileceğiniz ihlallerin bir özeti:
- The Digital Millennium Copyright Act (DMCA) is a U.S. law that makes using web scrapers illegal on websites that you don’t own. For example, news sites or any site with user-generated content such as Facebook groups; however, this does not apply if your use falls under fair use.
- Bilgisayar Dolandırıcılığı ve Kötüye Kullanımı Yasası (CFAA), güvenlik önlemlerini aşmanız veya web'e kasıtlı olarak izinsiz erişmeniz durumunda web kazımayı yasa dışı kılan bir ABD yasasıdır. Ancak bu, web verilerini ücretsiz olarak çekmenize olanak tanıyan açık kaynaklı, halka açık, ticari olmayan araçlar olan uygulamaları kullanmak için geçerli değildir. Bu tür web kazıma araçları adil kullanım kapsamına girer, bu nedenle Facebook grupları gibi kullanıcı tarafından oluşturulan içeriğe sahip web sitelerinde kullanılmaları tamamen yasaldır.
- Gayrimenkule izinsiz giriş, dijital mülkiyeti haksız yere kullanmak için kullanılan yasal bir terimdir. İzinsiz veri toplamak için bir web kazıyıcı kullanıyorsanız bu web kazıma olabilir.
- Hizmet şartları/gizlilik politikaları belirli sayfalarda web kazımasını yasaklayabilir, bu nedenle veri kazımaya karar vermeden önce bunları mutlaka kontrol edin.
- İçerik sahipleri, çalışmalarının izinsiz kopyalandığını düşündükleri için telif hakkı ihlali iddiasında bulunabilirler.
- Web kazıma yasadışı ise web kazıyıcılar ISP'ler (İnternet Servis Sağlayıcıları) tarafından engellenebilir.
- Web sitesi sahibi, yüksek tarama oranı sunucunun çökmesine neden olan veya fikri mülkiyetini ihlal eden herhangi bir şirkete karşı dava açabilir. Zararın herhangi bir şekilde verilmediğinden emin olun. Bu alanın koşullarına ve ürünlerine herhangi bir zarar verirseniz sorumlu tutulamazsınız.
Veri kazırken konut proxy 'lerinin sizi nasıl kurtarabileceğini öğrenin.
Kullanım Koşulları ve kazıma
Web siteleri veri kazımayı yasal olarak kısıtlamalı mı? Bu doğru olabilir. Web sitesi operatörlerini içeriklerine erişmek için kaçınılmaz sözleşmeler yapmaktan alıkoyan hiçbir şey yoktur.
Bu hükümler gerçekten uygulanabilirliği kanıtlayacak mı? Sözleşmelerin uygulanabilirliğinin ardındaki hukuki teori oldukça karmaşıktır. Yine de, tedavüldeki bazı sözleşmelere göz atmaya değer.
Browsewrap anlaşmaları
Sözleşmeler genellikle ana sayfada veya açılır pencere olarak bulunabilir. Yasal teoriler genellikle bu tür sözleşmelerin yasal değerini göz ardı eder. (Herkes açılır pencerelere izin vermez)
Bununla birlikte, Wikipedia'da browsewrap anlaşmaları lehine karar veren iyi karşılanmış vaka çalışmaları vardır.
Clickwrap anlaşmaları
Clickwrap, mahkemelerin istemesi halinde uygulanması gereken dürüst ve makul bir sözleşmedir. Bu tür bir sözleşme çevrimiçi mağazalarda ve kayıt formlarında yaygın olarak kullanılmaktadır. Clickwrap sözleşmesi, kullanıcının yalnızca göz atmasından ziyade bir eylemde bulunmasını gerektirir.
Ryanair davasından bir örnekle kanıtlandığı üzere, mahkemeler bu kararları kolaylıkla uygulamaktadır.
Peki web kazıma yasal mı?
Çoğunlukla, evet!
Web kazıma, işlerini ekstra kaynaklarla veya pazar araştırmalarında yeni içgörülerle büyütmek isteyen şirketler için inanılmaz bir araçtır. Web'de, önceden kullanım koşullarında sıkı bir şekilde düzenlenmediği sürece her zaman kamu erişimi için ücretsiz kalması gereken birçok içerik türü vardır.
Kazımadan önce kendinize sormanız gereken 6 soru
Daha uyumlu olmak için web kazıma etiğiniz hakkında kendinize bu 6 pratik soruyu sorun.
Telif hakkıyla korunan verileri mi kazıyorsunuz?
İnternet içeriğinin çoğu bir tür ticari marka haklarına tabidir. Müzik, haberler, bloglar, tezler, resimler, dergiler, veritabanları ve logolar potansiyel olarak telif hakkına tabidir.
Kopyalanan materyalin veya kazınan verilerin sorumsuzca kullanılması telif haklarını ihlal eder. Bu, pek çok yargı alanında etik temelli bir internet kazıma olarak değerlendirilebilir. Ancak bu, başka bir kaynaktan kopyalanan herhangi bir verinin kazınması veya yasa dışı olarak dağıtılması anlamına gelir. Bazı durumlar, analiz amacıyla telif hakkıyla korunan içeriğin kazınmasını gerektirir. Bu gibi durumlarda, bunları kullanma şeklinizi göz önünde bulundurmalısınız.
Kamuya açık olmayan verileri mi kazıyorsunuz?
Web siteleri genellikle bilgilerini serbestçe erişilebilir tutar. Herkese açık veriler güvenli olduğu sürece kazınabilir.
Herkese açık olmayan veriler, web üzerinde herkesin erişemeyeceği verilerdir. Veriler, erişmek için oturum açmanız gereken sayfalardan geliyorsa, kamuya açık değildir.
Kişisel verileri mi kazıyorsunuz?
Farklı yargı bölgeleri kişisel verilere erişim ve kullanım konusunda farklı düzenlemelere sahiptir. Bazı ABD eyaletlerinde kişisel verileri kazımakta bir sorun olmasa da, Kaliforniya'da başınız biraz derde girebilir. AB kişisel bilgiler konusunda çok hassastır. Bu nedenle, bu tür verileri kazımadan önce Veri Koruma Yönetmeliklerini (GDPR) gözden geçirmek isteyebilirsiniz.
Sürünme hızı tolere edilebilir mi?
Web sitelerini kazımak sunucularına aşırı yük bindirebilir ve onları çökertebilir. Çoğu web sitesi, sahip oldukları herhangi bir robot.txt dosyasında bir "tarama gecikmesi" yönergesi önerir. Sayfanın tarama gecikmesi yönergesini belirtmediğini varsayalım. Bu durumda, ortalama istek süresi mümkün olan en yüksek oranda 20 saniyedir.
Kullanım koşullarına uyuyor musunuz?
ToU sözleşmeleri göz atma veya tıklama sözleşmeleri olabilir. Tıklama sözleşmeleri, kullanıcının düğmelere tıkladığı sözleşmelerden oluşur ve göz atma sözleşmeleri herhangi bir kullanıcı eylemi gerektirmez.
Belirtilen tüm şartlara uyarsanız, web kazıma faaliyetlerinizle ilgili hiçbir sorun yaşamazsınız.
Robots.txt dosyası ile uyumlu musunuz?
Robots dışlama protokolü, web robotları için web standardıdır. Robots.txt, bir web sitesinin hangi bölümlerini tarayabileceğinizi ve dizine ekleyebileceğinizi, hangilerinin hariç tutulması gerektiğini söyler.
Sonuç
Web verilerini kazırken, telif hakkı yasalarının ve herhangi bir içeriğin ne kadar hızlı taranması gerektiğine ilişkin kullanım şartları anlaşmalarının farkında olarak yasal sınırlar içinde kaldığınızdan emin olun. Ayrıca özel bilgilere erişmekten de kaçınmanız gerekir - özellikle de bu kişisel verilerse.