Web kazıma için ne tür bir dosya formatı kullanıyorsunuz? Cevap biraz karmaşıktır, bu nedenle bu kılavuz sizin için en yaygın türleri basitleştirmektedir.
Hiç bir web sitesinin kaputunun altına baktınız mı? Klavyenizde F12 tuşuna basmayı deneyin (korkmayın).
Chrome kullanıyorsanız, geliştirici araçları açılır ve tüm bu okunması kolay metnin altında yatan karmaşıklığa bir göz atmanızı sağlar.
Bunlar aslında web sitelerinden kazıyacağınız şeyler.
JavaScript, hypertext markup language, PHP ve bilgisayarların veri aktarmak ve görüntülemek için kullandığı tonlarca diğer dil.
Bu yazıyı, web'i kazımak için bilmeniz gereken dilleri daraltma girişimi olarak düşünün.
Dosya formatı nedir?
Bir dosya biçimi, bir programa içeriğinin nasıl görüntüleneceğini ve saklanacağını söyleyen yapısal bir haritadır. Dosyanın ikili olup olmadığını belirtir ve verilerin nasıl düzenleneceğini gösterir; örneğin CSV düz metni tablolar halinde saklar.
Dosya uzantısına bakarak dosya formatının türünü belirleyebilirsiniz.
Örneğin, bir dosyayı CSV formatında "belge" olarak kaydederseniz, dosya "belge.csv" olarak görünür. Açtığınızda, verileri tablo biçiminde görebilirsiniz.
Elektronik tablo dosya biçimi nedir?
Bir elektronik tablo, bir belgenin hücre ızgarasını satırlar ve sütunlar halinde düzenlemek ve etiketlemek için sayılar ve harfler kullanır. Bir elektronik tablo dosya biçimi, bu hücrelerdeki verilerin düzenlenmesi ve depolanmasıdır.

Bazı yaygın elektronik tablo dosya biçimleri Virgülle Ayrılmış Değerler (.csv), Microsoft Excel Elektronik Tablosu (.xls) ve Microsoft Excel Açık XML Elektronik Tablosu'dur (.xlsx).
İkili ve metin dosya formatları arasındaki fark nedir?
Hiç Not Defteri'nde bir jpeg açmayı denediniz mi?

Tam bir karmaşa.
Bunun nedeni, jpeg'in insanlar tarafından okunamayan ikili bir dosya biçimi olması ve açmak için bir bilgisayara ihtiyaç duymasıdır. Öte yandan metin dosyası formatları insanlar tarafından okunabilir.
İkili dosyaların aktarımı daha hızlıdır çünkü hiçbir şeyi ayrıştırmanız gerekmez. Dezavantajı ise ikili dosyaları kolayca düzenleyememenizdir. Eski ve yeni okuma+yazma işlevlerini eklemeniz ve dosyaya bir sürüm numarası yerleştirmeniz gerekir.
Bir metin dosyasını istediğiniz zaman sorunsuz bir şekilde düzenleyebilirsiniz, ancak dosyaları düzenlemek işlevselliği yavaşlatır.
Doğru dosya formatının seçilmesi.
Bir veri toplama projesine başladığınızda, formatı, nasıl sunmak istediğinizi ve nasıl saklayacağınızı düşünmeniz gerekir.
İşte diğer bazı hayati faktörler:
- Siz ve müşterileriniz genellikle hangi formatları kullanıyorsunuz?
- Hangi yazılım donanımınızla uyumlu?
- Verilerinizi nasıl analiz etmeyi, sıralamayı ve depolamayı planlıyorsunuz?
- Hangi dosya formatlarını paylaşmak en kolay?
- Gelecekte verilerinizi nasıl açacak ve okuyacaksınız?
Web Kazıma için Popüler Veri Formatları
Sayısız veri biçimi vardır. Bazıları ORC ve Parquet gibi uzun süreli depolama için daha uygunken, diğerleri bilgisayarlar arasında veri aktarımı için daha iyidir.
Web kazıma için verileri bulabilmek, toplayabilmek, analiz edebilmek ve depolayabilmek istersiniz.
Virgülle Ayrılmış Değer dosya biçimi (.csv)
En yaygın format CSV formatıdır - çoğu kişi bunun nasıl çalıştığını bilir.
CSV iki boyutlu veriler (satırlar ve sütunlar) için iyi çalışır. Yine de, karşılaştığımız birçok veri çok boyutludur ve iki boyutlu bir elektronik tabloda iyi çalışmaz.
CSV'nin bir dezavantajı, CSV'deki her satır için sütun sayısındaki değişikliklere karşı esnek olmamasıdır.

Microsoft Excel Open XML dosya biçimi (.xls veya .xlsx)
Excel, insan tarafından okunabilir verileri işlemek için iyi bir seçenek olan bir elektronik tablo dosyası biçimidir. Veriler düz (iki boyutlu) olmalıdır ve bu formatı daha küçük veri setleri veya keşif analizleri için kullanmak daha iyidir.
Excel dosyaları ayrıca grafikler, çizelgeler, biçimlendirme, formüller ve resimler gibi birçok ekstra bilgi içerir.
XLS ve XLSX arasında küçük bir fark vardır. Temel olarak, XLS 1997 ve 2003 yılları arasında Excel için varsayılan dosya biçimiyken, XLSX 2007'den itibaren en yeni dosya biçimidir.

JavaScript Nesne Gösterimi (.json)
JSON is a widely-adopted lightweight format. As a text-based tool, it’s easy for humans to read and write, but it can be challenging to read if there are many nested fields. It is easy for machines to parse as well.
JSON küçük veri setleri, açılış verileri veya API entegrasyonu için harikadır. Büyük miktarda veriyi işlemeniz gerekiyorsa, daha verimli bir formata dönüştürmeniz daha iyi olur.
Çok boyutlu ve yarı yapılandırılmış verileri kolayca işleyebilir ve herhangi bir alanı kolayca ekleyebilir veya kaldırabilirsiniz.
Çoğu veritabanı ve dil, JSON'u içe ve dışa aktarmak için hazır kütüphaneleri destekler veya bunlara sahiptir.

HyperText Markup Language dosya biçimi (.html)
İşaretleme dili, işaretlediği görünür sayfa içeriğine talimat veren görünmez harf ve sembollerden oluşur. Başka bir deyişle, HTML'i web sayfası yapısını etiketlerle (harfler ve semboller) açıklayarak tanımlamak için kullanırız.
Bir çerçeveden kendi biçimlendirme dilinizi oluşturabileceğiniz XML'in aksine, kendi HTML etiketlerinizi oluşturamazsınız. HTML önceden tanımlanmış bir dizi komutla birlikte gelir.

Genişletilebilir İşaretleme Dili dosya biçimi (.xml)
XML, bilgisayarlar arasında veri aktarmak için kullanabileceğimiz bir başka işaretleme dilidir. HTML gibi, hem insanlar hem de bilgisayarlar tarafından okunabilen metin tabanlı bir dosya formatıdır.
Temel fark, özel komutlar oluşturabildiğiniz için web sayfası yapılarını tanımlamada daha fazla esnekliğe sahip olabilmenizdir.

Web kazıma için uygun dosya formatı nedir?
CSV daha popüler olsa da, web kazıma için en evrensel ve esnek format JSON'dur. Diğer formatlar daha fazla zorluğa ve özelleştirmeye sahiptir, bu da onları genellikle daha fazla kaynak tüketen hale getirir.
CSV dosyalarını Microsoft Excel elektronik tablolarında, genellikle dosyalara sağ tıklayıp Excel'de açarak kolayca görüntüleyebilirsiniz. Bu, verileri düzenlemek ve sunmak için idealdir.
We hope this adds some context to your data collection strategy. If you’re ready for more, you can begin learning how to choose the right web scraping tool for your projects.


