您使用哪種檔案格式進行網頁抓取?答案有點複雜,因此本指南為您簡化了最常見的類型。
你有沒有看過網站的 幕後 ?嘗試按鍵盤上的 F12(不要驚慌失措)。
如果您使用的是Chrome,則會彈出開發人員工具,讓您一瞥所有這些易於閱讀的巧合背後的複雜性。
這是您實際上從網站上抓取的內容。
JavaScript,超文本標記語言,PHP以及計算機用於傳輸和顯示數據的大量其他語言。
將這篇文章視為嘗試縮小您需要瞭解的語言以抓取網路。
什麼是檔案格式?
檔案格式是一種結構圖,它告訴程式如何顯示和存儲其內容。它指定檔是否為二進位檔,並顯示如何組織數據,例如,CSV 將純文字存儲在表中。
通過查看檔案擴展名,您可以識別檔案格式的類型。
例如,如果將檔另存為 CSV 格式的「文件」 則該文件將顯示為「文件.csv」。打開它時,可以以表格形式查看數據。
什麼是電子表格檔格式?
電子表格使用數位和字母將文檔的儲存格網格組織起來並標記為行和列。電子表格檔格式是這些儲存格中數據的組織和儲存。

一些常見的電子錶格檔格式包括逗號分隔值 (.csv)、Microsoft Excel 電子錶格 (.xls) 和Microsoft Excel Open XML 電子表格 (.xlsx)。
二進位檔格式和文本檔格式有什麼區別?
你有沒有嘗試過在記事本中打開 jpeg ?

一團糟。
這是因為 jpeg 是一種人類無法讀取的二進位檔格式,需要計算機來解壓縮它。另一方面,文本檔格式是人類可讀的。
二進位檔的傳送速率更快,因為您不需要解析任何內容。缺點是您無法輕鬆編輯二進位檔。您需要包含舊的和新的讀+寫函數,並在檔案中嵌入版本號。
您可以隨時編輯文字檔而不會出現問題,但組織檔會使功能變慢。
選擇正確的檔案格式。
當您開始資料收集專案時,您需要考慮格式、呈現方式以及如何存儲它。
以下是其他一些重要因素:
- 您和您的客戶通常使用什麼格式?
- 什麼軟體與您的硬體相容?
- 您計劃如何分析、排序和儲存資料?
- 哪些檔案格式最容易共用?
- 您將如何打開和讀取資料?
用於網頁抓取的流行數據格式
有無數形式的數據。有些更適合長期存儲,如ORC和Parquet,而另一些則更適合計算機之間的數據傳輸。
對於網路抓取,您希望能夠查找、收集、分析和存儲數據。
逗號分隔值檔案格式 (.csv)
最常見的格式是 CSV 格式——大多數人都知道它是如何工作的。
CSV 適用於二維數據(行和列)。儘管如此,我們遇到的許多數據都是多維的,在二維電子錶格中效果不佳。
CSV 的一個缺點是它對 CSV 中每行的列數變化不靈活。

Microsoft Excel Open XML 檔案格式(.xls 或 .xlsx)
Excel 是一種電子錶格檔格式,是處理人類可讀數據的不錯選擇。數據必須是平面(二維)的,最好將此格式用於較小的數據集或探索性分析。
Excel檔還包含許多額外的資訊,例如圖形,圖表,格式,公式和圖片。
XLS和XLSX略有不同。主要是,XLS是1997年至2003年間Excel的預設檔格式,而XLSX是2007年以來的最新檔格式。

JavaScript Object Notation (.json)
JSON 是一種廣為採用的輕量級格式。作為一種基於文字的工具,它便於人類閱讀和編寫,但若包含大量嵌套欄位,則可能難以閱讀。同時,它也便於機器進行解析。
JSON 非常適合小型數據集、登陸數據或 API 集成。如果您需要處理大量數據,最好轉換為更高效的格式。
它可以輕鬆處理多維和半結構化數據,並且您可以輕鬆添加或刪除任何字段。
大多數資料庫和語言都支援或具有用於導入和導出 JSON 的現成庫。

超文字標記語言檔案格式 (.html)
標記語言由不可見的字母和符號組成,這些字母和符號指示它標記的可見頁面內容。換句話說,我們使用HTML通過用標籤(字母和符號)註釋來描述網頁結構。
與 XML 不同,在 XML 中,您可以從框架中創建自己的標記語言,而不能創建自己的 HTML 標記。HTML 帶有一組預定義的命令。

可延伸標記語言檔案格式 (.xml)
XML是我們可以用來在計算機之間傳輸數據的另一種標記語言。與HTML一樣,它是一種基於文本的檔格式,人類和計算機都可以讀取。
主要區別在於,您可以更靈活地定義網頁結構,因為您可以編寫自定義命令。

什麼是適合網頁抓取的檔格式?
儘管 CSV 更受歡迎,但最通用和最靈活的網路抓取格式是 JSON。其他格式具有更多挑戰和自定義,通常使它們更加耗費資源。
您可以在Microsoft Excel 電子錶格中輕鬆顯示 CSV 檔,通常是右鍵按下檔並在 Excel 中打開它。這使其成為組織和呈現數據的理想選擇。
我們希望這能為您的資料蒐集策略提供一些背景資訊。如果您準備好進一步了解,可以開始學習如何為您的專案選擇合適的網頁爬取工具。
