يُعتبر استخراج البيانات من الويب أمرًا قانونيًا، في الغالب.
وكذلك الأمر بالنسبة لقيادة السيارة… إلى أن تنتهك القانون.
ومع ذلك، فإن القواعد المتعلقة بـ«استخراج البيانات من الويب» ليست واضحة تمامًا كما هو الحال مع قوانين المرور مثلاً.
ستتناول هذه المقالة ما تحتاج إلى معرفته عن استخراج البيانات من الويب، بما في ذلك الجوانب القانونية المتعلقة به، وكيفية عمله، وبعض المفاهيم الخاطئة الشائعة المرتبطة به.
ما هو استخراج البيانات من الويب؟
استخراج البيانات من الويب هو تقنية لجمع البيانات يمكنك استخدامها لاستخراج المعلومات من الإنترنت.
تُعد هذه المقالة في المدونة بمثابة مقدمة بسيطة لموضوع استخراج البيانات من الويب، حيث تضع الأساس اللازم لذلك.
باختصار، تقوم البرامج النصية أو البرامج الآلية بجمع البيانات من خلال الزحف، وواجهات برمجة التطبيقات (API)، وأدوات تحليل لغة HTML، وبرامج التقاط الشاشة.

يعمل هذا البرنامج من خلال تتبع كود مصدر HTML، واستخراج البيانات غير المنظمة، وتحويلها إلى بيانات منظمة. يتبع زاحف الويب التعليمات المتعلقة بكيفية تصفح كل صفحة ويب، والعناصر التي يجب استخراجها، والمكان الذي يجب أن تذهب إليه تلك النتائج داخل التطبيق نفسه.
بشكل أساسي، يعني هذا كتابة تعليمات بلغة برمجة الكمبيوتر وفهم أي أجزاء من مستند HTML تحتوي على أنواع محددة من المحتوى المطلوب استخلاصها. مثل السلاسل النصية، والأرقام/التواريخ/قيم العملات، وروابط وسائل التواصل الاجتماعي، وما إلى ذلك...
لماذا نستخدم أدوات استخراج البيانات من الويب؟
تعد البيانات التي تساعد في اتخاذ القرارات ذات قيمة كبيرة. لذا، لو أردت سرد جميع أسباب اللجوء إلى جمع البيانات آليًّا، فسيستغرق ذلك وقتًا طويلاً. لكن إليك بعض الأمثلة الشائعة:
- استخراج البيانات المتعلقة بمواقع الويب أو الخدمات الإلكترونية الخاصة بالمنافسين للحصول على ميزة تنافسية عليهم
- تحسين ترتيب المواقع في محركات البحث من خلال تحليل الروابط. على سبيل المثال، يمكن تهيئة برامج الزحف على الويب لتتبع الروابط بين منشورات وسائل التواصل الاجتماعي التي توفر رؤى قيّمة حول كيفية تفاعل المستخدمين مع مواضيع محددة.
- تنظيم كميات كبيرة من النصوص غير المنظمة وتحويلها إلى شكل منظم، مثل جداول البيانات، مما يسهل عملية تحليلها.
- إنشاء بوابات إلكترونية تتيح للمستخدمين البحث والتصفح على شبكة الإنترنت من خلال تجميع أنواع مختلفة من المحتوى من العديد من صفحات الويب في مكان واحد.
- جمع البيانات التي لا تتوفر عبر واجهات برمجة التطبيقات (APIs) أو النماذج، مثل مقاطع الفيديو والصوت والصور، وما إلى ذلك...
- مراقبة صفحات الويب المتعلقة بموضوع معين أو بمنافس ما لرصد التغييرات، وتحديث البيانات تلقائيًا في التطبيقات الأخرى

لماذا هذه السمعة السيئة؟
يُعد «استخراج البيانات من الويب» أمراً غير ضار إذا تم استخراج البيانات دون مخالفة أي قواعد أو قوانين تحكم المواقع المستهدفة. ومع ذلك، فإن الأمر لا يسير على هذا النحو دائمًا. فهناك أشخاص ذوو نوايا خبيثة أو قراصنة يستغلون «استخراج البيانات من الويب» عن عمد طوال الوقت. ومن بين جميع الانتهاكات، تُعد سرقة البيانات هي الأكثر انتشارًا.
ليس عليك أن تكون مخترقًا لتثير غضب مالك الموقع.

في عملية استخراج البيانات من الويب، تقوم بإرسال العديد من الطلبات إلى موقع ويب للحصول على المعلومات، وهو ما يتجاوز بكثير ما يقوم به المستخدم العادي. وقد يؤدي ذلك، بغض النظر عن طبيعة الموقع، إلى تحميل ضخم على الخادم، بل وإلى تعطله في بعض الحالات.
وهذا قد يكون مكلفًا.
تحدث هجمات DDOS بسبب الحمل الزائد، لذا فليس من المستغرب أن يُنظر بعين الاستياء إلى برامج استخراج البيانات من الويب التي تطلق طلبات بشكل مفرط.
على الرغم من أن عملية استخراج البيانات من الويب قد تكون مفيدة جدًّا، إلا أنه من الضروري الالتزام بالحدود القانونية، حتى لا تتعرض لخطر مخالفة أي قوانين!
ومع ذلك، ما زلنا ننتظر صدور حكم نهائي (على الأقل في الولايات المتحدة) بشأن ما إذا كانت برامج استخراج البيانات من الويب تشكل انتهاكًا لحقوق النشر. فقد أصدرت بعض المحاكم أحكامًا ضدها، في حين تؤيد محاكم أخرى شرعيتها.
لذا، إلى أن يتم تسوية هذه المسألة، عليك توخي الحذر.
القضايا القضائية المتعلقة باستخراج البيانات من الويب
تشكل الأحكام الصادرة في القضايا القضائية سوابق قانونية للقضايا المستقبلية. وفي الوقت الحالي، يبدو أن مسألة شرعية «استخراج البيانات من الويب» لا تزال غامضة بعض الشيء، لكن من الجيد أن نكون على دراية بالقرارات التي تم اتخاذها.
سأركز على القضايا البارزة المتعلقة بـ«السكرايبينغ» التي مهدت الطريق لرفع دعاوى قانونية مستقبلية في هذا المجال، مثل دعاوى انتهاك حقوق النشر أو تلك المتعلقة بقانون الاحتيال وإساءة استخدام الحاسوب (CFAA).
فيسبوك ضد باور فينتشرز (2011)
هذه واحدة من العديد من النزاعات المثيرة للجدل للغاية مع «جوجل» فيما يتعلق بسياسات الخصوصية الخاصة بها. وقد رفعت «فيسبوك» دعوى قضائية ضد شركة «باور فينتشرز» لقيامها بجمع بيانات مستخدميها وعرضها على موقعها الإلكتروني الخاص.
صدر الحكم لصالح «فيسبوك»، التي كانت قد رفعت شكوى تفيد بأن شركة «باور فينتشرز» انتهكت قانون «كان-سبام» (CAN-SPAM)، وقانون مكافحة الاحتيال والابتزاز الحاسوبي (CFAA)، وقانون الألفية الجديدة لحقوق طبع ونشر المواد الرقمية (DMCA)، وقوانين حقوق النشر.
وكالة أسوشيتد برس وشركة ميلتووتر (2013)
في مايو 2010، رفعت وكالة أسوشيتد برس دعوى قضائية ضد شركة مراقبة وسائل الإعلام الرقمية المسماة «ميلتووتر»، التي كانت تستخدم تقنية «الزحف على الويب» للبحث عن الأخبار.
وادعت وكالة «أ.ب.» أنها لا تتقاضى أجرًا عن عملها نظرًا لتكراره، مما يتيح لها الوصول إلى محتوى مجاني.
في هذه الحالة، تم الحكم بعدم قانونية برامج استخراج البيانات من المواقع الإلكترونية لأنها قوضت قيمة عمل وكالة أسوشيتد برس (A.P.) من خلال إتاحة هذا العمل مجانًا.
قضية «رايان إير» ضد «PR Aviation» (2015)
P.R. Aviation هي خدمة تجميع أسعار الرحلات الجوية التي تستخدم تقنية «استخراج البيانات من الشاشة» (screen-scraping) لجمع أسعار موقع «رايان إير» الإلكتروني. في 15 يناير، أصدرت محكمة العدل التابعة للاتحاد الأوروبي قرارًا من المحتمل أن يؤثر بشكل كبير على كل من مشغلي قواعد بيانات المواقع الإلكترونية وأولئك الذين يمارسون «استخراج البيانات من الشاشة» (مثل مواقع مقارنة الأسعار).
يشير الحكم إلى أنه يمكن لمالكي المواقع الإلكترونية فرض شروط استخدام مواقعهم من خلال اتفاقيات تعاقدية. وهذا يعني أنه يمكن حماية حتى البيانات المتاحة للجمهور.
قضية HiQ Labs ضد LinkedIn (2019)
يمكن لشركة HiQ Labs جمع البيانات من الملفات الشخصية العامة على LinkedIn لتزويد الشركات بأدوات تتيح لها التعرف على وجهات نظر الموظفين. وقد تقدمت HiQ بطلب إلى المحكمة لإصدار أمر قضائي. وقد تمت الموافقة على الطلب، مما دفع LinkedIn إلى التوقف عن إرسال خطابات الإنذار والكف (C&D) واتخاذ إجراءات حجب ضد HiQ.
وعلى إثر ذلك، تراجعت «لينكدإن» عن قرارها بعد يوم واحد، قائلةً إنها انتهكت المادة 2 من قانون مكافحة الاحتيال والاختراق الحاسوبي (CFAA). وجاء الحكم لصالح شركات «السكرايبينغ»، وأعاد التأكيد على ثبات الممارسة القضائية التي اعتمدت مؤخرًا فيما يتعلق بانطباق القانون.
هل يمكن أن تتورط حقًّا في مشاكل بسبب جمع البيانات؟
الإجابة المختصرة هي: نعم! هناك قوانين تحمي الشركات التي تمتلك محتوى على مواقعها الإلكترونية من الوصول غير المصرح به من قبل أطراف ثالثة، مثل روبوتات استخراج البيانات أو البرامج الآلية الأخرى.
الإجابة المطولة تعتمد على المكان الذي تعيش فيه، ولكن بشكل عام، هناك ما لا يقل عن خمس مسائل قانونية يجب أن تكون على دراية بها:
- انتهاك حقوق النشر
- التشهير بالشخصية أو الممارسات التجارية
- الحق في الخصوصية/حقوق النشر
- الاختلاس (السرقة) لمحتوى الويب
- تقنيات القرصنة للوصول إلى محتوى الويب
هذه هي أهم القضايا القانونية التي يجب أن تكون على دراية بها عند القيام بجمع البيانات. ومع ذلك، فهذه ليست قائمة شاملة، بل هي ملخص عام قد يختلف باختلاف المكان الذي تعيش فيه وهوية مالك الموقع الإلكتروني المعني.
للحصول على معلومات أكثر تفصيلاً حول موقعك الجغرافي، يرجى استشارة محامٍ متخصص في قانون الإنترنت في نطاق ولايتك القضائية. لا تشكل هذه المقالة مشورة قانونية مهنية!
لتجنب أي انتهاك محتمل لأي من هذه القوانين، يجب عليك التأكد من المعلومات التي تعتبر عامة وتلك التي تعتبر خاصة، وكيف يرغبون في أن يتم جمع البيانات من موقعهم الإلكتروني. سواء كان ذلك من خلال نموذج ويب أو مفتاح واجهة برمجة التطبيقات (API)، على سبيل المثال.
غالبًا ما تنشر المواقع الإلكترونية إشعارات قانونية مثل هذه:
"قد يحتوي هذا الموقع على مواد محمية بحقوق النشر تم استخدامها بإذن من مالكيها." إذا رأيت مثل هذا الإشعار، فهذا يعني أن مالك هذه الصفحة لا يسمح باستخراج البيانات من الموقع دون موافقة خطية مسبقة أو اتفاق بين الأطراف المعنية.
وينطبق الأمر نفسه في حالة عدم وجود أي إشارة على الإطلاق إلى روبوتات استخراج البيانات. فقد يحظر مسؤولو هذه المواقع استخراج البيانات من مواقعهم الإلكترونية. وفي مثل هذه الحالات، يجب ألا تحاول الوصول إليها دون الحصول على إذن كتابي من المالك (أو المالكين). ومن الأفضل دائمًا طلب الإذن أولاً!
القوانين المتعلقة باستخراج البيانات من مواقع الويب
لقد تناولنا بعض القضايا القضائية وكيف يمكن أن تنشأ قوانين محددة عنها. وفيما يلي ملخص للمخالفات التي قد ترغب في أخذها في الاعتبار قبل الشروع في مشاريع استخراج البيانات من الويب القادمة:

- قانون حقوق النشر في الألفية الرقمية (DMCA) هو قانون أمريكي يجرم استخدام برامج استخراج البيانات على المواقع الإلكترونية التي لا تملكها. على سبيل المثال، مواقع الأخبار أو أي موقع يحتوي على محتوى ينشئه المستخدمون، مثل مجموعات فيسبوك؛ إلا أن هذا لا ينطبق إذا كان استخدامك يندرج ضمن نطاق «الاستخدام العادل».
- قانون الاحتيال وإساءة استخدام الحاسوب (CFAA) هو قانون أمريكي يجرم عملية «استخراج البيانات من الويب» (web scraping) في حال التحايل على الإجراءات الأمنية أو الوصول المتعمد إلى الويب دون إذن. ومع ذلك، لا ينطبق هذا على استخدام التطبيقات مفتوحة المصدر والمتاحة للجمهور والأدوات غير التجارية التي تتيح لك استخراج بيانات الويب مجانًا. تندرج هذه الأنواع من أدوات استخراج البيانات من الويب ضمن نطاق «الاستخدام العادل»، لذا فإن استخدامها قانوني تمامًا على المواقع التي تحتوي على محتوى ينشئه المستخدمون، مثل مجموعات فيسبوك.
- يُعد «التعدي على الممتلكات المنقولة» مصطلحًا قانونيًا يشير إلى الاستخدام غير المشروع للممتلكات الرقمية. وقد يشمل ذلك «استخراج البيانات من الويب» في حالة استخدام أداة استخراج البيانات لجمع البيانات دون إذن.
- قد تحظر شروط الخدمة/سياسات الخصوصية عملية استخراج البيانات من صفحات معينة، لذا يجب عليك دائمًا مراجعة هذه الشروط والسياسات قبل أن تقرر استخراج البيانات.
- قد يرفع أصحاب المحتوى دعوى بانتهاك حقوق النشر لأنهم يعتقدون أن أعمالهم قد نُسخت دون إذن.
- قد يقوم مزودو خدمات الإنترنت (ISPs) بحجب برامج استخراج البيانات من الويب إذا كان استخراج البيانات من الويب غير قانوني.
- يجوز لمالك الموقع رفع دعوى قضائية ضد أي شركة يتسبب معدل الزحف المرتفع الخاص بها في تعطل الخادم أو انتهاك حقوق الملكية الفكرية الخاصة به. تأكد من عدم التسبب في أي ضرر بأي شكل من الأشكال. قد لا تتحمل المسؤولية في حال تسببت في أي ضرر لشروط هذا الموقع ومحتوياته.
تعرف على كيفية قيام البروكسيات السكنية بإنقاذك أثناء عملية استخراج البيانات.
شروط الاستخدام واستخراج البيانات
هل يحق لمواقع الويب أن تفرض قيودًا قانونية على عملية استخراج البيانات؟ قد يكون ذلك صحيحًا. فلا يوجد ما يمنع مشغلي مواقع الويب من وضع شروط لا مفر منها للوصول إلى محتواهم.
هل ستثبت هذه الأحكام فعليًّا قابليتها للتنفيذ؟ إن النظرية القانونية التي تستند إليها قابلية تنفيذ العقود معقدة إلى حد ما. ومع ذلك، يجدر بنا إلقاء نظرة على بعض الاتفاقيات المتداولة.

اتفاقيات التصفح
عادةً ما يمكن العثور على هذه الاتفاقيات على الصفحة الرئيسية أو في نافذة منبثقة. وعادةً ما تتجاهل النظريات القانونية القيمة القانونية لمثل هذه العقود. (فليس الجميع يسمحون بظهور النوافذ المنبثقة)
ومع ذلك، توجد دراسات حالة حظيت بقبول واسع على ويكيبيديا تؤيد اتفاقيات «براوزراب».
اتفاقيات القبول الإلكتروني
اتفاقية «Clickwrap» هي عقد نزيه ومعقول يجب تنفيذه إذا رغبت المحاكم في ذلك. وينتشر هذا النوع من الاتفاقيات على نطاق واسع في المتاجر الإلكترونية ونماذج التسجيل. وتتطلب اتفاقية «Clickwrap» قيام المستخدم بإجراء معين، لا يقتصر الأمر على مجرد التصفح.
وكما يتضح من المثال المستمد من قضية «رايان إير»، فإن المحاكم تسارع إلى تنفيذ هذه القرارات.
إذن، هل يعتبر استخراج البيانات من الويب أمرًا قانونيًا؟
بشكل عام، نعم!
يُعد استخراج البيانات من الويب أداة رائعة للشركات التي تسعى إلى تنمية أعمالها من خلال موارد إضافية أو رؤى جديدة في مجال أبحاث السوق. ويحتوي الويب على أنواع عديدة من المحتوى الذي ينبغي أن يظل دائمًا متاحًا مجانًا للجمهور، ما لم يتم تنظيمه بشكل صارم مسبقًا من خلال شروط الاستخدام.
6 أسئلة يجب أن تطرحها على نفسك قبل البدء في عملية استخراج البيانات
اطرح على نفسك هذه الأسئلة الستة العملية المتعلقة بأخلاقيات استخراج البيانات من الويب لتكون أكثر التزامًا بالمعايير.
هل تقوم باستخراج بيانات محمية بحقوق النشر؟
يخضع الكثير من محتوى الإنترنت لنوع ما من حقوق العلامات التجارية. فالموسيقى، والأخبار، والمدونات، والأطروحات، والصور، والمجلات، وقواعد البيانات، والشعارات، كلها مواد يمكن أن تخضع لحقوق النشر.
يُعد استخدام المواد المنسوخة أو البيانات المستخرجة بطريقة غير مسؤولة انتهاكًا لحقوق النشر. وقد يُعتبر هذا الأمر، في العديد من الولايات القضائية، استخراجًا للبيانات عبر الإنترنت مخالفًا للأخلاقيات. إلا أن هذا يعني استخراج أي بيانات تم نسخها من مصدر آخر أو توزيعها بشكل غير قانوني. وهناك بعض الحالات التي تستدعي استخراج محتوى محمي بحقوق النشر لأغراض التحليل. وفي مثل هذه الحالات، يجب عليك مراعاة الطريقة التي تستخدم بها هذه البيانات.
هل تقوم باستخراج بيانات غير عامة؟
تتيح مواقع الويب عمومًا الوصول إلى معلوماتها مجانًا. ولا بأس من استخراج البيانات المتاحة للجمهور طالما أن ذلك يتم بطريقة آمنة.
البيانات غير العامة هي تلك التي لا يمكن لأي شخص الوصول إليها عبر الإنترنت. فإذا كانت البيانات مستمدة من صفحات يتطلب الوصول إليها تسجيل الدخول، فإنها لا تُعتبر متاحة للجمهور.
هل تقوم بجمع البيانات الشخصية؟
تختلف اللوائح التنظيمية المتعلقة بالوصول إلى البيانات الشخصية واستخدامها باختلاف الولايات القضائية. ففي حين قد يكون جمع البيانات الشخصية بطريقة «السكرايبينغ» أمرًا مقبولًا في بعض الولايات الأمريكية، إلا أنك قد تتعرض لمشاكل في ولاية كاليفورنيا. كما أن الاتحاد الأوروبي يتعامل بحساسية شديدة مع المعلومات الشخصية. لذا، قد يكون من الأفضل مراجعة لوائح حماية البيانات (GDPR) قبل القيام بجمع مثل هذه البيانات.
هل معدل الزحف مقبول؟
قد يؤدي استخراج البيانات من المواقع الإلكترونية إلى إثقال كاهل خوادمها وتعطلها. وتقترح معظم المواقع الإلكترونية تضمين توجيه «crawl-delay» في أي ملف robot.txt لديها. ولنفترض أن الصفحة لم تحدد توجيه «crawl-delay»؛ ففي هذه الحالة، يبلغ متوسط وقت الطلب 20 ثانية عند أعلى معدل ممكن.
هل تلتزم بشروط الاستخدام؟
قد تكون اتفاقيات شروط الاستخدام إما من نوع «التصفح» أو من نوع «النقر». وتشمل اتفاقيات «النقر» تلك التي يتعين على المستخدم فيها النقر على أزرار، بينما لا تتطلب اتفاقيات «التصفح» أي إجراء من جانب المستخدم.
إذا التزمت بجميع الشروط المحددة، فلن تواجه أي مشاكل في أنشطة استخراج البيانات من الويب.
هل تتوافق مع ملف robots.txt؟
بروتوكول استبعاد الروبوتات هو المعيار القياسي الخاص بروبوتات الويب. يحدد ملف Robots.txt أجزاء موقع الويب التي يمكن الزحف إليها وفهرستها، وتلك التي يجب استبعادها.
الخلاصة
عند استخراج البيانات من الويب، تأكد من الالتزام بالحدود القانونية من خلال الاطلاع على قوانين حقوق النشر واتفاقيات شروط الاستخدام المتعلقة بالسرعة المسموح بها في استخراج أي محتوى. كما يجب عليك تجنب الوصول إلى المعلومات الخاصة — لا سيما إذا كانت بيانات شخصية.
