سهم سيمالت طريقة سهلة لاستخراج المعلومات من المواقع

Web Scraping هي طريقة شائعة للحصول على المحتوى من مواقع الويب. تأتي خوارزمية مبرمجة خصيصًا إلى الصفحة الرئيسية للموقع وتبدأ في متابعة جميع الروابط الداخلية ، وتجميع الأجزاء الداخلية من divs التي حددتها. نتيجة لذلك - ملف CSV جاهز يحتوي على جميع المعلومات الضرورية الموجودة في ترتيب صارم. يمكن استخدام ملف CSV الناتج في المستقبل لإنشاء محتوى فريد تقريبًا. وبشكل عام ، كجدول ، فإن هذه البيانات ذات قيمة كبيرة. تخيل أن قائمة المنتجات الكاملة لمتجر البناء معروضة في جدول. علاوة على ذلك ، لكل منتج ، لكل نوع وعلامة تجارية للمنتج ، يتم ملء جميع الحقول والخصائص. سيكون من دواعي سرور أي كاتب نسخ يعمل في متجر عبر الإنترنت أن يكون لديه ملف CSV.

هناك الكثير من الأدوات لاستخراج البيانات من مواقع الويب أو تجريف الويب ولا تقلق إذا لم تكن على دراية بأي من لغات البرمجة ، فسأعرض في هذه المقالة إحدى أسهل الطرق - باستخدام Scrapinghub.

بادئ ذي بدء ، انتقل إلى scrapinghub.com والتسجيل وتسجيل الدخول.

يمكن تخطي الخطوة التالية حول مؤسستك.

ثم تحصل على ملف التعريف الخاص بك. تحتاج إلى إنشاء مشروع.

هنا تحتاج إلى اختيار خوارزمية (سنستخدم خوارزمية "بورتيا") وإعطاء اسم للمشروع. دعونا نسميها بطريقة غير عادية إلى حد ما. على سبيل المثال ، "111".

ننتقل الآن إلى مساحة العمل في الخوارزمية حيث تحتاج إلى كتابة عنوان URL لموقع الويب الذي ترغب في استخراج البيانات منه. ثم انقر على "New Spider".

سنذهب إلى الصفحة التي ستكون بمثابة مثال. يتم تحديث العنوان في العنوان. انقر فوق "إضافة تعليق إلى هذه الصفحة".

حرك مؤشر الماوس إلى اليمين مما سيجعل القائمة تظهر. نحن هنا مهتمون بعلامة التبويب "عنصر مستخرج" ، حيث تحتاج إلى النقر فوق "تحرير العناصر".

ومع ذلك ، يتم عرض القائمة الفارغة لحقولنا. انقر فوق "+ حقل".

كل شيء بسيط هنا: تحتاج إلى إنشاء قائمة الحقول. لكل عنصر ، تحتاج إلى إدخال اسم (في هذه الحالة ، عنوان ومحتوى) ، وتحديد ما إذا كان هذا الحقل مطلوبًا ("مطلوب") وما إذا كان يمكن أن يختلف ("Vary"). إذا حددت أن عنصرًا "مطلوب" ، فستتخطى الخوارزمية ببساطة الصفحات التي لن تتمكن من ملء هذا الحقل. إذا لم يتم الإبلاغ عنها ، يمكن أن تستمر العملية إلى الأبد.

الآن انقر ببساطة على الحقل الذي نحتاجه وحدد ما هو:

منجز؟ ثم في رأس موقع الويب ، انقر على "حفظ العينة". بعد ذلك ، يمكنك العودة إلى مساحة العمل. الآن تعرف الخوارزمية كيفية الحصول على شيء ما ، نحتاج إلى تعيين مهمة لذلك. للقيام بذلك ، انقر فوق "نشر التغييرات".

انتقل إلى لوحة المهام ، انقر فوق "تشغيل العنكبوت". اختر موقع الويب والأولوية وانقر على "تشغيل".

حسنًا ، تجري عملية الكشط الآن. تظهر سرعته من خلال توجيه المؤشر إلى عدد الطلبات المرسلة:

سرعة الحصول على سلاسل جاهزة في CSV - من خلال الإشارة إلى رقم آخر.

للاطلاع على قائمة العناصر التي تم إنشاؤها بالفعل ، ما عليك سوى النقر فوق هذا الرقم. سترى شيئًا مشابهًا:

عند الانتهاء ، يمكن حفظ النتيجة بالنقر فوق هذا الزر:

هذا هو! يمكنك الآن استخراج المعلومات من مواقع الويب دون أي خبرة في البرمجة.

mass gmail