Semalt သည်ဝက်ဘ်စာမျက်နှာများကိုခြစ်ရန်အဆင့် ၅ ဆင့်ကိုအကြံပြုသည်

Scrapy သည်ဝက်ဘ်ဆိုက်ဒ်မှသတင်းအချက်အလက်များကိုထုတ်ယူရန်အတွက်ပွင့်လင်းသောအရင်းအမြစ်တစ်ခုဖြစ်သည်။ APIs ကို Python နဲ့ရေးထားတယ်။ Scraping သည်လက်ရှိတွင် Scrapinghub Ltd. ဟုခေါ်သော ဝက်ဘ်ခြစ်ရာ ကုမ္ပဏီတစ်ခုအားထိန်းသိမ်းထားသည်။

၎င်းသည် Scrap လုပ်ခြင်း၊ Craigslist ကိုခွဲခြမ်းစိတ်ဖြာခြင်းနှင့်သတင်းအချက်အလက်များကို CSV ပုံစံဖြင့်မည်သို့သိမ်းဆည်းခြင်းအားဖြင့် web crawler ကိုမည်သို့ရေးရမည်ကိုရိုးရှင်းသောသင်ခန်းစာဖြစ်သည်။ ဤသင်ခန်းစာ၏အဓိကအဆင့်ငါးဆင့်ကိုအောက်တွင်ဖော်ပြထားသည်။

၁။ Scrapy Project အသစ်တစ်ခုဖန်တီးပါ

၂။ ၀ ဘ်ဆိုဒ်တစ်ခုကိုတွယ် ကပ်၍ ဒေတာထုတ်ယူရန်ပင့်ကူတစ်ကောင်ကိုရေးပါ

၃။ ကူးယူထားသောဒေတာများကို command line သုံး၍ တင်ပို့ပါ

လင့်များကိုလိုက်နာရန်ပင့်ကူပြောင်းလဲပါ

ပင့်ကူအငြင်းပွားမှုများကိုသုံးပါ

၁။ ပရောဂျက်တစ်ခုဖန်တီးပါ

ပထမအဆင့်မှာစီမံကိန်းတစ်ခုဖန်တီးရန်ဖြစ်သည်။ သင် Scrapy ကိုဒေါင်းလုတ် လုပ်၍ တပ်ဆင်ရန်လိုသည်။ ၎င်းရှာဖွေမှုဘားတွင်အချက်အလက်များကိုသင်သိမ်းဆည်းလိုသည့်နေရာတွင်လမ်းညွှန်အမည်ကိုထည့်ရမည်။ Scrapy သည်သတင်းအချက်အလက်များကိုထုတ်ယူရန်အတွက်ပင့်ကူအမျိုးမျိုးကိုအသုံးပြုသည်။ ထိုပင့်ကူများသည်လမ်းညွှန်များဖန်တီးရန်ကန ဦး တောင်းဆိုမှုများကိုပြုလုပ်သည်။ ပင့်ကူအလုပ်လုပ်ရန်သင်လမ်းညွှန်စာရင်းကိုသွားပြီးထိုနေရာတွင်သီးခြားကုဒ်ထည့်ပါ။ သင်၏လက်ရှိလမ်းညွှန်ရှိဖိုင်များကိုကြည့်ပြီး quotes-a.html နှင့် quotes-b.html ဖိုင်အသစ်နှစ်ခုကိုသတိပြုပါ။

၂။ ၀ ဘ်ဆိုဒ်တစ်ခုကိုဖွင့ ်၍ ဒေတာထုတ်ယူရန်ပင့်ကူတစ်ကောင်ကိုရေးပါ။

ပင့်ကူရေးခြင်းနှင့်အချက်အလက်ကောက်ယူခြင်းအတွက်အကောင်းဆုံးနည်းမှာ Scrapy's shell တွင်မတူညီသောရွေးချယ်သူများကိုဖန်တီးခြင်းဖြစ်သည်။ URLs တွေကိုကိုးကားချက်တွေထဲမှာအမြဲထည့်ထားသင့်တယ်။ မဟုတ်ပါက Scrrap သည်ထို URL များ၏သဘောသဘာဝသို့မဟုတ်အမည်များကိုချက်ချင်းပြောင်းလဲလိမ့်မည်။ ပင့်ကူတစ် ဦး အားသင့်လျော်စွာရေးရန် URL တစ်ခုတွင်ကိုးကားချက်နှစ်ချက်အသုံးပြုသင့်သည်။ သငျသညျ use.extract_first () နှင့်အညွှန်းကိန်းအမှားရှောင်ရှားသင့်ပါတယ်။

၃။ ကူးယူထားသောဒေတာများကို command line ဖြင့်တင်ပို့ပါ။

ခြစ်ထားသောဒေတာများကို command line ဖြင့်တင်ပို့ရန်အရေးကြီးသည်။ အကယ်၍ သင်သည်၎င်းကိုမတင်ပို့ပါက၊ တိကျသောရလဒ်များမရပါ။ ပင့်ကူသည်အသုံးဝင်သောသတင်းအချက်အလက်ပါ ၀ င်သောကွဲပြားခြားနားသောလမ်းညွှန်များကိုထုတ်ပေးလိမ့်မည်။ ဒီအချက်အလက်တွေကိုပိုကောင်းတဲ့နည်းနဲ့တင်ပို့ဖို့အထွက်နှုန်း Python သော့ချက်စာလုံးတွေကိုသုံးသင့်တယ်။ JSON ဖိုင်များသို့အချက်အလက်များကိုတင်သွင်းနိုင်သည်။ JSON ဖိုင်များသည်ပရိုဂရမ်မာများအတွက်အသုံးဝင်သည်။ JQ ကဲ့သို့ကိရိယာများသည်ခြစ်နေသည့်ဒေတာများကိုမည်သည့်ပြwithoutနာမှမပါဘဲတင်ပို့သည်။

လင့်များကိုလိုက်ရန်ပင့်ကူပြောင်းလဲပါ:

စီမံကိန်းအသေးစားများတွင်ပင့်ကူများကို ပြောင်းလဲ၍ အချိတ်အဆက်များကိုသင့်လျော်စွာလိုက်လံပြောင်းလဲနိုင်သည်။ သို့သော်ကြီးမားသော ဒေတာများကိုဖယ်ရှားခြင်း စီမံကိန်းများနှင့်မလိုအပ်ပါ။ ပင့်ကူပြောင်းလဲသောအခါပစ္စည်းပိုက်လိုင်းအတွက်နေရာသတ်မှတ်ချက်ဖိုင်ကိုတည်ဆောက်လိမ့်မည်။ ဤဖိုင်ကို tutorial / pipelines.py အပိုင်းတွင်တွေ့နိုင်သည်။ Scrapy ဖြင့်သင်သည်ခေတ်မီသောပင့်ကူများကိုတည်ဆောက်နိုင်ပြီး၎င်းတို့၏တည်နေရာကိုအချိန်မရွေးပြောင်းလဲနိုင်သည်။ သင်သည်တစ်ချိန်တည်းတွင်ဆိုဒ်များစွာကိုထုတ်ယူ။ အမျိုးမျိုးသောဒေတာထုတ်ယူခြင်းစီမံကိန်းများကိုလုပ်ဆောင်နိုင်သည်။

ပင့်ကူအငြင်းပွားမှုများကိုသုံးပါ။

parse_author callback သည်ပြောင်းလဲနေသောဝက်ဘ်ဆိုက်များမှအချက်အလက်များကိုထုတ်ယူရန်အတွက်ပင့်ကူအငြင်းပွားမှုတစ်ခုဖြစ်သည်။ ပင့်ကူများအားသတ်သတ်မှတ်မှတ်ကုဒ်တစ်ခုဖြင့် command line argument များကိုလည်းသင်ပေးနိုင်ပါသည်။ ပင့်ကူအငြင်းပွားမှုများသည်အချိန်တိုအတွင်းပင့်ကူ attribute တွေဖြစ်လာပြီးသင်၏အချက်အလက်များ၏အလုံးစုံပုံသဏ္changeာန်ကိုပြောင်းလဲပေးသည်။

ဒီသင်ခန်းစာမှာအခြေခံအားဖြင့် Scrapy ရဲ့အခြေခံကိုသာလေ့လာခဲ့သည်။ ဒီ tool အတွက် features နဲ့ options တွေအများကြီးရှိပါတယ်။ သင်၏အသေးစိတ်အချက်အလက်များနှင့် ပတ်သက်၍ ပိုမိုသိရှိရန် Scrapy ကိုဒေါင်းလုပ်လုပ်ပြီး activate လုပ်ရန်လိုအပ်သည်။