بودجه خزش (Crawl Budget) چیست؟

| سعادتی

بودجه خزش (Crawl Budget) چیست؟ آیا شما پاسخ این سوال را می دانید؟ بودجه خزش یکی از مسائل مربوط به سئو است که فقط برخی از افراد در مورد آن اطلاعات دارند.


مدیران سئو سایت می دانند که ربات های گوگل بلافاصله بعد از قرار دادن یک مطلب در سایت، اقدام به کراول (خزش) نمی کنند. ممکن است فرایند خزش ربات های گوگل هفته ها طول بکشد. این امر بر روی سئو سایت تاثیر می گذارد. اما چرا با وجود به روز رسانی محتوای سایت، باز هم مطلب ایندکس نشده است؟ چون بودجه خزش سایت تمام شده است.


بودجه خزش (Crawl Budget)


بودجه خزش چیست؟ میزان توجهی است که ربات ها یا خزنده های گوگل نسبت به سایت شما دارند. 
توجه بیشتر خزنده های گوگل = ایندکس صفحات بیشتر سایت


مفهوم بودجه خزش در سئو 


بودجه خزش (Crawl Budget) ، تعداد صفحاتی از وب سایت است که در یک بازه ی زمانی مشخص توسط ربات های گوگل ایندکس می شوند. میزان این بودجه به بزرگی (اندازه) سایت و تعداد لینک های ورودی و سرور بستگی دارد. اما چطور می توان این بودجه را بهبود بخشید؟ با ادامه مقاله همراه ما باشید تا بیشتر در این مورد صحبت کنیم.


علت در نظر گرفتن بودجه خزش برای سایت ها


تعداد صفحات سایت ها هر لحظه در حال افزایش است. این در حالی است که موتورهای جستجو منابع محدودی برای حرکت بین صفحات و ایندکس آنها دارند. گوگل همواره به دنبال تحقق این هدف است که بتواند بهترین و با کیفیت ترین محتوا را در دسترس کاربران خود قرار دهد. برای دستیابی به این هدف باید سایت ها را اولویت بندی کند و به صفحات سایت نمره بدهد. بر این اساس، صفحاتی که نمره ی بیشتری بگیرند، انتخاب می شوند و در اختیار کاربران قرار می گیرند. اما برای اینکه ربات های گوگل متوجه کیفیت محتوا شوند باید در بین صفحات حرکت (خزش) کنند. گوگل با استفاده از کراول باجت می تواند میزان خزش را اولویت بندی کند. اگر این اولویت بندی به درستی انجام شود، یک فضای عادلانه برای رقابت سایت ها به وجود می آید.


اهمیت بودجه خزش برای سایت های مختلف


یکی از مهم ترین مسائل در سئو سایت، ایندکس صفحات آن است. یعنی اگر صفحات سایت شما به هر علتی ایندکس نشوند، سئو سایت سودی نخواهد داشت. در این حالت، صفحات سایت شما در نتایج جستجوی گوگل قرار نمی گیرند و دیده نمی شوند. وقتی که ربات های گوگل وارد صفحه ای از سایت شما نشوند و آن را ایندکس (ثبت) نکنند، به این معناست که صفحه موردنظر اصلا وجود ندارد. اگر میزان بودجه خزش و تعداد صفحات سایت شما برابر باشند، تمام صفحات سایت شما ایندکس شده اند. اما در مواردی که نرخ کراول باجت سایت شما کمتر از تعداد صفحات آن باشد، به این معناست که در سایت شما صفحاتی وجود دارند که ایندکس نشده اند. اینها صفحاتی هستند که در معرض دید کاربران قرار نمی گیرند. در مورد سایت های کوچک، ربات های گوگل می توانند به راحتی در بین تمام صفحات حرکت کنند و عملیات ایندکس را انجام دهند. اما در مورد سایت های بزرگ مثل سایت های فروشگاهی که صفحات زیادی دارند، ممکن است خزنده های گوگل نتوانند در بین تمام صفحات جستجو کنند.

اگر اخیرا قسمت های جدیدی را با تعداد صفحات زیاد به سایت خود اضافه کرده اید، ممکن است با کمبود بودجه خزش مواجه شوید. یکی دیگر از مواردی که بودجه خزش سایت شما را کاهش می دهد، ریدایرکت های زیاد روی آن است.  


نظر گوگل در مورد بودجه خزش (Crawl Budget)


به عقیده ی گوگل، موتورهای جستجو سه مرحله اصلی را دنبال می کنند تا بتوانند نتایج مناسبی از صفحات وب به دست آورند. این مراحل شامل کراول کردن (دسترسی به صفحاتی که در معرض دید عموم هستند.)، ایندکس صفحات (تجزیه و تحلیل و ثبت اطلاعات صفحات) و رتبه بندی (ارائه بهترین پاسخ به سوال کاربران) می شوند. به طور کلی صفحاتی که ایندکس نمی شوند، در نتایج گوگل به نمایش درنمی آیند. گوگل بر این باور است که کراول باجت موضوع نگران کننده ای نیست. معمولا محتوای سایت ها بعد از انتشار به سرعت مورد خزش قرار می گیرند و ایندکس می شوند. حتی در مورد سایت هایی که صفحات آنها به چند صد عدد می رسد هم چنین اتفاقی می افتد. کراول شدن صفحات این سایت ها هم یک امر بدیهی است. مسئله ای که برای سایت های بزرگ وجود دارد، زمان کراول محتوای آنها است.


نحوه ی تعیین بودجه خزش سایت


بودجه خزش برای هر وب سایت متفاوت می باشد. گوگل برای مشخص کردن بودجه موردنیاز هر سایت فاکتورهای مختلفی را در نظر می گیرد. از جمله این عوامل می توان به اندازه سایت، راه اندازی سرور، فرکانس به روزرسانی و لینک ها اشاره کرد. هر چقدر که سایت شما بزرگتر باشد و صفحات بیشتری داشته باشد، طبیعتا به بودجه خزش بیشتری نیاز دارد. عملکرد و زمان بارگذاری سایت شما هم از جمله مواردی است که می تواند بر کراول باجکت تاثیر بگذارد. به این نکته توجه داشته باشید که گوگل به آپدیت محتوای سایت اهمیت زیادی می دهد. در واقع، محتواهایی که به صورت مرتب به روزرسانی می شوند، در اولویت قرار می گیرند. ساختار لینک های داخلی و لینک های مرده هم بر روی میزان نرخ بودجه خزش سایت موثر می باشد.

لینک های مرده یا (dead link) آن دسته از لینک ها هستند که با کلیک بر روی آنها وارد صفحه ای می شوید که چیزی در آن وجود ندارد. نکته ی مهمی که باید به آن توجه شود این است که اگر صفحات بیشتری از سایت کراول شود، به این معنا نیست که سایت شما رتبه ی بهتری به دست می آورد. شما باید محتوایی ارزشمند و مطابق با استانداردهای مخاطبان خود تهیه کنید تا بتوانید کاربران بیشتری را جذب نمایید.


مفاهیم کلیدی در مورد بودجه خزش 


در این بخش درباره ی Crawl limit / host load و Crawl demand / crawl scheduling صحبت می کنیم.

Crawl limit / host load :
با کمک این مفهوم، متوجه می شوید که منابع سرور سایت شما چه تعداد کراول را می پذیرد. وقتی که ربات های گوگل یک صفحه از سایت شما را کراول می کنند، درخواستی به سمت سرور می فرستند تا بتوانند به منابع دیگر سایت شما دسترسی پیدا کنند. اگر تعداد این درخواست ها خیلی زیاد شود، منابع سرور سایت شما نمی توانند به همه ی آنها پاسخ دهند. در نتیجه سایت شما از کار می افتد.

گوگل برای تشخیص این ظرفیت از عواملی مانند نشانه های باگ سرور و تعداد سایت های فعال در هاست استفاده می کند. عامل اول، دفعاتی را نشان می دهد که درخواست های ربات های گوگل برای خزیدن در سایت با مشکل مواجه شده اند. هنگامی که شما یک وب سایت بزرگ دارید که در یک هاست مشترک با صدها وب سایت دیگر اجرا می شود، دچار کمبود بودجه خزش می شوید. برای افزایش کراول باجت و سرعت بارگذاری صفحات سایت خود باید یک هاست اختصاصی داشته باشید.

  Crawl demand / crawl scheduling :
این فاکتور نشان می دهد که چه صفحاتی از سایت شما ارزش خزیدن یا  دوباره کرول شدن را دارند. 
Crawl demand بر اساس محبوبیت صفحه، تازگی محتوا و نوع صفحه اندازه گیری می شود. محبوبیت URL و به روز رسانی مرتب محتوا تاثیر بسزایی بر روی کرول صفحات دارد. تعداد لینک های داخلی و خارجی و عبارت های کلیدی موجب محبوبیت صفحه سایت می شوند. 


چرا باید به بودجه خزش اهمیت چند برابری بدهید؟


یکی از اهداف صاحبان سایت این است که موتورهای جستجو بتوانند تعداد زیادی از صفحات سایت را پیدا و ایندکس کنند. آنها می خواهند این کارها در سریع ترین زمان ممکن انجام شوند. هنگامی که شما محتوای ارزشمندی تولید می کنید و صفحه موردنظر شما به سرعت ایندکس می شود، می توانید از امتیاز آن بهره مند شوید. اما اگر کراول باجکت سایت خود را هدر دهید، موتورهای جستجو نمی توانند به خوبی محتوای سایت شما را کراول کنند. در این وضعیت، ربات های گوگل ممکن است زمان زیادی را صرف خزش در صفحاتی کنند که برای شما مهم نیستند. این امر باعث می شود تا صفحات مهم سایت شما کراول نشوند. در این صورت، بازدیدکنندگان زیادی نخواهند داشت. بنابراین، هدر دادن بودجه خزش تاثیر منفی بر سئو سایت شما می گذارد. اگر صفحات سایت شما زیاد است باید برای بهینه سازی بودجه خزش سایت خود تلاش کنید.


دلایل هدر رفت بودجه خزش سایت


با توجه به اهمیت کراول باجکت باید همواره تلاش کنید تا بودجه خزش به هیچ وجه هدر نرود. در این صورت می توانید بودجه خزش سایت خود را بهینه سازی کنید. کارشناسان پس از بررسی بودجه خزش سایت های مختلف به این نتیجه رسیده اند که معمولا سایت ها با مشکلات ساده و در عین حال مشابهی درگیر هستند. این مشکلات تاثیر بسزایی در هدر رفت بودجه خزش سایت دارند. به عقیده کارشناسان، افراد می توانند از طریق بهینه سازی کراول باجکت سایت خود زمینه ایندکس صفحات ارزشمند آن را فراهم سازند.


1- استفاده از محتوای تکراری Duplicate :


صفحاتی که محتوای آنها کاملا مشابه هم است، محتوای تکراری نامیده می شوند. برای مثال می توان به صفحات کپی شده یا تگ پیج ها اشاره کرد. اگر شما در سایت خود از محتوای تکراری استفاده کنید، ربات های گوگل زمان زیادی را برای کراول این صفحات قرار می دهند. به این ترتیب، بودجه خزش سایت شما بیهوده هدر می رود. این نکته مهم است که در سایت خود از محتوای تکراری استفاده نکنید. در مورد سایت های وردپرسی، محتواهای مشابه را بررسی کنید و کامل ترین آن ها را در سایت خود نگه دارید. بقیه صفحات را حذف کنید. سپس با استفاده از افزونه های ریدایرکت، محتوای قدیمی را به محتوای جدید ریدایرکت نمایید.


2- لینک های شکسته یا ریدایرکت شده(Broken or redirected links) :


لینک شکسته به لینکی گفته می شود که کاربر را به صفحاتی ارجاع می دهد که دیگر وجود ندارند. اما لینک های ریدایرکت شده، لینک هایی هستند که با کلیک بر روی آنها به آدرس (url) دیگری هدایت می شوید. برخی از این لینک ها باعث می شوند تا موتورهای جستجو به بن بست برسند. بنابراین، تلاش کنید تا تعداد این لینک ها را در سایت خود کاهش دهید. با این کار علاوه بر بهبود تجربه کاربری سایت خود، می توانید بودجه خزش آن را هم بازیابی کنید. دقت داشته باشید که ریدایرکت و به ویژه زنجیره های ریدایرکت، زمان بارگذاری سایت شما را افزایش می دهند و به این صورت، یک تجربه کاربری بد برای بازدیدکنندگان سایت شما ایجاد می کنند.


3- وجود مولفه های فیلتر محصولات در آدرس (URL) :


آدرس (URL) بیشتر سایت ها، مولفه هایی برای فیلتر محصولات یا محتوا دارد. این مولفه ها در سایت های فروشگاهی برای فیلتر کردن محصولات مورد استفاده قرار می گیرند. اگر از این مولفه ها استفاده کنید، خوب است اما نباید آنها در دسترس موتورهای جستجو قرار بگیرند.

شاید بپرسید که چطور می توان این مولفه ها را از دسترس موتورهای جستجو دور نگه داشت؟
شما می توانید به چند روش این کار را انجام دهید. اول اینکه از فایل robots.txt خود استفاده کنید و از موتورهای جستجو بخواهید که این صفحات را کراول نکنند. اگر این کار برای شما امکان پذیر نیست، می توانید از تنظیمات مدیریت پارامتر آدرس (url) در سرچ کنسول گوگل و ابزار Bing Webmaster  استفاده نمایید. به این صورت می توانید از گوگل و بینگ بخواهید که صفحات مدنظر شما را کراول نکنند. علاوه بر این، با اضافه کردن ویژگی نوفالو (nofollow) به لینک های فیلتر خود می توانید مانع از کراول شدن این آدرس ها شوید. گوگل از سال 2020 تصمیم گرفت تا لینک های nofollow را نادیده بگیرد. بنابراین بهتر است از روش اول برای غیر قابل دسترسی کردن لینک های فیلتر خود استفاده کنید.


4- استفاده از محتوای بی کیفیت در سایت :


محتوای بی کیفیت به محتوای صفحاتی از سایت گفته می شود که حجم بسیار کمی دارند و ارزشی را به سایت شما اضافه نمی کنند. موتورهای جستجو به محتوای طولانی و با ارزش که بتواند نیاز کاربر را رفع کند اهمیت می دهند. بنابراین محتواهای بسیار کم برای موتورهای جستجو جذابیتی ندارند. پس تا حد امکان چنین محتوایی را در سایت خود قرار ندهید. یکی از نمونه های محتوای بی کیفیت، بخش سوالات متداول انتهای مقالات است که حاوی لینک هایی برای نشان دادن سوالات و پاسخ ها می باشد. در این قسمت، هر یک از سوال و جواب ها به وسیله ی یک آدرس جداگانه ارائه شده اند.


5- صفحاتی با سرعت بارگذاری پایین :


ممکن است برخی از صفحات سایت شما بارگذاری نشوند یا به کندی بارگذاری شوند. این صفحات باعث هدر رفت بودجه خزش سایت شما می شوند. هنگامی که سایت شما با چنین مشکلی مواجه می شود، موتور جستجو به این نتیجه می رسد که سایت شما نمی تواند به خوبی درخواست های کاربران را پاسخ دهد. در این حالت ممکن است بودجه ی کمی برای خزش در بین صفحات سایت شما در نظر گرفته شود. هنگامی که صفحات سایت شما با سرعت کمی لود می شوند، سرعت خزش ربات های گوگل هم کاهش پیدا می کند. بنابراین فقط می توانند تعداد کمی از صفحات سایت شما را کراول کنند. البته این تنها نتیجه ی سرعت لود پایین صفحات سایت نیست. سرعت پایین لود صفحات تاثیر منفی بر روی تجربه ی کاربری می گذارد. به این ترتیب، نرخ تبدیل سایت کم می شود. در بهترین حالت، هر صفحه از سایت شما باید در کمتر از 1 ثانیه لود شود. اما اگر بیش از 2 ثانیه طول بکشد تا صفحه ی موردنظر بارگذاری شود، مشکل سایت شما جدی است.

 
6- وجود آدرس های اشتباه در site map سایت:

 
خزنده های گوگل به وسیله ی  site map می توانند به سایت شما دسترسی پیدا کنند. بنابراین، اگر سایت مپ شما دارای صفحات شکسته و یا ریدایرکت شده باشند، ربات های گوگل آنها را کراول می کنند. کارشناسان توصیه می کنند که در حد امکان از ریدایرکت های 3xx، 4xx و 5xx در نقشه XML سایت استفاده نشود. بهتر است تا همواره نقشه XML سایت خود را چک کنید تا فقط صفحات هدف در آن وجود داشته باشند.


7- وجود تعداد زیادی صفحات غیر قابل ایندکس در سایت :


ممکن است در وب سایت شما، صفحات زیادی وجود داشته باشند که قابل ایندکس نباشند. اگر موتورهای جستجو به این صفحات دسترسی داشته باشند، وقت خود را صرف خزش در بین آنها می کنند. این امر باعث هدر رفت بودجه خزش سایت شما می شود. 
صفحات xx3 (تغییر مسیرها)، xx4 (صفحاتی که پیدا نمی شوند.)، xx5 (صفحات با خطای سرور) و صفحاتی که دستورالعمل noindex دارند، جزء صفحاتی به شمار می روند که ایندکس نمی شوند.


8- لینک سازی غیر اصولی :


هنگامی که سایت شما یک ساختار اصولی برای لینک سازی داخلی ندارد، موتورهای جستجو نمی توانند توجه کافی به بعضی از صفحات داشته باشند. برای بهینه سازی بودجه خزش سایت خود باید به نحوه ی لینک دهی صفحات وب سایت به یکدیگر توجه کنید. صفحاتی که لینک دهی آنها به خوبی انجام شده است، برای موتورهای جستجو جذاب هستند. بهتر است در مهم ترین صفحات سایت خود از تعداد لینک های داخلی بیشتری استفاده کنید. معمولا موتورهای جستجو به صفحاتی که تازه کراول شده اند، رتبه بهتری می دهند.


روش افزایش بودجه خزش سایت


دقت داشته باشید که بودجه خزش رابطه مستقیمی با اعتبار صفحه (Page Authority) دارد. یعنی شما می توانید از طریق تقویت دامنه و اعتبار صفحه ، بودجه ی بیشتری برای کراول صفحات به دست آورید.


سخن پایانی


در این مقاله درباره ی بودجه خزش (Crawl Budget) و روش بهینه سازی آن صحبت کردیم. اگر با مشکلاتی که در متن عنوان شد، برخورد کردید حتما برای رفع آن ها اقدام کنید. در این صورت علاوه بر بهینه سازی بودجه خزش می توانید یک تجربه کاربری خوب برای سایت خود ایجاد نمایید. این امر باعث می شود تا بازدیدکنندگان سایت شما افزایش یابند. یکی دیگر از مواردی که می تواند به خزش بیشتر صفحات سایت شما کمک کند، انتشار رپورتاژ آگهی است. در این حالت، ربات های گوگل با وارد شدن به سایت ناشر، از طریق صفحه رپورتاژ شما وارد صفحات سایت می شوند.


اگر شما هم تجربه ای در مورد نرخ خزش صفحات سایت و روش حل مشکلات آن دارید لطفا با ما به اشتراک بگذارید. 


برچسب ها


آخرین مقالات


تمامی حقوق مادی و معنوی این سایت متعلق به سئوهاما می باشد