תקציב סריקה — כיצד לנהל את כמות הדפים שגוגל סורקת
תקציב הסריקה הוא כמות הדפים שגוגל מוכנה לסרוק באתרך בפרק זמן נתון. לאתרים גדולים, ניהול לא נכון גורם לדפים חשובים להישאר מחוץ לאינדקס — בעוד עמודים חסרי ערך מבזבזים את המכסה.
מה זה תקציב סריקה ולמי הוא רלוונטי?
Googlebot מקצה לכל אתר תקציב סריקה — מכסה של כמה דפים הוא יסרוק בביקור. המכסה נקבעת לפי שני גורמים עיקריים: סמכות ופופולריות האתר (אתרים חזקים עם הרבה קישורים חיצוניים מקבלים תקציב גדול יותר), ומהירות תגובת השרת (שרת איטי גורם ל-Googlebot להאיט ולסרוק פחות).
לאתרים קטנים (עד כמה מאות דפים) תקציב הסריקה לרוב אינו בעיה — גוגל סורקת הכל. עבורם, המאמץ עדיף להתרכז באיכות התוכן.
לאתרים גדולים — חנויות מקוונות עם אלפי מוצרים, אתרי תוכן עם מאמרים רבים, ספריות מידע — ניהול תקציב הסריקה הוא קריטי. בלי ניהול, Googlebot עשוי לבזבז את המכסה על עמודי פילטרים וחיפוש פנימי, בעוד דפי מוצר חשובים לא יסרקו.
מה מבזבז את תקציב הסריקה?
פרמטרי URL — כשאתר יוצר URL שונים לאותו תוכן בגלל פרמטרים: ?sort=price, ?color=blue, ?page=2. לאתר עם 1,000 מוצרים ו-10 אפשרויות פילטר, זה יכול לייצר מיליוני URL שונים לאותם דפים. Googlebot יסרוק חלק מהם ויבזבז את המכסה.
עמודי Pagination עמוקים — עמוד 50 של רשימת מוצרים לרוב אינו מביא ערך SEO ואינו מקבל קישורים. סריקתו היא בזבוז טהור.
תוכן כפול — דפים שמציגים תוכן זהה (בגלל www/ללא www, http/https, trailing slash/ללא) מבזבזים את המכסה על גרסאות מיותרות.
דפי תגיות וקטגוריות ריקות — דפים שנוצרו אוטומטית עם מעט תוכן ייחודי.
שגיאות 404 ו-5xx — Googlebot מנסה לסרוק URL שהיו קיימים בעבר. URL שחוזרים שגיאה ממשיכים לצרוך מכסה.
כיצד לזהות בעיות תקציב סריקה ב-GSC
ב-Google Search Console, כנס ל-Settings > Crawl Stats. הדוח מציג: כמה דפים גוגל סרקה ב-90 ימים האחרונים, מה זמן התגובה הממוצע של השרת, וכיצד הסריקה התפלגה בין סוגי תוכן שונים.
סימנים לבעיות תקציב: ירידה חדה בסריקה — עשויה להצביע על שרת איטי, על חסימות ב-robots.txt, או על ירידה כללית בסמכות האתר. סריקה גבוהה של URL שאין לך עניין בהם — URL עם פרמטרים, עמודי חיפוש פנימי, URL שלא אמורים להיסרק.
ב-Pages report ניתן לסנן ל-'Discovered — currently not crawled': URL שגוגל ידועים לה אך לא הספיקה לסרוק. אם שם נמצאים דפים חשובים — יש בעיית תקציב.
שיטות לייעול תקציב הסריקה
חסום URL לא חשובים ב-robots.txt — תיקיות חיפוש פנימי, URL עם פרמטרים, אזורי אדמין. זה מכוון את Googlebot לתוכן שחשוב לך.
השתמש ב-canonical — עבור URL כפולים שלא ניתן לחסום, canonical מאותת לגוגל שהיא יכולה לעבד מספר גרסאות אך לאנדקס רק את הגרסה המועדפת.
השתמש ב-noindex לדפים שלא אמורים להיות באינדקס אך צריכים להיות נגישים — כמו עמודי תוצאות חיפוש פנימי שרוצים להשאיר זמינים למשתמשים.
שפר מבנה קישורים פנימי — דפים חשובים שמקבלים קישורים פנימיים רבים נסרקים לעיתים קרובות יותר. ודא שהדפים שחשוב לך שיסרקו מחוברים היטב מדפים פופולריים.
שפר מהירות שרת — שרת שמגיב מהר מאפשר ל-Googlebot לסרוק יותר דפים בפרק זמן קצר יותר.
פרמטרי URL ו-Crawl Budget
פרמטרי URL הם אחת הבעיות הנפוצות ביותר לתקציב הסריקה. כשאתר מסחרי מאפשר מיון ופילטור מוצרים, כל שילוב של פרמטרים יוצר URL ייחודי מבחינה טכנית:
example.com/products?color=red
example.com/products?color=red&size=M
example.com/products?color=red&size=M&sort=priceלאתר עם 5 פרמטרים, כל אחד עם 5 ערכים — זה מאות אלפי שילובים. Googlebot מנסה לסרוק חלק מהם ומבזבז את תקציב הסריקה.
הפתרון המועדף: לבקש מהמפתח שפילטרים באתר לא ייצרו URL חדשים בדפדפן (טכניקה שנקראת history.pushState). פתרון חלופי הוא חסימת URL עם פרמטרים ב-robots.txt — אך יש לשים לב שלא לחסום פרמטרים שיוצרים תוכן שאתם רוצים שיאונדקס.
Crawl Budget ואתרי מסחר אלקטרוני
אתרי מסחר אלקטרוני הם הסוג שסובל ביותר מבעיות תקציב סריקה. מוצרים שנמחקו, קטגוריות עונתיות, דפי מוצר ב-variations (צבעים, גדלים), דפי ביקורות ועמודי pagination — כולם תורמים לניפוח האינדקס.
גישות מומלצות לאתרי מסחר: השתמש ב-canonical לעמודי variant מוצר (מוצר בצבע שונה מצביע ב-canonical לעמוד המוצר הראשי). הוסף noindex לקטגוריות עם פחות מ-3 מוצרים. הפנה (301) מוצרים שנמחקו לקטגוריה הרלוונטית. חסום URL עם פרמטרי פילטר שאינם יוצרים תוכן ייחודי.
מודד Crawl Budget בצורה קבועה — אחרי כל מיגרציה, קמפיין גדול, או שינוי מבנה.
כיצד לשפר את קצב הסריקה על ידי שיפור שרת
Crawl Rate (קצב הסריקה) הוא גורם נוסף בתקציב הסריקה — כמה בקשות גוגל שולחת לשרת בשנייה. גוגל מנהל אוטומטית את ה-Crawl Rate כדי לא להעמיס על השרת. שרת איטי גורם ל-Googlebot להאיט.
שיפורים שמגדילים את ה-Crawl Rate: שימוש ב-CDN שמגיש תוכן סטטי מנקודות מקרובות. אופטימיזציה של מסד נתונים שמפחיתה זמן תגובה. שימוש ב-caching ברמת השרת (Redis, Memcached). שדרוג חומרת שרת.
ב-GSC ישנה אפשרות לבקש מגוגל לסרוק מהר יותר (Crawl Rate Settings), אך ממשק זה הוסר ב-2024. גוגל קובעת את הקצב לפי ביצועי השרת בפועל.
שאלות נפוצות
מדריכים קשורים
רוצים יישום מקצועי?
המדריכים שלנו הם הבסיס — WAO מיישמת עבורכם.