סריקה ואינדוקס — איך גוגל מגלה ומאנדקסת דפים
סריקה ואינדוקס הם שני שלבים נפרדים בתהליך שבו גוגל מגלה, מעבדת ומכניסה דפים למאגר שלה. כשל באחד מהם פירושו שהדף לא יופיע בתוצאות החיפוש — גם אם התוכן מצוין.
שני שלבים שונים לגמרי: סריקה ואינדוקס
אחת הטעויות הנפוצות ביותר היא הנחה שאם גוגל סרקה דף — הוא מאונדקס. זה לא נכון. סריקה ואינדוקס הם שני שלבים עצמאיים, וכישלון בכל אחד מהם מונע מהדף להופיע בתוצאות החיפוש.
סריקה (Crawling) היא השלב שבו Googlebot מגיע לדף, קורא את קוד ה-HTML שלו, ומנתח את הקישורים שבו כדי להמשיך לדפים נוספים. זה כמו שליח שמגיע לדלת, בודק את התוכן, ורושם את הכתובות שמצא.
אינדוקס (Indexing) הוא השלב שבו גוגל מחליטה אם להכניס את הדף לאינדקס שלה — מאגר העצום של מיליארדי דפים ממנו מוצגות תוצאות החיפוש. הכנסה לאינדקס תלויה בשיקולי איכות, ייחוד, ורלוונטיות שגוגל מחשבת.
שלב 1: כיצד גוגל מגלה דפים
Googlebot מגלה URL חדשים בשלוש דרכים עיקריות: קישורים מדפים ידועים — זו הדרך הראשית. גוגל עוקבת אחרי כל קישור שמצאה בדפים שסרקה. מפת אתר XML (Sitemap) — רשימה ישירה שאתה מגיש לגוגל דרך Google Search Console. הגשה ידנית ב-GSC — ניתן לבקש סריקה של URL ספציפי דרך כלי ה-URL Inspection.
תדירות הגילוי והסריקה החוזרת תלויה בכמה גורמים: מידת הסמכות של הדומיין (אתרים מבוססים נסרקים לעיתים קרובות יותר), תכיפות עדכון התוכן, ותקציב הסריקה הזמין. גוגל מנסה לאזן בין סריקה תכופה לדפים חשובים לבין אי-העמסת שרתי האתר.
שלב 2: רנדור ועיבוד
לאחר סריקת ה-HTML הגולמי, גוגל מרנדרת את הדף — כלומר מריצה את קוד ה-JavaScript כדי לראות את הדף כפי שמשתמש אמיתי רואה אותו בדפדפן. זה קריטי כי תוכן רב מוצג כיום דרך JavaScript ולא בה-HTML סטטי.
הבעיה: רנדור JavaScript יקר חישובית ועלול להתעכב — לעיתים ימים ואף שבועות לאחר הסריקה הראשונית. מה שנסרק ב-HTML ייראה מיד, ומה שמוצג דרך JavaScript ייראה בגל הרנדור הבא.
השלכה מעשית: תוכן קריטי לדירוג — כמו כותרות, תיאורים, ותוכן עמוד מרכזי — עדיף להגיש ב-HTML סטטי. תוכן שמופיע רק אחרי טעינת JavaScript עלול לאנדקס מאוחר יותר, ובמקרים מסוימים גוגל עלולה לא לראות אותו בכלל.
שלב 3: ההחלטה לאנדקס
לאחר עיבוד הדף, גוגל מחליטה אם להכניס אותו לאינדקס. ההחלטה מבוססת על מספר שיקולים מרכזיים.
איכות ייחודית — האם הדף מציע ערך שאינו קיים כבר באינדקס? דפים דומים או כפולים (Duplicate Content) יגרמו לגוגל לבחור רק גרסה אחת לאנדקס.
תגיות הנחיה — האם יש תגית noindex? האם ה-canonical מצביע על דף אחר? גוגל מכבדת הנחיות אלה.
גורמי איכות — כמות הקישורים הפנימיים לדף, מהירות הטעינה, עומק התוכן, ואם הדף עומד בסטנדרטים של מדיניות הספאם של גוגל.
תוצאה אפשרית: דף שנסרק ועובד אינו בהכרח מאונדקס. ב-GSC תחת דוח הכיסוי תמצא קטגוריה בשם 'Crawled — currently not indexed' — שם מופיעים דפים שגוגל ראתה אך בחרה לא לאנדקס.
בדיקה ואבחון דרך Google Search Console
Google Search Console הוא הכלי המרכזי לאבחון בעיות סריקה ואינדוקס. הדוח המרכזי: Indexing > Pages — מציג כמה דפים אונדקסו, ומחלק את הדפים הלא מאונדקסים לקטגוריות: Crawled not indexed, Discovered not yet crawled, Page with redirect, Excluded by noindex ועוד.
כלי URL Inspection מאפשר לבדוק דף ספציפי: האם הוא מאונדקס? מתי נסרק לאחרונה? מה גוגל רואה כשהיא מרנדרת אותו? ניתן גם לבקש סריקה חוזרת ורישום לאינדקס מהחלק הזה.
בעיות נפוצות שמתגלות ב-GSC: דפים חשובים ב-'Discovered not yet crawled' — מצביע על תקציב סריקה נמוך. כמות גדולה ב-'Crawled not indexed' — מצביע על בעיות איכות תוכן.
מה גורם לדפים שלא להתאנדקס?
ישנן סיבות נפוצות שמונעות אינדוקס, וחשוב להכיר אותן.
תוכן דל (Thin Content) — דפים עם מעט טקסט, ערך נמוך, או מידע שכבר קיים במקומות אחרים. גוגל מחשיבה דפים כאלה כ'לא ראויים לאינדוקס'.
כפילות תוכן — אם יש גרסאות מרובות של אותו דף (עם פרמטרים שונים ב-URL, עם ובלי www, http לעומת https) — גוגל תבחר גרסה אחת ותדחה את השאר.
תכנות לקויה — תקלות JavaScript שמונעות רנדור, שגיאות שרת (5xx), זמני תגובה ארוכים — כולם גורמים לגוגל לוותר על האינדוקס.
פרופיל קישורים חלש — דפים ללא קישורים פנימיים, עם PageRank נמוך מאוד, עשויים להיחשב כפחות חשובים.
טיפים להאצת הסריקה והאינדוקס
עדכן את ה-Sitemap XML ב-Google Search Console עם כל פרסום חדש — זה הדרך המהירה ביותר לאותת לגוגל שיש תוכן חדש.
חזק קישורים פנימיים — דף שמקבל קישורים ממספר רב של דפים באתר נחשב חשוב יותר ונסרק לעיתים קרובות יותר.
הימנע מ-JavaScript-only content לתוכן קריטי — HTML סטטי נסרק ומאונדקס מהר יותר מתוכן שנטען דרך סקריפטים.
הפחת תוכן דל — עמודים ריקים, עמודי תגיות ללא תוכן, דפי pagination עמוקים — כדאי לחסום ב-robots.txt או להוסיף noindex כדי לשמר את תקציב הסריקה לדפים החשובים.
שאלות נפוצות
מדריכים קשורים
רוצים יישום מקצועי?
המדריכים שלנו הם הבסיס — WAO מיישמת עבורכם.