btn-2-lines
 
 
 
 
SEO קידום במנועי חיפוש

איך גוגל עובד

כיצד גוגל עובד? הנה תמצית דבריו של מאטס קאטס בנושא זה (ניתן לצפות בווידיאו בתחתית העמוד).

אם ברצונכם להיות מנוע החיפוש הטוב ביותר בעולם, עליכם לוודא 3 דברים חשובים:

1. יכולת לסרוק את הרשת באינטנסיביות
ובצורה מעמיקה;
2. יכולת לאנדקס את דפי הרשת (לאנדקס =
להכניס לארכיון);
3. יכולת לדרג את דפי הרשת ולהחזיר את התוצאה
הרלוונטית ביותר לשאילתת-החיפוש, מתוך הארכיון.

יש לציין שגוגל אינו סורק את הרשת בכל פעם שמישהו מקליד שאילתת חיפוש. כל אימת שמישהו מחפש ביטוי מסוים, גוגל שולף את התוצאות הרלוונטיות ביותר מתוך הארכיון (אותו "מכל" שכולל את תוצאות הסריקות הקודמות שבוצעו).

סריקת רשת האינטרנט כולה היא תהליך מורכב ביותר, עד כדי כך שבתחילת שנות האלפיים היו לגוגל מצבים בהם היא לא הצליחה לסרוק את הכול.
גוגל משתמשת במדד המפורסם הנקרא Page Rank – ככל שיותר אתרים אחרים מקשרים לאתר שלך, וככל שאותם אתרים הם איכותיים יותר, כך גוגל תגלה ותסרוק את האתר שלך מהר יותר בתהליך הסריקה (שנקרא באנגלית Crawl). מדד PR הוא רק אחד מתוך כ-200 מדדים נוספים, שהם הסוד השמור ביותר בתעשיית קידום האתרים בגוגל.

בתחילת דרכה של גוגל, בסוף שנות התשעים ובתחילת שנות האלפיים, תהליך הסריקה היה אחיד ונמשך לאורך תקופות מוגדרות: הסריקה עצמה נמשכה כ-30 יום; האינדוקס בארכיון נמשך כשבוע ימים; ואז המידע "יוצא לאור" בתוצאות החיפוש במשך כשבוע ימים נוספים.

בשיטה הזו נוצרו לפעמים מצבים שבהם מידע ישן יצא לאור לפני שהמידע החדש הספיק לעשות זאת; לכן משתמשים שונים היו רואים תוצאות מעט שונות (מה שנקרא "ריקוד גוגל", העדכון הראשון שגוגל ביצעה באלגוריתם החיפוש שלה בשנת 2002).

הצרה היא שהשיטה הזו לא מאפשרת לגוגל להישאר עדכני. אם תהליך הסריקה לוקח 30 יום, עלולים לפספס משהו חדש (ובאינטרנט יש כל הזמן דברים חדשים, על בסיס כמעט יומיומי ואפילו שעתי). מה עושים? משנים את שיטת הסריקה של האינטרנט.

בסביבות שנת 2003, גוגל ביצעה עדכון אלגוריתם שאפשר למנוע החיפוש לסרוק חלקים נכבדים מהרשת בכל יום, ולא בכל חודש. אם נחלק את רשת האינטרנט כולה למספר נפרד של מקטעים, ניתן לסרוק ולאנדקס כל מקטע בנפרד, ולעדכן את המידע הקיים בו כל יום.

תהליך הסריקה החדש יוצר מצב שבו המידע נאגר במעין "3 שכבות": שכבה עליונה וצרה ביותר של מידע שמתעדכן כמעט כל הזמן, שכבה שנייה (עיקרית) שבה המידע מתעדכן בתדירות יומית, ושכבה שלישית שמתעדכנת בתדירות נמוכה יותר.

מטרת האינדקס של גוגל היא כפולה:

  • גם לאתר אילו דפים ומסמכים ברשת, מכילים את כל חלקי הביטוי הנמצאים בשאילתת החיפוש.
  • וגם לדעת איזה מהדפים / מסמכים הוא הרלוונטי ביותר לשאילתה זו, על מנת לדרג אותו ולהעלותו בתוצאות החיפוש.

לדוגמה - נניח שמישהו מחפש את שמה של הזמרת קייטי פרי. גוגל בודק את הארכיון כדי למצוא היכן נמצאות שתי המילים הללו, קייטי + פרי, גם בדפים עצמם וגם בקישורים שמפנים אל הדפים הללו.

לאחר שנמצאו כל המסמכים, הדפים והקישורים המכילים את שתי המילים, כעת נכנס שלב הדירוג על מנת לדעת איזה מהדפים הוא הרלוונטי ביותר. לשם כך גוגל משתמשת במדד Page Rank ובעוד 200 מדדים נוספים, כדי לקבוע רלוונטיות.

למשל: האם הדפים המכילים את "קייטי פרי" נמצאים באתרים איכותיים או באתרי זבל; האם שתי המילים מופיעות בסמיכות קרובה אחת לשנייה או במרחק גדול מדי; האם יש מספיק קישורים שמפנים אל הדף הזה; וכן הלאה.

כלומר, מטרתו של אינדקס היא להכתיב את סדר הדפים / המסמכים בהתאם לסדר המילים. אם גוגל צריכה 200 פרמטרים באלגוריתם על מנת לדעת איזה דף הוא הכי רלוונטי לשאילתת החיפוש, אתם יכולים לדמיין שזה אינו עניין פשוט, לדעת מה רלוונטי מתוך כל מיליארדי הדפים ברשת.

כל מאות מיליוני החיפושים המתבצעים מדי יום, שולחים הוראות למאות מחשבים נפרדים (שאחראים, כל אחד, על סריקה ואינדוקס של חלק מסוים מהאינטרנט). המחשבים מאחזרים את הדפים והמסמכים שהכי מתאימים לשאילתה של הגולש, והרי לנו תוצאות חיפוש המוצגות לעינינו תוך שבריר שנייה.