כיצד להפוך את חיפוש Google לאוטומטי באמצעות Python?

Share on facebook
Share on twitter
Share on linkedin
Share on telegram
Share on whatsapp
Share on email
פרסומת
MAGNEZIX מגנזיקס


❗ אנא השתמש במיומנויות הנלמדות במאמר זה באחריות וודא שאתה מקפיד על תנאי השימוש של כל שירות שהוזכר!

תוכל למצוא את מאגר GitHub למאמר זה פה:

האם אתה רוצה לגרד את כל תוצאות החיפוש של Google לקובץ אחד באמצעות Python על ידי אוטומציה? האם אתה רוצה לדעת את התשובה לשאילתת החיפוש שלך בתוך מספר דקות? זה יהיה כל כך מדהים! ימין?

אינך נדרש לפתוח את דפדפן Google Chrome והקלד את שאילתת החיפוש שלך בתיבת החיפוש. גם גלישה ידנית של דפי כתובת URL במשך יותר מעשרה עמודים כדי לקבל תשובות לשאילתה שלך אינה נחוצה. הכל יהיה אוטומטי ונעשה עבורך. גדול! ימין?

אפשר להפוך את תוצאות החיפוש של גוגל לאוטומטיות באמצעות מנהל התקן Selenium ו- Python. אתה צריך רק הבנה בסיסית של תכנות פייתון ו- HTML כדי להשיג זאת.

במאמר זה תלמד כיצד למלא את שאילתת החיפוש google.com ולחץ על שלח באמצעות webdriver. לאחר מכן תלמד לגרד כתובות אתרים עם כותרות ולקבל תשובות לשאילתה.

נסביר לך על כל רכיב בדף תוצאות החיפוש של גוגל וכיצד לחלץ אותם.

מדוע כל כך חשוב להפוך את תוצאות החיפוש של Google לאוטומטיות? הסיבה העיקרית היא שאתה יכול לקבל את כל הפרטים בקובץ אחד מאורגן תוך הרבה זמן ללא שום שגיאות ומחדלים. לדוגמה, אם אתה מעתיק את כל 10 דפי כתובות ה- URL בגוגל לקובץ שלך למחקר נוסף. תוכל להעתיק כתובות אתרים חלקיות ולהשמיט חלק מכתובות האתר החשובות של דף האינטרנט. זו משימה מאוד מייגעת ומשעממת עבורך.

באילו דרכים אחרות נוכל להשתמש בכלי רב עוצמה זה סֵלֶנִיוּם מנהל התקן אינטרנט. אתה יכול להפוך פוסטים לאוטומטי בפייסבוק, טוויטר וכו 'באמצעות Selenium Webdriver. הוא משמש גם לגרידת מחירי המוצרים של המתחרים לצורך השוואת מחירים.

האם אפשר להתחיל ללמוד?

מהו סלניום?

סלניום היא תוכנת קוד פתוח לאוטומציה של יישומי אינטרנט לצורכי בדיקה. במילים פשוטות, זוהי תוכנה חינמית שעושה את הדפדפנים שלך אוטומטיים. נוצר על ידי ג'ייסון האגינס בשנת 2004 לאוטומציה של בדיקות אינטרנט שהוא מהנדס ב- Thoughtworks. תפקידו השגרתי הוא לבדוק יישומי אינטרנט. בדיקה ידנית הייתה כל כך מייגעת וגוזלת זמן. אז הוא יצר תוכנה זו באמצעות Java Script שמאפשר אוטומציה של אינטראקציות הדפדפן.

בהתחלה, סלניום מגביל גישה לדפים רק ב- google.com. לא ניתן להשתמש בו במנועי חיפוש אחרים כגון Yahoo.com. כדי להתגבר על זה מהנדסי מחשבים פיתחו גרסאות חדשות של סלניום.

אתה יכול לראות בטבלה שלהלן על התפתחויות סלניום שהתרחשו במהלך התקופה.

בורא שם התוכנה התפתחויות
פול חמאנט שלט סלניום או סלניום 1 נוצר שרת פרוקסי HTTP כדי להערים על הדפדפן כי סלניום מגיע מאותו תחום.
פטריק אור רשת סלניום צמצום זמן ביצוע הבדיקה.
שיניה קסטאני סלניום IDE בנה הרחבה של Fireworks כדי להפוך את הדפדפן לאוטומטי באמצעות תכונת הקלטה והפעלה. זה קיצר את זמן הביצוע עוד יותר.
סיימון סטיוארט WebDriver הפוך את הדפדפן לאוטומטי ברמת מערכת ההפעלה ולא ב- JavaScript.
צוות סלניום סלניום 2 מנהל התקן אינטרנט ממוזג ו- Selenium RC ליצירת תוכנות עוצמתיות לאוטומציה מהירה יותר.

מהו מנהל התקן אינטרנט?

זהו כלי מודרני המיושם לאוטומציה של בדיקות אינטרנט באמצעות פלטפורמות חוצות דפדפנים. הבדיקה מבוצעת בדפדפנים שונים כגון Firefox, Google Chrome, Internet Explorer ו- Safari.

מנהל ההתקן תומך בשפות תכנות java, PHP, Python, Perl ורובי.

היתרונות העיקריים של דרייבר אינטרנט הם כדלקמן:

  • ההתקנה פשוטה מכיוון שהשרת אינו נדרש להתקנה,
  • תקשורת ישירה בין דרייבר לדפדפן,
  • אינטראקציה מציאותית בדפדפן וביצוע מהיר יותר,
  • יכול לבצע בכל מערכת הפעלה,
  • מוזיל את עלות העסקת בודקים בגלל בדיקות אוטומטיות.

הדפדפן יכול לתקשר ישירות עם אחד מנהלי ההתקן, כגון מנהל התקן כרום, אפשרויות Firefox, אפשרויות Safari, מנהל התקן Edge ואפשרויות Internet Explorer.

אתה יכול להשתמש במנהל ההתקן סלניום לאוטומציה של משימות שגרתיות כגון ציוץ, חיפוש בגוגל, חיפוש בפרופילים של לינקדאין ו גריטת אתרים.

כמו כן, אנו יכולים להשתמש בו לאוטומציה של מילוי טפסים כמו דפי זמן לניהול פרויקטים.

המגבלה של מנהל ההתקן של סלניום היא שהוא אינו יכול לתמוך ביישומים מבוססי חלון. הוא יכול לתמוך ביישומים מבוססי אינטרנט בלבד ואינו יכול לבדוק יישומים ניידים. הוא אינו יכול לתמוך בדפדפנים חדשים, אינו יכול להתמודד עם קפצ'ות, ברקודים.

אלמנטים של דף תוצאות החיפוש של Google

אם אתה רוצה לדעת על נושא, מידע או רוצה לרכוש את המוצר במחיר הטוב ביותר, יהיה עליך לחפש אותו בגוגל רוב המקרים נכון? האם אי פעם ניתחת את רכיבי דף החיפוש של תוצאות גוגל? דף תוצאות החיפוש של Google או SERPS שאנו קוראים לו בקיצור מכילים אלמנטים שונים. אלמנטים כגון תוצאות אורגניות, גרפי ידע, אנשים גם שואלים, סרטונים, סיפורים מובילים, חיפושים קשורים ועוד. בחלק זה נדע על כך בפירוט.

תמונה 1

תוצאות אורגניות:

Google תציג את כל התוצאות המתקבלות באופן טבעי ולא בתשלום. תוצאות אלו מוצגות בהתאם לשאילתת החיפוש ובהתאם לאלגוריתם Secrets של Google. אופטימיזציה למנועי חיפוש משמשת גם לדירוג תוצאות חיפוש אורגניות. התוצאות מורכבות מטקסט בקישור הכחול, כתובת URL המוצגת בירוק, וקטע או תיאור קצר של האתר.

אנשים גם שואלים:

מבוסס על שאילתת החיפוש שלך. Google משתמשת באלגוריתם שלה ובשאילתת המשתמש הקודם כדי להציג בלוקים של שאלות קשורות. כאשר מרחיבים כל בלוק של השאלה, אפשר לראות קטעי מענה לענות על השאלה באמצעות קישורי כתובת URL. בלוק זה מופיע לאחר כמה תוצאות אורגניות או בתשלום. הוא מאכלס יותר חסימות שאלות בכל פעם שאתה לוחץ על הבלוק האחרון.

תמונה 2

גרף ידע:

כאשר אתה מחפש נושא לדוגמה, "פייתון" או שם המותג/חברה "אפל". גוגל אוספת כמויות גדולות של נתונים ומציגה אותך בתיבת המידע בצורה יעילה. זהו אזור המטרה שלנו לקבל את התשובה לשאילתת החיפוש שלך.

ברכיב זה תוכל לראות את כל המידע אודות שאילתת החיפוש בצורה תמציתית יותר. גוגל מקבלת את הנתונים ממשאבים אמינים כגון ויקיפדיה, ספר העובדות העולמי של ה- CIA, מידע סכמה ועוד. הוא נמצא בצד ימין של מסך SERPS בשולחן העבודה.

תוכל לקבל את כל התשובות לשאילתת החיפוש שלך מחמשת האלמנטים הבאים המסומנים בתמונה 2:

  1. תמונות – אלה התמונות של שאילתת החיפוש שלך. לדוגמה, פייתון 3 והלוגו של פייתון מוצג.
  2. כותרת – הכותרת מוצגת כאן.
  3. תיאור – מוצג מידע בסיסי של שאילתת החיפוש שלך. לדוגמה, מהו פייתון מוסבר בחלק זה.
  4. כותרת משנה – עובדות חשובות מוצגות לשאילתת החיפוש שלך.
  5. קישורי כתובת אתר – מוצגים מספר נושאים חשובים הקשורים לשאילתת חיפוש.
תמונה 3

סרטונים:

SERPs מציגים סרטונים עבור מילות מפתח מסוימות. הוא מוצג בין אלמנטים אחרים כאלמנט נפרד בשם Video. לעתים קרובות SERP שולף סרטונים מיוטיוב ומוציא מהאתר אם הסרטון המוטבע זמין. בתחילה תוכל לראות 3 סרטונים ב- SERP. כאשר תלחץ על לחצן החץ תוכל לצפות בסרטונים נוספים. SEMrush קובע ש- Google מציגה רק 6 % מתוצאות הסרטונים של שאילתות החיפוש. האם זה? אתה יכול לחקור את זה.

תמונה 4

חיפושים קשורים:

תכונה זו מוצגת בתחתית תוצאת החיפוש. למרות שזה בתחתית זה נתונים חיוניים מאוד עבורנו. מתוך אלגוריתמים של Google וחיפושים קודמים של משתמשים, מילת המפתח מוצגת. ייתכן שלא תמצא את המידע הדרוש על סמך שאילתת החיפוש שלך. אבל מתוך מילות מפתח לחיפושים קשורים, אתה יכול למצוא את המידע שאתה רוצה. יהיו רעיונות נהדרים למחקר שלך מתוצאות חיפוש קשורות.

הגדרת מסגרת לאוטומציה

ובכן, הבנת מה הם האלמנטים של גוגל. גדול! כעת נתחיל להפוך את שאילתות Google לאוטומטיות באמצעות סלניום, דרייבר אינטרנט ופייתון.

לפני שנמשיך הלאה, אני מקווה שאתה מכיר את מבנה ה- HTML הבסיסי. נתחיל ללא דיחוי נוסף.

התקנת הספרייה:

ראשית, עלינו להתקין סלניום.

פתח את מסוף או פקודה והקלד את הפקודה הבאה:

pip install selenium

לאחר מכן התקן את מנהל ההתקן של Chrome Webdriver באמצעות זֶה קישור.

לבסוף, התקן CSV באמצעות הפקודה שלהלן

pip install python-csv

כעת המסגרת שלנו מוגדרת להמשך התקדמות אוטומטית של חיפוש Google.

לפני שנצלול לקוד הבה נעבור על נהלים לקבלת תוצאות החיפוש של גוגל בקובץ CSV.

נוהל אוטומציה של חיפוש Google

נוהל אוטומציה של חיפוש Google

עכשיו בואו לצלול לתוך קידוד לפתוח שלך Python Idle צדף

ייבא ספריות פייתון

ראשית, הרשה לנו לייבא סלניום Webdriver, Sleep ו- CSV באמצעות הקוד:

from selenium import webdriver
from time import sleep
import csv

גישה וניווט לדף אינטרנט

אנו אומרים למחשב לפתוח את דפדפן הכרום, עבור אל www.google.com וחפש את השאילתה "פייתון".

# specify path of Chrome Driver, code 1
driver = webdriver.Chrome('/Users/mohamedthoufeeq/Desktop/chromedriver')

# use driver.get()method to navigate the web page by giving URL address
driver.get('https://www.google.com/') code 2

# locate "English" Language by _Xpath / to change language to English, code 3
English = driver.find_element_by_xpath('//*[@id="SIvCob"]/a[2]')
English.click()

המשתנה driver הוא מופע של Google Chrome. נשתמש במנהל התקן משתנה זה לביצוע פקודות. מצא את המיקום של מנהל ההתקן של Chrome המותקן במחשב האישי שלך. בקוד 1 עליך להכניס את נתיב המיקום של מנהל ההתקן של Chrome. כאשר אתה מפעיל קוד 1 וקוד 2, דפדפן Google Chrome ייפתח ויעבור אל google.com באופן אוטומטי. אז ה driver.get() שיטה משמשת לפתיחת דף האינטרנט. שורת הקוד הבאה היא אופציונלית אם דף Google נפתח בשפות אחרות במקום באנגלית. לאחר מכן השתמש בקוד 3 כדי לשנות את השפה לאנגלית. בואו נסתכל על קוד זה בפירוט רב יותר.

פתח את סקריפטים של HTML על ידי לחיצה ימנית על דף האינטרנט ולחיצה על בדוק (ראה תמונה 5).

תמונה 5

ישנם סוגים שונים של תכונות ותגים כמו class, id, href, a, div, p, וכו 'ב- HTML כדי לגשת לרכיבים ספציפיים. אנו יכולים לגשת לכל האלמנטים באמצעות find_element_ by_method.

שיטות אלה מוצגות …

.



קישור לכתבת המקור – 2021-10-23 13:02:24

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on telegram
Telegram
Share on whatsapp
WhatsApp
Share on email
Email
פרסומת
תכנון תשתיות רפואיות

עוד מתחומי האתר