world of web crowlers

خزنده وب چیست؟ نمایه بندی به چه معناست؟

خزنده وب یا وب کراولر (web crawler)،  یک برنامه و نرم افزار کامپیوتری است که با نام هایی نظیر عنکبوت وب، ربات عنکبوتی، ربات وب یا به  زبان ساده کراولر (خزنده)  نیز شناخته می شود. این ربات، توسط یک موتور جستجو مورد استفاده قرار می گیرد تا صفحات وب و محتواهای موجود در شبکه گسترده جهانی (world wide web یا همان اینترنت)  را نمایه بندی کند.

نمایه بندی (indexing)، یک فرایند اساسی است. چرا که به کاربران کمک می کند نتایج مرتبط با پرسش و سوالات خود را در عرض چند ثانیه پیدا کنند. نمایه بندی جستجوی اینترنتی، می تواند با نمایه بندی کتاب مقایسه شود. به طور مثال، اگر صفحات پایانی یک کتاب را باز کنید، بخشی با عنوان نمایه (Index) پیدا می کنید. این بخش، شامل یک لیست از عنوان هاست که به ترتیب حروف الفبا آورده شده اند. در مقابل هر یک ازعناوین این لیست،  شماره صفحه ای که در کتاب به آن عنوان اشاره شده، نوشته شده است.

همین قضیه برای نمایه جستجوی اینترنتی نیز صادق است، اما بجای نوشتن شماره صفحه، موتور جستجو، لینک هایی را به شما نشان می دهد که می توانید به کمک آن ها، پاسخ درخواست ها و جستجوی خود را پیدا کنید.

تفاوت مهمی که بین نمایه بندی جستجوی اینترنتی و نمایه بندی یک کتاب وجود دارد، این است که اولی، پویا (dynamic) است؛ بنابراین می تواند تغییر کند. اما دومی، همواره ثابت و غیرقابل تغییر است.

خزنده وب چیست؟
خزنده وب چیست؟

یک جستجوی اینترنتی چگونه کار می کند؟

قبل از اینکه به جزئیات نحوه کارکرد یک ربات خزنده وب ورود کنیم، اجازه دهید نگاهی بیندازیم به روند کلی یک جستجوی اینترنتی تا قبل از زمانی که پاسخ درخواست و جستجوی شما برایتان نمایش داده می شود.

به عنوان مثال، اگر عبارت « فرق زمین با مریخ چیست » را تایپ کنید و سپس، دکمه Enter را فشار دهید، موتور جستجو، یک لیست از صفحه های مرتبط با این عبارت را نشان می دهد. معمولا،  سه مرحله طی می شود تا اطلاعات مربوط به جستجوهای کاربران به آنها نمایش داده شود:

  • یک خزنده وب، روی محتوای وبسایت ها می خزد. (اصطلاحا، آنها را کراول (crawl) می کند.)
  • برای موتور جستجو، یک نمایه تولید می کند.
  • الگوریتم های جستجو، مرتبط ترین صفحات را رتبه بندی می کنند.

همچنین،  باید دو نکته ضروری را در یاد داشته باشم:

  • شما، به صورت بلادرنگ و در لحظه، فرایند جستجو را انجام نمی دهید چرا که غیرممکن است.

تعداد زیادی وبسایت در بستر اینترنت وجود دارد، و حتی همین الان که مشغول خواندن این مقاله هستید، وبسایت های جدیدی در حال ساخته شدن هستند. به همین دلیل ممکن است هزاران سال طول بکشد تا موتور جستجو، لیستی از همه صفحات مرتبط با درخواست شما را تهیه کند. برای  افزایش سرعت فرایند جستجو، موتور جستجو، صفحات را پیش از نمایش دادن به جهانیان، کراول (crawl) می کند.

  • شما جستجو را میان تمامی صفحات اینترنت (شبکه گسترده جهانی ) انجام نمی دهید.

در واقع، شما فرایند جستجو را بر روی یک نمایه از نتایج جستجوی اینترنتی (که از پیش تهیه شده است) انجام می دهید  نه در بین تمامی صفحات اینترنت.  و این، همان زمانی است خزنده وب، وارد میدان می شود.

خزنده وب چیست؟ یک خزنده وب چگونه کار می کند؟

امروزه موتور های جستجوی زیادی وجود دارند مانند Google، Bing، Yahoo!، DuckDuckGo، Baidu، Yandex و بسیاری دیگر. هر کدام از این موتورها، ربات خزنده مخصوص به خود را برای نمایه بندی صفحات بکار می برند.

این ربات ها، فرایند خزیدن (crawling) را از محبوب ترین وبسایت ها آغاز می کنند. هدف اول ربات های وب، این است که مفهوم اصلی محتوای هر صفحه را منتقل کنند. از این رو، ربات های وب، کلمات این صفحه ها را  جستجو می کنند. و یک لیست کاربردی از این کلمات  تهیه می کنند . این لیست، دفعه بعد که می خواهید اطلاعاتی راجع به درخواست ها و پرسش های خود پیدا کنید،  توسط موتور جستجو مورد استفاده قرار می گیرد.

تمام صفحات موجود در اینترنت، توسط ابرپیوندها (hyperlinks) به یکدیگر متصل هستند. بنابراین، ربات های خزنده، می توانند این لینک ها را کشف کرده و آنها را تا صفحات بعدی دنبال کنند. ربات های وب، تنها زمانی متوقف می شوند که محل تمامی مطالب و وبسایت های متصل به هم را پیدا کنند. سپس، اطلاعات ثبت شده را برای نمایه جستجو ارسال می کنند که بر روی سرورهای سراسر دنیا ذخیره شده است. تمامی این فرایند، شبیه به یک تار عنکبوت  واقعی است که در آن، همه چیز در هم تنیده است.

فرایند خزیدن، بلافاصله پس از این که صفحات، نمایه بندی شدند، متوقف نمی شود. موتور های جستجو به صورت متناوب، از خزنده های وب استفاده می کنند تا متوجه شوند آیا تغییری در صفحات رخ داده است یا نه. اگر تغییری رخ داده باشد، نمایه تولید شده توسط موتور جستجو، بر اساس آن بروزرسانی می شود.

خزنده وب چیست؟
خزنده وب چیست؟

انواع خزنده وب : انواع اصلی خزنده های وب کدامند؟

خزنده های وب، محدود به ربات های موتورهای جستجو نیستند. انواع دیگری از خزیدن در وب (web crawling) نیز وجود دارد.

خزیدن در ایمیل ها

خزیدن در ایمیل ها (Email crawling)، مخصوصا برای جذب مخاطب و مشتری بسیار مفید است. زیرا در این نوع از خزیدن، می توان نشانی ایمیل افراد را استخراج کرد. شایان ذکر است که این نوع از خزیدن،  غیرقانونی است چرا که حریم خصوصی افراد را زیر پا می گذارد. بنابراین، خزیدن در ایمیل ها، بدون اجازه کاربران، قابل استفاده نیست.

 

خزیدن در اخبار

با ظهور اینترنت، خبرها از سرتاسر دنیا، به سرعت در محیط وب پخش می شوند و استخراج داده از وبسایت های گوناگون، تقریبا غیرقابل کنترل و مهارناشدنی است.

خزنده های وب فراوانی وجود دارند که می توانند این کار، یعنی خزیدن در اخبار (News crawling) را انجام دهند. این نوع ربات های خزنده، می توانند داده ها را از میان خبرهای جدید، قدیمی و آرشیو شده بیرون بکشند و فیدهای RSS را نیز بخوانند. این ربات ها همچنین می توانند اطلاعاتی نظیر تاریخ انتشار خبر، نام نویسنده، سرتیترها، پاراگراف های مقدم، متن اصلی و زبان یک خبر را نیز استخراج کنند.

 

خزیدن در تصاویر

خزیدن در تصاویر (Image crawling)، همانگونه که از نام آن مشخص است، بر روی عکس ها اعمال می شود. صفحات اینترنت پر هستند از تصاویر و اطلاعات بصری. بنابراین، اینگونه ربات ها، به افراد کمک می کنند تا تصاویر مرتبط را از میان انبوهی از تصاویر در بستر اینترنت پیدا کنند.

 

خزیدن در  شبکه های اجتماعی

خزیدن در شبکه های اجتماعی (Social media crawling)،  یک موضوع بسیار جالب است چرا که خزیدن در تمامی بسترهای شبکه اجتماعی، مجاز نیست. هم چنین باید در ذهن داشته باشید که این نوع از خزیدن، اگر  قوانین مرتبط با حریم خصوصی را رعایت نکند،  می تواند غیرقانونی باشد.

با این وجود، بسیاری از ارائه دهندگان شبکه های اجتماعی، مشکلی با خزیدن  ندارند. به عنوان مثال، شبکه های اجتماعی  پینترست (Pinterest) و توییتر (Twitter)، به ربات های خزنده اجازه می دهند که  صفحاتشان را اسکن کنند. البته در صورتی که حساس به کاربر(user-sensitive) نباشد  و  اطلاعات شخصی افراد  را فاش نسازد. فیس بوک (Facebook) و لینکداین (LinkedIn) در این مورد بسیار سختگیر هستند.

خزیدن در ویدئوها

گاهی اوقات، تماشای یک ویدئو به مراتب راحت تر از خواندن حجم زیادی از مطالب است. اگر تصمیم دارید یوتیوب (Youtube)، ساوندکلاود (Soundcloud)، ویمئو (Vimeo) یا هر محتوای ویدئویی دیگر را در وبسایت خود بگنجانید، می توانید آنها را به کمک برخی خزنده های وب و با خزیدن در ویدئوها (Video crawling)، نمایه بندی کنید.

t90r53s97skh

چند نمونه از خزنده های وب

با انواع خزنده وب آشنا شدید. در ادامه چند نمونه از انواع خزنده وب را نام می بریم. بسیاری از موتورهای جستجو، از ربات های جستجوی مخصوص خودشان استفاده می کنند. به عنوان نمونه، چند مورد از رایج ترین ربات های خزنده وب عبارتند از:

 

Alexbot

ربات Alexbot، خزنده وب متعلق به شرکت آمازون (Amazon) است. این ربات، برای شناسایی محتواهای اینترنتی و کشف backlink (پیوندهای دریافتی یک سایت) مورد استفاده قرار می گیرد. اگر می خواهید برخی اطلاعات خود را محرمانه نگه دارید، می توانید ربات Alexbot را از خزیدن در وب سایت شخصی تان منع کنید.

 

Yahoo! Slurp bot

ربات خزنده شرکت یاهو، با نام Yahoo! Slurp Bot برای فهرست بندی و اسکریپینگ وب سایت ها، به منظور بهبود محتواهای شخصی شازی شده برای کاربران مورد استفاده قرار می گیرد.

 

Bingbot

ربات Bingbot یکی از محبوب ترین ربات های خزنده وب است که توسط شرکت مایکروسافت (Microsoft) راه اندازی شده است. این ربات، به موتور جستجوی Bing کمک می کند  تا مرتبط ترین نمایه را برای کابران تولید کند.

 

DuckDuck Bot

DuckDuckGo احتمالا یکی از محبوب ترین موتورهای جستجو است. این موتور جستجو، تاریخچه فعالیت هایتان را ردیابی نمی کند. و شما را در هر سایتی که بازدید می کنید، دنبال نمی کند. ربات خزنده این موتور جستجو، با نام DuckDuck Bot، به پیدا کردن مرتبط ترین و بهترین نتایج که نیازهای کاربر را برطرف سازد، کمک می کند.

 

Facebook External Hit

فیس بوک هم ربات خزنده خودش را دارد! به طور مثال، وقتی یک کاربر فیس بوک، می خواهد یک پیوند (link) به محتوای یک صفحه خارجی را با شخص دیگری به اشتراک بگذارد، این ربات خزنده، کد HTML آن صفحه را اسکریپ می کند. سپس، عنوان، تگ ویدئو یا تصاویر آن صفحه را برای هر دو کاربر نمایش می دهد.

 

Baiduspider

این ربات خزنده، توسط Baidu، موتور جستجوی اصلی چینی ها، بکار گرفته می شود. مانند هر ربات دیگری، این ربات نیز بین صفحات مختلف اینترنت جابجا می شود و به دنبال ابرلینک ها می گردد تا محتوا را برای موتور جستجو، نمایه بندی کند.

 

Exabot

موتور جستجوی فرانسوی Exalead، از یک ربات خزنده وب به نام Exabot برای نمایه بندی مطالب استفاده می کند تا بتوانند در نمایه این موتور جستجو قرار بگیرند.

 

Yandex Bot

این ربات خزنده، متعلق به بزرگ ترین موتور جستجوی روسی، یعنی Yandex است. اگر قصد انجام تجارت یا کسب و کاری را در آن جا ندارید، می توانید مانع نمایه بندی محتوای خود توسط این ربات شوید.

 

تفاوت وب کراولینگ و وب اسکریپینگ ؟

بسیاری از افراد،  وب کراولر (web crawler)  و وب اسکریپر (web scraper) را به جای یکدیگر استفاده می کنند. با این اوصاف، یک تفاوت اصلی بین این دو وجود دارد. وب کراولر، بیشتر با فراداده (metadata) های یک محتوا  نظیر تگ ها، تیترها، کلمات کلیدی و مواردی از این دست سر و کار دارد. در عوض، وب اسکریپر، محتوا و مطالب را از یک وبسایت « می دزدد» تا در یک منبع آنلاین دیگر مورد استفاده قرار دهد.

همچنین، یک وب اسکریپر، داده های بخصوصی را «شکار می کند». به عنوان نمونه، اگر می خواهید اطلاعاتی را از یک وبسایت استخراج کنید که در آن، اطلاعاتی نظیر روند بازار سهام، قیمت بیت کوین، یا مواردی از این قبیل موجود است، می توانید به کمک یک ربات وب اسکریپر، داده هایی را از این وبسایت ها بیرون بکشید.

اگر شما وبسایت خودتان را کراول (crawl) کنید و بخواهید محتوای خودتان را برای نمایه بندی یا به منظور پیدا شدن توسط سایر افراد،  ارائه دهید، این کار کاملا قانونی است. در غیر اینصورت، اسکریپ کردن وبسایت های سایر افراد و شرکت ها، بر خلاف قانون است.

خزنده وب چیست؟
خزنده وب چیست؟

خزنده وب سفارشی چیست؟

خزنده وب سفارشی (custom web crawler)، رباتی است که برای تامین یک نیاز خاص مورد استفاده قرار می گیرد. شما می توانید ربات خزنده خود را برای انجام هر کاری که نیاز دارید طراحی کنید. به عنوان مثال، اگر شما یک کارآفرین، بازاریاب یا در هر حرفه دیگری که به محتوا مربوط می شود. مشغول به کار هستید. می توانید فرایند جستجوی اطلاعات روی وبسایت خود را برای مشتری ها و کاربران ساده تر کنید. شما همچنین می توانید انواع مختلفی از ربات ها برای اهداف گوناگون، طراحی کنید.

اگر در زمینه ساخت یک خزنده وب سفارشی، هیچ گونه تجربه کاربردی ندارید، همواره می توانید با یک ارائه دهنده خدمات توسعه نرم افزار در تماس باشید تا به شما در این زمینه کمک کند.

 

جمع بندی

خزنده های وب ( وب کراولر ها)، بخشی جدایی ناپذیر در هر موتور جستجوی بزرگ هستند که برای نمایه بندی و کشف محتوا مورد استفاده قرار می گیرند. بسیاری از شرکت های موتور جستجو، ربات مخصوص به خودشان را دارند. به عنوان مثال، ربات Googlebot توسط شرکت بزرگ گوگل راه اندازی شده و  به کار گرفته می شود. جدا از این موضوع، انواع گوناگونی از خزیدن (crawling) برای تامین نیازهای خاص قابل بکارگیری هستند؛ مانند خزیدن در ویدئوها، عکس ها، یا شبکه های اجتماعی.

با در نظر گرفتن آنچه که ربات های خزنده می توانند انجام دهند، این ربات ها برای تجارت و کسب و کار شما بسیار ضروری و سودمند هستند. زیرا ربات های خزنده وب، شما و شرکت تان را به دنیا معرفی می کنند و می توانند کاربران و مشتری های جدیدی را به سمت شما جذب کنند.

امکان ارسال دیدگاه وجود ندارد!