• موتور جستجو چیست، چگونه کار می کند؟ موتورهای جستجوی اینترنتی: مروری بر راه حل های موجود

    در سال های اخیر، خدمات گوگل و یاندکس به طور محکم وارد زندگی ما شده اند. در این رابطه، احتمالاً بسیاری از خود می پرسند که موتور جستجو چیست؟ صحبت کردن به زبان ساده، این سیستم نرم افزاری، برای جستجوی اطلاعات در جهان طراحی شده است وب گسترده. نتایج آن معمولاً در قالب یک لیست ارائه می شود که اغلب به عنوان صفحات نتایج جستجو (SERP) نامیده می شود. اطلاعات ممکن است ترکیبی از صفحات وب، تصاویر و انواع دیگر فایل ها باشد. مقداری موتورهای جستجوهمچنین حاوی اطلاعات موجود در پایگاه های داده یا دایرکتوری های باز است.

    برخلاف دایرکتوری‌های وب که فقط توسط ویرایشگرهای بومی پشتیبانی می‌شوند، موتورهای جستجو با اجرای یک الگوریتم بر روی یک خزنده وب حاوی اطلاعات بلادرنگ هستند.

    تاریخچه وقوع

    خود موتورهای جستجو زودتر از وب جهانی - در دسامبر 1990 ظاهر شدند. اولین چنین سرویسی Archie نام داشت و محتویات فایل های FTP را با دستورات جستجو می کرد.

    موتور جستجوی اینترنتی چیست؟ تا شهریور 93 در سراسر جهانوب به طور کامل به صورت دستی نمایه شده است. لیستی از وب سرورها وجود داشت که توسط تیم برنرز لی ویرایش شده بود که در وب سرور CERN میزبانی می شد. مثل همه چیز مقدار زیادسرورها آنلاین شدند، سرویس فوق نتوانست با پردازش چنین حجمی از اطلاعات همراه باشد.

    یکی از اولین موتورهای جستجوی مبتنی بر جستجوی وب WebCrawler بود که در سال 1994 منتشر شد. برخلاف پیشینیان خود، به کاربران اجازه می داد هر کلمه ای را در هر صفحه وب جستجو کنند. این الگوریتم از آن زمان به استاندارد برای تمام موتورهای جستجوی اصلی تبدیل شده است. همچنین این اولین تصمیمی بود که به طور گسترده برای عموم شناخته شده بود. همچنین در سال 1994 سرویس Lycos راه اندازی شد که بعدها به یک پروژه تجاری بزرگ تبدیل شد.

    بلافاصله پس از آن، بسیاری از موتورهای جستجو ظاهر شدند و محبوبیت آنها به طور قابل توجهی افزایش یافت. اینها عبارتند از Magellan، Excite، Infoseek، Inktomi، Northern Light و AltaVista. یاهو یکی از محبوب‌ترین راه‌ها برای یافتن صفحات وب مورد علاقه بود، اما الگوریتم جستجوی آن در فهرست وب خود کار می‌کرد، نه در نسخه‌های متن کامل صفحات. جویندگان اطلاعات همچنین می توانند به جای جستجوی کلمات کلیدی، فهرست را مرور کنند.

    دور جدید توسعه

    گوگل در سال 1998 ایده فروش پرس و جوهای جستجو را پذیرفت و با یک شرکت کوچک به نام goto.com شروع به کار کرد. این حرکت تاثیر بسزایی در کسب و کار سئو داشت که به مرور زمان به یکی از سودآورترین کسب و کارهای وب تبدیل شد.

    در حدود سال 2000، موتور جستجوی گوگل به طور گسترده ای شناخته شد. این شرکت با نوآوری به نام PageRank نتایج بهتری برای بسیاری از جستجوها به دست آورده است. این الگوریتم تکراری، صفحات وب را بر اساس پیوند آنها به سایت ها و صفحات دیگر ارزیابی می کند، بر اساس این فرض که منابع خوب یا مطلوب اغلب توسط دیگران ذکر شده است. گوگل همچنین یک رابط مینیمالیستی را برای موتور جستجوی خود حفظ کرده است. در مقابل، بسیاری از رقبا یک موتور جستجو در پورتال وب ایجاد کرده اند. در واقع، گوگل آنقدر محبوب شده است که موتورهای کلاهبرداری مانند Mystery Seeker ظهور کرده اند. امروزه، بسیاری از نسخه های منطقه ای این سرویس، به ویژه موتور جستجوی Google.ru، برای کاربران روسی زبان طراحی شده است.

    این خدمات چگونه کار می کنند؟

    رتبه بندی و صدور نتایج چگونه است؟ موتورهای جستجو از نظر الگوریتم عمل چیست؟ آنها اطلاعات خود را از طریق خزیدن وب از سایتی به سایت دیگر به دست می آورند. ربات یا "عنکبوت" نام فایل robots.txt پیش‌فرض خطاب به آن را قبل از ارسال اطلاعات خاص برای نمایه‌سازی بررسی می‌کند. این بر عوامل بسیاری از جمله سرفصل‌ها، محتوای صفحه، جاوا اسکریپت، برگه‌های سبک آبشاری (CSS) و همچنین استانداردها تمرکز دارد. نشانه گذاری HTMLمحتوا یا ابرداده در متا تگ های HTML.

    نمایه سازی به معنای مرتبط کردن کلمات و سایر نشانه های قابل تعریف موجود در صفحات وب با آنهاست نام های دامنهو فیلدها در مبتنی بر HTML. انجمن ها در یک پایگاه داده عمومی در دسترس برای درخواست های جستجوی وب ایجاد می شوند. درخواست کاربر می تواند یک کلمه باشد. ایندکس به شما کمک می کند اطلاعات مربوط به یک پرس و جو را در سریع ترین زمان ممکن پیدا کنید.

    برخی از تکنیک‌های نمایه‌سازی و ذخیره‌سازی اسرار تجاری هستند، در حالی که خزیدن وب فرآیند ساده بازدید از همه سایت‌ها به شیوه‌ای سیستماتیک است.

    بین خزیدن، یک نسخه کش شده از صفحه (قسمتی یا تمام محتوای مورد نیاز برای نمایش آن) ذخیره شده در حافظه کاری موتور جستجو به سرعت برای کاربر درخواست کننده ارسال می شود. اگر بازدید به تاخیر افتاده باشد، موتور جستجو به سادگی می تواند به عنوان یک پروکسی وب عمل کند. در این مورد، صفحه ممکن است با فهرست های جستجو متفاوت باشد. منبع ذخیره شده نسخه ای را نشان می دهد که کلمات آن ایندکس شده است، بنابراین در صورتی که صفحه واقعی گم شده باشد می تواند مفید باشد.

    معماری سطح بالا

    به طور معمول، کاربر یک پرس و جو را در قالب چندین کلمه کلیدی در موتور جستجو وارد می کند. این فهرست قبلاً دارای نام سایت های حاوی داده است کلید واژه ها، و فورا نمایش داده می شوند. حجم کار واقعی ایجاد صفحات وب است که لیستی از نتایج جستجو هستند. هر صفحه در کل لیست باید بر اساس اطلاعات موجود در فهرست ها رتبه بندی شود.

    در این مورد، عنصر بالای نتیجه نیاز به جستجو، بازسازی و علامت‌گذاری قطعاتی دارد که زمینه را از کلمات کلیدی همسان نشان می‌دهند. این تنها بخشی از پردازش هر صفحه وب در نتایج جستجو است، و صفحات بعدی (کنار آن) بیشتر به این پس پردازش نیاز دارند.

    موتورهای جستجو فراتر از جستجوی ساده کلمات کلیدی، رابط کاربری گرافیکی یا اپراتورهای فرمان محور و گزینه های جستجوی خود را برای اصلاح نتایج ارائه می دهند.

    آنها کنترل های لازم را برای کاربر از طریق یک حلقه بازخورد، فیلتر کردن و وزن دهی در حین پالایش داده های مورد نظر با در نظر گرفتن ارائه می کنند. صفحات اصلیاولین نتایج جستجو به عنوان مثال، از سال 2007، Google.com امکان فیلتر کردن لیست حاصل را بر اساس تاریخ با کلیک کردن بر روی "نمایش ابزارهای جستجو" در ستون سمت چپ در صفحه نتایج اصلی و سپس انتخاب محدوده تاریخ مورد نظر، امکان پذیر کرده است.

    تنوع درخواست ها

    اکثر موتورهای جستجو از استفاده پشتیبانی می کنند عملگرهای منطقی AND، OR و NOT برای کمک کردن کاربران نهاییدرخواست را روشن کنید برخی از عملگرها برای حروف اللفظی هستند که به کاربر اجازه می‌دهند عبارات جستجو را اصلاح و گسترش دهند. ربات به همان روشی که دستورات وارد شده را جستجو می کند، کلمات یا عبارات را جستجو می کند. برخی از موتورهای جستجو ویژگی جستجوی پیشرفته ای را ارائه می دهند که به کاربران امکان می دهد فاصله بین کلمات کلیدی را تعیین کنند.

    همچنین یک جستجوی مبتنی بر مفهوم وجود دارد که در آن مطالعه شامل استفاده از تحلیل آماریدر صفحات حاوی کلمات یا عبارات مورد نظر شما. بعلاوه، پرس و جوهای زبان طبیعی به کاربر این امکان را می دهند که سؤالی را به همان شکلی که از یک شخص می پرسد وارد کند (معمول ترین مثال ask.com است).

    سودمندی یک موتور جستجو به ارتباط مجموعه نتایجی که برمی گرداند بستگی دارد. ممکن است میلیون‌ها صفحه وب حاوی یک کلمه یا عبارت خاص باشند، اما برخی از آنها ممکن است مرتبط‌تر، محبوب‌تر یا معتبرتر از سایرین باشند. اکثر موتورهای جستجو از روش های رتبه بندی برای ارائه بهترین نتایج استفاده می کنند.

    اینکه موتور جستجو چگونه تصمیم می‌گیرد که کدام صفحات بهترین منطبق برای یک پرس و جو هستند و منابع یافت شده به چه ترتیبی باید نمایش داده شوند، از یک روبات به ربات دیگر بسیار متفاوت است. این شیوه ها نیز در طول زمان با تغییر استفاده از اینترنت و توسعه فناوری های جدید تغییر می کنند.

    موتور جستجو چیست: انواع

    دو نوع اصلی موتور جستجو وجود دارد. اولی سیستمی از کلمات کلیدی از پیش تعریف شده و مرتب شده است که مردم به طور انبوه آن را با آن برنامه ریزی کرده اند. دومی سیستمی است که با تجزیه متون یافت شده یک "شاخص معکوس" تولید می کند.

    بیشتر موتورهای جستجو، خدمات تجاری هستند که توسط درآمد تبلیغاتی پشتیبانی می‌شوند، و بنابراین برخی از آنها به تبلیغ‌کنندگان اجازه می‌دهند تا در ازای دریافت هزینه در نتایج نمایش داده شده خود رتبه‌بندی کنند. خدماتی که برای رتبه بندی پول نمی پذیرند با اجرای تبلیغات متنی در کنار سایت های نمایش داده شده درآمد کسب می کنند. تا به امروز، ارتقاء در موتورهای جستجو یکی از سودآورترین درآمدها در شبکه است.

    چه خدماتی رایج ترین هستند؟

    گوگل با سهم بازار 80.52% تا مارس 2017 محبوب ترین موتور جستجوی جهان است.

    • Google - 80.52%
    • بینگ - 6.92٪
    • بایدو - 5.94٪
    • یاهو - 5.35٪

    موتورهای جستجو در روسیه و شرق آسیا

    در روسیه و برخی از کشورهای آسیای شرقی، گوگل محبوب ترین سرویس نیست. در بین کاربران روسی، موتور جستجوی Yandex از نظر محبوبیت (61.9٪) در مقایسه با Google (28.3٪) پیشرو است. در چین بایدو بیشترین میزان را دارد سرویس محبوب. پورتال جستجو کره جنوبی- Naver برای 70 درصد از جستجوهای آنلاین در کشور استفاده می شود. همچنین یاهو در ژاپن و تایوان محبوب ترین ابزار برای یافتن داده های مناسب است.

    دیگر موتورهای جستجوی معروف روسیه میل و رامبلر هستند. با شروع توسعه Runet، آنها به طور گسترده ای محبوب بودند، اما اکنون موقعیت خود را از دست داده اند.

    محدودیت ها و معیارهای جستجو

    در حالی که موتورهای جستجو برای رتبه بندی وب سایت ها بر اساس میزانی از محبوبیت و ارتباط برنامه ریزی شده اند، تحقیقات تجربی به معیارهای مختلف سیاسی، اقتصادی و اجتماعی برای انتخاب اطلاعاتی که ارائه می دهند اشاره می کند. این سوگیری ها می توانند نتیجه مستقیم اقتصادی (به عنوان مثال، شرکت هایی که یک موتور جستجو را تبلیغ می کنند ممکن است در نتایج جستجوی ارگانیک نیز محبوبیت بیشتری پیدا کنند) و فرآیندهای سیاسی (به عنوان مثال، حذف نتایج جستجو برای رعایت قوانین محلی) باشد. به عنوان مثال، گوگل برخی از سایت های نئونازی را در فرانسه و آلمان که انکار هولوکاست غیرقانونی است، نمایش نمی دهد.

    موتورهای جستجوی مسیحی، اسلامی و یهودی

    رشد جهانی اینترنت و وسایل الکترونیکیرسانه ها در جهان اسلام در دهه گذشته، طرفداران اسلام را در خاورمیانه و شبه قاره آسیا برانگیختند تا سعی کنند موتورهای جستجو و پورتال های فیلتر شده خود را ایجاد کنند که به کاربران امکان می دهد جستجوهای ایمن انجام دهند.

    چنین خدماتی حاوی فیلترهایی هستند که وب سایت ها را بر اساس تفسیر متخصص مدرن از "قانون اسلام" به عنوان "حلال" یا "حرام" طبقه بندی می کنند.

    پورتال ImHalal در سپتامبر 2011 و Halalgoogling در جولای 2013 آنلاین شد. آنها از فیلترهای حرام بر اساس الگوریتم های گوگل و بینگ استفاده می کنند.

    دیگر موتورهای جستجوی دین محور Jewgle (یهودی نسخه گوگل)، و همچنین Christian SeekFind.org. آنها وب سایت هایی را که ایمان آنها را انکار یا تحقیر می کنند فیلتر می کنند.

    سیستم جستجو- یک مجموعه نرم افزاری و سخت افزاری با رابط وب که امکان جستجوی اطلاعات در اینترنت را فراهم می کند.

    همه موتورهای جستجو با این واقعیت متحد می شوند که بر روی سرورهای قدرتمند اختصاصی ویژه قرار دارند و به کانال های ارتباطی مؤثر متصل هستند. موتورهای جستجو را سیستم های بازیابی اطلاعات (IPS) نیز می نامند. تعداد بازدیدکنندگانی که به طور همزمان از محبوب ترین سیستم ها ارائه می شوند به هزاران نفر می رسد. معروف ترین ها روزانه به میلیون ها مشتری خدمات می دهند. در مواردی که موتور جستجو بر اساس دایرکتوری است، به آن دایرکتوری می گویند. این بر اساس کار مدیران است. در قلب IPS با جستجوی تمام متن، جمع آوری خودکار اطلاعات است. توسط برنامه های ویژه انجام می شود. این برنامه ها به صورت دوره ای محتویات تمامی منابع اینترنتی را بررسی می کنند. برای انجام این کار، آنها از طریق منابع مختلف حرکت می کنند یا به قول خودشان می خزند. بر این اساس به چنین برنامه هایی روبات می گویند. نام های دیگری نیز وجود دارد: از آنجایی که WWW مخفف عبارت World Wide Web است، طبیعی است که چنین برنامه ای را در انگلیسی عنکبوت بنامیم. - عنکبوت. اخیراً از نام‌های دیگری استفاده شده است: فهرست یا فهرست‌های خودکار. همه این برنامه ها اطلاعات را از URL های مختلف کاوش و "دانلود" می کنند. برنامه هایی از نوع مشخص شده پس از مدت زمان معینی از هر منبع بازدید می کنند. هیچ موتور جستجویی قادر به فهرست کردن کل اینترنت نیست. بنابراین پایگاه های داده ای که آدرس منابع نمایه شده در آنها جمع آوری می شود برای موتورهای جستجوی مختلف متفاوت است. با این وجود، بسیاری از آنها تلاش می کنند، در صورت امکان، در کار خود کل فضای وب جهانی را پوشش دهند.

    برای جستجوی اطلاعات با استفاده از موتور جستجو، کاربر یک عبارت جستجو را فرموله می کند. بر اساس درخواست کاربر، موتور جستجو صفحه نتایج جستجو را ایجاد می کند. چنین نتایج جستجو می تواند انواع مختلفی از فایل ها را ترکیب کند، به عنوان مثال: صفحات وب، تصاویر، فایل های ویدئویی. برخی از موتورهای جستجو نیز داده ها را از پایگاه های داده و فهرست منابع موجود در اینترنت می کشند.

    با توجه به روش های جستجو و نگهداری، چهار نوع موتور جستجو تقسیم می شوند:

    1.سیستم هایی با استفاده از روبات های جستجوگر.

    2. سیستم های کنترل شده توسط انسان

    3. سیستم های هیبریدی

    4. متا سیستم ها.

    معماری موتور جستجو شامل: یک ربات جستجوگر که سایت‌های اینترنتی را اسکن می‌کند، یک فهرست‌کننده که جستجوی سریع را فراهم می‌کند، و یک موتور جستجو - یک رابط کاربری گرافیکی.

    هدف یک موتور جستجو یافتن اسنادی است که حاوی کلمات کلیدی یا کلمات مرتبط با کلمات کلیدی هستند. موتور جستجو بهتر است، هر چه اسناد مربوط به درخواست کاربر بیشتر باشد.

    نمونه های موتور جستجو

    گوگل- یکی از کامل ترین و محبوب ترین IPS های خارجی. یکی از ویژگی های متمایز Google IPS، فناوری تعیین میزان ارتباط یک سند با تجزیه و تحلیل پیوندهای منابع دیگر به این منبع است. هرچه تعداد لینک های بیشتری به یک صفحه در صفحات دیگر باشد، رتبه آن در گوگل IPS بالاتر خواهد بود. گوگل از الگوریتم محاسبه اعتبار PageRank استفاده می کند. PageRank یکی از فاکتورهای کمکی در رتبه بندی سایت ها در نتایج جستجو است. پیج رنک تنها یکی نیست، بلکه بسیار است راه مهمتعیین موقعیت سایت در نتایج جستجوی گوگل. گوگل از PageRank صفحات یافت شده برای یک پرس و جو استفاده می کند تا ترتیب نمایش آن صفحات برای بازدیدکنندگان در نتایج جستجو را تعیین کند. در سال 2010، این شرکت راه اندازی کرد. جستجوی صوتیدر روسیه. برای جستجو، باید دکمه کنار نوار جستجوی گوشی خود را فشار دهید و درخواست خود را بگویید، تلفن صدای شما را به سرور ارسال می کند و مرورگر رشته ای را نشان می دهد که درخواست شما شناسایی شده و نتایج جستجو برای آن نمایش داده می شود.

    Yandexدر حال حاضر محبوب ترین موتور جستجوی داخلی است. در سال 1997 شروع به کار کرد. کاتالوگ خود را از منابع اینترنتی نگهداری می کند. همچنین بهترین موتور جستجو برای شناسایی تصاویر است. نسخه انگلیسی همراه با فهرست منابع اینترنتی ارائه شده است. دارای سیستم تولید درخواست توسعه یافته است. به ویژه، مجاز است نسخه جستجو را به زبان طبیعی وارد کنید - در این مورد، تمام پسوندهای لازم به طور خودکار ساخته می شوند.

    علاوه بر صفحات وب HTML، Yandex اسناد را در PDF (Adobe Acrobat)، قالب متن غنی (RTF)، ورد باینری (doc.)، اکسل (.xls)، پاورپوینت (ppt.)، RSS (وبلاگ ها و انجمن ها) فهرست می کند.

    موتور جستجوی Mail.ruدر سال 2007 شروع به کار کرد. حجم فایل فهرست در بهار سال 2009 بیش از 1.5 میلیارد صفحه بود که در سرورهای روسی زبان قرار داشت. این سیستم علاوه بر جستجوی متون، تصاویر و کلیپ های ویدئویی میزبانی شده در سرورهای روسی تخصصی "خود پر شده" را جستجو می کند: [email protected]، Flamber.Ru، 35Photo.ru، PhotoForum.ru، [email protected]، RuTube، Loadup، Rambler Vision و موارد مشابه. Gogo.ru به شما امکان می دهد منطقه جستجو را به سایت های تجاری، سایت های اطلاعاتی و همچنین انجمن ها و وبلاگ ها محدود کنید. فرم "جستجوی پیشرفته" همچنین امکان محدود کردن جستجوها را به انواع فایل های خاص (PDF، DOC، XLS، PPT)، موقعیت کلمات جستجو در سند یا یک دامنه خاص امکان پذیر می کند. نوامبر 2013 گوگل پلینسخه جدیدی از برنامه جستجو از شرکت Mail.Ru ظاهر شده است که به شما امکان می دهد از صفحه اصلی به هر شبکه اجتماعی سوئیچ کنید و حاوی دسترسی سریعبرای جستجو بر اساس تصاویر، فیلم ها و اخبار. برنامه اندروید به یک مرورگر کوچک تبدیل شده است که برای یافتن کارآمد اطلاعات مورد نیاز شما طراحی شده است. این ابزار همچنین یاد گرفته است که پرس و جوهای جستجویی را که نه با متن، بلکه با صدا مشخص شده اند، تشخیص دهد. توسعه دهندگان همچنین خاطرنشان می کنند که یک ویجت ویژه ایجاد کرده اند که می تواند روی آن قرار گیرد صفحه اصلیمبتنی بر گوشی هوشمند یا تبلت سیستم های گوگلاندروید. قابل درک است که این امر زمان صرف شده برای جستجو را بیشتر کاهش می دهد.

    AltaVista- یکی از قدیمی ترین موتورهای جستجو از نظر حجم اسناد یکی از اولین مکان ها را به خود اختصاص داده است - بیش از 350 میلیون. AltaVista امکان جستجوی ساده و پیشرفته را فراهم می کند. "Help" به کاربران بی تجربه اجازه می دهد تا به درستی پرس و جوهای ساده و پیچیده را بنویسند.

    رامبلر- یکی از اولین IRS روسیه که در سال 1996 افتتاح شد. در پایان سال 2002، یک نوسازی رادیکال انجام شد، پس از آن رامبلر دوباره وارد گروه رهبران شد. جستجوی شبکه. در حال حاضر حجم شاخص حدود 150 میلیون سند است. برای نوشتن پرس و جوهای پیچیده، توصیه می شود از حالت "پرس و جوی تفصیلی" استفاده کنید که فرصت های زیادی را برای جمع آوری نسخه جستجو با استفاده از آیتم های منو فراهم می کند.

    APORT. تا به امروز، حجم پایگاه داده آن بیش از 20 میلیون سند است. این سیستم دارای طیف گسترده ای از قابلیت های جستجو است. APORT عملکرد یک مترجم داخلی را دارد، این به کاربر این فرصت را می دهد تا درخواست ها را به زبان روسی و به زبان روسی فرموله کند. انگلیسی. علاوه بر این، APORT حالت های ویژه ای برای جستجوی تصاویر و فایل های صوتی دارد.

    آخرین نسل موتورهای جستجو همه کلمات را در یک صفحه وب یا در یک مقاله کنفرانس فهرست می کنند، در حالی که قبلاً دامنه نمایه سازی معمولاً به عنوان، عنوان، چند خط اول و آدرس سند محدود می شد. این به طور قابل توجهی امکان شناسایی مواد در یک موضوع محدود را محدود می کند، زیرا نتایج جستجو همیشه داده های واقعی را منعکس نمی کند. با رفع این نقص، موتورهای جستجوی مدرن بسیار قابل اعتمادتر از پیشینیان خود هستند.

    مهمترین ویژگی بعدی بهبود مکانیسم جستجوی داخلی است که در افزایش تعداد اپراتورها و سایر عناصر پرس و جو بیان می شود. چند سال پیش، تنها دو، در بهترین حالت، سه عملگر کلاسیک Boolean در حال استفاده بودند: AND (and)، OR (یا) و NOT (not). اکنون NEAR (نزدیک، در مورد) در Alta Vista و FOLLOWED BY (دنبال می‌شود) در OpenText وجود دارد - عملگرهای فاصله بسیار مفیدی که به شما امکان می‌دهند تا حد امکان پرس و جو را مشخص کنید. بسیاری از سیستم‌ها به شما اجازه می‌دهند پایان‌های اصطلاحات را کوتاه کنید، جستجوها را بر اساس تاریخ ایجاد سند محدود کنید، کلمات کلیدی را فقط در عناصر تعیین‌شده صفحه وب (عنوان، عنوان، آدرس ایمیل و غیره) جستجو کنید و عبارات دقیق را جستجو کنید. آخرین پیشرفت‌ها همچنین به شما امکان می‌دهد فایل‌هایی از نوع خاصی را شناسایی کنید (به عنوان مثال، گرافیک یا صدا) و به حروف کوچک و بزرگ حساس هستند. جستجوی داده ها به هر زبانی رایج شده است. همه اینها امکان نوشتن نسخه جستجو را با دقت بالایی فراهم می کند که البته ارتباط نتایج به دست آمده را افزایش می دهد.

    بر این لحظهمحبوب ترین موتورهای جستجوی گوگل و یاندکس، بیایید آنها را با هم مقایسه کنیم:

      تعداد صفحات نمایه شده گوگل 8 میلیارد و یاندکس فقط 2 میلیارد دارد. یعنی چهار برابر کمتر. پیروزی برای گوگل

      سرعت نمایه سازی صفحه گوگل صفحات جدید را ظرف یک روز ایندکس می کند، در حالی که Yandex ممکن است چندین روز طول بکشد تا این کار را انجام دهد. گوگل دوباره برنده شد

      ارتباط صدور. ارتباط به مطابقت نتایج نمایش داده شده در صفحه موتور جستجو با درخواست شما اشاره دارد. فوراً باید بگویم که تعیین برنده در اینجا دشوار است. گوگل فاش کرد نتایج خوبدر بخش خارجی اینترنت، اما در Runet، Yandex همیشه کمی جلوتر بوده است.

      خدمات اینترنت اضافی در اینجا مزیت به وضوح برای Yandex است. ده‌ها سرویس مختلف دارد که به راحتی در دسته‌ها دسته‌بندی می‌شوند، در حالی که Google تعداد کمتری از آنها را دارد، به علاوه ادغام با شبکه اجتماعی+Google که خیلی ها آن را دوست ندارند.

    سلام خوانندگان عزیز! با شما اکاترینا کالمیکوا. مقاله امروز به مفهومی به عنوان یک موتور جستجو اختصاص داده خواهد شد، اینکه چه چیزی است، برای چیست. همچنین نگاهی دقیق تر به انواع موتورهای جستجو در اینترنت خواهیم داشت.

    اگر سوالی دارید: «چرا باید در مورد این موتورهای جستجو بدانم؟»، اینگونه پاسخ خواهم داد. وقتی در رستوران یک سوپ خوشمزه می خورید، دوست دارید بدانید از چه موادی درست شده است تا بتوانید خودتان آن را در خانه تکرار کنید؟ به هر حال، اگر از نتیجه نهایی، یعنی طعم سوپ راضی هستید، مطمئناً برایتان جالب است که بدانید چه چیزی منجر به چنین نتیجه ای شده است؟

    شما همچنین می توانید در مورد کار با یک موتور جستجو (PS) بگویید. اگر در آینده وبلاگ خود را ایجاد کنید، با دانستن کار PS دیگر نیازی به کمک گرفتن از متخصصان نخواهید داشت. شما قادر خواهید بود پروژه خود را بطور مستقل به گونه ای مدیریت کنید که موتور جستجو آن را ببیند و به سایر کاربران نشان دهد. از این گذشته ، حضور منبع شما و بر این اساس درآمد به این بستگی دارد.

    پس بیایید شروع کنیم.

    موتور جستجو چیست؟

    موتور جستجو است منبع ویژهدر اینترنت که اطلاعاتی را مطابق با درخواست کاربر در اختیار کاربر قرار می دهد. یعنی این منبع تمام داده ها را در آن جمع آوری می کند شبکه جهانی، تمام پروژه های وب است و زمانی که درخواست خاصی از کاربر دریافت می شود، با ارسال مثلاً به یک وبلاگ یا وب سایت موضوعی، اطلاعات لازم را ارائه می دهد.

    بنابراین، پس از ایجاد پروژه خود، وظیفه شما ورود به موضوع، یعنی به "فهرست" یا پایگاه داده موتور جستجو خواهد بود. از آنجایی که تبلیغ وب سایت در اینترنت بدون استفاده از هیچ موتور جستجویی امکان پذیر نیست، بنابراین باید مراقب کیفیت منبع خود، بهینه سازی داخلی و خارجی آن باشید. در مقالات بعدی به نحوه انجام این کار خواهیم پرداخت. پس آن را از دست ندهید.

    در ضمن، اگر تصمیم دارید وبلاگ خود را ایجاد کنید، توصیه می کنم این مقالات را بخوانید:

    از آنجایی که منابع جدید وب تقریباً هر روز ظاهر می شوند، پایگاه داده موتورهای جستجو باید به طور مداوم بر این اساس به روز شوند. هر سایت تازه ایجاد شده باید توسط ربات ایندکس شود. به زبان ساده، دستیاران PS - روبات ها باید با منبع جدید آشنا شوند و این داده ها را به خود موتور جستجو منتقل کنند.

    خوب، در اینجا احتمالاً حدس زده اید که وقتی یک ربات از وبلاگ شما بازدید می کند، باید همه چیز را دوست داشته باشد. سرنوشت آینده شما به این مهمان بستگی دارد.

    چگونه ربات پروژه خود را بسازیم پر از لذتدر یکی از مقالات بعدی خواهم گفت. آن را از دست ندهید، اطلاعات جالب و بسیار کنجکاوی وجود خواهد داشت که با شما به اشتراک خواهم گذاشت.

    کار موتورهای جستجو

    تمام کارهای مربوط به PS با وارد کردن پرس و جو مورد نظر در نوار جستجو شروع می شود. کاربران ممکن است به دنبال چه چیزی باشند؟ بله، هر چیزی، از دستور پخت کیک کلم گرفته تا سوال قدیمی "چگونه بدون انجام کاری پول بیشتری به دست آوریم."

    برای اینکه منبع شما به عنوان پاسخی برای یک سوال مطرح شود، باید از رقبای خود جلوتر باشید. برای انجام این کار، باید به ارتقای پروژه خود توجه ویژه ای داشته باشید که شامل فعالیت هایی مانند نوشتن محتوای بهینه شده با کیفیت بالا، یعنی پاسخ به درخواست های مقاله، بهبود است. عامل رفتاری، یعنی برای اینکه خواننده شما در منبع جالب باشد، این یک بهبود در قابلیت استفاده است، یعنی راحتی بازدیدکننده و بسیاری عوامل دیگر. این کاری است که همه ما انجامش را یاد خواهیم گرفت.

    اجزای موتور جستجو

    و چه چیزی به موتورهای جستجو کمک می کند، مثلاً همان گوگل، منبع شما را ایندکس کند؟

    1. نمایندگان کارگرانی هستند که بخش عمده ای از کار را انجام می دهند - آنها سایت ها را فهرست و تجزیه و تحلیل می کنند.
    2. عنکبوت (عنکبوت) - برنامه ای که می تواند صفحات یک منبع وب را دانلود کرده و جمع آوری کند اطلاعات کلیدرباره ی او.
    3. خزنده ها (خزنده) - برنامه ای که تمام پیوندهای موجود در صفحات را پیدا می کند و به دنبال آن داده های جدیدی را جستجو می کند که برای موتورهای جستجو آشنا نیستند.
    4. Indexer - متن، عنوان، سبک و غیره را تجزیه و تحلیل می کند.
    5. ربات ها - صفحات محتوای شما را فهرست می کنند و همچنین انواع لینک ها را مطالعه می کنند.

    برای اینکه نمایه سازی به روشی که نیاز دارید انجام شود، یک سند ویژه "robots.txt" ایجاد می کنید. این به سیستم اجازه می‌دهد فقط صفحاتی را که نیاز دارید بررسی کند و آن‌هایی را که نمی‌خواهید ببینید حذف کند.

    انواع موتورهای جستجو

    چندین گزینه برای سیستم های بازیابی اطلاعات وجود دارد:

    • کاتالوگ ها مقایسه جستجوی ساده یک قفسه کتاب در یک کتابخانه است. همه چیز در زیر شاخه ها و دسته بندی های یک موضوع خاص در آنجا ذخیره می شود. اگر وارد چنین موتور جستجویی شدید، باور کنید، اطلاعاتی که در آنجا خواهید یافت برای درک شما مفید و قابل درک خواهد بود. حدس زدید کدام سایت رایج مورد نظر است؟ البته در مورد ویکی پدیا که یک راهنمای کامل جمع آوری کرده است اطلاعات مفید.
    • جستجوگرها جستجو در داده ها با هزینه انجام می شود عبارات کلیدی. هم راحت و هم در عین حال ناخوشایند است. فکر می‌کنم کسانی که به‌دنبال «دختر کلاس نشان می‌دهد» هستند، من را درک خواهند کرد، تا بفهمند که چگونه یک دختر انگشت شست خود را بالا نشان می‌دهد، و در جستجو چیزی نه چندان مناسب ظاهر می‌شود. 🙂 این نوع جستجو مشخصه اکثر موتورهای جستجو است.
    • سیستم های رتبه بندی محبوبیت خود را با توجه به تعداد بازدیدها مشخص کنید. البته، بهترین معیار نیست، زیرا سودمندی و کیفیت خود منبع همیشه در نظر گرفته نمی شود. نمونه ای از چنین سیستمی منبع اینترنتی alexa.com است.

    موتورهای جستجو نیز به دو دسته تقسیم می شوند عمومی و تخصصی. موتورهای جستجوی عمومی داده های اطلاعاتی را بدون هیچ انتخابی برای همه منابع وب شناخته شده برای آنها مرتب می کنند. اینها عبارتند از Yandex، Rambler، Google. تخصصی - مرتب سازی بر اساس زبان مورد استفاده.

    همچنین موتورهای جستجو را می توان به دو دسته تقسیم کرد توزیع منطقه ای و جهانی.

    تا به امروز، همه موتورهای جستجو به طور مداوم الگوریتم های خود را برای انتخاب منابع مرتبط با کیفیت بالا بهبود می بخشند.

    کمی تاریخ

    PS در سال 1996 در Runet ظاهر شد - اینها Aport و Rambler هستند. یک سال بعد، در سال 1997، Yandex تشکیل شد و یک سال بعد، در سال 1998، رقیب دیگری ظاهر شد - گوگل. که در در حال حاضرمحبوب ترین آنها Yandex و Google هستند.

    محبوب ترین موتورهای جستجو در حال حاضر کدامند؟

    این هم آمار:

    همانطور که می بینید، Yandex در روسیه در کنار گوگل و میل محبوب ترین است.

    بنابراین، می توانید جستجوهای برتری را که باید هنگام ایجاد و تبلیغ پروژه خود روی آنها تمرکز کنید، مشاهده کنید.

    موتور جستجوی Yandex (Yandex)

    اصل کار به شرح زیر است: رشته جستجوعبارت مورد نظر خود را وارد کنید، روی "یافتن" کلیک کنید و خروجی را ببینید. Yandex 13 میلیون پاسخ به درخواست شما را دریافت کرد. شما همچنین می توانید در تصاویر، فیلم ها، بازار جستجو کنید (به ستون سمت چپ نگاه کنید).

    علاوه بر این، می توانید منطقه جستجو را تنظیم کنید. برای این کار بر روی نماد کنار ضربدر در نوار جستجو کلیک کرده و ناحیه مورد نظر را در پنجره فیلتر انتخاب کنید.

    موتور جستجوی گوگل (گوگل)

    گوگل مشابه Yandex کار می کند. می توانید اطلاعات را در بخش های مختلف جستجو کنید: تصاویر، فیلم ها، اخبار، نقشه ها و غیره.

    اگر روی «ابزارهای جستجو» کلیک کنید، یک پانل تنظیمات باز می شود که در آن می توانید منطقه، زبان و مدت زمان جستجوی اطلاعات را انتخاب کنید.

    اکنون می‌دانید که چه موتورهای جستجو در اینترنت وجود دارند، محبوب‌ترین آنها را نیز دیده‌اید، و اکنون، مسلح به اطلاعات، می‌توانید ارتباطات و تعامل خود را با موتورهای جستجو ایجاد کنید.

    برای امروز کافی است. مقاله را چگونه دوست دارید؟

    همه در حال حاضر.

    به شما توصیه می کنم وبلاگ را به روز کنید تا آخرین اخبار را از دست ندهید.

    اکاترینا کالمیکوا

    موتورهای جستجو (PS) برای مدت طولانی جزء ضروری اینترنت بوده اند. امروزه آنها مکانیسم های عظیم و پیچیده ای هستند که نه تنها ابزاری برای یافتن هر کدام هستند اطلاعات لازم، اما همچنین مناطق بسیار هیجان انگیز برای تجارت.


    بسیاری از کاربران جستجو هرگز به اصول کار خود، نحوه پردازش درخواست‌های کاربر، نحوه ساخت و عملکرد این سیستم‌ها فکر نکرده‌اند. این مطالب به افرادی که مشغول بهینه سازی هستند و درک دستگاه و عملکردهای اصلی موتورهای جستجو کمک می کند.

    توابع و مفهوم PS

    سیستم جستجویک مجموعه سخت افزاری-نرم افزاری است که برای انجام عملکرد جستجو در اینترنت و پاسخگویی به درخواست کاربر که معمولاً در قالب یک عبارت متنی (یا بهتر است بگوییم) تنظیم می شود، طراحی شده است. پرس و جو جستجو) ، صدور لیست مرجع به منابع اطلاعاتی ، که بر اساس موضوع مربوطه انجام می شود. رایج ترین و سیستم های بزرگجستجو: گوگل، بینگ، یاهو، بایدو. در Runet - Yandex، Mail.Ru، Rambler.

    بیایید با در نظر گرفتن سیستم Yandex به عنوان مثال، معنای جستجوی خود را دقیق تر بررسی کنیم.

    درخواست باید توسط کاربر مطابق با موضوع جستجوی وی، تا حد امکان ساده و مختصر فرموله شود. به عنوان مثال، ما می خواهیم اطلاعاتی را در این موتور جستجو پیدا کنیم: "چگونه یک ماشین برای خود انتخاب کنید". برای این کار، باز کنید صفحه نخستو یک پرس و جو برای جستجوی "چگونه ماشین انتخاب کنیم" را وارد کنید. سپس عملکردهای ما به دنبال کردن پیوندهای ارائه شده به منابع اطلاعاتی در شبکه کاهش می یابد.




    اما حتی با این روش نیز ممکن است اطلاعات مورد نیاز خود را به دست نیاوریم. اگر چنین نتیجه منفی گرفتیم، فقط باید پرس و جو خود را مجدداً فرمول بندی کنیم، یا واقعاً هیچ اطلاعات مفیدی در مورد این نوع پرس و جو در پایگاه داده جستجو وجود ندارد (این کاملاً ممکن است با پارامترهای پرس و جو باریک داده شده، مانند: به عنوان مثال، "نحوه انتخاب یک ماشین در آنادیر").

    اساسی ترین وظیفه هر موتور جستجو ارائه دقیقاً نوع اطلاعات مورد نیاز مردم است. و عادت دادن کاربران به ایجاد نوع "صحیح" پرس و جو برای موتورهای جستجو، یعنی عباراتی که با اصول کار آنها مطابقت دارد، عملا غیرممکن است.

    به همین دلیل است که توسعه دهندگان موتورهای جستجو اصول و الگوریتم هایی را برای کار خود ایجاد می کنند که به کاربران امکان می دهد اطلاعات مورد نظر خود را پیدا کنند. این بدان معنی است که سیستم باید به همان روشی که شخص در هنگام جستجوی اطلاعات لازم در اینترنت فکر می کند "فکر کند".

    هنگامی که او درخواست خود را در یک موتور جستجو وارد می کند، می خواهد آنچه را که می خواهد به آسانی و سریع ترین زمان ممکن پیدا کند. پس از دریافت نتیجه، کاربر ارزیابی خود را از سیستم انجام می دهد که توسط چندین معیار هدایت می شود. آیا او موفق شد پیدا کند اطلاعات لازم? اگر نه، چند بار باید متن پرس و جو را دوباره قالب بندی می کرد تا او را پیدا کند؟ اطلاعات دریافتی چقدر به روز بوده است؟ موتور جستجو چقدر سریع درخواست او را پردازش کرد؟ نتایج جستجو چقدر راحت ارائه شد؟ آنجا بود نتیجه مطلوباول، یا در جایگاه سی ام بود؟ چقدر «آشغال» (اطلاعات غیر ضروری) همراه با اطلاعات مفید پیدا شد؟ آیا در یک هفته یا یک ماه دیگر اطلاعات مربوط به او در هنگام استفاده از PS وجود خواهد داشت؟




    توسعه دهندگان جستجو برای دستیابی به پاسخ های مناسب برای چنین سؤالاتی، دائماً اصول رتبه بندی و الگوریتم های آن را بهبود می بخشند، ویژگی ها و عملکردهای جدیدی را به آنها اضافه می کنند و به هر طریقی سعی می کنند سیستم را سریعتر کار کنند.

    ویژگی های اصلی موتورهای جستجو

    بیایید ویژگی های اصلی جستجو را مشخص کنیم:

    کامل بودن.

    کامل بودن یکی از مهمترین ویژگی های جستجو است، این نسبت اعداد یافت شده توسط پرس و جو است. اسناد اطلاعاتیبه تعداد کل آنها در اینترنت مربوط به این درخواست. به عنوان مثال، در شبکه 100 صفحه با عبارت "چگونه ماشین انتخاب کنیم" وجود دارد و برای همان درخواست فقط 60 صفحه از کل انتخاب شده است، سپس در این موردکامل بودن جستجو 0.6 خواهد بود. واضح است که هرچه خود جستجو کاملتر باشد، احتمال اینکه کاربر دقیقاً سند مورد نیاز خود را پیدا کند، البته اگر اصلاً وجود داشته باشد، بیشتر می شود.

    دقت.

    یکی دیگر از ویژگی های اصلی یک موتور جستجو، دقت است. میزان انطباق با درخواست کاربر از صفحات یافت شده در وب را تعیین می کند. به عنوان مثال، اگر صدها سند برای عبارت کلیدی "چگونه یک ماشین انتخاب کنیم" وجود دارد، نیمی از آنها حاوی این عبارت هستند و بقیه به سادگی چنین کلماتی دارند (نحوه انتخاب صحیح رادیو ماشین و نصب آن در ماشین) ، سپس دقت جستجو برابر با 50/100 = 0.5 است.

    هرچه جستجو دقیق تر باشد، کاربر زودتر اطلاعات مورد نیاز خود را پیدا می کند، "آشغال" های مختلف کمتری در بین نتایج یافت می شود، اسناد کمتری که پیدا می شود با معنای درخواست مطابقت نخواهد داشت.

    ارتباط.

    این یک جزء مهم از جستجو است که با زمان سپری شده از لحظه انتشار اطلاعات در اینترنت تا ورود به پایگاه داده فهرست موتور جستجو مشخص می شود.

    به عنوان مثال، روز بعد از اطلاعات در مورد خروج آی پد جدید، بسیاری از کاربران با انواع جستجوهای مربوطه به جستجو روی آوردند. در بیشتر موارد، اطلاعات مربوط به این خبر از قبل در جستجو موجود است، اگرچه زمان بسیار کمی از ظهور آن گذشته است. دلیل این امر این است که موتورهای جستجوی بزرگ دارای یک "پایگاه داده سریع" هستند که چندین بار در روز به روز می شود.

    سرعت جستجو

    چنین عملکردی به عنوان سرعت جستجو ارتباط نزدیکی با به اصطلاح "تحمل بار" دارد. در هر ثانیه تعداد زیادی از مردم به جستجو روی می آورند، چنین حجم کاری مستلزم کاهش قابل توجهی در زمان پردازش یک درخواست است. در اینجا، منافع موتور جستجو و کاربر کاملاً منطبق است: بازدید کننده می خواهد در سریع ترین زمان ممکن به نتیجه برسد و موتور جستجو باید درخواست او را در سریع ترین زمان ممکن پردازش کند تا روند پردازش درخواست های بعدی را کند نکند.

    دید.

    ارائه بصری نتایج یک عنصر ضروری برای راحتی جستجو است. برای بسیاری از پرس و جوها، موتور جستجو هزاران و در برخی موارد میلیون ها مورد را پیدا می کند اسناد مختلف. به دلیل مبهم بودن جمع‌آوری عبارات کلیدی برای جستجو یا نادرست بودن آن، حتی اولین نتایج پرس و جو همیشه فقط اطلاعات لازم را ندارند.

    این بدان معنی است که یک فرد اغلب باید جستجوی خود را در بین نتایج ارائه شده انجام دهد. اجزای مختلف صفحات صدور PS به شما کمک می کند تا در نتایج جستجو پیمایش کنید.

    تاریخچه موتورهای جستجو

    هنگامی که اینترنت برای اولین بار شروع به توسعه کرد، تعداد کاربران معمولی آن کم بود و میزان دسترسی به اطلاعات نسبتاً کم بود. اساساً فقط متخصصان حوزه های تحقیقاتی به این شبکه دسترسی داشتند. در آن زمان، وظیفه یافتن اطلاعات به اندازه اکنون مرتبط نبود.

    یکی از اولین روش های سازماندهی دسترسی گسترده به منابع اطلاعاتی ایجاد کاتالوگ از سایت ها بود و پیوندها به آنها شروع به گروه بندی بر اساس موضوع کردند. منبع Yahoo.com که در بهار سال 1994 افتتاح شد، به اولین پروژه تبدیل شد. پس از آن، زمانی که تعداد سایت های موجود در فهرست یاهو به میزان قابل توجهی افزایش یافت، گزینه جستجوی اطلاعات لازم در فهرست اضافه شد. این هنوز یک موتور جستجوی تمام عیار نبود، زیرا دامنه چنین جستجویی فقط به سایت های موجود در این فهرست محدود می شد و نه مطلقاً تمام منابع موجود در اینترنت. دایرکتوری های پیوند در گذشته بسیار مورد استفاده قرار می گرفتند، اما در حال حاضر، تقریباً به طور کامل محبوبیت خود را از دست داده اند.

    به هر حال، حتی کاتالوگ های عظیم امروزی نیز اطلاعاتی در مورد بخش کوچکی از سایت های موجود در اینترنت دارند. معروف ترین و بزرگ ترین دایرکتوری در جهان اطلاعاتی در مورد پنج میلیون سایت دارد، در حالی که پایگاه داده گوگل حاوی اطلاعات بیش از 25 میلیارد صفحه است.




    اولین موتور جستجوی واقعی WebCrawler بود که در سال 1994 ظاهر شد.

    سال بعد AltaVista و Lycos ظاهر شدند. علاوه بر این، اولین نفر برای مدت طولانی رهبر در جستجوی اطلاعات بود.




    در سال 1997، سرگئی برین به همراه لری پیج ماشینی را ساختند موتور جستجوی گوگلبه عنوان یک پروژه تحقیقاتی در دانشگاه استنفورد. امروزه گوگل، محبوب ترین و محبوب ترین موتور جستجو در جهان است.




    در سپتامبر 1997، Yandex PS (به طور رسمی) معرفی شد که در حال حاضر بیشترین است سیستم محبوبدر RuNet جستجو کنید




    مطابق با سپتامبر 2015، سهام موتورهای جستجو در جهان به شرح زیر است:
    • گوگل - 69.24%؛
    • بینگ - 12.26٪؛
    • یاهو - 9.19%؛
    • بایدو - 6.48٪;
    • AOL - 1.11%؛
    • بپرسید - 0.23%؛
    • هیجان انگیز - 0.00٪


    مطابق با دسامبر 2016، سهام موتورهای جستجو در Runet:

    • Yandex - 48.40٪
    • Google - 45.10٪
    • Search.Mail.ru - 5.70%
    • Rambler - 0.40٪
    • بینگ - 0.30٪
    • یاهو - 0.10٪

    اصول موتورهای جستجو

    در روسیه سیستم اصلیجستجو Yandex، سپس Google، و سپس [email protected] است. همه موتورهای جستجوی بزرگ ساختار خاص خود را دارند که کاملاً با سایر موتورهای جستجو متفاوت است. اما هنوز هم می توان عناصر اصلی مشترک در همه موتورهای جستجو را مشخص کرد.

    ماژول نمایه سازی

    این جزء از سه ربات تشکیل شده است:

    عنکبوت(به انگلیسی spider) - برنامه ای که برای دانلود صفحات وب طراحی شده است. عنکبوت یک صفحه خاص را دانلود می کند و در عین حال همه لینک ها را از آن استخراج می کند. در حال دانلود کد htmlتقریبا از هر صفحه برای این کار ربات ها از پروتکل های HTTP استفاده می کنند.




    "عنکبوت" به شرح زیر عمل می کند. ربات درخواست "get/path/document" و سایر دستورات را به سرور ارسال می کند درخواست HTTP. در پاسخ، برنامه ربات یک جریان متنی دریافت می کند که حاوی اطلاعاتی از نوع سرویس و البته خود سند است.
    • آدرس صفحه دانلود شده؛
    • تاریخ دانلود صفحه؛
    • هدر پاسخ سرور http;
    • کد html، "بدنه" صفحه.
    خزنده(عنکبوت "مسافر"). این برنامهبه طور خودکار از تمام پیوندهای موجود در صفحه بازدید می کند و همچنین آنها را برجسته می کند. وظیفه آن این است که بر اساس این پیوندها یا بر اساس لیست مشخصی از آدرس ها، تعیین کند که عنکبوت در آینده باید به کجا برود.

    نمایه ساز(ربات نمایه سازی) برنامه ای است که صفحات دانلود شده توسط عنکبوت ها را تجزیه و تحلیل می کند.



    نمایه ساز صفحه را به طور کامل به عناصر تشکیل دهنده آن تجزیه می کند و آنها را با استفاده از انواع الگوریتم های مورفولوژیکی و واژگانی خود تجزیه و تحلیل می کند.

    تجزیه و تحلیل در بخش‌های مختلف صفحه مانند سرفصل‌ها، متن، پیوندها، ویژگی‌های سبک و ساختاری، تگ‌های html و غیره انجام می‌شود.

    بنابراین، ماژول نمایه سازی امکان دنبال کردن پیوندهای تعداد معینی از منابع، صفحات دانلود، استخراج حجم پیوند به صفحات جدید از اسناد دریافتی و تجزیه و تحلیل دقیق آنها را فراهم می کند.

    پایگاه داده

    پایگاه داده(یا فهرست موتور جستجو) - مجموعه ذخیره سازی داده ها، آرایه ای از اطلاعات که در آن پارامترهای هر یک پردازش شده توسط ماژول نمایه سازی و سند دانلود شده به روشی خاص ذخیره می شوند.

    سرور جستجو

    این مهمترین عنصر کل سیستم است، زیرا سرعت و البته کیفیت جستجو به طور مستقیم به الگوریتم های زیربنایی عملکرد آن بستگی دارد.

    سرور جستجواینگونه کار می کند:

    • درخواستی که از کاربر می آید در معرض تجزیه و تحلیل مورفولوژیکی قرار می گیرد. محیط اطلاعاتی هر سند موجود در پایگاه داده تولید می شود (بیشتر به عنوان یک قطعه نمایش داده می شود، یعنی یک فیلد اطلاعاتی از متن مربوط به این درخواست).
    • داده های دریافتی به عنوان پارامترهای ورودی به یک ماژول رتبه بندی تخصصی ارسال می شود. آنها برای همه اسناد پردازش می شوند، و در نتیجه، برای هر یک از این اسناد رتبه بندی خود محاسبه می شود، که ارتباط چنین سندی را با درخواست کاربر و سایر اجزا مشخص می کند.
    • بسته به شرایط تعیین شده توسط کاربر، این رتبه بندی ممکن است توسط موارد اضافی تنظیم شود.
    • سپس خود قطعه تولید می شود، یعنی. برای هر سند یافت شده، عنوان، حاشیه نویسی که بیشترین تطابق را با پرس و جو دارد، و پیوندی به این سند از جدول مربوطه استخراج می شود، در حالی که فرم های کلمه و کلمات یافت شده برجسته می شوند.
    • نتایج جستجوی دریافتی در قالب صفحه ای که نتایج جستجو (SERP) در آن صادر می شود به شخصی که آن را انجام داده است منتقل می شود.
    همه این عناصر از نزدیک به هم مرتبط هستند و عمل می کنند، تعامل دارند، مکانیزم متمایز، اما نسبتاً پیچیده ای را برای عملکرد PS تشکیل می دهند، که به هزینه های هنگفت منابع نیاز دارد.

    موتور جستجو یک سیستم نرم‌افزاری و سخت‌افزاری است که برای جستجو در اینترنت و پاسخ به درخواست کاربر که در قالب یک عبارت متنی (جستجوی جست‌وجو) مشخص می‌شود، با صدور فهرستی از پیوندها به منابع اطلاعاتی، به ترتیب مرتبط (در مطابق با درخواست). بزرگترین موتورهای جستجوی بین المللی: گوگل, "یاهو", "MSN". در اینترنت روسیه، این است "Yandex", رامبلر, "پورت".

    بیایید ویژگی های اصلی موتورهای جستجو را شرح دهیم:

      کامل بودن

    کامل بودن یکی از ویژگی های اصلی یک موتور جستجو است که عبارت است از نسبت تعداد اسناد یافت شده توسط درخواست به تعداد کل اسناد موجود در اینترنت که این درخواست را برآورده می کند. به عنوان مثال، اگر 100 صفحه در اینترنت حاوی عبارت "چگونه ماشین انتخاب کنیم" وجود داشته باشد و تنها 60 مورد از آنها برای پرس و جو مربوطه یافت شود، فراخوان جستجو 0.6 خواهد بود. بدیهی است که هرچه جستجو کاملتر باشد، احتمال اینکه کاربر سند مورد نیاز خود را پیدا نکند، به شرطی که اصلاً در اینترنت وجود داشته باشد، کمتر می شود.

      دقت

    دقت یکی دیگر از مشخصه های اصلی موتور جستجو است که بر اساس میزان مطابقت اسناد یافت شده با درخواست کاربر تعیین می شود. به عنوان مثال، اگر عبارت "چگونه یک ماشین را انتخاب کنیم" شامل 100 سند باشد، 50 مورد از آنها عبارت "چگونه یک ماشین را انتخاب کنیم" و بقیه فقط حاوی این کلمات هستند ("نحوه انتخاب رادیو مناسب و نصب آن در a car”)، سپس دقت جستجو برابر با 50/100 (=0.5) در نظر گرفته می شود. هرچه جستجو دقیق تر باشد، کاربر سریعتر اسناد مورد نیاز خود را پیدا می کند، انواع مختلفی از "آشغال" در بین آنها کمتر می شود، اسناد یافت شده کمتر با درخواست مطابقت ندارند.

      ارتباط

    ارتباط یک مؤلفه به همان اندازه مهم جستجو است که مشخصه آن زمانی است که از لحظه انتشار اسناد در اینترنت تا ورود آنها به پایگاه داده فهرست موتور جستجو می گذرد. به عنوان مثال، روز بعد از ظهور اخبار جالب، تعداد زیادی از کاربران با پرس و جوهای مرتبط به موتورهای جستجو مراجعه کردند. به طور عینی، کمتر از یک روز از انتشار اطلاعات خبری در این زمینه می گذرد، با این حال، به لطف وجود به اصطلاح "پایه سریع" موتورهای جستجوی بزرگ، اسناد اصلی قبلاً نمایه و قابل جستجو شده اند. چندین بار در روز به روز می شود.

      سرعت جستجو

    سرعت جستجو ارتباط نزدیکی با تحمل بار آن دارد. به عنوان مثال، با توجه به OOO Rambler Internet Holding، امروزه حدود 60 درخواست در ثانیه در طول ساعات کاری به موتور جستجوی Rambler می رسد. چنین حجم کاری مستلزم کاهش زمان پردازش یک درخواست است. در اینجا، منافع کاربر و موتور جستجو بر هم منطبق است: بازدید کننده می خواهد در سریع ترین زمان ممکن به نتیجه برسد و موتور جستجو باید در سریع ترین زمان ممکن درخواست را پردازش کند تا محاسبه درخواست های بعدی را کند نکند.

      دید

    قابل مشاهده بودن ارائه نتایج یک جزء مهم است جستجوی راحت. برای اکثر پرس و جوها، موتور جستجو صدها یا حتی هزاران سند را پیدا می کند. به دلیل عدم وضوح در فرمول استعلام ها یا عدم دقت جستجو، حتی صفحات اول صدور همیشه فقط حاوی اطلاعات لازم نیست. این بدان معنی است که کاربر اغلب مجبور است جستجوی خود را در لیست یافت شده انجام دهد. عناصر مختلف صفحه نتایج موتور جستجو به شما کمک می کند تا در نتایج جستجو پیمایش کنید. توضیحات مفصل در صفحه نتایج جستجو، به عنوان مثال، برای Yandex، در پیوند قابل مشاهده است. http://help.yandex.ru/search/?id=481937.

    4. تاریخچه مختصری از توسعه موتورهای جستجو

    در دوره اولیه توسعه اینترنت، تعداد کاربران آن کم و میزان اطلاعات موجود نسبتاً کم است. در بیشتر موارد، فقط پژوهشگران به اینترنت دسترسی داشتند. در آن زمان، کار جستجوی اطلاعات در اینترنت به اندازه فعلی نبود.

    یکی از اولین راه‌های سازمان‌دهی دسترسی به منابع اطلاعاتی شبکه، ایجاد کاتالوگ‌های باز از سایت‌ها بود، پیوندهایی به منابع که در آنها بر اساس موضوع گروه‌بندی می‌شدند. اولین پروژه از این دست Yahoo.com بود که در بهار 1994 افتتاح شد. پس از افزایش چشمگیر تعداد سایت های دایرکتوری یاهو، امکان جستجوی اطلاعات لازم در دایرکتوری اضافه شد. به معنای کامل، هنوز یک موتور جستجو نبود، زیرا دامنه جستجو فقط به منابع موجود در فهرست محدود بود و نه به همه منابع اینترنتی.

    دایرکتوری های پیوند در گذشته به طور گسترده مورد استفاده قرار می گرفتند، اما در زمان حاضر تقریباً به طور کامل محبوبیت خود را از دست داده اند. از آنجایی که حتی کاتالوگ های مدرن و عظیم فقط در مورد بخش ناچیزی از اینترنت اطلاعات دارند. بزرگترین دایرکتوری شبکه DMOZ (که پروژه دایرکتوری باز نیز نامیده می شود) حاوی اطلاعاتی در مورد 5 میلیون منبع است، در حالی که پایگاه داده موتور جستجوی Google از بیش از 8 میلیارد سند تشکیل شده است.

    اولین موتور جستجوی کامل پروژه WebCrawler بود که در سال 1994 منتشر شد.

    در سال 1995، موتورهای جستجو Lycos و AltaVista ظاهر شدند. دومی سالها پیشرو در زمینه جستجوی اطلاعات در اینترنت بوده است.

    در سال 1997، سرگئی برین و لری پیج موتور جستجوی گوگل را به عنوان بخشی از یک پروژه تحقیقاتی در دانشگاه استنفورد ایجاد کردند. گوگل در حال حاضر محبوب ترین موتور جستجو در جهان است!

    در سپتامبر 1997، موتور جستجوی Yandex، که محبوب ترین در اینترنت روسی زبان است، به طور رسمی معرفی شد.

    در حال حاضر، سه موتور جستجوی اصلی بین المللی وجود دارد - گوگل، یاهو و MSN، که پایگاه های داده و الگوریتم های جستجوی خود را دارند. اکثر موتورهای جستجوی دیگر (که تعداد زیادی از آنها وجود دارد) از نتایج سه فهرست شده به هر شکلی استفاده می کنند. به عنوان مثال، جستجوی AOL (search.aol.com) از Google استفاده می کند، در حالی که AltaVista، Lycos و AllTheWeb از Yahoo استفاده می کنند.

    5. ترکیب و اصول موتور جستجو

    در روسیه، موتور جستجوی اصلی Yandex است، بیشتر - Rambler.ru، Google.ru، Aport.ru، Mail.ru. علاوه بر این، در حال حاضر، Mail.ru از موتور جستجوی Yandex و پایگاه داده استفاده می کند.

    تقریباً همه موتورهای جستجوی اصلی ساختار خاص خود را دارند که با سایر موتورهای جستجو متفاوت است. با این حال، می توان اجزای اصلی مشترک در همه موتورهای جستجو را مشخص کرد. تفاوت در ساختار فقط می تواند در قالب اجرای مکانیسم های تعامل این اجزا باشد.

    ماژول نمایه سازی

    ماژول نمایه سازی از سه برنامه کمکی (ربات ها) تشکیل شده است:

    عنکبوت (عنکبوت) - برنامه ای که برای دانلود صفحات وب طراحی شده است. "عنکبوت" صفحه را دانلود می کند و تمام لینک های داخلی را از این صفحه استخراج می کند. کد html هر صفحه دانلود می شود. ربات ها از پروتکل های HTTP برای دانلود صفحات استفاده می کنند. "عنکبوت" به شرح زیر عمل می کند. ربات درخواست "get/path/document" و برخی دیگر از دستورات درخواست HTTP را به سرور ارسال می کند. در پاسخ، ربات یک جریان متنی حاوی اطلاعات سرویس و خود سند دریافت می کند.

      آدرس صفحه

      تاریخ دانلود صفحه

      پاسخ سرور هدر http

      بدنه صفحه (کد html)

    خزنده (عنکبوت "مسافرت") - برنامه ای که به طور خودکار تمام پیوندهای موجود در صفحه را دنبال می کند. تمام پیوندهای موجود در صفحه را انتخاب می کند. وظیفه آن این است که بر اساس پیوندها یا بر اساس یک لیست از پیش تعریف شده از آدرس ها، تعیین کند که عنکبوت باید به کجا برود. خزنده، به دنبال پیوندهای یافت شده، اسناد جدیدی را جستجو می کند که هنوز برای موتور جستجو ناشناخته هستند.

    Indexer (Robot-indexer) - برنامه ای که صفحات وب دانلود شده توسط عنکبوت ها را تجزیه و تحلیل می کند. نمایه ساز صفحه را به اجزای سازنده آن تجزیه می کند و آنها را با استفاده از الگوریتم های واژگانی و صرفی خود تجزیه و تحلیل می کند. عناصر مختلف صفحه مانند متن، سرفصل ها، لینک ها، ویژگی های ساختاری و سبک، تگ های سرویس ویژه html و غیره تجزیه و تحلیل می شوند.

    بنابراین، ماژول نمایه سازی امکان پیمایش مجموعه معینی از منابع را با مرجع، دانلود صفحات مواجه شده، استخراج لینک به صفحات جدید از اسناد دریافتی و انجام تجزیه و تحلیل کامل این اسناد را فراهم می کند.

    پایگاه داده

    پایگاه داده یا فهرست موتور جستجو، یک سیستم ذخیره سازی داده است، یک آرایه اطلاعاتی که پارامترهای تبدیل شده ویژه همه اسناد دانلود شده و پردازش شده توسط ماژول نمایه سازی را ذخیره می کند.

    سرور جستجو

    سرور جستجو مهمترین عنصر کل سیستم است، زیرا کیفیت و سرعت جستجو مستقیماً به الگوریتم هایی بستگی دارد که زیربنای عملکرد آن است.

    سرور جستجو به صورت زیر عمل می کند:

      درخواست دریافت شده از کاربر در معرض تجزیه و تحلیل مورفولوژیکی قرار می گیرد. محیط اطلاعاتی هر سند موجود در پایگاه داده تولید می شود (که متعاقباً به عنوان یک قطعه، یعنی مطابق با درخواست نمایش داده می شود. اطلاعات متنیدر صفحه نتایج جستجو).

      داده های دریافتی به عنوان پارامترهای ورودی به یک ماژول رتبه بندی ویژه ارسال می شود. داده‌ها برای همه اسناد پردازش می‌شوند، در نتیجه، برای هر سند رتبه‌بندی خود محاسبه می‌شود که ارتباط درخواست وارد شده توسط کاربر را مشخص می‌کند و اجزای مختلف این سند در فهرست موتور جستجو ذخیره می‌شود.

      بسته به انتخاب کاربر، این رتبه بندی را می توان با شرایط اضافی تنظیم کرد (به عنوان مثال، به اصطلاح "جستجوی پیشرفته").

      در مرحله بعد، یک قطعه تولید می شود، یعنی برای هر سند یافت شده، یک عنوان، یک حاشیه نویسی مختصر که به بهترین وجه با پرس و جو مطابقت دارد و یک پیوند به خود سند از جدول سند استخراج می شود و کلمات یافت شده برجسته می شوند.

      نتایج جستجوی دریافتی در قالب SERP (صفحه نتایج موتور جستجو) - صفحه صدور نتایج جستجو به کاربر منتقل می شود.

    همانطور که می بینید، همه این مؤلفه ها ارتباط نزدیکی با یکدیگر دارند و در تعامل کار می کنند و یک مکانیسم واضح و نسبتاً پیچیده را برای موتور جستجو تشکیل می دهند که به منابع عظیمی نیاز دارد.

    هیچ موتور جستجویی تمام منابع اینترنتی را پوشش نمی دهد.

    هر موتور جستجو اطلاعات مربوط به منابع اینترنتی را با استفاده از روش های منحصر به فرد خود جمع آوری می کند و پایگاه داده به روز شده دوره ای خود را تشکیل می دهد. دسترسی به این پایگاه داده به کاربر داده می شود.

    موتورهای جستجو دو روش را برای جستجوی یک منبع اجرا می کنند:

      جستجو بر اساس موضوع کاتالوگ - اطلاعاتدر فرم ارائه شده است ساختار سلسله مراتبی. بر سطح بالا- دسته بندی های کلی ("اینترنت"، "کسب و کار"، "هنر"، "آموزش" و غیره)، در سطح بعدی دسته ها به بخش ها و غیره تقسیم می شوند. پایین ترین سطح - پیوندهایی به صفحات وب خاص یا سایر منابع اطلاعاتی.

      جستجوی کلمه کلیدی (جستجوی فهرست یا جستجوی دقیق) - کاربر به موتور جستجو ارسال می کند درخواست، متشکل از کلمات کلیدی. سیستم برمی گرداندبه کاربر فهرستی از منابع پیدا شده در صورت درخواست.

    اکثر موتورهای جستجو هر دو روش جستجو را با هم ترکیب می کنند.

    موتورهای جستجو می توانند محلی، جهانی، منطقه ای و تخصصی باشند.

    در بخش روسی اینترنت (Runet)، محبوب ترین موتورهای جستجوی همه منظوره عبارتند از Rambler (www.rambler.ru)، Yandex (www.yandex.ru)، Aport (www.aport.ru)، Google (www. .google.ru).

    اکثر موتورهای جستجودر قالب پورتال پیاده سازی شده است.

    پورتال (از انگلیسی.پورتال - ورودی اصلی، دروازه) وب سایتی است که خدمات مختلف اینترنتی را ادغام می کند: ابزارهای جستجو، نامه، اخبار، فرهنگ لغت و غیره.

    پورتال ها می توانند تخصصی باشند (مانندwww. موزه. en) و کلی (به عنوان مثال،www. کیلومتر. en).

    جستجوی کلمات کلیدی

    به مجموعه کلمات کلیدی که جستجو می شود عبارت جستجو یا موضوع جستجو نیز گفته می شود.

    یک درخواست می تواند از یک کلمه یا ترکیبی از کلمات ترکیب شده با عملگرها تشکیل شود - نمادهایی که سیستم به وسیله آنها تعیین می کند که چه عملی را باید انجام دهد. به عنوان مثال: پرس و جو "مسکو پیتر" حاوی یک عملگر AND (اینگونه است که یک فاصله درک می شود) که نشان می دهد باید به دنبال اسنادی باشید که حاوی هر دو کلمه هستند - هم مسکو و هم پیتر.

    برای اینکه جستجو مرتبط باشد (از انگلیسی مربوط - مرتبط، مرتبط)، چندین قانون کلی باید در نظر گرفته شود:

      صرف نظر از شکلی که کلمه در پرس و جو استفاده می شود، جستجو تمام فرم های کلمه آن را طبق قوانین زبان روسی در نظر می گیرد. به عنوان مثال، پرس و جو "بلیت" همچنین کلمات "ticket"، "ticket" و غیره را پیدا می کند.

      از حروف بزرگ فقط باید در نام های خاص استفاده شود تا لینک های غیر ضروری مشاهده نشود. به عنوان مثال، به درخواست " آهنگرها " اسنادی پیدا می شود که در مورد آهنگرها و کوزنتسوف صحبت می کند.

      توصیه می شود جستجوی خود را با استفاده از چند کلمه کلیدی محدود کنید.

      اگر آدرس مورد نظر در بین بیست آدرس اول یافت شده نباشد، باید درخواست را تغییر دهید.

    هر موتور جستجو از زبان پرس و جو خود استفاده می کند. برای آشنایی با آن، از کمک داخلی موتور جستجو استفاده کنید.

    سایت های بزرگ ممکن است دارای موتورهای جستجوی داخلی در صفحات وب خود باشند.

    پرس و جوها در چنین موتورهای جستجو، به عنوان یک قاعده، طبق قوانین مشابه در موتورهای جستجوی جهانی ساخته می شوند، اما آشنایی با کمک در اینجا نیز اضافی نخواهد بود.

    جستجوی پیشرفته

    موتورهای جستجو ممکن است مکانیزمی را برای کاربر فراهم کنند تا یک پرسش پیچیده را تشکیل دهد. دنبال کردن یک لینک جستجوی پیشرفتهبه شما امکان می دهد پارامترهای جستجو را ویرایش کنید، پارامترهای اضافی را مشخص کنید و راحت ترین شکل نمایش نتایج جستجو را انتخاب کنید. در زیر پارامترهایی را که می توان در جستجوی پیشرفته در سیستم های HindEx و Rambler مشخص کرد، توضیح می دهد.

    توضیحات پارامتر

    نام در Yandex

    نام دررامبلر

    کجا به دنبال کلمات کلیدی باشیم ( عنوان سند، متن متن و غیره)

    فیلتر دیکشنری

    جستجو بر اساس متن ...

    کدام کلمات باید یا نباید در سند وجود داشته باشد و تطابق چقدر باید دقیق باشد

    فیلتر دیکشنری

    کلمات جستجوی جستجو... اسناد حاوی کلمات زیر را حذف کنید...

    کلمات کلیدی چقدر باید از هم فاصله داشته باشند؟

    فیلتر دیکشنری

    فاصله بین کلمات پرس و جو...

    محدودیت تاریخ سند

    تاریخ سند...

    جستجوی خود را به یک یا چند سایت محدود کنید

    سایت/برترین

    جستجوی اسناد فقط در سایت های زیر...

    جستجو را با زبان سند محدود کنید

    زبان سند...

    به دنبال اسناد حاوی یک عکس با نام یا عنوان خاص بگردید

    تصویر

    جستجوی صفحهحاوی اشیاء

    اشیاء خاص

    فرم ارائه نتایج جستجو

    قالب موضوع

    نمایش نتایج جستجو

    برخی از موتورهای جستجو (به عنوان مثال، Yandex) به شما امکان می دهند پرس و جوها را به زبان طبیعی وارد کنید. آنچه را که نیاز دارید بنویسید (به عنوان مثال: سفارش بلیط قطار از مسکو به سنت پترزبورگ). سیستم درخواست را تجزیه و تحلیل می کند و نتیجه را برمی گرداند. اگر برای شما مناسب نیست، به زبان پرس و جو بروید.