موتورهای جستجو. موتورهای جستجوی اینترنتی: مروری بر راه حل های موجود

هر لحظه انسان تصمیم می گیرد. نتیجه: حرکت به جلو، هیاهو در محل یا حرکت در فضای اطلاعات، اما کجا؟ منظور از موتور جستجو چیست؟

بینایی خوب، شنوایی، عملکرد قابل اعتماد همه اندام های حسی و درک عینی از واقعیت تا حد زیادی تعیین کننده است کاربرد صحیحتجربه و دانش انباشته شده، به شهود فرصتی برای ابراز وجود می دهد. اما پاسخ صحیح نتیجه نه تنها سؤال صحیح، بلکه اطلاعات به درستی جمع آوری شده برای حل آن است (این منطقه معیار است).

به طور خلاصه منظور از موتور جستجو چیست؟ تاریخچه جستجو در اینترنت

در زمانی که کامپیوتر و اینترنت متعلق به نخبگان بود، منطق کتابداری مرسوم مورد تقاضا بود. چرا راه حل مشکل را پیچیده کنیم، در حالی که کاتالوگ فایل ها، داده ها، راه حل ها، برنامه ها و هر آنچه انجام شده و می تواند مفید باشد برای جهت یابی در فضای اطلاعات کافی است؟

آیا کاربران باید بنای یادبود بگذارند؟ به یاد بیاورید که شبکه ها، دایرکتوری ها، فرصت های ارتباطی و انباشت "اصلی" به دلیل کار طرفداران رایانه است:

سرمایه اطلاعاتی؛
پایه‌های ایده‌های مدرن (آنها در فراموشی فرو رفته‌اند، اما ظاهر زودگذر آنها چشم‌اندازی بلندمدت را شکل داده است).

قدرت و قابلیت های کامپیوترها به سرعت از حوزه محاسباتی به حوزه پردازش اطلاعات منتقل شد. اینترنت به سرعت شروع به تسخیر سرزمین های جدید در زمینه های کاربردی و ذهن مردم کرد. کتابداری ساده فوراً به مکانیسم های پیچیده موتورهای جستجو مهاجرت کرد.

ارتش های متعددی از جستجوگران، روبات ها، "عنکبوت ها" و الگوریتم های دیگر شروع به بررسی دقیق همه چیزهایی کردند که در فضای اینترنت افتاد. شاید آنها بودند که روشن کردند موتور جستجو چیست، جستجو چگونه کار می کند، اینترنت چیست. آنها یاد گرفتند که اطلاعات را فهرست بندی کنند، متوجه شدند از چه چیزی می توان و چگونه استفاده کرد.

این یک «جهان پیش اطلاعاتی» باستانی، سلاح‌های پیش از غبار، روش‌های ابتدایی جمع‌آوری بود - درست مانند ماهیگیری و شکار در زمانی که مردم تازه شروع به نمایش چیزی اجتماعی، اجتماعی مهم، جدا از طبیعت بر اساس معیار معقول بودن کرده بودند.

نمایه سازی: ما برده نیستیم، اما هنوز چیزی نداریم

نمایه سازی فضای اطلاعاتی، روش جهت گیری در اطلاعات جمع آوری شده و توانایی تصحیح صحیح آنچه در دسترس است به دلیل تغییرات شناسایی شده در محیط خارجی (اینترنت) مبنای بقا شد. این امر در حیات وحش پذیرفته شده است و فضای اینترنت در حال حاضر حیات خاص و کاملا واقعی خود را به دست آورده است.

همیشه چیزی در تاریخ وجود داشته که می‌توان به یاد آورد، اما همیشه این سوال پیش می‌آید که آیا واقعاً چنین بوده است، آیا آن «هستی» تاریخی با آدم‌های واقعی و خاطرات به یاد ماندنی پیوند دارد؟

شاید همسایه راه پله خالق گوگل باشد یا پایه های اساسی شکوفایی Yandex را فرموله کند. اما بسیاری از سال 1945 به عنوان نقطه شروع ایده ابرمتن یاد می کنند و استخراج کننده خودکار متن جادویی سالتون را پدر فناوری جستجوی مدرن می دانند.

از آن زمان تاکنون، آب زیادی از زیر پل جاری شده است و فهرست اولین موتورهای جستجو، اولین الگوریتم‌ها و ایده‌های باستانی به قدری بزرگ است که به خودی خود کار جستجوی خوبی برای سیستم‌سازی و نمایه‌سازی گذشته است.

ادعای اینکه دلیل ظهور گوگل به عنوان یک پدیده و سیستم مدرن- این فقط یک شخص واقعی نیست، دوستان و دوست دختر او است. چرا این یک نقطه کاملاً متفاوت در فضای اطلاعاتی نیست که با موفقیت طنین یا تداعی مورد نظر را برانگیخت؟

آگاهی عمومی انباشته هنوز آن جهان تاریکی است که در آن با نسخه خودش از لامپ ادیسون فاصله دارد.

سال 1994: کدام ربات کلمه کلیدی "مامان" را گفت؟

که در دنیای مدرنباور کردن گذشته سخت است، اما با در نظر گرفتن صحت تاریخ ها و مشارکت شخصیت های واقعی، باید توجه داشت که ظاهر کلید واژه ها- این هنوز یک هسته معنایی نیست.

منظور از یک موتور جستجو در پایان قرن گذشته کاملاً واضح بود: این موتورهای جستجوی محبوب دوازده موتور جستجو با رتبه رقابتی در مبارزه برای یک مشتری بودند. برخی از یاهو، برخی دیگر از Aport، برخی دیگر از Rambler خوششان آمد، اما در نهایت گوگل و یاندکس باقی ماندند.

همه اینها کلمات، نظرات، ترجیحات و حقایق جالب هستند. با این حال، هیولاهای کسب و کار جستجو شکل گرفتند، پایه های اساسی را ایجاد کردند، دانش عینی و تجربه محکمی در درک ایجاد کردند:

مکانیسم های جستجو؛
کلید واژه ها؛
هسته معنایی

فرامتن نه تنها پیشرفت کرد، بلکه اساس برنامه نویسی اینترنتی شد و راه را برای فناوری های جدی مرتبط هموار کرد.

نکته اصلی: نه ماهیت، همانطور که می فهمیم، و چه اتفاقی می افتد. مهم این است که جهت حرکت وجود داشته باشد و درست باشد. نوسانات نرخ ارز طبیعی است، اگر نوسان نبود دلیلی برای بهینه سازی معیارها وجود نداشت. و ملاک در سوال و در جواب مهمترین چیز است.

سال 1989: احیایی که فراموش شد

بازگشت یک مکانیسم تاریخی خاص و همیشه یک واقعیت جالب است. مردم، به ویژه دانشمندان و متخصصان واجد شرایط، تمایل دارند اصل چیزها را فراموش کنند و به رویاها بروند. دنیای جنگ ها، گلادیاتورها و نبردهای وحشتناک در مقایسه با مسابقاتی که در اذهان عمومی و خصوصی در جریان است، سرگرم کننده است. اینجا پادشاهی تاریکی است، اما شما باید به جلو حرکت کنید، و بدون پیروزی در هر مرحله نمی توانید آن را انجام دهید.

اصل عملکرد موتور جستجو اساس الگوریتم را تشکیل داد. پیاده سازی واقعی بسیاری از الگوریتم ها وجود دارد. تعداد بسیار کمی زنده ماندند، اما این چیزی است که کل جامعه اینترنتی را بین خود تقسیم کرد. مبارزه برای آرمان‌ها در میدان جستجو از قبل مهم بود، اما حتی داستان کوتاهتوسعه موتورهای جستجو دیگر مورد توجه مصرف کننده قرار نگرفته است.

کاربر به پاسخ نیاز دارد نه دستاوردهای دانشمندان و متخصصان. مصرف کننده می خواهد بداند چگونه یک سوال را به درستی فرموله کند تا به یک پاسخ مناسب دست یابد و مطمئن شود که موتور جستجو به درستی کار کرده است و معیارهای عینی را اعمال کرده است.

چه کسی به این واقعیت جالب اهمیت می دهد که OOP و ابرها در سال های 1989-1991 اختراع شدند. مطلقا هیچ کس! اما فقط ده سال پیش یک بازگشت وجود داشت: اکنون بدون OOP و فناوری های ابریممنوع است. اما بازگشت به عقب "در مسیر درست قرار نگرفت"، بنابراین پاسخ خاصی برای این سوال وجود ندارد که منظور از موتور جستجو چیست. هیچ چیز جدیدی ظاهر نشده است، اما اضافی است - بله.

تعریف موتور جستجو و جستجو

هنگامی که ماشین حساب ظاهر شد، شخص فکر می کرد که قوانین جمع، ضرب، تقسیم را فراموش می کند. زمان گذشت و ترس از بین رفت. ماشین‌حساب‌ها زنده هستند و فرد فراموش نکرده است که چگونه ساده‌ترین عملیات ریاضی را در یک ستون انجام دهد.

در زمانی که گوگل و یاندکس کار می کردند و تعداد کمی از موتورهای جستجوی معتبر در اطراف وجود داشت، این نظر وجود داشت: جستجو یک الگوریتم کامپیوتری است و موتور جستجو (تعریف کلمه و معنای آن) یک نرم افزار است. و مجتمع سخت افزاری با رابط وب، که امکان جستجوی اطلاعات در اینترنت را فراهم می کند.

نتایج موتورهای جستجو

منظور از موتور جستجو به راحتی قابل تصور است. یک رشته پرس و جو وجود دارد، بازدید کننده یک کلمه کلیدی می نویسد، دکمه "جستجو" را فشار می دهد و نتیجه را می گیرد. اما SERP جواب نیست و کلمه کلیدی سوال نیست.

که در زندگی معمولیشخص از کلمات کلیدی استفاده نمی کند و هرگز "مشکل" دریافت نمی کند. اگر کودک بخواهد غذا بخورد، این موضوع را به مادر یا بابا می گوید. همه چیز بستگی به این دارد که کودک دقیقاً چه می خواهد: واقعاً غذا بخورد یا برای بستنی پول دریافت کند. واکنش والدین ممکن است عاری از کلمات باشد، اما عمل به دنبال خواهد داشت.

کارمند از طریق کلمات کلیدی با کارفرما تماس نخواهد گرفت، در غیر این صورت نتیجه صدور اخراج بدون کلام خواهد بود.

همه اینها واقعیت است، اما یک شخص و یک سیستم کامپیوتری حوزه متفاوتی از روابط است. تا زمانی که ایده روشنی از معنای موتور جستجو وجود داشته باشد - اینها سوالات، پاسخ ها، معیارها نیستند، بلکه کلمات کلیدی و نتایج موتور (نتایج جستجو) هستند.

فایده واقعی لحظه

علاقه به سئو، رشد سریع تعداد استودیوهای وب، توسعه تبلیغات، تحمیل ایده ها، هزاران اسپم و زباله در صدور - همه اینها طبیعی و از نظر عینی طبیعی است. زمان مبارزه با هرزنامه ها، هکرها و منفی ها فرا رسیده است. انجام این کار با دقت ضروری است، اما سود واقعی از وضعیت فعلی تنها مرحله دیگری از توسعه تجارت جستجو است.

کلمات کلیدی عالی هستند هسته معناییسایت عالی است یک کامپیوتر می تواند متون را به زبان های مختلف ترجمه کند و جملات طبیعی را تجزیه کند. زبان SQLعملاً در "ارتباط" با پایگاه های داده تبدیل شد. SQL گویش های زیادی دارد و این یک شاخص واقعی است. زبان مصنوعی زنده شده است! این زبان قادر است به حجم عظیمی از اطلاعات سیستماتیک دسترسی پیدا کند.

اوراکل و دیگر رهبران پایگاه داده بزرگ دهه ها را صرف ارائه اطلاعات کرده اند. گوگل - در مورد مجموعه اطلاعات و مکانیسم های نمایه سازی. خانواده لینوکس جایگاه خود را حفظ کرده است، ویندوز سرپا مانده است و تعداد زبان های برنامه نویسی به سطح کافی کاهش یافته است.

هوش مصنوعی وارد دنیای رویاها شده است، توسعه دهندگان و مصرف کنندگان به طور عینی وارد دنیای مدیریت و استفاده خلاقانه اطلاعات شدند.

نتایج جستجو: مهم و بی فایده

سازماندهی نتایج جستجو چندان سخت نیست، اما در ده سال گذشته تغییری نکرده است. در اصل، این درست است. اگر نوار جستجو حاوی یک کلمه کلیدی باشد و نه یک سوال، پس از چه نوع پاسخی می توانیم صحبت کنیم؟ در همه موتورهای جستجوی مدرن معیارهایی وجود دارد، با درک مناسب با آنها برخورد می شود، اما چرا مصرف کننده را محدود می کنیم؟

واکنش کاربر به اینکه چه بخشی از نتایج جستجو را انتخاب می کند مهم است. این نظر او در مورد نتایج موتور جستجو است. موتورهای جستجو از این موضوع استقبال می کنند و نه تنها در یک درخواست خاص، بلکه به طور کلی آن را در نظر می گیرند.

کلیدواژه جریان و جریان SERP هر دو حاوی زباله اطلاعات هستند. دلیل شکل گیری معیارها نیز همین است. غیرممکن است که کار جستجو را به عنوان استفاده از یک کلمه کلیدی و الگوریتم برای اطلاعات انباشته شده، به عنوان پالایش اطلاعات انباشته شده در نظر بگیریم.

درباره چشم انداز: از جستجو تا راه حل

بهترین تصمیم این است که هیچ تصمیمی نگیرید. چه توسعه‌دهندگان موتورهای جستجو این را درک کنند یا نه، این واقعیت باقی می‌ماند که توسعه‌دهندگان می‌دانند که یک موتور جستجو در چارچوب پاسخ به یک کلمه کلیدی، مانند یک فهرست از نظر استخراج اطلاعات از داده‌های موجود و سیستم‌سازی‌شده، چیست.

خود مصرف کننده آنچه را که مناسب می بیند از نتایج جستجو انتخاب می کند و تصمیم می گیرد. موتور جستجو این را در نظر می گیرد و به یاد می آورد. چگونه یک شخص اطلاعات دریافت شده را دفع می کند - این کلمه کلیدی بعدی خواهد بود.

بنابراین موتور جستجو تصمیم گیری را یاد می گیرد و فرد یاد می گیرد که سؤالات را فرموله کند. تا اینجا اینها کلمات کلیدی هستند و نتیجه پاسخ نتایج جستجو است. اما کمیت همیشه به کیفیت تبدیل می شود.

موتورهای جستجوی اینترنتی چیست؟ واقعیتی مبتنی بر حرکت رو به جلو. بسیاری از کارهای عملی نیاز به هوشمندی سیستم های کامپیوتری ندارند. در بیشتر موارد، کافی است که آنها به سادگی به سؤالات درست پاسخ دهند.

سلام خوانندگان عزیز! با شما اکاترینا کالمیکوا. مقاله امروز به مفهومی به عنوان یک موتور جستجو اختصاص داده خواهد شد، اینکه چه چیزی است، برای چیست. همچنین نگاهی دقیق تر به انواع موتورهای جستجو در اینترنت خواهیم داشت.

اگر سوالی دارید: «چرا باید در مورد این موتورهای جستجو بدانم؟»، اینگونه پاسخ خواهم داد. وقتی در رستوران یک سوپ خوشمزه می خورید، دوست دارید بدانید از چه موادی درست شده است تا بتوانید خودتان آن را در خانه تکرار کنید؟ به هر حال، اگر از نتیجه نهایی، یعنی طعم سوپ راضی هستید، مطمئناً برایتان جالب است که بدانید چه چیزی منجر به چنین نتیجه ای شده است؟

شما همچنین می توانید در مورد کار با یک موتور جستجو (PS) بگویید. اگر در آینده وبلاگ خود را ایجاد کنید، با دانستن کار PS دیگر نیازی به کمک گرفتن از متخصصان نخواهید داشت. شما قادر خواهید بود پروژه خود را بطور مستقل به گونه ای مدیریت کنید که موتور جستجو آن را ببیند و به سایر کاربران نشان دهد. از این گذشته ، حضور منبع شما و بر این اساس درآمد به این بستگی دارد.

پس بیایید شروع کنیم.

موتور جستجو چیست؟

موتور جستجو است منبع ویژهدر اینترنت که اطلاعاتی را مطابق با درخواست کاربر در اختیار کاربر قرار می دهد. یعنی این منبع تمام داده ها را در آن جمع آوری می کند شبکه جهانی، تمام پروژه های وب است و زمانی که درخواست خاصی از کاربر دریافت می شود، با ارسال مثلاً به یک وبلاگ یا وب سایت موضوعی، اطلاعات لازم را ارائه می دهد.

بنابراین، پس از ایجاد پروژه خود، وظیفه شما ورود به موضوع، یعنی به "فهرست" یا پایگاه داده موتور جستجو خواهد بود. از آنجایی که تبلیغ وب سایت در اینترنت بدون استفاده از هیچ موتور جستجویی امکان پذیر نیست، بنابراین باید مراقب کیفیت منبع خود، بهینه سازی داخلی و خارجی آن باشید. در مقالات بعدی به نحوه انجام این کار خواهیم پرداخت. پس آن را از دست ندهید.

در ضمن، اگر تصمیم دارید وبلاگ خود را ایجاد کنید، توصیه می کنم این مقالات را بخوانید:

از آنجایی که منابع جدید وب تقریباً هر روز ظاهر می شوند، پایگاه داده موتورهای جستجو باید به طور مداوم بر این اساس به روز شوند. هر سایت تازه ایجاد شده باید توسط ربات ایندکس شود. صحبت کردن به زبان ساده، دستیاران PS - روبات ها باید با منبع جدید آشنا شوند و این داده ها را به خود موتور جستجو منتقل کنند.

خوب، در اینجا احتمالاً حدس زده اید که وقتی یک ربات از وبلاگ شما بازدید می کند، باید همه چیز را دوست داشته باشد. سرنوشت آینده شما به این مهمان بستگی دارد.

چگونه ربات پروژه خود را بسازیم پر از لذتدر یکی از مقالات بعدی خواهم گفت. آن را از دست ندهید، اطلاعات جالب و بسیار کنجکاوی وجود خواهد داشت که با شما به اشتراک خواهم گذاشت.

کار موتورهای جستجو

تمام کارهای مربوط به PS با وارد کردن پرس و جو مورد نظر در نوار جستجو شروع می شود. کاربران ممکن است به دنبال چه چیزی باشند؟ بله، هر چیزی، از دستور پخت کیک کلم گرفته تا سوال قدیمی "چگونه بدون انجام کاری پول بیشتری به دست آوریم."

برای اینکه منبع شما به عنوان پاسخی برای یک سوال مطرح شود، باید از رقبای خود جلوتر باشید. برای انجام این کار، باید به ارتقای پروژه خود توجه ویژه ای داشته باشید که شامل فعالیت هایی مانند نوشتن محتوای بهینه شده با کیفیت بالا، یعنی پاسخ به درخواست های مقاله، بهبود است. عامل رفتاری، یعنی برای اینکه خواننده شما در منبع جالب باشد، این یک بهبود در قابلیت استفاده است، یعنی راحتی بازدیدکننده و بسیاری عوامل دیگر. این کاری است که همه ما انجامش را یاد خواهیم گرفت.

اجزای موتور جستجو

و چه چیزی به موتورهای جستجو کمک می کند، مثلاً همان گوگل، منبع شما را ایندکس کند؟

نمایندگان کارگرانی هستند که بخش عمده ای از کار را انجام می دهند - آنها سایت ها را فهرست و تجزیه و تحلیل می کنند.
عنکبوت (عنکبوت) - برنامه ای که می تواند صفحات یک منبع وب را دانلود کرده و اطلاعات کلی در مورد آن را جمع آوری کند.
خزنده ها (خزنده) - برنامه ای که تمام پیوندهای موجود در صفحات را پیدا می کند و به دنبال آن داده های جدیدی را جستجو می کند که برای موتورهای جستجو آشنا نیستند.
Indexer - متن، عنوان، سبک و غیره را تجزیه و تحلیل می کند.
ربات ها - صفحات محتوای شما را فهرست می کنند و همچنین انواع لینک ها را مطالعه می کنند.

برای اینکه نمایه سازی به روشی که نیاز دارید انجام شود، یک سند ویژه "robots.txt" ایجاد می کنید. این به سیستم اجازه می‌دهد فقط صفحاتی را که نیاز دارید بررسی کند و آن‌هایی را که نمی‌خواهید ببینید حذف کند.

انواع موتورهای جستجو

چندین گزینه برای سیستم های بازیابی اطلاعات وجود دارد:

کاتالوگ ها مقایسه جستجوی ساده یک قفسه کتاب در یک کتابخانه است. همه چیز در زیر شاخه ها و دسته بندی های یک موضوع خاص در آنجا ذخیره می شود. اگر وارد چنین موتور جستجویی شدید، باور کنید، اطلاعاتی که در آنجا خواهید یافت برای درک شما مفید و قابل درک خواهد بود. حدس زدید کدام سایت رایج مورد نظر است؟ البته، در مورد ویکی پدیا، که فهرست کاملی از اطلاعات مفید را جمع آوری کرده است.
جستجوگرها جستجو در داده ها با هزینه عبارات کلیدی انجام می شود. هم راحت و هم در عین حال ناخوشایند است. فکر می‌کنم کسانی که به‌دنبال «دختر کلاس نشان می‌دهد» هستند، من را درک خواهند کرد، تا بفهمند که چگونه یک دختر انگشت شست خود را بالا نشان می‌دهد، و در جستجو چیزی نه چندان مناسب ظاهر می‌شود. 🙂 این نوع جستجو مشخصه اکثر موتورهای جستجو است.
سیستم های رتبه بندی محبوبیت خود را با توجه به تعداد بازدیدها مشخص کنید. البته، بهترین معیار نیست، زیرا سودمندی و کیفیت خود منبع همیشه در نظر گرفته نمی شود. نمونه ای از چنین سیستمی منبع اینترنتی alexa.com است.

موتورهای جستجو نیز به دو دسته تقسیم می شوند عمومی و تخصصی. موتورهای جستجوی عمومی داده های اطلاعاتی را بدون هیچ انتخابی برای همه منابع وب شناخته شده برای آنها مرتب می کنند. اینها عبارتند از Yandex، Rambler، Google. تخصصی - مرتب سازی بر اساس زبان مورد استفاده.

همچنین موتورهای جستجو را می توان به دو دسته تقسیم کرد توزیع منطقه ای و جهانی.

تا به امروز، همه موتورهای جستجو به طور مداوم الگوریتم های خود را برای انتخاب منابع مرتبط با کیفیت بالا بهبود می بخشند.

کمی تاریخ

PS در سال 1996 در Runet ظاهر شد - اینها Aport و Rambler هستند. یک سال بعد، در سال 1997، Yandex تشکیل شد و یک سال بعد، در سال 1998، رقیب دیگری ظاهر شد - گوگل. در حال حاضر محبوب ترین آنها Yandex و Google هستند.

محبوب ترین موتورهای جستجو در حال حاضر کدامند؟

در اینجا آمار است:

همانطور که می بینید، Yandex در روسیه در کنار گوگل و میل محبوب ترین است.

بنابراین، می توانید جستجوهای برتری را که باید هنگام ایجاد و تبلیغ پروژه خود روی آنها تمرکز کنید، مشاهده کنید.

موتور جستجوی Yandex (Yandex)

اصل کار به شرح زیر است: رشته جستجوعبارت مورد نظر خود را وارد کنید، روی "یافتن" کلیک کنید و خروجی را ببینید. Yandex 13 میلیون پاسخ به درخواست شما را دریافت کرد. شما همچنین می توانید در تصاویر، فیلم ها، بازار جستجو کنید (به ستون سمت چپ نگاه کنید).

علاوه بر این، می توانید منطقه جستجو را تنظیم کنید. برای این کار بر روی نماد کنار ضربدر در نوار جستجو کلیک کرده و ناحیه مورد نظر را در پنجره فیلتر انتخاب کنید.

موتور جستجوی گوگل (گوگل)

گوگل مشابه Yandex کار می کند. می توانید اطلاعات را در بخش های مختلف جستجو کنید: تصاویر، فیلم ها، اخبار، نقشه ها و غیره.

اگر روی «ابزارهای جستجو» کلیک کنید، یک پانل تنظیمات باز می شود که در آن می توانید منطقه، زبان و مدت زمان جستجوی اطلاعات را انتخاب کنید.

اکنون می‌دانید که چه موتورهای جستجو در اینترنت وجود دارند، محبوب‌ترین آنها را نیز دیده‌اید، و اکنون، مسلح به اطلاعات، می‌توانید ارتباطات و تعامل خود را با موتورهای جستجو ایجاد کنید.

برای امروز کافی است. مقاله را چگونه دوست دارید؟

همه در حال حاضر.

به شما توصیه می کنم وبلاگ را به روز کنید تا آخرین اخبار را از دست ندهید.

اکاترینا کالمیکوا

سیستم جستجو- یک مجموعه نرم افزاری و سخت افزاری با رابط وب که امکان جستجوی اطلاعات در اینترنت را فراهم می کند.

همه موتورهای جستجو با این واقعیت متحد می شوند که بر روی سرورهای قدرتمند اختصاصی ویژه قرار دارند و به کانال های ارتباطی مؤثر متصل هستند. موتورهای جستجو را سیستم های بازیابی اطلاعات (IPS) نیز می نامند. تعداد بازدیدکنندگانی که به طور همزمان از محبوب ترین سیستم ها ارائه می شوند به هزاران نفر می رسد. معروف ترین ها روزانه به میلیون ها مشتری خدمات می دهند. در مواردی که موتور جستجو بر اساس دایرکتوری است، به آن دایرکتوری می گویند. این بر اساس کار مدیران است. در قلب IPS با جستجوی تمام متن، جمع آوری خودکار اطلاعات است. توسط برنامه های ویژه انجام می شود. این برنامه ها به صورت دوره ای محتویات تمامی منابع اینترنتی را بررسی می کنند. برای انجام این کار، آنها از طریق منابع مختلف حرکت می کنند یا به قول خودشان می خزند. بر این اساس به چنین برنامه هایی روبات می گویند. نام های دیگری نیز وجود دارد: از آنجایی که WWW مخفف عبارت World Wide Web است، طبیعی است که چنین برنامه ای را در انگلیسی عنکبوت بنامیم. - عنکبوت. اخیراً از نام‌های دیگری استفاده شده است: فهرست یا فهرست‌های خودکار. همه این برنامه ها اطلاعات را از URL های مختلف کاوش و "دانلود" می کنند. برنامه هایی از نوع مشخص شده پس از مدت زمان معینی از هر منبع بازدید می کنند. هیچ موتور جستجویی قادر به فهرست کردن کل اینترنت نیست. بنابراین پایگاه های داده ای که آدرس منابع نمایه شده در آنها جمع آوری می شود برای موتورهای جستجوی مختلف متفاوت است. با این وجود، بسیاری از آنها تلاش می کنند، در صورت امکان، در کار خود کل فضای وب جهانی را پوشش دهند.

برای جستجوی اطلاعات با استفاده از موتور جستجو، کاربر یک عبارت جستجو را فرموله می کند. بر اساس درخواست کاربر، موتور جستجو یک صفحه نتایج جستجو ایجاد می کند. چنین نتایج جستجو می تواند انواع مختلفی از فایل ها را ترکیب کند، به عنوان مثال: صفحات وب، تصاویر، فایل های ویدئویی. برخی از موتورهای جستجو نیز داده ها را از پایگاه های داده و فهرست منابع موجود در اینترنت می کشند.

با توجه به روش های جستجو و نگهداری، چهار نوع موتور جستجو تقسیم می شوند:

1.سیستم هایی با استفاده از روبات های جستجوگر.

2. سیستم های کنترل شده توسط انسان

3. سیستم های هیبریدی

4. متا سیستم ها.

معماری موتور جستجو شامل: یک ربات جستجوگر که سایت‌های اینترنتی را اسکن می‌کند، یک فهرست‌کننده که جستجوی سریع را فراهم می‌کند، و یک موتور جستجو - یک رابط کاربری گرافیکی.

هدف یک موتور جستجو یافتن اسنادی است که حاوی کلمات کلیدی یا کلمات مرتبط با کلمات کلیدی هستند. موتور جستجو بهتر است، هر چه اسناد مربوط به درخواست کاربر بیشتر باشد.

نمونه های موتور جستجو

گوگل- یکی از کامل ترین و محبوب ترین IPS های خارجی. یکی از ویژگی های متمایز Google IPS، فناوری تعیین میزان ارتباط یک سند با تجزیه و تحلیل پیوندهای منابع دیگر به این منبع است. هرچه تعداد لینک های بیشتری به یک صفحه در صفحات دیگر باشد، رتبه آن در گوگل IPS بالاتر خواهد بود. گوگل از الگوریتم محاسبه اعتبار PageRank استفاده می کند. PageRank یکی از فاکتورهای کمکی در رتبه بندی سایت ها در نتایج جستجو است. PageRank تنها راه نیست بلکه بسیار مهم برای تعیین موقعیت یک سایت در نتایج جستجوی گوگل است. گوگل از PageRank صفحات یافت شده برای یک پرس و جو استفاده می کند تا ترتیبی که آن صفحات به بازدید کننده در نتایج جستجو ارائه می شوند را تعیین کند.در سال 2010، این شرکت جستجوی صوتی را در روسیه راه اندازی کرد. برای جستجو، باید دکمه کنار نوار جستجوی گوشی خود را فشار دهید و درخواست خود را بگویید، تلفن صدای شما را به سرور ارسال می کند و مرورگر رشته ای را نشان می دهد که درخواست شما شناسایی شده و نتایج جستجو برای آن نمایش داده می شود.

Yandexدر حال حاضر محبوب ترین موتور جستجوی داخلی است. در سال 1997 شروع به کار کرد. کاتالوگ خود را از منابع اینترنتی نگهداری می کند. همچنین بهترین موتور جستجو برای شناسایی تصاویر است. نسخه انگلیسی همراه با فهرست منابع اینترنتی ارائه شده است. دارای سیستم تولید درخواست توسعه یافته است. به ویژه، مجاز است نسخه جستجو را به زبان طبیعی وارد کنید - در این مورد، تمام پسوندهای لازم به طور خودکار ساخته می شوند.

علاوه بر صفحات وب HTML، Yandex اسناد را در PDF (Adobe Acrobat)، قالب متن غنی (RTF)، ورد باینری (doc.)، اکسل (.xls)، پاورپوینت (ppt.)، RSS (وبلاگ ها و انجمن ها) فهرست می کند.

موتور جستجوی Mail.ruدر سال 2007 شروع به کار کرد. حجم فایل فهرست در بهار سال 2009 بیش از 1.5 میلیارد صفحه بود که در سرورهای روسی زبان قرار داشت. این سیستم علاوه بر جستجوی متون، تصاویر و کلیپ های ویدئویی میزبانی شده در سرورهای روسی تخصصی "خود پر شده" را جستجو می کند: [email protected]، Flamber.Ru، 35Photo.ru، PhotoForum.ru، [email protected]، RuTube، Loadup، Rambler Vision و موارد مشابه. Gogo.ru به شما امکان می دهد منطقه جستجو را به سایت های تجاری، سایت های اطلاعاتی و همچنین انجمن ها و وبلاگ ها محدود کنید. فرم "جستجوی پیشرفته" همچنین امکان محدود کردن جستجوها را به انواع فایل های خاص (PDF، DOC، XLS، PPT)، موقعیت کلمات جستجو در سند یا یک دامنه خاص امکان پذیر می کند. در نوامبر 2013، نسخه جدیدی از برنامه جستجو از شرکت Mail.Ru در Google Play ظاهر شد که به شما امکان می دهد از صفحه اصلی به هر شبکه اجتماعی سوئیچ کنید و شامل دسترسی سریع به جستجوی تصاویر، فیلم ها و اخبار است. برنامه اندروید به یک مرورگر کوچک تبدیل شده است که برای یافتن کارآمد اطلاعات مورد نیاز شما طراحی شده است. این ابزار همچنین یاد گرفته است که پرس و جوهای جستجویی را که نه با متن، بلکه با صدا مشخص شده اند، تشخیص دهد. توسعه دهندگان همچنین خاطرنشان می کنند که یک ویجت ویژه ایجاد کرده اند که می تواند روی آن قرار گیرد صفحه اصلیگوشی هوشمند یا تبلت مبتنی بر سیستم اندروید گوگل. قابل درک است که این امر زمان صرف شده برای جستجو را بیشتر کاهش می دهد.

AltaVista- یکی از قدیمی ترین موتورهای جستجو از نظر حجم اسناد یکی از اولین مکان ها را به خود اختصاص داده است - بیش از 350 میلیون. AltaVista امکان جستجوی ساده و پیشرفته را فراهم می کند. "Help" به کاربران بی تجربه اجازه می دهد تا به درستی پرس و جوهای ساده و پیچیده را بنویسند.

رامبلر- یکی از اولین IRS روسیه که در سال 1996 افتتاح شد. در پایان سال 2002، یک نوسازی رادیکال انجام شد، پس از آن رامبلر دوباره وارد گروه رهبران شد. جستجوی شبکه. در حال حاضر حجم شاخص حدود 150 میلیون سند است. برای نوشتن پرس و جوهای پیچیده، توصیه می شود از حالت "پرس و جوی تفصیلی" استفاده کنید که فرصت های زیادی را برای جمع آوری نسخه جستجو با استفاده از آیتم های منو فراهم می کند.

APORT. تا به امروز، حجم پایگاه داده آن بیش از 20 میلیون سند است. این سیستم دارای طیف گسترده ای از قابلیت های جستجو است. APORT عملکرد یک مترجم داخلی را دارد که به کاربر امکان می دهد پرس و جوها را به زبان روسی و انگلیسی فرموله کند. علاوه بر این، APORT حالت های ویژه ای برای جستجوی تصاویر و فایل های صوتی دارد.

آخرین نسل موتورهای جستجو همه کلمات را در یک صفحه وب یا در یک مقاله کنفرانس فهرست می کنند، در حالی که قبلاً دامنه نمایه سازی معمولاً به عنوان، عنوان، چند خط اول و آدرس سند محدود می شد. این به طور قابل توجهی امکان شناسایی مواد در یک موضوع محدود را محدود می کند، زیرا نتایج جستجو همیشه داده های واقعی را منعکس نمی کند. با رفع این نقص، موتورهای جستجوی مدرن بسیار قابل اعتمادتر از پیشینیان خود هستند.

مهمترین ویژگی بعدی بهبود مکانیسم جستجوی داخلی است که در افزایش تعداد اپراتورها و سایر عناصر پرس و جو بیان می شود. چند سال پیش، تنها دو، در بهترین حالت، سه عملگر کلاسیک Boolean در حال استفاده بودند: AND (and)، OR (یا) و NOT (not). اکنون NEAR (نزدیک، در مورد) در Alta Vista و FOLLOWED BY (دنبال می‌شود) در OpenText وجود دارد - عملگرهای فاصله بسیار مفیدی که به شما امکان می‌دهند تا حد امکان پرس و جو را مشخص کنید. بسیاری از سیستم ها به شما این امکان را می دهند که انتهای اصطلاحات را کوتاه کنید، جستجوها را بر اساس تاریخ ایجاد سند محدود کنید، کلمات کلیدی را فقط در عناصر صفحه وب تعیین شده (عنوان، عنوان، آدرس ایمیل و غیره) جستجو کنید و یک عبارت دقیق را جستجو کنید. آخرین پیشرفت‌ها همچنین به شما امکان می‌دهد فایل‌هایی از نوع خاصی را شناسایی کنید (به عنوان مثال، گرافیک یا صدا) و به حروف کوچک و بزرگ حساس هستند. جستجوی داده ها به هر زبانی رایج شده است. همه اینها امکان نوشتن نسخه جستجو را با دقت بالایی فراهم می کند که البته ارتباط نتایج به دست آمده را افزایش می دهد.

در حال حاضر، محبوب ترین موتورهای جستجوی Google و Yandex، بیایید آنها را با هم مقایسه کنیم:

تعداد صفحات نمایه شده گوگل 8 میلیارد و یاندکس فقط 2 میلیارد دارد. یعنی چهار برابر کمتر. پیروزی برای گوگل

سرعت نمایه سازی صفحه گوگل صفحات جدید را ظرف یک روز ایندکس می کند، در حالی که Yandex ممکن است چندین روز طول بکشد تا این کار را انجام دهد. گوگل دوباره برنده شد

ارتباط صدور. ارتباط به مطابقت نتایج نمایش داده شده در صفحه موتور جستجو با درخواست شما اشاره دارد. فوراً باید بگویم که تعیین برنده در اینجا دشوار است. گوگل نتایج خوبی در بخش خارجی اینترنت نشان داد، اما در Runet، Yandex همیشه کمی جلوتر بوده است.

خدمات اینترنت اضافی در اینجا مزیت به وضوح برای Yandex است. ده‌ها سرویس مختلف دارد که به راحتی در دسته‌ها دسته‌بندی می‌شوند، در حالی که Google تعداد کمتری از آنها را دارد، به علاوه ادغام با شبکه اجتماعی+Google که خیلی ها آن را دوست ندارند.

معماری یک موتور جستجو معمولاً شامل موارد زیر است:

یوتیوب دایره المعارفی

1 / 5

✪ درس 3: چگونه یک موتور جستجو کار می کند. مقدمه ای بر سئو

✪ موتور جستجو از درون

✪ شودان - گوگل سیاه

✪ موتور جستجو Cheburashka جایگزین Google و Yandex در روسیه خواهد شد

✪ درس 1 - چگونه یک موتور جستجو کار می کند

زیرنویس

داستان

کرونولوژی
سال	سیستم	رویداد
1993	W3Catalog؟!	راه اندازی
	علی وب	راه اندازی
	جامپ استیشن	راه اندازی
1994	خزنده وب	راه اندازی
	infoseek	راه اندازی
	لایکوس	راه اندازی
1995	AltaVista	راه اندازی
	داوم	پایه
	متن بازفهرست وب	راه اندازی
	ماژلان	راه اندازی
	هیجان انگیز	راه اندازی
	SAPO	راه اندازی
	یاهو	راه اندازی
1996	سگ شمع	راه اندازی
	Inktomi	پایه
	رامبلر	پایه
	هات بات	پایه
	از جیوز بپرس	پایه
1997	نور شمالی	راه اندازی
1997	Yandex	راه اندازی
1998	گوگل	راه اندازی
1999	AlltheWeb	راه اندازی
	جن می داند	پایه
	ناور	راه اندازی
	تئوما	پایه
	ویویسیمو	پایه
2000	بایدو	پایه
2000	Exalead	پایه
2003	info.com	راه اندازی
2004	یاهو جستجو کردن	راه اندازی نهایی
	A9.com	راه اندازی
	سوگو	راه اندازی
2005	جستجوی MSN	راه اندازی نهایی
	Ask.com	راه اندازی
	نیگما	راه اندازی
	جستجوی کالا	راه اندازی
جستجوی من	پایه
2006	ویکی جستجو	پایه
	کوائرو	پایه
	جستجوی زنده	راه اندازی
	چاچا	راه اندازی (بتا)
	Guruji.com	راه اندازی (بتا)
2007	ویکی جستجو	راه اندازی
	اسپروز	راه اندازی
	جستجو در ویکیا	راه اندازی
	blackle.com	راه اندازی
2008	DuckDuckGo	راه اندازی
	توبی	راه اندازی
	پیکولاتور	راه اندازی
	Viewzi	راه اندازی
	کویل	راه اندازی
	بوگامی	راه اندازی
	لیپ فیش	راه اندازی (بتا)
	جنگل	راه اندازی
	VADLO	راه اندازی
	پاورست	راه اندازی
2009	بینگ	راه اندازی
	KAZ.KZ	راه اندازی
	یبول	راه اندازی (بتا)
	ماغوردی	بسته
	دیده بانی	راه اندازی
2010	کویل	بسته
	بلکو	راه اندازی (بتا)
	Viewzi	بسته
2012	WAZZUB	راه اندازی
2014	ماهواره	راه اندازی (بتا)

در مراحل اولیه توسعه اینترنت، تیم برنرز لی فهرستی از وب سرورهای ارسال شده در وب سایت سرن را حفظ کرد. سایت‌های بیشتری وجود داشت و نگهداری دستی چنین فهرستی روز به روز دشوارتر می‌شد. وب سایت NCSA دارای بخش اختصاصی "چه خبر است!" بود. (eng. What's New!)، جایی که آنها پیوندهایی به سایت های جدید منتشر کردند.

اولین برنامه کامپیوتری برای جستجو در اینترنت بود آرچی(انگلیسی archie - بایگانی بدون حرف "c"). در سال 1990 توسط Alan Emtage، Bill Heelan و J. Peter Deutsch، دانشجویان علوم کامپیوتر در دانشگاه مک گیل در مونترال ایجاد شد. این برنامه فهرستی از تمام فایل ها را از تمام سرورهای FTP ناشناس موجود دانلود کرد و یک پایگاه داده ساخت که می توانست با نام فایل ها جستجو شود. با این حال، برنامه Archie محتویات این فایل ها را ایندکس نکرد، زیرا حجم داده ها به قدری کم بود که همه چیز را می توان به راحتی با دست پیدا کرد.

توسعه و توزیع پروتکل شبکه Gopher که در سال 1991 توسط مارک مک کاهیل در دانشگاه مینه سوتا اختراع شد، منجر به ایجاد دو مدل جدید شد. برنامه های جستجو, ورونیکاو جوگهد. مانند Archie، آنها نام فایل ها و هدرهای ذخیره شده در سیستم های فهرست Gopher را جستجو کردند. ورونیکا (انگلیسی) فهرست بسیار آسان جوندگان در سراسر شبکه برای آرشیوهای کامپیوتری) امکان جستجوی کلمات کلیدی برای اکثر سرفصل های منوی Gopher در تمام لیست های Gopher وجود دارد. برنامه Jughead حفاری و نمایش سلسله مراتب گوفر جهانی Jonzy) اطلاعات منو را از سرورهای خاص Gopher بازیابی کرد. اگرچه نام موتور جستجوی آرچی به مجموعه کتاب های مصور مرتبط نبود "آرچی"، با این حال ورونیکا و جوگهد شخصیت های این کمیک هستند.

تا تابستان 1993، هنوز یک سیستم واحد برای جستجوی وب وجود نداشت، اگرچه فهرست های تخصصی متعددی به صورت دستی نگهداری می شدند. اسکار نیرستراس در دانشگاه ژنو مجموعه‌ای از اسکریپت‌های پرل نوشت که به‌طور دوره‌ای این صفحات را کپی می‌کرد و آنها را در قالب استاندارد بازنویسی می‌کرد. این مبنایی شد برای W3Catalog؟!، اولین موتور جستجوی وب بدوی که در 2 سپتامبر 1993 راه اندازی شد.

احتمالاً اولین موتور جستجوی نوشته شده در پرل «World Wide Web Wanderer» بود، یک ربات توسط متیو گری از ژوئن 1993. این ربات فهرست جستجوی "Wandex" را ایجاد کرد. هدف ربات Wanderer اندازه گیری اندازه بود وب جهانیو تمام صفحات وب حاوی کلمات پرس و جو را پیدا کنید. در سال 1993، دومین موتور جستجوی Aliweb ظاهر شد. Aliweb از خزنده استفاده نمی‌کند، اما در عوض منتظر اعلان‌های مدیران وب‌سایت در مورد وجود یک فایل فهرست در یک فرمت خاص در سایت‌هایشان بود.

جامپ استیشن، در دسامبر 1993 توسط جاناتان فلچر ایجاد شد، صفحات وب را با استفاده از یک خزنده جستجو و نمایه کرد و از یک فرم وب به عنوان رابطی برای فرمول بندی پرس و جوهای جستجو استفاده کرد. این اولین ابزار جستجوی اینترنتی بود که سه ابزار را ترکیب کرد توابع ضروریموتور جستجو (بررسی، نمایه سازی و جستجوی واقعی). با توجه به محدودیت منابع کامپیوتری در آن زمان، نمایه سازی و در نتیجه جستجو تنها به عنوان و عنوان صفحات وب یافت شده توسط خزنده محدود می شد.

موتورهای جستجو در حباب Dot-com در اواخر دهه 1990 شرکت کردند. چندین شرکت به شکلی دیدنی وارد بازار شدند و در طول عرضه های اولیه خود سودهای بی سابقه ای به دست آوردند. برخی بازار موتورهای جستجوی عمومی را رها کرده اند و فقط با بخش شرکتی کار می کنند، مانند نور شمالی.

گوگل در سال 1998 ایده فروش کلمات کلیدی را مطرح کرد، زمانی که یک شرکت کوچک بود که یک موتور جستجو در goto.com داشت. این حرکت نشان دهنده تغییر موتورهای جستجو از رقابت با یکدیگر به تبدیل شدن به یکی از سودآورترین سرمایه گذاری های تجاری در اینترنت بود. موتورهای جستجو شروع به فروش اولین مکان ها در نتایج جستجو به شرکت های فردی کردند.

موتور جستجو سیستم گوگلاز اوایل دهه 2000 برجسته بوده است. این شرکت به دلیل نتایج جستجوی خوب با استفاده از الگوریتم PageRank به جایگاه بالایی دست یافته است. این الگوریتم در مقاله «آناتومی موتور جستجو» نوشته سرگئی برین و لری پیج، بنیانگذاران گوگل، به عموم ارائه شد. این الگوریتم تکراری، صفحات وب را بر اساس تخمینی از تعداد پیوندهای یک صفحه وب رتبه بندی می کند، با این فرض که صفحات "خوب" و "مهم" لینک های بیشتری نسبت به سایرین دریافت می کنند. رابط گوگل به سبک اسپارتان طراحی شده است، جایی که هیچ چیز اضافی وجود ندارد، برخلاف بسیاری از رقبای خود که موتور جستجو را در پورتال وب ایجاد کردند. موتور جستجوی گوگل آنقدر محبوب شده است که مقلدانی از آن ظاهر شده اند، به عنوان مثال، جستجوگر راز(موتور جستجوی مخفی).

جستجوی اطلاعات به زبان روسی

در سال 1996، جستجویی با در نظر گرفتن مورفولوژی روسی در موتور جستجوی Altavista انجام شد و موتورهای جستجوی اصلی روسی Rambler و Aport راه اندازی شدند. در 23 سپتامبر 1997، موتور جستجوی Yandex افتتاح شد. در 22 مه 2014، موتور جستجوی ملی اسپوتنیک توسط Rostelecom افتتاح شد که در سال 2015 در حال آزمایش بتا بود. 22 آوریل 2015 افتتاح شد سرویس جدیدماهواره. کودکان مخصوص کودکان با ایمنی بالا.

روش های تجزیه و تحلیل خوشه ای و جستجوی فراداده محبوبیت زیادی به دست آورده اند. از بین ماشین آلات بین المللی از این نوع، معروف ترین آنها بود "کلفت"شرکت ها ویویسیمو. در سال 2005، با حمایت دانشگاه دولتی مسکو، موتور جستجوی Nigma در روسیه راه اندازی شد که از خوشه بندی خودکار پشتیبانی می کند. در سال 2006، متاماشین روسی Quintura افتتاح شد که خوشه‌بندی بصری را در قالب یک ابر برچسب ارائه می‌کرد. Nigma همچنین با خوشه‌بندی بصری آزمایش کرد.

موتور جستجو چگونه کار می کند

اجزای اصلی یک موتور جستجو: ربات جستجو، نمایه ساز، موتور جستجو.

به عنوان یک قاعده، سیستم ها در مراحل کار می کنند. ابتدا خزنده محتوا را دریافت می کند، سپس نمایه ساز یک نمایه قابل جستجو ایجاد می کند و در نهایت، خزنده قابلیت جستجوی داده های فهرست شده را فراهم می کند. برای به روز رسانی موتور جستجو، این چرخه نمایه سازی تکرار می شود.

موتورهای جستجو با ذخیره اطلاعات بسیاری از صفحات وب که از صفحات HTML دریافت می کنند، کار می کنند. ربات جستجو یا "خزنده" (eng. Crawler) - برنامه ای که به طور خودکار تمام پیوندهای موجود در صفحه را دنبال می کند و آنها را برجسته می کند. خزنده، بر اساس پیوندها یا بر اساس لیست از پیش تعریف شده از آدرس ها، اسناد جدیدی را جستجو می کند که هنوز برای موتور جستجو شناخته شده نیستند. مالک سایت می تواند صفحات خاصی را با استفاده از robots.txt که می تواند برای جلوگیری از نمایه سازی فایل ها، صفحات یا دایرکتوری های سایت استفاده شود، حذف کند.

موتور جستجو محتوای هر صفحه را برای نمایه سازی بیشتر تجزیه و تحلیل می کند. کلمات را می توان از عنوان، متن صفحه یا فیلدهای خاص - متا تگ ها استخراج کرد. نمایه ساز ماژولی است که یک صفحه را پس از تقسیم آن به بخش ها با استفاده از الگوریتم های واژگانی و صرفی خود تجزیه و تحلیل می کند. تمام عناصر یک صفحه وب جدا شده و به طور جداگانه تجزیه و تحلیل می شوند. داده های صفحه وب در یک پایگاه داده فهرست برای استفاده در درخواست های بعدی ذخیره می شود. ایندکس به شما امکان می دهد تا به سرعت اطلاعات مربوط به درخواست کاربر را پیدا کنید. تعدادی از موتورهای جستجو مانند فروشگاه گوگل صفحه اصلیبه طور کلی یا جزئی، به اصطلاح کش، و همچنین اطلاعات مختلفدر مورد صفحه وب سیستم های دیگر، مانند AltaVista، هر کلمه از هر صفحه یافت شده را ذخیره می کنند. استفاده از حافظه نهان به سرعت بخشیدن به استخراج اطلاعات از صفحات بازدید شده از قبل کمک می کند. صفحات ذخیره شده در حافظه پنهان همیشه حاوی متنی هستند که کاربر در عبارت جستجو مشخص کرده است. این می تواند زمانی مفید باشد که صفحه وب به روز شده باشد، یعنی دیگر حاوی متن درخواست کاربر نباشد و صفحه موجود در کش هنوز قدیمی است. این وضعیت به از دست دادن لینک ها مربوط می شود (Eng. لینک روت) و رویکرد کاربر پسند (قابل استفاده) گوگل. این شامل صدور تکه های کوتاه متن از حافظه پنهان حاوی متن پرس و جو است. اصل کمترین غافلگیری اعمال می شود، کاربر معمولاً انتظار دارد کلمات جستجو را در متون صفحات دریافتی ببیند ( انتظارات کاربر). علاوه بر سرعت بخشیدن به جستجوها با استفاده از صفحات ذخیره شده در حافظه پنهان، صفحات ذخیره شده در حافظه پنهان ممکن است حاوی اطلاعاتی باشند که دیگر در جای دیگری در دسترس نیستند.

موتور جستجو با فایل های خروجی دریافت شده از نمایه ساز کار می کند. موتور جستجو درخواست های کاربر را می پذیرد، آنها را با استفاده از یک فهرست پردازش می کند و نتایج جستجو را برمی گرداند.

هنگامی که کاربر درخواستی را در موتور جستجو وارد می‌کند (معمولاً با استفاده از کلمات کلیدی)، سیستم فهرست آن را بررسی می‌کند و فهرستی از مرتبط‌ترین صفحات وب (مرتب‌سازی شده بر اساس معیارهایی) را برمی‌گرداند، معمولاً با یک حاشیه‌نویسی مختصر حاوی عنوان سند و گاهی اوقات بخشی از متن فهرست جستجو بر اساس یک تکنیک خاص بر اساس اطلاعات استخراج شده از صفحات وب ساخته می شود. از سال 2007 موتور جستجوی گوگلبه شما امکان می دهد بر اساس زمان جستجو کنید، اسناد مورد نظر را ایجاد کنید (منوی "ابزارهای جستجو" را فراخوانی کنید و محدوده زمانی را مشخص کنید). اکثر موتورهای جستجو از استفاده از عملگرهای AND، OR، NOT در پرس و جوها پشتیبانی می کنند، که به شما امکان می دهد لیست کلمات کلیدی جستجو شده را اصلاح یا گسترش دهید. در این حالت، سیستم کلمات یا عبارات را دقیقاً همانطور که وارد کرده است جستجو می کند. برخی از موتورهای جستجو اجازه می دهند جستجوی تقریبی، در این حالت، کاربران با تعیین فاصله تا کلمات کلیدی، منطقه جستجو را گسترش می دهند. نیز وجود دارد جستجوی مفهومی، که استفاده می کند تحلیل آماریاستفاده از کلمات و عبارات جستجو شده در متون صفحات وب. این سیستم ها به شما امکان می دهند پرس و جوها را به زبان طبیعی بنویسید. نمونه ای از چنین موتورهای جستجو، وب سایت ask com است.

سودمندی یک موتور جستجو به ارتباط صفحاتی که پیدا می کند بستگی دارد. در حالی که میلیون‌ها صفحه وب ممکن است شامل یک کلمه یا عبارت باشند، برخی ممکن است مرتبط‌تر، محبوب‌تر یا معتبرتر از سایرین باشند. اکثر موتورهای جستجو از روش های رتبه بندی استفاده می کنند تا "بهترین" نتایج را در بالای لیست قرار دهند. موتورهای جستجو تصمیم می گیرند که کدام صفحات مرتبط تر هستند و نتایج به چه ترتیبی باید به روش های مختلف نشان داده شوند. روش های جستجو، مانند خود اینترنت، در طول زمان تغییر می کنند. بنابراین، دو نوع اصلی از موتورهای جستجو ظاهر شدند: سیستم های کلیدواژه های از پیش تعریف شده و مرتب شده به صورت سلسله مراتبی و سیستم هایی که در آنها یک شاخص معکوس بر اساس تجزیه و تحلیل متن تولید می شود.

بیشتر موتورهای جستجو، شرکت‌های تجاری هستند که از تبلیغات سود می‌برند، در برخی از موتورهای جستجو می‌توانید با پرداخت هزینه، موقعیت‌های برتر را برای کلمات کلیدی معین خریداری کنید. موتورهای جستجویی که برای ترتیب نتایج هزینه ای دریافت نمی کنند، درآمد کسب می کنند تبلیغات متنی، در حالی که پیام های تبلیغاتی با درخواست کاربر مطابقت دارد. چنین تبلیغاتی با لیستی از نتایج جستجو در صفحه نمایش داده می شود و هر بار که کاربر روی پیام های تبلیغاتی کلیک می کند موتورهای جستجو درآمد کسب می کنند.

انواع موتورهای جستجو

چهار نوع موتور جستجو وجود دارد: روباتیک، انسان محور، هیبریدی و متا سیستم.

سیستم هایی با استفاده از روبات های جستجوگر

آنها از سه بخش تشکیل شده اند: یک خزنده ("ربات"، "ربات" یا "عنکبوت")، یک فهرست و یک نرم افزار موتور جستجو. خزنده برای دور زدن شبکه و ایجاد لیستی از صفحات وب مورد نیاز است. فهرست مطالب - آرشیو بزرگکپی از صفحات وب هدف نرم افزار- نتایج جستجو را ارزیابی کنید با توجه به اینکه خزنده در این مکانیزم به طور مداوم در حال کاوش در شبکه است، اطلاعات به روزتر می باشد. اکثر موتورهای جستجوی مدرن سیستم هایی از این نوع هستند.

سیستم های کنترل شده توسط انسان (کاتالوگ منابع)

این موتورهای جستجو لیستی از صفحات وب را دریافت می کنند. دایرکتوری شامل آدرس، عنوان و توضیح کوتاهسایت. کاتالوگ منابع فقط به دنبال نتایج از توضیحات صفحه است که توسط وبمسترها به آن ارسال شده است. مزیت دایرکتوری ها این است که تمام منابع به صورت دستی بررسی می شوند، بنابراین کیفیت محتوا در مقایسه با نتایج به دست آمده توسط سیستم نوع اول به طور خودکار بهتر خواهد بود. اما یک اشکال نیز وجود دارد - به روز رسانی این دایرکتوری ها به صورت دستی انجام می شود و می تواند به طور قابل توجهی عقب بماند موقعیت واقعیامور رتبه بندی صفحات نمی تواند فورا تغییر کند. نمونه هایی از این قبیل سیستم ها هستند دایرکتوری یاهو، dmoz و Galaxy.

سیستم های هیبریدی

موتورهای جستجو مانند یاهو، گوگل، MSN عملکرد سیستم ها را با استفاده از روبات های جستجوگر و سیستم های کنترل شده توسط انسان ترکیب می کنند.

متا سیستم ها

موتورهای متاجستجو نتایج چندین موتور جستجو را به طور همزمان ترکیب و رتبه بندی می کنند. این موتورهای جستجو زمانی مفید بودند که هر موتور جستجویی داشت شاخص منحصر به فردو موتورهای جستجو کمتر «هوشمند» بودند. از آنجایی که جستجو در حال حاضر بسیار بهبود یافته است، نیاز به آنها کاهش یافته است. مثال ها: متاکرولرو MSN Search

بازار موتورهای جستجو

گوگل با سهم بازار 68.69% محبوب ترین موتور جستجوی جهان است. بینگ جایگاه دوم را اشغال می کند، سهم آن 12.26٪ است.

محبوب ترین موتورهای جستجو در جهان:

سیستم جستجو	سهم بازار در جولای 2014	سهم بازار در اکتبر 2014	سهم بازار در سپتامبر 2015
گوگل	68,69 %	58.01 %	69.24%
بایدو	17,17 %	29.06 %	6,48%
بینگ	6.22 %	8.01 %	12,26%
یاهو	6.74 %	4.01 %	9,19%
AOL	0,13 %	0.21 %	1,11%
هیجان انگیز	0.22 %	0,00 %	0.00%
پرسیدن	0,13 %	0,10 %	0,24%

آسیا

در کشورهای شرق آسیا و گوگل روسی- محبوب ترین موتور جستجو نیست. به عنوان مثال، در چین، محبوب تر است موتور جستجوی سوسو.

که در کره جنوبیحدود 70 درصد از ساکنان یاهو از پورتال جستجوی خود ناور استفاده می کنند. ژاپن و یاهو تایوان به ترتیب محبوب ترین موتورهای جستجو در ژاپن و تایوان هستند.

روسیه و موتورهای جستجوی روسی زبان

بر اساس داده های LiveInternet در ژوئن 2015 در مورد پوشش عبارت های جستجوی روسی زبان:

همه زبانه:
- یاهو (0.1%) و موتورهای جستجوی متعلق به این شرکت: Inktomi، آلتاویستا، Alltheweb
انگلیسی زبان و بین المللی:
- AskJeeves(مکانیسم Teoma)
روسی زبان - بیشتر موتورهای جستجوی "روسی زبان" فهرست و جستجوی متون به بسیاری از زبان ها - اوکراینی، بلاروسی، انگلیسی، تاتاری و دیگران است. آن‌ها با سیستم‌های «تمام زبانی» که همه اسناد را در یک ردیف فهرست می‌کنند، تفاوت دارند، زیرا عمدتاً منابعی را که در مناطق دامنه‌ای که زبان روسی غالب است، فهرست‌بندی می‌کنند، یا ربات‌های خود را به سایت‌های روسی زبان محدود می‌کنند.

برخی از موتورهای جستجو از الگوریتم های جستجوی خارجی استفاده می کنند.

داده های کمی موتور جستجوی گوگل

تعداد کاربران اینترنت و موتورهای جستجو و نیازهای کاربران برای این سیستم ها به طور مداوم در حال افزایش است. برای افزایش سرعت جستجوی اطلاعات لازم، موتورهای جستجوی بزرگ شامل تعداد زیادی سرور هستند. سرورها معمولاً در مراکز سرور (مراکز داده) گروه بندی می شوند. موتورهای جستجوی محبوب دارای مراکز سرور پراکنده در سراسر جهان هستند.

در اکتبر 2012، گوگل پروژه Where the Internet Lives را راه اندازی کرد که در آن به کاربران این فرصت داده می شود تا با مراکز داده این شرکت آشنا شوند.

موتور جستجوی گوگل موارد زیر را در مورد کار مراکز داده می داند:

ظرفیت کل تمامی مراکز داده گوگل تا سال 2011، 220 مگاوات برآورد شده است.
زمانی که در سال 2008 سال گوگلمجله هارپر که برای افتتاح یک مجتمع جدید در اورگان متشکل از سه ساختمان با مساحت 6.5 میلیون متر مربع برنامه ریزی کرده بود، محاسبه کرد که چنین مجتمع بزرگی بیش از 100 مگاوات برق مصرف می کند که قابل مقایسه با مصرف انرژی است. شهری 300 هزار نفری
تعداد تخمینی سرورهای گوگل در سال 2012 1000000 است.
هزینه گوگل در مراکز داده در سال 2006 1.9 میلیارد دلار و در سال 2007 2.4 میلیارد دلار بود.

اندازه وب جهانی نمایه شده توسط گوگل تا دسامبر 2014 تقریباً 4.36 میلیارد صفحه است.

موتورهای جستجویی که ممنوعیت های مذهبی را در نظر می گیرند

گسترش جهانی اینترنت و افزایش محبوبیت لوازم برقیدر جهان عرب و اسلام، به ویژه، در کشورهای خاورمیانه و شبه قاره هند، به توسعه موتورهای جستجوی محلی که سنت های اسلامی را در نظر می گیرند، کمک کرد. چنین موتورهای جستجو دارای فیلترهای خاصی هستند که به کاربران کمک می کند از دسترسی به سایت های ممنوعه مانند سایت های دارای پورنوگرافی اجتناب کنند و به آنها اجازه می دهد فقط از سایت هایی استفاده کنند که محتوای آنها مغایر با دین اسلام نباشد. اندکی قبل از ماه مبارک رمضان، در جولای 2013، جهان معرفی شد حلال گوگل- سیستمی که با فیلتر کردن نتایج جستجوی دریافتی از موتورهای جستجوی دیگر مانند گوگل و بینگ، فقط لینک های حلال "صحیح" را به کاربران می دهد. دو سال قبل از آن، در سپتامبر 2011، موتور جستجوی I'mHalal برای خدمات رسانی به کاربران در خاورمیانه راه اندازی شد. با این حال، به گفته مالک، به دلیل کمبود بودجه، این سرویس جستجو باید به زودی بسته شود.

فقدان سرمایه گذاری و سرعت آهسته انتشار فناوری در جهان اسلام مانع پیشرفت و مانع موفقیت یک موتور جستجوی جدی اسلامی شده است. شکست سرمایه گذاری های کلان در پروژه های وب سبک زندگی مسلمانان که یکی از آنها بود موکسلیم. او میلیون‌ها دلار از سرمایه‌گذارانی مانند Rite Internet Ventures دریافت کرده است و اکنون - طبق آخرین پست I'mHalal قبل از تعطیلی آن - این ایده مشکوک را مطرح کرده است که "فیس‌بوک یا گوگل بعدی ممکن است فقط در خاورمیانه باشد. اگر از جوانان درخشان ما حمایت کنید." با این وجود، کارشناسان اینترنت اسلامی سال‌هاست که مشغول تعریف این هستند که چه چیزی مطابق با شرع است یا نیست و وب‌سایت‌ها را به عنوان «حلال» یا «حرام» طبقه‌بندی می‌کنند. همه موتورهای جستجوی اسلامی سابق و فعلی فقط مجموعه‌ای از داده‌های نمایه‌شده خاص هستند، یا موتورهای جستجوی اصلی مانند گوگل، یاهو و بینگ با نوعی سیستم فیلتر هستند که برای جلوگیری از دسترسی کاربران به سایت‌های حرام مانند سایت‌های مربوط به برهنگی استفاده می‌شوند. دگرباشان جنسی، قمار و هر چیز دیگری که ضد اسلامی محسوب می شود.

در میان سایر موتورهای جستجوی دین محور، Jewogle، نسخه یهودی Google، و SeekFind.org، یک سایت مسیحی که دارای فیلترهایی برای دور نگه داشتن کاربران از محتوایی است که می تواند ایمان آنها را تضعیف یا تضعیف کند، رایج هستند.

نتایج شخصی و حباب های فیلتر

بسیاری از موتورهای جستجو، مانند گوگل و بینگ، از الگوریتم‌هایی استفاده می‌کنند تا به طور انتخابی حدس بزنند که کاربر می‌خواهد چه اطلاعاتی را بر اساس فعالیت‌های گذشته خود در سیستم ببیند. در نتیجه، وب سایت ها فقط اطلاعاتی را نشان می دهند که با علایق گذشته کاربر مطابقت دارد. این اثر "حباب فیلتر" نامیده می شود.

همه اینها به این واقعیت منجر می شود که کاربران اطلاعات بسیار کمتری دریافت می کنند که با دیدگاه آنها در تناقض است و از نظر فکری در "حباب اطلاعات" خود منزوی می شوند. بنابراین «اثر حباب» می تواند پیامدهای منفی برای شکل گیری افکار مدنی داشته باشد.

تعصب موتور جستجو

اگرچه موتورهای جستجو برای رتبه بندی وب سایت ها بر اساس ترکیبی از محبوبیت و ارتباط آنها برنامه ریزی شده اند، واقعیت این است که تحقیقات تجربی نشان می دهد که عوامل مختلف سیاسی، اقتصادی و اجتماعی بر SERP ها تأثیر می گذارند.

این سوگیری می‌تواند نتیجه مستقیم فرآیندهای اقتصادی و تجاری باشد: شرکت‌هایی که در یک موتور جستجو تبلیغ می‌کنند ممکن است در نتایج جستجوی ارگانیک در آن موتور جستجو محبوب‌تر شوند. حذف نتایج جستجویی که با قوانین محلی مطابقت ندارند نمونه ای از تأثیر فرآیندهای سیاسی است. برای مثال، گوگل برخی از وب‌سایت‌های نئونازی را در فرانسه و آلمان که انکار هولوکاست غیرقانونی است، نمایش نمی‌دهد.

سوگیری همچنین می‌تواند نتیجه فرآیندهای اجتماعی باشد، زیرا الگوریتم‌های موتورهای جستجو اغلب برای حذف دیدگاه‌های قالب‌بندی نشده به نفع نتایج «محبوب‌تر» طراحی می‌شوند. الگوریتم های نمایه سازی موتورهای جستجوی اصلی سایت های آمریکایی را در اولویت قرار می دهند.

بمب جستجو نمونه ای از تلاش برای دستکاری نتایج جستجو به دلایل سیاسی، اجتماعی یا تجاری است.

همچنین ببینید

Qwika
کتابخانه الکترونیکی #فهرست‌ها، کتابخانه‌ها و سیستم‌های جستجو
نوار ابزار توسعه دهنده وب

یادداشت

ادبیات

آشمانوف - آی. - اس. ، ایوانف آ.ا.ارتقای وب سایت در موتورهای جستجو - M. : Williams, 2007. - 304 p. - ISBN 978-5-8459-1155-1.
بایکوف V.D.اینترنت. جستجو برای اطلاعات ارتقاء وب سایت. - سنت پترزبورگ. : BHV-Petersburg, 2000. - 288 p. - ISBN 5-8206-0095-9.
کولیسنیچنکو دی.ان.موتورهای جستجو و تبلیغ وب سایت در اینترنت. - م.: دیالکتیک، 2007. - 272 ص. - ISBN 978-5-8459-1269-5.

Lande D.V.جستجوی دانش در اینترنت - م.: دیالکتیک، 2005. - 272 ص. - ISBN 5-8459-0764-0.

Lande D.V., Snarsky A. A., Bezsudnov I.V.اینترنت: مسیریابی در شبکه‌های پیچیده: مدل‌ها و الگوریتم‌ها. - M.: Librokom (Editorial URSS)، 2009. - 264 p. - ISBN 978-5-397-00497-8.

چو اچ.، روزنتال ام.موتورهای جست‌وجو برای وب‌سایت جهانی: روش‌شناسی مطالعه مقایسه‌ای و ارزیابی (انگلیسی) // Proceedings OF THE ANNUAL METING-AMERICAN SOCIENTY:ur. - 1996. - جلد. 33 . - ص 127-135.

گاندال، نیل.پویایی رقابت در بازار موتورهای جستجوی اینترنتی - 2001. - جلد. 19. - ص 1103-1117. -

موتورهای جستجو (PS) برای مدت طولانی جزء ضروری اینترنت بوده اند. امروزه آنها مکانیسم های عظیم و پیچیده ای هستند که نه تنها ابزاری برای یافتن هر کدام هستند اطلاعات لازم، اما همچنین مناطق بسیار هیجان انگیز برای تجارت.

بسیاری از کاربران جستجو هرگز به اصول کار خود، نحوه پردازش درخواست‌های کاربر، نحوه ساخت و عملکرد این سیستم‌ها فکر نکرده‌اند. این مطالب به افرادی که مشغول بهینه سازی هستند و درک دستگاه و عملکردهای اصلی موتورهای جستجو کمک می کند.

توابع و مفهوم PS

سیستم جستجویک مجموعه سخت افزاری-نرم افزاری است که برای انجام عملکرد جستجو در اینترنت و پاسخگویی به درخواست کاربر که معمولاً در قالب یک عبارت متنی (یا بهتر است بگوییم) تنظیم می شود، طراحی شده است. پرس و جو جستجو) ، صدور لیست مرجع به منابع اطلاعاتی ، که بر اساس موضوع مربوطه انجام می شود. رایج ترین و سیستم های بزرگجستجو: گوگل، بینگ، یاهو، بایدو. در Runet - Yandex، Mail.Ru، Rambler.

بیایید با در نظر گرفتن سیستم Yandex به عنوان مثال، معنای جستجوی خود را دقیق تر بررسی کنیم.

درخواست باید توسط کاربر مطابق با موضوع جستجوی وی، تا حد امکان ساده و مختصر فرموله شود. به عنوان مثال، ما می خواهیم اطلاعاتی را در این موتور جستجو پیدا کنیم: "چگونه یک ماشین برای خود انتخاب کنید". برای این کار، باز کنید صفحه نخستو یک پرس و جو برای جستجوی "چگونه ماشین انتخاب کنیم" را وارد کنید. سپس عملکردهای ما به دنبال کردن پیوندهای ارائه شده به منابع اطلاعاتی در شبکه کاهش می یابد.

اما حتی با این روش نیز ممکن است اطلاعات مورد نیاز خود را به دست نیاوریم. اگر چنین نتیجه منفی گرفتیم، فقط باید پرس و جو خود را دوباره فرمول بندی کنیم، یا واقعاً هیچ اطلاعات مفیدی در پایگاه جستجو وجود ندارد این گونهدرخواست (این با پارامترهای پرس و جوی "باریک" داده شده، مانند "نحوه انتخاب خودرو در آنادیر" کاملاً امکان پذیر است).

اساسی ترین وظیفه هر موتور جستجو ارائه دقیقاً نوع اطلاعات مورد نیاز مردم است. و عادت دادن کاربران به ایجاد نوع "صحیح" پرس و جو برای موتورهای جستجو، یعنی عباراتی که با اصول کار آنها مطابقت دارد، عملا غیرممکن است.

به همین دلیل است که توسعه دهندگان موتورهای جستجو اصول و الگوریتم هایی را برای کار خود ایجاد می کنند که به کاربران امکان می دهد اطلاعات مورد نظر خود را پیدا کنند. این بدان معنی است که سیستم باید به همان روشی که شخص در هنگام جستجوی اطلاعات لازم در اینترنت فکر می کند "فکر کند".

هنگامی که او درخواست خود را در یک موتور جستجو وارد می کند، می خواهد آنچه را که می خواهد به آسانی و سریع ترین زمان ممکن پیدا کند. پس از دریافت نتیجه، کاربر ارزیابی خود را از سیستم انجام می دهد که توسط چندین معیار هدایت می شود. آیا او موفق شد پیدا کند اطلاعات لازم? اگر نه، چند بار باید متن پرس و جو را دوباره قالب بندی می کرد تا او را پیدا کند؟ اطلاعات دریافتی چقدر به روز بوده است؟ موتور جستجو چقدر سریع درخواست او را پردازش کرد؟ نتایج جستجو چقدر راحت ارائه شد؟ آنجا بود نتیجه مطلوباول، یا در جایگاه سی ام بود؟ چقدر «آشغال» (اطلاعات غیر ضروری) همراه با اطلاعات مفید پیدا شد؟ آیا در یک هفته یا یک ماه دیگر اطلاعات مربوط به او در هنگام استفاده از PS وجود خواهد داشت؟

توسعه دهندگان جستجو برای دستیابی به پاسخ های مناسب برای چنین سؤالاتی، دائماً اصول رتبه بندی و الگوریتم های آن را بهبود می بخشند، ویژگی ها و عملکردهای جدیدی را به آنها اضافه می کنند و به هر طریقی سعی می کنند سیستم را سریعتر کار کنند.

ویژگی های اصلی موتورهای جستجو

بیایید ویژگی های اصلی جستجو را مشخص کنیم:

کامل بودن.

کامل بودن یکی از مهمترین ویژگی های جستجو است، این نسبت اعداد یافت شده توسط پرس و جو است. اسناد اطلاعاتیبه تعداد کل آنها در اینترنت مربوط به این درخواست. به عنوان مثال، در شبکه 100 صفحه با عبارت "چگونه یک ماشین انتخاب کنیم" وجود دارد و تنها 60 صفحه از تعداد کل برای همان پرس و جو انتخاب شده است، در این صورت فراخوان جستجو 0.6 خواهد بود. واضح است که هرچه خود جستجو کاملتر باشد، احتمال اینکه کاربر دقیقاً سند مورد نیاز خود را پیدا کند، البته اگر اصلاً وجود داشته باشد، بیشتر می شود.

دقت.

یکی دیگر از عملکردهای اصلی یک موتور جستجو، دقت است. میزان انطباق با درخواست کاربر از صفحات یافت شده در وب را تعیین می کند. به عنوان مثال، اگر صدها سند برای عبارت کلیدی "چگونه یک ماشین انتخاب کنیم" وجود دارد، نیمی از آنها حاوی این عبارت هستند و بقیه به سادگی چنین کلماتی دارند (نحوه انتخاب صحیح رادیو ماشین و نصب آن در ماشین) ، سپس دقت جستجو برابر با 50/100 = 0.5 است.

هرچه جستجو دقیق تر باشد، کاربر زودتر اطلاعات مورد نیاز خود را پیدا می کند، "آشغال" های مختلف کمتری در بین نتایج یافت می شود، اسناد کمتری که پیدا می شود با معنای درخواست مطابقت نخواهد داشت.

ارتباط.

این یک جزء مهم از جستجو است که با زمان سپری شده از لحظه انتشار اطلاعات در اینترنت تا ورود به پایگاه داده فهرست موتور جستجو مشخص می شود.

به عنوان مثال، روز بعد از اطلاعات در مورد خروج آی پد جدید، بسیاری از کاربران با انواع جستجوهای مربوطه به جستجو روی آوردند. در بیشتر موارد، اطلاعات مربوط به این خبر از قبل در جستجو موجود است، اگرچه زمان بسیار کمی از ظهور آن گذشته است. دلیل این امر این است که موتورهای جستجوی بزرگ دارای یک "پایگاه داده سریع" هستند که چندین بار در روز به روز می شود.

سرعت جستجو

چنین عملکردی به عنوان سرعت جستجو ارتباط نزدیکی با به اصطلاح "تحمل بار" دارد. در هر ثانیه تعداد زیادی از مردم به جستجو روی می آورند، چنین حجم کاری مستلزم کاهش قابل توجهی در زمان پردازش یک درخواست است. در اینجا منافع موتور جستجو و کاربر کاملاً منطبق است: بازدید کننده می خواهد در سریع ترین زمان ممکن به نتایج برسد و موتور جستجو باید درخواست او را در سریع ترین زمان ممکن پردازش کند تا روند پردازش درخواست های بعدی را کند نکند.

دید.

ارائه بصری نتایج یک عنصر ضروری برای راحتی جستجو است. برای بسیاری از پرس و جوها، موتور جستجو هزاران و در برخی موارد میلیون ها مورد را پیدا می کند اسناد مختلف. به دلیل مبهم بودن جمع‌آوری عبارات کلیدی برای جستجو یا نادرست بودن آن، حتی اولین نتایج پرس و جو همیشه فقط اطلاعات لازم را ندارند.

این بدان معنی است که یک فرد اغلب باید جستجوی خود را در بین نتایج ارائه شده انجام دهد. اجزای مختلف صفحات صدور PS به شما کمک می کند تا در نتایج جستجو پیمایش کنید.

تاریخچه موتورهای جستجو

هنگامی که اینترنت برای اولین بار شروع به توسعه کرد، تعداد کاربران معمولی آن کم بود و میزان دسترسی به اطلاعات نسبتاً کم بود. اساساً فقط متخصصان حوزه های تحقیقاتی به این شبکه دسترسی داشتند. در آن زمان، وظیفه یافتن اطلاعات به اندازه اکنون مرتبط نبود.

یکی از اولین روش های سازماندهی دسترسی گسترده به منابع اطلاعاتی ایجاد کاتالوگ از سایت ها بود و پیوندها به آنها شروع به گروه بندی بر اساس موضوع کردند. منبع Yahoo.com که در بهار سال 1994 افتتاح شد، به اولین پروژه تبدیل شد. پس از آن، زمانی که تعداد سایت های موجود در فهرست یاهو به میزان قابل توجهی افزایش یافت، گزینه جستجوی اطلاعات لازم در فهرست اضافه شد. این هنوز یک موتور جستجوی تمام عیار نبود، زیرا دامنه چنین جستجویی فقط به سایت های موجود در این فهرست محدود می شد و نه مطلقاً تمام منابع موجود در اینترنت. دایرکتوری های پیوند در گذشته بسیار مورد استفاده قرار می گرفتند، اما در حال حاضر، تقریباً به طور کامل محبوبیت خود را از دست داده اند.

به هر حال، حتی کاتالوگ های عظیم امروزی نیز اطلاعاتی در مورد بخش کوچکی از سایت های موجود در اینترنت دارند. معروف ترین و بزرگ ترین دایرکتوری در جهان اطلاعاتی در مورد پنج میلیون سایت دارد، در حالی که پایگاه داده گوگل حاوی اطلاعات بیش از 25 میلیارد صفحه است.

اولین موتور جستجوی واقعی WebCrawler بود که در سال 1994 ظاهر شد.

سال بعد AltaVista و Lycos ظاهر شدند. علاوه بر این، اولین نفر برای مدت طولانی رهبر در جستجوی اطلاعات بود.

در سال 1997، سرگئی برین به همراه لری پیج، موتور جستجوی گوگل را به عنوان یک پروژه تحقیقاتی در دانشگاه استنفورد ایجاد کردند. امروزه گوگل، محبوب ترین و محبوب ترین موتور جستجو در جهان است.

در سپتامبر 1997، Yandex PS (به طور رسمی) معرفی شد که در حال حاضر بیشترین است سیستم محبوبدر RuNet جستجو کنید

مطابق با سپتامبر 2015، سهام موتورهای جستجو در جهان به شرح زیر است:

گوگل - 69.24%؛
بینگ - 12.26٪؛
یاهو - 9.19%؛
بایدو - 6.48٪;
AOL - 1.11%؛
بپرسید - 0.23%؛
هیجان انگیز - 0.00٪

مطابق با دسامبر 2016، سهام موتورهای جستجو در Runet:

Yandex - 48.40٪
Google - 45.10٪
Search.Mail.ru - 5.70%
Rambler - 0.40٪
بینگ - 0.30٪
یاهو - 0.10٪

اصول موتورهای جستجو

در روسیه سیستم اصلیجستجو Yandex، سپس Google، و سپس [email protected] است. همه موتورهای جستجوی بزرگ ساختار خاص خود را دارند که کاملاً با سایر موتورهای جستجو متفاوت است. اما هنوز هم می توان عناصر اصلی مشترک در همه موتورهای جستجو را مشخص کرد.

ماژول نمایه سازی

این جزء از سه ربات تشکیل شده است:

عنکبوت(به انگلیسی spider) - برنامه ای که برای دانلود صفحات وب طراحی شده است. عنکبوت یک صفحه خاص را دانلود می کند و در عین حال همه لینک ها را از آن استخراج می کند. در حال دانلود کد htmlتقریبا از هر صفحه برای این کار ربات ها از پروتکل های HTTP استفاده می کنند.

"عنکبوت" به شرح زیر عمل می کند. ربات یک درخواست به سرور «get/path/document» و دیگر دستورات درخواست HTTP ارسال می کند. در پاسخ، برنامه ربات یک جریان متنی دریافت می کند که حاوی اطلاعاتی از نوع سرویس و البته خود سند است.

آدرس صفحه دانلود شده؛
تاریخ دانلود صفحه؛
هدر پاسخ سرور http;
کد html، "بدنه" صفحه.

خزنده(عنکبوت "مسافر"). این برنامهبه طور خودکار از تمام پیوندهای موجود در صفحه بازدید می کند و همچنین آنها را برجسته می کند. وظیفه آن این است که بر اساس این پیوندها یا بر اساس لیست مشخصی از آدرس ها، تعیین کند که عنکبوت در آینده باید به کجا برود.

نمایه ساز(ربات نمایه سازی) برنامه ای است که صفحات دانلود شده توسط عنکبوت ها را تجزیه و تحلیل می کند.

نمایه ساز صفحه را به طور کامل به عناصر تشکیل دهنده آن تجزیه می کند و آنها را با استفاده از انواع الگوریتم های مورفولوژیکی و واژگانی خود تجزیه و تحلیل می کند.

تجزیه و تحلیل در بخش‌های مختلف صفحه مانند سرفصل‌ها، متن، پیوندها، سبک و ویژگی‌های ساختاری انجام می‌شود. تگ های htmlو غیره.

بنابراین، ماژول نمایه سازی امکان دنبال کردن پیوندهای تعداد معینی از منابع، صفحات دانلود، استخراج حجم پیوند به صفحات جدید از اسناد دریافتی و تجزیه و تحلیل دقیق آنها را فراهم می کند.

پایگاه داده

پایگاه داده(یا فهرست موتور جستجو) - مجموعه ذخیره سازی داده ها، آرایه ای از اطلاعات که در آن پارامترهای هر یک پردازش شده توسط ماژول نمایه سازی و سند دانلود شده به روشی خاص ذخیره می شوند.

سرور جستجو

این بیشترین است عنصر مهمکل سیستم، زیرا سرعت و البته کیفیت جستجو به طور مستقیم به الگوریتم های زیربنایی عملکرد آن بستگی دارد.

سرور جستجو به صورت زیر عمل می کند:

درخواستی که از کاربر می آید در معرض تجزیه و تحلیل مورفولوژیکی قرار می گیرد. محیط اطلاعاتی هر سند موجود در پایگاه داده تولید می شود (بیشتر به عنوان یک قطعه نمایش داده می شود، یعنی یک فیلد اطلاعاتی از متن مربوط به این درخواست).
داده های دریافتی به عنوان پارامترهای ورودی به یک ماژول رتبه بندی تخصصی ارسال می شود. آنها برای همه اسناد پردازش می شوند، و در نتیجه، برای هر یک از این اسناد رتبه بندی خود محاسبه می شود، که ارتباط چنین سندی را با درخواست کاربر و سایر اجزا مشخص می کند.
بسته به شرایط تعیین شده توسط کاربر، این رتبه بندی ممکن است توسط موارد اضافی تنظیم شود.
سپس خود قطعه تولید می شود، یعنی. برای هر سند یافت شده، عنوان، حاشیه نویسی که بیشترین تطابق را با پرس و جو دارد، و پیوندی به این سند از جدول مربوطه استخراج می شود، در حالی که فرم های کلمه و کلمات یافت شده برجسته می شوند.
نتایج جستجوی دریافتی در قالب صفحه ای که نتایج جستجو (SERP) در آن صادر می شود به شخصی که آن را انجام داده است منتقل می شود.

همه این عناصر از نزدیک به هم مرتبط هستند و عمل می کنند، تعامل دارند، مکانیزم متمایز، اما نسبتاً پیچیده ای را برای عملکرد PS تشکیل می دهند، که به هزینه های هنگفت منابع نیاز دارد.