• Co je vyhledávač, jak funguje? Internetové vyhledávače: přehled existujících řešení

    V posledních letech do našich životů pevně vstoupily služby od společností Google a Yandex. V tomto ohledu se mnozí pravděpodobně ptají, co je vyhledávač? mluvící jednoduchými slovy, Tento softwarový systém, určený k vyhledávání informací ve světě široká síť. Jeho výsledky jsou obvykle prezentovány ve formě seznamu, často označovaného jako stránky s výsledky vyhledávání (SERP). Informace mohou být kombinací webových stránek, obrázků a dalších typů souborů. Nějaký vyhledávače obsahují také informace dostupné v databázích nebo otevřených adresářích.

    Na rozdíl od webových adresářů, které jsou podporovány pouze nativními editory, vyhledávače také obsahují informace v reálném čase spuštěním algoritmu na webovém prohledávači.

    Historie výskytu

    Samotné vyhledávače se objevily dříve než World Wide Web - v prosinci 1990. První taková služba se jmenovala Archie a pomocí příkazů vyhledávala obsah souborů FTP.

    Co je internetový vyhledávač? Do září 1993 po celém světě Web byl kompletně indexován ručně. Existoval seznam webových serverů, který upravil Tim Berners-Lee a který byl umístěn na webovém serveru CERN. Jako všechno velké množství servery byly online, výše uvedená služba nestíhala zpracovávat takové množství informací.

    Jedním z prvních vyhledávačů založených na vyhledávání na webu byl WebCrawler, který byl uveden na trh v roce 1994. Na rozdíl od svých předchůdců umožňoval uživatelům vyhledávat jakékoli slovo na jakékoli webové stránce. Tento algoritmus se od té doby stal standardem pro všechny hlavní vyhledávače. Bylo to také první rozhodnutí široce známé veřejnosti. Také v roce 1994 byla spuštěna služba Lycos, která se později stala velkým komerčním projektem.

    Brzy poté se objevilo mnoho vyhledávačů a jejich obliba výrazně vzrostla. Patří mezi ně Magellan, Excite, Infoseek, Inktomi, Northern Light a AltaVista. Yahoo! byl jedním z nejpopulárnějších způsobů, jak najít zajímavé webové stránky, ale jeho vyhledávací algoritmus fungoval ve vlastním webovém adresáři, nikoli ve fulltextových kopiích stránek. Hledači informací by také mohli procházet katalog místo hledání klíčových slov.

    Nové kolo vývoje

    Google přijal myšlenku prodeje vyhledávacích dotazů v roce 1998, počínaje malou společností s názvem goto.com. Tento krok měl významný dopad na SEO byznys, který se postupem času stal jedním z nejziskovějších byznysů na webu.

    Kolem roku 2000 se vyhledávač Google stal široce známým. Společnost dosáhla lepších výsledků u mnoha vyhledávání s inovací nazvanou PageRank. Tento iterativní algoritmus vyhodnocuje webové stránky na základě jejich odkazů na jiné weby a stránky na základě předpokladu, že ostatní často zmiňují dobré nebo žádoucí zdroje. Google také zachoval minimalistické rozhraní pro svůj vyhledávač. Naopak řada konkurentů zabudovala do webového portálu vyhledávač. Ve skutečnosti se Google stal tak populární, že se objevily podvodné nástroje, jako je Mystery Seeker. Dnes existuje mnoho regionálních verzí této služby, zejména vyhledávač Google.ru, určený pro rusky mluvící uživatele.

    Jak tyto služby fungují?

    Jak probíhá hodnocení a vydávání výsledků? Co jsou vyhledávače z hlediska akčního algoritmu? Své informace získávají procházením webu z webu na web. Robot nebo „pavouk“ zkontroluje výchozí název souboru robots.txt, který je mu adresován, než odešle určité informace k indexování. To se zaměřuje na mnoho faktorů, jmenovitě nadpisy, obsah stránky, JavaScript, kaskádové styly (CSS) a také standardní HTML značení obsah nebo metadata v metaznačkách HTML.

    Indexování znamená spojování slov a dalších definovatelných tokenů nalezených na webových stránkách s jejich názvy domén a pole na založené na HTML. Asociace jsou vytvářeny ve veřejné databázi dostupné pro vyhledávací dotazy na webu. Požadavek od uživatele může být jednoslovný. Index vám pomůže co nejrychleji najít informace související s dotazem.

    Některé z technik indexování a ukládání do mezipaměti jsou obchodním tajemstvím, zatímco procházení webu je jednoduchý proces systematické návštěvy všech stránek.

    Mezi procházením je rychle odeslána žádajícímu uživateli uložená verze stránky (část nebo veškerý obsah potřebný k jejímu zobrazení) uložená v pracovní paměti vyhledávače. Pokud je návštěva po termínu, vyhledávač může jednoduše fungovat jako webový proxy. V tomto případě se stránka může lišit od indexů vyhledávání. Zdroj uložený v mezipaměti zobrazuje verzi, jejíž slova byla indexována, takže může být užitečný v případě ztráty skutečné stránky.

    Architektura na vysoké úrovni

    Uživatel obvykle zadá dotaz do vyhledávače ve formě několika klíčových slov. Index již obsahuje názvy webů obsahujících data klíčová slova a okamžitě se zobrazí. Skutečnou zátěží je vytváření webových stránek, které jsou seznamem výsledků vyhledávání. Každá stránka v celém seznamu musí být seřazena podle informací v rejstřících.

    V tomto případě horní prvek výsledku vyžaduje vyhledání, rekonstrukci a označení fragmentů zobrazujících kontext z odpovídajících klíčových slov. Toto je pouze část zpracování každé webové stránky ve výsledcích vyhledávání a další stránky (vedle ní) vyžadují většinu tohoto následného zpracování.

    Kromě pouhého vyhledávání klíčových slov nabízejí vyhledávače své vlastní GUI nebo příkazy řízené operátory a možnosti vyhledávání pro upřesnění výsledků.

    Poskytují nezbytné kontroly pro uživatele prostřednictvím zpětné vazby, filtrování a vážení při zpřesňování požadovaných dat, s ohledem na domovské stránky první výsledky vyhledávání. Například od roku 2007 Google.com umožňuje filtrovat výsledný seznam podle data kliknutím na „Zobrazit vyhledávací nástroje“ ve sloupci zcela vlevo na původní stránce s výsledky a poté výběrem požadovaného časového období.

    Variace požadavků

    Většina vyhledávačů podporuje použití logické operátory A, NEBO a NE pomoci koneční uživateléžádost upřesnit. Některé operátory jsou pro literály, které umožňují uživateli upřesnit a rozšířit hledané výrazy. Robot vyhledává slova nebo fráze stejným způsobem, jako vyhledává zadané příkazy. Některé vyhledávače poskytují funkci pokročilého vyhledávání, která uživatelům umožňuje určit vzdálenost mezi klíčovými slovy.

    Existuje také koncepční vyhledávání, ve kterém studie zahrnuje použití Statistická analýza na stránkách obsahujících slova nebo fráze, která hledáte. Dotazy v přirozeném jazyce navíc umožňují uživateli zadat otázku ve stejném tvaru, jako by se zeptal člověka (nejtypičtějším příkladem je ask.com).

    Užitečnost vyhledávače závisí na relevanci množiny výsledků, které vrací. Mohou to být miliony webových stránek, které obsahují určité slovo nebo frázi, ale některé z nich mohou být relevantnější, oblíbenější nebo autoritativnější než jiné. Většina vyhledávačů používá metody hodnocení k poskytování nejlepších výsledků.

    Způsob, jakým vyhledávač rozhodne, které stránky nejlépe odpovídají dotazu, a v jakém pořadí by se měly nalezené zdroje zobrazit, se u jednotlivých robotů značně liší. Tyto postupy se také v průběhu času mění, jak se mění používání internetu a vyvíjejí se nové technologie.

    Co je vyhledávač: odrůdy

    Existují dva hlavní typy vyhledávačů. Prvním je systém předdefinovaných a hierarchicky uspořádaných klíčových slov, kterými si jej lidé masivně naprogramovali. Druhým je systém, který generuje „invertovaný index“ analýzou nalezených textů.

    Většina vyhledávačů jsou komerční služby podporované příjmy z reklamy, a proto některé z nich umožňují inzerentům za úplatu řadit se v zobrazovaných výsledcích. Služby, které nepřijímají peníze za hodnocení, vydělávají peníze zobrazováním kontextových reklam vedle zobrazených stránek. K dnešnímu dni je propagace ve vyhledávačích jedním z nejziskovějších příjmů v síti.

    Jaké služby jsou nejčastější?

    Google je nejpopulárnější vyhledávač na světě s podílem na trhu 80,52 % k březnu 2017.

    • Google – 80,52 %
    • Bing – 6,92 %
    • Baidu – 5,94 %
    • Yahoo! - 5,35 %

    Vyhledávače v Rusku a východní Asii

    V Rusku a některých východoasijských zemích není Google nejoblíbenější službou. Mezi ruskými uživateli je vyhledávač Yandex lídrem v oblíbenosti (61,9 %) ve srovnání s Googlem (28,3 %). V Číně je Baidu nejvíc oblíbená služba. vyhledávací portál Jižní Korea- Naver se používá pro 70 % procent online vyhledávání v zemi. Také Yahoo! v Japonsku a na Tchaj-wanu je nejoblíbenějším nástrojem pro vyhledávání správných dat.

    Dalšími známými ruskými vyhledávači jsou Mail a Rambler. S počátkem vývoje Runet byli široce populární, ale nyní ztratili své pozice.

    Omezení a kritéria vyhledávání

    Zatímco vyhledávače jsou naprogramovány tak, aby hodnotily webové stránky na základě určitého stupně popularity a relevance, empirický výzkum poukazuje na různá politická, ekonomická a sociální kritéria pro výběr informací, které poskytují. Tyto předsudky mohou být přímým důsledkem ekonomických (například společnosti, které inzerují vyhledávač, se také mohou stát populárnějšími ve výsledcích organického vyhledávání) a politických procesů (například odstranění výsledků vyhledávání, aby byly v souladu s místními zákony). Google například nebude zobrazovat některé neonacistické stránky ve Francii a Německu, kde je popírání holocaustu nezákonné.

    Křesťanské, islámské a židovské vyhledávače

    Globální růst internetu a elektronické prostředky média v muslimském světě za poslední desetiletí přiměla islámské přívržence na Středním východě a na asijském subkontinentu, aby se pokusili vytvořit vlastní vyhledávače a filtrované portály, které uživatelům umožní provádět bezpečné vyhledávání.

    Takové služby obsahují filtry, které dále klasifikují webové stránky jako „halal“ nebo „haram“ na základě moderního odborného výkladu „zákona islámu“.

    Portál ImHalal byl online v září 2011 a Halalgoogling v červenci 2013. Používají filtry haram založené na algoritmech od Googlu a Bingu.

    Dalšími vyhledávači zaměřenými na náboženství jsou Jewgle (žid verze google), stejně jako Christian SeekFind.org. Filtrují webové stránky, které popírají nebo znevažují jejich víru.

    Vyhledávací systém- softwarový a hardwarový komplex s webovým rozhraním, který poskytuje možnost vyhledávat informace na internetu.

    Všechny vyhledávače spojuje skutečnost, že jsou umístěny na speciálně vyhrazených výkonných serverech a jsou navázány na efektivní komunikační kanály. Vyhledávače se také nazývají systémy vyhledávání informací (IPS). Počet současně obsluhovaných návštěvníků nejoblíbenějších systémů dosahuje mnoha tisíc. Nejznámější obsluhují miliony zákazníků denně. V případech, kdy je vyhledávač založen na adresáři, nazývá se adresář. Vychází z práce moderátorů. Základem IPS s fulltextovým vyhledáváním je automatický sběr informací. Provádí se speciálními programy. Tyto programy pravidelně zkoumají obsah všech internetových zdrojů. K tomu se pohybují, nebo jak se říká, prolézají různými zdroji. Podle toho se takové programy nazývají roboti. Existují i ​​další názvy: protože WWW je zkratka pro výraz World Wide Web, je přirozené, že se takovému programu v angličtině říká pavouk. - pavouk. V poslední době se používají jiné názvy: automatické indexy nebo adresáře. Všechny tyto programy zkoumají a „stahují“ informace z různých adres URL. Programy zadaného typu navštíví každý zdroj po určité době. Žádný vyhledávač není schopen indexovat celý internet. Proto jsou databáze, ve kterých se shromažďují adresy indexovaných zdrojů, pro různé vyhledávače různé. Přesto se mnozí z nich snaží pokud možno pokrýt svou tvorbou celý prostor World Wide Web.

    Pro vyhledávání informací pomocí vyhledávače uživatel zformuluje vyhledávací dotaz. Na základě dotazu uživatele vygeneruje vyhledávač stránku s výsledky vyhledávání. Takové výsledky vyhledávání mohou kombinovat různé typy souborů, například: webové stránky, obrázky, videosoubory. Některé vyhledávače také získávají data z databází a adresářů zdrojů na internetu.

    Podle způsobů vyhledávání a údržby se dělí čtyři typy vyhledávačů:

    1.systémy využívající vyhledávací roboty.

    2. systémy řízené člověkem

    3.hybridní systémy

    4.metasystémy.

    Architektura vyhledávače zahrnuje: vyhledávacího robota, který prohledává internetové stránky, indexátor, který poskytuje rychlé vyhledávání, a vyhledávač – grafické uživatelské rozhraní.

    Účelem vyhledávače je najít dokumenty, které obsahují buď klíčová slova, nebo slova, která s klíčovými slovy nějakým způsobem souvisí. Vyhledávač je tím lepší, čím více dokumentů relevantních k dotazu uživatele vrátí.

    Příklady vyhledávačů

    Google- jeden z nejúplnějších a nejoblíbenějších zahraničních IPS. Charakteristickým rysem Google IPS je technologie pro určení stupně relevance dokumentu pomocí analýzy odkazů z jiných zdrojů na tento zdroj. Čím více odkazů na stránku na jiných stránkách, tím vyšší je její hodnocení v Google IPS. Google používá algoritmus výpočtu autority PageRank. PageRank je jedním z pomocných faktorů při hodnocení stránek ve výsledcích vyhledávání. PageRank není jediný, ale velmi důležitým způsobem určit pozici webu ve výsledcích vyhledávání Google. Google používá hodnocení PageRank stránek nalezených pro daný dotaz k určení pořadí, ve kterém se tyto stránky zobrazí návštěvníkovi ve výsledcích vyhledávání. V roce 2010 společnost spustila hlasové vyhledávání v Rusku. Chcete-li hledat, musíte stisknout tlačítko vedle vyhledávacího pole na telefonu a říct svůj dotaz, telefon odešle váš hlas na server a prohlížeč zobrazí řetězec s rozpoznáním vašeho dotazu a výsledky vyhledávání.

    Yandex je v současnosti nejpopulárnějším tuzemským vyhledávačem. Založena v roce 1997. Vede svůj vlastní katalog internetových zdrojů. Je to také nejlepší vyhledávač pro identifikaci ilustrací. Anglická verze je dodávána s adresářem internetových zdrojů. Má vyvinutý systém generování požadavků. Zejména je povoleno zadat recept na vyhledávání v přirozeném jazyce - v tomto případě jsou všechna potřebná rozšíření provedena automaticky.

    Kromě webových stránek HTML indexuje Yandex dokumenty ve formátu PDF (Adobe Acrobat), Rich Text Format (RTF), binární Word (.doc), Excel (.xls), PowerPoint (.ppt), RSS (blogy a fóra).

    Vyhledávač mail.ru začal pracovat v roce 2007. Objem indexového souboru na jaře 2009 činil více než 1,5 miliardy stránek umístěných na ruskojazyčných serverech. Kromě vyhledávání textů systém vyhledává ilustrace a videoklipy hostované na specializovaných „samoobslužných“ ruských serverech: [email protected], Flamber.Ru, 35Photo.ru, PhotoForum.ru, [email protected], RuTube, Loadup, Rambler Vision a podobně. Gogo.ru vám umožňuje omezit oblast vyhledávání na komerční weby, informační weby a také fóra a blogy. Formulář "Pokročilé vyhledávání" také umožňuje omezit vyhledávání na určité typy souborů (PDF, DOC, XLS, PPT), pozici hledaných slov v dokumentu nebo konkrétní doménu. listopad 2013 Google Play objevila se nová verze vyhledávací aplikace od společnosti Mail.Ru, která umožňuje přepnout z hlavní obrazovky na libovolné sociální sítě a obsahuje rychlý přístup pro vyhledávání podle obrázků, videí a zpráv. Aplikace pro Android se proměnila v miniprohlížeč navržený tak, aby efektivně nacházel informace, které potřebujete. Nástroj se také naučil rozpoznávat vyhledávací dotazy, které nejsou zadány textem, ale hlasem. Vývojáři také poznamenávají, že vytvořili speciální widget, na který lze umístit úvodní obrazovka na bázi smartphonu nebo tabletu systémy Google Android. Rozumí se, že to dále zkrátí čas strávený hledáním.

    AltaVista- jeden z nejstarších vyhledávačů zaujímá jedno z prvních míst co do objemu dokumentů - více než 350 milionů. AltaVista umožňuje jednoduché i pokročilé vyhledávání. „Nápověda“ umožňuje i nezkušeným uživatelům správně skládat jednoduché i složité dotazy.

    Tramp- jeden z prvních ruských IRS, otevřen v roce 1996. Na konci roku 2002 byla provedena radikální modernizace, po které se Rambler znovu zařadil do skupiny vůdců vyhledávání v síti. V současné době je objem indexu asi 150 milionů dokumentů. Pro skládání složitých dotazů se doporučuje použít režim „Podrobný dotaz“, který poskytuje dostatek příležitostí pro sestavení receptu vyhledávání pomocí položek nabídky.

    APORT. K dnešnímu dni je objem její databáze více než 20 milionů dokumentů. Systém má široké možnosti vyhledávání. APORT má funkci vestavěného překladače, což uživateli dává možnost formulovat požadavky, a to jak v ruštině, tak v Angličtina. APORT má navíc speciální režimy pro vyhledávání ilustrací a zvukových souborů.

    Vyhledávače nejnovější generace indexují všechna slova na webové stránce nebo v článku z konference, zatímco dříve byl rozsah indexování obvykle omezen na název, nadpisy, prvních několik řádků a adresu dokumentu. To výrazně omezilo možnost identifikace materiálů na úzké téma, protože výsledky vyhledávání ne vždy odrážely skutečná data. Odstraněním tohoto nedostatku jsou moderní vyhledávače mnohem spolehlivější než jejich předchůdci.

    Další nejdůležitější vlastností je vylepšení mechanismu vnitřního vyhledávání, které se projevuje zvýšením počtu operátorů a dalších prvků dotazování. Před několika lety se používaly pouze dva, v nejlepším případě tři klasické booleovské operátory: AND (and), OR (nebo) a NOT (not). Nyní existují NEAR (near, about) v Alta Vista a FOLLOWED BY (follows) v OpenText - extrémně užitečné operátory vzdálenosti, které vám umožní specifikovat dotaz co nejvíce. Mnoho systémů umožňuje zkrátit koncovky výrazů, omezit vyhledávání podle data vytvoření dokumentu, vyhledávat klíčová slova pouze v určených prvcích webové stránky (název, nadpisy, e-mailová adresa atd.) a vyhledávat přesné fráze. Nejnovější vývoj také umožňuje detekovat soubory určitého typu (například grafické nebo zvukové) a jsou citlivé na malá a velká písmena. Začíná být běžné vyhledávat data v jakémkoli jazyce. To vše umožňuje sestavit rešeršní předpis s vysokou mírou přesnosti, což samozřejmě zvyšuje relevanci získaných výsledků.

    Na tento moment nejoblíbenější vyhledávače Google a Yandex, pojďme je porovnat:

      Počet indexovaných stránek. Google má 8 miliard a Yandex jen 2 miliardy. Tedy čtyřikrát méně. Vítězství pro Google.

      Rychlost indexování stránek. Google indexuje nové stránky během jednoho dne, zatímco Yandexu to může trvat několik dní. Google opět vítězí.

      Relevance emise. Relevance označuje shodu výsledků zobrazených na stránce vyhledávače s vaším dotazem. Hned musím říct, že tady je těžké určit vítěze. Google odhalil dobré výsledky v zahraničním segmentu internetu, ale v Runetu byl Yandex vždy o něco napřed.

      Doplňkové internetové služby. Zde je výhoda jednoznačně pro Yandex. Má desítky různých služeb, které jsou pohodlně seskupeny do kategorií, zatímco Google jich má méně a navíc existuje integrace s sociální síť Google+, který se mnohým nelíbí.

    Dobrý den, milí čtenáři! S tebou Jekatěrina Kalmyková. Dnešní článek bude věnován takovému pojmu jako vyhledávač, co to je, k čemu to je. Blíže se také podíváme na typy vyhledávačů na internetu.

    Pokud máte otázku: „Proč bych měl vědět o těchto vyhledávačích?“, odpovím takto. Když jíte v restauraci výbornou polévku, rádi byste věděli, z jakých surovin se vyrábí, abyste si ji mohli sami doma zopakovat? Pokud jste totiž spokojeni s konečným výsledkem, tedy chutí polévky, pak by vás jistě zajímalo, co k takovému výsledku vedlo?

    Můžete také říci o práci s vyhledávačem (PS). Pokud si v budoucnu vytvoříte svůj vlastní blog, pak s vědomím práce PS nebudete muset hledat pomoc u specialistů. Budete moci samostatně řídit svůj projekt tak, aby jej vyhledávač viděl a ukázal ostatním uživatelům. Na tom bude koneckonců záviset návštěvnost vašeho zdroje, a tedy i výdělky.

    Pojďme tedy začít.

    Co je vyhledávač?

    Vyhledávač je speciální zdroj na internetu, která uživateli poskytuje informace v souladu s jeho žádostí. To znamená, že tento zdroj shromažďuje všechna data globální síť, všechny webové projekty a při obdržení konkrétního požadavku od uživatele poskytne potřebné informace odesláním např. na tematický blog nebo web.

    Vaším úkolem tedy po vytvoření vašeho projektu bude dostat se do problematiky, tedy do „seznamu“ či databáze vyhledávače. Protože propagace webových stránek na internetu prostě není možná bez použití jakéhokoli vyhledávače, budete se muset postarat o kvalitu svého zdroje, jeho vnitřní a vnější optimalizaci. Jak to udělat, budeme diskutovat v budoucích článcích. Tak si to nenechte ujít.

    Pokud se mezitím rozhodnete založit si vlastní blog, doporučuji přečíst si tyto články:

    Vzhledem k tomu, že se téměř každý den objevují nové webové zdroje, musí být databáze vyhledávačů neustále aktualizována. Každý nově vytvořený web musí být robotem indexován. Zjednodušeně řečeno, asistenti PS – roboti se musí seznámit s novým zdrojem a přenést tato data do samotného vyhledávače.

    No, tady jste asi uhodli, že když váš blog navštíví robot, mělo by se mu líbit všechno. Váš budoucí osud bude záviset na tomto hostu.

    Jak zajistit, aby robot z vašeho projektu zůstal uvnitř plný rozkoše Povím v jednom z následujících článků. Nenechte si to ujít, budou tam zajímavé a velmi kuriózní informace, o které se s vámi podělím.

    Práce vyhledávačů

    Veškerá práce související s PS začíná zadáním požadovaného dotazu do vyhledávacího pole. Co mohou uživatelé hledat? Ano, cokoliv, od receptu na zelné koláče až po prastarou otázku „jak vydělat více peněz, aniž byste cokoli dělali“.

    Aby váš zdroj vyšel jako odpověď na otázku, musíte být před svými konkurenty. Chcete-li to provést, musíte věnovat zvláštní pozornost propagaci svého projektu, která zahrnuje takové činnosti, jako je psaní vysoce kvalitního optimalizovaného obsahu, tedy reakce na požadavky na články, zlepšování behaviorální faktor, to znamená, aby bylo pro vašeho čtenáře zajímavé být na zdroji, jde o zlepšení použitelnosti, tedy pohodlí návštěvníka a mnoha dalších faktorů. To je to, co se všichni naučíme dělat.

    Komponenty vyhledávače

    A co pomáhá vyhledávačům, například stejnému Googlu, indexovat váš zdroj?

    1. Agenti jsou pracovníci, kteří dělají většinu práce – indexují a analyzují stránky.
    2. Pavouci (pavouci) - program, který dokáže stáhnout stránky webového zdroje a sbírat obecná informace o něm.
    3. Crawlers (crawler) - program, který najde všechny odkazy na stránkách, podle kterých hledá nová data, která vyhledávačům neznají.
    4. Indexer – analyzuje text, nadpisy, styl atd.
    5. Roboti – indexujte stránky svého obsahu a také prostudujte různé odkazy.

    Aby indexování probíhalo tak, jak potřebujete, vytvořte speciální dokument „robots.txt“. Umožňuje systému zkontrolovat pouze stránky, které potřebujete, a odstranit ty, které nechcete vidět.

    Typy vyhledávačů

    Existuje několik možností pro systémy vyhledávání informací:

    • Katalogy. Jednoduché srovnání vyhledávání je knihovna v knihovně. Vše je tam uloženo v podkategoriích a kategoriích určitého předmětu. Pokud jste se do takového vyhledávače dostali, tak věřte, že informace, které tam najdete, budou pro vaše vnímání více než užitečné a srozumitelné. Uhodli jste, o jaký společný web se jedná? Samozřejmě o Wikipedii, která shromáždila celou příručku užitečné informace.
    • Vyhledávací ukazatele. Vyhledávání v datech se provádí na náklady klíčové fráze. Je to pohodlné i nepohodlné zároveň. Myslím, že ti lidé, kteří hledají například „Girl shows class“, mě pochopí, že zjistí, jak dívka ukazuje palec nahoru, a při hledání se objeví něco nepříliš slušného. 🙂 Tento typ vyhledávání charakterizuje většinu vyhledávačů.
    • ratingové systémy. Určete svou popularitu podle počtu návštěv. Samozřejmě to není nejlepší kritérium, protože užitečnost a kvalita samotného zdroje není vždy brána v úvahu. Příkladem takového systému je internetový zdroj alexa.com.

    Vyhledávače se také dělí na obecné a specializované. Obecné vyhledávače třídí informační data bez jakéhokoli výběru pro všechny jim známé webové zdroje. Patří mezi ně Yandex, Rambler, Google. Specializované – řazení podle použitého jazyka.

    Také vyhledávače lze rozdělit na regionální a celosvětové distribuce.

    K dnešnímu dni všechny vyhledávače neustále zlepšují své algoritmy pro výběr vysoce kvalitních a relevantních zdrojů.

    Trocha historie

    PS se objevil v Runetu v roce 1996 - to jsou Aport a Rambler. O rok později, v roce 1997, vznikl Yandex a o rok později, v roce 1998, se objevil další konkurent – ​​Google. V v současné době nejoblíbenější jsou Yandex a Google.

    Jaké jsou nyní nejoblíbenější vyhledávače?

    Zde jsou statistiky:

    Jak můžete vidět, Yandex je nyní nejpopulárnější v Rusku spolu s Google a Mail.

    Můžete tak vidět nejčastější vyhledávání, na která byste se měli zaměřit při vytváření a propagaci svého projektu.

    Vyhledávač Yandex (Yandex)

    Princip práce je následující: vyhledávací řetězec zadejte dotaz, který hledáte, klikněte na "Najít" a podívejte se na výstup. Yandex vyzvedl 13 milionů odpovědí na vaši žádost. Můžete také vyhledávat v obrázcích, videích, marketu (podívejte se na levý sloupec).

    Kromě toho můžete nastavit oblast vyhledávání. Chcete-li to provést, klikněte na ikonu vedle křížku ve vyhledávací liště a vyberte požadovanou oblast v okně filtru.

    Vyhledávač Google (Google)

    Google funguje podobně jako Yandex. Můžete vyhledávat informace v různých sekcích: obrázky, videa, zprávy, mapy atd.

    Pokud kliknete na "Nástroje pro vyhledávání", otevře se panel nastavení, kde můžete vybrat region, jazyk a jak dlouho hledat informace.

    Nyní víte, jaké vyhledávače na internetu existují, také jste viděli nejoblíbenější z nich a nyní, vyzbrojeni informacemi, můžete budovat svá spojení a interakci s vyhledávači.

    To je pro dnešek vše. Jak se vám článek líbí?

    Zatím vše.

    Doporučuji vám aktualizovat blog, abyste nepřišli o nejnovější zprávy.

    Jekatěrina Kalmyková

    Vyhledávače (PS) jsou již dlouhou dobu nepostradatelnou součástí internetu. Dnes jsou to obrovské a složité mechanismy, které nejsou pouze nástrojem k nalezení jakýchkoli nezbytné informace, ale také docela vzrušující oblasti pro podnikání.


    Mnoho uživatelů vyhledávání nikdy nepřemýšlelo o principech své práce, o tom, jak jsou zpracovávány požadavky uživatelů, o tom, jak jsou tyto systémy sestaveny a fungují. Tento materiál pomůže lidem, kteří se zabývají optimalizací a porozumí zařízení a hlavním funkcím vyhledávačů.

    Funkce a koncepce PS

    Vyhledávací systém je hardwarově-softwarový komplex, který je navržen tak, aby vykonával funkci vyhledávání na internetu a reagoval na požadavek uživatele, který je obvykle nastaven ve formě textové fráze (nebo spíše vyhledávací dotaz), vydávání referenčního seznamu k informačním zdrojům, provedený podle relevance. Nejběžnější a velké systémy Vyhledávání: Google, Bing, Yahoo, Baidu. V Runet - Yandex, Mail.Ru, Rambler.

    Podívejme se blíže na význam samotného vyhledávacího dotazu a jako příklad si vezměme systém Yandex.

    Požadavek musí být uživatelem formulován zcela v souladu s předmětem jeho vyhledávání, pokud možno jednoduše a výstižně. Chceme například najít informace v tomto vyhledávači: "jak si vybrat auto pro sebe." Chcete-li to provést, otevřete domovská stránka a zadejte dotaz pro vyhledávání „jak si vybrat auto“. Poté jsou naše funkce redukovány na sledování poskytnutých odkazů na informační zdroje v síti.




    Ale i když budeme jednat tímto způsobem, nemusíme získat informace, které potřebujeme. Pokud jsme dostali takto negativní výsledek, stačí náš dotaz přeformulovat, nebo o tomto typu dotazu ve vyhledávací databázi opravdu nejsou žádné užitečné informace (to je docela možné s danými „úzkými“ parametry dotazu, jako např. například „jak si vybrat auto v Anadyru“).

    Nejzákladnějším úkolem každého vyhledávače je poskytovat přesně takové informace, které lidé potřebují. A navyknout uživatele na vytváření „správného“ typu dotazů do vyhledávačů, tedy frází, které budou odpovídat jejich principům práce, je prakticky nemožné.

    Proto vývojáři vyhledávačů vytvářejí takové principy a algoritmy své práce, které uživatelům umožní najít informace, které je zajímají. To znamená, že systém musí „myslet“ stejně, jako přemýšlí člověk při hledání potřebných informací na internetu.

    Když zadá svůj dotaz do vyhledávače, chce co nejsnáze a nejrychleji najít to, co chce. Po obdržení výsledku uživatel provede hodnocení systému podle několika kritérií. Podařilo se mu najít nezbytné informace? Pokud ne, kolikrát musel přeformátovat text dotazu, aby ji našel? Jak aktuální byly obdržené informace? Jak rychle vyhledávač zpracoval jeho požadavek? Jak pohodlné byly výsledky vyhledávání? Byl tam kýžený výsledek první, nebo byl na 30. místě? Kolik "odpadu" (zbytečných informací) bylo nalezeno spolu s užitečnými informacemi? Budou pro něj relevantní informace při používání PS za týden, nebo za měsíc?




    Aby vývojáři vyhledávání dostali správné odpovědi na takové otázky, neustále zlepšují principy hodnocení a jeho algoritmy, přidávají k nim nové vlastnosti a funkce a jakýmkoli způsobem se snaží systém zrychlit.

    Hlavní charakteristiky vyhledávačů

    Označme hlavní charakteristiky vyhledávání:

    Úplnost.

    Úplnost je jednou z nejdůležitějších charakteristik vyhledávání, je to poměr čísel nalezených dotazem informační dokumenty k jejich celkovému počtu na internetu souvisejících tento požadavek. Například v síti je 100 stránek s frází „jak si vybrat auto“ a pro stejnou žádost bylo vybráno pouze 60 z celkového počtu, pak v tento případúplnost vyhledávání bude 0,6. Je jasné, že čím kompletnější je samotné vyhledávání, tím je pravděpodobnější, že uživatel najde přesně ten dokument, který potřebuje, samozřejmě pokud vůbec existuje.

    Přesnost.

    Další důležitou funkcí vyhledávače je přesnost. Určuje míru shody s požadavky uživatele na stránky nalezené na webu. Pokud například existují stovky dokumentů pro klíčovou frázi „jak si vybrat auto“, polovina z nich tuto frázi obsahuje a zbytek má taková slova (jak správně vybrat autorádio a nainstalovat jej do auta“ ), pak se přesnost vyhledávání rovná 50/100 = 0,5.

    Čím přesnější vyhledávání, tím dříve uživatel nalezne informace, které potřebuje, tím méně různých „odpadků“ bude mezi výsledky nalezeno, tím méně nalezených dokumentů nebude odpovídat smyslu požadavku.

    Relevantnost.

    Jedná se o významnou složku vyhledávání, která je charakterizována dobou, která uběhla od okamžiku zveřejnění informace na internetu do jejího zadání do indexové databáze vyhledávače.

    Například den po informaci o výstupu nový iPad, mnoho uživatelů se obrátilo na vyhledávání s odpovídajícími typy dotazů. Ve většině případů jsou informace o této novince již dostupné ve vyhledávání, i když od jejího objevení uplynulo velmi málo času. To je způsobeno tím, že velké vyhledávače mají „rychlou databázi“, která se aktualizuje několikrát denně.

    Rychlost vyhledávání.

    Taková funkce, jako je rychlost vyhledávání, úzce souvisí s tzv. „tolerancí zátěže“. Každou vteřinu se na vyhledávání obrací obrovské množství lidí, taková zátěž vyžaduje výrazné zkrácení času na vyřízení jednoho požadavku. Zde se zájmy vyhledávače i uživatele zcela shodují: návštěvník chce získat výsledky co nejrychleji a vyhledávač musí jeho požadavek zpracovat co nejrychleji, aby nezpomaloval vyřizování následných požadavků.

    viditelnost.

    Vizuální prezentace výsledků je základním prvkem pohodlí vyhledávání. U mnoha dotazů vyhledávač najde tisíce a v některých případech miliony různé dokumenty. Kvůli vágnosti sestavení klíčových frází pro vyhledávání nebo jeho nepřesnosti nemají ani úplně první výsledky dotazu vždy jen potřebné informace.

    To znamená, že člověk často musí mezi poskytnutými výsledky vyhledávat sám. Různé součásti stránek vydání PS vám pomohou procházet výsledky vyhledávání.

    Historie vyhledávačů

    Když se internet začal poprvé rozvíjet, počet jeho běžných uživatelů byl malý a množství informací, které bylo možné získat, bylo relativně malé. Do této sítě měli přístup v podstatě pouze specialisté ve výzkumných oborech. V té době nebyl úkol vyhledávat informace tak aktuální jako nyní.

    Jednou z vůbec prvních metod organizace širokého přístupu k informačním zdrojům bylo vytváření katalogů stránek a odkazy na ně se začaly seskupovat podle témat. Takovým prvním projektem se stal zdroj Yahoo.com, který byl otevřen na jaře 1994. Následně, když se výrazně zvýšil počet stránek v adresáři Yahoo, přibyla možnost vyhledávat potřebné informace v adresáři. Nebyl to ještě plnohodnotný vyhledávač, protože rozsah takového vyhledávání byl omezen pouze na stránky zahrnuté v tomto adresáři, a ne na absolutně všechny zdroje na internetu. Odkazové adresáře byly v minulosti velmi široce používány, ale v současné době téměř úplně ztratily svou popularitu.

    Vždyť i dnešní obrovské katalogy mají informace o malé části stránek na internetu. Nejznámější a největší adresář na světě má informace o pěti milionech stránek, zatímco databáze Google obsahuje informace o více než 25 miliardách stránek.




    Úplně prvním skutečným vyhledávačem byl WebCrawler, který se objevil již v roce 1994.

    AltaVista a Lycos se objevily v následujícím roce. První byl navíc dlouhou dobu lídrem ve vyhledávání informací.




    V roce 1997 Sergey Brin spolu s Larry Pageem vytvořili auto vyhledávač Google jako výzkumný projekt na Stanfordské univerzitě. Dnes je to Google, nejpopulárnější a nejpopulárnější vyhledávač na světě.




    V září 1997 byl (oficiálně) oznámen Yandex PS, což je aktuálně nejvíce populární systém hledat v RuNetu.




    Podle září 2015, podíly vyhledávačů na světě jsou rozděleny takto:
    • Google – 69,24 %;
    • Bing - 12,26 %;
    • Yahoo! - 9,19 %;
    • Baidu - 6,48 %;
    • AOL - 1,11 %;
    • Zeptejte se - 0,23 %;
    • Vzrušit – 0,00 %


    Podle prosince 2016, podíly vyhledávačů v Runetu:

    • Yandex – 48,40 %
    • Google – 45,10 %
    • Search.Mail.ru – 5,70 %
    • Rambler – 0,40 %
    • Bing – 0,30 %
    • Yahoo – 0,10 %

    Principy vyhledávačů

    V Rusku hlavní systém vyhledávání je Yandex, pak Google a poté [email protected]. Všechny velké vyhledávače mají svou vlastní strukturu, která se značně liší od ostatních. Ale přesto je možné vyčlenit hlavní prvky společné všem vyhledávačům.

    Indexovací modul.

    Tato součást se skládá ze tří robotů:

    Pavouk(v angličtině spider) - program, který je určen ke stahování webových stránek. Pavouk stáhne konkrétní stránku a zároveň z ní extrahuje všechny odkazy. Stahování html kód téměř z každé stránky. K tomu roboti používají protokoly HTTP.




    "Spider" funguje následovně. Robot odešle na server požadavek „get/path/document“ a další příkazy HTTP požadavek. Jako odpověď obdrží program robota textový proud, který obsahuje informace typu služby a samozřejmě samotný dokument.
    • URL stažené stránky;
    • datum stažení stránky;
    • hlavička http odpovědi serveru;
    • html kód, "tělo" stránky.
    Crawler("putující" pavouk). Tento program automaticky navštíví všechny odkazy nalezené na stránce a také je zvýrazní. Jeho úkolem je na základě těchto odkazů nebo na základě daného seznamu adres určit, kam se má pavouk v budoucnu vydat.

    indexátor(Indexing bot) je program, který analyzuje stránky stažené pavouky.



    Indexátor kompletně analyzuje stránku na její základní prvky a analyzuje je pomocí vlastních morfologických a lexikálních typů algoritmů.

    Analýza se provádí přes různé části stránky, jako jsou nadpisy, text, odkazy, stylové a strukturální prvky, html tagy atd.

    Indexovací modul tedy umožňuje sledovat odkazy daného počtu zdrojů, stahovat stránky, extrahovat z přijatých dokumentů množství odkazů na nové stránky a provádět jejich detailní analýzu.

    Databáze

    Databáze(nebo index vyhledávače) - datový skladovací komplex, pole informací, ve kterém jsou parametry každého zpracovávaného indexovacím modulem a staženého dokumentu určitým způsobem uloženy.

    vyhledávací server

    Jedná se o nejdůležitější prvek celého systému, protože rychlost a samozřejmě kvalita vyhledávání přímo závisí na algoritmech, na kterých je založena jeho funkčnost.

    vyhledávací server funguje takto:

    • Požadavek, který přichází od uživatele, je podroben morfologické analýze. Vygeneruje se informační prostředí libovolného dokumentu dostupného v databázi (dále se zobrazí jako úryvek, tedy informační pole textu odpovídající tomuto požadavku).
    • Přijatá data jsou předávána jako vstupní parametry specializovanému hodnotícímu modulu. Zpracovávají se pro všechny dokumenty a v důsledku toho je pro každý takový dokument vypočítáno jeho vlastní hodnocení, které charakterizuje relevanci takového dokumentu k požadavku uživatele, a další součásti.
    • V závislosti na podmínkách nastavených uživatelem může být toto hodnocení upraveno dalšími.
    • Poté se vygeneruje samotný snippet, tzn. pro jakýkoli nalezený dokument se z odpovídající tabulky extrahuje název, anotace, která nejvíce odpovídá dotazu, a odkaz na tento dokument, zatímco nalezené tvary slov a slova jsou zvýrazněny.
    • Výsledky přijatého vyhledávání jsou předány osobě, která je provedla, ve formě stránky, na které jsou zveřejněny výsledky vyhledávání (SERP).
    Všechny tyto prvky jsou úzce propojeny a fungují, vzájemně se ovlivňují, tvoří svébytný, ale dosti komplikovaný mechanismus fungování PS, který vyžaduje obrovské výdaje na zdroje.

    Vyhledávač je softwarový a hardwarový systém určený k prohledávání internetu a odpovídání na požadavek uživatele, specifikovaný ve formě textové fráze (vyhledávací dotaz), vydáním seznamu odkazů na informační zdroje v pořadí podle relevance (v v souladu s žádostí). Největší mezinárodní vyhledávače: Google, "Yahoo", "MSN". Na ruském internetu je to tak "Yandex", Tramp, "aport".

    Pojďme si popsat hlavní charakteristiky vyhledávačů:

      úplnost

    Úplnost je jednou z hlavních charakteristik vyhledávače, což je poměr počtu dokumentů nalezených žádostí k celkovému počtu dokumentů na internetu, které tomuto požadavku vyhovují. Pokud je například na internetu 100 stránek obsahujících frázi „jak si vybrat auto“ a pouze 60 z nich bylo nalezeno pro odpovídající dotaz, bude vyvolání vyhledávání 0,6. Je zřejmé, že čím je vyhledávání úplnější, tím je menší pravděpodobnost, že uživatel nenajde požadovaný dokument, za předpokladu, že na internetu vůbec existuje.

      Přesnost

    Přesnost je další hlavní charakteristikou vyhledávače, která je dána mírou, do jaké se nalezené dokumenty shodují s dotazem uživatele. Pokud například dotaz „jak vybrat auto“ obsahuje 100 dokumentů, 50 z nich obsahuje frázi „jak si vybrat auto“ a zbytek jednoduše obsahuje tato slova („jak vybrat správné rádio a nainstalovat jej do auto“), pak se přesnost vyhledávání považuje za rovnou 50/100 (=0,5). Čím přesnější je vyhledávání, tím rychleji uživatel najde potřebné dokumenty, tím méně různých druhů „odpadků“ mezi nimi najde, tím méně často nalezené dokumenty nebudou odpovídat požadavku.

      Relevantnost

    Neméně důležitou složkou vyhledávání je relevance, která je charakterizována dobou, která uplyne od okamžiku zveřejnění dokumentů na internetu do jejich zadání do indexové databáze vyhledávače. Například den poté, co se objevily zajímavé zprávy, se velké množství uživatelů obrátilo na vyhledávače s relevantními dotazy. Objektivně neuplynul ani den od zveřejnění zpravodajských informací na toto téma, nicméně hlavní dokumenty již byly indexovány a vyhledávány díky existenci tzv. „rychlé základny“ velkých vyhledávačů, což je aktualizovány několikrát denně.

      Rychlost vyhledávání

    Rychlost vyhledávání úzce souvisí s jeho tolerancí zatížení. Například podle OOO Rambler Internet Holding dnes během pracovní doby přichází do vyhledávače Rambler asi 60 požadavků za sekundu. Taková pracovní zátěž vyžaduje zkrácení doby zpracování jednoho požadavku. Zde se zájmy uživatele a vyhledávače shodují: návštěvník chce získat výsledky co nejrychleji a vyhledávač musí požadavek zpracovat co nejrychleji, aby nezpomaloval výpočet dalších požadavků.

      viditelnost

    Důležitou součástí je viditelnost prezentace výsledků pohodlné vyhledávání. Pro většinu dotazů vyhledávač najde stovky nebo dokonce tisíce dokumentů. Kvůli nepřehlednosti ve formulaci dotazů nebo nepřesnosti vyhledávání neobsahují ani první stránky vydání vždy jen potřebné informace. To znamená, že uživatel musí často provádět vlastní vyhledávání v nalezeném seznamu. Různé prvky stránky s výsledky vyhledávání vám pomáhají procházet výsledky vyhledávání. Podrobné vysvětlení na stránce s výsledky vyhledávání, například pro Yandex, si můžete prohlédnout na odkazu http://help.yandex.ru/search/?id=481937.

    4. Stručná historie vývoje vyhledávačů

    V počátečním období rozvoje internetu byl počet jeho uživatelů malý a množství dostupných informací relativně malé. Přístup k internetu měli většinou pouze výzkumní pracovníci. V té době nebyl úkol vyhledávat informace na internetu tak aktuální jako nyní.

    Jedním z prvních způsobů organizace přístupu k informačním zdrojům sítě bylo vytvoření otevřených katalogů stránek, odkazů na zdroje, ve kterých byly seskupeny podle předmětu. Prvním takovým projektem byl Yahoo.com, který byl otevřen na jaře roku 1994. Poté, co se výrazně zvýšil počet stránek v adresáři Yahoo, přibyla možnost vyhledávat potřebné informace v adresáři. V plném smyslu to ještě nebyl vyhledávač, protože rozsah vyhledávání byl omezen pouze na zdroje v adresáři a ne na všechny internetové zdroje.

    Adresáře odkazů byly v minulosti široce používány, ale v současné době téměř úplně ztratily svou popularitu. Protože i moderní, obrovské katalogy obsahují informace jen o zanedbatelné části internetu. Největší síťový adresář DMOZ (také nazývaný Open Directory Project) obsahuje informace o 5 milionech zdrojů, zatímco databázi vyhledávače Google tvoří více než 8 miliard dokumentů.

    Prvním plnohodnotným vyhledávačem byl projekt WebCrawler, který vyšel v roce 1994.

    V roce 1995 se objevily vyhledávače Lycos a AltaVista. Poslední jmenovaný je již řadu let lídrem v oblasti vyhledávání informací na internetu.

    V roce 1997 vytvořili Sergey Brin a Larry Page vyhledávač Google jako součást výzkumného projektu na Stanfordské univerzitě. Google je v současnosti nejpopulárnější vyhledávač na světě!

    V září 1997 byl oficiálně oznámen vyhledávač Yandex, který je nejoblíbenější na rusky mluvícím internetu.

    V současné době existují tři hlavní mezinárodní vyhledávače – Google, Yahoo a MSN, které mají své vlastní databáze a vyhledávací algoritmy. Většina ostatních vyhledávačů (kterých je velké množství) používá výsledky tří uvedených v té či oné podobě. Například vyhledávání AOL (search.aol.com) používá Google, zatímco AltaVista, Lycos a AllTheWeb používá Yahoo.

    5. Složení a principy vyhledávače

    V Rusku je hlavním vyhledávačem Yandex, dále - Rambler.ru, Google.ru, Aport.ru, Mail.ru. V současné době navíc Mail.ru používá vyhledávač a databázi Yandex.

    Téměř všechny velké vyhledávače mají svou vlastní strukturu, odlišnou od ostatních. Je však možné vyčlenit hlavní součásti společné všem vyhledávačům. Rozdíly ve struktuře mohou být pouze ve formě implementace mechanismů interakce těchto složek.

    Indexovací modul

    Indexovací modul se skládá ze tří pomocných programů (robotů):

    Spider (pavouk) - program určený ke stahování webových stránek. "Pavouk" stáhne stránku a extrahuje všechny interní odkazy z této stránky. Stáhne se html kód každé stránky. Roboti používají ke stahování stránek protokoly HTTP. "pavouk" funguje následovně. Robot odešle na server požadavek „get/path/document“ a některé další příkazy HTTP požadavku. V reakci na to robot obdrží textový proud obsahující servisní informace a samotný dokument.

      URL stránky

      datum stažení stránky

      HTTP hlavička odpovědi serveru

      tělo stránky (html kód)

    Crawler ("cestující" pavouk) - program, který automaticky sleduje všechny odkazy nalezené na stránce. Vybere všechny odkazy na stránce. Jeho úkolem je na základě odkazů nebo na základě předem definovaného seznamu adres určit, kam se má pavouk dále vydat. Crawler podle nalezených odkazů vyhledává nové dokumenty, které vyhledávač dosud nezná.

    Indexer (robot-indexer) - program, který analyzuje webové stránky stažené pavouky. Indexátor analyzuje stránku na jednotlivé části a analyzuje je pomocí vlastních lexikálních a morfologických algoritmů. Jsou analyzovány různé prvky stránky, jako je text, nadpisy, odkazy, strukturální a stylové prvky, speciální servisní html tagy atd.

    Indexovací modul tedy umožňuje procházet danou sadu zdrojů pomocí odkazů, stahovat nalezené stránky, extrahovat odkazy na nové stránky z přijatých dokumentů a provádět kompletní analýzu těchto dokumentů.

    Databáze

    Databáze nebo index vyhledávače je systém ukládání dat, pole informací, které ukládá speciálně převedené parametry všech dokumentů stažených a zpracovaných indexovacím modulem.

    vyhledávací server

    Vyhledávací server je nejdůležitějším prvkem celého systému, protože kvalita a rychlost vyhledávání přímo závisí na algoritmech, které jsou základem jeho fungování.

    Vyhledávací server funguje takto:

      Požadavek přijatý od uživatele je podroben morfologické analýze. Vygeneruje se informační prostředí každého dokumentu obsaženého v databázi (který se následně zobrazí jako fragment, tedy odpovídající požadavku textové informace na stránce s výsledky vyhledávání).

      Přijatá data jsou předávána jako vstupní parametry speciálnímu hodnotícímu modulu. Data se zpracovávají pro všechny dokumenty, v důsledku toho je pro každý dokument vypočítáno jeho vlastní hodnocení, charakterizující relevanci dotazu zadaného uživatelem, a různé součásti tohoto dokumentu uložené v indexu vyhledávače.

      V závislosti na volbě uživatele lze toto hodnocení upravit dalšími podmínkami (například tzv. „pokročilé vyhledávání“).

      Dále se vygeneruje úryvek, to znamená pro každý nalezený dokument se z tabulky dokumentu extrahuje nadpis, stručná anotace, která nejlépe odpovídá dotazu, a odkaz na samotný dokument a nalezená slova se zvýrazní.

      Přijaté výsledky vyhledávání jsou předávány uživateli ve formě SERP (Search Engine Result Page) - stránka pro vydávání výsledků vyhledávání.

    Jak vidíte, všechny tyto komponenty spolu úzce souvisejí a fungují v interakci a tvoří jasný, poměrně složitý mechanismus pro vyhledávač, který vyžaduje obrovské množství zdrojů.

    Žádný vyhledávač nepokrývá všechny internetové zdroje.

    Každý vyhledávač shromažďuje informace o internetových zdrojích pomocí svých vlastních jedinečných metod a vytváří svou vlastní pravidelně aktualizovanou databázi. Přístup k této databázi je povolen uživateli.

    Vyhledávače implementují dva způsoby vyhledávání zdroje:

      Hledejte podle tématu katalogy - informace prezentované ve formuláři hierarchická struktura. Na nejvyšší úroveň- obecné kategorie („Internet“, „Podnikání“, „Umění“, „Vzdělávání“ atd.), na další úrovni jsou kategorie rozděleny do sekcí atd. Nejnižší úroveň - odkazy na konkrétní webové stránky nebo jiné informační zdroje.

      Vyhledávání podle klíčových slov (indexové vyhledávání nebo podrobné vyhledávání) – uživatel zadá vyhledávači žádost, skládající se z klíčových slov. Systém se vrací uživateli seznam zdrojů nalezených na vyžádání.

    Většina vyhledávačů kombinuje oba způsoby vyhledávání.

    Vyhledávače mohou být lokální, globální, regionální a specializované.

    V ruské části internetu (Runet) jsou nejoblíbenějšími univerzálními vyhledávači Rambler (www.rambler.ru), Yandex (www.yandex.ru), Aport (www.aport.ru), Google (www .google.ru).

    Většina vyhledávačůrealizované formou portálů.

    Portál (z angličtiny.portál - Hlavní vchod, gate) je webová stránka, která integruje různé internetové služby: vyhledávací nástroje, poštu, zprávy, slovníky atd.

    Portály mohou být specializované (např.www. muzeum. en) a obecné (např.www. km. en).

    Vyhledávání klíčových slov

    Sada klíčových slov, která jsou vyhledávána, se také nazývá hledaný výraz nebo téma vyhledávání.

    Požadavek se může skládat buď z jednoho slova, nebo z kombinace slov kombinovaných s operátory – symboly, pomocí kterých systém určuje, jakou akci potřebuje provést. Například: dotaz „Moskva Petr“ obsahuje operátor AND (takto je vnímána mezera), což znamená, že musíte hledat dokumenty, které obsahují obě slova – Moskva i Petr.

    Aby bylo vyhledávání relevantní (z angličtiny relevantní - relevantní, relevantní), je třeba vzít v úvahu několik obecných pravidel:

      Bez ohledu na formu, ve které je slovo použito v dotazu, vyhledávání bere v úvahu všechny jeho slovní formy podle pravidel ruského jazyka. Například dotaz „vstupenka“ najde také slova „vstupenka“, „vstupenka“ atd.

      Velká písmena by se měla používat pouze ve vlastních jménech, aby se nezobrazovaly zbytečné odkazy. Na žádost „kovářů“ se najdou například dokumenty, které hovoří o kovářích a Kuzněcovových.

      Je vhodné zúžit vyhledávání pomocí několika klíčových slov.

      Pokud požadovaná adresa není mezi prvními dvaceti nalezenými adresami, měli byste požadavek změnit.

    Každý vyhledávač používá svůj vlastní dotazovací jazyk. Chcete-li se s ním seznámit, použijte vestavěnou nápovědu vyhledávače.

    Velké weby mohou mít na svých webových stránkách vestavěné vyhledávače.

    Dotazy v takových vyhledávačích jsou zpravidla sestavovány podle stejných pravidel jako v globálních vyhledávačích, ale ani zde nebude znalost nápovědy zbytečná.

    pokročilé vyhledávání

    Vyhledávače mohou uživateli poskytnout mechanismus k vytvoření složitého dotazu. Po odkazu pokročilé vyhledávání umožňuje upravovat parametry vyhledávání, specifikovat další parametry a zvolit nejpohodlnější formu zobrazení výsledků vyhledávání. Níže jsou popsány parametry, které lze zadat v rozšířeném vyhledávání v systémech HindEx a Rambler.

    Popis parametru

    Jméno v Yandexu

    Titul vTramp

    Kde hledat klíčová slova ( název dokumentu, hlavní text atd.)

    Slovníkový filtr

    Hledat podle textu...

    Která slova by měla nebo neměla být v dokumentu přítomna a jak přesná by měla být shoda

    Slovníkový filtr

    Hledat slova dotazu... Vyloučit dokumenty obsahující následující slova...

    Jak daleko od sebe by měla být klíčová slova?

    Slovníkový filtr

    Vzdálenost mezi slovy dotazu...

    Limit data dokumentu

    datum dokumentu...

    Omezte vyhledávání na jednu nebo více stránek

    Místo/Začátek

    Prohledávejte dokumenty pouze na následujících stránkách...

    Omezte vyhledávání podle jazyka dokumentu

    Jazyk dokumentu...

    Vyhledejte dokumenty obsahující obrázek s konkrétním názvem nebo popiskem

    obraz

    Vyhledávání na stránce obsahující předměty

    Speciální předměty

    Formulář prezentace výsledků vyhledávání

    Formát vydání

    Zobrazení výsledků vyhledávání

    Některé vyhledávače (například Yandex) umožňují zadávat dotazy v přirozeném jazyce. Napíšete, co potřebujete najít (například: objednání jízdenek na vlak z Moskvy do Petrohradu). Systém požadavek analyzuje a vrátí výsledek. Pokud vám nevyhovuje, přepněte na dotazovací jazyk.