• Vyhledávače. Internetové vyhledávače: přehled existujících řešení

    V každém okamžiku se člověk rozhoduje. Výsledek: pohyb vpřed, rozruch na místě nebo pohyb v informačním prostoru, ale kde? Co znamená vyhledávač?

    Rozhodující je dobrý zrak, sluch, spolehlivá činnost všech smyslových orgánů a objektivní vnímání reality správná aplikace nashromážděné zkušenosti a znalosti, dávají šanci intuici, aby se vyjádřila. Správná odpověď je však výsledkem nejen správné otázky, ale také správně shromážděných informací pro její řešení (toto je oblast kritéria).

    Co stručně znamená vyhledávač? Historie vyhledávání na internetu

    V době, kdy počítače a internet byly výhradou elity, byla logika konvenčního knihovnictví považována za žádanou. Proč si komplikovat řešení problému, když pro orientaci v informačním prostoru stačí katalog souborů, dat, řešení, programů a všeho, co se udělalo a může se hodit?

    Měli by si uživatelé postavit pomník? Připomeňme, že sítě, adresáře, příležitosti pro komunikaci a „primární“ akumulace jsou způsobeny prací počítačových fanoušků:

    • informační kapitál;
    • základy moderních myšlenek (upadly v zapomnění, ale jejich pomíjivý vzhled vytvořil dlouhodobou perspektivu).

    Síla a možnosti počítačů se rychle přesunuly z oblasti výpočetní techniky do oblasti zpracování informací. Internet začal rychle dobývat nová území v oblastech použití a myslích lidí. Jednoduché knihovnictví okamžitě přešlo na sofistikované mechanismy vyhledávačů.

    Četné armády hledačů, robotů, „pavouků“ a dalších algoritmů začaly úzkostlivě zkoumat vše, co spadlo do internetového prostoru. Možná právě oni objasnili, co je vyhledávač, jak funguje vyhledávání, co je to internet. Naučili se indexovat informace, pochopili, co lze a jak používat.

    Byl to pradávný „předinformační svět“, předpotopní zbraně, primitivní metody sběru – stejně jako rybaření a lov v době, kdy lidé teprve začali představovat něco společenského, společensky významného, ​​odděleného od přírody podle kritéria rozumnosti.

    Indexování: nejsme otroci, ale stále nic nemáme

    Indexování informační prostor, se základem přežití stala metoda orientace ve sbíraných informacích a schopnost správně korigovat to, co je k dispozici díky zjištěným změnám vnějšího (internetového) prostředí. To je ve volné přírodě akceptováno a internetový prostor již získal svůj vlastní a naprosto skutečný život.

    Vždy bylo v historii něco, co si lze zapamatovat, ale vždy vyvstává otázka, bylo tomu skutečně tak, je ta historická „bytost“ spojena se skutečnými lidmi a nezapomenutelnými vzpomínkami?

    Možná se ukázalo, že soused se schodištěm je tvůrcem Googlu nebo formuloval základní základy prosperity Yandexu. Ale mnozí uvádějí rok 1945 jako výchozí bod pro myšlenku hypertextu a Salton's Magic Automatic Text Extractor je považován za otce moderní vyhledávací technologie.

    Od té doby pod mostem proteklo hodně vody a seznam prvních vyhledávačů, prvních starověkých algoritmů a nápadů je tak rozsáhlý, že je sám o sobě dobrým vyhledávacím úkolem pro systematizaci a indexování minulosti.

    Není neopodstatněné tvrdit, že důvodem vzhledu Google jako fenoménu a moderní systém- to není jen skutečný člověk, jeho přátelé a přítelkyně. Proč se nejedná o úplně jiný bod v informačním prostoru, který úspěšně vyvolal kýženou rezonanci či asociaci?

    Kumulativní veřejné povědomí je stále tím temným vesmírem, ve kterém je velmi daleko od své vlastní verze Edisonovy žárovky.

    Rok 1994: který robot řekl klíčové slovo „máma“?

    V moderní svět je těžké uvěřit minulosti, ale s ohledem na přesnost dat a účast skutečných osobností je třeba poznamenat, že vzhled klíčová slova- toto ještě není sémantické jádro.

    Co bylo na konci minulého století myšleno vyhledávačem, bylo již zcela jasné: šlo o tucet oblíbených vyhledávačů s konkurenčním hodnocením v boji o klienta. Někomu se líbilo Yahoo, jinému Aport, dalším Rambler, ale nakonec zůstal Google a Yandex.

    To vše jsou slova, názory, preference a zajímavá fakta. Monstra vyhledávacího podnikání se však vytvořila, vytvořila základní základy, položila objektivní znalosti a solidní zkušenosti s porozuměním:

    • vyhledávací mechanismy;
    • klíčová slova;
    • sémantické jádro.

    Hypertext se nejen objevil, ale stal se také základem internetového programování, vydláždil cestu souvisejícím seriózním technologiím.

    Hlavní věc: ne podstata, jak chápeme, a co se děje. Je důležité, aby existoval směr pohybu, a ten je správný. Kolísání směnných kurzů je normální, kdyby žádné výkyvy nebyly, nebyl by důvod kritéria optimalizovat. A kritéria v otázce a v odpovědi jsou nejdůležitější.

    Rok 1989: zapomenuté oživení

    Rollback je zvláštní historický mechanismus a vždy zajímavý fakt. Lidé, zejména vědci a kvalifikovaní specialisté, mají tendenci zapomínat na podstatu věcí a jít do snů. Svět válek, gladiátorů a hrozných bitev je zábavný ve srovnání s tím, jaké soutěže se odehrávají ve veřejném i soukromém povědomí. Zde je království temnoty, ale musíte jít vpřed a bez vítězství na každém kroku to nemůžete udělat.

    Základem algoritmu byl princip fungování vyhledávače. Existuje mnoho skutečných implementací algoritmů. Přežilo jen velmi málo, ale právě to mezi sebou rozdělilo celou internetovou komunitu. Boj za ideály na poli hledání byl důležitý už tehdy, ale dokonce Krátký příběh Rozvoj vyhledávačů přestal spotřebitele zajímat.

    Uživatel potřebuje odpověď, nikoli úspěchy vědců a specialistů. Spotřebitel chce vědět, jak správně formulovat otázku, aby dostal adekvátní odpověď a měl jistotu, že vyhledávač fungoval správně, použil objektivní kritéria.

    Koho zajímá zajímavá skutečnost, že OOP a cloudy byly vynalezeny v letech 1989-1991. Absolutně nikdo! Ale teprve před tuctem let došlo k návratu: nyní bez OOP a cloudové technologie je to zakázáno. Rollback se ale „nepřevalil“ správným směrem, takže na otázku, co je myšleno vyhledávačem, neexistuje žádná konkrétní odpověď. Nic nového se neobjevilo, ale nadbytečné - ano.

    Definice vyhledávače a vyhledávače

    Když se objevily kalkulačky, člověk si myslel, že zapomene na pravidla sčítání, násobení, dělení. Čas plynul a strach se rozplynul. Kalkulačky jsou živé a člověk nezapomněl, jak provádět nejjednodušší matematické operace ve sloupci.

    V době, kdy fungovaly Google a Yandex a existovalo malé množství renomovaných vyhledávačů, existoval názor: vyhledávání je počítačový algoritmus a vyhledávač (definice slova a jeho význam) je software. a hardwarový komplex s webovým rozhraním, který poskytuje možnost vyhledávat informace na internetu.

    Výsledky vyhledávače

    Co znamená vyhledávač, si lze snadno představit. Existuje řetězec dotazu, návštěvník napíše klíčové slovo, stiskne tlačítko "hledat" a dostane výsledek. Ale SERP není odpověď a klíčové slovo není otázka.

    V obyčejný životčlověk nepoužívá klíčová slova a nikdy nedostane žádný „problém“. Pokud chce dítě jíst, řekne o tom mámě nebo tátovi. Vše závisí na tom, co přesně dítě chce: opravdu jíst nebo získat peníze na zmrzlinu. Rodičova reakce může být beze slov, ale činy budou následovat.

    Zaměstnanec nebude kontaktovat zaměstnavatele prostřednictvím klíčových slov, jinak bude výsledkem vystavení výpověď beze slov.

    To vše jsou fakta, ale člověk a počítačový systém je jiná sféra vztahů. Pokud existuje jasná představa o tom, co je myšleno vyhledávačem - nejsou to otázky, odpovědi, kritéria, ale klíčová slova a výsledky vyhledávače (výsledky vyhledávání).

    Skutečný přínos okamžiku

    Vášeň pro SEO, rychlý růst počtu webových studií, rozvoj reklamy, vnucování nápadů, tuny spamu a odpadků při vydávání – to vše je přirozené a objektivně normální. Je čas bojovat proti spamu, hackerům a negativitě. Je nutné to dělat opatrně, ale skutečným přínosem současné situace je jen další fáze rozvoje podnikání ve vyhledávání.

    Klíčová slova jsou skvělá. Sémantické jádro stránky jsou skvělé. Počítač dokáže překládat texty do různých jazyků a analyzovat přirozené věty. jazyk SQL se stal de facto v „komunikaci“ s databázemi. SQL má mnoho dialektů a to je skutečný ukazatel. Umělý jazyk se stal životaschopným! Jazyk je schopen poskytnout přístup k obrovskému množství systematizovaných informací.

    Oracle a další velcí lídři databází strávili desítky let prezentací informací. Google – o shromažďování informací a mechanismech indexování. Rodina Linuxu se drží, Windows se drží nad vodou a počet programovacích jazyků se zúžil na dostatečnou úroveň.

    Umělá inteligence odešla do světa snů, vývojáři a spotřebitelé se objektivně vrhli do světa kreativní správy a využití informací.

    Výsledky vyhledávání: důležité a zbytečné

    Uspořádat výsledky vyhledávání není tak těžké, ale za posledních deset let se to nezměnilo. V podstatě je to pravda. Pokud vyhledávací pole obsahuje klíčové slovo a nikoli otázku, o jaké odpovědi můžeme mluvit? Ve všech moderních vyhledávačích existují kritéria, je s nimi zacházeno s náležitým porozuměním, ale proč omezovat spotřebitele?

    Důležitá je reakce uživatele na to, jakou část výsledků vyhledávání si vybere. Toto je jeho názor na výsledky vyhledávače. Vyhledávače to oceňují a zohledňují to nejen v konkrétním požadavku, ale obecně.

    Datový proud klíčových slov i proud SERP obsahují nesmyslné informace. To je také důvodem pro tvorbu kritérií. Je nemožné považovat vyhledávací úlohu za aplikaci klíčového slova a algoritmu na nashromážděné informace, za upřesnění nashromážděných informací.

    O vyhlídkách: od hledání k řešení

    Nejlepší rozhodnutí je nedělat žádná rozhodnutí. Ať už to vývojáři vyhledávačů chápou nebo ne, faktem zůstává, že vývojáři vědí, co je vyhledávač v kontextu odpovědi na klíčové slovo, jako je index ve smyslu získávání informací z již dostupných a systematizovaných dat.

    Spotřebitel si sám vybere z výsledků vyhledávání, co uzná za vhodné, a rozhodne se. Vyhledávač to vezme v úvahu a zapamatuje si to. Jak bude člověk nakládat s přijatými informacemi - to bude další klíčové slovo.

    Takže vyhledávač se naučí rozhodovat a člověk se naučí formulovat otázky. Zatím se jedná o klíčová slova a výsledkem odpovědi jsou výsledky vyhledávání. Ale kvantita se vždy promění v kvalitu.

    Co jsou internetové vyhledávače? Realita založená na pohybu vpřed. Ne mnoho praktických úkolů vyžaduje inteligenci z počítačových systémů. Ve většině případů stačí, aby jednoduše adekvátně odpověděli na správné otázky.

    Dobrý den, milí čtenáři! S tebou Jekatěrina Kalmyková. Dnešní článek bude věnován takovému pojmu jako vyhledávač, co to je, k čemu to je. Blíže se také podíváme na typy vyhledávačů na internetu.

    Pokud máte otázku: „Proč bych měl vědět o těchto vyhledávačích?“, odpovím takto. Když jíte v restauraci výbornou polévku, chtěli byste vědět, z jakých surovin se vyrábí, abyste si ji mohli sami doma zopakovat? Pokud jste totiž spokojeni s konečným výsledkem, tedy chutí polévky, pak by vás jistě zajímalo, co k takovému výsledku vedlo?

    Můžete také říci o práci s vyhledávačem (PS). Pokud si v budoucnu vytvoříte svůj vlastní blog, pak s vědomím práce PS nebudete muset hledat pomoc u specialistů. Budete moci samostatně řídit svůj projekt tak, aby jej vyhledávač viděl a ukázal ostatním uživatelům. Na tom bude koneckonců záviset návštěvnost vašeho zdroje, a tedy i výdělky.

    Pojďme tedy začít.

    Co je vyhledávač?

    Vyhledávač je speciální zdroj na internetu, která uživateli poskytuje informace v souladu s jeho žádostí. To znamená, že tento zdroj shromažďuje všechna data globální síť, všechny webové projekty a při obdržení konkrétního požadavku od uživatele poskytne potřebné informace odesláním např. na tematický blog nebo web.

    Vaším úkolem tedy po vytvoření vašeho projektu bude dostat se do problematiky, tedy do „seznamu“ či databáze vyhledávače. Protože propagace webových stránek na internetu prostě není možná bez použití jakéhokoli vyhledávače, budete se muset postarat o kvalitu svého zdroje, jeho vnitřní a vnější optimalizaci. Jak to udělat, budeme diskutovat v budoucích článcích. Tak si to nenechte ujít.

    Pokud se mezitím rozhodnete založit si vlastní blog, doporučuji přečíst si tyto články:

    Vzhledem k tomu, že se téměř každý den objevují nové webové zdroje, musí být databáze vyhledávačů neustále aktualizována. Každý nově vytvořený web musí být robotem indexován. mluvící jednoduchými slovy, asistenti PS - roboti se musí seznámit s novým zdrojem a přenést tato data do samotného vyhledávače.

    No, tady jste asi uhodli, že když váš blog navštíví robot, mělo by se mu líbit všechno. Váš budoucí osud bude záviset na tomto hostu.

    Jak zajistit, aby robot z vašeho projektu zůstal uvnitř plný rozkoše Povím v jednom z následujících článků. Nenechte si to ujít, budou tam zajímavé a velmi kuriózní informace, o které se s vámi podělím.

    Práce vyhledávačů

    Veškerá práce související s PS začíná zadáním požadovaného dotazu do vyhledávacího pole. Co mohou uživatelé hledat? Ano, cokoliv, od receptu na zelné koláče až po prastarou otázku „jak vydělat více peněz, aniž byste cokoli dělali“.

    Aby váš zdroj vyšel jako odpověď na otázku, musíte být před svými konkurenty. Chcete-li to provést, musíte věnovat zvláštní pozornost propagaci svého projektu, která zahrnuje takové činnosti, jako je psaní vysoce kvalitního optimalizovaného obsahu, tedy reakce na požadavky na články, zlepšování behaviorální faktor, to znamená, aby bylo pro vašeho čtenáře zajímavé být na zdroji, jde o zlepšení použitelnosti, tedy pohodlí návštěvníka a mnoha dalších faktorů. To je to, co se všichni naučíme dělat.

    Komponenty vyhledávače

    A co pomáhá vyhledávačům, například stejnému Googlu, indexovat váš zdroj?

    1. Agenti jsou pracovníci, kteří dělají většinu práce – indexují a analyzují stránky.
    2. Pavouci (spider) - program, který dokáže stáhnout stránky webového zdroje a shromažďovat o něm obecné informace.
    3. Crawlers (crawler) - program, který najde všechny odkazy na stránkách, podle kterých hledá nová data, která vyhledávačům neznají.
    4. Indexer - analyzuje text, nadpisy, styl atd.
    5. Roboti – indexujte stránky svého obsahu a také prostudujte různé odkazy.

    Aby indexování probíhalo tak, jak potřebujete, vytvořte speciální dokument „robots.txt“. Umožňuje systému zkontrolovat pouze stránky, které potřebujete, a odstranit ty, které nechcete vidět.

    Typy vyhledávačů

    Existuje několik možností pro systémy vyhledávání informací:

    • Katalogy. Jednoduché srovnání vyhledávání je knihovna v knihovně. Vše je tam uloženo v podkategoriích a kategoriích určitého předmětu. Pokud jste se do takového vyhledávače dostali, tak věřte, že informace, které tam najdete, budou pro vaše vnímání více než užitečné a srozumitelné. Uhodli jste, o jaký společný web se jedná? Samozřejmě o Wikipedii, která shromáždila celý adresář užitečných informací.
    • Vyhledávací ukazatele. Vyhledávání v datech se provádí na úkor klíčových frází. Je to pohodlné i nepohodlné zároveň. Myslím, že ti lidé, kteří hledají například „Girl shows class“, mě pochopí, že zjistí, jak dívka ukazuje palec nahoru, a při hledání se objeví něco nepříliš slušného. 🙂 Tento typ vyhledávání charakterizuje většinu vyhledávačů.
    • ratingové systémy. Určete svou popularitu podle počtu návštěv. Samozřejmě to není nejlepší kritérium, protože užitečnost a kvalita samotného zdroje není vždy brána v úvahu. Příkladem takového systému je internetový zdroj alexa.com.

    Vyhledávače se také dělí na obecné a specializované. Obecné vyhledávače třídí informační data bez jakéhokoli výběru pro všechny jim známé webové zdroje. Patří mezi ně Yandex, Rambler, Google. Specializované – řazení podle použitého jazyka.

    Také vyhledávače lze rozdělit na regionální a celosvětové distribuce.

    K dnešnímu dni všechny vyhledávače neustále zlepšují své algoritmy pro výběr vysoce kvalitních a relevantních zdrojů.

    Trocha historie

    PS se objevil v Runetu v roce 1996 - to jsou Aport a Rambler. O rok později, v roce 1997, vznikl Yandex a o rok později, v roce 1998, se objevil další konkurent – ​​Google. V současné době jsou nejoblíbenější Yandex a Google.

    Jaké jsou nyní nejoblíbenější vyhledávače?

    Zde jsou statistiky:

    Jak můžete vidět, Yandex je nyní nejpopulárnější v Rusku spolu s Google a Mail.

    Můžete tak vidět nejčastější vyhledávání, na která byste se měli zaměřit při vytváření a propagaci svého projektu.

    Vyhledávač Yandex (Yandex)

    Princip práce je následující: vyhledávací řetězec zadejte dotaz, který hledáte, klikněte na "Najít" a podívejte se na výstup. Yandex vyzvedl 13 milionů odpovědí na vaši žádost. Můžete také vyhledávat v obrázcích, videích, marketu (podívejte se na levý sloupec).

    Kromě toho můžete nastavit oblast vyhledávání. Chcete-li to provést, klikněte na ikonu vedle křížku ve vyhledávací liště a vyberte požadovanou oblast v okně filtru.

    Vyhledávač Google (Google)

    Google funguje podobně jako Yandex. Můžete vyhledávat informace v různých sekcích: obrázky, videa, zprávy, mapy atd.

    Pokud kliknete na "Nástroje pro vyhledávání", otevře se panel nastavení, kde můžete vybrat region, jazyk a jak dlouho hledat informace.

    Nyní víte, jaké vyhledávače na internetu existují, také jste viděli nejoblíbenější z nich a nyní, vyzbrojeni informacemi, můžete budovat svá spojení a interakci s vyhledávači.

    To je pro dnešek vše. Jak se vám článek líbí?

    Zatím vše.

    Doporučuji vám aktualizovat blog, abyste nepřišli o nejnovější zprávy.

    Jekatěrina Kalmyková

    Vyhledávací systém- softwarový a hardwarový komplex s webovým rozhraním, který poskytuje možnost vyhledávat informace na internetu.

    Všechny vyhledávače spojuje skutečnost, že jsou umístěny na speciálně vyhrazených výkonných serverech a jsou navázány na efektivní komunikační kanály. Vyhledávače se také nazývají systémy vyhledávání informací (IPS). Počet současně obsluhovaných návštěvníků nejoblíbenějších systémů dosahuje mnoha tisíc. Nejznámější obsluhují miliony zákazníků denně. V případech, kdy je vyhledávač založen na adresáři, nazývá se adresář. Vychází z práce moderátorů. Základem IPS s fulltextovým vyhledáváním je automatický sběr informací. Provádí se speciálními programy. Tyto programy pravidelně zkoumají obsah všech internetových zdrojů. K tomu se pohybují, nebo jak se říká, prolézají různými zdroji. Podle toho se takové programy nazývají roboti. Existují i ​​další názvy: protože WWW je zkratka pro výraz World Wide Web, je přirozené, že se takovému programu v angličtině říká pavouk. - pavouk. V poslední době se používají jiné názvy: automatické indexy nebo adresáře. Všechny tyto programy zkoumají a „stahují“ informace z různých adres URL. Programy zadaného typu navštíví každý zdroj po určité době. Žádný vyhledávač není schopen indexovat celý internet. Proto jsou databáze, ve kterých se shromažďují adresy indexovaných zdrojů, pro různé vyhledávače různé. Přesto se mnozí z nich snaží pokud možno pokrýt svou tvorbou celý prostor World Wide Web.

    Pro vyhledávání informací pomocí vyhledávače uživatel zformuluje vyhledávací dotaz. Na základě dotazu uživatele vygeneruje vyhledávač stránku s výsledky vyhledávání. Takové výsledky vyhledávání mohou kombinovat různé typy souborů, například: webové stránky, obrázky, videosoubory. Některé vyhledávače také získávají data z databází a adresářů zdrojů na internetu.

    Podle způsobů vyhledávání a údržby se dělí čtyři typy vyhledávačů:

    1.systémy využívající vyhledávacích robotů.

    2. systémy řízené člověkem

    3.hybridní systémy

    4.meta-systémy.

    Architektura vyhledávače zahrnuje: vyhledávacího robota, který prohledává internetové stránky, indexátor, který poskytuje rychlé vyhledávání, a vyhledávač – grafické uživatelské rozhraní.

    Účelem vyhledávače je najít dokumenty obsahující buď klíčová slova, nebo slova, která s klíčovými slovy nějakým způsobem souvisí. Vyhledávač je tím lepší, čím více dokumentů relevantních k dotazu uživatele vrátí.

    Příklady vyhledávačů

    Google- jeden z nejúplnějších a nejoblíbenějších zahraničních IPS. Charakteristickým rysem Google IPS je technologie pro určení stupně relevance dokumentu analýzou odkazů z jiných zdrojů na tento zdroj. Čím více odkazů na stránku na jiných stránkách, tím vyšší je její hodnocení v Google IPS. Google používá algoritmus výpočtu autority PageRank. PageRank je jedním z pomocných faktorů při hodnocení stránek ve výsledcích vyhledávání. PageRank není jediný, ale velmi důležitý způsob, jak určit pozici webu ve výsledcích vyhledávání Google. Google používá hodnocení PageRank stránek nalezených pro daný dotaz k určení pořadí, ve kterém se tyto stránky zobrazí návštěvníkovi ve výsledcích vyhledávání. V roce 2010 společnost spustila hlasové vyhledávání v Rusku. Chcete-li hledat, musíte stisknout tlačítko vedle vyhledávacího pole na telefonu a říct svůj dotaz, telefon odešle váš hlas na server a prohlížeč zobrazí řetězec s rozpoznáním vašeho dotazu a výsledky vyhledávání.

    Yandex je v současnosti nejpopulárnějším tuzemským vyhledávačem. Založena v roce 1997. Vede svůj vlastní katalog internetových zdrojů. Je to také nejlepší vyhledávač pro identifikaci ilustrací. Anglická verze je dodávána s adresářem internetových zdrojů. Má vyvinutý systém generování požadavků. Zejména je povoleno zadat recept na vyhledávání v přirozeném jazyce - v tomto případě jsou všechna potřebná rozšíření provedena automaticky.

    Kromě webových stránek HTML indexuje Yandex dokumenty ve formátu PDF (Adobe Acrobat), Rich Text Format (RTF), binární Word (.doc), Excel (.xls), PowerPoint (.ppt), RSS (blogy a fóra).

    Vyhledávač mail.ru začal pracovat v roce 2007. Objem indexového souboru na jaře 2009 činil více než 1,5 miliardy stránek umístěných na ruskojazyčných serverech. Kromě vyhledávání textů systém vyhledává ilustrace a videoklipy hostované na specializovaných „samoobslužných“ ruských serverech: [email protected], Flamber.Ru, 35Photo.ru, PhotoForum.ru, [email protected], RuTube, Loadup, Rambler Vision a podobně. Gogo.ru vám umožňuje omezit oblast vyhledávání na komerční weby, informační weby a také fóra a blogy. Formulář "Pokročilé vyhledávání" také umožňuje omezit vyhledávání na určité typy souborů (PDF, DOC, XLS, PPT), pozici hledaných slov v dokumentu nebo konkrétní doménu. V listopadu 2013 se na Google Play objevila nová verze vyhledávací aplikace od společnosti Mail.Ru, která umožňuje přepnout z hlavní obrazovky na libovolné sociální sítě a obsahuje rychlý přístup k vyhledávání obrázků, videí a zpráv. Aplikace pro Android se proměnila v miniprohlížeč navržený tak, aby efektivně nacházel informace, které potřebujete. Nástroj se také naučil rozpoznávat vyhledávací dotazy, které nejsou zadány textem, ale hlasem. Vývojáři také poznamenávají, že vytvořili speciální widget, na který lze umístit úvodní obrazovka smartphone nebo tablet založený na systému Google Android. Rozumí se, že to dále zkrátí čas strávený hledáním.

    AltaVista- jeden z nejstarších vyhledávačů zaujímá jedno z prvních míst co do objemu dokumentů - více než 350 milionů. AltaVista umožňuje jednoduché i pokročilé vyhledávání. „Nápověda“ umožňuje i nezkušeným uživatelům správně skládat jednoduché i složité dotazy.

    Tramp- jeden z prvních ruských IRS, otevřen v roce 1996. Na konci roku 2002 byla provedena radikální modernizace, po které se Rambler znovu zařadil do skupiny vůdců vyhledávání v síti. V současné době je objem indexu asi 150 milionů dokumentů. Pro skládání složitých dotazů se doporučuje použít režim "Podrobný dotaz", který poskytuje dostatek příležitostí pro sestavení receptu vyhledávání pomocí položek nabídky.

    APORT. K dnešnímu dni je objem její databáze více než 20 milionů dokumentů. Systém má široké možnosti vyhledávání. APORT má funkci vestavěného překladače, který uživateli umožňuje formulovat dotazy jak v ruštině, tak v angličtině. APORT má navíc speciální režimy pro vyhledávání ilustrací a zvukových souborů.

    Vyhledávače nejnovější generace indexují všechna slova na webové stránce nebo v článku z konference, zatímco dříve byl rozsah indexování obvykle omezen na název, nadpisy, prvních několik řádků a adresu dokumentu. To výrazně omezilo možnost identifikace materiálů na úzké téma, protože výsledky vyhledávání ne vždy odrážely skutečná data. Odstraněním tohoto nedostatku jsou moderní vyhledávače mnohem spolehlivější než jejich předchůdci.

    Další nejdůležitější vlastností je vylepšení mechanismu vnitřního vyhledávání, které se projevuje zvýšením počtu operátorů a dalších prvků dotazování. Před několika lety se používaly pouze dva, v nejlepším případě tři klasické booleovské operátory: AND (and), OR (nebo) a NOT (not). Nyní existují NEAR (near, about) v Alta Vista a FOLLOWED BY (follows) v OpenText - extrémně užitečné operátory vzdálenosti, které vám umožní specifikovat dotaz co nejvíce. Mnoho systémů umožňuje zkrátit koncovky výrazů, omezit vyhledávání podle data vytvoření dokumentu, vyhledávat klíčová slova pouze v určených prvcích webové stránky (název, nadpisy, e-mailová adresa atd.) a vyhledávat přesné fráze. Nejnovější vývoj také umožňuje detekovat soubory určitého typu (například grafické nebo zvukové) a jsou citlivé na malá a velká písmena. Začíná být běžné vyhledávat data v jakémkoli jazyce. To vše umožňuje sestavit rešeršní předpis s vysokou mírou přesnosti, což samozřejmě zvyšuje relevanci získaných výsledků.

    V současné době nejoblíbenější vyhledávače Google a Yandex, pojďme je porovnat:

      Počet indexovaných stránek. Google má 8 miliard a Yandex jen 2 miliardy. Tedy čtyřikrát méně. Vítězství pro Google.

      Rychlost indexování stránek. Google indexuje nové stránky během jednoho dne, zatímco Yandexu to může trvat několik dní. Google opět vítězí.

      Relevance emise. Relevance označuje shodu výsledků zobrazených na stránce vyhledávače s vaším dotazem. Hned musím říct, že tady je těžké určit vítěze. Google vykazoval dobré výsledky v zahraničním segmentu internetu, ale v Runetu byl Yandex vždy o něco napřed.

      Doplňkové internetové služby. Zde je výhoda jednoznačně pro Yandex. Má desítky různých služeb, které jsou pohodlně seskupeny do kategorií, zatímco Google jich má méně a navíc existuje integrace s sociální síť Google+, který se mnohým nelíbí.

    Architektura vyhledávače obvykle zahrnuje:

    Encyklopedický YouTube

      1 / 5

      ✪ Lekce 3: Jak funguje vyhledávač. Úvod do SEO

      ✪ Vyhledávač zevnitř

      ✪ Shodan – černý Google

      ✪ Vyhledávač Cheburashka nahradí v Rusku Google a Yandex

      ✪ Lekce 1 – Jak funguje vyhledávač

      titulky

    Příběh

    Chronologie
    Rok Systém událost
    1993 Katalog W3?! zahájení
    Aliweb zahájení
    JumpStation zahájení
    1994 webový prohledávač zahájení
    infoseek zahájení
    Lycos zahájení
    1995 AltaVista zahájení
    Daum Základna
    otevřít text webový index zahájení
    Magellan zahájení
    Rozrušit zahájení
    SAPO zahájení
    Yahoo! zahájení
    1996 Dogpile zahájení
    Inktomi Základna
    Tramp Základna
    hotbot Základna
    Zeptejte se Jeeves Základna
    1997 Severní záře zahájení
    Yandex zahájení
    1998 Google zahájení
    1999 AlltheWeb zahájení
    GenieKnows Základna
    Naver zahájení
    Teoma Základna
    Vivisimo Základna
    2000 Baidu Základna
    Exalead Základna
    2003 info.com zahájení
    2004 Yahoo! Vyhledávání Konečné spuštění
    A9.com zahájení
    sogou zahájení
    2005 MSN Hledat Konečné spuštění
    Ask.com zahájení
    Nigma zahájení
    goodsearch zahájení
    Hledej mě Základna
    2006 wikiseek Základna
    Quaero Základna
    Živé vyhledávání zahájení
    ChaCha Spustit (beta)
    Guruji.com Spustit (beta)
    2007 wikiseek zahájení
    Sproose zahájení
    Wikia Hledat zahájení
    blackle.com zahájení
    2008 DuckDuckGo zahájení
    Tooby zahájení
    Pikolátor zahájení
    Viewzi zahájení
    Cuil zahájení
    boogami zahájení
    LeapFish Spustit (beta)
    Forestle zahájení
    VADLO zahájení
    powerset zahájení
    2009 bing zahájení
    KAZ.KZ zahájení
    Yebol Spustit (beta)
    Mugurdy uzavření
    Skaut zahájení
    2010 Cuil uzavření
    Blekko Spustit (beta)
    Viewzi uzavření
    2012 WAZZUB zahájení
    2014 Družice Spustit (beta)

    V rané fázi vývoje internetu Tim Berners-Lee vedl seznam webových serverů umístěných na webu CERN. Webů bylo stále více a ruční udržování takového seznamu bylo stále obtížnější. Webové stránky NCSA měly vyhrazenou sekci „Co je nového!“. (angl. What's New!), kde zveřejnili odkazy na nové stránky.

    První počítačový program pro vyhledávání na internetu byl Archie(anglicky archie - archiv bez písmene "c"). V roce 1990 jej vytvořili Alan Emtage, Bill Heelan a J. Peter Deutsch, studenti informatiky na McGill University v Montrealu. Program stáhl seznamy všech souborů ze všech dostupných anonymních FTP serverů a vybudoval databázi, kterou bylo možné prohledávat podle názvů souborů. Archieho program však neindexoval obsah těchto souborů, protože množství dat bylo tak malé, že vše šlo snadno najít ručně.

    Vývoj a distribuce síťový protokol Gopher, který v roce 1991 vynalezl Mark McCahill na University of Minnesota, vedl k vytvoření dvou nových vyhledávací programy, Rozrazil a Jughead. Stejně jako Archie vyhledávali názvy souborů a hlavičky uložené v indexových systémech Gopheru. Veronica (anglicky) Velmi snadný síťový index orientovaný na hlodavce do počítačových archivů) povolil vyhledávání klíčových slov pro většinu nadpisů nabídky Gopher ve všech seznamech Gopher. Program Jughead Jonzyho Universal Gopher Hierarchy Excavation and Display) získal informace o nabídce z určitých serverů Gopher. I když název Archieho vyhledávače s komiksovou sérií nesouvisel "Archie", nicméně Veronica a Jughead jsou postavy v těchto komiksech.

    V létě 1993 ještě neexistoval jediný systém pro vyhledávání na webu, i když řada specializovaných adresářů byla udržována ručně. Oscar Nierstrasz na univerzitě v Ženevě napsal sérii skriptů v Perlu, které tyto stránky periodicky kopírovaly a přepisovaly do standardního formátu. To se stalo základem pro Katalog W3?!, první primitivní webový vyhledávač, spuštěný 2. září 1993.

    Pravděpodobně první vyhledávač napsaný v Perlu byl „World Wide Web Wanderer“, bot od Matthewa Graye z června 1993. Tento robot vytvořil vyhledávací index "Wandex". Účelem robota Wanderer bylo změřit velikost Celosvětová Síť a najít všechny webové stránky obsahující slova z dotazu. V roce 1993 se objevil druhý vyhledávač Aliweb. Aliweb nepoužil prohledávač, ale místo toho čekal na upozornění správců webu o přítomnosti indexového souboru v určitém formátu na jejich stránkách.

    JumpStation, vytvořený v prosinci 1993 Jonathanem Fletcherem, prohledával a indexoval webové stránky pomocí prohledávače a používal webový formulář jako rozhraní pro formulování vyhledávacích dotazů. Byl to první internetový vyhledávací nástroj, který kombinoval tři základní funkce vyhledávač (kontrola, indexování a skutečné vyhledávání). Kvůli omezeným počítačovým zdrojům té doby bylo indexování, a tedy i vyhledávání, omezeno pouze na názvy a názvy webových stránek nalezených prohledávačem.

    Vyhledávače se podílely na Dot-com Bubble z konce 90. let. Několik společností vstoupilo na trh velkolepým způsobem a během svých IPO generovalo rekordní zisky. Někteří opustili trh veřejných vyhledávačů a spolupracují pouze s firemním sektorem, jako např Severní záře.

    Google převzal myšlenku prodeje klíčových slov v roce 1998, kdy to byla malá společnost provozující vyhledávač na goto.com. Tento krok znamenal posun pro vyhledávače od vzájemného soupeření a stal se jedním z nejziskovějších obchodních podniků na internetu. Vyhledávače začaly prodávat první místa ve výsledcích vyhledávání jednotlivým firmám.

    vyhledávač systém Google je prominentní od počátku roku 2000. Společnost dosáhla vysoké pozice díky dobrým výsledkům vyhledávání pomocí algoritmu PageRank. Algoritmus byl představen veřejnosti v článku „Anatomie vyhledávače“, který napsali Sergey Brin a Larry Page, zakladatelé společnosti Google. Tento iterativní algoritmus řadí webové stránky na základě odhadu počtu hypertextových odkazů na webovou stránku za předpokladu, že „dobré“ a „důležité“ stránky získají více odkazů než jiné. Rozhraní Google je navrženo ve spartánském stylu, kde není nic nadbytečného, ​​na rozdíl od mnoha jeho konkurentů, kteří vyhledávač zabudovali do webového portálu. Vyhledávač Google se stal natolik populárním, že se objevili jeho napodobitelé, např. Hledač záhad(tajný vyhledávač).

    Hledejte informace v ruštině

    V roce 1996 bylo realizováno vyhledávání zohledňující ruskou morfologii na vyhledávači Altavista a byly spuštěny původní ruské vyhledávače Rambler a Aport. 23. září 1997 byl otevřen vyhledávač Yandex. 22. května 2014 byl společností Rostelecom otevřen národní vyhledávač Sputnik, který je v době roku 2015 v beta testování. 22. dubna 2015 bylo otevřeno nová služba Družice. Děti speciálně pro děti se zvýšenou bezpečností.

    Velkou oblibu si získaly metody shlukové analýzy a vyhledávání metadat. Z mezinárodních strojů tohoto druhu byl nejznámější "Clusty" společnosti Vivisimo. V roce 2005 byl s podporou Moskevské státní univerzity spuštěn v Rusku vyhledávač Nigma, který podporuje automatické shlukování. V roce 2006 byl otevřen ruský metamachine Quintura nabízející vizuální shlukování ve formě tag cloudu. Nigma také experimentovala s vizuálním shlukováním.

    Jak funguje vyhledávač

    Hlavní součásti vyhledávače: vyhledávací robot, indexer, vyhledávač.

    Systémy zpravidla fungují na etapy. Nejprve prohledávač získá obsah, poté indexátor vygeneruje prohledávatelný index a nakonec prohledávač poskytuje funkci prohledávání indexovaných dat. Pro aktualizaci vyhledávače se tento cyklus indexování opakuje.

    Vyhledávače fungují tak, že ukládají informace o mnoha webových stránkách, které získávají ze stránek HTML. Vyhledávací robot neboli „crawler“ (angl. Crawler) – program, který automaticky sleduje všechny odkazy nalezené na stránce a zvýrazní je. Prohledávač na základě odkazů nebo na základě předem definovaného seznamu adres vyhledává nové dokumenty, které vyhledávač ještě nezná. Vlastník webu může vyloučit určité stránky pomocí souboru robots.txt , který lze použít k zabránění indexování souborů, stránek nebo adresářů webu.

    Vyhledávač analyzuje obsah každé stránky pro další indexování. Slova lze extrahovat z nadpisů, textu stránky nebo speciálních polí – meta tagů. Indexer je modul, který analyzuje stránku po jejím rozdělení na části pomocí vlastních lexikálních a morfologických algoritmů. Všechny prvky webové stránky jsou izolovány a analyzovány samostatně. Data webových stránek jsou uložena v indexové databázi pro použití v následných požadavcích. Index umožňuje rychle najít informace o požadavku uživatele. Řada vyhledávačů, jako je obchod Google původní stránka zcela nebo zčásti tzv. cache, stejně jako různé informace o webové stránce. Jiné systémy, jako je AltaVista, ukládají každé slovo každé nalezené stránky. Použití mezipaměti pomáhá urychlit extrakci informací z již navštívených stránek. Stránky uložené v mezipaměti vždy obsahují text, který uživatel zadal ve vyhledávacím dotazu. To může být užitečné, když byla webová stránka aktualizována, to znamená, že již neobsahuje text požadavku uživatele a stránka v mezipaměti je stále stará. Tato situace souvisí se ztrátou odkazů (angl. linkrot) a uživatelsky přívětivý (použitelnost) přístup společnosti Google. To zahrnuje vydávání krátkých kusů textu z mezipaměti obsahující text dotazu. Platí zásada nejmenšího překvapení, uživatel obvykle očekává, že hledaná slova uvidí v textech přijatých stránek ( očekávání uživatelů). Kromě zrychlení vyhledávání pomocí stránek uložených v mezipaměti mohou stránky uložené v mezipaměti obsahovat informace, které již nejsou jinde dostupné.

    Vyhledávač pracuje s výstupními soubory přijatými z indexátoru. Vyhledávač přijímá požadavky uživatelů, zpracovává je pomocí indexu a vrací výsledky vyhledávání.

    Když uživatel zadá dotaz do vyhledávače (obvykle pomocí klíčových slov), systém zkontroluje jeho index a vrátí seznam nejrelevantnějších webových stránek (seřazených podle nějakého kritéria), obvykle se stručnou anotací obsahující název dokumentu a někdy části textu. Index vyhledávání je vytvořen podle speciální techniky založené na informacích extrahovaných z webových stránek. Od roku 2007 vyhledávač Google umožňuje vyhledávat na základě času, vytvářet požadované dokumenty (vyvolejte nabídku "Nástroje pro vyhledávání" a zadejte časové rozmezí). Většina vyhledávačů podporuje použití booleovských operátorů AND, OR, NOT v dotazech, což umožňuje zpřesnit nebo rozšířit seznam hledaných klíčových slov. V tomto případě systém vyhledá slova nebo fráze přesně tak, jak byly zadány. Některé vyhledávače umožňují přibližné vyhledávání, v tomto případě uživatelé rozšíří oblast vyhledávání zadáním vzdálenosti ke klíčovým slovům . Jsou tu také koncepční hledání, který využívá Statistická analýza použití hledaných slov a frází v textech webových stránek. Tyto systémy umožňují skládat dotazy v přirozeném jazyce. Příkladem takového vyhledávače je web ask com.

    Užitečnost vyhledávače závisí na relevanci stránek, které najde. I když miliony webových stránek mohou obsahovat slovo nebo frázi, některé mohou být relevantnější, oblíbenější nebo autoritativnější než jiné. Většina vyhledávačů používá metody hodnocení, aby se „nejlepší“ výsledky dostaly na začátek seznamu. Vyhledávače rozhodují, které stránky jsou relevantnější a v jakém pořadí by se měly výsledky zobrazovat různými způsoby. Metody vyhledávání, stejně jako samotný internet, se v průběhu času mění. Objevily se tak dva hlavní typy vyhledávačů: systémy předdefinovaných a hierarchicky uspořádaných klíčových slov a systémy, ve kterých je na základě textové analýzy generován invertovaný index.

    Většina vyhledávačů jsou komerční podniky, které vydělávají na reklamě, v některých vyhledávačích si můžete za poplatek koupit přední pozice ve výsledcích vyhledávání na daná klíčová slova. Ty vyhledávače, které neúčtují poplatky za pořadí výsledků, vydělávají dál kontextová reklama, přičemž reklamní sdělení odpovídají požadavku uživatele. Takové reklamy se zobrazují na stránce se seznamem výsledků vyhledávání a vyhledávače vydělávají pokaždé, když uživatel klikne na reklamní sdělení.

    Typy vyhledávačů

    Existují čtyři typy vyhledávačů: robotické, lidmi řízené, hybridní a metasystémy.

    • systémy využívající vyhledávacích robotů
    Skládají se ze tří částí: crawler ("bot", "robot" nebo "pavouk"), index a software vyhledávače. Prolézací modul je nutný k obcházení sítě a vytváření seznamů webových stránek. Index - velký archiv kopie webových stránek. cílová software- Vyhodnoťte výsledky vyhledávání. Díky tomu, že crawler v tomto mechanismu neustále prozkoumává síť, jsou informace aktuálnější. Většina moderních vyhledávačů jsou systémy tohoto typu.
    • systémy řízené člověkem (katalogy zdrojů)
    Tyto vyhledávače získávají seznamy webových stránek. Adresář obsahuje adresu, název a Stručný popis místo. Katalog zdrojů hledá výsledky pouze z popisů stránek, které mu zaslali webmasteři. Výhodou adresářů je, že všechny zdroje jsou kontrolovány ručně, takže kvalita obsahu bude lepší ve srovnání s výsledky získanými systémem prvního typu automaticky. Má to ale i nevýhodu – aktualizace těchto adresářů se provádí ručně a může výrazně zaostávat reálná situace záležitosti. Hodnocení stránek se nemůže změnit okamžitě. Příklady takových systémů jsou adresář Yahoo, dmoz a Galaxy.
    • hybridní systémy
    Vyhledávače jako Yahoo, Google, MSN kombinují funkce systémů využívajících vyhledávací roboty a systémy řízené lidmi.
    • meta-systémy
    Metavyhledávače kombinují a řadí výsledky několika vyhledávačů najednou. Tyto vyhledávače byly užitečné, když měl každý vyhledávač jedinečný index a vyhledávače byly méně „chytré“. Vzhledem k tomu, že vyhledávání se nyní tak zlepšilo, jejich potřeba klesla. Příklady: MetaCrawler a vyhledávání MSN.

    Trh s vyhledávači

    Google je nejpopulárnější vyhledávač na světě s podílem na trhu 68,69 %. Bing zaujímá druhou pozici, jeho podíl je 12,26 %.

    Nejoblíbenější vyhledávače na světě:

    Vyhledávací systém Podíl na trhu v červenci 2014 Podíl na trhu v říjnu 2014 Podíl na trhu v září 2015
    Google 68,69 % 58.01 % 69.24%
    Baidu 17,17 % 29.06 % 6,48%
    bing 6.22 % 8.01 % 12,26%
    Yahoo! 6.74 % 4.01 % 9,19%
    AOL 0,13 % 0.21 % 1,11%
    Rozrušit 0.22 % 0,00 % 0.00%
    Dotázat se 0,13 % 0,10 % 0,24%

    Asie

    V zemích východní Asie a ruský Google- není nejoblíbenější vyhledávač. V Číně, například, více populární Vyhledávač Soso.

    V Jižní Korea Přibližně 70 % obyvatel Yahoo! používá vlastní vyhledávací portál Naver. Japonsko a Yahoo! Taiwan jsou nejoblíbenější vyhledávače v Japonsku a na Tchaj-wanu.

    Rusko a ruskojazyčné vyhledávače

    Podle údajů LiveInternet v červnu 2015 o pokrytí ruskojazyčných vyhledávacích dotazů:

    • Všejazyčné:
      • Yahoo! (0,1 %) a vyhledávače vlastněné touto společností: Inktomi, AltaVista , Alltheweb
    • Anglicky mluvící a mezinárodní:
      • AskJeeves(mechanismus Teoma)
    • Rusky mluvící - většina "rusky mluvících" vyhledávačů indexuje a hledá texty v mnoha jazycích - ukrajinština, běloruština, angličtina, tatarština a další. Liší se od „všejazyčných“ systémů, které indexují všechny dokumenty za sebou, tím, že indexují především zdroje umístěné v doménových zónách, kde dominuje ruský jazyk, nebo jinak omezují své roboty na rusky psané stránky.

    Některé z vyhledávačů používají externí vyhledávací algoritmy.

    Kvantitativní data vyhledávače Google

    Počet uživatelů internetu a vyhledávačů a požadavky uživatelů na tyto systémy neustále rostou. Pro zvýšení rychlosti vyhledávání potřebných informací obsahují velké vyhledávače velké množství serverů. Servery jsou obvykle seskupeny do serverových center (datových center). Populární vyhledávače mají serverová centra rozesetá po celém světě.

    V říjnu 2012 Google spustil projekt Where the Internet Lives, kde uživatelé dostávají možnost seznámit se s datovými centry společnosti.

    Vyhledávač Google ví o práci datových center následující:

    • Celková kapacita všech datových center Google k roku 2011 byla odhadnuta na 220 MW.
    • Když v roce 2008 Google rok Harper's Magazine plánoval otevřít nový komplex v Oregonu sestávající ze tří budov o celkové ploše 6,5 milionu m², spočítal, že takto velký komplex spotřebuje přes 100 MW elektřiny, což je srovnatelné se spotřebou energie město s 300 000 obyvateli.
    • Odhadovaný počet serverů Google v roce 2012 je 1 000 000.
    • Výdaje společnosti Google na datová centra činily v roce 2006 1,9 miliardy USD a v roce 2007 2,4 miliardy USD.

    Velikost World Wide Web indexovaného společností Google k prosinci 2014 je přibližně 4,36 miliardy stránek.

    Vyhledávače, které berou v úvahu náboženské zákazy

    Globální rozšíření internetu a nárůst popularity elektronická zařízení v arabském a muslimském světě, zejména v zemích Blízkého východu a na indickém subkontinentu, přispěl k rozvoji místních vyhledávačů, které zohledňují islámské tradice. Takové vyhledávače obsahují speciální filtry, které uživatelům pomáhají vyhnout se přístupu na zakázané stránky, jako jsou stránky s pornografií, a umožňují jim používat pouze stránky, jejichž obsah není v rozporu s islámskou vírou. Krátce před muslimským měsícem ramadánu, v červenci 2013, byl svět představen Halal googlování- systém, který uživatelům poskytuje pouze halal "správné" odkazy pomocí filtrování výsledků vyhledávání obdržených z jiných vyhledávačů, jako je Google a Bing. O dva roky dříve, v září 2011, byl spuštěn vyhledávač I'mHalal, který měl sloužit uživatelům na Blízkém východě. Tato pátrací služba však musela být podle majitele zanedlouho uzavřena kvůli nedostatku financí.

    Nedostatek investic a pomalé tempo šíření technologií v muslimském světě brzdí pokrok a brání úspěchu seriózního islámského vyhledávače. Neúspěch obrovských investic do webových projektů muslimského životního stylu, z nichž jeden byl Muxlimský. Obdržel miliony dolarů od investorů, jako je Rite Internet Ventures, a nyní – podle posledního příspěvku od I'mHalal před jeho uzavřením – přichází s pochybnou myšlenkou, že „příští Facebook nebo Google mohou být pouze na Středním východě. pokud podpoříte naši skvělou mládež." Přesto mají islámští internetoví experti mnoho let práce s definováním toho, co je nebo není v souladu se šaríou, a klasifikují webové stránky jako „halal“ nebo „haram“. Všechny dřívější a současné islámské vyhledávače jsou pouze speciálně indexovanou sadou dat, nebo jsou to hlavní vyhledávače jako Google, Yahoo a Bing s nějakým filtrovacím systémem používaným k zabránění uživatelům v přístupu na stránky haraam, jako jsou stránky o nahotě, LGBT, hazard a cokoli jiného, ​​co je považováno za protiislámské.

    Mezi dalšími nábožensky orientovanými vyhledávači jsou běžné Jewogle, židovská verze Google, a SeekFind.org, křesťanská stránka, která obsahuje filtry, které uživatelům brání od obsahu, který by mohl podkopat nebo oslabit jejich víru.

    Osobní výsledky vyhledávání a filtrování bublin

    Mnoho vyhledávačů, jako je Google a Bing, používá algoritmy k selektivnímu odhadu, jaké informace by uživatel chtěl vidět na základě jeho minulých aktivit v systému. V důsledku toho webové stránky zobrazují pouze informace, které jsou v souladu s dřívějšími zájmy uživatele. Tento efekt se nazývá "filtrační bublina".

    To vše vede k tomu, že uživatelé dostávají mnohem méně informací, které jsou v rozporu s jejich úhlem pohledu, a stávají se intelektuálně izolovanými ve své vlastní „informační bublině“. „Bublinový efekt“ tak může mít negativní důsledky pro utváření občanského názoru.

    Předpojatost vyhledávačů

    Ačkoli jsou vyhledávače naprogramovány tak, aby hodnotily webové stránky na základě určité kombinace jejich popularity a relevance, ve skutečnosti experimentální výzkum ukazuje, že různé politické, ekonomické a sociální faktory ovlivňují SERP.

    Tato zaujatost může být přímým důsledkem ekonomických a obchodních procesů: společnosti, které inzerují na vyhledávači, se mohou stát populárnějšími ve výsledcích organického vyhledávání na tomto vyhledávači. Odstranění výsledků vyhledávání, které nejsou v souladu s místními zákony, je příkladem vlivu politických procesů. Google například nebude zobrazovat některé neonacistické weby ve Francii a Německu, kde je popírání holocaustu nezákonné.

    Zaujatost může být také důsledkem sociálních procesů, protože algoritmy vyhledávačů jsou často navrženy tak, aby vylučovaly neformátovaná hlediska ve prospěch „populárnějších“ výsledků. Indexační algoritmy hlavních vyhledávačů upřednostňují americké stránky.

    Vyhledávací bomba je jedním z příkladů pokusu zmanipulovat výsledky vyhledávání z politických, sociálních nebo komerčních důvodů.

    viz také

    • Qwika
    • Elektronická knihovna#Seznamy knihoven a vyhledávací systémy
    • Panel nástrojů pro vývojáře webu

    Poznámky

    Literatura

    • Ashmanov I. S., Ivanov A.A. Propagace webu ve vyhledávačích. - M. : Williams, 2007. - 304 s. - ISBN 978-5-8459-1155-1.
    • Baikov V.D. Internet. Hledejte informace. Propagace webových stránek. - Petrohrad. : BHV-Petersburg, 2000. - 288 s. - ISBN 5-8206-0095-9.
    • Kolisničenko D. N. Vyhledávače a propagace webových stránek na internetu. - M.: Dialektika, 2007. - 272 s. - ISBN 978-5-8459-1269-5.
    • Lande D.V. Hledejte znalosti na internetu. - M. : Dialektika, 2005. - 272 s. - ISBN 5-8459-0764-0.
    • Lande D.V., Snarsky A. A., Bezsudnov I.V. Internet: Navigace v složitých sítích: modely a algoritmy. - M.: Librokom (Editorial URSS), 2009. - 264 s. - ISBN 978-5-397-00497-8.
    • Chu H., Rosenthal M. Vyhledávací enginy pro World Wide Web: A srovnávací studie a metodologie hodnocení (anglicky) // SBORNÍK Z VÝROČNÍHO SCHŮZENÍ-AMERICKÁ SPOLEČNOST PRO INFORMAČNÍ VĚDU: časopis. - 1996. - Sv. 33. - S. 127-135.
    • Gandal, Neil. Dynamika konkurence na trhu internetových vyhledávačů. - 2001. - Sv. 19. - S. 1103–1117. -

    Vyhledávače (PS) jsou již dlouhou dobu nepostradatelnou součástí internetu. Dnes jsou to obrovské a složité mechanismy, které nejsou pouze nástrojem k nalezení jakýchkoli nezbytné informace, ale také docela vzrušující oblasti pro podnikání.


    Mnoho uživatelů vyhledávání nikdy nepřemýšlelo o principech své práce, o tom, jak jsou zpracovávány požadavky uživatelů, o tom, jak jsou tyto systémy sestaveny a fungují. Tento materiál pomůže lidem, kteří se zabývají optimalizací a porozumí zařízení a hlavním funkcím vyhledávačů.

    Funkce a koncepce PS

    Vyhledávací systém je hardwarově-softwarový komplex, který je navržen tak, aby vykonával funkci vyhledávání na internetu a reagoval na požadavek uživatele, který je obvykle nastaven ve formě textové fráze (nebo spíše vyhledávací dotaz), vydávání referenčního seznamu k informačním zdrojům, provedený podle relevance. Nejběžnější a velké systémy Vyhledávání: Google, Bing, Yahoo, Baidu. V Runet - Yandex, Mail.Ru, Rambler.

    Podívejme se blíže na význam samotného vyhledávacího dotazu a jako příklad si vezměme systém Yandex.

    Požadavek musí být uživatelem formulován zcela v souladu s předmětem jeho vyhledávání, pokud možno jednoduše a výstižně. Chceme například najít informace v tomto vyhledávači: "jak si vybrat auto pro sebe." Chcete-li to provést, otevřete domovská stránka a zadejte dotaz pro vyhledávání „jak si vybrat auto“. Poté jsou naše funkce redukovány na sledování poskytnutých odkazů na informační zdroje v síti.




    Ale i když budeme jednat tímto způsobem, nemusíme získat informace, které potřebujeme. Pokud dostaneme takový negativní výsledek, stačí přeformulovat náš dotaz, nebo ve vyhledávací základně opravdu nejsou žádné užitečné informace na tento druh požadavek (to je docela možné s danými "úzkými" parametry dotazu, například "jak si vybrat auto v Anadyru").

    Nejzákladnějším úkolem každého vyhledávače je poskytovat přesně takové informace, které lidé potřebují. A navyknout uživatele na vytváření „správného“ typu dotazů do vyhledávačů, tedy frází, které budou odpovídat jejich principům práce, je prakticky nemožné.

    Proto vývojáři vyhledávačů vytvářejí takové principy a algoritmy své práce, které uživatelům umožní najít informace, které je zajímají. To znamená, že systém musí „myslet“ stejně, jako přemýšlí člověk při hledání potřebných informací na internetu.

    Když zadá svůj dotaz do vyhledávače, chce co nejsnáze a nejrychleji najít to, co chce. Po obdržení výsledku uživatel provede hodnocení systému podle několika kritérií. Podařilo se mu najít nezbytné informace? Pokud ne, kolikrát musel přeformátovat text dotazu, aby ji našel? Jak aktuální byly obdržené informace? Jak rychle vyhledávač zpracoval jeho požadavek? Jak pohodlné byly výsledky vyhledávání? Byl tam kýžený výsledek první, nebo byl na 30. místě? Kolik "odpadu" (zbytečných informací) bylo nalezeno spolu s užitečnými informacemi? Budou pro něj relevantní informace při používání PS za týden, nebo za měsíc?




    Aby vývojáři vyhledávání dostali správné odpovědi na takové otázky, neustále zlepšují principy hodnocení a jeho algoritmy, přidávají k nim nové vlastnosti a funkce a jakýmkoli způsobem se snaží systém zrychlit.

    Hlavní charakteristiky vyhledávačů

    Označme hlavní charakteristiky vyhledávání:

    Úplnost.

    Úplnost je jednou z nejdůležitějších charakteristik vyhledávání, je to poměr čísel nalezených dotazem informační dokumenty k jejich celkovému počtu na internetu souvisejících tento požadavek. Například v síti je 100 stránek s frází „jak si vybrat auto“ a pro stejný dotaz bylo vybráno pouze 60 z celkového počtu, pak v tomto případě bude vyvolání vyhledávání 0,6. Je jasné, že čím kompletnější je samotné vyhledávání, tím je pravděpodobnější, že uživatel najde přesně ten dokument, který potřebuje, samozřejmě pokud vůbec existuje.

    Přesnost.

    Další důležitou funkcí vyhledávače je přesnost. Určuje míru shody s požadavky uživatele na stránky nalezené na webu. Pokud například existují stovky dokumentů pro klíčovou frázi „jak si vybrat auto“, polovina z nich tuto frázi obsahuje a zbytek má taková slova (jak správně vybrat autorádio a nainstalovat jej do auta“ ), pak se přesnost vyhledávání rovná 50/100 = 0,5.

    Čím přesnější vyhledávání, tím dříve uživatel nalezne informace, které potřebuje, tím méně různých „odpadků“ bude mezi výsledky nalezeno, tím méně nalezených dokumentů nebude odpovídat smyslu požadavku.

    Relevantnost.

    Jedná se o významnou složku vyhledávání, která je charakterizována dobou, která uběhla od okamžiku zveřejnění informace na internetu do jejího zadání do indexové databáze vyhledávače.

    Například den po informaci o výstupu nový iPad, mnoho uživatelů se obrátilo na vyhledávání s odpovídajícími typy dotazů. Ve většině případů jsou informace o této novince již dostupné ve vyhledávání, i když od jejího objevení uplynulo velmi málo času. To je způsobeno tím, že velké vyhledávače mají „rychlou databázi“, která se aktualizuje několikrát denně.

    Rychlost vyhledávání.

    Taková funkce, jako je rychlost vyhledávání, úzce souvisí s tzv. „tolerancí zátěže“. Každou vteřinu se na vyhledávání obrací obrovské množství lidí, taková zátěž vyžaduje výrazné zkrácení času na vyřízení jednoho požadavku. Zde se zájmy vyhledávače i uživatele zcela shodují: návštěvník chce získat výsledky co nejrychleji a vyhledávač musí jeho požadavek zpracovat co nejrychleji, aby nezpomaloval vyřizování následných požadavků.

    viditelnost.

    Vizuální prezentace výsledků je základním prvkem pohodlí vyhledávání. U mnoha dotazů vyhledávač najde tisíce a v některých případech miliony různé dokumenty. Kvůli vágnosti sestavení klíčových frází pro vyhledávání nebo jeho nepřesnosti nemají ani úplně první výsledky dotazu vždy jen potřebné informace.

    To znamená, že člověk často musí mezi poskytnutými výsledky vyhledávat sám. Různé součásti stránek vydání PS vám pomohou procházet výsledky vyhledávání.

    Historie vyhledávačů

    Když se internet začal poprvé rozvíjet, počet jeho běžných uživatelů byl malý a množství informací, které bylo možné získat, bylo relativně malé. Do této sítě měli přístup v podstatě pouze specialisté ve výzkumných oborech. V té době nebyl úkol vyhledávat informace tak aktuální jako nyní.

    Jednou z vůbec prvních metod organizace širokého přístupu k informačním zdrojům bylo vytváření katalogů stránek a odkazy na ně se začaly seskupovat podle témat. Takovým prvním projektem se stal zdroj Yahoo.com, který byl otevřen na jaře 1994. Následně, když se výrazně zvýšil počet stránek v adresáři Yahoo, přibyla možnost vyhledávat potřebné informace v adresáři. Nebyl to ještě plnohodnotný vyhledávač, protože rozsah takového vyhledávání byl omezen pouze na stránky zahrnuté v tomto adresáři, a ne na absolutně všechny zdroje na internetu. Odkazové adresáře byly v minulosti velmi široce používány, ale v současné době téměř úplně ztratily svou popularitu.

    Vždyť i dnešní obrovské katalogy mají informace o malé části stránek na internetu. Nejznámější a největší adresář na světě má informace o pěti milionech stránek, zatímco databáze Google obsahuje informace o více než 25 miliardách stránek.




    Úplně prvním skutečným vyhledávačem byl WebCrawler, který se objevil již v roce 1994.

    AltaVista a Lycos se objevily v následujícím roce. První byl navíc dlouhou dobu lídrem ve vyhledávání informací.




    V roce 1997 Sergey Brin spolu s Larry Pageem vytvořili vyhledávač Google jako výzkumný projekt na Stanfordské univerzitě. Dnes je to Google, nejpopulárnější a nejpopulárnější vyhledávač na světě.




    V září 1997 byl (oficiálně) oznámen Yandex PS, což je aktuálně nejvíce populární systém hledat v RuNetu.




    Podle září 2015, podíly vyhledávačů na světě jsou rozděleny takto:
    • Google – 69,24 %;
    • Bing - 12,26 %;
    • Yahoo! - 9,19 %;
    • Baidu - 6,48 %;
    • AOL - 1,11 %;
    • Zeptejte se - 0,23 %;
    • Vzrušit – 0,00 %


    Podle prosince 2016, podíly vyhledávačů v Runetu:

    • Yandex – 48,40 %
    • Google – 45,10 %
    • Search.Mail.ru – 5,70 %
    • Rambler – 0,40 %
    • Bing – 0,30 %
    • Yahoo – 0,10 %

    Principy vyhledávačů

    V Rusku hlavní systém vyhledávání je Yandex, pak Google a poté [email protected]. Všechny velké vyhledávače mají svou vlastní strukturu, která se značně liší od ostatních. Ale přesto je možné vyčlenit hlavní prvky společné všem vyhledávačům.

    Indexovací modul.

    Tato součást se skládá ze tří robotů:

    Pavouk(v angličtině spider) - program, který je určen ke stahování webových stránek. „Pavouk“ stáhne konkrétní stránku a současně z ní extrahuje všechny odkazy. Stahování html kód téměř z každé stránky. K tomu roboti používají protokoly HTTP.




    "Spider" funguje následovně. Robot odešle na server požadavek „get/path/document“ a další příkazy HTTP požadavku. Jako odpověď obdrží program robota textový proud, který obsahuje informace typu služby a samozřejmě samotný dokument.
    • URL stažené stránky;
    • datum stažení stránky;
    • hlavička http odpovědi serveru;
    • html kód, "tělo" stránky.
    Crawler("putující" pavouk). Tento program automaticky navštíví všechny odkazy nalezené na stránce a také je zvýrazní. Jeho úkolem je na základě těchto odkazů nebo na základě daného seznamu adres určit, kam se má pavouk v budoucnu vydat.

    indexátor(Indexing bot) je program, který analyzuje stránky stažené pavouky.



    Indexátor kompletně analyzuje stránku na její základní prvky a analyzuje je pomocí vlastních morfologických a lexikálních typů algoritmů.

    Analýza se provádí na různých částech stránky, jako jsou nadpisy, text, odkazy, styl a strukturní prvky, html tagy atd.

    Indexovací modul tedy umožňuje sledovat odkazy daného počtu zdrojů, stahovat stránky, extrahovat z přijatých dokumentů množství odkazů na nové stránky a provádět jejich detailní analýzu.

    Databáze

    Databáze(nebo index vyhledávače) - datový skladovací komplex, pole informací, ve kterém jsou parametry každého zpracovávaného indexovacím modulem a staženého dokumentu určitým způsobem uloženy.

    vyhledávací server

    Tohle je nejvíc důležitý prvek celého systému, protože rychlost a samozřejmě kvalita vyhledávání přímo závisí na algoritmech, které jsou základem jeho funkčnosti.

    Vyhledávací server funguje takto:

    • Požadavek, který přichází od uživatele, je podroben morfologické analýze. Vygeneruje se informační prostředí libovolného dokumentu dostupného v databázi (dále se zobrazí jako úryvek, tedy informační pole textu odpovídající tomuto požadavku).
    • Přijatá data jsou předávána jako vstupní parametry specializovanému hodnotícímu modulu. Zpracovávají se pro všechny dokumenty a v důsledku toho je pro každý takový dokument vypočítáno jeho vlastní hodnocení, které charakterizuje relevanci takového dokumentu k požadavku uživatele, a další součásti.
    • V závislosti na podmínkách nastavených uživatelem může být toto hodnocení upraveno dalšími.
    • Poté se vygeneruje samotný snippet, tzn. pro jakýkoli nalezený dokument se z odpovídající tabulky extrahuje název, anotace, která nejvíce odpovídá dotazu, a odkaz na tento dokument, zatímco nalezené tvary slov a slova jsou zvýrazněny.
    • Výsledky přijatého vyhledávání jsou předány osobě, která je provedla, ve formě stránky, na které jsou zveřejněny výsledky vyhledávání (SERP).
    Všechny tyto prvky jsou úzce propojeny a fungují, vzájemně se ovlivňují, tvoří svébytný, ale dosti komplikovaný mechanismus fungování PS, který vyžaduje obrovské výdaje na zdroje.