Перспективи у розвитку пошукових систем. Пошукові системи. Як часто пошукові системи змінюють свої алгоритми

Різноманітні технології та методи, створені за роки розвитку теорії та практики інформаційного пошуку, знаходять своє застосування у сучасних ІПС. Поряд із класичними бібліотечними ІПС, які продовжують удосконалюватися, інтенсивний розвиток відбувається у галузі глобальних ІПС мережі Інтернет, яка стала головною рушійною силою сучасних технологій інформаційного пошуку. Гігантський обсяг доступних інформаційних ресурсів вимагає застосування масштабованих алгоритмів пошуку. Гіпертексти дозволяють використовувати нові моделі пошуку, засновані на семантичному аналізі колекцій документів. Висока швидкість оновлення сторінок, їхнє вільне розміщення та відсутність гарантії постійного доступу призводить до необхідності постійного переіндексування актуальних інформаційних ресурсів.

Нарешті, неоднорідний склад користувачів, які часто не мають навичок роботи з пошуковою системою, змушує шукати ефективні способи формулювання запитів, що працюють з мінімальною вихідною інформацією.

6.1. Словникові інформаційно-пошукові системи

Словникові ІПС на сьогоднішній день – найшвидші та найефективніші пошукові системи, що набули найбільшого поширення в мережі Інтернет. Пошук необхідної інформації у словникових ІПС здійснюється за ключовими словами. Результати пошуку формуються під час роботи того чи іншого пошукового алгоритму зі словником та запитом, складеним користувачем на ІПС.

Структура словникової ІПС (Рис. 13) складається з наступних компонентів: засоби перегляду документів, інтерфейсу користувача, пошукової машини, бази даних пошукових образів та індексуючого агента.

Інформаційний масив включає інформаційні ресурси, потенційно доступні користувачеві. Сюди входять текстові та графічні документи, мультимедійна інформація тощо. Для глобальної ІПС – це мережа Інтернет, де всі документи характеризуються унікальним адресою URL (URL – уніфікований покажчик інформаційного ресурсу (англ. Uniform Resource Locator).

Інтерфейс пошукової системи визначає спосіб взаємодії користувача з ІПС. Сюди входять правила формування запитів, механізм перегляду результатів пошуку тощо. пошукових системІнтернет зазвичай реалізується в середовищі веб-браузера. Для роботи зі звуковою та відео інформацією застосовується відповідне програмне забезпечення.

Головна функція пошукової машини – реалізація прийнятої моделі пошуку. Спочатку запит користувача, підготовлений на ІПЯ, транслюється відповідно до встановлених правил формального запиту. Потім у ході виконання пошукового алгоритму запит порівнюється з пошуковими образами документів із бази даних. За результатами порівняння формується підсумковий перелік знайдених документів. Зазвичай він містить назву, розмір, дату створення та коротку анотацію документа, посилання на нього, а також значення міри подібності документа та запиту.

Рис.13. Структура словникової ІПС.

Список піддається ранжуванню (упорядкування за будь-яким критерієм, зазвичай за значенням формальної релевантності).

База даних пошукових образів документів варта зберігання описів індексованих документів. Структура типової бази даних словникової ІПС докладно описана у частині 1 методичних вказівок.

Індексуючий агент виконує індексацію доступних документів з метою складання їх пошукових образів. У локальних системах ця операція зазвичай здійснюється один раз: після закінчення формування масиву документів вся інформація індексується та пошукові образи вносяться до бази даних. У динамічному децентралізованому інформаційному масиві Інтернету застосовується інший підхід. Спеціальна програма-робот, яку називають павук (spider) або повзун (crawler), безперервно обходить мережу. Переходи між різними документами здійснюються за допомогою гіперпосилань, що містяться в них. Швидкість оновлення даних у базі даних пошукової системи безпосередньо пов'язана зі швидкістю сканування мережі. Наприклад, потужний робот, що індексує, може обійти всю мережу Інтернет за кілька тижнів. При кожному новому циклі обходу база даних оновлюється і старі недійсні адреси видаляються.

Частину документів для пошукових машин закрито. Це інформація, доступ до якої авторизований або здійснюється не за посиланням, а на запит із форми. В даний час розробляються інтелектуальні методи сканування прихованої частини Інтернету, але широкого поширення вони поки не набули.

Для індексування гіпертекстових документів програми-агенти використовують джерела: гіпертекстові посилання (href), заголовки (title), заголовки (H1, H2 тощо. буд.), інструкції, списки ключових слів (keywords), підписи до зображень. Для індексування нетекстової інформації (наприклад, файлів, що передаються протоколом ftp) використовуються URL .

Також використовуються можливості напівавтоматичної чи ручної індексації.

У першому випадку адміністратори залишають повідомлення про свої документи, які індексуючий агент обробляє згодом, у другому, адміністратори самостійно вносять до бази даних ІПС необхідну інформацію.

Дедалі більше ІПС виробляють повнотекстову індексацію. І тут для складання пошукового образу використовується весь текст документа. Форматування, посилання тощо. д. стають у разі додатковим чинником, що впливає значимість тієї чи іншої терміна. Термін із заголовка отримає більшу вагу, ніж термін із підпису до малюнка.

Сучасні великі ІПС повинні протягом секунди обробляти сотні запитів. Тому будь-яка затримка може призвести до відтоку користувачів і, як наслідок, до непопулярності системи та комерційних невдач. З погляду архітектури такі ІПС реалізуються у вигляді розподілених обчислювальних систем, що складаються з сотень комп'ютерів, розташованих по всьому світу. Пошукові алгоритми та програмний код піддаються вкрай ретельній оптимізації.

В ІПС з великим обсягом бази документів для прискорення їхньої роботи застосовуються технології ешелонування та прюнінгу .

Ешелонування полягає в поділі бази даних на явно більш релевантну і менш релевантну частини. Спочатку ІПС шукає документи з першої частини бази. Якщо документів не знайдено або знайдено недостатньо, пошук виконується в другій частині.

При використанні прюнінгу (Pruning – англ. скорочення, видалення) обробка запиту автоматично припиняється після знаходження достатньої кількості релевантних документів.

Також широко застосовуються порогові моделі пошуку , які визначають деякі граничні значення для характеристик документів, що видаються користувачеві. Наприклад, релевантність документів зазвичай обмежується деяким значенням релевантності

До уваги користувача пропонуються всі документи зі значенням релевантності

У разі ранжування результатів пошуку за датою граничні значення визначають часовий інтервал дати зміни документів. Наприклад, ІПС може автоматично відсікати документи, які не змінювалися останні три роки.

Головною перевагою ІПС словникового типу є повна її автоматизація. Система самостійно аналізує пошукові ресурси, складає та зберігає їх описи, здійснює пошук серед цих описів. Широке охоплення ресурсів мережі Інтернет відноситься до плюсів таких систем. Значні обсяги баз даних роблять словникові ІПС особливо корисними вичерпного пошуку, складних запитів чи локалізації неясної інформації.

У той самий час величезна кількість документів у базі даних системи часто призводить до дуже великому числу знайдених документів. Це викликає труднощі у більшості користувачів при аналізі знайденої інформації та унеможливлює швидкий пошук. Автоматичні методи індексації не можуть врахувати специфіки конкретних документів та кількість непертинентних документів серед

знайдених такою системою часто буває велике.

Ще одним недоліком словникової ІПС є необхідність формулювати запити до системи спеціальною мовою. Хоча існує тенденція до зближення ІПЯ із природними мовами, на сьогоднішній день користувач повинен мати певні навички у формулюванні запитів.

Сучасні пошукові системи - це найпотужніші апаратно-програмні комплекси, метою яких є індексування документів у мережі інтернет для видачі даних на запит користувачів.

Для надання якісної та актуальної інформації пошуковим системам доводиться постійно удосконалювати свої формули ранжирування. Забезпечення максимально високої якості видачі для користувачів та перешкоджання маніпуляціям із нею з боку оптимізаторів – ось ключові цілі розвитку пошукових систем.

У часи, коли пошукові системи тільки-но стали з'являтися на світ, їх алгоритми ранжирування були дуже примітивні. Завдяки чому найбільш винахідливі оптимізатори стали просувати свої сайти так, щоб вони з'являлися у видачі за запитами, що їх цікавлять. В результаті це призвело до того, що ресурси, які часто не несли користувачеві жодної корисної інформації, ставали першими, тим самим відсуваючи більш корисні сайти на другий план.

У відповідь на ці дії пошукові системи стали захищатися, удосконалюючи свої алгоритми ранжирування, вводячи у формули нові змінні і враховуючи нові чинники. Згодом ця боротьба оптимізаторів та пошукових систем перейшла на новий рівень та сприяла появі більш досконалих алгоритмів, заснованих, у тому числі і на машинному навчанні.

Етапи розвитку пошукових систем:

Як можна побачити із схеми, розвиток пошукових систем та їх алгоритмів йде по колу. Одні створюють нові алгоритми, інші пристосовуються до них. Складно сказати, чи зупиниться колись цей процес, але особисто я схильний вважати, що ні. Незважаючи на те, що алгоритми ранжирування пошукових систем останнім часом не тільки змінюють значущість різних факторів, а й змінюються якісно, це не лякає оптимізаторів: їхній арсенал постійно поповнюється новими прийомами.

Як часто пошукові системи змінюють свої алгоритми?

Звернемося до головної пошукової системи Рунету - Яндексу. Якісні та важливі зміни формул ранжирування в ній відбуваються в середньому один раз на рік. Нещодавно Яндекс представив нову пошукову платформу під назвою “Калінінград”. Її суть полягає у формуванні персональної видачі для кожного користувача на підставі його пошукової історії та переваг.

Крім цього не варто забувати, що у кожної пошукової системи, у тому числі й у Яндекса, постійно трапляються "підкрутки" формул ранжирування, коли в автоматичному або напівавтоматичному режимі вплив певних факторів занижується, а інших навпаки - підвищується. Все це робиться лише з однією метою — максимально покращити пошукову видачу, позбавивши її сайтів, що не задовольняють потреби користувачів, і тим самим підвищити її релевантність.

Розглядаючи зміни в пошуковій системі Google, можна побачити, що перетворення формули ранжирування також відбуваються постійно, а сам Google рік у рік рапортує про сотні дрібних змін. Але якщо говорити не про формулу ранжирування, а про фільтри, які допомагають Google очищати видачу від низькоякісних сайтів, нові версії алгоритмів, такі як Панда або Пінгвін, з'являються з періодичністю раз на 3-6 місяців.

Відповісти на поставлене вище питання можна так: пошукові системи постійно вдосконалюють алгоритми ранжирування, а кардинальні зміни відбуваються в середньому раз на 6-12 місяців.

Які алгоритми пошукових систем є реальною загрозою для просування?

Хочеться відповісти "зльоту" - ніякі, але все ж таки розберемося. А для цього нам треба поставити запитання — чи ставлять пошукові системи метою перешкодити пошуковому просуванню?

Я вважаю, що ні. Для цього є кілька обґрунтувань:

1. Оптимізатори допомагають пошуковим системам удосконалювати свої алгоритми, що зрештою призводить до поліпшення якості видачі. Адже якби не було оптимізаторів, то й пошукові системи, найімовірніше, зупинилися б у своєму розвитку 2000 року.

2. Без оптимізаторів видача за багатьма комерційними запитами була б схожа на збірник рефератів та марних інформаційних статей.

Якби пошукового просування не існувало в принципі, то і пошуковим системам не мало б сенсу зростати і розвиватися так само інтенсивно, як вони це роблять зараз.

Таким чином, ми приходимо до такого висновку:

Пошукові системи та SEO тісно та нерозривно пов'язані один з одним. Саме тому, дотримуючись встановлених ними правил, можна абсолютно не боятися алгоритмів, адже ПС не мають на меті знищити SEO як таке.

Розвиток сервісів пошукових систем

Говорячи про пошукові системи, не варто забувати про те, що Яндекс, Google або Bing мають власні сервіси, покликані допомогти користувачам. Крім пошукових результатів, за роки еволюції ПС вивчили поведінку своїх користувачів із метою підвищити задоволеність результатами видачі.

Власне для цього пошукова система Яндекс і вигадала механізм т.зв. “Чарівників”, які допомагають користувачеві швидко отримати відповідь на своє запитання. Так, наприклад, при вводі запиту «прогноз погоди» Яндекс прямо на сторінці з результатами пошуку відобразить інформацію про погоду на поточну дату, позбавивши цим користувача необхідності переходити за результатами видачі.

Інші пошукові системи, наприклад, Google, пішли далі і замість "Чарівників" запропонували більше цікаве рішення- "Граф знань".

"Граф знань"(з англ. Knowledge Graph) - це перший щабель на шляху Google до інтелектуального пошуку. Завдяки цьому нововведенню пошуковик відображає в результатах видачі не тільки стандартні посилання, але й прямі відповіді на запитання користувачів, коротку довідку про об'єкт запиту та інформацію про факти, пов'язані з ним. Технічно “Граф знань” є семантичну мережу, що пов'язує воєдино різні сутності: особистості, події, сфери життя, речі, категорії. Інформаційною базою для “графа знань” є ціла низка джерел: відкрита семантична база даних Freebase, Вікіпедія, збірник відкритих даних ЦРУ та інші джерела.

Які висновки можна зробити, запитаєте ви?

Відповідь проста: пошук та пошукові сервіси й надалі розвиватимуться у бік швидких та актуальних відповідей на запитання користувачів, надаючи можливість отримати всю необхідну інформацію прямо в SERP (видачу) та позбавляючи необхідності переходити на інші сайти.

Існує думка, що пошукові системи своїм прагненням відповісти на запитання користувача тут і зараз можуть знищити пошукову оптимізацію, ставши такими глобальними базами знань. Але такі побоювання безпідставні, оскільки для того, щоб стати глобальними базами знань, їм потрібна інформація, а її зберігають ті самі сайти, над якими працюють ті оптимізатори, які причетні до того, що пошукові системи не стоять на місці, а постійно еволюціонують.

Як видно, і SEO, і пошукові системи – ланки одного ланцюга, які не можуть існувати одна без одної. Тому думки про швидку смерть SEO безпідставні. Цілком можливо, що пошукова оптимізаціязгодом еволюціонує, наприклад, у консалтинг, але точно не помре. Бажаю всім вдалого просування у ТОП!

Вступ

3.1 Gopher

3.2 WAIS

3.4 AltaVista

3.5 OpenText

3.6 Infoseek

4. Пошукові роботи

5.1 Rambler

5.2 Yandex

5.3 Aport

6.1 Googlе

6.2 Yahoo

7.1 Пошукова система Baidu

8. Перспективи розвитку пошукових систем

Висновок

Список літератури

Вступ

Кожен користувач в Інтернеті може знайти безліч різноманітної та цікавої інформації, а також використовувати всі найбагатші можливості мережі. Вибрана тема реферату дуже актуальна нині, т.к. пошукові системи не замінні на сьогоднішній день, внаслідок надзвичайно частого відвідування всесвітньої мережі. Ресурси Інтернету, перетворившись на інструмент для повсякденної роботи людей багатьох професій. Швидке зростання інформації в мережі зробили його океаном найрізноманітніших даних, важливість яких зростає пропорційно їх обсягу. За оцінкою експертів обсяг інформації, що передається каналами Інтернет, подвоюється кожні півроку. Щодня в мережі з'являються мільйони нових документів, і природно, що без систем пошуку вони в переважній більшості залишилися б не затребуваними, взагалі не були б ким знайдені, і все те величезна кількість інформації виявилося б нікому не потрібним. Виникла необхідність створення таких засобів, які б легко орієнтуватися в інформаційних ресурсах глобальних мереж, швидко і надійно знаходити потрібні відомості. В Інтернеті з'явилися спеціальні пошукові засоби. Ще кілька років тому була така думка: в Інтернеті є все, але знайти там нічого неможливо. Однак з появою і швидким розвитком пошукових каталогів, пошукових машин, і всіляких пошукових програм ситуація змінилася, і тепер в Мережі терміново знадобилася інформацію іноді можна знайти швидше, ніж у книзі, що лежить на столі.

На жаль, пошукові системи часто не здатні точно та справедливо інтерпретувати ресурси. Як результат, на перших позиціях пошуку найчастіше виявляються сайти "далекі" від вирішуваного питання. При цьому ресурси, що представляють реальну користь, виявляються "за бортом" пошуку.

пошукова система інтернет робот

Причина такого становища проста й у технології отримання та представлення результатів пошуковими системами. Як це не парадоксально, але це вина не пошукових систем, оскільки вони зобов'язані приховувати правила побудови пошукових індексів. Це вина самої технології при організації пошуку

Пошукова система – це програмне забезпечення, що надає доступ до колекції слабоструктурованої інформації. Орієнтація на слабоструктуровані дані, тобто. дані, які не можна у вигляді реляційної таблиці, відрізняє пошукову систему від СУБД.

В даному визначенніпошукової системи мається на увазі інформація різноманітних, тобто. текст, аудіо, відео, зображення тощо. Проте слід зазначити, що саме текстові дані ідеально підходять для повної функціональності пошукової системи, т.к. алгоритми пошуку мультимедійної інформації, перш за все, ґрунтуються на алгоритмах пошуку тексту.

Основне завдання пошукової системи - мінімізувати час, що витрачається користувачем на пошук потрібної інформації. Питання у тому, яку інформацію користувач вважає за потрібне? У деяких обставинах релевантну інформацію можна визначити як всю інформацію з бази, що стосується запиту. Традиційно до пошукової системи застосовують дві основні характеристики: точність та повнота, а точніше, їхня залежність. Щоразу, коли користувач задає системі запит, ініціалізуючи пошук, всі документи в колекції пошукової системи діляться на чотири частини. Точність визначає один аспект пошуку, а саме, наскільки добре пошукова система здатна мінімізувати час, який витрачається користувачем на пошук релевантної даному запитуінформації. Тоді як повнота визначає інший аспект - наскільки добре система здатна знайти релевантну даному запиту інформацію. Можна підібрати оптимальний запит, коли кожен знайдений документ буде релевантним, і кожен релевантний документ буде знайдений.

Пошукові системи при використанні Інтернету відіграють дуже важливу роль. В Інтернеті зосереджено таку кількість інформації, що її пошук вже перетворюється на окреме завдання та забирає дуже багато часу. Пошукові сервери видають на запит тисячі посилань замість кількох сторінок, де дійсно є потрібна інформація. Користувачі всесвітньої мережі Інтернет, усвідомивши переваги, що надаються можливістю аналізу просторових даних, потребують інструменту, що дозволяє здійснювати швидкий та зручний пошук та доступ до цифрових знімків місцевості та іншої просторової інформації, зосередженої у багатьох урядових, комерційних та академічних організаціях.

1. Історія розвитку пошукових систем

Одним із перших способів організації доступу до інформаційним ресурсаммережі стало створення каталогів сайтів, у яких посилання ресурси групувалися відповідно до тематики. Першим таким проектом став сайт Yahoo, що відкрився у квітні 1994 року. Після того, як кількість сайтів у каталозі Yahoo значно збільшилася, було додано можливість пошуку інформації з каталогу. Це, звичайно ж, не було пошуковою системою в повному розумінні, тому що область пошуку була обмежена лише ресурсами, присутніми в каталозі, а не всіма ресурсами мережі Інтернет.

Каталоги посилань широко використовувалися раніше, але практично втратили популярність нині. Причина цього дуже проста - навіть сучасні каталоги, що містять величезну кількість ресурсів, подають інформацію лише про малу частину мережі Інтернет. Найбільший каталог мережі DMOZ (або Open Directory Project) містить інформацію про 5 мільйонів ресурсів, у той час як база пошукової системи Google складається з більш ніж 8 мільярдів документів.

Першою повноцінною пошуковою системою став проект WebCrawler, що з'явився в 1994 році.

У 1995 році з'явилися пошукові системи Lycos та AltaVista. Остання довгі роки була лідером у сфері пошуку інформації в Інтернеті.

У 1997 році Сергій Брін і Ларі Пейдж створили Google найпопулярнішу на сьогоднішній момент пошукову систему у світі.

вересня 1997 року була офіційно анонсована пошукова система Yandex, найпопулярніша в російськомовній частині Інтернету.

В даний час існує 3 основні міжнародні пошукові системи - Google, Yahoo і MSN Search, що мають власні бази та алгоритми пошуку. Більшість інших пошукових систем (яких можна нарахувати дуже багато) використовує в тому чи іншому вигляді результати трьох перерахованих. Наприклад, пошук AOL (search. aol.com) і Mail.ru використовують базу Google, а AltaVista, Lycos та AllTheWeb – базу Yahoo.

У Росії основною пошуковою системою є Яндекс, за ним ідуть Rambler, Google.ru, Aport, Mail.ru та КМ.ru

AltaVista -Пошукова система. Назва "AltaVista" буквально перекладається як "погляд зверху".

Спочатку пошукова система AltaVista була справжнім новатором створення пошукових технологій. В 1995 Альта виста створювалася як один з елементів обладнання дослідницької лабораторії Digital Equipment Corporation (DEC). З'явившись, пошукова система AltaVista швидко здобула визнання користувачів і стала лідером серед собі подібних. Основною заслугою системи AltaVista вважається забезпечення підтримки безлічі мов, у тому числі китайської, японської та корейської. Справді, в 1997 році жодна пошукова машина в Мережі не працювала з кількома мовами, тим більше рідкісними.

В 1998 корпорація Compaq Computer купила DEC (разом з AltaVista). І вже на початку 1999 року AltaVista набула статусу самостійного підрозділу. У цьому році Microsoft ліцензувала пошукову систему AltaVista для використання на своєму вузлі MSN. Багато бажаючих відразу ж стали користуватися послугами з індексації великих обсягів інформації та можливістю миттєвого пошуку у величезних базах даних. При цьому адреса пошукової системи залишалася колишньою - altavista. digital.com.

А набір в адресному рядку altavista.com призводив до влучення на сайт компанії AltaVista Technology. В результаті, популярність пошукової системи призвела до величезного притоку відвідувачів на сайт AltaVista Technology та втрати потенційних користувачів пошуковою системою. У результаті, домен altavista.com був викуплений Compaq за 3,35 мільйона доларів у серпні 1998 року (найбільша угода подібного роду на той момент). Незважаючи на це, Compaq так і не вдалося отримати прибутки від пошукової системи. Тому в червні 1999 року розпочалися переговори Compaq та корпорації CMGI про формування стратегічного мережевого альянсу, в рамках якого AltaVista було продано CMGI. 19 серпня 1999 було оголошено про придбання корпорацією CMGI у Compaq 83% акцій AltaVista.

У лютому 2003 AltaVista була куплена Overture Services, Inc., яка в липні 2003 була придбана Yahoo. З травня 2011 року AltaVista перейшла на пошукову технологію Yahoo.

Пошукова система AltaVista прагнула стати універсальним порталом, що включав онлайновий магазин, радіостанцію, форуми, чати, персональні фотоальбоми та інше. Але, через величезні грошові вливання, через конкуренцію з іншими гігантськими порталами та опублікованій критики з боку тих же конкурентів, 2001 рік проходить для компанії під девізом відмови від претензій на статус порталу та "повернення до витоків" .

Компанія повернула свою діяльність до іншого русла. Тепер www.altavista.com просуває свою пошукову систему серед індивідуальних користувачів Інтернету та ліцензує технології пошуку підприємств, у тому числі для використання у внутрішніх мережах. Основним джерелом фінансування споживчої версії пошукової системи AltaVista стали доходи від реклами, одержувані, зокрема і від найпопулярніших. Наприклад, зараз реальні результати пошуку розміщуються після посилання, за розміщення якого компанії AltaVista платить власник відповідного ресурсу.

Одночасно зі спробами стати порталом AltaVista продовжувала вдосконалювати свої пошукові технології.

Також одним джерелом прибутку AltaVista є розробка корпоративних пошукових систем внутрішнього користування.

Незважаючи на явне відставання від конкурентів, www.altavista.com абсолютно впевнена у своїх силах. Сподіваємося, що компанія Альта виста виконає все намічене і з успіхом "повернеться до свого коріння . Пошукова система AltaVista (www.altavista.com) завоювала серця всіх користувачів Інтернету на ранньому етапі його існування. Її історія – класичний приклад поєднання хорошої технології з невиразним позиціонуванням.

2. Як працюють механізми пошуку

Засоби пошуку та структурування, іноді звані пошуковими механізмами, використовуються для того, щоб допомогти людям знайти інформацію, якої вони потребують. Засоби пошуку типу агентів, павуків, кроулерів та роботів використовуються для збору інформації про документи, що знаходяться в Інтернеті. Це спеціальні програми, які займаються пошуком сторінок в Мережі, отримують гіпертекстові посилання на цих сторінках і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожен пошуковий механізм має власний набір правил, що визначають, як знаходити та обробляти документи. Деякі йдуть за кожним посиланням на кожній знайденій сторінці і потім, у свою чергу, досліджують кожне посилання на кожній з нових сторінок і так далі. Деякі ігнорують посилання, що ведуть до графічних та звукових файлів, файлів мультиплікації; інші ігнорують посилання на ресурси типу баз даних WAIS; інші проінструктовані, що потрібно переглядати насамперед найпопулярніші сторінки.

Агенти - "інтелектуальні" з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати транзакції від Вашого імені. Вже зараз вони можуть шукати сайти специфічної тематики та повертати списки сайтів, відсортованих за їх відвідуваністю. Агенти можуть обробляти зміст документів, знаходити та індексувати інші види ресурсів, не лише сторінки. Вони можуть бути запрограмовані для отримання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад до бази даних пошукового механізму.

Загальний пошук інформації в мережі здійснюють програми, відомі як павуки. Павуки повідомляють про зміст знайденого документа, індексують його та одержують підсумкову інформацію. Також вони переглядають заголовки, деякі посилання та надсилають проіндексовану інформацію базі даних пошукового механізму.

Кроулери переглядають заголовки та повертають лише перше посилання.

Роботи можуть бути запрограмовані так, щоб переходити на різні посилання різної глибини вкладеності, виконувати індексацію і навіть перевіряти посилання в документі. Через їхню природу вони можуть застрягати в циклах, тому, проходячи за посиланнями, їм потрібні значні ресурси Мережі, проте є методи, призначені для того, щоб заборонити роботам пошук по сайтам, власники яких не бажають, щоб вони були проіндексовані.

Агенти витягують та індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово в документі, в той час як інші індексують тільки найважливіших 100 слів у кожному, індексують розмір документа і число слів в ньому, назву, заголовки і підзаголовки і так далі. Вид збудованого індексу визначає, який пошук може бути зроблений пошуковим механізмом і як отримана інформація буде інтерпретована.

Агенти можуть також переміщатися Інтернетом і знаходити інформацію, після чого поміщати її в базу даних пошукового механізму. Адміністратори пошукових систем можуть визначити, які сайти або типи сайтів агенти повинні відвідати та проіндексувати. Проіндексована інформація надсилається базі даних пошукового механізму так само, як було описано вище.

Люди можуть поміщати інформацію прямо в індекс, заповнюючи особливу форму для того розділу, який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.

Коли хтось хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи та заповнює форму, яка деталізує інформацію, яка йому потрібна. Тут можна використовувати ключові слова, дати та інші критерії. Критерії у формі пошуку повинні відповідати критеріям, які використовуються агентами при індексації інформації, яку вони знайшли під час переміщення по Мережі.

База даних шукає предмет запиту, заснований на інформації, зазначеної у заповненій формі, і виводить відповідні документи, підготовлені базою даних. Щоб визначити порядок, у якому список документів буде показано, база даних застосовує алгоритм ранжування. В ідеальному випадку, документи, найбільш релевантні запиту користувача будуть поміщені першими в списку. Різні пошукові системи використовують різні алгоритми ранжування, проте основні принципи визначення релевантності такі:

Кількість слів запиту в текстовому вмісті документа (тобто html-код).

Теги, у яких ці слова розміщуються.

Розташування шуканих слів у документі.

Питома вага слів, щодо яких визначається релевантність, у кількості слів документа.

Ці принципи застосовуються усіма пошуковими системами. А представлені нижче використовуються деякими, але досить відомими (на кшталт AltaVista, HotBot).

Час - як довго сторінка перебуває у базі пошукового сервера. Спочатку здається, що це досить безглуздий принцип. Але якщо задуматися, як багато існує в Інтернеті сайтів, які живуть максимум місяць! Якщо ж сайт існує досить довго, це означає, що власник дуже досвідчений у цій темі і користувачеві більше підійде сайт, який пару років веде світові про правила поведінки за столом, ніж той, який з'явився тиждень тому з цією ж темою.

Індекс цитованості - скільки посилань на цю сторінку веде з інших сторінок, зареєстрованих в базі пошукача.

3. Порівняльний огляддовідково-пошукових систем

3.1 Gopher

Gopher був широко поширений в інтернеті і був попередником World Wide Web. За деякими даними, до 1995 року Gopher був технологією інтернету, що найбільш динамічно розвивається. Темпи зростання кількості відповідних серверів випереджали темпи зростання серверів інших типів. У 1993 році у світі було понад півтори тисячі gopher-серверів. Фактично був системою розподіленого пошуку та передачі документів одночасно. Причому ці можливості реалізовувалися не як додаткові сервіси-надбудови, подібно до сучасних пошукових машин, а були вбудовані в систему як її базові функції.

З допомогою спеціальної програми Veronica безпосередньо в системі Gopher здійснювався пошук із використанням спеціальної мови запитів, побудованої на ключових словах. Ця система працювала не лише задовго до появи GOPHER (RFC-1436) є системою для пошуку та доставки документів, що зберігаються в розподілених сховищах-депозитаріях. Система була розроблена в університеті штату Міннесота (на гербі цього штату зображений хом'як, англійською gopher). Програма Gopher пропонує користувачеві послідовність меню, з яких він може вибрати тему або статтю, що цікавить його. Об'єктом пошуку може бути текст або двійковий файл (у багатьох депозитаріях навіть текстові файлизберігаються в архівованому, отже, двійковому вигляді), графічний чи звуковий образ. Gopher також пропонує шлюзи в інші пошукові системи WWW, Wais, Archie, Whois, також в мережеві утиліти типу telnet або FTP. Gopher може запропонувати більше зручностей для роботи зі змістом файлів (directory), ніж FTP. Для доступу до глобальну мережу Gopher використовує модель клієнт-сервер. Система Gopher зараз застаріла, багато її серверів інтегровані в мережу WEB. Але gopher став прототипом сучасних інтерфейсів WWW і саме робить його цікавим.

3.2 WAIS

WAIS є однією з найвитонченіших пошукових систем Internet. У ній не реалізований лише пошук по нечітких множин і ймовірнісний пошук. На відміну від багатьох пошукових машин, система дозволяє будувати не тільки вкладені булеві запити, вважати формальну релевантність за різними мірами близькості, зважувати терміни запиту та документа, а й коригувати запит по релевантності. Система також дозволяє використовувати усічення термінів, розбиття документів на поля та ведення розподілених індексів. Не випадково саме ця система була обрана як основна пошукова машина для реалізації енциклопедії "Британіка" на Internet.

Розподілена інформаційна система WAIS була задумана як мережевий аналог традиційних інформаційно-пошукових систем (ІПС), що дозволяє користувачам мережі здійснювати пошук у повнотекстових базах даних з використанням традиційної для ІПС інформаційно-пошукової мови, пошукові розпорядження якої будуються на основі ключових слів та/або їх усічень , Пов'язаних між собою логічними операторами 0R або AND.

Спочатку система WAIS розроблялася чотирма фірмами: Dow Jones і С. (ділові бази даних); Think Machines Corporation (інформаційно-пошукові системи); Apple Computer (інтерфейс користувача) та KPMG Peat Maverick (робота з великою кількістю користувачів). Перший прототип WAIS був напівкомерційною напівдослідницькою системою з великими обмеженнями використання як з боку користувачів, так і з боку адміністраторів баз даних. Прототип WAIS непогано розумів природний англійська моваі переводив їх у пошукові розпорядження системи. Реально WAIS стала широко застосовуватися лише з появою версії FreeWAIS для операційних систем UNIX. Сьогодні існує велика кількість реалізацій WAIS, переважно комерційних, а система стала своєрідним стандартом інформаційно-пошукової машини на мережі Internet.

При роботі з WAIS користувачам не потрібно витрачати багато часу, щоб знайти потрібні їм матеріали.

У мережі Internet існує понад 300 WAIS – бібліотек. Але оскільки інформація представляється переважно співробітниками академічних організацій на добровільних засадах, більшість матеріалів належить до галузі досліджень та комп'ютерних наук.

3.3 WWW

WWW – система для роботи з гіпертекстом. Потенційно вона є найпотужнішим засобом пошуку. Гіпертекст поєднує різні документи на основі заздалегідь заданого набору слів. Наприклад, коли в тексті зустрічається нове слово або поняття, система, що працює з гіпертекстом, дає можливість перейти до іншого документа, в якому це слово або поняття розглядається більш детально. Часто використовується як інтерфейс баз даних WAIS, але відсутність гіпертекстових зв'язків обмежує можливості WWW до простого перегляду, як Gopher.

Користувач зі свого боку може задіяти можливість WWW працювати з гіпертекстом для зв'язку між своїми даними та даними WAIS та WWW таким чином, щоб власні записи користувача як би інтегрувалися в інформацію для загального доступу. Насправді це, звичайно, не відбувається, але сприймається саме так.

3.4 AltaVista

Індексування у цій системі здійснюється за допомогою робота. При цьому робот має такі пріоритети:

ключові фрази, що знаходяться на початку сторінки;

ключові фрази за кількістю входжень\присутності слів\фраз;

Якщо тегів на сторінці немає, використовує перші 30 слів, які індексує та показує замість опису (tag description)

Найцікавіша можливість AltaVista – це розширений пошук. Тут варто відразу обмовитися, що, на відміну від інших систем AltaVista підтримує одномісний оператор NOT. Крім цього, є ще й оператор NEAR, який реалізує можливість контекстного пошуку, коли терміни повинні розташовуватись поруч у тексті документа. AltaVista дозволяє пошук за ключовими фразами, причому вона має досить великий фразеологічний словник. Крім іншого, при пошуку в AltaVista можна задати ім'я поля, де має зустрітися слово: гіпертекстове посилання, applet, назва образу, заголовок та ряд інших полів. На жаль, докладно процедура ранжування в документації по системі не описана, але видно, що ранжування застосовується як при простому пошуку, так і розширеному запиті. Реально цю систему можна зарахувати до системи з розширеним булевим пошуком.

3.5 OpenText

Інформаційна система OpenText є найбільш комерціалізованим інформаційним продуктом в Мережі. Всі описи більше схожі на рекламу, ніж на інформативний посібник з роботи. Система дозволяє здійснити пошук з використанням логічних конекторів, однак розмір запиту обмежений трьома термінами або фразами. У цьому випадку йдеться про розширений пошук. При видачі результатів повідомляється ступінь відповідності документа запиту та розмір документа. Система дозволяє також покращити результати пошуку у стилі традиційного булевого пошуку. OpenText можна було б віднести до розряду традиційних інформаційно-пошукових систем, якби механізм ранжування.

3.6 Infoseek

У цій системі індекс створює робот, але він індексує не весь сайт, а лише вказану сторінку. При цьому робот має такі пріоритети:

слова в заголовку мають найвищий пріоритет;</p><p>слова в тегу keywords, description та частота входжень\повторень у самому тексті;</p><p>при повторенні однакових слів поруч викидає з індексу</p><p>допускає до 1024 символів для тега keywords, 200 символів для тега description;</p><p>якщо теги не використовувалися, індексує перші 200 слів на сторінці та використовує як опис;</p><p>Система Infoseek має досить розвинену інформаційно-пошукову мову, що дозволяє не просто вказувати, які терміни повинні зустрічатися в документах, а й своєрідно зважувати їх. Досягається це з допомогою спеціальних знаків " + " - термін може бути у документі, і " - " - термін має бути у документі. Крім цього, Infoseek дозволяє проводити те, що називається контекстним пошуком. Це означає, що використовуючи спеціальну форму запиту, можна вимагати послідовної спільної слів. Також можна вказати, що деякі слова повинні спільно зустрічатися не лише в одному документі, а навіть у окремому параграфі чи заголовку. Є можливість вказівки ключових фраз, що є єдине ціле, до порядку слів. Ранжування під час видачі здійснюється за кількістю термінів запиту в документі, за кількістю фраз запиту за вирахуванням загальних слів. Усі ці фактори використовуються як вкладені процедури. Підсумовуючи коротке резюме, можна сказати, що Infoseek відноситься до традиційних систем з елементом зважування термінів пошуку.</p><p><b><i>4. Пошукові роботи</i> </b> <br></p><p>За останні роки Всесвітня павутина стала настільки популярною, що зараз Інтернет є одним із основних засобів публікації інформації. Коли розмір Мережі виріс із кількох серверів і небагатьох документів до величезних меж, стало зрозуміло, що ручна навігація з значної частини структури гіпертекстових посилань більше неможливо, не кажучи вже про ефективний метод дослідження ресурсів.</p><p>Ця проблема спонукала дослідників Інтернету на проведення експериментів з автоматизованою навігацією по Мережі, названої "роботами". Веб-робот - це програма, яка переміщується гіпертекстовою структурою Мережі, запитує документ і рекурсивно повертає всі документи, на які <a href="/kompyuternyi-ekspert-programma-kursa-kompyuternyi-ekspert.html">даний документ</a>посилається. Ці програми також іноді називають "павуками", "мандрівниками", або "хробаками" і ці назви, можливо, більш привабливі, однак, можуть ввести в оману, оскільки термін "павук" і "мандрівник" створює помилкове уявлення, що робот сам переміщається , А термін "хробак" міг би мати на увазі, що робот ще й розмножується подібно до інтернетівського вірусу-хробака. Насправді роботи реалізовані як проста програмна система, яка запитує інформацію з віддалених ділянок Інтернет, використовуючи стандартні мережеві протоколи.</p><p><b><i>5. Найбільш популярні російськомовні довідково-пошукові системи в інтернет</i> </b> <br></p><p><b><i>5.1 Rambler</i> </b> <br></p><p>Пошукова система Рамблер розпочала своє існування з 1996 року. На сьогоднішній день вона є однією з найпопулярніших у Рунеті, поступаючись лише Яндексу (за популярністю). За оцінками SpyLog на Рамблер припадає 20-25% від усіх пошукових запитів Рунету.</p><p>Пошукова система Рамблер під час пошуку враховує морфологію російської, що дає більше можливостей для ефективного пошуку інформації. Реалізована також система так званих "перев'язок", яка дозволяє видавати в результатах пошуку не тільки сторінки, що містять запит, але й слова, які є синонімами запиту. Ще однією функцією "перев'язок", думаю більш значущою, є видача <a href="/contextual-advertising-wrapping-and-how-it-is-calculated.html">контекстної реклами</a>не тільки за конкретним запитом, але й за запитами, які тісно пов'язані з вихідним, це дозволяє перекрити більшу кількість цільової аудиторії.</p><p>Компанія Рамблер по праву вважається першим великим рекламним майданчиком російського Інтернету і стоїть біля джерел класичного мережевого рекламного бізнесу. <br></p><p><b><i>5.2 Yandex</i> </b> <br></p><p>На сьогоднішній день має саму <a href="/kak-eksportirovat-skachivat-i-importirovat-zagruzhat-bazy.html">велику базу</a>даних, яка має кластерну структуру та розміщена на декількох серверах .</p><p>У 1996 році компанією CompTek, створеною зі стовідсотковою американською участю, на виставці Internetcom було офіційно оголошено про існування "Яндекса". Це була морфологічна приставка до "Альтавісти", яку відрізняло швидкодія та вміння будувати гіпотези. Послівний індекс для незнайомих слів організований так само, як і для словникових - цим "Яндекс" відрізняється від інших пошукових систем.</p><p>вересня 1997 року "Яндекс" став інтернет-проектом. Релевантність документів обчислювалася залежно від частотних характеристик шуканих слів, ваги слова чи висловлювання, близькості шуканих слів у тексті документа друг до друга тощо. І головне нововведення цієї пошукової системи, яке вимагало неминучої перебудови ядра, - ранжування за посиланнями. Інші нововведення відносяться, головним чином, до переформулювання системою запитів користувача: "що таке предмет" перетворюється на "предмет - це.", і якщо запит починається слово "як", то результатах насамперед намагаються видати FAQ чи інший довідковий документ . Новий "Яндекс" став "розуміти" альтернативну лексику, яка входить до 5 відсотків запитів. Тільки в <a href="/kak-obnovit-aityuns-na-kompyutere-do-poslednei-versii-kak-vypolnit.html">останньої версії</a>Яндекса індекс цитування став безпосередньо використовуватися пошуковою машиною.</p><p>В даний час "Яндекс" володіє найповнішою базою документів серед російських шукалок, а також найвідомішою маркою. <br></p><p><b><i>5.3 Aport</i> </b> <br></p><p>Пошукову машину "Апорт" було вперше продемонстровано у лютому 1996 року на прес-конференції "Агами" з приводу відкриття "Російського клубу". Тоді вона шукала лише на сайті russia. agama.com. Творцем системи виступила компанія "Агама" - розробник <a href="/pm-02-razrabotka-vnedrenie-i-adaptaciya-po-pm-02-razrabotka-vnedrenie-i.html">програмного забезпечення</a>для платформи Windows, головним у тому числі був коректор орфографії " Пропис " . Лінгвістичні розробки "Агами" використовувалися під час створення пошукової машини, у якій, скажімо, на відміну "Рамблера", спочатку враховувалася морфологія слів і здійснювалася за бажанням клієнта перевірка орфографії запиту .</p><p>Найважливішими властивостями першої версії "Апорта" був переклад запиту та результатів пошуку на англійську мову і назад, а також реконструкція всіх проідексованих сторінок з власної бази (що означає можливість перегляду сторінок, що вже не існують в оригіналі).</p><p>"Апорт 2000" став першою російською пошуковою системою, побудованою на основі видачі результатів по окремо взятих сайтах. Для поділу ресурсів на сайти використовується інформація, яку "Апорт" надає каталог AtRus або відомості, введені в "Апорт" власниками ресурсів. На крайній край, доводиться спиратися на алгоритм, який дозволяє за деякими формальними ознаками виділити окремі сайти.</p><p>Користувачі "Апорту" (на відміну завсідників "Яндекса") мало користуються розширеним пошуком (на 8000 завантажень простої сторінки припадає 300 викликів сторінки "Розширений пошук").</p><p><b><i>6. Найбільш популярні закордонні пошукові системи для російськомовного користувача</i> </b> <br></p><p><b><i>6.1 Googlе</i> </b> <br></p><p>Назва пошукової системи Google була утворена в результаті гри букв у слові "googol". Цим компанія хоче підкреслити їх намір індексувати та обробляти великі обсяги інформації.</p><p>Ви можете шукати в Google 10 різними мовами. Ви також можете налаштувати інтерфейс потрібною вам мовою. Наприклад, якщо ви шукайте німецький сайт, то ви можете вводити запит німецькою мовою, і всі допоміжні написи інтерфейсу будуть німецькою мовою.</p><p>Дуже зручною функцією є cache. Завдяки цій функції користувач може переглянути проіндексовану сторінку навіть якщо ця сторінка видалена або сервер, на якому розташована сторінка недоступний. Ви також можете використовувати цю функцію для дослідження ваших конкурентів, це також допомагає краще зрозуміти принцип індексування сторінки пошуковим павуком (роботом).</p><p>За допомогою Google можна знайти сторінки, які не містяться у його базі даних. Це можливо тому, що пошуковий павук індексує текст посилань зі сторінок. <br></p><p><b><i>6.2 Yahoo</i> </b> <br></p><p>Дивно, але ця неймовірно <a href="/a-popular-operating-system-for-computers-download-operating-systems-windows-for-free.html">популярна система</a>, що обслуговує мільйони запитів щодня, зародилася як проста колекція закладок, яку поповнювали всього 2 особи - Девід Філо та Джеррі Янг. На сьогоднішній день Yahoo, це вже не просто каталог, це ціла група різноманітних сервісів, серед яких такі як каталог Yahooligans – Yahoo для дітей, система персональних каналів My Yahoo, безкоштовний E-mail сервіс, система "Shop with Yahoo" (купуйте з Yahoo ), спільний з MTV проект MTV unfURLed та багато іншого. Серед усіх розглянутих систем, Yahoo – єдина чисто каталогова, на Yahoo немає власної пошукової машини. Зате список категорій на Yahoo є найповнішим і найпростішим - на відміну від інших каталогів, на Yahoo завжди легко визначити, в якому розділі знаходиться потрібна інформація. Головна сторінка Yahoo вантажиться дуже швидко - хоча на ній дуже багато посилань, але вони всі текстові. Центральна частина сторінки, звичайно, зайнята вікном пошуку та списком категорій. Посилання вгорі сторінки (графічні) забезпечують доступ до такої інформації, як "що нового", "що хорошого", "More Yahoos". Останнє посилання рекомендується відвідати - воно приводить на сторінку з великою кількістю посилань на різноманітні Yahoo-каталоги та сервіси. При заданні критеріїв пошуку для Yahoo потрібно пам'ятати, що Yahoo шукає ці слова тільки в назві та описі сторінки, оскільки повнотекстового індексу Yahoo немає. Тому не слід вказувати при пошуку занадто багато термінів або синонімів – кількість результатів з Yahoo знизиться або навіть буде нульовою. Кількість результатів пошуку на Yahoo, природно, невелика, зате більшість є релевантними. Для розширеного пошуку Yahoo пропонує не дуже великий, але дуже корисний набір інструментів. Щоб потрапити на сторінку розширеного пошуку, потрібно перейти на посилання "options" з основної сторінки Yahoo.</p><p><b><i>7. Ринок пошукових систем у Китаї</i> </b> <br></p><p><b><i>7.1 Пошукова система Baidu</i> </b> <br></p><p>Компанія Baidu була заснована в 2000 р. - багато пізніше світових лідерів веб-пошуку, проте вона буквально увірвалася в першу десятку найвідвідуваніших сайтів світу, цьому сприяє стрімке зростання аудиторії користувачів Інтернету в Китаї (на січень 2010 р. - 360 млн.!). ).</p><p>Сайт Baidu.com у Китаї відомий усім інтернетчикам: це не тільки найпопулярніша китайська пошукача, але й найбільш відвідуваний у Піднебесній сайт (за статистикою Alexa the Web Information Company, на початок березня 2010 р. Baidu - 8-й за відвідуваністю сайт у світі) індекс Baidu містить близько 800 млн. веб-сторінок (у тому числі понад 100 млн. - китайською мовою), близько 100 млн. зображень і понад 15 млн. медіафайлів.</p><p>За даними агентства ComCore, Baidu щомісяця опрацьовує понад 10 млрд. пошукових запитів (для порівняння: "Яндекс" обробляє за місяць близько 3 млрд. запитів).</p><p>За даними шанхайського агентства Iresearch, Baidu контролює 63% китайського ринку інтернет-пошуку (на 2-му місці Google – 33%).</p><p>Окрім свого основного призначення – пошуку – Baidu надає користувачам наступні сервіси:</p><p>Байдупедія - вільна та "правильна" енциклопедія;</p><p>Байду. Пости – численні форуми на всілякі теми;</p><p>Байду. Простір - блог та фотоальбом;</p><p>Байду. Гроші – платіжна система;</p><p>Байду. Закачування – власна файлообмінна система;</p> <p>Для пошуку в покажчику користувач має сформулювати запит та надіслати його до пошукової машини. Запит може бути дуже простим, як мінімум, він повинен складатися з одного слова. Для побудови складнішого запиту потрібно використовувати булеві оператори, що дозволяють уточнювати та розширювати умови пошуку.</p> <p>Найчастіше використовуються такі булеві оператори:</p> <ul><li>AND - всі вирази, з'єднані оператором «AND», повинні бути присутніми на сторінках або документах. У деяких пошукових машинах замість слова AND використовується оператор +.</li> <li>OR - принаймні один з виразів, з'єднаних оператором «OR», повинен бути присутнім на сторінках або документах.</li> <li>NOT - вираз або вирази, що йдуть за оператором «NOT» не повинні (не повинні) з'являтися на сторінках або документах. У деяких пошукових машинах замість слова NOT використовується оператор "-".</li> <li>FOLLOWED BY - один із виразів має слідувати безпосередньо за іншим.</li> <li>NEAR - один з виразів має знаходитися на відстані від іншого, не більшого, ніж задана кількість слів.</li> <li>Лапки - укладені в лапки слова розглядаються як фраза, яку слід знайти в документі або файлі.</li> </ul><h2>Перспективи розвитку пошукових систем</h2> <p>Пошук, що задається булевими операторами, є буквальним - машина здійснює пошук слів або фраз точно в такому вигляді, в якому їх ввели. Це може викликати проблеми, коли введені слова багатозначні. Наприклад, англійське слово «Bed» може означати ліжко, клумбу, місце, де риба метає ікру, та багато іншого. Якщо користувача цікавить лише одне з цих значень, йому не потрібні сторінки зі словом, яке має інші значення. Можна побудувати буквальний пошуковий запит, націлений на відсічення небажаних значень, але було б непогано, якби сама пошукова машина могла надавати відповідну допомогу.</p> <p>Один із варіантів роботи пошукової машини – концептуальний пошук. Частина такого пошуку передбачає використання <a href="/analiz-i-vizualizaciya-dannyh-s-pomoshchyu-metodicheskoe-posobie.html">статистичного аналізу</a>сторінок, що містять введені користувачем слова або фрази, для знаходження інших сторінок, які могли б зацікавити цього користувача. Зрозуміло, що для концептуального пошуку потрібно зберігати більше інформації про кожну сторінку, і кожен пошуковий запит вимагатиме більшої кількості обчислень. В даний час багато груп розробників займаються підвищенням результативності та продуктивності пошукових машин такого типу. Інші дослідники сфокусувалися на іншій області, яку називають природно-мовними запитами (natural-language queries).</p> <p>Ідея природно-мовних запитів полягає в тому, щоб користувач формулював запит так само, як він би питав у людини, яка сидить поруч - при цьому не потрібно відслідковувати булеві оператори або складні структури запитів. Найбільш популярним сучасним сайтом з природно-мовними <a href="/intellektualnyi-poiskovik-nigma-intellektualnaya-poiskovaya.html">пошуковими запитами</a>є AskJeeves.com, що аналізує запит з метою виявлення ключових слів, які потім використовуються для пошуку в побудованому цією пошуковою машиною покажчика сайтів. Згаданий сайт працює тільки з простими пошуковими запитами, проте розробники в умовах жорсткої конкуренції займаються розробкою машини з природно-мовними пошуковими запитами, здатною обробляти дуже складні запити.</p> <p>Алгоритми ранжирування пошукових систем постійно розвиваються та вдосконалюються. Головні цілі цього розвитку - забезпечення високої якості пошуку для користувачів та створення максимальних труднощів для маніпулювання <a href="/management-of-issuance-or-search-suggestions-yandex-how-to-search-in-yandex.html">пошуковою видачею</a>оптимізатори сайтів.</p> <p>Ці цілі взаємопов'язані, оскільки якість пошуку безпосередньо залежить від можливості або неможливості вплинути на нього заінтересованим особам.</p> <p>Коли пошукові системи Яндекс і Google лише розпочинали свій розвиток, їх алгоритми ранжирування були примітивними, що дозволяло досить просто маніпулювати ними. На релевантність сторінки мали високий вплив такі фактори: мета-теги, щільність ключових слів на сторінці та теги виділення. Однак це дозволило «чорним» оптимізаторам, які просували сайти, орієнтовані не на людей, а на пошукові системи з метою заробити на потоці відвідувачів, погіршити загальну якість пошуку.</p> <p>В результаті, пошукові системи перестали враховувати мета-тег Keywords і, мабуть - Description, який тепер використовується лише для формування сніпету (короткого опису сторінки) в Google. Також знизилася значимість інших чинників внутрішньої оптимізації, які дозволяли злісно маніпулювати пошуковою видачею.</p> <p>Потім оптимізаторами було встановлено, що кількість зовнішніх посилань на сайт, а також їх анкори впливають на позиції сайту в результатах пошуку. Відразу ж з'явилися тисячі каталогів сайтів та програми автоматичного додавання до них (найвідоміша програма такого роду - AllSubmitter).</p> <p>Пошукові системи досить швидко виключили більшість каталогів сайтів, різко знизивши ефективність прогонів за каталогами, які стали масово використовуватися оптимізаторами.</p> <p>Після цього ефективні спроби маніпулювання пошуковою видачею стали, головним чином, полягати у покупці посилань із звичайних сайтів, створених не на каталожних скриптах.</p> <p>Незабаром пошукові системи навчилися розпізнавати грубу роботу з продажу посилань і запровадили санкції у вигляді фільтра або бана для сайтів, створених виключно для продажу посилань. Причому в деяких випадках санкції можуть стосуватися сайтів, на які закуповуються посилання.</p> <p>Всі етапи розвитку пошукових систем є наступним логічним ланцюжком:</p> <p>1. Створюється певний базовий алгоритм ранжування.</p> <p>2. Оптимізатори виявляють у ньому слабкі місця та починають масово маніпулювати пошуковою видачею.</p> <p>3. Пошукові системи серйозно коригують алгоритм ранжування, змінюючи рівень впливу тих чи інших факторів.</p> <p>4. Оптимізатори аналізують ці зміни, пристосовуються до нових умов та знову починають масово маніпулювати пошуком.</p> <p>Однак алгоритми ранжирування пошукових систем останнім часом не тільки змінюють значущість різних факторів, але й якісно змінюються взагалі.</p> <p>Актуальним стає комплексний облік сотень різних факторів, а також скасовується єдина формула ранжирування, натомість починає використовуватися матрична система. Приклад тому – алгоритм Яндекса «Сніжинськ» (опис цього алгоритму наведено на сторінці http://seo-in.ru/poiskovaya-optimizaciya/62-snezhinsk.html).</p> <p>за <a href="/macbook-perenos-sistemy-na-novyi-disk-menyaem-hdd-na-bystryi-ssd-v-apple-macbook-pro.html">новій системі</a>для кожного окремого запиту генерується своя формула ранжирування, яка може бути зовсім не схожа на формулу ранжирування за іншими запитами. Якщо раніше можна було досить просто виявити якісь загальні залежності у принципах ранжирування пошукової системи, то надалі загальних залежностей просто не буде.</p> <p>Платні інструменти для просування сайтів, швидше за все, залишаться, але їх використання з великою ймовірністю стане економічно недоцільним. Саме така ситуація спостерігається зараз у англомовному секторі інтернету.</p> <p>У недалекому майбутньому для просування сайту найбільший ефект надаватиме сукупність наступних основних факторів:</p> <ul><li>великий масив <a href="/kak-sdelat-chtoby-gruppa-vkontakte-stala-populyarnoi-kak-sozdat-gruppu-v-vk.html">якісного контенту</a>(унікального та корисного);</li> <li>траст сайту;</li> <li>вік сайту;</li> <li>розумна внутрішня оптимізація.</li> </ul><p>Якийсь особливий технічний поступ, заснований на виявленні слабких місць в алгоритмах ранжирування, швидше за все, втратить актуальність. Принаймні все до цього йде.</p> <script>document.write("<img style='display:none;' src='//counter.yadro.ru/hit;artfast_after?t44.1;r"+ escape(document.referrer)+((typeof(screen)=="undefined")?"": ";s"+screen.width+"*"+screen.height+"*"+(screen.colorDepth? screen.colorDepth:screen.pixelDepth))+";u"+escape(document.URL)+";h"+escape(document.title.substring(0,150))+ ";"+Math.random()+ "border='0' width='1' height='1' loading=lazy loading=lazy>");</script> <div class="evc-social-likes" data-url="https://vism.ru/perspektivy-v-razvitii-poiskovyh-sistem-poiskovye-sistemy.html" data-title="Перспективи у розвитку пошукових систем. Пошукові системи. Як часто пошукові системи змінюють свої алгоритми" data-media=""> <div class="social-likes "> <div class="facebook" title="Подiлитись посиланням на Фейсбуці">Facebook</div> <div class="twitter" title="Подiлитись посиланням у Твіттері.">Twitter</div> <div class="vkontakte" title="Поділитись посиланням у Вконтакті">Вконтакте</div> <div class="plusone" title="Поділитись посиланням у Гугл-плюсі">Google+</div> </div> </div> <span class="thecategory"><i class="icon-globe"></i> <a href="/category/technology/" rel="category tag">Технології</a></span> </div> </article> <div class="post-tags"></div> <div class="related-posts"> <h4>Вам також може сподобатися</h4> <article id="post-11754" class="latestpost post-11754 post type-post status-publish format-standard hentry category-poleznye-sovety"> <a href="/komandy-cmd-kotorye-dolzhen-znat-kazhdyi-polzovatel-komanda-hakerov-iz-rossii.html" title="Команда хакерів з Росії розробила метод вламування акаунтів у Skype Як стати хакером за допомогою cmd" id="featured-thumbnail"> <div class="featured-thumbnail"> <img src="/uploads/8640ebbfe69e2e390845c3fa5db65656.jpg" alt="Команда хакерів з Росії розробила метод вламування акаунтів у Skype Як стати хакером за допомогою cmd" / loading=lazy loading=lazy> </div> </a> <header class="entry-header"> <h1 class="entry-title"><a href="/komandy-cmd-kotorye-dolzhen-znat-kazhdyi-polzovatel-komanda-hakerov-iz-rossii.html" rel="bookmark">Команда хакерів з Росії розробила метод вламування акаунтів у Skype Як стати хакером за допомогою cmd</a></h1> </header> </article> <article id="post-11752" class="latestpost post-11752 post type-post status-publish format-standard hentry category-poleznye-sovety"> <a href="/chto-takoe-airdrop-v-iphone-chto-takoe-airdrop-na-iphone-i-kak-im-polzovatsya-v-ios-chto-takoe.html" title="Що таке AirDrop на iPhone і як ним користуватися в iOS" id="featured-thumbnail"> <div class="featured-thumbnail"> <img src="/uploads/207ef146f8ae414e61fa23eccf12f5de.jpg" alt="Що таке AirDrop на iPhone і як ним користуватися в iOS" / loading=lazy loading=lazy> </div> </a> <header class="entry-header"> <h1 class="entry-title"><a href="/chto-takoe-airdrop-v-iphone-chto-takoe-airdrop-na-iphone-i-kak-im-polzovatsya-v-ios-chto-takoe.html" rel="bookmark">Що таке AirDrop на iPhone і як ним користуватися в iOS</a></h1> </header> </article> <article id="post-11751" class="latestpost post-11751 post type-post status-publish format-standard hentry category-poleznye-sovety"> <a href="/kamera-noutbuka-pokazyvaet-vverh-nogami-asus-veb-kamera-noutbuka.html" title="Веб камера ноутбука показує вгору ногами." id="featured-thumbnail"> <div class="featured-thumbnail"> <img src="/uploads/cff6ccf7b480d3e144fe2264e860d077.jpg" alt="Веб камера ноутбука показує вгору ногами." / loading=lazy loading=lazy> </div> </a> <header class="entry-header"> <h1 class="entry-title"><a href="/kamera-noutbuka-pokazyvaet-vverh-nogami-asus-veb-kamera-noutbuka.html" rel="bookmark">Веб камера ноутбука показує вгору ногами.</a></h1> </header> </article> </div> </main> <div id="sidebar" class="sidebar c-4-12" role="complementary" itemscope itemtype="http://schema.org/WPSideBar"> <aside id="recent-posts-3" class="widget widget_recent_entries"> <h3 class="widget-title">Найпопулярніше</h3> <ul> <li class='li1'><a href='/interesnaya-informaciya-o-pervyh-kompyuterah-interesnye-fakty-udivitelnye.html' title='Цікаві факти, дивовижні факти, невідомі факти у музеї фактів'>Цікаві факти, дивовижні факти, невідомі факти у музеї фактів</a></li> <li class='li1'><a href='/kak-byt-esli-sbrasyvaetsya-zvonok-v-skaipe-chto-delat-esli-skype-zavisaet-pri.html' title='Що робити, якщо Skype зависає під час дзвінка?'>Що робити, якщо Skype зависає під час дзвінка?</a></li> <li class='li1'><a href='/programmy-dlya-risovaniya-na-planshete-wacom-programmy-dlya-risovaniya.html' title='Програми для малювання на планшеті wacom'>Програми для малювання на планшеті wacom</a></li> <li class='li1'><a href='/poisk-obnovlenii-vindovs-7-dlitsya-ochen-dolgo-chto-delat-esli-windows.html' title='Що робити, якщо Windows нескінченно шукає оновлення'>Що робити, якщо Windows нескінченно шукає оновлення</a></li> <li class='li1'><a href='/skachat-draivera-dlya-karty-radeon-9200-na-kakoi-segment-rynka.html' title='На який сегмент ринку графічних продуктів націлений адаптер'>На який сегмент ринку графічних продуктів націлений адаптер</a></li> <li class='li1'><a href='/kak-delat-yarlyki-rabochem-stole-kak-ustanovit-yarlyk-na-rabochii-stol.html' title='Як встановити ярлик на робочий стіл'>Як встановити ярлик на робочий стіл</a></li> <li class='li1'><a href='/ischezayut-yarlyki-na-rabochem-stole-windows-7-chto-delat-esli-propali-yarlyki-s-rabochego.html' title='Що робити, якщо зникли ярлики з робочого столу'>Що робити, якщо зникли ярлики з робочого столу</a></li> <li class='li1'><a href='/gugl-analitiks-na-russkom-kak-rabotaet-google-analytics-i-chto-novogo.html' title='Як працює Google Analytics і що нового привносить у систему Universal Analytics'>Як працює Google Analytics і що нового привносить у систему Universal Analytics</a></li> <li class='li1'><a href='/zaiti-na-svoi-blog-sozdanie-bloga-na-bogger-registraciya-pervyi-vhod.html' title='Створення блогу на Bogger, реєстрація, перший вхід, зміна адреси або назви блогу'>Створення блогу на Bogger, реєстрація, перший вхід, зміна адреси або назви блогу</a></li> <li class='li1'><a href='/pochta-hotmail-vhodit-v-kompleks-vebprilozhenii-windows-live-hotmail-besplatnyi-servis.html' title='Hotmail Безкоштовний сервіс електронної пошти hotmail com Хот маіл пошта увійти'>Hotmail Безкоштовний сервіс електронної пошти hotmail com Хот маіл пошта увійти</a></li> </ul> </aside> <aside id="wpforo_widget_recent_topics-2" class="widget widget_wpforo_widget_recent_topics"><div id="wpf-widget-recent-replies" class="wpforo-widget-wrap"><h3 class="widget-title">Нові повідомлення</h3><div class="wpforo-widget-content"><ul> <li> <div class="wpforo-list-item"> <div class="wpforo-list-item-left"> <img class="avatar" src="/uploads/58cf8436ac48055f4a441aeea8f2f76f.jpg" height="96" width="96" / loading=lazy loading=lazy> </div> <div class="wpforo-list-item-right"> <p class="posttitle"><a href="/odnoklassniki-vhod-po-odnoklassniki-socialnaya-set-moya-stranica.html">Однокласники соціальна мережа — «Моя сторінка</a></p> <p class="postuser">2022-03-21 21:46:37</p> </div> <div class="wpf-clear"></div> </div> </li> <li> <div class="wpforo-list-item"> <div class="wpforo-list-item-left"> <img class="avatar" src="/uploads/0a41c6c60d318da6ae411ecad339cf57.jpg" height="96" width="96" / loading=lazy loading=lazy> </div> <div class="wpforo-list-item-right"> <p class="posttitle"><a href="/sozdanie-akkaunta-v-google-bystraya-registraciya-i-nastroika-pochty-gmail-otkryt.html">Відкрити обліковий запис у google</a></p> <p class="postuser">2022-03-21 21:46:37</p> </div> <div class="wpf-clear"></div> </div> </li> <li> <div class="wpforo-list-item"> <div class="wpforo-list-item-left"> <img class="avatar" src="/uploads/0846964be5a6c73728a31353a1091c7b.jpg" height="96" width="96" / loading=lazy loading=lazy> </div> <div class="wpforo-list-item-right"> <p class="posttitle"><a href="/oboznachenie-chetyr-hugolnika-chetyr-hugolnik-oboznachenie.html">Позначення чотирикутника</a></p> <p class="postuser">2022-03-21 21:46:37</p> </div> <div class="wpf-clear"></div> </div> </li> <li> <div class="wpforo-list-item"> <div class="wpforo-list-item-left"> <img class="avatar" src="/uploads/f8c4a53f26c6ca63076f3e7a6b7a5f00.jpg" height="96" width="96" / loading=lazy loading=lazy> </div> <div class="wpforo-list-item-right"> <p class="posttitle"><a href="/podklyuchenie-akkaunta-youtube-com-activate-vvodim-kod-s-televizora-vvod.html">Введення коду для підключення облікового запису YouTube до телевізора Youtube com activate boogie код міал озс</a></p> <p class="postuser">2022-03-21 21:46:37</p> </div> <div class="wpf-clear"></div> </div> </li> <li> <div class="wpforo-list-item"> <div class="wpforo-list-item-left"> <img class="avatar" src="/uploads/59c9c9af348bd700513758f252fb5a18.jpg" height="96" width="96" / loading=lazy loading=lazy> </div> <div class="wpforo-list-item-right"> <p class="posttitle"><a href="/nazvaniya-bolshih-chisel-nazvaniya-bolshih-chisel-cifry-v-stolbik.html">Назви великих чисел Цифри в стовпчик від 1 до 1000</a></p> <p class="postuser">2022-03-21 21:46:37</p> </div> <div class="wpf-clear"></div> </div> </li> </ul></div></div></aside><aside id="categories-2" class="widget widget_categories"><h3 class="widget-title">Рубрики</h3> <ul> <li class="cat-item cat-item-84"><a href="/category/failure/">Поломки</a> </li> <li class="cat-item cat-item-84"><a href="/category/technology/">Технології</a> </li> <li class="cat-item cat-item-84"><a href="/category/browsers/">Браузери</a> </li> <li class="cat-item cat-item-84"><a href="/category/ipad/">IPad</a> </li> <li class="cat-item cat-item-84"><a href="/category/routers/">Роутери</a> </li> <li class="cat-item cat-item-84"><a href="/category/not-working/">Не працює</a> </li> <li class="cat-item cat-item-84"><a href="/category/tv/">Телевізори</a> </li> <li class="cat-item cat-item-84"><a href="/category/inhibits/">Гальмує</a> </li> <li class="cat-item cat-item-84"><a href="/category/software-installation/">Встановлення програм</a> </li> <li class="cat-item cat-item-84"><a href="/category/providers/">Провайдери</a> </li> </ul> </aside><aside id="dwqa-latest-question-2" class="widget widget_categories"><h3 class="widget-title">Нові статті</h3><ul> <li class="cat-item"><a href="/matematicheskii-ugolok-na-dache.html">Математичний куточок на дачі</a></li> <li class="cat-item"><a href="/obzor-chasovyh-novinok-casio-muzhskie-chasy-casio-batareya-casio-wsd-f20.html">Чоловічий годинник Casio Батарея CASIO WSD-F20</a></li> <li class="cat-item"><a href="/luchshie-chasy-ot-kasio-goda-muzhskie-chasy-casio-tehnicheskie.html">Найкращий годинник від касіо року</a></li> <li class="cat-item"><a href="/krasivye-otkrytki-cvety-skachat-gifki-s-cvetami-krasivye-bukety-raspuskayushchiesya-butony-otkr-cvety.html">Красиві листівки квіти, скачати</a></li> <li class="cat-item"><a href="/esli-prisnilsya-chelovek-kotorogo-net-v-zhivyh-vo-sne-kak-udalit.html">Як видалити сторінку в однокласниках померлого родича Сторінки померлих людей в однокласниках</a></li> <li class="cat-item"><a href="/kak-na-odnoklassnikah-otpravlyat-golosovye-soobshcheniya-kak.html">Як надіслати голосове повідомлення в однокласниках</a></li> <li class="cat-item"><a href="/kak-sozdat-gruppu-v-telegram-gaid-dlya-vseh-ustroistv-kak-sozdavat-gruppy-v.html">Як створювати групи в телеграмі Як створити групу в телеграм для паблика</a></li> <li class="cat-item"><a href="/pri-avtorizacii-v-vkontakte-pishet-null-servernaya-oshibka-pri-vhode-vkontakte.html">Серверна помилка при вході до контакту</a></li> <li class="cat-item"><a href="/gosti-vka-kak-posmotret-gostei-v-kontakte-vozmozhno-li-eto-kak.html">Як подивитись гостей "В Контакті"?</a></li> <li class="cat-item"><a href="/poslednyaya-versiya-telegram-skachat-ili-ne-stoit-telegram-slishkom-mnogo.html">Телеграм надто багато спроб входу спробуйте пізніше – що робити, якщо перевищений ліміт на вхід?</a></li> </ul></aside></div> </div> </div> </div> <footer id="colophon" class="site-footer" role="contentinfo"> <div class="site-info container"> <div class="copyrights"> <span class="sep"> </span> vism.ru - Ремонт та налаштування комп'ютерів</div> <a href="#blog" class="toplink" ><i class="icon-angle-up"></i></a> <nav id="navigation" class="footer-navigation" role="navigation"> <div class="menu-footer-menu-container"><ul id="menu-footer-menu" class="menu"> <li class="menu-item type-post_type object-page "><a href="/sitemap.xml">Карта сайту</a></li> <li class="menu-item type-post_type object-page "><a href="">Контакти</a></li> </ul></div> </nav> </div> </footer> </div> <div id="vk_api_transport"></div> <script type="text/javascript"> jQuery(document).ready(function ($) { if ($('.social-likes')) { $('.social-likes').each(function () { var p = $(this).parent(); if (p.data('url')) { $(this).data({ 'url': p.data('url'), 'title': p.data('title') } ); } if ($(this).find('.pinterest').length) { if (p.data('media')) { $($(this).find('.pinterest')[0]).data({ 'media': p.data('media') } ); } else $($(this).find('.pinterest')[0]).remove(); } } ); $('.social-likes').socialLikes({ zeroes: 0 } ); } } ); </script> <script type='text/javascript' src='https://vism.ru/wp-content/plugins/akismet/_inc/form.js?ver=3.2'></script> <script type='text/javascript' src='https://vism.ru/wp-content/plugins/easy-vkontakte-connect/js/evc-share.js'></script> <script type='text/javascript' src='https://vism.ru/wp-content/plugins/easy-vkontakte-connect/js/social-likes.min.js?ver=3.0.4'></script> <script type='text/javascript' src='https://vism.ru/wp-content/plugins/contact-form-7/includes/js/jquery.form.min.js?ver=3.51.0-2014.06.20'></script> <script type='text/javascript' src='https://vism.ru/wp-content/plugins/contact-form-7/includes/js/scripts.js?ver=4.5.1'></script> <script type='text/javascript' src='https://vism.ru/wp-content/plugins/wp-review/assets/js/main.js?ver=4.0.6'></script> <script type='text/javascript' src='https://vism.ru/wp-content/themes/sociallyviral/js/customscripts.js?ver=20120212'></script> <script type='text/javascript' src='/wp-includes/js/comment-reply.min.js?ver=4.6.9'></script> <script type='text/javascript' src='/wp-includes/js/wp-embed.min.js?ver=4.6.9'></script> <script>setTimeout( function(){ jQuery.post('/wp-content/plugins/kama-postviews/ajax-request.php',{ meta_id:'1438', view_type:'post_view', relpath:'' } ,function(result){ jQuery('.ajax_views').html(result); } );} , 2000);</script> <script>function lc_get_cookie(name) { var c = document.cookie;if (c.indexOf(name) != -1) { var x = c.indexOf(name)+name.length+1;var y = c.indexOf(";",x);if (y < 0) y = c.length;return decodeURIComponent(c.substring(x,y));} else return "";} if ((d = document.getElementById("commentform")) != null) { e = d.elements;var z = lc_get_cookie("comment_author_email_27b5a291828a105bf783f92a6d070718");if (z != "") e["email"].value = z;z = lc_get_cookie("comment_author_27b5a291828a105bf783f92a6d070718");if (z != "") e["author"].value = z.replace(/\+/g, " ");z = lc_get_cookie("comment_author_url_27b5a291828a105bf783f92a6d070718");if (z != "") e["url"].value = z;} </script></body></html>