IPS е Предназначение и функции на системите за извличане на информация
IPS е Предназначение и функции на системите за извличане на информация

Видео: IPS е Предназначение и функции на системите за извличане на информация

Видео: IPS е Предназначение и функции на системите за извличане на информация
Видео: ONU - оптический абонентский терминал. Как устроен, как работает. Разбираем онушку. 2024, Ноември
Anonim

Трудно е за съвременния човек да си представи живота без интернет и почти мигновен достъп до източници на информация. Потребителят рядко мисли за това как се извършва търсенето на желаното съдържание в мрежата. Но това е много интересно.

Системата за извличане на информация (IPS) е сложна софтуерна и хардуерна система, която избира информация по искане на потребителя. Информацията се съхранява на сървъри в дигитална форма, както някога книгите са били на рафтовете на библиотеките. Системата се състои от много подсистеми. Всеки изпълнява своята задача в процеса на обработка на заявката на потребителя и предоставяне на информация в текстова или звукова форма. Множеството на задачите, които трябва да бъдат решени, определя сложността на архитектурата на съвременните информационно-извличащи системи (съкращение от информационно-извличащата система). Един вид "черна кутия": на входа - текстът на заявката, какво има вътре - не е известно, на изхода - изчерпателна информация.

Картотека в реалния живот
Картотека в реалния живот

Входни потоци

Искания за информация, която дадено лице формира в текстова форма на екрана на своята притурка,представляват малка част от заявките, обработвани от търсачката. Основните масиви от заявки за търсене се формират от роботи, които приемат човешка заявка и извършват многоетапно търсене и обратна връзка с потребителя. Системите за извличане на информация включват добре познатите Google, Yandex и други, обработващи милиони заявки дневно.

Обекти за търсене на източник

Наборът от първоначални обекти, представляващи интерес за търсене, са документи, записи, видеоклипове, изображения и др. Те са създадени извън IPS. Системата за съхранение и извличане на обща информация трябва да има вградена библиографска система - вид каталог, който ви позволява да търсите всякакви обекти.

Обектите или техните дигитални трансформации се превръщат във "входен ресурс" в IPS. Именно сред тях се избира информацията, от която се нуждае потребителят.

Търсене на информация
Търсене на информация

Външни източници

Изгледът за избор на информация използва външни източници на знания. Това е информацията, която потребителят търси. Заглавието на филма, цитат от книгата и др. За компютърно търсене тази информация трябва да бъде преведена в заявка на алгоритмичен език. В IPS това се прави с помощта на блока за създаване, индексиране и разработване на заявки.

В идеалния случай тези три процеса – представяне, индексиране и разработване на заявки – трябва да разчитат на идентични източници на знания, но на практика това не е постижимо.

Източниците на знания трябва постоянно да се преглеждат и актуализират, а актуализацията трябва да бъде идентична исинхронизиран. А външен източник на знание винаги хронологично предхожда използването му в търсачките за заявка, понякога с няколко години.

Система за търсене на информация
Система за търсене на информация

Изпълнения

Представянията на оригиналните обекти са съставени от входни данни в някаква комбинация или трансформирани в съответствие с правилата и алгоритмите на определена система за извличане на информация.

Изгледите са повече или по-малко трансформирани копия на оригиналния обект за търсене. В колекцията от нередактирани пълни текстове всеки текст е свое собствено представяне. В колекцията от предмети на музейни експонати и артефакти, представянето може да бъде трансформирано описание на обекта с неговото изображение. В някои случаи представянето може да бъде частично извлечено от оригиналния обект и отчасти от описанието: в библиографските търсачки представянията се извличат от обекта - например заглавието, името на автора ще се комбинират с анотацията на произведението.

Намиране на това, от което се нуждаете
Намиране на това, от което се нуждаете

Индекс за търсене

Тъй като информацията в системите за извличане на информация се съхранява под формата на представяне, логично е да се приеме, че търсенето се извършва според представянето и след избор се дава на потребителя. На практика това не е така. Например, текущите каталози на онлайн библиотеката обикновено ограничават търсенията до няколко полета: автор, заглавие и субтитри в изглед, който съдържа други полета, които не се търсят. Това е достатъчна причина, поради която е необходимо да се разграничатизглед и индекс за търсене, който е частта за търсене на изгледа. Той дефинира всичко, което трябва да бъде търсено. Индекс с възможност за търсене, като изгледа и изходния обект, може да бъде разделен на отделни подиндекси, за да осигури по-прецизни, насочени търсения

Търсачките обикновено имат вътрешна синтетична структура за съвпадение на валидни резултати от търсенето. Тази структура е вторият компонент на индекса за търсене.

Процедурно процесът на индексиране може да бъде реализиран по различни начини: индекс с възможност за търсене може да бъде получен чрез:

  • буквално копиране на представяне с възможност за търсене;
  • като копирате детайлите на изгледа. Това може да са част или всички изгледи, които физически съществуват само като фрагменти, разпределени според правилата за създаване на индекс за търсене, който ще се събира, когато е необходимо.
Управление на търсенето
Управление на търсенето

Заявете правила за дизайн и официални заявки

Инженерингът на заявки е функция, която посредничи между потребителска заявка и официална заявка. Той трансформира заявката на потребителя, съпоставяйки я с речниците на командите за извличане, спецификацията на индекса и индекса преди извличането. В зората на развитието на IPS тази роля традиционно беше възложена на квалифицирани ИТ специалисти.

Разработването на компютърни заявки, които могат да съвпадат с речникови заявки в индексна система с възможност за търсене, обикновено се нарича модул "вход в речник". Автоматизирането на тази функция е обещаващо и предлага възможности за експертни и вероятностни методи за търсене.

Официалната заявка става официална заявка, след като заявката на потребителя бъде преобразувана. Примерите за такива формални трансформации включват съкращаване, заместване, нормализиране, векторизация и други трансформации на "външното" представяне във "вътрешното" представяне на компютърни IPS (декриптиране - система за извличане на информация).

Извлечени набори от връзки към документи

Резултиращият набор от източници на информация е логически подмножество от изгледи, създадени от правилата за съвпадение, приложени към официалната заявка чрез индекс за търсене.

Обикновено, но не е задължително, има отделен процес на сортиране за възстановения набор от информация. Онлайн библиотечните каталози обикновено пренареждат получените комплекти по азбучен ред по автор преди показване. В системите за извличане на информация, които произвеждат стриктно класиране, редът на класиране предхожда всяко преподреждане.

Анализ на данни
Анализ на данни

Изходни потоци

Извеждането на резултатите от търсенето се извършва традиционно на дисплея, по-често под формата на поток от обекти, които да се използват другаде или за някаква друга цел, завършва основния цикъл на търсене. Такива потоци могат да се изпращат до устройства за визуализация, съхранение за по-нататъшна обработка или използване като входни потоци към други услуги за избор.

Системите за извличане на информация позволяват обратна връзка отрезултатът от всеки процес на подбор. Резултатът от всеки процес може да бъде обратна връзка към други процеси. Обратната връзка може да осигури основата за експертна преценка на всеки етап.

Препоръчано:

Избор на редакторите