2024 Автор: Howard Calhoun | [email protected]. Последно модифициран: 2023-12-17 10:19
Трудно е за съвременния човек да си представи живота без интернет и почти мигновен достъп до източници на информация. Потребителят рядко мисли за това как се извършва търсенето на желаното съдържание в мрежата. Но това е много интересно.
Системата за извличане на информация (IPS) е сложна софтуерна и хардуерна система, която избира информация по искане на потребителя. Информацията се съхранява на сървъри в дигитална форма, както някога книгите са били на рафтовете на библиотеките. Системата се състои от много подсистеми. Всеки изпълнява своята задача в процеса на обработка на заявката на потребителя и предоставяне на информация в текстова или звукова форма. Множеството на задачите, които трябва да бъдат решени, определя сложността на архитектурата на съвременните информационно-извличащи системи (съкращение от информационно-извличащата система). Един вид "черна кутия": на входа - текстът на заявката, какво има вътре - не е известно, на изхода - изчерпателна информация.
Входни потоци
Искания за информация, която дадено лице формира в текстова форма на екрана на своята притурка,представляват малка част от заявките, обработвани от търсачката. Основните масиви от заявки за търсене се формират от роботи, които приемат човешка заявка и извършват многоетапно търсене и обратна връзка с потребителя. Системите за извличане на информация включват добре познатите Google, Yandex и други, обработващи милиони заявки дневно.
Обекти за търсене на източник
Наборът от първоначални обекти, представляващи интерес за търсене, са документи, записи, видеоклипове, изображения и др. Те са създадени извън IPS. Системата за съхранение и извличане на обща информация трябва да има вградена библиографска система - вид каталог, който ви позволява да търсите всякакви обекти.
Обектите или техните дигитални трансформации се превръщат във "входен ресурс" в IPS. Именно сред тях се избира информацията, от която се нуждае потребителят.
Външни източници
Изгледът за избор на информация използва външни източници на знания. Това е информацията, която потребителят търси. Заглавието на филма, цитат от книгата и др. За компютърно търсене тази информация трябва да бъде преведена в заявка на алгоритмичен език. В IPS това се прави с помощта на блока за създаване, индексиране и разработване на заявки.
В идеалния случай тези три процеса – представяне, индексиране и разработване на заявки – трябва да разчитат на идентични източници на знания, но на практика това не е постижимо.
Източниците на знания трябва постоянно да се преглеждат и актуализират, а актуализацията трябва да бъде идентична исинхронизиран. А външен източник на знание винаги хронологично предхожда използването му в търсачките за заявка, понякога с няколко години.
Изпълнения
Представянията на оригиналните обекти са съставени от входни данни в някаква комбинация или трансформирани в съответствие с правилата и алгоритмите на определена система за извличане на информация.
Изгледите са повече или по-малко трансформирани копия на оригиналния обект за търсене. В колекцията от нередактирани пълни текстове всеки текст е свое собствено представяне. В колекцията от предмети на музейни експонати и артефакти, представянето може да бъде трансформирано описание на обекта с неговото изображение. В някои случаи представянето може да бъде частично извлечено от оригиналния обект и отчасти от описанието: в библиографските търсачки представянията се извличат от обекта - например заглавието, името на автора ще се комбинират с анотацията на произведението.
Индекс за търсене
Тъй като информацията в системите за извличане на информация се съхранява под формата на представяне, логично е да се приеме, че търсенето се извършва според представянето и след избор се дава на потребителя. На практика това не е така. Например, текущите каталози на онлайн библиотеката обикновено ограничават търсенията до няколко полета: автор, заглавие и субтитри в изглед, който съдържа други полета, които не се търсят. Това е достатъчна причина, поради която е необходимо да се разграничатизглед и индекс за търсене, който е частта за търсене на изгледа. Той дефинира всичко, което трябва да бъде търсено. Индекс с възможност за търсене, като изгледа и изходния обект, може да бъде разделен на отделни подиндекси, за да осигури по-прецизни, насочени търсения
Търсачките обикновено имат вътрешна синтетична структура за съвпадение на валидни резултати от търсенето. Тази структура е вторият компонент на индекса за търсене.
Процедурно процесът на индексиране може да бъде реализиран по различни начини: индекс с възможност за търсене може да бъде получен чрез:
- буквално копиране на представяне с възможност за търсене;
- като копирате детайлите на изгледа. Това може да са част или всички изгледи, които физически съществуват само като фрагменти, разпределени според правилата за създаване на индекс за търсене, който ще се събира, когато е необходимо.
Заявете правила за дизайн и официални заявки
Инженерингът на заявки е функция, която посредничи между потребителска заявка и официална заявка. Той трансформира заявката на потребителя, съпоставяйки я с речниците на командите за извличане, спецификацията на индекса и индекса преди извличането. В зората на развитието на IPS тази роля традиционно беше възложена на квалифицирани ИТ специалисти.
Разработването на компютърни заявки, които могат да съвпадат с речникови заявки в индексна система с възможност за търсене, обикновено се нарича модул "вход в речник". Автоматизирането на тази функция е обещаващо и предлага възможности за експертни и вероятностни методи за търсене.
Официалната заявка става официална заявка, след като заявката на потребителя бъде преобразувана. Примерите за такива формални трансформации включват съкращаване, заместване, нормализиране, векторизация и други трансформации на "външното" представяне във "вътрешното" представяне на компютърни IPS (декриптиране - система за извличане на информация).
Извлечени набори от връзки към документи
Резултиращият набор от източници на информация е логически подмножество от изгледи, създадени от правилата за съвпадение, приложени към официалната заявка чрез индекс за търсене.
Обикновено, но не е задължително, има отделен процес на сортиране за възстановения набор от информация. Онлайн библиотечните каталози обикновено пренареждат получените комплекти по азбучен ред по автор преди показване. В системите за извличане на информация, които произвеждат стриктно класиране, редът на класиране предхожда всяко преподреждане.
Изходни потоци
Извеждането на резултатите от търсенето се извършва традиционно на дисплея, по-често под формата на поток от обекти, които да се използват другаде или за някаква друга цел, завършва основния цикъл на търсене. Такива потоци могат да се изпращат до устройства за визуализация, съхранение за по-нататъшна обработка или използване като входни потоци към други услуги за избор.
Системите за извличане на информация позволяват обратна връзка отрезултатът от всеки процес на подбор. Резултатът от всеки процес може да бъде обратна връзка към други процеси. Обратната връзка може да осигури основата за експертна преценка на всеки етап.
Препоръчано:
Определение, функции, характеристики и предназначение на застраховката
Започнете тази статия с дефиниция на това какво е застраховка. Този термин предполага специфичен вид икономически отношения, които осигуряват застрахователна защита на организации или лица от различни видове опасности. Тази статия ще обсъди функциите на застраховката, нейните цели и видове
Автоматизация на системите за управление: нива, инструменти, функции и приложения
Автоматизацията на системите за управление, или накратко ACS, е набор от устройства, които ви позволяват ефективно и полуавтоматично или напълно автоматично да наблюдавате хода на процеса. Най-широко се използват в индустрията
Обезопасителна система: предназначение, функции и технически изисквания
Задържащата система има изключително важни функции. Именно тя фиксира човек на височина, както и в превозни средства. При функционирането му има редица тънкости, които трябва да се вземат предвид, за да бъде ефективен
Винтова преса: описание на конструкцията, принципа на действие и методите на извличане
Винтовата преса става все по-популярна напоследък. Това се дължи на факта, че това оборудване помага за получаване на масло от различни култури без никакви проблеми. Той се използва активно не само в индустриален мащаб, но и за частни цели
Устройство за извличане: предназначение и видове
Техника е много важно устройство за поглъщане на удари в автомобили и други подобни предмети