Понедельник, Июль 5th, 2010

ИТ

В более поздних системах EDMS используется технология оптического распознавания символов (OCR — Optical Character Recognition). После сканирования и ввода документа в систему происходит перевод графического образа документа в текстовый файл, после чего следует достаточно трудоемкий процесс исправления ошибок в тексте, допущенных при распознавании. Необходимая информация ищется с помощью механизма четкого поиска по полному содержанию документа. Примерами систем, использующих описанную технологию, могут служить ZyIMAGE (ZyLAB Division of IDI), Topic (Verity), BRS/Search (Dataware).

Каковы наиболее серьезные ограничения предлагаемых систем:
Использование технологии ключевых слов «стоит» от $5 до $20 на документ.
Определение ключевых слов — достаточно субъективный процесс, а также ключевые слова со временем теряют свою значимость.
При использовании технологии OCR требуется тратить значительные усилия на «очистку» текста после использования средств OCR, т.к. даже самые совершенные средства распознавания не дают 100% точность. Это очень трудоемкий и дорогостоящий процесс, его стоимость составляет от $1 до $10 на страницу.
Во всех предлагаемых системах EDMS используется механизм четкого поиска, поэтому если в запросе допущены орфографические ошибки или в тексте документа не исправлены ошибки распознавания, система никогда не найдет нужной информации.
Индекс систем с полноконтекстным поиском составляет от 200% до 400% от объема исходных документов, что предъявляет серьезные требования к ресурсам компьютера и существенно увеличивает время поиска при увеличении потока документов.

В начале 90-х годов на рынке систем EDMS появились новые разработки с использованием новейших технологий нейронных сетей и искусственного интеллекта. В системах третьего поколения, созданных на основе этих технологий, реализован нечеткий поиск по полному содержанию документа и очень «компактное» индексирование (всего лишь 30% от объема исходного текста).

Нечеткий поиск означает индифферентность по отношению к ошибкам как во входных данных, так и в формулировках запроса, т.е. он сокращает до минимума влияние ошибок распознавания символов, ошибок набора на клавиатуре при вводе данных, а также ошибок правописания в запросах поиска. С помощью механизма нечеткого поиска вы можете найти то, что ищете, даже если вы не знаете, как это пишется, забыли, как это называется или если это окажется неправильно зарегистрировано. Система всегда выдает пользователю ответ, наилучшим образом согласованный с терминами или фразами запроса, по которому проводится поиск.

На рынке коммерческие системы EDMS третьего поколения представлены программным продуктом Excalibur EFS (Excalibur Technologies Corp.). Пакет Excalibur EFS базируется на технологии адаптивного распознавания образов APRP (Adaptive Pattern Recognition Processing), разработанной компанией Excalibur Technologies и реализованной в пакете с использованием механизма нейронных сетей.

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63

Категория: Учебники

2 комментария

04.07.2012
Dimkinchar

Учиться в Институте Юрия Мороза никогда не поздно.


18.09.2015
Николай

Убедительная просьба, уберите пожалуйста со своего сайта ссылку на мой магазин. Мои конкуренты занимаются распространением ссылочной массы, а яндекс опускает из за этого сайт в выдаче. Спасибо за понимание.