Введение
Человеческий язык, как и всякий сложный механизм, состоит из относительно независимых друг от друга ( автономных) компонентов. С древнейших времен языковеды выделяют в языке по меньшей мере три таких компонента — фонетику, грамматику и лексику. Грамматикой, или грамматическим строем, называется тот компонент языка, который обеспечивает выражение наиболее часто повторяющихся значений и использует для этого иерархически организованные конструкции, построенные в соответствии с ограниченным числом правил.
Иерархически организованным является любое множество, в котором одни элементы в каком-то смысле главнее или важнее других. В речи всегда наблюдается простейшая иерархия — линейный порядок (цепочка), так как языковые единицы должны следовать друг за другом (если принять, допустим, что слово, стоящее вначале, всегда “главнее” последующего). Например, будучи засыпаны в мешок, картофелины иерархически не организованы, но достаточно положить их в ряд, чтобы возникла иерархия линейного следования в соответствии с тем порядком, в котором будут расположены картофелины. Помимо линейного порядка, грамматика естественного языка всегда использует и другие, более сложные иерархии.
3 Обзор существующих аналогов
1. СУБД Oracle interMedia Text (Russian Context Optimizer 3.0)
В целом алгоритм тематического анализа работает следующим образом. После выполнения комплекса процедур лингвистической обработки из текста извлекаются основные единицы смысла - понятия, выраженные словами и устойчивыми словосочетаниями, а также устанавливаются смысловые (ассоциативные) связи между ними. Критерий наличия связи между парой понятий учитывает их совместное употребление в предложениях текста. Применение статистических алгоритмов на последующих уровнях обработки позволяет ранжировать понятия по значимости в тексте и выделить основные, которые и выступят в качестве ключевых тем документа. Таким образом, алгоритмы позволяют включать в число тем любые слова и их связные сочетания, несущие основную смысловую нагрузку в текст.
Автоматическое реферирование текста, которое происходит в ходе тематического анализа. При этом по каждой из выделенных тем выстраивается тематическое резюме, а также общее - реферат текста. Резюме формируются из фрагментов текста, причем если interMedia Text опирается на формальную разметку (наподобие html-тегов), то алгоритмы RCO способны самостоятельно членить текст на группы предложений, связанных общностью содержания. В тематические резюме включаются лишь наиболее представительные, информативные фрагменты по соответствующим темам, в то время как общий реферат строится из фрагментов по всем главным темам документа. Визуализация списка ключевых тем и резюме при просмотре найденных документов ускоряют выбор требуемой информации.
Список использованной литературы
1. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. - 2000. - N 11.
2. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. - 2000. - N 12.
3. Плешко В.В., Ермаков А.Е., Липинский Г.В. TopSOM: визуализация информационных массивов с применением самоорганизующихся тематических карт // Информационные технологии. - 2001. - N 8.
4. Ермаков А.Е. Проблемы полнотекстового поиска и их решение // Мир ПК. - 2001. - N 5.
5. Мельчук И.А Опыт теории лингвистических моделей "Смысл-Текст". Семантика, синтаксис. - М.: Школа "Языки русской культуры", 1999.
6. Гладкий А.В. Формальные грамматики и языки. - М.: Наука, 1973.
7. Розенталь Д.Э. Управление в русском языке. Словарь-справочник. - М.: Книга, 1986.