Разработка приложения синтаксического анализа текста на С++

Название работы: Разработка приложения синтаксического анализа текста на С++

Скачать демоверсию

Тип работы:

Курсовая практика

Предмет:

Информационное обеспечение, программирование

Страниц:

35 стр.

Год сдачи:

2009 г.

Содержание:

Оглавление

Введение 2

1 Техническое задание 6

1. Наименование 6

2. Основание для разработки 6

3. Назначение разработки 6

4. Технические требования 6

1.4.1 Требования к функциональным характеристикам 6

1.4.2 Требования к программному обеспечению 7

1.4.3 Требования к условиям эксплуатации 7

1.4.4 Требования к информационному обеспечению 7

1.4.5 Требования к надежности 7

1.4.6 Требования к составу и характеристикам технических средств 7

5. Требования к программной совместимости 8

2 Синтаксический анализ текста 9

3 Обзор существующих аналогов 17

1. СУБД Oracle interMedia Text (Russian Context Optimizer 3.0) 17

2. LinguistX 20

3. Ключи от текста 21

4. Выбор алгоритма реализации приложения 21

4 Описание разработанного приложения 28

Заключение 34

Список использованной литературы 35

Выдержка:

Введение

Человеческий язык, как и всякий сложный механизм, состоит из относительно независимых друг от друга ( автономных) компонентов. С древнейших времен языковеды выделяют в языке по меньшей мере три таких компонента — фонетику, грамматику и лексику. Грамматикой, или грамматическим строем, называется тот компонент языка, который обеспечивает выражение наиболее часто повторяющихся значений и использует для этого иерархически организованные конструкции, построенные в соответствии с ограниченным числом правил.

Иерархически организованным является любое множество, в котором одни элементы в каком-то смысле главнее или важнее других. В речи всегда наблюдается простейшая иерархия — линейный порядок (цепочка), так как языковые единицы должны следовать друг за другом (если принять, допустим, что слово, стоящее вначале, всегда “главнее” последующего). Например, будучи засыпаны в мешок, картофелины иерархически не организованы, но достаточно положить их в ряд, чтобы возникла иерархия линейного следования в соответствии с тем порядком, в котором будут расположены картофелины. Помимо линейного порядка, грамматика естественного языка всегда использует и другие, более сложные иерархии.

3 Обзор существующих аналогов

1. СУБД Oracle interMedia Text (Russian Context Optimizer 3.0)

В целом алгоритм тематического анализа работает следующим образом. После выполнения комплекса процедур лингвистической обработки из текста извлекаются основные единицы смысла - понятия, выраженные словами и устойчивыми словосочетаниями, а также устанавливаются смысловые (ассоциативные) связи между ними. Критерий наличия связи между парой понятий учитывает их совместное употребление в предложениях текста. Применение статистических алгоритмов на последующих уровнях обработки позволяет ранжировать понятия по значимости в тексте и выделить основные, которые и выступят в качестве ключевых тем документа. Таким образом, алгоритмы позволяют включать в число тем любые слова и их связные сочетания, несущие основную смысловую нагрузку в текст.

Автоматическое реферирование текста, которое происходит в ходе тематического анализа. При этом по каждой из выделенных тем выстраивается тематическое резюме, а также общее - реферат текста. Резюме формируются из фрагментов текста, причем если interMedia Text опирается на формальную разметку (наподобие html-тегов), то алгоритмы RCO способны самостоятельно членить текст на группы предложений, связанных общностью содержания. В тематические резюме включаются лишь наиболее представительные, информативные фрагменты по соответствующим темам, в то время как общий реферат строится из фрагментов по всем главным темам документа. Визуализация списка ключевых тем и резюме при просмотре найденных документов ускоряют выбор требуемой информации.

Список использованной литературы

1. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. - 2000. - N 11.

2. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. - 2000. - N 12.

3. Плешко В.В., Ермаков А.Е., Липинский Г.В. TopSOM: визуализация информационных массивов с применением самоорганизующихся тематических карт // Информационные технологии. - 2001. - N 8.

4. Ермаков А.Е. Проблемы полнотекстового поиска и их решение // Мир ПК. - 2001. - N 5.

5. Мельчук И.А Опыт теории лингвистических моделей "Смысл-Текст". Семантика, синтаксис. - М.: Школа "Языки русской культуры", 1999.

6. Гладкий А.В. Формальные грамматики и языки. - М.: Наука, 1973.

7. Розенталь Д.Э. Управление в русском языке. Словарь-справочник. - М.: Книга, 1986.

Похожие работы на данную тему