Идея такова - на входе программа или для начала некая абстрактная машина получает текст в обычной кодировке, на выходе - некая база данных, точнее знаний извлеченных из этого текста. Сперва не рассматриваем продвинутые какие то там методы "машинного обучения" Предложения и вопросы поповоду:
- В каком формате могут быть извлеченные "знания", пока что ничто другого как таблицы БД или равные им AST дерево или граф зависимости с узлами - абстрактными "понятиями" не знаю))
- Если делать просто AST дерево "по грамматике", будет лишь другое представление всех предложений что скорее всего не является желаемой формой для базы знаний, итак, как преобразовывать входящую грамматику чтоб получить желаемое
- Как создать более сложный "фильтр" на случай художественного текста или текста с "противоречиями", то есть разными мнениями по какому то вопросу или вообще извлечь ценную информацию из большого количества текста сомнительного качества например Интернет)))[/QUOTE]
Обратитесь уже в Яндекс и спите спокойно - там всё есть.