Страницы: 1 2 След.
RSS
Формирование базы знаний на основе текста.
Идея такова - на входе программа или для начала некая абстрактная машина получает текст в обычной кодировке, на выходе - некая база данных, точнее знаний извлеченных из этого текста. Сперва не рассматриваем продвинутые какие то там методы "машинного обучения" Предложения и вопросы поповоду:
- В каком формате могут быть извлеченные "знания", пока что ничто другого как таблицы БД или равные им  AST дерево или граф зависимости с узлами - абстрактными "понятиями" не знаю))
- Если делать просто AST дерево "по грамматике", будет лишь другое представление всех предложений что скорее всего не является желаемой формой для базы знаний, итак, как преобразовывать входящую грамматику чтоб получить желаемое
- Как создать более сложный "фильтр" на случай художественного текста или текста с "противоречиями", то есть разными мнениями по какому то вопросу или вообще извлечь ценную информацию из большого количества текста сомнительного качества например Интернет)))
Вопрос, конечно, интересный, хотя мне кажется, что дело вовсе не в кодировке.
Как я понимаю, на входе частные утверждения, а на выходе системы знания, т.е. утверждения общего характера, позволяющие делать предсказания или объяснять частные факты.
Т.е. система должна обобщать или осмысливать входной текст.
Так?
В споре не рождается истина, но убивается время.
Не в кодировке а в той форме  в которой будут храниться знания, это взаимно определяет то что со знаниями можно будет делать.

Цитата
Т.е. система должна обобщать или осмысливать входной текст.
Так?
Да

Одна из проблем в том  что понятие "осмысливание" несколько размыто и непонятно что конкретно должно делаться)))
на входе просто текст. Думаю в самом начале будет
- разбитие текста на токены (слова) с учетом пробелов и знаков препинания.
- раздача первичной грамматики или графа зависимостей, где например существительные и прилагательные будут узлами, а соединением между ними будут глаголы (в случае существительного -> прилагательного глагол "является").
Но смысл текста намного сложнее чем такая "структура", там постоянно должен быть контекст...
Изменено: smer4 sssmeeer - 24.04.2015 14:07:02
Ну, так в том и дело. Иными словами вы замыслили: "Как-бы нам тут ИИ сделать"
В споре не рождается истина, но убивается время.
Не весь а всего лишь банк знаний для ИИ. Например система не должна делать ничего творческого, а уметь написать "изложение" по данному тексту, отвечать на вопросы по тексту более менее как делал бы человек. Причем с научными текстами , где нет противоречий   и информация излагается по порядку  точно будет меньше проблем чем с художественной литературой где рассказ ведется от "лица разных персонажей" и может "скакать" такой важный контекст как место и время
Изменено: smer4 sssmeeer - 25.04.2015 01:26:42
Желаем изобретать велосипед?
Наработки существующие не в нос?
Кодировки, шифровки, формализмы,  побоку?
Знания могут хранится в совокупности множеств связей и элементов.
Экспертные системы незнакомы?
Знания весьма неоднородны.
Творчество, кроме творца, завязано на ценителя (наблюдателя).
Твори сколько влезет, но именно творчеством или нет признает внешний наблюдатель.
Смысл - актуальная произвольная совокупность параметров закреплённая за явлением.
Отсюда, одна из форм хранения знания, учёт смыслов (совокупностей связей).
А есть ещё стереотипы и контексты использования.
Короче... Выходим на проблематику формализации и блока рефери.
Ибо мало сохранить, надо ещё адекватно классифицировать, формализовать, скопировать и
обозначить предпочтение.
Тут проблема структурирования интереса к знаниям.

Вы что, только сейчас осознали проблематику знания?
Смотрим инжиниринг знаний.
Смотрим системологию.
Изменено: Техрук - 25.04.2015 02:35:31
Нельзя объяснить непонятное еще более непонятным
Цитата
smer4 sssmeeer пишет:
Идея такова - на входе программа или для начала некая абстрактная машина получает текст в обычной кодировке, на выходе - некая база данных, точнее знаний извлеченных из этого текста. Сперва не рассматриваем продвинутые какие то там методы "машинного обучения"
Без предварительного обучения машины, максимум что можно извлечь из входящего сообщения - это его структура. "Осмысливание" без обучения невозможно в принципе.
Цитата
smer4 sssmeeer пишет:
В каком формате могут быть извлеченные "знания"
Если речь о форме представления, то в любой, удобной для восприятия человеком. Главное - извлечь, а уж как представить... не принципиально. Если речь о форме хранении данных/знаний в машине, то естественная форма - в виде ориентированного циклического графа, с узлами-понятиями и ребрами-связями. При этом надо иметь в виду, что информация хранится в связях.
Цитата
smer4 sssmeeer пишет:
Как создать более сложный "фильтр" на случай художественного текста или текста с "противоречиями", то есть разными мнениями по какому то вопросу или вообще извлечь ценную информацию из большого количества текста сомнительного качества например
Хороший вопрос :)
Кстати, почему "фильтр" в кавычках? В данном случае фильтр - это точный термин.
Изменено: Техник - 25.04.2015 11:32:50
Ясность - одна из форм полного тумана
Цитата
Техрук пишет:
Желаем изобретать велосипед? Наработки существующие не в нос?
Цитата
Короче... Выходим на проблематику формализации и блока рефери.

мог бы и поконкретнее написать что за наработка. Можно было бы заюзать некую бесплатную библиотеку желательно на Яве но можно и на другом стандартном языке, которая являлась бы вышеописанной системой или любой её частью.

БЕЗ наличия такой библиотеки считаю что данный велосипед еще не изобретен...
Цитата
smer4 sssmeeer пишет:
мог бы и поконкретнее написать что за наработка.
Как принять решение в условиях неочевидности или фифти-фифти? Как сравнить свечку и вешалку?
Как индексировать легенду?
Судь в матрице формализаций и блоках рефери, осуществляющих выбор в условиях неочевидности.
База данных не принимает решений.
Изменено: Техрук - 27.04.2015 01:25:52
Нельзя объяснить непонятное еще более непонятным
Цитата
smer4 sssmeeer пишет:
Идея такова - на входе программа или для начала некая абстрактная машина получает текст в обычной кодировке, на выходе - некая база данных, точнее знаний извлеченных из этого текста. Сперва не рассматриваем продвинутые какие то там методы "машинного обучения" Предложения и вопросы поповоду:

- В каком формате могут быть извлеченные "знания", пока что ничто другого как таблицы БД или равные им  AST дерево или граф зависимости с узлами - абстрактными "понятиями" не знаю))

- Если делать просто AST дерево "по грамматике", будет лишь другое представление всех предложений что скорее всего не является желаемой формой для базы знаний, итак, как преобразовывать входящую грамматику чтоб получить желаемое

- Как создать более сложный "фильтр" на случай художественного текста или текста с "противоречиями", то есть разными мнениями по какому то вопросу или вообще извлечь ценную информацию из большого количества текста сомнительного качества например Интернет)))
Обратитесь уже в Яндекс и спите спокойно - там всё есть.
Страницы: 1 2 След.

Формирование базы знаний на основе текста.


Портал журнала «Наука и жизнь» использует файлы cookie и рекомендательные технологии. Продолжая пользоваться порталом, вы соглашаетесь с хранением и использованием порталом и партнёрскими сайтами файлов cookie и рекомендательных технологий на вашем устройстве. Подробнее