Формирование базы знаний на основе текста. | Форум портала «Наука и жизнь»

Поиск
Пользователи
Правила

Войти

RSS

Формирование базы знаний на основе текста.

smer4 sssmeeer

Посетитель

Сообщений: 670 Баллов: 6 Регистрация: 23.12.2014

Имя #1

24.04.2015 01:39:08

Идея такова - на входе программа или для начала некая абстрактная машина получает текст в обычной кодировке, на выходе - некая база данных, точнее знаний извлеченных из этого текста. Сперва не рассматриваем продвинутые какие то там методы "машинного обучения" Предложения и вопросы поповоду:
- В каком формате могут быть извлеченные "знания", пока что ничто другого как таблицы БД или равные им AST дерево или граф зависимости с узлами - абстрактными "понятиями" не знаю))
- Если делать просто AST дерево "по грамматике", будет лишь другое представление всех предложений что скорее всего не является желаемой формой для базы знаний, итак, как преобразовывать входящую грамматику чтоб получить желаемое
- Как создать более сложный "фильтр" на случай художественного текста или текста с "противоречиями", то есть разными мнениями по какому то вопросу или вообще извлечь ценную информацию из большого количества текста сомнительного качества например Интернет)))

E-mail

eLectric

Постоянный посетитель

Сообщений: 6135 Баллов: 53 Регистрация: 27.10.2009

Имя #2

24.04.2015 13:05:34

Вопрос, конечно, интересный, хотя мне кажется, что дело вовсе не в кодировке.
Как я понимаю, на входе частные утверждения, а на выходе системы знания, т.е. утверждения общего характера, позволяющие делать предсказания или объяснять частные факты.
Т.е. система должна обобщать или осмысливать входной текст.
Так?

В споре не рождается истина, но убивается время.

E-mail

smer4 sssmeeer

Посетитель

Сообщений: 670 Баллов: 6 Регистрация: 23.12.2014

Имя #3

24.04.2015 14:05:21

Не в кодировке а в той форме в которой будут храниться знания, это взаимно определяет то что со знаниями можно будет делать.

Цитата
Т.е. система должна обобщать или осмысливать входной текст. Так?

Да

Одна из проблем в том что понятие "осмысливание" несколько размыто и непонятно что конкретно должно делаться)))
на входе просто текст. Думаю в самом начале будет
- разбитие текста на токены (слова) с учетом пробелов и знаков препинания.
- раздача первичной грамматики или графа зависимостей, где например существительные и прилагательные будут узлами, а соединением между ними будут глаголы (в случае существительного -> прилагательного глагол "является").
Но смысл текста намного сложнее чем такая "структура", там постоянно должен быть контекст...

Изменено: smer4 sssmeeer - 24.04.2015 14:07:02

E-mail

eLectric Постоянный посетитель Сообщений: 6135 Баллов: 53 Регистрация: 27.10.2009	Имя #4 24.04.2015 21:37:38 Ну, так в том и дело. Иными словами вы замыслили: "Как-бы нам тут ИИ сделать" В споре не рождается истина, но убивается время.
E-mail

smer4 sssmeeer

Посетитель

Сообщений: 670 Баллов: 6 Регистрация: 23.12.2014

Имя #5

25.04.2015 01:25:04

Не весь а всего лишь банк знаний для ИИ. Например система не должна делать ничего творческого, а уметь написать "изложение" по данному тексту, отвечать на вопросы по тексту более менее как делал бы человек. Причем с научными текстами , где нет противоречий и информация излагается по порядку точно будет меньше проблем чем с художественной литературой где рассказ ведется от "лица разных персонажей" и может "скакать" такой важный контекст как место и время

Изменено: smer4 sssmeeer - 25.04.2015 01:26:42

E-mail

Техрук

Частый посетитель

Сообщений: 16994 Баллов: 40 Регистрация: 06.02.2010

Имя #6

25.04.2015 02:17:44

Желаем изобретать велосипед?
Наработки существующие не в нос?
Кодировки, шифровки, формализмы, побоку?
Знания могут хранится в совокупности множеств связей и элементов.
Экспертные системы незнакомы?
Знания весьма неоднородны.
Творчество, кроме творца, завязано на ценителя (наблюдателя).
Твори сколько влезет, но именно творчеством или нет признает внешний наблюдатель.
Смысл - актуальная произвольная совокупность параметров закреплённая за явлением.
Отсюда, одна из форм хранения знания, учёт смыслов (совокупностей связей).
А есть ещё стереотипы и контексты использования.
Короче... Выходим на проблематику формализации и блока рефери.
Ибо мало сохранить, надо ещё адекватно классифицировать, формализовать, скопировать и
обозначить предпочтение.
Тут проблема структурирования интереса к знаниям.

Вы что, только сейчас осознали проблематику знания?
Смотрим инжиниринг знаний.
Смотрим системологию.

Изменено: Техрук - 25.04.2015 02:35:31

Нельзя объяснить непонятное еще более непонятным

E-mail

Техник

Частый посетитель

Сообщений: 4675 Баллов: 46 Регистрация: 11.10.2007

Имя #7

25.04.2015 11:27:41

Цитата

Без предварительного обучения машины, максимум что можно извлечь из входящего сообщения - это его структура. "Осмысливание" без обучения невозможно в принципе.

Цитата
smer4 sssmeeer пишет: В каком формате могут быть извлеченные "знания"

Если речь о форме представления, то в любой, удобной для восприятия человеком. Главное - извлечь, а уж как представить... не принципиально. Если речь о форме хранении данных/знаний в машине, то естественная форма - в виде ориентированного циклического графа, с узлами-понятиями и ребрами-связями. При этом надо иметь в виду, что информация хранится в связях.

Цитата

smer4 sssmeeer пишет:
Как создать более сложный "фильтр" на случай художественного текста или текста с "противоречиями", то есть разными мнениями по какому то вопросу или вообще извлечь ценную информацию из большого количества текста сомнительного качества например

Хороший вопрос

Кстати, почему "фильтр" в кавычках? В данном случае фильтр - это точный термин.

Изменено: Техник - 25.04.2015 11:32:50

Ясность - одна из форм полного тумана

E-mail

smer4 sssmeeer

Посетитель

Сообщений: 670 Баллов: 6 Регистрация: 23.12.2014

Имя #8

27.04.2015 00:29:11

Цитата
Техрук пишет: Желаем изобретать велосипед? Наработки существующие не в нос?

Цитата
Короче... Выходим на проблематику формализации и блока рефери.

мог бы и поконкретнее написать что за наработка. Можно было бы заюзать некую бесплатную библиотеку желательно на Яве но можно и на другом стандартном языке, которая являлась бы вышеописанной системой или любой её частью.

БЕЗ наличия такой библиотеки считаю что данный велосипед еще не изобретен...

E-mail

Техрук

Частый посетитель

Сообщений: 16994 Баллов: 40 Регистрация: 06.02.2010

Имя #9

27.04.2015 01:23:30

Цитата
smer4 sssmeeer пишет: мог бы и поконкретнее написать что за наработка.

Как принять решение в условиях неочевидности или фифти-фифти? Как сравнить свечку и вешалку?
Как индексировать легенду?
Судь в матрице формализаций и блоках рефери, осуществляющих выбор в условиях неочевидности.
База данных не принимает решений.

Изменено: Техрук - 27.04.2015 01:25:52

Нельзя объяснить непонятное еще более непонятным

E-mail

Трилобит

Заглянувший

Сообщений: 33 Баллов: 2 Регистрация: 29.03.2015

Имя #10

14.05.2016 08:58:18

Цитата

smer4 sssmeeer пишет:
Идея такова - на входе программа или для начала некая абстрактная машина получает текст в обычной кодировке, на выходе - некая база данных, точнее знаний извлеченных из этого текста. Сперва не рассматриваем продвинутые какие то там методы "машинного обучения" Предложения и вопросы поповоду:

- В каком формате могут быть извлеченные "знания", пока что ничто другого как таблицы БД или равные им AST дерево или граф зависимости с узлами - абстрактными "понятиями" не знаю))

- Если делать просто AST дерево "по грамматике", будет лишь другое представление всех предложений что скорее всего не является желаемой формой для базы знаний, итак, как преобразовывать входящую грамматику чтоб получить желаемое

- Как создать более сложный "фильтр" на случай художественного текста или текста с "противоречиями", то есть разными мнениями по какому то вопросу или вообще извлечь ценную информацию из большого количества текста сомнительного качества например Интернет)))

Обратитесь уже в Яндекс и спите спокойно - там всё есть.

E-mail

Формирование базы знаний на основе текста.

Читайте
в номере

Купить бумажный журнал

Купить PDF

Журнал добавлен в корзину.
Оформить заказ

Факт дня

Рак американских сомиков оказался заразным

Читать подробнее

Логин:
Пароль:
	Запомнить меня на этом компьютере

Забыли свой пароль?
Регистрация

Редакция

О рекомендациях

Товар добавлен в корзину