ExperTwin: альтернативное эго в киберпространстве для интеллектуальных работников

Карлос Токстли Эрнандес, Клаудиа Флорес Савиага, Марко Морье, Амандин Рибо, Темитайо Самсон Банколе, Александр Энтрекин, Майкл Кэнтли, Сальви Сингх, Сумитра Редди, Йенумула. В. Редди.

Вступление

Несмотря на то, что появление Интернета в сочетании с мощными поисковыми системами дало возможность специалистам в области умственного труда быстро находить необходимую информацию, это все еще требует много времени. В настоящее время нет доступных инструментов, которые могут создавать и поддерживать актуальную базу личных знаний, к которой можно было бы при необходимости легко обращаться. В то время как организация всей сети в виде семантической сети является долгосрочной целью, создание семантической сети источников личных знаний, которые постоянно обновляются поисковыми роботами и другими устройствами, является достижимой задачей. Мы создали приложение под названием ExperTwin, которое собирает персонально релевантные единицы знаний (известные как JAN) из Интернета, переписки по электронной почте и локально хранимых файлов, организуя их как семантическую сеть, которую можно легко запрашивать и визуализировать во многих форматах - как раз вовремя - при выполнении наукоемкой задачи. Архитектура ExperTwin основана на модели «Общества интеллектуальных агентов», где каждый агент отвечает за конкретную задачу. Сбор JAN из нескольких источников, установление релевантности и создание персональной семантической сети - вот некоторые из многих задач, выполняемых отдельными агентами. Были реализованы инструменты Tensorflow и обработки естественного языка (NLP), чтобы ExperTwin учился у пользователей. Задокументировать дизайн и развертывание ExperTwin как «машины с преимуществами знаний», способной искать релевантную информацию при выполнении задачи, основанной на знаниях, - основная цель исследования, представленного в этом посте.

ExperTwin

Сегодня информация во всех областях расширяется экспоненциально, в то время как период полураспада этой информации быстро сокращается. Работники умственного труда (KW) сталкиваются с этими двумя проблемами, пытаясь оставаться в курсе событий. Традиционных методов непрерывного образования недостаточно для того, чтобы специалисты, работающие в сфере умственного труда, были в курсе последних событий. Эта ситуация порождает необходимость в разработке интеллектуального инструмента, который может автоматически собирать, уточнять и предоставлять контекстно-релевантные знания по запросу в нужное время. В этом посте описывается инструмент, известный как ExperTwin, который мы разработали для решения этих проблем. Это можно метафорически представить как альтер-эго, которое обитает в киберпространстве, собирая, уточняя и преобразуя информацию в полезную базу знаний, которая всегда актуальна и актуальна. Например, если работник умственного труда говорит, что исследователь готовит исследовательскую работу, ExperTwin может представить последнюю актуальную аннотированную библиографию. То же самое применимо к любой другой ситуации, где знания играют ключевую роль. Подобно тому, как Mechanical Advantage играла ключевую роль в индустриальную эпоху, концепция Knowledge Advantage могла быть применена для решения проблемы информационного взрыва.

Системные особенности

Три основных компонента решения - это обнаружение знаний, обучающий агент и визуализация. Ниже показана архитектура и детали каждого из компонентов.

Открытие знаний

Наш этап поиска знаний для ExperTwin состоит из функции сканирования для извлечения данных из различных источников. ExperTwin имеет возможность извлекать информацию из RSS-каналов, электронной почты и документов, загруженных с помощью перетаскивания в интерфейсе ExperTwin. Веб-сканер или агент обнаружения извлекает данные из RSS-канала через определенные промежутки времени. Вся информация вставляется в базу данных как JAN.

Источники ввода

Было 4 различных механизма сбора данных, область перетаскивания файлов в пользовательском интерфейсе, расширение Chrome, бот электронной почты и поисковый робот Rich Site Summary (RSS). Механизм перетаскивания состоит из специальной области на верхней панели пользовательского интерфейса, в которую можно загружать несколько файлов и вложенных каталогов. Расширение Chrome - это кнопка, размещенная на верхней панели браузера, и ее функция заключается в отправке URL-адреса, который посещает пользователь. Электронный бот может получать в качестве входных URL-адреса статей, URL-адреса RSS и прикрепленные файлы.

Веб-сканер

Для этого исследования мы выбрали домен Tech News. Источниками всех данных являются около пятидесяти RSS-каналов с различных веб-сайтов технических новостей. Веб-сканер или агент обнаружения извлекает данные из RSS-канала через определенные промежутки времени. Новостные ленты временно хранятся в базе данных MongoDB, отличной от SQL, до тех пор, пока они не будут обработаны моделью TensorFlow, которая фильтрует соответствующий контент, как описано в разделе VI (обучающий агент).

Обучающий агент

ExperTwin учится на предпочтениях и взаимодействиях пользователей, чтобы получать индивидуальный контент для каждого пользователя с помощью моделей обработки естественного языка и машинного обучения.

Извлечение ключевых слов

Характеристика текстовых статей с помощью ключевых слов давно изучается в открытой литературе. Вся обработка данных, такая как извлечение данных, организация, фильтрация, изучение предпочтений и визуализация данных, зависит от набора ключевых слов, которые характеризуют JAN, поэтому уместно извлечь правильный набор ключевых слов для любого данного документа в базе данных. По сути, извлечение ключевых слов сводится к использованию степеней слов и другого списка (то есть заголовка статьи) для определения с некоторой степенью точности, о чем идет речь в отрывке текста. Параметры этой программы включают текст статьи, количество желаемых ключевых слов и, необязательно, заголовок документа. После получения аргументов используется быстрое автоматическое извлечение ключевых слов (RAKE) для получения ключевых слов в отрывке текста. После того, как ключевые слова, извлеченные RAKE, были обработаны ранее описанными способами, они затем сортируются на основе их степени. Чем выше степень, тем выше вероятность того, что ключевое слово является хорошим описательным словом для перехода текстового параметра. К счастью, после того, как слова были отсортированы, можно выполнить последний шаг - построение выходного словаря. Словарь отформатирован как (Ключевое слово: Вес) с ключевыми словами для каждого веса. Часть словаря ключевых слов уже определена и указана в качестве основных ключевых слов, выбранных по количеству входных параметров ключевых слов, но вес все еще необходимо рассчитать. Вес wk ключевого слова k со степенью k рассчитывается как: wk = δk kk (1) После вычисления весов и построения словаря алгоритм вернет словарь программисту.

Краткое описание обучающего агента

В этом разделе представлено оперативное описание интеллекта и адаптивности, лежащих в основе обсуждаемой структуры. Учитывая набор всех документов, называемых JAN в этой структуре. Необходимо извлечь некоторые функции из начального набора документов на основе пользовательских предпочтений. Коллекцию JAN можно представить как онтологию сообщества, в которой мы ищем раздел, основанный на личной онтологии. Эти определяемые пользователем предпочтения обеспечивают понимание онтологии пользователя, следовательно, в базе данных и, следовательно, обеспечивают основу для изучения компонента общей структуры.

Извлечение признаков

Существует несколько методов, в которых термины могут быть представлены в интеллектуальном анализе текста, чтобы использоваться в качестве платформы для обучающего компонента. Это представление обеспечивает метод оценки эвристики поиска. Наиболее часто используемым и многообещающим подходом является модель векторного пространства. В этой модели набор документов D представлен вектором размерности m, где каждое измерение представляет отдельный термин, а здесь m - общее количество различных терминов, используемых в коллекции документов. Каждый документ в коллекции имеет соответствующее векторное представление V, где vi - вес термина di для этого конкретного документа. Таким образом, коллекция документов представляет собой матрицу DRnxm, где n - количество документов в коллекции. Веса присваиваются относительной важности слов / терминов, которая может быть определена с использованием схемы tf-idf. Используя этот подход, веса терминов рассчитываются на основе их относительной важности, то есть того, как часто термин появляется в конкретном документе и как часто он

Алгоритм обучения

Используемый здесь алгоритм машинного обучения представляет собой двухэтапный метод с использованием искусственных нейронных сетей (ИНС). Первая ИНС состоит из пяти слоев, одного входного слоя, трех скрытых слоев и одного выходного слоя. Вторая ИНС получает выходные данные классификации от первой и далее обрабатывает результаты для предпочтений пользователя, это называется учащимся предпочтений. Это помогает отслеживать предпочтения пользователей по мере их отклонения от заданного интереса. Для обучения сети в целях обучения был собран исходный набор документов из базы данных на сервере. Он состоял из 2125 статей от поискового робота. Был сгенерирован набор определенных пользователем ключевых слов, он представлен как K (пользователь). Используя схему извлечения ключевых слов, как определено выше. Ключевые слова генерируются из всех документов и для документа Vk = 1, 2,…, n. Каждый документ класса Ck классифицируется как класс 1 или класс 0 на основе критериев в уравнении 3.

Предпочтительный ученик

Как упоминалось выше, вторая ИНС включает в себя выставленные пользовательские предпочтения по наклону в дополнение к первой ИНС. Этот изучающий предпочтения реализован в форме нейронной сети с несколькими уровнями, которые обучаются на релевантных для домена JAN, некоторые из которых были определены как представляющие основной интерес для пользователя, тогда как другие JAN в этом подмножестве не являются первым предпочтением пользователя. Данные для обучения - это подмножество основного набора данных, который использовался для сбора, обнаружения и каталогизации соответствующих новостных статей из набора статей, взятых из Интернета. Это подмножество включает только статьи, которые уже были классифицированы как JAN в текущем контексте домена. В зависимости от предрасположенности пользователя к определенным темам в домене, JAN, записывающие эти избранные темы, оцениваются как один, тогда как другие оцениваются как нулевые. Процедура здесь состоит в том, чтобы извлечь все ранее 890 секретных документов из базы данных MongoDB, а затем векторизовать все JAN, используя подход «мешка слов». Набор данных делится на пакеты. Эта сеть состоит из трех уровней с функцией активации relU. Как и прежде, кросс-энтропия определяется как цель, которую необходимо минимизировать. И алгоритм обучения - это обратное распространение с оптимизацией Адама, которая регулирует размер шага, чтобы найти глобальный минимум функции стоимости.

Визуализация

Интерфейс приложения состоит из четырех основных частей: 1) раздела пользовательских настроек, 2) раздела подробного просмотра статей, 3) 2D / 3D реорганизации статей и, наконец, 4) графического представления, отображающего различные взаимосвязи. между статьями. Кроме того, интерфейс был создан для адаптации к любому размеру устройства с использованием набора инструментов Bootstrap с открытым исходным кодом. Каждый раздел подробно описан ниже. ’

Пользовательские настройки

Первая часть интерфейса приложения связана с пользовательскими настройками. Пользователи могут иметь доступ к своей собственной системе, основанной на знаниях. Для удобства, поскольку все бэкэнд-технологии (сервер и базы данных) были расположены в консоли разработчика Google / облаке, мы решили интегрировать Google Sign-In в приложение. После входа в систему пользователи могут видеть интересующие их темы (ключевые слова), которые определяют ранжирование статей, полученных по запросам сервера. В любое время, используя приложение, пользователь имеет возможность изменить, добавить и удалить любое ключевое слово с помощью кнопок интерфейса «Добавить» и «Удалить».

Просмотр сведений о статье

После того, как пользователь выбрал ключевое слово из раскрывающегося списка или ввел запрос в строку поиска, второй раздел интерфейса будет заполнен результатами из нашей базы данных. После ранжирования и расчета, описанного в предыдущем разделе, интерфейс получит список из 125 соответствующих статей в виде файла JSON. Из этих 125 статей десять лучших, т. Е. Десять статей с наиболее высоким рейтингом по сравнению с запросом / ключевым словом, отображаются в виде списка (в порядке убывания ранжирования). Мы решили отображать только десять статей, чтобы сохранить интерфейс разумного размера по высоте и избежать непрерывного эффекта списка словарей. Если пользователь желает ознакомиться с другими статьями, он все равно может получить доступ к одной из 125 статей через трехмерное изображение. По каждой статье пользователю предлагается система оценок. Рейтинг состоит из пяти кликабельных звездочек, которые загораются желтым или снова становятся серыми в зависимости от выбора пользователя. Рейтинг будет использоваться серверной частью, чтобы влиять на рейтинг статей.

Просмотр 3D-статей

В случае, когда пользователь хочет просмотреть и получить доступ к более чем десяти статьям с самым высоким рейтингом, пользователь может переключаться между представлением графика и представлением статей с помощью кнопки «Перейти к просмотру», расположенной в навигационной части интерфейса. Доступны четыре типа трехмерных представлений: таблица, сфера, спираль, сетка в дополнение к графическому представлению, отображающему различные отношения между статьями.

Виртуальная реальность

ExperTwin можно переключить на иммерсивный режим, когда пользователь может перемещаться по трехмерной среде. Этот вид совместим с коммерческими гарнитурами виртуальной реальности, которые используют экран мобильного устройства и загружаются из веб-браузера.

Заключение

В этом посте мы проиллюстрировали, как можно построить машину Knowledge Advantage, предоставив подробную информацию о том, как можно удовлетворить различные требования. Однако следует отметить серьезные ограничения текущей реализации ExperTwin. В будущем мы надеемся разработать функцию plug-and-play, при которой обычный ExperTwin можно было бы просто подключить к базе знаний. Кроме того, мы планируем изучить автоматическое обобщение знаний вместо простого представления контекстно релевантных JAN. Дальнейшая работа по автоматическому определению контекста будет необходима для успеха таких инструментов, как ExperTwin.

Документ был представлен на конференции IEEE 2018 по Интернету вещей, экологичным вычислениям и коммуникациям, кибернетическим, физическим и социальным вычислениям, интеллектуальным данным, блокчейнам, компьютерным и информационным технологиям, Конгрессу по киберматике. Код можно найти здесь. Статью можно найти здесь.