1. Беспристрастная генерация графа сцены с использованием подобия предикатов (arXiv)

Автор: Мисаки Охаси, Юсуке Мацуи.

Аннотация: Графы сцен широко применяются в компьютерном зрении как графическое представление взаимосвязей между объектами, показанными на изображениях. Однако эти приложения еще не достигли практической стадии разработки из-за необъективного обучения, вызванного распределениями предикатов с длинными хвостами. В последние годы этой проблеме посвящено множество исследований. Напротив, в относительно небольшом количестве работ сходство предикатов рассматривается как уникальная особенность набора данных, которая также приводит к предвзятому прогнозу. Из-за этой особенности нечастые предикаты (например, припарковано, покрыто) легко ошибочно классифицируются как близкородственные частые предикаты (например, на, в). Используя сходство предикатов, мы предлагаем новую схему классификации, которая разветвляет процесс на несколько мелких классификаторов для схожих групп предикатов. Классификаторы нацелены на то, чтобы детально фиксировать различия между похожими предикатами. Мы также вводим идею трансферного обучения для улучшения функций предикатов, которым не хватает обучающих образцов для изучения описательных представлений. Результаты обширных экспериментов с набором данных Visual Genome показывают, что сочетание нашего метода и существующего подхода устранения смещения значительно повышает производительность предикатов хвоста в сложных задачах SGCls/SGDet. Тем не менее, общая производительность предлагаемого подхода не соответствует современному уровню техники, поэтому дальнейший анализ остается необходимым в качестве будущей работы.

2. Масштабируемая регуляризация моделей генерации графов сцен с использованием символических теорий (arXiv)

Автор: Давид Буффелли, Эфтимия Цамура.

Аннотация: В последнее время несколько методов были направлены на повышение производительности моделей глубокого обучения для генерации графов сцен (SGG) за счет включения базовых знаний. Современные методы можно разделить на два семейства: одно, в котором фоновые знания включаются в модель в субсимволической форме, а другое, в котором фоновые знания поддерживаются в символической форме. Несмотря на многообещающие результаты, оба семейства методов имеют ряд недостатков: первый требует специальных, более сложных нейронных архитектур, увеличивающих стоимость обучения или логического вывода; второй страдает от ограниченной масштабируемости по сравнению с другими. объем фоновых знаний. Наша работа представляет метод регуляризации для введения символических фоновых знаний в нейронные модели SGG, который преодолевает ограничения предшествующего уровня техники. Наш метод не зависит от модели, не требует никаких затрат во время вывода и масштабируется до ранее неуправляемых размеров фоновых знаний. Мы демонстрируем, что наша методика может повысить точность современных моделей SGG до 33 %.