Библиотеку будущего будет курировать искусственный интеллект

Почти два столетия спустя фотожурналистика «одарила» библиотеки огромным количеством материалов со снимками. И без нового подхода к их сортировке библиотекари-люди в скором времени могут просто не успеть их классифицировать и раскладывать по полкам. Вот почему в Библиотеке Конгресса (Вашингтон) проходит эксперимент, в рамках которого искусственный интеллект помогает распознавать и классифицировать архивы газет.

Более 860 000 страниц в сутки: скорость поражает

Бен Ли, куратор проекта и специалист по инновациям, руководит внедрением системы под названием «Газетный Навигатор». Отличием новой системы от существующих (например, «Chronicling America») является самообучение — программа накапливает массивы данных и со временем улучшает качество своей работы.

Для начала работы Ли задействовал волонтеров, которые загрузили в систему начальные данные и описали их, чтобы программа «поняла» суть работы. И такой подход принес плоды: всего за 19 дней «Газетный Навигатор» сумел обработать и классифицировать все газетные страницы, которые были в библиотеке — 16 358 041 штуку. При этом как «проблемные» (вызвавшие неточности при сканировании) программа отметила всего 383 страницы.

Как работает и каковы перспективы

«Газетный Навигатор» основан на той же технологии, которую инженеры использовали для создания «Google Книг». В основе технологии оптическое распознавание, или OCR, которое позволяет качественно определять отпечатанные и рукописные символы даже со скан-копий. Благодаря этому упростился и поиск: достаточно задать слово или предложение, и система найдет все материалы, в которых есть искомые данные.

Также Ли улучшил технологию, создав модель обнаружения объектов, которая могла бы выделить семь различных типов контента:

  • фотографии,
  • иллюстрации,
  • карты,
  • комиксы,
  • редакционные мультфильмы,
  • заголовки
  • и рекламные объявления.

«На самом деле мы надеемся, что технология пригодится всем, у кого есть архивы газет, журналов или чего-то подобного. Каждый сможет собрать свою базу — естественно, в нужном масштабе.

Да, система не идеальна — есть некоторые ошибки в классификации, например, алгоритм может спутать кадр из мультфильма с фотографией. Мы надеется, что наш проект привлечет в том числе опытных программистов и специалистов по ИИ и машинному обучению, которые помогут его развить», — рассказывает Ли.

Фото: sciencetechniz.com


Похожие новости:
Найден способ узнать воспоминания после смерти
Погрузчики Yale повысят производительность на любом предприятии
Российский "Корнет" получил возможности "Джавелина"
Дедушка Крылов неправ: в чем ошибка басни о вороне
Французские биологи выявили мутацию, которая мешает бросить курить
Ученые рассказали о ранее неизвестных полезных свойствах пива
На вкус и цвет: англосаксы мир видят, русские слышат
Как пчелы оберегают природу
Открытый учеными набор мышьих генов поможет восстановить зубы человека
Сотрудникам Twitter разрешили всегда работать удаленно

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *