Справочник вопросов и ответов
QUOR - электронный справочник

Обобщение нескольких документов - Multi-document summarization

Тег: Другие предметы

Обобщение нескольких документов - это автоматическая процедура, направленная на извлечение информации из нескольких текстов написано на ту же тему. Итоговый итоговый отчет позволяет отдельным пользователям, например профессиональным потребителям информации, быстро ознакомиться с информацией, содержащейся в большом кластере документов. Таким образом, многодокументные системы реферирования дополняют агрегаторы новостей, выполняя следующий шаг по пути преодоления информационной перегрузки.

Содержание

  • 1 Ключевые преимущества
  • 2 Технологические проблемы
  • 3 Реальные системы
  • 4 Библиография
  • 5 См. Также
  • 6 Ссылки
  • 7 Внешние ссылки

Ключевые преимущества

Многократное Обобщение документов создает краткие и исчерпывающие информационные отчеты. Поскольку разные мнения объединяются и обрисовываются, каждая тема описывается с разных точек зрения в одном документе. В то время как цель краткого резюме состоит в том, чтобы упростить поиск информации и сократить время, указывая на наиболее релевантные исходные документы, полное многодокументное резюме должно само содержать требуемую информацию, тем самым ограничивая потребность в доступе к исходным файлам случаями, когда требуется уточнение. обязательный. Автоматические сводки представляют информацию, полученную из нескольких источников алгоритмически, без какого-либо редакционного вмешательства или субъективного вмешательства человека, что делает ее полностью объективной.

Технологические проблемы

Задача обобщения нескольких документов сложнее, чем обобщение одного документа, даже длинного. Сложность возникает из-за тематического разнообразия в большом наборе документов. Хорошая технология реферирования направлена ​​на объединение основных тем с полнотой, удобочитаемостью и лаконичностью. На конференциях по пониманию документов, ежегодно проводимых NIST, были разработаны сложные критерии оценки методов, позволяющих решить задачу обобщения нескольких документов.

Идеальная система реферирования для нескольких документов не только сокращает исходные тексты, но также предоставляет информацию, организованную по ключевым аспектам, для представления различных точек зрения. Успех дает обзор данной темы. Такие текстовые компиляции должны также соответствовать основным требованиям к обзорному тексту, составленному человеком. Критерии качества многодокументного резюме следующие:

  • четкая структура, включая схему основного содержания, из которой легко переходить к полнотекстовым разделам
  • текст в разделах разделен на значимые абзацы
  • постепенный переход от более общих к более конкретным тематическим аспектам
  • хорошая читабельность.

Последний момент заслуживает дополнительного упоминания. Необходимо следить за тем, чтобы в автоматическом обзоре отображалось:

  • отсутствие связанного с бумагой "информационного шума " из соответствующих документов (например, веб-страниц)
  • отсутствие висящих ссылок на то, что есть не упоминается и не объясняется в обзоре
  • нет разрывов текста в предложении
  • нет семантики избыточности.

Реальные системы

Технология реферирования нескольких документов сейчас достигает совершеннолетия - эта точка зрения поддерживается рядом современных веб-систем, доступных в настоящее время.

  • Ultimate Research Assistant - выполняет интеллектуальный анализ текста в результатах поиска в Интернете, чтобы помочь обобщить и систематизировать их, а также облегчить пользователю выполнение онлайн-исследований. Конкретные методы интеллектуального анализа текста, используемые инструментом, включают извлечение понятий, суммирование текста, иерархическую кластеризацию понятий (например, автоматическое создание таксономии) и различные методы визуализации, включая облака тегов и интеллектуальные карты.
  • iResearch Reporter - извлечение коммерческого текста и система суммирования текста, бесплатный демонстрационный сайт принимает введенный пользователем запрос, передает его в поисковую систему Google, извлекает несколько релевантных документов, создает категоризированные, легко читаемые сводные отчеты на естественном языке, охватывающие несколько документов в извлеченном наборе, все выдержки связаны с исходными документами Интернет, постобработка, извлечение сущностей, событие и извлечение связей, извлечение текста, кластеризация извлечения, лингвистический анализ, многодокументный, полный текст, обработка естественного языка, правила категоризации, кластеризация, лингвистический анализ, текст набор инструментов для создания сводки.
  • Newsblaster - это система, которая помогает пользователям находить новости, которые им интересны. Система автоматически собирает, группирует, классифицирует и резюмирует новости с нескольких сайтов в сети (CNN, Reuters, Fox News и т. Д.) Ежедневно. и предоставляет пользователям интерфейс для просмотра результатов.
  • NewsInEssence можно использовать для извлечения и обобщения группы статей из Интернета. Он может начинаться с URL-адреса и извлекать похожие документы или извлекать документы, соответствующие заданному набору ключевых слов. NewsInEssence также ежедневно загружает новостные статьи и создает из них новостные кластеры.
  • NewsFeed Researcher - это новостной портал, выполняющий непрерывное автоматическое обобщение документов, первоначально сгруппированных с помощью агрегаторов новостей ( например, Новости Google ). NewsFeed Researcher поддерживается бесплатным онлайн-движком, освещающим основные события, связанные с бизнесом, технологиями, американскими и международными новостями. Этот инструмент также доступен в режиме по запросу, позволяя пользователю составлять сводки по выбранным темам.
  • Очистка Это похоже на поисковую систему, но вместо предоставления ссылок на наиболее релевантные веб-сайты на основе запроса, он извлекает соответствующую информацию с соответствующих веб-сайтов и предоставляет пользователю консолидированную сводку из нескольких документов вместе со словарными определениями, изображениями и видео.
  • JistWeb - это составление сводных данных для нескольких документов.

Поскольку автоматически сгенерированные многодокументные резюме все больше напоминают обзоры, написанные человеком, использование извлеченных текстовых фрагментов может однажды столкнуться с проблемами авторского права в связи с концепцией добросовестного использования авторского права.

Библиография

  • Гюнес Эркан; Драгомир Р. Радев (1 декабря 2004 г.), «LexRank: лексическая центральность на основе графов как значимость в обобщении текста», журнал исследований искусственного интеллекта, 22, arXiv : 1109.2128, doi :10.1613/JAIR.1523, Wikidata Q81312697
  • Драгомир Р. Радев, Хунъян Цзин, Малгорзата Стись и Даниэль Там. Резюмирование нескольких документов на основе центроидов. Обработка информации и управление, 40: 919–938, декабрь 2004. [5]
  • Кэтлин Р. МакКаун и Драгомир Р. Радев. Генерация резюме нескольких новостных статей. In Proceedings, ACM Conference on Research and Development in Information Retrieval SIGIR'95, pages 74–82, Seattle, Washington, July 1995. [6]
  • C.-Y. Лин, Э. Хови, «От одного к многодокументному обобщению: система-прототип и ее оценка», В «Proceedings of the ACL», стр. 457–464, 2002 г.
  • Кэтлин МакКаун, Ребекка Дж. Пассонно, Дэвид К. Элсон, Ани Ненкова, Джулия Хиршберг, «Помогают ли резюме? Оценка многодокументного обобщения на основе задач», SIGIR'05, Сальвадор, Бразилия, 15–19 августа 2005 г. [7]
  • Р. Барзилай, Н. Эльхадад, К. Р. Маккеун, «Стратегии вывода для упорядочивания предложений при резюмировании многодокументных новостей», Journal of Artificial Intelligence Research, v. 17, pp. 35–55, 2002
  • M. Субботин, С. Субботин, «Компромисс между факторами, влияющими на качество резюме», Семинар по пониманию документов (DUC), Ванкувер, Британская Колумбия, Канада, 9–10 октября 2005 г. [8]
  • К. Равиндранат Чоудари, и П. Шриниваса Кумар. «Esum: эффективная система реферирования нескольких документов по запросу». В ECIR (достижения в области информационного поиска), стр. 724–728. Springer Berlin Heidelberg, 2009.

См. Также

Ссылки

Внешние ссылки

481