Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Обучение моделей ИИ упускает огромные части интернета

Специалисты из Apple, Stanford и Вашингтонского университета обнаружили, что экстракторы HTML вроде Resiliparse, Trafilatura и JusText пропускают разные участки веба — общие всего 39% страниц. Их объединение увеличивает токены на 71%, радикально улучшая таблицы и код. Это заставит пересмотреть подготовку данных для ИИ-моделей.

вчера
4 мин
25

Большие языковые модели осваивают язык, факты и умения из текстов, взятых с веб-страниц. Архив Common Crawl служит основой для большинства наборов данных для тренировки.

Сначала из HTML-кода страниц приходится извлекать чистый текст. Убираются меню навигации, невидимые элементы и код оформления.

Задача выглядит элементарной, однако свежее исследование специалистов из Apple, Стэнфордского университета и Вашингтонского университета подчеркивает: этот этап серьезно сказывается на объеме и чистоте обучающих данных.

Доступны разные инструменты извлечения — скоростной Resiliparse, универсальный Trafilatura и JusText, опирающийся на стоп-слова. Крупные инициативы по датасетам берут один инструмент и используют его повсеместно. Раз результаты моделей на стандартных тестах схожи, выбор раньше считали неважным.

Сочетание экстракторов дает прирост токенов до 71%

Анализ ставит это под сомнение. Специалисты применили одинаковый фильтр к результатам всех трех экстракторов и проверили пересечения сайтов. Лишь 39% страниц прошли через несколько инструментов. Полные 61% — только через один. Каждый метод достает уникальные фрагменты сети; выбор одного оставляет без внимания массу полезного материала.

Гистограмма распределения дисбаланса доменов по трем HTML-экстракторам — Resiliparse, Trafilatura и JusText. Для значительной доли доменов большинство сохранившихся страниц приходится на один экстрактор.
На множестве доменов один экстрактор захватывает большинство страниц. Примерно 27% доменов имеют минимум 60% страниц от единственного инструмента.

Объединение выходов трех инструментов поднимает выход токенов на 71%, не меняя показателей на бенчмарках. После удаления дубликатов сохраняется 58% дополнительного объема. Набор данных для моделей 7B разрастается с 193 млрд токенов (только Resiliparse) до 283 млрд.

Такой метод превосходит ослабление порогов фильтров в одиночном экстракторе: жесткие правила на комбинации приносят чище страницы, чем мягкие в одном случае. Разница особенно бросается в глаза при моделировании задач на таблицы.

Гистограмма сравнения результатов на WikiTQ для Resiliparse, Trafilatura и JusText по семи форматам сериализации таблиц. Resiliparse всегда на вершине, JusText на дне.
Resiliparse опережает Trafilatura и JusText в распознавании таблиц независимо от формата. Ведение может достигать 15 процентных пунктов.

Таблицы и фрагменты кода исчезают в зависимости от инструмента

В общих языковых тестах экстракторы ведут себя похоже. С структурированными данными вроде таблиц и блоков кода разрыв колоссальный: JusText нередко выбрасывает их полностью. Trafilatura конвертирует таблицы в Markdown, но гасит содержимое ячеек. Resiliparse держит материал intact.

Параллельное сравнение таблицы навыков покемонов из Bulbapedia после Resiliparse и Trafilatura. Resiliparse удерживает колонки и данные, Trafilatura оставляет лишь осколки Markdown без содержимого.
Таблица покемонов в разных экстракторах: Resiliparse (слева) сохраняет структуру через пробелы, Trafilatura (справа) сбрасывает ячейки. JusText стирает подобные таблицы напрочь.

На бенчмарке WikiTableQuestions модель 7B с Resiliparse выдаёт 11,9 очков. Trafilatura — 3,7, JusText — 1,6. Resiliparse преодолевает 73% дистанции между DCLM-7B-8k и Llama-3-8B по таблицам, несмотря на паритет в универсальных тестах.

На HumanEval по коду JusText проигрывает до 3,6 процентных пункта — из-за потери блоков кода. Trafilatura ломает отступы, необходимые для синтаксиса языков программирования.

Крошечный этап с гигантским эффектом

Авторы не пытались изобрести новые инструменты, а продемонстрировали: комбинация существующих с отбором по контенту работает эффективнее. Не проверяли способы для расширения охвата дальше. Работа также предупреждает об опасности: лучшая экстракция впустит в модели больше токсичного или авторского материала.

Интернет-данные для языковых моделей исчерпаемы. Осознание, что базовый шаг обработки диктует их использование, побудит команды датасетов перестроить процессы.