Экстракторы HTML дают ИИ на 71% больше токенов

Большие языковые модели осваивают язык, факты и умения из текстов, взятых с веб-страниц. Архив Common Crawl служит основой для большинства наборов данных для тренировки.

Сначала из HTML-кода страниц приходится извлекать чистый текст. Убираются меню навигации, невидимые элементы и код оформления.

Задача выглядит элементарной, однако свежее исследование специалистов из Apple, Стэнфордского университета и Вашингтонского университета подчеркивает: этот этап серьезно сказывается на объеме и чистоте обучающих данных.

Доступны разные инструменты извлечения — скоростной Resiliparse, универсальный Trafilatura и JusText, опирающийся на стоп-слова. Крупные инициативы по датасетам берут один инструмент и используют его повсеместно. Раз результаты моделей на стандартных тестах схожи, выбор раньше считали неважным.

Сочетание экстракторов дает прирост токенов до 71%

Анализ ставит это под сомнение. Специалисты применили одинаковый фильтр к результатам всех трех экстракторов и проверили пересечения сайтов. Лишь 39% страниц прошли через несколько инструментов. Полные 61% — только через один. Каждый метод достает уникальные фрагменты сети; выбор одного оставляет без внимания массу полезного материала.

Гистограмма распределения дисбаланса доменов по трем HTML-экстракторам — Resiliparse, Trafilatura и JusText. Для значительной доли доменов большинство сохранившихся страниц приходится на один экстрактор. — На множестве доменов один экстрактор захватывает большинство страниц. Примерно 27% доменов имеют минимум 60% страниц от единственного инструмента.

Объединение выходов трех инструментов поднимает выход токенов на 71%, не меняя показателей на бенчмарках. После удаления дубликатов сохраняется 58% дополнительного объема. Набор данных для моделей 7B разрастается с 193 млрд токенов (только Resiliparse) до 283 млрд.

Такой метод превосходит ослабление порогов фильтров в одиночном экстракторе: жесткие правила на комбинации приносят чище страницы, чем мягкие в одном случае. Разница особенно бросается в глаза при моделировании задач на таблицы.

Гистограмма сравнения результатов на WikiTQ для Resiliparse, Trafilatura и JusText по семи форматам сериализации таблиц. Resiliparse всегда на вершине, JusText на дне. — Resiliparse опережает Trafilatura и JusText в распознавании таблиц независимо от формата. Ведение может достигать 15 процентных пунктов.

Таблицы и фрагменты кода исчезают в зависимости от инструмента

В общих языковых тестах экстракторы ведут себя похоже. С структурированными данными вроде таблиц и блоков кода разрыв колоссальный: JusText нередко выбрасывает их полностью. Trafilatura конвертирует таблицы в Markdown, но гасит содержимое ячеек. Resiliparse держит материал intact.

Параллельное сравнение таблицы навыков покемонов из Bulbapedia после Resiliparse и Trafilatura. Resiliparse удерживает колонки и данные, Trafilatura оставляет лишь осколки Markdown без содержимого. — Таблица покемонов в разных экстракторах: Resiliparse (слева) сохраняет структуру через пробелы, Trafilatura (справа) сбрасывает ячейки. JusText стирает подобные таблицы напрочь.

На бенчмарке WikiTableQuestions модель 7B с Resiliparse выдаёт 11,9 очков. Trafilatura — 3,7, JusText — 1,6. Resiliparse преодолевает 73% дистанции между DCLM-7B-8k и Llama-3-8B по таблицам, несмотря на паритет в универсальных тестах.

На HumanEval по коду JusText проигрывает до 3,6 процентных пункта — из-за потери блоков кода. Trafilatura ломает отступы, необходимые для синтаксиса языков программирования.

Крошечный этап с гигантским эффектом

Авторы не пытались изобрести новые инструменты, а продемонстрировали: комбинация существующих с отбором по контенту работает эффективнее. Не проверяли способы для расширения охвата дальше. Работа также предупреждает об опасности: лучшая экстракция впустит в модели больше токсичного или авторского материала.

Интернет-данные для языковых моделей исчерпаемы. Осознание, что базовый шаг обработки диктует их использование, побудит команды датасетов перестроить процессы.

Обучение моделей ИИ упускает огромные части интернета

Сочетание экстракторов дает прирост токенов до 71%

Таблицы и фрагменты кода исчезают в зависимости от инструмента

Крошечный этап с гигантским эффектом

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде