Веб-мастерам, маркетологам, SEO-специалистам, специалистам по ценообразованию часто требуется извлекать данные со страниц сайта в виде, облегчающем дальнейшую обработку. В этом посте мы узнаем, какая технология используется для сбора данных, что это за процесс и почему он имеет несколько названий.
Обычно в русскоязычном пространстве сбор данных со страниц веб-ресурсов называют парсингом. В англоязычном мире этот процесс часто называют сканированием.
Давайте разберемся, что это за процессы и в чем между ними разница.
Первоначально web scraping называлось приложение, которое выполняло две операции: загрузку необходимой информации с сайта и анализ содержимого сайта.
В переводе с английского «парсинг» — это грамматический анализ слова или текста. Это производное от латинского «pars orationis» — часть речи.
Синтаксический анализ — это метод разбора и разложения информации на компоненты. Затем полученные данные преобразуются в подходящий формат для дальнейшей обработки, при этом один формат данных преобразуется в другой, более читаемый формат.
Предполагая, что данные извлекаются в виде необработанного HTML, синтаксический анализатор берет их и преобразует в формат, который легко анализировать и понимать.