В чем разница между парсингом и скрейпингом?

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (0 оценок, среднее: 0,00 из 5)

Веб-мастерам, маркетологам, SEO-специалистам, специалистам по ценообразованию часто требуется извлекать данные со страниц сайта в виде, облегчающем дальнейшую обработку. В этом посте мы узнаем, какая технология используется для сбора данных, что это за процесс и почему он имеет несколько названий.

Обычно в русскоязычном пространстве сбор данных со страниц веб-ресурсов называют парсингом. В англоязычном мире этот процесс часто называют сканированием.

Давайте разберемся, что это за процессы и в чем между ними разница.

Первоначально web scraping называлось приложение, которое выполняло две операции: загрузку необходимой информации с сайта и анализ содержимого сайта.

В переводе с английского «парсинг» — это грамматический анализ слова или текста. Это производное от латинского «pars orationis» — часть речи.

Синтаксический анализ — это метод разбора и разложения информации на компоненты. Затем полученные данные преобразуются в подходящий формат для дальнейшей обработки, при этом один формат данных преобразуется в другой, более читаемый формат.

Предполагая, что данные извлекаются в виде необработанного HTML, синтаксический анализатор берет их и преобразует в формат, который легко анализировать и понимать.