Delphi. Как загрузить сайт для парсинга?

Наверное, самый простой способ загрузить сайт для парсинга это компонент TIdHTTP и его метод Get.

Если открыть официальную документацию компонентов Indy, то можно увидеть следующее описание метода Get, компонента TidHTTP

И ещё одна его перегруженная версия, которая грузит сайт в поток (Tstream)

Загружаем НTML код страницы в MEMO

Результат…

1

 

Далее можно как-либо её парсить с использованием, например, регулярных выражений.

Получаем доп. информацию о странице…

Также есть метод, который загружает только head… В данном случае в head загружается не привычный header html страницы, а всякая дополнительная информация о странице, как-то кодировка, длина всех символов страницы, имя сервера и так далее… Полный список всех параметров можно получить набрав в IDE Delphi

и дождаться выпадения списка возможных вариантов свойств и методов, ну а далее выбрать то, что нужно…

Получим, например кодировку страницы

2

 

 

На данном этапе все, в дальнейших постах попробую распарсить страницу немного по-другому, с помощью библиотеки MSHTML;

 

This entry was posted in Delphi, Delphi и сети, Без рубрики. Bookmark the permalink.