Экономим трафик. Увеличиваем скорость.

Во многих проектах по парсингу (обработке) большого количества страниц очень выгодно использовать сжатие страниц на стороне сервера-источника. Это помогает экономить трафик со всеми истекающими плюсами.

Как проверить может ли сервер-источник сжимать контент?

Методов на самом деле очень много. Я же пользуюсь связкой Mozilla + Live HTTP Headers.
Для того, чтобы проверить может ли сервер-источник сжимать страницу, я запускаю Mozilla, потом Live HTTP Headers и ищу в ответе на запрос броузера поле Content-Encoding. Конечно же для более глубокого понимания всего процесса взаимодействия было бы неплохо знать спецификацию HTTP 1.1, но в и без нее можно обойтись.

Типичный ответ сервера-источника может выглядеть так:

Live HTTP Headers. Перехват

Как реализовать обработку «сжатых» страниц в своем PHP скрипте?

Для этого вам надо в своем коде сначала отправлять дополнительный заголовок. В своих скриптах я делаю это так:

$spider->AddHeaders[]=’Accept-Encoding: gzip’; // Как можно видеть на картинке выше, точно такое же поле отправляет и наш броузер
$spider->GetContent();

А внутри класса обрабатываем это дополнительное поле таким нехитрым кодом:
curl_setopt($this->curl_handler, CURLOPT_HEADER, $this->Headers);

После получения контента нам надо сделать еще одно необычное действие, добавив еще строку кода:

$spider->Result=gzinflate(substr($spider->Result,10));

После проведения этой операции в $spider->Result будет уже удобоваримый контент, который можно обрабатывать.

У вас также могут возникнуть вопросы по поводу числа 10 в функции substr. Скажу что выбрано оно не случайно :). Это связано с тем что моды Апача, которые занимаются сжатием, неправильно отдают заголовки сжатого контента. Мы же их обрезаем и просто «расжимаем» контент. Скаже сразу, что этот код будет работать в 90% процентах случаев. Если же у вас он по какой-то причине не работает, то советую почитать комменты к функции gzinflate на сайте php.net. Думаю там вы найдете ответы на все ваши вопросы.

Что мы получаем в результате использования данного подхода?

На самом деле получаем очень много. Мы экономим трафик и увеличиваем скорость обработки, что крайне важно на больших проектах, особенно если источник находится за много прыжков от нас (посмотреть это можно при помощи команды tracert в консольном режиме Windows).

По поводу скорости я провел пару исследований. Средняя скорость загрузки (10 последовательных тестов) со сжатием составила примерно 0.5 секунды, без сжатия - 0.85 секунды. Сайт-источник находился от меня на расстоянии 10 прыжков (а если говорить правильнее, 10 промежуточных точек или 10 маршрутизаторов). В вышеуказанное время уже включены накладные расходы на “расжатие” страниц для первого теста и на удаление всех вайтспейсес ([\n\r\t]) для обоих случаев.

Как мы видим выигрыш получился равным 70%!!! Поэтому советую для крупных проектов взять эту технику себе на вооружение.

Новые базы контента!

Предлагаются на продажу следующие “свежие” базы данных:

  1. База автомобильных статей
    Количество статей: 2 929
    Общий размер базы: 19,7 МБ (cp1251)
    Количество картинок к статьям: 7651 (138 Мб)
    Поля в базе: id, название статьи, статья, изображения к статье.
    Количество источников: 1.
    Описание базы: качественная база автомобильных статей, проверенна на дубли. В базе оставлены ссылки на источники информации.
    Стоимость базы: 80 $ (WMZ)
  2. База рецептов
    Количество рецептов: 23 812
    Общий размер базы: 26,3 МБ (cp1251)
    Картинок нет.
    Поля в базе: id, название рецепта, рецепт.
    Количество источников: 1.
    Описание базы: качественная база самых разнообразных рецептов, проверенна на дубли. В базе оставлены ссылки на источники информации.
    Стоимость базы: 80 $ (WMZ)

Минимальная стоимость на услуги по переводу баз данных!

С сегодняшнего дня стоимость услуг по переводу баз данных составляет 20 $ за таблицу вне зависимости от ее размера!!!

Подробности по поводу системы по переводу баз данных смотрите тут!

Новая услуга! Автоматизированный машинный перевод контента в базах данных MySQL.

Предлагаю на суд общественности новую услугу – автоматизированный машинный перевод контента в базах данных под управлением MySQL.

При помощи этой услуги вы можете на основе уже имеющегося у вас неуникального контента получить большой объем уникального переводного контента.

Подробности о данной системе вы можете узнать тут.

Сбор информации на чужих компах ???!

На днях на одном из популярных порталов о поиске работы для фрилансеров weblancer.net заметил интересный проект, который дословно называется Сбор информации.

Если особо не вникать в проект, то может показаться, что это халтурная работа для людей у которых по ночам “простаивает” комп и инет. Но в то же время, я, как человек предоставляющий услуги в этой же области, задумался, а кому надо тратить дополнительные деньги, пусть и небольшие, на то, чего и так валом (инет и компы)? Нет ли тут какого-то подлога? Не отрубят ли вас потом от инета за нарушение каких-то авторских прав или еще чего-то подобного?

Советую людям, которые оставили комменты к данному проекту, задуматься над этими вопросами. Потому что я, например, никогда не прибегал бы к помощи сторонних людей, потому что это вводит в систему сбора информации еще один и достаточно неконтролируемый фактор - человеческий (без учета человеческого фактора самого себя :) ).

Думайте! И не ошибитесь!

Новая услуга - скачивание видео с сервисов YouTube и ему подобных!

Представляю на суд общественности новую услугу - копирование видео с таких сервисов как YouTube, Rutube, Mail.Ru, VKontakte, LoadUp …

Описание:
Очень часто перед многими из веб-мастеров стает задача сбора большого количества тематического видео для своих ресурсов. Конечно же, если надо скачать 5 роликов, то проще воспользоваться какой-то программой на подобии YouTube Downloader. А если роликов свыше 100 или даже 1000??!

Тут то вам и пригодятся наши услуги.

При необходимости все скачанное видео может быть сконвертировано в любой удобный для вас формат (как известно, видео с YouTube качается в формате FLV, который поддерживается достаточно малым количеством программам для просмотра видео).

Стоимость услуги договорная и зависит в первую очередь от размеров и количества скачиваемых файлов. Для больших заказов возможны скидки!

Обращайтесь! Будем рады помочь!

База ноутбуков с техническими характеристиками и картинками

Продается база ноутбуков с техническими характеристиками и картинками.

База: MySQL dump | CSV

Количество производителей в базе: 13
Информация о производетелях: имя, путь для ЧПУ.

Количество ноутбуков в базе: 1 610
Все технические характеристики расположены в отдельных унифицированных полях.
Информация о ноутбуках телефонах: ссылка на id производителя из первой таблицы, модель, количество предложений по интернет магазинам Украины, минимальная цена в интернет-магазинах Украины, средняя цена, максимальная цена в интернет-магазинах Украины, набор полей с техническими характеристиками, набор полей для хранений адресов главной и дополнительных картинок.
К ноутбукам имеется по 3 или по 6 картинок. Большая, маленькая и средняя для каждого вида.

Просмотреть пример информации из базы и набор полей вы можете тут.

База очень чистая и качественная. Идеально подходит как для каталога ноутбуков, так и для интернет-магазина.

Стоимость базы: 90 $

В стоимость базы НЕ ВХОДИТ портирование и обработка базы под ваши нужды.

Парсер Яндекс.Директ

Завершил работу над новым парсером статистики запросов Яндекс.Директа. Думаю данный скрипт может пригодится господам оптимизаторам.

Основные возможности парсера:

  • парсинг с аккаунта
    Процесс парсинга происходит после входа в аккаунт Яндекса, что позволяет парсить больше запросов
  • управление глубиной парсинга
    Есть возможность управлять глубиной парсинга как посредством указания максимального количества обрабатываемых страниц, так и путем указания минимального значения
  • количества показов в месяц.
  • управление интервалами между запросами
  • возможность сохранять число запросов
  • возможность генерировать результат парсинга в виде HTML документа
  • возможность генерировать результат парсинга в виде CSV (Excell) документа
  • возможность работы через прокси (как через открытые, так и через прокси, требующие авторизации)
  • управление форматом выдачи результат через конфигурационные файлы
    Выдача парсера может выглядеть и как «запрос;количество_кликов\n», так и как «запрос[количество_кликов]||…». Все это очень просто настраивается через конфиги. В результате чего вы можете подключить результаты парсинга к любому другому инструментарию.
  • интерактивная папка Inbox для удобной работы с результатами парсинга
    Ее вид вы можете увидеть на скриншоте парсера.
  • технология «Запуск с последнего запроса», которая позволяет в случае бана или обрыва связи запустить процесс парсинга не с самого начала, а с места его завершения

Также в комплекте к парсеру идет документация по установке и использованию.

На скриншоте вы можете увидеть интерфейс парсера.

Стоимость парсер: 65 $

Новые версии программы и исправления ошибок для зарегистрированных пользователей будут абсолютно бесплатны.

Приват24

С сегодняшнего дня мы начинаем принимать оплату за наши услуги в системе Приват24, одной из самых популярных систем для перевода денег в Украине и России.

Мы надеемся, что это повысит удобство работы с нами для наших клиентов.

Удачи!

Базы контента по строительству

Продаются следующие базы по строительной тематике:

  1. База статей
    Количество статей: 4,779
    Общий размер базы: ~50 МБ (cp1251)
    Количество картинок к статьям: 13 376 (258 Мб)
    Поля в базе: id, категория, статья, изображения к статье.
    Количество источников: 4.
    Описание базы: качественная база статей на строительную тематику, проверенна на дубли. В базе оставлены ссылки на источники информации.
    Стоимость базы: 90 $ (WMZ)
    Пример одной записи из базы можно посмотреть тут
  2. База строительных подсказок из серии «Как сделать…»
    Количество записей: 64.
    Общий размер базы: >1Мб (cp1251)
    Количество картинок: 105 (~2 Мб)
    Поля в базе: id, категория, тест, изображения к подсказке.
    Количество источников: 1.
    Описание базы: небольшая, но очень интересная база.
    Стоимость базы: 10 $ (WMZ)
    Пример одной записи из базы можно посмотреть тут
  3. База строительных советов
    Количество записей: 401.
    Общий размер базы: >1Мб (cp1251)
    Количество картинок: картинок к данной базе нет.
    Поля в базе: id, категория, тест.
    Количество источников: 1.
    Описание базы: тоже очень интересная база, много полезных строительных советов.
    Стоимость базы: 15 $ (WMZ)
    Пример одной записи из базы можно посмотреть тут

В базе оставлены все теги и все ссылки на ПЕРВОНАЧАЛЬНЫЕ источники информации.

Дополнительные услуги:

  1. Замена и удаление тегов в базах = 10 $ (WMZ)
    Оплата: разово за все купленные базы.
    Описание: вы можете заказать удаление любых тегов из базы, можете заказать замену одних тегов на другие, удаление ссылок … Одним словом – любые махинации с версткой.
  2. Хранение картинок = 20 $ (WMZ) / год
    Оплата: разово за год за все базы.
    Описание: я могу разместить картинки к статьям на одном из своих серверов и при экспорте базы просто поменять пути к картинкам. Получится, что вам не надо будет задействовать лишнее место, и в тоже время вы сохраните все картинки в статьях.