Как создать автонаполняемый сайт на вордпресс

 

Автонаполняемый сайт —  вебресурс, который автоматически наполняется за счет контента с других сайтов. В целом автонаполнение сайта чужим контентом — это неправильно, но если несколько отодвинуть в сторону вопросы морали и авторского права, то остается большой сегмент контента, который можно копировать без больших угроз получить по голове: анонсы, новости, пресс-релизы.

На основе таких автонаполняемых новостей можно сделать как весь сайт целиком, так и отдельный раздел на существующем сайте. Например на сайте, посвященному боксу, сделать раздел спортивных новостей. А на сайте про актеров — новости из мира кино. За счет публикаций новостей можно попробовать ловить ситуативный трафик, с этих страниц можно торговать ссылками, с них можно проставлять перелинковку на свои продвигаемые страницы.


Пример из практики: Новостной сайт с автопубликацией 5-10 материалов в день, несколько раз за зиму выходил в топ по запросам связанными с отменой занятий в школах из-за мороза.

Как сделать автонаполняемый вордпресс-сайт с плагином wp-grabber

Для создания автонаполняемого проекта на понадобится готовый установленный сайт на вордпресс, сам плагин, настройка лент и немного терпения, потому как придется повозиться (потанцевать с бубном).


Вопрос — где взять плагин wp-grabber

Это плагин-граббер (парсер новостей), основанный на принципе копирования материала по признакам. Он используется с 2009 года и уже больше тысячи пользователей используют его на своих сайтах. К тому же наличие общего формата файлов экспорта/импорта позволяют без проблем пользоваться настроенными лентами в обоих этих приложениях. Почему именно WPGrabber: Он импортирует контент с любого HTML-сайта, RSS-потока, со стен групп и сообществ ВК. Благодаря гибким настройкам обработки автоматически удаляются ненужные блоки информации, ссылки и картинки. Поддерживает режим автоматической работы обновления с другими сайтами. Работает без ограничений – собирает тексты с любого количества сайтов.

Тут есть несколько вариантов:

  1. купить доступ к плагину у разработчиков (поищите в гугле по запросу вп-граббер) — удовольствие примерно 250-500 рублей.
  2. Зайдите на сайт складчин — и скачайте его там (снова гугл в помощь).
  3. Можно попробовать скачать одну из таких версий здесь.

Как установить и настроить

Плагина нет в официальном репозитории, поэтому устанавливаем плагин через загрузку архива (панель управления — плагины — добавить новый — загрузить).

Далее активируете плагин и переходите в раздел раздел настроек.

И в настройках нужно будет только включить обновление через CRON.

Остальные настройки можно не трогать. Самое важное  — правильно настроить ленты для граббинга и отображение публикаций на сайте.

Ниже представлены стандартные настройки для плагина WPGrabber

Теперь пройдемся по пунктам:

  • Для запросов использовать метод -> CURL (основная функция для парсинга контента)
  • Для скачивания файлов (картинок) использовать метод -> COPY (основная функция для грабинга и сохранения изображений)
  • Включить обработку редиректов -> Да
  • Максимальное время ожидания ответа от сервера -> 30 (вполне достаточно 30, пустое значение будет заменено на параметр из настроек вашего хостинга, сервера)
  • Каталог временных файлов -> /wp-content/wpgrabber_tmp/
  • Время выполнение основного процесса импорта в секундах -> 30 (вполне достаточно 30, пустое значение — по умолчанию: 30 сек.)
  • Разбивать процесс импорта на части -> Да
  • Сохраняем изменения

Как настроить ленты для граббинга

Это самая сложная часть, поэтому разберем ее подробнее. Бояться ошибиться не надо, если лента не заработала — просто возьмите другую. Наберитесь терпения и начнем.

Есть простой и платный путь: вы подбираете источники и обращаетесь к разработчикам или фрилансерам на Кворк — они сделают вам первые ленты из расчета примерно 5 лент за 500 рублей.

Итак, идем в настройки вп-грабера и жмем добавить новую ленту — и видим несколько закладок. На будут нужны:

  • Основные — это главные настройки получения контента.
  • Контент — там выберем рубрики и схему публикации
  • Картинки — записи с изображениями дают больше ПФ (поведенческих факторов)
  • Вид — здесь пропишем шаблон поста

Основные настройки — именно на них нужно обратить пристальное внимание.

  1. Наименование ленты — тут пишем чтобы вам было понятно или удобно, можно вставить просто урл сайта;
  2. Тип ленты — самые полные варианты удается спарсить при выборе html;
  3. Индексная страница — тут все понятно — пишем урл сайта;
  4. Кодировка страницы — смотрим кодировку, чаще встречается utf-8 и windows-1251. Для этого открываем код страницы ( в гугл хром, мозила файервокс и интернет эксплорер —  это быстрые клавиши ctrl+u) — пример на картинке ниже;
  5. Определять анонс  — на ваше усмотрение, рекомендую оставить «автоматически»;
  6. Самые главные пункты основной настройки — уделим им внимание несколько ниже: подробно разберем на примере какого-нибудь сайта;
  7. Ленту — включить.

Для того чтобы посмотреть исходный код (HTML-код страницы) можно также просто щелкнуть в любом месте по странице правой кнопкой мыши и в контекстном меню выбрать Просмотр кода страницы.

Еще раз обратите внимание на то, как в исходном html-коде страницы указывается кодировка:

<meta http-equiv=»Content-Type» content=»text/html; charset=ЗДЕСЬ КОДИРОВКА» />

На некоторых сайтах кодировка не указана, тогда пробуйте значение: Исходная, или же WINDOWS-1251.


Подробней рассмотрим пункт 6 — Расписываем шаблоны ссылок, заголовка, стартовой и конечной точки контента.


Для начала разберем структуру ссылок, они бывают разные — в зависимости от CMS донора. Самые простые ссылки выглядят примерно так домен/слово, например http://seodelux.ru/portfolio


Какие могут быть варианты:


  • домен/слово
  • домен /слово
  • домен/цифры
  • домен/набор цифр и букв
  • домен/набор сложных символов
  • и более сложные композиции, сочетающие все варианты

Вариантов может быть много, тут важно умение мыслить логично, анализировать структуру ссылок. Приходит такое умение с опытом, так что практикуйтесь и задайте вопросы в комментах, если что не понятно.

Особое внимание обратите на правильное обозначение регулярных выражений.


Подбор шаблона ссылок

Рассмотрим на примере добавления одной ленты. Возьмем сайт новостей шоу-бизнеса starhit.ru

Первое что нужно понять — как выглядит ссылка в структуре сайта. Для этогоо идем на индексную страницу — смотрим ее код (ctrl+U) и через поиск по странице (ctrl+F) ишем заголовок и ссылку. Я просто начинаю искать в исходном коде через поиск начало заголовка. Смотрите на картинке выше.

У нас она получилась такого вида: /novosti/nastasya-samburskaya-ofitsialno-vyishla-zamuj-134191/

Так и будем вставлять ее в вп-граббер. Теперь нам необходимо заменить конкретный адрес на шаблон. Анализируем структуру: /раздел/несколько-слов-через-дефис-цифры. Проверим себя — посмотрим как выглядят другие ссылки. В нашем примере структура определена верно:


Посморим также другие разделы:


  • /style/kak-izbavit-rebenka-ot-internet-zavisimosti-134016/
  • /life/moe-telo-tyurma-kogda-pogonya-za-idealnyim-vesom-prevraschaetsya-v-bolezn-118797/
  • /photoistorii/anita-tsoy-vnov-brosila-vyizov-shou-biznesu-134162/
  • /eksklusiv/svadba-nikityi-presnyakova-i-alenyi-krasnovoy-eksklyuziv-foto-video-131883/


Пробуйте — не бойтесь ошибиться, не получилось — возьмите другой сайт-донорУбеждаемся, что схема верна. Теперь нам нужно задать шаблон ссылок в регулярных выражениях.

В регулярных выражениях PCRE любой непробельный символ обозначается следующей конструкцией \S


Обратите внимание на слэш \ перед заглавной буквой S. Обратный слэш в регулярных выражениях отменяет обычное действие символа, мы могли бы написать просто символ буквы S и тогда она была бы просто заглавной буквой S в нашем регулярном выражении. Однако \S — означает ровным образом один любой символ, кроме пробела!


Погуглите в интернете о регулярных выражениях PCRE — для общего образования.

Теперь попробуем указать количество символов в строке. количество символов задается такими регулярными выражениями:


  • \S{5} — пять любых смиволов
  • \S{9} — девять любых символов
  • \S{3,7} — от трех до 7 символов включительно.

И если с разделами еще можно угадать, просто посчитав число символов — новости  (7 символов), стайл (5 символов), то вот с остальной частью ссылки — угадать сложно.  Решение простое — нужно указать что число символов — больше 1. Выгдялеть регулярное выражение будет таким образом  — \S{1,} 


Можно и уточнить — в разделах у нас указаны только буквы, а одна буква в системе PCRE имеет обознаяение \w


Попробуем вставить в шаблон ссылок сдедующее выражение


/\w{1,} /\S{1,}/


В тесте получаем ссылки рабочие, но ненужные — на служебные страницы, например:


  • http://www.starhit.ru/js/wam/customers/
  • http://www.starhit.ru/contacts/

Меняем вторую часть шаблона. Буквы в регулярных выражениях обозначаются \w, а цифры  — \d. Во второй части шаблона имеются и буквы и цифры, поэтому регулярное выражение мы можем задать как \w\d


Когда нам нужно в регулярном выражении перечислить вхождение разных символов (набора символов), то мы можем использовать квадратные скобки. Выражение получается вида:


[\w\d]{1,}

Это  означает: любая одна буква или одна цифра или более подобных символов.


Нам также нужно отсечь в первой части ненужные разделы, изменим там условие — минимальное число букв-5. Теперь давайте протестируем суммарно получившийся шаблон 


/\w{5,}/[\w\d]{1,}


Результат видим такой:


Значит шаблон ссылок правильный  и теперь можно продолжать настройку. Еще раз напомню, что работа с регулярными выражаениями для простого вебмастера и блогера — наиболее сложный этап. Запомните основные переменные которые нам понадобятся:


\S   \d   \w  плюс квадратные и фигурные скобки


Подбор шаблона заголовка

Для того чтобы WPGrabber нашел заголовок в тексте страницы определенной новости нам необходимо описать шаблон его поиска. Тут тоже используется формат регулярных выражений как и в описании шаблона ссылок.


Идем на страницу новости и смотрим еще раз ее исходный html-код. Копируем заголовок и с помощью ctrl+F ищем его на странице. Среди многообразия нам нужно найти наиболее подходящий вариант — без дополнительных слов и символов.


В нашем случае мы видим варианты:


  1. <title>Настасья Самбурская официально вышла замуж | StarHit.ru</title>
  2. <meta property=»og:title» content=»Настасья Самбурская официально вышла замуж | StarHit.ru«>
  3. <meta name=»twitter:title» content=»Настасья Самбурская официально вышла замуж«>
  4. <h1 xmlns=»http://www.w3.org/1999/xhtml» class=»article-title» itemprop=»name«>Настасья Самбурская официально вышла замуж </h1>
  5. Вот именно в этом примере я бы испольховал третий. Составляем шаблон, который будет состоять из трех частей: <meta name=»twitter:title» content=»НАЗВАНИЕ«>


Тут нужно запомнить два правила:


  1. Круглые скобки обозначают выборку определенной части текста из строки <meta name=»twitter:title» content=»(НАЗВАНИЕ)»>
  2. Конструкция вида: .*? вбирает (поглощает) в себя любое кол-во символов вплоть до встречи со следующим символом после нее.

Итого заменяем НАЗВАНИЕ в шаблоне на (.*?) и получаем следующую рабочую структуру, которую и протестируем:


<meta name=»twitter:title» content=»(.*?)»>


WPGrabber теперь находит правильные заголовки:

<meta name=»title» content=»(.*?)» />

<title>(.*?)</title>

<h1>(.*?)<h1/>


Настройка начальной точки и конечной точки контента

Снова переходим на нашу страницу новости с исходным кодом и ишем начало текста и конец. Для этого снова можно воспользоваться поиском ctrl+F. Смотрим метатег, который есть перед началом текста и вставляем его в настройках плагина.

В нашем случае можно пробовать два варианта, я бы использовал то, который выделен красным цветом — метатег явно указывает на начало текстового контента: <div class=»article-body«>

Теперь смотрим метатег после текста статьи. В нашем случае подойдет тег <div class=»article-side«>.

Тестируем и смотрим на результат: шаблон ссылки сработал, заголовок — корректный, есть текстовый и даже фото-контент.

Все первая и наиболее важная часть подготовки сделана.

 Источник

Отправить комментарий

Новые Старые

نموذج الاتصال