Наш опрос
Вы добавили нас в закладки?
Всего ответов: 22
Случайный анекдот
28 В Сургуте на сорокаградусном морозе мальчик с помощью водяного пистолета нанёс 10 колотых ранений приставшему к нему хулигану.
Статистика
Онлайн всего: 2
Гостей: 2
Пользователей: 0

» Сегодня нас посетили:
» Зарег. на сайте
Всего: 3193
Новых за месяц: 9
Новых за неделю: 1
Новых вчера: 0
Новых сегодня: 0
» Из них
Администраторов: 1
Модераторов: 2
С активностью: 169
Авторизованных: 3021

   Парсер материалов для юкоз



Очень умный скрипт — бот, задачей которого является исследование RSS-лент.
1. В предполагаемой RSS-ленте, бот находит ссылки на последние материалы, далее изучает страницы с материалом для дальнейшего парсинга.
2. С помощью библиотеки «phpQuery» (аналог jQuery на языке PHP) собирает нужные элементы с заголовком и текстом материала (как и с каких элементов собирать очень просто изменяется в настройках).
3. Все собранные данные выводит на странице add.php, которая представляет интерфейс админки, где предлогаются действия:

  • Редактировать материал
  • Удалить


4. При нажатии «редактировать», заголовок и текст материала заменятся на текстовое поле с этим содержимым.
5. После редактирования достаточно нажать кнопку «сохранить», как на глазах все видоизменится.
6. После необходимых процедур, нажав на «сохранить и добавить», начнется самая главная процедура — добавление материала на сайт с интервалом в 25 секунд (меньше интервал — блокировка сайта).

Указав в настройках (edit.php) нужные данные:

  • «ID или ник администратора» — пользователь, которому разрешается доступ к скрипту.
  • «Логин бота» — прежде создав пользователя, с правами, разрешающие добавление материалов (администратор).
  • «Пароль» — пароль от аккаунта бота
  • «Выберите модуль» — модуль, с каким будет работать бот
  • «Выберите категорию/форум» — категория почти во всех модулях важна, поэтому нужно будет выбрать ту или иную категорию. В с форумом — будет предложено выбрать необходимый форум.
  • «Адрес RSS ленты» — полный адрес испытуемой RSS-ленты.
  • «Элемент для заголовка» — прописать путь к элементу заголовка в стиле CSS (div.my_class_name:first).
  • «Элемент для текста/Путь к изображению» — путь к тексту в стиле CSS. В случае с фотоальбомом, бот будет брать SRC элемента.
  • «Максимум за раз» — предполагаемое количество материалов за один запуск скрипта. Если число записей меньше этого числа, преимущественно оно будет равно числу записей в ленте.


Для большего удобства, в настройках можно создать отдельный фильтр настроек, и загружать настройки в два клика. Всего несколько шагов:

  • Пройти инструкцию настроек (4..9).
  • поле «Название фильтра» указать название будущего фильтра.
  • Нажать «сохранить настройки».

Чтобы загрузить фильтр, достаточно просто выбрать из списка «Загрузить фильтр» нужный вам фильтр. Нажать «загрузить фильтр». Все фильтры располагаются в папке config.
Информация фильтра загружается в главный файл настроек config.txt, откуда они читаются.

Например, вы хотите брать информацию с двух сайтов. Укажите нужную информацию в настройках для первого сайта, и назовите его как угодно.Ту же самую операцию провести и со вторым сайтом. Когда захотите перейти к другим настройкам, выберите нужный фильтр, жмите «загрузить фильтр», а после перезагрузки страницы настроек на «перейти к парсингу» (возле кнопки «сохранить»). Такой способ сильно экономит время, которое можно было тратить на пере заполнение полей в настройках.

Скрипт работает на нескольких файлах-скриптах (*.php):

  • config.php — в нем находятся все-все настройки, константы, функции. Здесь же и устанавливается кодировка для скриптов UTF-8. Прямой доступ к файлу запрещен.
  • edit.php — настройки. Прямой доступ разрешен, но только одному пользователю — указанному в настройках.
  • add.php — добавление материалов. Прямой доступ только указанному в настройках пользователю.
  • work.php — рабочий скрипт.
  • В директория lib находится класс phpQuery.

Папки config, work создаются автоматически при запуске бота.

Для примера возьмем blog.ucoz.ru, что нужно указать в настройках:
1. Все заполняем до поля «Адрес RSS ленты»
2. В поле «Адрес RSS ленты» ввести: http://blog.ucoz.ru/blog/rss
3. В «Элемент для заголовка»: #content h1
4. «Элемент для текста»: div.text-outside
5. Далее заполняем на усмотрение

Установка:

1. Загрузить папку «php_bot» в корень FTP сервера s2000.ucoz.net

2. Запустить скрипт настроек «%ваш_сайт%/php/php_bot/edit.php», просто перейдя по ссылке

3. Указать в настройках все необходимые данные для корректной работы скрипта.

4. Начать парсинг материалов можно на странице «%ваш_сайт%/php/php_bot/add.php»

Скачать архив 54,31 кб Html редактор
Автор: Prosvetekvator
Просмотров: 4498
11.08.2013


Другие статьи почитайка;)
Поделись ссылкой на форумах
Ссылка:
BB-code:
HTML:


« Пред. Парсер материалов для юкоз След. »

Всего комментариев: 3

1 Evgen Golohvastov (bbbbbbz)
 
Нужен парсер для форума GTA, где можно скачать?

26.12.2013 в 23:25
-
0
+

2 Алексей Чубаров (Prosvetekvator)
 
Я думаю этот скрипт можно настроить и для форума

28.12.2013 в 11:09
-
0
+

3 Андрей Токарев (Reactor)
 
uCoz за него банит, еще как банит.

28.12.2013 в 18:55
-
+1
+

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]
Форма входа

Мини-чат
Топ пользователей
Новое на форуме








Комментарии