in.uCoz.org PDA design by Prosvetekvator
 
 
Форма входа

Старая форма входа
 
 
 
 
Категории
Шаблоны для uCoz [18]
Виды материалов [10]
Мини профили [7]
Мини чаты [8]
Виды комментариев [14]
Формы входа [3]
Информеры [33]
Украшения [16]
Меню сайта [5]
Кнопки [27]
Шапки сайта [3]
Медиа [19]
Переключатели [8]
Разное [65]
Формы поиска [9]
Скрипты [46]
Игры на сайт [6]
Аякс (Ajax) окна [1]
PHP скрипты [3]
 
 
 
 
Материал
Главная » 2013 » Август » 11 » Парсер материалов для юкоз
« Предидущий | ID: 274 | Следующий »

11:48
Парсер материалов для юкоз


Очень умный скрипт — бот, задачей которого является исследование RSS-лент.
1. В предполагаемой RSS-ленте, бот находит ссылки на последние материалы, далее изучает страницы с материалом для дальнейшего парсинга.
2. С помощью библиотеки «phpQuery» (аналог jQuery на языке PHP) собирает нужные элементы с заголовком и текстом материала (как и с каких элементов собирать очень просто изменяется в настройках).
3. Все собранные данные выводит на странице add.php, которая представляет интерфейс админки, где предлогаются действия:

  • Редактировать материал
  • Удалить


4. При нажатии «редактировать», заголовок и текст материала заменятся на текстовое поле с этим содержимым.
5. После редактирования достаточно нажать кнопку «сохранить», как на глазах все видоизменится.
6. После необходимых процедур, нажав на «сохранить и добавить», начнется самая главная процедура — добавление материала на сайт с интервалом в 25 секунд (меньше интервал — блокировка сайта).

Указав в настройках (edit.php) нужные данные:

  • «ID или ник администратора» — пользователь, которому разрешается доступ к скрипту.
  • «Логин бота» — прежде создав пользователя, с правами, разрешающие добавление материалов (администратор).
  • «Пароль» — пароль от аккаунта бота
  • «Выберите модуль» — модуль, с каким будет работать бот
  • «Выберите категорию/форум» — категория почти во всех модулях важна, поэтому нужно будет выбрать ту или иную категорию. В с форумом — будет предложено выбрать необходимый форум.
  • «Адрес RSS ленты» — полный адрес испытуемой RSS-ленты.
  • «Элемент для заголовка» — прописать путь к элементу заголовка в стиле CSS (div.my_class_name:first).
  • «Элемент для текста/Путь к изображению» — путь к тексту в стиле CSS. В случае с фотоальбомом, бот будет брать SRC элемента.
  • «Максимум за раз» — предполагаемое количество материалов за один запуск скрипта. Если число записей меньше этого числа, преимущественно оно будет равно числу записей в ленте.


Для большего удобства, в настройках можно создать отдельный фильтр настроек, и загружать настройки в два клика. Всего несколько шагов:

  • Пройти инструкцию настроек (4..9).
  • поле «Название фильтра» указать название будущего фильтра.
  • Нажать «сохранить настройки».

Чтобы загрузить фильтр, достаточно просто выбрать из списка «Загрузить фильтр» нужный вам фильтр. Нажать «загрузить фильтр». Все фильтры располагаются в папке config.
Информация фильтра загружается в главный файл настроек config.txt, откуда они читаются.

Например, вы хотите брать информацию с двух сайтов. Укажите нужную информацию в настройках для первого сайта, и назовите его как угодно.Ту же самую операцию провести и со вторым сайтом. Когда захотите перейти к другим настройкам, выберите нужный фильтр, жмите «загрузить фильтр», а после перезагрузки страницы настроек на «перейти к парсингу» (возле кнопки «сохранить»). Такой способ сильно экономит время, которое можно было тратить на пере заполнение полей в настройках.

Скрипт работает на нескольких файлах-скриптах (*.php):

  • config.php — в нем находятся все-все настройки, константы, функции. Здесь же и устанавливается кодировка для скриптов UTF-8. Прямой доступ к файлу запрещен.
  • edit.php — настройки. Прямой доступ разрешен, но только одному пользователю — указанному в настройках.
  • add.php — добавление материалов. Прямой доступ только указанному в настройках пользователю.
  • work.php — рабочий скрипт.
  • В директория lib находится класс phpQuery.

Папки config, work создаются автоматически при запуске бота.

Для примера возьмем blog.ucoz.ru, что нужно указать в настройках:
1. Все заполняем до поля «Адрес RSS ленты»
2. В поле «Адрес RSS ленты» ввести: http://blog.ucoz.ru/blog/rss
3. В «Элемент для заголовка»: #content h1
4. «Элемент для текста»: div.text-outside
5. Далее заполняем на усмотрение

Установка:

1. Загрузить папку «php_bot» в корень FTP сервера s2000.ucoz.net

2. Запустить скрипт настроек «%ваш_сайт%/php/php_bot/edit.php», просто перейдя по ссылке

3. Указать в настройках все необходимые данные для корректной работы скрипта.

4. Начать парсинг материалов можно на странице «%ваш_сайт%/php/php_bot/add.php»

Всего комментариев: 4
1 bbbbbbz  
Нужен парсер для форума GTA, где можно скачать?

2 Prosvetekvator  
Я думаю этот скрипт можно настроить и для форума

4 Nio  
Не работает! При попытке зайти %ваш_сайт%/php/php_bot/edit.php выдаёт ({"SCRIPTDATA":"","ERROR":""})

не подскажете в чём проблема?

3 Reactor  
uCoz за него банит, еще как банит.

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]
 
 
 
 
Статистика
Вверх | меню | пользователи
Онлайн всего: 1
Гостей: 1
Пользователей: 0
 
 
Полная версия сайта