Возможности конфигурации
-
- Возможность задать максимальное кол-во слов в поисковых запросах;
- Поддержка шаблонов;
- Поддержка макросов;
- Категории и пользовательские страницы;
- Возможность включения и отключения использования PHP в шаблонах;
- Свои кеи (из файла keywords.txt), по которым дор может получать новые страницы;
- Возможность подключения своего txt-файла, из которого рандомно будут выбираться строки. Это могут быть комменты, ники, ссылки на другие доры и тд. Есть возможность использования макросов в txt-файлах, которые подключаете;
- ЧПУ:
- По умолчанию http://www.dor.ru/category/sample-post.html
- День и название http://www.dor.ru/2013/05/13/sample-post.html
- Месяц и название http://www.dor.ru/2013/05/sample-post.html
- md5(sample-post) http://www.dor.ru/91dbd3dbd0e3ca61e1d3834304417636.html
- Название записи http://www.dor.ru/sample-post/
- Префикс и название http://www.dor.ru/category/12345-sample-post.html
- Возможность генерации дора в виде key1.domain.tld/key2.html (на каждый кей свой субдомен + кеи на сабдоменах);
- Возможность имитирования «своих картинок» (требуется GD Support). При включении этой опции, ссылки на картинки будут иметь такой вид:
http://mydor.com/imgs/12345-kupit-bmw.jpg; - Иммитация популярных CMS — WordPress и DLE. Пример.
-
- Возможность подключения нескольких ПС, с которых будет парсится контент (чем больше, тем лучше).
При парсинге, ПС выбираются в случайном порядке. Это так же относится и к парсерам картинок, и к видео-парсерам.
Можно подключать свои парсеры; - Различные фильтры, которые удалят ненужные сниппеты по определенным словам, чтобы исключить попадания в дор ненужного контента (например, насило, детск, малолет и тд.);
Стоп-слова (можно использовать регулярные выражения);
Выбор нужных сниппетов — чтобы при парсинге оставались только релевантные запросу сниппеты; - Возможность парсинга сайтов по текущему запросу: на выходе получаем либо целые статьи, либо «мешанку» из предложений из нескольких сайтов сразу;
- Если на странице парсится, например, только контент, то парсеры картинок и видео не участвуют в процессе, чтобы не создавать лишнюю нагрузку;
- При использовании одинаковых Q_, R_ и D_-макросов контент не повторяется;
- Парсеры, которые уже есть в доргене:
текстовка картинки видео разное contentAllBy.php
contentBing.php
contentDeltaSearchCom.php
contentDuckduckgoCom.php
contentGoogle.php
contentGoogleJsonWeb.php
contentIf1000.php
contentInfospaceCom.php
contentMail.php
contentMetaUa.php
contentMysearchCom.php
contentRuAskCom.php
contentSearchLycosCom.php
contentSearchUkrNet.php
contentSearchYahoo.php
contentWebaltaRu.phpimagesAskCom.php
imagesBing.php
imagesDogpileCom.php
imagesGoogle.php
imagesInfospaceCom.php
imagesMail.php
imagesMetacrawlerCom.php
imagesQuinturaCom.php
imagesRambler.php
imagesYahoo.phpvideoMail.php
videoPornHub.php
videoRedTube.php
videoRuTube.php
videoSmotri.php
videoXHamster.php
videoXvideos.php
videoYouPorn.php
videoYoutubeApi.phprssPars.php
twitter.php
- Возможность подключения нескольких ПС, с которых будет парсится контент (чем больше, тем лучше).
-
- Включение и отключение кеша;
- Настройка времени кеша для главной и категорий;
- Несколько видов кеширования:
- Файловый кеш — все кешируется в файлы. Не работают некоторые функции, такие как «красивые ЧПУ» и тд.
- SQLite — кеш записывается в базы SQLite. Работают все функции, доступные в доргене.
- Гибридный кеш — страницы кешируются в файлы (как файловый
кеш), а все остальное — в SQLite. С таким кешем мы избавимся от большого
файла кеша страниц — он будет разбит на статические страницы в кеше.
Работают все функции, доступные в доргене. - Статический режим — после генерации страницы, кеш сохраняется
в директорию скрипта с текущим названием страницы (корневая папка с
доргеном должна быть доступна для записи). Если страница была
сгенерированна в категории (/cat/page.html), то в корневой папке
создается эта категория. При обращении к закешированной странице, сервер
просто открывает ее, минуя скрипт. Скорость отдачи такой страницы равна
скорости отдачи обычной статической html-страницы. Работают все
функции, доступные в доргене, кроме обработки уже закешированных страниц
(макросы NO_CACHE и SHORT_NEWS). Главная и категории обновляются по
указанному периоду времени, а так же карта сайта и RSS остаются
динамическими. Режим не совместим с видами урлов: «2 — День и название»
и «3 — Месяц и название».
- Возможность использование «резервуара». При ошибке парсинга (например, нет результатов или бан) на странице будут показаны данные из «резервуара» — это файлы, в которых записаны результаты прошлых удачных парсингов. Если функция включена, то у страниц будет второй шанс;
- Возможность задать максимальное кол-во файлов в папках для кеша;
- Возможность включения и отключения создания новых папок для кеша при превышении лимита на создание файлов. Например, выше вы задали лимит на 900 файлов кеша и она уже заполнилась. Тогда скрипт создаст папку 2, в которой тоже можно будет сохранить не более 900 файлов и тд. — 1, 2, 3…100500… Если отключена эта опция, то новые файлы кеша будут заменять старые при достижении лимита;
- Возможность включения и отключения кеша для спарсенных картинок, с указанием максимального кол-ва картинок в кеше;
- Управление кешем через интерфейс;
-
- Встроенный генератор sitemap.html, sitemap.xml и RSS. Для html-версии карты сайта можно задать кол-во ссылок на странице карты, при превышении которых будет создана вторая страница карты сайта и тд.
- Возможность задать префикс для карты сайта, например, karta-sayta.html
-
- Возможность использования прокси. В качестве источника прокси можно задать либо файл с проксями, либо url – скрипт автоматически спарсит все прокси на странице;
- Возможность использования дополнительных IP, которые добавлены на Вашем сервере, и через которые будет идти парсинг;
-
- Поддержка Ру и Бурж;
- Возможность запускать дорген в субдоменах и в папках;
- RSS — 15 последних записей из карты сайта (можно указать свое кол-во);
- Удаление сторонних урлов с контента при парсинге;
- Создание ссылок для спама по шаблону, например, в bb-кодах и html;
- «Паук», который пробежится по внутренним ссылкам из карты сайта, чтобы закешировать доры;
- Есть интерфейс для настроек дора;