Создание файла Как создать правильный файл.htaccess. Что такое файл.htaccess

Приветствую Вас, уважаемые читатели блога сайт. В процессе разработки различных веб-сервисов периодически появляется необходимость сбора различной информации с других сайтов. Т.е. требуется производить парсинг сайтов . Особенность парсинга — это быстрый и автоматизированный сбор данных и контента со страниц сайта. Например, часто требуется получить каталог товаров, включая картинки, с различных интернет-магазинов в автоматическом режиме. В этом случае и пригодится механизм парсинга сайтов.

В основном в php применяется два способа получения контента со страниц сайта.

1. get — запрос с помощью функции file_get_contents ().

Функция позволяет получить содержимое файла в виде одной строки и имеет следующий синтаксис:

string file_get_contents (string filename [, bool use_include_path [, resource context [, int offset [, int maxlen]]]])
где filename — путь к файлу.

В случае неудачи функция возвращает FALSE.

В качестве имени файла можно указывать URL, то есть можно указать адрес нужной web-страницы, тогда функция вернет ее содержимое в виде html-кода. Например:

$url = "https://сайт/";
$result = file_get_contents ($url);

2. Использование библиотеки CURL .

В случае использования CURL код становится более громоздким, но появляется больше различных возможностей, так как библиотека имеет множество настроек и позволяет выполнять get и post запросы .

Получение содержимого страницы состоит из четырех действий:

  • инициализация сеанса с помощью функции curl_init() ;
  • установка нужных параметров с помощью функции curl_setopt() ;
  • выполнение запроса функцией curl_exec() ;
  • закрытие сеанса функцией curl_close() .

Например:


{





}

С помощью опции CURLOPT_URL указывается адрес веб страницы, опция CURLOPT_RETURNTRANSFER при ненулевом значении результат будет возвращен, а не выведен.

Если необходимо выполнить POST запрос к удаленному сайту , то необходимо опцию CURLOPT_POST установить в true , а в опцию CURLOPT_POSTFIELDS поместить передаваемые данные:

if ($curl = curl_init ()) //инициализация сеанса
{
curl_setopt ($curl, CURLOPT_URL, "http://сайт/");//указываем адрес страницы
curl_setopt ($curl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($curl, CURLOPT_POST, true);
curl_setopt ($curl, CURLOPT_POSTFIELDS, «i=1»);
curl_setopt ($curl, CURLOPT_HEADER, 0);
$result = curl_exec ($curl);//выполнение запроса
curl_close ($curl);//закрытие сеанса
}

В результате обоих способов в переменную $result попадает контент заданной страницы в виде строки html кода. После этого можно переходить непосредственно к парсингу страницы, то есть к извлечению из содержимого строки нужных данных. Например получить все картинки со страницы или извлечь текстовый контент.

Для парсинга можно воспользоваться регулярными выражениями, но лучше использовать встроенную библиотеку DOMDocument или библиотеку SimpleHTMLDOM .

На этом все, до новых встреч!

Доброго времени суток любителям по изучать что-то новенькое! Сегодняшняя статья обязательно вас заинтересует. Я расскажу, как создать файл.htaccess. Те, кто хоть немного наслышан о данном файле, понимают, насколько важно знать его принципы работы и уметь использовать в качественных веб-приложениях.

Поэтому в публикации вы найдете теоретический материал, узнаете, где и для чего используют.htaccess, разберетесь с некоторыми базовыми командами и возможно после будете использовать в своих программах. А теперь за дело!

И почему этот.htaccess такой особенный?

Профессиональные веб-разработчики отдают предпочтение использованию именно этого файла для настройки основных параметров веб-сервисов. Почему? Да потому что это мощный инструмент для установки дополнительной конфигурации на различных серверах (Denwer, Apache и других).

С его помощью обрабатывают всевозможные ошибки, организовывают редирект (перенаправление на другие по указанным ссылкам), защищают авторские данные, ускоряют время загрузки страниц, управляют загрузками различных скриптов, определяют стартовые страницы для html-сайта и многое другое.

. htaccess с легкостью вносит поправки на сервер на локальном уровне. При этом такие действия могут совершатся даже если у вас нет прав админа выбранного сервера. Все прописанные правила в файле применяются только к каталогам и вложенным подкаталогам проекта. При этом таких документов может быть несколько.

Пускай это и тривиально, но все-таки для предотвращения возможных вопросов я хочу добавить, что.htaccess отлично функционирует в любой операционной системе. Вы можете создать конфигурационный файл через любой на своем компьютере. Например, в Windows это «Блокнот», в Mac OS это «TextEdit», в Ubuntu – «Gedit» и т.д.

Каким образом можно создать чудо-файл конфигураций

На самом деле.htaccess создается достаточно просто. Порядок действий я перечислил чуть ниже. Не спешите самостоятельно оперировать командами, а первый раз аккуратно и по порядку выполните каждое действие. В зависимости от редактора, название действий могут несколько отличаться.


Важные команды

Вот мы и подошли к самому интересному! Первоочередным правилом, которое стоит прописать, это кодировка. Для этого существует вот такая строка:

AddDefaultCharset UTF-8

Если необходимо указать другой вариант кодировки, то ее название вставьте вместо UTF-8.

Еще одна супер-команда – это редирект. Благодаря.htaccess можно легко и быстро установить redirect 301, который позволяет перенаправлять пользователей на другие ссылки, склеивать доменные имена независимо от того есть www или нет.

Так следующие строки кода направят юзеров на сайт coolWeb.com вне зависимости от того есть ли www или нет, а также указана ли в ссылке стартовая страница (coolWeb.com/index.html) или нет.

RewriteEngine on RewriteCond %{ HTTP_REFERER}! ^$ RewriteCond %{ HTTP_REFERER}! ^http://(www\.)? coolWeb.com /.*$ RewriteRule \. (gif|jpg|js|css)$ - [F]

После выполнения данных правил вместо изображений на чужих сайтах будет отображаться сообщение об ошибке (403).

Подведение итогов

Как вы могли заметить, написание команд в.htaccess-файле происходит за счет регулярных выражений. В прошлых публикациях я рассказывал основы данного подхода. Однако это достаточно сложные команды, изучению которых нужно уделить достаточно много времени.

Для упрощения жизни девелоперам были созданы онлайн-генераторы кода для таких конфигурационных документов. В качестве примера можете ознакомиться с сайтом http://htaccess.ru/generator/ . Сгенерированными правилами можно оперировать и для настройки сайтов, написанных на движках. Таким образом, их можно использовать для WordPress, OpenCard, Joomla! и других.

Надеюсь, вам понравился изложенный мною материал. Жду от вас заявок на подписку. Обязательно делитесь ссылкой на мой блог с друзьями. Пока-пока!

С уважением, Роман Чуешов

Мы решили объединить две темы, "как сделать файл htaccess" и что такое "htaccess", где он располагается, зачем нужен и общие понятия!

Хоть тема htaccess - это не начальный уровень изучения, но мы потихоньку начинаем углубляться и htaccess - это неотъемлемая часть сайта!

Что такое htaccess

На вашем сайте(сервере) есть главный файл конфигурации, все, что так или иначе выполняется на вашем сайте зависит от этого файла, а вот файл htaccess - это - можно сравнить с дополнительными настройками системы... Иногда к главному конфигурационному файлу доступа нет и его невозможно изменить, если у вас нет соответствующего доступа. В этом случае - можно его изменить, только обратившись в техническую поддержку!

Определение что такое htaccess

.htaccess (/"eɪtʃtiːæk.sɛs/ от англ. hypertext access) - файл дополнительной конфигурации веб-сервера Apache, а также подобных ему серверов. Позволяет задавать большое количество дополнительных параметров и разрешений для работы веб-сервера в отдельных каталогах (папках), таких как управляемый доступ к каталогам, переназначение типов файлов и т.д., без изменения главного конфигурационного файла.

Где находится файл htaccess

Вы можете располагать данный файл, как в , и данный файл будет распространять свое влияние на весь сайт, но если вы хотите. отменить действие файла htaccess в какой-то папке, то просто создаем новый файл htaccess и вставляем его в ту папку, в которой хотим изменить правила...

Самый простой пример использования htaccess

Показать самый простой пример использования файла htaccess - чтобы далеко не ходить, используем две версии нашего сайта - 1. новая главная и новая версия всего сайта и 2. старая главная и старые страницы.

Для обоих версий выполняются правила

1. AddHandler fcgid-script .php .html .htm

Эта строка - SSI (Server Side Includes - включения на стороне сервера) - позволяющий включить в страницу информацию, недоступную средствами HTML, такую как вывод программ например PHP.

А по русски!?

Все файлы, которые вы открываете на нашем сайте имеют расширение ".html" - это не виртуальное расширение, а физическое, т.е. эта информация хранится в реальных файлах! Но если вы поместите любой код php в данный файл, то он выведется в виде простого текста и никак не выполнится! Для изменения этого и нужна данная строка... Как нибудь и об этом мы напишем, когда дойдем...

2. Может быть верхний пример довольно сложен для понимания, есть ли вариант попроще!?

Опять обратимся к нашему сайту. Если вы обратите внимание, что все новые страницы имеют общую папку "page" и все файлы, и как бы странно это не звучало, но такой папки - физически не существует...

Как в кино - видишь ложку!? Нет!? - А она существует!

RewriteRule ^page(.*) index.html [L]

Как сделать файл htaccess

Самое простое, как можно создать файл htaccess – это - заходим в ту папку. В которой нам нужно, чтобы находился файл htaccess – нажимаем ПКМ - создать – текстовый документ.

Вот на нижнем скрине мы видим, что наш новый текстовой документ создан. Теперь нам нужно его переименовать в.htaccess. Точка перед словом htaccess – это не ошибка – он так и выглядит!


Хм… только я хотел его переименовать, а он мне выдает:


Да… в windows 7 это проходило без проблем…

Ну, что же, мы пойдем другим путем!

Вариант №2.

Открываем созданный файл в блокноте, либо просто открываем текстовый блокнот и в нём указываем сохранение нашего файла htaccess в нужную директорию.

Имя файла - .htaccess

Тип файла – все файлы.


Всё – наш файл.htaccess – создан.


Где находится файл htaccess?

Он может находится где угодно в зависимости от необходимости, но если вам нужно, чтобы файл отвечал за все настройки сайта, то он должен находится в той же директории, что и файл index.html, ну или index.php.

Сервер Apache (на котором и находится большинство сайтов) имеет очень полезную возможность задавать определённые настройки сервера для конкретной директории (в частности, для одного сайта). Такой файл называется .htaccess . Однако, создавать его в Windows-системе так просто не получится. В этой статье я расскажу новичкам, как создаётся.htaccess в Windows .

Особенность файла состоит в том, что он не имеет имени, у него лишь расширение. Это норма для Unix-систем , но в Windows это не совсем норма. Итак, порядок действий для создания.htaccess следующий:

  1. Открыть текстовый редактор (Notepad++ или даже обычный Блокнот ).
  2. В меню "Файл " выбрать "Сохранить как ".
  3. В выпадающем списке "Тип файла " выбрать "Все файлы ".
  4. Ввести в качестве имени ".htaccess " (разумеется, без кавычек).
  5. Нажать на кнопку "Сохранить ".

Для новичков кое-что добавлю. В этом файле надо сразу прописать кодировку сайта. Если это UTF-8 :

AddDefaultCharset UTF-8

Если это windows-1251 :

AddDefaultCharset CP1251

Далее этот файл надо поместить в корень сайта, там где находится index-файл (как правило, это index.html или index.php ). Я об этом написал, поскольку у многих новичков проблемы с кодировкой на сайте именно по этой причине.