Плохая новость: ваши закрытые PDF-документы, не предназначенные для публичного распространения, можно найти простым запросом в Google. В середине июля на форуме Hacker News опубликовали пример такого запроса. Рассказываем о том, как работает эта технология и как защитить свои документы, пока до них не добрались конкуренты или хакеры.
Эта заметка была изначально написана для еженедельной технорассылки The Bell. Подписаться на нее можно здесь.
Краткий ответ: не совсем похищать и не только Google.
Любой популярный поисковик обладает развитым языком запросов. Google-хак — это запрос, в ответ на который посетитель получает либо список случайно проиндексированных секретных страниц, либо, что опаснее, доступ к служебной странице, позволяющей внести изменения в конфигурацию сервера.
Например, вы можете вбить в Google запрос «site:thebell.io Яндекс Google Docs». Это позволит найти на сайте The Bell страницы, где российский поисковик упоминается в контексте прошлогоднего скандала с утечкой информации из Google Docs (утренняя рассылка, как все началось, новость).
"site:" — так называемый оператор поиска, а "thebell.io" — аргумент, который передается оператору. Таких операторов у разных систем много, и при определенной фантазии они позволяют найти страницы, по халатности владельца сайта оставленные открытыми для поисковиков — а значит, и всех желающих.
Краткий ответ: все.
В базе данных хаков есть удобная рубрикация по типам найденного контента. Вот что может найти пытливый пользователь:
- списки паролей;
- закрытую информацию: электронные таблицы, результаты опросов, аналитические отчеты;
- страницы подключения к различным устройствам, включая трансляции видеокамер;
- страницы, содержащие формы входа в системы управления порталом;
- каталоги с конфигурационными файлами сервера — включая почтовые;
- незащищенные админские интерфейсы.
Следует заметить, что далеко не все найденные пароли будут работать и далеко не все документы, помеченные как «для служебного пользования», сохраняют этот статус — например, спецификации некоторых микросхем непубличны до конца разработки, но ничего секретного в них нет.
Краткий ответ: несколько тысяч.
С 2003 по 2019 год специалисты занесли в базу данных хаков на exploit-db.com почти 4800 записей.
Некоторые запросы с тех пор потеряли актуальность или не работают так, как предполагалось, а некоторые записи содержат сразу десятки «хаков».
Краткий ответ: из-за халатности и беспечности пользователей.
Поисковик по умолчанию готов проиндексировать все, что найдет на сайте. Есть только два способа точно исключить файл из индексации — не хранить его по прямой ссылке или потребовать авторизации.
Третий по надежности способ — запретить индексировать файлы и каталоги в специальном файле robots.txt. Однако далеко не все роботы слушаются директив в этом файле.
К сожалению, пользователи чаще всего идут четвертым путем — надеются, что ссылка на файл не попадется на глаза поисковому роботу. Часто они ошибаются, и злоумышленник, если придумает правильный запрос, сможет прочесть документ.
Краткий ответ: думайте, прежде чем опубликуете ссылку, которую можно открыть без авторизации.
Вот пять советов:
- Если вы опубликовали документ (или выложили на YouTube ролик) по прямой ссылке, будьте готовы, что его найдут, сохранят, перевыложат. Не оставляйте в документе пометок вроде «для служебного пользования» — если можете, придумайте собственные обозначения, которые не придут в голову хакерам и конкурентам.
- Если вы работаете над служебным документом (текстом или, например, иллюстрацией), пригласите коллег по email и не давайте им прав приглашать других.
- Всегда пишите документы так, чтобы не было стыдно, если они окажутся в публичном пространстве. Это простое правило спасло репутацию не одной крупной компании.
- Не полагайтесь на облака сверх меры. Часть хаков направлена как раз на поиск служебных документов в общедоступных хранилищах Amazon. Более того, несколько крупнейших утечек баз данных с паролями были найдены именно с помощью прочесывания облачной инфраструктуры на предмет открытых интерфейсов.
- Генерируйте пароли и включите двухфакторную аутентификацию. Иногда слабый пароль без подтверждения становится причиной крупной утечки, потому что хакер нашел вход и ввел несколько очевидных вариантов.