Доброго времени всем.
Есть желание создать дома что-то вроде архива для хранения тех стоящих документов (статей, видеороликов, аудиозаписей), которые встречаются на просторах Интернета. Проблема в том, что данные (те же статьи) лежат в сети в разных форматах. Приведу пример: аналитическая статья на новостном ресурсе (как правило, это чистый текст, но бывают картинки/графики, а то и фотогалереи), блог на livejournal, заметки на facebook, pdf-документы и т.д..
Если тупо выдрать текст, то потеряется форматирование и интегрированные аудио/видео/фото элементы. Хранить ссылки - тоже не вариант, т.к. ресурсы переезжают/закрываются, какие-то ссылки перестают работать.
Было бы здорово скачать это все к себе, привести к единому формату и добавить тэги (чтобы работал поиск по ключевым словам).
Есть идеи, какими инструментами это можно было бы сделать?
Спасибо.
Есть желание создать дома что-то вроде архива для хранения тех стоящих документов (статей, видеороликов, аудиозаписей), которые встречаются на просторах Интернета. Проблема в том, что данные (те же статьи) лежат в сети в разных форматах. Приведу пример: аналитическая статья на новостном ресурсе (как правило, это чистый текст, но бывают картинки/графики, а то и фотогалереи), блог на livejournal, заметки на facebook, pdf-документы и т.д..
Если тупо выдрать текст, то потеряется форматирование и интегрированные аудио/видео/фото элементы. Хранить ссылки - тоже не вариант, т.к. ресурсы переезжают/закрываются, какие-то ссылки перестают работать.
Было бы здорово скачать это все к себе, привести к единому формату и добавить тэги (чтобы работал поиск по ключевым словам).
Есть идеи, какими инструментами это можно было бы сделать?
Спасибо.