Тестовое задание для Тензор
Установка не требуется, т.к. используется стандартная библиотека
python scrap.py <url>
Основной разбор происходит в классе Parser и в HTMLSourceParser. Считается глубина вложенности тегов div и затем отбирается div с наибольшим количеством вложенных div.
Для заголовка берется первый h1 заголовок встреченный на странце.
https://lenta.ru/news/2016/07/01/vapersong/
Результат
lenta.ru/news/2016/07/01/vapersong.txt
Русские вейперы обзавелись гимном
Русские вейперы обзавелись гимном
Музыкант и видеоблогер Павел Лысков
выложил[https://www.youtube.com/watch?v=_RQWxvj5ifk] на YouTube клип, в котором
собрал различные шутки и стереотипы о субкультуре вейпинга. В сети ролик
окрестили гимном русских вейперов.
Клип представляет собой lyric video, то есть такой ролик, в котором видеоряд
состоит из кадров с текстом песни. При этом в «Гимне русских вейперов» слова
появляются на стилизованном под экран электронной сигареты фоне.
В начале июня телеведущий Иван Ургант
рассказал[https://lenta.ru/news/2016/06/08/variatsii_s_koltsom/] зрителям о том,
что такое вейпинг, и пригласил в свое шоу команду вейперов Cloudfuckers. Молодые
люди продемонстрировали мастерство выдувания колец из пара под музыку.
Вейпинг — курение электронных сигарет без табака. В устройство заливается
специальная ароматическая жидкость, которая нагревается до высокой температуры,
а затем испаряется. Именно этот пар и вдыхают вейперы, причем большая часть
жидкостей не содержит никотина.
http://www.gazeta.ru/business/news/2016/07/04/n_8843207.shtml
Результат
www.gazeta.ru/business/news/2016/07/04/n_8843207.shtm.txt
Голодец заявила об отсутствии роста задолженности по зарплатам перед россиянами
04.07.2016 | 22:32
Вице-премьер правительства Ольга Голодец заявила, что в России в настоящее
время нет роста задолженностей по зарплатам, передает
РИА «Новости»
.
«У нас нет роста по задержкам зарплат, мы ситуацию мониторим в режиме онлайн,
и сейчас ситуация стабильная, у нас есть задолженность, но она не растет», —
сказала она.
Ранее
[http://www.gazeta.ru/business/news/2016/07/04/n_8842223.shtml] президент
России Владимир Путин подписал закон, повышающий штрафы для работодателей за
задержку или невыплату зарплаты.
Согласно данным Росстата, общая задолженность по зарплате в стране
составляет
[http://www.gazeta.ru/business/news/2016/06/20/n_8785175.shtml] порядка 4 млрд
руб. При этом указано, что доля долгов по заработной плате растет из-за
отсутствия у организаций собственных средств.
Подписывайтесь на канал «Газеты.Ru» в
Telegram
[https://telegram.me/gazetaru], чтобы первыми узнавать о главных новостях и
важнейших событиях дня.
Все новости дня[/news/]
[/business/news/]
Читайте также
На место Астахова ищут женщину
[http://www.gazeta.ru/politics/2016/07/11_a_9341519.shtml]
Зачистка в зонах
[http://www.gazeta.ru/business/2016/07/10/8387711.shtml]
От героя до изгоя
[http://www.gazeta.ru/comments/2016/07/11_e_9574601.shtml]
Эвакуация в рассрочку
[http://www.gazeta.ru/auto/2016/07/08_a_8382467.shtml]
Покемоны улучшили жизнь собак
[http://www.gazeta.ru/pets/articles/pokemon.shtml]
В дальнейшем можно разбить программу на модули/пакеты которые отвечают за определенные части программы, вынести классы в отедельные файлы. Так же использовать готовые библиотеки для разбора HTML. Плюс покрыть каждый класс тестами. С точки зрения развития функциональности, можно сохранять статьи не в виде отдельных файлов, а использовать, даже ту же SQLite, в качестве хранилища. Как дополнение, можно реализовать сначала поиск статьи на диске/БД и в случае успеха выдавать "кешированную" версию статьи, без накладных ресурсов на запрос к url. Если целенаправленно собирать контент с сайта, я думаю лучше воспользоваться чем-то вроде Scrappy. Я думаю вариантов улучшения можно придумать очень много.