Skip to content

Тестовое задание для Тензор

Notifications You must be signed in to change notification settings

stiig/tensor-test

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 

Repository files navigation

tensor-test

Тестовое задание для Тензор

Установка

Установка не требуется, т.к. используется стандартная библиотека

Использование

python scrap.py <url>

Описание работы

Основной разбор происходит в классе Parser и в HTMLSourceParser. Считается глубина вложенности тегов div и затем отбирается div с наибольшим количеством вложенных div.

Для заголовка берется первый h1 заголовок встреченный на странце.

URL адреса на которых тестировалось и результаты тестов

https://lenta.ru/news/2016/07/01/vapersong/

Результат

lenta.ru/news/2016/07/01/vapersong.txt
Русские вейперы обзавелись гимном

Русские вейперы обзавелись гимном

Музыкант и видеоблогер Павел Лысков
выложил[https://www.youtube.com/watch?v=_RQWxvj5ifk] на YouTube клип, в котором
собрал различные шутки и стереотипы о субкультуре вейпинга. В сети ролик
окрестили гимном русских вейперов.

Клип представляет собой lyric video, то есть такой ролик, в котором видеоряд
состоит из кадров с текстом песни. При этом в «Гимне русских вейперов» слова
появляются на стилизованном под экран электронной сигареты фоне.

В начале июня телеведущий Иван Ургант
рассказал[https://lenta.ru/news/2016/06/08/variatsii_s_koltsom/] зрителям о том,
что такое вейпинг, и пригласил в свое шоу команду вейперов Cloudfuckers. Молодые
люди продемонстрировали мастерство выдувания колец из пара под музыку.

Вейпинг — курение электронных сигарет без табака. В устройство заливается
специальная ароматическая жидкость, которая нагревается до высокой температуры,
а затем испаряется. Именно этот пар и вдыхают вейперы, причем большая часть
жидкостей не содержит никотина.

http://www.gazeta.ru/business/news/2016/07/04/n_8843207.shtml

Результат

www.gazeta.ru/business/news/2016/07/04/n_8843207.shtm.txt
Голодец заявила об отсутствии роста задолженности по зарплатам перед россиянами

04.07.2016 | 22:32

Вице-премьер правительства Ольга Голодец заявила, что в России в настоящее
время нет роста задолженностей по зарплатам, передает

РИА «Новости»

.

«У нас нет роста по задержкам зарплат, мы ситуацию мониторим в режиме онлайн,
и сейчас ситуация стабильная, у нас есть задолженность, но она не растет», —
сказала она.

Ранее

[http://www.gazeta.ru/business/news/2016/07/04/n_8842223.shtml] президент
России Владимир Путин подписал закон, повышающий штрафы для работодателей за
задержку или невыплату зарплаты.

Согласно данным Росстата, общая задолженность по зарплате в стране

составляет

[http://www.gazeta.ru/business/news/2016/06/20/n_8785175.shtml] порядка 4 млрд
руб. При этом указано, что доля долгов по заработной плате растет из-за
отсутствия у организаций собственных средств.

Подписывайтесь на канал «Газеты.Ru» в

Telegram

[https://telegram.me/gazetaru], чтобы первыми узнавать о главных новостях и
важнейших событиях дня.

Все новости дня[/news/]

[/business/news/]

Читайте также

На место Астахова ищут женщину

[http://www.gazeta.ru/politics/2016/07/11_a_9341519.shtml]

Зачистка в зонах

[http://www.gazeta.ru/business/2016/07/10/8387711.shtml]

От героя до изгоя

[http://www.gazeta.ru/comments/2016/07/11_e_9574601.shtml]

Эвакуация в рассрочку

[http://www.gazeta.ru/auto/2016/07/08_a_8382467.shtml]

Покемоны улучшили жизнь собак

[http://www.gazeta.ru/pets/articles/pokemon.shtml]

Дальнейшие планы по улучшению

В дальнейшем можно разбить программу на модули/пакеты которые отвечают за определенные части программы, вынести классы в отедельные файлы. Так же использовать готовые библиотеки для разбора HTML. Плюс покрыть каждый класс тестами. С точки зрения развития функциональности, можно сохранять статьи не в виде отдельных файлов, а использовать, даже ту же SQLite, в качестве хранилища. Как дополнение, можно реализовать сначала поиск статьи на диске/БД и в случае успеха выдавать "кешированную" версию статьи, без накладных ресурсов на запрос к url. Если целенаправленно собирать контент с сайта, я думаю лучше воспользоваться чем-то вроде Scrappy. Я думаю вариантов улучшения можно придумать очень много.

About

Тестовое задание для Тензор

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages