Q: What's the difference between the government and the Mafia?
A: One of them is organized.
Q: What is the Australian word for a boomerang that won't come back?
A: A stick.
| using System; | |
| namespace Hometask | |
| { | |
| public class UserRegistrationService | |
| { | |
| public void RegisterUser(string emailAddress) | |
| { | |
| if(client.CheckUserExists(emailAddress)) | |
| throw new Exception(string.Format("User with e-mail '{0}' already exists", emailAddress)); |
Реализовать сервис, который обходит произвольный сайт (например https://ria.ru/, http://www.vesti.ru/, http://echo.msk.ru/, http://tass.ru/ural, https://lenta.ru/) с глубиной 2 и сохраняет html, url и title страницы в произвольное хранилище (на ваш выбор)
Оптимизировать прогрузку по потреблению памяти и по времени.
По урлу сайта из хранилища можно получить n прогруженных страниц (url и title)
обращение из командной строки
Все данные складывать в очередь Rabbitmq https://www.rabbitmq.com
####Будет плюсом
| ДОСТАТОЧНО выполнить любое из заданий. | |
| Выполнение 1(рефакторинг 1.py) и 2(хотя бы частично) будет большим плюсом. | |
| Разместить результаты в своем git репозитории. | |
| 1. Выбрать для рефакторинга один из файлов ниже 1.py(полегче) или 2.py(для упоротых) отрефакторить и указать ошибки, предложить варианты улучшения. | |
| http://acm.timus.ru/problem.aspx?space=1&num=1846 | |
| 2. Допустим, есть кравлер https://instagram.com, который должен грузить вообще все сообщения этой соц сети (Включая комментарии). | |
| Опишите возможные стратегии загрузки и рассчитайте в соответствии с ними и ограничениями апи необходимое количество(можно приблизительное) | |
| ресурсов(приложений, выделенных ip, места для записи данных за 1 день в среднем) для стабильной загрузки. |
| 1. Из таблицы были удалены значения, необходимо восстановить таблицу так, чтобы для каждой строки были заполнены все параметры | |
| 2. Понять как параметры зависят друг от друга | |
| "Реализовать сервис на языке python, который считывает данные из csv файла, | |
| заполняет пробелы и сохраняет рядом в новый файл csv" | |
| создать проект на https://github.com/ и вставить ссылку на него в шапку листа "результат" | |
| При написании проекта придерживаться https://www.python.org/dev/peps/pep-0008/ | |
| Будет плюсом продемонстрировать знание ооп | |
###Полезные ссылки:
Сам по себе модуль хорошо документирован.
###Описание Word2Vec - штука, принимающая на вход массив из предложений(являющихся массивом из слов) и возвращающая некий объект. Этот некий объект реализует интерфейс dict, где ключами являются слова. И несколько методов, о которых расскажу дальше.
| если в крации про object.__del__(self) | |
| del x не является прямым вызовом x.__del__() - первая форма сокращает количество ссылок на объект x на одну, тогда как последний метод вызывается только когда количество ссылок достигает нуля. В некоторых часто встречающихся случаях могут возникнуть ситуации, мешающие обнулению счётчика, как то: | |
| взаимные ссылки между объектами (в списках или в деревьях) | |
| ссылки на объекты в стеке функции, где было вызвано исключение, так как в таком случае ссылки на объекты этого стека сохранены в sys.exc_traceback | |
| ссылки на объекты в стеке, если было вызвано не перехваченное исключение в интерактивном режиме (так как в таком случае ссылки на объекты сохранены в sys.last_traceback) | |
| Валерия Болотова: все на оф написано только на ангийском | |
| [12:56:27] Валерия Болотова: В первом случае необходимо явно разрушить циклические ссылки; во втором и третьем - сохранить None в sys.exc_traceback или sys.last_traceback. Циклические ссылки определяются сборщиком мусора, если активирована соответству |
| --partitioning like http://www.postgresql.org/docs/9.3/static/ddl-partitioning.html | |
| --create master table | |
| CREATE TABLE master_table | |
| ( | |
| id serial, | |
| key character varying NOT NULL, | |
| value character varying NOT NULL, | |
| CONSTRAINT master_table_pkey PRIMARY KEY (id) | |
| ); | |
| --create slave tables with constraint |