BUPTGuo BUPTGuo

System Design Cheatsheet

Picking the right architecture = Picking the right battles + Managing trade-offs

Basic Steps

Clarify and agree on the scope of the system

User cases (description of sequences of events that, taken together, lead to a system doing something useful)
- Who is going to use it?
- How are they going to use it?

注意：本文内容适用于 Tmux 2.3 及以上的版本，但是绝大部分的特性低版本也都适用，鼠标支持、VI 模式、插件管理在低版本可能会与本文不兼容。

Tmux 快捷键 & 速查表 & 简明教程

启动新会话：

tmux [new -s 会话名 -n 窗口名]

恢复会话：

How to use Pelican on GitHub Pages

Author: Josef Jezek

Install on Ubuntu

Installing Python tools

sudo apt-get install python-setuptools

次序	简要步骤	具体步骤	作用
1	收集	信息收集	根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法, 将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。
2	收集	数据集成	把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
3	预处理	数据规约	数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。
4	预处理	数据清理	在数据库中的数据有一些是不完整的 (有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。
5	预处理	数据变换	通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步
6	挖掘	挖掘过程	根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。
7	挖掘	模式评估	从商业角度,由行业专家来验证数据挖掘结果的正确性。
8	挖掘	知识表示	将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。

	from gensim.models import KeyedVectors

	# Load gensim word2vec
	w2v_path = '<Gensim File Path>'
	w2v = KeyedVectors.load_word2vec_format(w2v_path)

	import io

	# Vector file, `\t` seperated the vectors and `\n` seperate the words
	"""

	Download Google Drive files with WGET

	Example Google Drive download link:

	https://docs.google.com/open?id=[ID]
	To download the file with WGET you need to use this link:

	https://googledrive.com/host/[ID]

	Example WGET command:

	# -- coding: utf-8 --
	"""
	Created on Tue Feb 25 22:19:09 2014

	@author: bistaumanga

	Local Outlier factor implementation in python

	Implementations are in two version for calculating knn:
	1. Naive method

	大型网站技术架构：核心原理与案例分析
	跳转至：导航、搜索

	p XI. 。。。但能在比较短的时间内解决这些技术问题，也说明了网站架构其实并不难，真正能解决问题的技术一定是简单的
	大内存服务器作为分布式缓存
	缓存预热、缓存穿透（请求不存在的数据？）
	JBoss Cache
	Memcached：TCP＋文本命令？
	基于Libevent
	应用服务器集群＋负载均衡

	import multiprocessing
	import pandas as pd
	import numpy as np

	def _apply_df(args):
	df, func, kwargs = args
	return df.apply(func, **kwargs)

	def apply_by_multiprocessing(df, func, **kwargs):
	workers = kwargs.pop('workers')