使用Python操作Redis

http://debugo.com/python-redis/

1. 安装pyredis
首先安装pip

# apt-get install python-pip
……
# pip install –proxy=http://172.1.2.6:8080 redis
Downloading redis-2.9.1.tar.gz (62kB): 62kB downloaded
Running setup.py (path:/tmp/pip_build_root/redis/setup.py) egg_info for package redis
……
Successfully installed redis
Cleaning up…
1
2
3
4
5
6
7
8
# apt-get install python-pip
……
# pip install –proxy=http://172.1.2.6:8080 redis
Downloading redis-2.9.1.tar.gz (62kB): 62kB downloaded
Running setup.py (path:/tmp/pip_build_root/redis/setup.py) egg_info for package redis
……
Successfully installed redis
Cleaning up…
也可以使用easy_install的方式来安装:

easy_install redis
1
easy_install redis
或者直接编译安装:

wget https://pypi.python.org/packages/source/r/redis/redis-2.9.1.tar.gz
tar xvzf redis-2.9.1.tar.gz
cd redis-2.9.1
python setup.py install
1
2
3
4
wget https://pypi.python.org/packages/source/r/redis/redis-2.9.1.tar.gz
tar xvzf redis-2.9.1.tar.gz
cd redis-2.9.1
python setup.py install

2 . 简单的redis操作
redis连接实例是线程安全的,可以直接将redis连接实例设置为一个全局变量,直接使用。如果需要另一个Redis实例(or Redis数据库)时,就需要重新创建redis连接实例来获取一个新的连接。同理,python的redis没有实现select命令。

>>> import redis
>>> r = redis.Redis(host=’localhost’,port=6379,db=0)
>>> r.set(‘guo’,'shuai’)
True
>>> r.get(‘guo’)
‘shuai’
>>> r['guo']
‘shuai’
>>> r.keys()
['guo']
>>> r.dbsize() #当前数据库包含多少条数据
1L
>>> r.delete(‘guo’)
1
>>> r.save() #执行“检查点”操作,将数据写回磁盘。保存时阻塞
True
>>> r.get(‘guo’);
>>> r.flushdb() #清空r中的所有数据
True
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
>>> import redis
>>> r = redis.Redis(host=’localhost’,port=6379,db=0)
>>> r.set(‘guo’,'shuai’)
True
>>> r.get(‘guo’)
‘shuai’
>>> r['guo']
‘shuai’
>>> r.keys()
['guo']
>>> r.dbsize() #当前数据库包含多少条数据
1L
>>> r.delete(‘guo’)
1
>>> r.save() #执行“检查点”操作,将数据写回磁盘。保存时阻塞
True
>>> r.get(‘guo’);
>>> r.flushdb() #清空r中的所有数据
True
3. pipeline操作
管道(pipeline)是redis在提供单个请求中缓冲多条服务器命令的基类的子类。它通过减少服务器-客户端之间反复的TCP数据库包,从而大大提高了执行批量命令的功能。

>>> p = r.pipeline() –创建一个管道
>>> p.set(‘hello’,'redis’)
>>> p.sadd(‘faz’,'baz’)
>>> p.incr(‘num’)
>>> p.execute()
[True, 1, 1]
>>> r.get(‘hello’)
‘redis’
1
2
3
4
5
6
7
8
>>> p = r.pipeline() –创建一个管道
>>> p.set(‘hello’,'redis’)
>>> p.sadd(‘faz’,'baz’)
>>> p.incr(‘num’)
>>> p.execute()
[True, 1, 1]
>>> r.get(‘hello’)
‘redis’
管道的命令可以写在一起,如:

>>> p.set(‘hello’,'redis’).sadd(‘faz’,'baz’).incr(‘num’).execute()
1
>>> p.set(‘hello’,'redis’).sadd(‘faz’,'baz’).incr(‘num’).execute()
默认的情况下,管道里执行的命令可以保证执行的原子性,执行pipe = r.pipeline(transaction=False)可以禁用这一特性。

4. 应用场景 – 页面点击数
《Redis Cookbook》对这个经典场景进行详细描述。假定我们对一系列页面需要记录点击次数。例如论坛的每个帖子都要记录点击次数,而点击次数比回帖的次数的多得多。如果使用关系数据库来存储点击,可能存在大量的行级锁争用。所以,点击数的增加使用redis的INCR命令最好不过了。
当redis服务器启动时,可以从关系数据库读入点击数的初始值(1237这个页面被访问了34634次)

>>> r.set(“visit:1237:totals”,34634)
True
1
2
>>> r.set(“visit:1237:totals”,34634)
True
每当有一个页面点击,则使用INCR增加点击数即可。

>>> r.incr(“visit:1237:totals”)
34635
>>> r.incr(“visit:1237:totals”)
34636
1
2
3
4
>>> r.incr(“visit:1237:totals”)
34635
>>> r.incr(“visit:1237:totals”)
34636
页面载入的时候则可直接获取这个值

>>> r.get (“visit:1237:totals”)
’34636′
1
2
>>> r.get (“visit:1237:totals”)
’34636′
5. 使用hash类型保存多样化对象
当有大量类型文档的对象,文档的内容都不一样时,(即“表”没有固定的列),可以使用hash来表达。

>>> r.hset(‘users:jdoe’, ‘name’, “John Doe”)
1L
>>> r.hset(‘users:jdoe’, ‘email’, ‘John@test.com’)
1L
>>> r.hset(‘users:jdoe’, ‘phone’, ’1555313940′)
1L
>>> r.hincrby(‘users:jdoe’, ‘visits’, 1)
1L
>>> r.hgetall(‘users:jdoe’)
{‘phone’: ’1555313940′, ‘name’: ‘John Doe’, ‘visits’: ’1′, ‘email’: ‘John@test.com’}
>>> r.hkeys(‘users:jdoe’)
['name', 'email', 'phone', 'visits']
1
2
3
4
5
6
7
8
9
10
11
12
>>> r.hset(‘users:jdoe’, ‘name’, “John Doe”)
1L
>>> r.hset(‘users:jdoe’, ‘email’, ‘John@test.com’)
1L
>>> r.hset(‘users:jdoe’, ‘phone’, ’1555313940′)
1L
>>> r.hincrby(‘users:jdoe’, ‘visits’, 1)
1L
>>> r.hgetall(‘users:jdoe’)
{‘phone’: ’1555313940′, ‘name’: ‘John Doe’, ‘visits’: ’1′, ‘email’: ‘John@test.com’}
>>> r.hkeys(‘users:jdoe’)
['name', 'email', 'phone', 'visits']
6. 应用场景 – 社交圈子数据
在社交网站中,每一个圈子(circle)都有自己的用户群。通过圈子可以找到有共同特征(比如某一体育活动、游戏、电影等爱好者)的人。当一个用户加入一个或几个圈子后,系统可以向这个用户推荐圈子中的人。
我们定义这样两个圈子,并加入一些圈子成员。

>>> r.sadd(‘circle:game:lol’,'user:debugo’)
1
>>> r.sadd(‘circle:game:lol’,'user:leo’)
1
>>> r.sadd(‘circle:game:lol’,'user:Guo’)
1
>>> r.sadd(‘circle:soccer:InterMilan’,'user:Guo’)
1
>>> r.sadd(‘circle:soccer:InterMilan’,'user:Levis’)
1
>>> r.sadd(‘circle:soccer:InterMilan’,'user:leo’)
1
1
2
3
4
5
6
7
8
9
10
11
12
>>> r.sadd(‘circle:game:lol’,'user:debugo’)
1
>>> r.sadd(‘circle:game:lol’,'user:leo’)
1
>>> r.sadd(‘circle:game:lol’,'user:Guo’)
1
>>> r.sadd(‘circle:soccer:InterMilan’,'user:Guo’)
1
>>> r.sadd(‘circle:soccer:InterMilan’,'user:Levis’)
1
>>> r.sadd(‘circle:soccer:InterMilan’,'user:leo’)
1
#获得某一圈子的成员

>>> r.smembers(‘circle:game:lol’)
set(['user:Guo', 'user:debugo', 'user:leo'])
redis> smembers circle:jdoe:family
1
2
3
>>> r.smembers(‘circle:game:lol’)
set(['user:Guo', 'user:debugo', 'user:leo'])
redis> smembers circle:jdoe:family
可以使用集合运算来得到几个圈子的共同成员:

>>> r.sinter(‘circle:game:lol’, ‘circle:soccer:InterMilan’)
set(['user:Guo', 'user:leo'])
>>> r.sunion(‘circle:game:lol’, ‘circle:soccer:InterMilan’)
set(['user:Levis', 'user:Guo', 'user:debugo', 'user:leo'])
1
2
3
4
>>> r.sinter(‘circle:game:lol’, ‘circle:soccer:InterMilan’)
set(['user:Guo', 'user:leo'])
>>> r.sunion(‘circle:game:lol’, ‘circle:soccer:InterMilan’)
set(['user:Levis', 'user:Guo', 'user:debugo', 'user:leo'])
7. 应用场景 – 实时用户统计
Counting Online Users with Redis介绍了这个方法。当我们需要在页面上显示当前的在线用户时,就可以使用Redis来完成了。首先获得当前时间(以Unix timestamps方式)除以60,可以基于这个值创建一个key。然后添加用户到这个集合中。当超过你设定的最大的超时时间,则将这个集合设为过期;而当需要查询当前在线用户的时候,则将最后N分钟的集合交集在一起即可。由于redis连接对象是线程安全的,所以可以直接使用一个全局变量来表示。

import time
from redis import Redis
from datetime import datetime
ONLINE_LAST_MINUTES = 5
redis = Redis()

def mark_online(user_id): #将一个用户标记为online
now = int(time.time()) #当前的UNIX时间戳
expires = now + (app.config['ONLINE_LAST_MINUTES'] * 60) + 10 #过期的UNIX时间戳
all_users_key = ‘online-users/%d’ % (now // 60) #集合名,包含分钟信息
user_key = ‘user-activity/%s’ % user_id
p = redis.pipeline()
p.sadd(all_users_key, user_id) #将用户id插入到包含分钟信息的集合中
p.set(user_key, now) #记录用户的标记时间
p.expireat(all_users_key, expires) #设定集合的过期时间为UNIX的时间戳
p.expireat(user_key, expires)
p.execute()

def get_user_last_activity(user_id): #获得用户的最后活跃时间
last_active = redis.get(‘user-activity/%s’ % user_id) #如果获取不到,则返回None
if last_active is None:
return None
return datetime.utcfromtimestamp(int(last_active))

def get_online_users(): #获得当前online用户的列表
current = int(time.time()) // 60
minutes = xrange(app.config['ONLINE_LAST_MINUTES'])
return redis.sunion(['online-users/%d' % (current - x) #取ONLINE_LAST_MINUTES分钟对应集合的交集
for x in minutes])
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
import time
from redis import Redis
from datetime import datetime
ONLINE_LAST_MINUTES = 5
redis = Redis()

def mark_online(user_id): #将一个用户标记为online
now = int(time.time()) #当前的UNIX时间戳
expires = now + (app.config['ONLINE_LAST_MINUTES'] * 60) + 10 #过期的UNIX时间戳
all_users_key = ‘online-users/%d’ % (now // 60) #集合名,包含分钟信息
user_key = ‘user-activity/%s’ % user_id
p = redis.pipeline()
p.sadd(all_users_key, user_id) #将用户id插入到包含分钟信息的集合中
p.set(user_key, now) #记录用户的标记时间
p.expireat(all_users_key, expires) #设定集合的过期时间为UNIX的时间戳
p.expireat(user_key, expires)
p.execute()

def get_user_last_activity(user_id): #获得用户的最后活跃时间
last_active = redis.get(‘user-activity/%s’ % user_id) #如果获取不到,则返回None
if last_active is None:
return None
return datetime.utcfromtimestamp(int(last_active))

def get_online_users(): #获得当前online用户的列表
current = int(time.time()) // 60
minutes = xrange(app.config['ONLINE_LAST_MINUTES'])
return redis.sunion(['online-users/%d' % (current - x) #取ONLINE_LAST_MINUTES分钟对应集合的交集
for x in minutes])
References:

http://blog.csdn.net/vv_demon/article/details/7676384

tigerfish NoSQL和NewSQL数据库引航
《Redis Cookbook》
Redis-Python https://pypi.python.org/pypi/redis/2.9.1

Redis应用场景

http://www.cnblogs.com/shanyou/archive/2012/09/04/2670972.html

Redis开创了一种新的数据存储思路,使用Redis,我们不用在面对功能单调的数据库时,把精力放在如何把大象放进冰箱这样的问题上,而是利用Redis灵活多变的数据结构和数据操作,为不同的大象构建不同的冰箱。

Redis常用数据类型

Redis最为常用的数据类型主要有以下五种:

String
Hash
List
Set
Sorted set
在具体描述这几种数据类型之前,我们先通过一张图了解下Redis内部内存管理中是如何描述这些不同数据类型的:

首先Redis内部使用一个redisObject对象来表示所有的key和value,redisObject最主要的信息如上图所示:type代表一个value对象具体是何种数据类型,encoding是不同数据类型在redis内部的存储方式,比如:type=string代表value存储的是一个普通字符串,那么对应的encoding可以是raw或者是int,如果是int则代表实际redis内部是按数值型类存储和表示这个字符串的,当然前提是这个字符串本身可以用数值表示,比如:”123″ “456″这样的字符串。

这里需要特殊说明一下vm字段,只有打开了Redis的虚拟内存功能,此字段才会真正的分配内存,该功能默认是关闭状态的,该功能会在后面具体描述。通过上图我们可以发现Redis使用redisObject来表示所有的key/value数据是比较浪费内存的,当然这些内存管理成本的付出主要也是为了给Redis不同数据类型提供一个统一的管理接口,实际作者也提供了多种方法帮助我们尽量节省内存使用,我们随后会具体讨论。

下面我们先来逐一的分析下这五种数据类型的使用和内部实现方式:

String
常用命令:

set,get,decr,incr,mget 等。

应用场景:

String是最常用的一种数据类型,普通的key/value存储都可以归为此类,这里就不所做解释了。

实现方式:

String在redis内部存储默认就是一个字符串,被redisObject所引用,当遇到incr,decr等操作时会转成数值型进行计算,此时redisObject的encoding字段为int。

Hash
常用命令:

hget,hset,hgetall 等。

应用场景:

我们简单举个实例来描述下Hash的应用场景,比如我们要存储一个用户信息对象数据,包含以下信息:

用户ID为查找的key,存储的value用户对象包含姓名,年龄,生日等信息,如果用普通的key/value结构来存储,主要有以下2种存储方式:

第一种方式将用户ID作为查找key,把其他信息封装成一个对象以序列化的方式存储,这种方式的缺点是,增加了序列化/反序列化的开销,并且在需要修改其中一项信息时,需要把整个对象取回,并且修改操作需要对并发进行保护,引入CAS等复杂问题。

第二种方法是这个用户信息对象有多少成员就存成多少个key-value对儿,用用户ID+对应属性的名称作为唯一标识来取得对应属性的值,虽然省去了序列化开销和并发问题,但是用户ID为重复存储,如果存在大量这样的数据,内存浪费还是非常可观的。

那么Redis提供的Hash很好的解决了这个问题,Redis的Hash实际是内部存储的Value为一个HashMap,并提供了直接存取这个Map成员的接口,如下图:

也就是说,Key仍然是用户ID, value是一个Map,这个Map的key是成员的属性名,value是属性值,这样对数据的修改和存取都可以直接通过其内部Map的Key(Redis里称内部Map的key为field), 也就是通过 key(用户ID) + field(属性标签) 就可以操作对应属性数据了,既不需要重复存储数据,也不会带来序列化和并发修改控制的问题。很好的解决了问题。

这里同时需要注意,Redis提供了接口(hgetall)可以直接取到全部的属性数据,但是如果内部Map的成员很多,那么涉及到遍历整个内部Map的操作,由于Redis单线程模型的缘故,这个遍历操作可能会比较耗时,而另其它客户端的请求完全不响应,这点需要格外注意。

实现方式:

上面已经说到Redis Hash对应Value内部实际就是一个HashMap,实际这里会有2种不同实现,这个Hash的成员比较少时Redis为了节省内存会采用类似一维数组的方式来紧凑存储,而不会采用真正的HashMap结构,对应的value redisObject的encoding为zipmap,当成员数量增大时会自动转成真正的HashMap,此时encoding为ht。

List
常用命令:

lpush,rpush,lpop,rpop,lrange等。

应用场景:

Redis list的应用场景非常多,也是Redis最重要的数据结构之一,比如twitter的关注列表,粉丝列表等都可以用Redis的list结构来实现,比较好理解,这里不再重复。

实现方式:

Redis list的实现为一个双向链表,即可以支持反向查找和遍历,更方便操作,不过带来了部分额外的内存开销,Redis内部的很多实现,包括发送缓冲队列等也都是用的这个数据结构。

Set
常用命令:

sadd,spop,smembers,sunion 等。

应用场景:

Redis set对外提供的功能与list类似是一个列表的功能,特殊之处在于set是可以自动排重的,当你需要存储一个列表数据,又不希望出现重复数据时,set是一个很好的选择,并且set提供了判断某个成员是否在一个set集合内的重要接口,这个也是list所不能提供的。

实现方式:

set 的内部实现是一个 value永远为null的HashMap,实际就是通过计算hash的方式来快速排重的,这也是set能提供判断一个成员是否在集合内的原因。

Sorted set

常用命令:

zadd,zrange,zrem,zcard等

使用场景:

Redis sorted set的使用场景与set类似,区别是set不是自动有序的,而sorted set可以通过用户额外提供一个优先级(score)的参数来为成员排序,并且是插入有序的,即自动排序。当你需要一个有序的并且不重复的集合列表,那么可以选择sorted set数据结构,比如twitter 的public timeline可以以发表时间作为score来存储,这样获取时就是自动按时间排好序的。

实现方式:

Redis sorted set的内部使用HashMap和跳跃表(SkipList)来保证数据的存储和有序,HashMap里放的是成员到score的映射,而跳跃表里存放的是所有的成员,排序依据是HashMap里存的score,使用跳跃表的结构可以获得比较高的查找效率,并且在实现上比较简单。

Redis作者谈Redis应用场景
为什么使用 Redis及其产品定位
Redis内存使用优化与存储
Redis复制与可扩展集群搭建
现实世界中的 Redis
Redis 介绍2——常见基本类型
Redis消息通知系统的实现
Redis VS Oracle
Advance Queue性能对比 (一)
Redis VS Oracle Advance Queue性能对比 (二)
Redis 实践笔记
Redis使用总结之与Memcached异同

使用Tornado实现http代理

http://www.mamicode.com/info-detail-999810.html

实现代理的方式很多种,流行的web服务器也大都要代理的功能,比如http://www.tornadoweb.cn用的就是nginx的代理功能做的tornadoweb官网的镜像。

最近,我在开发一个移动运用(以下简称APP)的后台程序(Server),该运用需要调用到另一平台产品(Platform)的API。对于这个系统来说,可选的一种实现方式方式是APP同时跟Server&Platform两者交互;另一种则在Server端封装掉Platform的API,APP只和Server交互。显然后一种方式的系统架构会清晰些,APP编程时也就相对简单。那么如何在Server端封装Platform的API呢,我首先考虑到的就是用代理的方式来实现。碰巧最近Tornado邮件群组里有人在讨论using Tornado as a proxy,贴主提到的运用场景跟我这碰到的场景非常的相似,我把原帖的代码做了些整理和简化,源代码如下:

# -*- coding: utf-8 -*-
#
# Copyright(c) 2011 Felinx Lee & http://feilong.me/
#
# Licensed under the Apache License, Version 2.0 (the “License”); you may
# not use this file except in compliance with the License. You may obtain
# a copy of the License at
#
# http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an “AS IS” BASIS, WITHOUT
# WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the
# License for the specific language governing permissions and limitations
# under the License.

import logging

import tornado.httpserver
import tornado.ioloop
import tornado.options
import tornado.web
import tornado.httpclient
from tornado.web import HTTPError, asynchronous
from tornado.httpclient import HTTPRequest
from tornado.options import define, options
try:
from tornado.curl_httpclient import CurlAsyncHTTPClient as AsyncHTTPClient
except ImportError:
from tornado.simple_httpclient import SimpleAsyncHTTPClient as AsyncHTTPClient

define(“port”, default=8888, help=”run on the given port”, type=int)
define(“api_protocol”, default=”http”)
define(“api_host”, default=”feilong.me”)
define(“api_port”, default=”80″)
define(“debug”, default=True, type=bool)

class ProxyHandler(tornado.web.RequestHandler):
@asynchronous
def get(self):
# enable API GET request when debugging
if options.debug:
return self.post()
else:
raise HTTPError(405)

@asynchronous
def post(self):
protocol = options.api_protocol
host = options.api_host
port = options.api_port

# port suffix
port = “” if port == “80″ else “:%s” % port

uri = self.request.uri
url = “%s://%s%s%s” % (protocol, host, port, uri)

# update host to destination host
headers = dict(self.request.headers)
headers["Host"] = host

try:
AsyncHTTPClient().fetch(
HTTPRequest(url=url,
method=”POST”,
body=self.request.body,
headers=headers,
follow_redirects=False),
self._on_proxy)
except tornado.httpclient.HTTPError, x:
if hasattr(x, “response”) and x.response:
self._on_proxy(x.response)
else:
logging.error(“Tornado signalled HTTPError %s”, x)

def _on_proxy(self, response):
if response.error and not isinstance(response.error,
tornado.httpclient.HTTPError):
raise HTTPError(500)
else:
self.set_status(response.code)
for header in (“Date”, “Cache-Control”, “Server”, “Content-Type”, “Location”):
v = response.headers.get(header)
if v:
self.set_header(header, v)
if response.body:
self.write(response.body)
self.finish()

def main():
tornado.options.parse_command_line()
application = tornado.web.Application([
(r"/.*", ProxyHandler),
])
http_server = tornado.httpserver.HTTPServer(application)
http_server.listen(options.port)
tornado.ioloop.IOLoop.instance().start()

if __name__ == “__main__”:
main()

运行上面的代码后,访问 http://localhost:8888/ 将会完整显示飞龙博客的首页,即代理访问了http://feilong.me/的内容。

我考虑用程序的方式来做代理而不是直接用Nginx来做代理,其中一点是考虑到用程序可以很容易的控制Platform的哪些API是需要代理的,而哪些是要屏蔽掉的,还有哪些可能是要重写的(比如Server的login可能不能直接代理Platform的login,但却要调用到Platform的login API)。

以上这段代码只是做了简单的页面内容代理,并没有对页面进行进一步的解析处理,比如链接替换等,这些就交个有兴趣的朋友去开发了。基于以上这段代码,将其扩展一下,是完全可以实现一个完整的在线代理程序的。

这段代码我已放到了我的实验项目里,见https://bitbucket.org/felinx/labs,我将会放更多类似于这样的实验性质的小项目到这个repository里来,有兴趣的朋友可以关注一下。

借阅量突破1000本,纪念一下

7月5日借的书

Processing 与arduino 互动编程
黑客与设计
明解C 语言
七周七并发模型
Ember.js 实战
日志管理与分析权威指南

阿里云收集服务器性能指标的python脚本

#!/usr/bin/python
#########################################
# Function: sample linux performance indices
# Usage: python sampler.py
# Author: CMS DEV TEAM
# Company: Aliyun Inc.
# Version: 1.1
#########################################

import os
import os.path
import sys
import time
import operator
import httplib
import logging
import socket
import random
from shutil import copyfile
from subprocess import Popen, PIPE
from logging.handlers import RotatingFileHandler

logger = None
REMOTE_HOST = None
REMOTE_PORT = None
REMOTE_MONITOR_URI = None
UUID = None

def get_mem_usage_percent():
try:
f = open(‘/proc/meminfo’, ‘r’)
for line in f:
if line.startswith(‘MemTotal:’):
mem_total = int(line.split()[1])
elif line.startswith(‘MemFree:’):
mem_free = int(line.split()[1])
elif line.startswith(‘Buffers:’):
mem_buffer = int(line.split()[1])
elif line.startswith(‘Cached:’):
mem_cache = int(line.split()[1])
elif line.startswith(‘SwapTotal:’):
vmem_total = int(line.split()[1])
elif line.startswith(‘SwapFree:’):
vmem_free = int(line.split()[1])
else:
continue
f.close()
except:
return None
physical_percent = usage_percent(mem_total – (mem_free + mem_buffer + mem_cache), mem_total)
virtual_percent = 0
if vmem_total > 0:
virtual_percent = usage_percent((vmem_total – vmem_free), vmem_total)
return physical_percent, virtual_percent

black_list = (‘iso9660′,)

def usage_percent(use, total):
try:
ret = (float(use) / total) * 100
except ZeroDivisionError:
raise Exception(“ERROR – zero division error”)
return ret

def get_disk_partition():
return_list = []
pd = []
try:
f = open(“/proc/filesystems”, “r”)
for line in f:
if not line.startswith(“nodev”):
fs_type = line.strip()
if fs_type not in black_list:
pd.append(fs_type)
f.close()

f = open(‘/etc/mtab’, “r”)
for line in f:
if line.startswith(‘none’):
continue
tmp = line.strip().split()
ft = tmp[2]
if ft not in pd:
continue
return_list.append(tmp[1])
f.close()
except:
return None
return return_list

def check_disk():
try:
return_dict = {}
p_list = get_disk_partition()
for i in p_list:
dt = os.statvfs(i)
use = (dt.f_blocks – dt.f_bfree) * dt.f_frsize
all = dt.f_blocks * dt.f_frsize
return_dict[i] = (‘%.2f’ % (usage_percent(use, all),), (‘%.2f’ % (all * 1.0 / (1024 * 1000000))))
except:
return None
return return_dict

_CLOCK_TICKS = os.sysconf(“SC_CLK_TCK”)

def get_cpu_time():
need_sleep = False
if not os.path.isfile(‘/tmp/cpu_stat’) or os.path.getsize(‘/tmp/cpu_stat’) == 0:
copyfile(‘/proc/stat’, ‘/tmp/cpu_stat’)
need_sleep = True

try:
f1 = open(‘/tmp/cpu_stat’, ‘r’)
values1 = f1.readline().split()
total_time1 = 0
for i in values1[1:]:
total_time1 += int(i)
idle_time1 = int(values1[4])
iowait_time1 = int(values1[5])
finally:
f1.close()

if need_sleep:
time.sleep(1)

f2 = open(‘/proc/stat’, ‘r’)
try:
values2 = f2.readline().split()
total_time2 = 0
for i in values2[1:]:
total_time2 += int(i)
idle_time2 = int(values2[4])
iowait_time2 = int(values2[5])
finally:
f2.close()
idle_time = idle_time2 – idle_time1
iowait_time = iowait_time2 – iowait_time1
total_time = total_time2 – total_time1

cpu_percentage = int(100.0 * (total_time – idle_time – iowait_time) / total_time)
# compensate logic
if total_time < 0 or idle_time < 0 or iowait_time < 0 or cpu_percentage < 0 or cpu_percentage > 100:
time.sleep(1)
f3 = open(‘/proc/stat’, ‘r’)
try:
values3 = f3.readline().split()
total_time3 = 0
for i in values3[1:]:
total_time3 += int(i)
idle_time3 = int(values3[4])
iowait_time3 = int(values3[5])
finally:
f3.close()
idle_time = idle_time3 – idle_time2
iowait_time = iowait_time3 – iowait_time2
total_time = total_time3 – total_time2
cpu_percentage = int(100.0 * (total_time – idle_time – iowait_time) / total_time)

copyfile(‘/proc/stat’, ‘/tmp/cpu_stat’)
return cpu_percentage

def network_io_kbitps():
“”"Return network I/O statistics for every network interface
installed on the system as a dict of raw tuples.
“”"
f1 = open(“/proc/net/dev”, “r”)
try:
lines1 = f1.readlines()
finally:
f1.close()

retdict1 = {}
for line1 in lines1[2:]:
colon1 = line1.find(‘:’)
assert colon1 > 0, line1
name1 = line1[:colon1].strip()
fields1 = line1[colon1 + 1:].strip().split()
bytes_recv1 = float(‘%.4f’ % (float(fields1[0]) * 0.0078125))
bytes_sent1 = float(‘%.4f’ % (float(fields1[8]) * 0.0078125))
retdict1[name1] = (bytes_recv1, bytes_sent1)
time.sleep(1)
f2 = open(“/proc/net/dev”, “r”)
try:
lines2 = f2.readlines()
finally:
f2.close()
retdict2 = {}
for line2 in lines2[2:]:
colon2 = line2.find(‘:’)
assert colon2 > 0, line2
name2 = line2[:colon2].strip()
fields2 = line2[colon2 + 1:].strip().split()
bytes_recv2 = float(‘%.4f’ % (float(fields2[0]) * 0.0078125))
bytes_sent2 = float(‘%.4f’ % (float(fields2[8]) * 0.0078125))
retdict2[name2] = (bytes_recv2, bytes_sent2)
retdict = merge_with(retdict2, retdict1)
return retdict

def disk_io_Kbps():
iostat = Popen(“iostat -d -k 1 2 | sed ‘/Device\|Linux\|^$/d’ > /tmp/disk_io”, shell=True, stdout=PIPE, stderr=PIPE)
iostat_error = iostat.communicate()[1].strip()
if iostat_error:
logger.error(“iostat not exists, %s” % iostat_error)
return None

retdict = {}
exception = None
try:
try:
f = open(‘/tmp/disk_io’, ‘r’)
except Exception, ex:
exception = ex
logger.error(exception)
if exception:
return None
lines = f.readlines()
for line in lines:
name, _, readkps, writekps, _, _, = line.split()
if name:
readkps = float(readkps)
writekps = float(writekps)
retdict[name] = (readkps, writekps)
return retdict
finally:
f.close()

def merge_with(d1, d2, fn=lambda x, y: tuple(map(operator.sub, x, y))):
res = d1.copy() # “= dict(d1)” for lists of tuples
for key, val in d2.iteritems(): # “.. in d2″ for lists of tuples
try:
res[key] = fn(res[key], val)
except KeyError:
res[key] = val
return res

def get_load():
try:
f = open(‘/proc/loadavg’, ‘r’)
tmp = f.readline().split()
lavg_1 = float(tmp[0])
lavg_5 = float(tmp[1])
lavg_15 = float(tmp[2])
f.close()
except:
return None
return lavg_1, lavg_5, lavg_15

def get_tcp_status():
check_cmd = “command -v ss”
check_proc = Popen(check_cmd, shell=True, stdout=PIPE)
ss = check_proc.communicate()[0].rstrip(‘\n’)
if ss:
cmd = “ss -ant | awk ‘{if(NR != 1) print $1}’ | awk ‘{state=$1;arr[state]++} END{for(i in arr){printf \”%s=%s \”, i,arr[i]}}’ | sed ‘s/-/_/g’ | sed ‘s/ESTAB=/ESTABLISHED=/g’ | sed ‘s/FIN_WAIT_/FIN_WAIT/g’”
else:
cmd = “netstat -anp | grep tcp | awk ‘{print $6}’ | awk ‘{state=$1;arr[state]++} END{for(i in arr){printf \”%s=%s \”, i,arr[i]}}’ | tail -n 1″
tcp_proc = Popen(cmd, shell=True, stdout=PIPE)
tcp_status = tcp_proc.communicate()[0].rstrip(‘\n’)
return tcp_status

def get_proc_number():
cmd = “ps axu | wc -l | tail -n 1″
proc_func = Popen(cmd, shell=True, stdout=PIPE)
proc_number = proc_func.communicate()[0].rstrip(‘\n’)
return proc_number

def all_index():
return (
int(time.time() * 1000),
get_cpu_time(),
get_mem_usage_percent(),
check_disk(),
disk_io_Kbps(),
network_io_kbitps(),
get_load(),
get_tcp_status(),
get_proc_number()
)

def collector():
timestamp, cpu, mem, disk, disk_io, net, load, tcp_status, process_number = all_index()
disk_utilization = ”
disk_io_read = ”
disk_io_write = ”
internet_networkrx = ”
internet_networktx = ”
tcp_status_count = ”
period_1 = ”
period_5 = ”
period_15 = ”

if UUID:
cpu_utilization = ‘vm.CPUUtilization ‘ + str(timestamp) + ‘ ‘ + str(cpu) + ‘ ns=ACS/ECS unit=Percent instanceId=%s\n’ % UUID

memory_utilization = ‘vm.MemoryUtilization ‘ + str(timestamp) + ‘ ‘ + str(mem[0]) + ‘ ns=ACS/ECS unit=Percent instanceId=%s\n’ % UUID

if load:
period_1 = ‘vm.LoadAverage ‘ + str(timestamp) + ‘ ‘ + str(load[0]) + ‘ ns=ACS/ECS unit=count’ + ‘ instanceId=%s period=1min\n’ % UUID
period_5 = ‘vm.LoadAverage ‘ + str(timestamp) + ‘ ‘ + str(load[1]) + ‘ ns=ACS/ECS unit=count’ + ‘ instanceId=%s period=5min\n’ % UUID
period_15 = ‘vm.LoadAverage ‘ + str(timestamp) + ‘ ‘ + str(load[2]) + ‘ ns=ACS/ECS unit=count’ + ‘ instanceId=%s period=15min\n’ % UUID

if disk:
for name, value in disk.items():
disk_utilization = disk_utilization + ‘vm.DiskUtilization ‘ + str(timestamp) + ‘ ‘ + str(value[0]) + ‘ ns=ACS/ECS unit=Percent instanceId=%s mountpoint=%s\n’ % (UUID, name)

if disk_io:
for name, value in disk_io.items():
disk_io_read = disk_io_read + ‘vm.DiskIORead ‘ + str(timestamp) + ‘ ‘ + str(value[0]) + ‘ ns=ACS/ECS unit=Kilobytes/Second instanceId=%s diskname=%s\n’ % (UUID, name)
disk_io_write = disk_io_write + ‘vm.DiskIOWrite ‘ + str(timestamp) + ‘ ‘ + str(value[1]) + ‘ ns=ACS/ECS unit=Kilobytes/Second instanceId=%s diskname=%s\n’ % (UUID, name)

for name, value in net.items():
internet_networkrx = internet_networkrx + ‘vm.InternetNetworkRX ‘ + str(timestamp) + ‘ ‘ + str(value[0]) + ‘ ns=ACS/ECS unit=Kilobits/Second instanceId=%s netname=%s\n’ % (UUID, name)
internet_networktx = internet_networktx + ‘vm.InternetNetworkTX ‘ + str(timestamp) + ‘ ‘ + str(value[1]) + ‘ ns=ACS/ECS unit=Kilobits/Second instanceId=%s netname=%s\n’ % (UUID, name)

if tcp_status:
status_count = tcp_status.split()
for element in status_count:
key_value = element.split(‘=’)
tcp_status_count = tcp_status_count + ‘vm.TcpCount ‘ + str(timestamp) + ‘ ‘ + key_value[1] + ‘ ns=ACS/ECS unit=Count instanceId=%s state=%s\n’ % (UUID, key_value[0])

process_count = ‘vm.ProcessCount ‘ + str(timestamp) + ‘ ‘ + process_number + ‘ ns=ACS/ECS unit=Count instanceId=%s\n’ % UUID
else:
cpu_utilization = ‘vm.CPUUtilization ‘ + str(timestamp) + ‘ ‘ + str(cpu) + ‘ ns=ACS/ECS unit=Percent\n’

memory_utilization = ‘vm.MemoryUtilization ‘ + str(timestamp) + ‘ ‘ + str(mem[0]) + ‘ ns=ACS/ECS unit=Percent\n’

if load:
period_1 = ‘vm.LoadAverage ‘ + str(timestamp) + ‘ ‘ + str(load[0]) + ‘ ns=ACS/ECS unit=count period=1min\n’
period_5 = ‘vm.LoadAverage ‘ + str(timestamp) + ‘ ‘ + str(load[1]) + ‘ ns=ACS/ECS unit=count period=5min\n’
period_15 = ‘vm.LoadAverage ‘ + str(timestamp) + ‘ ‘ + str(load[2]) + ‘ ns=ACS/ECS unit=count period=15min\n’

if disk:
for name, value in disk.items():
disk_utilization = disk_utilization + ‘vm.DiskUtilization ‘ + str(timestamp) + ‘ ‘ + str(value[0]) + ‘ ns=ACS/ECS unit=Percent mountpoint=%s\n’ % name

if disk_io:
for name, value in disk_io.items():
disk_io_read = disk_io_read + ‘vm.DiskIORead ‘ + str(timestamp) + ‘ ‘ + str(value[0]) + ‘ ns=ACS/ECS unit=Kilobytes/Second diskname=%s\n’ % name
disk_io_write = disk_io_write + ‘vm.DiskIOWrite ‘ + str(timestamp) + ‘ ‘ + str(value[1]) + ‘ ns=ACS/ECS unit=Kilobytes/Second diskname=%s\n’ % name

for name, value in net.items():
internet_networkrx = internet_networkrx + ‘vm.InternetNetworkRX ‘ + str(timestamp) + ‘ ‘ + str(value[0]) + ‘ ns=ACS/ECS unit=Kilobits/Second netname=%s\n’ % name
internet_networktx = internet_networktx + ‘vm.InternetNetworkTX ‘ + str(timestamp) + ‘ ‘ + str(value[1]) + ‘ ns=ACS/ECS unit=Kilobits/Second netname=%s\n’ % name

if tcp_status:
status_count = tcp_status.split()
for element in status_count:
key_value = element.split(‘=’)
tcp_status_count = tcp_status_count + ‘vm.TcpCount ‘ + str(timestamp) + ‘ ‘ + key_value[1] + ‘ ns=ACS/ECS unit=Count state=%s\n’ % key_value[0]

process_count = ‘vm.ProcessCount ‘ + str(timestamp) + ‘ ‘ + process_number + ‘ ns=ACS/ECS unit=Count\n’

data_post = cpu_utilization + memory_utilization + period_1 + period_5 + period_15 + disk_utilization + disk_io_read + disk_io_write + internet_networkrx + internet_networktx + tcp_status_count + process_count
print data_post
interval = random.randint(0, 5000)
time.sleep(interval / 1000.0)

headers = {“Content-Type”: “text/plain”, “Accept”: “text/plain”}
exception = None
http_client = None
try:
try:
http_client = httplib.HTTPConnection(REMOTE_HOST, REMOTE_PORT)
http_client.request(method=”POST”, url=REMOTE_MONITOR_URI, body=data_post, headers=headers)
response = http_client.getresponse()
if response.status == 200:
return
else:
logger.warn(“response code %d” % response.status)
logger.warn(“response code %s” % response.read())
except Exception, ex:
exception = ex
finally:
if http_client:
http_client.close()
if exception:
logger.error(exception)

if __name__ == ‘__main__’:
REMOTE_HOST = ‘open.cms.aliyun.com’
REMOTE_PORT = 80

# get report address
if not os.path.isfile(“../cmscfg”):
pass
else:
props = {}
prop_file = file(“../cmscfg”, ‘r’)
for line in prop_file.readlines():
kv = line.split(‘=’)
props[kv[0].strip()] = kv[1].strip()
prop_file.close()
if props.get(‘report_domain’):
REMOTE_HOST = props.get(‘report_domain’)
if props.get(‘report_port’):
REMOTE_PORT = props.get(‘report_port’)

# get uuid
if not os.path.isfile(“../aegis_quartz/conf/uuid”):
pass
else:
uuid_file = file(“../aegis_quartz/conf/uuid”, ‘r’)
UUID = uuid_file.readline()
UUID = UUID.lower()

REMOTE_MONITOR_URI = “/metrics/putLines”
MONITOR_DATA_FILE_DIR = “/tmp”
LOG_FILE = “/tmp/” + “vm.log”
LOG_LEVEL = logging.INFO
LOG_FILE_MAX_BYTES = 1024 * 1024
LOG_FILE_MAX_COUNT = 3
logger = logging.getLogger(‘sampler’)
logger.setLevel(LOG_LEVEL)
handler = RotatingFileHandler(filename=LOG_FILE, mode=’a', maxBytes=LOG_FILE_MAX_BYTES,
backupCount=LOG_FILE_MAX_COUNT)
formatter = logging.Formatter(fmt=’%(asctime)s – %(levelname)s – %(message)s’)
handler.setFormatter(formatter)
logger.addHandler(handler)
socket.setdefaulttimeout(10)

try:
collector()
except Exception, e:
logger.error(e)
sys.exit(1)

very good tun tap tutorial

http://backreference.org/2010/03/26/tuntap-interface-tutorial/

Elasticsearch、MongoDB和Hadoop比较

http://www.osintegrators.com/opensoftwareintegrators%7CChoosing-Between-ElasticSearch-MongoDB-%2526-Hadoop

http://www.jianshu.com/p/2c7b0c76fa04

IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性,避免落大部队太远,我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎,它们存储着JSON文档,MongoDB存着JSON文档,或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配置完成很多同养的事情。

ES是否可以作为一个NoSQL数据库?粗看,这句话说的不太对,但是这是一个合理的场景。类似地,MongoDB在MapReduce的基础上使用分片的技术同样可以完成Hadoop可以做的工作。当然使用众多功能,我们可以在Hadoop之上(Hive、HBase、Pig和同样的一些)你也可以用多种方式查询Hadoop集群中的数据。

那么,我们现在是否能说Hadoop、MongoDB和Elasticsearch这三个是完全相同的呢?显然不行!每个工具都有自身最为适用的场景,但是每个都有相当的灵活性能够胜任不同的角色。现在的问题就变成“这些技术的最合适的使用场景是什么?”。下面我们来瞧瞧。

Elasticsearch已经超越了其最初的纯搜索引擎的角色,现在已经增加了分析和可视化的特性——但是它的核心仍旧是一个全文搜索引擎。Elasticsearch建立在Lucene之上并且支持极其快速的查询和丰富的查询语法。如果你有数百万的文档需要通过关键词进行定位时,Elasticsearch肯定是最佳选择。当然,如果你的文档是JSON的,你就可以把Elasticsearch当作一种轻量级的“NoSQL数据库”。但是Elasticsearch不是一个合适的数据库引擎,对复杂的查询和聚合并不是很强,尽管统计facet可以提供一定的关于给定查询的统计信息的支持。Elasticsearch中的facet主要是用来支持分面的浏览功能。

目前Elasticsearch已经增加了aggregation的功能
如果你在寻找一个对应于一个关键词查询的少量的文档集合,并且要支持在这些结果中分面的导航,那么Elasticsearch肯定是最好的选择。如果你需要进行更加复杂的计算,对数据执行服务端的脚本,轻松地运行MapReduce job,那么MongoDB或者Hadoop就进入待选项中。

MongoDB是NoSQL数据库,被设计成一个高可扩展,并且有自动分片的功能及一些额外性能优化的功能。MongoDB是一个面向文档的数据库,以JSON的形式进行数据的存储(准确地说可以称为BSON,对JSON进行了一些增强)——例如,一个native数据类型。MongoDB提供了一个文本索引类型来支持全文检索,所以我们可以看到在Elasticsearch和MongoDB之间的界限,基本的关键词搜索对应于文档的集合。

MongoDB超过Elasticsearch的地方在于其对于服务器端js脚本的支持、聚合的管道、MapReduce的支持和capped collections。使用MongoDB,你可以使用聚合管道来处理一个集合中的文档,通过一个管道操作的序列来多步地对文档进行处理。管道操作可以生成全新的文档并且从最终的结果中移除文档。这是一个在检索数据时的相当强的过滤、处理和转化数据的特点。MongoDB也支持对一个数据collection进行map/reduce job的执行,使用定制的js函数进行操作的map和reduce过程。这就保证了MongoDB可以对选定的数据执行任意类型的计算或者转换的终极的灵活性。

MongoDB另一个极其强大的特性称之为“Capped collections”。使用这个特性,用户可以定义一个collection的最大size——然后这个collection可以被盲写,并且会roll-over必须的数据来获取log和其他供分析的流数据。

你看到,Elasticsearch和MongoDB有一个可能的应用场景的重叠,它们不是同样的工具。但是Hadoop呢?Hadoop就是MapReduce,这已经有MongoDB就地支持了啊!是不是还有一个专属于Hadoop的场景,MongoDB就只是适合。

有!Hadoop是老MapReduce了,提供了最为灵活和强大的环境来进行大量数据的处理,毫无疑问的是能够搞定不能使用Elasticsearch或者MongoDB处理的场景。

为了更加清楚地认识到这点,看看Hadoop如何使用HDFS抽象存储的——从关联的计算特性上。通过HDFS中存储的数据,任意job都可以对于数据进行运算,使用写在核心MapReduce API上,或者使用Hadoop流技术直接使用native语言编程。基于Hadoop 2和YARN,甚至核心编程模型都已经被抽象了,你不再受到MapReduce的牵制了。使用YARN你可以在Hadoop上实现MPI并且用那种方式写job。

额外地,Hadoop生态系统提供了一个交错的工具集合,建立在HDFS和核心MapReduce之上,来进行数据的查询、分析和处理。Hive提供了一个类似SQL的语言,使得业务分析可以使用一个用户习惯的语法进行查询。HBASE提供了一个基于Hadoop的面向列的数据库。Pig和Sizzle提供了两个更加不同的编程模型来查询Hadoop数据。对存储在HDFS中的数据的使用,你可以继承Mahout的机器学习的能力至你的工具集。当使用RHadoop时,你可以直接使用R统计语言来对Hadoop数据执行高级的统计分析

所以,尽管Hadoop和MongoDB也有部分重叠的应用场景并且共同拥有一些有用的功能(无缝的水平扩展),但是两者之间还是有着特定的场景。如果你仅仅想要通过关键字和简单的分析,那么Elasticsearch可以完成任务;如果你需要查询文档,并且包含更加复杂的分析过程,那么MongoDB相当适合;如果你有一个海量的数据,需要大量不同的复杂处理和分析,那么Hadoop提供了最为广泛的工具和灵活性。

一个亘古不变的道理就是选择手头最适合的工具做事。在大数据这样的背景下,技术层出不穷,技术间的界限也是相当的模糊,这对我们的选择是一件相当困难的事情。正如你所见,特定的场景有着最适合的技术,这种差异性是相当重要的。最好的消息就是你不在限定在某一种工具或者技术上。依赖于你面对的场景,这就使得我们能够构建一个整合的系统。例如,我们知道Elasticsearch和Hadoop是可以很好地一起共事的,使用Elasticsearch快速的关键词查询,Hadoop job则能处理相当复杂的分析。

最终,采用了最大的搜索和细致的分析来确认最为合适的选择。在选择任何技术或者平台时,需要仔细地验证它们,理解这个东东适合哪些场景,哪里可以进行优化,需要做出哪些牺牲。从一个小小的预研项目开始,确认完毕后,再将技术应用到真正的平台上,缓慢地升级到新的层级。

跟随这些建议,你可以成功地在大数据技术中遨游,并且获得相应的回报。

文/Not_GOD(简书作者)
原文链接:http://www.jianshu.com/p/2c7b0c76fa04
著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。

python @classmethod @staticmethod 区别

@classmethod 是类方法调用,可能涉及到返回类
@staticmethod 相当于你调用 其他模块的方法,可以不涉及类,类只是一个包装空间。

http://stackoverflow.com/questions/12179271/python-classmethod-and-staticmethod-for-beginner

Though classmethod and staticmethod are quite similar, there’s a slight difference in usage for both entities: classmethod must have a reference to a class object as the first parameter, whereas staticmethod can have no parameters at all.

Let’s look at all that was said in real examples.

Boilerplate

Let’s assume an example of a class, dealing with date information (this is what will be our boilerplate to cook on):

class Date(object):

day = 0
month = 0
year = 0

def __init__(self, day=0, month=0, year=0):
self.day = day
self.month = month
self.year = year
This class obviously could be used to store information about certain dates (without timezone information; let’s assume all dates are presented in UTC).

Here we have __init__, a typical initializer of Python class instances, which receives arguments as a typical instancemethod, having the first non-optional argument (self) that holds reference to a newly created instance.

Class Method

We have some tasks that can be nicely done using classmethods.

Let’s assume that we want to create a lot of Date class instances having date information coming from outer source encoded as a string of next format (‘dd-mm-yyyy’). We have to do that in different places of our source code in project.

So what we must do here is:

Parse a string to receive day, month and year as three integer variables or a 3-item tuple consisting of that variable.
Instantiate Date by passing those values to initialization call.
This will look like:

day, month, year = map(int, string_date.split(‘-’))
date1 = Date(day, month, year)
For this purpose, C++ has such feature as overloading, but Python lacks that feature- so here’s when classmethod applies. Lets create another “constructor”.

@classmethod
def from_string(cls, date_as_string):
day, month, year = map(int, date_as_string.split(‘-’))
date1 = cls(day, month, year)
return date1

date2 = Date.from_string(’11-09-2012′)
Let’s look more carefully at the above implementation, and review what advantages we have here:

We’ve implemented date string parsing in one place and it’s reusable now.
Encapsulation works fine here (if you think that you could implement string parsing as a single function elsewhere, this solution fits OOP paradigm far better).
cls is an object that holds class itself, not an instance of the class. It’s pretty cool because if we inherit our Date class, all children will have from_string defined also.
Static method

What about staticmethod? It’s pretty similar to classmethod but doesn’t take any obligatory parameters (like a class method or instance method does).

Let’s look at the next use case.

We have a date string that we want to validate somehow. This task is also logically bound to Date class we’ve used so far, but still doesn’t require instantiation of it.

Here is where staticmethod can be useful. Let’s look at the next piece of code:

@staticmethod
def is_date_valid(date_as_string):
day, month, year = map(int, date_as_string.split(‘-’))
return day <= 31 and month <= 12 and year <= 3999

# usage:
is_date = Date.is_date_valid(’11-09-2012′)
So, as we can see from usage of staticmethod, we don’t have any access to what the class is- it’s basically just a function, called syntactically like a method, but without access to the object and it’s internals (fields and another methods), while classmethod does.

python class setdefault porpety

Class Human(object_):
def __init__(self,*args,**kwargs):
self.firstname=kwargs.setdefault(“first”)
self.lastname=kwargs.setdefault(‘last’)