Jeremy's blog - Jeremy's blog

DigitalOcean主机增加Swap分区

　　在cmake mysql源码的时候出现下面的错误： [ 46%] Building CXX object sql/CMakeFiles/sql.dir/geometry_rtree.cc.o c++: internal compiler error: Killed (program cc...

DigitalOcean使用小记--SecureCRT以Public Key验证登录VPS

　　在使用SecureCRT登陆VPS时，每次都要输入密码，其实除了使用密码之外还可以使用公钥来进行授权登录，这里说的公钥也就是之前博客中所讲到的SSH密钥对（SSH Key）对中的公钥，SSH密钥对可以让你方便的通过SSH登录到服务器，而无需输入密码，你不需要发送你的密码到网络中，SSH密钥...

如何解决SecureCRT自动断开的问题

　　使用SecureCRT时经常会出现停止操作一段时间中之后就需要再次连接的问题，操作几次之后觉得有些麻烦，便看看是否有解决的办法：　　CRT配置方法：会话选项–> 终端–> 反空闲–> 发送字符串可以设置，比如发送\n 、null或其他信息过去，后面可以设置每隔多少秒发...

轻量级服务器tinyhttpd源码分析－本地运行

　　从sourceforge上下载源码到本地，我在看源码之前喜欢先将程序运行起来看下程序运行的效果，这样对于程序的功能先有一个感性的认识。　　下载下来的源码是在Solaris 2.6上编译运行的，在httpd.c中写道：在如果你想要在Linux上运行的话，需要进行一些修改： 1) 注释掉 ...

Python中包的导入

　　当你从Python解释器退出后再重新进入, 之前所写的代码，包括变量、函数都已经不存在了，如果你想周期性的执行这些功能但是并不想每次都将这些代码重新输入一遍，你可以将这些代码保存成文件在本地进行存储（也就是脚本），当你写的程序规模越来越大，维护起来越发吃力，你或许会想把它分割为不同功能的文...

Python中time.clock()和time.time()的区别

CPU time和wall time的区别　　有时候需要统计程序的运行时间，这是我们一般会做一个艰难的选择：是使用time.clock()还是time.time()？网上搜了下，答案一大堆，却没有看出什么头绪，查了一些材料，首先需要明确几个概念：CPU time和wall time。　　C...

python爬虫获取豆瓣电影——爬取过程介绍

　　我的目的是将尽可能多的电影信息从豆瓣电影中爬下来，首先我们需要做的就是起始url，结果浏览豆瓣电影相关的页面，我选择了以分类为入口(最后修改为以年代标签为入口，原因见文章最后)，也就是http://movie.douban.com/tag/这个页面，以爱情这个分类为例，它的url是：　　...

python爬虫获取豆瓣电影——Python操作MySQL存储数据

　　爬虫抓到的数据需要存储到MySQL中，所以我们需要熟悉下使用Python操作MySQL数据库。首先你的机器上要安装MySQLdb，MySQLdb是用于Python连接Mysql数据库的接口，它实现了Python数据库 API规范V2.0，是基于MySQL C API上建立的。通过impor...

python爬虫获取豆瓣电影——多线程问题

　　GIL全称Global Interpreter Lock（全局解释器锁），它是在实现Python解析器(CPython)时所引入的一个概念。但是它并不是Python的特性。Python是一种语言，它有自己的语法等规范，根据其实现的不同有Cpython, Jython等等，CPython是使...

python爬虫获取豆瓣电影——Beautiful Soup使用

　　在获取了网页的响应之后我们需要从整个页面中提取出我们需要的信息，可能是匹配某个div或者某个超链接等等，使用正则表达式是个不错的选择，但是写起来较为负责而且容易出错，这里我们使用Beautiful Soup作为提取页面信息的工具，Beautiful Soup 是一个可以从HTML或XML文...