Quantcast
Channel: 看得透又看得远者prevail. ppt.cc/flUmLx ppt.cc/fqtgqx ppt.cc/fZsXUx ppt.cc/fhWnZx ppt.cc/fnrkVx ppt.cc/f2CBVx
Viewing all 20554 articles
Browse latest View live

出了国才知道,防火长城有多坑爹

$
0
0
虽然早就知道防火长城的厉害,在国内必须的时候凑合着用谷歌镜像啊偶尔小翻个墙,感觉查个文献什么的也能将就。没想到,出了国,才知道没有防火长城的日子,网上的生活一下子就变了。
先说专业学习方面的吧。第一重要的自然是google scholar和pubmed,国内呢google可以用镜像,镜像不好呢就翻墙,终究是不方便啊;pubmed虽然没被禁,但我那50m的带宽上起来, 居然一夜回到拨号时代(一句暴露年龄,哈哈),查个文献还上蹿下跳的,本来学习就是件需要集中精力的事,这么折腾耐心能不下降么。这是大浪淘沙让不喜欢做 学术的人趁早滚蛋么?最早我用google reader订阅了几个常用的杂志,虽然很懒,但还是努力偶尔翻翻,觉得这样知识更新很快,方便掌握相关领域的进展。没几天,墙了,再过几 天,google砍了。虽然翻墙能看,虽然feedly也能凑合(也老被墙),但这个体验真的是大幅下降。来了这边,拾起了多年未用的 facebook(墙之前就申请了的,只是后来悲剧了)。忽然发现订阅几个杂志,还是可以时不时看看更新的,而且很多国外的资源都可以方便的纳入,包括学 德语啊什么的不一一列举了,每隔一两天来刷刷,感觉还是有收获的。说到这里,吐槽一下微信,我的专业方面的一些公众号,净翻译人家medscape,就不 能来点原创的么。有时候看到国外有好的文章,想往微信上分享,结果人家不给链接,就只是facebook和twitter。
视频方面,自从 youtube随便看后,真是太爽了。以前有个什么病的视频看不了,哼哧哼哧翻出去,下一半下不动了。现在好了,各种讲课视频,疾病视频,随便下,一二百 兆,顶多几分钟搞定。另外一个惊奇,国内的优酷啊、土豆、搜狐什么的,广告又臭又长,央视的视频节目有时候还不好打开。来这,天啊,央视也太能对外输出文 化了吧,好一些的节目在youtube上的高清体验比国内强多了,而且统统没广告!!!除了央视,很多国内视频网站的不错的节目,都很注重输出到 youtube,看来国家不光花钱建孔子学院,网络阵地也没放过。只是这些喉舌也太特权了吧,可以绕过防火墙,真让人眼红。而且最惊讶的是国内花钱办的高 带宽网络(单比网速,其实是和现在相似的,并且下起迅雷来测速,对国内资源应该基本是实标网速),都不敢说随便选高清,特别是央视的网站,属于体验差的, 在这,youtube上的国内节目统统高清无压力。这算不算对国外超国民待遇呢?人家youtube做为全球第一大视频网站,要么没广告,要么广告短,要 么广告过几秒可以手动选择跳过,反观国内,甚至开始流行中间插广告。。。。。。。
手机app也是,国内用google play那个费劲,大点的软件想都不敢想。国内那几个市场,三俗倒挺多,真正专业的东西,只能呵呵了。来这,一二百兆的德语字典,毫无压力。
再说别的领域,来了这边,实在是孤独,一个劲纯学习也真是不可能。学习总是有限度的,到了那个limit真的怎么也学不进去了。人不是机器,心灵总是要调节 的。于是想重拾国内没有机会好好深入的摄影。再不济随便拿相机照照相,多拍点照片,以后SNS头像不用愁,更高层次的话培养下审美,提升下幸福指数就更好 啦。在国内就知道蜂鸟啊、色影无忌什么的,早就听说国外有instgram和flickr,但国内总是不方便,一会儿墙,一会儿慢。体验不行,真的会影响 上的感觉。今天试了下instgra和flickr,真是是比国内的论坛要有多的多的diversity,而且flickr照片都附有拍照参数,方便学 习。
我写这些并不是盲目说国外的资源就比国内好。只是忽然很悲哀的感觉,自己以前就像是被关在井里的青蛙,偶尔蹦的高一点扫一眼外面还沾沾 自喜。觉得有防火长城也没什么不好,youtube不看就不看吧,那点小视频不下又能怎样。facebook不用就不用吧,那几个杂志官网又没封,上进的 时候看看就好。google play不好用,软件就少装几个吧,反正手机还能快点。twitter用不了也没什么,微博微信也挺好玩的。instgram和flickr不上就不上 了,蜂鸟什么的人气也挺旺的。但就这一点点,一点点,青蛙腿上的肉也萎缩了,最终只好蜷缩在那里,不知道外面的世界有多精彩。我想,这会影响人的创新性的。

如何对你用的加密密匙作出测试

$
0
0


问︰近日,都有很多加密匙保安太弱的问题被暴露出来,其中比较严重是英飞凌公司的TPM晶片,因为所用的加密演算法程式太弱,产生很多加密匙都很容易被黑客攻破,这到底是怎样一回事?

李建军︰所谓的TPM晶片,中文名叫可信平台模块,由2006年后出产的手提电脑,以及不少手机都内置这个晶片,为产生加密匙时提供一个独一无二的签署,提高黑客破解的难度。而德国英飞凌公司出产的TPM晶片,它的一个程式库出现漏洞,黑客可以透过取得公用匙,推算出私密匙的资料,这会对很多人的系统构成相当大的威胁。由于很多手机和电脑都使用英飞凌公司的晶片,所以现时有可能要对不同的电脑或手机软件作出大规模更新,以补救这个漏洞所造成的问题。由于用户不一定知道自己的电脑或手机,或用作产生加密匙的机器,是否受这次事件影响。因此,我会建议听众,尽早对日常使用的加密匙,特别用作加密电邮用的加密匙,以及自己网站的数码证书作出测试,以策安全。

问︰那我怎知自己的PGP或其他加密匙所用的加密技术有没有问题,是否容易被攻破?

李建军︰如果用PGP或其他加密匙,可以透过研究这个保安漏洞团队组织的网站,测试一下PGP或其他加密匙,是否受这次英飞凌公司晶片所用的RSA程式库太弱问题所影响。这次翻墙问答,我准备了视频,示范如何对你用的加密匙作出测试,欢迎各位听众浏览本台网站,收看有关视频。

问︰在之前的翻墙问答曾介绍一些二步认证用的USB加密匙,在这次事件有否受影响,因为不少都使用英飞凌公司的技术。

李建军︰近年买的型号应不受影响,但早期的型号有可能出问题,最好前往制造商的网站下载最新软件,修补相关漏洞。这次事件由于可以靠软件来修补,因此现时使用USB二步认证匙为户口加密的听众,不用买新型号,或者停用手上的二步认证匙。

现金贷遭遇骗贷狂欢——两千买一套虚假材料,可骗贷20万

$
0
0
互联网金融的兴起,带来了普惠金融,却也成了骗贷群体的分食盛宴。

  这个群体,大多由信用卡骗贷群体衍生而来——一条新式骗贷产业链逐渐形成,所有人配合默契,有条不紊。

  骗贷者获取一套虚假资料,只需2000元,却可骗贷20多万。钱一到手,人就消失,成为永久“坏账”。

  而很多平台为了“冲量”,故意降低风控门槛,沦为骗贷狂欢。

  如盛世阴影,他们汲取时代红利,并化为这个浮夸时代,虚假繁荣的泡沫。

  01 探金者:情报中心

  骗贷产业链的最前端,是一个助贷群体——他们专营在各大贷款平台间,去寻找风控规则。

  他们是冲锋陷阵的先头部队,是收集情报的“侦察兵”,收集的信息,为后方部队提供战略部署。

  陈昕冰就是其中一员。

  90后的他,毕业后,就泡在各大玩信用卡的论坛中,是典型的“玩卡一族”。

  他手头有几十张信用卡,申请、养卡、提额、套现,每个月“以卡养卡”,玩得炉火纯青。

  持续一年后,他发现信用卡几乎都申请过——他面临资金断流。

  2013年,互联网金融崛起,新的消费时代到来。

  互联网金融发展史中,开始两年,是P2P时代,人们利用P2P理财;

  时代步履仓促,如今已进入消费金融时代,人们利用现金贷、消费贷进行提前消费。

  让陈昕冰惊讶的是,这些新生的消费金融平台,风控比银行简单太多,只需要网上提供部分资料,就可以放款。

  用玩信用卡的一套,再来玩互金贷款,简直是“降维攻击”。

  陈昕冰的“套现游戏”,进入一个让人亢奋的阶段。

  他专研各个平台的规则,并将经验,分享在各个群和论坛中,很快,他身边聚集起一批拥趸。

  2015年,他开始将“情报”变现。

  他组建自己的QQ群,要入群者,就要交纳“499”的学员费——他建立起3个千人大群,获利150多万。

  他定期会开一场视频课程,每个学员需要交纳20元,堂堂爆满,一堂课就可获利近万。

  而陈昕冰每天的工作,就是去测试规则,并写成攻略。

  陈昕冰手头有很多学员的资料,他用这些身份去测试平台规则,“实践才能出真知”。

  “很多贷款平台,没有什么风控,只有一些简单的规则,”陈昕冰发现,很多平台的风控,“简直滑稽”。

  比如一些平台,无视黑白户(所谓黑户,就是征信记录有逾期的污点用户;所谓白户,就是还没有过信用卡和其他借贷记录的用户),只需要填写实名制手机和身份证,就能下款。

  他将这些规则,集结成攻略,每日共享到QQ文件中,一年时间已更新1400多个。

  就像一场打怪游戏,当你获得了一本无敌攻略之后,就相当于开启作弊模式,一路畅通,击败Boss。

  陈昕冰就如此,一边帮学员借款,成功下款后,收取10%的“服务费”;一边将借款经验输出,收取一些“会员费”。

  这条“闭环的产业链”,他每年轻松获利200多万。

  而加入陈昕冰群的学员,也是“各怀鬼胎”。

  学员分为3种,一种是“学完自用”,这里包括大量的骗贷者;

  另一种,是贷款中介,他们去各个论坛和QQ群中发广告,招揽急需用钱的用户,帮他们贷款,从中提成,一般服务费高达10%。

  最后一种人,会将这套技术,拿出再卖,建立新的QQ群,做和陈昕冰一样的事。

  据一本财经不完全统计,现在市面至少已有几百个这样的QQ群,会费要99到数千元不等。

  这也意味着,从事助贷的群体,人数至少几万。

  在一节课堂上,陈昕冰说了这么一句话,“这个社会永远不缺缺钱的人,他们为了钱,什么都干得出来,裸条、高息、提成,又算得了什么呢?”

  在经济下行的年代,处处钱荒,人人自危,而陈昕冰和背后是十万的助贷群体,就寄生在产业链的前端,成为了掘金的情报中心。

  陈昕冰更喜欢一个称呼,叫“探金者”。

  02 骗贷者:罪恶的门徒

  探金者提供了足够多的情报后,最为罪恶的门徒——骗贷者才缓慢登场。

  在陈昕冰的群中,最为踊跃的学员,是个90后,网名“小白”。

  他并不是“小白”,他从事骗贷行业已一年之久,靠着多套虚假资料,混迹在各大借贷平台间,获利几十万。

  “骗贷的第一步,是搞到一套完整的资料,”小白从网络上购买了多个“身份证+银行卡+手机号”的组合套餐,价格在1300到1500元之间。

  小白最早就是从一位名叫“老曹”的网友那里搞到资料。

  “身份证500元一张,成套组合1300元一套,”老曹在各大骗贷群里,公开销售他的库存。

▲ 身份证、电话卡、银行卡全套资料出售

  “身份证有很多来源,有的是专门去农村或火车站收,100元一张,一些急需用钱的人就会卖;也有遗失的,汇集到我这里”,老曹是一个“中转站”,将各种渠道的身份证收集起来“销赃”。

  老曹称:“在运营商、银行我都有点关系,可以利用身份证办卡。一些难搞定的银行,我会让长得有点像的人,拿着身份证去办卡”。

  身份证、实名银行卡、实名手机号,这些都是网络上识别一个人的重要三要素,当你具备这些,基本可以以假乱真。

  “这还不够,”小白称,“就像捏一个泥娃娃,你要让它有鼻子有眼睛,甚至有灵魂”。

  小白买了几个便宜的智能手机,一个手机配一张手机卡,安装上淘宝、支付宝、微信等常用应用。

  他给每个手机设立了一个身份:何莉丽是个90后,她在雅诗兰黛的专柜当一名促销员,月收入6000元,在朋友圈会经常晒自拍;

  而韩强,是一位80后的工人,在富士康当一名操作员,月收入5000……

  “包装这些资料,需要精打细磨,完全进入角色,有时候我都觉得自己的人格有些分裂,”小白一般会将一个身份养上几个月甚至半年,才开始操作贷款。

  就像在玩一个养成游戏,给游戏人物慢慢注入性格和特征,最终一举通关。

  比如,人物需要一个工作。小白会填写一些大的工厂,比如富士康,再填一个需要转接的工厂主机。

  此外,小白到附近的商场,找一个专柜,电话就填写商场电话或专柜的中国区总机。

  “这两种方式,信息真实度很高,实际审核难度也很高,”小白称,这就叫“真实但难求证”原则。

  对于一些确实会电话回访的平台,他会填写一家网上无法查到电话的公司,然后自己购买一部座机,公司电话换成自己的号码。

  除了工作单位和电话外,有些借贷平台,还需提供工作证明和工牌照片。

  “可以自己PS一张,也可以去淘宝上购买,工作证明只需要20-30元一张,工牌也只要50元一个”。

  而淘宝上提供这种服务的人,大有人在。

  除此之外,小白会连定位都做些修改。

  一般来说,与定位在农村相比,定位在大城市的通过率大大提高。小白就会使用一款名为“海马玩”的模拟器,随意修改定位。

  一些平台,还需要半年的银行流水,证明自己有固定工资。小白就每个月往这些银行卡中转一笔钱,形成固定流水。

  目前,借贷平台常用的一招是,要求读取借款人的通讯录、短信。

  其主要目的,就是从通讯录中寻找,是否有加入“黑名单”的人——比如已证实的骗贷者或老赖。

  而从短信中,是为了寻找多个平台借款的线索:譬如,其他借贷平台的验证码、逾期催款信息等。

  如果这些都存在,无疑,这个借款者是“高危”的。

  所以,小白会在借贷前,包装通讯录:

  删掉黑户或老赖;

  删除不干净的通话记录;

  删除短信中关于借贷的信息。

  此外,还有一些平台要求读取邮件,其目的,就是查看用户是否有信用卡。

  一般能通过银行的审核,办下信用卡的,是借贷者的重要加分项。

  小白依然有应对策略,他有一些“小工具”,专门用来伪造信用卡账单——任何银行、任何额度、任何消费记录。


  一般来说,如此包装一个完整的贷款人物,大概花费在2000元左右,而带来的,却是巨额回报。

  “也不是所有的平台都可以撸下来,规则太过复杂,时时变动的,就比较麻烦,”因此,小白需要掌握所有平台最新的规则。

  在陈昕冰的课上,小白颇为积极,他对于新开放的“网贷口子”最为上心,“一般新成立的平台,风控比较松懈”。

  一个身份,借款20到30个平台之后,下款率会越来越低。

  原因是,很多平台在借贷时,会进入央行系统查询征信,而这个查询动作,也被记录在征信系统中——这也意味着,借款次数越多,记录越不好看,用他们的行话说,是把征信“查烂”了。

  一般借款到20万左右,小白就将手机卡废弃,手机永久关机甚至扔掉——所谓的“何莉丽”“韩强”,从人间蒸发。

  小白就如此,用2000元的成本,骗来20多万。

  而类似小白这样的骗贷者,并不在少数。

  “潜伏在陈老师群里的骗贷者,一千人中至少有100人,”小白私底下和几个人交流过,大家都是“老司机”。

  几乎所有的借贷平台,都遭遇过骗贷——这里正在形成行业的暗疮。

  一家借贷公司曾委托一家催收公司,追回逾期的欠款,结果回款率不到0.3%——大部分人都是骗贷者,借完钱就人间蒸发。

  他们是这条产业链中,最为凶狠而野蛮的攻坚部队,他们攻城略地,进退自如——即便被发现是骗贷,最多屏蔽他们的一个号码 ,他们换个地方再战,毫无损失。

  任何一个风控松懈的“城池”,会在几日内被他们薅干。

  03 内鬼:致命一箭

  除了单兵作战外,诸多骗贷者是内外勾结。

  像陈昕冰这样的助贷者,虽然能提供风控的大概规则,但谁会比借款平台的内部人员,更熟悉风控规则呢?

  张远是一个借贷平台的客户经理,他已帮助几十位客户,通过了风控审核。

  “有些规则,是极为细致的,只有内部人员才可能知道”,张远称,比如信审人员打回访电话,假装翻纸或打字的声音,“这样的背景音,更为真实”。

  知道所有细节的张远,才是最为可怕的内奸。

  曾经有一个客户,急需10万块钱,四处借钱碰壁,到了张远这里,却包装成了消费贷,一个下午便搞定。

  消费贷,一般会控制消费用途,转款专用,看似难以突破的规则,却也存在大量的套现漏洞。

  一般需要借贷者提交一些证据,证明消费意图,消费贷公司才能放款。比较常见的,是提供消费公司的发票,或者消费合同。

  发票有税点,因此张远就从合同入手。

  张远找了一个开小装修公司的朋友,用其名义和客户签署一份“假的”装修合同。

  一般消费贷的钱,会直接转到装修公司的账户上。借款人只需要提供一个朋友的账户,伪装成装修公司会计账户即可。

  然而,类似张远的客户经理,还只是小买卖。

  一些客户经理,会和一些中介公司对接——客户经理提供规则,中介公司批量包装。

  一些恶性的骗贷案件中,客户经理会和借款者一起“分账”。

  捷越联合也曾遭遇过类似事件。

  去年一个借款者逾期,催收人员电话催收,对方回答:“我借了5万,你们工作人员拿了5000,凭什么都要我还?”

  “风控的核心之一,来自于内控,”捷越联合的联合创始人兼首席风控官王晓婷称。

  外面杀进来敌人,如果有城墙加固,还可一战;如果墙内的人倒戈,即便城墙再坚固,也将功亏一篑。

  无论在哪个行业,“内鬼”都如心窝之剑,最让人心寒,且最为致命。

  “这里和利益走得太近,大多时候,是要和人性作战,”王晓婷因此设立了极为严苛的内控规则。甚至还背道而驰,修改行业中盛行的“提成制度”——客户经理的业绩,大比例和借款人的还款额挂钩,而不是只参考借款额。

  “除此之外,还需要不停修改风控规则”,王晓婷称。就像一款游戏,如果及时地更新版本,那些作弊的外挂,就来不及开发。

  在欲望和利益面前,只能利用强有力的制度,来捆绑人性的黑暗欲念。

  04 最好的时代

  骗贷成了互联网金融时代,难以规避的隐痛。

  每次规则修改,风控提升,总是“道高一尺魔高一丈”,骗贷者简直无孔不入。

  王晓婷认为,可以借鉴银行模式:几家银行结成联盟,共享各家的欺诈数据,一家的损失,不会扩展到其他家。

  银行的数据共享,是央行强制要求的,而互金行业还没有类似政策。

  一些平台也曾高声疾呼进行“行业自律”,共享“黑名单”,但都雷声大雨点小。

  “黑名单数据,是我们的核心竞争力,凭什么要与人共享,”大部分的平台,在权衡中往往被自身局限性击败。

  另一方面,苍蝇不叮无缝的蛋,很多平台在这场互金的盛世中,迷失了自我。

  以前的银行信用卡风控,好歹还有面审甚至去工作单位实地调研;而互联网金融只需要在网上填写资料,就可放款。

  两种风控维度,千差万别。

  银行的坏账率尚且年年攀升,更何况互金平台?

  而一些平台,为了短期的流量,常常放低风控门槛。

  “我们给出的建议是,借贷人满600分才放款,然而很多平台为了冲流量,500分,甚至400分也放,”某征信公司的风控总监透露,行业正在用这种“亵玩”的方式,急速冲量。

  冲量,自然是为了一份漂亮的用户数据,给VC投资人一个交代,也是为了下一轮融资的估值。

  这个光怪陆离的时代,有时让骗贷者都感到困惑——财大气粗的银行,对他们都如临大敌,而萌芽不久的互金平台,却对他们若即若离。

  在互金的黄金时代,骗贷者也成为其中一环,他们是虚无泡沫,充盈这个繁华盛世;他们在人们欲念的罅隙中,吸允着时代红利。

  “春节、国庆、中秋,这些重大节日,很多平台有冲量任务,刻意放低风控门槛,这些放水很快就会被我们发现,在群里扩散,”陈昕冰称。

  又临近春节,各大平台的年底冲量开始——而骗贷者的年底狂欢,也即将开场。

  “撸上十万,回家过年,”小白在群里喊出了年底口号,立马一呼百应。

  互联网金融,已从P2P时代滑入消费金融时代,普惠金融再次升华,那些高大上的金融需求,变得触手可及。

  对于我们来说,这是最好的时代。

  对于骗贷者来说,也是最好的时代。

  虚假繁荣,终以泡影幻灭落幕。这场盛大的骗贷狂欢,将如何收场?

搭建Huginn构建自动化信息流

$
0
0
Huginn是一个神器,见到它有一种相见恨晚的感觉,我们都知道IFTTT是一个信息的触发器,可以用来建立自动的工作流。而Huginn是IFTTT的加强版,几乎可以将所有的信息进行重组、变形、输出,真正做信息的主人。

准备工作:
Hyperapp
解析正确的域名(ping验证)

数据库部署
  1. `huginn`的必选依赖为`PostgreSQL`和`MariaDB`. 可选依赖为`Nginx Proxy`以及`Nginx SSL Support`.如果不选用这两个.需要配置Port.然后通过 http://VPS的IP:端口 来访问.本教程默认已经正确安装并启动这两者.
 2. 按照下图对`PostgreSQL`以及`MariaDB`进行设置.注意除了有中文提示的选项.其他都应该保持跟图片一致以免出错.
https://i.imgur.com/jFkzugU.jpg
 3. 设置完成之后选择保存配置并安装即可.  


Huginn服务端部署

1. 按照下图对`Huginn`服务端进行设置.注意除了有中文提示的选项.其他都应该保持跟图片一致以免出错.
https://i.imgur.com/Yva2HdL.jpg

2. 设置完成之后选择保存配置并安装即可.  

注意事项
注意.部署完启动访问域名可能会提示502.请稍等一会.Huginn的启动需要时间.五分钟之后尚且报错才考虑启动失败.
初始登录用户名为admin密码为password

大功告成!
现在.去访问你的Huginn吧:)

项目地址:https://github.com/huginn/huginn
https://github.com/huginn/huginn/wiki


ref: http://www.jianshu.com/p/2e6e3f845bc3

运用Pydio搭建精美个人云

$
0
0
大家都知道国内的云盘提供商目前来讲只剩下百度云盘.那么除了在线网盘.我们其实还可以用VPS部署一个私人网盘.也就是个人云.今天为大家带来比OC和NC更加精美的Pydio部署教程

准备&注意事项

  • Pydio消耗资源比较高.数据库和前端加起来应该要去掉300MB左右内存.望知悉
  • Hyperapp
  • 一个已经解析正确的域名(ping验证)
  • 耐心.仔细.认真

在Hyperapp对服务端进行设置

  1. 请确保这时候Nginx Proxy以及Nginx SSL Support正常默认安装并且启动了
  2. 转到商店页面.找到MariaDB然后选择服务器并且保存进入配置界面
  3. 转到商店页面.找到Docker Image然后选择服务器并且保存进入配置界面
  4. 请确认你完全按照按照下图对两个应用进行了设置.有中文提示的相应修改.其他不要动.
  5. 保存并且进行安装。

对Pydio进行设置

  1. 稍等一段时间等应用都正常启动之后.访问Pydio的域名会看到这样一张图:

  1. 前面三个警告是可以忽略的的.因为跟宿主机部署不一样.有些工作放在docker来做了.总之这时候点击绿色的CONTINUE即可.
  2. 这里选择简体中文.然后点击开始向导.然后一路配置.先是网站名称.然后是管理员账户创建.
  3. 接着来到配置数据库这里.重点来了.按照图片中的提示进行配置.
    • 注意Host一定要写ip然后后面半角冒号并加上端口.例如8.8.8.8:8888
    • 密码写Pydio数据库密码.不是数据库Root密码.
    • 然后选择TEST DB CONNECTION通过之后一路下一步即可.稍等片刻跳转到登录页面登录即可.

客户端的使用方法

  • 网页版
    • 网页版的操作其实非常直观.打开网址登陆操作即可.有些可能存在汉化不完整的情况.自行琢磨
  • iOS
    • iOS方面需要在App Store下载购买一个叫做Pydio Pro的应用(RMB 6元).那个免费的应用不能连接到我们部署的最新服务端
    • iOS连接方法有两个
    • 方法1:打开登陆网页版之后.会在左边栏看到一个二维码.用手机应用扫描即可.然后填写完密码就可以正常登陆
    • 方法2:首先先点击一下前缀的http://让他变成https://.然后填写域名.然后正确填写用户名和密码.再然后点击一下右上角的.稍等片刻.不行就点多两下.成功之后会跳转回主页.点击进入即可

大功告成

  • 这时候去访问你的域名吧。

坏人太少,日本警察实在太闲

$
0
0
日本社会犯罪率之低令人发指而在低犯罪率背后,清闲的日本警察用‌‌“没有困难制造困难也要上‌‌”的精神,成功引起我们注意……
虽谈不上路不拾遗,夜不闭户,但日本犯罪率之低也算‌‌“举世闻名‌‌”——犯罪率已经连续下降13年,而谋杀案的案发率仅为十万分之零点三。在美国,这一比率为十万分之四。
不过与犯罪率的俯冲势头相反的是,
日本警察的数量却在增长……
刨去临时工,日本现在拥有259000名身穿制服的在编警察,这数儿比10年前多了15000人,但别忘了那时候日本犯罪率比现在高得多。夸张点说,现在日本的警察可能比罪犯都多。
就拿东京来说。东京有世界上人数最多的警察队伍,比纽约还多四分之一,但犯罪率却一个天上一个地下。有人说在东京被人枪击的概率,比在纽约被雷劈死都低。
这种现象带来的结果就是:
警察太多,坏人不够用。
很多在别国都不好意思打扰警察叔叔的鸡毛蒜皮,捅到日本警察那都会得到相当程度的重视。从自行车被偷、内裤大盗到自行车闯红灯,他们经手的案件‌‌“事无巨细‌‌”。
其实这不奇怪,他们并不想被纳税人觉得自己天天在办公室抠脚打苍蝇…..
举例来说,鹿儿岛是日本南边一个民风淳朴的边城,人们停车从来不锁车门。而在这里,警察们平时喜欢干的事就是蹲在停车场钓鱼执法…..
不过就算是这样,警察们‌‌“邂逅‌‌”小偷的几率还是‌‌“靠缘分‌‌”。比如他们曾守株待兔整整一个月,才等到了一个临时起意偷别人后备箱里麦芽酒的中年大叔…..
类似的例子还有很多,比如曾有一位女士打电话报警说自己的内裤被盗,一下子惊动了5名片儿警,要知道这几乎是当地派出所所有警力……
而在最近的一个案子中,警察逮捕了一群平分出租车租金的人,因为警察觉得这辆出租车可能是非法营运。在另外一些地区,警察甚至开始起诉那些骑着自行车闯红灯的人……
一位在日本生活的美国人留言说,在他住的片区,三年以来最重大的刑事案件就是一辆自行车座被人卸下来偷走。结果该片区的警方倾力破案,很快便大功告成——自行车座被人扔到了几条街以外,疑似一场恶作剧……
除了这种可遇而不可求的‌‌“刑事案件‌‌”,
很多警察为了生计绞尽脑汁。
他们没有困难制造困难也要上。
比如几年前,在人口稀少的北海道,为了完成任务配额,日本警察甚至和黑帮密谋将枪走私到日本境内,再由自己出面抓捕……
估计黑帮的内心都是崩溃的。
此前,曾有些人口密度较小的城市提议在该地区废除警察,因为这些地区的民众认为警察只是在浪费税金——他们大部分时候的工作是帮老太太过马路,以及给附近民众的自行车胎打气……
除此之外,更让人哭笑不得的是
市民的提议跟警察的办案能力也有关系……
在日本,警察的破案率只有可怜的30%,这里面还包括大量的自首罪犯。投入大量警力而迟迟抓不到罪犯的例子比比皆是,而且这种情况还不止针对特大刑事案件……
此前一段日本街头的‌‌“警匪追击战‌‌”曾引起大量讨论,在这段被誉为‌‌“世间最慢的抓捕‌‌”里,人们惊奇地发现警匪双方跑的还没有摄影师快……
这类例子还不止这一个,据《日本时报》1月27日报道,江东区警方凌晨2点接到报案:一位20岁的偷车贼不知哪根筋搭错了,开着偷来的卡车满大街乱晃。
接到报警后日本警方高度重视,立刻派出10辆警车进行围追堵截。然而尴尬的是,在凌晨空荡荡的街道上,10辆警车竟然敌不过20岁男子的高超车技,一共用了40分钟才拦下卡车。不仅如此,其中6辆警车被卡车的高速摆脱‌‌“晃倒‌‌”互相撞在一起,好在没有警员因此伤亡。
更尴尬的是,事后警方发现这名偷车贼患有轻微的精神病,当时意识并不清醒。也就是说,10名警察竟然没飙过一个神经病……
显然,日本警方也意识到了这件事对全世界的警察来说简直是耻辱,不过他们却给出了自己刁钻的理由:我们平时不开车啊,我们都骑自行车的。
没错,日本警察平时的画风大都是这样。
其实日本不是没有开警车和骑摩托的警察,只不过更多时候他们还是骑自行车巡逻,因为日本刑事犯罪率和凶恶犯罪率极低,大多数时候用不着出动警车,万一被扣上个‌‌“浪费纳税人钱‌‌”的帽子那真是吃不了兜着走。
当然,不管怎么调侃日本警察,犯罪率低毕竟是好事,而且随着犯罪率的降低,日本警察也可以把大量时间花在预防犯罪上。
比如自2010年起,虽然出生率下降,但日本警察接到的虐待儿童报警比之前翻了一番。这表明日本警察更加重视未成年人的安全问题。与此同时,警察们还有大量时间进入学校调查和预防校园霸凌情况的出现,这在10年前也是不常见的。

解决WordPress XML-PRC无法解析

$
0
0

最近 WordPress on Android 突然不能使用,查看了日志发现能正常连接,但是无法解析内容,但是还是不清楚是哪里出了问题,然后使用 WordPress官方的 XML-RPC检查工具 进行测试.

根据这错误联想到之前更新 PHP7 版本,可能忽略安装了 XMLRPC 包,从而导致不能解析页面,找到问题原因就很好解决了,在 Ubuntu 上搜索一下包:

sudo apt-cache search php7-*

php7.2-xml 和 php7.2-xmlrpc 都是必要的包,找到包名后开始安装,然后重启 Web 服务器。

sudo apt-get install php7.2-xml php7.2-xmlrpc
sudo service apache2 restart
OK!大功告成,终于又可以愉快的使用 WordPress

重视密码安全-密码管理方案

$
0
0



互联网在生活中的重要性不言而喻,而且还在更加深刻的渗入生活,互联网的账号体系也变得越来越庞大,所以账号安全问题一直是个重要命题。数据泄露、用户数据泄露之类的新闻,每个月都能见到那么几个,动辄几十G的信息泄露,被骇客拿到黑市上卖。
有媒体报道,称疑似京东12个G数据遭泄露,涉及用户名、密码、邮箱、QQ号、电话号码、身份证等多个维度信息,对此,京东表示经初步判断,该数据源于2013年Struts 2的安全漏洞问题。
——2016.12.11
被泄露的密码一般会先经过骇客的洗库,把账号中有价值的虚拟货币和装备全部转移,留下的信息再放到黑市中卖掉。也就是说,当得知数据库泄露在互联网上,一般都是被入侵三个月以后了。
我一直都认为密码被盗这种事情不会发生在我身上,因为我还算是比较注意密码安全的,但是最终发现百度账号还是被入侵了。因为百度账号我并不常用,所以并没有带给我多少损失。账号被盗三个月后才被发现,发现后又嫌改密码太麻烦,所以还是没有管,又过了一个月需要在百度文库下载文档时想到了应该改密码了。
在账号被盗的这段时间中,只注意到账号在百度贴吧发了大量的广告被永久封禁,百度贴吧我也不用所以又是没管。百度账号被盗是有些大意,但我之前也是对密码安全做过了一些措施:
密码分级:常用的社交账号和网银账号为第一级,时不时用的账号为第二级,临时账号和不重要的分为第三级。三种不同等级的密码分别使用不同的密码体系。第一级的密码要分别使用带有特殊字符、小写字母和数字的不同密码。而第二级密码则是数字加字母,且可能重复会有规律。第三级密码则都是方便输入的简单字母加数字。
密码前缀:制定规则给密码加上前缀,可以一旦程度上防止被拖库。比如自己想了一个密码“123456”,如果所有账号都使用这个密码,那么当一个账号被黑了后,所有相同密码的帐号都被连带攻破了。如果加上前缀,比如百度账号密码为“baidu-12345”,腾讯QQ密码为“qq-12345”或者“tengxun:12345”。这样的密码既方便记忆,又能够增强密码安全。但这种有规律的密码仍然不安全,如果综合多个被黑的泄露密码去猜测,很容易发现这个规律。尤其对于网银等支付密码,犯罪分子会投入更多的精力去破译密码。
百度账号被黑是主要因为它被我划入第三级密码,根据密码管理工具lastpass的统计,我有多达170个账号使用了和百度账号一样的相同密码,被拖库的原因。单凭借人的记忆不可能给每个账号分配一个高强度的复杂密码,所以第三级的密码被黑也应该在预料之中,因为没有足够的精力去照料那些不重要的账号,所以默许了被盗取的风险。不过在账号被黑之后让我对待重要的账号更加谨慎了,也开始寻求更加简单、安全的密码管理方式,所以把目光瞄向了密码管理工具,目前看上的主要有两个:

一、Keepass

Keepass全称为Keep password safe,意味保持密码安全,是一个开源、免费、多平台和支持同步功能的密码管理工具,可以下载到简体中文的语言包以汉化主程序,不过有着开源软件的通病,界面不够美观。
由于密码管理工具的一大优势就是生成复杂密码和自动输入,这两个功能相互补充共同兼顾着密码管理工具的安全和效率,所以所有平台都应该很好地适配这两个功能,这是一个重要的基础功能。
Keepass是开源工具,虽然官方只有Windows版本,但是其他开发者开发了多个平台的客户端。安卓有Keepass2android,界面和同步方面比电脑端更加易用,但自动输入功能相对很弱。
Win10环境下电脑端Keepass无法安装插件,所以放弃了Keepass,但Keepass仍然是个优秀的密码管理工具(出于对开源的热爱)。

二、Lastpass

Lastpass(点此注册)是一款开源工具,支持多平台、同步、多语言和拥有多平台同步的免费版本(2015年8月12日宣布开放移动端免费),这一点非常厚道,因为免费版完全够用。商业服务的一大好处界面美观和易用程度较为完善,Lastpass比Keepass更加容易使用,由于密码都保存在Lastpass服务器上,所以密码是否安全,也很大程度上取决于Lastpass的服务器安全。Lastpass有导入Chrome中已保存密码的插件,所以可以无痛切换。
这里需要提一下Chrome浏览器(也包括其他浏览器)的保存密码功能,自动填充密码而不需要验证主密码的功能实际上降低了密码的安全性,并且浏览器端的密码保存无法在客户端上进行自动填充,所以若生成复杂密码让浏览器管理,就会特别不方便了。
Lastpass的安全性也经常遭到一些人的质疑,认为用一个密码去管理所有密码是愚蠢的,并且数据放在lastpass服务器中没有放到自己手中放心。这实际上是一个仁者见仁智者见智的问题,生活中易用性和功能性都是成反比的,因为多样化的功能往往需要多样化的操作来完成。若是追求高度的安全性,可以使用买个纸质笔记本来管理自己的所有密码,所有密码都设置为高强度的复杂密码,这种密码还必须经过“加密后”写在笔记本中,在需要时自己手动计算解密。
lastpass的易用性毋庸置疑,官方的引导和说明可以使用户非常轻易的入手。对于lastpass安全性的质疑,我认为较为聪明方法仍然是密码分级管理,把密码管理工具作为其中一级的管理手段。对于金融、支付、社交等最为重要的少数几个账号,使用大脑记忆,而剩下的密码交给密码管理工具。
总之,无需过度的追求安全而降低了自己的使用体验,把自己的大量时间精力浪费在“安全”上,而那些对密码安全不曾注意的人,也不妨花点心思,不要等到造成了实际损失后才后悔莫及.

在Ubuntu/debian vps上,使用SMTP发送Mail

$
0
0


在Linux下发送邮件在一些时候会很有用,主要是配合一些脚本完成自动化操作的操作过程,还有一个重大的作用就是配合PHP程序发送邮件,如WordPress的回复邮件提醒,对于一些不喜欢安装插件来实现邮件功能的人,就可以通过配置Linux来支持mail()函数。
那么发送邮件为什么要使用SMTP?一大因素就是简单省事,不需要费太多功夫,最多五分钟就能完成这个过程。二是使用Gmail、Outlook等邮件服务提供的SMTP,发送的邮件不会被自动标记成垃圾邮件,这点非常重要。
sudo apt-get install mailutils ssmtp -y
sudo vim /etc/ssmtp/ssmtp.conf
粘贴入下列内容,并按照自己的信息进行修改:
root=name@gmail.com //你的邮箱名 
mailhub=smtp.gmail.com:587 //这是Gmail的SMTP,其他服务商自行修改
AuthUser=name@gmail.com //你的邮箱名
AuthPass=password //你的密码
UseTLS=YES
UseSTARTTLS=YES
注意:因为配置为明文保存,若你和我一样使用Gmail发送邮件,强烈建议你启用二步验证并生成一个APP专用密码以保护你的账号安全,直接把生成的密码填入AuthPass这一行即可。
echo test | mail -v -s "testing ssmtp setup"name@somedomain.com
如果发送失败可能有以下几个原因:
  1. 密码加入了空格
  2. 同时启用了sentmail等其他发送邮件的程序.

WordPress性能优化指南

$
0
0

当今的网络设施更新迭代非常迅速,普遍是10M光纤以上,再也没有人愿意长时间等待网页载入了。与此相对,网页能够快速的载入绝对是有利于用户体验的。我对此也进行过很多尝试,希望能够提高博客的访问速度,对于一些常见的WordPress加速方法均有些体会,所以分享出来希望可以帮助其他人少做错误的尝试。

一、常见拖慢速度的影响速度

为什么把拖慢速度的影响因素放到加快前面,根据木桶理论,决定木桶中盛水量的决定性因素是最低的那块木板,其他的优化的再好,一个页面元素就能拖慢整体的速度了。当然对一个网站来说,存放网站的主机本身是非常重要的,一般来说除了CPU、IO、内存的性能要足够外,Ping和掉包率不能太高。当ping值大于300或者掉包率大于15时,整个网站再怎么优化都很难有出色的表现,由于主机选用后难以变更,所以这里假定你的主机整体性能还可以。

cannikin-law

1-1引用的元素

1-1-1问题自检

从这里开始,需要学会一点浏览器的分析工具(chrome-devtools)的用法,以帮助我们能够更精确的分析页面性能的状况而不是凭借感觉判断。我这使用的是Chrome浏览器,Firefox浏览器也有类似工具,使用方法大同小异,这里是以Chrome做示范。打开方式非常简单,在网页中空白处 鼠标右键–检查,或者快捷键Ctrl+Shift+I就能打开Chrome浏览器的分析工具(chrome-devtools)。



它的全貌是这样的:

wordpress-performance2



敲入网址回车进行访问,测试一下:

wordpress-performance4

1-1-2Gravatar头像

Gravatar头像由于没有国内服务器,从国外访问速度是很不理想的,并且国际线路抽风也是常态,所以这个时候就需要进行决择了,是设定不显示头像,还是使用其他人提供的反代CDN的Avatar头像,或者也可以自己反代一个。例如要替换为V2ex的Avatar头像,可以在外观–编辑–functions.php中加入下列一段代码:

function getV2exAvatar($avatar) {
        $avatar = str_replace(array("secure.gravatar.com/avatar","0.gravatar.com/avatar","1.gravatar.com/avatar","2.gravatar.com/avatar"),"cdn.v2ex.com/gravatar",$avatar); return $avatar; } add_filter('get_avatar', 'getV2exAvatar');
除了V2ex提供的Gravatar CDN服务,还有其他的也十分值得使用,要更换V2ex的反代头像为其他服务,只需要更换上列代码中的cdn.v2ex.com/gravatar为下列其中一个地址即可。

七牛云Gravatar(推荐):

dn-qiniu-avatar.qbox.me/avatar
多说Gravatar:

gravatar.duoshuo.com/avatar
中科大Gravatar:

gravatar.lug.ustc.edu.cn/avatar
MoeCDN Gravatar:

gravatar.moefont.com/avatar
极客族Gravatar:

sdn.geekzu.org/avatar
1-1-3Google字体库

除了Avatar头像,也很有可能是谷歌字体还有其他引用的公共库导致的整体速度被拖慢,这里可以替换为国内的一些CDN公共库,也可以托回到自己的主机上,直接引用自己的主机地址,这样的好处是减少了DNS查询的时间,也因此一般不建议替换网站中原本的JS为公共库的CDN。不过当你的主机在国外,国内下载速度非常慢的时候,使用一个高速的CDN公共库也就变得有必要了。

当你通过上面提到的chrome-devtools工具发现自己的页面引用有谷歌字体,那么禁用谷歌字体是个很好的选择,因为页面加载的字体都只针对英文、数字和特殊符号,中文字体包的体积过大,没人会在网页中插入中文字体,所以禁用谷歌字体对中文网站的影响不大。当你决定要禁用谷歌字体时,可以到WordPress的外观-编辑中选择自己当前正在使用的主题,在funtions.php模版(并不总是在funtions.php模版模版中,需要自己去查找)中找到引用的谷歌字体,并注释那一行代码。


以WordPress 2017年度主题Twenty Seventeen为例
1-2插件

插件的使用越少越好,WordPress本身已经足够安全,如果使用未知第三方插件可能会导致安全问题。很多功能可以轻松的使用代码实现,就没有必要使用插件了,比如网站地图(sitamap.xml)等功能就可以使用代码实现。在使用插件需要审视自己是否真的需要那些功能,如果确定需要就寻找能否可以使用代码的方式代替,在找到代码实现的方法后,若是认为代码实现的操作难度大于自己的水平,那么就果断使用插件。毕竟插件本身就属于WordPress的一大优点,也不是每个人都那么Geek,什么都能自己搞定的。

对于一些功能还可以使用另类的方式替代,比如对于输入代码的功能。我并非码农,也并不期待能够再这方面有所建树,但在贴代码方面有着小量的需求,所以我就使用了标签的而非插件的方式来粗略的实现这一目的。比如对于一些短代码就使用code标签,效果:<code>this is code</code> 对于一些长代码使用<pre>标签,效果如下(无高亮功能):

this is code
使用 pre 标签有个缺点,就是不能插入PHP整段代码,显示会有异常,对于大多数人来说这并不是一个问题。

二、加速你的网站

2-1静态缓存
都知道静态博客的速度快,那是因为静态博客只需要访问,并不需要动态生成页面。使用WordPress时可以使用一些静态缓存插件,生成静态文件供用户访问以提升访问速度,并且生成的缓存是一次性的,对于高访问量的网站还能减缓主机负载。

使用静态缓存推荐一个插件WP-Super-Cache,WP-Super-Cache是使用人数最多的一个静态缓存插件,功能非常强大,可自定义选项多同时还保持着良好的兼容性。安装好插件后需要设定启用缓存,缓存模式我推荐选择『mod_rewrite 缓存模式』,速度最快,对于插件推荐的选项全部勾拳,把缓存超时时间设置为0,禁用缓存自动回收。

2-2 Pagedpeed
Google也深知网站速度的重要性,推出了很多站长工具来帮助提升网站速度,Pagespeed就是Google推出的一个前端自动优化模块,支持Apache和Nginx。拥有非常多的优化功能,大名鼎鼎的域名商、空间商GoDaddy就在自己的主机上部署了Pagespeed以提升主机使用者网站的访问速度。

有一篇文章专门介绍了Mod_pagespeed的使用方法,详细的介绍了各种小技巧。

2-3CDN

如果你的站在国内并且已经备案了,那么国内各大CDN均是很好的选择,如果未备案只能选择海外的CDN加速服务Cloudflare等,那么就有可能加速后不如加速前,这个可以自行测试选择。选择CDN能够隐藏自己的主机IP,一定程度上使得网站更加安全,不容易遭受攻击。

如果确实不想备案,又想要使用国内的CDN,可以尝试如七牛、又拍等静态文件CDN服务,和静态缓存插件WP-Super-Cache配合,速度提升非常明显。


小结

网站加速是个永恒的课题,优化方法无非是空间换时间。对于海外主机来说,主机本身的网络线路能够很大程度上影响网站的访问速度,所以选择主机时要谨慎选择。其实对于网站速度来说,个人博客的速度能过得去就行了,不应该太高的要求。因为要想达到很快的速度,需要投入大量时间和金钱,这对于一般人来说,值不值是需要考虑的。

毕竟也不能偏离写博客的初衷,记录与分享,内容最重要。
--------

其实WordPress一个非常有效的方法就是使用数据库缓存,无论是Redis或者是Memcached都可以很大程度上提高速度。我基本上只要开启Redis和PHP7就非常快了~

嗯嗯嗯,缓存确实很有用。WP-Super-Cache的mod_rewrite缓存模式能直接生成HTML文件,直接绕过了PHP解析和数据库查询,理论上比单独的数据库和PHP缓存效率更高。但是对于未备案的国外主机来说,主要瓶颈是网络传输速度,减小网站文件大小和加快静态资源加载对网站的整体速度提升效果非常明显。

Ubuntu vps上,设置alias别名

$
0
0


在Linux的日常操作中,经常会输入一些命令,这些命令很长并且需要经常使用,长时间如此难免会产生厌倦感,于是可以通过设定别名来简化这些命令。
可以通过alias命令查看Ubuntu中内置设定的几个别名:
如图所示,在系统预设的几个别名中,执行ll就等同于执行ls -CF,执行la就等同于执行ls -A,也知道了为什么在Ubuntu执行ls命令出来的结果是有颜色的(只有Ubuntu预设这些alias),因为默认执行ls就等同于执行ls --color=auto。我们也可以通过设置别名来自定义一些命令以提升使用效率,也能够更愉快的使用Linux。

一、配置alias

配置alias也很简单,在当前用户的下的.bashrc.bash_aliases都可以用来配置alias,若是没有这些文件可以自己新建一个。配置形式为:
alias aliasname='command'
举个例子,我可以设定下列命令:
alias agu='sudo apt-get update'
alias agi='sudo apt-get install'
这样设定后,我们就可以使用agu命令来更新系统,使用agi vim来安装vim,操作被大大简化了。

二、可能遇到的错误

就上面的命令而言,可能会有一些人这样设定:
alias agi='apt-get install'
然后通过sudo agi xxx来安装软件,这样就会提示找不到命令,因为设置在当前用户下的.bashrc、.bash_aliases只对当前用户有效,当使用sudo命令时,后面的命令是以root的身份执行的,若没有针对root设定.bashrc,就无法提示找不到命令。想要设置全局的alias,可以使用同样的方法修改/etc/bash.bashrc实现这一功能。

三、使配置立即生效

一般情况下,当你对以上配置做出修改时,在注销重新登录后就可以生效了,当然也可以手动执行立即生效,使用点命令source .bashrc或者. .bashrc命令使修改立即生效.

自动备份WordPress数据到Dropbox

$
0
0
WordPress的备份无非三种方式:
  • 插件备份
  • 脚本备份
  • 第三方服务
插件备份 WordPress 无非是最简单的方式,推荐新手使用。插件可以备份博客到 Email 、FTP 或是 Dropbox 。备份到 Email 时,有个小技巧就是邮件标题或内容一般都会有插件名,然后就可以在接受邮箱中添加规则,将标题含有特殊字段的邮件标注已读并移动到 Backup 文件夹,这样也是很好的备份手段。奈何我本身不喜欢插件备份的形式, Email 的附件一般限制大小 25MB,所以就选择了使用脚本备份到 Dropbox 这种更加灵活的方式。这种方法仅限使用在有 SSH 管理权限的主机或空间中,比如 VPS、OpenShift。
使用脚本备份的方法也很简单,分为三个步骤:
  1. 下载设定 Dropbox 脚本
  2. 编辑自动备份脚本
  3. 添加定时运行

一、设定Dropbox脚本

首先需要一个 Dropbox 的账号,如果没有账号可以在这里注册。登录Dropbox,打开https://www.dropbox.com/developers/apps,点击Creat app创建新的app,依次点击Dropbox API、Full Dropbox,app name随便取名,创建成功后进入刚刚创建的app管理页面,能看到App key、App secret后这个地方就完成了。
接着使用 SSH 连接自己的 VPS 主机,进行下列操作:
mkdir backup #创建目录
cd backup #进入目录
wget https://raw.githubusercontent.com/andreafabrizi/Dropbox-Uploader/master/dropbox_uploader.sh –no-check-certificate #下载dropbox备份脚本
chmod +x dropbox_uploader.sh #加执行权限
sh dropbox_uploader.sh info #运行脚本
首次运行需要进入之前创建的 app 的设置中生成 token ,之后输入 y 进行确认,会在当前目录下生成 .dropbox_uploader 文件记录 token 值。也就是说,如果你想要其他用户使用这个脚本,需要复制这个文件到其他用户目录下,或者以其他用户身份运行,重新生成一个 token 进行配置。

二、编辑自动备份脚本

需要写一个 shell 脚本,使用顺手的编辑器,在其中粘贴进去以下内容:
vim baksite.sh
#!/bin/bash
SCRIPT_DIR=”/home/usname/backup” #之前下载的脚本的位置
DROPBOX_DIR=”/backup” #保存到Dropbox中的/backup文件夹
BACKUP_SRC=”/var/www/wordpress/wp-content/uploads” #这个是你想要备份的本地VPS上的文件,不同的目录用空格分开
BACKUP_DST=”/tmp”
MYSQL_SERVER=”localhost”
MYSQL_USER=”root” #这个是你mysql的用户名名称
MYSQL_PASS=”yearliny” #这个是你mysql用户的密码
# 下面的不用改
NOW=$(date +”%Y.%m.%d”)
OLD_DROPBOX_DIR=/backup/$(date -d -30day +%Y.%m.%d)
DESTFILE=”$BACKUP_DST/$NOW.tar.gz”
# 备份mysql数据库并和其它备份文件一起压缩成一个文件
mysqldump -u$MYSQL_USER -h$MYSQL_SERVER -p$MYSQL_PASS --all-databases “$NOW-Databases.sql”
tar cfzP “$DESTFILE” $BACKUP_SRC “$NOW-Databases.sql”
# 用脚本上传到dropbox
$SCRIPT_DIR/dropbox_uploader.sh upload “$DESTFILE” “$DROPBOX_DIR/$NOW.tar.gz”
# 删除本地的临时文件
rm -f “$NOW-Databases.sql” “$DESTFILE”
$SCRIPT_DIR/dropbox_uploader.sh delete “$OLD_DROPBOX_DIR.tar.gz”
echo $NOW “All done!”
chmod +x baksite.sh
sh baksite.sh
保存,使用添加执行权限,就能执行该脚本。这个脚本能够自动保存 WordPress 的文件夹和全部数据库(不止 WordPress 的数据库)打包上传到 Dropbox 的 bakcup 文件夹下,并且自动删除30天前的旧备份文件,避免占用空间。

三、添加定时运行

由于脚本需要 root 权限才能运行,所以需要以 root 身份定时运行脚本。添加下列内容:
sudo crontab -e
0 0 * * * /home/user/backup/backup.sh>>/var/log/sitebak.log
后面的路径修改为之前自己编辑的自动备份脚本的绝对目录位置,保存退出,即可每天零点备份一次博客,并输出每次运行的信息到/var/log/sitebak.log,可谓十分放心。
注意:test.sh > logtest.sh >>log两种方法所保存的日志是存在差异的,第一种方法只会保存最后一次的运行结果,即最后一次的运行信息和覆盖掉原先的日志。而第二种方法却会记录每次的执行信息到文件最底部。

四、如何恢复备份文件

前面我们已经备份了整个数据库、必要的网站文件以及 Web server 配置,那么等到需要的时候,又该如何恢复呢?
首先需要从 Dropbox 上下载我们之前备份的文件。
./dropbox_uploader.sh download /backup/2017.9.25.tar.gz a.tar.gz
使用脚本的download参数就能把存放到Dropbox中/backup/2017.9.25.tar.gz这个文件下载至当前文件夹并命名为a.tar.gz。
tar -xzvf a.tar.gz
执行上列命令解压压缩包,解压完成后可以使用ll命令查看文件列表,我们的数据安然的在那里,就可以利用他们恢复到之前的样子了。值得一提的是,如果不是迁移到新主机,大多数时候只需要恢复数据库或一部分网站文件,而不需要全部恢复。

数据库

导入数据库非常简单,在 shell 窗口切换至存放备份数据的文件夹,然后只需要执行一行命令。
mysql -uusername -ppassword< databases.sql
其中高亮部分的usernamepassword都替换成自己的 MySQL 账户的用户名和密码,databases则为自己的数据库名称。

网站文件

如果你原先的网站文件在/var/www/html,那么一行命令就可恢复。
sudo mv -rf var/www/html /var/www/html
Web server 的恢复方法和恢复网站文件一致,直接把文件移动过去即可.

贫富差距重新成为世界性的问题

$
0
0

传统上,贫富差距在发展中国家比较明显,发达国家拥有一个大比例的中产阶级群体,较小的贫富差距和较高的国民收入水平,成为发达国家在经济上的主要标志。不过,贫富差距问题目前在发达国家开始变得突出。
全球资管规模最大的对冲基金桥水(Bridgewater Associates)创始人达里奥(Ray Dalio)日前在一份观察报告中,提供了美国贫富分化加剧的证据:最富有的40%群体的平均财富是最贫穷60%的10倍,这一比例在1980年代还是6倍;在最贫穷的60%中,三分之一的人都没有存款,他们没有现金或者金融资产。根据美联储的研究,这个群体中的绝大多数人在面对紧急情况时根本拿不出400美元来应急。至于两极分化加剧的原因,主要是“富人们从其持有的资产的价值变动中获益匪浅”。而资产价值最近数年大幅走高,很多分析人士都认为这要“归功于”包括美联储在内的全球央行们大肆撒钞票的行为。
值得注意的是,消费结构的变化使得贫富差距问题更加复杂化。美国最富有的40%人群在教育上的花费是最贫穷60%的4倍。这就导致了一个螺旋形问题:有钱的人花费越多的钱提升自己,从而有能力赚到更多的钱。而没钱的人因为收入减少,就会压缩教育开支,继而愈加无力赚钱。作为社会中坚力量的中产阶级情况更加糟糕。达里奥表示,在缴纳社保和税款之后,美国中产们的“收入和财富的恶化状况超过了其他群体”。出现这种情况,主要是因为自1997年以来,大约有30%的制造业岗位减少。达里奥警告,美国正面临1937年以来最严重的分裂,“目前美国的贫富差距是上世纪30年代以来最大的”,经济上的分裂已经显而易见了,另一场全球性的冲突或许难以避免。
达里奥的警告并非泛泛而谈,更不是危言耸听。从现实看,贫富差距问题开始重新成为全球面临的严峻挑战。与过去不同的是,当前全球性的贫富差距问题不只是生产不足造成的基本生存问题,全球制造财富方式的变化,也成为导致贫富差距问题的重要原因。在现代世界,富有阶层更多依靠资产来获取财富,而不是靠传统的实业来创造财富。而资本过剩加剧了这一分化,资本越过剩,资本市场的泡沫就越多,富裕阶层通过资本市场赚取的财富也就越多。与之相反,穷人们则没有可供获得财富收入的多余资产,他们与这个资本过剩的世界中的财富聚集相去越来越远。
以财富来获取财富的“马太效应”加剧贫富差距,托马斯·皮凯蒂在《21世纪资本论》里对此有过分析。实际上,皮凯蒂对资本与收入问题、财富分配问题的研究,以及对当代资本主义的反思,之所以在金融危机之后在全球刮起一阵风潮,与当前全球贫富差距加大和财富创造模式的变化有很大关系。要强调的是,贫富差距问题的新变化影响深远,它不仅是西方国家的一个经济问题,还会变成社会问题并进一步演化为政治问题。美国“另类”总统特朗普能够上任,与美国中产阶级在贫富差距加剧中的际遇不无关系。反全球化、“美国第一”、保守主义的兴起,也与全球贫富差距问题恶化有重要关系。
安邦(ANBOUND)的智库学者要指出的是,贫富差距问题对中国同样具有重要意义。具体来说,消除贫富差距在中国具有若干重大意义:(1)消除贫困,实现全面小康。这是中国在十三五要完成的政治任务,也是中国特色社会主义要实现的初步发展目标。(2)中国过去的快速发展中,积累了较大的贫富差距,尤其是在“底限型”的社会保障、医疗保障方面存在重大缺陷。中国对贫困问题的安全网建设还很不够。此外,中国相当一部分地区和人群还缺乏有质量的基本公共服务,这也是中国贫富差距问题的一部分。(3)中国过去的财富积累,一方面与劳动和科技进步带来的财富创造有关,另一方面则与权力和资源控制有关,与权贵资本主义相关,这在城市化、金融业的发展中表现得特别明显。财富积累的公平性问题,在中国留下了不少潜在问题。(4)贫富差距在中国还表现为比较明显的城乡差别、区域差别,这是中国与其他国家不太相同的地方。
还要指出的是,贫富差距对社会的影响还表现在消费转型方面。虽然各国经济在保持增长,居民收入也在增加,甚至高于GDP的增幅,但由于社会的消费结构在变化——物质型的消费减少,服务型、体验型的消费在增多(如旅行、医疗、教育等)。由于服务型消费的价格上涨很快,这就带来一类新问题:中产阶级的收入不能跟上服务消费的价格上涨,他们的“相对贫困”在增加。这是另一种中产阶级的贫困,在发达国家和发展中国家都存在这种情况。
最终分析结论(Final Analysis Conclusion):
贫富差距加大正在重新成为全球性的问题,除了发展中国家面临的供给不足导致的绝对贫困,发达国家因财富创造模式变化造成的贫富差距加大,正在制造新的问题。这种格局不仅是经济问题,还会演化成社会问题和政治问题,进而影响全球经济和政治潮流.

经济动机才是美国南北战争的主因

$
0
0

在自由派眼中,美国南北战争是无可争议的正义之战,北军是为了解放黑奴而战。但在不少美国白人心目中,这样的论述却虚伪无比,因为真相远比简单的文宣复杂。早于1920年代,历史学家比尔德夫妇(Charles Beard & Mary Beard)就提出,经济动机才是爆发南北战争的主因。十九世纪中叶,东北部的新英格兰经济逐步转型,工业逐渐发展,开始出现中大型城市,新兴中产阶级成型,他们之上还有工业资本家,历史学家称这段时期为“市场革命”。与此同时,南部州份的经济命脉仍以农业为主(特别是棉花业),主要生产力都是来自黑奴。因此,在南方,没有视作黑奴为公民,只视之为一种产生利润的工具;但在北方,却希望释放黑奴的剩余劳动力到现代工业,也相信提高其消费力,能促进商业发展。北方因为经济发展需要,开始出现大量受联邦政府规管的银行;南方的银行则以地方银行为主,只针对农业服务。北方呼吁提高关税,以保障其工业制成品的国内销路;南方则主张低关税政策,以免欧洲国家报复,抵制他们的棉花农产品出口。总之,南北双方经济矛盾重重,黑奴问题只是“一篮子”问题之一,而且,最初只是旁枝未节。就在南北走向不同发展之时,林肯当选总统。今天的美国历任总统排名榜当中,林肯经常高踞榜首,但他当选时,却被视为国家分裂的真正元凶;南部旧有贵族阶层、居民早就担心北方新兴工业资产阶级控制美国政坛,而林肯代表的共和党只是刚成立6年,在南部几乎毫无根基,与今天的美国政党势力分布完全不同。面对强硬捍卫北方利益,主张提高关税的林肯,南方各州决定先发制人,宣布退出联邦,组成“美利坚邦联”,而林肯决定讨伐,开启了南北战争.
---------

简言之:都是为了利益。

手动安装谷歌服务-GAPPS

$
0
0


GAPPS就是谷歌服务套件,为了享受到完整的安卓机体验,谷歌服务对于安卓手机玩家是必不可少的,但是由于某局下令,国产机把谷歌服务全部阉割掉,否则不能取得入网通行证,再加上手机行业竞争加剧,硬件利润不断被压榨,各个手机厂家开始打造闭环服务链,大量内置自己的软件以补偿利润。
但用过Google play的人都知道Google play上的App更加纯净,国内一些软件商在国内软件市场和Google play中上传的App是两个版本。例如Google play版本的快牙、WPS中没有广告。有了谷歌服务还能使用谷歌的GCM(Google cloud message)推送,能够在程序没有后台驻留程序的情况下推送信息。
那么应该如何安装Google play呢?大多数人使用的方法无非两种:
  • 谷歌安装器
  • 卡刷GAPPS包
谷歌安装器的使用方法最简单,安装“谷歌安装器”这个App后一键搞定,但并不总是能够成功。卡刷的方法需要解锁bootloader,安装过程相对要复杂一些。而且使用的手动安装的方法是操作步骤相对复杂,但并不是很难,只要按着做就会成功,不会出任何遗留问题。如果你用其他方法安装遇到任何问题,都可以使用这个方法,这是优势所在。能够解决卡在“正在核对信息”等一系列问题。

一、安装所需

  • Root权限
  • Re文件管理器
  • Rar解压工具
  • 自由互联网
至于root权限的获取,可以安装kingroot尝试一键Root,若没有成功,尝试搜索“机型+root“寻找适合自己的root方案。此方法理论上适合所有root过的安卓机。

二、操作步骤

2-1下载GAPPS包

先了解自己的CPU型号,手机版本和DPI,这些信息可以通过搜索自己的手机型号查询到。了解到这些信息以后,打开网站http://opengapps.org/,下载适合自己版本的压缩包。
后面的版本选择pico,即只包含google play的核心服务以及谷歌的同步服务(联系人、日历等)。

2-2提取所需文件

解压压缩包,进入解压出来的文件夹中的core文件夹,解压下面三个文件夹。(这个步骤用到了开头说明的rar解压缩工具)
  • gmscore-arm64.tar.xz
  • vending-all.tar.xz
  • defaultframework-common.tar.xz
分别解压后,分别进入每个文件夹的最后一个层级,找到以下三个文件夹:
  • GoogleServicesFramework
  • Phonesky
  • PrebuiltGmsCore
其中PrebuiltGmsCore这个文件夹比较特殊,需要找到适合自己CPU型号和DPI的那个。

我的手机屏幕DPI为480,于是我选用的是“480/PrebuiltGmsCore“文件夹。到此还没结束,在PrebuiltGmsCore文件夹下新建lib文件夹,并把/common/priv-app/PrebuiltGmsCore/lib/arm64中的所有文件复制到刚刚新建的lib文件夹中。(由于手机型号不同,下载的压缩包不同,故arm64这个文件夹名字会有些差距,但大体过程一样)

2-3开始安装

把上述的三个文件夹(有个子文件夹),使用Re资源管理器移动到手机的根目录/system/priv-app文件夹下,并把所有文件夹(包括子文件夹)权限设置为rwxr-r-r,如图:
接着把所有文件夹内的文件,也就是.apk文件和lib目录下的.so文件,全部更改权限为rw-r–r,如图所示:

全部更改完毕后,重启手机,即可安装成功。

二、写在最后

由于谷歌服务套件是直接写到/system目录,所以手机在恢复出厂设置后之前刷入的Google play依然存在,这对一些人来说是优点,对一些人来说是缺点,但可以直接删除之前移动过去的文件夹来恢复这个过程.

部分 ISP 启用端口白名单

$
0
0
你可能已经注意到网络访问的困难:根据网民的报告,部分地区 ISP 已经启用了端口白名单。如果你的代理服务器使用的端口不在白名单内,那么服务器的IP没有被屏蔽也会无法登录。目前已知北京电信已经部署,其它地区 ISP 可能会跟进。墙采用这种极端手段似乎印证了防火长城之父的“无能”之说,无能是指审查的范围过于广泛。
---------

共匪是越来越bt了,ctmd


为什么美国满街跑的都是普通车

$
0
0
说起美国生活,很多人首先想起来的就是带小院子的别墅和停在外面的敞篷跑车,这应该是以前美国电影带给我们最直观的感受。但是如果现在仔细观察美国街上行驶的汽车,就会发现老美们开的车都那么普通,普通得让我们无法与敞篷车的生活联系到一起。为什么工资高、车价便宜,却不是满街豪车?
美国人的收入是多少?
目前美国的人均年收入约为5万美元(人民币331900元)。中国以经济最发达的北京为例,2016年北京的人均年收入为82872元人民币,抛开物价差异不谈,目前美国人均年收入是北京人均年收入的四倍还要多,要知道北京是中国人均年收入最高的城市。简言之如果中美汽车售价相同的话,美国人买车经济压力仅仅是中国人的四分之一(你车的售价乘四是什么车?)。
美国是车轮上的国家,其实美国在2011年以后就不再是全球第一大汽车市场(被中国超过了),但是美国仍然是世界第一汽车大国。为什么这么说呢?因为从1972年开始,美国车的数量就超过了驾照持有人的数量。根据美国联邦高速公路管理局和全美汽车经销商协会的双重数据来看,美国目前有2.53亿辆车。这是什么概念?如果每辆车能装5个人,那么可以把整个印度和韩国的人都装到美国的车里,外加3千万吨泡菜放到后备箱。
为什么多数美国家庭的车都很一般?
修车成本高
首先不要忽略一个点,很多豪华品牌如奔驰、宝马,也是美国人的梦想座驾。再抛开售价来说,美国的汽车维修费用比较贵,买车不是问题,而修车才是问题,如果经常跑去修车所用的花销,差不多能再买一台了,这也是为什么雷克萨斯在美国卖的好的原因。买车买的起,修车修不起是困扰美国人的一个问题。人工、技术、时间对于美国人来说都很值钱的,所以买个豪华车的维修保养价格远远超过普通车型的费用,为了生活不会打肿脸充胖子的。
汽车不是炫富的工具
汽车在美国发展得比较早,美国是汽车的故乡,美国人对汽车理解并不是炫富的工具而是交通工具,只要能安全到达目的地就可以了,但是美国人比较注重汽车的舒适性,所以大型车辆和悬架软质的车辆在美国比较畅销。美国人不像中国人那样好面子,对于豪车他们并没有多大的强烈的欲望,只要能满足他们实际生活需要就可以了,没人再去在乎品牌。
美国人懂得享受生活
美国中产及中产以上的人都很懂得享受生活,他们会发展几个兴趣爱好,定期和家人出去旅行,注意身体保养等。这些当然都是需要金钱支撑的,所以他们并不会把金钱过多的投入到买车养车当中。反观中国的中产阶级因为没有多少阶级沉淀所以消费观并不成熟,消费结构也仅仅停留在更多的基础消费上(穿更好的衣服,吃更好的饭,开更好的车),不过如今国人的消费结构越来越丰富,新中产的出现也为其注入了新的活力,随着社会发展以及人民生活水平的提高,国人的汽车消费观念也将逐渐改变。
折旧很痛苦
如果你花了8万美元买一辆车,那么折旧会很痛苦,就算这车买的很好,但是到你手里后就是50%的折旧价,而不是普通车的75%。两万美元的车,折旧25%后是1万5千美元。而8万美元的车,折旧50%后,你损失的是4万美元。拥有一辆豪车,就等于给自己的资产打折。我以前也问过我美国同学这个问题,他说除非在华尔街工作或者在好莱坞演戏,不然是没有人会去买8万美刀的车。
总结
其实,美国人的车并不是很一般,只不过他们的消费结构跟中国人不同,所以在汽车上的投入占比会有所降低。并且他们在购车时比较务实,他们并不认为一个豪华的品牌能给他们带来多少地位上的提升。所以在一些中国人看来,他们的收入跟购车的标准不太成正比.

Take Me Home, Country Roads

$
0
0

这女人的声音很圆润。。。

La Marseillaise • 馬賽曲

$
0
0

好像后来成为了法国的国歌

爬虫技术现状

$
0
0
导语:本文全面的分析了爬虫的原理、技术现状、以及目前仍面临的问题。如果你没接触过爬虫,本文很适合你,如果你是一名资深的虫师,那么文末的彩蛋你可能感兴趣。
需求
万维网上有着无数的网页,包含着海量的信息,无孔不入、森罗万象。但很多时候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣、有价值的内容,但是纵然是进化到21世纪的人类,依然只有两只手,一双眼,不可能去每一个网页去点去看,然后再复制粘贴。所以我们需要一种能自动获取网页内容并可以按照指定规则提取相应内容的程序,这就是爬虫。
原理
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。
另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;所以一个完整的爬虫一般会包含如下三个模块:
网络请求模块
1. 爬取流程控制模块
2. 内容分析提取模块
3. 网络请求
我们常说爬虫其实就是一堆的http(s)请求,找到待爬取的链接,然后发送一个请求包,得到一个返回包,当然,也有HTTP长连接(keep-alive)或h5中基于stream的websocket协议,这里暂不考虑,所以核心的几个要素就是:
1. url
2. 请求header、body
3. 响应herder、内容
URL
爬虫开始运行时需要一个初始url,然后会根据爬取到的html文章,解析里面的链接,然后继续爬取,这就像一棵多叉树,从根节点开始,每走一步,就会产生新的节点。为了使爬虫能够结束,一般都会指定一个爬取深度(Depth)。
Http请求
http请求信息由请求方法(method)、请求头(headers)、请求正文(body)三部分组成。由于method一般是header中的第一行,也可以说请求头中包含请求方法,下面是chrome访问请求头的一部分:
GET / HTTP/1.1Connection:Keep-AliveHost:gsw.iguoxue.org User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36Accept-Encoding:gzip, deflate, sdch, br
本文不会解释各个字段的意思,详细的解释请移步w3c Http Header Field Definitions 。 对于爬虫需要注意的是请求方法是post时,需要将请求的参数先进行urlencode后再发送,后台收到请求信息后可能会做一些校验,这可能会影响到爬取,相关的header字段如下:
Basic Auth
这是一种古老的、不安全的用户验证方式,一般会有用户授权的限制,会在headers的Autheration字段里要求加入用户名密码(明文),如果验证失败则请求就会失败,现在这种认证方式正在被淘汰。
Referer
链接的来源,通常在访问链接时,都要带上Referer字段,服务器会进行来源验证,后台通常会用此字段作为防盗链的依据。
User-Agent
后台通常会通过此字段判断用户设备类型、系统以及浏览器的型号版本。有些编程语言包里网络请求会自定义User-Agent,可以被辨别出来,爬虫中可以设置为浏览器的ua。
Cookie
一般在用户登录或者某些操作后,服务端会在返回包中包含Cookie信息要求浏览器设置Cookie,没有Cookie会很容易被辨别出来是伪造请求;也有本地通过JS,根据服务端返回的某个信息进行处理生成的加密信息,设置在Cookie里面;
JavaScript加密操作
在进行敏感数据传输时,一般都会通过javascript进行加密,例如qq空间就会对用户登陆密码进行RSA加密后再发送给服务器,因此,爬虫在模拟登陆时需要自己去请求公钥,然后加密。
自定义字段
因为http的headers可以自定义地段,所以第三方可能会加入了一些自定义的字段名称或者字段值,这也是需要注意的。
流程控制
所谓爬取流程,就是按照什么样的规则顺序去爬。在爬取任务不大的情况下,爬取的流程控制不会太麻烦,很多爬取框架都已经帮你做了如scrapy,只需要自己实现解析的代码。
但在爬取一些大型网站时,例如全网抓取京东的评论,微博所有人的信息,关注关系等等,这种上十亿到百亿次设置千亿次的请求必须考虑效率,否则一天只有86400秒,那么一秒钟要抓100次,一天也才8640w次请求,也需要100多天才能到达十亿级别的请求量。
涉及到大规模的抓取,一定要有良好的爬虫设计,一般很多开源的爬虫框架也都是有限制的,因为中间涉及到很多其他的问题,例如数据结构,重复抓取过滤的问题,当然最重要的是要把带宽利用满,所以分布式抓取很重要,这时流程控制就会很重要。
分布式最重要的就是多台机器不同线程的调度和配合,通常会共享一个url队列,然后各个线程通过消息通信,如果想要抓的越多越快,那么对中间的消息系统的吞吐量要求也越高。
现在也有一些开源的分布式爬取框架如scrapy-redis就是一个重写了scrapy的调度模块、队列、管道的包,redis数据库是用来在分布式中做请求队列共享,scrapyd是用来部署scrapy的,scrapyd-api用来启动获取数据。
内容分析提取
请求headers的Accept-Encoding字段表示浏览器告诉服务器自己支持的压缩算法(目前最多的是gzip),如果服务器开启了压缩,返回时会对响应体进行压缩,爬虫需要自己解压;
过去我们常需要获取的内容主要来源于网页html文档本身,也就是说,我们决定进行抓取的时候,都是html中包含的内容,但是随着这几年web技术飞速的发展,动态网页越来越多,尤其是移动端,大量的SPA应用,这些网站中大量的使用了ajax技术。
我们在浏览器中看到的网页已不全是html文档说包含的,很多都是通过javascript动态生成的,一般来说,我们最终眼里看到的网页包括以下三种:
Html文档本身包含内容
这种情况是最容易解决的,一般来讲基本上是静态网页已经写死的内容,或者动态网页,采用模板渲染,浏览器获取到HTML的时候已经是包含所有的关键信息,所以直接在网页上看到的内容都可以通过特定的HTML标签得到。这种情况解析也是很简单的,一般的方法有一下几种:
1. CSS选择器
2. XPATH(这个值得学习一下)
3. 正则表达式或普通字符串查找
4. JavaScript代码加载内容
一般来说有两种情况:
A一种情况是在请求到html文档时,网页的数据在js代码中,而并非在html标签中,之所以我们看到的网页是正常的,那是因为,其实是由于执行js代码动态添加到标签里面的,所以这个时候内容在js代码里面的,而js的执行是在浏览器端的操作,所以用程序去请求网页地址的时候,得到的response是网页代码和js的代码,所以自己在浏览器端能看到内容,解析时由于js未执行,肯定找到指定HTML标签下内容肯定为空,如百度的主页就是这种,这个时候的处理办法,一般来讲主要是要找到包含内容的js代码串,然后通过正则表达式获得相应的内容,而不是解析HTML标签。
B另一种情况是在和用户交互时,JavaScript可能会动态生成一些dom,如点击某个按钮弹了一个对话框等;对于这种情况,一般这些内容都是一些用户提示相关的内容,没什么价值,如果确实需要,可以分析一下js执行逻辑,但这样的情况很少。
Ajax/Fetch异步请求
这种情况是现在很常见的,尤其是在内容以分页形式显示在网页上,并且页面无刷新,或者是对网页进行某个交互操作后,得到内容。对于这种页面,分析的时候我们要跟踪所有的请求,观察数据到底是在哪一步加载进来的。然后当我们找到核心的异步请求的时候,就只需抓取这个异步请求就可以了,如果原始网页没有任何有用信息,也没必要去抓取原始网页了。
爬虫技术的现状
语言
理论上来说,任何支持网络通信的语言都是可以写爬虫的,爬虫本身虽然语言关系不大,但是,总有相对顺手、简单的。目前来说,大多数爬虫是用后台脚本类语言写的,其中python无疑是用的最多最广的,并且页诞生了很多优秀的库和框架,如scrapy、BeautifulSoup 、pyquery、Mechanize等。
但是一般来说,搜索引擎的爬虫对爬虫的效率要求更高,会选用c++、java、go(适合高并发),详情排名前50的开源Web爬虫用于数据挖掘。
我在大学时代就用c++实现了一个多线程的框架,但是发现和python实现的爬虫效率提升并不明显,原因是,对于简单爬虫,瓶颈在于数据分析及提取,而网络效率和语言关系并不大。
值得一提的是,在近几年node发展非常快, 使得javascript遍地开花,有些人也开始尝试用node做爬虫,但是,这其实和其它后台脚本语言没什么区别,也不如python简单, 因为你依旧不能在node里发起ajax请求,不能执行原网页的dom。因为node的javascript执行环境和浏览器的执行环境并不相同。
那么,难道就真的不能像在浏览器中一样用js写爬虫,用jquery提取内容吗?想法很大胆,我们暂且搁置。
运行环境
爬虫本身不区分到底是运行在windows还是Linux,又或是OSX,但从业务角度讲,我们把运行在服务端(后台)的,称之为后台爬虫。而现在,几乎所有的爬虫都是后台爬虫。
后台爬虫的三大问题
后台爬虫在大行其道的时候,也有着些许棘手的、到目前也没有什么好的解决方案问题,而归根结底,这些问题的根本原因是由于后台爬虫的先天不足导致,在正式讨论之前,我们先思考一个问题,“爬虫和浏览器有什么异同?”
相同点
本质上都是通过http/https协议请求互联网数据
不同点
爬虫一般为自动化程序,无需用用户交互,而浏览器不是;
运行场景不同;浏览器运行在客户端,而爬虫一般都跑在服务端;
能力不同;浏览器包含渲染引擎、javascript虚拟机,而爬虫一般都不具备这两者。
了解了这些,我们再来看看后台面临的问题:
问题一:交互问题
有些网页往往需要和用户进行一些交互,进而才能走到下一步,比如输入一个验证码,拖动一个滑块,选几个汉字。网站之所以这么做,很多时候都是为了验证访问者到底是人还是机器。
而爬虫程序遇到这种情况很难处理,传统的简单图片验证码可以通过图形处理算法读出内容,但是随着各种各样,花样百出,人神共愤的、变态的验证码越来越多(尤其是买火车票时,分分钟都想爆粗口),这个问题就越来越严重。
问题二:Javascript 解析问题
如前文所述,javascript可以动态生成dom。目前大多数网页属于动态网页(内容由javascript动态填充),尤其是在移动端,SPA/PWA应用越来越流行,网页中大多数有用的数据都是通过ajax/fetch动态获取后然后再由js填充到网页dom树中,单纯的html静态页面中有用的数据很少。
目前主要应对的方案就是对于js ajax/fetch请求直接请求ajax/fetch的url ,但是还有一些ajax的请求参数会依赖一段javascript动态生成,比如一个请求签名,再比如用户登陆时对密码的加密等等,如果一昧的去用后台脚本去干javascript本来做的事,这就要清楚的理解原网页代码逻辑,而这不仅非常麻烦,而且会使你的爬取代码异常庞大臃肿。
但是,更致命的是,有些javascript可以做的事爬虫程序是很难甚至是不能模仿的,比如有些网站使用拖动滑块到某个位置的验证码机制,这就很难再爬虫中去模仿。
其实,总结一些,这些弊端归根结底,是因为爬虫程序并非是浏览器,没有javascript解析引擎所致。针对这个问题,目前主要的应对策略就是在爬虫中引入Javascript 引擎,如PhantomJS,但是又有着明显的弊端,如服务器同时有多个爬取任务时,资源占用太大。
还有就是,这些无窗口的javascript引擎很多时候使用起来并不能像在浏览器环境中一样,页面内部发生跳转时,会导致流程很难控制。
问题三:IP限制
这是目前对后台爬虫中最致命的。网站的防火墙会对某个固定ip在某段时间内请求的次数做限制,如果没有超过上线则正常返回数据,超过了,则拒绝请求,如qq邮箱。
值得说明的是,ip限制有时并非是专门为了针对爬虫的,而大多数时候是出于网站安全原因针对DOS攻击的防御措施。后台爬取时机器和ip有限,很容易达到上线而导致请求被拒绝。目前主要的应对方案是使用代理,这样一来ip的数量就会多一些,但代理ip依然有限,对于这个问题,根本不可能彻底解决。
Viewing all 20554 articles
Browse latest View live
<script src="https://jsc.adskeeper.com/r/s/rssing.com.1596347.js" async> </script>