-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path反爬.html
423 lines (423 loc) · 174 KB
/
反爬.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
INFO:root:11-28 我们给某大厂有个爬虫培训科目,怎么在xx时间内把百度百科1500万词条抓全,好家伙一个学习班20几个学员,一涌而上也是生猛,但其他也挂了就说明不是我们的锅了<span class="url-icon"><img alt=[哼] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_heng-5670fca4fa.png" style="width:1em; height:1em;" /></span> <br>
INFO:root:11-25 创业失败最大的损失我理解就是积累中断,要么重新思考,利用现有资源再上路,要么就去大厂努力爬梯子,混高管了//<a href='/n/子柳'>@子柳</a>:创业失败最大的损失不是金钱,也不是时间,是自信心(当然这是说真正的创业者)。<br>
INFO:root:11-01 待遇方面绝对有优势,请一定一定一定放心。粮草充足,没有枪没有炮,美国人给我们造<span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span>//<a href='/n/OK这是个误会'>@OK这是个误会</a>:亚一爬,亲自招人<span class="url-icon"><img alt=[doge] src="//h5.sinaimg.cn/m/emoticon/icon/others/d_doge-d903433c82.png" style="width:1em; height:1em;" /></span><br>
INFO:root:10-26 张一鸣怎么不去爬雪山,打高尔夫啊//<a href='/n/liudaoru'>@liudaoru</a>:转发微博<br>
INFO:root:10-18 随便招一个人,八成都抓过微博<span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span>//<a href='/n/某高老师'>@某高老师</a>:不知道怎么爬,就不知道怎么封<span class="url-icon"><img alt=[doge] src="//h5.sinaimg.cn/m/emoticon/icon/others/d_doge-d903433c82.png" style="width:1em; height:1em;" /></span>//<a href='/n/Fenng'>@Fenng</a>: 跟谁讲理去… 新浪都招爬虫工程师了。师夷长技以制夷吗?<br>
INFO:root:10-18 还真是新办法,挺别致的<span class="url-icon"><img alt=[good] src="//h5.sinaimg.cn/m/emoticon/icon/others/h_good-55854d01bb.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[good] src="//h5.sinaimg.cn/m/emoticon/icon/others/h_good-55854d01bb.png" style="width:1em; height:1em;" /></span>//<a href='/n/荣誉fx'>@荣誉fx</a>:梁总,现在大众点评搞成雪碧图反爬了,能知道下不 <a data-url="http://t.cn/Ez5qxUZ" href="http://photo.weibo.com/h5/comment/compic_id/1022:230597498a79d402329714c4fd2dd2c0256d50?luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/01/21/20/timeline_card_small_photo_default.png'></span><span class="surl-text">查看图片</span></a><br>
INFO:root:10-18 新浪也爬数据啊<span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span>//<a href='/n/蚁工厂'>@蚁工厂</a>://<a href='/n/贝特朗奇论'>@贝特朗奇论</a>: 我们这有很多好看的小姐姐<span class="url-icon"><img alt=[doge] src="//h5.sinaimg.cn/m/emoticon/icon/others/d_doge-d903433c82.png" style="width:1em; height:1em;" /></span><br>
INFO:root:09-28 盒马鲜生跑到我们家附近开了个店,还引入一大堆店进来。。<span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span>。搞得我现在把车开出停车场都麻烦,空车位也不多了。估计明年停车位价格要涨,上个厕所都得爬高三层楼才有空缺。。这个沉寂三年多的市中心稀缺广场一下子就热闹了,光彩四色的。还是杭州佬会玩,搞商业就是有一套,我们江苏人是一定一 ...<a href="/status/4289291696272593">全文</a><br>
INFO:root:09-07 我现在天天就在杠杆中,昨晚一看大亏,丢了手机就睡了,一早醒来居然还从坑里爬出来了,感慨人生无常//<a href='/n/八大山债人'>@八大山债人</a>: 然后炒了50倍杠杆国债期货1周亏光。。。<br>
INFO:root:08-31 黑衣男下盘功夫很好,腰腹力量很足,身体硬朗,一拳击中下巴就把对方击倒了。。跌倒爬不起来,应该是脑干受损了,<span class="url-icon"><img alt=[蜡烛] src="//h5.sinaimg.cn/m/emoticon/icon/others/o_lazhu-3725445c33.png" style="width:1em; height:1em;" /></span>//<a href='/n/RevengeRangers'>@RevengeRangers</a>:互殴,屁股都能想出来//<a href='/n/_啊D_'>@_啊D_</a>:这个也不知道能不能判正当防卫//<a href='/n/井define_bear'>@井define_bear</a>:<a href='/n/_啊D_'>@_啊D_</a>//<a href='/n/田七杂货铺'>@田七杂货铺</a>:转发微博<br>
INFO:root:08-27 适合大厂想向上爬的人看,幸运的提升机会,不仅仅靠埋头苦干,是有很多技巧的。。//<a href='/n/BMWM3M4'>@BMWM3M4</a>:转发微博<br>
INFO:root:08-24 没错,爬虫也有很多很多基础设施,要科技创新,才能保持优势<span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><br>
INFO:root:08-11 厂长说开放的啊,保持互联互通,那为啥百度的网站还反爬呢?不让其他人猛爬数据呢?<br>
INFO:root:08-03 有个新加坡公司抓爬虫人才,bidu,头条大厂爬虫经验优先,感兴趣的私信我。新加坡地方小,潮湿,富人多,三思。 <br>
INFO:root:07-30 <span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span>//<a href='/n/子柳'>@子柳</a>:AT的组织架构可以说是一种共和制度,B却是封建集权的状态,现在皇后也要理政,彻底变成“家天下”了。//<a href='/n/梁斌penny'>@梁斌penny</a>: 信息服务本来是李厂把握牢牢的地盘,结果爬出了个今日头条,bidu技术这么牛逼,天下第一,各大厂都喜欢挖bidu的人,咋就沦落到今天,失误在哪里呢<br>
INFO:root:07-30 信息服务本来是李厂把握牢牢的地盘,结果爬出了个今日头条,bidu技术这么牛逼,天下第一,各大厂都喜欢挖bidu的人,咋就沦落到今天,失误在哪里呢<br>
INFO:root:07-29 大家看到双手相持来回角力,似乎不费力,其实巨费体能,开始他是想简单一把甩,但是发现普通办法不行,就用了拉摔法,第一次被我破了,第二次体能消耗太大,他速度又快,迅速发力,转着拉到了我的重心。。然后就倒了,我顺势一倒快速爬起来,显示了“一定”的业余功力。<br>
INFO:root:07-27 在扣扣,v信联手之下还爬出了momo;baba和jd覆盖的市场也爬出了pdd;值得思考,说明社交和电商都还有潜力;bidu和sogo的羽翼下还能爬出点啥啊?搜索这些年人才凋零,被杀得七零八落,都去学什么深度学习去了<span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span> <br>
INFO:root:07-23 每天坐火箭,今天银行股大涨,安华高期权大涨,微软期权大涨。。今年真是爬出来了。什么什么一个“江南校长”推荐人投资被喷,具体情况不了解。但投资真是一个私人的事情,需要坚持的事情,特别是记得某比特币大佬对我说的话,我问他比特币涨得真不开眼为什么你不卖,他说实在没有更好的投资标的,为什 ...<a href="/status/4265070743318483">全文</a><br>
INFO:root:07-14 老鼠屎可能早就被吃掉了。。//<a href='/n/tombkeeper'>@tombkeeper</a>:老鼠屎去哪里了?只要把屎堆成斜坡,顺着自己拉的屎就能爬出来。//<a href='/n/灵感之源'>@灵感之源</a>:温水煮蛙//<a href='/n/宝玉xp'>@宝玉xp</a>://<a href='/n/谢磊NPU'>@谢磊NPU</a>://<a href='/n/Happy张江'>@Happy张江</a>:共勉<span class="url-icon"><img alt=[心] src="//h5.sinaimg.cn/m/emoticon/icon/others/l_xin-8e9a1a0346.png" style="width:1em; height:1em;" /></span><br>
INFO:root:06-29 太爽了,每赢一分都可以随便怒吼,痛快啊。比爬山的时候喊几声还不好意思,痛快太多了。我们这种劳苦大众,真应该多参加参加,380元的门票,真值。当然最后结果是输了,但女排拼搏精神令人振奋。<br>
INFO:root:06-21 大家在牢里见?//<a href='/n/崔庆才丨静觅'>@崔庆才丨静觅</a>:😂可能第二届爬虫大会就是最后一届了<br>
INFO:root:06-21 都别干爬虫工程师了,待遇低,没前途,尼玛搞不好还会进去。。我预测爬虫工程师待遇近期会翻倍。。要不然真没人敢干了。。<span class="url-icon"><img alt=[泪] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_lei-316a1a3ed5.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[泪] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_lei-316a1a3ed5.png" style="width:1em; height:1em;" /></span> <br>
INFO:root:06-21 我是不会跑的。。万一真进去了,我也不会选择“投降输一半”,我肯定会把官司打到底,为千千万万爬虫工程师找一条合法的生存路径,谢谢。为了亿万全世界无产阶级解决信息不对称的终极问题,奋斗终生,乃至牺牲自己,谢谢。 <br>
INFO:root:06-21 是啊,怎么办,跑?//<a href='/n/崔庆才丨静觅'>@崔庆才丨静觅</a>:<span class="url-icon"><img alt=[二哈] src="//h5.sinaimg.cn/m/emoticon/icon/others/d_erha-0d2bea3a7d.png" style="width:1em; height:1em;" /></span>看里面说的都是爬虫的基本技术啊<a href='/n/梁斌penny'>@梁斌penny</a><br>
INFO:root:06-21 这么多家互联网公司这么多爬虫工程师不知道该进去多少人。。<span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span>//<a href='/n/巢鹏'>@巢鹏</a>:这法院很业余啊,但是爹你at我干啥,应该at亚一爬<a href='/n/梁斌penny'>@梁斌penny</a> //<a href='/n/美人她爹'>@美人她爹</a>:<a href='/n/巢鹏'>@巢鹏</a> //<a href='/n/赏味不足'>@赏味不足</a>: //<a href='/n/三丁三'>@三丁三</a>:Repost<br>
INFO:root:05-26 已经在爬虫大会现场准备好了,欢迎大家陆续前来哈 <a data-url="http://t.cn/RXWISX3" href="https://m.weibo.cn/p/index?title=%E5%95%86%E5%9C%88&containerid=1001018008611010100000067&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='https://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_location_default.png'></span><span class="surl-text">北京 · 雍和宫</span></a> <br>
INFO:root:05-26 来到后海荷花市场,反复回顾下午爬虫大会的每个细节,这次大会筹款2万多元,没让参会的码农掏一毛钱,真是要感谢赞助商了。这些年要不是各位江湖大佬给面子,支持,不可能有今天啊。。年年岁岁花相似,岁岁年年人不同,我绝不能满足现状,我也的争取成为富人,提拔更多的年轻人们 <a data-url="http://t.cn/z8Afe5v" href="https://m.weibo.cn/p/index?title=%E4%BD%8D%E7%BD%AE&containerid=100101B2094654D269A2FA409B&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='https://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_location_default.png'></span><span class="surl-text">北京·荷花市场</span></a> <br>
INFO:root:05-26 今天下午就要在爬虫大会见到五湖四海的爬届码农们了。。 昨晚要不是安化高拉起来了,真是损失惨重,我得把情绪整理好,一会出去周围逛逛,后海这个地方吧,好是好,就是让人伤感<br>
INFO:root:05-25 今天出发去北京,明天就要举办人类历史上第二次爬虫大会了,非常非常不容易,爬虫工程师在it行业里是备受轻视的一个群体,我们一定一定要团结起来,多交流,多学习,愿全人类的数据能够为全人类公平的使用。感谢赞助商妙计旅行,Founder.AI,南京购物党,知微数据,某彩票公司,和广大参加的朋友们,明 ...<a href="/status/4243513883235072">全文</a><br>
INFO:root:05-19 我买两个在爬虫大会当抽奖了//<a href='/n/马少平THU'>@马少平THU</a>://<a href='/n/王小川'>@王小川</a>:录音笔在AI时代,本来就该有语音转写和翻译的能力。<br>
INFO:root:05-18 5月13日,V信大封号,什么新榜,tou条,损失惨重。我这个pullwave也监控到了这个情况,能同时搜两个词,看社交讨论的优势就发挥出来了,可以了解一个事件。。当然了,基本上每次封号,都会有一个突起。每次大封,江湖上的这些爬虫队伍就得加大投入,现在基本都是穿正规军装的爬虫队伍,武工队已很少很 ...<a href="/status/4241037092349187">全文</a><br>
INFO:root:05-17 小孩躲迷藏,大人都不好找,吃完饭洗个澡都得爬楼,太不方便了,应该有个电梯,浴缸太小了,至少应该能躺三个人<br>
INFO:root:05-15 这次10个题目,一共213个有效提交,其中最高分8分1人(田某科),7分有8个人。6分有28人,5分有41人。题目的解答我们在爬虫大会现场会和大家一一交流。另外落选的朋友,我也表示很遗憾,一份考题说明不了水平,考虑到场地限制,组织活动的能力,以及安全因素,无法让每个码农都来参加,我深表歉意,希望 ...<a href="/status/4239936121108021">全文</a><br>
INFO:root:05-15 朋友们好,爬虫大会的参会试题批改完成,入选名单已经都发了邀请函了,届时凭借邮箱签到,一个邮箱只能签到一个人,活动地点比较私密,也请收到邮件的朋友们不要公开出来,谢谢。<br>
INFO:root:05-09 大家好,5月26日举办的爬虫大会参会试题已经release了,为了防止HR,猎头和一些无关人员入场,我们设置了考试这个小小的门槛,确保让苦大仇深的爬虫工程师有参会的机会。有朋友问为什么不收费,要是收费的话,估计来的都是猎头了。。谢谢理解,另外请勿讨论考题,独立做答,并把结果发给志愿者批改,谢 ...<a href="/status/4237683561343244">全文</a><br>
INFO:root:05-08 人类历史上第二次爬虫工程师的聚会(简称爬虫大会)的入选赛题目将在今天发出,因为私信报名的人太多了,我们会公开试题,请答题者关注下我稍后的微博,谢谢。<br>
INFO:root:05-06 大家好,爬虫大会的赞助陆续到位,活动将在二环某私人四合院举办。目前私信报名过百人,将会有50个参会名额和10个赞助商名额,以及10个投资人名额。活动包括技术交流,晚宴social两个部分,和上届一样完全免费。试题将在下周发给大家,请务必独立作答,按照交卷顺序,最早交,且分数达标者入选,谢谢大 ...<a href="/status/4236784676796463">全文</a><br>
INFO:root:05-05 有个网友来信,职业发展相关,有个深圳大厂的高薪工作,但是要离开杭州。。浏览器内核其他行业不了解,爬虫行业是需要的,特别是手机浏览器内核,得注入自己的代码,把登录态偷出来就行了。其他行业不了解,不知道前途大不大;另外就异地工作蛮苦的,特别有妻儿的情况下,欢迎达人讨论,给他点意见,谢 ...<a href="/status/4236223256435682">全文</a><br>
INFO:root:05-04 大家好,爬虫大会的第一个赞助商的款子已经到位了,他们是一家获得巨额投资的高科技公司,求贤若渴,见下图,当年错过了雷军的精英们,阔以考虑下。 另外一位赞助商,赞助了活动场地,在二环内某四合院,带露台。我们搞完技术party以后,阔以搞个social,届时我抓几个富人投资人进来,和大家交流下当前 ...<a href="/status/4236024002039688">全文</a><br>
INFO:root:05-04 会有价值观送分题,不尊重爬虫工程师的HR和老板不懂爬虫甘苦,必然打不出来,做这行的肯定都能过。。//<a href='/n/Megathronus'>@Megathronus</a>: 想去但是觉得水平过不了线<span class="url-icon"><img alt=[跪了] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_guile-89a9607fd3.png" style="width:1em; height:1em;" /></span><br>
INFO:root:05-04 回复<a href='/n/没牙的大仔仔'>@没牙的大仔仔</a>:私信报名,场地有限,和上次爬虫大会一样,我会出20个题目,得分top 50的才能被邀请参加。。谢谢哈。//<a href='/n/没牙的大仔仔'>@没牙的大仔仔</a>:怎么报名呀梁总<br>
INFO:root:05-04 大家好,我将在5月26日在北京车库咖啡原址召开人类历史上第二届爬虫大会,让备受世人冷落的爬虫工程师汇聚一堂,交流业界发展最新动态,其中会邀请<a href='/n/崔庆才丨静觅'>@崔庆才丨静觅</a> 也就是《python3 网络爬虫开发实践》一书作者给一个talk,也欢迎业界外挂,逆向,漏洞高手现身给talk。也欢迎赞招商赞助,谢谢了。 <br>
INFO:root:04-21 6月份计划在北京召开人类历史上第二次爬虫大会,谢谢//<a href='/n/蚁工厂'>@蚁工厂</a>:<span class="url-icon"><img alt=[哈哈] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_haha-bdd6ceb619.png" style="width:1em; height:1em;" /></span>//<a href='/n/图灵教育'>@图灵教育</a>:感谢 <a href='/n/梁斌penny'>@梁斌penny</a> 老师的推荐,首发上市的签名版已经售空,大批书籍已经在路上啦!期待~<br>
INFO:root:04-20 一觉醒来,美国银行正股算爬出来了,期权全军覆没了。其他个股也基本爬出来了。最近我领悟了一个真谛,必须佛系炒股,装死不动,靠时间的力量去积累。最近在研究消费类股和能源股,明后天开直播和大家探讨研究成果,谢谢。 <br>
INFO:root:04-18 有网友问,中兴被英美封杀这个事情我怎么看。我觉得中兴要是爬不起来,说明我们国家还真是有软肋。如果爬起来了,那真是要为祖国自豪。话说美英不卖芯片,可以找韩国,台湾买,对吧,全球供应链又不是美英说了算。至于中兴作大死的那些事情,权威媒体也没披露,我不好发表意见,还是希望中兴能爬起来, ...<a href="/status/4230183861556298">全文</a><br>
INFO:root:03-29 明天美帝耶稣受难日,股市休市。今晚要碰期权交割日,多空双方必然一番厮杀,昨晚期权交易情况显示今晚必有大的波动。。被埋和爬出来都有可能,近期股市波动性太大,除了佛系散户,普通散户千万别进来了。高手也要对冲,单边行情风险太大了,谢谢啊。 <br>
INFO:root:03-25 //<a href='/n/李铁军_备胎号'>@李铁军_备胎号</a>:很好的经验。//<a href='/n/张天壹'>@张天壹</a>://<a href='/n/Tiger公子'>@Tiger公子</a>:m//<a href='/n/violetamber_锤小花'>@violetamber_锤小花</a>: //<a href='/n/维兹S-要好运'>@维兹S-要好运</a>://<a href='/n/朋克路娜兔'>@朋克路娜兔</a>: //<a href='/n/Kirara610'>@Kirara610</a>:没错,证明被盗刷的时候卡在你身边非常关键,千万不要偷懒,半夜也要爬起来去找你最近的atm!去派出所!<br>
INFO:root:03-20 爬虫要做到世界顶级,至少需要四方面才能,目前为止,我没有发现一个人能集这四大武功于一身。依次是亚一漏,亚一逆,亚一爬和亚一深。前两个是下三路功夫。后两个是上三路功夫。全面综合才能所向无敌。。 <br>
INFO:root:03-20 写这个书的人挺牛的,这本书应该是爬虫届目前为止最逼近我厂水平的书籍了//<a href='/n/你是在做梦吧'>@你是在做梦吧</a>://<a href='/n/蚁工厂'>@蚁工厂</a>:厂长<a href='/n/梁斌penny'>@梁斌penny</a> 推荐的,应该没错了 //<a href='/n/图灵教育'>@图灵教育</a>: 回复<a href='/n/五楼_Boyce'>@五楼_Boyce</a>: 刚送去印刷,市面上还没有,估计4月出上架<span class="url-icon"><img alt=[允悲] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_yunbei-c6964bf237.png" style="width:1em; height:1em;" /></span>//<a href='/n/五楼_Boyce'>@五楼_Boyce</a>:京东有卖吗<br>
INFO:root:02-28 这一段时间我在研究为什么58同城营收比搜狗牛批,利润也好。本质都是流量转化的生意,比的是转化率高低,比的是一次转化经费的大小。但是本质上我认为,58同城什么都搞,招聘,租房,修马桶,修灯泡,他的数据一般都是P民主动提交的。而搜狗的数据是爬来的。这就是最大的区别,主动提交的业务深度深, ...<a href="/status/4212361407754604">全文</a><br>
INFO:root:02-13 我早年在读书期间折腾的几个看似完全不相关的东西,创业的时候都用上了。比如词库这个东西,现在厂职工要抓哪个领域的数据,都是我来搞领域词库。再比如thuirdb,现在给客户的数据交付服务,以及pullwave这种大杀器都在用,都是用非常廉价的机器就实现了服务。另外搞的爬虫就不说了。还有那啥服务,当 ...<a href="/status/4206878969783151">全文</a><br>
INFO:root:01-29 今天技术交流主要是爬虫,深度学习在nlp上的应用两个部分,我知道我这个水平在市场上竞争力可能已经不大了,快速发展的技术浪潮必然淘汰老同志。。然后问答阶段说了点炒股问题,怎么把大数据用于指导炒股,我也提到了自己的看法。谢谢<a href='/n/常亮姓徐'>@常亮姓徐</a> 的邀请,他们厂很现代化,都是穿大厂军装的。 <br>
INFO:root:01-20 总算把1000多万词的压缩表示弄完了,低频词是最难的,这个要在大厂调效果,堆大量劳动力才能调好,我这个只能差不多就阔以了。 真正其实用于爬虫抓数据的前100万的词汇就足够了。以后指战员们要想什么样的领域词库,就不用找我了,他们自己搞。 另外搞完这个可以搞个词汇百科,深入一个领域快速把所有 ...<a href="/status/4198309272518860">全文</a><br>
INFO:root:01-19 关于关键词压缩表示,下一个项目将是“在线生成词典”,这个主要是赋能各大爬虫武工队用的,抓数据得要词库,特别是分类词库。我这个服务,只要提供几个关键词,我就能快速生成一个足够大的词典,武装群众,大致是这个想法,当然也没指望发财,依然是完全免费的,服务群众嘛。。 <br>
INFO:root:01-16 雪乡这事吧,你看看,憋9个月没生意,有生意的时候就三月,这是最大的心理屏障。我有一年去广州爬越秀山,下山后,门口恰好有辆出租车,我打上车回宾馆,他一路上就抱怨在这里趴了2个小时也没活,总算等到我了,然后走不多远有个打车的,他也顺路带了,我没意见,师傅也不容易。到了宾馆,车费40多,我 ...<a href="/status/4196717655736876">全文</a><br>
INFO:root:2017-12-31 这几天虽然是假期,但是小伙伴一直在忙姓名测试的web服务,要处理很多展示方面的技术细节。我这个当厂长的也是要督战。我终于下了个决心,不反爬了,但又有个新问题,万一人家爬了我数据去什么地方做个公证,然后说我抄袭他的,这可怎么办呢? <a data-url="http://t.cn/R2dLJ7r" href="https://m.weibo.cn/p/index?title=%E5%95%86%E5%9C%88&containerid=1001018008632011509000000&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='https://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_location_default.png'></span><span class="surl-text">南京 · 东山街区</span></a> <br>
INFO:root:2017-12-30 正是这行干久了,深知江湖上这些爬虫武工队都太牛批了,搞不过他们。。//<a href='/n/HappyQQ'>@HappyQQ</a>:你一直做爬虫竟然怕别人爬……<span class="url-icon"><img alt=[允悲] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_yunbei-c6964bf237.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[笑而不语] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_heiheihei-c1027e7c02.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2017-12-30 一大早起来继续和小伙伴搞姓名测试小服务,解决了大部分名字结果相似的bug。我想来想去想到了一个反爬妙计,模型每7天更新一次。数据前后不好比,没有一致性,因为训练语料不同。只要来抓我数据的爬虫武工队在7天之内抓不完,我就能保护住知识产权。我真是太聪明了,现在这些爬虫工程师个个身怀绝技, ...<a href="/status/4190564432101910">全文</a><br>
INFO:root:2017-12-29 感觉只能做v信小程序了,通过v信账号提供保护,起码知道什么人调用的,反爬真是个大难点,没有账号保护,根本守不住<br>
INFO:root:2017-12-29 姓名测试API做好了,发给小伙伴开发前端去了,遇到一个棘手的问题,怎么反爬呢。全行业各种词汇加一起也就1000多万,要是有个厂有这么个几万个IP,还不几天就全抓完了,捉急啊,怎么保护知识产权,这个棘手了。 <br>
INFO:root:2017-12-26 爬数据要想爬得牛逼,词库是非常非常关键的。。。keyword就是线索,比如某厂长现在要想爬百度网页库,估计用现有的1000多万词库,再两两组合一下,每个月撸一遍,估计每个月刷新个10亿高质量网页是起码的吧,然后用百度的搜索结果,去掉广告,自己攒一个搜索都够了。。 <br>
INFO:root:2017-11-30 用某社交网站一天的数据看了下,用IPhoneX的群众已经超过2万了,这个产能爬坡还是有点慢啊。价格还是贵了点,X这个价格基本把我排除了,挺遗憾的,光靠涨价维持不下去,还是要做好手机增值服务,靠长线收钱,这一步手机买5台牛逼电视机,谁受的了啊。 <br>
INFO:root:2017-10-13 那天去海洋公园玩,我对老婆说,这可能是我们最后一次在这里玩,不会有下一次了,离开时还拍了照。//<a href='/n/子柳'>@子柳</a>:像我这样喜欢爬同一座山、游同一个岛、吃同一家面、买同一个区块的房的人,应该会少一些告别吧。<br>
INFO:root:2017-10-09 一会爬山,一会跑步,还闭关好几年,我可是天天埋头苦干。。//<a href='/n/HappyQQ'>@HappyQQ</a>: 梁博怎么知道张朝阳 不勤奋了?<span class="url-icon"><img alt=[二哈] src="//h5.sinaimg.cn/m/emoticon/icon/others/d_erha-0d2bea3a7d.png" style="width:1em; height:1em;" /></span>//<a href='/n/杨珉_复旦大学'>@杨珉_复旦大学</a>: 说来说去,互联网服务赚大钱的还是老三样。<br>
INFO:root:2017-10-05 再说今年去青城山开会,爬山的时候,在已经支付解说公司300元的情况下,得知解说小姑娘爬一次山只有30%提成,我给了100元小费,人家小女孩也不容易,上山的时候死活建议我们坐索道,结果爬上去也是辛苦,还花了大量时间,因此也给了。并不是只有在外面才付小费,而是在国内就有这个习惯啊,谢谢。 ...<a href="/status/4159428732790266">全文</a><br>
INFO:root:2017-09-24 我觉得只要坚持,憋久点还是能到山顶,中途多安排休息//<a href='/n/有S型曲线的抖M'>@有S型曲线的抖M</a>:你那是体力不行,该锻炼了,香山每天好多老头老太太都爬到山顶非常快//<a href='/n/老师木'>@老师木</a>:真心爬不动了//<a href='/n/annie2046'>@annie2046</a>:为什么呢?同学昨天还晒香山山顶照片呢?<br>
INFO:root:2017-09-23 各种限购其实是政府把富人堵死,给穷人爬上来留时间。如果不限,富人各种买房,阶级固化加速。但是每次限购的结局是啥呢?还是一波上涨,而且速度加快,穷人越来越难上车了。<br>
INFO:root:2017-09-16 颜值挺高的一对//<a href='/n/Philonis高'>@Philonis高</a>:微博的运维明天不要去爬山了,回来加班<span class="url-icon"><img alt=[doge] src="//h5.sinaimg.cn/m/emoticon/icon/others/d_doge-d903433c82.png" style="width:1em; height:1em;" /></span>//<a href='/n/来去之间'>@来去之间</a>:不睡觉么?。。。//<a href='/n/苏芒'>@苏芒</a>:我们祝福永远!//<a href='/n/范冰冰'>@范冰冰</a>:永远,永远……<br>
INFO:root:2017-07-26 成都美股交流大会定在青城山举办,小伙伴去定酒店了,安排专业录像设备等。我这边课程讲义也即将出炉。届时会安排3.5天讨论式交流,半天考试和答疑,确保每名参会者理解每个细节。。另外1天时间安排爬青城山。我真想一次性把全部功力传给厂职工们和旁听的朋友们啊。努力吧。 <br>
INFO:root:2017-06-26 我也遇到多次类似事情,不能考验人性//<a href='/n/summer小牧'>@summer小牧</a>:是这样的,我之前管理的外包团队也是这样的,你越对他好,结果是层层往上爬,最后的结果是你说个什么,他压根不做,和你撕逼,最后没办法只能按照合同来,不干,辞退换人<br>
INFO:root:2017-06-15 小S比我大一岁,过生日难过成这个样子,我过生日也难过,但没这么痛苦,确确实实体会不到明星的艰辛。小S平常那么乐呵的一个人,也有这么难过的时刻,挺同情的。人世间有爱有恨,悲喜交加,越往巅峰爬,这种情感估计越剧烈,丁磊说财富只能买到5%的快乐,可能是真的,只是我体会不到而已。 有时候感觉 ...<a href="/status/4118826830175831">全文</a><br>
INFO:root:2017-04-12 连互联网活化石高神都被据啊。。 //<a href='/n/高春辉'>@高春辉</a>:回复<a href='/n/梁斌penny'>@梁斌penny</a>:去年初我们也是试过融资,一半看不懂,一半觉得做不大,只有一个愿意投,但是给的少于我的预期,就作罢了。现在努力工作做数据,目的有俩,挣钱和打脸。。。<span class="url-icon"><img alt=[二哈] src="//h5.sinaimg.cn/m/emoticon/icon/others/d_erha-0d2bea3a7d.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[二哈] src="//h5.sinaimg.cn/m/emoticon/icon/others/d_erha-0d2bea3a7d.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[二哈] src="//h5.sinaimg.cn/m/emoticon/icon/others/d_erha-0d2bea3a7d.png" style="width:1em; height:1em;" /></span>//<a href='/n/梁斌penny'>@梁斌penny</a>:回复<a href='/n/高春辉'>@高春辉</a>:你已经不知道踩了多少厂长往上爬了<br>
INFO:root:2017-04-07 据说昨天某社交网站进行了惨绝人寰的大封号,好多爬虫武工队都招架不住了,某厂咨询电话都要打爆,某厂现在虽然已是金融单位,但是也表示下同情,希望同志们都挺过去,谢谢啊。 爬虫这个东西吧,本质是和安全相同的,微博上随便整个安全界天王,年薪给到2000万,一举解决问题,不麻烦的,大厂谁还差这 ...<a href="/status/4093944813619569">全文</a><br>
INFO:root:2017-04-04 没有keyword,很多数据抓取无法开展下去。当年我潜心词库和分词的研究,很多爬虫界的工程师是嘲笑我的,时隔多年,现在终于用上了。<br>
INFO:root:2017-04-03 一大早来厂里整理词库,一单位老板死活要买我词库,声泪俱下认识到词库多做好爬虫的重大意义,我说词库早已经不卖了,现在词库这么多,百度百科,维基百科各种免费的武工队词库多得要死,他执意要从我这里买,虽然没多少经费,算了吧,算给朋友帮帮忙了。 <br>
INFO:root:2017-03-18 挣钱不好挣,抓到这些仿冒身份的账号,接下来怎么办呢? //<a href='/n/phunter_lau'>@phunter_lau</a>:<a href='/n/梁斌penny'>@梁斌penny</a> 博士有没有微信爬虫可以一搞啊//<a href='/n/lxghost'>@lxghost</a>: 🙄//<a href='/n/碳基体'>@碳基体</a>:如果能识别到底是约炮还是卖(骗钱)的话,会吸引不少男性付费群体<br>
INFO:root:2017-03-09 (继续)看了个数据,继承型富豪比例,在亚洲,韩国,新加坡都是比较高的。我国最低。虽然我国阶级固化还为时尚早,但现在这个时间窗口更是要努力,争取往上能爬一点是一点,找到属于自己的机会。 <br>
INFO:root:2017-02-09 推特数据很好爬,不设防,市场价值不大的,我们爬了点主要做新词发现用 //<a href='/n/褚达晨'>@褚达晨</a>:梁博爬了twtr数据?<span class="url-icon"><img alt=[doge] src="//h5.sinaimg.cn/m/emoticon/icon/others/d_doge-d903433c82.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2017-01-27 据了解,爬虫有几种爬法,一种是仗着账号多,ip多,疯狂猛薅;第二种是固定抓取频率,固定流水线,这样每天的量很稳定。第一种其实是无脑抓法,一旦对方加大带宽,马上猛吃满。。第二种可控性好,出了事也好回溯,每天每台机器的抓取量都非常准,很容易监控,也不给“对方”惹麻烦。今天看到很多微博指 ...<a href="/status/4068614485027697">全文</a><br>
INFO:root:2017-01-27 一般情况下年三十这种大日子,微博访问量会大增,微博官方也会加大出口流量带宽。但是这些增加的带宽很容易被各种亚x爬们吃满(因为都是异步抓取不带sleep的)。据亚二爬那边的消息,这种日子,会自觉控制抓取频率,不惹麻烦,谢谢。也呼吁江湖上各大武工队,区小队们自觉控制频率,谢谢。 <br>
INFO:root:2017-01-27 呵呵呵//<a href='/n/Erlang'>@Erlang</a>://<a href='/n/火丁笔记'>@火丁笔记</a>:我正在爬别人,暂时没发现别人爬我。<br>
INFO:root:2017-01-26 我知道这一天一定会来的。。据说爬虫届已经提前做准备了。。 //<a href='/n/zxnO'>@zxnO</a>:三个月后由于这个业务不赚钱被砍。//<a href='/n/wulujia'>@wulujia</a>:<span class="url-icon"><img alt=[good] src="//h5.sinaimg.cn/m/emoticon/icon/others/h_good-55854d01bb.png" style="width:1em; height:1em;" /></span> //<a href='/n/Fenng'>@Fenng</a>:妈的,我喜欢!<br>
INFO:root:2017-01-17 流泪 //<a href='/n/霜叶不活跃'>@霜叶不活跃</a>:这是少年时代的经典 //<a href='/n/果子狸爬大树'>@果子狸爬大树</a>:经典 //<a href='/n/画画的李寻欢'>@画画的李寻欢</a>:永恒经典。<br>
INFO:root:2017-01-15 这个诉讼机会要at给 <a href='/n/来去之间'>@来去之间</a> <a href='/n/路由生活'>@路由生活</a> ,就算污点证人了。。 //<a href='/n/snowland'>@snowland</a>:直接爬的微博昵称做相关推荐语料?... //<a href='/n/陈如是说'>@陈如是说</a>:<span class="url-icon"><img alt=[哈哈] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_haha-bdd6ceb619.png" style="width:1em; height:1em;" /></span>是啊。后悔没有收费帮人取名了//<a href='/n/有限次重复博弈'>@有限次重复博弈</a>:还真有人信<br>
INFO:root:2017-01-11 也可以不起诉,😂 //<a href='/n/丁声基'>@丁声基</a>://<a href='/n/shijin1'>@shijin1</a>:亚一爬 被点名//<a href='/n/来去之间'>@来去之间</a>: <a href='/n/梁斌penny'>@梁斌penny</a> <span class="url-icon"><img alt=[摊手] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_tanshou-dcf7d5d0d6.png" style="width:1em; height:1em;" /></span> //<a href='/n/来去之间'>@来去之间</a>:我都快忘了这案子了<span class="url-icon"><img alt=[摊手] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_tanshou-dcf7d5d0d6.png" style="width:1em; height:1em;" /></span> “北京知识产权法院首次指出:明确微博可以对用户数据信息主张权利。这意味着,第三方公司抓取微博数据用于商业化将构成侵权行为,微博可以以不正当竞争为由进行起诉”<br>
INFO:root:2017-01-10 今天开始给厂职工和好友们免费发放可以那啥的路由器了,当然回报是可以用家庭网络抓点数据啥的。职工们开心的领走了属于自己的高档路由器,大家内心都美滋滋的,真好。 现在也不知是怎地,可能是<a href='/n/高春辉'>@高春辉</a> 那个IP库给坑的,厂商都可以判断出IP是真人的概率了。。老高那头生意越好,爬虫界就越苦啊,怎么 ...<a href="/status/4062368323461114">全文</a><br>
INFO:root:2017-01-09 那肯定是要爬了,不知道有什么数据呢,值不值钱也不知道//<a href='/n/博徒賣漿屠沽輩'>@博徒賣漿屠沽輩</a>:亚二爬专属<br>
INFO:root:2017-01-05 太震撼了,支持!//<a href='/n/Philonis高'>@Philonis高</a>: 页面上写:「你在这爬一年才值一万块」。//<a href='/n/高春辉'>@高春辉</a>: 他们没搞过,所以总觉得抓一遍就行了,干过这事的人都知道难度在哪里,没人这么想。。。 //<a href='/n/python爱好者'>@python爱好者</a>:要给爬虫制造点障碍,他们才买。老板是这样想着,反正工资已发了,多加班干点活儿吧。 已经996了。<br>
INFO:root:2017-01-04 这几天我也是焦虑,摩拜单车那边都融资几亿美金了,我这边呢,业务发展还是蜗牛爬,市场机会在哪里呢?直播是把群众的时间抓过去了,但是商业模式还没有建立,或者不够清晰,我这种外围小厂也切不进去,急死了,也不知道美国那边有什么值得copy的东西,最近想抓点instgram的数据,研究下图片社交方向, ...<a href="/status/4060281384981217">全文</a><br>
INFO:root:2016-11-25 可以用dnsmasq,比较简便。。当然也可以自己在53端口对照协议,自己车轮。。当然,用美军工具更有面子。。//<a href='/n/我会告诉你l'>@我会告诉你l</a>:爬虫一般都会做DNS缓存的,第一次知道是<a href='/n/梁斌penny'>@梁斌penny</a> 的爬虫大会<br>
INFO:root:2016-11-16 😄 //<a href='/n/程序员邹欣'>@程序员邹欣</a>:人工智能的巨大突破//<a href='/n/马少平THU'>@马少平THU</a>:近龟者爬 //<a href='/n/xiongyongqiang'>@xiongyongqiang</a>:<span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span> //<a href='/n/aves'>@aves</a>:<span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2016-11-12 看了鲍厂(西瓜大丸子)创业一年就有17个弟兄,有点受刺激了。。他起码比我牛逼30倍,是做大生意的。总是看着别人大发展,自己蜗牛爬,很捉急。准备学刘备在办公室种菜了。。今天去书店买点园艺种植书籍,据说大青菜是最容易的,都被宇航员带去太空一个月就能长成食用,我这个水平和格局也只能这样了。 ...<a href="/status/4040901628364281">全文</a><br>
INFO:root:2016-11-08 真是要花点时间研究下momo了,在qq和微博眼皮下爬出来了,非主流人群也是牛逼啊 <br>
INFO:root:2016-10-22 (接上)下次开爬虫大会我线下说吧,线上说还是不方便。告诉下大家道上的人多牛逼,连你在淘宝京东下的订单都能看到。。祖国牛逼人多啊,爬数据三个境界,外部搞,途中搞,内部搞。只有第一种勉强算白道,后两种都是黑道。高数据还借助账号神马的都是第一境界,我也只能说到此了。。 <br>
INFO:root:2016-10-21 您可能还不知道某博士的传说。。上万用户算神马。。//<a href='/n/dowiee'>@dowiee</a>:对于码农来说,vpn相当于刚需。以你和你朋友的号召力,一个月上万用户应该不成问题吧,同时又有上万的爬虫终端。<br>
INFO:root:2016-10-09 一般人很难爬到这个水平,我就是苦一辈子厂职工也达不到//<a href='/n/八爪李炯明'>@八爪李炯明</a>:李开复之前在谷歌年薪是3500W RM准备。<br>
INFO:root:2016-10-01 如果反爬虫市场有200亿美金的市场价值,我肯定去做,然而。。<br>
INFO:root:2016-09-29 腾讯这一下搞得大家有点惨啊,反点赞阅读误伤爬虫区小队,武工队了。某司也惨遭打击。。今晚看来是得折腾一下子了,职工们都回家了,厂长苦死鸟 <br>
INFO:root:2016-09-25 这种法子对付学生级爬虫够了,现在大多数都是真实浏览器内核改过来的,不用wget,curl这种了<br>
INFO:root:2016-09-20 今天一大早起来工作,忙到九点爬出公寓,外面的阳光特别明亮,一瞬间有那么一种改变阶级身份的喜悦,仿佛整个世界接纳了我。散步到大商场,钱包都要200多,最后还是没舍得买,感觉自己还是无产阶级,从来也没有改变过。。 <br>
INFO:root:2016-09-17 很多群众建议某博士在人工智能领域和美军扛正面,然而某博士在爬虫方向找到了人工智能应用的场景。。 //<a href='/n/CAQ9'>@CAQ9</a>:哈哈人工智障阶段挣钱//<a href='/n/马少平THU'>@马少平THU</a>: 最多是个倒春寒 //<a href='/n/刘知远THU'>@刘知远THU</a>:准备过冬。<br>
INFO:root:2016-09-03 我今天买电动车,花了两百元买了防偷加固措施,我感觉反爬虫未来是恢宏的生意。。 //<a href='/n/高春辉'>@高春辉</a>:不信,另外你可以交保护费。。。<span class="url-icon"><img alt=[酷] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_ku-fbfdf1f09a.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[酷] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_ku-fbfdf1f09a.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[酷] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_ku-fbfdf1f09a.png" style="width:1em; height:1em;" /></span>//<a href='/n/梁斌penny'>@梁斌penny</a>:开始对爬虫业务产生影响了,这。。 //<a href='/n/2gua'>@2gua</a>:赞👍//<a href='/n/安正超'>@安正超</a>:<span class="url-icon"><img alt=[给力] src="//h5.sinaimg.cn/m/emoticon/icon/others/f_geili-244fca3c70.png" style="width:1em; height:1em;" /></span> //<a href='/n/高春辉'>@高春辉</a>:忘了说,已经有两个客户了。。。<span class="url-icon"><img alt=[酷] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_ku-fbfdf1f09a.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[酷] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_ku-fbfdf1f09a.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[酷] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_ku-fbfdf1f09a.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2016-09-03 开始对爬虫业务产生影响了,这。。 //<a href='/n/2gua'>@2gua</a>:赞👍//<a href='/n/安正超'>@安正超</a>:<span class="url-icon"><img alt=[给力] src="//h5.sinaimg.cn/m/emoticon/icon/others/f_geili-244fca3c70.png" style="width:1em; height:1em;" /></span> //<a href='/n/高春辉'>@高春辉</a>:忘了说,已经有两个客户了。。。<span class="url-icon"><img alt=[酷] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_ku-fbfdf1f09a.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[酷] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_ku-fbfdf1f09a.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[酷] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_ku-fbfdf1f09a.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2016-09-02 天王级工程师具备三个特点1)学习能力强,往往工作上,生活上都是精通多门武功;2)觉得自己生而牛逼,很有军人一般的荣誉感,爬丢人;3)有强大的使命感,目标感,以保证完成任务为最高宗旨。 如果具有上面三个特征,加上历史上办过一些“大事”。就是我理解的天王级工程师了。(待续) <br>
INFO:root:2016-08-17 我们野心不大,求个生活自由就行了,距离人均达到百度少帅收入水平还有很大很大的距离。。 //<a href='/n/褚达晨'>@褚达晨</a>:梁博的境界提升了,看来爬数厂搞的不错。<span class="url-icon"><img alt=[嘻嘻] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xixi-ce63ce2629.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2016-08-10 是有投资人要我做调研。。我自己没敢买,😂 //<a href='/n/鞑靼沙漠'>@鞑靼沙漠</a>:记得13块时候你爬虫后说低估的,以为梁博早买了<br>
INFO:root:2016-07-30 微信公共账号系统挂了啊?据亚二爬表示,这次微信故障可能是内置浏览器升级造成的,一部分先升,一部分后升。先升的都挂了,后升的还都正常。 因此这次故障不是爬虫爬挂的,谢谢。 <br>
INFO:root:2016-07-27 抓个包向小伙伴们验证下。要有实证精神。。 //<a href='/n/阿吉_Aydge'>@阿吉_Aydge</a>:博士,这种问题还要抓包吗?研究下代理协议啊。解析是A负责的。浏览器B只和代理服务器A通讯,所以他不需要解析。//<a href='/n/梁斌penny'>@梁斌penny</a>: 我在a,b机器上都装了dnsmasq,配置好以后,启动爬虫后,在a,b上对dst port 53端口抓包<br>
INFO:root:2016-07-27 我在a,b机器上都装了dnsmasq,配置好以后,启动爬虫后,在a,b上对dst port 53端口抓包,结果发现,a上能抓到解析过程的数据包,而b不行。。<br>
INFO:root:2016-07-27 我出个爬虫题考考大家。假定在机器a上装了http代理,在机器b上是爬虫程序,该程序通过机器a上的代理爬数据。那么请问在抓取网页url的时候,域名解析发生在机器a上还是机器b上? 或者两台机器都有可能发生? <br>
INFO:root:2016-06-30 大家感受下,一个单位(科研机构),招聘兼职的天王级爬虫工程师,月薪给到2-5万,无需坐班,让我推荐人才,我到哪里找爬虫工程师啊。。 <br>
INFO:root:2016-06-30 现在我司每个月在美团云消费5000元。。在美团云买最低配的机器比较便宜,适合做爬虫方向的创业。。//<a href='/n/Apache9'>@Apache9</a>: 帮美团云打广告了啊<br>
INFO:root:2016-06-19 做这个分析代价蛮大的 //<a href='/n/子柳'>@子柳</a>:亚二爬你完全可以用数据分析啊,抓取京东上家电类目前100000条商品和天猫对比价格、销量走势;抓取京东应用排名位置、日活用户数量和时长走势;抓取全网用户新房装修和家电购买提及率走势;另外微信上加一下你前女友聊聊天<br>
INFO:root:2016-06-09 果然是亚洲第一神爬 //<a href='/n/刘鑫Mars'>@刘鑫Mars</a>://<a href='/n/_nearly转1'>@_nearly转1</a>:右边你会收到HR的EMAIL的(逃//<a href='/n/pi1ot'>@pi1ot</a>: 惹上张银奎纯属活该//<a href='/n/_nearly转1'>@_nearly转1</a>:作者会收到百毒法务部律师信的//<a href='/n/高春辉'>@高春辉</a>: 不要用。。<br>
INFO:root:2016-06-01 你贵威武 //<a href='/n/fCys'>@fCys</a>:我贵遍地山清水秀,空气清新,正在加大提升出省带宽,努力争取国家骨干网接入,亚二爬快来吧,我贵大数据就靠你的爬虫们了 //<a href='/n/梁斌penny'>@梁斌penny</a>:网络条件好,其他都好办 //<a href='/n/老师木'>@老师木</a>:转发微博<br>
INFO:root:2016-05-29 对爬虫界是巨大的福音,但对于群众就不好了 //<a href='/n/响马'>@响马</a>:myspace 的水军很精准<span class="url-icon"><img alt=[哈哈] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_haha-bdd6ceb619.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[哈哈] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_haha-bdd6ceb619.png" style="width:1em; height:1em;" /></span> //<a href='/n/余弦'>@余弦</a>:刚刚认真看了,homelesspa 是大量水军的密码- -(社交裤子的奇葩点);还有,MySpace SHA1 密码不加盐,容易破- -...//<a href='/n/梁斌penny'>@梁斌penny</a>:又有重大语料流出?我看看有没有我的账号<br>
INFO:root:2016-05-09 这是不是说亚一爬在抓数据和使用数据方面不守规矩了?//<a href='/n/tinyfool'>@tinyfool</a>: 转发微博<br>
INFO:root:2016-05-07 公司小的时候,肯定抓得多,回报少。公司搞大了自然可以回报了,google刚成立的时候他们爬取的数据和代去的流量是合理交换嘛? //<a href='/n/西瓜大丸子汤'>@西瓜大丸子汤</a>:开放互联的基础是利益的合理交换。开放必然要推进,不一定是用爬虫这种方式……<br>
INFO:root:2016-05-07 我自己搞的网站都不设反爬,有科研需要的随便来抓,商业需求的也随便抓,比如lafnews.com,duxiaqu.com,pullword.com,cikuapi.com。时不时会有搞科研的人来抓,每次数据被抓走,我都感觉为社会做了一点贡献,刷了下存在感。。 <br>
INFO:root:2016-05-07 谷歌,百度诞生的年代,互联网基本都是精英在用,开放互联,几乎不反爬,他们猛薅数据,等江湖地位建立后,整个robots协议,让站长只allow他们的爬虫,而disallow其它所有爬虫。你看看有多少网站disallow bing的爬虫,多少disallow google的爬虫就知道了。数据是群众产生的,也属于群众,充分开放互联 <br>
INFO:root:2016-05-07 怎么才算友好爬取和守规矩呢?请指教 //<a href='/n/程序员邹欣'>@程序员邹欣</a>:要遵守规矩//<a href='/n/睡眼惺忪的小叶先森'>@睡眼惺忪的小叶先森</a>: 呵呵。偷东西还偷出道德感和优越感来了。街上的妹纸给「戴套」强奸下也不会怀孕又没什么影响,是这个逻辑不?爬数据本身是一种不道德的事。除了友好爬取,应该藏着掖着说出去都觉得丢人才对。<br>
INFO:root:2016-05-07 原来爬数据是不道德的事情啊,学习了 //<a href='/n/程序员邹欣'>@程序员邹欣</a>:要遵守规矩//<a href='/n/睡眼惺忪的小叶先森'>@睡眼惺忪的小叶先森</a>: 呵呵。偷东西还偷出道德感和优越感来了。街上的妹纸给「戴套」强奸下也不会怀孕又没什么影响,是这个逻辑不?爬数据本身是一种不道德的事。除了友好爬取,应该藏着掖着说出去都觉得丢人才对。<br>
INFO:root:2016-05-06 区别很大,小偷偷走了就没有了,但是数据虽被爬了,但还在。。 //<a href='/n/holly_lee'>@holly_lee</a>:梁博你说这话就跟小偷说大家的家门真没必要锁一样...<br>
INFO:root:2016-05-06 uber没有什么经济效益,没客户有需求啊 //<a href='/n/褚达晨'>@褚达晨</a>:抓uber试试? //<a href='/n/梁斌penny'>@梁斌penny</a>:现在不能抓app数据已经不好意思出门打招呼了,没有任何app数据能挡住亚一爬 //<a href='/n/褚达晨'>@褚达晨</a>:大家都app了,以后不做网页了,让你爬。<br>
INFO:root:2016-05-06 现在不能抓app数据已经不好意思出门打招呼了,没有任何app数据能挡住亚一爬 //<a href='/n/褚达晨'>@褚达晨</a>:大家都app了,以后不做网页了,让你爬。<br>
INFO:root:2016-05-06 我觉得吧,数据真没办法反爬,试问人世间有哪一个site能抵挡住亚一爬的铁蹄?既然挡不住,不如让他抓了,快快离去,岂不是好?数据被抓走也没多大害处,你看有哪个人把百度数据抓了能做个百度啊?所以反爬基本没必要,我的理解 <br>
INFO:root:2016-05-06 其实,我也没有。。 //<a href='/n/殆知阁'>@殆知阁</a>:<span class="url-icon"><img alt=[拜拜] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_baibai-fdd5eeb1d1.png" style="width:1em; height:1em;" /></span>。。举手。。。我没有反爬模块。。。<span class="url-icon"><img alt=[泪] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_lei-316a1a3ed5.png" style="width:1em; height:1em;" /></span>//<a href='/n/梁斌penny'>@梁斌penny</a>: 爬数据肯定耗时了,现在哪个站点不上反爬模块啊。。<br>
INFO:root:2016-05-06 爬数据肯定耗时了,现在哪个站点不上反爬模块啊。。<br>
INFO:root:2016-05-05 据亚二爬一个捞微博活跃用户的流程反馈的数据,5月3日和4日。发微博的用户数突然放大,不活跃的用户一下子都开始发微博了。。值得思考。这个数据发布出来会不会有助于发现水军啊? <br>
INFO:root:2016-04-30 亚一爬除了有技术还要有设备,我司最好机器是4核4gb内存,站稳亚二爬比较现实。。//<a href='/n/Rambone'>@Rambone</a>:不愧亚一爬 汇编都烂熟于心<br>
INFO:root:2016-04-22 亚二爬那边业务电话从中午11点打到现在没停过。一会说什么微信自动加群加不了了,一会说什么搜狗微信搜索只能抓22小时以外,最新的数据都没有了。。。亚一爬那边不知道是什么情况,我等下去问问看。 <br>
INFO:root:2016-04-18 据亚二爬表示,最近wechat封杀力度太大了,友军纷纷阵亡,好多方法都不灵了,太惨了。 <br>
INFO:root:2016-04-08 我认识一个博士,他曾经开始带领几十个人kx上网,后来逐渐发展到带领几万人kx上网,他手里没有什么xx名单,他后来博士毕业创办了一个爬虫公司,并留下了一句话:“为什么当年没有再出一点力帮助更多的人看外面的世界呢。。” <a data-url="http://t.cn/R2WxswF" href="https://m.weibo.cn/p/index?title=%E5%95%86%E5%9C%88&containerid=1001018008100000000000000&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='https://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_location_default.png'></span><span class="surl-text">日本</span></a> <br>
INFO:root:2016-04-08 人一旦开始就希望尽可能多,有爬虫工程师潜质 //<a href='/n/殆知阁'>@殆知阁</a><br>
INFO:root:2016-03-30 经常能遇到智商感人的职场人士,今天痛斥了一个要在pennyjob发布招聘爬虫工程师广告的客户,300元就要我搞一个合同。。。双方的时间不是钱啊?不会算账嘛?我只能告诉她找别人吧,我没法做。。 <br>
INFO:root:2016-03-29 我看行 //<a href='/n/phunter_lau'>@phunter_lau</a>:和年纪没关系,搞个机器人去知乎爬个数据然后根据主题做个RNN,你也可以生成他那样的忽悠文章,这都根本不需要智商的事情,因为忽悠小白这些没文化的根本不需要智商<br>
INFO:root:2016-03-22 只吃肉,不吐骨头? //<a href='/n/Philonis高'>@Philonis高</a>:除了西二旗,黑爬虫还有好多呢//<a href='/n/梁斌penny'>@梁斌penny</a>: 能有实力抵挡西二旗的流量诱惑,也就腾讯阿里了吧//<a href='/n/陈利人'>@陈利人</a>: 友商说,我不需要你的数据,是你求我流量。不同的场景。//<a href='/n/梁斌penny'>@梁斌penny</a>: 西二旗那边的友商有什么反应啊 //<a href='/n/张成_ICT'>@张成_ICT</a>:轉發微博<br>
INFO:root:2016-03-16 亚一爬那边的违禁词肯定是全的,但很多违禁词是人名,穷举人名不好搞啊。。//<a href='/n/慢man悠悠'>@慢man悠悠</a>:借助亚一爬 “根据相关法律法规和政策,部分搜索结果未予显示”......<br>
INFO:root:2016-03-02 建议明星都使用诺基亚手机 ---- 某爬虫界老司机 //<a href='/n/QIAN-WANG'>@QIAN-WANG</a>: 这要是没有暗中监控才怪<br>
INFO:root:2016-03-01 (接上),我猜邓艾爬过阴平,部队是没有补给,没有侧翼保护,也没有战马等重武器的。一路上靠大量经费换了很多蜀国群众的战马和粮食,但这些马屁大多没有训练不能作战只能背辎重,必然是有秘密潜伏的特务事先准备了大量战马和攻城武器。另外绵竹守将也有重大领导责任,一会再说 <a data-url="http://t.cn/Rh7gfRI" href="https://m.weibo.cn/p/index?title=%E4%BD%8D%E7%BD%AE&containerid=100101B2094654D26EABF8449E&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='https://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_location_default.png'></span><span class="surl-text">北京·清华大学本部</span></a> <br>
INFO:root:2016-03-01 送孩子上学,然后就遇到人流高峰了。然后我就在思考昨晚看三国的一个问题。邓艾偷渡阴平,直插棉竹,要穿过秘密树林,还要爬山,补给肯定是很难的,关键是不可能有大量战马能爬山啊,怎么到了绵竹就很多战马了呢? <a data-url="http://t.cn/z8yeKjN" href="https://m.weibo.cn/p/index?title=%E4%BD%8D%E7%BD%AE&containerid=100101B2094654D06EA3F5439A&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='https://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_location_default.png'></span><span class="surl-text">北京·旺龙花园</span></a> <br>
INFO:root:2016-02-28 亚一爬名不虚传,👍 //<a href='/n/殆知阁'>@殆知阁</a>:转发微博<br>
INFO:root:2016-02-27 就拿爬虫代码说吧,其实非常复杂,要照顾很多状态,如果都写在代码里面,非常复杂,维护也困难。大部分情况下只会走非常主干的部分。那么去掉那些状态分支错了怎么办呢?错了就错了,记录个日志,重新初始化,重新回到正确的起点。据亚二爬介绍,他们全部爬虫系统每天初始化一次,确保错误状态不累积 <br>
INFO:root:2016-02-13 美团云只收数据流出的带宽费用,流入数据消耗的带宽是免费的;阿里云只有按照实际流量购买时才和美团云一致,按固定带宽买则上下行都计算流量。这样一来,作为爬虫业务就只能选美团云了。。谢谢。<br>
INFO:root:2016-02-03 谷歌这个下棋机器人也是大量data训练出来的,有数据就有智能,你看百度拿一个百万年薪就招来了那么牛逼的机器学习少帅了啊。 //<a href='/n/褚达晨'>@褚达晨</a>:亚二爬动了二心。<span class="url-icon"><img alt=[嘻嘻] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xixi-ce63ce2629.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2016-01-26 所以微信反爬虫,反营销团队要忙了//<a href='/n/xiaxia'>@xiaxia</a>: 微信能封了不这个功能//<a href='/n/梁斌penny'>@梁斌penny</a>:牛啊//<a href='/n/周鸿祎'>@周鸿祎</a>: 请大家积极加入祝芳浩的群,他只发不抢<span class="url-icon"><img alt=[哈哈] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_haha-bdd6ceb619.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2016-01-26 这几天的经历写了一篇小文 <a data-url="http://t.cn/Rbnlq1e" target="_blank" href="https://weibo.cn/sinaurl/blocked005d3ee6?url=http%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMjM5NjYxNDk4Mw%3D%3D%26mid%3D400843278%26idx%3D1%26sn%3D7b9b5b93fdf9038f4d0ad4c2b23d329b%23rd&sinainternalbrowser=topnav&share_menu=1&luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMjM5NjYxNDk4Mw%3D%3D%26mid%3D400843278%26idx%3D1%26sn%3D7b9b5b93fdf9038f4d0ad4c2b23d329b%23rd" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='https://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">亚二爬出征记</span></a><br>
INFO:root:2016-01-24 爬虫有几大技术难题 1)automation 这个方向要解决怎么控制浏览器自动化,毕竟现在ajax,js代码太复杂了,纯靠wget,curl的时代过去了 2)anti-anti-spider 这个方向要防止封号,封IP,这里面需要人工智能的知识了 3)路由器,这个需要能从路由器上偷出数据,现在https越来越流行,价值已经不大 <br>
INFO:root:2016-01-23 此时此刻,亚二爬。今天也许搞不定了,只要data在。终究属于人民,谢谢。。 <br>
INFO:root:2016-01-23 亚二爬,出征。。。 <br>
INFO:root:2016-01-23 曾经某博士,现在亚二爬。不能在畏畏缩缩了,90后都甘冒违法翻墙的风险,为什么不能去把他们战斗的轨迹“保留”(抓取)下来。亚二爬就当一把战地记者吧,群众需要了解他们真实的战斗过程。。 <br>
INFO:root:2016-01-21 微博反爬水平今非昔比。。里面可能也有不少某博士的账号啊 //<a href='/n/来去之间'>@来去之间</a>:处理了7900万个帐号,一天平均20万呢<span class="url-icon"><img alt=[good] src="//h5.sinaimg.cn/m/emoticon/icon/others/h_good-55854d01bb.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2016-01-20 大家觉得把几家手机地图的信息都爬下来,有没有科研价值啊? 比如商家经纬度坐标什么的,谢谢。亚二爬天天拿着榔头累死了,钉子捏 <br>
INFO:root:2016-01-20 今天有朋友反馈微博把抓取门槛又抬高了,希望亚二爬能出来主持大局。。咋主持呢? 再搞一次爬虫大会嘛? <br>
INFO:root:2016-01-20 远看,还真有点亚二爬的style<br>
INFO:root:2016-01-19 twitter宕机对抓取影响还是比较大的,因为这是最好的反爬措施。。直接自杀,任何爬虫都抓不到了。抓twitter一般人都是走API,据说一个小时最多取720次,但这条路没前途,亚二爬采用了黑虎掏心的办法,直接化妆老百姓的访问行为抓的,按照美国法律,这不违法吧 <br>
INFO:root:2016-01-19 据说亚二爬那边只是小规模搞了下,就宕啦,不至于啊 //<a href='/n/liudaoru'>@liudaoru</a>:转发微博<br>
INFO:root:2016-01-19 忙了客服,忙运维,忙完运维忙客服,时间很快就过去了,天也亮了,一会爬出地下室去吃饭。今天老婆安排我准备儿子明年的幼儿园学费,好几万,我得天!这年终岁尾的到哪里去找钱啊,捉急啊,外面风吹得这么大,怎么办呢 <br>
INFO:root:2016-01-18 大家觉得做反爬虫有没有前途?会不会是一个精忠报国的高尚创业路子,谢谢。 <br>
INFO:root:2016-01-15 亚二爬那条件就只能说是惨不忍睹了,蜗居在地下室,每天中午爬出来,看到大楼里的美女经理定什么外卖就很不可思议,错失多好的晒太阳的机会啊。另外,整个单位最好的爬虫服务器是4核4gb内存的机器。而亚一爬他们单位的笔记本电脑都比这个高不知道多少。所以一爬和二爬那真是云泥之别,二爬不容易啊 <br>
INFO:root:2016-01-15 百度有一个特别的策略,只要你网站一封他的spider,他马上给你网站降权,所以吓唬的各大站长没人敢封百度spider。。百度spider那叫一个长驱直入啊。 但微博,微信不卖他们面子了,就急了。虽然后来陆续也搞到他们的数据了,这就不能公开说了。总之,亚一爬是利用了行业优势,得到了数据获取的某些特权 <br>
INFO:root:2016-01-15 低频词怎么发现呢?一定要用高频pattern来发现,因此核心问题就变成了发现高频pattern,百度nlp小组的一些年轻人,专研好多年,活很好,我们这些老同志根本不在他们话下。。所以这方面我即没有写论文,也没有开源,就好比亚一爬都不瞎bibi,你一个亚二爬有啥好bibi的呢,一bibi马上被群众喷死 <br>
INFO:root:2016-01-15 分词其实不赚钱,但卖词库是很来气的。据说亚二爬以前是专职卖词库的。。二爬为什么要抓新浪微博呢?其实目的不完全是服务群众,核心目的是为了做新词发现。但二爬实在是没有<a href='/n/刘知远THU'>@刘知远THU</a> 老师那份开源的勇气。。 <br>
INFO:root:2016-01-14 我读博士第一年的时候,孩子出生了,老爸得癌症住院了,各种花销巨大,还买了房子。。家庭接近崩溃,我先后去搜狗,有道等地打工挣钱维持,后来到处坑蒙拐骗,一般人搞科研是对标美帝论文,我是立即把学到的东西产生实际应用卖钱;爬盟,微博寻人,大规模词库陆续捞钱。所以我在学术上没有成就。 <br>
INFO:root:2016-01-14 讲心里话,亚二爬的爬虫水平发展这么快和乌云各位前辈的指点有很大关系,也许多年以后,可以说说里面的渊源。但现在还不行,还需要保护老同志。。 <br>
INFO:root:2016-01-14 亚二爬委托我发布一个数据。。在最近的微博语料中,携程和百度这两个词提及次数比较。百度这个事件还没走完,走完以后,这段时间的微博data将会在某job公开给研究界的同仁,帮助研究界判定确实是民愤极大,还是有幕后推手,谢谢。 <br>
INFO:root:2016-01-13 博士生做爬虫的,我只遇到两个人,且都在同一家公司。。 //<a href='/n/holly_lee'>@holly_lee</a>:1 不满足... //<a href='/n/梁斌penny'>@梁斌penny</a>: 实习生待遇,相当于4个亚二爬 ,一万多个刘强东啊//<a href='/n/龙星镖局'>@龙星镖局</a>:现在跟你学爬虫 还来得急么<span class="url-icon"><img alt=[悲伤] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_beishang-c20969286b.png" style="width:1em; height:1em;" /></span>//<a href='/n/52nlp'>@52nlp</a>:看来爬虫工程师匮乏,实习工资都这么高了<br>
INFO:root:2016-01-13 实习生待遇,相当于4个亚二爬 ,一万多个刘强东啊//<a href='/n/龙星镖局'>@龙星镖局</a>:现在跟你学爬虫 还来得急么<span class="url-icon"><img alt=[悲伤] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_beishang-c20969286b.png" style="width:1em; height:1em;" /></span>//<a href='/n/52nlp'>@52nlp</a>:看来爬虫工程师匮乏,实习工资都这么高了<br>
INFO:root:2016-01-13 昨天下午开始微博data很反常,大量之前不发微博得账号开始发微博了。。似乎矛头直指某单位。科研界对这几天的微博,微信和知乎数据应该有需求,亚二爬已经开始打包数据,将通过某job分享给研究界了。。 <br>
INFO:root:2016-01-12 今天什么情况啊,不少公关公司给亚二爬打来电话要微博中涉及“携程”的微博data。查了一下,8号-11号,match携程的微博条数分别为:406,996,1751,4672条。今天截止到目前有3323条。明天我把数据打个包分享给学术界,供他们研究,公关公司还是算了吧,他们哪有处理能力啊。。 <br>
INFO:root:2016-01-11 现在不少app和网站向某人咨询反爬虫经验。。可以负责任的说,爬虫也好黑客也罢,根本是防不住他们的,只能增加爬取数据的成本,让散户,区小队知难而退。遇到县大队那基本守不住。<br>
INFO:root:2016-01-10 淘宝和天猫评论数据最近开始强力封杀了,据说cookie有效期只有几秒。。江湖上的人纷纷求助亚二爬(亚一爬是李彦宏先森,谢谢),亚二爬现在也事务缠绕,刚开完董事会,下一步将着手大规模抓取,并分享给全人类的科学研究事业,谢谢。 <br>
INFO:root:2016-01-10 一条条说,自信和荣誉感特别关键,很多单位的爬虫岗位工程师,得过且过,能把data抓下来就行了,不去思考进一步的原理,怎么抓更妥当,也不管日后可能出现的封杀手段,只要不被封,天天混,直到被封忙成一团,憋个几天,糊一个刚好能解决问题的方案,完事大吉。。这样的工程师会有职业自信吗? <br>
INFO:root:2016-01-04 有道理啊,不能光看ua,看下具有写操作的ua,会稍微准点 //<a href='/n/zxnO'>@zxnO</a>:Reply<a href='/n/KissDev'>@KissDev</a>: 跑一个 vbscript 验证一下。WinXP + IE6是被严重滥用的UA。 //<a href='/n/KissDev'>@KissDev</a>:不对 统计的是纯网页访问 //<a href='/n/zxnO'>@zxnO</a>:WinXP+IE6 基本都是迅雷和爬虫。鉴定完毕。 //<a href='/n/梁斌penny'>@梁斌penny</a>:一天的数据?还是一个月的?<br>
INFO:root:2016-01-02 这样吧,这次爬虫大会还是让年轻有为的技术达人来讲吧,目前还能大规模抓取wechat data的coder。如果愿意去来讲,可以找我报名,我来负责组织和提供经费,当然和上次一样有五个题目,全答对才能获得门票。<br>
INFO:root:2016-01-02 微信反爬大队12月31日突然袭击,搞得各山头爬虫友军被瞬间击毙,一时间怨声载道,某天王虽然毫发无损,但这几天度假也没玩好。除业务电话不断以外,也深感高出不胜寒。五道口卖发糕的老板不仅卖发稿,还教作发糕的技术,这是很难能可贵的。难道非要逼这位天王自筹经费再召开一次普及技术的爬虫大会嘛? <br>
INFO:root:2016-01-01 昨晚某人电话不断,谈生意一直谈到凌晨两点。。啥情况啊//<a href='/n/请叫我汪二'>@请叫我汪二</a>:昨天微信把非移动客户端的权限全关了。。。只能从客户端爬取了=。=好头疼<br>
INFO:root:2015-12-27 抓中纪委的site?这是死罪啊//<a href='/n/碧血微剑'>@碧血微剑</a>:梁博用数据说话吧,把全国纪委的信息披露都爬下来,看看是媒体关注加大了,还是平均水平上去了,会有媒体人喜欢这个数据的。<span class="url-icon"><img alt=[偷笑] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_touxiao-3458a765a2.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2015-12-25 这些招数对厂长作用不大了,他们太有钱,厂里的军人太猛了 //<a href='/n/tinyfool'>@tinyfool</a>://<a href='/n/holly_lee'>@holly_lee</a>: 这种东西怎么能靠 robots 呢, 必然需要走加密链路外加Authentication & authorization 才行. //<a href='/n/梁斌penny'>@梁斌penny</a>: 厂长才是真正的亚一爬,他们抓的数据那叫一个全。。//<a href='/n/教皇昕'>@教皇昕</a>: <a href='/n/搜狗'>@搜狗</a> 应该起诉百度啊<br>
INFO:root:2015-12-25 厂长才是真正的亚一爬,他们抓的数据那叫一个全。。//<a href='/n/教皇昕'>@教皇昕</a>: <a href='/n/搜狗'>@搜狗</a> 应该起诉百度啊<br>
INFO:root:2015-12-25 您是真正亚1⃣️库,IP库绝对王者,毫无对手。。 //<a href='/n/高春辉'>@高春辉</a>:改日,亚一程、亚一爬还有我,一起吃个饭,指点一下江山,我准备叫自己,亚一库。。。<span class="url-icon"><img alt=[哈哈] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_haha-bdd6ceb619.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[哈哈] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_haha-bdd6ceb619.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[哈哈] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_haha-bdd6ceb619.png" style="width:1em; height:1em;" /></span>//<a href='/n/胡波_'>@胡波_</a>:<span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span>亚一爬//<a href='/n/高春辉'>@高春辉</a>:你是亚一爬,但在IP库行业里,你还是婴儿。。。<span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2015-12-25 我是不会搞的,现在各家都严防死守,不去冒险做不熟悉的事。。 //<a href='/n/高春辉'>@高春辉</a>:你是亚一爬,但在IP库行业里,你还是婴儿。。。<span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2015-12-25 要是我做ip库,肯定不会走老高的路子,各家IP库都爬一遍,天天爬,也包括老高的site,然后用一个简单的投票算法,估计准确性能超过老高,覆盖率也高。 当然了,我是不会和老高去竞争的,他也不容易。。 <br>
INFO:root:2015-12-25 我调研了下,谷歌只能搜索”本机IP“得到location,查其他IP,查不到,好坑爹。//<a href='/n/高春辉'>@高春辉</a>: 来吧。//<a href='/n/梁斌penny'>@梁斌penny</a>:我应该把谷歌IP库爬下来奉献给全人类的,对么光辉的事业啊 //<a href='/n/高春辉'>@高春辉</a>:另外我们群里也有人说谷歌的IP不够准的。。。<span class="url-icon"><img alt=[哈哈] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_haha-bdd6ceb619.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2015-12-25 我应该把谷歌IP库爬下来奉献给全人类的,对么光辉的事业啊 //<a href='/n/高春辉'>@高春辉</a>:另外我们群里也有人说谷歌的IP不够准的。。。<span class="url-icon"><img alt=[哈哈] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_haha-bdd6ceb619.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2015-12-24 其实IP库最准的应该是全世界范围内有强大用户量的手机地图软件公司,谷歌地图这种。 谷歌应该把IP库开放出来服务群众的,这样亚一爬很快也就有了。。 <br>
INFO:root:2015-12-20 你们这样搞,是要断了爬虫行业的生意啊,啥叫非人类访问概率啊。。 //<a href='/n/高春辉'>@高春辉</a>:<span class="url-icon"><img alt=[哈哈] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_haha-bdd6ceb619.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2015-12-15 据亚一爬表示,知乎一共有三百多万个问题,九百多万个答案,是不是真的啊,有谁告诉下我准确的数据规模啊,谢谢。 <br>
INFO:root:2015-12-12 不少朋友来信让我推荐权威的爬虫技术书籍。我一直觉得爬虫技术是一个非常关键的技术,内涵也比较丰富,按理说应该有美军,特别是有情怀有担当的美军,来写比较牛逼的爬虫技术书籍,但我真是从来没看到过这类书,有了解的朋友推荐下。谢谢啊 <br>
INFO:root:2015-12-05 小偷爬进去看到这狗,估计得尿啊 //<a href='/n/来去之间'>@来去之间</a>:<span class="url-icon"><img alt=[哆啦A梦吃惊] src="//h5.sinaimg.cn/m/emoticon/icon/doraemon/dr_chijing-709027feca.png" style="width:1em; height:1em;" /></span>→_→ //<a href='/n/张含韵'>@张含韵</a>:记得仙子原话:我家里养了几只很可爱很乖的狗狗喔<span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span> 今儿总算见着了,我的天啊<span class="url-icon"><img alt=[笑cry] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xiaoku-7430606cb7.png" style="width:1em; height:1em;" /></span> //<a href='/n/蔡少芬'>@蔡少芬</a>:太可怕了!<span class="url-icon"><img alt=[作揖] src="//h5.sinaimg.cn/m/emoticon/icon/others/h_zuoyi-38716bd05f.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[作揖] src="//h5.sinaimg.cn/m/emoticon/icon/others/h_zuoyi-38716bd05f.png" style="width:1em; height:1em;" /></span>//<a href='/n/BenBen王斌'>@BenBen王斌</a>:我的天…<span class="url-icon"><img alt=[吃惊] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_chijing-f4f9e95da7.png" style="width:1em; height:1em;" /></span><br>
INFO:root:2015-11-22 我经常想,如果一个公司会汇聚亚一爬,亚一挂,亚一马和亚一维,也就是说这四大天王都到齐的话,公司市值起码1亿美金啊,可惜如果分散流落在民间没有形成合力,就不值多少钱了<br>
INFO:root:2015-11-21 前不久一个同学问我做爬虫有什么参考书,我告诉他,”google就是最好的参考书”,他说,“我英文不行啊”。我勉励他多看,多用,就那么几个单词,肯定能搞懂的。<br>
INFO:root:2015-11-14 曾经有老板让某爬虫天王抓这个网站的视频。。其实很easy,美帝反爬水平太菜了。。 //<a href='/n/vinW'>@vinW</a>:哈<br>
INFO:root:2015-11-13 曾经有一家单位对某博士说,“你把你们爬虫的IP都交代出来,我们配置在白名单里面随便抓。。”,某博士答,“还是混在老百姓里面安全,谢谢” //<a href='/n/邱英波'>@邱英波</a>:转发微博<br>
INFO:root:2015-11-11 爬虫大会有可能是要绝版了,没有厂长愿意拿出两万元以上经费啊。。//<a href='/n/Sunset_Ren'>@Sunset_Ren</a>:其实比起语料的“鱼”,更想梁博传授“渔”。遗憾错过了上次的爬虫大会<br>
INFO:root:2015-11-07 请不要用于反爬虫,谢谢,给大家留一口饭吃。。<br>
INFO:root:2015-11-04 某博士的野战部队昨天战斗到凌晨三点,成功解决了某社交网站(不是微博)的强力封杀,捍卫了“爬虫天王”的荣誉,如果他们在步步紧逼,只有退守潼关了。。最后的终极预案准备了一年多,估计是要拿出来的时候了。 <br>
INFO:root:2015-11-03 据说啊,最近微信那边加大了反爬虫力度,各种爬虫队伍虾米了,急的团团转,串掇某爬虫天王召开爬虫大会共商大事,现在这位同志真是忙啊,各种电话垂询。我觉得吧,有一天各大数据持有单位能把数据完全开放给群众就好了,美国现在数据开放的进程就很好,很多政府透明化,数据开放有利于群众监督啊 <br>
INFO:root:2015-10-30 数据才值几毛钱,能见到爬虫天王多么难得的机会啊,人家一次报告就收费2万啊。。 //<a href='/n/龙星镖局'>@龙星镖局</a>:这样真的好么 万一冲着数据去参会呢//<a href='/n/梁斌penny'>@梁斌penny</a>: 我刚刚付费参加的这个大会,届时凡是付费参会的同志,都将获赠八友科技赠送的下半年微博语料,届时在会场上找我登记邮箱即可。<br>
INFO:root:2015-10-28 美军太可恶了,我决定通过大量爬虫访问fb,twitter等网站以示反击,谢谢。 //<a href='/n/云泉微博'>@云泉微博</a><br>
INFO:root:2015-10-26 比如说,我的单位虽小,但一开始,就比较西化的。首先财务透明,一切摆在全体董事会成员的眼前,厂长根本不敢乱搞;其次决策民主,任何重大决策需要达成一致才去操作,比如前一段一个老板来找我买词库,我悄悄卖了就偷偷收钱了。。但是我们还是走了程序,最后没有给,因为词库是爬虫系统的核心竞争力。 <br>
INFO:root:2015-10-25 淮海工学院的三年,内心十分扭曲,身上没几毛钱,谈恋爱的经费都没有;学习上备受歧视,专科生大二才有资格考4级,结果大二两学期横扫4,6级,震动校园;最痛苦是不知道通往未来的路径,就好像一抓进死牢的囚犯,狱警都说你玩了,而自己却坚信能挖条地道爬出去,然后就胡练猛搞坚持了三年。。 <br>
INFO:root:2015-10-23 我的爬虫用c语言写的,其他语言讲实话也不会。我的合伙人用的是python。目前推的所有服务全都是c语言写的,包括微博寻人,duxiaqu.com;pullword.com;我觉得比较笨的人适合学c语言,非常naive,每条语句都很直标标的,没有隐式代码;也方便调试,在运行的程序都能gdb进去看流程和改变量的值,非常方便 <br>
INFO:root:2015-10-17 国内<a href='/n/nzinfo'>@nzinfo</a> 也在做类似创业公司,帮助企业管理日志,发现爬虫,实时扑杀,前一段他来找我取经爬虫发展的最前沿技术 //<a href='/n/agentzh'>@agentzh</a>:看到梁博的微博,就会想起美国一家专门用机器学习等方法做反爬的公司,叫做 Distill Network,貌似在那些担心数据外泄的内容网站很受青睐<br>
INFO:root:2015-10-17 但任何机器学习算法在3万爬虫IP面前,就全黄了。。 //<a href='/n/agentzh'>@agentzh</a>:看到梁博的微博,就会想起美国一家专门用机器学习等方法做反爬的公司,叫做 Distill Network,貌似在那些担心数据外泄的内容网站很受青睐(类似 Yelp 那样的)。<br>
INFO:root:2015-09-29 爬虫做生意不能靠漏洞,除非挖掘漏洞的产能是持续的,做爬虫应该走正路。//<a href='/n/Apache9'>@Apache9</a>:这尼玛 //<a href='/n/简悦云风'>@简悦云风</a>:我说过什么来着?越是天朝大厂,负责设计者越没安全常识,外加好面子。 //<a href='/n/刘鑫Mars'>@刘鑫Mars</a>: //<a href='/n/zxnO'>@zxnO</a>: 写爬虫的收货了! <a href='/n/梁斌penny'>@梁斌penny</a><br>
INFO:root:2015-09-24 一大早六点半下地下室,苦战数小时,刚刚爬出来找东西吃。阳光很刺眼,清华科技园很多白领(不全是女的)在园内遛弯social,满脸笑容;而我一副丢了500元钱的痴呆样,差距啊。想想好多互联网大厂厂长现在美帝和美军谈笑风声,我什么时候才有这种机会撒 <br>
INFO:root:2015-09-20 爬虫大会发出去70多邀请函,来了62位同志。在车库咖啡的大会议室里,百度的opencrawler作者以及某博士分别从爬虫的白道和黑道两个方向介绍了些流行的技术方案;会后大家一起晚宴,同志们普遍反映吃饱了。。最后感谢赞助商<a href='/n/7k7k赵鑫'>@7k7k赵鑫</a> <a href='/n/洪倍-手推车'>@洪倍-手推车</a> <a href='/n/刘江总编'>@刘江总编</a> 杨立 以及场地提供分<a href='/n/车库咖啡'>@车库咖啡</a> 的大力支持 <br>
INFO:root:2015-09-19 人类历史上首次爬虫大会,现场爆满 <br>
INFO:root:2015-09-16 爬虫大会的晚宴我定好了,在中8楼(中关村店),他们店要求人均150元,导致资金缺口2500元,AdMaster的厂长洪倍前辈紧急赞助了,非常感谢。下午我去酒店签约交定金,办个会还是蛮复杂的,希望在京爬虫界的同志们逐渐认识起来,形成一个稳定的圈子,谢谢。 <br>
INFO:root:2015-09-15 不知道我这种算不算黑客?黑科技做爬虫算吗?<br>
INFO:root:2015-09-14 爬虫大会结果公布:我的答案是(B,A,B,A,C,G)均为单选;其中286名报名的同学中5人回答和我一样;59人回答5题和我一样;大会将给这64人发去邀请,场地只能容纳40人,期望有一些同学无法来参加,另外活动结束后,会有一个晚宴,晚宴现场会有互动活动。活动和吃饭都是完全免费的 <br>
INFO:root:2015-09-14 同学们,第一届爬虫party将在车库咖啡举办,我将会把报名同学来信都过一遍,严格按照得分选出前30人参加此次活动,回复的邮件会有聚会时间和地点等信息。如果活动有价值,我们每个月都聚聚,让干这行的大家都混个脸熟,有个照应。最后感谢<a href='/n/车库咖啡'>@车库咖啡</a> 以及赞助商 <a href='/n/刘江总编'>@刘江总编</a> <a href='/n/7k7k赵鑫'>@7k7k赵鑫</a> 杨立 的大力支持 <br>
INFO:root:2015-09-13 这事某博士应该做不来了//<a href='/n/子柳'>@子柳</a>: 这只是开始,我希望通过公开数据分析出应用增长态势,受投资人关注程度,CEO性格特征,人脉关系等。 //<a href='/n/lipeiqiang'>@lipeiqiang</a>:这活扔v2ex上分分钟有人做了 //<a href='/n/子柳'>@子柳</a>:某博士接我一个活儿吧,分析微博上所有投资人最近关注的账号,按被关注数量从高到低排序,取前100位,每周爬一次<br>
INFO:root:2015-09-11 今天唯品会在pennyjob发布了java人才招聘需求,感谢唯品会的投稿,另外回答了一些爬虫大会问题,最后感谢已经赞助爬虫大会的7k7k厂长<a href='/n/7k7k赵鑫'>@7k7k赵鑫</a> 美团技术院长<a href='/n/刘江总编'>@刘江总编</a> 云基地执行董事杨立前辈。 <a data-url="http://t.cn/RybTuk6" target="_blank" href="https://weibo.cn/sinaurl/blocked792dbe1a?url=http%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMjM5NjYxNDk4Mw%3D%3D%26mid%3D209085508%26idx%3D1%26sn%3Dfec099be5c37075df12f55a9c0bbc766%23rd&sinainternalbrowser=topnav&share_menu=1&luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMjM5NjYxNDk4Mw%3D%3D%26mid%3D209085508%26idx%3D1%26sn%3Dfec099be5c37075df12f55a9c0bbc766%23rd" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='https://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">唯品会招聘java高级工程师 -- 第455期</span></a> <br>
INFO:root:2015-09-10 好多人答题报名啊,一看就是业内人士,我已经开始联系海淀区几家咖啡馆,确定时间和地点就给答题较好的同学们发邮件啊,来的肯定都是业内高手,太开心了。但party可能会缺少点美女神马的,美女谁会干爬虫这行呢,这个问题有点捉急。<br>
INFO:root:2015-09-10 为了防止HR,猎头和反爬工程师混进人类历史上首届爬虫大会的现场,我这几天想题目是想的愁死了,今天总算把题目出好了,开始正式报名,6个题目,回答正确3个即可获得邀请参加。将自己简单情况和答案发给我们的编辑,即可,谢谢。 <a data-url="http://t.cn/Ry4gXVl" target="_blank" href="https://weibo.cn/sinaurl/blocked175f90ba?url=http%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMjM5NjYxNDk4Mw%3D%3D%26mid%3D209070629%26idx%3D1%26sn%3D9f07f5db95f0df476208a26df8694bc0%23rd&sinainternalbrowser=topnav&share_menu=1&luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMjM5NjYxNDk4Mw%3D%3D%26mid%3D209070629%26idx%3D1%26sn%3D9f07f5db95f0df476208a26df8694bc0%23rd" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='https://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">爬虫大会开始报名--第454期</span></a> <br>
INFO:root:2015-09-07 搜狗微信搜索修改了反扒策略,业内一片哀嚎。这个时候就显示出某博士架构的牛逼了,完全不受影响,为什么呢,因为我们获取数据根本不依赖搜狗微信搜索。。做爬虫一定要以正合以奇胜,走正路,要抓数据就直接去源头抓,这才是爬虫天王的风采。。 <br>
INFO:root:2015-09-07 友盟前军事领导人,创始人,杰出的我清校友陈彧堃同志,创办了新公司newsdog,在pennyjob发布重要招聘广告,招聘杰出爬虫工程师,推荐系统工程师等。欢迎广大知识青年考虑,谢谢。 <a data-url="http://t.cn/RyySmV7" target="_blank" href="https://weibo.cn/sinaurl/blocked365b4ea6?url=http%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMjM5NjYxNDk4Mw%3D%3D%26mid%3D209026249%26idx%3D1%26sn%3D562ca3b151f5072f3d3325ddef76172a%23rd&sinainternalbrowser=topnav&share_menu=1&luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMjM5NjYxNDk4Mw%3D%3D%26mid%3D209026249%26idx%3D1%26sn%3D562ca3b151f5072f3d3325ddef76172a%23rd" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='https://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">友盟前创始人新创NewsDog诚邀天下英雄--第451期</span></a> <br>
INFO:root:2015-09-06 截至目前,百度opencrawler的作者将会发表爬虫相关的重要技术报告,加上我的talk,已经2个了,宜信,美团那边可能还有1个talk。这种机会不是经常有的,捞人的好机会啊,懂的人自然懂。<br>
INFO:root:2015-09-06 同学们,我将在开学后发起国内首届爬虫工程师的party活动,设计100人参加。目前已经有7k7k,美团,妙计旅行等单位赞助,办会宗旨是提高国内爬虫工程师的收入水平,促进技术交流,起码大家干这行的都混个脸熟;我将在大会中说说抓取微博和微信数据的一些技术细节,也欢迎业内爬虫大咖给talk,与我联系。 <br>
INFO:root:2015-08-11 另外我还在苦苦寻找“亚一爬”,国内做爬虫的可能比搞运维的还低调,机会不抛头露面,天天躲在角落里抓人家网站东西,还一般不主动打招呼。求引荐国内做爬虫比较牛逼的人,谢谢,我真想进入他们的圈子啊(如果有的话) <br>
INFO:root:2015-07-11 [2/3] 本期pennyjob由宜信大数据高级经理项亮同学投稿,就爬虫工程师的能力养成,进行了一些有价值的探讨,欢迎大家阅读,他们也缺这方面优秀工程师,诚邀爬虫人才参加到他们的队伍中去,待遇比业界正常水平高50%以上,谢谢。 <a data-url="http://t.cn/RL4QPCo" target="_blank" href="https://weibo.cn/sinaurl/blocked917e70c5?url=http%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMjM5NjYxNDk4Mw%3D%3D%26mid%3D208337033%26idx%3D1%26sn%3D2dbbbbdaa67cb743d668911f74cce26e%23rd&sinainternalbrowser=topnav&share_menu=1&luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMjM5NjYxNDk4Mw%3D%3D%26mid%3D208337033%26idx%3D1%26sn%3D2dbbbbdaa67cb743d668911f74cce26e%23rd" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='https://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">论爬虫工程师的自我修养-pennyjob第412期</span></a> <br>
INFO:root:2015-07-05 即不破坏体验,又让爬虫不爽。[3/3] //<a href='/n/ipandanext'>@ipandanext</a>:这点狼厂已在其优质内容站如百科、经验等对可疑访问返回随机位置的文字替换图片,错乱序列等//<a href='/n/爱可可-爱生活'>@爱可可-爱生活</a>:大数据时代,也该换换思路了——与其继续猫捉老鼠的网络攻防游戏,不如从源头下手,改变数据构成,对可疑访问散播虚假(低质)数据<br>
INFO:root:2015-07-05 转一个历史微博。。[2/3] //<a href='/n/梁斌penny'>@梁斌penny</a>:发现是爬虫,别拒绝它,给他假数据,这招是最狠的,特别坑人的 //<a href='/n/高春辉'>@高春辉</a>:回复<a href='/n/地合网黄志添'>@地合网黄志添</a>:来抓数据的。。。//<a href='/n/地合网黄志添'>@地合网黄志添</a>:没看懂是干咐~。ip的访问统计?<br>
INFO:root:2015-07-05 我最近有个项目也需要做反爬虫,发现这个问题真是世界级难题啊,同求高手解惑。[1/3]<br>
INFO:root:2015-05-24 据说现在有boss开一个月uber,专门爬活在大公司,主要目的是聊码农,抓他们创业。uber蛮牛的,把求职招聘的方式都给创新了,一定要做连接人的工具,然后机会就来了。。还有拿uber干那事的,比较黄就不说了。 <br>
INFO:root:2015-05-17 python在高并发方面不如c语言?其实爬虫的主要问题我的理解主要集中在1)互联网大公司对爬虫的强力封锁;2)异步编程的复杂性,比如状态控制;3)爬虫工程师待遇偏低,缺乏成就感,最牛逼死了也不过是个t6。。价值观里面绝不会有一个爬虫“少帅”的,谢谢<br>
INFO:root:2015-05-15 archive这种只当爬虫不回报流量,谁都会屏蔽的。。<br>
INFO:root:2015-04-21 害得我们找了半天爬虫的bug,以为被封了。原来是豆瓣自己挂掉了。。我得想办法尽快把豆瓣数据公开给全人类。<br>
INFO:root:2015-02-15 据说大厨网就是抓全国各地的屌丝汇报当地农产品价格,人肉数据爬虫,数据非常独家可靠,然后搞一个平台变现,但这个生意“顶”比较有限 //<a href='/n/Jonathan赵鹏'>@Jonathan赵鹏</a>:巨大公司VP,参加创业能够成功的,算升维吧。//<a href='/n/张栋_机器学习'>@张栋_机器学习</a>:“俞军宣布加盟大厨网” 做通用用户产品的做垂直品类,也算是降维了吧<br>
INFO:root:2015-02-06 我的root密码都是30多位的,开账号也是nologin的那种,所以机器没有受害,只是被开了socket5代理,然后被利用来当爬虫了。德国的,乌克兰的都有<br>
INFO:root:2015-02-05 发现是爬虫,别拒绝它,给他假数据,这招是最狠的,特别坑人的 //<a href='/n/高春辉'>@高春辉</a>:回复<a href='/n/地合网黄志添'>@地合网黄志添</a>:来抓数据的。。。//<a href='/n/地合网黄志添'>@地合网黄志添</a>:没看懂是干咐~。ip的访问统计?<br>
INFO:root:2015-01-02 某博士蛮不容易的,免费开放云主机给码农群众用,结果个别码农把root密码改掉,自己私用。。后来不得不聘请管理员。免费开放语料给码农用,结果个别码农用大量机器狂下载,造成某博士流量重大损失。免费开放上网渠道给码农用,结果被利用做爬虫。。某博士这几年被个别码农锻炼得心脏无比强大了。。 <br>
INFO:root:2015-01-01 还有一次,我一个去上海世博会,排了4个小时德国馆出来接着排法国馆,排了半个小时开始下暴雨,很多群众爬到两边的护栏上,否则鞋子就要湿透,当时世博会排水系统很垃圾。。我见情况不妙,万一护栏倒了,群众没准就要逃命踩踏,我第一时间从便道退出了排队的行列,也因此错过了法国馆。。 <br>
INFO:root:2015-01-01 1998年在读大学时,有一次和班里几个同学去一个广场买彩票,一会有人中奖汽车,一会有人中奖电视,人特别多,根本挤不到中央区,想出来也出不来,人越来越多,此时有一个中年人和孩子被挤倒,就在我们眼前倒下,我和几个同学马上组成人墙把后面群众往回推,给这两人爬起来的时间。,后来平安无事。 <br>
INFO:root:2014-12-27 我拿树莓派做爬虫,差距啊 //<a href='/n/TreapDB'>@TreapDB</a>:转发微博<br>
INFO:root:2014-12-07 点名的时候,课堂的学生马上打手机,不来的童鞋们10分钟内准来,//<a href='/n/朱小燕THU'>@朱小燕THU</a>:我也不点名,昨天因为别的事问学生,你们上课了吗?两个人都不知声了<span class="url-icon"><img alt=[汗] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_han-4ce3c6bac3.png" style="width:1em; height:1em;" /></span> //<a href='/n/马少平THU'>@马少平THU</a>:学生经常欺负像我这种不点名的老师 //<a href='/n/中国爬盟'>@中国爬盟</a>:太凶残……<br>
INFO:root:2014-10-17 阿里爬虫的事情,他们已经有相关人员和我进行了交流,我也是本着解决问题的态度,我把近3个月网站访问日志发给他们看工程师看,帮助他们改进抓取算法,减少重复抓取,如果未来他们有重大改进,还是可以解封的。现在互联网非真实用户流量太大了,每家都有爬虫,太可怕了。 <br>
INFO:root:2014-10-17 show下阿里爬虫(数据来自微博寻人9月份日志)。第一列是访问量,第二列是IP地址,IP是42开头的且访问量大的,好像都是。我认为阿里做征信抓数据可以理解,但应补贴站长流量费,比如每个月补贴100元,否则这种只索取,不回报,商业社会不是这么玩的。且看上去是团伙作战,不像临时工所为 <br>
INFO:root:2014-10-16 微博寻人有很多阿里爬虫,我都封了。但奇怪的是,他们电商网站要抓web数据干嘛呢? 是不是他们金融要做征信所以需要web data呢?其他站长有遇到阿里爬虫嘛?告诉我一下。明天公布阿里爬虫列表建议站长们封一下,这种是完全索取不带量的。。 <br>
INFO:root:2014-10-08 但也有好消息 1)互联网和实体行业整合产生大量业务需求,大量需要人 2)创业公司大量冗余,大量需要人,每个创业公司都至少有一个做爬虫的吧 3)移动互联网,手机兴起,隐私大量收集来,端设备开发,大数据都需要大量开发和分析人才。<br>
INFO:root:2014-09-11 书看了,再把试验做一遍,我估计怎么也得需要4-5年。//<a href='/n/52nlp'>@52nlp</a>: //<a href='/n/中国爬盟'>@中国爬盟</a>: <span class="url-icon"><img alt=[赞] src="//h5.sinaimg.cn/m/emoticon/icon/others/h_zan-6e88e6f51d.png" style="width:1em; height:1em;" /></span><span class="url-icon"><img alt=[馋嘴] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_chanzui-ad3f4f182c.png" style="width:1em; height:1em;" /></span>//<a href='/n/韩先培'>@韩先培</a>:转发微博<br>
INFO:root:2014-09-08 不少私信我买保险和开银行账号,美股账号的事,近期pennyjob统一向大家汇报。也就是我香港之行的经历。当然有人用招行香港一卡通,将自己资产完全由党国监控,也不是不可以,但如果有纯境外银行能开户的途径不是更好嘛?就好比很多人执着于用新浪微博api,爬萌岂不是更安全快活,想怎么搞,怎么搞。 <br>
INFO:root:2014-07-25 我发现一个问题,以前几个大佬打牌,都相互敢跟。比如新浪推微博,腾讯等马上跟。现在情况有点变化。马厂长投了恒大足球队,其他厂长沉默了。李厂长开搞国际化业务(其实就是面向其他国家的爬虫和搜索引擎),其他厂长也沉默了。周厂长买了MediaV,其他厂长也没有跟。怎么理解呢? <br>
INFO:root:2014-06-21 减肥还是得科学,跑步,爬山等锻炼方式比较好。//<a href='/n/马少平THU'>@马少平THU</a>: 减肥药物都不能吃,均是损坏身体的。<br>
INFO:root:2014-06-16 发现个问题,异步爬虫有时候即便全部下载任务结束了,此时如回收所有下载的压缩页面,解压就会发现个别文件Unexpected file end。但如果kill掉爬虫进程,这些错误就没了。。文件也完整,于是怀疑部分data没有flush进文件的原因,用fflush一把,数据就全了。<a href="https://m.weibo.cn/search?containerid=231522type%3D1%26t%3D10%26q%3D%23%E5%BC%82%E6%AD%A5%E6%8A%93%E5%8F%96%E7%BB%93%E6%9D%9F%E5%90%8E%EF%BC%8C%E4%B8%8D%E7%AE%A1%E4%B8%89%E4%B8%83%E4%BA%8C%E5%8D%81%E4%B8%80fflush%E4%B8%80%E4%B8%8B%23&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class="surl-text">#异步抓取结束后,不管三七二十一fflush一下#</span></a> <br>
INFO:root:2014-04-19 大数据,群众智能,和搜狗号码通差不多 //<a href='/n/雷军'>@雷军</a>:这是用互联网方式做114服务,用爬虫爬公开电话、发动用户一起完善、人工校验整理等,追求更全更快更准确,我们做了一部分,太复杂,后来开始整合第三方服务。<a href='/n/小米手机'>@小米手机</a><br>
INFO:root:2014-01-16 有人问如何甄别爬虫流量,这样吧, 今晚的Pennyjob将从machine learning的角度,详细说说。本质上是一个<a href="https://m.weibo.cn/search?containerid=231522type%3D1%26t%3D10%26q%3D%23a+binary+classification+problem%23&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class="surl-text">#a binary classification problem#</span></a>,可用类似gnerative models的路子,看看行为产生的概率,也就是算behaviour likelihood。。或者用discriminative models的路子,直接model是爬虫的概率。。 <br>
INFO:root:2014-01-15 玩法很多很多的,深入研究http协议,一般码农写爬虫终究不会写得类人行为,除非是我。。算了怎么做爬虫我就不说了吧 //<a href='/n/王依依'>@王依依</a>:<span class="url-icon"><img alt=[哈哈] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_haha-bdd6ceb619.png" style="width:1em; height:1em;" /></span>360搜索最早一版就是度厂上了反爬模板瞬间结果瘫了<span class="url-icon"><img alt=[偷笑] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_touxiao-3458a765a2.png" style="width:1em; height:1em;" /></span> //<a href='/n/马_recsys_啸'>@马_recsys_啸</a>:。。//<a href='/n/梁斌penny'>@梁斌penny</a>:我曾给某电商网站支过这招,真太损了,那老板说,亏你想得出来。。当然,<br>
INFO:root:2014-01-15 代理。。全球代理list就那么些,而且代理抓,流量行为也能看出是爬虫(非自然用户行为) //<a href='/n/pkuxkxjason'>@pkuxkxjason</a>:上几千个代理这招就无效了。<br>
INFO:root:2014-01-15 爬虫主要根据last modified time和网页签名变化判断是否update,搞死爬虫是不难滴,不要封它,让他进来,抓点东西走,让他满意。但里面可以搞一点反动言论,搞点不雅内容。。然后举报。玩法太多了啊 <br>
INFO:root:2014-01-15 数据反爬界其实我是有经验的,对方爬虫来了,不要怕,给他错乱的数据,捣毁他们的系统。。流量一定要仔细甄别,真实用户流量,放过。抓数据流量,封或者乱搞。 <br>
INFO:root:2014-01-05 看了3遍,1)女司机对后面来车没有充分观察,把自己得生命依托给他人的充分注意和小心上。2)被撞后,没有抓死方向盘,被甩出。3)甩出后没有立即爬起来,最终被大自然淘汰。教训深刻阿//<a href='/n/阿男weli'>@阿男weli</a>:<br>
INFO:root:2013-09-12 搞大数据起码有建立这么几个战斗小组,爬虫,数据管理和基础系统一人,机器学习数据挖掘三人,产品开发两人,参谋长一人,其余外包,基本七星聚会可办大事。可惜就差一个生辰纲级别的大事啊。 <br>
INFO:root:2013-07-05 爬盟的数据用于科学研究,大会上会分享一些数据,有时间的都来切磋学习下吧。。//<a href='/n/贺志明_ICT'>@贺志明_ICT</a>: 欢迎感兴趣的人来参加,微博越封闭,爬盟越开放。//<a href='/n/爬盟中国'>@爬盟中国</a>: 不需要报名,直接来就可以。<br>
INFO:root:2013-06-13 为什么我眼里这是个数据爬虫呢,前不久我说谷歌扫街车也是爬虫,有人呵呵了。//<a href='/n/王煜全'>@王煜全</a>:求礼品<span class="url-icon"><img alt=[嘻嘻] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xixi-ce63ce2629.png" style="width:1em; height:1em;" /></span> //<a href='/n/Zodzod_张浩'>@Zodzod_张浩</a>: //<a href='/n/来去之间'>@来去之间</a>: 目前wifi芯片成本就得大几美金,先将就将就 //<a href='/n/赵岗'>@赵岗</a>: 长得有点丑 //<a href='/n/来去之间'>@来去之间</a>: 第一批数量有限,预购从速,买了不公开气象数据的都木有小JJ~~<br>
INFO:root:2013-06-07 前不久,某人和曹国伟同志说起我们爬盟,老曹说,学术界做点事情不容易,应该允许他们长期存在,我们主要是防XX和YY。 我觉得吧,我们还是有底线的,起码我们没做微博搜索,也没有影响新浪做生意。后来这个同志说,梁斌,我算是懂得你了,你是在用社会资源在打仗阿,发动人民群众的毛派打法,我笑了笑 <br>
INFO:root:2013-06-03 右边也是大户,需要数据也可和他们联络。其实我也可以放出的,如果我是韩国人的话//<a href='/n/社会网络与数据挖掘'>@社会网络与数据挖掘</a>: 知微有两亿的用户信息,百亿级社交关系,百亿内容,也欢迎各界学术同仁与我们合作<span class="url-icon"><img alt=[嘻嘻] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xixi-ce63ce2629.png" style="width:1em; height:1em;" /></span> //<a href='/n/vinW'>@vinW</a>: 你们都是群黑客级人物..有韩国人爬了twitter大概4000万用户的一个子集,促使很多顶级研究成果<br>
INFO:root:2013-06-03 嗯,另外的几只独立抓微博数据的队伍碰在一起,也都只抓了这么多人下来。。对微博数据有需求的可以找右边这位同志合作。//<a href='/n/贺志明_ICT'>@贺志明_ICT</a>:微博爬盟采到了2亿人的信息和关系,通过关注关系扩展出去,还是这2亿人。<br>
INFO:root:2013-05-17 万一真的没有名企,名校背景,也不要紧,可以投奔创业大哥。跟着他们干,干出成绩,自然会有大把机会。比如和我搞爬萌的兄弟,现在外面来挖已经开出年薪50万了。 和我搞词库的兄弟,你们想想会开出什么待遇,其实也就是本科学历而已。 学历这东西,真心不重要,这些话题,西瓜大会再和大家细说吧 <br>
INFO:root:2013-05-12 大家看这个事情是否可行,我用一个低空飞行器,受人遥控,然后航拍主要商业街等,获得人流量的可靠数据,相当于飞行爬虫,再实时做分析,然后给予地面广告机指令,show不同的广告,调动人流量。但有个麻烦,万一飞行器没电了,砸人头上,出血了,怎么办? <br>
INFO:root:2013-05-12 据说谷歌IO大会要忽悠谷歌旅游鞋,不知真假,感觉美帝蛮厉害的,人脚一双的话,人流量全掌握了,男女全掌握了,年龄全掌握了。一款旅游鞋就是一爬虫啊,爬取的数据好值钱。。比如做个活动,活动前后,人流量怎么变化,男女比例,都好measure了。谷歌的人智商真高啊。 <br>
INFO:root:2013-05-06 bing的爬虫还是蛮讲江湖规矩的。robot封了以后,就坚决不抓了。但是每天都苦苦来看我的robot.txt,渴求解封。看着满可怜的。 但bing带来的流量实在太小了,没有理由解封啊,有没有这样一种可能,bing支付我的流量费用,这就没问题了。我认为bing作为美军的杰出代表,应该走得更远一些。 <br>
INFO:root:2013-05-03 杭州的马厂长就不说了,人已经退休了。杭州形成了天然的电商部落,加上马厂长<a href="https://m.weibo.cn/search?containerid=231522type%3D1%26t%3D10%26q%3D%23%E5%B9%BF%E7%A7%AF%E7%B2%AE+%E7%BC%93%E7%A7%B0%E7%8E%8B%23&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class="surl-text">#广积粮 缓称王#</span></a>的隐蔽实力的打法,现在看是成功了。但马厂长那边主体还是打乱仗,各自为战,一个爬虫十几个队伍在做,队伍没有强有力的机制,完全依靠结果的打法也是不行的。虽然开源方面和美帝保持一致是很赞的。。 <br>
INFO:root:2013-03-28 这种页面都能抓到,有两种可能1>自家浏览器上传url,2. 别人抓的,然后诱骗爬虫抓取。3淘宝的人自己生成了这个数据存放在一个地方,不小心露了。 //<a href='/n/Philonis高'>@Philonis高</a>://<a href='/n/王小旺儿'>@王小旺儿</a>://<a href='/n/雏菊达人'>@雏菊达人</a>://<a href='/n/echojune'>@echojune</a>:<span class="url-icon"><img alt=[吃惊] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_chijing-f4f9e95da7.png" style="width:1em; height:1em;" /></span>//<a href='/n/伊卡洛斯之翼'>@伊卡洛斯之翼</a>: 我擦支付宝这儿怎么没加屏蔽蜘蛛<br>
INFO:root:2013-03-22 爬萌早期领导层有个同志也叫魏柯,可能就是他。祝贺他取得投资。搜人这个事情,希望能做大。<br>
INFO:root:2013-03-03 微博寻人账目:三台机器一年折旧费 20万*1/3 = 7 万(按照三年折完计算),人力2500*15=3.7万;外包1万;流量+电费+机位费+20多个域名+8块硬盘+4块键盘 = 10万;以上没有计入爬萌的费用,如果计入还要多。大概是这样。里面主要是实验室投钱,还有朋友支持了些,自己的钱全花光了,现在卡里就400块 <br>
INFO:root:2013-03-02 现在微博掌握在我夫人手里,就让发几个博。说说最近的一些朋友需求:1)有著名单位需求自然语言处理领军人物,年薪50-100。2)有创业单位需求linux 内核开发人员,可跟着学,但要求能吃苦。 3)某单位要抓,刚毕业的,爬虫工程师2名,让我负责远程培训,给我一点生活费。以上感兴趣的可以私信我报名 <br>
INFO:root:2013-02-23 现如今微博寻人98%的访问,都是爬虫了,这些爬虫啊,雅虎的爬虫最抽风,时而迅猛,时而消失。谷歌的爬虫最轴,怎么说呢,你怎么抽他,他都不放嘴,厉害。bing的爬虫最文明,慢慢搞,不急吼吼。搜狗的爬虫比较专一,每次都从一个ip来,我这个site他们只赏赐一个服务员,百度的爬虫嘛。。(省100个字)<br>
INFO:root:2013-02-23 今天到学校注册中心注册了下,然后看病,化验表明什么毛病没有,开两瓶糖浆把我打发出来。把微博寻人恢复服务了。从数月前就发现微博寻人变慢了,大大影响了我的技术形象,这个原因我终于找到并解决了,因为两个镜像服务一个快,一个慢,直接把慢的cut掉,爬虫的访问也自然多了,要不然,他老赖住不放 <br>
INFO:root:2013-02-20 <a href='/n/褚达晨'>@褚达晨</a> 都说了,假的他们都得坐牢,可能是美帝的牢。就相信他们吧。虽然保不齐有点水军,粉军,爬虫军,就不计了吧//<a href='/n/刘江总编'>@刘江总编</a>:日均活跃4620万这个数字最值得关注,不知道和微信相比如何?<br>
INFO:root:2013-02-07 一个site,只要不小心拱到某个阈值了,百度就可#机器自动执行#全站封杀,互联网站长的安全感啊//<a href='/n/DarkAsInDarkness'>@DarkAsInDarkness</a>:朕以为你的寻人中包含了太多链接指向百毒的对手(或指向单一host)了,由于超过爬虫的某种阀值,导致所有与贵站相关的数据全部丢弃了。如果百毒人工手工干预的你这事,也太高看自己了 <br>
INFO:root:2013-01-26 美军太厉害了,大学的每个年轻人,就开始从爬虫开始,独立写一个完整的搜索引擎。难怪邓侃,陈利人,王威廉,这么厉害啊。 其实我吧,也就是面向需求开发,需要什么做什么,刚好满足需求,没有美帝那么大气场。不过说实话,美帝做事是比较精细路子也正,不服不行。 但win美帝也不是不可能,路子野就行 <br>
INFO:root:2013-01-21 爬盟兄弟苦哈哈1年,得个东西,也是不错的。这要是去李厂长那里打工,工资起码能换100个ipad mini吧。这就是我和李厂长的差距啊。我刚刚用了一下,感觉苹果的东西有些档次,比小米手机的清晰度稍微高一点点。对了,忘记说了,这个小米手机,也是某老板送我的,嗨嗨。<br>
INFO:root:2013-01-21 忙了1年,某老板赠送爬盟兄弟每人一个ipad mini,我也有一个。这个老板说,现在外面抓微博的队伍都倒了,实在是搞不到数据,只有爬盟能大量采集数据。 分别时,看着爬盟兄弟的背影,希望他们在2013年取得更大的突破, 现在他们每个人的身价都涨了不少吧。争取明年获赠彩电一台,偶也。 <br>
INFO:root:2013-01-08 爬萌大会主要议程:1)我的大会致辞 2)主要军事领导人介绍业务开展情况 3)使用爬萌数据开展研究的同学介绍成果 4)自由讨论,各抒己见,需求研讨 5)对2013年的工作做一个总动员。6)茶话会在团结的气氛中闭幕<br>
INFO:root:2013-01-08 一年来,爬萌的各位指战员,你们辛苦了。我准备把各地薅羊毛薅来的战利品,打包发奖给大家(比如百度给的一个无线鼠标),在年终爬萌大会上,给积分前20名的同志发放。另外我再找<a href='/n/图灵谢工'>@图灵谢工</a> 要几本书做一个派放,也欢迎各大企业支持小礼品。爬萌大会计划在下周末召开,欢迎大家提供场地,上次是在北大 <br>
INFO:root:2013-01-01 元旦后,春节前,做2件事,1)召开中国爬盟茶话会,邀请爬盟的朋友们回顾过去,布局2013。同时也会邀请部分投资界老板参加。再分享一批数据 2)拿THUIR-DB第二代产品游说一些厂长支持,做一些专业测试,力争投入实用,若不行就退而给自己用。 <br>
INFO:root:2012-12-15 我不敢走啊,流量越来越大了。我先把爬虫全封了吧,要不然过不了今晚了。<br>
INFO:root:2012-12-13 曾有个江湖大佬对我说,梁斌,你知道你最大的价值什么嘛? 我不吱声,低头装傻。你最大的价值是<a href="https://m.weibo.cn/search?containerid=231522type%3D1%26t%3D10%26q%3D%23%E6%88%90%E6%9C%AC%E4%BD%8E%EF%BC%8C%E6%89%A7%E8%A1%8C%E5%8A%9B%E5%BC%BA%23&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class="surl-text">#成本低,执行力强#</span></a>。我心说,“大佬就是大佬,完全不提中国爬萌,微博寻人的事啊”。然后又补充一句,不要怕炮灰,你这点炮灰算什么,XX公司早期的炮灰大你几倍啊。。 <br>
INFO:root:2012-12-12 哈哈,爬虫研究技术支部目前是最核心的。玩的是各种牛逼的板子,树莓派免费玩啊。每月还发200元现金,以资鼓励。这个支部先发展1个同志,除非有老板支持这个支部,可以再多发展几个。。<br>
INFO:root:2012-12-12 先这样吧,先发展了5个人。分别是负责知道搜索,签到搜索,卡片爬虫等几个技术支部。 太多了,我也付不起钱,每月200只是暂时的,未来会给大家准备各种福利,请相信我吧。起码我们做的是有趣的事情,在退一步,是自己的,种自己的田,有feel啊。 <br>
INFO:root:2012-12-12 回复<a href='/n/易鹏程同學'>@易鹏程同學</a>: 目前主要几个事 1)社会化爬虫 2)社会化阅读 3)签到搜索 4)图片搜索 5)微博搜索 基本一个人一个坑,这么个搞法。 //<a href='/n/易鹏程同學'>@易鹏程同學</a>:哥,能不能具体说说要哪些码农呀。数据就是财富呀。<br>
INFO:root:2012-12-12 多谢麦田同志的转发,我们方向太多了,自选,可以做index,也可以做爬虫,总之都是垃圾活,按照优先级救火。虽然比不了大公司搞的细,但做的东西会比较开阔 //<a href='/n/麦田'>@麦田</a>: 帮转一下。这个项目的研究方向很有趣。<br>
INFO:root:2012-12-08 明天讲爬萌,还是有很大压力的,我是五点四十讲,微博的同志,一般坚持不到最后,就怕给他们听去了,坏了大事,最近微博卖数据了,把我们恨死了。万一让他们知道我下一步计划是让他们付出10倍带宽的代价可怎么办,我是绝不会参加重庆谈判的。 <br>
INFO:root:2012-12-05 请达人们,推荐一款atom的板子啊,耗电越少越好,价格越便宜越好,适合做爬虫 <br>
INFO:root:2012-12-02 对,去求当图书管理员,把书都索引起来,服务群众,群众看到好,再去图书馆借//<a href='/n/asmcos_jeap'>@asmcos_jeap</a>:要当管理员?//<a href='/n/梁斌penny'>@梁斌penny</a>: 下周去清华图书馆谈谈合作。//<a href='/n/白硕SH'>@白硕SH</a>:社交搜索这一块,爬盟源于云爬,云爬就是打土豪,马老师就是李大钊。小梁子么,跟着图书馆长,你懂的<br>
INFO:root:2012-12-02 下周去清华图书馆谈谈合作。//<a href='/n/白硕SH'>@白硕SH</a>:社交搜索这一块,爬盟源于云爬,云爬就是打土豪,马老师就是李大钊。小梁子么,跟着图书馆长,你懂的。 //<a href='/n/梁斌penny'>@梁斌penny</a>:打劫地主模式,那也要首先掌握武装力量,有地盘,否则靠什么大公司title光环,演技,关系,梦想都是虚的。因为地主已经今非昔比了<br>
INFO:root:2012-11-26 爬盟的志向在远方,你们还有更重要的担当,文成武德,造福群众//<a href='/n/贺志明_ICT'>@贺志明_ICT</a>: 说的是,这种脏活累活,只有爬盟能干得下去。 //<a href='/n/梁斌penny'>@梁斌penny</a>: 据我所知,大部分社交队伍都不抓微博了,中国爬盟是坚持站岗到最后的,服务群众到最后的。“没有枪,没有炮,敌人给我们造”;<br>
INFO:root:2012-11-26 据我所知,大部分社交队伍都不抓微博了,中国爬盟是坚持站岗到最后的,服务群众到最后的。“没有枪,没有炮,敌人给我们造”;“”在秘密的丛林中,到处都是我们的神枪手“<br>
INFO:root:2012-11-24 应刘老师邀请,我可能会做个社会化爬虫的简短报告,最近一直在琢磨30万肉鸡的事情,龙虎鸟蛇,我带精锐做朱雀。30万肉鸡做玄武。根据地落实了,高消耗兵种青龙白虎自然会加盟的。我发现很多创业队伍,过早青龙白虎化,炮灰得很惨<br>
INFO:root:2012-11-21 我再也不相信百度搜索了。又把我微博寻人给封了。事情经过是这样:曾经百度给我rank高高的,带量很大,后不知怎的封了我。我反封了百度,不久百度解封了我,持续3个多月,微博寻人这个词给我排第一,我看百度也确实诚恳,就robots协议解封了百度,解封的百度爬虫的IP,没想到啊,刚解除不久,又被封了 <br>
INFO:root:2012-11-21 最近我的机器各种index在做库,切数据,正是紧巴巴的时候,雅虎的爬虫就在这两天掏了我5万多拳(抓了5万多page),说来也怪,昨天把雅虎咔嚓了以后,其他爬虫也吓得不敢来了。机器负载轻了一些些。 我真希望有一天,只有一个公司的爬虫来爬,其他人都用这个公司爬得数据,世界多美好,多低碳啊。 <br>
INFO:root:2012-11-20 中国雅虎这个爬虫做得其实不太智能,因为我site访问速度快,以为是个大站,可以为所欲为,猛抓之,但其实应该判断IP是校园网IP,必然是小本买卖,动作应该轻一点。<br>
INFO:root:2012-11-20 发现雅虎爬虫在猛抓我微博寻人,刚被我封IP了,雅虎中国不是炮灰很久了嘛?现在又开始大作了? 请各位站长注意控制流量。110.75.173.*开头的数个爬虫都是雅虎的。 <br>
INFO:root:2012-11-11 我打算做一个家庭数据存储中心,大家有什么方案? nas or 硬盘dock。请达人指点指点。 几个需求 1)无间断,低电量下载 2)能够执行我写的爬虫程序抓取 3)代价越低越好 <br>
INFO:root:2012-11-10 看了下朋友们的搜索,不少bad case,我也是第一次试水,好声音里面有个梁博,貌似也是慢慢从屌丝爬到总冠军的,给我点时间,我今晚回去再想想,怎么改进搜索质量。//<a href='/n/Richard宫文学'>@Richard宫文学</a>: 提供一个bad case: "梁斌是谁"回答得不行呀。<br>
INFO:root:2012-11-10 一般一整师打仗,至少需一旅做预备队,战场形势前边万化,哪里吃紧,哪里顺利,这个不确定性太大了,需要有一个机动队伍来融化这种不确定性。 比如拿我们队伍为例,#中国爬盟#是背。<a href="https://m.weibo.cn/search?containerid=231522type%3D1%26t%3D10%26q%3D%23%E5%BE%AE%E5%8D%9A%E5%AF%BB%E4%BA%BA%23&isnewpage=1&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class="surl-text">#微博寻人#</span></a>等是侧翼,<a href="https://m.weibo.cn/search?containerid=231522type%3D1%26t%3D10%26q%3D%23XXX%23&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class="surl-text">#XXX#</span></a>是进攻主力(暂时保密)。我是预备队,对各战役单元进行火力补充,这些跟煤老板都是讲不通的 <br>
INFO:root:2012-11-10 昨晚和老婆看电视,一会竟直挺挺地睡着了,后电视放完,被老婆叫醒,迷迷糊糊爬上床,一觉睡到八点半,醒来后精神焕发,仿佛年轻十岁,但回忆昨晚梦境,居然一无所获。。只记得梦里内容很精彩。 <br>
INFO:root:2012-11-09 后来我做了个流量止损服务,只要量一大,就关服,确保安全,并封了大部分爬虫,图片都挪到别的地方,最大程度省钱,大家看logo图的url。<a data-url="http://t.cn/zOlpMM3" target="_blank" href="https://weibo.cn/sinaurl/blocked606d90df?luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fxunren.thuir.org" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a> //<a href='/n/马少平THU'>@马少平THU</a>:他测试一下爽了,可惜了我们来之不易的银子啊。呵呵<br>
INFO:root:2012-11-09 <a href="https://m.weibo.cn/search?containerid=231522type%3D1%26t%3D10%26q%3D%23%E5%BE%AE%E5%8D%9A%E5%AF%BB%E4%BA%BA%23&isnewpage=1&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class="surl-text">#微博寻人#</span></a> 流量继续爬升阿,不得了了,今晚机器不会炸掉吧。 我回家了,上帝保佑不会有事。。 大家可以继续一拥而上,今天的几个卖点 1)相关搜索:<a data-url="http://t.cn/zjPMVzS" target="_blank" href="https://weibo.cn/sinaurl/blocked61f14b9f?content=%E5%88%9B%E6%96%B0%E5%B7%A5%E5%9C%BA&type=0&bs=&bf=1&end=20&luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fxunren.thuir.org%2Findex_fast.php%3Fcontent%3D%25E5%2588%259B%25E6%2596%25B0%25E5%25B7%25A5%25E5%259C%25BA%26type%3D0%26bs%3D%26bf%3D1%26end%3D20" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a> 2)发现百度知道很多人提问 [周鸿t] :<a data-url="http://t.cn/zjPLbEd" target="_blank" href="https://weibo.cn/sinaurl/blocked54440f1b?search_input=%E5%91%A8%E9%B8%BFt&page=0&bs=&submit=&luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fxunren.thuir.org%2Fzhidao%2Findex.php%3Fsearch_input%3D%25E5%2591%25A8%25E9%25B8%25BFt%26page%3D0%26bs%3D%26submit%3D" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a> <br>
INFO:root:2012-11-02 大家悄悄参加就行了,这个组织是比较低调的//<a href='/n/陈利人'>@陈利人</a>: 这好像只能是大佬们的游戏。对于中小公司,可以看看<a href='/n/爬盟中国'>@爬盟中国</a> ,他们用众包的形式,提供了很好的微博数据,比如,得到一个名人的所有粉丝数据。 具体网址<a data-url="http://t.cn/zO1kXgI" target="_blank" href="https://weibo.cn/sinaurl/blockedc19e7272?luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2F114.113.145.13%2F" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a><br>
INFO:root:2012-10-26 哈哈,刚刚张栋老师推的一个波峰,大家分享一下。<a href='/n/张栋_机器学习'>@张栋_机器学习</a> 100+ 查询/秒。 这个情况吧。 这个是百度统计的结果,不含爬虫的量,加上爬虫还要多。欢迎朋友们继续玩啊: <a data-url="http://t.cn/zl3i6lH" target="_blank" href="https://weibo.cn/sinaurl/blockedd00d0c4d?content=mysql&type=0&bs=%E6%98%9F%E5%BA%A7&bf=1&end=20&luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fbaisibulu.com%2Findex_fast.php%3Fcontent%3Dmysql%26type%3D0%26bs%3D%25E6%2598%259F%25E5%25BA%25A7%26bf%3D1%26end%3D20" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a> <br>
INFO:root:2012-10-17 今天又有人问我平常都折腾啥,关心我的朋友们,我折腾的东西,全在这里。<a data-url="http://t.cn/zlQ24Kb" target="_blank" href="https://weibo.cn/sinaurl/blockedf89fc893?luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fwww.pennyliang.com%2F" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a> ,我还没毕业,已经在为毕业准备简历了。。主要折腾的名目很多,THUIR-DB,微博寻人,百司不录,码农大PK,西瓜大会,中国爬萌。当然,我们的创新能力和美帝学生比,还是有巨大距离的,要向他们学习创新 <br>
INFO:root:2012-10-17 我说一个关于搜索的霸权, 比如我刚刚把云壤和人民搜索的spider给封了,为什么呢?他们抓了我一些数据,但没有给网站实际带流量。 大家想想,初创的搜索公司会有多难做,没有数据,搞不大,搞数据又被中小网站歧视,所以我呼吁谷歌公开网页数据给有资质的商业公司,造福人类,互联网各路爬虫太多了。 <br>
INFO:root:2012-10-10 死人堆里爬出的代码,我打算给大家展示一个例子,当然,不会是某司的源代码,只是借此说明,如何写朴素,简单,实用,不确定性较少的代码。<br>
INFO:root:2012-10-08 回复<a href='/n/硅谷猎头TomZhang'>@硅谷猎头TomZhang</a>:不是乱,差代码啊,是实用性代码,张飞关羽这种直取武将的感觉,而不是xxx大战五百回合杀敌的感觉。 //<a href='/n/硅谷猎头TomZhang'>@硅谷猎头TomZhang</a>:"死人堆里爬出来的代码" 未必是不整齐的、质量很差的代码,建议<a href='/n/陈利人'>@陈利人</a> review 一下代码。不可以用狼性做借口,写出差的代码。<br>
INFO:root:2012-10-08 曾经,一个年轻人在键盘上写着整齐的代码,另一个年轻人走过来说,同志,我给你看看死人堆里爬出来的代码,这个年轻人恍然大悟,所谓死人堆就是#其他人都死了,就他活了#。 满头血污,衣衫褴褛,只比要活下来的需求,刚好多了那么一点点。而不是那种霍元甲型的把对手扔出擂台,衣服不沾一缕灰尘的感觉 <br>
INFO:root:2012-10-08 教主是最可怕的对手,看过360代码的人就能懂得,那是一种从死人堆里爬出来的感觉,不信,大家可以卧底进去看看//<a href='/n/张成_ICT'>@张成_ICT</a>:和稀泥的方法,并不总是可行的。//<a href='/n/daniel008'>@daniel008</a>:Niu //<a href='/n/caoz'>@caoz</a>: 潜台词是,手机市场很快就会变成一滩烂泥,只有鳄鱼才能生存。(非贬义,仅从此比喻引申)//<a href='/n/bian'>@bian</a>: 这个比喻很生动<br>
INFO:root:2012-10-03 爬虫抓得数据有个问题,前后抓得时间不同,这样效果会不好。新浪要能把数据库拍个快照,3亿人的社交网络数据给我就好了。学360,在野外养一个野战部队,和内部pk起来,多带劲啊。嫡系部队人月3万,野战部队免费,多好。国共合作嘛 <br>
INFO:root:2012-09-30 感觉梁博的歌适合70前的人听,真好//<a href='/n/云泉微博'>@云泉微博</a>://<a href='/n/JoyceZhang张'>@JoyceZhang张</a>:Yes, 梁博 is the best!!!//<a href='/n/陈利人'>@陈利人</a>:我容易吗,大晚上爬起来看,就是为了支持梁博和梁博。。。<br>
INFO:root:2012-09-24 回复<a href='/n/TeddyTseng'>@TeddyTseng</a>:我们小本买卖,数据不值钱,流量费用付不起,学校里搞点东西不容易,这年头都赞美谷歌创始人校园创业,国内高校搞点东西也需要舆论呵护啊。 //<a href='/n/TeddyTseng'>@TeddyTseng</a>:你可以爬别人的东西,就不让别人爬你的东西的呀,要么就不放出来的呀,真没意思<br>
INFO:root:2012-09-24 今天去火车站中途,拐去了趟实验室,做了点监控的东西,避免国庆爬虫多了,流量大了,耗费实验室的流量费,监控到一定流量就关web服务。朋友们, 正常访问没关系啊,欢迎持续参加百司不录的内测,并提出宝贵意见,谢谢。<a data-url="http://t.cn/zlwpOX4" target="_blank" href="https://weibo.cn/sinaurl/blockedce781f72?luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fbaisibulu.com" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a> <br>
INFO:root:2012-09-19 百司不录(baisibulu.com),我好期待,rush得很幸苦,战斗打得很艰难,预备队全部填光,异常惨烈。考虑到战斗打到今天,先后涌现了 THUIRDB,中国爬盟,微博寻人,西瓜大会,码农大PK,百司不录等品牌。 我也算天朝高校折腾第一人了吧。 哈哈。 <br>
INFO:root:2012-09-14 我发现大数据,各种云以后,几个行当吃香了,1)爬虫 2)数据分析 3)移动端开发 你们的公司叫什么名称啊?<br>
INFO:root:2012-09-09 在互联网界,有两种队列,一种叫做用户队列,一种叫业务队列。前者是用户肉身产生的,比如用户提交一个查询,排队。这种队列来的情况是多变和复杂的。撑死了也不会多高并发,大强度。第二种会很高并发,比如成千上万个爬虫抓来的网页,入库,分词,索引。 <br>
INFO:root:2012-09-06 比如我的站,一般阻止那些给我带量少,但抓取量大的爬虫,直接封ip,借助robots协议,感觉不放心。因此对新兴搜索引擎确实不公平。其实目前互联网爬虫太多,浪费社会资源。<br>
INFO:root:2012-09-02 回复<a href='/n/周林Quanzhi'>@周林Quanzhi</a>: 我们什么也没有,只有群众支持和浑身是胆。 我们已经创造了中国爬盟和微博寻人,还有很多东西即将推出。走群众路线,围大局,打大仗。 //<a href='/n/周林Quanzhi'>@周林Quanzhi</a>:这可是个大工程,很有挑战性,当然,粮草和后援要及时跟上!<br>
INFO:root:2012-08-29 我感觉大部分企业,不会愿意被“元”//<a href='/n/马少平THU'>@马少平THU</a>:回复<a href='/n/王斌_ICTIR'>@王斌_ICTIR</a>:如果是垂直搜索,是否愿意被”元“,我觉得可以采用类似网页是否愿意被搜索引擎爬的办法,设立一个类似robot.txt的文件。以免纠纷的发生。 //<a href='/n/王斌_ICTIR'>@王斌_ICTIR</a>:前些年新加坡有一场官司,做元搜索的败了。。。<br>
INFO:root:2012-08-28 也有办法破解,让爬虫抓到搜索结果页后,再找机器抓每条结果的URL,相当于提高了抓取成本,和被百度发现的机会吧。//<a href='/n/马少平THU'>@马少平THU</a>: 这个,对很多研究者也有影响啊。<br>
INFO:root:2012-08-23 不怪hr,是我自己十几年给自己埋了个大坑,以后一直在努力爬出这个大坑。//<a href='/n/James_波妞老爸'>@James_波妞老爸</a>:有点惭愧,这么优秀而且有情有意的大牛,居然简历被刷,HR的失职啊 //<a href='/n/James_波妞老爸'>@James_波妞老爸</a>: <span class="url-icon"><img alt=[good] src="//h5.sinaimg.cn/m/emoticon/icon/others/h_good-55854d01bb.png" style="width:1em; height:1em;" /></span> //<a href='/n/沈瑄Dave'>@沈瑄Dave</a>: 转发微博<br>
INFO:root:2012-08-20 360索引了我微博寻人4万多网页,我找他们的ip应该不难,一会睡醒去实验室搞搞//<a href='/n/西祠老唐'>@西祠老唐</a>:<a href='/n/gusu'>@gusu</a> <a href='/n/随缘不信缘'>@随缘不信缘</a> <a href='/n/南京阿熊'>@南京阿熊</a> 你们搞清360蜘蛛的ip啊,别被爬挂了。//<a href='/n/梁斌penny'>@梁斌penny</a>:南京的同学们,你们的hao.360.cn的搜索条换了吧。//<a href='/n/robomm'>@robomm</a>: 回复<a href='/n/梁斌penny'>@梁斌penny</a>:南京已切换到360搜索了<br>
INFO:root:2012-08-20 不知道铺了哪一部分,360爬虫也是隐蔽,铺导航也隐蔽,干活的队伍也隐蔽,360太可怕,啥都是隐蔽。//<a href='/n/simaziyu'>@simaziyu</a>: 转发微博<br>
INFO:root:2012-08-16 哈哈,总体还不错,能打70分,看我其他微博。能不能帮忙,把我的xunren.thuir.org封了啊,停止抓取我的小站,你们索引了我3万多页面了,但我看不到你们的爬虫,有点可怕啊。 //<a href='/n/张宇宙Cosmos'>@张宇宙Cosmos</a>:是我们同义词做的太过了,已经纠正过来。初次上线,还请多指教。<br>
INFO:root:2012-08-12 <a href='/n/爬盟中国'>@爬盟中国</a> 不花钱,每天抓5亿页面。美帝飞过来学习一下吧。告诉你们群众战争怎么打,你们太弱了。//<a href='/n/且行且歌'>@且行且歌</a>: <a href='/n/ztech'>@ztech</a><br>
INFO:root:2012-08-01 要知道,到目前为止,微博寻人的开发工程师+产品经理+前端开发+运维+宣传推广=<a href='/n/梁斌penny'>@梁斌penny</a> ,但是寻人不属于我,属于群众。是群众的力量。感谢<a href='/n/爬盟中国'>@爬盟中国</a> 提供大量数据,感谢<a href='/n/马少平THU'>@马少平THU</a> 老师提供了机器设备,感谢千万万万个兄弟姐妹们,江湖同道们。<br>
INFO:root:2012-07-30 【消除下影响】对不起大家,实验室主页的robots.txt确实封了全部爬虫,原因不清楚,文件最后一次写操作是2011年。这一点错怪了百度//<a href='/n/黄荣升'>@黄荣升</a>: <a data-url="http://t.cn/zWC4LOI" target="_blank" href="https://weibo.cn/sinaurl/blocked7a83dd3f?luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fthuir.org%2Frobots.txt" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a> 无语,自己robots改来改去然后抱怨被封杀。为啥不抱怨google不遵守robots啊 //<a href='/n/clickstone'>@clickstone</a>: 百度这完全没必要啊[挖鼻屎]~应该是误伤吧。<br>
INFO:root:2012-07-30 我也不等一周了,受不了这口鸟气,百度搜索封杀我微博寻人,爬虫还来抓我,直接封IP吧。以后再也不黏糊了,彻底掰了。 这样数据也安全,拜拜了百度。 <br>
INFO:root:2012-07-29 我们掌握了大量数据,这种数据统计都很简单。对了,我们还有大量推特数据。 强大的索引。。//<a href='/n/车东'>@车东</a>: 還可以統計一下yahooapi的中國城市天氣預報量 //<a href='/n/梁斌penny'>@梁斌penny</a>: 这个大致好算,让<a href='/n/中国爬盟'>@中国爬盟</a> 同志统计下 腾讯,新浪,网易,搜狐微博的IPAD 用户数,就是差不多的确数了。 so easy<br>
INFO:root:2012-07-29 这个大致好算,让<a href='/n/中国爬盟'>@中国爬盟</a> 同志统计下 腾讯,新浪,网易,搜狐微博的IPAD 用户数,就是差不多的确数了。 so easy<br>
INFO:root:2012-07-29 咋<a href="https://m.weibo.cn/search?containerid=231522type%3D1%26t%3D10%26q%3D%23%E5%BE%AE%E5%8D%9A%E5%AF%BB%E4%BA%BA%23&isnewpage=1&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class="surl-text">#微博寻人#</span></a>(xunren.thuir.org)又被百度封了呢。这又触犯了什么策略了。好吧,这次等一周,如果不解封,我这边也封百度爬虫IP,封robots,咱们再也别黏糊了,彻底掰。 <a href='/n/百度'>@百度</a> <br>
INFO:root:2012-07-27 系统目前每秒服务400人,不包括爬虫和扫库。 <br>
INFO:root:2012-07-19 如果,我是说如果阿,百度爬虫1个月后,还来,我就学罗永浩了,将对百度发起合法,且最惨无人道的报复。干不倒,咬一块肉也是好的。<br>
INFO:root:2012-07-19 #吐槽百度2# 百度叔叔,彦宏伯柏,你们百度把我微博寻人屏蔽了,昨天,我robots协议回封了你们(<a data-url="http://t.cn/zWiizmB" target="_blank" href="https://weibo.cn/sinaurl/blocked3da4c528?luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fxunren.thuir.org%2Frobots.txt%29" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a>,怎么你们的爬虫还来黏糊我啊,这些IP是你们的吧,123.125.71.* ,好吧,考虑到你们爬虫可能存在的技术问题,给你们一个月时间思考人生,下个月这个时候,再来,别怪我<a href="https://m.weibo.cn/search?containerid=231522type%3D1%26t%3D10%26q%3D%23%E5%90%90%E6%A7%BD3%23&isnewpage=1&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class="surl-text">#吐槽3#</span></a>了啊。 <br>
INFO:root:2012-07-18 封不要紧,关键百度爬虫还来爬,失了江湖道义,当然也许本没有什么江湖道义//<a href='/n/马少平THU'>@马少平THU</a>: 想不通百度这是为何//<a href='/n/zengku'>@zengku</a>: site:<a data-url="http://t.cn/zOlpMM3" target="_blank" href="https://weibo.cn/sinaurl/blocked606d90df?luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fxunren.thuir.org" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a> 在百度一个结果都没有。。。//<a href='/n/梁斌penny'>@梁斌penny</a>: 我这流量稍微大一点了,就和百度成竞争关系了?//<a href='/n/王煜全'>@王煜全</a>: 斗争开始了,会是武打片、恐怖片、还是爱情片呢?<br>
INFO:root:2012-07-18 <a href="https://m.weibo.cn/search?containerid=231522type%3D1%26t%3D10%26q%3D%23%E5%90%90%E6%A7%BD%E7%99%BE%E5%BA%A6%23&isnewpage=1&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class="surl-text">#吐槽百度#</span></a> 百度把我微博寻人屏蔽了,且还派遣spider抓我的数据,因此,我也被迫屏蔽百度,请百度爬虫明天开始,就别来抓我了吧。谢谢。<a href='/n/百度'>@百度</a> <a href='/n/百度技术沙龙'>@百度技术沙龙</a> <a href='/n/伊凯Baidu'>@伊凯Baidu</a> <a href='/n/蒋海平_百度'>@蒋海平_百度</a> <a data-url="http://t.cn/zWiyfFx" target="_blank" href="https://weibo.cn/sinaurl/blockedfae1915c?luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fxunren.thuir.org%2Frobots.txt%3F" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a> <br>
INFO:root:2012-07-05 小道消息:爬萌目前突破10万会员 <br>
INFO:root:2012-07-04 完了,刚突突掉上来的敌人,敌人又上来了,一顿乱try啊。微博寻人是个小本买卖,吆喝点白菜,你们大流量,武工队,爬虫,扫库大军,去突突首席的阵地啊,那才显本领呢。 <br>
INFO:root:2012-07-04 60.247.95.74 这个哪只武工队啊,闺蜜搜索上线后,扫了我6万个页面了。咱学校流量很贵的,我只好把你cut掉了。 我已经把站点设置为屏蔽全部搜索引擎,目前看,谷歌的爬虫貌似无视了robots.txt,价值观缺失很严重啊。<a data-url="http://t.cn/zWqPdOY" target="_blank" href="https://weibo.cn/sinaurl/blockedf4242dc9?luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fxunren.thuir.org%2Frobots.txt" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a> <br>
INFO:root:2012-07-03 其实挺纠结,有人要卖闺蜜搜索的数据,方便AT三个人的那种营销,知道我穷,引诱我,我感觉小样可能要作恶,没卖他,结果,貌似发现有爬虫在扫我的库,要不要关闭呢? <br>
INFO:root:2012-07-02 回复<a href='/n/爬盟中国'>@爬盟中国</a>: 在大宋朝,民间集资,是死罪啊,要车裂的。。 //<a href='/n/爬盟中国'>@爬盟中国</a>:回复<a href='/n/梁斌penny'>@梁斌penny</a>:可以考虑众包来筹资不,呵呵 //<a href='/n/梁斌penny'>@梁斌penny</a>:目前估值嘛,起码1000万人民币,再没人投,我们继续排放,可就不止这个价了啊,煤老板们,赶紧扔钱过来。<br>
INFO:root:2012-07-02 放个小道消息:<a href='/n/爬盟中国'>@爬盟中国</a> 已经抓到1.3亿用户了,基本包装下闺蜜搜索,再加个啥啥的,就能A轮了。。 <br>
INFO:root:2012-07-02 【图解bug】,昨天害深夜潜入校园的bug。当时发现进程退掉,无core,日志保留,准备日后重放。启动服务,发现好多爬虫来扫库,各种数字00,01,123啥的,悲剧的发现,used的句柄一直在涨,虽然慢,但怎么也找不多错误,代码太多了。。 今早上定位到了,没有释放句柄就跑了。。rush常常容易犯托大的毛病。 <br>
INFO:root:2012-07-01 私信备份工具吧,但也只能备份自己的,要是能备份首席的就好了。。//<a href='/n/爬盟中国'>@爬盟中国</a>: 爬盟有技术实力可以做一个私信备份工具,不知道这个需求强烈不??如果有这个需求,近期就可以推出。求回答//<a href='/n/梁斌penny'>@梁斌penny</a>: 首席,私信抓不到啊。要是能抓私信,新浪微博早就被端了//<a href='/n/陈怀临'>@陈怀临</a>:<br>
INFO:root:2012-06-30 看到这个榜单,中美两个大国犬牙交错,其他国家基本喝汤。什么时候,兄弟们,我们也整个大家伙上榜单啊。<a href='/n/爬盟中国'>@爬盟中国</a> //<a href='/n/庄庄2049'>@庄庄2049</a>: //<a href='/n/Fenng'>@Fenng</a>:去年的数据:<a data-url="http://t.cn/hkYqf" target="_blank" href="https://weibo.cn/sinaurl/blocked7c52bd8d?luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fwww.google.com%2Fadplanner%2Fstatic%2Ftop1000%2F" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a> PV 1 万亿/月。注意是每月。那么平均一天是多少?<br>
INFO:root:2012-06-26 同志们,我们现在价值链残缺的像雷锋同志一样。但,有一天它的价值爆发了,一定很惊人。//<a href='/n/董启2012'>@董启2012</a>:看了一下,感觉商业链或者说价值链是残缺的,但可以先积累技术基础,相信可以厚积薄发。 //<a href='/n/梁斌penny'>@梁斌penny</a>://<a href='/n/爬盟中国'>@爬盟中国</a>: <a href='/n/爬盟中国'>@爬盟中国</a> 欢迎梁总恢复大招,带领我们去攻克一个个山头。<br>
INFO:root:2012-06-26 同志们这段时间也幸苦了,我得加倍努力,和兄弟们一起找出路。//<a href='/n/爬盟中国'>@爬盟中国</a>: <a href='/n/爬盟中国'>@爬盟中国</a> 欢迎梁总恢复大招,带领我们去攻克一个个山头。<br>
INFO:root:2012-06-23 大部分数据来自<a href='/n/爬盟中国'>@爬盟中国</a> 。 经鉴定,包浆均匀,数据清晰,为宋代数据精品。 //<a href='/n/贺志明_ICT'>@贺志明_ICT</a>:<a href='/n/爬盟中国'>@爬盟中国</a> 提供的原始数据支持,想要<a href="https://m.weibo.cn/search?containerid=231522type%3D1%26t%3D10%26q%3D%23%E5%A4%A7%E6%95%B0%E6%8D%AE%23&isnewpage=1&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class="surl-text">#大数据#</span></a>的同学请加入<a href='/n/爬盟中国'>@爬盟中国</a> <a data-url="http://t.cn/zOBaIBz" target="_blank" href="https://weibo.cn/sinaurl/blockedf143c4e4?luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fwww.cnpameng.com" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a> ~<br>
INFO:root:2012-06-17 爬盟属于大家,我们会在近期召开第二次爬盟大会,汇总大家意见,做更好的服务,做更大的事业。//<a href='/n/赵乐天'>@赵乐天</a>:我还有个大胆的想法//<a href='/n/和平的日子'>@和平的日子</a>:是个有前途的组织方式,支持!//<a href='/n/姜太文'>@姜太文</a>: //<a href='/n/爬盟中国'>@爬盟中国</a>:求转发!<a href='/n/梁斌penny'>@梁斌penny</a> <a href='/n/社会网络与数据挖掘'>@社会网络与数据挖掘</a> <a href='/n/赵乐天'>@赵乐天</a> <a href='/n/张成_ICT'>@张成_ICT</a> <a href='/n/贺志明_ICT'>@贺志明_ICT</a> <a href='/n/马少平THU'>@马少平THU</a><br>
INFO:root:2012-06-17 爬盟这事,是我折腾的,同志们被我忽悠来搞这东西,流血流汗。每每想到我都很难过,我今天在微博立誓,如果将来我搞到钱了,一定不负兄弟们。 <a data-url="http://t.cn/zWzLmI1" href="https://m.weibo.cn/p/index?containerid=100101118.837135_32.033737&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='https://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_location_default.png'></span><span class="surl-text">童卫路</span></a> <br>
INFO:root:2012-06-17 我们自己都是义务工作,到现在全体成员没拿一毛钱。找赞助很难,给钱的单位大把,但多数有非份要求,比如收编。我们坚持理想,坚持独立性,所以没钱赠送,请大家谅解。//<a href='/n/任勇_东京大学'>@任勇_东京大学</a>:俺觉得完成任务数破十万后,应给每个成员一些奖励!哪怕一两千也好,以表激励! //<a href='/n/爬盟中国'>@爬盟中国</a>:求转发!<br>
INFO:root:2012-06-17 里程碑一个接一个的出现,这是群众的力量啊,群众路线我们走对了。//<a href='/n/爬盟中国'>@爬盟中国</a>:求转发!<a href='/n/梁斌penny'>@梁斌penny</a> <a href='/n/社会网络与数据挖掘'>@社会网络与数据挖掘</a> <a href='/n/赵乐天'>@赵乐天</a> <a href='/n/张成_ICT'>@张成_ICT</a> <a href='/n/贺志明_ICT'>@贺志明_ICT</a> <a href='/n/马少平THU'>@马少平THU</a><br>
INFO:root:2012-06-14 前线的将士们,看你们的了//<a href='/n/爬盟中国'>@爬盟中国</a>:指日可待。//<a href='/n/梁斌penny'>@梁斌penny</a>: 等爬盟数据抓够了,我用THUIRDB来build一个大库发布,大家都来玩大数据//<a href='/n/梁斌penny'>@梁斌penny</a>:5亿也就2-3天的新浪微博量,要想做大研究,起码得1000亿。否则不好意思用大数据出门打招呼。//<a href='/n/关毅的围脖'>@关毅的围脖</a>://<a href='/n/任勇_东京大学'>@任勇_东京大学</a>://<a href='/n/众趣张首华'>@众趣张首华</a>:<br>
INFO:root:2012-06-14 等爬盟数据抓够了,我用THUIRDB来build一个大库发布,加上我自制的机器学习套件,大家都来玩大数据//<a href='/n/梁斌penny'>@梁斌penny</a>:5亿也就2-3天的新浪微博量,要想做大研究,起码得1000亿。否则不好意思用大数据出门打招呼。//<a href='/n/关毅的围脖'>@关毅的围脖</a>://<a href='/n/任勇_东京大学'>@任勇_东京大学</a>://<a href='/n/众趣张首华'>@众趣张首华</a>:<br>
INFO:root:2012-06-13 程大哥也加入了,队伍壮大了//<a href='/n/爬盟中国'>@爬盟中国</a>:<span class="url-icon"><img alt=[给力] src="//h5.sinaimg.cn/m/emoticon/icon/others/f_geili-244fca3c70.png" style="width:1em; height:1em;" /></span>欢迎加入众包采集的大家庭,不过这两天为了应对封锁,采集器正在改版,新版本的采集器马上就会发布,请稍安勿躁。//<a href='/n/程开源'>@程开源</a>: 哥正式加入<a href='/n/爬盟中国'>@爬盟中国</a> , 哥家里20M带宽有得玩儿了。<br>
INFO:root:2012-06-07 我交代下背景。 微博寻人有个新功能,需要一些online computing,online地算8万个语料,来决定结果,大约需要100ms时间,如果没有注册拦阻,大家一拥而上,特别是爬虫一拥而上,可能机器就炸了。但我又不想依赖新浪的账号系统。 做个注册系统,大家也是个负担,所以我琢磨出一套简单的注册玩法 <br>
INFO:root:2012-06-06 爬盟的同志们,我们不能停留在给数据这个初级阶段,我们还得给存储,给计算。随我来,搞土计算,做大,做实。指望扣扣来解决我们学术届的问题,没戏啊。//<a href='/n/文光围脖'>@文光围脖</a>:SETI<a href='/n/HOME'>@HOME</a>,FOLDING<a href='/n/HOME'>@HOME</a>// <a href='/n/马少平THU'>@马少平THU</a> :似乎是利用一个屏保程序?//<br>
INFO:root:2012-06-06 同志们,你们拿了这么多爬盟数据,自己算不了,不还得化妆答应常在,委身大公司来做研究嘛,做得研究还被迫署名微软研究院,谷歌什么的,多难过啊。<br>
INFO:root:2012-06-06 交代下背景,如我做得标签预测,一台八核机器,每天算100多万人,1200多万人要算10天,如果2亿人呢,再算下people rank呢?计算代价不得了,但,爬盟数据,人人机器上有一份,如把这些机器连接起来,再搞个牛的DB做索引,计算分发到哪台机器,那台机器就掏出自己的数据配合上运算指令,算玩结果回传。 <br>
INFO:root:2012-06-06 对,这是个问题。但如果都是社交数据,统一从爬盟获取的,然后爬盟再提供一个db,计算数据的读取就无需带宽。只是回传结果需要带宽。//<a href='/n/马少平THU'>@马少平THU</a>:网格是不是就是这个概念?不过带宽不行啊。<br>
INFO:root:2012-06-04 爬盟这个队伍,是有实力的。//<a href='/n/爬盟中国'>@爬盟中国</a>: 恭喜萌友lwmonster同学获得了5000积分的大奖,他的积分 74725 + 5000 = 79725//<a href='/n/梁斌penny'>@梁斌penny</a>: 这个网友是谁啊?貌似已过4万个任务了啊<br>
INFO:root:2012-06-01 明天去学校,把几台机器都跑满,回头找教育网的网络中心的兄弟,在骨干网上搞起。//<a href='/n/爬盟中国'>@爬盟中国</a>: 听到了,暂时可以一台服务器上多跑几个进程//<a href='/n/张成_ICT'>@张成_ICT</a>: <a href='/n/爬盟中国'>@爬盟中国</a> 听到群众的呼声了么<br>
INFO:root:2012-06-01 历史趋势,不可移易。让我们越来越壮大//<a href='/n/社会网络与数据挖掘'>@社会网络与数据挖掘</a>: 民间力量将<a href="https://m.weibo.cn/search?containerid=231522type%3D1%26t%3D10%26q%3D%23%E6%95%B0%E6%8D%AE%E5%8E%9F%E6%B2%B9%23&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class="surl-text">#数据原油#</span></a>涓滴成海,有望成为国内最大规模的web big data,欢迎加入!//<a href='/n/爬盟中国'>@爬盟中国</a>: <a href='/n/梁斌penny'>@梁斌penny</a> <a href='/n/蒋涛CSDN'>@蒋涛CSDN</a> <a href='/n/赵乐天'>@赵乐天</a> <a href='/n/张成_ICT'>@张成_ICT</a> <a href='/n/贺志明_ICT'>@贺志明_ICT</a> <a href='/n/社会网络与数据挖掘'>@社会网络与数据挖掘</a> <a href='/n/和平的日子'>@和平的日子</a> <a href='/n/fengyuncrawl'>@fengyuncrawl</a> 谢谢大家帮忙转发~~<br>
INFO:root:2012-06-01 好吧,先到每天20亿啊。//<a href='/n/爬盟中国'>@爬盟中国</a>:<a href='/n/梁斌penny'>@梁斌penny</a> <a href='/n/蒋涛CSDN'>@蒋涛CSDN</a> <a href='/n/赵乐天'>@赵乐天</a> <a href='/n/张成_ICT'>@张成_ICT</a> <a href='/n/贺志明_ICT'>@贺志明_ICT</a> <a href='/n/社会网络与数据挖掘'>@社会网络与数据挖掘</a> <a href='/n/和平的日子'>@和平的日子</a> <a href='/n/fengyuncrawl'>@fengyuncrawl</a> 谢谢大家帮忙转发~~<br>
INFO:root:2012-05-31 回复<a href='/n/张成_ICT'>@张成_ICT</a>:要的就是你们这句话//<a href='/n/张成_ICT'>@张成_ICT</a>:回复<a href='/n/梁斌penny'>@梁斌penny</a>: <a href='/n/爬盟中国'>@爬盟中国</a> 有大数据啊<br>
INFO:root:2012-05-31 爬盟们的同志们,社交网络是我们的终身事业,现在我们把基础打牢,潜心修炼,未来是我们的。 <br>
INFO:root:2012-05-30 同志们,在收队之前,打好最后一仗,把爬萌新抓到的数千万用户数据,导入到微博寻人。标签预测神马的给上力。然后一个月后再见。 <br>
INFO:root:2012-05-30 赞,共军威武。群众威武//<a href='/n/张成_ICT'>@张成_ICT</a>:之前做圈子挖掘的时候,只有我自己的关注信息,效果有限,现在可以在更大规模的数据量上进行实验,真是一件让人激动的事情。国内的好多研究也受限真实的数据规模,现在有一个机会,让我们一起努力吧,让国军战栗吧,让美帝战栗吧。<a href='/n/贺志明_ICT'>@贺志明_ICT</a> <a href='/n/梁斌penny'>@梁斌penny</a> //<a href='/n/爬盟中'>@爬盟中</a><br>
INFO:root:2012-05-28 我们的目标每天轰下500亿网页,将新浪,腾讯微博,twitter,facebook等社交媒体一网打尽,做世界上最顶尖的社交计算工作。//<a href='/n/社会网络与数据挖掘'>@社会网络与数据挖掘</a>: “爬盟”利用众包模式集体采集数据,由中科院,清华,哈工大等高校数据领域博士、相关企业及技术geek组成的数据爬虫联盟。欢迎加入联盟及各类行业合作。<br>
INFO:root:2012-05-26 下周请同志们吃饭,补补身体,还有大仗要打。//<a href='/n/中国爬盟'>@中国爬盟</a>:感谢领导认可和鼓励。//<a href='/n/梁斌penny'>@梁斌penny</a>:同志们,你们幸苦了,干得很好。<br>
INFO:root:2012-05-25 正中尚有三分邪,邪中亦有七分正,你幻想的雷锋同志,我们做不起,演技不够。//<a href='/n/唐培棟CS'>@唐培棟CS</a>:真有分享精神就应该不设限制啊//<a href='/n/金小刚_ZJU'>@金小刚_ZJU</a>: <a href='/n/幻影凤凰-ZJU'>@幻影凤凰-ZJU</a> //<a href='/n/梁斌penny'>@梁斌penny</a>: 要下载爬虫做贡献,攒积分的。大家都贡献才能抓到更多数据。多劳多得。//<a href='/n/wanghaox'>@wanghaox</a>:还要500积分,下不了//<a href='/n/马少平THU'>@马少平THU</a><br>
INFO:root:2012-05-25 要下载爬虫做贡献,攒积分的。大家都贡献才能抓到更多数据。多劳多得。//<a href='/n/wanghaox'>@wanghaox</a>:还要500积分,下不了//<a href='/n/马少平THU'>@马少平THU</a>: 转发微博<br>
INFO:root:2012-05-23 技术赢得基础,创意获得价值//<a href='/n/白硕sse'>@白硕sse</a>: 重心一放到寻人,你就会发现技术的比重会越来越下降,创意的比重会越来越上升。和THUIRDB不一个感觉。//<a href='/n/梁斌penny'>@梁斌penny</a>:寻人这档买卖,我上次爬萌大会也说了,有很多很多可延伸,可做的东西。 人最终关注的还是鲜活的人,而不是冰冷的信息。<br>
INFO:root:2012-05-23 寻人这档买卖,我上次爬萌大会也说了,有很多很多可延伸,可做的东西。 人最终关注的还是鲜活的人,而不是冰冷的信息。 你喜欢一个鲜活的女朋友,还是喜欢一封肉麻的情书。你是喜欢一个一同远足的伙伴,还是喜欢一本无聊的攻略。 同志们,来做寻人吧。。<br>
INFO:root:2012-05-22 爬盟的Q群,请同志们参加,上次组织爬盟线下活动,作报告的同学都获得多位风险投资家的投资机会。 请搞社交网络的朋友们加入,好处多多,无论你是搞学术,还是搞商业,不作恶即可。<br>
INFO:root:2012-05-21 回复<a href='/n/林_星'>@林_星</a>:我组织的微博爬盟肯定是博派,谁干坏事,我第一个检举,恶劣地移交司法,但,微博爬盟靠着一帮兄弟,不拿钱义务做,我们一定要维护正义,成为制衡邪恶的力量。 //<a href='/n/林_星'>@林_星</a>:这几票都是狂派?<br>
INFO:root:2012-05-20 回复<a href='/n/黄晓娜99'>@黄晓娜99</a>: 去爬泰山,纯体力活,几乎啥也没看,这个帖子算补贴自己一下。 //<a href='/n/黄晓娜99'>@黄晓娜99</a>:我也去过泰山,推荐你看看这篇介绍 <a data-url="http://t.cn/zOtlEtr" target="_blank" href="https://weibo.cn/sinaurl/blocked141e3f0f?sour_root=wb&yx=fs&zh=1911486302&dz=pl&luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fwww.ziyou.com%2Fspots.detail%2Fid-38%3Fsour_root%3Dwb%26yx%3Dfs%26zh%3D1911486302%26dz%3Dpl" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a> ,当时对我挺有帮助的 ...<br>
INFO:root:2012-05-19 马老师太牛了,年龄大我那么多,而且还脚有伤。我年轻,还有拐棍,都远远爬不过马老师,差距太大,差距太大了,很多时候都是大部队在休整的时候,都是在兼容我的体力。。<br>
INFO:root:2012-05-19 我在这里:<a href="https://m.weibo.cn/search?containerid=231522type%3D1%26t%3D10%26q%3D%23%E6%B3%B0%E5%AE%89%E5%B8%82%E5%8C%BA%23&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class="surl-text">#泰安市区#</span></a> 一会就上山了,似乎这是爬的最高的山了。。 <a data-url="http://t.cn/zO0mAvD" href="https://m.weibo.cn/p/index?containerid=100101117.140327_36.198165&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='https://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_location_default.png'></span><span class="surl-text">岱宗大街</span></a> <br>
INFO:root:2012-05-15 很多人这时候睡觉了,但我刚刚开始,思路全部理顺,下周三微博寻人新效果上线。接下来就等着爬萌的数据,整个1亿用户的规模,去单挑新浪找人了。。 <br>
INFO:root:2012-05-10 微博爬盟上次搞过一次,好多人来//<a href='/n/文光围脖'>@文光围脖</a>: 好啊,就以每周报告的形式吧,先有活动,再搞组织。 //<a href='/n/王煜全'>@王煜全</a>:这正是我在筹划的,<a href='/n/文光围脖'>@文光围脖</a> <a href='/n/唐杰THU'>@唐杰THU</a> <a href='/n/张铭PKUCS'>@张铭PKUCS</a> ,咱们一起搞个研究联盟吧,把计算机、社会网络分析、社会学、心理学、经济学等领域的牛人都拉进来如何?<a href='/n/梁斌penny'>@梁斌penny</a> ,你也要来参加哦!<br>
INFO:root:2012-05-06 看来可信//<a href='/n/戴虎宁'>@戴虎宁</a>: 我们抓取的数据中加V粉丝数:韩寒 3236人 方舟子 9449人 李承鹏 20335人 彭晓芸 2319人。比例上一致,新浪公布下官方数据吧//<a href='/n/文光围脖'>@文光围脖</a>: <a href='/n/晓如微博'>@晓如微博</a> <a href='/n/戴虎宁'>@戴虎宁</a> <a href='/n/梁斌penny'>@梁斌penny</a> , 有不受限的API或爬下来的关系图验算一下这个数据<br>
INFO:root:2012-05-06 转更多感兴趣的朋友,可惜不在我兴趣主线内。//<a href='/n/文光围脖'>@文光围脖</a>: <a href='/n/晓如微博'>@晓如微博</a> <a href='/n/戴虎宁'>@戴虎宁</a> <a href='/n/梁斌penny'>@梁斌penny</a> , 有不受限的API或爬下来的关系图验算一下这个数据<br>
INFO:root:2012-04-29 回复<a href='/n/寻找逆流的鱼'>@寻找逆流的鱼</a>:必须是微博爬萌会员,能说出接头暗号的,才能进。。 //<a href='/n/寻找逆流的鱼'>@寻找逆流的鱼</a>:回复<a href='/n/梁斌penny'>@梁斌penny</a>:几点,在北大哪个地方,随便进吗?<br>
INFO:root:2012-04-28 明天微博爬萌首次社交大会,大会目的:让搞社交网络的业界,学界的人做一个社交聚会,别自己闭门造车,大炼钢铁,follow美帝。大会议题:TRS林总做一个keynote,我和<a href='/n/张文浩100'>@张文浩100</a> 讲微博寻人和微博传播可视化的工作,最后大家自由社交。参会信息在QQ群公告上,大约40人左右,我准备些水果,边吃边聊。 <br>
INFO:root:2012-04-27 大家对垂直微博感兴趣,周日可以在首届爬萌大会,我们一起唠唠,有得做,而且很有效地规避政治风险,现在就我知道的就有几票人马在做了。 <br>
INFO:root:2012-04-26 回复<a href='/n/花石頭e'>@花石頭e</a>:这个我还真没认真想过,不知道朋友们有什么推荐 //<a href='/n/花石頭e'>@花石頭e</a>:请教梁兄能否找到教十几岁孩子学习编程的苹果软件? //<a href='/n/梁斌penny'>@梁斌penny</a>:回复<a href='/n/文光围脖'>@文光围脖</a>:泪啊,同学们,我们不做好研究,对不起社会力量给我们的帮助啊。 //<a href='/n/文光围脖'>@文光围脖</a>:<a href='/n/海银李东平'>@海银李东平</a> 会去参加周日爬盟的会,他会和你谈爬盟需要的支持<br>
INFO:root:2012-04-26 回复<a href='/n/文光围脖'>@文光围脖</a>:泪啊,同学们,我们不做好研究,对不起社会力量给我们的帮助啊。 //<a href='/n/文光围脖'>@文光围脖</a>:<a href='/n/海银李东平'>@海银李东平</a> 会去参加周日爬盟的会,他会和你谈爬盟需要的支持 //<a href='/n/梁斌penny'>@梁斌penny</a>:微博寻人两礼拜全部代码一个人rush下来,gtest基本一遍过,没有傻逼般的专注是不可能的,很庆幸我还有这种专注力。<br>
INFO:root:2012-04-26 194863424,qq群号,北大这个爬盟大会是微博爬萌的内部活动,为防细作,加群请实名,实单位。我会在这个活动上讲讲微博寻人。<br>
INFO:root:2012-04-25 微博爬萌的同志们,4月29日 举行第一次微博爬萌线下活动。将由2个keynote,一个来自TRS的老板:<a href='/n/我是林春雨'>@我是林春雨</a> ,另一个待定。 3-5个电梯演讲,包括 梁斌:微博寻人, <a href='/n/张文浩100'>@张文浩100</a> :独到传播 。活动中将由某单位贡献大量某数据,欢迎携带30G硬盘来拷贝。会议限内部人士参加,没有加入组织的,可以加群。 <br>
INFO:root:2012-04-24 有一个组织叫微博爬萌,这个组织解决了数据更新问题//<a href='/n/搜狗郭昂'>@搜狗郭昂</a>: 虽然目前技术领先,但是从数据量和更新速度上却是有先天不足的。技术上的差距可以慢慢追赶,但是数据差距却是无法逾越的,此外还有流量来源以及运营推广等。所以我感觉,这个更主要还是个很好的研究实验样本 //<a href='/n/马少平THU'>@马少平THU</a>:<br>
INFO:root:2012-04-23 因微博爬萌工作需要,需要研发一个“养账号”的程序,简单说就是一个系统,能够管理数个账号,系统能够模拟人的行为,加关注,发博,答问,转发等等。涉及到学术的概念包括 question answering system <a href='/n/朱小燕THU'>@朱小燕THU</a> ,IR <a href='/n/马少平THU'>@马少平THU</a> <a href='/n/王斌_ICTIR'>@王斌_ICTIR</a>,topic model <a href='/n/刘知远THU'>@刘知远THU</a> . 大家看有没有搞头,呵呵。 <br>
INFO:root:2012-04-21 今天下午没去成,先是监考,然后是爬盟大会,错过了。//<a href='/n/和平的日子'>@和平的日子</a>: 在场的都加入这个微博链条吧 //<a href='/n/千明uestc'>@千明uestc</a>:在吧 //<a href='/n/戴虎宁'>@戴虎宁</a>:多谢<a href='/n/车库咖啡'>@车库咖啡</a> 支持 把大堂都借我们做活动了//<a href='/n/车库会员俱乐部'>@车库会员俱乐部</a>:[活动报道]聚合刚开始,就迅速聚集了大量围观群众,一同分享社交网络数据挖掘和分析中的新机会。<a href='/n/戴虎宁'>@戴虎宁</a><br>
INFO:root:2012-04-21 微博爬盟下周日,将在清华召开第一次全体大会,会上安排两个keynote,一个是TRS的<a href='/n/我是林春雨'>@我是林春雨</a> ,另一个待定。然后是数个5分钟电梯发言。之后大家自由社交,把做微博数据挖掘,研究的同学们和企业家们social起来。 具体时间地点会在爬盟组织内部公布。 <br>
INFO:root:2012-04-21 【寻微博爬盟赞助商】今天召集了微博爬盟管理团队的第二次工作会议, 会上总结了前一段工作,并作后续部署,考虑到持续稳定的发展,组织需要一定的费用,用于支付开发人员工资,购买IP资源,账号资源,求每月2万元赞助的金主。细节私信谈。 <br>
INFO:root:2012-04-21 对<a href='/n/文光围脖'>@文光围脖</a> 说:文光老师,关于微博爬盟的事情,需要您的援助,呵呵。 <br>
INFO:root:2012-04-14 我恢复工作后,得把怕萌工作抓起来,抓取方法不公开,想要数据找我。//<a href='/n/杨滔_机器学习'>@杨滔_机器学习</a>:回复<a href='/n/张俊林say'>@张俊林say</a>:请教 <a href='/n/梁斌penny'>@梁斌penny</a>[转发] //<a href='/n/张俊林say'>@张俊林say</a>:我没爬过不太清楚,你可以问下梁斌,他好像爬了不少<br>
INFO:root:2012-03-18 发表了博文 《写在爬盟大会之前》 - 曾经我有一个梦想,这个梦想就是公平,公平的教育,公平的竞争机会,公平的起跑线,这个梦想在美帝叫美国梦,大家尊重制度,尊重努力,尊重努力赢得的财富,克己复礼,敬畏 <a data-url="http://t.cn/zOxalLP" href="http://blog.sina.com.cn/s/blog_593af2a7010135e8.html?luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='//h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png'></span><span class="surl-text">网页链接</span></a> <br>
INFO:root:2012-03-18 回复<a href='/n/粗大米'>@粗大米</a>:且看百度等大鳄有没有魄力,开放数据,给大家做webapp了。也许指望不到百度了。 //<a href='/n/粗大米'>@粗大米</a>:爬盟就是要来解决这个问题的是么?哈哈你们搞得好可以去开公司了<br>
INFO:root:2012-03-18 同一份数据,各大搜索引擎的爬虫要收割好几遍,给垂直搜索,企业应用收割好几遍,学术应用收割好几遍,巨大的资源浪费,极不低碳。//<a href='/n/无限_梧桐'>@无限_梧桐</a>:各类善心恶意的奔走,纵横网络间。<br>
INFO:root:2012-03-16 回复<a href='/n/陈利人'>@陈利人</a>:我又创新了,老码农群,爬萌,咨询合作社。。其实我希望我首先是个合格的博士。 //<a href='/n/陈利人'>@陈利人</a>:你这是个不错的想法,组织一批牛人,成立一个咨询公司,只能聊天咨询,对不同的需求,派不同的人。。。 //<a href='/n/梁斌penny'>@梁斌penny</a>:回复<a href='/n/陈利人'>@陈利人</a>:熟人免费 //<a href='/n/陈利人'>@陈利人</a>:哪天找你聊天,我的准备好信用卡了。。。<br>
INFO:root:2012-03-15 管理个爬萌巨耗费时间,统一群名片都这么费劲,必须要狠,所有群名片不符合规范的,全部清除出去,且一律进黑名单,永不入群。 被清除出去的朋友不要怪我,换个QQ号再来,守规矩就行。 <br>
INFO:root:2012-03-14 老师们,同学们,朋友们,weibo 爬盟成立了 ,群号(194863424),加入暗号 姓名<a href='/n/单位'>@单位</a>#抓取能力(单位万网页),例如 梁斌<a href='/n/THU'>@THU</a>#100 。。没有抓取能力的,写注册账号的能力。 联盟军事指挥部另行成立,内阁成员主要由大户代表组成。制订抓取方案,存储方案,分享方案,检索方案,数据格式统一等各项工作。 <br>
INFO:root:2012-03-13 游戏规则大家决定,明天我来开群,成立爬盟。//<a href='/n/白硕sse'>@白硕sse</a>:关于中途退出的条款,大家商量一下,是退出后马上取消访问权限,还是根据历史贡献,退出后在一段成比例的时间内保留权限?<br>
INFO:root:2012-03-13 回复<a href='/n/杨士啟'>@杨士啟</a>:我回头拟定一个入盟条约,代码可以我写,或另推高人,数据集中和分发的方法等等。大家共商大事,同意就开始执行,执行不到位的就自动退盟。 //<a href='/n/杨士啟'>@杨士啟</a>:几时开始? //<a href='/n/梁斌penny'>@梁斌penny</a>:对,大家把资源联合起来,现在就缺ip资源,账号资源。大家按照协议贡献,建立爬盟,按规则贡献和获取。<br>
INFO:root:2012-03-13 对,大家把资源联合起来,现在就缺ip资源,账号资源。大家按照协议贡献,建立爬盟,按规则贡献和获取。//<a href='/n/白硕sse'>@白硕sse</a>:这不就是<a href="https://m.weibo.cn/search?containerid=231522type%3D1%26t%3D10%26q%3D%23%E4%BA%91%E7%88%AC%23&luicode=10000011&lfid=1076031497035431&featurecode=20000320" data-hide=""><span class="surl-text">#云爬#</span></a>么<br>
INFO:root:2012-03-01 弱问一下,有没有这种SEO方法,touch一下文件,时间搞新了,然后欺骗搜索引擎爬虫重抓,来骗取某些排名靠前的机会啊? 有研究再做防止这种欺骗的嘛? <br>
INFO:root:2012-02-20 这个纠错好难「7」 //<a href='/n/白硕sse'>@白硕sse</a>:猜出是“引发”的朋友很强大。啥时候计算机能结合上下文猜出这里应该是“引发”呢?//<a href='/n/刘湘明'>@刘湘明</a>://<a href='/n/何辉新律师'>@何辉新律师</a>: 依法冲突?母语被“窑洞汉语”糟蹋成这样,气得孔子从坟里爬出来了。<br>
INFO:root:2012-02-05 能从壶嘴爬出来的得憋死多少人才行啊//<a href='/n/西祠响马'>@西祠响马</a>:中国的教育是把孩子放进水壶,然后在壶口点一盏蜡烛。<br>
INFO:root:2012-01-23 谷歌能不能把数据开放出来,每家公司都搞一套爬虫,索引,缓存系统太不低炭了。 //<a href='/n/章成志'>@章成志</a>:”Google 花了 100 万小时建立索引资料(index)“,没看到英文原文,100万小时,不知道是不是搞错了。//<a href='/n/孙健_阿里'>@孙健_阿里</a>: //<a href='/n/团结湖粉丝'>@团结湖粉丝</a>:转发微博<br>
INFO:root:2012-01-18 <span class="url-icon"><img alt=[哈哈] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_haha-bdd6ceb619.png" style="width:1em; height:1em;" /></span>//<a href='/n/西祠响马'>@西祠响马</a>:<span class="url-icon"><img alt=[嘻嘻] src="//h5.sinaimg.cn/m/emoticon/icon/default/d_xixi-ce63ce2629.png" style="width:1em; height:1em;" /></span>//<a href='/n/五岳散人'>@五岳散人</a>: 麦田,你说实话,是不是跟韩寒一起黑了方舟子一把?把手电打开让方舟子爬上去,然后你一关电门。。。<br>
INFO:root:2011-10-24 我宣布不对此事负责,我从来没对京东的服务器说“我来晚了”这种话,但确实有一天夜里哈哈大笑,对某单位服务器说,“我来晚了”。//<a href='/n/贺志明_ICT'>@贺志明_ICT</a>: 梁总,是你爬的?要不要打个擂台,看谁能比你抓的多?// <a href='/n/耗资小王'>@耗资小王</a> :哈哈哈,梁总金庸大师的作品看的多,思路果然开阔。<br>
INFO:root:2011-10-24 比如洗发水的评论给搪瓷锅产品,iphone4的评论放到诺基亚上,这多有趣啊,京东不会玩啊,爆狗流不行,要找点高科技兵种啊。//<a href='/n/唐小树'>@唐小树</a>: //<a href='/n/梁斌penny'>@梁斌penny</a>:其实最牛逼的技术,应该学黄蓉教欧阳锋乱练功,看到是爬虫来了,乱生成一些数据让他抓,然后抓过去分析来分析去,走火入魔,机器炸掉,还不好意思吱声<br>
INFO:root:2011-10-24 其实最牛逼的技术,应该学黄蓉教欧阳锋乱练功,看到是爬虫来了,乱生成一些数据让他抓,然后抓过去分析来分析去,走火入魔,机器炸掉,还不好意思吱声。//<a href='/n/神棍敌人姐'>@神棍敌人姐</a>: 叫嚣个啥,有懂技术的工程师吗? 明明自己的robots.txt就阻挡了一个爬虫~一个CEO, 不好好调查, 就乱放词~<br>
INFO:root:2011-10-24 出了麻烦,评论是用户发的,找用户。来了利益,评论是我们的,要打招呼。我就不明白了,这数据的所有权到底是用户的,还是公司的?怎么界定?//<a href='/n/fengyuncrawl'>@fengyuncrawl</a>: 一句话,防爬技术不行,应该找自己的原因。<br>
INFO:root:2011-10-17 //<a href='/n/-林鸿飞-'>@-林鸿飞-</a>:对,即希望踩别人高升也要防别人拆桥,同时也有可能为他人做嫁衣裳。 //<a href='/n/富士通研发于浩'>@富士通研发于浩</a>:应该是踩着别人的肩膀爬上去。对方的棋子也可以用吧? //<a href='/n/-林鸿飞-'>@-林鸿飞-</a>:跳棋:人情社会的象征,有熟人做跳板,就可高升。<br>
INFO:root:2011-10-06 回复<a href='/n/硫代硫酸钠'>@硫代硫酸钠</a>:我第一次看大狗的视频,就是这个,谢谢您给找出来了啊,呵呵。 //<a href='/n/硫代硫酸钠'>@硫代硫酸钠</a>:<a data-url="http://t.cn/htW94L" target="_blank" href="https://weibo.cn/sinaurl/blockeda57b16ff?url_type=1&object_type=&pos=1&luicode=10000011&lfid=1076031497035431&featurecode=20000320&u=http%3A%2F%2Fv.youku.com%2Fv_show%2Fid_XMjQ3OTc2NzQw.html%3Furl_type%3D1%26object_type%3D%26pos%3D1" class=""><span class='url-icon'><img style='width: 1rem;height: 1rem' src='http://u1.sinaimg.cn/upload/2014/10/16/timeline_card_small_video_default.png'></span><span class="surl-text">视频</span></a> 这个是一代吧 //<a href='/n/梁斌penny'>@梁斌penny</a>:俗称&quot;大狗&quot;,给美军背行李的,能爬山,踹一脚都不会倒。 //<a href='/n/云泉微博'>@云泉微博</a>:转发微博。<br>
INFO:root:2011-10-06 俗称"大狗",给美军背行李的,能爬山,踹一脚都不会倒。 //<a href='/n/云泉微博'>@云泉微博</a>:转发微博。<br>
INFO:root:2011-08-12 卖买能赚钱,买卖能赚钱,前者看跌且跌,后者看涨且涨。 //<a href='/n/薛蛮子'>@薛蛮子</a>:卖空是专家干的活儿,一般人干不了。买股票最多是赔掉你的本钱,而卖空理论上风险无限,假如自行车行情大涨到一万块你也要买回来!但是专家懂行的卖空比买涨容易赚钱。因为股票和上山一样爬上去很慢,跌下来快得多 //<a href='/n/曹增辉'>@曹增辉</a>:通俗。<br>
INFO:root:2011-08-10 回龙观风雅园小区发现3起入室盗窃案件,警方贴布告通知了,夏天很多家庭不关窗,非常危险。//<a href='/n/西祠响马'>@西祠响马</a>:【匪方提示】近期有些帮众顺落水管攀爬,从卧室或阳台窗户钻窗入室盗窃,如中途遇事主回家,极易转化为入室抢劫等恶性案件,匪方提醒帮众注意安全。<br>
INFO:root:2011-02-11 突尼斯革命就是城管闹的吧,建议zf取缔城管//<a href='/n/李承鹏'>@李承鹏</a>:国外警察连老太太一只猫都会爬上树去找,这里报警都不出警。还有城管,我们的城管天天在大街上巡视,但只见菜贩不见人贩,只对菜贩狂追两条街,不对人贩多问一句话。他们不做,因为没有好处,跟地方官的GDP没有关系。<br>