文档章节

豆瓣电影TOP250

北上广深
 北上广深
发布于 2015/08/31 11:30
字数 1473
阅读 412
收藏 3
for ($start = 0; $start < 250; $start += 25) {
    $url = "http://movie.douban.com/top250?start=$start&filter=&type=";
    $titles = parsePage($url);
    if ($titles === false) {
        echo $url, "\n";
    } else {
        array_walk($titles, 'printTitle');
    }
}


function parsePage($url) {
    $html = file_get_contents($url);
    if ($html === false) {
        return false;
    }
    
    if (preg_match_all('/<a.+?<span class="title">([^<]+)/s', $html, $matches) === false) {
        return false;
    }
    
    $titles = array();
    foreach($matches[1] as $item) {
        $titles[] = iconv('utf-8', 'gbk', $item);
    }
    return $titles;
}


$count = 0;
function printTitle($title) {
    global $count;
    ++$count;
    printf("%3d %s\n", $count, $title);
}

  1 肖申克的救赎

  2 这个杀手不太冷

  3 阿甘正传

  4 霸王别姬

  5 美丽人生

  6 海上钢琴师

  7 辛德勒的名单

  8 千与千寻

  9 机器人总动员

 10 泰坦尼克号

 11 盗梦空间

 12 三傻大闹宝莱坞

 13 放牛班的春天

 14 忠犬八公的故事

 15 龙猫

 16 教父

 17 大话西游之大圣娶亲

 18 乱世佳人

 19 天堂电影院

 20 搏击俱乐部

 21 当幸福来敲门

 22 楚门的世界

 23 指环王3:王者无敌

 24 罗马假日

 25 触不可及

 26 海豚湾

 27 两杆大烟枪

 28 十二怒汉

 29 天空之城

 30 鬼子来了

 31 飞越疯人院

 32 飞屋环游记

 33 大话西游之月光宝盒

 34 怦然心动

 35 窃听风暴

 36 无间道

 37 天使爱美丽

 38 V字仇杀队

 39 蝙蝠侠:黑暗骑士

 40 闻香识女人

 41 熔炉

 42 指环王2:双塔奇兵

 43 指环王1:魔戒再现

 44 美丽心灵

 45 活着

 46 少年派的奇幻漂流

 47 教父2

 48 七宗罪

 49 剪刀手爱德华

 50 情书

 51 勇敢的心

 52 哈尔的移动城堡

 53 美国往事

 54 死亡诗社

 55 钢琴家

 56 致命魔术

 57 音乐之声

 58 狮子王

 59 被嫌弃的松子的一生

 60 小鞋子

 61 低俗小说

 62 玛丽和马克思

 63 入殓师

 64 蝴蝶效应

 65 沉默的羔羊

 66 本杰明·巴顿奇事

 67 黑客帝国

 68 大鱼

 69 射雕英雄传之东成西就

 70 阳光灿烂的日子

 71 拯救大兵瑞恩

 72 幽灵公主

 73 第六感

 74 让子弹飞

 75 饮食男女

 76 上帝之城

 77 阳光姐妹淘

 78 心灵捕手

 79 西西里的美丽传说

 80 萤火虫之墓

 81 大闹天宫

 82 甜蜜蜜

 83 一一

 84 重庆森林

 85 海洋

 86 春光乍泄

 87 爱在黎明破晓前

 88 爱在日落黄昏时

 89 风之谷

 90 告白

 91 加勒比海盗

 92 燃情岁月

 93 驯龙高手

 94 阿凡达

 95 侧耳倾听

 96 致命ID

 97 虎口脱险

 98 真爱至上

 99 超脱

100 禁闭岛

101 菊次郎的夏天

102 摩登时代

103 电锯惊魂

104 幸福终点站

105 神偷奶爸

106 岁月神偷

107 借东西的小人阿莉埃蒂

108 猜火车

109 东邪西毒

110 断背山

111 穿越时空的少女

112 贫民窟的百万富翁

113 雨人

114 魂断蓝桥

115 七武士

116 记忆碎片

117 恋恋笔记本

118 谍影重重3

119 猫鼠游戏

120 怪兽电力公司

121 辩护人

122 倩女幽魂

123 卢旺达饭店

124 秒速5厘米

125 我是山姆

126 玩具总动员3

127 疯狂原始人

128 雨中曲

129 碧海蓝天

130 人工智能

131 穿条纹睡衣的男孩

132 撞车

133 教父3

134 海盗电台

135 香水

136 哈利·波特与魔法石

137 纵横四海

138 英雄本色

139 傲慢与偏见

140 黑天鹅

141 冰川时代

142 完美的世界

143 狩猎

144 浪潮

145 迁徙的鸟

146 末代皇帝

147 杀人回忆

148 控方证人

149 素媛

150 荒野生存

151 喜宴

152 可可西里

153 追随

154 梦之安魂曲

155 朗读者

156 战争之王

157 燕尾蝶

158 罗生门

159 布达佩斯大饭店

160 一次别离

161 红辣椒

162 萤火之森

163 绿里奇迹

164 叫我第一名

165 勇闯夺命岛

166 卡萨布兰卡

167 地球上的星星

168 英国病人

169 穆赫兰道

170 哈利·波特与死亡圣器(下)

171 两小无猜

172 谍影重重

173 E.T. 外星人

174 变脸

175 惊魂记

176 曾经

177 谍影重重2

178 阿飞正传

179 上帝也疯狂

180 这个男人来自地球

181 发条橙

182 蓝色大门

183 巴黎淘气帮

184 爱·回家

185 麦兜故事

186 魔女宅急便

187 蝴蝶

188 爱在暹罗

189 花样年华

190 非常嫌疑犯

191 与狼共舞

192 哪吒闹海

193 中央车站

194 唐伯虎点秋香

195 黄金三镖客

196 美国丽人

197 终结者2

198 罪恶之城

199 末路狂花

200 新龙门客栈

201 夜访吸血鬼

202 暖暖内含光

203 勇士

204 喜剧之王

205 青蛇

206 7号房的礼物

207 黑客帝国3:矩阵革命

208 城市之光

209 忠犬八公物语

210 偷拐抢骗

211 恐怖游轮

212 初恋这件小事

213 源代码

214 东京物语

215 恐怖直播

216 遗愿清单

217 无耻混蛋

218 跳出我天地

219 我们俩

220 时空恋旅人

221 导盲犬小Q

222 不一样的天空

223 国王的演讲

224 荒岛余生

225 再见列宁

226 寿司之神

227 牯岭街少年杀人事件

228 血钻

229 角斗士

230 我在伊朗长大

231 大卫·戈尔的一生

232 月球

233 廊桥遗梦

234 莫扎特传

235 疯狂约会美丽都

236 无敌破坏王

237 未麻的部屋

238 伴我同行

239 洛城机密

240 千钧一发

241 我爱你

242 蝙蝠侠:黑暗骑士崛起

243 八月迷情

244 假如爱有天意

245 速度与激情5

246 黑鹰坠落

247 枪火

248 刺猬的优雅

249 帝企鹅日记

250 疯狂的石头


© 著作权归作者所有

上一篇: 神器汇总
下一篇: 双色球的概率
北上广深
粉丝 1
博文 17
码字总数 4743
作品 0
沧州
私信 提问
加载中

评论(1)

北上广深
北上广深 博主
数了一下,只看过七八十部,还有好多可以看呢。
Python爬取豆瓣电影TOP250

闲来无事温故了下BeautifulSoup和requests,之后又写了个简单的爬虫,网址豆瓣TOP250电影 先附上关键模块文档,对新手还是比较友好的! BeautifulSoup文档 Requests文档 这次不总结详细的过程...

Treehl
2017/11/14
0
0
用Python分析豆瓣电影TOP250

既然要分析豆瓣电影TOP250, 那么肯定就要把相关的数据采集下来,比如排名、电影名、导演、主演等信息。 那就肯定使用一下爬虫咯,如果还不会的话,欢迎看之前的文章: Python爬虫学习(一)...

Viljw
2018/01/14
0
0
用23行代码爬取豆瓣音乐top250

学习.png 网上有各种爬取豆瓣电影top250的教程,虽然豆瓣音乐top250和豆瓣电影top250的爬取十分类似,但是我大致对比了一下,我这种方法应该是最简单的,仅需要23行代码。 豆瓣对于爬虫十分友...

爱吃西瓜的番茄酱
2017/12/19
0
0
爬取豆瓣电影排名前250部电影并且存入Mongo数据库

需求:爬取豆瓣电影top250(https://movie.douban.com/top250)的电影数据: 标题(title ),电影评分(score),电影信息(content),简介 info。 一、分析页面,用xpath得到相应的数据 ...

丁典
2018/07/12
57
0
爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/top250

所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中。 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/top250 1)确定目标网...

linjin200
2018/12/10
215
1

没有更多内容

加载失败,请刷新页面

加载更多

使用CSS自定义属性构建骨架屏

写在前面 几天前看到薄荷前端团队分享的《前端骨架屏方案小结》,突然回想起一年前看到的max bock写的《Building Skeleton Screens with CSS Custom Properties》,翻译整理写下出此文,分享...

前端老手
昨天
5
0
Docker常用命令小记

除了基本的<font color="blue">docker pull</font>、<font color="blue">docker image</font>、<font color="blue">docker ps</font>,还有一些命令及参数也很重要,在此记录下来避免遗忘。 ......

程序员欣宸
昨天
5
0
MAT使用-jvm内存溢出问题分析定位

1.MAT简介: MAT 全称 Eclipse Memory Analysis Tools 是一个分析 Java堆数据的专业工具,可以计算出内存中对象的实例数量、占用空间大小、引用关系等,看看是谁阻止了垃圾收集器的回收工作,...

xiaomin0322
昨天
5
0
内网和外网之间的通信(端口映射原理)

首先解释一下“内网”与“外网”的概念: 内网:即所说的局域网,比如学校的局域网,局域网内每台计算机的IP地址在本局域网内具有互异性,是不可重复的。但两个局域网内的内网IP可以有相同的...

Jack088
昨天
6
0
3.深入jvm内核-原理、诊断与优化-4. GC算法和种类

一、GC算法和种类 GC的概念 GC算法 引用计数法 标记清除 标记压缩 复制算法 可触及性 Stop-The-World GC的对象是堆空间和永久区 引用计数法 老牌垃圾回收算法 通过引用计算来回收垃圾 使用者...

hexiaoming123
昨天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部