Thứ Năm, 21 tháng 7, 2005

Split

分开其实是另一种合成,一栋栋不同功能的建筑物分开放在土地的不同角落,合成了城市。恋人分开形体,合成了思念。我把文章分开来,合成了藕断丝连的句子, 再进一步把句子分开来,一地散落的物体(noun)和动作(verb),我端详了好久,合成是一则失传的故事,隐隐约约自凌乱的文字尸体间传来一阵笑声。
我从恍惚回来,面对分开(split)的力量不可自拔的留恋起来。其实很早以前就已经看过split这则咒语了,VB Script里就含有这道咒语。却一直到今天我在Python里把一篇篇文章拆散成句子的时候才发觉这到咒语的妙用,仿佛进化成一种亮丽的魔法,悄悄一声呼唤,连亮光都来不及现身,一堆我要的句子列队空降,纪律严明。
尤其是拆解HTML tag 时,譬如:

list_P = htmlSource.split("<p>")
list_P = list_P[1:]
for i in list_P:
list_Q = i.split("</p>")
print list_Q[0]


就 这样子我得到了所有网页里(HTML Page)的段落(Paragraph)。当然split 这道魔法里头必然包含了先前我依赖已久的 strstr() 或 == 或 指标 (pointer)等等基本法运用。可是在Python的宝典里头另有高人用最优化的法术浓缩了这一系列咒语,给我们一个高级的咒语。简明又有效。
于是我何乐不为,继续用这道咒语寻找那些被标签的符号。

Không có nhận xét nào:

Đăng nhận xét

Bài đăng phổ biến