乐文小说网

手机浏览器扫描二维码访问

第43章 搜索引擎(第1页)

搜索引擎,顾名思义,便是一种用于搜索信息而产生的工具。

一般解释而言,便是通过用户的需求,和一定的算法,将用户输入的关键词与互联网上现存的信息进行匹配,并按照相关度和时间顺序,将符合要求的信息罗列在用户的眼前。

搜索引擎这门生意讲究的是个先来后到。

如果能在最早的时候将知名论坛和网站的内容全部爬取,那就会在用户占有率上占尽优势。

要知道在这个时间点,日后驰名全球的寻他公司和布谷公司还在娘胎里,呀唬公司的搜索引擎虽然已经诞生,但其底层技术依旧是依靠人工存放网站目录,可谓是效率极其低下。

现在已经有互联网信息爆炸的趋势了,随着信息越来越多,人工处理流程必将被淘汰,而王向中设想的,则是抢在市场最前列,将新一代的搜索引擎提前面世。

实际上做一个搜索引擎并没有看上去那么轻松。

首先是代码问题,这个年代网页技术还停留在web1.o(互联网1.o)的时代,先暂且不提Ajax(AsynchronousJavascriptAndXmL,异步JavaScript和XmL)这种动态页面刷新机制,就连JavaScript(一种web页面脚本语言)都还尚未出现。

还好windows公司相当强大,早在1996年发布了ASP1.o(ActiveServerPages,动态服务器页面),这也让王向中不必苦哈哈地用大量c语言进行后端代码编写工作。

接下来就是数据的爬取和存储问题。

这话虽然听起来很高端,但实际上也就是将数据从别的网站上摘下来,进行索引和关键词分配的简单加工后存储的过程。

这个时候Python语言尚还叫ABc语言,很显然在这个年代使用这个失败的产品是不太合适的,使用更加成熟的c++也许可以解决一些问题。

将爬虫模型简单地铺开来讲,最基础的爬虫,便是通过程序直接访问网页的源代码,通过正则表达式匹配出网页的标题和其具体内容,再接着分析网页内的超链接所指向的页面,逐步将整个网站的内容收入囊中。

再接下来便是数据的存储问题。

mySQL(一种关系数据库管理系统)可以完美地代替文本文档进行数据存取,因为它有一项对于搜索引擎而言重要的功能——索引。

索引可以给一条数据给予定义。

举个最简单的比方,为了节省空间,图书馆的书一般是纵向摆放,而在每本书的侧面上,都写有书名和作者姓名。

这个书名和作者姓名,就是一本书的“索引”

,当你想要找一本书的时候,显然不可能将每本书都打开细细查阅一番,这无疑是在浪费时间。

而通过书名和作者名,你可以轻松地找到自己想要的那本书。

假设一本书是一条数据,那么通过索引功能,便可以轻松地将它从数据库中调取出来,而不必辛苦地逐行逐字分析书本的内容。

本月排行榜
热门小说推荐
亚索异界行之剑之大陆

亚索异界行之剑之大陆

剑之大陆。有太古如梦的神魔故事,演绎正邪的七大剑派,侠骨柔情的快意江湖,胜那天上宫阙的九灵宫,最神秘不过的冰雪国。漫漫长长的寻凶之路,一剑一酒一宿醉,浪客剑心,只为亚索再续一段传说只因剑之故事,以血为墨本文不是纯联盟故事,而是以亚索为主角的玄幻仙侠文,也知道不会火,但我会把此写的丰富多彩,告别龙浩天。...

游戏人生

游戏人生

随身携带训练场银行医院和保险柜,且看仙二代丁浩如何游戏人生,振兴家族,俘虏美人心。书友群309668984...

强者禁区

强者禁区

最危险的罪人,从宇宙中最森严的监狱中逃脱。二〇XX年,4月17日,美国休斯敦航天中心。长官,有个小行星碎片群正在接近地球,最大的半径为十米左右,并伴有六具天使骸骨。我告诉过你们,没事少看好莱坞的低能电影,尤其是工作时间!长官,请看大屏幕。FUCK,给我接总统!马上!!陨落星辰,天煞左寒。锋芒所向,强者禁区。PS公共版暂定更新安排早8点,晚8点,每日两更,不定时爆发各位书友要是觉得强者禁区还不错的话请不要忘记向您QQ群和微博里的朋友推荐哦!...

村庙

村庙

村庙最新章节列小说村庙短刃著村庙全文阅读关于村庙村中多庙宇,然庙从何来?人所供奉者为何物?谁又曾想过,那整日里居与庙宇之中,接受世人香火供奉的神灵,却是邪孽异物?故事,从那阴森森的庙宇中ampgt...

绝命危情

绝命危情

郁澄秋和同学在商场逛街,被歹徒随机绑架,认识了在执行任务的靳渊,两人身份悬殊但在后来机缘巧合之下互生情愫,却因为靳渊身份特殊一再错过。...

晚安,我的冥王夫君

晚安,我的冥王夫君

我考古系大二学生,突然有一天被人骗出了学校说是父亲生病带我回家,没想到只是父母设下的圈套,把我卖给了邻居家的疯儿子,我被强行带到了邻居家别墅,给我下药强行让疯子玷污我的身子,就在自己快要失身的时候,一阵阴风吹来疯子暴毙,而我却被另外一个连脸都没看到的人给破了身子。...

每日热搜小说推荐