本篇文章2416字,读完约6分钟

我们想搜索网站或新闻。在搜索引擎中输入几个关键词很方便。一些软件甚至可以通过拍照来识别问题,然后给出答案。然而,在互联网上搜索一本书的内容是很困难的,除非这本书已经被转换成电子版本。

如果市场上所有的书都可以变成电子版,那么几千年前古人的思想也可以放到网上,ta的言论可以像当代明星的言论一样在网上搜索。从古至今的思想家都在互联网上“重生”了。鲁迅说过,通过探索可以知道一切,这对未来是一件好事。

谷歌是怎样扫描2500万本书的?出错图片揭开了谷歌的土味操作

谷歌的创始人也有这个愿望。联合创始人之一的谢尔盖·布林曾经说过:“人类几千年来的知识,也许是最高质量的知识,是在书里。”

2002年,谷歌启动了雄心勃勃的图书数字化项目海洋项目,旨在创建世界上最大的数字图书馆。谷歌的愿景是,你只需一台可以连接互联网的电脑,就可以搜索和阅读数千万本书,这就像浏览网页一样方便。

2004年,谷歌开始正式扫描。密歇根大学、哈佛大学、斯坦福大学、牛津大学和纽约公共图书馆都加入了进来。

2010年,谷歌宣布将在全球范围内消灭1.2亿本书。根据2015年10月28日《纽约时报》的报道,谷歌已经扫描了超过2500万本书。

为了扫描这些书籍,谷歌每年花费4亿美元建立了一个专门的扫描中心。在这些扫描中心,有专门的扫描架,架上装有价值数千美元的光学透镜,还有一个光学雷达激光雷达,用来探测页面的弯曲度。

谷歌7508978专利采用的扫描技术。

为什么不使用传统扫描仪?

因为有些书又旧又厚,不能用扫描仪强制扫描,也不能打开。它们只能自然打开。因此,扫描的页面实际上是弯曲的。为了自动拉直页面,谷歌独立开发了一套技术,并申请了7508978专利。

该技术属于光学字符识别,可以理解为一种后期技术。谷歌的专利可以自动平滑弯曲的页面,并将图片中的单词转换成字符,这样我们就可以通过关键词进行搜索。随着该项目的技术进步,一本300页的书开始需要在40分钟内扫描,现在它可以在一小时内扫描6000页。

谷歌是怎样扫描2500万本书的?出错图片揭开了谷歌的土味操作

谷歌的图书扫描技术似乎很高,对吗?

事实上,谷歌的图书扫描设备并不是完全自动化的,还有一个步骤需要手工完成,那就是翻书。操作员翻开一页书,踩下踏板,扫描设备扫描一次。

最初,这是谷歌的商业秘密,但被一位名叫安德鲁·诺曼·威尔逊的艺术家揭露了。

威尔逊说,2007年他在谷歌加利福尼亚的山景公园工作,负责图书扫描的员工与真正的员工有不同的徽章颜色,不能享受他们的福利,比如骑谷歌自行车、免费员工餐和公司班车。后来,他还专门收集了谷歌图书中出现封面的手指页面截图。让我们看看-

谷歌是怎样扫描2500万本书的?出错图片揭开了谷歌的土味操作

当然,谷歌还没有尝试过自动扫描。根据已公布的专利记录,谷歌的工程师丹妮·库姆斯耶(dany qumsiyeh)曾经设计了一款价格非常高的全自动扫描仪。

我哥哥制造的自动扫描仪的原型只需要1500美元的材料。使用的字符和数字转换软件都是开源的,这意味着没有钱。

它是这样工作的——

这本书在三角形金属框架上前后移动。在它穿过这个接缝的地方,下部传感器将扫描页面——

这本书穿过这个开口的地方,就会翻过这一页。

翻页的技术看起来也很简单,就是用一个类似吸尘器的装置来吸一张纸,然后自动将它滑动到三脚架的另一边。

我哥哥用了50种不同类型的书来测试,其中60%可以用这台扫描仪扫描。总的来说,一本300页的书可以在半小时内扫描完。

不幸的是,当原型被扫描时,45%的书被折叠或撕破。

虽然我哥哥的自动扫描仪在2011年获得了谷歌的专利(美国专利号us8711448b1),但谷歌允许任何人免费使用这种设计,这似乎对其未来并不乐观。

谷歌允许免费使用这种全自动扫描仪设计。图片来源:code.google/archive/p/linear-book-scanner/

可以说现在是2020年,世界上没有真正的自动扫描仪吗?

有,但小偷很贵,出错率未知。世界上第一台自动扫描仪是由瑞士4digitalbooks公司生产的dl(数字化线)扫描仪,斯坦福大学于2001年开始生产。

4由4digitalbooks公司制造的全自动扫描仪

Kirtas也有一个全自动扫描仪,它通过一个类似人手的机器人手臂上的真实空吸力来翻页。

然而,kirtas的扫描仪并不便宜,而且价格最低的型号每台售价9000美元,不太可能在家里使用。约翰·霍普金斯大学在2008年购买了一套柯蒂斯制造的2400公寓。上海商学院古籍部也开始了对古籍的非接触式扫描。

由另一家大型自动扫描仪公司生产的Treventus scanrobot也逐页吸纸,边吸边扫描。这台机器刚上市时,价格达到10万美元。

2012年,东京大学的石川大久保实验室也开发了一款更华丽的自动扫描仪bfs-auto。

它每分钟只能扫描300页,还没有达到量子波速度读取的水平。

但是,它可以实时跟踪页面的3d形状,并且页面的颜色和曲率可以自动进行数字校正。

东京大学的全自动扫描仪不是通过吮吸,而是通过吹气,机器吹气,而不是吹嘴来翻书。

根据本实验室的测量,该翻书仪的成功率达到了100%。我希望这种自动扫描仪能尽快普及,这样学生聚会就不需要提着满满一箱子书去上学了,复习和检查资料也就更方便了。

当然,以上都是技术讨论,数字化书籍内页有很大的法律风险。

2011年,由于噪音太大,谷歌陷入了与出版商和作者的诉讼。原告不希望谷歌免费公开其作品,以便人们可以免费搜索和浏览。

尽管谷歌在2013年赢得了诉讼,但这本书的项目似乎已经陷入了死胡同。简而言之,我们不知道谷歌是否会继续扫书,新扫的书是否会被每个人看到。更不用说其他资金和技术都比较少的搜索引擎了。

虽然百家的肉身已经升入天堂,但他们所有的思想什么时候才能登上“云”?

请告诉我们你在谷歌的工作。

我要说三点:首先,我所做的是谷歌工程师无法解决的事情;第二,像程序员一样,我使用最重要的解剖结构来区分人类和其他动物;第三,我的工作是保密的,谷歌不想让其他人知道。


来源:零点娱乐时刊

标题:谷歌是怎样扫描2500万本书的?出错图片揭开了谷歌的土味操作

地址:http://www.02b8.com/yjdyw/28067.html