谷歌是怎样扫描2500万本书的？出错图片揭开了谷歌的土味操作-零点娱乐时刊

本篇文章2416字，读完约6分钟

我们想搜索网站或新闻。在搜索引擎中输入几个关键词很方便。一些软件甚至可以通过拍照来识别问题，然后给出答案。然而，在互联网上搜索一本书的内容是很困难的，除非这本书已经被转换成电子版本。

如果市场上所有的书都可以变成电子版，那么几千年前古人的思想也可以放到网上，ta的言论可以像当代明星的言论一样在网上搜索。从古至今的思想家都在互联网上“重生”了。鲁迅说过，通过探索可以知道一切，这对未来是一件好事。

谷歌是怎样扫描2500万本书的？出错图片揭开了谷歌的土味操作

谷歌的创始人也有这个愿望。联合创始人之一的谢尔盖·布林曾经说过:“人类几千年来的知识，也许是最高质量的知识，是在书里。”

2002年，谷歌启动了雄心勃勃的图书数字化项目海洋项目，旨在创建世界上最大的数字图书馆。谷歌的愿景是，你只需一台可以连接互联网的电脑，就可以搜索和阅读数千万本书，这就像浏览网页一样方便。

2004年，谷歌开始正式扫描。密歇根大学、哈佛大学、斯坦福大学、牛津大学和纽约公共图书馆都加入了进来。

2010年，谷歌宣布将在全球范围内消灭1.2亿本书。根据2015年10月28日《纽约时报》的报道，谷歌已经扫描了超过2500万本书。

为了扫描这些书籍，谷歌每年花费4亿美元建立了一个专门的扫描中心。在这些扫描中心，有专门的扫描架，架上装有价值数千美元的光学透镜，还有一个光学雷达激光雷达，用来探测页面的弯曲度。

谷歌7508978专利采用的扫描技术。

为什么不使用传统扫描仪？

因为有些书又旧又厚，不能用扫描仪强制扫描，也不能打开。它们只能自然打开。因此，扫描的页面实际上是弯曲的。为了自动拉直页面，谷歌独立开发了一套技术，并申请了7508978专利。

该技术属于光学字符识别，可以理解为一种后期技术。谷歌的专利可以自动平滑弯曲的页面，并将图片中的单词转换成字符，这样我们就可以通过关键词进行搜索。随着该项目的技术进步，一本300页的书开始需要在40分钟内扫描，现在它可以在一小时内扫描6000页。

谷歌是怎样扫描2500万本书的？出错图片揭开了谷歌的土味操作

谷歌的图书扫描技术似乎很高，对吗？

事实上，谷歌的图书扫描设备并不是完全自动化的，还有一个步骤需要手工完成，那就是翻书。操作员翻开一页书，踩下踏板，扫描设备扫描一次。

最初，这是谷歌的商业秘密，但被一位名叫安德鲁·诺曼·威尔逊的艺术家揭露了。

威尔逊说，2007年他在谷歌加利福尼亚的山景公园工作，负责图书扫描的员工与真正的员工有不同的徽章颜色，不能享受他们的福利，比如骑谷歌自行车、免费员工餐和公司班车。后来，他还专门收集了谷歌图书中出现封面的手指页面截图。让我们看看-

谷歌是怎样扫描2500万本书的？出错图片揭开了谷歌的土味操作

当然，谷歌还没有尝试过自动扫描。根据已公布的专利记录，谷歌的工程师丹妮·库姆斯耶(dany qumsiyeh)曾经设计了一款价格非常高的全自动扫描仪。

我哥哥制造的自动扫描仪的原型只需要1500美元的材料。使用的字符和数字转换软件都是开源的，这意味着没有钱。

它是这样工作的——

这本书在三角形金属框架上前后移动。在它穿过这个接缝的地方，下部传感器将扫描页面——

这本书穿过这个开口的地方，就会翻过这一页。

翻页的技术看起来也很简单，就是用一个类似吸尘器的装置来吸一张纸，然后自动将它滑动到三脚架的另一边。

我哥哥用了50种不同类型的书来测试，其中60%可以用这台扫描仪扫描。总的来说，一本300页的书可以在半小时内扫描完。

不幸的是，当原型被扫描时，45%的书被折叠或撕破。

虽然我哥哥的自动扫描仪在2011年获得了谷歌的专利(美国专利号us8711448b1)，但谷歌允许任何人免费使用这种设计，这似乎对其未来并不乐观。

谷歌允许免费使用这种全自动扫描仪设计。图片来源:code.google/archive/p/linear-book-scanner/

可以说现在是2020年，世界上没有真正的自动扫描仪吗？

有，但小偷很贵，出错率未知。世界上第一台自动扫描仪是由瑞士4digitalbooks公司生产的dl(数字化线)扫描仪，斯坦福大学于2001年开始生产。

4由4digitalbooks公司制造的全自动扫描仪

Kirtas也有一个全自动扫描仪，它通过一个类似人手的机器人手臂上的真实空吸力来翻页。

然而，kirtas的扫描仪并不便宜，而且价格最低的型号每台售价9000美元，不太可能在家里使用。约翰·霍普金斯大学在2008年购买了一套柯蒂斯制造的2400公寓。上海商学院古籍部也开始了对古籍的非接触式扫描。

由另一家大型自动扫描仪公司生产的Treventus scanrobot也逐页吸纸，边吸边扫描。这台机器刚上市时，价格达到10万美元。

2012年，东京大学的石川大久保实验室也开发了一款更华丽的自动扫描仪bfs-auto。

它每分钟只能扫描300页，还没有达到量子波速度读取的水平。

但是，它可以实时跟踪页面的3d形状，并且页面的颜色和曲率可以自动进行数字校正。

东京大学的全自动扫描仪不是通过吮吸，而是通过吹气，机器吹气，而不是吹嘴来翻书。

根据本实验室的测量，该翻书仪的成功率达到了100%。我希望这种自动扫描仪能尽快普及，这样学生聚会就不需要提着满满一箱子书去上学了，复习和检查资料也就更方便了。

当然，以上都是技术讨论，数字化书籍内页有很大的法律风险。

2011年，由于噪音太大，谷歌陷入了与出版商和作者的诉讼。原告不希望谷歌免费公开其作品，以便人们可以免费搜索和浏览。

尽管谷歌在2013年赢得了诉讼，但这本书的项目似乎已经陷入了死胡同。简而言之，我们不知道谷歌是否会继续扫书，新扫的书是否会被每个人看到。更不用说其他资金和技术都比较少的搜索引擎了。

虽然百家的肉身已经升入天堂，但他们所有的思想什么时候才能登上“云”？

请告诉我们你在谷歌的工作。

我要说三点:首先，我所做的是谷歌工程师无法解决的事情；第二，像程序员一样，我使用最重要的解剖结构来区分人类和其他动物；第三，我的工作是保密的，谷歌不想让其他人知道。

来源：零点娱乐时刊

标题：谷歌是怎样扫描2500万本书的？出错图片揭开了谷歌的土味操作

地址：http://www.02b8.com/yjdyw/28067.html

谷歌是怎样扫描2500万本书的？出错图片揭开了谷歌的土味操作

阅读过本文的朋友还对下面文章感兴趣

朴槿惠将会晤印尼总统佐科商两国战略伙伴关系

香港广东社团：旺角暴徒应受惩罚

小学教师资格证面试流程是怎么样的？难不难？-题王网tiw.cn

莱西市旅游产业专题研修班

智库报告：中国挖掘经济新动能须完成七大“转换”

气温逼近零度哈铁“绿皮车”开始供暖

“国检安评”服务大兴国际机场

世界首例免疫艾滋病的基因编辑婴儿在中国诞生，引起广泛伦理质疑！

疫情下的美国：疫情百日、重启首日，纽约市离“回归正常”还有多远？

零点娱乐时刊最热文章

深圳汽车抵押贷款押

vv游戏推广平台代理申

王者荣耀S33赛季将在

viviz在韩国几线_韩国

up主接一个推广多少钱

vi设计用什么软件做

“美原油价格回暖，

vb中next_

ureter_ureteroscopy

投资选择少儿美术教

零点娱乐时刊最新资讯

谁懂，看个砍价节目都能学到护肤干货！

货车自动化冲洗设备-从三个方面带你真正了解它

电商智能仓库的背后，解读智能化物流管理_佰斯特POUSTO

ui设计是什么行业_ui设计是什么行业工作

ui设计培训班靠谱吗_ui设计培训班是坑吗

零点娱乐时刊网站介绍

谷歌是怎样扫描2500万本书的？出错图片揭开了谷歌的土味操作

阅读过本文的朋友还对下面文章感兴趣

朴槿惠将会晤印尼总统佐科 商两国战略伙伴关系

香港广东社团：旺角暴徒应受惩罚

小学教师资格证面试流程是怎么样的？难不难？-题王网tiw.cn

莱西市旅游产业专题研修班

智库报告：中国挖掘经济新动能须完成七大“转换”

气温逼近零度 哈铁“绿皮车”开始供暖

“国检安评”服务大兴国际机场

世界首例免疫艾滋病的基因编辑婴儿在中国诞生，引起广泛伦理质疑！

疫情下的美国：疫情百日、重启首日，纽约市离“回归正常”还有多远？

零点娱乐时刊最热文章

零点娱乐时刊最新资讯

零点娱乐时刊网站介绍

朴槿惠将会晤印尼总统佐科商两国战略伙伴关系

气温逼近零度哈铁“绿皮车”开始供暖