Dropbox一类的网络存储工具如何知道你分享了侵权的文件?难道它们在不停窥探着用户的隐私吗?不不,其实它们并没有做任何坏事。
如果你知道“文件哈希值匹配黑名单”是什么意思,可以跳过本文剩余部分。Dropbox检查共享文件的哈希值是否匹配到禁止清单,如果匹配,那就阻止文件的分享。
如果这些词让你听起来迷糊,请继续往下了解。
运作原理:
在计算机科学中,有一个非常受欢迎的概念,叫“哈希值”(hashing)。
其使用非常普遍——从允许网络服务去查看但不储存你的密码,到确定某个文件在用户传输过程中没有发生变化。
在这种情况里,哈希函数是一种算法,这种算法会根据你输入的内容提出一个唯一识别符。
哈希值通常只是一串数字和字符。A文件的哈希值可能是4f2900f2fdfaf,而B文件的哈希值可能是dba7b12a19fe9。Dropbox的哈希值可能比这个例子长很多(从而允许更多哈希值),不过大家都能明白其中意义了吧。
如果正确执行哈希函数,对同一个文件执行该算法2次,将获得相同的识别符——不过即使略微改变该文件都会完全使哈希值改变。
这种识别符可以用于告诉你这个文件是否和另一个文件完全相同——不过这是一条单行通道。哈希值不过告诉你原文件是什么,除非你已经知道或者拷贝文件进行对比。
这可能让你想到哈希值就像指纹。每个人的指纹都是独一无二的,不过它不能用于识别某个人,除非你拥有这个人的指纹来进行比对。同样,基于哈希值的DMCA合规系统不能说这个文件是什么,除非它与已经收到撤销请求的文件是一模一样的。
当你把文件上传到Dropbox,会进行两样事情:哈希值将被生成,之后该文件被加密从而使任何未经授权的用户(黑客或Dropbox员工)不能通过Dropbox的服务器打开该文件。
(有关加密:Dropbox掌握加密的密钥,因此如果收到合法的要求,他们可以打开你的文件。他们的系统制定了监察机制,从而使员工不能偷看你的文件。)
在Dropbox法律团队核实了DMCA申诉后,Dropbox将该文件的哈希值加入到一个大的黑名单,这份黑名单包含所有已知的不能合法分享的文件的哈希值。如果你分享一条指向该文件的链接,Dropbox将检查发现该文件的哈希值属于该黑名单范围。
如果你分享的文件正是版权持有者申诉的文件,该文件将被禁止与他人分享。如果这是其他文件——新文件或者甚至是同一文件的修改版本,基于哈希值的反侵权系统将不会知道该文件是什么内容。
换言之,至少基于Dropbox的公开表述,该公司并没有积极扫描用户的文件以搜寻受版权保护的材料。不存在人工(或者机器人)偷听你的MP3或者尝试查找你的文件,或者阅读你的哈利波特小说收藏集。他们只是有一个很大的禁止分享文件清单,他们只是以一种特意不去了解任何非黑名单文件具体是什么内容的方式来识别这些文件。
现在,上述内容并不是要说基于哈希值的系统是没有安全隐忧的。例如,在政府要求的情况下,理论上Dropbox会识别将特定文件储存在账户上的任何用户。不过对于任何基于云端的储存系统,道理是一样的,在这些系统里并不是由用户处理全部的加密程序。
以下是Dropbox对Twitter消息的正式评论:
“一直以来对于我们如何处理版权通知,总有一些疑问。我们有时候收到DMCA通知,要求根据版权原因移除部分链接。收到这些通知后,我们根据法律处理这些要求,并禁用被识别出来的链接。我们有一个自动系统,能够避免用户使用Dropbox链接分享完全相同的材料。这是通过对比文件哈希值来完成的。我们并不会查看用户私人文件夹的文件,我们承诺保持用户文件的安全。”