NodeJS加解密之Crypto
互联网时代,网络上的数据量每天都在以惊人的速度增长。同时,各类网络安全问题层出不穷。在信息安全重要性日益凸显的今天,作为一名开发者,需要加强对安全的认识,并通过技术手段增强服务的安全性。crypto 模块的目的是为了提供通用的加密和哈希算法。用纯 JavaScript 代码实现这些功能不是不可能,但速度会非常慢。Nodejs 用 C/C++实现这些算法后,通过 cypto 这个模块暴露为 JavaScript 接口,这样用起来方便,运行速度也快。
编码方式
为什么信息传输需要编码?
在开发加密解密数据的时候碰到需要把加密好的字节数组转换成 String 对象用于网络传输的需求,如果把字节数组直接转换成 UTF-8 等编码方式的话肯定会存在某些编码没有对应的字符(8bit 只能表示 128 个字符),在编码和解析过程中会出错,不能正确地表达信息。这时就可以通过常用的二进制数据编码方式 Base64 编码或者 Hex 编码来实现。
hex 编码
- 编码原理
将一个 8 位的字节数据用两个 16 进制数表示出来
- 将 8 位二进制码重新分组成两个 4 位的字节
- 其中一个字节的低 4 位是原字节的高 4 位,另一个字节的低 4 位是原数据的低 4 位
- 高 4 位都补 0,然后输出这两个字节对应的十六进制数字作为编码
- 例子
ASCII码:A(65) |
就算原文件是纯英文内容,编码后内容也和原文完全不一样,普通人难以阅读但由于只有 16 个字符,听说一些程序员大牛能够记下他们的映射关系,从而达到读 hex 编码和读原文一样的效果。另外,数据在经过 hex 编码后,空间占用变成了原来的 2 倍。
base64 编码
- 编码原理
Base64 编码是通过 64 个字符来表示二进制数据,64 个字符表示二进制数据只能表示 6 位,所以它可以通过 4 个 Base64 字符来表示 3 个字节,如下是 Base64 的字符编码表
- 举个 Base64 编码的例子,图就很浅显易懂了
- 字符串长度不是 3 的倍数时补 0,也就是“=”
由 64 个字符组成,比 hex 编码更难阅读,但由于每 3 个字节会被编码为 4 个字符。
所以,空间占用会是原来的 4/3,比 hex 要节省空间。另外要注意的是,虽然 Base64 编码后的数据难以阅读,但不能将其作为加密算法使用,因为它解码都不需要你提供密钥啊
urlencode 编码
- 编码原理
urlencode 编码,看名字就就知道是设计给 url 编码的对于a-z
,A-Z
,0-9
,.
,-
和_
,urlencode 都不会做任何处理原样输出,而其它字节会被编码为%xx
(16 进制)的形式,其中xx
就是这个字节对应的 hex 编码。 由于英文字符原样保留,对于以英文为主的内容,可读性最好,空间占用几乎不变,而对于非英文内容,每个字节会被编码为%xx 的 3 个字符,空间占用是原来的 3 倍,所以 urlencode 是一个对英文友好的编码方案。
Hash
摘要:将不固定长度的消息作为输入 Hash 函数,生成固定长度的输出,这段输出称之为摘要
适用场景:敏感信息的校验和存储、验证消息完整 & 未被篡改
特点
- 输出长度固定:输入长度不固定,输出长度固定(因算法而异,常见的有 MD5、SHA 系列)。
- 运算不可逆:已知运算结果的情况下,无法通过通过逆运算得到原始字符串。
- 高度离散:输入的微小变化,可导致运算结果差异巨大。
- 弱碰撞性:不同输入的散列值可能相同。
以 MD5 为例
MD5(Message-Digest Algorithm)是计算机安全领域广泛使用的散列函数(又称哈希算法、摘要算法),主要用来确保消息的完整和一致性。
常见的应用场景:密码保护、下载文件校验等。
应用场景
- 文件完整性校验:比如从网上下载一个软件,一般网站都会将软件的 md5 值附在网页上,用户下载完软件后,可对下载到本地的软件进行 md5 运算,然后跟网站上的 md5 值进行对比,确保软件的完整性
- 密码保护:将 md5 后的密码保存到数据库,而不是保存明文密码,避免拖库等事件发生后,明文密码泄漏。
- 防篡改:比如数字证书的防篡改,就用到了摘要算法。(当然还要结合数字签名等手段)
简单的 md5 运算
- hash.digest([encoding])
计算摘要。encoding 可以是hex
、base64
或其他。如果声明了 encoding,那么返回字符串。否则,返回 Buffer 实例。注意,调用 hash.digest()后,hash 对象就作废了,再次调用就会报错。
- hash.update(data[, input_encoding])
input_encoding 可以是utf8
、ascii
或者其他。如果 data 是字符串,且没有指定 input_encoding,则默认是utf8
。注意,hash.update()方法可以调用多次。
const crypto = require('crypto'); |
密码保护
前面提到,将明文密码保存到数据库是很不安全的
最不济也要进行 md5 后进行保存
比如用户密码是
123456
,md5 运行后,得到输出:e10adc3949ba59abbe56e057f20f883e
这样至少有两个好处:
- 防内部攻击:网站开发者也不知道用户的明文密码,避免开发者拿着用户明文密码干坏事,以这种形式来保护用户的隐私
- 防外部攻击:如网站被黑客入侵,黑客也只能拿到 md5 后的密码,而不是用户的明文密码,保证了密码的安全性
const crypto = require('crypto'); |
- 前面提到,通过对用户密码进行 md5 运算来提高安全性。
- 但实际上,这样的安全性是很差的,为什么呢?
- 稍微修改下上面的例子,可能你就明白了。相同的明文密码,md5 值也是相同的。
- 也就是说当攻击者知道算法是 md5,且数据库里存储的密码值为
e10adc3949ba59abbe56e057f20f883e
时,理论上可以可以猜到,用户的明文密码就是123456
。 - 事实上,彩虹表就是这么进行暴力破解的:事先将常见明文密码的 md5 值运算好存起来,然后跟网站数据库里存储的密码进行匹配,就能够快速找到用户的明文密码。
那么有什么办法可以进一步提升安全性呢?
答案是:密码加盐。
密码加盐
“加盐”这个词看上去很玄乎,其实原理很简单
就是在密码特定位置插入特定字符串后,再对修改后的字符串进行 md5 运算。
同样的密码,当“盐”值不一样时,md5 值的差异非常大
通过密码加盐,可以防止最初级的暴力破解,如果攻击者事先不知道”盐“值,破解的难度就会非常大
const crypto = require('crypto'); |
密码加盐:随机盐值
通过密码加盐,密码的安全性已经提高了不少
但其实上面的例子存在不少问题
- 假设字符串拼接算法、盐值已外泄,上面的代码至少存在下面问题:
- 短盐值:需要穷举的可能性较少,容易暴力破解,一般采用长盐值来解决。
- 盐值固定:类似的,攻击者只需要把常用密码+盐值的 hash 值表算出来。
- 短盐值自不必说,应该避免
- 对于为什么不应该使用固定盐值,这里需要多解释一下。很多时候,我们的盐值是硬编码到我们的代码里的(比如配置文件),一旦攻击者通过某种手段获知了盐值,那么,只需要针对这串固定的盐值进行暴力穷举就行了
- 比如上面的代码,当你知道盐值是
abc
时,立刻就能猜到51011af1892f59e74baf61f3d4389092
对应的明文密码是123456
。
那么,该怎么优化呢?答案是:随机盐值。
可以看到,密码同样是 123456,由于采用了随机盐值,前后运算得出的结果是不同的
这样带来的好处是,多个用户,同样的密码,攻击者需要进行多次运算才能够完全破解
同样是纯数字 3 位短盐值,随机盐值破解所需的运算量 >> 固定盐值
示例代码如下
const crypto = require('crypto'); |
HMAC 功能
HMAC 的全称是 Hash-based Message Authentication Code,也即在 hash 的加盐运算。
具体到使用的话,跟 hash 模块差不多,选定 hash 算法,指定“盐”即可。
和上面的例子的区别是一个是手动拼盐值,一个是利用 HMAC 模块
const crypto = require("crypto") |
注:大文件可流式处理
加密 / 解密
加解密主要用到下面两组方法:
-
加密:
- crypto.createCipher(algorithm, password)
-
crypto.createCipheriv(algorithm, key, iv)
-
解密:
- crypto.createDecipher(algorithm, password)
-
crypto.createDecipheriv(algorithm, key, iv)
crypto.createCipher / crypto.createDecipher
先来看下 crypto.createCipher(algorithm, password),两个参数分别是加密算法、密码
-
algorithm:加密算法,比如
aes192
- 具体有哪些可选的算法,依赖于本地
openssl
的版本
- 具体有哪些可选的算法,依赖于本地
-
可以通过
openssl list-cipher-algorithms
命令查看支持哪些算法 -
password:用来生成密钥(key)、初始化向量(IV)
crypto.createDecipher(algorithm, password)可以看作 crypto.createCipher(algorithm, password) 逆向操作
const crypto = require("crypto") |
crypto.createCipheriv / crypto.createDecipheriv
相对于 crypto.createCipher() 来说,crypto.createCipheriv() 需要提供
key
和iv
,而 crypto.createCipher() 是根据用户提供的 password 算出来的key、iv 可以是 Buffer,也可以是 utf8 编码的字符串,这里需要关注的是它们的长度:
-
key:根据选择的算法有关
- 比如 aes128、aes192、aes256,长度分别是 128、192、256 位(16、24、32 字节)
-
iv:初始化向量,都是 128 位(16 字节),也可以理解为密码盐的一种
const crypto = require("crypto") |
数字签名 / 签名校验
- 假设:
- 服务端原始信息为 M,摘要算法为 Hash,Hash(M)得出的摘要是 H
- 公钥为 Pub,私钥为 Piv,非对称加密算法为 Encrypt,非对称解密算法为 Decrypt
- Encrypt(H)得到的结果是 S
- 客户端拿到的信息为 M1,利用 Hash(M1)得出的结果是 H1
- 数字签名的产生、校验步骤分别如下:
- 数字签名的产生步骤:
- 利用摘要算法 Hash 算出 M 的摘要,即 Hash(M) == H
- 利用非对称加密算法对摘要进行加密 Encrypt( H, Piv ),得到数字签名 S
- 数字签名的校验步骤:
- 利用解密算法 D 对数字签名进行解密,即 Decrypt(S) == H
- 计算 M1 的摘要 Hash(M1) == H1,对比 H、H1,如果两者相同,则通过校验
- 数字签名的产生步骤:
私钥如何生成不是这里的重点,这里采用网上的服务来生成。
了解了数字签名产生、校验的原理后,相信下面的代码很容易理解:
const crypto = require('crypto'); |
DH(DiffieHellman)
DiffieHellman:Diffie–Hellman key exchange,缩写为 D-H,是一种安全协议,常用于密钥交换,让通信双方在预先没有对方信息的情况下,通过不安全通信信道,创建一个密钥。这个密钥可以在后续的通信中,作为对称加密的密钥加密传递的信息。
- 原理解析
假设客户端、服务端挑选两个素数 a、p(都公开),然后
-
客户端:选择自然数 Xa,Ya = a^Xa mod p,并将 Ya 发送给服务端;
-
服务端:选择自然数 Xb,Yb = a^Xb mod p,并将 Yb 发送给客户端;
-
客户端:计算 Ka = Yb^Xa mod p
-
服务端:计算 Kb = Ya^Xb mod p
Ka = Yb^Xa mod p
= (a^Xb mod p)^Xa mod p
= a^(Xb * Xa) mod p
= (a^Xa mod p)^Xb mod p
= Ya^Xb mod p
= Kb
可以看到,尽管客户端、服务端彼此不知道对方的 Xa、Xb,但算出了相等的 secret
const crypto = require('crypto'); |
ECDH(Elliptic Curve Diffie-Hellma)
ECDH 和 DH 原理类似,都是安全密钥协商协议。
相对于 DH 协议,结合椭圆曲线密码学 ECC 加速,运算更节省 CPU 资源
- ECDH(Elliptic Curve Diffie-Hellman )原理如下
const crypto = require('crypto'); |
ECDHE(Elliptic Curve Diffie-Hellma Ephemeral)
普通的 ECDH 算法也存在一定缺陷,比如密钥协商的时候有一方的私钥总是一样的,一般都是 Server 方固定,Client 方私钥随机生成。随着时间的延长,黑客可以截获到海量的密钥协商过程(有些数据是公开的),黑客就可以依据这些数据暴力破解出 Server 的私钥,然后就可以计算出会话密钥了,加密的数据也会随之被破解。固定一方的私钥会有被破解的风险,那么就让双方的私钥在每次密钥交换通信时,都是随机生成的、临时的,这个算法就是 ECDH 的增强版:ECDHE, E 全称是 Ephemeral(临时性的)。
扩展
学习这块儿知识的同时也学习了很多密码学相关知识,发现越挖越深快陷进去了 😂,感兴趣的同学可以继续展开看看相关加密算法和他们之间的区别以及应用场景,例如:
- 非对称加密 DSA、RSA、DH、DHE、ECDHE
- 对称加密 AES、DES
资料加密标准(DES) - 维基百科](https://zh.wikipedia.org/wiki/資料加密標準)
相关术语
SPKAC:Signed Public Key and Challenge
MD5:Message-Digest Algorithm 5,信息-摘要算法。
SHA:Secure Hash Algorithm,安全散列算法。
HMAC:Hash-based Message Authentication Code,密钥相关的哈希运算消息认证码。
对称加密:比如 AES、DES
非对称加密:比如 RSA、DSA
AES:Advanced Encryption Standard(高级加密标准),密钥长度可以是 128、192 和 256 位。
DES:Data Encryption Standard,数据加密标准,对称密钥加密算法(现在认为不安全)。
DiffieHellman:Diffie–Hellman key exchange,缩写为 D-H,是一种安全协议,让通信双方在预先没有对方信息的情况下,通过不安全通信信道,创建一个密钥。这个密钥可以在后续的通信中,作为对称加密的密钥加密传递的信息。(备注,是使用协议的发明者命名)
密钥交换算法
常见的密钥交换算法有 RSA,ECDHE,DH,DHE 等算法。它们的特性如下:
-
RSA:算法实现简单,诞生于 1977 年,历史悠久,经过了长时间的破解测试,安全性高。缺点就是需要比较大的素数(目前常用的是 2048 位)来保证安全强度,很消耗 CPU 运算资源。RSA 是目前唯一一个既能用于密钥交换又能用于证书签名的算法。
-
DH:diffie-hellman 密钥交换算法,诞生时间比较早(1977 年),但是 1999 年才公开。缺点是比较消耗 CPU 性能。
-
ECDHE:使用椭圆曲线(ECC)的 DH 算法,优点是能用较小的素数(256 位)实现 RSA 相同的安全等级。缺点是算法实现复杂,用于密钥交换的历史不长,没有经过长时间的安全攻击测试。
-
ECDH:不支持 PFS,安全性低,同时无法实现 false start。
-
DHE:不支持 ECC。非常消耗 CPU 资源 。
建议优先支持 RSA 和 ECDH_RSA 密钥交换算法。原因是:
-
ECDHE 支持 ECC 加速,计算速度更快。支持 PFS,更加安全。支持 false start,用户访问速度更快。
-
目前还有至少 20% 以上的客户端不支持 ECDHE,我们推荐使用 RSA 而不是 DH 或者 DHE,因为 DH 系列算法非常消耗 CPU(相当于要做两次 RSA 计算)。
掘金:前端 LeBron
知乎:前端 LeBron
持续分享技术博文,关注微信公众号 👇🏻