一 分片集概念

A 分片概述

分片(sharding)是指将数据库拆分,将其分散在不同的机器上的过程。
分片集群(sharded cluster)是一种水平扩展数据库系统性能的方法,能够将数据集分布式存储在不同的分片(shard)上,每个分片只保存数据集的一部分,MongoDB保证各个分片之间不会有重复的数据,所有分片保存的数据之和就是完整的数据集。
分片集群将数据集分布式存储,能够将负载分摊到多个分片上,每个分片只负责读写一部分数据,充分利用了各个shard的系统资源,提高数据库系统的吞吐量
mongodb3.2版本后,分片技术必须结合复制集完成
应用场景:

  1. 单台机器的磁盘不够用了,使用分片解决磁盘空间的问题
  2. 单个mongod已经不能满足写数据的性能要求。通过分片让写压力分散到各个分片上面,使用分片服务器自身的资源
  3. 想把大量数据放到内存里提高性能。和上面一样,通过分片使用分片服务器自身的资源

B 分片存储原理

存储方式:

  • 数据集被拆分成数据块(chunk),每个数据块包含多个doc,数据块分布式存储在分片集群中
    角色:

  • Config server

    1. 存储节点信息
    2. 存储分片策略
    3. 记录数据存储的位置
  • Shard server
    将数据进行分片,拆分成数据块(chunk),数据块真正存放的单位

  • Mongos server

    1. 接收用户请求,返回用户数据
    2. 读取config server,获取分片策略和节点信息
    3. 根据分片策略路由请求和获取数据
    4. 自动均衡数据chunk

总结:
应用请求mongos来操作mongodb的增删改查,配置服务器存储数据库元信息,并且和mongos做同步,数据最终存入在shard(分片)上,为了防止数据丢失,同步在副本集中存储了一份,仲裁节点在数据存储到分片的时候决定存储到哪个节点

C 分片语法和分片类型

片键类型
片键是文档的一个属性字段或是一个复合索引字段,一旦建立后则不可改变,片键是拆分数据的关键的依据
在数据极为庞大的场景下,片键决定了数据在分片的过程中数据的存储位置,直接会影响集群的性能
创建片键时,需要有一个支撑片键运行的索引
语法解析:

1
2
3
4
mongos> use 库名
mongos> db.集合名.ensureIndex({"键名":1}) ##创建索引
mongos> sh.enableSharding("库名") ##开启库的分片
mongos> sh.shardCollection("库名.集合名",{"键名":1}) ##开启集合的分片并指定片键

片键分类:

  1. 递增片键
    使用时间戳,日期,自增的主键,ObjectId,_id等,此类片键的写入操作集中在一个分片服务器上,写入不具有分散性,这会导致单台服务器压力较大,但分割比较容易,这台服务器可能会成为性能瓶颈
1
2
3
> db.bar.ensureIndex({"timestamp":1})  
> sh.enableSharding("foo")
> sh.shardCollection("foo.bar",{""timestamp":1})
  1. 哈希片键
    也称之为散列索引,使用一个哈希索引字段作为片键,优点是使数据在各节点分布比较均匀,数据写入可随机分发到每个分片服务器上,把写入的压力分散到了各个服务器上。但是读也是随机的,可能会命中更多的分片,但是缺点是无法实现范围区分
1
2
3
> db.bar.ensureIndex({"files_id":"hashed"})  
> sh.enableSharding("foo")
> sh.shardCollection("foo.fs.chunks",{"files_id":"hashed"})
  1. 组合片键
    数据库中没有比较合适的键值供片键选择,或者是打算使用的片键基数太小(即变化少如星期只有7天可变化),可以选另一个字段使用组合片键,甚至可以添加冗余字段来组合
1
2
> sh.enableSharding("foo")
> sh.shardCollection("foo.fs.chunks",{"files_id":1,"n":1})
  1. 标签片键
    数据存储在指定的分片服务器上,可以为分片添加tag标签,然后指定相应的tag
    比如让0-1999出现在shard0000上,2000-9999出现在shard0001或shard0002上,就可以使用tag让均衡器指定分发
1
2
3
4
5
> sh.addShardTag("shard0000","T");
> sh.addShardTag("shard0001","Q");
> sh.addShardTag("shard0002","Q");
> sh.addTagRange("foo.ids",{"id":0},{"id":1999},"T");
> sh.addTagRange("foo.ids",{"id":2000},{"id":9999},"Q");

二 分片集群搭建

A 集群规划和目录创建

单机启动10个mongodb实例,端口为38030-38039,其中

  1. configserver:
    3台构成的复制集,1主两从,不支持arbiter
    复制集名字:configsvr
    端口范围:38031-38033

  2. shard节点:
    sh1:38034-36(1主1从1个arbiter)
    sh2:38037-39(1主1从1个arbiter)

  3. mongos节点
    38030单节点节点

创建目录

1
mkdir -p /opt/mongodb/2803{0,1,2,3,4,5,6,7,8,9}/{conf,data,log}

B configserver复制集群准备

准备configserver配置文件

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
[mongo@noah ~]$ vim /opt/mongodb/28031/conf/mongod.conf
systemLog:
destination: file
path: /opt/mongodb/38031/log/mongodb.log
logAppend: true
storage:
journal:
enabled: true
dbPath: /opt/mongodb/38031/data
directoryPerDB: true
wiredTiger:
engineConfig:
cacheSizeGB: 1
directoryForIndexes: true
collectionConfig:
blockCompressor: zlib
indexConfig:
prefixCompression: true
processManagement:
fork: true
net:
port: 38031
replication:
oplogSizeMB: 2048
replSetName: configReplSet
sharding:
clusterRole: configsvr

复制配置文件为多份

1
2
cp /opt/mongodb/2803{1,2}/conf/mongod.conf
cp /opt/mongodb/2803{1,3}/conf/mongod.conf

修改配置文件端口

1
2
sed -i 's#28031#28032#g' /opt/mongodb/28032/conf/mongod.conf
sed -i 's#28031#28033#g' /opt/mongodb/28033/conf/mongod.conf

C shard复制集群准备

准备shard配置文件

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
[mongo@noah ~]$ vim /opt/mongodb/28034/conf/mongod.conf
systemLog:
destination: file
path: /opt/mongodb/38034/log/mongodb.log
logAppend: true
storage:
journal:
enabled: true
dbPath: /opt/mongodb/38034/data
directoryPerDB: true
wiredTiger:
engineConfig:
cacheSizeGB: 1
directoryForIndexes: true
collectionConfig:
blockCompressor: zlib
indexConfig:
prefixCompression: true
processManagement:
fork: true
net:
port: 38034
replication:
oplogSizeMB: 2048
replSetName: sh1
sharding:
clusterRole: shardsvr

复制配置文件为多份

1
2
3
4
5
cp /opt/mongodb/2803{4,5}/conf/mongod.conf
cp /opt/mongodb/2803{4,6}/conf/mongod.conf
cp /opt/mongodb/2803{4,7}/conf/mongod.conf
cp /opt/mongodb/2803{4,8}/conf/mongod.conf
cp /opt/mongodb/2803{4,9}/conf/mongod.conf

修改sh1集群配置文件端口

1
2
sed -i 's#28034#28035#g' /opt/mongodb/28035/conf/mongod.conf
sed -i 's#28034#28036#g' /opt/mongodb/28036/conf/mongod.conf

修改sh2集群配置文件端口和集群名

1
2
3
sed -i -e 's#28034#28037#g' -e 's#sh1#sh2#g' /opt/mongodb/28037/conf/mongod.conf
sed -i -e 's#28034#28038#g' -e 's#sh1#sh2#g' /opt/mongodb/28038/conf/mongod.conf
sed -i -e 's#28034#28039#g' -e 's#sh1#sh2#g' /opt/mongodb/28039/conf/mongod.conf

D 启动实例并启动复制集

启动所有实例

1
2
3
4
5
6
7
8
mongod -f  /opt/mongodb/38031/conf/mongodb.conf
mongod -f /opt/mongodb/38032/conf/mongodb.conf
mongod -f /opt/mongodb/38033/conf/mongodb.conf
mongod -f /opt/mongodb/38034/conf/mongodb.conf
mongod -f /opt/mongodb/38035/conf/mongodb.conf
mongod -f /opt/mongodb/38036/conf/mongodb.conf
mongod -f /opt/mongodb/38037/conf/mongodb.conf
mongod -f /opt/mongodb/38038/conf/mongodb.conf

configserver集群搭建

1
2
3
4
5
6
7
mongo --port 38030 admin
config = {_id: 'configReplSet', members: [
{_id: 0, host: '10.0.0.11:38030'},
{_id: 1, host: '10.0.0.11:38031'},
{_id: 2, host: '10.0.0.11:38032'}]
}
rs.initiate(config)

sh1复制集构建:

1
2
3
4
5
6
7
8
mongo --port 38033
admin
config = {_id: 'sh1', members: [
{_id: 0, host: '10.0.0.11:38033'},
{_id: 1, host: '10.0.0.11:38034'},
{_id: 2, host: '10.0.0.11:38035',"arbiterOnly":true}]
}
rs.initiate(config)

sh2复制集构建:

1
2
3
4
5
6
7
mongo --port 38036 admin
config = {_id: 'sh1', members: [
{_id: 0, host: '10.0.0.11:38036'},
{_id: 1, host: '10.0.0.11:38037'},
{_id: 2, host: '10.0.0.11:38038',"arbiterOnly":true}]
}
rs.initiate(config)

三 分片集群配置

A 配置并启动mongos

节点配置

1
2
3
4
5
6
7
8
9
10
11
[mongo@noah ~]$ vim /opt/mongodb/38030/conf/mongos.conf
systemLog:
destination: file
path: /opt/mongodb/38030/log/mongos.log
logAppend: true
net:
port: 38030
sharding:
configDB: configReplSet/10.0.0.11:38031,10.0.0.11:38032,10.0.0.11:38033
processManagement:
fork: true

启动mongos

1
mongod -f  /opt/mongodb/38030/conf/mongodb.conf

B 配置分片集群

连接到mongs的admin数据库

1
mongo 10.0.0.11:38030/admin

添加分片

1
2
db.runCommand( { addshard : "sh1/10.0.0.11:38034,10.0.0.11:38035,10.0.0.11:38036",name:"shard1"} )
db.runCommand( { addshard : "sh2/10.0.0.11:38037,10.0.0.11:38038,10.0.0.11:38039",name:"shard2"} )

列出分片

1
mongos> db.runCommand( { listshards : 1 } )

整体状态查看

1
mongos> sh.status();

四 使用分片集群

A Hash分片配置及测试:

例子:对noah库下的vast大表进行hash

  1. 对于noah开启分片功能
1
2
3
mongo --port 38030 admin
use admin
admin> db.runCommand( { enablesharding : "noah" } )
  1. 对于noah库下的vast表建立hash索引
1
2
use noah
noah> db.vast.ensureIndex( { id: "hashed" } )
  1. 开启分片
1
2
use admin
admin > sh.shardCollection( "noah.vast", { id: "hashed" } )
  1. 录入10w行数据测试
1
2
use noah
for(i=1;i<100000;i++){ db.vast.insert({"id":i,"name":"luogang","age":70,"date":new Date()}); }
  1. hash分片结果测试
1
2
3
4
5
6
7
mongo --port 38034
use noah
db.vast.count();

mongo --port 38037
use noah
db.vast.count();

B RANGE分片配置及测试

例子:test库下的vast大表进行手工分片

  1. 激活数据库分片功能
1
2
mongo --port 38030 admin
> db.runCommand( { enablesharding : "test" } )
  1. 创建索引
1
2
use test
> db.vast.ensureIndex( { id: 1 } )
  1. 开启分片
1
2
use admin
> sh.shardcollection("test.vast", {id: 1} } )
  1. 集合分片验证
1
2
3
admin> use test
test> for(i=1;i<500000;i++){ db.vast.insert({"id":i,"name":"shenzheng","age":70,"date":new Date()}); }
test> db.vast.stats()
  1. 分片结果测试
1
2
3
4
5
6
7
shard1:
mongo --port 38034
db.vast.count();

shard2:
mongo --port 38037
db.vast.count();