state:
一个时间片内获取的状态:[[吞吐量1、RTT1、未确认数1、重传次数1]、[吞吐量2、RTT2、未确认数2、重传次数2]]
一个state包含k个时间片,例如k=4:
[[[210, 4841, 20, 13], [114, 3158, 1, 14]], [[183, 4063, 5, 13], [138, 733, 0, 14]], [[246, 4519, 2, 13], [133, 718, 0, 14]], [[248, 3465, 10, 13], [136, 3040, 1, 14]]]
reward:
l*各子流吞吐量之和(k个时间片) - m*最近一次各子流rtt之和 - n*最近一次各子流未确认数 - p*在k各时间片内的重传次数