冰河。
是一款关于围棋的人工智能程序。
而这款人工智能为了应对围棋的复杂性,结合了监督学习和强化学习的优势。
它通过训练形成一个策略网络,将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。
然后,训练出一个价值网络对自我对弈进行预测,以 -1(对手的绝对胜利)到1(冰河的绝对胜利)的标准,预测所有可行落子位置的结果。
这两个网络自身都十分强大,而冰河围棋将这两种网络整合进基于概率的蒙特卡罗树搜索中,实现了它真正的优势。
在获取棋局信息后,冰河围棋会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。
在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为冰河围棋的最终选择。
在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,冰河围棋的搜索算法就能在其计算能力之上加入近似人类的直觉判断。
而冰河人工智能系统,主要由几个部分组成:
一、策略网络(policy work),给定当前局面,预测并采样下一步的走棋;
首发域名。
二、快速走子(fast rollout),目标和策略网络一样,但在适当牺牲走棋质量的条件下,速度要比策略网络快1000倍;
三、价值网络(vae work),给定当前局面,估计是白胜概率大还是黑胜概率大;
四、蒙特卡洛树搜索(onte carlo tree search),把以上这四个部分连起来,形成一个完整的系统。
第一大脑:落子选择器(ove-picker)。
第二大脑:棋局评估器(position-evaator)。