,'
摘要:现在”人工智能“如此火爆的一大直接原因便是deepmind做出的阿尔法狗打败李世石,从那时开始计算机科学/人工智能成为了吹逼的主流。记得当时还是在学校晚manbetx官方网站的时候看到的李世石输的消息,这个manbetx官方网站都是我给打开的hhhhh,对当时场景的印象还是蛮深的。现在涵哥就带大家追根溯源,看看把人工智能推上吹逼大道的 阅读全文
posted @ 2019-11-29 13:54 dynmi 阅读 (148) 评论 (0)
摘要:梯度下降法作为一种反向传播算法最早在上世纪由geoffrey hinton等人提出并被广泛接受。最早GD由很多研究团队各自独立提出来,可大都无人问津,而hinton做的研究完整表述了GD方法,同时hinton为自己的研究多次走动人际关系使得其论文出现在了当时的《nature》上,因此GD得到了第一次 阅读全文
posted @ 2019-10-06 18:33 dynmi 阅读 (337) 评论 (0)
摘要:本文仅对常见的无监督学习算法进行了简单讲述,其他的如自动编码器,受限玻尔兹曼机用于无监督学习,神经网络用于无监督学习等未包括。同时虽然整体上分为了聚类和降维两大类,但实际上这两类并非完全正交,很多地方可以相互转化,还有一些变种的算法既有聚类功能又有降维功能,一些新出现的和尚在开发创造中的无监督学习算 阅读全文
posted @ 2019-10-04 00:14 dynmi 阅读 (1533) 评论 (0)
摘要:1.数据中心化 将数据规整到[0,1]间: def normalize(arr): arr = arr - arr.min() arr = arr / arr.max() return arr 将数据规整到[-1,1]间: def normalize(arr): arr = arr - arr.mi 阅读全文
posted @ 2020-02-28 11:15 dynmi 阅读 (2) 评论 (0)
摘要:因为plt默认画图工具为agg,而在ubuntu18中我们需要换为tk才行. $ sudo apt-get install tcl-dev tk-dev python-tk python3-tk $ workon plotting $ pip uninstall matplotlib $ git c 阅读全文
posted @ 2020-02-27 19:58 dynmi 阅读 (3) 评论 (0)
摘要:我的ubuntu18同时有python3.6和python2.7两个python版本,所以用起来有python &pip 和python3&pip3两个存在导致很不舒服,因为python2.7的存在只是为了给某应用提供background支持,我就把python2.7命令覆盖了. sudo upda 阅读全文
posted @ 2020-02-27 15:18 dynmi 阅读 (4) 评论 (0)
摘要:http://neurips.cc/Conferences/2019/CallForCompetitions 阅读全文
posted @ 2020-02-27 13:46 dynmi 阅读 (4) 评论 (0)
摘要:pip从pypi下载第三方库存在网络问题,下载慢,超时,可以通过换源解决: 阿里镜像源是所有镜像源中最高效的,我们采用阿里镜像源. 1.从pip配置中修改下载源:(一劳永逸的方法) 将文件 ~/.pip/pip.conf 文件添加或修改: [global] index-url = http://m 阅读全文
posted @ 2020-02-27 11:05 dynmi 阅读 (3) 评论 (0)
摘要:1.DQN 在传统RL算法中,依靠的是Policy和Value的协同迭代优化agent。 而现代, DQN等value-based类算法弱化了Policy的存在,Policy成了Value的附属; ReinforcePG,DPG,DDPG等policy-based类算法弱化了Value的存在。age 阅读全文
posted @ 2020-02-23 16:33 dynmi 阅读 (3) 评论 (0)
摘要:——import matplotlib.pyplot as plt 官方手册 http://matplotlib.org/tutorials/introductory/pyplot.html ——import seaborn as sns 官方手册http://seaborn.pydata.org 阅读全文
posted @ 2020-02-20 18:33 dynmi 阅读 (1) 评论 (0)
摘要:默认价值函数为Q(s,a),策略迭代更新为pai <—— epsilon-greedy(Q) policy是agent的属性,决定了agent面对某状态s时会选择哪个行为a value是agent的感觉,代表着agent对某个(s,a)的感觉,感觉它好感觉它不好 强化学习迭代过程中, policy- 阅读全文
posted @ 2020-02-20 12:00 dynmi 阅读 (3) 评论 (0)
摘要:在过去,使用一个表格来存储V(s)或Q(s,a) 如果已知完整MDP,V(s),也就是有完整模型,也有状态转移概率矩阵,那DP求状态价值期望解贝尔曼最优方程就了 如果MDP不完整,Q(s,a),没有状态转移概率矩阵,这是大多数情况,那么我们使用采样法来做policy-evaluation,有MC 阅读全文
posted @ 2020-02-20 10:42 dynmi 阅读 (2) 评论 (0)
摘要:前面介绍了三种采样求均值的算法 ——MC ——TD ——TD(lamda) 下面我们基于这几种方法来 迭代优化agent 传统的强化学习算法 || ν ν 已经知道完整MDP——使用价值函数V(s) 没有给出完整MDP——使用价值函数Q(s,a) 可见我们的目标就是确定下来最优策略和最优价值函数 | 阅读全文
posted @ 2020-02-14 20:05 dynmi 阅读 (10) 评论 (0)
], ['\\(','\\)']], processClass: 'math', processEscapes: true }, TeX: { equationNumbers: { autoNumber: ['AMS'], useLabelIds: true }, extensions: ['extpfeil.js', 'mediawiki-texvc.js'], Macros: {bm: "\\boldsymbol"} }, 'HTML-CSS': { linebreaks: { automatic: true } }, SVG: { linebreaks: { automatic: true } } });
摘要:现在”人工智能“如此火爆的一大直接原因便是deepmind做出的阿尔法狗打败李世石,从那时开始计算机科学/人工智能成为了吹逼的主流。记得当时还是在学校晚manbetx官方网站的时候看到的李世石输的消息,这个manbetx官方网站都是我给打开的hhhhh,对当时场景的印象还是蛮深的。现在涵哥就带大家追根溯源,看看把人工智能推上吹逼大道的 阅读全文
posted @ 2019-11-29 13:54 dynmi 阅读 (148) 评论 (0)
摘要:梯度下降法作为一种反向传播算法最早在上世纪由geoffrey hinton等人提出并被广泛接受。最早GD由很多研究团队各自独立提出来,可大都无人问津,而hinton做的研究完整表述了GD方法,同时hinton为自己的研究多次走动人际关系使得其论文出现在了当时的《nature》上,因此GD得到了第一次 阅读全文
posted @ 2019-10-06 18:33 dynmi 阅读 (337) 评论 (0)
摘要:本文仅对常见的无监督学习算法进行了简单讲述,其他的如自动编码器,受限玻尔兹曼机用于无监督学习,神经网络用于无监督学习等未包括。同时虽然整体上分为了聚类和降维两大类,但实际上这两类并非完全正交,很多地方可以相互转化,还有一些变种的算法既有聚类功能又有降维功能,一些新出现的和尚在开发创造中的无监督学习算 阅读全文
posted @ 2019-10-04 00:14 dynmi 阅读 (1533) 评论 (0)
摘要:1.数据中心化 将数据规整到[0,1]间: def normalize(arr): arr = arr - arr.min() arr = arr / arr.max() return arr 将数据规整到[-1,1]间: def normalize(arr): arr = arr - arr.mi 阅读全文
posted @ 2020-02-28 11:15 dynmi 阅读 (2) 评论 (0)
摘要:因为plt默认画图工具为agg,而在ubuntu18中我们需要换为tk才行. $ sudo apt-get install tcl-dev tk-dev python-tk python3-tk $ workon plotting $ pip uninstall matplotlib $ git c 阅读全文
posted @ 2020-02-27 19:58 dynmi 阅读 (3) 评论 (0)
摘要:我的ubuntu18同时有python3.6和python2.7两个python版本,所以用起来有python &pip 和python3&pip3两个存在导致很不舒服,因为python2.7的存在只是为了给某应用提供background支持,我就把python2.7命令覆盖了. sudo upda 阅读全文
posted @ 2020-02-27 15:18 dynmi 阅读 (4) 评论 (0)
摘要:http://neurips.cc/Conferences/2019/CallForCompetitions 阅读全文
posted @ 2020-02-27 13:46 dynmi 阅读 (4) 评论 (0)
摘要:pip从pypi下载第三方库存在网络问题,下载慢,超时,可以通过换源解决: 阿里镜像源是所有镜像源中最高效的,我们采用阿里镜像源. 1.从pip配置中修改下载源:(一劳永逸的方法) 将文件 ~/.pip/pip.conf 文件添加或修改: [global] index-url = http://m 阅读全文
posted @ 2020-02-27 11:05 dynmi 阅读 (3) 评论 (0)
摘要:1.DQN 在传统RL算法中,依靠的是Policy和Value的协同迭代优化agent。 而现代, DQN等value-based类算法弱化了Policy的存在,Policy成了Value的附属; ReinforcePG,DPG,DDPG等policy-based类算法弱化了Value的存在。age 阅读全文
posted @ 2020-02-23 16:33 dynmi 阅读 (3) 评论 (0)
摘要:——import matplotlib.pyplot as plt 官方手册 http://matplotlib.org/tutorials/introductory/pyplot.html ——import seaborn as sns 官方手册http://seaborn.pydata.org 阅读全文
posted @ 2020-02-20 18:33 dynmi 阅读 (1) 评论 (0)
摘要:默认价值函数为Q(s,a),策略迭代更新为pai <—— epsilon-greedy(Q) policy是agent的属性,决定了agent面对某状态s时会选择哪个行为a value是agent的感觉,代表着agent对某个(s,a)的感觉,感觉它好感觉它不好 强化学习迭代过程中, policy- 阅读全文
posted @ 2020-02-20 12:00 dynmi 阅读 (3) 评论 (0)
摘要:在过去,使用一个表格来存储V(s)或Q(s,a) 如果已知完整MDP,V(s),也就是有完整模型,也有状态转移概率矩阵,那DP求状态价值期望解贝尔曼最优方程就了 如果MDP不完整,Q(s,a),没有状态转移概率矩阵,这是大多数情况,那么我们使用采样法来做policy-evaluation,有MC 阅读全文
posted @ 2020-02-20 10:42 dynmi 阅读 (2) 评论 (0)
摘要:前面介绍了三种采样求均值的算法 ——MC ——TD ——TD(lamda) 下面我们基于这几种方法来 迭代优化agent 传统的强化学习算法 || ν ν 已经知道完整MDP——使用价值函数V(s) 没有给出完整MDP——使用价值函数Q(s,a) 可见我们的目标就是确定下来最优策略和最优价值函数 | 阅读全文
posted @ 2020-02-14 20:05 dynmi 阅读 (10) 评论 (0)