2018年7月份以来最好的机器学习的Github库和Reddit帖子
简介
众所周知,Github是全球最大的代码托管服务,上面托管了全球众多优秀的代码。而Reddit是美国社交新闻聚合网站,里面包含了很多有价值的讨论,包括谷歌的技术人员也经常在上面回答大家的问题。Github上最火热的机器学习项目和Reddit最火的相关的讨论不仅帮助我们提供了优秀的解决问题的工具和思路,也是我们学习的绝佳案例(可惜Reddit最近被墙了,这又增加了有梯子和无梯子人们之间的视野差距)。
本片博客介绍了2018年7月份以来上述两个平台中最好的项目和讨论,欢迎大家围观。
这里介绍的Github库包括很多非常酷的案例,包括深度学习(Deep Learning)和生成对抗网络(GANs)、文本匹配相关的自然语言处理、计算机视觉等。
而Reddit中的讨论则是从深度学习和人工智能二者中共同选择了一些有意义的帖子。这些帖子将帮助你理解工业界某些技术的现状以及未来的发展方向。
优秀的Github库
Image Outpainting

Inpainting(图像修复)的含义是对某些受到损坏的图像进行修复重建,或者去除图像中多余的物体。例如大家知道很多人在经典游览的时候旁边会有很多游客,但是通过拍摄多张照片之后,很多技术可以将你身边的游客去掉,只保留你和景点的图片。而这里的Outpainting则是一种相反的思路,它的目标是通过现有的图像去推测图像周边可能的情况,来扩展图片,拓宽视野。这是由斯坦福的一组研究者提供的工具。如上图所示,输入是图片的一部分,经过Outpainting之后我们可以看到更宽的景色。
这个项目使用Python中的Keras来实现的。你可以自己实现这样的效果或者直接从作者提供的工具中试试。
使用TensorFlow进行文本分类
这个项目是用TensorFlow来实现多个不同的文本分类的模型。它还提供了每个某型相关的讨论链接,它可以帮助你理解你所作的工作,非常有用。目前实现的某型包括:
- 单词级别的CNN(Word-level CNN)
- 字符级别的CNN(Character-level CNN)
- 很深的CNN(Very Deep CNN)
- 单词级别的双向RNN(Word-level Bidirectional RNN)
- 基于注意力机制的双向RNN(Attention-Based Bidirectional RNN)
- R-CNN
MatchZoo

MatchZoo最近进行了一项大的更新,它是一个文本匹配的基本工具。目标是为了设计、比较并分享多个不同的文本匹配模型。MatchZoo潜在的任务包括文本检索、会话响应排名、问答系统以及释义识别等。一些深度匹配方法有DRMM,MatchPyramid,MV-LSTM,aNMM,DUET等。
GANimation

看到上面的图像你有没有感到很兴奋?是的,它是改变图像中人物表情的一个工具。绿色边框内的图像是原始图像,其余图像是使用GANimation改变人物的面部表情的结果。这是一种稍微复杂的方法,但如果您对深度学习感兴趣,则必须进行探索。
作者提供了入门所需的一切 - 初学者指南,先决条件,数据准备资源,当然还有Python代码。 你在等什么? 去试试吧!
GAN Stability

这个优秀的库是一个Python项目,是ICML2018一篇论文的相关实验。对于任何对深度学习尤其是GAN感兴趣的人来说,这是一个引人入胜的案例研究。
这篇论文的目的是为了证明GAN网络中数据连续性的必要性。这个项目是论文的补充实验的内容,它主要包含的实验的是哪些GANs网络可以真正的收敛?非常有意思的项目。
Reddit帖子
我应该实现哪些deep learning的论文的模型?(Which deep learning papers should I implement to learn?)
如果您是深度学习的新手,这应该是你必须要读的主题。 许多DL专家在最近发表的论文中提供了他们最新的一些想法,我们应该阅读并实现这些论文中的模型。这不仅能加强了我们所学到的知识,并且可以是我们与最新的技术保持同步。
如果你是一个深度学习的老手,这个帖子也将刷新你的概念或让你知道在这个多元化领域发生的所有事情。我们永远无法获得足够的知识,因此建议您查看这个帖子中提供的所有资源。 我们还应该阅读其他数据科学家提供的所有意见,这些意见将增加我们的知识和见解。
像Google Brain/FAIR/DeepMind中的组织是如何使用“科学”?(Use of Science at Organizations like Google Brain/FAIR/DeepMind)
这个帖子对于数据科学家来说非常有吸引力。它是来自于Twitter上的一个讨论,即大型科技组织是如何使用“科学”的。虽然这个讨论一开始有点悲观,但是有些与它们合作过的人也提供了一些积极的观点。
这个帖子你不仅可以了解到Google Brain是如何定义科学并使用科学的,你也能知道目前科学家如如何看待工业中的科学状态。
一些可以增加(机器学习)理论理解的书籍(Some Good Books to Gain a Theoretical Understanding)
如果你想进入机器学习的研究方面,你需要了解事物如何运作的理论。包括核心数学,概率等主题。该主题列出了一些关于各种机器学习概念的更高级的书籍。
有大量的建议(几乎100条评论!)和链接,所以你不能抱怨缺乏资源。 从高级ML到强化学习的介绍,这个忒子是顶级资源的金矿。
关于AI如何影响工作的讨论,包括目前以及未来的情况(Discussion on how AI will Impact Jobs, both Present and in the Future)
这是几十年来一直在进行的讨论,并且随着最近对ML和AI的兴趣而变得更加突出。尽管专家竭尽全力减轻恐惧,但这种担忧仍然存在。这个帖子包含来自AI爱好者和专家的意见,我们了解他们如何看待AI影响不同国家的工作。
还有大量的统计数据和链接共享,有助于人们衡量人工智能的发展方向。
数据可视化中人们常犯的错误(Common Mistakes People make in Data Visualization)
数据可视化是任何机器学习项目的关键方面。 但它也有它自己的独立应用,如仪表板,报告等。商业智能如今是一个蓬勃发展的领域,随着越来越多的人进入它,他们需要意识到人们犯下的一些最常见的错误。 给定的图像很好地说明了这一点。
您将在数据科学之旅中遇到的一个更有趣但更重要的主题。 你不需要虔诚地坚持已经展示过的每一个观点,但是对整个领域的领导者如何思考这个观点是一件好事。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
