1948年,信息学之父香农(C.E.Shannon)借鉴热力学中“熵”的概念,定义了信息熵,解决了对信息的量化度量问题。
热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。一个事件或一个系统,准确的说是一个随机变量,它有着一定的不确定性。
例如,“杭州明天会下雨”,这个随机变量的不确定性很高,要消除这个不确定性,就需要引入很多的信息,这些很多信息的度量就用“信息熵”表达。需要引入消除不确定性的信息量越多,则信息熵越高,反之则越低。例如“中国男足在2018年俄罗斯世界杯不会夺冠”,这个因为确定性很高,几乎不需要引入信息,因此信息熵很低。
在信息大爆炸时代,人们很难直接从原始数据本身获得所需信息。淘宝上商品琳琅满目,然而什么才真正是自己想要的;每天收到巨多邮件,大部分却都是垃圾广告;...
好在,搜索引擎、垃圾广告智能拦截软件、推荐算法...帮我们把无序的数据转化成有用的信息,成为我们从信息汪洋中仓惶上岸的诺亚方舟。
这就是机器学习,把“无序”变得“有序”,把“不确定”变得“确定”,对数据做功,为我们减熵。
“袋长老”,来推荐
胡丰——袋鼠云高级算法专家
十年图像处理、模式识别、机器视觉等方面的研发工作,主要研究领域为:智能交通、工业视觉分析、OCR、视频智能质量诊断、智能球机跟踪、人脸等方向,发表第一作者发明专利十余篇、国际发明专利一篇。
推荐书籍
《机器学习实战》
豆瓣评分:8.1 推荐指数:✩✩✩✩
第一眼见到本书封面,深感诧异,看起来和科技感毫无关联。
翻开本书,才了解到其中趣味:封面标题为“伊斯特里亚人”(Man from Istria),伊斯特里亚是克罗地亚面向亚得里亚海的一个很大半岛。该插画来自克罗地亚斯普利特民族博物馆2008年出版的Balthasar Hacquet的《图说西南及东汪达尔人、伊利里亚人和斯拉夫人》的最新重印版本。Haccquet(1739-1815)是一名奥地利内科医生及科学家,他花费数年时间去研究各地的植物、地质和人种。这些地方包括奥匈帝国的多个地区,以及伊利里亚部落过去居住的(罗马帝国的)威尼托地区、尤里安阿尓卑斯山脉及西巴尔干等地区。Hacquet发表的很多论文和书籍中都有手绘插图。
Hacuqet出版物中丰富多样的插图生动地描绘了200年前西阿尔卑斯和巴尔干西北地区的独特性和个体性。那时候相距几英里的两个村庄村民的衣着都迥然不同,当有社交活动或交易时,不同地区的人们很容易通过着装来辨别。从那之后着装的要求发生了改变,不同地区的多样性也逐渐消亡。现在很难说出不同大陆的居民有多大区别。
Manning出版社利用两个世纪之前的手绘服装来设计书籍封面,以此来赞颂计算机产业所具有的创造性、主动性和趣味性。正如本书封面的图片一样,这些图片也把我们带回到过去的生活中去。
胡丰说
这本书比较基础,适合作为机器学习领域的入门书,比较易懂。但这本书内容还很全面,基本把现在比较热门的机器学习算法和模型都包括在内了。同时,这本书针对每一个算法的应用,都提供了实操案例及对应数据,初学者很容易上手。
读书笔记
机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。
本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。
搭配服用,效果奇佳:
《统计学习方法》: 学习算法思想与数学原理
《Python基础教程》: 哪里不懂看哪里,现学现用