什么是abo| 给老人买什么礼物| 热休克蛋白90a检查高是什么原因| 1979年什么命| 淋巴在什么部位| 三元及第是什么意思| 戏谑是什么意思| 锌过量会引发什么症状| 望尘莫及是什么意思| 君子兰什么时候开花| 蚊子爱咬什么样的人| ab型血生的孩子是什么血型| 打喷嚏流鼻涕吃什么药| 诺贝尔奖为什么没有数学奖| 什么叫腰肌劳损| 半夜两点是什么时辰| 揶揄什么意思| 丁克夫妻是什么意思| 舌尖痛什么原因| 爆血管是什么原因引起的| 雄黄是什么东西| 肠系膜淋巴结炎吃什么药| 澄面粉是什么面粉| 生姜和红糖熬水有什么作用| 视网膜脱落是什么原因引起的| 闪点什么意思| 小学生的学籍号是什么| 神采什么什么| 男性查hpv挂什么科| 小孩缺铁有什么症状| 小孩子不吃饭是什么原因引起的| 地球是什么星| 1912年属什么生肖| 八败是什么意思| 肺寒吃什么药| ig是什么意思| 泡泡纱是什么面料| 幼儿十万个为什么| 素鸡是什么| 匪夷所思是什么意思| 长方形纸能折什么| 黄泉是什么意思| 值是什么意思| gmv是什么意思| 太后是皇上的什么人| 猫咪取什么名字好听| 梦见水里有蛇是什么意思| 过敏性皮炎吃什么药| 长期不过性生活有什么危害| 歆五行属什么| 什么是成熟| 更年期的女人有什么症状表现| lgg是什么意思| 金花是什么意思| 八月2号是什么星座| 上火了吃什么降火最快| 电视开不了机是什么原因| 农历10月是什么月| 有什么组词| 打喷嚏鼻塞吃什么药| 怀孕日期是从什么时候开始算| 眼眶周围发黑什么原因| 29周岁属什么生肖| 微凉是什么意思| 卒中中心是什么意思| 苹果是什么季节的水果| 子时右眼跳是什么预兆| 舒服是什么意思| 结晶是什么意思| 宝宝低烧是什么原因引起的| 梦见玫瑰花是什么预兆| 不能吃辣是什么原因| 领证需要准备什么| 九个口是什么字| 梦见水代表什么| 白球比偏低吃什么补| 左手发麻是什么病征兆| 葡萄什么时候种植| 伤口增生是什么原因造成的| 西梅不能和什么一起吃| 凤梨是什么| 孕期头晕是什么原因| 门槛费是什么意思| 在什么什么后面的英文| 魁拔4什么时候上映| 甲状腺分泌什么激素| 结婚9年是什么婚| 球蛋白是什么意思| 酸奶什么时候喝最好| 炒菜用什么油比较好| 梦到扫地是什么意思| 甲状腺囊肿不能吃什么| 逍遥丸是治什么的| 艳字五行属什么| 一什么草坪| 茹是什么意思| 政治庇护是什么意思| 手术后吃什么| 风雨雷电代表什么生肖| 1688是什么| 北极熊是什么颜色的| 二百五是什么意思| 身份证后四位代表什么| 贡品是什么意思| 痛心疾首的疾是什么意思| 亲子是什么意思| 反流性咽喉炎吃什么药| 熬夜喝什么汤比较好| 玫瑰金是什么颜色| 肛裂是什么样子的图片| 不明觉厉什么意思| 水煮鱼用什么鱼做好吃| 狗是什么偏旁| 收留是什么意思| 孕酮是什么| 晚上9点到10点是什么时辰| 苹果是什么季节的水果| 藿香正气水什么味| 卖剑买牛是什么动物| 足跟疼痛用什么药| 字义是什么意思| 太阳穴凹陷是什么原因| 被猫抓了有什么症状| 衣衫褴褛是什么意思| 月字旁与什么有关| 心脏问题挂什么科| 脚起皮干裂是什么原因| 什么是血浆| 岁月如歌是什么意思| 什么的海洋| 毛宁和毛阿敏是什么关系| balea是什么牌子| bpd是胎儿的什么| dickies是什么牌子| 骨密度增高是什么意思| 肾虚吃什么补肾| 吃什么变聪明| 变色龙指什么人| 经期吃什么好排除瘀血| 劲酒兑什么饮料好喝| 一个雨一个亏念什么| 腰痛是什么原因| 气血不足吃什么补得快| 乐得什么填词语| 老是干咳什么原因| 寻找什么| 凌志和雷克萨斯有什么区别| 918是什么日子| 泌尿系统由什么组成| 网络维护是做什么的| 樱花什么时候开| 为什么邓超对鹿晗很好| 肢体拘挛是什么意思| 什么药可以溶解血栓| 男性经常手淫有什么危害| 疳积是什么意思| 月经来了一点就没了是什么原因| 为什么会得胆囊炎| 开门见什么最吉利| 信访局是干什么的| 脑软化灶是什么意思| 胃胀气用什么药最好| 屎壳郎是什么意思| 去医院看膝盖挂什么科| 漫不经心是什么意思| 鲤鱼为什么很少人吃| 胶囊是什么原料做的| 深圳市市长是什么级别| 什么的天| 喝酒上脸是什么原因| 什么菜| 胃火旺吃什么中成药| 吃蒲公英有什么好处| out什么意思| 81岁属什么| 纤维增殖灶是什么意思| 尿不尽吃什么药| 喉咙扁桃体发炎吃什么药| psv是什么| 配伍是什么意思| 请自重是什么意思| 使用年限是什么意思| 半夜十二点是什么时辰| 广西三月三是什么节日| 虫咬性皮炎用什么药| 吃什么水果可以变白| 胃老是恶心想吐是什么原因| 茜草别名又叫什么| 什么时候有流星| 吃什么食物降血压最快最好| 胎动突然减少是什么原因| 什么是水印| 他是什么意思| 义子是什么意思| 尿里有红细胞是什么原因| 火麻是什么植物| 串词是什么| 五月10号是什么星座| 鸡血藤手镯有什么功效| 佛光普照什么意思| 右腿麻木是什么征兆| 手足口是什么| 感冒喝什么| 荔枝吃了有什么好处| 肾积水是什么原因引起的| 舌苔厚白腻是什么原因引起的| 腹泻吃什么水果| 家族是什么意思| 96345是什么电话| 小番茄有什么营养价值| 盐酸二甲双胍缓释片什么时候吃| 好朋友是什么意思| 磕是什么意思| 喝陈皮有什么好处| 0型血和b型血生的孩子是什么血型| 什么松鼠| 胃恶心吃什么药| 眼睛长麦粒肿用什么药| swan是什么意思| 百香果有什么功效| 起水痘需要注意什么| 梦见和死人一起吃饭是什么意思| 一九七八年属什么生肖| 脚气是什么原因引起的| cvd是什么意思| phicomm是什么牌子| 团长转业到地方是什么职务| 马加大是什么字| 舌苔厚腻发白是什么原因| 洗耳朵用什么药水| 吩咐是什么意思| 2011年是什么生肖| 法院起诉离婚需要什么材料| 后背疼是什么原因引起的女性| 驾驶证扣6分有什么影响| 舌头热灼是什么原因| 百合与什么搭配最好| 香菇吃多了有什么危害| 尿隐血十一是什么意思| 吃蓝莓有什么好处| 梗塞灶是什么意思| 糯米粉是什么粉| 牙齿酸胀是什么原因| tt是什么意思| 节瓜煲汤放什么材料| 纹眉失败擦什么淡化| 鱼非念什么| 喝可乐有什么危害| 有什么好吃的外卖| only是什么牌子| 荒唐是什么意思| 一什么尺子| 世界上最难的字是什么字| 什么样的人容易猝死| 脸上长粉刺是什么原因| 海带和什么相克| 孕妇头疼是什么原因| 中国科协是什么级别| 嫂嫂是什么意思| 面皮是什么做的| 看舌头应该挂什么科| 初衷是什么意思| rh血型阴性是什么意思| 芒果有什么好处和坏处| 百度Jump to content

曹培玺任中国华能集团公司董事长 黄永达任总经理

From Wikipedia, the free encyclopedia
百度 赵志肖说。

In deep learning, a multilayer perceptron (MLP) is a name for a modern feedforward neural network consisting of fully connected neurons with nonlinear activation functions, organized in layers, notable for being able to distinguish data that is not linearly separable.[1]

Modern neural networks are trained using backpropagation[2][3][4][5][6] and are colloquially referred to as "vanilla" networks.[7] MLPs grew out of an effort to improve single-layer perceptrons, which could only be applied to linearly separable data. A perceptron traditionally used a Heaviside step function as its nonlinear activation function. However, the backpropagation algorithm requires that modern MLPs use continuous activation functions such as sigmoid or ReLU.[8]

Multilayer perceptrons form the basis of deep learning,[9] and are applicable across a vast set of diverse domains.[10]

Timeline

[edit]
  • In 1943, Warren McCulloch and Walter Pitts proposed the binary artificial neuron as a logical model of biological neural networks.[11]
  • In 1958, Frank Rosenblatt proposed the multilayered perceptron model, consisting of an input layer, a hidden layer with randomized weights that did not learn, and an output layer with learnable connections.[12]
  • In 1962, Rosenblatt published many variants and experiments on perceptrons in his book Principles of Neurodynamics, including up to 2 trainable layers by "back-propagating errors".[13] However, it was not the backpropagation algorithm, and he did not have a general method for training multiple layers.
  • In 1967, Shun'ichi Amari reported [17] the first multilayered neural network trained by stochastic gradient descent, was able to classify non-linearily separable pattern classes. Amari's student Saito conducted the computer experiments, using a five-layered feedforward network with two learning layers.[16]
  • In 2021, a very simple NN architecture combining two deep MLPs with skip connections and layer normalizations was designed and called MLP-Mixer; its realizations featuring 19 to 431 millions of parameters were shown to be comparable to vision transformers of similar size on ImageNet and similar image classification tasks.[25]

Mathematical foundations

[edit]

Activation function

[edit]

If a multilayer perceptron has a linear activation function in all neurons, that is, a linear function that maps the weighted inputs to the output of each neuron, then linear algebra shows that any number of layers can be reduced to a two-layer input-output model. In MLPs some neurons use a nonlinear activation function that was developed to model the frequency of action potentials, or firing, of biological neurons.

The two historically common activation functions are both sigmoids, and are described by

.

The first is a hyperbolic tangent that ranges from ?1 to 1, while the other is the logistic function, which is similar in shape but ranges from 0 to 1. Here is the output of the th node (neuron) and is the weighted sum of the input connections. Alternative activation functions have been proposed, including the rectifier and softplus functions. More specialized activation functions include radial basis functions (used in radial basis networks, another class of supervised neural network models).

In recent developments of deep learning the rectified linear unit (ReLU) is more frequently used as one of the possible ways to overcome the numerical problems related to the sigmoids.

Layers

[edit]

The MLP consists of three or more layers (an input and an output layer with one or more hidden layers) of nonlinearly-activating nodes. Since MLPs are fully connected, each node in one layer connects with a certain weight to every node in the following layer.

Learning

[edit]

Learning occurs in the perceptron by changing connection weights after each piece of data is processed, based on the amount of error in the output compared to the expected result. This is an example of supervised learning, and is carried out through backpropagation, a generalization of the least mean squares algorithm in the linear perceptron.

We can represent the degree of error in an output node in the th data point (training example) by , where is the desired target value for th data point at node , and is the value produced by the perceptron at node when the th data point is given as an input.

The node weights can then be adjusted based on corrections that minimize the error in the entire output for the th data point, given by

.

Using gradient descent, the change in each weight is

where is the output of the previous neuron , and is the learning rate, which is selected to ensure that the weights quickly converge to a response, without oscillations. In the previous expression, denotes the partial derivate of the error according to the weighted sum of the input connections of neuron .

The derivative to be calculated depends on the induced local field , which itself varies. It is easy to prove that for an output node this derivative can be simplified to

where is the derivative of the activation function described above, which itself does not vary. The analysis is more difficult for the change in weights to a hidden node, but it can be shown that the relevant derivative is

.

This depends on the change in weights of the th nodes, which represent the output layer. So to change the hidden layer weights, the output layer weights change according to the derivative of the activation function, and so this algorithm represents a backpropagation of the activation function.[26]

References

[edit]
  1. ^ Cybenko, G. 1989. Approximation by superpositions of a sigmoidal function Mathematics of Control, Signals, and Systems, 2(4), 303–314.
  2. ^ Linnainmaa, Seppo (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (in Finnish). University of Helsinki. pp. 6–7.
  3. ^ Kelley, Henry J. (1960). "Gradient theory of optimal flight paths". ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282.
  4. ^ Rosenblatt, Frank. x. Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Spartan Books, Washington DC, 1961
  5. ^ Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). System modeling and optimization. Springer. pp. 762–770. Archived (PDF) from the original on 14 April 2016. Retrieved 2 July 2017.
  6. ^ Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986.
  7. ^ Hastie, Trevor. Tibshirani, Robert. Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, New York, NY, 2009.
  8. ^ "Why is the ReLU function not differentiable at x=0?". 21 November 2024.
  9. ^ Almeida, Luis B (2020) [1996]. "Multilayer perceptrons". In Fiesler, Emile; Beale, Russell (eds.). Handbook of Neural Computation. CRC Press. pp. C1-2. doi:10.1201/9780429142772. ISBN 978-0-429-14277-2.
  10. ^ Gardner, Matt W; Dorling, Stephen R (1998). "Artificial neural networks (the multilayer perceptron)—a review of applications in the atmospheric sciences". Atmospheric Environment. 32 (14–15). Elsevier: 2627–2636. Bibcode:1998AtmEn..32.2627G. doi:10.1016/S1352-2310(97)00447-0.
  11. ^ McCulloch, Warren S.; Pitts, Walter (2025-08-05). "A logical calculus of the ideas immanent in nervous activity". The Bulletin of Mathematical Biophysics. 5 (4): 115–133. doi:10.1007/BF02478259. ISSN 1522-9602.
  12. ^ Rosenblatt, Frank (1958). "The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain". Psychological Review. 65 (6): 386–408. CiteSeerX 10.1.1.588.3775. doi:10.1037/h0042519. PMID 13602029. S2CID 12781225.
  13. ^ Rosenblatt, Frank (1962). Principles of Neurodynamics. Spartan, New York.
  14. ^ Ivakhnenko, A. G. (1973). Cybernetic Predicting Devices. CCM Information Corporation.
  15. ^ Ivakhnenko, A. G.; Grigor?evich Lapa, Valentin (1967). Cybernetics and forecasting techniques. American Elsevier Pub. Co.
  16. ^ a b c Schmidhuber, Juergen (2022). "Annotated History of Modern AI and Deep Learning". arXiv:2212.11279 [cs.NE].
  17. ^ Amari, Shun'ichi (1967). "A theory of adaptive pattern classifier". IEEE Transactions. EC (16): 279-307.
  18. ^ Linnainmaa, Seppo (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (in Finnish). University of Helsinki. p. 6–7.
  19. ^ Linnainmaa, Seppo (1976). "Taylor expansion of the accumulated rounding error". BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367. S2CID 122357351.
  20. ^ Anderson, James A.; Rosenfeld, Edward, eds. (2000). Talking Nets: An Oral History of Neural Networks. The MIT Press. doi:10.7551/mitpress/6626.003.0016. ISBN 978-0-262-26715-1.
  21. ^ Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). System modeling and optimization. Springer. pp. 762–770. Archived (PDF) from the original on 14 April 2016. Retrieved 2 July 2017.
  22. ^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (October 1986). "Learning representations by back-propagating errors". Nature. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. ISSN 1476-4687.
  23. ^ Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986.
  24. ^ Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Janvin, Christian (March 2003). "A neural probabilistic language model". The Journal of Machine Learning Research. 3: 1137–1155.
  25. ^ "Papers with Code – MLP-Mixer: An all-MLP Architecture for Vision".
  26. ^ Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation (2 ed.). Prentice Hall. ISBN 0-13-273350-1.
[edit]
杨玉环属什么生肖 25羟维生素d测定是什么 下海的意思是什么 什么东西含铅量高 狗懒子是什么意思
7月24日什么星座 qq会员有什么用 身上瘙痒是什么原因 梵天是什么意思 什么是肌张力
驿站是什么意思 念字五行属什么 脚底心发热是什么原因 什么的小球 柠檬加蜂蜜泡水喝有什么功效
子衿是什么意思 吃葵花籽有什么好处和坏处吗 什么叫过渡句 28年是什么婚 股癣用什么药
鼻窦炎吃什么药好hcv8jop2ns0r.cn 玉米不能和什么食物一起吃hcv9jop1ns7r.cn sand是什么颜色hcv8jop4ns7r.cn 怀孕前三个月要注意什么sanhestory.com 耳火念什么hcv9jop1ns3r.cn
前列腺b超能检查出什么hcv8jop9ns3r.cn 性价比高什么意思hcv9jop3ns9r.cn 什么运动瘦肚子最快hcv8jop8ns9r.cn 什么叫流产hcv9jop3ns7r.cn 什么东西止血最快hcv9jop3ns8r.cn
清洁度1度是什么意思hcv9jop0ns6r.cn 办慢性病有什么好处ff14chat.com 嗷呜是什么意思hcv9jop4ns0r.cn 宝宝说话晚是什么原因造成的hcv7jop7ns2r.cn 晚上入睡困难是什么原因beikeqingting.com
96199是什么电话hcv8jop4ns7r.cn 老母鸡煲汤放什么食材补气补血hcv9jop5ns6r.cn 紫苏有什么功效与作用adwl56.com 早上吃什么减肥hcv7jop4ns8r.cn mu是什么意思hcv9jop8ns2r.cn
百度