ระบบรางวัล

ระบบรางวัล หรือ ระบบการให้รางวัล^[2] (อังกฤษ: reward system) เป็นโครงสร้างทางประสาทที่จำเป็นเพื่ออำนวยผลของการเสริมแรง (reinforcement) พฤติกรรม คือเพิ่มความถี่ของพฤติกรรมนั้น ๆ ส่วนรางวัล (reward) เป็นสิ่งเร้าที่สร้างความหิวกระหายให้กับมนุษย์หรือสัตว์อื่น ๆ เพื่อให้เปลี่ยนพฤติกรรม โดยปกติทำงานเป็นตัวเสริมแรง (reinforcer) ซึ่งเป็นสิ่งที่เมื่อให้หลังจากมีพฤติกรรมอย่างใดอย่างหนึ่ง จะทำให้พฤติกรรมนั้นมีโอกาสการเกิดเพิ่มขึ้น ให้สังเกตว่า แม้ว่าสิ่งหนึ่ง ๆ อาจจะเรียกว่ารางวัล แต่ไม่จำเป็นที่มันจะเป็นตัวเสริมแรง เพราะว่ารางวัลจะเป็นตัวเสริมแรงได้ก็ต่อเมื่อถ้าให้แล้วเพิ่มความน่าจะเป็นของพฤติกรรมนั้น ๆ^[1]

รางวัลหรือการเสริมแรง เป็นเครื่องวัดที่เป็นกลาง ๆ เพื่อวัดคุณค่าที่บุคคลให้กับวัตถุ กับพฤติกรรม หรือกับสรีรภาพภายในอะไรอย่างหนึ่ง รางวัลปฐมภูมิ (Primary reward) รวมสิ่งที่จำเป็นต่อการรอดพันธุ์ของสปีชีส์ เช่น การได้อาหารและเพศสัมพันธ์^[3] ส่วนรางวัลทุติยภูมิจะมีค่าสืบจากรางวัลปฐมภูมิ เงินทองเป็นตัวอย่างที่ดีอย่างหนึ่ง รางวัลทุติยภูมิสามารถสร้างได้ในการทดลองโดยการจับคู่สิ่งเร้าที่เป็นกลาง (รางวัลทุติยภูมิ) กับรางวัลปฐมภูมิ

บ่อยครั้ง สัมผัสที่เป็นสุขหรือว่าเสียงดนตรีที่ไพเราะจัดว่าเป็นรางวัลทุติยภูมิ แต่นี่อาจจะไม่เป็นอย่างนั้น เพราะว่า มีหลักฐานจำนวนหนึ่งที่แสดงว่า สัมผัสทางกาย เช่น การโอบกอดหรือการดูแลแต่งกายให้กันและกัน ไม่ใช่รางวัลที่ต้องเรียนรู้ คือเป็นรางวัลปฐมภูมิ^[4] รางวัลโดยทั่วไปมองว่าดีกว่าการทำโทษเพื่อเปลี่ยนพฤติกรรม^[5]

นิยาม

ในประสาทวิทยาศาสตร์ ระบบรางวัลเป็นกลุ่มโครงสร้างทางสมองที่มีส่วนควบคุมพฤติกรรมที่สัมพันธ์กับผลที่น่าต้องการหรือเป็นสุข เป็นวงจรประสาทที่เมื่อทำงาน เสริมแรงพฤติกรรมในเชิงบวก เป็นวงจรซึ่งรวมเซลล์ประสาทที่ใช้โดพามีนในส่วน ventral tegmental area (ตัวย่อ VTA), nucleus accumbens, และส่วนหนึ่งของ prefrontal cortex คือ ส่วน mesolimbic pathway และ mesocortical pathway^[6]

กายวิภาค

สรุป

มุมมอง

โครงสร้างทางสมองที่เป็นส่วนของระบบรางวัลรวมทั้ง ventral tegmental area (ตัวย่อ VTA), ventral striatum (โดยเฉพาะก็คือ nucleus accumbens), dorsal striatum, prefrontal cortex, anterior cingulate cortex, insular cortex, ฮิปโปแคมปัส, ไฮโปทาลามัส, อะมิกดะลา, และส่วนที่เหลือของ extended amygdala (คือ central nucleus of the amygdala, sublenticular substantia innominata, nucleus accuinbens shell และ stria terminalis^[7])^[8]^[9]

ศูนย์กลางของระบบรางวัล ก็คือวงจร basal ganglia โดยเฉพาะส่วน mesolimbic pathway (คือ VTA และ nucleus accumbens) แต่ก็ยังมีวงจรและโครงสร้างอื่น ๆ ที่เป็นส่วน เช่น anterior cingulate cortex และ midbrain dopamine pathways ส่วนวิถีประสาทเคมีที่สำคัญของระบบรางวัล ก็คือ mesocorticolimbic pathway ซึ่งรวมทั้ง mesolimbic pathway และ mesocortical pathway. ส่วน VTA เป็นแหล่งวิถีประสาทโดพามีนมากมายในสมอง ซึ่งเป็นนิวรอนที่ใช้สารสื่อประสาทโดพามีนเพื่อส่งสัญญาณไปยังโครงสร้างอื่น ๆ โดพามีนเป็นตัวกระตุ้น D1-like receptor และเป็นตัวยับยั้ง D2-like receptor เพื่อการผลิตและหยุดผลิต cyclic amp (cAMP)^[10] ซึ่งเป็น second messenger อย่างหนึ่งที่สำคัญในกระบวนการทางชีวภาพต่าง ๆ มากมาย

ทั้งมนุษย์และสัตว์ดูเหมือนจะมีความรู้สึกเป็นสุขคล้าย ๆ กัน^[11] โดยสมองมนุษย์แปลเหตุการณ์ที่ก่อความสุข และเพิ่มความลึกซึ้งโดยเปลี่ยนการที่มนุษย์ใส่ใจหรือสังเกตเห็นความสุขนั้น ความรู้สึกเป็นสุขในมนุษย์จะต่างจากสัตว์อื่นก็เพราะวัฒนธรรม เหตุการณ์ในชีวิต ศิลปะ และกระบวนการทางความคิดอื่น ๆ ที่ช่วยขยายความเข้าใจ/ความรู้สึกของเรา^[12]

สัตว์เทียบกับมนุษย์

ตามศาสตราจารย์ประสาทวิทยาศาสตร์ที่มหาวิทยาลัยมิชิแกน ดร. เค้นต์ เบอร์ริดจ์^[11] ปฏิกิริยาชอบหรือไม่ชอบรสชาติมีความคล้ายคลึงกันระหว่างทารกมนุษย์ ลิงอุรังอุตัง และหนู งานศึกษาทางประสาทวิทยาศาสตร์โดยมากจะแสดงว่า การเปลี่ยนระดับโดพามีนจะเปลี่ยนระดับการชอบใจต่อรางวัลหนึ่ง ๆ เป็นผลที่เรียกว่า hedonic impact ที่สามารถเปลี่ยนได้อีกขึ้นอยู่กับความพยายามเพื่อจะได้รางวัลนั้น แต่เมื่อ ดร. เบอร์ริดจ์บันทึกปฏิกิริยาโดยสีหน้าว่า ชอบ หรือ ไม่ชอบ เขาพบว่า การยับยั้งระบบโดพามีนโดยตรงกลับไม่เปลี่ยนปฏิกิริยาเชิงบวกต่ออะไรหวาน ๆ กล่าวอีกอย่างก็คือ hedonic impact เหมือนเดิมแม้มีการเปลี่ยนแปลงเช่นนี้ เชื่อกันมาก่อนว่า โดพามีนเป็นสารสื่อความสุขหลักของสมอง แต่ผลเช่นนี้แสดงว่า อาจจะไม่ใช่ และแม้ว่าจะทำการเปลี่ยนแปลงระบบโดพามีนที่มากยิ่งกว่านี้ ข้อมูลก็ดูเหมือนจะไม่เปลี่ยน ดร. เบอร์ริดจ์จึงได้ตั้ง สมมติฐานความเด่นของสิ่งจูงใจ (incentive salience hypothesis) เพื่ออธิบายว่า ทำไมโดพามีนจึงควบคุมความสุขเป็นบางครั้งเพียงเท่านั้น

สมมติฐานนี้เป็นเรื่องเกี่ยวกับความต้องการรางวัล นักวิทยาศาสตร์ได้ใช้การศึกษานี้เพื่ออธิบายเหตุผลที่เกิดความต้องการอย่างรุนแรงเมื่อติดยา คือผู้ติดยาตอบสนองต่อสิ่งเร้าบางอย่าง ที่การเปลี่ยนแปลงทางประสาทเหตุยามีบทบาท เป็นการตอบสนองของสมองแบบ sensitization (การทำให้ไวต่อตัวกระตุ้น) คล้ายกับต่อโดพามีน เมื่อปฏิกิริยาแบบ "ต้องการ" และแบบ "ชอบ" เกิดขึ้น (ซึ่งทำให้เกิดความสุข)

สมองและพฤติกรรมของทั้งมนุษย์และสัตว์แสดงความเปลี่ยนแปลงเช่นเดียวกันในระบบรางวัล ก็เพราะว่า ปฏิกิริยาทั้งแบบชอบและไม่ชอบ เป็นเรื่องสำคัญต่อการรอดพันธุ์ของสปีชีส์ และอาจมีหน้าที่เยี่ยงเดียวกันในสัตว์ที่เป็นบรรพบุรุษร่วมกัน^[11]

ประวัติ

ดร. เจมส์ โอลด์ส และ ดร. ปีเตอร์ มิลเนอร์ เป็นนักวิจัยคู่ที่ค้นพบระบบรางวัลในปี พ.ศ. 2497 คือเมื่อเขากำลังสอนหนูให้แก้ปัญหาและวิ่งในเขาวงกต การกระตุ้นบางส่วนของสมองดูเหมือนจะให้ความสุขแก่หนูซึ่งช่วยในการเรียนรู้ เมื่อพวกเขาได้ทดลองอย่างเดียวกันในมนุษย์ก็พบผลเช่นกัน และเมื่อทดลองหนูในกล่องทดลองของ ดร. สกินเนอร์ (ดูรูป) ที่หนูสามารถกระตุ้นระบบรางวัลของตนด้วยการกดคันโยก หนูจะกดคันโยกนั้นเป็นชั่วโมง ๆ^[13]^[14] งานวิจัยในอีก 2 ทศวรรษต่อมาแสดงว่า โดพามีนเป็นสารเคมีหลักอย่างหนึ่งที่ช่วยในการส่งสัญญาณประสาทในเขตสมองเหล่านี้ และดังนั้น จึงมีการเสนอว่า โดพามีนเป็นสารเคมีแห่งความสุขของสมอง^[15]

ดร. อีวาน ปัฟลอฟเป็นนักจิตวิทยาที่ใช้ระบบรางวัลเพื่อศึกษาเรื่องการวางเงื่อนไขแบบดั้งเดิม (classical conditioning) โดยให้รางวัลสุนัขเป็นอาหารหลังจากที่ได้ยินเสียงระฆังหรือได้ประสบกับสิ่งเร้าอย่างอื่น เพื่อที่จะให้สุนัขสัมพันธ์อาหารซึ่งเป็นรางวัล กับเสียงระฆังซึ่งเป็นสิ่งเร้า^[16]

ส่วน ดร. เอ็ดวาร์ด ทอร์นไดก์ ใช้ระบบรางวัลเพื่อศึกษาเรื่องเงื่อนไขจากตัวดำเนินการ (operant conditioning) โดยเริ่มใส่แมวลงในกล่องปริศนา แล้ววางอาหารไว้ข้างนอกเพื่อกระตุ้นให้แมวหนีไปเอาอาหาร และแม้ว่าจะไม่วางอาหารไว้ข้างนอก แมวก็พยายามจะหนีอยู่ดี ดังนั้น ดร. ทอร์นไดก์ได้ใช้อาหารและอิสรภาพเพื่อกระตุ้นระบบรางวัลของแมว เพื่อที่จะดูว่าแมวเรียนรู้หนีออกจากกล่องได้อย่างไร^[17]

การเสริมแรงและการลงโทษ

การเสริมแรง (reinforcement) และการลงโทษ (punishment) มีผลก็เพราะระบบรางวัลในสมอง คือ ตัวเสริมแรง (reinforcer) เป็นตัวกระตุ้นให้บุคคลมีโอกาสสูงขึ้นที่จะทำสิ่งที่ให้ได้ตัวเสริมแรง และระบบรางวัลก็จัดกลุ่มตัวเสริมแรงเช่น เงิน อาหาร และน้ำ โดยเป็นรางวัล คือทำให้เกิดความรู้สึกเชิงบวกที่ทำให้บุคคลต้องการทำสิ่งที่สัมพันธ์กับตัวเสริมแรง ส่วนการลงโทษเป็นเรื่องตรงกันข้ามกับการเสริมแรง คือ เป็นตัวกระตุ้นเพื่อไม่ให้ทำ และระบบรางวัลจัดการลงโทษว่าเป็นการสูญเสียรางวัล และทำให้บุคคลไม่ต้องการทำสิ่งที่ทำให้รางวัลถูกพรากออกไป^[17]

โรคซึมเศร้า

ความผิดปกติทางจิตคือโรคซึมเศร้า มีเหตุส่วนหนึ่งมาจากระบบรางวัล คือ บุคคลที่มีโรคจะมีระบบรางวัลที่มีปฏิกิริยาต่ำกว่า ทำให้ไม่สามารถมีปฏิกิริยาต่อรางวัลเชิงบวกที่ได้ แล้วจึงไม่รู้สึกดีกับอะไรสักอย่าง ปฏิกิริยาเช่นนี้ทำให้คนเศร้าซึมมีปัญหากับชีวิตและสิ่งที่ตนมี และไม่พิจารณารางวัลต่าง ๆ เช่น ชีวิต งาน เงิน หรือครอบครัวว่าเป็นรางวัล โดยสรุปก็คือ ระบบรางวัลที่ไม่มีปฏิกิริยาทำให้ไม่เกิดความรู้สึกดีในชีวิต ซึ่งนำไปสู่การคิดถึงการฆ่าตัวตายเพื่อจะหนีจากชีวิตเช่นนั้น^[18]

การติดสารหรือพฤติกรรม

ΔFosB (delta FosB) ซึ่งเป็น gene transcription factor เป็นปัจจัยสามัญสำหรับการติดเกือบทุกชนิด ซึ่งเมื่อปรากฏในเซลล์ประสาท D1-type medium spiny neuron ในส่วนสมอง nucleus accumbens มากเกินไป ก็จะก่อภาวะติดและปรับสภาพในสมองทั้งโดยพฤติกรรมทั้งโดยโครงสร้างในรูปแบบที่มีเมื่อติด ตัวอย่างการเปลี่ยนพฤติกรรมที่ ΔFosB ควบคุมรวมทั้งการให้ยาตนเอง (drug self-administration), กระบวนการ reward sensitization, และ reward cross-sensitization ตัวอย่างของความปรับเปลี่ยนระบบประสาท (neuroplasticity) ที่ควบคุมโดย ΔFosB คือ ความหนาแน่นขึ้นของ NMDA receptor, AMPA receptor, และ dopamine receptor ในเขตสมอง striatum และ nucleus accumbens

ดังนั้นทั้งสารเสพติดและพฤติกรรมที่ติด จะทำให้เกิดความสุข (rewarding) และเป็นการเสริมแรง (reinforcing) คือ ทำให้ติด เนื่องจากผลของสิ่งเหล่านั้นต่อวิถีประสาท dopamine reward pathway^[9]^[19]

ดูเพิ่ม

เชิงอรรถและอ้างอิง

[1]
"Drugs, Brains, and Behavior: The Science of Addiction". drugabuse.gov.
[2]
"แนวคิดเรื่องการเกิดพฤติกรรม". Writer. สืบค้นเมื่อ 2016-07-26. ระบบการให้รางวัล (Reward System)
[3]
"Dopamine Involved In Aggression". Medical News Today. 2008-01-15. คลังข้อมูลเก่าเก็บจากแหล่งเดิมเมื่อ 2010-09-23. สืบค้นเมื่อ 2010-11-14.
[4]
Harlow, H. F. (1958). "The nature of love". American Psychologist. 13: 679–685. doi:10.1037/h0047884.
[5]
"Smacking children 'does not work'". BBC News. 1999-01-11. สืบค้นเมื่อ 2010-05-22.
[6]
"Drug Dictionary". Behavioral Health. Reward System. คลังข้อมูลเก่าเก็บจากแหล่งเดิมเมื่อ 2016-07-25.
[7]
Malenka RC; Nestler EJ; Hyman SE (2009). "Chapter 15: Reinforcement and Addictive Disorders". ใน Sydor A; Brown RY (บ.ก.). Molecular Neuropharmacology: A Foundation for Clinical Neuroscience (2nd ed.). New York: McGraw-Hill Medical. p. 376. ISBN 9780071481274. A macrostructure postulated to integrate many of the functions of this circuit is described by some investigators as the extended amygdala. The extended amygdala is said to comprise several basal forebrain structures that share similar morphology, imrnunocytochemical features, and connectivity and that are well suited to mediating aspects of reward function; these include the bed nucleus of the stria terminalis, the central medial amygdala, the shell of the NAc, and the sublenticular substantia innominata.
[8]
Grall-Bronnec M; Sauvaget A (2014). "The use of repetitive transcranial magnetic stimulation for modulating craving and addictive behaviours: a critical literature review of efficacy, technical and methodological considerations". Neurosci. Biobehav. Rev. 47: 592–613. doi:10.1016/j.neubiorev.2014.10.013. PMID 25454360. Studies have shown that cravings are underpinned by activation of the reward and motivation circuits (McBride et al., 2006, Wang et al., 2007, Wing et al., 2012, Goldman et al., 2013, Jansen et al., 2013 and Volkow et al., 2013). According to these authors, the main neural structures involved are: the nucleus accumbens, dorsal striatum, orbitofrontal cortex, anterior cingulate cortex, dorsolateral prefrontal cortex (DLPFC), amygdala, hippocampus and insula.
[9]
Malenka RC; Nestler EJ; Hyman SE (2009). "Chapter 15: Reinforcement and Addictive Disordersedition = 2nd". ใน Sydor A; Brown RY (บ.ก.). Molecular Neuropharmacology: A Foundation for Clinical Neuroscience. New York: McGraw-Hill Medical. pp. 365–366, 376. ISBN 9780071481274. The neural substrates that underlie the perception of reward and the phenomenon of positive reinforcement are a set of interconnected forebrain structures called brain reward pathways; these include the nucleus accumbens (NAc; the major component of the ventral striatum), the basal forebrain (components of which have been termed the extended amygdala, as discussed later in this chapter), hippocampus, hypothalamus, and frontal regions of cerebral cortex. These structures receive rich dopaminergic innervation from the ventral tegmental area (VTA) of the midbrain. Addictive drugs are rewarding and reinforcing because they act in brain reward pathways to enhance either dopamine release or the effects of dopamine in the NAc or related structures, or because they produce effects similar to dopamine. ... A macrostructure postulated to integrate many of the functions of this circuit is described by some investigators as the extended amygdala. The extended amygdala is said to comprise several basal forebrain structures that share similar morphology, immunocytochemical features, and connectivity and that are well suited to mediating aspects of reward function; these include the bed nucleus of the stria terminalis, the central medial amygdala, the shell of the NAc, and the sublenticular substantia innominata.
[10]
Trantham-Davidson H; Neely LC; Lavin A; Seamans JK (2004). "Mechanisms underlying differential D1 versus D2 dopamine receptor regulation of inhibition in prefrontal cortex". The Journal of Neuroscience. 24 (47): 10652–10659. doi:10.1523/jneurosci.3179-04.2004.
[11]
doi:10.1007/s00213-008-1099-6
This citation will be automatically completed in the next few minutes. You can jump the queue or expand by hand Full Article PDF (829 KB)
[12]
Bear, Mark (2006). Neuroscience. Library of Congress Cataloging. pp. 522–525. ISBN 0-7817-6003-8.
[13]
"human nervous system".
[14]
"Positive Reinforcement Produced by Electrical Stimulation of Septal Area and Other Regions of Rat Brain". คลังข้อมูลเก่าเก็บจากแหล่งเดิมเมื่อ 2017-07-02. สืบค้นเมื่อ 2016-08-16.
[15]
"The Functional Neuroanatomy of Pleasure and Happiness".
[16]
Pavlov Ivan Petrovich; Anrep GV (2003). "Lecture I". Conditioned Reflexes. Mineola, New York: Dover Corporation.
[17]
Fridlund Alan; Kalat James (2014). Mind and Brain, the Science of Psychology. California: Cengage Learning.
[18]
"The role of the brain reward system in depression". Progress in Neuro-Psychopharmacology and Biological Psychiatry. 25: 781–823. doi:10.1016/S0278-5846(01)00156-7.
[19]
Rang, H. P. (2003). Pharmacology. Edinburgh: Churchill Livingstone. p. 596. ISBN 0-443-07145-4.

แหล่งข้อมูลอื่น

วิกิมีเดียคอมมอนส์มีสื่อที่เกี่ยวข้องกับ ระบบรางวัล

Scholarpedia Reward
Scholarpedia Reward signals เก็บถาวร 2016-08-18 ที่ เวย์แบ็กแมชชีน

Wikiwand - on

Seamless Wikipedia browsing. On steroids.