دعوت به اقتصادخوانی
تحلیل رگرسیون: موتور حرکت اقتصاد تجربی(قسمت اول-ادامه در خبر بعدی)
مترجم: جعفر خیرخواهان
در جایگاه قضاوت نشستن، باعث میشود تا شخص بیش از آن که به سطح معنیدار بودن آماری توجه کند نگران روابط آماری باشد. معنیدار بودن نتایج فقط در صورتی قابل تایید است که درک عمیقی از همه جنبههای مساله داشته باشیم.
مترجم: جعفر خیرخواهان
در جایگاه قضاوت نشستن، باعث میشود تا شخص بیش از آن که به سطح معنیدار بودن آماری توجه کند نگران روابط آماری باشد. معنیدار بودن نتایج فقط در صورتی قابل تایید است که درک عمیقی از همه جنبههای مساله داشته باشیم.
باید شناخت کافی از همه تئوریهای مرتبط با موضوع داشت و ادبیات گسترده درباره آن موضوع و نهادهایی را که نقش مهمی در مساله مورد بررسی دارند، شناخت.
(دیوید کلاندر، «چگونگی شکلگیری اقتصاددان»، ص 243)
ابزار اصلی آماری که در علم اقتصاد استفاده میشود تحلیل رگرسیونی است. در این شیوه به دو یا چند سری آماری نگاه میکنیم که آیا به نحوی سازگار با هم در یک جهت یا در جهت مقابل حرکت میکنند و اگر اینطور است وقتی یکی از سریها تغییر میکند سری دیگر چقدر تغییر خواهد کرد: به عبارت دیگر همارتباطی آنها چگونه بوده و چقدر دقیق است. فرض کنید قصد داریم فروش یخچال را تبیین یا پیشبینی کنیم. فروش یخچال را «متغیر وابسته» مینامیم چون که میخواهیم بدانیم به چه متغیرهایی وابسته است. سپس به تئوری اقتصادی یا به فهم مشترک عمومی متوسل میشویم تا به ما بگوید عوامل تعیینکننده- که آنها را «متغیر مستقل» یا گاهی اوقات «رگرسورها» مینامند- چه هستند. آنها را «متغیر مستقل» مینامند چون در حالی که روی فروش یخچال تاثیر میگذارند فرض میکنیم فروش یخچال در مقابل تاثیری بر آنها نمیگذارد. (این امکان نیز هست که مجموعه معادلات رگرسیون را به طور همزمان حل کنیم که متغیر وابسته در یک معادله، متغیر مستقل در معادله دیگر میشود.)
در علوم طبیعی اغلب اوقات، دو متغیر رابطه دقیق دارند که میتوان به صورت یک قانون علمی بیان کرد. برای مثال. متغیر y همیشه دقیقا b برابر متغیر دیگر x است. در این حالت، نیازی به تحلیل رگرسیونی نیست. تمام کاری که باید انجام داد دقت در مقادیر هر جفت x و y است و با استفاده از اینها میتوان مقدار b را حساب کرد، اما اگر x تنها متغیری نباشد که بر y تاثیر میگذارد چنین روشی نتیجه نمیدهد. همان طور که در شکل ۱ دیده میشود رابطه بین x و y دقیق نیست.
شکل ۱- رابطه بین دو متغیر
جایگاه متغیر x را روی محور افقی در نظر بگیرید. برخی نقاط در جایگاه بسیار بالایی روی محور عمودی قرار دارند و برعکس. یک شیوه فهمیدن تحلیل رگرسیونی این است که تصور کنیم رابطه زیربنایی دقیقی بین x و y وجود دارد، چنان که y برابر 3x است، اما پیش از اینکه دادهها به دست شما برسد یک نفر شیطنت کرده است و مقداری اعداد تصادفی مثبت و منفی روی yها انداخته است. وظیفه شما پیبردن به روابط واقعی x و y از میان مشاهدات آلودهشدهای است که به شما داده شده است. مشخصا این کارها را باید بکنید: (1) میزان تاثیری را که یک واحد تغییر x روی y میگذارد تعیین کنید؛ (2) ارزیابی کنید که آیا این اثر از نظر آماری معنیدار است و (3) برآورد کنید چه نسبتی از تغییر در y که مشاهده کردهایم به خاطر تغییرات در x بوده است.
1- ضریب رگرسیون
برای سادگی فرض کنید رابطه بین x و y را میتوان با یک خط راست نشان داد. معادله خط راست با وجود تنها یک متغیر مستقل به این صورت درمیآید:
y = a + bx که a و b اعداد ثابت هستند؛ یعنی اعدادی مثل 34 یا 8 که تغییر نمیکنند. پس b به شما میگوید که اگر x به میزان 1 واحد تغییر کند، y به اندازه 8 واحد تغییر میکند. b شبیه چرخ دنده است که تغییرات از x را به y انتقال میدهد.
پس آنچه رگرسیون x روی y انجام میدهد انتخاب مقادیر خاصی برای a و b است که بهترین پیشبینی از y را که با دانستن مقدار x میتوانید به دست آورید به شما میدهد. دقیقتر اینکه بگوییم کامپیوتر آن مقادیری را برای a و b انتخاب میکند که مجذور تفاوتهای بین مقادیر واقعی y و مقادیر y که رگرسیون پیشبینی میکند به حداقل میرساند. برای سادهسازی بحث، لحظهای مجذور کردن و نیز عدد ثابت a را فراموش کرده و فکر کنید چگونه وضعیتی را توصیف میکنید که به صورت یک قاعده کلی هر وقت x به میزان ۱ واحد افزایش یافت، y به اندازه ۳ واحد افزایش مییابد، اما برخی اوقات یک کمی بیشتر و برخی اوقات یک کمی کمتر افزایش مییابد. آیا منطقی نخواهد بود که بگوییم: y برابر با ۳x به علاوه یا منهای یک عامل سرهم کردنی است؟ این عامل سرهم کردنی را «جمله خطا» مینامیم. مادامی که این حالت از خطاهای نمونهگیری تصادفی ناشی میشود، در نمونه به حدی کافی بزرگ جمله خطا توزیع نرمال خواهد داشت. همان طور که نمونه بزرگتر و بزرگتر میشود با داشتن اعداد مثبت و منفی که میل به حذف کردن هم دارند، عامل سرهم کردنی به صفر نزدیک میگردد، اما مادامی که وجود عامل سرهم کردنی
به علت تاثیر برخی متغیرهای مستقل اضافی نباشد که به اشتباه حذف کردهایم، ما همچنین فرض میکنیم، یا درستتر اینکه بگوییم امیدوار هستیم این خطاها نیز به صورت نرمال توزیع شده باشند؛ بنابراین تقریبا همدیگر را خنثی نمایند.
فرض کنید کامپیوتر حساب میکند که a مثلا 10 و b مثلا 3 شده است. وجود خطاهای نمونهگیری و سایر خطاها (یعنی عامل سرهم کردنی) به ما اجازه نمیدهد که بگوییم هر وقت x مساوی 1 است y باید 13 باشد، اما مادامی که این خطاها تصادفی باشند، از بخشهای بعدی میدانیم در اینباره چه کار باید کرد. ما به خطاهای معیار نگاه میکنیم (یعنی انحراف معیار) تا دامنهای که به نحو معقولی میتوان انتظار داشت a و b در آن محدوده جای گیرند به دست آید، (معمولا تا منها و به علاوه دو خطای معیار پیش میرود تا سطح احتمال 5 درصد به دست آید). یا اگر ما صرفا میخواهیم بدانیم آیا احتمال کمتر از 5 درصدی وجود دارد که در جامعه، a یا b واقعا صفر هستند، مقادیر آنها را که «برآوردهای نقطهای» نامیده میشوند بازبینی میکنیم که آیا از صفر به اندازه بیشتر از دو خطای معیار تفاوت دارند یعنی مقدار t آنها 2 یا بزرگتر از 2 باشد.
این a و b واقعا چه چیزی را اندازهگیری میکنند؟ از آنجا که a یک عدد ثابت است؛ یعنی بدون توجه به مقداری که x میگیرد مقدار آن فرقی نمیکند، آن را میتوان اینگونه تفسیر کرد: مقدار y، وقتی x صفر باشد. به طوری که میتواند منفی، مثبت یا صفر باشد. از آنجا که ما عمدتا میخواهیم بدانیم چگونه x بر y تاثیر میگذارد و نه اینکه وقتی x صفر است y چه مقدار میشود، به این جمله ثابت معمولا علاقهای نشان داده نمیشود. به جای آن، علاقه زیادی به ضریب b داریم که «ضریب رگرسیون» نامیده میشود. به شکل نموداری، b شیب خط رگرسیون است؛ یعنی خطی که از میان خوشه نقاط (مشاهدات) کشیده شده است به طوری که مربعات انحرافات این نقاط از خط را به حداقل میرساند و با این معنی، بهترین تصویر از مشاهدات است.
تا اینجا فرض کردم رابطه بین x و y را میتوان با یک خط راست توصیف کرد. اگر بخواهیم علمی سخن بگوییم دلیلی ندارد که چرا باید اینگونه باشد، اما معمولا آن خط، تقریب کافی و نزدیکی است که ما بتوانیم استفاده کنیم. همچنین امکان استفاده از معادلات رگرسیونی که رگرسورهای غیرخطی از قبیلX2 دارند هست، اما برخی اوقات باعث میشود تا برنامه کامپیوتری به هم بریزد و وقتی دادهها با رسم خط راستی از اعداد طبیعی به خوبی قابل توصیف نباشند ما رگرسیون را روی لگاریتم آنها برازش میکنیم. استفاده از لگاریتم این مزیت را دارد که تغییرات در هر دو متغیرهای وابسته و مستقل را میتوان به صورت درصد تغییرات خواند.
تا اینجا ما فقط با یک رگرسور کار کردیم، اما معمولا اوضاع و احوال پیچیدهتر است چون که رفتار y وابسته به عوامل بسیاری است؛ برای مثال، تقاضا برای خودرو نه فقط به قیمت خودرو، بلکه به قیمت بنزین و حمل و نقل عمومی، قیمت کالاهای رقیب و جانشین، به درآمد و به عشق و علاقه مردم به داشتن خودرو نیز بستگی دارد. بنابراین اغلب اوقات نیاز است تا رگرسورهای بیشتری را بگنجانیم: مثلا اگر پنج متغیر مستقل، اثر چشمگیری بر متغیر وابسته داشته باشند باید معادله رگرسیون را به این صورت بنویسیم:
y=a +bx1 +cx2 +dx3 +ex4 +fx5 +e
که پاییننویسهای هر x بیانگر رگرسورهای متفاوت است و e جمله خطا میباشد. میتوان متغیرهای مستقل بسیاری را در رگرسیون جای داد به شرط اینکه مشاهدات کافی داشته باشیم. بیشتر رگرسیونها اینک از بیش از یک رگرسور استفاده میکنند، اما برای اینکه بحث را ساده نگه داریم در اینجا فقط درباره یک رگرسور صحبت میکنیم.
۲- تعیین خوبی برازش رگرسیون با دادهها
فرض کنید با محاسبات کامپیوتری معلوم میشود وقتی نرخ بهره وام خودرو یک درصد افزایش یابد فروش خودرو 5 درصد کاهش مییابد. این اطلاعات مفیدی است اگر که شما در واحد بازاریابی یک شرکت خودروسازی کار میکنید، اما این اطلاعات به شما نمیگوید تغییرات در فروش خودرو که مشاهده میکنید تا چه حد با تغییرات نرخ بهره قابل تبیین است به جای اینکه با سایر عوامل از قبیل تغییر درآمد مصرفکننده قابل تبیین باشد. امکان این هست که پیشبینی هر یک درصد تغییر در نرخ بهره، فروش خودرو را 5 درصد کاهش میدهد کاملا درست باشد و درعین حال میتوان بیشتر تغییرات واقعا مشاهده شده در فروش خودرو را با عواملی به غیر از تغییر نرخ بهره تبیین کرد.
اقتصاددانان و آماردانان، خوبی برازش معادله رگرسیون با دادهها را اندازهگیری میکنند یعنی با چه دقتی میتوان y (فروش خودرو) را به صرف دانستن x (نرخ بهره) پیشبینی کرد. آنها این کار را با استفاده از ضریب همبستگی، R یا در بیشتر اوقات با پسر عموی آن، R۲ ضریب تعیین، انجام میدهند. R و R۲ در دامنه صفر تا یک هستند و با توجه به شرط مهمی که در زیر بحث میشود، نسبت نوسانات در y- یا دقیقتر نسبت مربع نوسانات y- را که با نوسانات در x تبیین شده باشد اندازهگیری میکند؛ اگر چه R۲ نمیتواند منفی باشد چون که مجذور یک عدد طبیعی نمیتواند عدد منفی به دست آید، برخی اوقات با بیقیدی به صورت منفی گزارش میشود تا به خواننده گوشزد کند رابطه بین x و y منفی است.
بنابراین، با فرض ثبات سایر چیزها، اگر میخواهید عواملی را پیدا کنید که به بهترین نحو تغییرات مشاهده شده در متغیر وابسته شما را تبیین میکنند باید یک معادله رگرسیون انتخاب کنید که R2 مثلا 8/0 دارد نسبت به یک معادله رگرسیون که R2 فقط 5/0 دارد، اما در این کار زیادهروی نکنید: تفاوت کوچک در R2 از قبیل تفاوت بین مثلا 834/0 و 830/0 بیمعنی است و شاید حتی معکوس شود اگر برنامه کامپیوتری متفاوتی استفاده میکردید و علاوه بر این، سایر چیزها اغلب اوقات برابر نیستند.
3- در رگرسیون باید به دنبال چه چیزی باشیم؟
کدامیک از این سنجهها مهمتر است، R۲ ،ضریب رگرسیون یا مقدار t؟ پاسخ این است: «هر سه تا». هر سه مهم هستند چون که آنها به پرسشهای متفاوتی پاسخ میدهند. فرض کنید از شما پرسیده میشود رگرسورهای مدل چقدر رفتار y را تبیین یا پیشبینی میکند. پس همان طور که در بالا بحث شد R۲ سنجه مناسب خواهد بود، اما اگر پرسش شما این است که آیا یک واحد نوسان رگرسور، اثر چشمگیری بر متغیر وابسته دارد، پس باید ابتدا به مقدار t ضریب مربوطه نگاه کنید تا از خطر نسبت دادن اهمیت به نتیجه خطای صرف نمونهگیری جلوگیری کنید و نیز باید به معنیدار بودن محتوایی ضریب نگاه کنید تا معلوم شود آیا این اثر به حد کافی بزرگ و مهم هست. در اینجا باید به واحدهایی که x و y اندازهگیری میشوند توجه کرد. برای مثال اگر در تخمین عوامل تعیینکننده نرخ تورم، ضریب رگرسیون کسری فدرال، مثلا ۰۰۱/۰ است، فرق است بین اینکه آیا منظور این است نرخ بهره ۰۰۱/۰ درصد افزایش مییابد وقتی کسری به میزان یک میلیون دلار افزایش مییابد یا این افزایش نتیجه یک افزایش یکمیلیارد دلاری در کسری فدرال است.
توجه به واحدهای اندازهگیری لازم اما نه کافی است تا ثابت شود که آیا ضریب «بزرگ» بوده یا چنان کوچک است که اهمیتی ندارد. در اینجا هیچ قاعده مکانیکی مثل قرار 5 درصد معنیدار بودن آماری نداریم. آنچه نیاز است قضاوت شما و نه قضاوت کامپیوتر است.
هنگام نگاه به ضریب رگرسور باید این دقت را نیز داشت که اندازه آن یا مقدار t آن را با اهمیتش در تبیین تغییرات مشاهده شده در y قاطی نکنید. برای تبیین این تغییرات، آنچه اهمیت دارد نه فقط اندازه ضریب رگرسیون، بلکه اینکه چقدر خود رگرسور تغییر میکند نیز هست. حتی اگر ضریب رگرسیون X۱ بسیار بزرگتر از ضریب رگرسیون X۲ باشد اگر X۲ بسیار بیشتر از X۱ تغییر میکند پس نوسانات احتمالا میتواند نسبت بزرگتری از تغییرات مشاهده شده در y را توضیح دهد. فرض کنید در رگرسیونی که درصد درآمد پسانداز شده خانوادهها را تبیین میکند یک رگرسور X۸ را شامل میکنید برای اینکه آیا خانواده در آن سال یک بچه دارد یا خیر. ضریب رگرسیون برای این رگرسور احتمالا بزرگ است، اما بیشتر نوسانات در درصد درآمد پسانداز شده خانوادهها در نمونه شما را تبیین نخواهد کرد چون که در هر سال خاص، X۸ بیشتر خانوادهها صفر خواهد بود.
حتی اگر فقط علاقهمند به این هستید که رگرسیون شما چقدر خوب میتواند متغیر وابسته را تبیین و پیشبینی کند باید نه فقط به R2 بلکه همچنین به یکایک ضرایب رگرسیون و مقادیر t آنها نگاه کنید. فرض میکنیم فروش کارتهای کریسمس را روی نرخ بیکاری رگرس میکنید و عامل فصلی بودن را در نظر میگیرید و نیز یک رگرسور اضافی که به اصطلاح «متغیر بدلی یا ساختگی» است که در این مورد خاص مقدار 1 را برای ماه دسامبر و مقدار صفر را برای سایر ماهها میگیرد. R2 بالایی به دست میآورید، اما این به شما نمیگوید که تغییر بیکاری اثر زیادی بر فروش کارت کریسمس دارد- شما همچنین یک R2 بالا به دست میآورید حتی اگر به جای نرخ بیکاری، تعداد گربههای به دنیا آمده در آن ماه را استفاده میکردید چون که در این مورد، متغیر بدلی فصلی بودن و نه نرخ بیکاری است که تاثیر میگذارد. داستانی درباره یک فروشنده دورهگرد گفته میشود که به یک روستا رفت و اعلام کرد سنگ مخصوصی برای فروش دارد که با آن میتوان سوپ خوشمزهای درست کرد و حاضر به اثبات آن شد. در حینی که سنگ را با آبجوش میپخت به روستاییان گفت سوپ سنگی خیلی خوشمزه است، اما مزه حتی بهتری پیدا میکند اگر
مقداری هویج به آن اضافه شود. پس روستاییان مقداری هویج به درون قابلمه ریختند. در حینی که هویج پخته میشد به آنها گفت اضافه کردن مقداری پیاز سوپ را حتی خوشمزهتر میکند و پس از افزودن پیاز به آنها گفت برای اینکه سوپ سنگی خیلی بهتری به دست آید آنها باید مقداری گوشت هم اضافه کنند!
سرانجام فرض میکنیم شما فقط علاقهمند به اثری که یک رگرسور معین روی Y دارد هستید و نه به تبیین اینکه چه چیز بیشتر تغییرات در Y را تعیین میکند. با این حال، باید به R۲ نگاه کنید تا ببینید آیا رگرسیون به حد کافی معنیدار بودن نوسان در Y را تبیین میکند. اگر یک رگرسیون، ۹۸ درصد تغییرات در Y را تبیین نشده باقی میگذارد پس نمیتوان اعتماد زیادی به آن کرد.
پس R2 باید چقدر بزرگ باشد تا ضرایب رگرسیون معنیدار باشند؟ پرسش خوبی است، اما پرسشی است که پاسخ خوبی ندارد. تا حدی بستگی به این دارد که R2رگرسیونهای رقیب چقدر بالا بودهاند. آن همچنین به مشخصات متغیر وابسته بستگی دارد. برای مثال فرض کنیم قصد تبیین نرخ پسانداز خانوادهها را دارید. اگر متغیر وابسته شما نرخ پسانداز هر کدام از خانوادهها باشد R2 پایینی به دست خواهید آورد، چون که بسیاری عوامل شخصیشده که در معادله رگرسیون شما وجود ندارند از قبیل از دست دادن شغل، دریافت یک هدیه با ارزش و غیره بر نسبت پسانداز خانوادههای خاصی تاثیر خواهند گذاشت، اما اگر دادههای شما میانگین نرخ پسانداز خانوادههایی باشد که درون طبقات درآمدی گوناگون مرتب شدهاند این عوامل شخصی شده اساسا حذف خواهد شد، به طوری که باید R2 بالاتری به دست آورید. برخی بررسیها کهR2، 2/0 یا حتی کمتر داشتند در نشریات کاملا معتبر علمی منتشر شدند اگر چه خود منR2 چنین پایینی را تا حدی نگرانکننده میبینم. در سوی دیگر قضیه،R2 مثلا 998/0 نیز نگرانکننده است چون که بیش از حد خوب است که واقعی به نظر رسد و شاید به این علت باشد که هر دو متغیر روند زمانی
یکسانی دارند یا Y یک عنصر مشترک با X دارد.
4- جمعبندی مطالب
چون که این بحث پیچیده است پس آن را مرور میکنیم. فرض میکنیم شما مقالهای مینویسید که آیا طی رکود اقتصادی دولت باید به صنعت ساختمان مسکونی کمک کند یا نه. تارنمای این صنعت استدلال میآورد هر گونه که ساختوساز مسکونی پیش برود اقتصاد ملی هم همان طور پیش میرود و استدلال خود را با یک رگرسیون تقویت میکند که مقادیر فصلی GDP (متغیر وابسته) را به GDP فصل قبلی و به ساخت و ساز مسکونی آن فصل مرتبط میکند. R۲ وی ۹۱/۰ است. مساله علیت را به کنار میگذاریم. آیا باید تحت تاثیر اینها قرار بگیریم؟ نه واقعا. چون که GDP در هر فصلی، همبستگی بالایی با GDP فصل قبلی دارد، پس احتمال دارد R۲ بالایی به دست آورید حتی اگر نوسانات درجه حرارت در هند را به جای ساخت و ساز مسکونی استفاده میکردید. بنابراین به ضریب رگرسیون ساخت و ساز
مسکونی نیز نگاه میکنید و متوجه میشوید که کاملا معنیدار است؛ یک دلاری که خرج ساخت و ساز مسکونی میشود GDP را 4 دلار بالا میبرد. این کمی نامعقول به نظر میرسد پس به مقدار t این ضریب نگاه میکنید که عدد 5/0 شده است. شما به درستی استدلال این صنعت را رد میکنید.
حال موضوع را اندکی پیچیده میکنیم. مقدار t، ۹/۱ بوده است، اینک چه میگویید؟ شما میتوانید همچنان سرسختی نشان دهید و بگویید چون احتمال این که مقدار واقعی ضریب صفر باشد بیشتر از ۵ درصد هست، پس استدلال صنعت را نخواهید پذیرفت. یا اینکه میتوانید بگویید در حالی که صنعت معیار اثبات علمی را رعایت نکرده است احتمال قابل توجهی میرود که مقدار واقعی ضریب بزرگتر از صفر باشد. پس شاید با احتیاط استدلال صنعت را بپذیرید. در واقع شما باید اینکار را بکنید اگر فکر میکنید زیان پذیرفتن این شاهد به نفع موضع صنعت وقتی که واقعا نادرست است بیشتر از زیان نپذیرفتن آن وقتی که واقعا درست است، نباشد.
۵- نگاه کردن به دندانهای اسب بارکش
تحلیل رگرسیون ابزار قدرتمندی است که در بیشتر حوزهها و برای اهداف گوناگون استفاده میشود، اما قابلیت گمراه کردن را نیز دارد. چهار دام مهم عبارتند از:
خطر نسبت دادن روابط گذشته به آینده، نیاز به گنجاندن متغیرهای کنترل درست، احتمال به اشتباه افتادن با یک یا چند مشاهده پرت و خطر استنتاج علیت از وجود همبستگی.
با خواندن خطراتی که ذکر شد، شاید این احساس به شما دست دهد که تحلیل رگرسیون؛ بنابراین بیشتر تحلیل اقتصاد تجربی بهعلاوه بسیاری از پژوهشهای دیگر علوم اجتماعی کارهای بیارزشی هستند که ما بهتر است به درک شهودی، احساس و قضاوت شخصی خود متکی باشیم. این طور نیست. قطعا این گونه نیست. چنین برداشتی به اندازه نظری درست است که پس از خواندن کتابی درباره بیماریها پیدا میکنید: اینکه شما مبتلا به انواع بیماریها هستید. من به عنوان کسی که بیشتر عمرش را در پژوهشهای اقتصادی تجربی صرف کرده است، از جمله بسیاری معادلات رگرسیونی انجام دادم، قطعا فکر نمیکنم که آنها بیفایده هستند.
گذشته، آینده نیست
ظاهرا اگر شما غیبگو نباشید همه دادههایی که در اختیار دارید از گذشته میآید و اگر بخواهید فقط رویدادهای گذشته را تبیین کنید، بسیار خوب است و کسی با آن مخالفتی ندارد، اما بیشتر اوقات به آینده هم علاقهمند هستیم و این فرض که آینده دقیقا شبیه گذشته خواهد بود میتواند فرضی مشکلآفرین باشد. برای مثال رگرسیونهایی که در دهههای ۱۹۶۰ و ۱۹۷۰ برآورد گردیدند رابطهای ثابت بین عرضه پول و GDP اسمی نشان میدادند، اما برای تغییرات در زمان کوتاهمدتتر در دهه ۱۹۸۰، این رابطه تقریبا ناپدید شد، در دهه ۸۰
نوآوریهای مالی، مقرراتزدایی بازارهای مالی و نرخهای بهره بالا باعث شد تا شیوه پرداختهای خانوارها و بنگاه و نیز شیوه مدیریت داراییهای مالی آنها تغییر کند (یک مثال کارتهای اعتباری هستند). مشکل مشابهی در سال 8-2007 و در زمانی بهوجود آمد که اقتصاددانان سعی کردند آمدن یک رکود اقتصادی را پیشبینی کنند و اینکه در صورت وقوع چقدر عمیق است. به علت زیانهایی که نظام مالی از اوراق بهادار به پشتوانه وامهای رهنی و سایر داراییها دیده است، این نظام بسیار شکنندهتر از هر زمانی از هنگام بحران بزرگ تاکنون شده است؛ بنابراین مدلهای اقتصادسنجی بر اساس رگرسیون که به دادههای پس از جنگ جهانی دوم برازش میشوند چیزهای اندکی درباره چگونگی تاثیرگذاری چنین شکنندگی مالی بر اقتصاد به ما میگوید. به همین ترتیب، پس از سقوط بازار سهام، معادله رگرسیونی که در تخمینهای پیشین قیمت سهام، برازشهای خیلی خوبی داشته است اینک خودش را نه به شکل یک دوست قابل اعتماد، بلکه به شکل دشمنی نابکار نشان خواهد داد.
حالت خاصی که ضرایب رگرسیون بیثبات هستند زمانی پیش میآید که دولت سیاست خود را تغییر میدهد. فرض کنید دولت قبلا مالیاتها را فقط زمانی کاهش میداد که قصد داشت آن را برای مدت طولانی در سطح پایینتری نگه دارد. یک اقتصاددان سپس یک رگرسیون را تخمین میزند تا اثر کاهش مالیاتها را بر مصرف اندازه بگیرد. او یک ضریب بزرگ و کاملا معنیدار پیدا میکند. این یافته دولت را تشویق به اقتباس یک سیاست جدید میکند. از این به بعد، دولت مالیاتها را طی دوره رکود کاهش خواهد داد تا مصرف را تقویت کند و سپس دوباره مالیاتها را بالا میبرد وقتی اقتصاد به حالت عادی برگشت.
اما پس از مدتی مردم متوجه قضیه میشوند و میدانند که وقتی مالیاتهایشان کاهش مییابد به زودی دوباره افزایش خواهد یافت. اکنون وقتی مالیاتها کاهش مییابد آنها مصرفشان را تقریبا به همان اندازه قبل افزایش نخواهند داد؛ بنابراین برگزیدن سیاست جدید، باعث میشود تا ضرایب رگرسیون قبلی کهنه و بیاستفاده شود که سیاست جدید هم روی آن بنا شده است. این به «انتقاد لوکاس» مشهور شده است چون که نخستین بار رابرت لوکاس برنده جایزه نوبل آن را مطرح کرد. در حالی که همه اصولا میپذیرند حق با لوکاس است و تغییر سیاست باعث قدیمی شدن ضرایب رگرسیون قبلی میشود درباره اهمیت مقداری آن اختلاف نظر وجود دارد. بیشتر اقتصاددانان در حالی که اعتبار منطقی انتقاد لوکاس را میپذیرند، آن را برای مسائل عملی روزمره نسبتا بیاهمیت میدانند چون آنها انتظار دارند عامه مردم انتظارات خود درباره سیاست دولت را خیلی آهسته تغییر دهند. سایرین فکر میکنند که انتقاد لوکاس بیشتر پیشبینیهای قبلا مرسوم از اثر تغییرات سیاست دولت را بیاعتبار میسازد. انتقاد لوکاس برای برخی تغییرات سیاسی بسیار مهمتر از سایر تغییرات سیاستی است، اما در کل، هیات منصفه هنوز حکم قطعی
صادر نکرده است. ضرایب بیثبات نه فقط برای مطالعاتی که از دادههای سری زمانی استفاده میکنند، بلکه برای مطالعاتی که از دادههای مقطعی استفاده میکنند یعنی دادههایی که در یک لحظه خاص به دست آمده است از قبیل نظرسنجیها از بیکاری جاری نیز مشکلزا هستند. برای مثال اکنون که مردم از خطرات سیگار کشیدن بسیار باخبرتر شدهاند، معادله رگرسیونی که تفاوت مصرف سیگار را در دهه 1950 خیلی خوب تبیین میکرد حالا دیگر شاید نتواند چنین کاری بکند.
انتخاب متغیرهای کنترل
فرض میکنیم که شما فروش خودروی بیامو را روی قیمت آن رگرس میکنید. انتظار داریم ضریب رگرسیون منفی باشد چون که علیالظاهر در قیمتهای بالاتر، خودروی کمتری خریداری میشود، اما کامپیوتر شما در عوض یک ضریب مثبت تحویل میدهد. دلیل آن را اینجا آوردیم. در آن زمانهایی که درآمد مردم به سرعت افزایش مییابد بیامو بیشتری خریداری میشود و این زمان دقیقا موقعی است که فروشندگان هم قیمتهای خود را بالا میبرند. (اگر بر اساس منحنیهای عرضه و تقاضا بخواهیم صحبت کنیم منحنی تقاضا به سمت بالا و راست جابهجا میشود و اینک در قیمتهای بیشتری منحنی عرضه را قطع میکند.) اما شما به کامپیوتر چیزی درباره افزایش درآمد مصرفکنندگان نگفتهاید و تعجبی ندارد که کامپیوتر همه مشاهداتی که نشان میدهد هر دو قیمت و فروش در حال افزایش هستند به عنوان وجود رابطهای مثبت بین قیمت و فروش تفسیر کند. بیتردید، در این بین مشاهداتی نیز وجود دارد که قیمت بیامو بالا میرود و فروش کاهش مییابد (که این را حرکت روی منحنی تقاضا میگوییم) و اینها را به درستی به عنوان رابطهای منفی بین قیمت و فروش تفسیر میکند، اما امکان دارد فقط یک ضریب رگرسیون به شما
بدهد که هر دو حالت را دربر میگیرد. پس ضریبی تحویل شما میدهد که ملغمهای بیمعنی بوده و امکان دارد مثبت یا منفی باشد.
مثال دیگری میآوریم و فرض میکنیم درآمد را فقط روی تحصیلات رگرس میکنید. با اینکار چیزهایی را از قلم میاندازید. افرادی که تحصیلات بیشتری دارند معمولا ضریب هوشی بالاتری دارند و نیز در هر سطحی از تحصیلات، کسانی که ضریب هوشی بالایی دارند معمولا درآمد بالاتری دارند، اما چون به کامپیوتر چیزی درباره ضریب هوشی نگفتهاید تمام کاری که آن میتواند بکند کل تفاوت درآمدی مردم با میزان متفاوت تحصیلات را فقط به تحصیلات نسبت میدهد. با انجام این کار، کامپیوتر ضریب رگرسیونی بیرون میدهد که خیلی بالا است، چون که اثر تفاوتها در ضریب هوشی را در کنار تفاوتها در تحصیل شامل میکند.
مثال سومی هم برایتان آوردهایم: در برخی مناطق بالکان، تعداد بچههای متولد شده همبستگی مثبتی با تعداد لکلکها دارد. دلیل آن این است که در روستاهای بزرگ بچههای بیشتر به دنیا میآیند و نیز دودکشهای بخاری بیشتری دارند که لکلکها روی آنها آشیانه میسازند. باز هم بخواهیم مثال دیگری بیاوریم، همبستگی بین اندازه پای دانشآموزان دبستانی و نمرات درس انجیلخوانی است. بچههای بزرگتر پاهای بزرگتری دارند.
برای اینکه از چنین سردرگمی تا حد امکان رهایی یابیم معمولا باید در رگرسیون خود، برخی رگرسورهای اضافی را اضافه کنیم که «متغیرهای مشروطسازی» یا «متغیرهای کنترل» نامیده میشوند و هیچ علاقه ذاتی به این متغیرها نداریم، فقط به این خاطر به آنها علاقه داریم که ضرایب و مقادیر t متغیرها را آلوده نخواهند کرد؛ بنابراین در مثال بالا، با گنجاندن متغیر کنترلی ضریب هوشی، به کامپیوتر این اجازه را میدهیم تا اثرات ضریب هوشی را از ضریبی که برای اثر تحصیل بر درآمد محاسبه میکند دور نگه دارد.
تصمیمگیری در اینباره که چه متغیرهای کنترلی را بگنجانیم اغلب اوقات دشوار است. تئوری اقتصادی به شما میگوید که- با فرض ثبات سایر شرایط- اگر X رخ میدهد Y نتیجه آن خواهد بود، اما اغلب صحبت کافی نمیکند که چه چیزهایی را در فرض ثبات سایر شرایط حبس میکنیم و بنابراین باید به عنوان متغیر کنترل بالقوه در نظر گرفت. یا اگر که برخی از این متغیرها را مشخص میسازد آن را معمولا فقط با عبارات کلی از قبیل «درآمد» ذکر میکند. آیا منظور از درآمد، فقط درآمد جاری است یا درآمد گذشته نیز هست و اگر بلی تا چه حد به عقب برویم؟ و درباره درآمدهای انتظاری آینده چه میگوییم؟
راهحل به نظر بدیهی میرسد: همه متغیرهای کنترل بالقوه مرتبط و مهم را شامل کنید: اما این توصیه چندین مشکل را به همراه دارد. یکی اینکه برخی از این متغیرها را نمیتوان شامل کرد چون که آنها قابل اندازهگیری نیستند. برای نمونه، در مثال پیشین تحصیل و درآمد، جاهطلبی یک شخص را باید به عنوان متغیر کنترل شامل کرد اما معمولا دادههایی نداریم که آن را اندازهگیری کند.
علاوه بر این اگر یک متغیر کنترل دارای همبستگی مثبت قوی با رگرسوری باشد که شما به آن علاقهمند هستید، پس در یک نمونه کوچک، شامل کردن آن میتواند مقدار t آن رگرسور را بهشدت پایین آورد چون کامپیوتر مقداری از اثرات رگرسوری را که به آن علاقهمند هستید به متغیر کنترل نسبت میدهد. بیشتر اقتصاددانها برای اینکه چنین مشکلی را برطرف کنند پس از تخمین رگرسیون با متغیرهای کنترل بیشمار، همه آنهایی را که از نظر آماری در سطح ۵ درصد معنیدار نیستند حذف میکنند و دوباره رگرسیون را تخمین میزنند و فقط این رگرسیون دوم را گزارش میدهند.
مساله دیگر این است که آزمایش کردن با ترکیباتی از متغیرهای کنترل گوناگون، راه را روی آزمایش کردن تا زمانی که مجموعه متغیرهایی پیدا کنید که نتایج دلخواه و پشتیبانیکننده تئوری شما را بدهد باز میکند- بحث دادهکاوی را که پیشتر آوردیم به خاطر آورید.
ادامه درقسمت دوم(خبر بعدی)
ارسال نظر