تحلیل رگرسیون: موتور حرکت اقتصاد تجربی(قسمت اول-ادامه در خبر بعدی)
توماس مایر
مترجم: جعفر خیرخواهان
در جایگاه قضاوت نشستن، باعث می‌شود تا شخص بیش از آن که به سطح معنی‌دار بودن آماری توجه کند نگران روابط آماری باشد. معنی‌دار بودن نتایج فقط در صورتی قابل تایید است که درک عمیقی از همه جنبه‌های مساله داشته باشیم.

باید شناخت کافی از همه تئوری‌های مرتبط با موضوع داشت و ادبیات گسترده درباره آن موضوع و نهادهایی را که نقش مهمی در مساله مورد بررسی دارند، شناخت.
(دیوید کلاندر، «چگونگی شکل‌گیری اقتصاددان»، ص 243)

ابزار اصلی آماری که در علم اقتصاد استفاده می‌شود تحلیل رگرسیونی است. در این شیوه به دو یا چند سری آماری نگاه می‌کنیم که آیا به نحوی سازگار با هم در یک جهت یا در جهت مقابل حرکت می‌کنند و اگر این‌طور است وقتی یکی از سری‌ها تغییر می‌کند سری دیگر چقدر تغییر خواهد کرد: به عبارت دیگر هم‌ارتباطی آنها چگونه بوده و چقدر دقیق است. فرض کنید قصد داریم فروش یخچال را تبیین یا پیش‌بینی کنیم. فروش یخچال را «متغیر وابسته» می‌نامیم چون که می‌خواهیم بدانیم به چه متغیرهایی وابسته است. سپس به تئوری اقتصادی یا به فهم مشترک عمومی متوسل می‌شویم تا به ما بگوید عوامل تعیین‌کننده- که آنها را «متغیر مستقل» یا گاهی اوقات «رگرسورها» می‌نامند- چه هستند. آنها را «متغیر مستقل» می‌نامند چون در حالی که روی فروش یخچال تاثیر می‌گذارند فرض می‌کنیم فروش یخچال در مقابل تاثیری بر آنها نمی‌گذارد. (این امکان نیز هست که مجموعه معادلات رگرسیون را به طور همزمان حل کنیم که متغیر وابسته در یک معادله، متغیر مستقل در معادله دیگر می‌شود.)
در علوم طبیعی اغلب اوقات، دو متغیر رابطه دقیق دارند که می‌توان به صورت یک قانون علمی بیان کرد. برای مثال. متغیر y همیشه دقیقا b برابر متغیر دیگر x است. در این حالت، نیازی به تحلیل رگرسیونی نیست. تمام کاری که باید انجام داد دقت در مقادیر هر جفت x و y است و با استفاده از اینها می‌توان مقدار b را حساب کرد، اما اگر x تنها متغیری نباشد که بر y تاثیر می‌گذارد چنین روشی نتیجه نمی‌دهد. همان طور که در شکل ۱ دیده می‌شود رابطه بین x و y دقیق نیست.

شکل ۱- رابطه بین دو متغیر
جایگاه متغیر x را روی محور افقی در نظر بگیرید. برخی نقاط در جایگاه بسیار بالایی روی محور عمودی قرار دارند و برعکس. یک شیوه فهمیدن تحلیل رگرسیونی این است که تصور کنیم رابطه زیربنایی دقیقی بین x و y وجود دارد، چنان که y برابر 3x است، اما پیش از اینکه داده‌ها به دست شما برسد یک نفر شیطنت کرده است و مقداری اعداد تصادفی مثبت و منفی روی yها انداخته است. وظیفه شما پی‌بردن به روابط واقعی x و y از میان مشاهدات آلوده‌شده‌ای است که به شما داده شده است. مشخصا این کارها را باید بکنید: (1) میزان تاثیری را که یک واحد تغییر x روی y می‌گذارد تعیین کنید؛ (2) ارزیابی کنید که آیا این اثر از نظر آماری معنی‌دار است و (3) برآورد کنید چه نسبتی از تغییر در y که مشاهده کرده‌ایم به خاطر تغییرات در x بوده است.

1- ضریب رگرسیون
برای سادگی فرض کنید رابطه بین x و y را می‌توان با یک خط راست نشان داد. معادله خط راست با وجود تنها یک متغیر مستقل به این صورت درمی‌آید:
y = a + bx که a و b اعداد ثابت هستند؛ یعنی اعدادی مثل 34 یا 8 که تغییر نمی‌کنند. پس b به شما می‌گوید که اگر x به میزان 1 واحد تغییر کند، y به اندازه 8 واحد تغییر می‌کند. b شبیه چرخ دنده است که تغییرات از x را به y انتقال می‌دهد.
پس آنچه رگرسیون x روی y انجام می‌دهد انتخاب مقادیر خاصی برای a و b است که بهترین پیش‌بینی از y را که با دانستن مقدار x می‌توانید به دست آورید به شما می‌دهد. دقیق‌تر اینکه بگوییم کامپیوتر آن مقادیری را برای a و b انتخاب می‌کند که مجذور تفاوت‌های بین مقادیر واقعی y و مقادیر y که رگرسیون پیش‌بینی می‌کند به حداقل می‌رساند. برای ساده‌سازی بحث، لحظه‌ای مجذور کردن و نیز عدد ثابت a را فراموش کرده و فکر کنید چگونه وضعیتی را توصیف می‌کنید که به صورت یک قاعده کلی هر وقت x به میزان ۱ واحد افزایش یافت، y به اندازه ۳ واحد افزایش می‌یابد، اما برخی اوقات یک کمی بیشتر و برخی اوقات یک کمی کمتر افزایش می‌یابد. آیا منطقی نخواهد بود که بگوییم: y برابر با ۳x به علاوه یا منهای یک عامل سرهم کردنی است؟ این عامل سرهم کردنی را «جمله خطا» می‌نامیم. مادامی که این حالت از خطاهای نمونه‌گیری تصادفی ناشی می‌شود، در نمونه به حدی کافی بزرگ جمله خطا توزیع نرمال خواهد داشت. همان طور که نمونه بزرگ‌تر و بزرگ‌تر می‌شود با داشتن اعداد مثبت و منفی که میل به حذف کردن هم دارند، عامل سرهم کردنی به صفر نزدیک می‌گردد، اما مادامی که وجود عامل سرهم کردنی به علت تاثیر برخی متغیرهای مستقل اضافی نباشد که به اشتباه حذف کرده‌ایم، ما همچنین فرض می‌کنیم، یا درست‌تر اینکه بگوییم امیدوار هستیم این خطاها نیز به صورت نرمال توزیع شده باشند؛ بنابراین تقریبا همدیگر را خنثی نمایند.
فرض کنید کامپیوتر حساب می‌کند که a مثلا 10 و b مثلا 3 شده است. وجود خطاهای نمونه‌گیری و سایر خطاها (یعنی عامل سرهم کردنی) به ما اجازه نمی‌دهد که بگوییم هر وقت x مساوی 1 است y باید 13 باشد، اما مادامی که این خطاها تصادفی باشند، از بخش‌های بعدی می‌دانیم در این‌باره چه کار باید کرد. ما به خطاهای معیار نگاه می‌کنیم (یعنی انحراف معیار) تا دامنه‌ای که به نحو معقولی می‌توان انتظار داشت a و b در آن محدوده جای گیرند به دست آید، (معمولا تا منها و به علاوه دو خطای معیار پیش می‌رود تا سطح احتمال 5 درصد به دست آید). یا اگر ما صرفا می‌خواهیم بدانیم آیا احتمال کمتر از 5 درصدی وجود دارد که در جامعه، a یا b واقعا صفر هستند، مقادیر آنها را که «برآوردهای نقطه‌ای» نامیده می‌شوند بازبینی می‌کنیم که آیا از صفر به اندازه بیشتر از دو خطای معیار تفاوت دارند یعنی مقدار t آنها 2 یا بزرگ‌تر از 2 باشد.
این a و b واقعا چه چیزی را اندازه‌گیری می‌کنند؟ از آنجا که a یک عدد ثابت است؛ یعنی بدون توجه به مقداری که x می‌گیرد مقدار آن فرقی نمی‌کند، آن را می‌توان اینگونه تفسیر کرد: مقدار y، وقتی x صفر باشد. به طوری که می‌تواند منفی، مثبت یا صفر باشد. از آنجا که ما عمدتا می‌خواهیم بدانیم چگونه x بر y تاثیر می‌گذارد و نه اینکه وقتی x صفر است y چه مقدار می‌شود، به این جمله ثابت معمولا علاقه‌ای نشان داده نمی‌شود. به جای آن، علاقه زیادی به ضریب b داریم که «ضریب رگرسیون» نامیده می‌شود. به شکل نموداری، b شیب خط رگرسیون است؛ یعنی خطی که از میان خوشه نقاط (مشاهدات) کشیده شده است به طوری که مربعات انحرافات این نقاط از خط را به حداقل می‌رساند و با این معنی، بهترین تصویر از مشاهدات است.
تا اینجا فرض کردم رابطه بین x و y را می‌توان با یک خط راست توصیف کرد. اگر بخواهیم علمی سخن بگوییم دلیلی ندارد که چرا باید اینگونه باشد، اما معمولا آن خط، تقریب کافی و نزدیکی است که ما بتوانیم استفاده کنیم. همچنین امکان استفاده از معادلات رگرسیونی که رگرسورهای غیرخطی از قبیلX2 دارند هست، اما برخی اوقات باعث می‌شود تا برنامه کامپیوتری به هم بریزد و وقتی داده‌ها با رسم خط راستی از اعداد طبیعی به خوبی قابل توصیف نباشند ما رگرسیون را روی لگاریتم آنها برازش می‌کنیم. استفاده از لگاریتم این مزیت را دارد که تغییرات در هر دو متغیرهای وابسته و مستقل را می‌توان به صورت درصد تغییرات خواند.
تا اینجا ما فقط با یک رگرسور کار کردیم، اما معمولا اوضاع و احوال پیچیده‌تر است چون که رفتار y وابسته به عوامل بسیاری است؛ برای مثال، تقاضا برای خودرو نه فقط به قیمت خودرو، بلکه به قیمت بنزین و حمل و نقل عمومی، قیمت کالاهای رقیب و جانشین، به درآمد و به عشق و علاقه مردم به داشتن خودرو نیز بستگی دارد. بنابراین اغلب اوقات نیاز است تا رگرسورهای بیشتری را بگنجانیم: مثلا اگر پنج متغیر مستقل، اثر چشمگیری بر متغیر وابسته داشته باشند باید معادله رگرسیون را به این صورت بنویسیم:
y=a +bx1 +cx2 +dx3 +ex4 +fx5 +e
که پایین‌نویس‌های هر x بیانگر رگرسورهای متفاوت است و e جمله خطا می‌باشد. می‌توان متغیرهای مستقل بسیاری را در رگرسیون جای داد به شرط اینکه مشاهدات کافی داشته باشیم. بیشتر رگرسیون‌ها اینک از بیش از یک رگرسور استفاده می‌کنند، اما برای اینکه بحث را ساده نگه داریم در اینجا فقط درباره یک رگرسور صحبت می‌کنیم.

۲- تعیین خوبی برازش رگرسیون با داده‌ها
فرض کنید با محاسبات کامپیوتری معلوم می‌شود وقتی نرخ بهره وام خودرو یک درصد افزایش یابد فروش خودرو 5 درصد کاهش می‌یابد. این اطلاعات مفیدی است اگر که شما در واحد بازاریابی یک شرکت خودروسازی کار می‌کنید، اما این اطلاعات به شما نمی‌گوید تغییرات در فروش خودرو که مشاهده می‌کنید تا چه حد با تغییرات نرخ بهره قابل تبیین است به جای اینکه با سایر عوامل از قبیل تغییر درآمد مصرف‌کننده قابل تبیین باشد. امکان این هست که پیش‌بینی هر یک درصد تغییر در نرخ بهره، فروش خودرو را 5 درصد کاهش می‌دهد کاملا درست باشد و درعین حال می‌توان بیشتر تغییرات واقعا مشاهده شده در فروش خودرو را با عواملی به غیر از تغییر نرخ بهره تبیین کرد.
اقتصاددانان و آماردانان، خوبی برازش معادله رگرسیون با داده‌ها را اندازه‌گیری می‌کنند یعنی با چه دقتی می‌توان y (فروش خودرو) را به صرف دانستن x (نرخ بهره) پیش‌بینی کرد. آنها این کار را با استفاده از ضریب همبستگی، R یا در بیشتر اوقات با پسر عموی آن، R۲ ضریب تعیین، انجام می‌دهند. R و R۲ در دامنه صفر تا یک هستند و با توجه به شرط مهمی که در زیر بحث می‌شود، نسبت نوسانات در y- یا دقیق‌تر نسبت مربع نوسانات y- را که با نوسانات در x تبیین شده باشد اندازه‌گیری می‌کند؛ اگر چه R۲ نمی‌تواند منفی باشد چون که مجذور یک عدد طبیعی نمی‌تواند عدد منفی به دست آید، برخی اوقات با بی‌قیدی به صورت منفی گزارش می‌شود تا به خواننده گوشزد کند رابطه بین x و y منفی است.
بنابراین، با فرض ثبات سایر چیزها، اگر می‌خواهید عواملی را پیدا کنید که به بهترین نحو تغییرات مشاهده شده در متغیر وابسته شما را تبیین می‌کنند باید یک معادله رگرسیون انتخاب کنید که R2 مثلا 8/0 دارد نسبت به یک معادله رگرسیون که R2 فقط 5/0 دارد، اما در این کار زیاده‌روی نکنید: تفاوت کوچک در R2 از قبیل تفاوت بین مثلا 834/0 و 830/0 بی‌معنی است و شاید حتی معکوس شود اگر برنامه کامپیوتری متفاوتی استفاده می‌کردید و علاوه بر این، سایر چیزها اغلب اوقات برابر نیستند.

3- در رگرسیون باید به دنبال چه چیزی باشیم؟
کدامیک از این سنجه‌ها مهم‌تر است، R۲ ،ضریب رگرسیون یا مقدار t؟ پاسخ این است: «هر سه تا». هر سه مهم هستند چون که آنها به پرسش‌های متفاوتی پاسخ می‌دهند. فرض کنید از شما پرسیده می‌شود رگرسورهای مدل چقدر رفتار y را تبیین یا پیش‌بینی می‌کند. پس همان طور که در بالا بحث شد R۲ سنجه مناسب خواهد بود، اما اگر پرسش شما این است که آیا یک واحد نوسان رگرسور، اثر چشمگیری بر متغیر وابسته دارد، پس باید ابتدا به مقدار t ضریب مربوطه نگاه کنید تا از خطر نسبت دادن اهمیت به نتیجه خطای صرف نمونه‌گیری جلوگیری کنید و نیز باید به معنی‌دار بودن محتوایی ضریب نگاه کنید تا معلوم شود آیا این اثر به حد کافی بزرگ و مهم هست. در اینجا باید به واحدهایی که x و y اندازه‌گیری می‌شوند توجه کرد. برای مثال اگر در تخمین عوامل تعیین‌کننده نرخ تورم، ضریب رگرسیون کسری فدرال، مثلا ۰۰۱/۰ است، فرق است بین اینکه آیا منظور این است نرخ بهره ۰۰۱/۰ درصد افزایش می‌یابد وقتی کسری به میزان یک میلیون دلار افزایش می‌یابد یا این افزایش نتیجه یک افزایش یک‌میلیارد دلاری در کسری فدرال است.
توجه به واحدهای اندازه‌گیری لازم اما نه کافی است تا ثابت شود که آیا ضریب «بزرگ» بوده یا چنان کوچک است که اهمیتی ندارد. در اینجا هیچ قاعده مکانیکی مثل قرار 5 درصد معنی‌دار بودن آماری نداریم. آنچه نیاز است قضاوت شما و نه قضاوت کامپیوتر است.
هنگام نگاه به ضریب رگرسور باید این دقت را نیز داشت که اندازه آن یا مقدار t آن را با اهمیتش در تبیین تغییرات مشاهده شده در y قاطی نکنید. برای تبیین این تغییرات، آنچه اهمیت دارد نه فقط اندازه ضریب رگرسیون، بلکه اینکه چقدر خود رگرسور تغییر می‌کند نیز هست. حتی اگر ضریب رگرسیون X۱ بسیار بزرگ‌تر از ضریب رگرسیون X۲ باشد اگر X۲ بسیار بیشتر از X۱ تغییر می‌کند پس نوسانات احتمالا می‌تواند نسبت بزرگ‌تری از تغییرات مشاهده شده در y را توضیح دهد. فرض کنید در رگرسیونی که درصد درآمد پس‌انداز شده خانواده‌ها را تبیین می‌کند یک رگرسور X۸ را شامل می‌کنید برای اینکه آیا خانواده در آن سال یک بچه‌ دارد یا خیر. ضریب رگرسیون برای این رگرسور احتمالا بزرگ است، اما بیشتر نوسانات در درصد درآمد پس‌انداز شده خانواده‌ها در نمونه شما را تبیین نخواهد کرد چون که در هر سال خاص، X۸ بیشتر خانواده‌ها صفر خواهد بود.
حتی اگر فقط علاقه‌مند به این هستید که رگرسیون شما چقدر خوب می‌تواند متغیر وابسته را تبیین و پیش‌بینی کند باید نه فقط به R2 بلکه همچنین به یکایک ضرایب رگرسیون و مقادیر t آنها نگاه کنید. فرض می‌کنیم فروش کارت‌های کریسمس را روی نرخ بیکاری رگرس می‌کنید و عامل فصلی بودن را در نظر می‌گیرید و نیز یک رگرسور اضافی که به اصطلاح «متغیر بدلی یا ساختگی» است که در این مورد خاص مقدار 1 را برای ماه دسامبر و مقدار صفر را برای سایر ماه‌ها می‌گیرد. R2 بالایی به دست می‌آورید، اما این به شما نمی‌گوید که تغییر بیکاری اثر زیادی بر فروش کارت کریسمس دارد- شما همچنین یک R2 بالا به دست می‌آورید حتی اگر به جای نرخ بیکاری، تعداد گربه‌های به دنیا آمده در آن ماه را استفاده می‌کردید چون که در این مورد، متغیر بدلی فصلی بودن و نه نرخ بیکاری است که تاثیر می‌گذارد. داستانی درباره یک فروشنده دوره‌گرد گفته می‌شود که به یک روستا رفت و اعلام کرد سنگ مخصوصی برای فروش دارد که با آن می‌توان سوپ خوشمزه‌ای درست کرد و حاضر به اثبات آن شد. در حینی که سنگ را با آبجوش می‌پخت به روستاییان گفت سوپ سنگی خیلی خوشمزه است، اما مزه حتی بهتری پیدا می‌کند اگر مقداری هویج به آن اضافه شود. پس روستاییان مقداری هویج به درون قابلمه ریختند. در حینی که هویج پخته می‌شد به آنها گفت اضافه کردن مقداری پیاز سوپ را حتی خوشمزه‌تر می‌کند و پس از افزودن پیاز به آنها گفت برای اینکه سوپ سنگی خیلی بهتری به دست آید آنها باید مقداری گوشت هم اضافه کنند!
سرانجام فرض می‌کنیم شما فقط علاقه‌مند به اثری که یک رگرسور معین روی Y دارد هستید و نه به تبیین اینکه چه چیز بیشتر تغییرات در Y را تعیین می‌کند. با این حال، باید به R۲ نگاه کنید تا ببینید آیا رگرسیون به حد کافی معنی‌دار بودن نوسان در Y را تبیین می‌کند. اگر یک رگرسیون، ۹۸ درصد تغییرات در Y را تبیین نشده باقی می‌گذارد پس نمی‌توان اعتماد زیادی به آن کرد.
پس R2 باید چقدر بزرگ باشد تا ضرایب رگرسیون معنی‌دار باشند؟ پرسش خوبی است، اما پرسشی است که پاسخ خوبی ندارد. تا حدی بستگی به این دارد که R2رگرسیون‌های رقیب چقدر بالا بوده‌اند. آن همچنین به مشخصات متغیر وابسته بستگی دارد. برای مثال فرض کنیم قصد تبیین نرخ پس‌انداز خانواده‌ها را دارید. اگر متغیر وابسته شما نرخ پس‌انداز هر کدام از خانواده‌ها باشد R2 پایینی به دست خواهید آورد، چون که بسیاری عوامل شخصی‌شده که در معادله رگرسیون شما وجود ندارند از قبیل از دست دادن شغل، دریافت یک هدیه با ارزش و غیره بر نسبت پس‌انداز خانواده‌های خاصی تاثیر خواهند گذاشت، اما اگر داده‌های شما میانگین نرخ پس‌انداز خانواده‌هایی باشد که درون طبقات درآمدی گوناگون مرتب شده‌اند این عوامل شخصی شده اساسا حذف خواهد شد، به طوری که باید R2 بالاتری به دست آورید. برخی بررسی‌ها کهR2، 2/0 یا حتی کمتر داشتند در نشریات کاملا معتبر علمی منتشر شدند اگر چه خود منR2 چنین پایینی را تا حدی نگران‌کننده می‌بینم. در سوی دیگر قضیه،R2 مثلا 998/0 نیز نگران‌کننده است چون که بیش از حد خوب است که واقعی به نظر رسد و شاید به این علت باشد که هر دو متغیر روند زمانی یکسانی دارند یا Y یک عنصر مشترک با X دارد.

4- جمع‌بندی مطالب
چون که این بحث پیچیده است پس آن را مرور می‌کنیم. فرض می‌کنیم شما مقاله‌ای می‌نویسید که آیا طی رکود اقتصادی دولت باید به صنعت ساختمان مسکونی کمک کند یا نه. تارنمای این صنعت استدلال می‌آورد هر گونه که ساخت‌وساز مسکونی پیش برود اقتصاد ملی هم همان طور پیش می‌رود و استدلال خود را با یک رگرسیون تقویت می‌کند که مقادیر فصلی GDP (متغیر وابسته) را به GDP فصل قبلی و به ساخت و ساز مسکونی آن فصل مرتبط می‌کند. R۲ وی ۹۱/۰ است. مساله علیت را به کنار می‌گذاریم. آیا باید تحت تاثیر اینها قرار بگیریم؟ نه واقعا. چون که GDP در هر فصلی، همبستگی بالایی با GDP فصل قبلی دارد، پس احتمال دارد R۲ بالایی به دست آورید حتی اگر نوسانات درجه حرارت در هند را به جای ساخت و ساز مسکونی استفاده می‌کردید. بنابراین به ضریب رگرسیون ساخت و ساز
مسکونی نیز نگاه می‌کنید و متوجه می‌شوید که کاملا معنی‌دار است؛ یک دلاری که خرج ساخت و ساز مسکونی می‌شود GDP را 4 دلار بالا می‌برد. این کمی نامعقول به نظر می‌رسد پس به مقدار t این ضریب نگاه می‌کنید که عدد 5/0 شده است. شما به درستی استدلال این صنعت را رد می‌کنید.
حال موضوع را اندکی پیچیده می‌کنیم. مقدار t، ۹/۱ بوده است، اینک چه می‌گویید؟ شما می‌توانید همچنان سرسختی نشان دهید و بگویید چون احتمال این که مقدار واقعی ضریب صفر باشد بیشتر از ۵ درصد هست، پس استدلال صنعت را نخواهید پذیرفت. یا اینکه می‌توانید بگویید در حالی که صنعت معیار اثبات علمی را رعایت نکرده است احتمال قابل توجهی می‌رود که مقدار واقعی ضریب بزرگ‌تر از صفر باشد. پس شاید با احتیاط استدلال صنعت را بپذیرید. در واقع شما باید اینکار را بکنید اگر فکر می‌کنید زیان پذیرفتن این شاهد به نفع موضع صنعت وقتی که واقعا نادرست است بیشتر از زیان نپذیرفتن آن وقتی که واقعا درست است، نباشد.

۵- نگاه کردن به دندان‌های اسب بارکش
تحلیل رگرسیون ابزار قدرتمندی است که در بیشتر حوزه‌ها و برای اهداف گوناگون استفاده می‌شود، اما قابلیت گمراه کردن را نیز دارد. چهار دام مهم عبارتند از:
خطر نسبت دادن روابط گذشته به آینده، نیاز به گنجاندن متغیرهای کنترل درست، احتمال به اشتباه افتادن با یک یا چند مشاهده پرت و خطر استنتاج علیت از وجود همبستگی.
با خواندن خطراتی که ذکر شد، شاید این احساس به شما دست دهد که تحلیل رگرسیون؛ بنابراین بیشتر تحلیل اقتصاد تجربی به‌علاوه بسیاری از پژوهش‌های دیگر علوم اجتماعی کارهای بی‌ارزشی هستند که ما بهتر است به درک شهودی، احساس و قضاوت شخصی خود متکی باشیم. این طور نیست. قطعا این گونه نیست. چنین برداشتی به اندازه نظری درست است که پس از خواندن کتابی درباره بیماری‌ها پیدا می‌کنید: اینکه شما مبتلا به انواع بیماری‌ها هستید. من به عنوان کسی که بیشتر عمرش را در پژوهش‌های اقتصادی تجربی صرف کرده است، از جمله بسیاری معادلات رگرسیونی انجام دادم، قطعا فکر نمی‌کنم که آنها بی‌فایده هستند.

گذشته، آینده نیست
ظاهرا اگر شما غیبگو نباشید همه داده‌هایی که در اختیار دارید از گذشته می‌آید و اگر بخواهید فقط رویدادهای گذشته را تبیین کنید، بسیار خوب است و کسی با آن مخالفتی ندارد، اما بیشتر اوقات به آینده هم علاقه‌مند هستیم و این فرض که آینده دقیقا شبیه گذشته خواهد بود می‌تواند فرضی مشکل‌آفرین باشد. برای مثال رگرسیون‌هایی که در دهه‌های ۱۹۶۰ و ۱۹۷۰ برآورد گردیدند رابطه‌ای ثابت بین عرضه پول و GDP اسمی نشان می‌دادند، اما برای تغییرات در زمان کوتاه‌مدت‌تر در دهه ۱۹۸۰، این رابطه تقریبا ناپدید شد، در دهه ۸۰
نوآوری‌های مالی، مقررات‌زدایی بازارهای مالی و نرخ‌های بهره بالا باعث شد تا شیوه پرداخت‌های خانوارها و بنگاه و نیز شیوه مدیریت دارایی‌های مالی آنها تغییر کند (یک مثال کارت‌های اعتباری هستند). مشکل مشابهی در سال 8-2007 و در زمانی به‌وجود آمد که اقتصاددانان سعی کردند آمدن یک رکود اقتصادی را پیش‌بینی کنند و اینکه در صورت وقوع چقدر عمیق است. به علت زیان‌هایی که نظام مالی از اوراق بهادار به پشتوانه وام‌های رهنی و سایر دارایی‌ها دیده است، این نظام بسیار شکننده‌تر از هر زمانی از هنگام بحران بزرگ تاکنون شده است؛ بنابراین مدل‌های اقتصادسنجی بر اساس رگرسیون که به داده‌های پس از جنگ جهانی دوم برازش می‌شوند چیزهای اندکی درباره چگونگی تاثیرگذاری چنین شکنندگی مالی بر اقتصاد به ما می‌گوید. به همین ترتیب، پس از سقوط بازار سهام، معادله رگرسیونی که در تخمین‌های پیشین قیمت سهام، برازش‌های خیلی خوبی داشته است اینک خودش را نه به شکل یک دوست قابل اعتماد، بلکه به شکل دشمنی نابکار نشان خواهد داد.
حالت خاصی که ضرایب رگرسیون بی‌ثبات هستند زمانی پیش می‌آید که دولت سیاست خود را تغییر می‌دهد. فرض کنید دولت قبلا مالیات‌ها را فقط زمانی کاهش می‌داد که قصد داشت آن را برای مدت طولانی در سطح پایین‌تری نگه دارد. یک اقتصاددان سپس یک رگرسیون را تخمین می‌زند تا اثر کاهش مالیات‌ها را بر مصرف اندازه بگیرد. او یک ضریب بزرگ و کاملا معنی‌دار پیدا می‌کند. این یافته دولت را تشویق به اقتباس یک سیاست جدید می‌کند. از این به بعد، دولت مالیات‌ها را طی دوره رکود کاهش خواهد داد تا مصرف را تقویت کند و سپس دوباره مالیات‌ها را بالا می‌برد وقتی اقتصاد به حالت عادی برگشت.
اما پس از مدتی مردم متوجه قضیه می‌شوند و می‌دانند که وقتی مالیات‌هایشان کاهش می‌یابد به زودی دوباره افزایش خواهد یافت. اکنون وقتی مالیات‌ها کاهش می‌یابد آنها مصرف‌شان را تقریبا به همان اندازه قبل افزایش نخواهند داد؛ بنابراین برگزیدن سیاست جدید، باعث می‌شود تا ضرایب رگرسیون قبلی کهنه و بی‌استفاده شود که سیاست جدید هم روی آن بنا شده است. این به «انتقاد لوکاس» مشهور شده است چون که نخستین بار رابرت لوکاس برنده جایزه نوبل آن را مطرح کرد. در حالی که همه اصولا می‌پذیرند حق با لوکاس است و تغییر سیاست باعث قدیمی شدن ضرایب رگرسیون قبلی می‌شود درباره اهمیت مقداری آن اختلاف نظر وجود دارد. بیشتر اقتصاددانان در حالی که اعتبار منطقی انتقاد لوکاس را می‌پذیرند، آن را برای مسائل عملی روزمره نسبتا بی‌اهمیت می‌دانند چون آنها انتظار دارند عامه مردم انتظارات خود درباره سیاست دولت را خیلی آهسته تغییر دهند. سایرین فکر می‌کنند که انتقاد لوکاس بیشتر پیش‌بینی‌های قبلا مرسوم از اثر تغییرات سیاست دولت را بی‌اعتبار می‌سازد. انتقاد لوکاس برای برخی تغییرات سیاسی بسیار مهم‌تر از سایر تغییرات سیاستی است، اما در کل، هیات منصفه هنوز حکم قطعی صادر نکرده است. ضرایب بی‌ثبات نه فقط برای مطالعاتی که از داده‌های سری زمانی استفاده می‌کنند، بلکه برای مطالعاتی که از داده‌های مقطعی استفاده می‌کنند یعنی داده‌هایی که در یک لحظه خاص به دست آمده است از قبیل نظرسنجی‌ها از بیکاری جاری نیز مشکل‌زا هستند. برای مثال اکنون که مردم از خطرات سیگار کشیدن بسیار باخبرتر شده‌اند، معادله رگرسیونی که تفاوت مصرف سیگار را در دهه 1950 خیلی خوب تبیین می‌کرد حالا دیگر شاید نتواند چنین کاری بکند.

انتخاب متغیرهای کنترل
فرض می‌کنیم که شما فروش خودروی بی‌ام‌و را روی قیمت آن رگرس می‌کنید. انتظار داریم ضریب رگرسیون منفی باشد چون که علی‌الظاهر در قیمت‌های بالاتر، خودروی کمتری خریداری می‌شود، اما کامپیوتر شما در عوض یک ضریب مثبت تحویل می‌دهد. دلیل آن را اینجا آوردیم. در آن زمان‌هایی که درآمد مردم به سرعت افزایش می‌یابد بی‌ام‌و بیشتری خریداری می‌شود و این زمان دقیقا موقعی است که فروشندگان هم قیمت‌های خود را بالا می‌برند. (اگر بر اساس منحنی‌های عرضه و تقاضا بخواهیم صحبت کنیم منحنی تقاضا به سمت بالا و راست جابه‌جا می‌شود و اینک در قیمت‌های بیشتری منحنی عرضه را قطع می‌کند.) اما شما به کامپیوتر چیزی درباره افزایش درآمد مصرف‌کنندگان نگفته‌اید و تعجبی ندارد که کامپیوتر همه مشاهداتی که نشان می‌دهد هر دو قیمت و فروش در حال افزایش هستند به عنوان وجود رابطه‌ای مثبت بین قیمت و فروش تفسیر کند. بی‌تردید، در این بین مشاهداتی نیز وجود دارد که قیمت بی‌ام‌و بالا می‌رود و فروش کاهش می‌یابد (که این را حرکت روی منحنی تقاضا می‌گوییم) و اینها را به درستی به عنوان رابطه‌ای منفی بین قیمت و فروش تفسیر می‌کند، اما امکان دارد فقط یک ضریب رگرسیون به شما بدهد که هر دو حالت را دربر می‌گیرد. پس ضریبی تحویل شما می‌دهد که ملغمه‌ای بی‌معنی بوده و امکان دارد مثبت یا منفی باشد.
مثال دیگری می‌آوریم و فرض می‌کنیم درآمد را فقط روی تحصیلات رگرس می‌کنید. با این‌کار چیزهایی را از قلم می‌اندازید. افرادی که تحصیلات بیشتری دارند معمولا ضریب هوشی بالاتری دارند و نیز در هر سطحی از تحصیلات، کسانی که ضریب هوشی بالایی دارند معمولا درآمد بالاتری دارند، اما چون به کامپیوتر چیزی درباره ضریب هوشی نگفته‌اید تمام کاری که آن می‌تواند بکند کل تفاوت درآمدی مردم با میزان متفاوت تحصیلات را فقط به تحصیلات نسبت می‌دهد. با انجام این کار، کامپیوتر ضریب رگرسیونی بیرون می‌دهد که خیلی بالا است، چون که اثر تفاوت‌ها در ضریب هوشی را در کنار تفاوت‌ها در تحصیل شامل می‌کند.
مثال سومی هم برایتان آورده‌ایم: در برخی مناطق بالکان، تعداد بچه‌های متولد شده همبستگی مثبتی با تعداد لک‌لک‌ها دارد. دلیل آن این است که در روستاهای بزرگ بچه‌های بیشتر به دنیا می‌آیند و نیز دودکش‌های بخاری بیشتری دارند که لک‌لک‌ها روی آنها آشیانه می‌سازند. باز هم بخواهیم مثال دیگری بیاوریم، همبستگی بین اندازه پای دانش‌آموزان دبستانی و نمرات درس انجیل‌خوانی است. بچه‌های بزرگ‌تر پاهای بزرگ‌تری دارند.
برای اینکه از چنین سردرگمی تا حد امکان رهایی یابیم معمولا باید در رگرسیون خود، برخی رگرسورهای اضافی را اضافه کنیم که «متغیرهای مشروط‌سازی» یا «متغیرهای کنترل» نامیده می‌شوند و هیچ علاقه ذاتی به این متغیرها نداریم، فقط به این خاطر به آنها علاقه داریم که ضرایب و مقادیر t متغیرها را آلوده نخواهند کرد؛ بنابراین در مثال بالا، با گنجاندن متغیر کنترلی ضریب هوشی، به کامپیوتر این اجازه را می‌دهیم تا اثرات ضریب هوشی را از ضریبی که برای اثر تحصیل بر درآمد محاسبه می‌کند دور نگه دارد.
تصمیم‌گیری در این‌باره که چه متغیرهای کنترلی را بگنجانیم اغلب اوقات دشوار است. تئوری اقتصادی به شما می‌گوید که- با فرض ثبات سایر شرایط- اگر X رخ می‌دهد Y نتیجه آن خواهد بود، اما اغلب صحبت کافی نمی‌کند که چه چیزهایی را در فرض ثبات سایر شرایط حبس می‌کنیم و بنابراین باید به عنوان متغیر کنترل بالقوه در نظر گرفت. یا اگر که برخی از این متغیرها را مشخص می‌سازد آن را معمولا فقط با عبارات کلی از قبیل «درآمد» ذکر می‌کند. آیا منظور از درآمد، فقط درآمد جاری است یا درآمد گذشته نیز هست و اگر بلی تا چه حد به عقب برویم؟ و درباره درآمدهای انتظاری آینده چه می‌گوییم؟
راه‌حل به نظر بدیهی می‌رسد: همه متغیرهای کنترل بالقوه مرتبط و مهم را شامل کنید: اما این توصیه چندین مشکل را به همراه دارد. یکی اینکه برخی از این متغیرها را نمی‌توان شامل کرد چون که آنها قابل اندازه‌گیری نیستند. برای نمونه، در مثال پیشین تحصیل و درآمد، جاه‌طلبی یک شخص را باید به عنوان متغیر کنترل شامل کرد اما معمولا داده‌هایی نداریم که آن را اندازه‌گیری کند.
علاوه بر این اگر یک متغیر کنترل دارای همبستگی مثبت قوی با رگرسوری باشد که شما به آن علاقه‌مند هستید، پس در یک نمونه کوچک، شامل کردن آن می‌تواند مقدار t آن رگرسور را به‌شدت پایین آورد چون کامپیوتر مقداری از اثرات رگرسوری را که به آن علاقه‌مند هستید به متغیر کنترل نسبت می‌دهد. بیشتر اقتصاددان‌ها برای اینکه چنین مشکلی را برطرف کنند پس از تخمین رگرسیون با متغیرهای کنترل بیشمار، همه آنهایی را که از نظر آماری در سطح ۵ درصد معنی‌دار نیستند حذف می‌کنند و دوباره رگرسیون را تخمین می‌زنند و فقط این رگرسیون دوم را گزارش می‌دهند.
مساله دیگر این است که آزمایش کردن با ترکیباتی از متغیرهای کنترل گوناگون، راه را روی آزمایش کردن تا زمانی که مجموعه متغیرهایی پیدا کنید که نتایج دلخواه و پشتیبانی‌کننده تئوری شما را بدهد باز می‌کند- بحث داده‌کاوی را که پیشتر آوردیم به خاطر آورید.
ادامه درقسمت دوم(خبر بعدی)