آغاز به‌کار سامانه پیکره‌های «ایرانداک»

ایسنا : سامانه پیکره‌های «ایرانداک» راه‌اندازی شد. سامانه پیکره‌های ایرانداک (ساپا) در پاسخ به نیاز پژوهشگران کشور در آسان‌سازی فرآیند پژوهش، در نشانی https:/ / sapa.irandoc.ac.ir راه‌اندازی شده و در دسترس همه پژوهشگران کشور قرار گرفته است.

بسیاری از پژوهش‌های زبان‌شناسی و تصمیم‌گیری‌ها در برنامه‌ریزی زبانی، تنها با کاربرد یک پیکره زبانی شدنی هستند. پیکره مجموعه‌ای نظام‌مند، رایانه‌ای و درست از زبان است که برای بررسی‌های زبان‌شناختی به‌کار می‌رود.

پیکره‌ها کاربردهای بسیاری را در پردازش زبان طبیعی و درک و بازشناسی گفتار، تبدیل متن به گفتار و گفتار به متن، نگارش فرهنگ‌ها، آموزش و پژوهش، ساخت پایگاه‌های داده زبانی، بررسی واژه‌های هم‌آیند در زبان‌های گوناگون، پایشگری زبان برای پیگیری و ردگیری دگرگونی‌های زبانی، ترجمه ماشینی، توسعه مفاهیم و منابع در پیوند با واژگان، نگارش و گسترش مهارت‌های نوشتاری، آموزش و یادگیری زبان با شناخت گویش‌ها و گوناگونی زبان‌ها، معناشناسی، تحلیل کلام، زبان‌شناسی اجتماعی، زبان‌شناسی حقوقی، واکاوی ژانرهای ادبی‌ و پژوهش‌های دستور زبان دارند.

بنا بر اعلام، سامانه پیکره‌های ایرانداک (ساپا) که می‌تواند از چندین پیکره پشتیبانی کند، اکنون دارای یک پیکره با نام «پیکره پژوهش‌نامه» با نزدیک به چهار میلیون و ۷۸۰ هزار واژه تخصصی و میان‌رشته در زمینه‌هایی مانند علم اطلاعات و دانش‌شناسی، فناوری اطلاعات، مدیریت دانش، زبان‌شناسی رایانشی، اصطلاح‌شناسی‌ و مانند آنهاست.

این پیکره از مقاله‌های «پژوهش‌نامه پردازش و مدیریت اطلاعات» ساخته شده است و برای پژوهش‌هایی که نیازمند بهره‌گیری از پیکره‌های تخصصی هستند، ارزش و کاربرد بسیاری دارد. هنگام بازیابی اطلاعات در پیکره پژوهش‌نامه، افزون بر نمایش واژه یا عبارت جست‌وجو در بافت زبان، نام مقاله‌ای که آن واژه یا عبارت در آن به‌کار رفته است، موضوع مقاله، پدیدآور(آن) مقاله‌ و فراوانی واژه یا عبارت جست‌وجو نیز نمایش داده می‌شوند.

داده‌های این پیکره دارای برچسب اجزای واژگانی کلام (POS tag) نیز هستند که در بسیاری از پردازش‌های زبان به‌کار می‌روند و مقوله واژه‌ها (مانند اسم، صفت، قید، و...) را پیدا می‌کنند.