خبرگزاری مهر: نبیک، موتور جست‌وجوی مستندات فارسی است که هوشمندترین موتور استخراج متون فارسی به شمار می‌رود. این موتور جست‌وجو به تازگی توسط محققان دانشگاه صنعتی امیرکبیر ایجاد شده است. مهدی شجری، عضو هیات علمی دانشگاه امیرکبیر و بنیانگذار «نبیک» با بیان اینکه مشکلات پردازش مستندات فارسی که از فونت‌ها و صفحه‌آرایی‌هایی متنوعی استفاده می‌کنند به حدی است که حتی گوگل به دلیل عدم سرمایه‌گذاری کافی در حوزه مستندات فارسی قادر به استخراج محتوای متنی و جست‌وجوپذیر کردن بسیاری از مستندات فارسی موجود در اینترنت نیست، افزود: از سوی دیگر محققان و پژوهشگران و حتی کاربران عادی برای یافتن اطلاعات و تحقیق روی موضوعات مختلف وب را جست‌وجو می‌کنند، در حالی که تا کنون هیچ ابزار موثری برای جست‌وجوی مستندات فارسی که گنجینه‌ای ارزشمند محسوب می‌شود وجود نداشته است.

شجری عنوان کرد: از این رو به دلیل مشکلات فراوانی که در زمینه جست‌وجوی متون فارسی وجود داشت، به فکر ایجاد موتور جست‌وجوی ایرانی افتادیم که این موتور جست‌وجوی ایرانی کامل‌ترین موتور پردازش و جست‌وجوی مستندات فارسی با نام نبیک (nebeek.com) است. عضو هیات علمی دانشگاه امیر کبیر افزود: برای راه‌اندازی سایت نبیک یک موتور قوی استخراج متن از فایل‌های pdf توسعه داده شده است که با توجه به چالش‌های فنی پردازش فایل‌های مستندات فارسی و به‌خصوص فایل‌های pdf فارسی قطعا هوشمندترین موتور استخراج متون فارسی از این فایل‌ها است که

تا کنون ارائه شده است. وی با اشاره به اینکه در نبیک متون فارسی با دقت بالا به صورت خام استخراج می‌شوند، خاطر نشان کرد: پس از استخراج متن فارسی، بر روی آن پس‌پردازش‌هایی انجام می‌گیرد از جمله استخراج کلمات و عبارات محوری در متن، استخراج خودکار فهرست مطالب و استخراج اطلاعات نحوه شماره گذاری صفحات مستند. علاوه بر آن اطلاعاتی در مورد عناوین اصلی و فرعی و شروع و پایان هر پاراگراف و هر بخش و زیربخش مستند نیز استخراج می‌شوند. به گفته وی درحال حاضر صدها فونت فارسی در نبیک حمایت می‌شود.