الفلك

استخدام بيانات SDSS / إيجاد كتالوج

استخدام بيانات SDSS / إيجاد كتالوج



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أنا أبحث عن كتالوج للمجرات ذات الانزياح الأحمر المنخفض (يفضل SDSS) مع معلومات عن تدفقات الخطوط والكتلة النجمية. تستمر عمليات البحث الخاصة بي على Google في توجيهي للعمل بواسطة مجموعة Portsmouth Group ، لذلك قمت بتنزيل بعض ملفات fits المدرجة في أسفل الصفحة ، ولكن لا توجد تدفقات سطر في هذه الملفات ، على الرغم من أنها تشير إلى أن تدفقات الأسطر هي يجري إتاحتها ... كنت أتساءل فقط عما إذا كان ما أبحث عنه متاحًا للجمهور وما إذا كنت أبحث في المكان المناسب؟ ترتبط صفحتهم بجدول يسرد جميع الكلمات الرئيسية التي أرغب في استخدامها ، لكنني لست متأكدًا من كيفية الحصول على البيانات.

في أحد الملفات التي قمت بتنزيلها (منافذ بورتسموث_ emlinekin_full-26) هناك عمود يسمى BPT ، والذي يسرد تصنيف BPT (Seyfert ، LINER ، تشكيل النجوم ...) ، لذلك كنت أتوقع أيضًا العثور على "اللبنات الأساسية" ([OIII] ، [NII] ، [SII] ، [OII] ، تدفقات خط Halpha و Hbeta) لمخطط BPT. هل من الضروري عادة الاتصال بالمؤلفين لأشياء مثل هذه؟

سأكون ممتنًا جدًا لمعرفة المزيد حول استخدام بيانات المسح المتاحة للجمهور من عالم أكثر خبرة :)


مما يمكنني رؤيته ، لقد وجدت بالفعل ما كنت تبحث عنه. الجدول الذي قمت بربطه هو وصف البيانات المتوفرة في قاعدة بيانات خادم أرشيف الكتالوج (CAS). كل ما عليك فعله الآن هو استخدام أسماء هذه الجداول (يبدو أن الكتل موجودة على جداول مختلفة ، هنا وهنا) ثم ابحث عما تريد. إذا لم تكن لديك قيود ، فيمكنك البحث فقط عن طريق مناطق السماء ، لكنني أوصيك باستخدام استعلامات SQL حيث يمكنك تحديد الأعمدة يدويًا وجداول ربط متساوية. فقط لأعطيك مثال سريع:

حدد أعلى 10 صفحات specObjID، p.ra، p.dec، p.z، p.bpt، p.Flux_NeV_3425 من emissionLinesPort as p حيث p.z بين 0 و 2

سوف تحصل على جدول بالنتائج العشر الأولى التي بها انزياح أحمر بين 0 و 2. الأعمدة ستكون معرف ، صعود يمين ، انحراف ، انزياح أحمر ، تصنيف وتدفق [NeV] 3425 (كل ما هو موصوف في الجدول الذي ربطته). لاحظ أنه بالنسبة للجماهير ، سيتعين عليك تغيير الجدول عن طريق التحرير خطوط الانبعاث واستخدام ممتاز أو stellarMassPassivePort بدلاً من ذلك (بالإضافة إلى تغيير الأعمدة وفقًا لذلك).


استخدام بيانات SDSS / إيجاد كتالوج - علم الفلك

الأهداف: نقوم باستخراج مجموعات من المجرات من SDSS Data Release 5 لدراسة شبكة الفراغ العنقودي الفائق والخصائص البيئية للمجموعات الموجودة فيها. يمكن استخدام مجموعات المجرات كتعزيزات للكثافة لتحديد مجال كثافة اللمعان لشبكة الفراغ العنقود الفائق.
الأساليب: نستخدم طريقة أصدقاء الأصدقاء (FoF) المعدلة مع أطوال ربط متغيرة قليلاً في اتجاهات عرضية وشعاعية للتخلص من تأثيرات الاختيار ولإيجاد أكبر عدد ممكن من المجموعات بشكل موثوق. لتحديد قياس طول الارتباط ، قمنا بمعايرة أحجام المجموعات وتعني كثافة عدد المجرات داخل المجموعات عن طريق تحويل المجموعات القريبة إلى مسافات أكبر.
النتائج: تحتوي عينتنا النهائية على 17143 مجموعة في خط الاستواء ، و 33219 مجموعة في الجزء الشمالي من مسح DR5. كتالوج المجموعة متاح في CDS.
الاستنتاجات: متوسط ​​أحجام وسرعة تشتت مجموعاتنا عمليا لا يتغير مع بعدهم. هذا يعني أن تأثيرات الاختيار قد تم أخذها في الاعتبار بشكل صحيح عند إنشاء كتالوج المجموعة.


وزير

يوفر VizieR الوصول إلى المكتبة الأكثر اكتمالا من الكتالوجات الفلكية المنشورة وجداول البيانات المتاحة على الإنترنت المنظمة في قاعدة بيانات موثقة ذاتيا. تسمح أدوات الاستعلام للمستخدم بتحديد جداول البيانات ذات الصلة واستخراج وتنسيق السجلات المطابقة للمعايير المحددة. حاليًا ، تتوفر كتالوجات 21067. مزيد من المعلومات
التوافق مع VO

يوفر VizieR المكتبة الأكثر اكتمالا من الكتالوجات الفلكية المنشورة - الجداول والبيانات المرتبطة بها - مع بيانات تم التحقق منها ومثيرة ، ويمكن الوصول إليها عبر واجهات متعددة. تسمح أدوات الاستعلام للمستخدم بتحديد جداول البيانات ذات الصلة واستخراج وتنسيق السجلات المطابقة للمعايير المحددة. حاليا ، 21067 كتالوجات متاحة لمزيد من المعلومات
التوافق مع VO

VizieR Mine هي واجهة رسومية لتحديد الفهارس الموجودة في مناطق السماء

مجموعات خرائط Kohonen ذاتية التنظيم في المواقع القريبة من كتالوجات الخرائط ذات المحتويات المتشابهة.

توثيق

VizieR و الخامسإرثوال اbservatory

  • يمكن لـ VizieR تقديم النتائج في وضعها المتقدم في قابل للتصويتوهو تنسيق يضمن التوافق مع أدوات المرصد الافتراضي.
  • جداول VizieR قابلة للاستعلام عن معيار VO صنبور التي تستخدم ملحق لغة SQL ADQL.
  • ابحث في VizieR باستخدام ملف البحث المخروطي معيار VO.
  • بحث الأطياف / السلاسل الزمنية في VizieR باستخدام SSA.
  • البحث عن الصور في VizieR باستخدام SIA.

المرايا

فريق VizieR

تم إنشاء هذه الخدمة بواسطة Francois Ochsenbein ، ويتم صيانتها حاليًا بواسطة Gilles Landais و Pierre Ocvirk في CDS باتريشيا فانيير وإيمانويل بيريت وماريان بروتي وسيلفان جوينيو يعتنيون بإعداد المواد الجدولية في CDS ، ويتولى جريج شوارتز العناية بها المواد المجدولة لمجلات AAS. شكرا أيضا لجميع المساهمين والمؤلفين والمحررين.

يساهم كل من Thomas Boch و Francois Xavier Pineau أيضًا في عدد الكتالوجات الكبيرة (GLIMPSE ، WISE ،.).

بدأ VizieR في البداية كجهد مشترك من CDS (Centre de Données astronomiques de Strasbourg) و ESA-ESRIN (قسم نظم المعلومات) ، وهو الآن مدار بالكامل بواسطة CDS. يتوفر VizieR منذ عام 1996 ، وقد تم وصفه في ورقة نشرت في A&AS 143 ، 23 (2000).

لاحظ أن VizieR لا يحتوي على جميع الكتالوجات المتاحة على الإنترنت ، وبعض الكتالوجات ليست مناسبة وبعض الكتالوجات الأقل استخدامًا لم يتم دمجها بعد في قاعدة بيانات VizieR. يمكن الوصول إلى هذه الأخيرة عن طريق FTP من Astronomer's Bazaar.


الصور

الهدف من SDSS هو تصوير جميع الأشياء الأكثر سطوعًا من 23 درجة في 1/4 من السماء ، تقريبًا منطقة غطاء شمال المجرة ، في خمسة أطوال موجية مختلفة من الضوء. بسبب الطريقة التي يعمل بها التلسكوب ، يتم جمع البيانات كنسيج مستمر. يتم تمرير البيانات إلى مجموعة من خطوط أنابيب التشغيل البيني ، والتي تصحح البيانات الخاصة بالعيوب ، وتحسب وتطبق المعايرات الفلكية والقياسية الضوئية ، وتقيس خلفية السماء ، وتبحث عن الأشياء وتقاسها وتصنفها. نظرًا لأن الخطوة الأخيرة هي الأكثر استهلاكًا للوقت إلى حد بعيد ، يتم قطع تدفق البيانات إلى سلسلة من الحقول ، تتم معالجة كل منها بشكل مستقل.

يتم تنفيذ المعايرات الفلكية (تعيين إحداثيات دقيقة لكل كائن) بواسطة خط الأنابيب الفلكي (Astrom). يتم إنتاج المعايرات الضوئية (قياس ظروف الغلاف الجوي أثناء كل شوط) بواسطة خط أنابيب تلسكوب المراقبة (MT). نظرًا لأن النجوم المستخدمة في هذه المعايرة ساطعة جدًا بحيث لا يمكن ملاحظتها بواسطة التلسكوب الرئيسي بطول 2.5 متر ، يتم ملاحظة بقع السماء التي تتداخل مع عمليات المسح 2.5 متر باستخدام تلسكوب الشاشة. تُستخدم هذه البقع الثانوية لربط نظام القياس الضوئي MT بالملاحظات الرئيسية التي تبلغ 2.5 متر.

يحول خط الأنابيب الضوئي (الصورة) بيانات التصوير إلى معلومات حول الأجرام السماوية. تتكون الصورة من ثلاثة خطوط أنابيب متتالية. آخرها ، خط أنابيب الإطارات ، يعمل على مجموعة فردية من خمسة إطارات تغطي حقلاً. تقوم الصورة بتصحيح كل إطار بحثًا عن القطع الأثرية (الأعمدة السيئة ، والأشعة الكونية ، وما إلى ذلك) ، وتصحيح خلفية الكاشف وتنوعات الحساسية ، والعثور على الكائنات في مرحلتين (ساطعة وخافتة) ، والبحث عن كائنات سطوع سطح أقل في صورة مجمعة ، وتجمع بين كائنات في الفلاتر الخمسة. تقوم الصورة بعد ذلك بقياس الكائنات (الموضع والحجم والشكل والأعداد) وتصنفها وتحل الكائنات المركبة للحصول على معلومات حول الأعضاء الفردية وتقطع صور الأطلس. بعد ذلك ، تكتب Photo سلسلة من المخرجات: جداول المعلمات المقاسة ، والإطارات المصححة ، وإطارات السماء بأربعة بكسلات مربعة مع كائنات مطروحة ، وصور أطلس ، وإطارات القناع (لتغطية الأخطاء مثل وحدات البكسل المشبعة أو المحرف) ، وإحصائيات موجزة لكل إطار.

لإجراء هذه الحسابات ، يحتاج خط أنابيب Frames إلى معرفة خصائص أجهزة الكشف وخلفية السماء. يتم حساب هذه الخصائص بواسطة خط أنابيب الطوابع البريدية (PSP) ، الذي يحسب هذه الكميات للتشغيل بالكامل ويقحمها في مركز كل إطار. يستخدم PSP صورًا مقطوعة للنجوم الساطعة (ولكن غير المشبعة) ، ويرفض النجوم السيئة (النجوم المزدوجة ، وما إلى ذلك) ويحسب معلمات دالة انتشار نقطة بسيطة (PSF) - شكل الصورة النجمية. يتم إجراء القواطع بواسطة خط أنابيب جمع الطوابع التسلسلية (SSC) ، والذي يقوم أيضًا بمحاذاة الإطارات في الحقل. أدناه ، نعرض أمثلة لبعض خطوات المعالجة التي تم تنفيذها على جزء من إطار واحد. انقر على كل صورة لصورة أكبر.

إطار بيانات خام. الفرق في مستويات التحيز من مكبرات الصوت اثنين مرئي.

إطار مصحح للانحياز ذات وحدات البكسل المشبعة والأعمدة السيئة والأشعة الكونية المقنعة باللون الأخضر.

تم تصحيح الإطار لوحدات البكسل المشبعة والأعمدة السيئة والأشعة الكونية.

الأشياء المقاسة، مقنَّع ومغلَّق في صناديق. المربعات الفارغة الصغيرة هي كائنات يتم اكتشافها فقط في نطاق آخر.

الصورة المعاد بناؤها استخدام طوابع بريدية للأشياء الفردية وخلفية السماء من صورة إهدار.

بمجرد تشغيل بيانات التصوير عبر خطوط الأنابيب هذه ، يمكن دمج الصور من المرشحات الخمسة لإتاحة الوصول إلى الصور الملونة الجميلة على هذا الموقع. بالإضافة إلى ذلك ، يتم تخزين المعلمات المقاسة لجميع الكائنات في قاعدة بيانات يمكن للفلكيين البحث عنها للعثور على الأشياء التي يرغبون في دراستها.


تنظيم البيانات

نموذج بيانات كتالوج SDSS

يتم تخزين بيانات كتالوج SDSS في نظام إدارة قواعد البيانات العلائقية التجارية (DBMS) - خادم SQL الخاص بـ Microsoft. لذلك يتم تنظيم البيانات في عدة جداول ثنائية الأبعاد. يشار إلى الجداول وعلاقاتها ببعضها البعض باسم مخطط بلغة قاعدة البيانات. ينقلك ارتباط المخطط في شريط القوائم أعلاه إلى صفحة المخطط حيث يمكنك تصفح مخطط قاعدة البيانات.

عرض تخطيطي لمخطط DR12

هناك 3 أنواع مختلفة من البيانات في الجداول - بيانات التصوير موجودة في ملف صورة مجموعة من الجداول والبيانات الطيفية والتبليط في سبكترو الجداول والبيانات الأخرى مثل الوثائق أو المعلومات الأخرى حول الصورة وبيانات الطيف ، أي البيانات الوصفية ، موجودة في ميتا الجداول. يتم أيضًا إنشاء بعض الجداول خصيصًا للسرعة أو الراحة ، على سبيل المثال جدول SpecPhotoAll الذي يحتوي على JOIN محسوب مسبقًا للحقول ذات الصلة في جدولي PhotoObjAll و SpecObjAll.

يتم وصف الجداول المهمة أدناه ، جنبًا إلى جنب مع الآراء التي يتم تحديدها حاليًا في كل جدول. طريقة العرض هي مجموعة فرعية من الجدول المقابل يمكن استخدامها بدلاً من الجدول - وبعبارة أخرى ، إنها طاولة افتراضية. عادةً ما يكون العرض أسرع من استخدام الجدول الأساسي ، نظرًا لأنه يقوم بتحميل مجموعة فرعية فقط من الكائنات ، ولكن الأهم من ذلك ، أن طرق العرض التي حددناها في الجداول لا تحدد سوى الكائنات المهمة للعلم ، وتقوم بتصفية العناصر غير العلمية كائنات مثل السماء أو ضمان الجودة أو الملاحظات المعيبة. على هذا النحو ، على الرغم من أننا ندرج الجداول الأساسية للاكتمال أدناه ، في الغالبية العظمى من الحالات ، يجب عليك استخدام طرق العرض المحددة في الجداول بدلاً من الجداول نفسها، على سبيل المثال استخدم طرق عرض PhotoObj و SpecObj للعلوم بدلاً من جداول PhotoObjAll و SpecObjAll.

جداول بيانات التصوير (الصور)

- إلى حد بعيد أكبر جدول في قاعدة البيانات ، يحتوي PhotoObjAll على 100+ معلمة لكل كائن تصوير (صورة). بالنسبة لمعظم هذه المعلمات ، يوجد في الواقع 5 صفوف لكل منها ، واحد لكل نطاق طول موجي. يتضمن هذا الجدول بيانات عن الكل كائنات الصور ، وليس فقط الكائنات العلمية ، ومن هنا جاء اسم PhotoObjالجميع. عرض هذا الجدول الذي يتضمن فقط الكائنات العلمية ويستبعد السماء والأشياء الأخرى غير المعروفة هو PhotoObj منظر. يوجد جدول PhotoObjAll للتأكد من اكتماله ، ولكن عادةً ما تتم الاستعلامات العلمية في طريقة العرض PhotoObj.

جميع المشاهدات:

عرض الاسممحتوياتوصف
فوتو فاميلي هذه موجودة في PhotoObj ، لكن ليست PhotoPrimary أو Photosecondary. يتم إنشاء هذه الكائنات إذا لم تكن كائنات مسح أولية أو ثانوية ولكنها عبارة عن كائن مركب تم تفكيكه أو جزء من كائن تم تفكيكه بشكل غير صحيح (مثل الأذرع الحلزونية لمجرة). يتم الاحتفاظ بهذه الكائنات لتتبع كيفية عمل أداة إزالة الدهن. يرث جميع أعضاء فئة PhotoObj.
PhotoObj جميع الكائنات الأساسية والثانوية في جدول PhotoObjAll ، والذي يحتوي على جميع سمات كل كائن ضوئي (صورة). يقوم بتحديد PhotoObj مع الوضع = 1 أو 2.
الصورة الأولية هذه الكائنات هي كائنات المسح الأولية. كل جسم مادي في السماء له جسم أساسي واحد فقط مرتبط به. عند الملاحظات اللاحقة يتم إنشاء الأشياء الثانوية. نظرًا لتداخل خطوط المسح ، ستكون هناك أجسام ثانوية لأكثر من 10٪ من جميع الكائنات الأولية ، وفي الخطوط الجنوبية سيكون هناك العديد من الكائنات الثانوية لكل عنصر أساسي (أي عمليات إعادة المراقبة).
PhotoSecondary الكائنات الثانوية هي إعادة مراقبة لنفس الكائن الأساسي.
علامة الصورة أشهر الأعمدة من PhotoObjAll. يحتوي هذا العرض على الأعمدة الأكثر شيوعًا من جدول PhotoObjAll ، ويهدف إلى تمكين استعلامات أسرع إذا طلبت هذه الأعمدة فقط من خلال استخدام ذاكرة التخزين المؤقت. يتم تحسين الأداء أيضًا من خلال فهرس يغطي الأعمدة في طريقة العرض هذه في الجدول الأساسي (PhotoObjAll).

جميع المؤشرات:

- يحتوي هذا الجدول على جميع المعلمات المقاسة لكل مجال تصوير، إلى جانب الإحصائيات الموجزة ذات الصلة ، والمعلومات الفلكية والقياسية الضوئية.

مؤشرات المجال:

- يحتوي هذا الجدول على ملامح الضوء لكائنات صور SDSS.

مؤشرات ملف تعريف الصور:

- يحتوي هذا الجدول على ملامح الضوء لكائنات حقل SDSS.

مؤشرات الملف الشخصي الميدانية:

- كائنات SDSS في حدود 0.5 arcmins ويتم تخزين معلمات المطابقة الخاصة بها هنا. تأكد من تصفية PhotoObj غير المرغوب فيها ، مثل الثانوية.

مؤشرات الجيران:

جداول بيانات Spectro / Tiling / GalSpec / SPP

- يحتوي هذا الجدول على البيانات كما تم تصديرها (X للتصدير) من لوحة معينة تستخدم للرصد الطيفي. تحتوي كل لوحة على 640 أطيافًا ملحوظة وبالتالي 640 إدخالًا مطابقًا في SpecObjAll.

مؤشرات PlateX:

- هذا جدول أساسي يحتوي على الكل المعلومات الطيفية ، بما في ذلك الكثير من البيانات المكررة والسيئة. استخدم ال المواصفات عرض بدلاً من ذلك (انظر أدناه) ، حيث تمت تصفية البيانات بشكل صحيح من أجل النظافة.

جميع المشاهدات:

عرض الاسممحتوياتوصف
المواصفات منظر لكائنات Spectro التي تحتوي على الأطياف النظيفة. العرض يستثني QA و Sky والتكرارات. استخدم هذا كطريقة رئيسية للوصول إلى الكائنات الطيفية.

جميع المؤشرات:

- المعلمات الطيفية والصورة المدمجة لجسم ما في SpecObjAll. هذه صلة محسوبة مسبقًا بين جدولي PhotoObjAll و SpecObjAll. تضمنت سمات الصورة غلافًا تقريبًا كما هو الحال في طريقة عرض PhotoTag. يتضمن الجدول أيضًا سمات معينة من جدول التجانب.

جميع المشاهدات:

عرض الاسممحتوياتوصف
المواصفات عرض كائنات Spectro و Photo المنضمة ذات الأطياف النظيفة. يتضمن العرض فقط تلك الأزواج التي يكون فيها SpecObj عبارة عن علم أساسي ، ويكون BEST PhotoObj عبارة عن أزواج أساسية (الوضع = 1).

المواصفات PhotoAll المؤشرات:

- يحتوي على معلومات حول البلاط الفردية في السماء.

كل المشاهدات:

عرض الاسممحتوياتوصف
sdss البلاط طريقة عرض sdssTileAll التي تنتهي = 0 تستثني طريقة العرض تلك sdssTiles التي تم حتى الانتهاء منها.

جميع المؤشرات:

- يخزن هذا الجدول المعلومات التي تتعقب سبب تخصيص هدف /> للبلاط />.

كل المشاهدات:

SdssTiledTargetAll المؤشرات:

- يحتوي هذا الجدول على معلومات هندسية حول مناطق التبليط ، بما في ذلك حدود التبليط. يخدم عرض TileBoundary الحدود.

Sdss تبليط

عرض الاسممحتوياتوصف
sdss تبليط حدودي طريقة عرض كائنات sdssTilingGeometry التي تحتوي على isMask = 0 يستثني العرض كائنات sdssTilingGeometry التي تحتوي على isMask = 1. راجع أيضًا sdssTilingMask.
sdssTilingMask طريقة عرض كائنات sdssTilingGeometry التي تحتوي على قناع = 1 يستثني العرض كائنات sdssTilingGeometry التي تحتوي على isMask = 0. راجع أيضًا sdssTilingBoundary.

مؤشرات الهندسة:

, galSpecIndx, galSpecInfo و galSpecLine- تحتوي هذه الجداول على المعلمات الفيزيائية المقدرة ، وقياسات المؤشر الطيفي ، ومعلومات عامة حول التحليل الطيفي وقياسات خط الانبعاث من الكتالوج الطيفي MPA-JHU.

مؤشرات galSpecExtra:

نوع الفهرسمفتاح أو قائمة الحقول
المفتاح الأساسيالمواصفات

مؤشرات galSpecIndx:

مؤشرات galSpecInfo:

نوع الفهرسمفتاح أو قائمة الحقول
المفتاح الأساسيالمواصفات

مؤشرات galSpecLine:

و sppParams- تحتوي هذه الجداول على قياسات الخط والبارامتر من خط أنابيب المعلمات النجمية.


استخدام بيانات SDSS / إيجاد كتالوج - علم الفلك

ننتقل الآن إلى استخدام خوارزميات التنقيب عن البيانات في التطبيقات الفلكية ، وسجلها الحافل في معالجة بعض المشكلات الشائعة. بينما في القسم 2 ، قدمنا ​​مصطلحات لعالم الفلك غير المعتادين على التنقيب عن البيانات ، هنا بالنسبة لغير الخبراء في علم الفلك ، وضعنا بإيجاز المشكلات الفلكية في سياقها. ومع ذلك ، فإن الوصف الكامل خارج نطاق هذه المراجعة. في حين تم تقسيم القسم 2 وفقًا لخوارزميات وقضايا التنقيب عن البيانات ، فإن التقسيم هنا يتعلق بالفيزياء الفلكية. في هذا القسم ، نقوم باختصار خوارزميات استخراج البيانات التي يتم ذكرها بشكل متكرر أو لها أسماء أطول وفقًا للاختصارات الواردة في القسم 2: PCA و ANN و DT و SVM و كNN و KDE و EM و SOM و ICA.

نظرًا لعدم وجود تعريف دقيق لما يشكل أداة التنقيب عن البيانات ، فلن يكون من الممكن تقديم نظرة عامة كاملة عن تطبيقها. لذلك يوضح هذا القسم التنوع الكبير في الاستخدامات الفعلية حتى الآن ، مع المزيد من الاحتمالات الفعلية أو الضمنية. الاستخدامات الموجودة الآن ولكن من المرجح أن تكتسب أهمية أكبر في المستقبل ، مثل المجال الزمني ، مؤجلة إلى حد كبير إلى القسم 4. توجد العديد من النظرات العامة الأخرى لتطبيقات خوارزميات التعلم الآلي في علم الفلك ، وتحتوي على أمثلة أخرى ، بما في ذلك أمثلة لـ ANN [ 103 ، 104 ، 105 ، 106 ، 107] ، DT [108] ، الخوارزميات الجينية [109] ، والتصنيف النجمي [110].

تم إجراء معظم التطبيقات في هذا القسم بواسطة علماء الفلك باستخدام خوارزميات التنقيب عن البيانات. ومع ذلك ، فقد تم إجراء العديد من المشاريع والدراسات من قبل خبراء التنقيب عن البيانات باستخدام البيانات الفلكية ، لأنه ، إلى جانب مجالات أخرى مثل فيزياء الطاقة العالية والطب ، أنتج علم الفلك العديد من مجموعات البيانات الكبيرة التي تتوافق مع هذا النهج. تشمل الأمثلة على هذه المشاريع نظام فهرسة وتحليل صور السماء (SKICAT) [111] لإنتاج الكتالوجات وتحليل الكتالوجات من مسوحات السماء الرقمية ، ولا سيما عمليات المسح الثانية لمرصد بالومار لمسح السماء ، وأداة التعرف على التكيف في مختبر الدفع النفاث (JARTool) ) [112] ، تم استخدامه للتعرف على البراكين في أكثر من 30000 صورة لكوكب الزهرة أعادتها بعثة ماجلان ، عين الماس اللاحقة والأكثر عمومية [113] ومشروع الياقوت لمختبر لورانس ليفرمور الوطني [114]. مراجعة حديثة للتنقيب عن البيانات من هذا المنظور قدمها كاماث في الكتاب التنقيب في البيانات العلمية [115]. بشكل عام ، من المرجح أن يستخدم عامل منجم البيانات خوارزميات أكثر ملاءمة وحديثة ومتطورة من عالم المجال ، ولكنه سيتطلب التعاون مع عالم المجال لاكتساب المعرفة فيما يتعلق بجوانب المشكلة الأكثر أهمية.

غالبًا ما يكون التصنيف خطوة أولية مهمة في العملية العلمية ، حيث يوفر طريقة لتنظيم المعلومات بطريقة يمكن استخدامها لعمل الفرضيات والمقارنة مع النماذج. مفهومان مفيدان في تصنيف الكائنات هما اكتمال و ال نجاعة، المعروف أيضًا باسم الاستدعاء والدقة. يتم تعريفها من حيث الإيجابيات الصحيحة والخطأ (TP و FP) والسلبيات الحقيقية والكاذبة (TN و FN). الاكتمال هو جزء من العناصر التي هي بالفعل من نوع معين والتي تم تصنيفها على أنها هذا النوع:

والكفاءة هي جزء الكائنات المصنفة كنوع معين والتي هي بالفعل من هذا النوع

هاتان الكميتان مثيرتان للاهتمام من الناحية الفيزيائية الفلكية لأنه بينما من الواضح أن أحدهما يريد كلاً من الاكتمال والكفاءة الأعلى ، إلا أن هناك مقايضة عامة. غالبًا ما تعتمد أهمية كل منها على التطبيق ، على سبيل المثال ، يتطلب التحقيق في الأشياء النادرة عمومًا اكتمالًا عاليًا مع السماح ببعض التلوث (كفاءة أقل) ، لكن التجميع الإحصائي للأجسام الكونية يتطلب كفاءة عالية ، حتى على حساب الاكتمال.

نظرًا لصغر حجمها المادي مقارنة ببعدها عنا ، فإن جميع النجوم تقريبًا لم يتم حلها في مجموعات البيانات الضوئية ، وبالتالي تظهر كمصادر نقطية. ومع ذلك ، على الرغم من أن المجرات بعيدة ، فإنها عمومًا تقابل زاوية أكبر ، وبالتالي تظهر كمصادر ممتدة. ومع ذلك ، تظهر أيضًا أجسام فيزيائية فلكية أخرى مثل النجوم الزائفة والمستعرات الأعظمية كمصادر نقطية. وبالتالي ، فإن فصل الكتالوجات الضوئية إلى النجوم والمجرات ، أو بشكل عام ، النجوم والمجرات والأشياء الأخرى ، هو مشكلة مهمة. يتطلب العدد الهائل من المجرات والنجوم في المسوحات النموذجية (بالترتيب 10 8 أو أعلى) أن يكون هذا الفصل آليًا.

هذه المشكلة مدروسة جيدًا وتم استخدام الأساليب الآلية حتى قبل أن تصبح خوارزميات التنقيب عن البيانات الحالية شائعة ، على سبيل المثال ، أثناء الرقمنة عن طريق مسح اللوحات الفوتوغرافية بواسطة آلات مثل APM [116] و DPOSS [117]. تم استخدام العديد من خوارزميات استخراج البيانات ، بما في ذلك ANN [118 ، 119 ، 120 ، 121 ، 122 ، 123 ، 124] ، DT [125 ، 126] ، نمذجة الخليط [127] ، و SOM [128] ، مع تحقيق معظم الخوارزميات أكثر من 95٪ كفاءة. عادة ، يتم ذلك باستخدام مجموعة من المعلمات المورفولوجية المقاسة المشتقة من القياس الضوئي للمسح ، مع ربما ألوان أو معلومات أخرى ، مثل الرؤية ، كسابق. تتمثل ميزة نهج التنقيب في البيانات هذا في أنه يتم دمج كل هذه المعلومات حول كل كائن بسهولة. بالإضافة إلى المخرجات البسيطة "النجم" أو "المجرة" ، فإن العديد من التحسينات الموصوفة في القسم 2 قد حسنت النتائج ، بما في ذلك النواتج الاحتمالية والتعبئة [126].

كما هو مبين في الشكل 5 ، تأتي المجرات في مجموعة من الأحجام والأشكال المختلفة ، أو بشكل أكثر جماعية ، مورفولوجيا. النظام الأكثر شهرة للتصنيف المورفولوجي للمجرات هو تسلسل هابل للبيضاوي ، اللولبي ، الحلزوني المشدود ، وغير المنتظم ، جنبًا إلى جنب مع الفئات الفرعية المختلفة [129 ، 130 ، 131 ، 132 ، 133 ، 134]. يرتبط هذا النظام بالعديد من الخصائص الفيزيائية المعروفة بأهميتها في تكوين وتطور المجرات [135 ، 136]. أنظمة التصنيف الأخرى المعروفة هي نظام Yerkes الذي يعتمد على مؤشر التركيز [137 ، 138 ، 139] ، de Vaucouleurs [140] ، الأسي [141 ، 142] ، ومؤشر S & # 233rsic [143 ، 144] مقاييس المجرة المظهر الجانبي الخفيف ، ونظام مرصد ديفيد دنلاب (DDO) [145 ، 146 ، 147] ، ونظام التركيز - عدم التناسق - التكتل (CAS) [148].

نظرًا لأن مورفولوجيا المجرة هي ظاهرة معقدة ترتبط بالفيزياء الأساسية ، ولكنها ليست فريدة من نوعها لأي عملية معينة ، فقد استمر تسلسل هابل ، على الرغم من كونه ذاتيًا إلى حد ما ويعتمد على مورفولوجيا الضوء المرئي المستمدة في الأصل من لوحات فوتوغرافية منحازة إلى اللون الأزرق . تم تمديد تسلسل هابل بطرق مختلفة ، ولأغراض التنقيب عن البيانات ، تم استخدام نظام T [149 ، 150] على نطاق واسع. يقوم هذا النظام بتعيين أنواع هابل الفئوية E و S0 و Sa و Sb و Sc و Sd و Irr على القيم العددية من -5 إلى 10.

لذلك ، يمكن للمرء تدريب خوارزمية خاضعة للإشراف لتعيين أنواع T للصور التي تتوفر لها المعلمات المقاسة. يمكن أن تكون هذه المعلمات مورفولوجية بحتة ، أو تتضمن معلومات أخرى مثل اللون. سلسلة من الأوراق من قبل لاهاف والمتعاونين [152 ، 153 ، 154 ، 155 ، 104 ، 156] تفعل هذا بالضبط ، من خلال تطبيق الشبكات العصبية الاصطناعية للتنبؤ بنوع T من المجرات عند الانزياح الأحمر المنخفض ، وإيجاد دقة مماثلة للخبراء البشريين. تم تطبيق ANNs أيضًا على بيانات انزياح أحمر أعلى للتمييز بين المجرات العادية والغريبة [157] ، كما تم استخدام SOM ANN الطوبولوجي وغير الخاضع للإشراف لتصنيف المجرات من صور تلسكوب هابل الفضائي [74] ، حيث يكون التوزيع الأولي للفئات هو غير معروف. وبالمثل ، تم استخدام الشبكات العصبية الاصطناعية للحصول على الأنواع المورفولوجية من أطياف المجرات. [158]

يدرس العديد من المؤلفين مورفولوجيا المجرات عند انزياح أحمر أعلى باستخدام حقول هابل العميقة ، حيث تكون المجرات بشكل عام أكثر بعدًا ، وخافتًا ، وأقل تطورًا ، وغريبة من الناحية الشكلية. تستخدم ثلاث دراسات [159 ، 160 ، 161] شبكات ANN مدربة على سطوع السطح وملامح الضوء لتصنيف المجرات على أنها E / S0 و Sabc و Sd / Irr. تطبيق آخر [162] يستخدم تحليل فورييه على صور المجرات متبوعًا بشبكات ANN لاكتشاف الأعمدة وتعيين أنواع T.

يستخدم Bazell & amp Aha [163] مجموعات من المصنفات ، بما في ذلك ANN و DT ، لتقليل خطأ التصنيف ، ويدرس Bazell [164] أهمية العديد من سمات المدخلات المقاسة ، ووجد أنه لا توجد معلمة مقاسة واحدة تعيد إنتاج التصنيفات بالكامل. كرة وآخرون. [165] الحصول على نتائج مماثلة لنعيم وآخرون. [155] ، ولكن تم تحديثها لـ SDSS. كرة وآخرون. [166] و Ball و Loveday & amp Brunner [167] تستخدم هذه التصنيفات في دراسات دالة اللمعان ثنائي المتغير وعلاقة التشكل والكثافة في SDSS ، وهي أول دراسات من هذا القبيل تستخدم كلًا من مسح السماء الرقمي بهذا الحجم وأنواع هابل التفصيلية .

بسبب الطبيعة المعقدة لمورفولوجيا المجرة والعدد الكبير من الأساليب المتاحة ، يوجد عدد كبير من الدراسات الإضافية: أظهر كيلي وأمبير مكاي [168] (الشكل 6) تحسنًا عبر الانقسام البسيط في ش-ص باستخدام نماذج الخليط ، ضمن مخطط يتضمن مورفولوجيا. سيرا ريكارت وآخرون. [169] استخدم برنامج التشفير ANN لتقليل أبعاد مجموعات البيانات المختلفة وتنفيذ العديد من التطبيقات ، بما في ذلك التشكل. استخدم Adams & amp Woolley [170] لجنة من شبكات ANN في ترتيب "شلال" ، حيث شكل ناتج شبكة ANN مدخلاً إلى آخر مما ينتج فئات أكثر تفصيلاً ، مما يحسن نتائجها. يستخدم Molinari & amp Smareglia [171] SOM لتحديد المجرات E / S0 في عناقيد وقياس وظيفة لمعانها. de Theije & amp Katgert [172] انقسام E / S0 والمجرات الحلزونية باستخدام المكونات الأساسية الطيفية ودراسة حركتها في مجموعات. تم استخدام الخوارزميات الجينية [173 ، 174] لاختيار السمات ولتطوير الشبكات العصبية الاصطناعية لتصنيف المجرات "المنحنية المزدوجة" في بيانات المسح الراديوي الأولى [175]. يجمع علم التشكل الراديوي بين النواة المدمجة للمجرة الراديوية والنفاثات الطويلة للغاية. وهكذا ، فإن التشكل المزدوج المنحني يشير إلى وجود مجموعة مجرات. تجمع de la Calleja & amp Fuentes [176] بين مجموعات ANN والانحدار المرجح محليًا. بعد ANN ، يستخدم Spiekermann [177] الجبر الضبابي والطرق الاستدلالية ، متوقعًا أهمية الدراسات الاحتمالية (القسم 4.1) التي بدأت للتو في الظهور. يستخدم أوينز وجريفيث وأمبير راتناتونجا [178] DTs منحرفًا ، ويحصلون على نتائج مماثلة لـ ANN. يميز Zhang و Li و amp Zhao [179] الأنواع المبكرة والمتأخرة باستخدام k-mean clustering. تم استخدام أجهزة SVM مؤخرًا في مسح COSMOS الذي أجرته شركة Huertas-Company وآخرون. [50 ، 180] ، مما يتيح الفصل المبكر المتأخر إلى كAB = 22 ماج ضعف جودة نظام CAS. سيتم استخدام SVMs أيضًا على البيانات من القمر الصناعي Gaia [181].

في الآونة الأخيرة ، شعبية حديقة حيوان المجرة اتخذ المشروع [182] نهجًا بديلاً للتصنيف الصرفي ، والتوظيف التعهيد الجماعي: تم توفير تطبيق عبر الإنترنت تمكن فيه أفراد الجمهور من مشاهدة الصور من SDSS وتعيين التصنيفات وفقًا لمخطط محدد. كان المشروع ناجحًا للغاية ، وفي فترة ستة أشهر ، قدم أكثر من 100000 شخص أكثر من 40 مليون تصنيف لعينة من 893،212 مجرة ​​، معظمها إلى عمق محدود يبلغ ص = 17.77 ماج. تضمنت التصنيفات فئات لم يتم تعيينها مسبقًا في دراسات التنقيب عن البيانات الفلكية ، مثل الحافة أو استخدام الأذرع الحلزونية ، وقد أنتج المشروع نتائج علمية متعددة. يمثل هذا النهج نهجًا تكميليًا للخوارزميات الآلية ، لأنه على الرغم من أن البشر يمكنهم رؤية أشياء ستفوتها الخوارزمية وستكون عرضة لأخطاء منهجية مختلفة ، فإن وقت التشغيل يكون أطول بشكل كبير: سينتج ANN المدربة نفس التصنيف البالغ 40 مليونًا في بضع دقائق ، بدلاً من ستة أشهر.

يتم تحديد العديد من الخصائص الفيزيائية ، وبالتالي التصنيف ، للمجرة من خلال عدد النجوم. لذلك فإن طيف المجرة هو طريقة أخرى للتصنيف [183 ، 184] ، ويمكن أن ينتج أحيانًا رابطًا أوضح للفيزياء الأساسية من التشكل. التصنيف الطيفي مهم لأنه من الممكن لمجموعة من الأنواع المورفولوجية أن يكون لها نفس النوع الطيفي ، والعكس صحيح ، لأن الأنواع الطيفية مدفوعة بعمليات فيزيائية أساسية مختلفة.

استخدمت العديد من الدراسات [185 ، 186 ، 187 ، 188] الأنيسول الخماسي الكلور مباشرة للتصنيف الطيفي. غالبًا ما يستخدم PCA أيضًا كخطوة معالجة مسبقة قبل تصنيف الأنواع الطيفية باستخدام ANN [189]. يتنبأ فولكس ، لاهاف وأمب مادوكس [190] بالأنواع المورفولوجية لمسح الانزياح الأحمر لمجرة المجرة 2dF (2dFGRS) [191] باستخدام الأطياف والكرة وآخرون. [165] يتنبأ مباشرة بالأنواع الطيفية في SDSS باستخدام ANN. سلونيم وآخرون. [192] استخدم نهج عنق الزجاجة للمعلومات على أطياف 2dFGRS ، والذي يحافظ إلى أقصى حد على المعلومات الطيفية للعدد المطلوب من الفئات. لو وآخرون. [193] استخدام التعلم الجماعي لـ ICA على مكونات أطياف المجرات. عبدالله وآخرون. [194] استخدم ANN والانحدار الموزون محليًا للتنبؤ مباشرة بخصائص خط الانبعاث من القياس الضوئي.

طبق Bazell & amp Miller [82] طريقة شبه خاضعة للإشراف مناسبة لاكتشاف الصنف باستخدام شبكات ANN في كتالوجات ESO-LV [195] وإصدار البيانات المبكر SDSS (EDR). ووجدوا أن تقليل أخطاء التصنيف بنسبة تصل إلى 57٪ كان ممكنًا مقارنةً بشبكات ANN الخاضعة للإشراف البحت. يمثل أكبر الكتالوجات ، SDSS EDR ، مجموعة بيانات أولية حول 6 ٪ من إصدار البيانات النهائية لـ SDSS ، مما يشير بوضوح إلى الإمكانات غير المستغلة لهذا النهج. يشبه النهج شبه الخاضع للإشراف أيضًا نهج القالب التجريبي الهجين للانزياح الأحمر الضوئي (القسم 3.2) ، حيث يسعى كلاهما إلى استخدام مجموعة تدريب موجودة حيثما كانت متاحة حتى لو لم تمتد على مساحة المعلمة بأكملها. ومع ذلك ، فإن النهج الذي يستخدمه Bazell & amp Miller أكثر عمومية ، لأنه يسمح بإضافة فئات جديدة من الكائنات ، في حين أن النهج المختلط يمكنه فقط تكرار القوالب الموجودة.

معظم الإشعاع الكهرومغناطيسي المنبعث في الكون إما من النجوم أو الأقراص التراكمية المحيطة بالثقوب السوداء الهائلة في نوى المجرة النشطة (AGN). هذه الظاهرة الأخيرة مثيرة بشكل خاص في حالة الكوازارات ، حيث يمكن للضوء القادم من المنطقة الوسطى أن يضيء بقية المجرة. نظرًا لأنه يُعتقد أن الثقوب السوداء فائقة الكتلة موجودة في كل مكان إلى حد ما في المجرات الكبيرة ، ويمكن أن يتأثر تأجيجها ، وبالتالي سطوعها الداخلي ، بالبيئة المحيطة بالمجرة المضيفة ، فإن الكوازارات وغيرها من النوى المجرية النشطة مهمة لفهم تكوين وتطور البنية في الكون.

The selection of quasars and other AGN from an astronomical survey is a well-known and important problem, and one well suited to a data mining approach. It is well-known that different wavebands (X-ray, optical, radio) will select different AGN, and that no one waveband can select them all. Traditionally, AGN are classified on the Baldwin-Phillips-Terlevich diagram [196], in which sources are plotted on the two-dimensional space of the emission line ratios [O III] 5007 / H and [N II] / H, that is separated by a single curved line into star-forming and AGN regions. Data mining not only improves on this by allowing a more refined or higher dimensional separation, but also by including passive objects in the same framework (Fig. 7). This allows for the probability that an object contains an AGN to be calculated, and does not require all (or any) of the emission lines to be detected.

Several groups have used ANNs [197, 198, 199] or DTs [200, 201, 126, 202, 203, 204, 205] to select quasar candidates from surveys. أبيض وآخرون. [200] show that the DT method improves the reliability of the selection to 85% compared to only 60% for simpler criteria. Other algorithms employed include PCA [206], SVM and learning vector quantization [207], kd-tree [208], clustering in the form of principal surfaces and negative entropy clustering [209], and kernel density estimation [210]. Many of these papers combine multiwavelength data, particularly X-ray, optical, and radio.

Similarly, one can select and classify candidates of all types of AGN [211]. If multiwavelength data are available, the characteristic data mining algorithm ability to form a model of the required complexity to extract the information could enable it to use the full information to extract more complete AGN samples. More generally, one can classify both normal and active galaxies in one system, differentiating between star formation and AGN. As one example, DTs have been used [126] to select quasar candidates in the SDSS, providing the probabilities P(star, galaxy, quasar). P(star formation, AGN) could be supplied in a similar framework. Bamford وآخرون. [212] combine mixture modeling and regression to perform non-parametric mixture regression, and is the first study to obtain such components and then study them versus environment. The components are passive, star-forming, and two types of AGN.

Often, the first component of classification is the actual process of object detection, which often is done at some signal-to-noise threshold. Several statistical data mining algorithms have been employed, and software packages written, for this purpose, including the Faint Object Classification and Analysis System (FOCAS) [213], DAOPHOT [214], Source Extractor (SExtractor) [215], maximum likelihood, wavelets, ICA [216], mixture models [217], and ANNs [121]. Serra-Ricart وآخرون. [218] show that ANNs are able to classify faint objects as well as a Bayesian classifier but with considerable computational speedup.

Several studies are more general than star-galaxy separation or galaxy classification, and assign classifications of varying detail to a broad range of astrophysical objects. Goebel وآخرون. [219] apply the AutoClass Bayesian classifier to the IRAS LRS atlas, finding new and scientifically interesting object classes. McGlynn وآخرون. [220] use oblique DTs in a system called ClassX to classify X-ray objects into stars, white dwarfs, X-ray binaries, galaxies, AGN, and clusters of galaxies, concluding that the system has the potential to significantly increase the known populations of some rare object types. Suchkov, Hanisch & Margon [201] use the same system to classify objects in the SDSS. Bazell, Miller & Subbarao [221] apply semi-supervised learning to SDSS spectra, including those classified as `unknown', finding two classes of objects consisting of over 50% unknown.

Stellar classifications are necessarily either spectral or based on color, due to the pointlike nature of the source. This field has a long history and well established results such as the HR diagram and the OBAFGKM spectral sequence. The latter is extended to a two-dimensional system of spectral type and luminosity classes I-V to form the two-dimensional MK classification system of Morgan, Keenan & Kellman [222]. Class I are supergiants, through to class V, dwarfs, or main-sequence stars. The spectral types correspond to the hottest and most massive stars, O, through to the coolest and least massive, M, and each class is subdivided into ten subclasses 0-9. Thus, the MK classification of the sun is G2V.

The use of automated algorithms to assign MK classes is analogous to that for assigning Hubble types to galaxies in several ways: before automated algorithms, stellar spectra were compared by eye to standard examples the MK system is closely correlated to the underlying physics, but is ultimately based on observable quantities the system works quite well but has been extended in numerous ways to incorporate objects that do not fit the main classes (e.g., L and T dwarfs, Wolf-Rayet stars, carbon stars, white dwarfs, and so on). Two differences from galaxy classification are the number of input parameters, in this case spectral indices, and the number of classes. In MK classification the numbers are generally higher, of order 50 or more input parameters, compared to of order 10 for galaxies.

Given a large body of work for galaxies that has involved the use of artificial neural networks, and the similarities just outlined, it is not surprising that similar approaches have been employed for stellar classification [223, 224, 225, 226, 227, 228], with a typical accuracy of one spectral type and half a luminosity type. The relatively large number of object attributes and output classes compared to the number of objects in each class does not invalidate the approach, because the efforts described generally find that the number of principal components represented by the inputs is typically much lower. A well-known property of neural networks is that they are robust to a large number of redundant attributes (Section 2.4.5).

Neural networks have been used for other stellar classifications schemes, e.g. Gupta وآخرون. [229] define 17 classes for IRAS sources, including planetary nebulae and HII regions. Other methods have been employed a recent example is Manteiga وآخرون. [230], who use a fuzzy logic knowledge-based system with a hierarchical tree of decision rules. Beyond the MK and other static classifications, variable stars have been extensively studied for many years, e.g., Wozniak وآخرون. [231] use SVM to distinguish Mira variables.

The detection and characterization of supernovae is important for both understanding the astrophysics of these events, and their use as standard candles in constraining aspects of cosmology such as the dark energy equation of state. Bailey وآخرون. [232] use boosted DTs, random forests, and SVMs to classify supernovae in difference images, finding a ten times reduction in the false-positive rate compared to standard techniques involving parameter thresholds (Fig. 8).

Given the general nature of the data mining approach, there are many further classification examples, including cosmic ray hits [39, 233], planetary nebulae [234], asteroids [235], and gamma ray sources [236, 237].

An area of astrophysics that has greatly increased in popularity in the last few years is the estimation of redshifts from photometric data (photo-ضs). This is because, although the distances are less accurate than those obtained with spectra, the sheer number of objects with photometric measurements can often make up for the reduction in individual accuracy by suppressing the statistical noise of an ensemble calculation.

Photo-zs were first demonstrated in the mid 20th century [238, 239], and later in the 1980s [240, 241]. In the 1990s, the advent of the Hubble Space Telescope Deep fields resulted in numerous approaches [242, 243, 244, 245, 246, 247, 248], reviewed by Koo [249]. In the past decade, the advent of wide-field CCD surveys and multifiber spectroscopy have revolutionized the study of photo-ضs to the point where they are indispensable for the upcoming next generation surveys, and a large number of studies have been made.

The two common approaches to photo-ضs are the template method and the empirical training set method. The template approach has many complicating issues [250], including calibration, zero-points, priors, multiwavelength performance (e.g., poor in the mid-infrared), and difficulty handling missing or incomplete training data. We focus in this review on the empirical approach, as it is an implementation of supervised learning. In the future, it is likely that a hybrid method incorporating both templates and the empirical approach will be used, and that the use of full probability density functions will become increasingly important. For many applications, knowing the error distribution in the redshifts is at least as important as the accuracy of the redshifts themselves, further motivating the calculation of PDFs.

At low redshifts, the calculation of photometric redshifts for normal galaxies is quite straightforward due to the break in the typical galaxy spectrum at 4000A. Thus, as a galaxy is redshifted with increasing distance, the color (measured as a difference in magnitudes) changes relatively smoothly. As a result, both template and empirical photo-ض approaches obtain similar results, a root-mean-square deviation of

0.02 in redshift, which is close to the best possible result given the intrinsic spread in the properties [251]. This has been shown with ANNs [33, 165, 156, 252, 253, 254, 124, 255, 256, 257, 179], SVM [258, 259], DT [260], كNN [261], empirical polynomial relations [262, 251, 247, 263, 264, 265], numerous template-based studies, and several other methods. At higher redshifts, obtaining accurate results becomes more difficult because the 4000A break is shifted redward of the optical, galaxies are fainter and thus spectral data are sparser, and galaxies intrinsically evolve over time. The first explorations at higher redshift were the Hubble Deep Fields in the 1990s, described above (Section 3.2), and, more recently, new infrared data have become available, which allow the 4000A break to be seen to higher redshift, which improves the results. Template-based algorithms work well, provided suitable templates into the infrared are available, and supervised algorithms simply incorporate the new data and work in the same manner as previously described.

While supervised learning has been successfully used, beyond the spectral regime the obvious limitation arises that in order to reach the limiting magnitude of the photometric portions of surveys, extrapolation would be required. In this regime, or where only small training sets are available, template-based results can be used, but without spectral information, the templates themselves are being extrapolated. However, the extrapolation of the templates is being done in a more physically motivated manner. It is likely that the more general hybrid approach of using empirical data to iteratively improve the templates, [266, 267, 268, 269, 270, 271] or the semi-supervised method described in Section 2.4.3 will ultimately provide a more elegant solution. Another issue at higher redshift is that the available numbers of objects can become quite small (in the hundreds or fewer), thus reintroducing the curse of dimensionality by a simple lack of objects compared to measured wavebands. The methods of dimension reduction (Section 2.3) can help to mitigate this effect.

Historically, the calculation of photometric redshifts for quasars and other AGN has been even more difficult than for galaxies, because the spectra are dominated by bright but narrow emission lines, which in broad photometric passbands can dominate the color. The color-redshift relation of quasars is thus subject to several effects, including degeneracy, one emission line appearing like another at a different redshift, an emission line disappearing between survey filters, and reddening. In addition, the filter sets of surveys are generally designed for normal galaxies and not quasars. The assignment of these quasar photo-ضs is thus a complex problem that is amenable to data mining in a similar manner to the classification of AGN described in Section 3.1.4.

The calculation of quasar photo-ضs has had some success using SDSS data [272, 273, 274, 275, 276, 277], but they suffer from catastrophic failures, in which, as shown in Fig. 9, the photometric redshift for a subset of the objects is completely incorrect. However, data mining approaches have resulted in improvements to this situation. Ball وآخرون. [278] find that a single-neighbor كNN gives a similar result to the templates, but multiple neighbors, or other supervised algorithms such as DT or ANN, pull in the regions of catastrophic failure and significantly decrease the spread in the results. Kumar [279] also shows this effect. Ball وآخرون. [261] go further and are able to largely eliminate the catastrophics by selecting the subset of quasars with one peak in their redshift probability density function (Section 4.1), a result confirmed by Wolf [280]. Wolf وآخرون. [281] also show significant improvement using the COMBO-17 survey, which has 17 filters compared to the five of the SDSS, but unfortunately the photometric sample is much smaller.

Beyond the spectral regime, template-based results are sufficient [282], but again suffer from catastrophics. Given our physical understanding of the nature of quasars, it is in fact reasonable to extrapolate in magnitude when using colors as a training set, because while one is going to fainter magnitudes, one is not extrapolating in color. One could therefore quite reasonably assign empirical photo-ضs for a full photometric sample of quasars.

Typically in data mining, information gathered from spectra has formed the training set to apply a predictive technique to objects with photometry. However, it is clear from this process that the spectrum itself contains a large amount of information, and data mining techniques may be used directly on the spectra to extract information that might otherwise remain hidden. Applications to galaxy spectral classification were described in Section 3.1.3. In stellar work, besides the classification of stars into the MK system based on observable parameters, several studies have directly predicted physical parameters of stellar atmospheres using spectral indices. One example is Ramirez, Fuentes & Gulati [283], who utilize a genetic algorithm to select the appropriate input attributes, and predict the parameters using كNN. The attribute selection reduces run time and improves predictive accuracy. Solorio وآخرون. [284] use كNN to study stellar populations and improve the results by using active learning to populate sparse regions of parameter space, an alternative to dimension reduction.

Although it has much potential for the future (Section 4.2), the time domain is a field in which a lot of work has already been done. Examples include the classification of variable stars described in Section 3.1.5, and, in order of distance, the interaction of the solar wind and the Earth's atmosphere, transient lunar phenomena, detection and classification of asteroids and other solar system objects by composition and orbit, solar system planetary atmospheres, stellar proper motions, extrasolar planets, novae, stellar orbits around the supermassive black hole at the Galactic center, microlensing from massive compact halo objects, supernovae, gamma ray bursts, and quasar variability. A good overview is provided by Becker [285]. The large potential of the time domain for novel discovery lies within the as yet unexplored parameter space defined by depth, sky coverage, and temporal resolution [286]. One constraining characteristic of the most variable sources beyond the solar system is that they are generally point sources. As a result, the timescales of interest are constrained by the light crossing time for the source.

The analysis of the cosmic microwave background (CMB) is amenable to several techniques, including Bayesian modeling, wavelets, and ICA. The latter, in particular via the FastICA algorithm [216], has been used in removal of CMB foregrounds [287], and cluster detection via the Sunyaev-Zeldovich effect [288]. Phillips & Kogut [289] use a committee of ANNs for cosmological parameter estimation in CMB datasets, by training them to identify parameter values in Monte Carlo simulations. This gives unbiased parameter estimation in considerably less processing time than maximum likelihood, but with comparable accuracy.

One can use the fact that objects cross-matched between surveys will likely have correlated distributions in their measured attributes, for example, similar position on the sky, to improve cross-matching results using pattern classifiers. Rohde وآخرون. [290] combine distribution estimates and probabilistic classifiers to produce such an improvement, and supply probabilistic outputs.

Taylor & Diaz [291] obtain empirical fits for Galactic metallicity using ANNs, whose architectures are evolved using genetic algorithms. This method is able to provide equations for metallicity from line ratios, mitigating the `black box' element common to ANNs, and, in addition, is potentially able to identify new metallicity diagnostics.

Bogdanos & Nesseris [292] analyze Type Ia supernovae using genetic algorithms to extract constraints on the dark energy equation of state. This method is non-parametric, which minimizes bias from the necessarily a priori assumptions of parametric models.

Lunar and planetary science, space science, and solar physics also provide many examples of data mining uses. One example is Li وآخرون. [293], who demonstrate improvements in solar flare forecasting resulting from the use of a mixture of experts, in this case SVM and كNN. The analysis of the abundance of minerals or constituents in soil samples [294] using mixture models is another example of direct data mining of spectra.


Five new giant radio galaxies discovered

One of new GRGs described in the study. The figure shows radio-near infrared overlay of this source, using SDSS i-band image rather than WISE, given its better angular resolution. Credit: Tang et al., 2020

With the help of citizen scientists, astronomers have detected five new giant radio galaxies (GRGs). The new GRGs have sizes ranging from 2.3 to 2.6 million light years, and have been identified at redshift between 0.28 and 0.43. The finding is reported in a paper published September 8 on the arXiv pre-print server.

GRGs are radio galaxies with an overall projected linear length exceeding at least 2.28 million light years. They are rare objects grown in low-density environments. GRGs are important for astronomers to study the formation and the evolution of radio sources.

Now, a team of astronomers led by Hongming Tang of the University of Manchester, UK, reports the finding of five previously unknown GRGs. The detection is based on the Data Release 1 (DR1) of the Radio Galaxy Zoo (RGZ) citizen science project. RGZ DR1 is a manually cross-matched radio galaxy catalog using the efforts of more than 12,000 citizen scientist volunteers.

"In this paper, we present the identification of five previously unknown giant radio galaxies (GRGs) using Data Release 1 of the Radio Galaxy Zoo citizen science project and a selection method appropriate to the training and validation of deep-learning algorithms for new radio surveys," the astronomers wrote in the paper.

The newly identified GRGs are designated J0941+3126, J1331+2557, J1402+2442, J1421+1016 and J1646+3627. They all have comparatively high radio luminosities and are likely to be either elliptical or intermediate disk galaxies.

J1402+2442 (also known as B2 1400+24) is the largest out of the newly found GRGs. It has a redshift of approximately 0.337 and its host is a close pair of galaxies, designated SDSS J140224.25+244224.3 and SDSS J140224.31+244226.8. At a redshift of about 0.28, J0941+3126 (or B2 0938+31A) is the smallest GRG from the five reported in the study. This source is hosted by SDSS J094103.62+312618.7.

In the case of J1646+3627, a GRG with a size of at least 2.46 million light years, at a redshift of 0.43, the researchers found that this object is also the brightest cluster galaxy (BCG) in the galaxy cluster GMBCG J251.67741+36.45295. This finding motivated Tang's team to conduct further study of BCGs. They report that 13 previously known GRGs could be classified as BCG candidates. If confirmed, this would increase the number of known BCG GRGs by more than 60 percent.

The remaining two giant radio galaxies described in the study, namely J1331+2357 and J1421+1016, have sizes of about 2.62 and 2.49 million light years, respectively. J1331+2357 has a redshift of 0.33 and its host galaxy is identified as SDSS J133118.01+235700.4, while J1421+1016, at a redshift of 0.37, has a host galaxy known as SDSS J142142.68+101626.2.


What is in DR16?

    of galaxies, stars and quasars from the SDSS extended Baryon Oscillation Spectroscopic Survey (eBOSS) and prior optical spectroscopic programs. from the SDSS Apache Point Observatory Galaxy Evolution Experiment (APOGEE and APOGEE-2), including stellar abundance estimates for additional elements from the ASPCAP pipeline.
  • Data cubes and maps from integral field unit (IFU) spectroscopic observations of nearby galaxies from the SDSS Mapping Nearby Galaxies at APO (MaNGA) survey
  • Spectra of the MaNGA Stellar Library program (MaStar)
  • Legacy imaging from prior SDSS programs
  • A large selection of Value Added Catalogs (VACs) from current and previous surveys

The Expanding Universe

In two thousand years of astronomy, no one ever guessed that the universe might be expanding. To ancient Greek astronomers and philosophers, the universe was seen as the embodiment of perfection. The heavens were truly heavenly - unchanging, permanent, and geometrically perfect. In the early 1600s, Isaac Newton developed his law of gravity, showing that motion in the heavens could be explained using the same laws as motion on Earth.

However, Newton ran into trouble when he tried to apply his theory of gravity to the entire universe. Since gravity is always attractive, his law predicted that all the matter in the universe should eventually clump into one big ball. Newton knew this was not the case, and assumed that the universe had to be static, so he conjectured that the Creator placed the stars such that they were "at immense distances from one another."


Albert Einstein's Theory of Relativity is the basis for our cosmological models of space and time.

In 1916, Albert Einstein ran into the same problem that Newton did. Einstein had just completed his General Theory of Relativity, which explained gravity in a different way from Newton's law. Like Newton's theory, General Relativity predicted that the universe should be collapsing into a ball. Because Einstein assumed that the universe must be static, he added a constant term to his equations that counteracted gravity on very large distance scales. A few years later, someone pointed out that Einstein's equations had another solution in which the universe should be expanding, but Einstein continued to work with his constant term, believing the universe to be static.

Then, in 1924, Edwin Hubble of the Carnegie Observatories made a new map. He used a new telescope on California's Mount Wilson to observe a series of distant galaxies, and found that light from those galaxies was redshifted - that is, light waves were stretched out like sound waves from a passing siren. The further away the galaxy, Hubble found, the greater the redshift. Hubble's observation showed that the universe was expanding, meaning it had started at a single point called the big bang about fifteen billion years ago. When Einstein heard about Hubble's discovery, he realized that his equations predicted the expanding universe all along, and called his constant term his "biggest blunder." Today, the idea of the expanding universe is the basis for all of modern astronomy.


Using SDSS data / finding a catalog - Astronomy

Welcome to SkyServer! This site gives you access to all the data from the Sloan Digital Sky Survey (SDSS). Here, you will learn how to use exactly the same tools that professional astronomers use.

You are now viewing the catalog data from the Sloan Digital Sky Survey's Data Release 12. (link opens in a new window)

Use the links below, or the links to the left, to go to a help page:

Start Here

Start Here gives you a quick overview of SDSS catalog data, and how to use the data

Cooking with Sloan consists of guides for doing common tasks with SDSS catalog data

FAQ is frequently asked questions about the SDSS and its data

Guide to Searching for Data

SQL Tutorial is an introduction to Structured Query Language (SQL), its scientific uses, and its syntax

SQL in SkyServer contains more detailed information about SQL, including advice making your queries run fast

Sample SQL Queries are many real-life examples of useful SQL queries

Query Limits lists the timeouts and row limits in effect for the various query tools.

Searching advice provides some practical advice on how to search SDSS data

Important Reference Information

About the Database gives an overview of the catalog archive

Table Description provides a description of the database tables

Schema Browser shows you what data you can find in the database

قائمة المصطلحات is a list of terms used on the site and in the SDSS

Algorithms describes the SDSS's data reduction algorithms

Detailed Reference Information

SDSS Data Publications is a link to publications that describe the SDSS data in more detail

API contains information on how to programatically access some of the SDSS services

Help Desk

Contact Help Desk allows you to send an email to the SDSS Help Desk if you have a question or problem with the site


Using SDSS data / finding a catalog - Astronomy

It would seem that the calibrated observations obtained by the Sloan Digital Sky Survey (SDSS) by themselves would be, at best, marginally useful for the secure determination of asteroid rotation lightcurves, mostly due to the scarcity of data for a particular object in a given apparition as well as because of the sometimes low photometric quality of the SDSS data. Despite these shortcomings, it was decided to see if the SDSS data could be used to help find the lightcurve parameters of at least some asteroids. Observations of ten asteroids obtained by the SDSS are compared here with lightcurves obtained by asteroid photometric stations using dense data sets. Three asteroids observed during the same apparition as the SDSS observations served to determine the accuracy of the SDSS data. Except for occasional outliers identified on the basis of deviating color indices, the accuracy of the observations was found to be about 0.03 mag in the V band on average, which is a generally accepted level of quality for most asteroid photometry. In addition to the ten asteroids with known lightcurves, another 54 asteroids without known lightcurves, but with more than 20 observations by SDSS, were also examined to derive their absolute magnitudes (H) and plausible composite lightcurves. Lightcurve analyses of (12104) Chesley, (32257) 2000 OW 52 , (39132) 2000 WU 58 , (156751) 2002 XL 92 , (219686) 2001 WE 37 , 1992 WW 6 , and 2007 EP 39 are presented. The asteroids studied in this paper were found to be mostly fainter than predicted from the H values given by the Minor Planet Center in its Orbit Database. The difference between the H values slightly correlates with the lightcurve amplitude.


شاهد الفيديو: امازون السعودية التسجيل والبيع في امزون السعودي-منتجات ناجحة من امازون الامريكي امزسكاوت AMZscout (أغسطس 2022).