DBpedia


 • DBpedia คือพยายามของชุมชนที่จะดึงข้อมูลจากวิกิพีเดียที่มีโครงสร้างและเพื่อให้ข้อมูลเหล่านี้ที่มีอยู่บนเว็บ
 • DBpedia ช่วยให้คุณสามารถที่จะขอคำสั่งที่มีความซับซ้อนกับวิกิพีเดียและเพื่อเชื่อมโยงข้อมูลอื่น ๆ ชุดบนเว็บวิกิพีเดียข้อมูล

 • กึ่งโครงสร้างมาร์กอัปวิกิพีเดีย -> ข้อมูลที่มีโครงสร้าง
 • เป้าหมายร่วมกันกับ WikiData แต่วิธีการที่แตกต่างกัน
DBpedia เป็นโครงการชุมชนโปรดดู http://dbpedia.org สำหรับรายการเต็มรูปแบบของผู้ให้

ข้อ จำกัด ของวิกิพีเดีย

คำถามง่ายๆ - ยากที่จะตอบด้วยวิกิพีเดีย:

 • มีอะไรอินส์บรุไลพ์ซิกกัน?
 • นายกเทศมนตรีของเมืองกลางยุโรปมีใครสูงกว่า 1000m?
 • ซึ่งภาพยนตร์ที่นำแสดงโดยทั้ง Brad Pitt และ Angelina Jolie?
 • ผู้เล่นฟุตบอลที่เล่นเป็นผู้รักษาประตูให้กับสโมสรที่มีสนามกีฬาที่มีมากกว่า 40.000 ที่นั่งและที่กำลังเกิดขึ้นในประเทศที่มีมากกว่า 10 ล้านคนที่อาศัยอยู่

(เพิ่มเติมเกี่ยวกับเรื่องนี้ในภายหลัง)

โครงสร้างในวิกิพีเดีย

 • ชื่อเรื่อง
 • นามธรรม
 • infoboxes
 • ภูมิศาสตร์พิกัด
 • หมวดหมู่
 • รูปภาพ
 • ลิงค์
  • รุ่นภาษาอื่น
  • หน้าวิกิพีเดียอื่น ๆ
  • ไปยังเว็บ
  • การเปลี่ยนเส้นทาง
  • เพิ่มความชัดเจน
 • ...

DBpedia กรอบการสกัดข้อมูล

DBpedia ข้อมูลการสกัดกรอบ (ขโมย)

 • เริ่มต้นในปี 2007
 • โฮสต์บน Sourceforge และ Github
 • แรกเขียนใน PHP แต่อย่างเต็มที่อีก writtten เขียนใน Scala & Java
 • รอบ 40 ร่วม
 • ดู https://www.ohloh.net/p/dbpedia สำหรับรายละเอียดภาพรวม

ที่อาจเกิดขึ้นสามารถนำไปปรับใช้ MediaWikis อื่น ๆ

Dief - ภาพรวม

Dief - Input / วจีวิภาค

อินพุต

 • หน้าวิกิพีเดียจะถูกอ่านจากแหล่งภายนอก
 • หน้าก็จะสามารถอ่านได้จาก
  • การถ่ายโอนข้อมูลวิกิพีเดีย / กิ
  • การติดตั้งโดยใช้มีเดียวิกิมีเดียวิกิ API
วจีวิภาค
 • แต่ละหน้าวิกิพีเดียจะแยกโดย parser วิกิพีเดีย
 • หน้าวิกิพีเดียกลายเป็นต้นไม้ไวยากรณ์บทคัดย่อ

Dief - สกัด / Serialization

สกัด

 • DBpedia มีสกัดเพื่อวัตถุประสงค์ที่แตกต่างกันเช่นการดึงป้ายบทคัดย่อหรือพิกัดทางภูมิศาสตร์
 • ต้นไม้ไวยากรณ์บทคัดย่อของแต่ละหน้าวิกิพีเดียจะถูกส่งไปสกัด
 • แยกแต่ละสิ้นเปลืองต้นไม้ไวยากรณ์บทคัดย่อและผลตอบแทนถัวเฉลี่ยกราฟของงบ RDF

การทำให้เป็นอันดับ

 • งบที่เก็บ RDF จะถูกเขียนลงในอ่างล้างจาน
 • รูปแบบที่แตกต่างกันเช่นยังไม่มีอเนกประสงค์, ล่าม, เต่า, JSON ได้รับการสนับสนุน

Dief - สกัด

สกัดคุณลักษณะ
 • เชี่ยวชาญในการสกัดคุณลักษณะเดียวจากบทความ
 • บทคัดย่อเช่นป้ายพิกัดประเภทแม่แบบ ...
 • ฐานข้อมูล: เบอร์ลิน rdfs: ฉลาก "เบอร์ลิน"
  ฐานข้อมูล: dc โอลิเวอร์ทวิ: DB เรื่อง: หมวดหมู่: นวนิยายภาษาอังกฤษ

กล่อง สกัด

 • ดิบแยกกล่องข้อมูล
 • การทำแผนที่ที่ใช้สารสกัดจากกล่องข้อมูล

Dief - ดิบกล่องแยก

ไวยากรณ์ WikiText
{{กล่องข้อมูลการตั้งถิ่นฐานเกาหลี
| ชื่อ = เมืองปูซานเมโทรโพลิแทน
อังกูล = 부산광역시 |
...
| area_km2 = 763.46
| ป๊อป = 3635389
| ภูมิภาค = [[Yeongnam]]
}}

อนุกรม RDF
DBP ที่: ปูซาน DBP: ชื่อ "ปูซานเมโทรโพลิแทนซิตี"
DBP ที่: ปูซาน DBP: อังกูล "부산광역시" @ แขวน
DBP ที่: ปูซาน DBP: area_km2 "763.46" ^ XSD: ลอย
DBP ที่: ปูซาน DBP: ป๊อป "3635389" ^ XSD: int
DBP ที่: ปูซาน DBP: ภูมิภาค DBP: Yeongnam

Dief - กล่องข้อมูลดิบแยก / ความหลากหลาย

Dief - กล่องข้อมูลดิบแยก / ความหลากหลาย

Dief - ดิบกล่องแยก

 • วิธีการที่ตรงไปตรงมาและครอบคลุมขนาดใหญ่
 • ที่ไม่สอดคล้องกันในการตั้งชื่อสถานที่ให้บริการ
  • infoboxes ที่แตกต่างกันอาจจะมีการตั้งชื่อแตกต่างกันสำหรับความหมายเหมือนกัน (เช่นเกิด VS birth_date VS วันเกิด)
 • ที่ไม่สอดคล้องกันในสถานที่ให้บริการประเภทข้อมูล
  • ประเภทข้อมูลจะถูกคำนวณต่อเช่นในลักษณะโลภ

Dief-mapping ตามแยกกล่องข้อมูล

ความหมายที่ถูกต้อง:

 • รวมเป็นอะไรกัน (birth_place บ้านเกิด)
 • แยกสิ่งที่แตกต่างกัน (bornIn บ้านเกิด)
 • เพิ่มขนาดใหญ่สำหรับ / Precision Recall
แมปของวิกิพีเดีย:
 • http://mappings.dbpedia.org/
 • ทุกคนสามารถมีส่วนร่วมในการแมปใหม่หรือปรับปรุงที่มีอยู่
 • ~ 170 บรรณาธิการ

Dief-mapping ตามแยกกล่องข้อมูล

แผนการ URI / IRI

http:// dbpedia.org {lang.} เป็นโดเมนหลัก

สำหรับทุกบทความที่มีอยู่ทรัพยากร DBpedia ในรูปแบบ:
dbpedia.org TTP :/ / {lang.} ทรัพยากร / {} ArticleName /

คุณสมบัติจากกล่องข้อมูลดิบแยกใช้ dbpedia.org http:// {lang.} / สถานที่ / namespace

อภิปรัชญาเป็นระดับโลกสำหรับทุกภาษาและภายใต้
namespace http://dbpedia.org/ontology/

หมายเหตุ: ที่สำหรับภาษาอังกฤษรหัสภาษาไม่ถูกนำมาใช้

 • http://dbpedia.org เป็นโดเมนหลัก
 • http://dbpedia.org/resource/ {title} สำหรับบทความ
 • http://dbpedia.org/property/ {title} สำหรับคุณสมบัติ

ทิ้ง RDF

DBpedia มี 2 โหมดการสกัด:

 • DBpedia คู่ที่ผลการสกัดปรับปรุงโดยตรงปลายทาง SPARQL (เพิ่มเติมว่าภายหลัง)
 • การถ่ายโอนข้อมูลตามผลการสกัดต่อเนื่องที่ RDF ผลจะถูกโหลดเข้าไปในร้านต่อมาสาม

ทิ้ง DBpedia

ปลายทาง SPARQL

 • เซิร์ฟเวอร์อัจฉริยะจะถูกใช้เป็นที่เก็บสามสำหรับภาษาอังกฤษ DBpedia
 • ปลายทาง SPARQL เป็น http://dbpedia.org/sparql
  • โฮสติ้งที่ให้บริการโดย OpenLink
 • ไม่ทั้งหมดทิ้ง RDF จะถูกโหลด

การตอบคำถาม (1/2)

กลับไปที่คำถามที่วิกิพีเดียของเรา:

 • มีอะไรอินส์บรุไลพ์ซิกกัน?
 • นายกเทศมนตรีของเมืองกลางยุโรปมีใครสูงกว่า 1000m?
 • ซึ่งภาพยนตร์ที่นำแสดงโดยทั้ง Brad Pitt และ Angelina Jolie?
 • ผู้เล่นฟุตบอลที่เล่นเป็นผู้รักษาประตูให้กับสโมสรที่มีสนามกีฬาที่มีมากกว่า 40.000 ที่นั่งและที่กำลังเกิดขึ้นในประเทศที่มีมากกว่า 10 ล้านคนที่อาศัยอยู่

โดยใช้ข้อมูลที่สกัดจากวิกิพีเดียและประชาชนปลายทาง DBpedia SPARQL สามารถตอบคำถามเหล่านี้

การตอบคำถาม (2/2)

ผู้เล่นฟุตบอลที่เล่นเป็นผู้รักษาประตูให้กับสโมสรที่มีสนามกีฬาที่มีมากกว่า 40.000 ที่นั่งและที่กำลังเกิดขึ้นในประเทศที่มีมากกว่า 10 ล้านคนที่อาศัยอยู่

สด DBpedia

 • ทิ้ง DBpedia ถูกสร้างขึ้นบนพื้นฐานประจำปี
 • วิกิพีเดียมีประมาณ 100,000 - 150,000 หน้าแก้ไขต่อวัน
 • DBpedia สดดึงหน้าการปรับปรุงในผลเรียลไทม์และการสกัดปรับปรุงเก็บสาม
 • ในทางปฏิบัติล่าช้าปรับปรุง 5 นาทีเพิ่มประสิทธิภาพการทำงานโดย 15%

ลิงค์

 • ปลายทาง SPARQL: http://live.dbpedia.org/sparql
 • เอกสาร: http://wiki.dbpedia.org/DBpediaLive
 • สถิติ: http://live.dbpedia.org/LiveStats/

DBpedia สด - ภาพรวม

DBpedia สด - ส่วนประกอบ

 • วิกิพีเดียท้อ​​งถิ่นกระจก (เพื่อให้สามารถเกินขีด จำกัด การเข้าถึง)
 • วิกิพีเดียการทำแผนที่เป็น input
  • การเปลี่ยนแปลงในการทำแผนที่อาจส่งผลกระทบต่อหลายหน้า
 • ผู้จัดการสกัด: จับฟีดวิกิพีเดียและการทำแผนที่และปรับปรุงเก็บสาม
  • หน้ายังไม่แปรกว่าเดือนมีการปรับปรุงยัง
 • เครื่องมือซิงค์: เผยแพร่การปรับปรุงเพื่อให้ up-to-date กระจก DBpedia สด
 • ข้อมูลจะถูกแยกในกราฟแยกต่างหาก

DBpedia สากล (i18n)

 • DBpedia สากลคณะกรรมการก่อตั้ง:
  • http://wiki.dbpedia.org/Internationalization
 • มี DBpedia ฉบับภาษา:
  • เกาหลี, กรีก, เยอรมัน, โปแลนด์, รัสเซีย, ดัตช์, โปรตุเกส, สเปน, อิตาลี, ญี่ปุ่น, ฝรั่งเศส
  • ใช้ที่สอดคล้องกันฉบับที่วิกิพีเดียภาษาสำหรับการป้อนข้อมูล
 • แมปสำหรับภาษา 23

DBpedia i18n - ภาพรวม

หมายเหตุ / ความชัดเจน Entity

จดจำชื่อเอ็นทิตี้และ disambiguation

เครื่องมือเช่น DBpedia Spotlight , AlchemyAPI , ความหมายของ API , เปิดกาเลส์ , Zemanta และ Apache Stanbol

การตอบคำถาม

ค้นหาและสอบถาม


ดิจิตอลห้องสมุดและคลังเก็บ

 • เสมือนนานาชาติผู้มีอำนาจไฟล์ (VIAF) โครงการเป็นข้อมูลที่เชื่อมโยง
 • DBpedia ยังสามารถให้:
  • ข้อมูลบริบทสำหรับบรรณานุกรมและบันทึกเก็บถาวร (เช่นกลุ่มผู้เข้าชมของผู้เขียน, หน้าแรกของภาพยนตร์, ภาพ ฯลฯ )
  • ตัวบ่งชี้ที่มีเสถียรภาพและ curated สำหรับการเชื่อมโยง
  • ช่วงกว้างของหัวข้อที่วิกิพีเดียสามารถสร้างพื้นฐานสำหรับพจนานุกรมสำหรับการทำดัชนีเรื่อง

มือถือ DBpedia

DBpedia มือถือเป็นสถานที่ที่เป็นศูนย์กลางของโปรแกรมประยุกต์ของไคลเอ็นต์ DBpedia สำหรับอุปกรณ์เคลื่อนที่ที่ประกอบด้วยมุมมองแผนที่, Marbles เชื่อมโยงข้อมูลเบราว์เซอร์ และการประยุกต์ใช้ตัวที่ใช้งาน GPS


วิกิพจนานุกรม DBpedia

 • วิกิพจนานุกรมเป็นโครงการที่วิกิพีเดีย: http://wiktionary.org
  • 171 ภาษาคำ 3M สำหรับภาษาอังกฤษ
 • สกัดใช้กรอบ DBpedia สกัดข้อมูล
 • ได้อย่างง่ายดายกำหนดสำหรับรุ่นทุกภาษาวิกิพจนานุกรม
  • การกำหนดค่าล่วงหน้าสำหรับเยอรมัน, กรีก, อังกฤษ, รัสเซียและฝรั่งเศส
  • http://Wiktionary.dbpedia.org
  • 100 อเนกประสงค์ milion
  • แบบมะนาว

โปรแกรมอื่น ๆ

ดู http://wiki.dbpedia.org/Applications สำหรับรายการที่สมบูรณ์