Python 语言用 Tornado+MongoDB 构建日志收集系统实时写入 + 聚合查询

使用 Tornado 和 MongoDB 构建日志收集系统

随着互联网技术的飞速发展，日志记录在系统监控、性能分析和故障排查中扮演着越来越重要的角色。一个高效的日志收集系统可以帮助开发者快速定位问题，提高系统的稳定性和可靠性。本文将介绍如何使用 Tornado 和 MongoDB 构建一个实时写入和聚合查询的日志收集系统。

系统设计

系统架构

本系统采用分布式架构，主要包括以下几个模块：

1. 日志采集器：负责从各个应用服务器收集日志。
2. 日志传输组件：负责将日志从采集器传输到 MongoDB。
3. MongoDB 数据库：存储所有收集到的日志数据。
4. 日志查询接口：提供日志数据的查询接口。

技术选型

- 日志采集器：Python
- 日志传输组件：Python + Tornado
- 数据库：MongoDB

实现步骤

1. 日志采集器

日志采集器可以使用 Python 的 `logging` 模块来实现。以下是一个简单的日志采集器示例：

python import logging


 配置日志格式

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 模拟日志生成

def log_generator():

    while True:

        logging.info("This is a log message")

        time.sleep(1)

if __name__ == "__main__": log_generator()

2. 日志传输组件

日志传输组件负责将日志从采集器传输到 MongoDB。这里我们使用 Tornado 库来实现异步日志传输。

需要安装 Tornado 库：

bash pip install tornado

然后，创建一个 Tornado 的 HTTP 服务器，用于接收日志数据：

python import tornado.ioloop import tornado.web import tornado.httpclient import json


class LogHandler(tornado.web.RequestHandler):

    def post(self):

        log_data = json.loads(self.request.body.decode())

        self.write("Log received")

        self.write("")

        self.write(json.dumps(log_data))
def main():

    app = tornado.web.Application([

        (r"/log", LogHandler),

    ])

    app.listen(8888)

    tornado.ioloop.IOLoop.current().start()

if __name__ == "__main__": main()

3. MongoDB 数据库

接下来，我们需要在 MongoDB 中创建一个集合来存储日志数据。以下是一个简单的 MongoDB 集合创建示例：

python from pymongo import MongoClient


client = MongoClient('localhost', 27017)

db = client['log_database']

collection = db['logs']

插入日志数据 collection.insert_one({"asctime": "2021-01-01 00:00:00", "levelname": "INFO", "message": "This is a log message"})

4. 日志查询接口

我们需要提供一个日志查询接口，以便用户可以查询 MongoDB 中的日志数据。以下是一个简单的日志查询接口示例：

python import tornado.ioloop import tornado.web import pymongo


class QueryHandler(tornado.web.RequestHandler):

    def get(self):

        query = self.get_argument("query", "")

        client = pymongo.MongoClient('localhost', 27017)

        db = client['log_database']

        collection = db['logs']

        results = collection.find({"message": {"$regex": query}})

        self.write(json.dumps([result for result in results]))
def main():

    app = tornado.web.Application([

        (r"/query", QueryHandler),

    ])

    app.listen(8889)

    tornado.ioloop.IOLoop.current().start()

if __name__ == "__main__": main()

实时写入和聚合查询

实时写入

为了实现实时写入，我们需要修改日志采集器，使其能够将日志数据发送到 Tornado 服务器。以下是修改后的日志采集器代码：

python import logging import requests


 配置日志格式

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 模拟日志生成并发送

def log_generator():

    while True:

        logging.info("This is a log message")

        log_data = {

            "asctime": logging.Formatter('%(asctime)s').format(logging.LogRecord("INFO", "INFO", "", 0, "This is a log message", None, None)),

            "levelname": "INFO",

            "message": "This is a log message"

        }

        requests.post("http://localhost:8888/log", json=log_data)

        time.sleep(1)

if __name__ == "__main__": log_generator()

聚合查询

为了实现聚合查询，我们可以使用 MongoDB 的聚合管道。以下是一个简单的聚合查询示例：

python from pymongo import MongoClient


client = MongoClient('localhost', 27017)

db = client['log_database']

collection = db['logs']
 聚合查询：按日志级别分组并计算每个级别的日志数量

pipeline = [

    {"$group": {"_id": "$levelname", "count": {"$sum": 1}}},

    {"$sort": {"count": -1}}

]

results = collection.aggregate(pipeline) for result in results: print(f"Level: {result['_id']}, Count: {result['count']}")

总结

本文介绍了如何使用 Tornado 和 MongoDB 构建一个实时写入和聚合查询的日志收集系统。通过以上步骤，我们可以实现一个高效、可靠的日志收集系统，帮助开发者更好地监控和优化系统性能。在实际应用中，可以根据需求对系统进行扩展和优化。

Python 语言用 Tornado+MongoDB 构建日志收集系统实时写入 + 聚合查询

Raku 语言正则表达式的字符类取反 [^a z] 匹配非小写字母

Raku 语言正则表达式的零长度断言正向 / 反向先行 / 后行断言

Comments NOTHING

取消回复

Raku 语言 正则表达式的字符类取反 [^a z] 匹配非小写字母

Raku 语言 正则表达式的零长度断言 正向 / 反向先行 / 后行断言

Comments NOTHING

取消回复

Raku 语言正则表达式的字符类取反 [^a z] 匹配非小写字母

Raku 语言正则表达式的零长度断言正向 / 反向先行 / 后行断言